KR102091312B1 - 고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제 - Google Patents

고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제 Download PDF

Info

Publication number
KR102091312B1
KR102091312B1 KR1020177034336A KR20177034336A KR102091312B1 KR 102091312 B1 KR102091312 B1 KR 102091312B1 KR 1020177034336 A KR1020177034336 A KR 1020177034336A KR 20177034336 A KR20177034336 A KR 20177034336A KR 102091312 B1 KR102091312 B1 KR 102091312B1
Authority
KR
South Korea
Prior art keywords
umi
sequence
physical
adapter
umis
Prior art date
Application number
KR1020177034336A
Other languages
English (en)
Other versions
KR20180020137A (ko
Inventor
샌터 그어
병석 정
엠라흐 코스템
알렉스 애라배니스
알렉스 소
수유 차이
지홍 장
프랭크 제이. 스티머스
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=55910388&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR102091312(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20180020137A publication Critical patent/KR20180020137A/ko
Application granted granted Critical
Publication of KR102091312B1 publication Critical patent/KR102091312B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/119Double strand sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

개시된 실시형태들은 낮은 대립유전자 빈도 및 긴 서열 길이를 가지는 서열을 포함하여, 개별적인 폴리뉴클레오타이드 단편들과 독특하게 회합할 수 있는 고유 분자 색인(UMI) 서열을 사용하여 관심 대상 서열을 측정하기 위한 방법, 장치, 시스템 및 컴퓨터 프로그램 제품에 관련된다. 일부 구현예에서, UMI는 예컨대 Y형상 어댑터를 이용해서 도입된 물리적(외인성) UMI 및 서열분석될 DNA 단편에 존재하는 실제(내인성) UMI를 둘 다 포함한다. 일부 구현예에서, 고유 분자 색인 서열은 비-무작위 서열을 포함한다. 개시된 방법을 실행하여 관심 대상 서열을 측정하기 위한 시스템, 장치 및 컴퓨터 프로그램 제품이 또한 제공된다.

Description

고유 분자 색인(UMI)을 갖는 용장성 판독을 사용하는 서열분석된 DNA 단편의 오류 억제
관련 출원에 대한 교차 참고
본 출원은 2015년 4월 28일자로 출원된 미국 가특허 출원 제62/153,699호(대리인 문서 번호 ILMNP008P), 2015년 7월 16일자로 출원된 미국 가특허 출원 제62/193,469호(대리인 문서 번호 ILMNP008P2) 및 2015년 12월 18일자로 출원된 미국 가특허 출원 제62/269,485호(대리인 문서 번호 ILMNP008P3)에 대한 35 U.S.C. §119(e) 하의 유익을 주장하며, 상기 출원들은 모든 목적에 대해 전체 내용이 본 명세서에 참고로 포함된다.
서열 목록
본 출원은 ASCII 포맷으로 전자 제출되고 본 명세서에 전체 내용이 참조로 포함되는 서열 목록을 수록한다. 2016년 4월 20일자로 생성된 상기 ASCII 복사본은 ILMNP008WO_ST25.txt로 명명되고 크기가 1164 바이트이다.
차세대 서열분석 기술은 점점 더 고속의 서열분석을 제공하여, 더 큰 서열분석 깊이를 허용한다. 그러나, 서열분석 정확성 및 민감성은 다양한 공급원으로부터의 오류 및 노이즈, 예컨대 샘플 결함, 라이브러리 제조 중의 PCR, 풍부화, 클러스터링 및 서열분석에 의해 영향을 받기 때문에, 서열분석의 깊이를 증가시키는 것 단독으로는, 예컨대 모체 혈장의 태아 세포-유리 DNA(fetal cell-free DNA: cfDNA), 순환 종양 DNA(circulating tumor DNA: ctDNA), 병원체에서의 하위-클론성 돌연변이에서 매우 낮은 대립유전자 빈도의 서열의 검출을 보장할 수 없다. 그러므로, 소량 및/또는 낮은 대립유전자 빈도에서의 DNA 분자의 서열을 측정하는 한편 다양한 오류 근원으로 인한 서열분석 부정확성을 억제하는 방법을 개발하는 것이 바람직하다.
개시된 구현예들은 고유 분자 색인(unique molecular index: UMI)을 사용하여 핵산 단편의 서열을 측정하기 위한 방법, 장치, 시스템 및 컴퓨터 프로그램 제품에 관련된다. 다양한 구현예에서, 서열분석 방법은 핵산 단편의 두 가닥으로부터 핵산 단편의 서열을 측정한다. 일부 구현예에서, 방법은 서열분석 어댑터의 하나 또는 두 가닥에 위치한 물리적 UMI를 사용한다. 일부 구현예에서, 방법은 또한 핵산 단편의 양 가닥에 위치한 실제(virtual) UMI를 사용한다.
개시의 한 측면은 고유 분자 색인(UMI)을 사용하여 샘플로부터 핵산 분자를 서열분석하는 방법에 관련된다. 각각의 고유 분자 색인(UMI)은 샘플 중의 이중-가닥 DNA 단편의 개별적인 분자를 확인하기 위해 사용될 수 있는 올리고뉴클레오타이드 서열이다. 방법은 (a) 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용하고 그로써 DNA-어댑터 생성물을 얻는 단계(이때 어댑터는 각각 어댑터의 한 가닥 또는 각각의 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암(arm), 단일-가닥 3' 아암 및 물리적 UMI를 포함함); (b) DNA-어댑터 생성물의 두 가닥을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 각각이 물리적 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독들과 연계된 복수의 물리적 UMI를 확인하는 단계; (e) 복수의 판독과 연계된 복수의 실제 UMI를 확인하는 단계(이때 각 실제 UMI는 샘플 중의 DNA 단편에서 발견되는 서열임); 및 (f) (c)에서 얻어진 복수의 판독, (d)에서 확인된 복수의 물리적 UMI 및 (e)에서 확인된 복수의 실제 UMI를 사용하여 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함한다. 일부 구현예에서, 방법은 (i) 샘플 중의 하나 이상의 이중-가닥 DNA 단편의 각각에 대해, (1) 5'에서 3' 방향으로 제1 물리적 UMI 및 적어도 하나의 실제 UMI를 가지는 판독들 및 (2) 5'에서 3' 방향으로 제2 물리적 UMI 및 적어도 하나의 실제 UMI를 가지는 판독들을 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및 (ii) 샘플 중의 하나 이상의 이중-가닥 DNA 단편의 각각에 대하여, 공통 뉴클레오타이드 서열을 사용하여 서열을 측정하는 단계를 포함하는 작동 (f)를 포함한다.
일부 구현예에서, 복수의 물리적 UMI는 무작위 UMI를 포함한다. 일부 구현예에서, 복수의 물리적 UMI는 비무작위 UMI를 포함한다. 일부 구현예에서, 모든 비무작위 UMI는 어댑터의 모든 다른 비무작위 UMI와 비무작위 UMI의 해당하는 서열 위치에서 적어도 2개의 뉴클레오타이드가 상이하다. 일부 구현예에서, 복수의 물리적 UMI는 약 10,000, 약 1,000, 약 500 또는 약 100개 이하의 고유 비무작위 UMI를 포함한다. 일부 구현예에서, 복수의 물리적 UMI는 약 96개의 고유 비무작위 UMI를 포함한다.
상기 방법의 일부 구현예에서, 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용하는 단계는 이중 가닥의 DNA 단편의 양 단부에 어댑터를 결찰시키는 것을 포함한다. 일부 구현예에서, 작동 (f)는 공동 물리적(common physical) UMI 및 공동 실제(common virtual) UMI를 공유하는 판독들을 사용하여 샘플의 DNA 단편의 서열을 측정하는 것을 포함한다.
상기 방법의 일부 구현예에서, 복수의 물리적 UMI는 12개보다 적은 뉴클레오타이드를 포함한다. 일부 구현예에서, 복수의 UMI는 6개 이하의 뉴클레오타이드를 포함한다. 일부 구현예에서, 복수의 UMI는 4개 이하의 뉴클레오타이드를 포함한다.
일부 구현예에서, 어댑터는 각각 이중-가닥 혼성화 영역에서 어댑터의 각 가닥에 물리적 UMI를 포함한다. 일부 구현예에서, 물리적 UMI는 이중-가닥 혼성화 영역의 한 단부에 있고, 이중-가닥 혼성화 영역의 상기 단부는 3' 아암 또는 5' 아암과는 반대쪽이거나, 또는 이중-가닥 혼성화 영역의 상기 단부로부터 떨어져 있는 하나의 뉴클레오타이드이다. 일부 구현예에서, 어댑터는 각각 물리적 UMI에 인접한 이중-가닥 혼성화 영역에 5'-TGG-3' 트라이뉴클레오타이드 또는 3'-ACC-5' 트라이뉴클레오타이드를 포함한다. 일부 구현예에서, 어댑터는 각각 이중-가닥 혼성화 영역의 각 가닥에 판독 프라이머 서열을 포함한다.
일부 구현예에서, 어댑터는 각각 단일-가닥 5' 아암 또는 단일-가닥 3' 아암에 있는 어댑터의 단지 하나의 가닥에 물리적 UMI를 포함한다. 이들 구현예의 일부에서, (f)는 (i) 동일한 제1 물리적 UMI를 가지는 판독들을 제1 그룹으로 붕괴시켜 (collapsing) 제1 공통 뉴클레오타이드 서열을 얻는 단계; (ii) 동일한 제2 물리적 UMI를 가지는 판독들을 제2 그룹으로 붕괴시켜 제2 공통 뉴클레오타이드 서열을 얻는 단계; 및 (iii) 제1 및 제2 공통 뉴클레오타이드 서열을 사용하여, 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다. 일부 구현예에서, (iii)은 (1) 제1 및 제2 공통 뉴클레오타이드 서열의 위치측정 정보(localization information) 및 서열 정보를 사용하여, 제3 공통 뉴클레오타이드 서열을 얻는 단계 및 (2) 제3 공통 뉴클레오타이드 서열을 사용하여, 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다. 일부 구현예에서, 작동 (e)는 복수의 실제 UMI를 확인하는 단계를 포함하는 한편, 어댑터는 각각 단일-가닥 5' 아암 영역 또는 단일-가닥 3' 아암 영역에서 어댑터의 단지 한 가닥에만 물리적 UMI를 포함한다. 일부 구현예에서, (f)는 (i) 5'에서 3' 방향으로 제1 물리적 UMI 및 적어도 하나의 실제 UMI를 가지는 판독들을 5'에서 3' 방향으로 제2 물리적 UMI 및 적어도 하나의 실제 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및 (ii) 공통 뉴클레오타이드 서열을 사용하여 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 어댑터는 각각 어댑터의 이중-가닥 영역에서 어댑터의 각 가닥에 물리적 UMI를 포함하고, 한 가닥의 물리적 UMI는 다른 가닥의 물리적 UMI에 상보적이다. 일부 구현예에서, 작동 (f)는 (i) 5'에서 3' 방향으로 제1 물리적 UMI, 적어도 하나의 실제 UMI 및 제2 물리적 UMI를 가지는 판독들을 5'에서 3' 방향으로 제2 물리적 UMI, 적어도 하나의 실제 UMI 및 제1 물리적 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및 (ii) 공통 뉴클레오타이드 서열을 사용하여 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 어댑터는 각각 어댑터의 3' 아암에 제1 물리적 UMI 및 어댑터의 5' 아암에 제2 물리적 UMI를 포함하고, 이때 제1 물리적 UMI 및 제2 물리적 UMI는 서로 상보적이지 않다. 그런 구현예의 일부에서, (f)는 (i) 5'에서 3' 방향으로 제1 물리적 UMI, 적어도 하나의 실제 UMI 및 제2 물리적 UMI를 가지는 판독들을 5'에서 3' 방향으로 제3 물리적 UMI, 적어도 하나의 실제 UMI 및 제4 물리적 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및 (ii) 공통 뉴클레오타이드 서열을 사용하여 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 실제 UMI의 적어도 일부는 샘플 중의 이중-가닥 DNA 단편의 단부에 또는 부근에 있는 하위서열들로부터 유도된다.
일부 구현예에서, 하나 이상의 물리적 UMI 및/또는 하나 이상의 실제 UMI는 샘플 중의 이중-가닥 DNA 단편과 독특하게 연계된다.
일부 구현예에서, 샘플 중의 이중-가닥 DNA 단편은 약 1,000개 이상의 DNA 단편을 포함한다.
일부 구현예에서, 복수의 실제 UMI는 약 6 bp 내지 약 24 bp의 UMI를 포함한다. 일부 구현예에서, 복수의 실제 UMI는 약 6 bp 내지 약 10 bp의 UMI를 포함한다.
상기 방법의 일부 구현예에서, 작동 (c)에서 복수의 판독을 얻는 단계는 증폭된 폴리뉴클레오타이드의 각각으로부터 2개의 쌍-단부 판독을 얻는 단계를 포함하고, 2개의 쌍-단부 판독은 긴 판독과 짧은 판독을 포함하며, 긴 판독은 짧은 판독보다 더 길다. 이들 구현예의 일부에서, 작동 (f)는 제1 물리적 UMI와 연계된 판독 쌍을 제1 그룹으로 조합하고 제2 물리적 UMI와 연계된 판독 쌍을 제2 그룹으로 조합하는 단계, 이때 제1 및 제2 물리적 UMI는 샘플 중의 이중-가닥 단편과 독특하게 연계되며; 및 제1 그룹의 긴 판독의 서열 정보 및 제2 그룹의 긴 판독의 서열 정보를 사용하여 샘플 중의 이중-가닥 단편의 서열을 측정하는 단계를 포함한다. 일부 구현예에서, 긴 판독은 약 500 bp 이상의 판독 길이를 가진다. 일부 구현예에서, 짧은 판독은 약 50 bp 이하의 판독 길이를 가진다.
일부 구현예에서, 방법은 다음의 작동 중 하나 이상에서 발생하는 오류를 억제한다: PCR, 라이브러리 제조, 클러스터링 및 서열분석.
일부 구현예에서, 증폭된 폴리뉴클레오타이드는 약 1%보다 적은 대립유전자 빈도를 가지는 대립유전자를 포함한다.
일부 구현예에서, 증폭된 폴리뉴클레오타이드는 종양으로부터 기원하는 세포 유리 DNA 분자를 포함하고, 대립유전자는 종양을 나타낸다.
일부 구현예에서, 복수의 증폭된 폴리뉴클레오타이드를 서열분석하는 것은 적어도 약 100 bp를 가지는 판독들을 얻는 것을 포함한다.
본 개시의 다른 측면은 샘플로부터 핵산 분자를 서열분석하는 방법에 관련되며, 방법은 (a) 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 부착시키는 단계(이때 어댑터는 각각 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암, 및 단일-가닥 5' 아암 또는 단일-가닥 3' 아암에 물리적 고유 분자 색인(UMI)을 포함함); (b) (a)로부터의 결찰 생성물의 두 가닥을 증폭시킴으로써 복수의 단일-가닥의, 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 각각이 물리적 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독과 연계된 복수의 물리적 UMI를 확인하는 단계; 및 (e) (c)에서 얻어진 복수의 서열 및 (d)에서 확인된 복수의 물리적 UMI를 사용하여 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함한다.
본 개시의 추가의 측면은 샘플로부터 핵산 분자를 서열분석하는 방법에 관련된다. 그 방법은 (a) 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 부착시키는 단계(이때 어댑터는 각각 어댑터의 한 가닥 또는 각 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 12 뉴클레오타이드보다 짧은 물리적 고유 분자 색인(UMI)을 포함함); (b) (a)로부터의 결찰 생성물의 양 가닥을 증폭시킴으로써, 각각이 물리적 UMI를 포함하는 복수의 단일-가닥의, 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써, 각각이 물리적 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독과 연계된 복수의 물리적 UMI를 확인하는 단계; 및 (e) (c)에서 얻어진 복수의 판독 및 (d)에서 확인된 복수의 물리적 UMI를 사용하여 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함한다.
본 개시의 다른 측면은 각 가닥에 물리적 UMI를 가지는 듀플렉스 서열분석 어댑터를 제조하는 방법에 관련된다. 그 방법은 이중-가닥 혼성화 영역, 2개의 단일-가닥 아암, 및 2개의 단일 가닥 아암으로부터 멀리 떨어져 있는 이중-가닥 혼성화 영역의 단부에서 5'-CCANNNNANNNNTGG-3'을 포함하는 돌출부를 포함하는 예비 서열분석 어댑터를 제공하는 단계; 주형으로서 돌출부를 사용하여 이중-가닥 혼성화 영역의 한 가닥을 연장시킴으로써 연장 생성물을 제조하는 단계; 및 연장 생성물의 이중-가닥 단부를 소화시키기 위해 제한 효소 Xcm1을 적용함으로써 각 가닥에 물리적 UMI를 가지는 듀플렉스 서열분석 어댑터를 제조하는 단계를 포함한다. 일부 구현예에서, 예비 서열분석 어댑터는 각 가닥에 판독 프라이머 서열을 포함한다.
본 개시의 추가의 측면은 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 고유 분자 색인(UMI)을 사용하여 샘플 중의 관심 대상 서열의 서열 정보를 측정하는 방법을 실행하는 것을 유발하는 비-일시적 기계 판독 가능한 매체 저장 프로그램 코드를 포함하는 컴퓨터 프로그램 제품에 관련된다. 그 프로그램 코드는 (a) 복수의 증폭된 폴리뉴클레오타이드의 판독을 얻기 위한 코드(여기서 복수의 증폭된 폴리뉴클레오타이드는 관심 대상 서열을 포함하여 샘플 중의 이중-가닥 DNA 단편을 증폭하고 이중-가닥 DNA 단편에 어댑터를 부착시킴으로써 얻어짐); (b) 복수의 증폭된 폴리뉴클레오타이드의 판독에서 복수의 물리적 UMI를 확인하기 위한 코드(여기서 각각의 물리적 UMI는 이중-가닥 DNA 단편의 하나에 부착된 어댑터에서 발견됨); (c) 복수의 증폭된 폴리뉴클레오타이드의 수령된 판독에서 복수의 실제 UMI를 확인하기 위한 코드(여기서 각각의 실제 UMI는 이중-가닥 DNA 단편 중 하나의 단편의 개별 분자에서 발견됨); 및 (d) 복수의 증폭된 폴리뉴클레오타이드의 판독, 복수의 물리적 UMI 및 복수의 실제 UMI를 사용하여 이중-가닥 DNA 단편의 서열을 측정함으로써, 이중-가닥 DNA 단편의 측정된 서열의 오류를 감소시키기 위한 코드를 포함한다. 일부 구현예에서, 어댑터는 각각 어댑터의 한 가닥 또는 각각의 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 물리적 고유 분자 색인(UMI)을 포함한다.
일부 구현예에서, 이중-가닥 DNA 단편의 서열을 측정하기 위한 코드는 (i) 제1 공통 뉴클레오타이드 서열을 얻기 위해 동일한 제1 물리적 UMI를 가지는 판독을 제1 그룹으로 붕괴하기 위한 코드; (ii) 제2 공통 뉴클레오타이드 서열을 얻기 위해 동일한 제2 물리적 UMI를 가지는 판독을 제2 그룹으로 붕괴하기 위한 코드; 및 (iii) 제1 및 제2 공통 뉴클레오타이드 서열을 사용하여, 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하기 위한 코드를 포함한다.
일부 구현예에서, 이중-가닥 DNA 단편의 서열을 측정하기 위한 코드는 (i) 5'에서 3' 방향으로 제1 물리적 UMI, 적어도 하나의 실제 UMI 및 제2 물리적 UMI를 가지는 서열 판독을 5'에서 3' 방향으로 제2 물리적 UMI, 적어도 하나의 실제 UMI 및 제1 물리적 UMI를 가지는 서열 판독과 조합시켜서 공통 뉴클레오타이드 서열을 측정하기 위한 코드; 및 (ii) 공통 뉴클레오타이드 서열을 사용하여 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하기 위한 코드를 포함한다.
개시의 추가의 측면은 하나 이상의 프로세서; 시스템 메모리; 및 하나 이상의 컴퓨터-판독 가능한 저장 매체를 포함하는 컴퓨터 시스템에 관련된다. 매체 위에는 컴퓨터 시스템이 샘플 중의 이중-가닥 DNA 단편의 개별 분자들을 확인하기 위해 사용될 수 있는 올리고뉴클레오타이드 서열인 고유 분자 색인(UMI)을 사용하여 샘플 중의 관심 대상 서열의 서열 정보를 측정하기 위한 방법을 실행하도록 유발하는 컴퓨터-실행 가능한 지시가 저장된다. 지시는 (a) 복수의 증폭된 폴리뉴클레오타이드의 판독을 수령하는 단계(여기서 복수의 증폭된 폴리뉴클레오타이드는 관심 대상 서열을 포함하는 샘플 중의 이중-가닥 DNA 단편을 증폭시키고 이중-가닥 DNA 단편에 어댑터를 부착함으로써 얻어짐); (b) 복수의 증폭된 폴리뉴클레오타이드의 수령된 판독에서 복수의 물리적 UMI를 확인하는 단계(여기서 각각의 물리적 UMI는 이중-가닥 DNA 단편 중 하나에 부착된 어댑터에서 발견됨); (c) 복수의 증폭된 폴리뉴클레오타이드의 수령된 판독들에서 복수의 실제 UMI를 확인하는 단계(여기서 각각의 실제 UMI는 이중-가닥 DNA 단편 중 하나의 단편의 개별 분자에서 발견됨); 및 (d) 복수의 증폭된 폴리뉴클레오타이드의 서열, 복수의 물리적 UMI 및 복수의 실제 UMI를 사용하여 이중-가닥 DNA 단편의 서열을 측정함으로써 이중-가닥 DNA 단편의 측정된 서열의 오류를 감소시키는 단계를 포함한다.
일부 구현예에서, 이중-가닥 DNA 단편의 서열을 측정하는 단계는 (i) 동일한 제1 물리적 UMI를 가지는 판독들을 제1 그룹으로 붕괴시켜 제1 공통 뉴클레오타이드 서열을 얻는 단계; (ii) 동일한 제2 물리적 UMI를 가지는 판독들을 제2 그룹으로 붕괴시켜 제2 공통 뉴클레오타이드 서열을 얻는 단계; 및 (iii) 제1 및 제2 공통 뉴클레오타이드 서열을 사용하여, 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 이중-가닥 DNA 단편의 서열을 측정하는 단계는 (i) 5'에서 3' 방향으로 제1 물리적 UMI, 적어도 하나의 실제 UMI 및 제2 물리적 UMI를 가지는 판독들을 5'에서 3' 방향으로 제2 물리적 UMI, 적어도 하나의 실제 UMI 및 제1 물리적 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및 (ii) 공통 뉴클레오타이드 서열을 사용하여 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함한다.
개시의 한 측면은 비무작위 고유 분자 색인(UMI)을 사용하여 샘플로부터 핵산 분자를 서열분석하기 위한 방법을 제공한다. 그 방법은 (a) 샘플 중의 DNA 단편의 양 단부에 어댑터를 적용함으로써 DNA-어댑터 생성물을 얻는 단계(이때 어댑터는 각각 어댑터의 한 가닥 또는 각각의 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 고유 분자 색인(UMI)을 포함함); (b) DNA-어댑터 생성물을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 복수의 비무작위 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독으로부터 공동 비무작위(common nonrandom) UMI를 공유하는 판독들을 확인하는 단계; 및 (e) 공동 비무작위 UMI를 공유하는 것으로 확인된 판독들로부터, 샘플로부터, 공동 비무작위 UMI를 가지는 적용된 어댑터를 가지는 DNA 단편의 적어도 일부의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 방법은 공동 비무작위 UMI를 공유하는 판독들로부터, 공동 비무작위 UMI 및 공동 판독 위치(common read position)를 공유하는 판독들을 선택하는 단계를 더 포함하고, (e)에서 DNA 단편의 서열을 측정하는 것은 참조 서열에서 공동 비무작위 UMI 및 공동 판독 위치 둘 다를 공유하는 판독만을 사용한다. 일부 구현예에서, 모든 비무작위 UMI는 모든 다른 비무작위 UMI와 비무작위 UMI의 해당 서열 위치들에서 적어도 2개의 뉴클레오타이드가 상이하다.
개시의 또 다른 측면은 비무작위 고유 분자 색인(UMI)을 사용하여 샘플로부터 핵산 서열 분자를 서열분석하는 방법에 관련된다. 일부 구현예에서, 방법은 (a) 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용함으로써 DNA-어댑터 생성물을 얻는 단계(이때 어댑터는 각각 어댑터의 한 가닥 또는 각각의 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 고유 분자 색인(UMI)을 포함하고, 비무작위 UMI는 이중-가닥 DNA 단편의 개별적인 분자를 독특하게 확인하기 위해 다른 정보와 조합될 수 있음); (b) DNA-어댑터 생성물을의 양 가닥을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 각각이 비무작위 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독과 연계된 복수의 비무작위 UMI를 확인하는 단계; 및 (e) 복수의 판독 및 복수의 비무작위 UMI를 사용하여 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하기 위해 복수의 판독 및 복수의 비무작위 UMI를 사용하는 것은 공동 비무작위 UMI를 공유하는 판독들을 확인하고, 그 확인된 판독들을 사용하여 샘플 중의 DNA 단편의 서열을 측정하는 것을 포함한다. 일부 구현예에서, 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하기 위해 복수의 판독 및 복수의 비무작위 UMI를 사용하는 것은 공동 비무작위 UMI 및 공동 판독 위치를 공유하는 판독들을 확인하고, 그 확인된 판독들을 사용하여 샘플 중의 DNA 단편의 서열을 측정하는 것을 포함한다.
일부 구현예에서, 복수의 판독 및 복수의 비무작위 UMI를 사용하여 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하는 단계는 공동 비무작위 UMI 및 공동 실제 UMI를 공유하는 판독들을 확인하는 단계, 이때 공동 실제 UMI는 샘플의 DNA 단편에서 발견되고; 및 확인된 판독들을 사용하여 샘플 중의 DNA 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 복수의 판독 및 복수의 비무작위 UMI를 사용하여 샘플 중의 이중-가닥 DNA 단편의 서열을 측정하는 단계는 공동 비무작위 UMI, 공동 판독 위치 및 공동 실제 UMI를 공유하는 판독들을 확인하는 단계, 이때 공동 실제 UMI는 샘플의 DNA 단편에서 발견되고; 및 확인된 판독들을 사용하여 샘플 중의 DNA 단편의 서열을 측정하는 단계를 포함한다.
일부 구현예에서, 모든 비무작위 UMI는 어댑터의 모든 다른 비무작위 UMI와 그 비무작위 UMI의 해당 서열 위치에서 적어도 2개의 뉴클레오타이드가 상이하다. 일부 구현예에서, 어댑터는 각각 이중-가닥 혼성화 영역에서 어댑터의 각 가닥에 물리적 UMI를 포함한다. 일부 구현예에서, 복수의 비무작위 UMI는 약 10,000, 약 1,000 또는 약 100개 이하의 고유 비무작위 UMI를 포함한다. 일부 구현예에서, 복수의 비무작위 UMI는 약 96개의 고유 비무작위 UMI를 포함한다.
일부 구현예에서, 복수의 판독은 각각 비무작위 UMI를 포함한다. 일부 구현예에서, 복수의 판독은 각각 비무작위 UMI를 포함하거나 또는 쌍-단부 판독을 통해 비무작위 UMI와 연계된다. 일부 구현예에서, 복수의 증폭된 폴리뉴클레오타이드는 각각 한 단부에 비무작위 UMI를 가지거나 제1 단부에 제1 비무작위 UMI 및 제2 단부에 제2 비무작위 UMI를 가진다.
개시된 방법들을 실행하여 DNA 단편 서열을 측정하기 위한 시스템, 장치 및 컴퓨터 프로그램 제품들이 또한 제공된다.
개시의 한 측면은 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 고유 분자 색인(UMI)을 사용하여 샘플 중의 관심 대상 서열의 서열 정보를 측정하는 방법을 실행하는 것을 유발하는 비-일시적 기계 판독 가능한 매체 저장 프로그램 코드를 포함하는 컴퓨터 프로그램 제품을 제공한다. 프로그램 코드는 상기 방법들을 수행하기 위한 지시를 포함한다.
비록 인간 및 언어와 관련된 본원의 실시예가 주로 인간 관심사를 향해 있긴 하지만, 본 명세서에 기술된 개념들은 임의의 바이러스로부터의 핵산, 식물, 동물 또는 다른 유기체, 및 그것들의 집단(메타게놈, 바이러스 집단 등)에도 적용될 수 있다. 본 개시의 이들 및 다른 특징들은 도면을 참조하여 다음의 설명으로부터, 그리고 첨부된 청구범위로부터 보다 전체적으로 드러날 것이고, 또는 이하에 설명되는 개시의 실시에 의해 학습될 수 있다.
참고에 의한 포함
본 명세서에 언급된 이들 참고문헌 내에서 개시된 모든 서열을 포함하여 모든 특허, 특허 출원 및 다른 공보물들은 각각의 개별적인 공보물, 특허 또는 특허 출원이 구체적으로 그리고 개별적으로 참조로 포함되는 것을 나타내는 것과 같은 정도로 본원에서 분명하게 참조로 포함된다. 인용된 모든 문헌은, 부분적으로 관련되었어도, 인용된 맥락에 의해 나타난 목적에 대해 그것의 전체 내용이 참조로 본 명세서에 포함된다. 그러나, 임의의 문헌의 인용은 그것이 본 개시와 관련하여 선행 기술임을 인정하는 것으로 해석되지 않아야 한다.
도 1a는 핵산 단편의 서열에 대한 UMI를 사용하는 실례 작업흐름을 예시하는 흐름도이다.
도 1b는 도 1a에 도시된 작업흐름의 초기 단계들에서 사용된 DNA 단편/분자 및 어댑터를 도시한다.
도 2a는 다양한 구현예에서 채택될 수 있는 5가지 상이한 어댑터 디자인을 개략적으로 도시한다.
도 2b는 UMI 점핑이 2개의 아암에 2개의 물리적 UMI를 가지는 어댑터를 포함하는 PCR 반응에서 일어나는 가상의 프로세스를 도시한다.
도 2c는 이중-가닥 영역에서 어댑터의 양 가닥에 UMI를 가지는 어댑터의 제조 방법을 도시하며, 그 방법은 제한 효소 Xcm1에 대한 인식 서열로서 15-량체 서열(서열번호 1)을 사용한다.
도 2d는 P7 아암 상부 가닥(서열번호 2) 및 P5 아암 하부 가닥(서열번호 3)을 가지는 어댑터의 다이아그램을 도시한다.
도 2e는 서열분석 프로세스 중에 UMI 서열에서 일어나는 오류를 검출하기 위한 메커니즘을 제공하는 비무작위 UMI 디자인을 개략적으로 도시한다.
도 3a 및 도 3b는 본 명세서에 개시된 일부 방법에 따르는 이중 가닥 단편에 어댑터를 결찰시키는 물질 및 반응 생성물을 보여주는 다이아그램이다.
도 4a 내지 도 4e는 본 명세서에 개시된 방법들이 이중 가닥 DNA 단편의 서열을 측정함에 있어 오류의 상이한 공급원들을 억제할 수 있는 방법을 도시한다.
도 5는 긴 쌍 단부 판독들을 효과적으로 얻기 위해 물리적 UMI 및 실제 UMI를 적용하는 것을 개략적으로 도시한다.
도 6은 시험 샘플을 프로세싱하기 위한 분산된 시스템의 블록 다이아그램이다.
도 7a 및 도 7b는 본 명세서에 개시된 방법들을 사용하여 오류 억제의 효과를 증명하는 실험 데이터를 도시한다.
도 8은 판독들을 붕괴하기 위해 위치 정보(position information)를 단독으로 사용하는 것이 실제로 상이한 근원 분자로부터 유도되는 판독들을 붕괴하는 경향이 있음을 나타내는 데이터를 도시한다.
도 9는 판독들을 붕괴하기 위하여 비무작위 UMI 및 위치 정보를 사용하는 것이 위치 정보를 단독으로 사용하는 것보다 더 정확한 단편의 추정을 제공할 수 있음을 보여주는 실험 데이터를 도표로 도시한다.
도 10은 무작위 UMI로 프로세싱된 세 가지 샘플에서 일어나는 상이한 오류를 표 형태로 도시한다.
도 11a는 두 가지 상이한 도구: VarScan 및 Denovo로 두 가지 붕괴 방법을 사용하여 gDNA 샘플에서 체세포 돌연변이와 CNV로 불리는 민감성 및 선택성을 도시한다.
도 11b 내지 도 11d는 두 가지 상이한 도구: VarScan 및 Denovo로 두 가지 붕괴 방법을 사용하여 증가하는 샘플 입력을 가지는 세 가지 cfDNA 샘플에서 체세포 돌연변이와 CNV로 불리는 선택성(즉 잘못된 양성율)을 도시한다.
개시는 핵산, 특히 제한된 양 또는 저농도의 핵산, 예컨대 모체 혈청의 태아 cfDNA 또는 암환자 혈액의 순환 종양 DNA (ctDNA)의 서열분석을 위한 방법, 장치, 시스템 및 컴퓨터 프로그램 제품에 관련된다.
다르게 표시되지 않는 한, 본 명세서에 개시된 방법 및 시스템의 실시는 기술분야의 숙련된 기술 내에 있는 분자 생물학, 미생물학, 단백질 정제, 단백질 엔지니어링, 단백질 및 DNA 서열분석 및 재조합 DNA 분야에서 통상적으로 사용되는 종래의 기법들 및 장치를 포함한다. 그런 기법들 및 장치는 기술분야의 숙련자들에게 알려져 있고 많은 교재 및 참고 작업에서 기술된다(예컨대 문헌[Sambrook et al., "Molecular Cloning: A Laboratory Manual," Third Edition (Cold Spring Harbor), [2001]] 참조).
숫자 범위는 그 범위를 규정하는 수들을 포함한다. 본 명세서 전체에서 제시되는 모든 최대 수치 한계는 모든 하한 수치를, 그런 하한 수치가 본원에서 분명하게 쓰여있는 것처럼, 포함하는 것으로 의도된다. 본 명세서 전체에서 제시되는 모든 최소 수치 한계는 모든 상한 수치를, 그런 상한 수치가 본원에서 분명하게 쓰여있는 것처럼, 포함하는 것으로 의도된다. 본 명세서 전체에서 제시된 모든 수치 범위는 더 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위를, 그런 더 좁은 수치 범위가 모두 본 명세서에 분명하게 쓰여있는 것처럼, 포함할 것이다.
본 명세서에 제시된 머리말은 개시를 제한하는 것으로 의도되지 않는다.
본원에서 다르게 규정되지 않는 한, 본원에서 사용되는 모든 기술적이고 과학적인 용어들은 기술분야에 통상의 지식을 가진 자가 통상적으로 이해하는 것과 동일한 의미를 가진다. 본 명세서에 포함된 용어들을 포함하는 다양한 과학적 딕셔너리는 잘 알려져 있고 기술분야의 용어들에 이용될 수 있다. 비록 본 명세서에 개시된 것들과 유사하거나 동일한 임의의 방법 및 물질이 본 명세서에 개시된 실시형태들의 실시 또는 시험에 사용될 수 있지만, 일부 방법 및 물질이 기술된다.
직후에 규정되는 용어들은 전체적으로 명세서를 참조로 더 완전하게 기술된다. 본 개시는 기술된 특정 방법, 프로토콜 및 시약들이 기술분야의 숙련자들에 의해 사용되는 맥락에 따라 달라질 수 있기 때문에, 그것들에 한정되지 않는 것이 인지되어야 한다.
정의
본원에서 사용되는 단일 형태를 나타내는 용어들은 맥락이 분명하게 다르게 나타내지 않는 한 복수의 대상물을 포함한다.
다르게 표시되지 않는 한, 핵산은 5'에서 3' 방향으로 좌측에서 우측으로, 아미노산 서열은 아미노에서 카르복시 방향으로 좌측에서 우측으로 각각 쓰여진다.
고유 분자 색인(UMI)은 개별 DNA 분자들을 서로 구별하기 위해 사용될 수 있는 DNA 분자에서 적용된 또는 확인된 뉴클레오타이드의 서열이다. UMI가 DNA 분자를 확인하기 위해 사용되기 때문에, 그것들은 또한 고유 분자 식별자로서도 언급된다. 예컨대 Kivioja, Nature Methods 9, 72-74 (2012) 참조. UMI는 판독 서열들이 한 공급원 DNA 분자의 것인지 또는 다른 공급원 DNA 분자의 것인지를 측정하기 위하여 연계되는 DNA 분자와 함께 서열분석될 수 있다. 용어 "UMI"는 본원에서 폴리뉴클레오타이드의 서열 정보 및 물리적 폴리뉴클레오타이드 자체 둘 다를 언급하기 위해 사용된다.
통상적으로, 다중 사례의 단일 공급원 분자가 서열분석된다. Illumina 서열분석 기술을 사용한 합성에 의해 서열분석되는 경우에, 공급원 분자는 유동 셀로 전달되기 전에 증폭된 PCR일 수 있다. PCR 증폭이 되었거나 되지 않았거나, 유동 셀에 적용된 개별 DNA 분자들은 브릿지 증폭되거나 ExAmp 증폭되어 클러스터가 생성된다. 클러스터의 각 분자는 동일한 공급원 DNA 분자로부터 유도되지만 별도로 서열분석된다. 오류 교정 및 다른 목적에 대해, 단일 클러스터로부터의 모든 판독이 동일한 공급원 분자로부터 유도되는 것으로 확인되는 것을 측정하는 것이 중요할 수 있다. UMI는 이런 그룹화를 허용한다. 증폭에 의해 또는 그렇지 않으면 다중 사례의 DNA 분자를 제조하기 위해 복사된 DNA 분자가 공급원 DNA 분자로서 언급된다.
UMI는 통상적으로 한 샘플의 판독을 다른 샘플의 판독과 구별하기 위해 사용되는 바코드에 유사하지만, UMI는 대신 많은 DNA 분자가 함께 서열분석될 때 한 공급원 DNA 분자를 다른 것들과 구별하기 위해 사용된다. 샘플에는 서열분석 중인 샘플보다 많은 DNA 분자가 많이 있을 수 있기 때문에, 전형적으로 서열분석 작동에서의 구별되는 바코드보다 더 구별되는 UMI가 많이 있다.
언급된 것과 같이, UMI는 개별 DNA 분자들에서 적용되거나 확인될 수 있다. 일부 구현예에서, UMI는 UMI를 DNA 분자에, 예컨대 중합효소, 엔도뉴클레아제, 전위효소 등을 통한 결찰 또는 전위에 의해, 물리적으로 연결 또는 결합시키는 방법들에 의해 DNA 분자에 적용될 수 있다. 이들 "적용된" UMI는 따라서 물리적 UMI로도 언급된다. 일부 맥락에서, 그것들은 또한 외인성 UMI로서 언급될 수 있다. 공급원 DNA 분자 내에서 확인된 UMI들은 실제 UMI로서 언급된다. 일부 맥락에서, 실제 UMI는 또한 내인성 UMI로서도 언급될 수 있다.
물리적 UMI는 많은 방식으로 규정될 수 있다. 예를 들어, 그것들은 어댑터에 삽입된 또는 그렇지 않으면 서열분석될 공급원 DNA 분자들에 포함된 무작위, 위(pseudo)-무작위 또는 부분 무작위, 또는 비-무작위 뉴클레오타이드 서열일 수 있다. 일부 구현예에서, 물리적 UMI는 독특하여서 각각의 UMI는 샘플에 존재하는 임의의 주어진 공급원 DNA 분자를 독특하게 확인할 것으로 예상된다. 각각 물리적 UMI를 가지는 어댑터의 집합이 생성되고, 그런 어댑터는 서열분석된 단편 또는 다른 공급원 DNA 분자에 부착되며, 개별적인 서열분석된 분자들은 각각 모든 다른 단편과 구별되는 것을 돕는 UMI를 가진다. 그런 구현예에서, 대다수의 상이한 물리적 UMI(예컨대 수천 내지 수백만개)가 샘플 중의 DNA 단편을 독특하게 확인하기 위해 사용될 수 있다.
물론, 물리적 UMI는 각각의 및 모든 공급원 DNA 분자에 대한 이런 고유성을 보장하기에 충분한 길이를 가져야 한다. 일부 구현예에서, 덜 독특한 분자 식별자가 각각의 공급원 DNA 분자가 서열분석 프로세스 중에 독특하게 확인되는 것을 보장하기 위하여 다른 확인 기법과 함께 사용될 수 있다. 그런 구현예에서, 다중 단편 또는 어댑터가 동일한 물리적 UMI를 가질 수 있다. 배열 위치 또는 실제 UMI와 같은 다른 정보가 판독을 단일 공급원 DNA 분자/단편으로부터 유도되는 것으로서 독특하게 확인하기 위해 물리적 UMI와 조합될 수 있다. 일부 구현예에서, 어댑터는 상대적으로 작은 수의 비무작위 서열, 예컨대 96개의 비무작위 서열로 제한된 물리적 UMI를 포함한다. 그런 물리적 UMI는 또한 비무작위 UMI로서 언급된다. 일부 구현예에서, 비무작위 UMI는 동일한 공급원 DNA 분자에 기인할 수 있는 판독들을 확인하기 위하여 서열 위치 정보 및/또는 실제 UMI와 조합될 수 있다. 확인된 판독들은 본 명세서에 기술된 공급원 DNA 분자의 서열을 반영하는 공통 서열(consensus sequence)을 얻기 위해 붕괴될 수 있다.
"실제 고유 분자 색인" 또는 "실제 UMI"는 공급원 DNA 분자의 독특한 하위-서열이다. 일부 구현예에서, 실제 UMI는 공급원 DNA 분자의 단부에 또는 단부 부근에 위치한다. 하나 이상의 그런 독특한 단부 위치는 단독으로 또는 다른 정보와 함께 공급원 DNA 분자를 독특하게 확인한다. 구별되는 공급원 DNA 분자의 수 및 실제 UMI의 뉴클레오타이드의 수에 따라, 하나 이상의 실제 UMI가 샘플 중의 공급원 DNA 분자를 독특하게 확인할 수 있다. 일부 경우에, 두 실제 고유 분자 식별자의 조합이 공급원 DNA 분자를 확인하기 위해 필요하다. 그런 조합은 매우 드물어서, 아마도 샘플에서 단지 1회 발견될 수 있다. 일부 경우에, 하나 이상의 물리적 UMI와 조합된 하나 이상의 실제 UMI가 함께 공급원 DNA 분자를 독특하게 확인할 수 있다.
"무작위 UMI"는 한 개 이상의 서열 길이가 주어지면 모든 가능한 상이한 올리고뉴클레오타이드 서열로 구성되는 UMI의 세트로부터, 대체가 있거나 없이, 무작위 샘플로서 선택된 물리적 UMI인 것으로 여겨질 수 있다. 예를 들어, UMI의 세트에서 각 UMI가 n개의 뉴클레오타이드를 가진다면, 그 세트는 서로 상이한 서열을 가지는 4^n UMI를 포함한다. 4^n UMI로부터 선택된 무작위 샘플은 무작위 UMI를 구성한다.
역으로, 본원에서 사용되는 "비무작위 UMI"는 무작위 UMI가 아닌 물리적 UMI를 나타낸다. 일부 실시형태에서, 활용할 수 있는 비무작위 UMI는 특정 실험 또는 적용에 대해 미리 규정된다. 특정 실시형태에서, 비무작위 UMI를 얻기 위해 세트에 대한 서열들을 생성하기 위해 또는 세트로부터 샘플을 선택하기 위해 규칙이 사용된다. 예를 들어, 세트의 서열은 서열들이 특정 패턴 또는 패턴들을 갖도록 생성될 수 있다. 일부 구현예에서, 각 서열은 세트에서 모든 다른 서열과 특정 수(예컨대 2, 3 또는 4개)의 뉴클레오타이드가 상이하다. 즉, 비무작위 UMI서열은 특정 수의 뉴클레오타이드보다 적은 수로 대체함으로써 임의의 다른 활용가능한 비무작위 UMI 서열로 전환될 수 없다. 일부 구현예에서, 비무작위 UMI는 특정 서열 길이가 주어지면 모든 가능한 UMI보다 적은 수를 포함하는 UMI의 세트로부터 선택된다. 예를 들어, 6개의 뉴클레오타이드를 가지는 비무작위 UMI는 총 96개의 상이한 서열로부터 선택될 수 있다 (총 4^6=4096개의 가능한 상이한 서열 대신). 다른 구현예에서, 서열은 세트로부터 비무작위로 선택된다. 대신, 일부 서열은 다른 서열들보다 높은 가능성으로 선택된다.
비무작위 UMI가 모든 가능한 상이한 서열보다 적은 수의 세트로부터 선택되는 일부 구현예에서, 비무작위 UMI의 수는 공급원 DNA 분자의 수보다 적고, 때로 그렇게 되는 것이 유의미하다. 그런 구현예에서, 비무작위 UMI 정보는 동일한 공급원 DNA 분자로부터 유도되는 서열 판독들을 확인하기 위하여 다른 정보, 예컨대 실제 UMI 및/또는 서열 정보와 조합될 수 있다.
용어 "쌍 단부 판독"은 핵산 단편의 각 단부로부터 하나의 판독을 얻는 쌍을 이룬 단부 서열분석으로부터 얻어진 판독을 나타낸다. 쌍을 이룬 단부 서열분석은 DNA를 삽입물로 불리는 서열들로 단편화하는 것을 포함한다. Illumina에 의해 사용된 것과 같은 일부 프로토콜에서, 더 짧은 삽입물(예컨대 대략 수십 내지 수백 bp)로부터의 판독은 짧은-삽입물 쌍 단부 판독 또는 간단히 쌍 단부 판독으로서 언급된다. 대조적으로, 더 긴 삽입물(예컨대 대략 수천 bp)로부터의 판독은 메이트 쌍 판독으로서 언급된다. 본 개시에서, 짧은-삽입물 쌍 단부 판독 및 긴-삽입물 메이트 쌍 판독은 둘 다 사용되고 DNA 단편의 서열을 측정하기 위한 방법과 관련하여 구별되지 않는다. 그러므로, 용어 "쌍 단부 판독"은 짧은-삽입물 쌍 단부 판독 및 긴-삽입물 메이트 쌍 판독 둘 다를 나타낼 수 있고, 이하에서 한층 더 기술된다. 일부 실시형태에서, 쌍 단부 판독은 약 20 bp 내지 1000 bp의 판독을 포함한다. 일부 실시형태에서, 쌍 단부 판독은 약 50 bp 내지 500 bp, 약 80 bp 내지 150 bp 또는 약 100 bp의 판독을 포함한다.
본원에서 사용되는 용어 "배열" 및 "배열하는"은 판독을 참조 서열과 비교하고 그로써 참조 서열이 판독 서열을 함유하는지의 여부를 측정하는 프로세스를 나타낸다. 배열 프로세스는 판독이 참조 서열에 맵핑될 수 있는지를 측정하기 위해 시도하지만, 언제나 참조 서열에 대해 배열된 판독을 초래하는 것은 아니다. 만약 참조 서열이 판독을 함유한다면, 판독은 참조 서열에 대해 맵핑되거나, 또는 특정 실시형태에서, 참조 서열의 특정 위치에 대해 맵핑될 수 있다. 일부 경우에, 배열은 단순히 판독이 특정 참조 서열의 구성원인지 아닌지(즉, 판독이 참조 서열에 존재하는지 또는 부재하는지)를 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 대해 판독을 배열하면 판독이 염색체 13에 대한 참조 서열에 존재하는 지를 알려줄 것이다. 이런 정보를 제공하는 도구는 세트 멤버쉽 테스터로 불릴 수 있다. 일부 경우에, 배열은 추가로 그 판독이 맵핑되는 참조 서열의 위치를 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열이라면, 배열은 판독이 염색체 13에 존재하는 것을 나타낼 수 있고, 추가로 그 판독이 염색체 13의 특정 가닥 및/또는 부위에 있는 것을 나타낼 수 있다. 일부 시나리오에서, 배열 도구는 a) 모든 타당한 배열이 발견되지 않고, b) 일부 얻어진 배열은 타당하지 않다는 점에서 완벽하지 않다. 이것은 다양한 이유로 인하여, 예컨대 판독이 오류를 함유할 수 있고, 서열분석된 판독이 하플로타입 차이로 인해 참조 게놈과 상이할 수 있기 때문에 일어난다. 일부 적용에서, 배열 도구는 염기쌍의 특정 미스매치 정도를 견디고 여전히 참조 서열에 대한 판독의 배열을 허용하는, 내장(built-in) 미스매치 관용을 포함한다. 이것은 그렇지 않으면 잃어버릴 수 있는 판독들의 타당한 배열을 확인하는 것을 도울 수 있다.
배열된 판독들은 참조 게놈과 같은 공지된 참조 서열에 대한 그것들의 핵산 분자의 순서의 관점에서 매치로서 확인되는 하나 이상의 서열이다. 배열된 판독 및 그것의 참조 서열 상에서의 측정된 위치는 서열 태그를 구성한다. 배열은 수동으로 행해질 수 있지만, 본 명세서에 개시된 방법을 실행하기 위해 타당한 시간 기간에 판독들을 배열하는 것이 불가능할 것이기 때문에, 전형적으로 컴퓨터 알고리즘에 의해 실행된다. 서열을 배열하는 것으로부터의 알고리즘의 한 실례는 일루미나 게노믹스 어날리시스(Illumina Genomics Analysis) 파이프라인의 부분으로서 분포된 뉴클레오타이드 데이터의 효과적인 국소 배열(ELAND) 컴퓨터 프로그램이다. 다르게는, 블룸(Bloom) 필터 또는 유사한 멤버십 테스터가 판독들을 참조 게놈에 배열시키기 위해 사용될 수 있다. 2014년 4월 25일에 출원된 미국 특허 출원 번호 14/354,528(전체 내용이 참조로 본 명세서에 포함됨) 참조. 배열에서 서열 판독의 매칭은 100% 서열 매치이거나 100% 미만(즉 완벽하지 않은 매치)일 수 있다.
본원에서 사용된 용어 "맵핑"은 더 큰 서열, 예컨대 참조 게놈에 대해, 배열에 의해 판독 서열을 배열시키는 것을 나타낸다.
용어 "폴리뉴클레오타이드", "핵산" 및 "핵산 분자"는 상호교환적으로 사용되며 한 뉴클레오타이드의 펜토스의 3' 위치가 다음의 펜토스의 5' 위치에 포스포다이에스테르기에 의해 결합되어 있는 뉴클레오타이드(즉 RNA에 대해서는 리보뉴클레오타이드 및 DNA에 대해서는 데옥시리보뉴클레오타이드)의 공유 결합된 서열을 나타낸다. 뉴클레오타이드는 핵산의 임의의 형태, 이를테면 한정하는 것은 아니지만, 세포-유리 DNA(cfDNA) 분자와 같은 RNA 및 DNA 분자의 서열을 포함한다. 용어 "폴리뉴클레오타이드"는 제한 없이, 단일- 및 이중-가닥 폴리뉴클레오타이드를 포함한다.
용어 "시험 샘플"은 본원에서, 전형적으로 생물학적 유체, 세포, 조직, 기관 또는 유기체로부터 유도되고, 복사수 변화 및 다른 유전적 변경, 예컨대 한정하는 것은 아니지만 단일 뉴클레오타이드 다형태, 삽입, 결실 및 구조적 변이에 대해 스크리닝될 적어도 하나의 핵산 서열을 가지는 핵산 또는 핵산의 혼합물을 포함하는 샘플을 나타낸다. 특정 실시형태에서 샘플은 변이가 진행되는 것으로 의심되는 복사수를 가진 적어도 하나의 핵산 서열을 가진다. 그런 샘플은, 한정하는 것은 아니지만 가래/타액, 양수, 혈액, 혈액 부분 또는 미세 바늘 생검 샘플, 소변, 복강액, 흉막액 등을 포함한다. 비록 샘플이 자주 인간 대상체(예컨대 환자)로부터 취해지긴 하지만, 분석은 한정하는 것은 아니지만, 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함한 임의의 포유류, 뿐만 아니라 혼합 집단, 예컨대 야생으로부터의 미생물 집단 또는 환자들로부터의 바이러스 집단으로부터의 샘플에 대해 사용될 수 있다. 샘플은 생물학적 공급원으로부터 얻어진 대로 직접 또는 샘플의 특징을 변형하기 위한 전처리 후에 사용될 수 있다. 예를 들어, 그런 전처리는 혈액, 희석 점성 유체 등으로부터 혈장을 제조하는 것을 포함할 수 있다. 전처리 방법은 또한, 한정하는 것은 아니지만, 여과, 석출, 희석, 증류, 혼합, 원심분리, 냉동, 동결건조, 농축, 증폭, 핵산 단편화, 간섭하는 성분들의 비활성화, 시약의 첨가, 용해 등을 포함할 수 있다. 만약 그런 전처리 방법이 샘플과 관련하여 사용된다면, 그런 전처리 방법은 전형적으로 관심 대상 핵산(들)이 때로 미처리 시험 샘플에서의 농도에 비례하는 농도로 시험 샘플에 잔류하도록 한다(예컨대, 즉, 임의의 그런 전처리 방법(들)이 수행되지 않는 샘플). 그런 "처리된" 또는 "프로세싱된" 샘플은 여전히 본 명세서에 기술된 방법들과 관련하여 생물학적 "시험" 샘플인 것으로 여겨진다.
용어 "차세대 서열분석(NGS)"는 본원에서 클론적으로 증폭된 분자의 및 단일 핵산 분자의 대량 병렬 서열분석을 허용하는 서열분석 방법을 나타낸다. NGS의 비-제한적 실례는 가역적 염료 터미네이터를 사용하는 합성에 의한 서열분석 및 결찰에 의한 서열분석을 포함한다.
용어 "판독"은 핵산 샘플의 부분으로부터의 서열 판독을 나타낸다. 전형적으로, 반드시 그런 것은 아니지만, 판독은 샘플 중의 연속적인 염기쌍의 짧은 서열을 나타낸다. 판독은 염기의 정확함의 확률적 추정(품질 득점)과 함께, 샘플 부분의 A, T, C 및 G의 염기쌍 서열에 의해 기호로 표시될 수 있다. 그것은 메모리 소자에 저장될 수 있고 참조 서열에 매치하는지 또는 다른 기준을 충족하는지를 측정하기 위해 적절하게 프로세싱될 수 있다. 판독은 서열분석 장치로부터 직접적으로 또는 샘플과 관련하여 저장된 서열 정보로부터 간접적으로 얻어질 수 있다. 일부 경우에, 판독은 더 큰 서열 또는 영역을 확인하기 위해 사용될 수 있는, 예컨대 염색체 또는 게놈 영역 또는 유전자에 대해 배열되고 맵핑될 수 있는 충분한 길이(예컨대 적어도 약 20 bp)의 DNA 서열이다.
용어 "부위" 및 "배열 위치"는 참조 게놈 상의 독특한 위치(즉 염색체 ID, 염색체 위치 및 방향)를 나타내기 위해 상호교환적으로 사용된다. 일부 실시형태에서, 부위는 참조 서열 상의 잔기의 위치, 서열 태그의 위치 또는 분적의 위치일 수 있다.
본원에서 사용되는 용어 "참조 게놈" 또는 "참조 서열"은 그것이 부분적이든 완전한 것이든, 대상체로부터의 확인된 서열을 참조하기 위해 사용될 수 있는 임의의 유기체 또는 바이러스의 임의의 특정한 공지 게놈 서열을 나타낸다. 예를 들어, 많은 다른 유기체뿐 아니라 인간 대상체에 대해 사용된 참조 게놈은 ncbi.nlm.nih.gov에서 국립 생명공학 정보 센터(National Center for Biotechnology Information)에서 찾아볼 수 있다. "게놈"은 핵산 서열에서 발현된, 유기체 또는 바이러스의 완전한 유전자 정보를 나타낸다. 그러나, "완전한"은 상대적인 개념인 것으로 인지되는데, 금-기준 참조 게놈이라도 갭 및 오류를 포함하는 것으로 예상되기 때문이다.
다양한 실시형태에서, 참조 서열은 그것에 대해 배열되는 판독보다 상당히 더 크다. 예를 들어, 그것은 적어도 약 100배 더 크거나, 또는 적어도 약 1000배 더 크거나, 또는 적어도 약 10,000배 더 크거나, 또는 적어도 약 105배 더 크거나, 또는 적어도 약 106배 더 크거나 또는 적어도 약 107배 더 크다.
한 실례에서, 참조 서열은 전체 길이 인간 게놈의 서열이다. 그런 서열은 게놈 참조 서열로서 언급될 수 있다. 다른 실례에서, 참조 서열은 염색체 13과 같은 특정 인간 염색체로 한정된다. 일부 실시형태에서, 참조 Y 염색체는 인간 게놈 버전 hg19로부터의 Y 염색체 서열이다. 그런 서열은 염색체 참조 서열로서 언급될 수 있다. 참조 서열의 다른 실례는 다른 종의 게놈뿐 아니라 임의의 종의 염색체, 하위-염색체 영역(예컨대 가닥) 등을 포함한다.
일부 실시형태에서, 배열을 위한 참조 서열은 판독의 길이의 약 1 내지 약 100배의 서열 길이를 가진다. 그런 실시형태에서, 배열 및 서열분석은 전체 게놈 배열 또는 서열분석 대신, 표적화된 배열 또는 서열분석으로 여겨진다. 이들 실시형태에서, 참조 서열은 전형적으로 관심 대상 유전자 서열 및/또는 다른 제한된 서열을 포함한다.
다양한 실시형태에서, 참조 서열은 다중 개체로부터 유도된 공통 서열 또는 다른 조합이다. 그러나, 특정 적용에서, 참조 서열은 특정 개체로부터 취해질 수 있다.
용어 "유도된"은 핵산 또는 핵산들의 혼합물의 맥락에서 사용될 때, 본원에서 핵산(들)이 그것들이 기원하는 공급원으로부터 얻어지는 수단을 나타낸다. 예를 들어, 한 실시형태에서, 2개의 상이한 게놈으로부터 유도된 핵산들의 혼합물은 핵산들, 예컨대 cfDNA가 괴사 또는 세포 자멸과 같은 자연적으로 발생하는 프로세스들을 통해 세포에 의해 자연적으로 방출되었음을 의미한다. 다른 실시형태에서, 2개의 상이한 게놈으로부터 유도된 핵산들의 혼합물은 핵산이 대상체로부터의 2가지 상이한 유형의 세포로부터 추출되었음을 의미한다.
용어 "생물학적 유체"는 본원에서 생물학적 공급원으로부터 취해진 액체를 나타내고, 예를 들면 혈액, 혈청, 혈장, 가래, 세척 유체, 뇌척수액, 소변, 정액, 땀, 눈물, 타액 등을 포함한다. 본원에서 사용되는 용어 "혈액", "혈장" 및 "혈청"은 분명히 부분들 또는 그것들의 프로세싱된 부분들을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 취해지는 경우, "샘플"은 분명하게 프로세싱된 부분 또는 생검, 면봉, 얼룩 등으로부터 유도된 부분을 포함한다.
본원에서 사용되는 용어 "염색체"는 DNA 및 단백질 성분(특히 히스톤)을 포함하는 크로마틴 가닥으로부터 유도된, 살아있는 세포의 유전-포함 유전자 캐리어를 나타낸다. 종래의 국제적으로 인지된 개별 인간 게놈 염색체 넘버링 시스템이 본원에서 사용된다.
본원에서 사용되는 용어 "폴리뉴클레오타이드 길이"는 참조 게놈의 서열 또는 영역에서 절대 수의 핵산 분자(뉴클레오타이드)를 나타낸다. 용어 "염색체 길이"는 염기쌍으로 제공된, 예컨대 월드 와이드 웹상에서 |genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=에서 발견된 인간 염색체의 NCBI36/hg18 어셈블리로 제공된, 염색체의 공지된 길이를 나타낸다.
본원에서 사용된 용어 "프라이머"는 연장 생성물의 합성에 귀납적인 조건(예컨대 조건은 뉴클레오타이드, DNA 중합효소와 같은 유도제, 필요한 이온 및 분자, 및 적합한 온도 및 pH를 포함함) 하에 놓일 때 합성의 개시 지점으로서 작용할 수 있는 분리된 올리고뉴클레오타이드를 나타낸다. 프라이머는 바람직하게는 증폭의 최대 효율을 위해 단일 가닥일 수 있지만, 다르게는 이중 가닥일 수 있다. 만약 이중 가닥이라면, 프라이머는 연장 생성물을 제조하기 위해 사용되기 전에 먼저 가닥을 분리하기 위해 처리된다. 프라이머는 올리고데옥시리보뉴클레오타이드일 수 있다. 프라이머는 유도제의 존재하에 연장 생성물의 합성을 프라이밍하기에 충분히 길다. 프라이머의 정확한 길이는 온도, 프라이머의 공급원, 방법의 용도 및 프라이머 디자인에 사용된 매개변수들을 포함한 많은 인자들에 좌우될 것이다.
서론 및 맥락
차세대 서열분석(NGS) 기술은 빠르게 개발되어, 연구 및 과학뿐 아니라 유전자 및 관련된 생물학적 정보에 의존하는 건강관리 및 서비스를 진전시키는 새로운 도구를 제공하였다. NGS 방법은 대량 병렬 방식으로 수행되어 생체분자 서열 정보를 측정하기 위한 점점 더 고속을 제공한다. 그러나, 많은 NGS 방법 및 관련된 샘플 조작 기법은 오류를 도입하여 결과적으로 얻어지는 서열들이 수백 염기쌍에서 한 개의 오류 내지 수천 염기쌍에서 한 개의 오류의 범위의, 상대적으로 높은 오류율을 가지게 된다. 그런 오류율은 때로 생식선 돌연변이와 같은 유전되는 유전자 정보를 측정하기 위해 허용될 수 있는데, 그런 정보가 시험 샘플에서 동일한 게놈의 많은 복사물을 제공하는 대부분의 체세포 전체에서 일관되기 때문이다. 서열의 한 복사물을 판독하는 것으로부터 기원하는 오류는 동일 서열의 많은 복사물이 오류 없이 판독될 때 작거나 제거 가능한 영향을 미친다. 예를 들어, 만약 서열의 한 복사물로부터의 잘못된 판독이 적절하게 참조 서열에 배열될 수 없다면, 그것은 단순히 분석으로부터 버려질 수 있다. 동일한 서열의 다른 복사물로부터의 오류-없는 판독은 여전히 타당한 분석에 대한 충분한 정보를 제공할 수 있다. 다르게는, 동일한 서열로부터의 다른 판독들과 상이한 염기쌍을 가지는 판독을 버리는 대신, 당업자는 공지의 또는 미지의 오류 공급원으로부터 유발되는 것으로서 상이한 염기쌍을 버릴 수 있다.
그러나, 그런 오류 교정 접근법은 낮은 대립유전자 빈도, 예컨대 종양 조직으로부터의 핵산, 순환하는 종양 DNA, 모체 혈장의 저-농도의 태아 cfDNA, 병원체의 약물-내성 돌연변이 등에서 발견되는 하위-클론적, 체세포 돌연변이로 서열을 검출하는 데에는 잘 적용되지 않는다. 이들 실례에서, 한 DNA 단편은 서열 부위에서 관심 대상 체세포 돌연변이를 은닉할 수 있는 한편, 동일한 서열 부위에서 많은 다른 단편들은 관심 대상 돌연변이를 갖지 않는다. 그런 시나리오에서, 돌연변이된 DNA 단편으로부터의 서열 판독 또는 염기쌍은 종래의 서열분석에서 사용되지 않거나 잘못 해석됨으로써 관심 대상 돌연변이를 검출하기 위한 정보를 잃어버리게 될 것이다.
이들 다양한 오류 근원으로 인해, 서열분석의 증가하는 깊이는 단독으로 매우 낮은 대립유전자 빈도(예컨대 <1%)로 체세포 변이의 검출을 보장할 수 없다. 본 명세서에 개시된 일부 구현예는 관심 대상 타당한 서열의 신호가 낮을 때의 상황에서, 예컨대 낮은 대립유전자 빈도를 가진 샘플에서 오류를 효과적으로 억제하는 듀플렉스 서열분석 방법을 제공한다. 방법은 서열분석 어댑터, 예컨대 Illumina TruSeq® 어댑터의 한 아암 또는 두 아암에 위치한 짧은 물리적 고유 분자 색인과 함께 실제 고유 분자 색인(UMI)을 사용한다. 이들 구현예은 어댑터 서열 상의 물리적 UMI 및 샘플 DNA 단편 서열 상의 실제 UMI를 사용하는 전략을 기반으로 한다. 일부 구현예에서, 판독들의 배열 위치가 또한 오류를 억제하기 위해 사용된다. 예를 들어, 다중 판독(또는 판독의 쌍)이 물리적 UMI를 공유하고 참조 상에서 동일한 간격(제한된 위치들의 범위) 내에서 배열될 때, 판독들은 단일 DNA 단편으로부터 기원하는 것으로 예상된다. 물리적 UMI, 실제 UMI 및 판독과 연계된 배열 위치는 샘플로부터의 특이적 이중 가닥 DNA 단편과, 단독으로 또는 조합하여, 독특하게 연계되는 "색인"을 제공한다. 이들 색인을 사용하여, 당업자는 동일한 게놈 부위로부터의 많은 단편들 중 단지 하나일 수 있는 단일 DNA 단편(단일 분자)으로부터 유도된 다중 판독을 확인할 수 있다. 단일 DNA 분자로부터의 다중 판독을 사용하여, 오류 교정이 효과적으로 수행될 수 있다. 예를 들어, 서열분석 방법은 동일한 DNA 단편으로부터 유도된 다중 판독으로부터 공통 뉴클레오타이드 서열(이하 "공통 서열"로 언급됨)을 얻을 수 있고, 그런 교정은 이 DNA 단편의 타당한 서열 정보를 버리지 않는다.
어댑터 디자인은 당업자가 DNA 단편의 어느 가닥으로부터 판독이 유도되는지를 측정하는 것을 허용하는 물리적 UMI를 제공할 수 있다. 일부 실시형태는 DNA 단편의 한 가닥으로부터 유도된 판독에 대한 제1 공통 서열 및 상보적인 가닥에 대한 제2 공통 서열을 측정하기 위해 이런 장점을 택한다. 많은 실시형태에서, 공통 서열은 모든 또는 대부분의 판독에서 검출된 염기쌍을 포함하는 한편 적은 수의 판독에서 나타나는 염기쌍은 배제한다. 상이한 공통 기준이 실행될 수 있다. 공통 서열을 얻기 위한 UMI 또는 배열 위치를 기반으로 한 판독들의 조합 프로세스는 또한 판독들을 "붕괴하기(collapsing)"로 언급된다. 물리적 UMI, 실제 UMI 및/또는 배열 위치를 사용하여, 당업자는 제1 및 제2 공통 서열에 대한 판독들이 동일한 이중 가닥 단편으로부터 유도된 것을 측정할 수 있다. 그러므로, 일부 실시형태에서, 제3 공통 서열이 동일한 DNA 분자/단편에 대해 얻어진 제1 및 제2 공통 서열을 사용하여 측정되고, 이때 제3 공통 서열은 제1 및 제2 공통 서열에 대해 공통된 염기쌍을 포함하는 한편 둘 사이의 일치하지 않는 염기쌍들은 배제시킨다. 대체 구현예에서, 단지 하나의 공통 서열이 두 가닥으로부터 얻어진 2개의 공통 서열을 비교하는 대신, 동일한 단편의 양 가닥으로부터 유도된 모든 판독을 나눔으로써 직접 얻어질 수 있다. 마지막으로, 단편의 서열은 단편의 양 가닥으로부터 유도된 판독들 전체와 일치하는 염기쌍을 포함하는 제3 또는 단지 하나의 공통 서열로부터 측정될 수 있다.
다양한 구현예는 오류를 억제하기 위하여 DNA 단편의 두 가닥의 판독들을 조합한다. 그러나, 일부 구현예에서, 방법은 물리적 및 실제 UMI를 단일-가닥 핵산(예컨대 DNA 또는 RNA) 단편에 적용하고, 동일한 물리적 및 실제 UMI를 공유하는 판독들을 조합하여 오류를 억제한다. 다양한 방법이 샘플 중의 단일 가닥 핵산 단편들을 포획하기 위해 사용될 수 있다.
일부 실시형태에서, 방법은 판독들이 유도된 공급원 폴리뉴클레오타이드를 측정하기 위하여 상이한 유형의 색인들을 조합한다. 예를 들어, 방법은 단일 DNA 분자로부터 유도되는 판독들을 확인하기 위해 물리적 및 실제 UMI 둘 다를 사용할 수 있다. 물리적 UMI에 더불어 UMI의 제2 형태를 사용함으로써, 물리적 UMI는 단지 물리적 UMI만이 공급원 폴리뉴클레오타이드를 측정하기 위해 사용될 때보다 짧을 수 있다. 이런 접근법은 라이브러리 prep 성능에 최소의 영향을 미치며, 엑스트라 서열분석 판독 길이를 필요로 하지 않는다.
개시된 방법의 적용은 다음을 포함한다:
Figure 112017118192239-pct00001
체세포 돌연변이 검출을 위한 오류 억제. 예를 들어 0.1% 미만의 대립유전자 빈도를 가진 돌연변이의 검출은 순환하는 종양 DNA의 액체 생검에서 매우 결정적이다.
Figure 112017118192239-pct00002
고품질의 긴 판독(예컨대 1x1000 bp)을 이루기 위한 사전단계화, 단계화 및 다른 서열분석 오류의 교정.
Figure 112017118192239-pct00003
고정된 판독 길이를 위한 사이클 시간 감소 및 이 방법에 의해 증가된 단계화 및 사전단계화 교정.
Figure 112017118192239-pct00004
실제의 긴 쌍 단부 판독을 생성하기 위한 단편의 양 측면에서의 UMI 사용. 예를 들어, 2x500 판독을 이중으로 500+50회 시행함으로써 스티치한다.
UMI를 사용하는 핵산 단편의 서열분석을 위한 예시적인 작업 흐름
도 1a는 핵산 단편을 서열분석하기 위해 UMI를 사용하기 위한 예시적인 작업 흐름(100)을 예시하는 흐름도이다. 작동(102)는 이중-가닥 DNA의 단편을 제공한다. DNA 단편은 예를 들면 게놈 DNA를 단편화하고, 자연적으로 단편화된 DNA(예컨대 cfDNA 또는 ctDNA)를 수집하거나, 또는 DNA 단편을 RNA로부터 합성함으로써 얻어질 수 있다. 일부 구현예에서, RNA로부터 DNA 단편을 합성하기 위하여 메신저 RNA가 먼저 폴리A 선택 또는 리보솜 RNA의 고갈을 사용하여 정제된 후, 선택된 mRNA가 화학적으로 단편화되고 무작위 6량체 프라이밍을 사용하여 단일-가닥 cDNA로 전환된다. cDNA의 상보적인 가닥이 생성되어 라이브러리 구성을 위해 준비된 이중-가닥 cDNA가 생성된다. 게놈 DNA(gDNA)로부터 이중 가닥 DNA 단편을 얻기 위하여, 입력되는 gDNA가 예컨대 수력학적 전단, 분무화, 효소적 단편화 등에 의해 단편화되어 적절한 길이, 예컨대 약 1000bp, 800bp, 500 또는 200bp의 단편들이 생성된다. 예를 들어, 분무화는 DNA를 단시간에 800 bp 미만의 조각들로 깨트릴 수 있다. 이 프로세스로 3' 및/또는 5' 돌출부를 함유하는 이중-가닥 DNA 단편이 생성된다.
도 1b는 도 1a에서 작업흐름(100)의 초기 단계들에서 사용된 DNA 단편/분자 및 어댑터를 도시한다. 비록 단지 하나의 이중-가닥 단편이 도 1b에서 예시되지만, 샘플의 수천 내지 수백만개의 단편이 작업흐름에서 동시에 제조될 수 있다. 물리적 방법에 의한 DNA 단편화는 3' 돌출부, 5' 돌출부 및 뭉툭한 단부의 혼합물을 포함하여 이종성 단부를 생성한다. 돌출부들은 달라지는 길이의 것일 것이고 단부들은 인산화되거나 인산화되지 않을 수 있다. 작동(102)의 게놈 DNA의 단편화로부터 얻어진 이중-가닥 DNA 단편의 실례는 도 1b에서 단편(123)으로 나타낸다.
단편(123)은 좌측 단부에 3' 돌출부 및 우측 단부에 도시된 5' 돌출부를 가지며 ρ 및 φ로 표시되고, 단독으로 또는 단편에 결찰될 어댑터의 물리적 UMI와 조합되어 사용될 때 단편을 독특하게 확인할 수 있는 실제 UMI로서 사용될 수 있는 단편의 두 서열을 나타낸다. UMI는 공급원 폴리뉴클레오타이드 및 그것의 상보적인 가닥을 포함하는 샘플의 단일 DNA 단편과 독특하게 연계된다. 물리적 UMI는 공급원 폴리뉴클레오타이드, 그것의 상보적인 가닥 또는 공급원 폴리뉴클레오타이드로부터 유도된 폴리뉴클레오타이드에 결합된 올리고뉴클레오타이드의 서열이다. 실제 UMI는 공급원 폴리뉴클레오타이드, 그것의 상보적인 가닥 또는 공급원 폴리뉴클레오타이드로부터 유도된 폴리뉴클레오타이드 내에 있는 올리고뉴클레오타이드의 서열이다. 이 계획 내에서, 당업자는 또한 외인성 UMI로서 물리적 UMI, 및 내인성 UMI로서 실제 UMI를 나타낼 수 있다.
두 서열 ρ 및 φ는 실제로 각각 동일한 게놈 부위에서 2개의 상보적인 서열을 나타내지만, 간단히 할 목적으로, 그것들은 본 명세서에 제시된 이중-가닥 단편의 일부에서 단지 한 가닥에만 표시된다. ρ 및 φ와 같은 실제 UMI는 단일 DNA 공급원 단편의 하나 또는 두 가닥으로부터 기원하는 판독들을 확인하는 것을 돕기 위해 작업흐름의 후기 단계에서 사용될 수 있다. 그렇게 확인된 판독으로, 그것들은 붕괴되어서 공통 서열이 얻어질 수 있다.
만약 DNA 단편이 물리적 방법에 의해 제조되면, 작업흐름(100)이 진행되어 단부 수복 작동(104)이 수행되고 5-인산화된 단부를 가지는 뭉툭한-단부 단편이 생성된다. 일부 구현예에서, 이 단계는 단편화로부터 유발된 돌출부를 T4 DNA 중합효소 및 클레노우 효소(Klenow enzyme)를 사용하여 뭉툭한 단부로 전환시킨다. 이들 효소의 3'에서 5' 엑소뉴클레아제 활성은 3' 돌출부를 제거하고 5'에서 3' 중합효소 활성은 5' 돌출부를 채운다. 또한, 이 반응에서 T4 폴리뉴클레오타이드 키나제는 DNA 단편의 5' 단부를 인산화한다. 도 1b의 단편(125)은 단부-수복된, 뭉툭한-단부 생성물의 실례이다.
단부 수복 후에, 작업흐름(100)은 작동(106)으로 진행되어 단편의 3' 단부가 아데닐화되는데, 그것은 단일 dATP가 뭉툭한 단편의 3' 단부에 첨가되어 단편이 어댑터 결찰 반응 중에 서로 결찰되는 것을 방지하기 때문에 A-테일링 또는 dA-테일링으로도 언급된다. 도 1b의 이중 가닥 분자(127)는 3'-dA 돌출부 및 5'-포스페이트 단부가 있는 뭉툭한 단부를 가진 A-테일 단편을 보여준다. 도 1b의 항목(129)에서 볼 수 있는 2개의 서열분석 어댑터의 각각의 3' 단부의 단일 'T' 뉴클레오타이드는 삽입물에 2개의 어댑터를 결찰시키기 위한 삽입물의 각 단부 상의 3'-dA 돌출부에 상보적인 돌출부를 제공한다.
3' 단부의 아데닐화 후에, 작업흐름(100)은 작동(108)으로 진행되어 이중 가닥 어댑터가 단편의 양 단부에 부분적으로 결찰된다. 일부 구현예에서, 반응에서 사용된 어댑터는 전부 서로 상이한 올리고뉴클레오타이드를 포함하고, 그 올리고뉴클레오타이드는 서열 판독을 단일- 또는 이중-가닥 DNA 단편일 수 있는 단일 공급원 폴리뉴클레오타이드에 연계시키기 위해 물리적 UMI를 제공한다. 모든 물리적 UMI 올리고뉴클레오타이드가 상이하기 때문에, 특정 단편의 두 단부에 결찰된 2개의 UMI 올리고뉴클레오타이드는 서로 상이하다. 나아가, 특정 단편에 대한 2개의 물리적 UMI는 모든 다른 단편에 대해 물리적 UMI와 상이하다. 이런 관점에서, 2개의 물리적 UMI는 특정 단편과 독특하게 연계된다.
도 1b의 항목(129)는 2개의 실제 UMI ρ 및 φ를 단편의 단부들 부근에서 포함하는 이중-가닥 단편에 결찰된 2개의 어댑터를 예시한다. 이들 어댑터는 Illumina 플랫폼의 서열분석 어댑터를 기반으로 예시되는데, 다양한 구현예가 판독을 얻고 관심 대상 서열을 검출하기 위해 Illumina의 NGS 플랫폼을 사용할 수 있기 때문이다. 좌측에 나타낸 어댑터는 그것의 P5 아암에 물리적 UMI α를 포함하는 한편, 우측의 어댑터는 그것의 P5 아암에 물리적 UMI β를 포함한다. 5'에서 3' 방향으로 5' 변성 단부를 가지는 가닥에서, 어댑터는 P5 서열, 물리적 UMI(α 또는 β) 및 판독 2 프라이머 서열을 가진다. 3'에서 5' 방향으로 3' 변성 단부를 가지는 가닥에서, 어댑터는 P7' 서열, 색인 서열 및 판독 1 프라이머 서열을 가진다. P5 및 P7' 올리고뉴클레오타이드는 Illumina 서열분석 플랫폼의 유동 셀의 표면에 결합된 증폭 프라이머에 상보적이다. 일부 구현예에서, 색인 서열은 샘플의 공급원의 트랙을 유지하는 수단을 제공하고, 그로써 서열분석 플랫폼에서 다중 샘플의 복합화를 허용한다. 어댑터 및 서열분석 플랫폼의 다른 디자인이 다양한 구현예에서 사용될 수 있다. 어댑터 및 서열분석 기술은 이어지는 섹션에서 한층 더 기술된다. 도 1b에 도시된 반응은 구별되는 서열을 게놈 단편의 각 가닥의 5' 및 3' 단부에 첨가한다. 상기 기술된 동일한 단편으로부터의 결찰 생성물(131)은 도 1b에 예시된다. 이 결찰 생성물(131)은 5'-3' 방향으로, 그것의 상부 가닥에 물리적 UMI α, 실제 UMI ρ 및 실제 UMI φ를 가진다. 결찰 생성물은 또한 5'-3' 방향으로, 그것의 하부 가닥에 물리적 UMI β, 실제 UMI φ 및 실제 UMI ρ를 가진다. (132)로 나타낸 그 안에 함유된 결찰 생성물 및 물리적 UMI들 및 실체 UMI들은 도 3a의 상부 절반에 있는 것들과 유사하다. 본 개시는 Illumina에 의해 제공된 것들 이외의 서열분석 기술 및 어댑터들을 사용하는 방법들을 구체화한다.
일부 구현예에서, 이 결찰 반응의 생성물은 아가로오스 겔 전기영동 또는 자기 비드에 의해 정제 및/또는 크기-선택된다. 크기-선택된 DNA는 다음에 PCR 증폭되어 양 단부에 어댑터를 가지는 단편이 풍부해진다. 블록(110) 참조. 도 3a의 하부 절반은 결찰 생성물의 양 가닥이 PCR 증폭을 진행하여, 상이한 물리적 UMI (α 및 β)를 가지는 단편들의 2개의 패밀리가 얻어지는 것을 도시한다. 2개의 패밀리는 각각 단지 하나의 물리적 UMI를 가진다. 2개의 패밀리는 둘 다 실제 UMIρ 및 φ를 갖지만, 물리적 UMI를 참조하는 실제 UMI의 순서는 상이하다: α-ρ-φ 대비 β-φ-ρ. 일부 구현예는 PCR 생성물을 정제하고 후속되는 클러스터 생성에 적절한 주형의 크기-범위를 선택한다.
다음에 작업흐름(100)은 Illumina 플랫폼에서 PCR 생성물의 클러스터 증폭으로 진행된다. 작동(112) 참조. PCR 생성물을 클러스터링함으로써, 라이브러리는 상이한 샘플의 트랙을 유지하기 위해 어댑터상의 상이한 색인 서열을 사용하여, 예컨대 레인당 12개까지의 샘플로 복합화를 위해 모아질 수 있다.
클러스터 증폭 후에, 서열분석 판독은 Illumina 플랫폼에서의 합성에 의한 서열분석을 통해 얻어질 수 있다. 작동(114) 참조. 비록 여기서 기술된 어댑터 및 서열분석 프로세스가 Illumina 플랫폼을 기반으로 하지만, 다른 서열분석 기술, 특히 NGS 방법이 Illumina 플랫폼 대신 또는 그것에 더불어 사용될 수 있다.
도 1b 및 3A에 도시된 분절로부터 유도된 서열분석 판독은 또한 UMI α-ρ-φ 또는 β-φ-ρ를 포함하는 것으로 예상된다. 작업흐름(100)은 이런 특징을 사용하여 동일한 물리적 UMI(들) 및/또는 동일한 실제 UMI(들)을 가지는 판독들을 하나 이상의 그룹으로 붕괴시키고, 그로써 하나 이상의 공통 서열이 얻어진다. 작동(116) 참조. 공통 서열은 붕괴된 그룹의 판독들 전체에서 공통 기준과 일관되거나 충족시키는 뉴클레오타이드 염기들을 포함한다. 작동(116)에서 도시된 것과 같이, 물리적 UMI, 실제 UMI 및 위치 정보는 다양한 방식으로 조합되어 단편 또는 적어도 그것의 일부의 서열을 측정하기 위한 공통 서열을 얻기 위해 판독들이 붕괴될 수 있다. 일부 구현예에서, 물리적 UMI는 판독들을 붕괴하기 위해 실제 UMI와 조합된다. 다른 구현예에서, 판독들을 붕괴하기 위해 물리적 UMI 및 판독 위치가 조합된다. 판독 위치 정보, 예컨대 판독의 게놈 배위, 참조 서열 상의 위치 또는 염색체 위치는 상이한 위치 측정을 사용한 다양한 기법에 의해 얻어질 수 있다. 추가의 구현예에서, 물리적 UMI, 실제 UMI 및 판독 위치가 판독들을 붕괴하기 위해 조합된다.
마지막으로, 작업흐름(100)은 샘플로부터 핵산 단편의 서열을 측정하기 위하여 하나 이상의 공통 서열을 사용한다. 작동(118) 참조. 이것은 상기 기술된 제3 공통 서열 또는 단일 공통 서열로서 핵산 단편의 서열을 측정하는 것을 포함한다.
작동(108 내지 119)과 유사한 작동을 포함하는 특정 구현예에서, 비무작위 UMI를 사용하여 샘플로부터 핵산 분자를 서열분석하는 방법은 다음을 포함한다: (a) 어댑터를 샘플 중의 DNA 단편의 양 단부에 적용함으로써 DNA-어댑터 생성물을 얻는 단계, 여기서 어댑터는 각각 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 UMI를 포함하고; (b) 복수의 증폭된 폴리뉴클레오타이드를 얻기 위해 DNA-어댑터 생성물을 증폭하는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 복수의 비무작위 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독으로부터, 공동 비무작위 UMI 및 공동 판독 위치를 공유하는 판독을 확인하는 단계; 및 (e) 확인된 판독으로부터, DNA 단편의 적어도 일부의 서열을 측정하는 단계.
다양한 구현예에서, 얻어진 서열 판독은 물리적 UMI(예컨대 무작위 또는 비무작위 UMI)와 연계된다. 그런 구현예에서, UMI는 판독 서열의 부분 또는 상이한 판독의 서열의 부분이고, 상이한 판독 및 의문의 판독은, 예컨대 쌍 단부 판독 또는 위치 특이적 정보에 의해 동일한 단편으로부터 유래하는 것으로 알려진다. 예컨대 실제 UMI.
일부 구현예에서, 서열 판독은 쌍-단부 판독이다. 각각의 판독은 비무작위 UMI를 포함하거나 쌍-단부 판독을 통해 비무작위 UMI와 연계된다. 일부 구현예에서, 판독 길이는 DNA 단편보다 짧거나 단편의 길이의 절반보다 짧다. 그런 경우에, 전체 단편의 완전한 서열은 때로 측정되지 않는다. 오히려, 단편의 양 단부가 측정된다. 예를 들어, DNA 단편은 500 bp 길이일 수 있고, 그것으로부터 2개의 100 bp 쌍-단부 판독이 유도될 수 있다. 이 실례에서, 단편의 각 단부에서 100 염기가 측정될 수 있고, 단편의 중간에 있는 300 bp는 다른 판독의 정보를 사용하지 않고서는 측정될 수 없다. 일부 구현예에서, 만약 2개의 쌍-단부 판독이 중복될 정도로 충분히 길다면, 전체 단편의 완전한 서열은 2개의 판독으로부터 측정될 수 있다. 예를 들어, 도 5와 관련하여 기술되는 실례 참조.
일부 구현예에서, 모든 비무작위 UMI는 모든 다른 비무작위 UMI와 비무작위 UMI의 해당하는 서열 위치에서 적어도 2개의 뉴클레오타이드가 상이하다. 다양한 구현예에서, 복수의 비무작위 UMI는 약 10,000, 1,000 또는 100개 이하의 고유 비무작위 UMI를 포함한다. 일부 구현예에서, 복수의 비무작위 UMI는 96개의 고유 비무작위 UMI를 포함한다.
일부 구현예에서, 어댑터는 어댑터의 이중 가닥 영역에 듀플렉스 비무작위 UMI를 가지며, 각각의 판독은 한 단부에 제1 비무작위 UMI 및 다른 단부에 제2 비무작위 UMI를 포함한다.
어댑터 및 UMI
어댑터
상기 실례 작업흐름에서 기술된 어댑터 디자인에 더불어, 다른 어댑터 디자인들이 본 명세서에 개시된 방법 및 시스템의 다양한 구현예에 사용될 수 있다. 도 2a는 다양한 구현예에 채택될 수 있는 UMI(들)을 가지는 5개의 상이한 어댑터 디자인을 개략적으로 도시한다.
도 2a(i)는 표준 Illumina TruSeq® 이중 색인 어댑터를 도시한다. 어댑터는 부분적으로 이중-가닥이고 2개의 가닥에 해당하는 2개의 올리고뉴클레오타이드를 어닐링함으로써 형성된다. 2개의 가닥은 dsDNA 단편으로 결찰될 단부에서 2개의 올리고뉴클레오타이드가 어닐링되는 것을 허용하는 약간의 상보적인 염기쌍(예컨대 12 내지 17 bp)을 가진다. 쌍-단부 판독에 대해 양 단부에서 결찰될 dsDNA 단편은 또한 삽입물로서 언급된다. 다른 염기쌍은 2 가닥에서 상보적이지 않으며, 그 결과 2개의 헐렁한 돌출부를 가진 포크-형상 어댑터가 초래된다. 도 2a(i)의 실례에서, 상보적인 염기쌍은 판독 2 프라이머 서열 및 판독 1 프라이머 서열의 부분이다. 판독 2 프라이머 서열의 하류에는 단일 뉴클레오타이드 3'-T 돌출부가 있고, 그것은 서열분석될 dsDNA 단편의 단일 뉴클레오타이드 3'-A 돌출부에 상보적인 돌출부를 제공하여, 2개의 돌출부의 혼성화를 용이하게 한다. 판독 1 프라이머 서열은 포스페이트기가 부착되는, 상보적인 가닥의 5' 단부에 있다. 포스페이트기는 판독 1 프라이머 서열의 5' 단부를 DNA 단편의 3'-A 돌출부에 결찰시키는 것을 용이하게 한다. 5'에서 3' 방향으로, 5' 헐렁한 돌출부(상부 가닥)를 가지는 가닥에서, 어댑터는 P5 서열, i5 색인 서열 및 판독 2 프라이머 서열을 가진다. 3'에서 5' 방향으로, 3' 헐렁한 돌출부를 가지는 가닥에서, 어댑터는 P7' 서열, i7 색인 서열 및 판독 1 프라이머 서열을 가진다. P5 및 P7' 올리고뉴클레오타이드는 Illumina 서열분석 플랫폼의 유동 셀의 표면에 결합된 증폭 프라이머에 상보적이다. 일부 구현예에서, 색인 서열은 샘플의 공급원의 트랙을 유지하기 위한 수단을 제공함으로써 서열분석 플랫폼에서 다중 샘플의 복합화를 허용한다.
도 2a(ii)는 도 2a(i)에 도시된 표준 이중 색인 어댑터의 i7 색인 영역을 대체하는 단일 물리적 UMI를 가지는 어댑터를 도시한다. 이 디자인의 어댑터는 도 1b와 관련하여 상기에서 기술된 실례 작업흐름에서 도시된 것을 반영한다. 특정 실시형태에서, 물리적 UMI α 및 β는 이중-가닥 어댑터의 5' 아암에만 있도록 디자인되어서, 각 가닥에 단지 하나의 물리적 UMI를 갖는 결찰 생성물이 초래된다. 비교로, 어댑터의 양 가닥에 통합된 물리적 UMI는 각 가닥에 2개의 물리적 UMI를 가지는 결찰 생성물을 초래하여, 물리적 UMI를 서열화하기 위해 시간 및 경비를 배가시킨다. 그러나, 본 개시는 도 2a(iii) 내지 2A(vi)에 도시된 것과 같이, 공통 서열을 얻기 위해 상이한 판독들을 붕괴하는데 활용될 수 있는 추가의 정보를 제공하는, 어댑터의 양 가닥 상의 물리적 UMI를 사용하는 방법들을 구체화한다.
일부 구현예에서, 어댑터의 물리적 UMI는 무작위 UMI를 포함한다. 일부 구현예에서, 어댑터의 물리적 UMI는 비무작위 UMI를 포함한다.
도 2a(iii)은 표준 이중 색인 어댑터에 첨가된 2개의 물리적 UMI를 가지는 어댑터를 도시한다. 여기서 도시된 물리적 UMI는 무작위 UMI 또는 비무작위 UMI일 수 있다. 제1 물리적 UMI는 i7 색인 서열의 상류에 있고, 제2 물리적 UMI는 i5 색인 서열의 상류에 있다. 도 2a(iv)는 또한 표준 이중 색인 어댑터에 첨가된 2개의 물리적 UMI를 가지는 어댑터를 도시한다. 제1 물리적 UMI는 i7 색인 서열의 하류에 있고, 제2 물리적 UMI는 i5 색인 서열의 하류에 있다. 유사하게, 2개의 물리적 UMI는 무작위 UMI 또는 비무작위 UMI일 수 있다.
단일 표준 영역의 2개의 아암에 2개의 물리적 UMI를 가지는 어댑터, 예컨대 도 2a(iii) 및 2A(iv)에 도시된 것들은, 만약 2개의 상보적이지 않은 물리적 UMI와 연계된 선험적 또는 경험적 정보가 알려져 있다면, 이중 가닥 DNA 단편의 2개의 가닥을 연결시킬 수 있다. 예를 들어, 연구자는 UMI 1 및 UMI 2의 서열을 도 2a(iv)에 도시된 대로 디자인된 동일한 어댑터에 통합시키기 전에 그것들의 서열을 알 수 있다. 이런 회합 정보는 어댑터가 결찰된 DNA 단편의 두 가닥으로부터 UMI 1 및 UMI 2를 가지는 판독들이 유도되는 것을 추론하기 위해 사용될 수 있다. 그러므로, 당업자는 동일한 물리적 UMI를 가지는 판독들뿐 아니라, 2개의 상보적이지 않은 물리적 UMI의 어느 하나를 가지는 판독들도 나눌 수 있다. 흥미로운 것은, 그리고 하기에서 논의되는 것과 같이, "UMI 점핑"으로서 언급된 현상은 어댑터의 단일-가닥 영역 상의 물리적 UMI 중에서 회합의 추론을 복잡하게 만들 수 있다.
도 2a(iii) 및 도 2a(iv)의 어댑터의 2 가닥상의 2개의 물리적 UMI는 동일한 부위에 위치하지도 않고 서로 상보적이지도 않다. 그러나, 본 개시는 어댑터의 두 가닥 상의 동일한 부위에 있거나 및/또는 서로 상보적인 물리적 UMI를 사용하는 방법들을 구체화한다. 도 2a(v)는 2개의 물리적 UMI가 어댑터의 단부에서 또는 그 부근에서 이중 가닥 영역에서 상보적인 듀플렉스 어댑터를 도시한다. 일부 구현예에서, 어댑터의 단부 부근에 있는 물리적 UMI는 어댑터의 이중-가닥 영역의 단부로부터 1개의 뉴클레오타이드, 2개의 뉴클레오타이드, 3개의 뉴클레오타이드, 4개의 뉴클레오타이드, 5개의 뉴클레오타이드 또는 약 10개의 뉴클레오타이드일 수 있고, 단부는 어댑터의 갈라진 영역과는 반대쪽에 있다. 2개의 물리적 UMI는 무작위 UMI 또는 비무작위 UMI일 수 있다. 도 2a(vi)는 도 2a(v)의 어댑터와 유사하지만 더 짧은 어댑터를 도시하지만, 그것은 색인 서열 또는 유동 셀 표면 증폭 프라이머들에 상보적인 P5 및 P7' 서열을 포함하지 않는다. 유사하게, 2개의 물리적 UMI는 무작위 UMI 또는 비무작위 UMI일 수 있다.
단일-가닥의 아암에 하나 이상의 단일-가닥 물리적 UMI를 가지는 어댑터와 비교하여, 이중-가닥 영역에 이중-가닥 물리적 UMI를 가지는 어댑터는 도 2a(v) 및 2A(vi)에 도시된 것과 같이, 어댑터가 결찰되는 이중 가닥 DNA 단편의 두 가닥 사이에 직접적인 결합을 제공할 수 있다. 이중-가닥의 물리적 UMI의 두 가닥이 서로 상보적이기 때문에, 이중-가닥 UMI의 두 가닥 사이의 회합은 상보적인 서열에 의해 내재적으로 반영되고, 선험적인 또는 경험적인 정보 중 어느 하나를 필요로 하지 않으면서 수립될 수 있다. 이 정보는 어댑터의 이중-가닥의 물리적 UMI의 2개의 상보적인 서열을 가지는 판독들이 어댑터가 결찰된 동일한 DNA 단편으로부터 유도되지만, 물리적 UMI의 2개의 상보적인 서열이 DNA 단편의 한 가닥의 3' 단부 및 다른 가닥의 5' 단부에 결찰되는 것을 추론하기 위해 사용될 수 있다. 그러므로, 당업자는 두 단부 상의 동일한 순서의 2개의 물리적 UMI 서열을 가지는 판독들뿐 아니라, 두 단부 상의 역순서의 2개의 상보적인 서열을 가지는 판독들도 나눌 수 있다.
일부 실시형태에서, 짧은 물리적 UMI가 어댑터로 통합하는 것이 더 쉽기 때문에 상대적으로 짧은 물리적 UMI를 사용하는 것이 유익할 수 있다. 나아가, 더 짧은 물리적 UMI는 증폭된 단편에서 서열화하는 것이 더 빠르고 더 쉽다. 그러나, 물리적 UMI가 매우 짧기 때문에, 상이한 물리적 UMI의 총 수는 샘플 프로세싱에 필요한 어댑터 분자의 수보다 적게 될 수 있다. 충분한 어댑터를 제공하기 위하여, 동일한 UMI는 둘 이상의 어댑터 분자에서 반복되어야 할 것이다. 그런 시나리오에서, 동일한 물리적 UMI를 가지는 어댑터가 다중 공급원 DNA 분자에 결찰될 수 있다. 그러나, 이들 짧은 물리적 UMI는, 실제 UMI 및/또는 판독의 배열 위치와 같은 다른 정보와 조합될 때, 판독들을 샘플 중의 특정 공급원 폴리뉴클레오타이드 또는 DNA 단편으로부터 유도되는 것으로서 독특하게 확인하기에 충분한 정보를 제공할 수 있다. 이것은 동일한 물리적 UMI가 2개의 상이한 단편에 결찰될 수 있더라도, 2개의 상이한 단편이 또한 동일한 배열 위치를 가지는 것이 발생하거나, 또는 실제 UMI로서 작용하는 하위서열들을 매칭하는 것같지 않기 때문이다. 그래서 만약 2개의 판독이 동일한 짧은 물리적 UMI 및 동일한 배열 위치(또는 동일한 실제 UMI)를 가진다면, 2개의 판독은 동일한 DNA 단편으로부터 유도될 가능성이 있다.
나아가, 일부 구현예에서, 판독 붕괴하기는 삽입물의 양 단부의 2개의 물리적 UMI를 기반으로 한다. 그런 구현예에서, 2개의 매우 짧은 물리적 UMI(예컨대 4 bp)가 DNA 단편의 공급원을 측정하기 위해 조합되고, 2개의 물리적 UMI의 조합된 길이는 상이한 단편들 중에서 구별하기에 충분한 정보를 제공한다.
다양한 구현예에서, 물리적 UMI는 약 12 염기쌍 또는 그 이하, 약 11 염기쌍 또는 그 이하, 약 10 염기쌍 또는 그 이하, 약 9 염기쌍 또는 그 이하, 약 8 염기쌍 또는 그 이하, 약 7 염기쌍 또는 그 이하, 약 6 염기쌍 또는 그 이하, 약 5 염기쌍 또는 그 이하, 약 4 염기쌍 또는 그 이하 또는 약 3 염기쌍 또는 그 이하이다. 물리적 UMI가 비무작위 UMI인 일부 구현예에서, UMI는 약 12 염기쌍 또는 그 이하, 약 11 염기쌍 또는 그 이하, 약 10 염기쌍 또는 그 이하, 약 9 염기쌍 또는 그 이하, 약 8 염기쌍 또는 그 이하, 약 7 염기쌍 또는 그 이하 또는 약 6 염기쌍 또는 그 이하이다.
UMI 점핑은 어댑터의, 예컨대 도 2a(ii) 내지 (iv)의 어댑터에서 하나의 아암 또는 두 아암 상의 물리적 UMI 중에서 회합의 추론에 영향을 미칠 수 있다. 이들 어댑터를 DNA 단편에 적용할 때, 증폭 생성물은 샘플 중의 단편들의 실제 수보다 더 큰 수의, 고유한 물리적 UMI를 가지는 단편들을 포함할 수 있는 것으로 관찰되었다.
나아가, 두 아암 상에 물리적 UMI를 가지는 어댑터가 적용될 때, 한 단부 상의 공동 물리적 UMI를 가지는 증폭된 단편들이 다른 단부 상의 다른 공동 물리적 UMI를 가지는 것으로 여겨진다. 그러나, 때로는 그렇지 않다. 예를 들어, 한 증폭 반응의 반응 생성물에서, 일부 단편은 그것들의 두 단부에 제1 물리적 UMI 및 제3 물리적 UMI를 가질 수 있고; 다른 단편은 제2 물리적 UMI 및 제3 물리적 UMI를 가질 수 있으며; 또 다른 단편은 제1 물리적 UMI 및 제2 물리적 UMI를 가질 수 있고; 또 추가의 단편은 제3 물리적 UMI 및 제4 물리적 UMI를 가질 수 있으며, 등등이다. 이 실례에서, 이들 증폭된 단편에 대한 공급원 단편(들)은 확인하는 것이 어려울 수 있다. 분명히, 증폭 프로세스 중에, 물리적 UMI는 다른 물리적 UMI에 의해 "교환"될 수 있었다.
이런 UMI 점핑 문제를 해명하기 위한 한 가지 가능한 접근법은 동일한 공급원 분자로부터 유도되는 것으로서 두 UMI를 모두 공유하는 단편만을 생각하는 한편, 단지 하나만의 UMI를 공유하는 단편들은 분석으로부터 배제될 것이다. 그러나, 단지 하나만의 물리적 UMI를 공유하는 이들 단편의 일부는 실제로 두 물리적 UMI를 공유하는 것과 동일한 분자로부터 유도될 수 있다. 단지 하나의 물리적 UMI를 공유하는 단편들을 검토로부터 배제함으로써 유용한 정보를 잃을 수 있다. 다른 가능한 접근법은 동일한 공급원 분자로부터 유도되는 것으로서 하나의 공동 물리적 UMI를 가지는 임의의 단편들을 고려한다. 그러나 이 접근법은 2개의 물리적 UMI를 하류 분석을 위해 단편들의 두 단부상에 조합하는 것을 허용하지 않는다. 나아가, 상기 실례에 대해 이들 중 어느 접근법하에서도 제1 및 제2 물리적 UMI를 공유하는 단편들은 제3 및 제4 물리적 UMI를 공유하는 단편들과 동일한 공급원 분자로부터 유도되는 것으로 여겨지지는 않을 것이다. 이것은 사실일 수도 있고 사실이 아닐 수도 있다. 제3 접근법은 단일-가닥 영역의 양 가닥의 물리적 UMI를 가진 어댑터들, 예컨대 도 2a(v) 내지 (vi)의 어댑터들을 사용함으로써 UMI 점핑 문제를 해명할 수 있다. 제3 접근법은 UMI 점핑 기저의 가상 메커니즘의 설명에 이어서 하기에서 한층 더 설명된다.
도 2b는 UMI 점핑이 두 아암에 2개의 물리적 UMI를 가지는 어댑터를 포함하는 PCR 반응에서 일어나는 가상의 프로세스를 예시한다. 2개의 물리적 UMI는 무작위 UMI 또는 비무작위 UMI일 수 있다. UMI 점핑의 실제 기저 메커니즘 및 본원에서 기술된 가상의 프로세스는 본 명세서에 개시된 어댑터 및 방법의 유용성에 영향을 미치지 않는다. PCR 반응은 적어도 하나의 이중 가닥 공급원 DNA 단편(202) 및 어댑터(204 및 206)를 제공함으로써 시작된다. 어댑터(204 및 206)는 도 2a(iii) 내지 (iv)에 도시된 어댑터들과 유사하다. 어댑터(204)는 그것의 5' 아암에 P5 어댑터 서열 및 α1 물리적 UMI를 가진다. 어댑터(204)는 또한 그것의 3' 아암에 P7' 어댑터 서열 및 α2 물리적 UMI를 가진다. 어댑터(206)는 그것의 5' 아암에 P5 어댑터 서열 및 β2 물리적 UMI를, 그리고 3' 아암에 P7' 어댑터 서열 및 β1 물리적 UMI를 가진다. 프로세스는 어댑터(204)와 어댑터(206)를 단편(202)에 결찰시킴으로써 진행되고, 결찰 생성물(208)이 얻어진다. 프로세스는 결찰 생성물(208)을 변성시킴으로써 진행되고, 그 결과 단일 가닥의, 변성된 단편(212)이 초래된다. 한편, 반응 혼합물은 자주 이 단계에서 잔류 어댑터를 포함한다. 프로세스가 이미 과잉의 어댑터를 제거하는 것, 예컨대 고체상 가역 고정화(SPRI) 비드를 사용하는 것을 포함하는 것 때문에, 일부 어댑터는 여전히 반응 혼합물에 미사용인채로 남겨진다. 그런 남은 어댑터는 어댑터(206)과 유사한 어댑터(210)로서 예시되는데, 단 어댑터(210)은 그것의 3' 및 7' 아암에 각각 물리적 UMI γ1 및 γ2를 가진다. 변성된 단편(212)을 생성하는 변성 조건은 또한, 그것의 P7' 어댑터 서열 부근에 물리적 UMI γ1을 가지는 변성된 어댑터 올리고뉴클레오타이드(216)를 생성한다.
PCR 반응은 PCR 프라이머(214)로 변성된 단편(212)을 프라이밍하는 단계와 프라이머(214)를 연장시키는 단계, 그로써 이중-가닥 단편을 형성하고 다음에 변성시켜 단편(212)에 상보적인 단일-가닥의 중간체 단편(220)을 형성하는 것을 포함한다. PCR 프로세스는 또한 변성된 올리고뉴클레오타이드(216)를 PCR 프라이머(218)로 프라이밍하고 그 프라이머(218)를 연장시킴으로써 이중-가닥 단편을 형성하고 다음에 변성시켜 단편(212)에 상보적인 단일-가닥의 중간체 어댑터 올리고뉴클레오타이드(222)를 형성하는 것을 포함한다. PCR 증폭의 다음 사이클 전에, 중간체 어댑터 올리고뉴클레오타이드(222)는 P7' 단부 가까이 및 물리적 UMI β1의 하류에서 중간체 단편(220)에 혼성화한다. 혼성화된 영역은 어댑터(206) 및 어댑터(210)의 단일-가닥 영역에 해당하는데, 그것은 이들 단일-가닥 영역이 동일한 서열을 공유하기 때문이다.
중간체 단편(220) 및 중간체 어댑터 올리고뉴클레오타이드(222)의 혼성화된 생성물은 다음에 올리고뉴클레오타이드(222)의 5' 단부에서 P7' PCR 프라이머(224)에 의해 프라이밍되고 연장될 수 있는 주형을 제공한다. 연장 중에, 연장 주형은 중간체 어댑터 올리고뉴클레오타이드(222)가 끝날때 중간체 단편(220)으로 전환된다. 주형 전환은 UMI 점핑에 대한 가능한 메커니즘을 제공한다. 연장 및 변성 후에, 단일-가닥 단편(226)이 제조되고, 그것은 그렇지 않으면 중간체 단편(220)에 상보적이지만 중간체 단편(220)에서 물리적 UMI β1 대신에 물리적 UMI γ1을 가진다. 유사하게, 단일-가닥 단편(226)은 물리적 UMI β1 대신에 물리적 UMI γ1을 가지는 것을 제외하고 단편(212)과 동일하다.
개시의 일부 구현예에서, 어댑터, 예컨대 도 2a(v) 내지 (vi)의 어댑터의 이중-가닥 영역의 양 가닥에 물리적 UMI를 가지는 어댑터를 사용하는 것은 UMI 점핑을 방지하거나 감소시킬 수 있다. 이것은 이중-가닥 영역에서 하나의 어댑터 상의 물리적 UMI가 모든 다른 어댑터 상의 물리적 UMI와 상이하다는 사실로 인한 것일 수 있다. 이것은 중간체 어댑터 올리고뉴클레오타이드와 중간체 단편 사이의 상보성을 감소시키고, 그로써 중간체 올리고뉴클레오타이드(222) 및 중간체 단편(220)에 대해 도시된 것과 같은 혼성화를 피하는 것을 돕고, 그로써 UMI 점핑이 감소되거나 방지된다.
무작위 물리적 UMI 및 비무작위 물리적 UMI
상기 기술된 어댑터의 일부 구현예에서, 어댑터의 물리적 UMI는 무작위 UMI를 포함한다. 일부 구현예에서, 각각의 무작위 UMI는 DNA 단편에 적용된 모든 다른 무작위 UMI와 상이하다. 달리 말하면, 무작위 UMI는 서열 길이(들)이 제시되면 모든 가능한 상이한 UMI를 포함하여 UMI의 세트로부터의 대체 없이 무작위로 선택된다. 다른 구현예에서, 무작위 UMI는 대체와 함께 무작위로 선택된다. 이들 구현예에서, 2개의 어댑터는 무작위 기회로 인해 동일한 UMI를 가질 수 있다.
일부 구현예에서, 어댑터의 물리적 UMI는 비무작위 UMI를 포함한다. 일부 구현예에서, 다중 어댑터는 동일한 비무작위 UMI 서열을 포함한다. 예를 들어, 96개의 상이한 비무작위 UMI의 세트가 샘플로부터의 100,000개의 구별되는 분자/단편에 적용될 수 있다. 일부 구현예에서, 세트의 각각의 비무작위 UMI는 세트의 모든 다른 UMI와 2개의 뉴클레오타이드가 상이하다. 달리 말하면, 각각의 비무작위 UMI는 그것의 뉴클레오타이드의 적어도 2개가 서열분석에 사용된 임의의 다른 비무작위 UMI의 서열을 매칭시키기 전에 대체될 것을 필요로 한다. 다른 구현예에서, 세트의 각각의 비무작위 UMI는 세트의 모든 다른 UMI와 3개 이상의 뉴클레오타이드가 상이하다.
도 2c는 이중-가닥 영역의 어댑터들의 양 가닥에 무작위 UMI를 갖는 어댑터의 제조 방법을 도시하고, 이때 두 가닥상의 두 어댑터는 서로 상보적이다. 프로세스는 혼성화된, 이중-가닥 영역 및 2개의 단일-가닥 아암을 가지는 서열분석 어댑터(230)를 제공함으로써 시작된다. 그 결과의 어댑터는 도 2a(v)에 도시된 것과 유사하다. 여기서 예시된 실례에서, D7XX 서열은 도 2a(v)의 i7 색인 서열에 해당하고; SBS12' 서열은 도 2a(v)의 판독 1 프라이머 서열에 해당하고; D50X는 도 2a(v)의 i5 색인 서열에 해당하며; SBS3은 도 2a(v)의 판독 2 프라이머 서열에 해당한다. 서열분석 어댑터(232)는 SBS12' 판독 프라이머 서열의 상류의 이중-가닥 혼성화 영역의 단부에서 15-량체 돌출부 CCANNNNANNNNTGG(서열번호 1)를 포함한다. 문자 N은 무작위 뉴클레오타이드를 나타내고, 그 중 A와TGG 사이의 4개는 SBS12' 가닥의 5'단부에 물리적 UMI를 제공하기 위해 사용될 것이다. 15-량체 돌출부는 Xcm1이 5'에서 CCA 및 3' 단부에 TGG를 가지는 15-량체를 인식하기 때문에, 제한 효소 Xcm1에 의해 인식될 수 있다. 프로세스(230)는 진행되어 다음에 연장 주형으로서 15-량체를 사용하여 SPS3 가닥의 3' 단부를 연장시킴으로써 연장 생성물(234)이 생성된다. 연장 생성물(234)은 SBS12' 가닥의 아데노신에 해당하는 SBS3 가닥 상의 15-량체의 중간지점에서 타이로신을 가진다. 타이로신 잔기는 프로세스(230)의 어댑터 단부 생성물의 이중-가닥 영역의 3' 단부에서의 잔기가 될 것이다. 타이로신 잔기는 삽입물의 3' A-테일에서 아데노신 잔기에 혼성화할 수 있다.
프로세스(230)는 제한 효소 Xcm1을 적용함으로써 진행되어 연장 생성물(234)의 새롭게 연장된 단부가 소화된다. Xcm1은 5'에서 CCA 및 3' 단부에서 TGG를 가지는 15-량체를 인식하는 제한 엔도뉴클레아제이고, 그것의 포스포다이에스테라제 활성은 CAA 5' 단부로부터 세어서 제8 뉴클레오타이드와 제9 뉴클레오타이드 사이의 포스포다이에스테르 결합을 절단함으로써 핵산 가닥을 소화한다. 이런 소화 메커니즘은 SBS12' 가닥에서 아데노신 잔기 바로 아래 및 SBS3 가닥에서 타이로신 잔기의 아래에서 연장 생성물(234)의 이중 가닥 단부를 소화시킨다. 소화는 SBS12' 서열 상류의 이중-가닥 영역의 5' 단부에 4개의 무작위 뉴클레오타이드를 가지는 어댑터(236)를 초래한다. 어댑터(236)는 또한 SBS3 서열의 하류에 있는 이중-가닥 영역의 3' 단부에 타이로신 돌출부 및 4개의 무작위 뉴클레오타이드를 가진다. 각 가닥의 4개의 무작위 뉴클레오타이드는 물리적 UMI를 제공하고, 두 가닥상의 2개의 물리적 UMI는 서로 상보적이다.
도 2d는 어댑터에서 뉴클레오타이드를 예시하는, SBS13 아암 상부 가닥(서열번호 2) 및 SBS3 아암 하부 가닥(서열번호 3)을 가지는 어댑터의 다이아그램을 도시한다. 어댑터는 도 2c의 어댑터(236)와 유사하지만, 어댑터의 Xcm1의 인식 부위와 판독 서열 사이에 4개의 염기쌍을 가지고 있다. 또한, 도 2d에 도시된 어댑터는 어댑터에서 P7/P5 및 색인 서열을 제거한 어댑터(236)의 단축 버전으로, 어댑터 안정성을 증가시킨다. 이중-가닥 영역에서 어댑터의 상부 가닥(서열번호 2)에서, 5' 단부로부터 출발하여, 어댑터는 물리적 UMI에 대해 4개의 무작위 뉴클레오타이드와, 이어서 제한 효소 Xcm1에 대한 인식 부위로서 TGG, 이어서 판독 서열의 상류의 TCGC를 가진다. TCGC 뉴클레오타이드는 어댑터에 안정성을 제공하기 위해 통합된다. 그것들은 일부 구현예에서는 선택적이다.
뉴클레오타이드는 어댑터 제조, 샘플 제조 및 프로세싱에서 안정성을 제공하기 위해 첨가될 수 있다. 초기 어댑터 주형을 생성하는 상부 및 하부 올리고의 어닐링 효율은 실온에서도 추가의 TCGC 염기를 제공할 때 증대된다. 클레노우 연장 및 Xcm1 소화가 어댑터 제조 중에 고온(각각 30℃ 및 37℃)에서 수행되기 때문에, 추가의 TCGC는 어댑터 안정성을 증대시킬 수 있다. 어댑터 안정성을 개선하기 위하여 TCGC 외에 상이한 서열 또는 달라지는 뉴클레오타이드 길이를 사용하는 것이 가능하다.
일부 구현예에서, 안정화 서열 이외의 추가의 서열이 DNA 단편에 대한 고유 색인을 제공하기 위해 어댑터의 기능에 영향을 미치지 않으면서 다른 목적에 대해 어댑터에 통합될 수 있다. 이중-가닥 영역의 어댑터의 하부 가닥(서열번호 3)은 그것이 3' 단부에서 T 돌출부를 포함하는 것을 제외하고 상부 가닥에 상보적이다. 하부 가닥에 있는 4개의 무작위 뉴클레오타이드는 제2 물리적 UMI를 제공한다.
도 2c 및 2D에 도시된 것들과 같은 무작위 UMI는 동일한 서열 길이의 비무작위 UMI보다 더 큰 수의 고유 UMI를 제공한다. 달리 말하자면, 무작위 UMI가 비무작위 UMI보다 더 고유할 가능성이 있다. 그러나, 일부 구현예에서, 비무작위 UMI는 제조하기가 더 쉽거나 더 높은 전환 효율을 가질 수 있다. 비무작위 UMI가 서열 위치 및 실제 UMI와 같은 다른 정보와 조합될 때, 그것들은 DNA 단편의 공급원 분자의 색인을 만들기 위한 효과적인 메커니즘을 제공할 수 있다.
다양한 구현예에서, 비무작위 UMI는 한정하는 것은 아니지만, UMI 서열 내의 오류를 검출하기 위한 수단, 전환 효율, 분석 양립성, GC 함량, 단일중합체 및 제조 고려사항을 포함하여, 다양한 인자를 고려하여 확인된다.
예를 들어, 비무작위 UMI는 오류 검출을 용이하게 하기 위한 메커니즘을 제공하기 위해 디자인될 수 있다. 도 2e는 서열분석 프로세스 중에 UMI 서열에서 일어나는 오류를 검출하기 위한 메커니즘을 제공하는 비무작위 UMI 디자인을 개략적으로 도시한다. 이 디자인에 따르면, 각각의 비무작위 UMI는 6개의 뉴클레오타이드를 가지며 모든 다른 UMI와 적어도 2개의 뉴클레오타이드가 상이하다. 도 2e에 도시되어 있는 것과 같이, 비무작위 UMI(244)는 UMI(244)의 밑줄친 뉴클레오타이드 T 및 G 및 UMI(242)의 뉴클레오타이드 A 및 C에 의해 나타난 것과 같이, 좌측으로부터 처음 2개의 뉴클레오타이드에서 비무작위 UMI(242)와 상이하다. UMI(246)는 판독의 부분으로서 확인된 서열이고, 프로세스에 제공된 어댑터들의 모든 다른 UMI와 상이하다. 판독의 UMI 서열이 아마도 어댑터의 UMI로부터 유도되기 때문에, 오류는 증폭 또는 서열분석 중과같이, 서열분석 프로세스 중에 일어날 가능성이 있다. UMI(242 및 244)는 판독에서 UMI(246)와 가장 유사한 2개의 UMI로서 예시된다. UMI(246)는 좌측으로부터 첫 번째 뉴클레오타이드에서 A 대신 T로, UMI(242)와 한개의 뉴클레오타이드가 상이한 것을 알 수 있다. 더욱이, UMI(246)는 또한 좌측으로부터 두 번째 뉴클레오타이드에서 G 대신 C임에도 불구하고 UMI(244)와 한 개의 뉴클레오타이드가 상이하다. 판독의 UMI(246)가 예시된 정보로부터, UMI(242) 및 UMI(244) 둘 다와 한 개의 뉴클레오타이드가 상이하기 때문에, UMI(246)가 UMI(242) 또는 UMI(244)로부터 유도되는지의 여부는 측정될 수 없다. 그러나, 많은 다른 시나리오에서, 판독의 UMI 오류는 2개의 가장 유사한 UMI와 동등하게 상이하지 않다. UMI(248)에 대한 실례에서 알 수 있는 것과 같이, UMI(242) 및 UMI(244)는 또한 UMI(248)에 가장 유사한 2개의 UMI이다. UMI(248)는 좌측으로부터 세 번째 뉴클레오타이드에서 T 대신 A로, 한 개의 뉴클레오타이드가 UMI(242)와 상이한 것을 알 수 있다. 대조적으로, UMI(248)는 UMI(244)와 3개의 뉴클레오타이드가 상이하다. 그러므로, UMI(248)가 UMI(244) 대신 UMI(242)로부터 유도되는 것을 측정할 수 없고, 오류는 좌측으로부터 세 번째 뉴클레오타이드에서 일어날 가능성이 있다.
실제 UMI
실제 UMI로 돌아오면, 공급원 DNA 분자의 단부 위치에서, 또는 그것과 관련하여 규정되는 그런 실제 UMI들은 단부 위치의 위치가 일반적으로 일부 단편화 과정으로 및 자연적으로 발생하는 cfDNA로와 같이 무작위일 때 개별적인 공급원 DNA 분자를 독특하게 또는 거의 독특하게 규정할 수 있다. 샘플이 상대적으로 적은 공급원 DNA 분자를 함유할 때, 실제 UMI는 자체가 개별적인 공급원 DNA 분자를 독특하게 확인할 수 있다. 2개의 실제 UMI의 조합을 사용하여, 공급원 DNA 분자의 상이한 단부와 회합된 각각은 실제 UMI 단독으로 공급원 DNA 분자를 독특하게 확인할 수 있는 가능성을 증가시킨다. 물론, 하나 또는 2개의 실제 UMI가 단독으로 공급원 DNA 분자를 독특하게 확인할 수 없는 상황에서도, 그런 실제 UMI와 하나 이상의 물리적 UMI의 조합이 성공적일 수 있다.
만약 2개의 판독이 동일한 DNA 단편으로부터 유도된다면, 동일한 염기쌍을 가지는 2개의 하위서열은 또한 판독에서 동일한 상대적 위치를 가질 것이다. 반대로, 만약 2개의 판독이 2개의 상이한 DNA 단편으로부터 유도된다면, 동일한 염기쌍을 가지는 2개의 하위서열은 판독에서 정확한 동일한 상대적 위치를 가질 가능성은 없다. 그러므로, 만약 둘 이상의 판독으로부터의 둘 이상의 하위서열이 둘 이상의 판독에서 동일한 염기쌍 및 동일한 상대적 위치를 가진다면, 둘 이상의 판독은 동일한 단편으로부터 유도되는 것으로 추론될 수 있다.
일부 구현예에서, DNA 단편의 단부에 또는 그 부근에 있는 하위서열들이 실제 UMI로서 사용된다. 이런 디자인 선택은 일부 실질적인 장점을 가진다. 먼저, 이들 하위서열의 판독 상의 상대적 위치는, 그것들이 판독의 시작점에 또는 그 부근에 있고 시스템은 실제 UMI를 찾기 위해 오프셋을 사용할 필요가 없기 때문에, 쉽게 확인된다. 나아가, 단편의 단부에 있는 염기쌍들이 먼저 서열분석되기 때문에, 그런 염기쌍은 판독이 상대적으로 짧아도 활용될 수 있다. 더욱이, 긴 판독에서 먼저 측정된 염기쌍은 나중에 측정된 것들보다 낮은 서열분석 오류율을 가진다. 그러나, 다른 구현예에서, 판독의 단부들로부터 멀리 위치한 하위서열들은 실제 UMI로서 사용될 수 있지만, 판독에서 그것들의 상대적인 위치는 판독들이 동일한 단편으로부터 얻어지는 것을 추론하기 위해 확인될 필요가 있을 수 있다.
판독의 하나 이상의 하위서열들은 실제 UMI로서 사용될 수 있다. 일부 구현예에서, 각각 공급원 DNA 분자의 상이한 단부로부터 추적된 2개의 하위서열이 실제 UMI로서 사용된다. 다양한 구현예에서, 실제 UMI는 약 24 염기쌍 또는 그 이하, 약 20 염기쌍 또는 그 이하, 약 15 염기쌍 또는 그 이하, 약 10 염기쌍 또는 그 이하, 약 9 염기쌍 또는 그 이하, 약 8 염기쌍 또는 그 이하, 약 7 염기쌍 또는 그 이하 또는 약 6 염기쌍 또는 그 이하이다. 일부 구현예에서, 실제 UMI는 약 6 내지 10 염기쌍이다. 다른 구현예에서, 실제 UMI는 약 6 내지 24 염기쌍이다.
판독 붕괴하기 및 공통 서열 얻기
UMI를 사용하는 다양한 구현예에서, 동일한 UMI(들)을 가지는 다중 서열 판독(들)은 다음에 공급원 DNA 분자의 서열을 측정하기 위해 사용되는, 하나 이상의 공통 서열을 얻기 위해 붕괴된다. 다수의 구별되는 판독이 동일한 구별되는 경우의 공급원 DNA 분자로부터 생성될 수 있고, 이들 판독은 본 명세서에 기술된 공통 서열을 제조하기 위하여 비교될 수 있다. 경우들은 서열분석 전에 공급원 DNA 분자를 증폭시킴으로써 생성되고, 구별되는 서열분석 작동들이, 각각 공급원 DNA 분자의 서열을 공유하는, 구별되는 증폭 생성물에 대해 수행될 수 있다. 물론, 증폭은 오류를 도입할 수 있어서, 구별되는 증폭 생성물의 서열들은 차이가 있다. Illumina 합성에 의한 서열분석과 같은 일부 서열분석 기술의 맥락에서, 공급원 DNA 분자 또는 그것의 증폭 생성물은 유동 셀의 영역에 결합된 DNA 분자의 클러스터를 형성한다. 클러스터의 분자들은 포괄적으로 판독을 제공한다. 전형적으로, 적어도 2개의 판독이 공통 서열을 제공하기 위해 필요하다. 100, 1000 및 10,000의 서열분석 깊이가 개시된 실시형태에서 낮은 대립유전자 빈도(예컨대 약 1% 이하)에 대한 공통 판독을 생성하기 위해 유용한 서열분석 깊이의 실례들이다.
일부 구현예에서, UMI 또는 UMI의 조합을 공유하는 판독들의 100%에 걸쳐 일관되는 뉴클레오타이드들이 공통 서열에 포함된다. 다른 구현예에서, 공통 기준은 100%보다 낮을 수 있다. 예를 들어, 90% 공통 기준이 사용될 수 있는데, 그것은 그룹에서 90% 이상의 판독에 존재하는 염기쌍이 공통 서열에 포함되는 것을 의미한다. 다양한 구현예에서, 공통 기준은 약 30%, 약 40%, 약 50%, 약 60%, 약 70%, 약 80%, 약 90%, 약 95% 또는 약 100%로 설정될 수 있다.
물리적 UMI 및 실제 UMI에 의한 붕괴
다중 UMI를 포함하는 판독들을 붕괴하기 위해 다중 기법들이 사용될 수 있다. 일부 구현예에서, 공동 물리적 UMI를 공유하는 판독들은 공통 서열을 얻기 위해 붕괴될 수 있다. 일부 구현예에서, 만약 공동 물리적 UMI가 무작위 UMI라면, 무작위 UMI는 샘플 중의 DNA 단편의 특정 공급원 분자를 확인하기에 충분히 독특할 수 있다. 다른 구현예에서, 만약 공동 물리적 UMI가 비무작위 UMI라면, UMI는 특정 공급원 분자를 확인하기 위해 자체적으로 충분히 독특하지 않을 수 있다. 어느 경우든, 물리적 UMI는 공급원 분자의 색인을 제공하기 위해 실제 UMI와 조합될 수 있다.
상기 기술되고 도 1b, 3A 및 4에 도시된 작업흐름의 실례에서, 일부 판독은 α-ρ-φ UMI를 포함하는 한편, 다른 것들은 β-ρ-φ UMI를 포함한다. 물리적 UMI α는 α를 가지는 판독을 생성한다. 만약 작업흐름에 사용된 모든 어댑터가 상이한 물리적 UMI(예컨대 상이한 무작위 UMI)를 가진다면, 어댑터 영역에서 α를 가지는 모든 판독은 DNA 단편의 동일한 가닥으로부터 유도될 가능성이 있다. 유사하게 물리적 UMI β는 β를 가지는 판독을 생성하고, 그것들은 모두 DNA 단편의 동일한 상보 가닥으로부터 유도된다. 그러므로 한 개의 공통 서열을 얻기 위하여 α를 포함하는 모든 판독을 붕괴하고, 다른 공통 서열을 얻기 위하여 β를 포함하는 모든 판독을 붕괴하는 것이 유용하다. 이것은 도 4b 내지 도 4c에서 제1 수준 붕괴로서 도시된다. 그룹의 모든 판독이 샘플 중의 동일한 공급원 폴리뉴클레오타이드로부터 유도되기 때문에, 공통 서열에 포함된 염기쌍들은 공급원 폴리뉴클레오타이드의 진정한 서열을 반영할 가능성이 있는 한편, 공통 서열로부터 배제된 염기쌍은 작업흐름에 도입된 변이 또는 오류를 반영할 가능성이 있다.
또한, 실제 UMI ρ 및 φ는 하나 또는 두 실제 UMI를 포함하는 판독들이 동일한 공급원 DNA 단편으로부터 유도되는 것을 측정하기 위한 정보를 제공할 수 있다. 실제 UMI ρ 및 φ가 공급원 DNA 단편에 대해 내부적이기 때문에, 실제 UMI의 이용은 실제로는 제조 또는 서열분석에 오버헤드를 첨가하지 않는다. 판독으로부터 물리적 UMI의 서열들을 얻은 후, 판독의 하나 이상의 하위-서열이 실제 UMI로서 측정될 수 있다. 만약 실제 UMI가 충분한 염기쌍을 포함하고 판독 상의 동일한 상대적 위치를 가진다면, 그것들은 판독을 공급원 DNA 단편으로부터 유도된 것으로서 독특하게 확인할 수 있다. 그러므로, 하나 또는 두 실제 UMI ρ 및 φ를 가지는 판독들은 공통 서열을 얻기 위해 붕괴될 수 있다. 실제 UMI 및 물리적 UMI의 조합은, 예컨대 도 3a 및 도 4a 내지 도 4c에 도시된 것과 같이, 단지 하나의 물리적 UMI가 각 가닥의 제1 수준 공통 서열에 배정될 때 제2-수준 붕괴를 안내하기 위한 정보를 제공할 수 있다. 그러나, 일부 구현예에서, 실제 UMI를 사용하는 이런 제2 수준 붕괴는 과잉으로 입력된 DNA 분자가 있거나 단편화가 무작위가 아니라면 어려울 수 있다.
대체 실시형태에서, 도 3b 및 도 4d 및 도 4e에 도시된 것들과 같이, 양 단부에 2개의 물리적 UMI를 가지는 판독들은 물리적 UMI와 실제 UMI의 조합을 기반으로 제2-수준 붕괴로 붕괴될 수 있다. 이것은 특히 물리적 UMI가 실제 UMI를 사용하지 않으면서 공급원 DNA 단편을 독특하게 확인하기에는 너무 짧을 때 도움이 된다. 이들 실시형태에서, 제2 수준 붕괴가 도 3b에서 도시된 것과 같은 물리적 듀플렉스 UMI를 사용하여, 동일한 DNA 분자로부터 α-ρ-φ-β 공통 판독 및 β-φ-ρ-α 공통 판독을 붕괴시킴으로써 실행될 수 있고, 그로써 모든 판독 중에서 일관된 뉴클레오타이드를 포함하는 공통 서열이 얻어진다.
본 명세서에 기술된 UMI 및 붕괴 계획을 사용하여, 단편이 매우 낮은 대립유전자 빈도의 대립유전자를 포함할지라도 다양한 실시형태가 단편의 측정된 서열에 영향을 미치는 오류의 상이한 공급원을 억제할 수 있다. 동일한 UMI(물리적 및/또는 실제)를 공유하는 판독들은 함께 그룹화된다. 그룹화된 판독을 붕괴함으로써, PCR, 라이브러리 제조, 클러스터링 및 서열분석 오류로 인한 변이체들(SNV 및 작은 indel)이 제거될 수 있다. 도 4a 내지 도 4e는 실례 작업흐름에서 개시된 방법이 이중 가닥 DNA 단편의 서열을 측정하는 데 있어 오류의 상이한 공급원을 어떻게 억제할 수 있는지를 예시한다. 예시된 판독은 도 3a 및 도 4a 내지 도 4c의 α-ρ-φ 또는 β-φ-ρ UMI 및 도 3b, 도 4d 및 도 4e의 α-ρ-φ-β 및 β-φ-ρ-α UMI를 포함한다. α 및 β UMI는 도 3a 및 도 4a 내지 도 4c의 싱글플렉스(singleplex) 물리적 UMI이다. α 및 β UMI는 도 3b, 도 4d 및 도 4e의 듀플렉스 UMI이다. 실제 UMI ρ 및 φ는 DNA 단편의 단부에 위치한다.
도 4a 내지 도 4c에 도시된 것과 같은 싱글플렉스 물리적 UMI를 사용하는 방법은 먼저 제1 수준 붕괴로서 예시된, 동일한 물리적 UMI α 또는 β를 가지는 판독을 붕괴하는 것을 포함한다. 제1 수준 붕괴는 물리적 UMI α를 가지는 판독에 대해 α 공통 서열을 얻는데, 그 판독은 이중-가닥 단편의 한 가닥으로부터 유도된다. 제1 수준 붕괴는 또한 물리적 UMI β를 가지는 판독에 대해 β 공통 서열을 얻는데, 그 판독은 이중-가닥 단편의 다른 가닥으로부터 유도된다. 제2 수준 붕괴에서, 방법은 α 공통 서열 및 β 공통 서열로부터 제3 공통 서열을 얻는다. 제3 공통 서열은 동일한 듀플렉스 실제 UMI ρ 및 φ를 가지는 판독들로부터의 공통 염기쌍을 반영하는데, 그 판독들은 공급원 단편의 두 상보적인 가닥으로부터 유도된다. 마지막으로, 이중 가닥 DNA 단편의 서열은 제3 공통 서열로서 측정된다.
도 4d 내지 도 4e에 도시된 것과 같은 듀플렉스 물리적 UMI를 사용하는 방법은 먼저 제1 수준 붕괴로서 예시된, 5'에서 3' 방향으로 α→β 순서로의 물리적 UMI α 및 β를 가지는 붕괴 판독을 포함한다. 제1 수준 붕괴는 물리적 UMI α 및 β를 가지는 판독에 대해 α-β 공통 서열을 얻는데, 그 판독은 이중-가닥 단편의 제1 가닥으로부터 유도된다. 제1 수준 붕괴는 또한 5'에서 3' 방향으로 β→α 순서로의 물리적 UMI β 및 α를 가지는 판독에 대해 β-α 공통 서열을 얻는데, 그 판독은 이중-가닥 단편의 제1 가닥에 상보적인 제2 가닥으로부터 유도된다. 제2 수준 붕괴에서, 방법은 α-β 공통 서열 및 β-α 공통 서열로부터 제3 공통 서열을 얻는다. 제3 공통 서열은 동일한 듀플렉스 실제 UMI ρ 및 φ를 가지는 판독들로부터의 공통 염기쌍을 반영하는데, 그 판독들은 공급원 단편의 두 가닥으로부터 유도된다. 마지막으로, 이중 가닥 DNA 단편의 서열은 제3 공통 서열로서 측정된다.
도 4a는 제1-수준 붕괴가 서열분석 오류를 억제할 수 있는 방법을 도시한다. 서열분석 오류는 샘플 및 라이브러리 제조(예컨대 PCR 증폭) 후에 서열분석 플랫폼에서 일어난다. 서열분석 오류는 상이한 판독에 상이한 오류성 염기를 도입시킬 수 있다. 진정한 양성(positive) 염기는 솔리드 문자(solid letter)로 도시되는 한편, 잘못된 양성 염기는 해치 문자(hatched letter)에 의해 도시된다. α-ρ-φ 패밀리에서 상이한 판독 상의 잘못된 양성 뉴클레오타이드는 α 공통 서열로부터 배제되었다. α-ρ-φ 패밀리 판독의 좌측 단부에 도시된 진정한 양성 뉴클레오타이드 "A"는 α 공통 서열에 보유된다. 유사하게, β-φ-ρ 패밀리의 상이한 판독상의 잘못된 양성 뉴클레오타이드는 β 공통 서열로부터 배제되었고, 진정한 양성 뉴클레오타이드 "A"를 보유하였다. 여기서 도시된 것과 같이, 제1 수준 붕괴는 서열분석 오류를 효과적으로 제거할 수 있다. 도 4a는 또한 실제 UMI ρ 및 φ에 의존하는 선택적인 제2-수준 붕괴를 보여준다. 이런 제2-수준 붕괴는 상기 설명된 것과 같은 오류를 추가로 억제할 수 있지만, 그런 오류는 도 4a에는 도시되지 않는다.
PCR 오류는 클러스터링 증폭 전에 일어난다. 그러므로, PCR 프로세스에 의해 단일 가닥의 DNA에 도입된 하나의 오류성 염기쌍은 클러스터링 증폭 중에 증폭될 수 있고, 그로써 다중 클러스터 및 판독에 나타난다. 도 4b 및 도 4d에 도시되어 있는 것과 같이, PCR 오류에 의해 도입된 잘못된 양성 염기쌍은 많은 판독에 나타날 수 있다. α-ρ-φ(도 4b) 또는 α-β(도 4d) 패밀리 판독의 "T" 염기 및 β-φ-ρ(도 4b) 또는 β-α(도 4d) 패밀리 판독의 "C" 염기는 그런 PCR 오류들이다. 대조적으로, 도 4a에 도시된 서열분석 오류는 동일한 패밀리의 하나 또는 소수의 판독을 나타낸다. PCR 서열분석 오류들이 패밀리의 많은 판독에서 나타나기 때문에, 한 가닥의 판독의 제1-수준 붕괴는, 제1-수준 붕괴가 서열분석 에러를 제거한다 하더라도, PCR 오류를 제거하지 못한다(예컨대 G 및 A는 도 4b에서 α-ρ-φ 패밀리로부터 및 도 4d에서 α-β 패밀리로부터 제거된다). 그러나, PCR 오류는 단일 가닥 DNA에 도입되기 때문에, 공급원 단편의 상보적인 가닥 및 그것으로부터 유도된 판독들은 보통 동일한 PCR 오류를 갖지 않는다. 그러므로, 공급원 단편의 두 가닥으로부터의 판독을 기반으로 한 제2-수준 붕괴는 도 4b 및 도 4d의 하부에 도시된 것과 같은 PCR 오류를 효과적으로 제거할 수 있다.
일부 서열분석 플랫폼에서, 단일중합체 오류는 반복하는 단일 뉴클레오타이드의 단일중합체로 작은 indel 오류를 도입시키기 위해 일어난다. 도 4c 및 도 4e는 본 명세서에 기술된 방법들을 사용하여 단일중합체 오류 교정하는 것을 도시한다. α-ρ-φ(도 4c) 또는 α-ρ-φ-β(도 4d) 패밀리 판독에서, 2개의 "T" 뉴클레오타이드가 상부로부터의 제2 판독으로부터 결실되었고, 하나의 "T" 뉴클레오타이드가 상부로부터의 제3 판독으로부터 결실되었다. β-φ-ρ(도 4c) 또는 β-φ-ρ-α(도 4e) 패밀리 판독에서, 하나의 "A" 뉴클레오타이드가 상부로부터의 제1 판독에 삽입되었다. 도 4a에 도시된 서열분석 오류와 유사하게, 단일중합체 오류는 PCR 증폭 후에 일어나고, 그러므로 상이한 판독들은 상이한 단일중합체 오류를 가진다. 그 결과로서, 제1 수준 붕괴는 indel 오류를 효과적으로 제거할 수 있다.
공통 서열은 하나 이상의 공동 비무작위 UMI 및 하나 이상의 공동 실제 UMI를 가지는 판독들을 붕괴함으로써 얻어질 수 있다. 나아가, 위치 정보 또한 하기에서 기술되는 것과 같이 얻어진 공통 서열에 대해 사용될 수 있다.
위치에 의한 붕괴
일부 구현예에서, 판독은 참조 서열에 대해 배열이 진행되어 참조 서열 상의 판독의 배열 위치가 결정된다(위치측정). 그러나, 상기에서 예시되지 않은 일부 구현예에서, 위치측정은 k-량체 유사성 분석 및 판독-판독 배열에 의해 이루어진다. 이런 제2 구현에는 두 가지 장점을 가진다: 첫째, 그것은 하플로타입 차이 또는 전위로 인해, 참조에 매칭되지 않는 판독들을 붕괴(오류 교정)할 수 있고, 두 번째로, 그것은 얼라이너 알고리즘에 의존하지 않음으로써, 얼라이너-유도된 인공물(얼라이너의 오류)의 가능성이 제거된다. 일부 구현예에서, 동일한 위치측정 정보를 공유하는 판독들은 공급원 DNA 단편의 서열을 측정하기 위한 공통 서열을 얻기 위해 붕괴될 수 있다. 일부 내용에서, 배열 프로세스는 또한 맵핑 프로세스로서 언급된다. 서열 판독은 참조 서열에 맵핑될 배열 프로세스를 진행한다. 다양한 배열 도구 및 알고리즘이 판독을 개시의 다른 곳에서 기술된 것과 같은 참조 서열에 배열하기 위해 사용될 수 있다. 늘 그렇듯이, 배열 알고리즘에서, 일부 판독은 참조 서열에 성공적으로 배열되는 한편, 다른 것들은 성공적으로 배열되지 않거나 또는 참조 서열에 불량하게 배열될 수 있다. 참조 서열에 성공적으로 배열된 판독은 참조 서열상의 부위들과 연계된다. 배열된 판독 및 그것들의 연계된 부위는 또한 서열 태그로서 언급된다. 대다수의 반복부를 함유한 일부 서열 판독은 참조 서열에 배열되는 것이 어려운 경향이 있다. 판독이 특정 기준 이상으로 많은 미스매치된 염기로 참조 서열에 배열될 때, 판독은 불량하게 배열된 것으로 여겨진다. 다양한 실시형태에서, 판독은 그것들이 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 미스매치로 배열될 때 불량하게 배열된 것으로 여겨진다. 다른 실시형태에서, 판독은 그것이 적어도 약 5%의 미스매치로 배열될 때 불량하게 배열된 것으로 여겨진다. 다른 실시형태에서, 판독은 그것이 적어도 약 10%, 15% 또는 20%의 미스매치된 염기로 배열될 때 불량하게 배열된 것으로 여겨진다.
일부 구현예에서, 개시된 방법은 위치 정보를 물리적 UMI 정보와 조합하여 DNA 단편의 공급원 분자의 색인을 만든다. 동일한 판독 위치 및 동일한 비무작위 또는 무작위 물리적 UMI를 공유하는 서열 판독은 단편 또는 그것의 일부의 서열을 측정하기 위한 공통 서열을 얻기 위해 붕괴될 수 있다. 일부 구현예에서, 동일한 판독 위치, 동일한 비무작위 물리적 UMI 및 무작위 물리적 UMI를 공유하는 서열 판독은 공통 서열을 얻기 위해 붕괴될 수 있다. 그런 구현예에서, 어댑터는 비무작위 물리적 UMI 및 무작위 물리적 UMI를 둘 다 포함할 수 있다. 일부 구현예에서, 동일한 판독 위치 및 동일한 실제 UMI를 공유하는 서열 판독은 공통 서열을 얻기 위해 붕괴될 수 있다.
판독 위치 정보는 상이한 기법들에 의해 얻어질 수 있다. 예를 들어, 일부 구현예에서, 판독 위치 정보를 제공하기 위해 게놈 배위가 사용될 수 있다. 일부 구현예에서, 판독이 배열되는 참조 서열상의 위치는 판독 위치 정보를 제공하기 위해 사용될 수 있다. 예를 들어, 염색체상의 판독의 출발 및 정지 위치는 판독 위치 정보를 제공하기 위해 사용될 수 있다. 일부 구현예에서, 판독 위치는 그것들이 동일한 위치 정보를 가진다면 동일한 것으로 여겨진다. 일부 구현예에서, 판독 위치는 위치 정보 사이의 차이가 규정된 기준보다 작으면 동일한 것으로 여겨진다. 예를 들어, 2, 3, 4 또는 5개 미만의 염기쌍만큼 상이한 출발 게놈 위치를 가지는 2개의 판독은 동일한 판독 위치를 가지는 판독으로서 여겨질 수 있다. 다른 구현예에서, 판독 위치는 그것들의 위치 정보가 특정 위치 공간으로 전환되고 그것에서 매치될 수 있다면 동일한 것으로 여겨진다. 참조 서열은 서열분석 전에 제공될 수 있거나 - 예를 들면 그것은 잘-알려진 및 광범위하게 사용된 인간 게놈 서열일 수 있다 - 또는 샘플의 서열분석 중에 얻어진 판독으로부터 측정될 수 있다.
특이적 서열분석 플랫폼 및 프로토콜과 관계없이, 샘플에 함유된 핵산의 적어도 일부는 수천 중의 수십개, 수천 중의 수백개, 또는 수백만개의 서열 판독, 예컨대 100 bp 판독을 생성하기 위해 서열분석된다. 일부 실시형태에서, 서열 판독은 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 36bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 약 500bp, 약 800bp, 약 1000bp 또는 약 2000bp를 포함한다.
일부 실시형태에서, 판독은 참조 게놈, 예컨대 hg19에 배열된다. 다른 실시형태에서, 판독은 참조 게놈, 예컨대 염색체 또는 염색체 분절의 일부에 배열된다. 참조 게놈에 독특하게 맵핑되는 판독은 서열 태그로서 알려져 있다. 한 실시형태에서, 적어도 약 3 x 106개의 조건부 서열 태그, 적어도 약 5 x 106개의 조건부 서열 태그, 적어도 약 8 x 106개의 조건부 서열 태그, 적어도 약 10 x 106개의 조건부 서열 태그, 적어도 약 15 x 106개의 조건부 서열 태그, 적어도 약 20 x 106개의 조건부 서열 태그, 적어도 약 30 x 106개의 조건부 서열 태그, 적어도 약 40 x 106개의 조건부 서열 태그 또는 적어도 약 50 x 106개의 조건부 서열 태그가 참조 게놈에 독특하게 맵핑되는 판독으로부터 얻어진다.
적용
다양한 적용에서, 본원에서 개시된 것과 같은 오류 교정 전략은 다음의 유익들 중 하나 이상을 제공할 수 있다: (i) 매우 낮은 대립유전자 빈도 체세포 돌연변이를 검출하고, (ii) 단계화/사전단계화 오류를 경감시킴으로써 사이클 시간을 감소시키며, 및/또는 (iii) 판독의 나중 부분에서 베이스 콜(base call)의 품질을 부양시킴으로써 판독 길이를 증가시키기 등. 낮은 대립유전자 빈도 체세포 돌연변이의 검출에 관련된 적용 및 근거는 상기에서 논의된다.
특정 실시형태에서, 본원에서 기술된 기법들은 약 2% 이하 또는 약 1% 이하 또는 약 0.5% 이하의 빈도를 가지는 대립유전자의 신뢰할만한 콜링을 허용할 수 있다. 그런 낮은 빈도는 암환자의 종양 세포로부터 기원하는 cfDNA에서는 통상적이다. 일부 실시형태에서, 본원에서 기술된 기법들은 메타게놈 샘플 중의 희귀 스트레인의 확인, 뿐만 아니라 예를 들어 환자가 다중 바이러스 스트레인에 의해 감염되었거나 및/또는 의학적 치료가 진행되었을 때 바이러스 또는 다른 집단의 희귀한 변이체의 검출을 허용할 수 있다.
특정 실시형태에서, 본원에서 기술된 기법들은 더 짧은 서열분석 화학 사이클 시간을 허용할 수 있다. 단축된 사이클 시간은 서열분석 오류를 증가시키고, 그것은 상기 기술된 방법을 사용하여 교정될 수 있다.
UMI를 포함하는 일부 구현예에서, 긴 판독은 분절의 두 단부로부터 쌍-단부(PE) 판독의 쌍에 대해 비대칭 판독 길이를 사용하는 쌍 단부 서열분석으로부터 얻어질 수 있다. 예를 들어, 하나의 쌍-단부 판독의 50 bp 및 다른 쌍-단부 판독의 500 bp를 가지는 판독의 쌍은 또 다른 쌍의 판독과 함께 "스티치"되어 1000 bp의 긴 판독이 생성될 수 있다. 이들 구현예는 낮은 대립유전자 빈도의 긴 단편을 측정하기 위해 더 빠른 서열분석 속도를 제공할 수 있다.
도 5는 물리적 UMI 및 실제 UMI를 적용함으로써 이런 종류의 적용에서 긴 쌍 단부 판독을 효과적으로 얻기 위한 실례를 개략적으로 도시한다. 동일한 DNA 단편의 양 가닥으로부터의 라이브러리는 유동 셀에서 클러스터를 형성한다. 라이브러리의 삽입물 크기는 1 Kb보다 길다. 서열분석은 비대칭 판독 길이(예컨대 판독1 = 500 bp, 판독2 = 50 bp)로 수행되어 500 bp의 판독의 품질이 보장된다. 두 가닥을 스티칭하여, 단지 500+50 bp 서열분석만으로 1000 bp의 긴 PE 판독이 생성될 수 있다.
샘플
DNA 단편 서열을 측정하기 위해 사용된 샘플은 관심 대상 서열이 측정될 핵산을 포함하여 관심 대상 임의의 세포, 유체, 조직 또는 기관으로부터 취해진 샘플을 포함할 수 있다. 암의 진단을 포함하는 일부 실시형태에서, 순환하는 종양 DNA는 대상체의 체액, 예컨대 혈액 또는 혈장으로부터 얻어질 수 있다. 태아의 진단을 포함하는 일부 실시형태에서, 세포-유리 핵산, 예컨대 세포-유리 DNA(cfDNA)를 모체 체액으로부터 얻는 것이 유익하다. 세포-유리 DNA를 포함하여, 세포-유리 핵산은 한정하는 것은 아니지만 혈장, 혈청 및 소변을 포함하는 생물학적 샘플로부터 기술분야에 공지된 다양한 방법에 의해 얻어질 수 있다(예컨대 문헌[Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2:1033-1035 [1996]; Lo et al., Lancet 350:485-487 [1997]; Botezatu et al., Clin Chem. 46:1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6:101-107 [2004]] 참조).
다양한 실시형태에서 샘플에 존재하는 핵산(예컨대 DNA 또는 RNA)은 사용 전에(예컨대 서열분석 라이브러리의 제조 전에) 특이적으로 또는 비-특이적으로 풍부화될 수 있다. 샘플 DNA의 비-특이적 풍부화는 cfDNA 서열분석 라이브러리를 제조하기 전에 샘플 DNA의 수준을 증가시키기 위해 사용될 수 있는 샘플의 게놈 DNA 단편의 전체 게놈 증폭을 나타낸다. 전체 게놈 증폭을 위한 방법은 기술분야에 알려져 있다. 축퇴성 올리고뉴클레오타이드-프라이밍된 PCR(DOP), 프라이머 연장 PCR 기법(PEP) 및 다중 대체 증폭(MDA)은 전체 게놈 증폭 방법의 실례들이다. 일부 실시형태에서, 샘플은 DNA에 대해 풍부화되지 않는다.
본 명세서에 기술된 방법이 적용되는 핵산을 포함하는 샘플은 전형적으로 상기에서 기술된 것과 같은 생물학적 샘플("시험 샘플")이다. 일부 실시형태에서, 서열분석될 핵산은 잘 알려져 있는 많은 방법 중 임의의 방법에 의해 정제되거나 분리된다.
따라서, 특정 실시형태에서 샘플은 정제된 또는 분리된 폴리뉴클레오타이드를 포함하거나 본질적으로 구성되거나, 또는 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등과 같은 샘플을 포함할 수 있다. 적합한 생물학적 유체 샘플은, 한정하는 것은 아니지만 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 림프액, 타액, 뇌척수액, 래비지(ravage), 골수 현탁액, 질 유체, 자궁경부-관총 세척액, 뇌 유체, 복수, 모유, 호흡기 분비물, 장 및 비뇨생식기 트랙, 양수, 모유 및 류코포레시스(leukophoresis) 샘플을 포함한다. 일부 실시형태에서, 샘플은 비-침습성 과정에 의해 쉽게 얻을 수 있는 샘플, 예컨대 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 분변, 가래, 귀 유체, 타액 또는 대변이다. 특정 실시형태에서 샘플은 말초혈 샘플, 또는 말초혈 샘플의 혈장 및/또는 혈청 부분이다. 다른 실시형태에서, 생물학적 샘플은 면봉 또는 얼룩, 생검 시편 또는 세포 배양물이다. 또 다른 실시형태에서, 샘플은 둘 이상의 생물학적 샘플의 혼합물이고, 예컨대 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플의 둘 이상을 포함할 수 있다. 본원에서 사용되는 용어 "혈액", "혈장" 및 "혈청"은 분명히 분획들 또는 그것들의 프로세싱된 부분들을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 취해지는 경우에, "샘플"은 분명히 생검, 면봉, 얼룩 등으로부터 유도된 프로세싱된 분획 또는 부분을 포함한다.
특정 실시형태에서, 샘플은 한정하는 것은 아니지만, 상이한 개체로부터의 샘플, 동일한 또는 상이한 개체의 상이한 발달 단계로부터의 샘플, 병에 걸린 상이한 개체(예컨대 유전적 장애를 가진 것으로 의심되는 개체)로부터의 샘플, 정상 개체로부터의 샘플, 개체의 상이한 질환 단계에서 얻어진 샘플, 질환에 대해 상이한 처리가 수행된 개체로부터 얻어진 샘플, 상이한 환경적 인자가 수행된 개체로부터의 샘플, 병리학에 대한 소인을 가진 개체로부터의 샘플, 감염성 질환 제제에 노출된 개체로부터의 샘플 등을 포함한 공급원으로부터 얻어질 수 있다.
하나의 예시적인, 그러나 비-한정 실시형태에서, 샘플은 임신한 여성, 예를 들면 임산부로부터 얻어진 모체 샘플이다. 이런 경우에, 샘플은 태아의 잠재적인 염색체 비정상의 출생전 진단을 제공하기 위해 본원에서 기술된 방법을 사용하여 분석될 수 있다. 모체 샘플은 조직 샘플, 생물학적 유체 샘플 또는 세포 샘플일 수 있다. 생물학적 유체는, 비-제한 실례로서, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 림프액, 타액, 뇌척수액, 래비지, 골수 현탁액, 질 유체, 자궁경부 관통 세척액, 뇌 유체, 복수, 모유, 호흡기 분비물, 장 및 비뇨생식기 트랙 및 류코포레시스 샘플을 포함한다.
특정 실시형태에서 샘플은 또한 시험관 내 배양 조직, 세포 또는 다른 폴리뉴클레오타이드-함유 공급원으로부터 얻어질 수 있다. 배양된 샘플은 한정하는 것은 아니지만, 상이한 배지 및 조건(예컨대 pH, 압력 또는 온도)에서 유지된 배양물(예컨대 조직 또는 세포), 상이한 길이의 기간 동안 유지된 배양물(예컨대 조직 또는 세포), 상이한 인자 또는 시약들(예컨대 약물 후보 또는 조절제)로 처리된 배양물(예컨대 조직 또는 세포) 또는 상이한 유형의 조직 및/또는 세포의 배양물을 포함하는 공급원으로부터 취해질 수 있다.
생물학적 공급원으로부터 핵산을 분리하는 방법은 잘 알려져 있고 공급원의 성질에 따라 다를 것이다. 당업자는 본원에서 기술된 방법에 대해 필요한 대로 공급원으로부터 핵산을 쉽게 분리할 수 있다. 일부 경우에, 핵산 샘플에서 핵산 분자를 단편화하는 것이 유익할 수 있다. 단편화는 무작위일 수 있거나, 또는 이루어지는 대로, 예를 들면 제한 엔도뉴클레아제 소화를 사용하여 특이적일 수 있다. 무작위 단편화 방법은 기술분야에 잘 알려져 있고, 예를 들면 제한 DNAse 소화, 알칼리 처리 및 물리적 전단을 포함한다.
서열분석 라이브러리 제조
다양한 실시형태에서, 서열분석은 서열분석 라이브러리의 제조를 필요로 하는 다양한 서열분석 플랫폼에서 수행될 수 있다. 제조는 전형적으로 DNA의 단편화(음파 처리, 분무화 또는 전단), 이어서 DNA 수복 및 단부 연마(뭉툭한 단부 또는 A 돌출부) 및 플랫폼-특이적 어댑터 결찰을 포함한다. 한 실시형태에서, 본 명세서에 기술된 방법은 다중 샘플이 게놈 분자로서(즉 싱글플렉스 서열분석) 또는 색인이 만들어진 게놈 분자를 포함한 모아진 샘플로서(예컨대 복합 서열분석) 단일 서열분석 작동 시 개별적으로 서열분석되는 것을 허용하는 차세대 서열분석 기술(NGS)을 활용할 수 있다. 이들 방법은 DNA 서열의 최대 수십억개의 판독을 생성할 수 있다. 다양한 실시형태에서 게놈 핵산 및/또는 색인이 만들어진 게놈 핵산의 서열은, 예를 들면 본 명세서에 기술된 차세대 서열분석 기술(NGS)을 사용하여 측정될 수 있다. 다양한 실시형태에서 NGS를 사용하여 얻어진 대량의 서열 데이터의 분석은 본 명세서에 기술된 것과 같이 하나 이상의 프로세서를 사용하여 수행될 수 있다.
다양한 실시형태에서 그런 서열분석 기술의 사용은 서열분석 라이브러리의 제조를 포함하지 않는다.
그러나, 특정 실시형태에서 본원에서 고려된 서열분석 방법은 서열분석 라이브러리의 제조를 포함한다. 한 가지 예시적인 접근법에서, 서열분석 라이브러리 제조는 서열분석될 준비가 되어 있는 어댑터-변형된 DNA 단편(예컨대 폴리뉴클레오타이드)의 무작위 집단의 제조를 포함한다. 폴리뉴클레오타이드의 서열분석 라이브러리는 DNA 또는 cDNA 중 어느 하나의 동등물, 유사체, 예를 들면 RNA 주형으로부터 제조된 DNA에 상보적이거나 복사품인 DNA 또는 cDNA를 포함하여 DNA 또는 RNA로부터, 역전사효소의 작용에 의해 제조될 수 있다. 폴리뉴클레오타이드는 이중-가닥 형태(예컨대 게놈 DNA 단편, cDNA, PCR 증폭 생성물 등)로 유래될 수 있고, 또는 특정 실시형태에서는, 폴리뉴클레오타이드는 단일-가닥 형태(예컨대 ssDNA, RNA 등)로 유래될 수 있으며, dsDNA 형태로 전환되었다. 예를 들면, 특정 실시형태에서, 단일 가닥 mRNA 분자는 서열분석 라이브러리를 제조하는 데 사용하기에 적합한 이중-가닥 cDNA로 복사될 수 있다. 일차 폴리뉴클레오타이드 분자의 정확한 서열은 일반적으로 라이브러리 제조 방법에 대한 재료가 아니고, 알려져 있거나 미지의 것일 수 있다. 한 실시형태에서, 폴리뉴클레오타이드 분자는 DNA 분자이다. 보다 구체적으로, 특정 실시형태에서, 폴리뉴클레오타이드 분자는 유기체의 전체 유전자 보체 또는 유기체의 실질적으로 전체 유전자 보체를 나타내고, 전형적으로 인트론 서열 및 엑손 서열(코딩 서열) 둘 다, 뿐만 아니라 프로모터 및 인핸서 서열과 같은 비-코딩 조절 서열을 포함하는 게놈 DNA 분자(예컨대 세포 DNA, 세포 유리 DNA(cfDNA) 등)이다. 특정 실시형태에서, 일차 폴리뉴클레오타이드 분자는 인간 게놈 DNA 분자, 예컨대 임신한 대상체의 말초혈에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 서열분석 플랫폼에 대한 서열분석 라이브러리의 제조는 특이적 범위의 단편 크기를 포함하여 폴리뉴클레오타이드의 사용에 의해 용이하게 된다. 그런 라이브러리의 제조는 전형적으로 원하는 크기 범위의 폴리뉴클레오타이드를 얻기 위해 큰 폴리뉴클레오타이드(예컨대 세포 게놈 DNA)의 단편화를 포함한다.
쌍 단부 판독은 본 명세서에 개시된 서열분석 방법 및 시스템을 위해 사용될 수 있다. 단편 또는 삽입물 길이는 판독 길이보다 길고, 때로는 두 판독의 길이의 합보다 길다.
일부 예시적인 실시형태에서, 샘플 핵산(들)은 게놈 DNA로서 얻어지고, 그것에 대해 대략 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000 또는 5000 염기쌍보다 긴 단편으로의 단편화가 수행되며, NGS 방법이 쉽게 적용될 수 있다. 일부 실시형태에서, 쌍 단부 판독은 약 100 내지 5000 bp의 삽입물로부터 얻어진다. 일부 실시형태에서, 삽입물은 약 100 내지 1000 bp 길이이다. 이것들은 때로 규칙적인 짧은-삽입물 쌍 단부 판독으로서 실행된다. 일부 실시형태에서, 삽입물은 약 1000 내지 5000 bp 길이이다. 이것들은 때로 상기에서 기술된 것과 같이 긴-삽입물 메이트 쌍 판독으로서 실행된다.
일부 구현예에서, 긴 삽입물은 매우 긴 서열을 평가하기 위해 디자인된다. 일부 구현예에서, 메이트 쌍 판독은 수천 개의 염기쌍만큼 떨어져 공간배치된 판독을 얻기 위해 적용될 수 있다. 이들 구현예에서, 삽입물 또는 단편은 수백 내지 수천 염기쌍의 범위이고, 삽입물의 양 단부에는 2개의 비오틴 접합 어댑터가 있다. 다음에 비오틴 접합 어댑터는 삽입물의 양 단부에 연결되어 원형화된 분자가 형성되고, 그것은 다음에 추가로 단편화된다. 비오틴 접합 어댑터 및 원래의 삽입물의 양 단부를 포함하는 하위-단편은 더 짧은 단편을 서열분석하기 위해 디자인된 플랫폼상에서의 서열분석을 위해 선택된다.
단편화는 기술분야의 숙련자들에게 알려져 있는 많은 방법들 중 임의의 것에 의해 이루어질 수 있다. 예를 들어, 단편화는 한정하는 것은 아니지만 분무화, 음파처리 및 하이드로쉐어(hydroshear)를 포함한 기계적 수단에 의해 이루어질 수 있다. 그러나, 기계적 단편화는 전형적으로 DNA 골격을 C-O, P-O 및 C-C 결합에서 절단하여 깨진 C-O, P-O 및/ C-C 결합을 가지는, 뭉툭한 부분과 3'- 및 5'-돌출된 단부의 이질성 믹스를 초래하고(예컨대 문헌[Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J MolBiol 11:327-240 [1965]] 참조), 그것은 서열분석을 위한 DNA를 제조하기 위해 필요한 후속되는 효소 반응, 예컨대 서열분석 어댑터의 결찰을 위해 필요한 5'-포스페이트가 결핍될 수 있기 때문에 수복될 필요가 있을 수 있다.
대조적으로, cfDNA는 전형적으로 약 300 염기쌍보다 적은 단편으로서 존재하고, 따라서, 단편화는 cfDNA 샘플을 사용하여 서열분석 라이브러리를 생성하기 위해 전형적으로 필요하지는 않다.
전형적으로, 폴리뉴클레오타이드는 강제로 단편화되거나(예컨대 시험관 내에서 단편화됨) 또는 자연적으로 단편으로서 존재하거나 간에, 그것들은 5'-포스페이트 및 3'-하이드록실을 가지는 뭉툭한-단부의 DNA로 전환된다. 표준 프로토콜, 예컨대 예를 들어 도 1a 및 1B를 참조하여 상기 실례 작업흐름에서 기술된 것과 같은 Illumina 플랫폼을 사용하는 서열분석을 위한 프로토콜은, 단부-수복 샘플 DNA의 사용자가 3' 단부를 아데닐화하거나 dA-테일링하기 전에 단부-수복된 생성물을 정제하고, 라이브러리 제조의 어댑터-결찰 단계 전에 dA-테일링 생성물을 정제하도록 가르쳐준다.
본 명세서에 기술된 서열 라이브러리 제조 방법의 다양한 실시형태는 NGS에 의해 서열분석될 수 있는 변형 DNA 생성물을 얻기 위해 표준 프로토콜에 의해 전형적으로 지시된 하나 이상의 단계를 수행할 필요를 제거한다. 생략된 방법(ABB 방법), 1-단계 방법 및 2-단계 방법은 2012년 7월 20일에 출원된 특허 출원 13/555,037호(전체 내용은 본 명세서에 참조로 포함됨)에서 찾아볼 수 있는 서열분석 라이브러리의 제조를 위한 방법의 실례이다.
서열분석 방법
본 명세서에 기술된 방법 및 장치는 대량 병렬 서열분석을 허용하는, 차세대 서열분석 기술(NGS)을 사용할 수 있다. 특정 실시형태에서, 클론적으로 증폭된 DNA 주형 또는 단일 DNA 분자는 유동 셀 내에서 대량 병렬 양식으로 서열분석된다(예컨대 문헌[Volkerding et al. ClinChem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]]에서 기술됨). NGS의 서열분석 기술은 한정하는 것은 아니지만 열적 서열분석, 가역성 염료 터미네이터를 사용한 합성에 의한 서열분석, 올리고뉴클레오타이드 프로브 결찰에 의한 서열분석 및 이온 반도체 서열분석을 포함한다. 개별적인 샘플로부터의 DNA는 단일 서열분석 작동 시 개별적으로 서열분석되거나(즉 싱글플렉스 서열분석) 또는 다중 샘플로부터의 DNA가 모아져서 색인이 만들어진 게놈 분자로서 서열분석되어(즉 복합 서열분석), DNA 서열의 최대 수백만개의 판독이 생성될 수 있다. 본 방법에따르는 서열 정보를 얻기 위해 사용될 수 있는 서열분석 기술의 실례는 여기서 한층 더 기술된다.
일부 서열분석 기술은 상업적으로 입수 가능한데, 예를 들면 하기 기술되는 것과 같이, Affymetrix Inc.(캘리포니아주 서니베일)로부터의 혼성화 플랫폼에 의한 서열분석 및 454 Life Sciences(코네티컷주 브렌포드), Illumina/Solexa(캘리포니아주 헤이워드) 및 Helicos Biosciences(매사추세츠주 케임브리지)로부터의 합성 플랫폼에 의한 서열분석, 및 Applied Biosystems(캘리포니아주 포스터 시티)로부터의 결찰 플랫폼에 의한 서열분석이다. Helicos Biosciences의 합성에 의한 서열분석을 사용하여 수행된 단일 분자 서열분석에 더불어, 다른 단일 분자 서열분석 기술은 한정하는 것은 아니지만, Pacific Biosciences의 SMRTTM 기술, ION TORRENTTM 기술 및 예를 들면 Oxford Nanopore Technologies에 의해 개발된 나노포어 서열분석을 포함한다.
자동화 Sanger 방법이 '제1 세대' 기술로 여겨지는 한편, 자동화 Sanger 서열분석을 포함하여 Sanger 서열분석이 또한 본 명세서에 기술된 방법에서 사용될 수 있다. 추가의 적합한 서열분석 방법은, 한정하는 것은 아니지만 핵산 영상 기술, 예컨대 원자력 현미경(AFM) 또는 투과 전자 현미경(TEM)을 포함한다. 예시적인 서열분석 기술은 하기에 더 상세하게 기술된다.
일부 실시형태에서, 개시된 방법은 Illumina의 합성에 의한 서열분석 및 가역성 터미네이터-기반 서열분석 화학을 사용하여 수백만개의 DNA 단편의 대량 병렬 서열분석에 의해(예컨대 문헌[Bentley et al., Nature 6:53-59 [2009]])에 기술된 것과같이) 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. 주형 DNA는 게놈 DNA, 예컨대 세포 DNA 또는 cfDNA일 수 있다. 일부 실시형태에서, 분리된 세포로부터의 게놈 DNA는 주형으로서 사용되고, 수백 염기쌍의 길이로 단편화된다. 다른 실시형태에서, cfDNA 또는 순환하는 종양 DNA(ctDNA)는 주형으로서 사용되고, 단편화는 cfDNA로서 필요하지 않거나 ctDNA는 짧은 단편으로서 존재한다. 예를 들어 태아 cfDNA는 혈류에서 대략 170 염기쌍(bp) 길이의 단편으로서 순환하고(Fan et al., ClinChem 56:1279-1286 [2010]), DNA의 단편화는 서열분석 전에는 필요하지 않다. Illumina의 서열분석 기술은, 그 위에 올리고뉴클레오타이드 앵커가 결합되는 평면의, 선택적으로 투명한 표면에 단편화된 게놈 DNA의 부착에 좌우된다. 주형 DNA는 단부-수복되어 5'-인산화된 뭉툭한 단부를 생성하고, 클레노우 단편의 중합효소 활성은 뭉툭한 인산화된 DNA 단편의 3' 단부에 단일 A 염기를 첨가하기 위해 사용된다. 이런 첨가는 올리고뉴클레오타이드 어댑터에의 결찰을 위한 DNA 단편을 제조하는데, 그것은 결찰 효율을 증가시키기 위해 3' 단부에 단일 T 염기의 돌출부를 가지고 있다. 어댑터 올리고뉴클레오타이드는 유동-세포 앵커 올리고에 상보적이다. 제한-희석 조건하에서, 어댑터-변형된, 단일-가닥의 주형 DNA가 유동 셀에 첨가되고 앵커 올리고에의 혼성화에 의해 고정된다. 부착된 DNA 단편은 연장되고 브릿지 증폭되어 수백 내지 수백만의 클러스터를 가지고, 각각 약 1,000개의 동일 주형 복사물을 함유한, 초고밀도 서열분석 유동 셀이 생성된다. 한 실시형태에서, 무작위로 단편화된 게놈 DNA는 클러스터 증폭이 수행되기 전에 PCR을 사용하여 증폭된다. 다르게는, 증폭-유리 게놈 라이브러리 제조가 사용되고, 무작위로 단편화된 게놈 DNA가 클러스터 증폭을 단독으로 사용하여 풍부화된다(Kozarewa et al., Nature Methods 6:291-295 [2009]). 일부 적용에서, 주형은 제거 가능한 형광 염료를 가진 가역성 터미네이터를 사용하는, 활발한 4-색 DNA 합성에 의한 서열분석 기술을 사용하여 서열이 분석된다. 고-민감성 형광 검출은 레이저 여기 및 전(total) 내부 반사 광학을 사용하여 이루어진다. 약 10 내지 수백 염기쌍의 짧은 서열 판독이 참조 게놈에 대해 배열되고 짧은 서열 판독의 참조 게놈에 대한 독특한 맵핑은 특수하게 개발된 데이터 분석 파이프라인 소프트웨어를 사용하여 확인된다. 제1 판독이 완료된 후에, 주형은 제자리에서 재생되어 단편들의 반대쪽 단부로부터 제2 판독을 가능하게 한다. 그러므로 DNA 단편의 단일-단부 또는 쌍 단부 서열분석 어느 것이든지 사용될 수 있다.
개시의 다양한 실시형태는 쌍 단부 서열분석을 허용하는 합성에 의한 서열분석을 사용할 수 있다. 일부 실시형태에서, Illumina에 의한 합성 플랫폼에 의한 서열분석은 단편의 클러스터링을 포함한다. 클러스터링은 각 단편 분자가 등온선적으로 증폭되는 프로세스다. 일부 실시형태에서, 본 명세서에 기술된 실례로서, 단편은 단편의 양 단부에 부착된 2개의 상이한 어댑터를 가지고, 어댑터는 단편이 유동 셀 레인의 표면의 2개의 상이한 올리고와 혼성화하는 것을 허용한다. 단편은 추가로 단편의 양 단부에서 2개의 색인 서열을 포함하거나 그것들에 연결되며, 색인 서열은 복합 서열분석에서 상이한 샘플을 확인하기 위한 표지를 제공한다. 일부 서열분석 플랫폼에서, 양 단부로부터 서열분석될 단편은 또한 삽입물로서 언급된다.
일부 구현예에서, Illumina 플랫폼에서 클러스터링되기 위한 유동 셀은 레인을 가진 유리 슬라이드이다. 각 레인은 두 유형의 올리고(예컨대 P5 및 P7' 올리고)의 론으로 코팅된 유리 채널이다. 혼성화는 표면의 두 유형의 올리고 중 제1 올리고에 의해 가능해진다. 이 올리고는 단편의 한 단부상의 제1 어댑터에 상보적이다. 중합효소는 혼성화된 단편의 보체 가닥을 생성한다. 이중-가닥 분자는 변성되고, 원래의 주형 가닥은 세척된다. 많은 다른 나머지 가닥과 평행한 나머지 가닥은 브릿지 적용을 통해 클론적으로 증폭된다.
브릿지 증폭 및 클러스터링을 포함하는 다른 서열분석 방법에서, 가닥은 여러번 접히고, 가닥의 제2 단부상의 제2 어댑터 영역은 유동 셀 표면의 제2 유형의 올리고와 혼성화된다. 중합효소는 상보적인 가닥을 생성하여 이중-가닥 브릿지 분자를 형성한다. 이런 이중-가닥 분자는 변성되어 2개의 상이한 올리고를 통해 유동 셀에 묶인 2개의 단일-가닥 분자를 초래한다. 그 프로세스는 다음에 여러 번 반복되고, 동시에 수백만개의 클러스터에 대해 일어나서 모든 단편의 클론적 증폭을 초래한다. 브릿지 증폭 후에, 역 가닥은 절단되고 세척되어 전방 가닥만이 남겨진다. 3' 단부는 차단되어 원하지 않는 프라이밍이 방지된다.
클러스터링 후에, 서열분석은 연장되는 제1 서열분석 프라이머로 시작하여 제1 판독이 생성된다. 각 사이클로, 형광 태그가 달린 뉴클레오타이드들이 성장하는 사슬에 첨가하기 위해 경쟁한다. 단지 하나만이 주형의 서열을 기반으로 통합된다. 각 뉴클레오타이드가 첨가된 후에, 클러스터는 광원에 의해 여기되고, 특징적인 형광 신호가 방출된다. 사이클의 수가 판독의 길이를 결정한다. 방출 파장 및 신호 세기가 베이스 콜을 결정한다. 주어진 클러스터에 대해 모든 동일 가닥이 동시에 판독된다. 수백만개의 클러스터 중 수백개가 대량 병렬 방식으로 서열분석된다. 제1 판독이 완료되었을 때, 판독 생성물이 세척된다.
2개의 색인 프라이머를 포함하는 프로토콜의 다음 단계에서, 색인 1 프라이머가 도입되고 주형 상의 색인 1 영역에 혼성화된다. 색인 영역은 단편의 확인을 제공하는데, 단편은 복합 서열분석 프로세스에서 샘플의 탈복합화에 유용하다. 색인 1 판독은 제1 판독과 유사하게 생성된다. 색인 1 판독의 완료 후에, 판독 생성물은 세척되고 가닥의 3' 단부가 탈보호된다. 다음에 주형 가닥이 여러 번 접히고 유동 셀상의 제2 올리고에 결합한다. 색인 2 서열은 색인 1과 동일한 방식의 판독이다. 다음에 색인 2 판독 생성물은 그 단계가 완료될 때 세척된다.
2개의 색인의 판독 후에, 판독 2는 중합효소를 사용함으로써 개시되어 제2 유동 셀 올리고가 연장되고, 이중-가닥 브릿지가 형성된다. 이 이중-가닥 DNA는 변성되고, 3' 단부가 차단된다. 원래의 전방 가닥은 절단되고 세척되어, 역 가닥이 남겨진다. 판독 2는 판독 2 서열분석 프라이머의 도입으로 시작된다. 판독 1과 같이, 서열분석 단계들은 원하는 길이가 이루어질 때까지 반복된다. 판독 2 생성물이 세척된다. 이 전체 프로세스로 모든 단편을 나타내는 수백만개의 판독이 생성된다. 모아진 샘플 라이브러리로부터 모아진 서열들은 샘플 제조 중에 도입된 고유한 색인을 기반으로 분리된다. 각 샘플에 대해, 베이스 콜의 유사한 스트레치의 판독이 국소적으로 클러스터 형성된다. 전방 및 역 판독은 쌍을 이루어 연속 서열이 생성된다. 이들 연속 서열은 변이체 확인을 위해 참조 게놈에 배열된다.
상기 기술된 합성에 의한 서열분석 실례는 쌍 단부 판독을 포함하며, 그것은 개시된 방법들의 많은 실시형태에서 사용된다. 쌍 단부 서열분석은 단편의 두 단부로부터의 2개의 판독을 포함한다. 쌍 단부 판독은 애매한 배열을 해결하기 위해 사용된다. 쌍-단부 서열분석은 사용자가 삽입물의 길이(또는 서열분석될 단편)를 선택하고 삽입물의 어느 한 단부를 서열분석하여 고품질의, 배열 가능한 서열 데이터를 생성할 수 있게 한다. 각 쌍 판독 사이의 거리가 알려져 있기 때문에, 배열 알고리즘은 반복적인 영역에 걸친 판독들을 보다 정확하게 맵핑하기 위해 이 정보를 사용할 수 있다. 이것은 특히 서열분석이 어려운, 반복적인 게놈 영역에 걸쳐 더 나은 판독 배열을 초래한다. 쌍-단부 서열분석은 삽입 및 결실(indel) 및 전도를 포함하여, 재배열을 검출할 수 있다.
쌍 단부 판독은 상이한 길이(즉 서열분석될 상이한 단편 크기)의 삽입물을 사용할 수 있다. 본 개시의 디폴트 의미로서, 쌍 단부 판독은 다양한 삽입물 길이로부터 얻어진 판독을 언급하기 위해 사용된다. 일부 경우에, 짧은-삽입물 쌍 단부 판독을 긴-삽입물 쌍 단부 판독으로부터 구별하기 위하여, 후자는 특이적으로 메이트 쌍 판독으로 언급된다. 메이트 쌍 판독을 포함하는 일부 실시형태에서, 2개의 비오틴 접합 어댑터는 먼저 상대적으로 긴 삽입물(예컨대 여러 kb)의 두 단부에 부착된다. 비오틴 접합 어댑터는 다음에 삽입물의 두 단부를 연결시켜 원형의 분자가 형성된다. 비오틴 접합 어댑터를 포함하는 하위-단편은 다음에 원형화된 분자를 추가로 단편화함으로써 얻어질 수 있다. 반대 서열 순서로 원래의 단편의 두 단부를 포함하는 하위-단편은 다음에 상기 기술된 짧은-삽입물 쌍 단부 서열분석과 동일한 과정에 의해 서열분석될 수 있다. Illumina 플랫폼을 사용하는 메이트 쌍 서열분석의 추가의 상세한 설명은 전체가 다음의 주소: res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf에서 온라인 공개로 보여지며, 전체 내용이 참조로 포함된다.
DNA 단편의 서열분석 후에, 일정한 길이, 예컨대 100 bp의 서열 판독이 공지의 참조 게놈에 맵핑(배열)됨으로써 배치된다. 맵핑된 판독 및 그것의 참조 서열상의 해당 위치는 또한 태그로서 언급된다. 과정의 다른 실시형태에서, 위치측정은 k-량체 공유 및 판독-판독 배열에 의해 구현된다. 본 명세서에 개시된 많은 실시형태의 분석은 불량하게 배열되거나 또는 배열될 수 없는 판독, 뿐만 아니라 배열된 판독(태그)를 사용한다. 한 실시형태에서, 참조 게놈 서열은 NCBI36/hg18 서열이고, 그것은 genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105의 월드 와이드 웹상에서 활용할 수 있다. 다르게는, 참조 게놈 서열은 GRCh37/hg19 또는 GRCh38이고, 그것은 genome.ucsc.edu/cgi-bin/hgGateway의 월드 와이드 웹상에서 활용할 수 있다. 공개적 서열 정보의 다른 공급원은 GenBank, dbEST, dbSTS, EMBL(European Molecular Biology Laboratory) 및 DDBJ(DNA Databank of Japan)을 포함한다. 한정하는 것은 아니지만 BLAST(Altschul et al., 1990), BLITZ(MPsrch)(Sturrock& Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]) 또는 ELAND(Illumina, Inc., San Diego, CA, USA)를 포함하는 많은 컴퓨터 알고리즘이 서열을 배열하기 위해 활용될 수 있다. 한 실시형태에서, 혈장 cfDNA 분자의 클론적으로 팽창된 복사물의 한 단부가 서열분석되고, 뉴클레오타이드 데이터베이스의 효과적인 대규모 배열(ELAND) 소프트웨어를 사용하는 Illumina 게놈 분석기에 대한 생체정보 배열 분석에 의해 프로세싱된다.
하나의 예시적인, 그러나 비-제한적인 실시형태에서, 본 명세서에 기술된 방법은 Helicos 진정한 단일 분자 서열분석(tSMS) 기술(예컨대 문헌[Harris T.D. et al., Science 320:106-109 [2008]]에 기술됨)을 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. tSMS 기법에서, DNA 샘플은 대략 100 내지 200 뉴클레오타이드의 가닥으로 절단되고, 폴리A 서열이 각 DNA 가닥의 3' 단부에 첨가된다. 각 가닥은 형광 표지된 아데노신 뉴클레오타이드의 첨가에 의해 표지된다. DNA 가닥은 다음에 유동 셀 표면에 고정된 수백만개의 올리고-T 포획 부위를 함유하고 있는 유동 셀에 혼성화된다. 특정 실시형태에서 주형은 약 1억개의 주형/cm2의 밀도일 수 있다. 유동 셀은 다음에 기기, 예컨대 HeliScopeTM 서열분석기 안에 로딩되고, 레이저가 유동 셀의 표면을 비추면 각 주형의 위치가 드러난다. CCD 카메라가 유동 셀 표면에서 주형의 위치를 맵핑할 수 있다. 그러면 주형 형광 표지가 절단되고 세척된다. 서열분석 반응은 DNA 중합효소 및 형광 표지된 뉴클레오타이드가 도입됨으로써 시작한다. 올리고-T 핵산은 프라이머로서 작용한다. 중합효소는 표지된 뉴클레오타이드를 주형 지시된 방식으로 프라이머에 통합시킨다. 중합효소 및 미통합 뉴클레오타이드는 제거된다. 형광 표지된 뉴클레오타이드의 통합을 지시한 주형은 유동 셀 표면을 영상화함으로써 파악된다. 영상화 후에, 절단 단계가 형광 표지를 제거하고, 프로세스는 다른 형광 표지된 뉴클레오타이드로 원하는 판독 길이가 이루어질 때까지 반복된다. 서열 정보는 각 뉴클레오타이드 첨가 단계로 수집된다. 단일 분자 서열분석 기술에 의한 전체 게놈 서열분석은 서열분석 라이브러리의 제조시 PCR-기반 증폭을 배제하거나 전형적으로 제거하고, 방법은 그 샘플의 복사물의 측정보다는 샘플의 직접적인 측정을 허용한다.
다른 예시적인, 그러나 비-제한적인 실시형태에서, 본 명세서에 기술된 방법은 454 서열분석(Roche)(예컨대 Margulies, M. et al. Nature 437:376-380 [2005]에 기술됨)을 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. 454 서열분석은 전형적으로 두 단계를 포함한다. 제1 단계에서, DNA는 대략 300 내지 800 염기쌍의 단편들로 전단되고, 단편들은 뭉툭한-단부이다. 다음에 올리고뉴클레오타이드 어댑터가 단편의 단부에 결찰된다. 어댑터는 단편들의 증폭 및 서열분석에 대한 프라이머로서 작용한다. 단편은 DNA 포획 비드, 예컨대 스트렙트아비딘-코팅된 비드에 5-비오틴 태그를 함유하는, 예컨대 어댑터 B를 사용하여 부착될 수 있다. 비드에 부착된 단편은 유수 에멀션의 방울 내에서 PCR 증폭된다. 그 결과는 각 비드상의 클론적으로 증폭된 DNA 단편의 다중 복사물이다. 제2 단계에서, 비드는 웰(예컨대 피코리터-크기의 웰)에 포획된다. 열적 서열분석은 각 DNA 단편에 대해 병렬로 수행된다. 하나 이상의 뉴클레오타이드의 첨가는 서열분석 기기에서 CCD 카메라에 의해 기록되는 광신호를 생성한다. 신호 강도는 통합된 뉴클레오타이드의 수에 비례한다. 열적 서열분석은 뉴클레오타이드 첨가시 방출되는 피로포스페이트(PPi)를 사용한다. PPi는 아데노신 5' 포스포설페이트의 존재하에 ATP 설퓨릴라제에 의해 ATP로 전환된다. 루시페라제는 루시페린을 옥시루시페린으로 전환시키기 위해 ATP를 사용하고, 이런 반응으로 광이 생성되어 측정되고 분석된다.
또 다른 예시적인, 그러나 비-제한적인 실시형태에서, 본 명세서에 기술된 방법은 SOLiDTM 기술(Applied Biosystems)을 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. SOLiDTM 결찰에 의한 서열분석에서, 게놈 DNA는 단편으로 전단되고, 어댑터가 단편의 5' 및 3' 단부에 부착되어 단편 라이브러리가 생성된다. 다르게는, 내부 어댑터가 단편의 5' 및 3' 단부에 어댑터를 결찰시킴으로써 도입되고, 단편이 원형화된 후, 원형화된 단편을 소화시켜서 내부 어댑터를 생성한 후, 어댑터를 그 결과의 단편의 5' 및 3' 단부에 부착하여 메이트-쌍 라이브러리가 생성된다. 다음에, 클론 비드 집단이 비드, 프라이머, 주형 및 PCR 성분을 함유하는 미세반응기에서 제조된다. PCR에 이어서, 주형은 변성되고 비드는 풍부화되어 연장된 주형을 가지는 비드가 분리된다. 선택된 비드 상의 주형에 대해 유리 슬라이드에의 결합을 허용하는 3' 변형이 수행된다. 서열은 순차적인 혼성화 및 부분적으로 무작위한 올리고뉴클레오타이드와 특이적 형광발색단에 의해 확인되는 중심의 측정된 염기(또는 염기쌍)와의 결찰에 의해 측정될 수 있다. 색이 기록된 후에, 결찰된 올리고뉴클레오타이드가 절단 및 제거된 후 프로세스가 반복된다.
또 다른 예시적인, 그러나 비-제한적인 실시형태에서, 본 명세서에 기술된 방법은 Pacific Biosciences의 단일 분자, 실시간(SMRT) 서열분석 기술을 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. SMRT 서열분석에서, 염료-표지된 뉴클레오타이드의 연속적인 통합은 DNA 합성 중에 영상화된다. 단일 DNA 중합효소 분자는 서열 정보를 얻는 개별적인 0-모드 파장 검출기(ZMW 검출기)의 하부 표면에 부착되는 한편 포스포연결된 뉴클레오타이드가 성장하는 프라이머 가닥으로 통합된다. ZMW 검출기는 ZMW 외부에서(예컨대 마이크로초 안에) 빠르게 확산되는 형광 뉴클레오타이드의 배경에 대해 DNA 중합효소에 의한 단일 뉴클레오타이드의 통합의 관찰을 가능하게 하는 가둠 구조(confinement structure)를 포함한다. 전형적으로 성장하는 가닥으로 뉴클레오타이드를 통합시키는 데에 수 밀리초가 걸린다. 이 시간 동안에, 형광 표지가 여기되고 형광 신호를 생성하며, 형광 태그가 절단된다. 염료의 해당 형광의 측정은 어떤 염기가 통합되었는지를 가리킨다. 프로세스는 반복되어 서열을 제공한다.
또 다른 예시적인, 그러나 비-제한적인 실시형태에서, 본 명세서에 기술된 방법은 나노포어 서열분석(예컨대 Soni GV and Meller A. ClinChem 53:1996-2001 [2007]에 기술됨)을 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. 나노포어 서열분석 DNA 분석 기법은 예를 들면 Oxford Nanopore Technologies(Oxford, United Kingdom), Sequenom, NABsys 등을 포함하여 많은 회사에 의해 개발되었다. 나노포어 서열분석은 그로써 DNA의 단일 분자가 나노포어를 통해 지나감에 따라 직접 서열분석되는 단일-분자 서열분석 기술이다. 나노포어는 작은 구멍, 전형적으로 직경이 1 나노미터 정도이다. 나노포어의 수행 유체에의 담금 및 그것을 가로지르는 전위(전압)의 적용은 나노포어를 통한 이온의 전도로 인한 약한 전류를 초래한다. 흐르는 전류의 양은 나노포어의 크기 및 형상에 민감하다. DNA 분자가 나노포어를 통해 통과함에 따라, DNA 분자 상의 각 뉴클레오타이드는 나노포어를 상이한 정도로 막아서, 나노포어를 통한 전류의 크기를 상이한 정도로 변화시킨다. 그러므로, 나노포어를 통해 DNA 분자가 통과함에 따른 이런 전류의 변화는 DNA 서열의 판독을 제공한다.
또 다른 예시적인, 그러나 비-제한적인 실시형태에서, 본 명세서에 기술된 방법은 화학물질-민감성 필드 효과 트랜지스터(chemFET) 어레이(예컨대 미국 특허 출원 공개 번호 2009/0026082에 기술됨)를 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. 이 기법의 한 실례에서, DNA 분자는 반응 챔버에 놓일 수 있고, 주형 분자는 중합효소에 결합된 서열분석 프라이머에 혼성화될 수 있다. 서열분석 프라이머의 3' 단부에서 하나 이상의 트라이포스페이트의 새로운 핵산 가닥으로의 통합은 chemFET에 의한 전류의 변화로서 파악될 수 있다. 어레이는 다중 chemFET 센서를 가질 수 있다. 다른 실례에서, 단일 핵산은 비드에 부착될 수 있고, 핵산은 비드상에서 증폭될 수 있으며, 개별적인 비드는 각각의 챔버가 chemFET 센서를 가지고 있는 chemFET 어레이 상의 개별적인 반응 챔버로 전달될 수 있고, 핵산이 서열분석될 수 있다.
다른 실시형태에서, DNA 서열분석 기술은 Ion Torrent 단일 분자 서열분석으로, 그것은 반도체 칩 상에서 화학적으로 코드화된 정보(A, C, G, T)를 디지털 정보(0, 1)로 직접 번역하기 위해 반도체 기술을 단순한 서열분석 화학과 쌍을 이룬 것이다. 본질상, 뉴클레오타이드가 중합효소에 의해 DNA의 가닥에 통합될 때, 수소 이온이 부산물로서 방출된다. Ion Torrent는 미세-기계화된 웰의 고밀도 어레이를 사용하여 이런 생화학적 프로세스를 대량 병렬 방식으로 수행한다. 각 웰은 상이한 DNA 분자를 붙잡는다. 웰 아래에는 이온-민감성 층이 있고, 그 아래에는 이온 센서가 있다. 예를 들어 C에 대한 뉴클레오타이드가 DNA 주형에 첨가된 후 DNA의 가닥에 통합되면, 수소 이온이 방출될 것이다. 그 이온으로부터의 전하는 용액의 pH를 변화시킬 것이고, 그것은 Ion Torrent의 이온 센서에 의해 검출될 수 있다. 서열분석기 -본질적으로 세계의 가장 작은 고체-상태 pH 계량기-는 염기의 이름을 붙이고, 직접 화학적 정보로부터 디지털 정보로 진행시킨다. 다음에 이온 퍼스널 게놈 기계(PGMTM) 서열분석기가 칩을 뉴클레오타이드로 연달아 하나씩 순차적으로 쇄도하게 한다. 만약 칩에 쇄도하는 다음 뉴클레오타이드가 매치가 아니라면, 전압 변화는 기록되지 않을 것이고 염기도 이름붙여지지 않을 것이다. 만약 DNA 가닥에 2개의 동일한 염기가 있다면 전압을 배가될 것이고, 칩은 이름붙여진 2개의 동일한 염기를 기록할 것이다. 직접 검출로 수초 안에 뉴클레오타이드 통합의 기록이 허용된다.
또 다른 실시형태에서, 본 방법은 혼성화에 의한 서열분석을 사용하여 시험 샘플 중의 핵산에 대한 서열 정보를 얻는 것을 포함한다. 혼성화에 의한 서열분석은 복수의 폴리뉴클레오타이드 서열을 복수의 폴리뉴클레오타이드 프로브와 접촉시키는 것을 포함하고, 이때 복수의 폴리뉴클레오타이드 프로브의 각각은 선택적으로 기질에 묶일 수 있다. 기질은 공지의 뉴클레오타이드 서열의 어레이를 포함하여 평평한 표면일 것이다. 어레이에 대한 혼성화 패턴은 샘플에 존재하는 폴리뉴클레오타이드 서열을 측정하기 위해 사용될 수 있다. 다른 실시형태에서, 각각의 프로브는 비드, 예컨대 자기 비드 등에 묶인다. 비드에의 혼성화는 측정될 수 있고 샘플 내의 그 많은 폴리뉴클레오타이드 서열을 확인하기 위해 사용될 수 있다.
본 명세서에 기술된 방법의 일부 실시형태에서, 서열 판독은 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp 또는 약 500bp이다. 기술적 진보는 500 bp보다 큰 단일-단부 판독을 가능하게 할 것이고 그것은 쌍 단부 판독이 생성될 때 약 1000 bp보다 큰 판독을 가능하게 할 것으로 예상된다. 일부 실시형태에서, 쌍 단부 판독은 약 20 bp 내지 1000 bp, 약 50 bp 내지 500 bp 또는 80 bp 내지 150 bp인 서열 판독을 포함하는, 관심 대상 서열을 측정하기 위해 사용된다. 다양한 실시형태에서, 쌍 단부 판독은 관심 대상 서열을 평가하는 데 사용된다. 관심 대상 서열은 판독보다 길다. 일부 실시형태에서, 관심 대상 서열은 약 100bp, 500bp, 1000bp 또는 4000bp보다 길다. 서열 판독의 맵핑은 판독의 서열을 참조 서열과 비교하여 서열분석된 핵산 분자의 염색체 기원을 측정함으로써 이루어지고, 특이적 유전자 서열 정보는 필요하지 않다. 작은 정도의 미스매치(판독당 0 내지 2개의 미스매치)는 혼합된 샘플 중의 게놈과 참조 게놈 사이에 있을 수 있는 미미한 다형태를 설명하기 위해 허용될 수 있다. 일부 실시형태에서, 참조 서열에 배열된 판독은 앵커 판독으로서 사용되고, 앵커 판독에 쌍을 이루지만 참조에 대해 배열할 수 없거나 불량하게 배열되는 판독은 고정된 판독으로서 사용된다. 일부 실시형태에서, 불량하게 배열된 판독은 판독당 상대적으로 큰 수의 백분율의 미스매치, 예컨대 판독당 적어도 약 5%, 적어도 약 10%, 적어도 약 15% 또는 적어도 약 20%의 미스매치를 가질 수 있다.
복수의 서열 태그(즉 참조 서열에 대해 배열된 판독)는 전형적으로 샘플당 얻어진다. 일부 실시형태에서 판독을 참조 게놈에 맵핑할 때 샘플당, 예컨대 100 bp의 적어도 약 3 x 106개의 서열 태그, 적어도 약 5 x 106개의 서열 태그, 적어도 약 8 x 106개의 서열 태그, 적어도 약 10 x 106개의 서열 태그, 적어도 약 15 x 106개의 서열 태그, 적어도 약 20 x 106개의 서열 태그, 적어도 약 30 x 106개의 서열 태그, 적어도 약 40 x 106개의 서열 태그 또는 적어도 약 50 x 106개의 서열 태그가 얻어진다. 일부 실시형태에서, 모든 서열 판독은 참조 게놈의 모든 영역에 맵핑되어, 게놈 전체 판독이 제공된다. 다른 실시형태에서, 판독은 관심 대상 서열에 맵핑된다.
UMI를 사용하여 서열분석하기 위한 장치 및 시스템
서열분석 데이터의 분석 및 그것으로부터 유도된 진단은 전형적으로 다양한 컴퓨터 실행된 알고리즘 및 프로그램을 사용하여 수행된다. 그러므로, 특정 실시형태는 하나 이상의 컴퓨터 시스템 또는 다른 프로세싱 시스템에 저장된 또는 그것을 통해 전달된 데이터를 포함하는 프로세스들을 사용한다. 본 명세서에 개시된 실시형태들은 또한 이들 작동을 수행하기 위한 장치에 관련된다. 이 장치는 필요한 목적에 대해 특수하게 구성되거나, 또는 컴퓨터 프로그램 및/또는 그 컴퓨터에 저장된 데이터 구조에 의해 선택적으로 활성화되거나 또는 변경된 일반적 목적의 컴퓨터(또는 컴퓨터 그룹)일 수 있다. 일부 실시형태에서, 프로세서 그룹은 인용된 분석적 작동의 일부 또는 전부를 협동적으로(예컨대 네트워크 또는 클라우드 컴퓨팅을 통해) 및/또는 병렬로 수행한다. 본 명세서에 기술된 방법들을 수행하기 위한 프로세서 또는 프로세서 그룹은 마이크로콘트롤러 및 마이크로프로세서, 예컨대 프로그래밍 가능한 디바이스(예컨대 CPLD 및 FPGA) 및 프로그래밍이 가능하지 않은 디바이스, 예컨대 게이트 어레이 ASIC 또는 일반 목적의 마이크로프로세서를 포함하여 다양한 유형의 것일 수 있다.
한 구현예는 핵산을 포함하는 시험 샘플 중의 낮은 대립유전자 빈도를 가진 서열을 측정하는 데 사용하기 위한 시스템을 제공하고, 그 시스템은 핵산 서열 샘플을 수령하고 샘플로부터 핵산 서열 정보를 제공하기 위한 서열분석기; 프로세서; 및 시험 샘플 중의 관심 대상 서열을 (a) 복수의 증폭된 폴리뉴클레오타이드의 서열을 수령하는 단계, 여기서 복수의 증폭된 폴리뉴클레오타이드는 관심 대상 서열을 포함하는 샘플 중의 이중-가닥 DNA 단편을 증폭시키고 이중-가닥 DNA 단편에 어댑터를 부착함으로써 얻어지고; (b) 각각이 복수의 증폭된 폴리뉴클레오타이드 중 하나에서 발견되는 복수의 물리적 UMI를 확인하는 단계, 여기서 각각의 물리적 UMI는 이중-가닥 DNA 단편 중 하나에 부착된 어댑터로부터 유도되며; (c) 각각이 복수의 증폭된 폴리뉴클레오타이드 중 하나에서 발견되는 복수의 실제 UMI를 확인하는 단계, 여기서 각각의 실제 UMI는 이중-가닥 DNA 단편 중 하나의 단편의 개별 분자로부터 유도되고; 및 (d) 복수의 증폭된 폴리뉴클레오타이드의 서열, 복수의 물리적 UMI 및 복수의 실제 UMI를 사용하여 이중-가닥 DNA 단편의 서열을 측정하고, 그로써 이중-가닥 DNA 단편의 측정된 서열의 오류를 감소시키는 단계에 의해 측정하는 것을 상기 프로세서에서 실행하기 위한 지시가 그 위에 저장되어 있는 기계 판독 가능한 저장 매체를 포함한다.
다른 구현예는 핵산 샘플을 수령하고 샘플로부터 핵선 서열 정보를 제공하기 위한 서열분석기; 프로세서; 및 상기 프로세서상에서 시험 샘플 중의 관심 대상 서열을 측정하기 위한 실행을 위한 지시가 그 위에 저장되어 있는 기계 판독 가능한 저장 매체를 포함하는 시스템을 제공한다. 그 지시는 (a) 샘플 중의 DNA 단편의 양 단부에 어댑터를 적용함으로써 DNA-어댑터 생성물을 얻는 단계, 이때 어댑터는 각각 어댑터의 한 가닥 또는 각 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 고유 분자 색인(UMI)을 포함하고; (b) DNA-어댑터 생성물을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 복수의 비무작위 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독으로부터 공동 비무작위 UMI를 공유하는 판독을 확인하는 단계; 및 (e) 공동 비무작위 UMI를 공유하는 확인된 판독들로부터, 샘플로부터, 공통 비-무작위 UMI를 가지는 적용된 어댑터를 가지는 DNA 단편의 적어도 일부의 서열을 측정하는 단계를 포함한다. 일부 구현예에서, 지시는 공동 비무작위 UMI를 공유하는 판독으로부터, 공동 비무작위 UMI 및 공동 판독 위치를 둘 다 공유하는 판독을 선택하는 단계를 더 포함하고, (e)에서 DNA 단편의 서열을 측정하는 단계는 참조 서열의 공동 비무작위 UMI 및 공동 판독 위치를 둘 다 공유하는 판독만을 사용한다.
다른 구현예에서, 지시는 (a) 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용함으로써 DNA-어댑터 생성물을 얻는 단계, 이때 어댑터는 각각 어댑터의 한 가닥 또는 각 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 고유 분자 색인(UMI)을 포함하고, 비무작위 UMI는 다른 정보와 조합되어 이중-가닥 DNA 단편의 개별 분자를 독특하게 확인하며; (b) DNA-어댑터 생성물의 양 가닥을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻는 단계; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 각각이 비무작위 UMI와 연계된 복수의 판독을 얻는 단계; (d) 복수의 판독과 연계된 복수의 비무작위 UMI를 확인하는 단계; 및 (e) 복수의 판독 및 복수의 비무작위 UMI를 사용하여 샘플의 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함한다.
본원에서 제공된 시스템 중 임의의 시스템의 일부 실시형태에서, 서열분석기는 차세대 서열분석(NGS)을 수행하도록 구성된다. 일부 실시형태에서, 서열분석기는 가역성 염료 터미네이터를 사용하는 합성에 의한 서열분석을 사용하여 대량 병렬 서열분석을 수행하도록 구성된다. 다른 실시형태에서, 서열분석기는 결찰에 의한 서열분석을 수행하도록 구성된다. 또 다른 실시형태에서, 서열분석기는 단일 분자 서열분석을 수행하도록 구성된다.
또한, 특정 실시형태는 다양한 컴퓨터-실행된 작동을 수행하기 위한 프로그램 지시 및/또는 데이터(데이터 구조를 포함함)를 포함하는 가시적인 및/또는 비-일시적 컴퓨터 판독 가능한 매체 또는 컴퓨터 프로그램 제품에 관련된다. 컴퓨터-판독 가능한 매체의 실례로는, 한정하는 것은 아니지만, 반도체 메모리 소자, 자기 매체, 예컨대 디스크 드라이브, 자기 테이프, 광학 매체, 예컨대 CD, 자기-광학 매체 및 프로그램 지시를 저장 및 수행하도록 특수하게 구성된 하드웨어 소자, 예컨대 판독-전용 메모리 소자(ROM) 및 무작위 접근 메모리(RAM)를 포함한다. 컴퓨터 판독 가능한 매체는 최종 사용자에 의해 직접 제어되거나 또는 매체는 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어되는 매체의 실례는 사용자 시설에 위치한 매체 및/또는 다른 기업체와 공유되지 않는 매체를 포함한다. 간접적으로 제어되는 매체의 실례는 외부 네트워크를 통해 및/또는 "클라우드"와 같은 공유된 자원을 제공하는 서비스를 통해 사용자에게 간접적으로 접근할 수 있는 매체를 포함한다. 프로그램 지시의 실례는, 예컨대 컴파일러에 의해 생성된 기계 코드 및 번역기를 사용하여 컴퓨터에 의해 실행될 수 있는 고수준의 코드를 함유하고 있는 파일을 둘 다 포함한다.
다양한 실시형태에서, 개시된 방법 및 장치에서 사용된 데이터 또는 정보는 전자 포맷으로 제공된다. 그런 데이터 또는 정보는 핵산 샘플, 참조 서열(단독으로 또는 주로 다형태를 제공하는 참조 서열을 포함함), 암 진단 통보와 같은 통보, 상담 권고, 진단 등으로부터 유도된 판독 및 태그를 포함할 수 있다. 본원에서 사용되는, 전자 포맷으로 제공되는 데이터 또는 다른 정보는 기계 상의 저장 및 기계 사이의 전송에 이용될 수 있다. 관례적으로, 전자 포맷의 데이터는 디지털로 제공되고 다양한 데이터 구조, 목록, 데이터베이스 등에서 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적으로, 광학적으로, 등등 삽입될 수 있다.
한 실시형태는 시험 샘플 중의 관심 대상 DNA 단편의 서열을 나타내는 출력을 생성하기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 관심 대상 서열을 측정하기 위해 임의의 하나 이상의 상기-기술된 방법을 수행하기 위한 지시를 함유할 수 있다. 설명된 것과 같이, 컴퓨터 제품은 프로세서가 관심 대상 서열을 측정하는 것을 가능하게 하기 위해 그 위에 기록된 컴퓨터 실행한 또는 편집 가능한 로직(예컨대 지시)을 가지는 비-일시적 및/또는 가시적인 컴퓨터 판독 가능한 매체를 포함할 수 있다. 한 실례에서, 컴퓨터 제품은 프로세서가 상태를 진단하거나 관심 대상 핵산 서열을 측정하는 것을 가능하게 하기 위해 그 위에 기록된 컴퓨터 실행한 또는 편집 가능한 로직(예컨대 지시)을 가지는 컴퓨터 판독 가능한 매체를 포함한다.
도움을 받지 않는 인간이 본 명세서에 개시된 방법의 컴퓨터 작동을 수행하는 것이 실용적이 아니거나, 또는 심지어 대부분의 경우에 가능하지 않다는 것이 인지되어야 한다. 예를 들어, 샘플로부터의 단일 30 bp 판독을 인간 염색체 중 임의의 하나에 맵핑하는 것은 컴퓨터 장치의 보조 없이는 수년간의 노력을 필요로 할 것이다. 물론, 낮은 대립유전자 빈도 돌연변이가 일반적으로 수천개(예컨대 적어도 약 10,000) 또는 심지어 수백만개의 판독을 하나 이상의 염색체에 맵핑하는 것을 필요로 하기 때문에 문제는 복합적이다.
본 명세서에 개시된 방법은 시험 샘플 중의 관심 대상 서열을 측정하기 위한 시스템을 사용하여 수행될 수 있다. 시스템은 (a) 샘플로부터 핵산 서열 정보를 제공하는 시험 샘플로부터 핵산을 수령하기 위한 서열분석기; (b) 프로세서; 및 (c) 시험 샘플 중의 관심 대상 서열을 측정하기 위해 상기 프로세서 상에서 실행하기 위한 지시가 그 위에 저장되어 있는 하나 이상의 컴퓨터-판독 가능한 저장 매체를 포함한다. 일부 실시형태에서, 방법은 관심 대상 서열을 측정하기 위한 방법을 수행하기 위한 컴퓨터-판독 가능한 지시가 그 위에 저장되어 있는 컴퓨터-판독 가능한 매체에 의해 지시된다. 그러므로 한 실시형태는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 시험 샘플 중의 핵산 단편의 서열을 측정하기 위한 방법을 실행하도록 유발하는 비-일시적 기계 판독 가능한 매체 저장 프로그램 코드를 포함하는 컴퓨터 프로그램 제품을 제공한다. 프로그램 코드는 (a) 복수의 증폭된 폴리뉴클레오타이드의 서열을 수령하기 위한 코드, 여기서 복수의 증폭된 폴리뉴클레오타이드는 관심 대상 서열을 포함하는 샘플 중의 이중-가닥 DNA 단편을 증폭시키고 이중-가닥 DNA 단편에 어댑터를 부착시킴으로써 얻어지고; (b) 각각이 복수의 증폭된 폴리뉴클레오타이드 중 하나에서 발견되는 복수의 물리적 UMI를 확인하기 위한 코드, 여기서 각각의 물리적 UMI는 이중-가닥 DNA 단편 중 하나에 부착된 어댑터로부터 유도되며; (c) 각각이 복수의 증폭된 폴리뉴클레오타이드 중 하나에서 발견되는 복수의 실제 UMI를 확인하기 위한 코드, 여기서 각각의 실제 UMI는 이중-가닥 DNA 단편 중 하나의 개별적인 분자로부터 유도되고; 및 (d) 복수의 증폭된 폴리뉴클레오타이드의 서열, 복수의 물리적 UMI 및 복수의 실제 UMI를 사용하여 이중-가닥 DNA 단편의 서열을 측정함으로써, 이중-가닥 DNA 단편의 측정된 서열의 오류를 감소시키기 위한 코드를 포함할 수 있다.
일부 구현예에서, 물리적 UMI는 비무작위 UMI를 포함한다. 다른 구현예에서, 물리적 UMI는 무작위 UMI를 포함한다.
다른 구현예는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 시험 샘플 중의 핵산 단편의 서열을 측정하기 위한 방법을 실행하도록 유발하는 비-일시적 기계 판독 가능한 매체 저장 프로그램 코드를 포함하는 컴퓨터 프로그램 제품을 제공한다. 프로그램 코드는 (a) 샘플 중의 DNA 단편의 양 단부에 어댑터를 적용함으로써 DNA-어댑터 생성물을 얻기 위한 코드, 이때 어댑터는 각각 어댑터의 한 가닥 또는 각 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 고유 분자 색인(UMI)을 포함하고; (b) 복수의 증폭된 폴리뉴클레오타이드를 얻기 위해 DNA-어댑터 제품을 증폭시키기 위한 코드; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석하고, 그로써 복수의 비무작위 UMI와 연계된 복수의 판독을 얻기 위한 코드; (d) 복수의 판독으로부터, 공동 비무작위 UMI를 공유하는 판독을 확인하기 위한 코드; 및 (e) 공동 비무작위 UMI를 공유하는 확인된 판독으로부터, 공통 비-무작위 UMI를 가진 적용된 어댑터를 가지는, 샘플로부터의 DNA 단편의 적어도 일부의 서열을 측정하기 위한 코드를 포함할 수 있다.
다른 구현예에서, 프로그램 코드는 (a) 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용하고, 그로써 DNA-어댑터 제품을 얻기 위한 코드, 이때 어댑터는 각각 어댑터의 한 가닥 또는 각 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 비무작위 고유 분자 색인(UMI)을 포함하고, 비무작위 UMI는 다른 정보와 조합되어 이중-가닥 DNA 단편의 개별 분자를 독특하게 확인하며; (b) DNA-어댑터 생성물의 양 가닥을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻기 위한 코드; (c) 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써 각각이 비무작위 UMI와 연계된 복수의 판독을 얻기 위한 코드; (d) 복수의 판독과 연계된 복수의 비무작위 UMI를 확인하기 위한 코드; 및 (e) 복수의 판독 및 복수의 비무작위 UMI를 사용하여 샘플의 이중-가닥 DNA 단편의 서열을 측정하기 위한 코드를 포함한다.
일부 구현예에서, 지시는 추가로 방법에 적절한 정보를 자동으로 기록하는 것을 포함할 수 있다. 환자 의료 기록은 예를 들면 실험실, 진료실, 병원, 건강 관리 기관, 보험 회사 또는 개인 의료 기록 웹사이트에 의해 유지될 수 있다. 추가로, 프로세서-실행된 분석의 결과를 기반으로, 방법은 추가로 실험 샘플이 취해지는 인간 대상체의 처리를 처방, 개시 및/또는 변경시키는 것을 포함할 수 있다. 이것은 대상체로부터 취해진 추가의 샘플에 대해 하나 이상의 추가의 시험 또는 분석을 수행하는 것을 포함할 수 있다.
개시된 방법은 또한 관심 대상 서열을 측정하기 위한 방법을 수행하기 위해 적응된 또는 구성된 컴퓨터 프로세싱 시스템을 사용하여 수행될 수 있다. 한 실시형태는 본 명세서에 기술된 방법을 수행하기 위해 적응된 또는 구성된 컴퓨터 프로세싱 시스템을 제공한다. 한 실시형태에서, 장치는 본원의 다른 곳에서 기술된 서열 정보의 유형을 얻기 위해 샘플 중의 적어도 일부의 핵산 분자를 서열분석하기 위해 적응된 또는 구성된 서열분석 디바이스를 포함한다. 장치는 또한 샘플을 프로세싱하기 위한 성분들을 포함할 수 있다. 그런 성분들은 본원의 다른 곳에서 기술된다.
서열 또는 다른 데이터는 직접 또는 간접적으로 컴퓨터에 입력되거나 또는 컴퓨터 판독 가능한 매체상에 저장될 수 있다. 한 실시형태에서, 컴퓨터 시스템은 샘플로부터 핵산의 서열을 판독 및/또는 분석하는 서열분석 디바이스에 직접 결합된다. 그런 도구로부터의 서열 또는 다른 정보는 컴퓨터 시스템의 인터페이스를 통해 제공된다. 다르게는, 시스템에 의해 프로세싱된 서열은 데이터베이스 또는 다른 저장소와 같은 서열 저장 공급원으로부터 제공된다. 일단 프로세싱 장치에 대해 활용 가능하다면, 메모리 소자 또는 대량 저장 디바이스는 핵산 서열을, 적어도 일시적으로, 완충시키거나 저장한다. 또한, 메모리 소자는 다양한 염색체 또는 게놈 등에 대한 태그 카운트를 저장할 수 있다. 메모리는 또한 선진 서열 또는 맵핑된 데이터를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 그런 프로그램/루틴은 통계학적 분석을 수행하기 위한 프로그램 등을 포함할 수 있다.
한 실례에서, 사용자는 서열분석 장치로 샘플을 제공한다. 데이터는 컴퓨터에 연결된 서열분석 장치에 의해 수집되고 및/또는 분석된다. 컴퓨터 상의 소프트웨어는 데이터 수집 및/또는 분석을 허용한다. 데이터는 저장되고, 전시되고(모니터 또는 다른 유사한 디바이스를 통해) 및/또는 다른 위치로 이송된다. 컴퓨터는 원격 사용자(예컨대 의사, 과학자 또는 분석가)에 의해 활용된 포켓용 디바이스에 데이터를 전송하기 위해 사용되는 인터넷에 연결될 수 있다. 데이터는 전송 전에 저장 및/또는 분석될 수 있는 것으로 인지된다. 일부 실시형태에서, 원시 데이터(raw data)가 수집되고 데이터를 분석 및/또는 저장할 원격 사용자 또는 장치에 이송된다. 전송은 인터넷을 통해 일어날 수 있지만, 또한 위성 또는 다른 연결을 통해서도 일어날 수 있다. 다르게는, 데이터는 컴퓨터-판독 가능한 매체에 저장될 수 있고 그 매체는 최종 사용자에게(예컨대 메일을 통해) 발송될 수 있다. 원격 사용자는 한정하는 것은 아니지만 빌딩, 도시, 주, 나라 또는 대륙을 포함하여 동일한 또는 상이한 지리학적 위치에 있을 수 있다.
일부 실시형태에서, 방법은 또한 복수의 폴리뉴클레오타이드 서열(예컨대 판독, 태그 및/또는 참조 염색체 서열)에 관련되는 데이터를 수집하고 그 데이터를 컴퓨터 또는 다른 컴퓨터 시스템에 보내는 것을 포함한다. 예를 들어, 컴퓨터는 실험실 장비, 예컨대 샘플 수집 장치, 뉴클레오타이드 증폭 장치, 뉴클레오타이드 서열분석 장치 또는 혼성화 장치에 연결될 수 있다. 컴퓨터는 다음에 실험실 디바이스에 의해 모아진 적용 가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계에서, 예컨대 실시간으로 수집되는 한편, 이송 전에, 이송 중에 또는 이송과 함께, 또는 이송 후에 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터-판독 가능한 매체에 저장될 수 있다. 수집된 또는 저장된 데이터는 컴퓨터로부터 원격 위치로, 예컨대 국지 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 전송될 수 있다. 원격 위치에서 다양한 작동은 하기에서 기술되는 것과 같이 전송된 데이터에 대해 수행될 수 있다.
본원에서 개시된 시스템, 장치 및 방법에서 저장, 전송, 분석 및/또는 조작될 수 있는, 전자적으로 포맷팅된 유형의 데이터 중에는 다음과 같은 것들이 있다:
시험 샘플 중의 핵산을 서열분석함으로써 얻어진 판독
참조 게놈 또는 다른 참조 서열 또는 서열들에 판독을 배열함으로써 얻어진 태그
참조 게놈 또는 서열
시험 샘플을 영향을 받은, 영향을 받지 않은 또는 통보가 없는 것으로서 통보하기 위한 한계점
관심 대상 서열에 관련된 의학적 상태의 실제 통보
진단(통보와 연계된 임상 상태)
통보 및/또는 진단으로부터 유도된 추가의 시험을 위한 권고
통보 및/또는 진단으로부터 유도된 치료 및/또는 모니터링 계획
이들 다양한 유형의 데이터는 구별되는 장치를 사용하여 하나 이상의 위치에서 얻어지고, 저장되고, 전송되고, 분석되고 및/또는 조작될 수 있다. 프로세싱 옵션은 넓은 스펙트럼에 걸쳐 있다. 스펙트럼의 한 단부에서, 전부 또는 많은 이런 정보가 시험 샘플이 프로세스되는 위치, 예컨대 진료실 또는 다른 임상 환경에서 저장되고 사용된다. 다른 극단에서, 샘플은 한 위치에서 얻어지고, 상이한 위치에서 프로세스되며 선택적으로 서열분석되고, 판독이 배열되고 콜은 하나 이상의 상이한 위치에서 만들어지며, 진단, 권고 및/또는 계획은 여전히 다른 위치(샘플이 얻어진 위치일 수 있음)에서 제작된다.
다양한 실시형태에서, 판독은 서열분석 장치로 생성된 후 판독들이 프로세싱되는 원격 자리로 전송되어 관심 대상 서열이 측정된다. 이런 원격 위치에서, 실례로서, 판독은 참조 서열에 배열되어 앵커 및 고정된 판독이 생성된다. 구별되는 위치에서 사용될 수 있는 프로세싱 작동 중에는 다음의 것들이 있다:
샘플 수집
서열분석 전에 샘플 프로세싱
서열분석
서열 데이터 분석 및 의학적 통보 유도
진단
환자 또는 건강 관리 제공자에게 진단 및/또는 통보의 기록
추가의 치료, 시험 및/또는 모니터링을 위한 계획의 구상
계획의 구현예
상담
이들 작동 중 임의로 하나 이상이 본원의 다른 곳에서 기술된 것과 같이 자동화될 수 있다. 전형적으로, 서열분석 및 서열 데이터의 분석 및 의학적 통보의 유도는 컴퓨터상에서 수행될 것이다. 다른 작동들은 수동으로 또는 자동으로 수행될 수 있다.
도 6은 시험 샘플로부터 통보 또는 진단을 생성하기 위한 분산된 시스템의 한 구현예를 도시한다. 샘플 수집 위치(01)는 환자로부터 시험 샘플을 얻기 위해 사용된다. 샘플은 다음에 시험 샘플이 상기 기술된 것과 같이 프로세싱되고 서열분석될 수 있는 프로세싱 및 서열분석 위치(03)에 제공된다. 위치(03)는 샘플을 프로세싱하기 위한 장치뿐 아니라 프로세싱된 샘플을 서열분석하기 위한 장치를 포함한다. 서열분석의 결과는, 본원의 다른 곳에서 기술된 것과 같이, 전형적으로 전자 포맷으로 제공되고 인터넷과 같은 네트워크에 제공되는 판독의 집합이고, 그것은 도 6에서 참조 숫자(05)로 표시된다.
서열 데이터는 분석 및 통보 작성이 수행되는 원격 위치(07)에 제공된다. 이 위치는 컴퓨터 또는 프로세서와 같은 하나 이상의 강력한 컴퓨터 디바이스를 포함할 수 있다. 위치(07)에서 컴퓨터 자원이 분석을 완료하고 수령된 서열 정보로부터 통보를 생성한 후에, 그 통보는 네트워크(05)에 다시 전달된다. 일부 구현예에서, 위치(07)에서 생성된 통보뿐 아니라 연계된 진단 또한 생성된다. 통보 및 또는 진단은 다음에 도 6에 도시된 것과 같이 네트워크를 가로질러 전송되고 샘플 수집 위치(01)로 되돌려진다. 설명된 것과 같이, 이것은 통보 또는 진단을 생성하는 것과 연계된 다양한 작동이 다양한 위치 중에서 나누어질 수 있는 방법에 대한 많은 변이 중 단지 하나이다. 하나의 공통 변이체는 단일 위치에서 샘플 수집을 제공하고 프로세싱 및 서열분석하는 것을 포함한다. 다른 변이는 분석 및 통보 생성과 동일한 위치에서 프로세싱 및 서열분석을 제공하는 것을 포함한다.
실험
실시예 1
무작위 물리적 UMI 및 실제 UMI를 사용하는 오류 억제
도 7a 및 도 7b는 본 명세서에 개시된 방법을 사용하여 오류 억제의 유효성을 증명하는 실험 데이터를 도시한다. 실험은 NA12878의 전단된 gDNA를 사용하였다. 실험은 TruSeq 라이브러리 제조 및 전통 패널(~130 Kb)을 사용한 풍부화를 사용하였다. 서열분석을 HiSeq2500 신속 모드를 사용하여 2x150 bp에서 수행하였고, 평균 표적 범위는 ~10,000X였다. 도 7a는 표준 방법을 사용하여 고품질 염기(>Q30)의 오류율(제2 최고 염기의 대립유전자 빈도)의 프로파일을 도시한다(평균 오류율은 0.04%임). 도 7b는 붕괴/UMI 파이프라인의 오류율의 프로파일을 도시한다(평균 오류율은 0.007%임). 이들 결과는 프로토타입 코드를 기반으로 하고, 오류율의 추가의 감소는 정제된 방법으로 이루어질 수 있다.
실시예 2
비무작위 물리적 UMI 및 위치를 사용한 오류 억제
도 8은 판독을 붕괴하기 위해 위치 정보를 단독으로 사용하는 것은 실제로 상이한 공급원 분자로부터 유도된 판독을 붕괴하려는 경향이 있음을 나타내는 데이터를 도시한다. 이런 현상은 또한 판독 충돌로서 언급된다. 그 결과로서, 방법은 샘플 중의 단편의 수를 과소평가하는 경향이 있다. 도 8의 Y축에 도시된 것은 위치 정보를 단독으로 사용하여 판독을 붕괴함으로써 관찰된 단편 카운트이다. 도 8의 X축에 있는 것은 상이한 SNP 및 다른 유전자형 차이와 같은 상이한 유전자형을 고려하는 추정된 단편 카운트이다. 도면에 도시된 것과 같이, 관찰된 단편 카운트는 유전자형 조정된 단편 카운트보다 적은데, 그것은 판독을 붕괴하고 단편을 확인하기 위해 위치 정보를 단독으로 사용하는 과소평가 및 판독 충돌을 나타낸다.
도 9는 판독을 붕괴하기 위해 비무작위 UMI 및 위치 정보를 사용하는 것은 위치 정보를 단독으로 사용하는 것보다 정확한 단편의 추정을 제공할 수 있음을 보여주는 실험 데이터를 도표화한다. 비무작위 UMI는 96개의 상이한 UMI 중 하나로부터 선택되는 비-무작위 UMI인, 어댑터의 이중-가닥 단부에 위치한 6 bp의 듀플렉스 UMI이다. Y축에 도표화된 것은 평균 붕괴된 단편 카운트이고, 여기서 막대의 각 쌍의 좌측에는 위치-기반 붕괴 방법이, 막대의 각 쌍의 우측에는 UMI 및 위치-기반 붕괴 방법이 도표화된다. 막대 좌측의 3개의 쌍은 3개의 증가하는 입력의 세포 유리 DNA 샘플에 대한 데이터를 보여준다. 막대 우측의 3개의 쌍은 3개의 전단된 게놈 DNA 샘플에 대한 데이터를 보여준다. 2개의 붕괴 방법의 쌍방식 비교는 UMI 및 위치-기반 붕괴가 붕괴를 위해 위치를 단독으로 사용하는 것보다 높은 단편 카운트의 추정을 제공하는 것을 보여준다. 2가지 붕괴 방법의 비교는 세포 유리 DNA 샘플에 대하여 4개의 게놈 DNA 샘플보다 큰 차이를 보여준다. 나아가, 세포 유리 DNA 샘플에 대한 차이는 샘플 입력이 증가함에 따라 증가한다. 데이터는 비무작위 UMI 및 위치 정보를 둘 다 사용하는 붕괴가 특히 세포 유리 DNA에 대하여, 판독 충돌 및 단편 과소평가에 대해 교정할 수 있음을 시사한다.
도 10은 상이한 오류가 표의 형태로 무작위 UMI로 프로세싱된 3가지 샘플에서 일어나는 것을 보여준다. 데이터의 첫 번째 3개의 줄은 오류 43개 샘플 중 상이한 유형의 백분율을 나타낸다. 마지막 줄은 샘플 전체에서 평균화된 오류율을 보여준다. 표에서 알 수 있는 것과 같이, UMI의 97.58%는 오류를 함유하지 않고, UMI의 1.07%는 하나의 회복 가능한 연대를 함유한다. 모든 UMI의 98.65% 이상이 개별적인 DNA 단편을 색인화하는 데 사용할 수 있다. 나머지의 대부분은 맥락적 정보와 조합될 때 여전히 사용할 수 있다.
도 11a는 상이한 2가지 도구: VarScan 및 Denovo를 가진 2개의 붕괴 방법을 사용하여 gDNA 샘플에서 체세포 돌연변이 및 CNV를 콜링하는 민감성 및 선택성을 도시한다. VarScan 도구를 적용하면, UMI 및 위치 정보를 둘 다 사용하는 붕괴는 UMI가 위치와 함께 사용될 때 상부 좌측으로의 ROC 곡선의 이동에 의해 나타나는 것과 같이, 약간 더 높은 민감성 및 현저하게 더 나은 선택성(더 낮은 잘못된 양성 비율)을 제공한다. Denovo 도구를 적용하면, UMI 및 위치 정보를 둘 다 사용하는 붕괴는 현저하게 더 높은 민감성을 제공한다.
도 11b 내지 도 11c는 증가하는 샘플 입력을 가지는 3개의 cfDNA 샘플에서 2가지 상이한 도구: VarScan 및 Denovo를 가진 2가지 붕괴 방법을 사용하여 체세포 돌연변이 및 CNV를 콜링하는 민감성(즉 잘못된 양성 비율)을 도시한다. VarScan 도구를 적용하면, UMI 및 위치 정보를 둘 다 사용하는 붕괴는 3개의 모든 샘플에 대해 현저하게 더 나은 선택성(더 낮은 잘못된 양성 비율)을 제공한다. Denovo 도구를 적용하면, UMI 및 위치 정보를 둘 다 사용하는 붕괴는 가장 큰 입력을 가지는 샘플에서만 더 나은 선택성(더 낮은 잘못된 경보율)을 제공한다.
본 개시는 개시의 사상 또는 본질적인 특징으로부터 벗어나지 않으면서 다른 특이적인 형태로 구체화될 수 있다. 기술된 실시형태는 모든 측면에서 단지 예시적이고 제한적이 아닌 것으로 여겨질 것이다. 그러므로 개시의 범주는 전술한 설명에 의해서보다는 첨부된 청구범위에 의해 표시된다. 청구범위와 동등한 의미 및 범위 내에 포함되는 모든 변화는 청구범위의 범주 내에 포함될 것이다.
SEQUENCE LISTING <110> Illumina, Inc. <120> ERROR SUPPRESSION IN SEQUENCED DNA FRAGMENTS USING REDUNDANT READS WITH UNIQUE MOLECULAR INDICES (UMIS) <130> WO2016/176091 <140> PCT/US2016/028430 <141> 2016-04-20 <150> US 62/153,699 <151> 2015-04-28 <150> US 62/193,469 <151> 2015-07-16 <150> US 62/269,485 <151> 2015-12-18 <160> 3 <170> PatentIn version 3.5 <210> 1 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <220> <221> misc_feature <222> (4)..(7) <223> n is a, c, g, or t <220> <221> misc_feature <222> (9)..(12) <223> n is a, c, g, or t <400> 1 ccannnnann nntgg 15 <210> 2 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <220> <221> misc_feature <222> (1)..(4) <223> n is a, c, g, or t <400> 2 nnnntgctcg cagatcggaa gagcacacgt ctgaactcca gtcac 45 <210> 3 <211> 44 <212> DNA <213> Artificial Sequence <220> <223> Synthetic polynucleotide <220> <221> misc_feature <222> (40)..(43) <223> n is a, c, g, or t <400> 3 cactctttcc ctacacgacg ctcttccgat ctgcgaccan nnnt 44

Claims (53)

  1. 고유 분자 색인(unique molecular index: UMI)을 사용하여 샘플로부터 핵산 분자를 서열분석하는 방법으로서, 각각의 고유 분자 색인(UMI)은 샘플 중의 이중-가닥 DNA 단편의 개별적인 분자를 확인하기 위해 사용될 수 있는 올리고뉴클레오타이드 서열이며, 상기 방법은,
    (a) 상기 샘플 중의 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용함으로써 DNA-어댑터 생성물을 얻는 단계로서, 각 어댑터는 어댑터의 한 가닥 또는 각 가닥에 이중-가닥 혼성화 영역, 단일-가닥 5' 아암, 단일-가닥 3' 아암 및 물리적 UMI를 포함하고, 상기 물리적 UMI는 복수의 물리적 UMI로부터 선택되며, 상기 샘플 중의 각 이중-가닥 DNA 단편은 상기 이중-가닥 DNA 단편의 한 가닥 또는 각 가닥 상에 실제 UMI를 포함하고, 상기 복수의 물리적 UMI는 비무작위(nonrandom) UMI를 포함하고, 모든 비무작위 UMI는 상기 어댑터의 모든 다른 비무작위 UMI와 상기 비무작위 UMI의 대응하는 서열 위치에서 적어도 2개의 뉴클레오타이드만큼 다르며;
    (b) 상기 DNA-어댑터 생성물의 양 가닥을 증폭시켜서 복수의 증폭된 폴리뉴클레오타이드를 얻는 단계;
    (c) 상기 복수의 증폭된 폴리뉴클레오타이드를 서열분석함으로써, 각각이 어댑터 상의 물리적 UMI에 상응하는 물리적 UMI 서열 및 상기 샘플 중의 이중-가닥 DNA 단편 상의 실제 (virtual) UMI에 상응하는 실제 UMI 서열을 포함하는 복수의 판독을 얻는 단계;
    (d) 상기 복수의 판독을 위하여 복수의 물리적 UMI 서열을 확인하는 단계;
    (e) 상기 복수의 판독을 위하여 복수의 실제 UMI 서열을 확인하는 단계; 및
    (f) (c)에서 얻어진 상기 복수의 판독, (d)에서 확인된 상기 복수의 물리적 UMI 서열 및 (e)에서 확인된 상기 복수의 실제 UMI 서열을 사용하여 상기 샘플 중의 상기 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함하고,
    상기 (f)는,
    (i) 이중-가닥 DNA 단편의 각각에 대해, 각각이 상기 복수의 물리적 UMI 서열의 제1 물리적 UMI 서열과, 상기 복수의 실제 UMI 서열의 제1 실제 UMI를 포함하는, 복수의 제1 판독을 조합하여 공통(consensus) 뉴클레오타이드 서열을 측정하는 단계; 및
    (ii) 상기 공통 뉴클레오타이드 서열을 이용하여 상기 이중-가닥 DNA 단편의 서열을 측정하는 단계를 포함하는 것인,
    샘플로부터 핵산 분자를 서열분석하는 방법.
  2. 제1항에 있어서, 상기 복수의 물리적(physical) UMI는 무작위(random) UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  3. 제1항에 있어서, 상기 복수의 물리적 UMI는 약 10,000개 이하의 고유 비무작위 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  4. 제3항에 있어서, 상기 복수의 물리적 UMI는 약 1,000개 이하의 고유 비무작위 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  5. 제4항에 있어서, 상기 복수의 물리적 UMI는 약 500개 이하의 고유 비무작위 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  6. 제5항에 있어서, 상기 복수의 물리적 UMI는 약 100개 이하의 고유 비무작위 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  7. 제6항에 있어서, 상기 복수의 물리적 UMI는 약 96개의 고유 비무작위 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  8. 제1항에 있어서, 상기 이중-가닥 DNA 단편의 양 단부에 어댑터를 적용하는 단계는 상기 이중 가닥 DNA 단편의 양 단부에 상기 어댑터를 결찰시키는 것을 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  9. 제1항에 있어서, 상기 복수의 물리적 UMI는 1 이상 12 보다 적은 뉴클레오타이드를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  10. 제9항에 있어서, 상기 복수의 UMI는 1 이상 6 이하의 뉴클레오타이드를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  11. 제9항에 있어서, 상기 복수의 UMI는 1 이상 4 이하의 뉴클레오타이드를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  12. 제1항에 있어서, 상기 어댑터는 각각 상기 이중-가닥 혼성화 영역에서 상기 어댑터의 각 가닥에 물리적 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  13. 제12항에 있어서, 상기 물리적 UMI는 상기 이중-가닥 혼성화 영역의 단부 또는 상기 단부로부터 수개 뉴클레오티드 거리에 위치하고, 상기 이중-가닥 혼성화 영역의 상기 단부는 3' 아암 또는 5' 아암과는 반대쪽인 것인 방법.
  14. 제13항에 있어서, 상기 물리적 UMI는 상기 이중-가닥 혼성화 영역의 상기 단부에 있거나, 또는 상기 이중-가닥 혼성화 영역의 상기 단부로부터 하나의 뉴클레오티드 거리에 위치하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  15. 제14항에 있어서, 상기 어댑터는 각각 물리적 UMI에 연결된 상기 이중-가닥 혼성화 영역에 5'-TGG-3' 트라이뉴클레오타이드 또는 3'-ACC-5' 트라이뉴클레오타이드를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  16. 제15항에 있어서, 상기 어댑터는 각각 상기 이중-가닥 혼성화 영역의 각 가닥에 판독 프라이머 서열을 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  17. 제1항에 있어서, 상기 어댑터는 각각 상기 단일-가닥 5' 아암 또는 상기 단일-가닥 3' 아암에 상기 어댑터의 오직 하나의 가닥에 상기 물리적 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  18. 제17항에 있어서, 상기 (f)는,
    (i) 동일한 제1 물리적 UMI를 가지는 판독들을 제1 그룹으로 붕괴시켜(collapsing) 제1 공통 뉴클레오타이드 서열을 얻는 단계;
    (ii) 동일한 제2 물리적 UMI를 가지는 판독들을 제2 그룹으로 붕괴시켜 제2 공통 뉴클레오타이드 서열을 얻는 단계; 및
    (iii) 상기 제1 및 제2 공통 뉴클레오타이드 서열을 사용하여, 상기 샘플 중의 상기 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  19. 제18항에 있어서, 상기 (iii)은 (1) 상기 제1 및 제2 공통 뉴클레오타이드 서열의 위치측정 정보(localization information) 및 서열 정보를 사용하여, 제3 공통 뉴클레오타이드 서열을 얻는 단계 및 (2) 상기 제3 공통 뉴클레오타이드 서열을 사용하여, 상기 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  20. 제17항에 있어서, 상기 (e)는 상기 복수의 실제 UMI를 확인하는 단계를 포함하는 한편, 상기 어댑터는 각각 상기 단일-가닥 5' 아암 또는 상기 단일-가닥 3' 아암에서만 상기 물리적 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  21. 제20항에 있어서, 상기 (f)는,
    (i) 판독 방향으로 제1 물리적 UMI 및 적어도 하나의 실제 UMI를 가지는 판독들을 상기 판독 방향으로 제2 물리적 UMI 및 상기적어도 하나의 실제 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및
    (ii) 상기 공통 뉴클레오타이드 서열을 사용하여 상기 샘플 중의 상기 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  22. 제1항에 있어서, 상기 어댑터는 각각 어댑터의 이중-가닥 영역에서 상기 어댑터의 각 가닥 상에 물리적 UMI를 포함하고, 한 가닥 상의 물리적 UMI는 다른 가닥 상의 물리적 UMI에 상보적인, 샘플로부터 핵산 분자를 서열분석하는 방법.
  23. 제21항에 있어서, 상기 (f)는,
    (i) 5'에서 3' 방향으로 제1 물리적 UMI, 적어도 하나의 실제 UMI 및 제2 물리적 UMI를 가지는 판독들을 5'에서 3' 방향으로 제2 물리적 UMI, 적어도 하나의 실제 UMI 및 제1 물리적 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및
    (ii) 공통 뉴클레오타이드 서열을 사용하여 샘플 중의 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  24. 제1항에 있어서, 상기 어댑터는 각각 어댑터의 3' 아암에 제1 물리적 UMI 및 어댑터의 5' 아암에 제2 물리적 UMI를 포함하고, 상기 제1 물리적 UMI와 상기 제2 물리적 UMI는 서로 상보적이지 않은, 샘플로부터 핵산 분자를 서열분석하는 방법.
  25. 제23항에 있어서, 상기 (f)는,
    (i) 5'에서 3' 방향으로 제1 물리적 UMI, 적어도 하나의 실제 UMI 및 제2 물리적 UMI를 가지는 판독들을 5'에서 3' 방향으로 제3 물리적 UMI, 적어도 하나의 실제 UMI 및 제4 물리적 UMI를 가지는 판독들과 조합하여 공통 뉴클레오타이드 서열을 측정하는 단계; 및
    (ii) 상기 공통 뉴클레오타이드 서열을 사용하여 상기 샘플 중의 상기 이중-가닥 DNA 단편 중 하나의 단편의 서열을 측정하는 단계를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  26. 제1항에 있어서, 상기 실제 UMI의 적어도 일부는 상기 샘플 중의 상기 이중-가닥 DNA 단편의 단부 또는 상기 단부로부터 수개 뉴클레오티드 거리에 위치하는 하위서열로부터 유도되는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  27. 제1항에 있어서, 하나 이상의 물리적 UMI 및/또는 하나 이상의 실제 UMI는 상기 샘플 중의 이중-가닥 DNA 단편과 고유하게 연계되는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  28. 제1항에 있어서, 상기 샘플 중의 상기 이중-가닥 DNA 단편은 약 1,000개 이상의 DNA 단편을 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  29. 제1항에 있어서, 상기 복수의 실제 UMI는 약 6 bp 내지 약 24 bp의 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  30. 제29항에 있어서, 상기 복수의 실제 UMI는 약 6 bp 내지 약 10 bp의 UMI를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  31. 제1항에 있어서, 상기 단계 (c)에서 복수의 판독을 얻는 단계는 상기 증폭된 폴리뉴클레오타이드의 각각으로부터 2개의 쌍-단부 판독을 얻는 단계를 포함하고, 상기 2개의 쌍-단부 판독은 긴 판독과 짧은 판독을 포함하며, 상기 긴 판독은 상기 짧은 판독보다 긴, 샘플로부터 핵산 분자를 서열분석하는 방법.
  32. 제31항에 있어서, 상기 (f)는,
    제1 물리적 UMI와 연계된 판독 쌍을 제1 그룹으로 조합하고 제2 물리적 UMI와 연계된 판독 쌍을 제2 그룹으로 조합하는 단계로서, 상기 제1 및 제2 물리적 UMI는 상기 샘플 중의 이중-가닥 단편과 고유하게 연계되는, 상기 조합하는 단계; 및
    상기 제1 그룹의 긴 판독의 서열 정보 및 제2 그룹의 긴 판독의 서열 정보를 사용하여 샘플 중의 이중-가닥 단편의 서열을 측정하는 단계를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  33. 제31항에 있어서, 상기 긴 판독은 약 500 bp 이상의 판독 길이를 가지는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  34. 제31항에 있어서, 상기 짧은 판독은 약 50 bp 이하의 판독 길이를 가지는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  35. 제1항에 있어서, 상기 방법은 PCR, 라이브러리 제조, 클러스터링 및 서열분석 중 하나 이상에서 발생하는 오류를 억제하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  36. 제1항에 있어서, 상기 증폭된 폴리뉴클레오타이드는 약 1%보다 낮은 대립유전자 빈도를 가지는 대립유전자를 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  37. 제36항에 있어서, 상기 증폭된 폴리뉴클레오타이드는 종양으로부터 유래하는 세포 유리 DNA 분자를 포함하고, 상기 대립유전자는 종양을 나타내는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  38. 제1항에 있어서, 상기 복수의 증폭된 폴리뉴클레오타이드를 서열분석하는 단계는 적어도 약 100 bp를 가지는 판독을 얻는 것을 포함하는, 샘플로부터 핵산 분자를 서열분석하는 방법.
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
KR1020177034336A 2015-04-28 2016-04-20 고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제 KR102091312B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201562153699P 2015-04-28 2015-04-28
US62/153,699 2015-04-28
US201562193469P 2015-07-16 2015-07-16
US62/193,469 2015-07-16
US201562269485P 2015-12-18 2015-12-18
US62/269,485 2015-12-18
PCT/US2016/028430 WO2016176091A1 (en) 2015-04-28 2016-04-20 Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)

Publications (2)

Publication Number Publication Date
KR20180020137A KR20180020137A (ko) 2018-02-27
KR102091312B1 true KR102091312B1 (ko) 2020-03-19

Family

ID=55910388

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177034336A KR102091312B1 (ko) 2015-04-28 2016-04-20 고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제

Country Status (20)

Country Link
US (3) US10844428B2 (ko)
EP (3) EP3736341B1 (ko)
JP (1) JP6685324B2 (ko)
KR (1) KR102091312B1 (ko)
CN (2) CN108138227B (ko)
AU (3) AU2016256351B2 (ko)
BR (1) BR112017024118A2 (ko)
CA (2) CA3109403A1 (ko)
DK (2) DK3289097T4 (ko)
ES (2) ES2799074T5 (ko)
FI (2) FI3736341T3 (ko)
HK (1) HK1244513A1 (ko)
IL (3) IL294600B2 (ko)
MX (3) MX2017013775A (ko)
MY (1) MY181983A (ko)
NZ (1) NZ736609A (ko)
RU (1) RU2704286C2 (ko)
SG (2) SG10202006185QA (ko)
WO (1) WO2016176091A1 (ko)
ZA (1) ZA201707231B (ko)

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
ES2640776T3 (es) 2009-09-30 2017-11-06 Natera, Inc. Métodos para denominar de forma no invasiva ploidía prenatal
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
AU2011255641A1 (en) 2010-05-18 2012-12-06 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2656263B1 (en) 2010-12-22 2019-11-06 Natera, Inc. Methods for non-invasive prenatal paternity testing
WO2012108920A1 (en) 2011-02-09 2012-08-16 Natera, Inc Methods for non-invasive prenatal ploidy calling
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
WO2012142213A2 (en) 2011-04-15 2012-10-18 The Johns Hopkins University Safe sequencing system
US10011871B2 (en) 2012-02-17 2018-07-03 Fred Hutchinson Cancer Research Center Compositions and methods for accurately identifying mutations
DK2828218T3 (da) 2012-03-20 2020-11-02 Univ Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR102393608B1 (ko) 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
CN109457030B (zh) 2012-10-29 2022-02-18 约翰·霍普金斯大学 卵巢和子宫内膜癌的帕帕尼科拉乌测试
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
KR102640585B1 (ko) 2013-12-11 2024-02-23 아큐라젠 홀딩스 리미티드 희귀 서열 변이를 검출하기 위한 조성물 및 방법
US11859246B2 (en) 2013-12-11 2024-01-02 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
US11286519B2 (en) 2013-12-11 2022-03-29 Accuragen Holdings Limited Methods and compositions for enrichment of amplification products
ES2784450T3 (es) 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
AU2015249846B2 (en) 2014-04-21 2021-07-22 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
EP3359693A4 (en) 2015-10-09 2019-03-06 Accuragen Holdings Limited METHODS AND COMPOSITIONS FOR ENRICHMENT OF AMPLIFICATION PRODUCTS
CN109072294A (zh) 2015-12-08 2018-12-21 特温斯特兰德生物科学有限公司 用于双重测序的改良衔接子、方法和组合物
CA3008651A1 (en) 2015-12-17 2017-06-22 Guardant Health, Inc. Methods to determine tumor gene copy number by analysis of cell-free dna
EP3408406B1 (en) * 2016-01-29 2022-06-15 F. Hoffmann-La Roche AG A novel y-shaped adaptor for nucleic acid sequencing and method of use
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
EP3443066A4 (en) 2016-04-14 2019-12-11 Guardant Health, Inc. EARLY DETECTION METHODS FOR CANCER
US11427866B2 (en) * 2016-05-16 2022-08-30 Accuragen Holdings Limited Method of improved sequencing by strand identification
US11708574B2 (en) 2016-06-10 2023-07-25 Myriad Women's Health, Inc. Nucleic acid sequencing adapters and uses thereof
EP3478856B1 (en) 2016-06-30 2021-01-27 Grail, Inc. Differential tagging of rna for preparation of a cell-free dna/rna sequencing library
WO2018035170A1 (en) 2016-08-15 2018-02-22 Accuragen Holdings Limited Compositions and methods for detecting rare sequence variants
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
WO2018119399A1 (en) * 2016-12-23 2018-06-28 Grail, Inc. Methods for high efficiency library preparation using double-stranded adapters
CN117004721A (zh) * 2016-12-28 2023-11-07 奎斯特诊断投资有限责任公司 用于检测循环肿瘤dna的组合物和方法
RU2022101605A (ru) * 2017-01-18 2022-03-25 Иллюмина, Инк. Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок
WO2018144216A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Methods and compositions for enrichment of target polynucleotides
WO2018144159A1 (en) * 2017-01-31 2018-08-09 Counsyl, Inc. Capture probes using positive and negative strands for duplex sequencing
WO2018144217A1 (en) 2017-01-31 2018-08-09 Counsyl, Inc. Methods and compositions for enrichment of target polynucleotides
WO2018148289A2 (en) * 2017-02-08 2018-08-16 Integrated Dna Technologies, Inc. Duplex adapters and duplex sequencing
CA3049139A1 (en) 2017-02-21 2018-08-30 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
WO2018183918A1 (en) * 2017-03-30 2018-10-04 Grail, Inc. Enhanced ligation in sequencing library preparation
US11584958B2 (en) * 2017-03-31 2023-02-21 Grail, Llc Library preparation and use thereof for sequencing based error correction and/or variant identification
US11118222B2 (en) 2017-03-31 2021-09-14 Grail, Inc. Higher target capture efficiency using probe extension
CA3220983A1 (en) 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
EP3622089A1 (en) 2017-05-08 2020-03-18 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
EP3635107A4 (en) * 2017-05-14 2021-01-13 Foresee Genomic Ltd CONSTRUCTION OF DNA FOR SEQUENCING AND ITS PREPARATION PROCESS
CN111032882A (zh) * 2017-06-20 2020-04-17 伊鲁米那股份有限公司 解决扩增反应中低效的方法和组合物
EP3642358A1 (en) * 2017-06-21 2020-04-29 Bluedot LLC Systems and methods for identification of nucleic acids in a sample
EP3545106B1 (en) * 2017-08-01 2022-01-19 Helitec Limited Methods of enriching and determining target nucleotide sequences
US11519024B2 (en) 2017-08-04 2022-12-06 Billiontoone, Inc. Homologous genomic regions for characterization associated with biological targets
CA3071855C (en) 2017-08-04 2021-09-14 Billiontoone, Inc. Target-associated molecules for characterization associated with biological targets
EP3662085B1 (en) 2017-08-04 2022-06-22 Billiontoone, Inc. Sequencing output determination and analysis with target-associated molecules in quantification associated with biological targets
BR112020002555A2 (pt) 2017-08-07 2020-08-11 The Johns Hopkins University métodos e materiais para avaliar e tratar câncer
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
EP3695008B1 (en) * 2017-10-09 2021-11-24 Psomagen, Inc. Single molecule sequencing and unique molecular identifiers to characterize nucleic acid sequences
CN107604046B (zh) * 2017-11-03 2021-08-24 上海交通大学 用于微量dna超低频突变检测的双分子自校验文库制备及杂交捕获的二代测序方法
KR102500210B1 (ko) 2017-11-06 2023-02-15 일루미나, 인코포레이티드 핵산 색인 기술
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
KR101967879B1 (ko) * 2017-11-30 2019-04-10 사회복지법인 삼성생명공익재단 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법
AU2018375785A1 (en) * 2017-11-30 2019-12-12 Illumina, Inc. Validation methods and systems for sequence variant calls
JP7164125B2 (ja) 2018-01-05 2022-11-01 ビリオントゥーワン,インコーポレイテッド シーケンシングベースのアッセイの妥当性を確保するための品質管理鋳型
US11203782B2 (en) 2018-03-29 2021-12-21 Accuragen Holdings Limited Compositions and methods comprising asymmetric barcoding
US20210155992A1 (en) * 2018-04-16 2021-05-27 Memorial Sloan Kettering Cancer Center SYSTEMS AND METHODS FOR DETECTING CANCER VIA cfDNA SCREENING
US11365409B2 (en) * 2018-05-03 2022-06-21 Becton, Dickinson And Company Molecular barcoding on opposite transcript ends
CN108486230B (zh) * 2018-05-18 2022-02-08 中国人民解放军陆军军医大学第一附属医院 用于无创检测mitf基因突变的试剂盒及其制备方法
CN108841946B (zh) * 2018-05-18 2022-03-22 中国人民解放军陆军军医大学第一附属医院 一种无创检测gjb2基因突变的方法,试剂盒及其制备方法
CN108642173B (zh) * 2018-05-18 2022-03-22 中国人民解放军陆军军医大学第一附属医院 一种无创检测slc26a4基因突变的方法和试剂盒
CN108949951B (zh) * 2018-05-18 2022-01-28 中国人民解放军陆军军医大学第一附属医院 一种同时无创检测gjb2和slc26a4基因突变的方法和试剂盒
CN108753934B (zh) * 2018-05-18 2022-01-28 中国人民解放军陆军军医大学第一附属医院 一种检测基因突变的方法、试剂盒及其制备方法
CN108531583B (zh) * 2018-05-18 2022-05-17 中国人民解放军陆军军医大学第一附属医院 用于无创检测mitf基因突变的引物组合及检测方法
CN108949941A (zh) * 2018-06-25 2018-12-07 北京莲和医学检验所有限公司 低频突变检测方法、试剂盒和装置
GB201810901D0 (en) * 2018-07-03 2018-08-15 Ucb Biopharma Sprl Method
CN110669823B (zh) * 2018-07-03 2022-05-24 中国医学科学院肿瘤医院 一种同时检测多种肝癌常见突变的ctDNA文库构建和测序数据分析方法
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
AU2019300172A1 (en) 2018-07-12 2021-01-28 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20210317517A1 (en) * 2018-08-28 2021-10-14 Sophia Genetics S.A. Methods for asymmetric dna library generation and optionally integrated duplex sequencing
WO2020069350A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
EP3670670A1 (en) 2018-12-18 2020-06-24 Ricoh Company, Ltd. Nucleic acid analysis method, nucleic acid analysis program, and device for library preparation
CN109706219A (zh) * 2018-12-20 2019-05-03 臻和(北京)科技有限公司 构建测序文库的方法、试剂盒、上机方法及测序数据的拆分方法
KR20210148122A (ko) * 2019-02-25 2021-12-07 트위스트 바이오사이언스 코포레이션 차세대 시퀀싱을 위한 조성물 및 방법
WO2020226528A1 (ru) * 2019-05-08 2020-11-12 Общество с ограниченной ответственностью "ГЕНОТЕК ИТ" Способ определения кариотипа плода беременной женщины
CN110409001B (zh) * 2019-07-25 2022-11-15 北京贝瑞和康生物技术有限公司 一种构建捕获文库的方法和试剂盒
EP3795685A1 (en) * 2019-09-20 2021-03-24 Sophia Genetics S.A. Methods for dna library generation to facilitate the detection and reporting of low frequency variants
US10927409B1 (en) * 2019-10-14 2021-02-23 Pioneer Hi-Bred International, Inc. Detection of sequences uniquely associated with a dna target region
CN111073961A (zh) * 2019-12-20 2020-04-28 苏州赛美科基因科技有限公司 一种基因稀有突变的高通量检测方法
US20230129075A1 (en) * 2020-01-13 2023-04-27 St. Jude Children's Research Hospital Error suppression in genetic sequencing
EP3859012A1 (en) 2020-02-03 2021-08-04 Albert-Ludwigs-Universität Freiburg Methods for amplification of genomic dna and preparation of sequencing libraries
CN111304288A (zh) * 2020-02-18 2020-06-19 江苏先声医学诊断有限公司 特异性分子标签umi组及其应用
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
EP3892737A1 (en) * 2020-04-09 2021-10-13 Takeda Vaccines, Inc. Qualitative and quantitative determination of single virus haplotypes in complex samples
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
CA3188197A1 (en) 2020-09-11 2022-03-17 Andrew Slatter Methods of enriching a target sequence from a sequencing library using hairpin adaptors
AU2021366658A1 (en) 2020-10-21 2023-06-22 Illumina Cambridge Limited Sequencing templates comprising multiple inserts and compositions and methods for improving sequencing throughput
WO2022109207A2 (en) 2020-11-19 2022-05-27 The United States Of America As Represented By The Secretary, Department Of Health And Human Services Massively paralleled multi-patient assay for pathogenic infection diagnosis and host physiology surveillance using nucleic acid sequencing
JPWO2022131285A1 (ko) 2020-12-15 2022-06-23
CN112687339B (zh) * 2021-01-21 2021-12-14 深圳吉因加医学检验实验室 一种统计血浆dna片段测序数据中序列错误的方法和装置
KR20230163434A (ko) 2021-03-29 2023-11-30 일루미나, 인코포레이티드 라이브러리에서 dna 손상을 평가하고 앰플리콘 크기 바이어스를 정규화하기 위한 조성물 및 방법
AU2022246579A1 (en) 2021-03-30 2023-09-21 Illumina, Inc. Improved methods of isothermal complementary dna and library preparation
CA3211172A1 (en) 2021-03-31 2022-10-06 Illumina, Inc. Methods of preparing directional tagmentation sequencing libraries using transposon-based technology with unique molecular identifiers for error correction
CA3219179A1 (en) * 2021-05-19 2022-11-24 Chen Zhao Umi collapsing
WO2023201487A1 (zh) * 2022-04-18 2023-10-26 京东方科技集团股份有限公司 接头、接头连接试剂及试剂盒和文库构建方法
WO2024015962A1 (en) 2022-07-15 2024-01-18 Pacific Biosciences Of California, Inc. Blocked asymmetric hairpin adaptors

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013142389A1 (en) * 2012-03-20 2013-09-26 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6159736A (en) 1998-09-23 2000-12-12 Wisconsin Alumni Research Foundation Method for making insertional mutations using a Tn5 synaptic complex
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
ATE377093T1 (de) 2000-07-07 2007-11-15 Visigen Biotechnologies Inc Sequenzbestimmung in echtzeit
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040018520A1 (en) 2002-04-22 2004-01-29 James Thompson Trans-splicing enzymatic nucleic acid mediated biopharmaceutical and protein
ES2550513T3 (es) 2002-08-23 2015-11-10 Illumina Cambridge Limited Nucleótidos modificados para secuenciación de polinucleótidos
ES2949821T3 (es) 2004-01-07 2023-10-03 Illumina Cambridge Ltd Matrices moleculares
US7476503B2 (en) 2004-09-17 2009-01-13 Pacific Biosciences Of California, Inc. Apparatus and method for performing nucleic acid analysis
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
WO2007123744A2 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008093098A2 (en) 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
CA2783548A1 (en) * 2009-12-17 2011-06-23 Keygene N.V. Restriction enzyme based whole genome sequencing
EP2848704B1 (en) * 2010-01-19 2018-08-29 Verinata Health, Inc Sequencing methods for prenatal diagnoses
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
WO2011139797A2 (en) 2010-04-27 2011-11-10 Spiral Genetics Inc. Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
ES2690753T3 (es) 2010-09-21 2018-11-22 Agilent Technologies, Inc. Aumento de la confianza en las identificaciones de alelos con el recuento molecular
AU2011305445B2 (en) 2010-09-24 2017-03-16 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target DNA using immobilized primers
WO2012142213A2 (en) 2011-04-15 2012-10-18 The Johns Hopkins University Safe sequencing system
CA2840929C (en) * 2011-07-08 2020-03-24 Keygene N.V. Sequence based genotyping based on oligonucleotide ligation assays
CA2840418C (en) * 2011-07-26 2019-10-29 Verinata Health, Inc. Method for determining the presence or absence of different aneuploidies in a sample
WO2013062856A1 (en) 2011-10-27 2013-05-02 Verinata Health, Inc. Set membership testers for aligning nucleic acid samples
US20130267428A1 (en) 2012-02-10 2013-10-10 Washington University In St. Louis High throughput digital karyotyping for biome characterization
EP2825675B1 (en) 2012-03-13 2017-12-27 Patel, Abhijit Ajit Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
CA2873585C (en) 2012-05-14 2021-11-09 Cb Biotechnologies, Inc. Method for increasing accuracy in quantitative detection of polynucleotides
EP3937179A1 (en) 2012-05-21 2022-01-12 Distributed Bio Inc Epitope focusing by variable effective antigen surface concentration
EP2855707B1 (en) 2012-05-31 2017-07-12 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
US20140024541A1 (en) 2012-07-17 2014-01-23 Counsyl, Inc. Methods and compositions for high-throughput sequencing
DK3553175T3 (da) 2013-03-13 2021-08-23 Illumina Inc Fremgangsmåde til fremstilling af et nukleinsyresekvenseringsbibliotek
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
ES2831148T3 (es) 2013-03-15 2021-06-07 Univ Leland Stanford Junior Identificación y uso de marcadores tumorales de ácido nucleico circulante
CN105593683B (zh) 2013-10-01 2018-11-30 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
WO2015058052A1 (en) * 2013-10-18 2015-04-23 The Broad Institute Inc. Spatial and cellular mapping of biomolecules in situ by high-throughput sequencing
ES2784450T3 (es) 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
US20170233727A1 (en) 2014-05-23 2017-08-17 Centrillion Technology Holdings Corporation Methods for generating and decoding barcodes
US11085084B2 (en) 2014-09-12 2021-08-10 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
WO2016168351A1 (en) 2015-04-15 2016-10-20 The Board Of Trustees Of The Leland Stanford Junior University Robust quantification of single molecules in next-generation sequencing using non-random combinatorial oligonucleotide barcodes
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
CN109072294A (zh) 2015-12-08 2018-12-21 特温斯特兰德生物科学有限公司 用于双重测序的改良衔接子、方法和组合物
US11708574B2 (en) 2016-06-10 2023-07-25 Myriad Women's Health, Inc. Nucleic acid sequencing adapters and uses thereof
US10676736B2 (en) 2016-08-05 2020-06-09 Bio-Rad Laboratories, Inc. Second strand direct
RU2022101605A (ru) 2017-01-18 2022-03-25 Иллюмина, Инк. Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок
WO2018148289A2 (en) 2017-02-08 2018-08-16 Integrated Dna Technologies, Inc. Duplex adapters and duplex sequencing
CN110520542B (zh) 2017-03-23 2024-06-14 华盛顿大学 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
JP7420388B2 (ja) 2018-02-13 2024-01-23 ツインストランド・バイオサイエンシズ・インコーポレイテッド 遺伝毒性を検出し、評価するための方法および試薬
US20210010065A1 (en) 2018-03-15 2021-01-14 Twinstrand Biosciences, Inc. Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
CN112218956A (zh) 2018-05-16 2021-01-12 特温斯特兰德生物科学有限公司 用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用
AU2019300172A1 (en) 2018-07-12 2021-01-28 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20220119876A1 (en) 2018-10-16 2022-04-21 Twinstrand Biosciences, Inc. Methods and reagents for efficient genotyping of large numbers of samples via pooling
US20220220543A1 (en) 2019-08-01 2022-07-14 Twinstrand Biosciences, Inc. Methods and reagents for nucleic acid sequencing and associated applications

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013142389A1 (en) * 2012-03-20 2013-09-26 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing

Also Published As

Publication number Publication date
US11866777B2 (en) 2024-01-09
IL285319B2 (en) 2023-02-01
AU2019250200A1 (en) 2019-11-07
EP3736341A1 (en) 2020-11-11
CA2983935A1 (en) 2016-11-03
US20210108262A1 (en) 2021-04-15
DK3289097T3 (da) 2020-06-02
CA3109403A1 (en) 2016-11-03
JP2018514207A (ja) 2018-06-07
MX2023004394A (es) 2023-05-04
IL294600A (en) 2022-09-01
EP3289097A1 (en) 2018-03-07
AU2019250200B2 (en) 2021-10-14
AU2016256351A1 (en) 2017-11-09
NZ736609A (en) 2020-06-26
EP3289097B2 (en) 2023-08-30
CN108138227B (zh) 2021-09-17
US20240084376A1 (en) 2024-03-14
EP4266314A2 (en) 2023-10-25
IL285319A (en) 2021-09-30
RU2017137401A3 (ko) 2019-05-28
RU2704286C2 (ru) 2019-10-25
DK3736341T3 (da) 2023-09-18
ZA201707231B (en) 2021-02-24
IL285319B (en) 2022-10-01
MY181983A (en) 2021-01-18
SG11201708859XA (en) 2017-11-29
JP6685324B2 (ja) 2020-04-22
ES2799074T5 (es) 2024-02-26
IL294600B2 (en) 2024-05-01
ES2961338T3 (es) 2024-03-11
WO2016176091A8 (en) 2017-12-21
SG10202006185QA (en) 2020-07-29
FI3289097T4 (fi) 2023-12-01
IL255187A0 (en) 2017-12-31
EP4266314A3 (en) 2024-01-24
FI3736341T3 (fi) 2023-09-21
US10844428B2 (en) 2020-11-24
DK3289097T4 (da) 2023-12-04
HK1244513A1 (zh) 2018-08-10
WO2016176091A1 (en) 2016-11-03
CN108138227A (zh) 2018-06-08
IL255187B (en) 2021-10-31
MX2017013775A (es) 2018-08-15
KR20180020137A (ko) 2018-02-27
MX2022008045A (es) 2022-07-27
CA2983935C (en) 2021-04-20
US20160319345A1 (en) 2016-11-03
AU2016256351B2 (en) 2019-07-18
CN113832139A (zh) 2021-12-24
EP3289097B1 (en) 2020-03-18
ES2799074T3 (es) 2020-12-14
AU2022200179A1 (en) 2022-02-10
BR112017024118A2 (pt) 2018-07-31
EP3736341B1 (en) 2023-08-23
IL294600B1 (en) 2024-01-01
RU2017137401A (ru) 2019-05-28

Similar Documents

Publication Publication Date Title
KR102091312B1 (ko) 고유 분자 색인(umi)을 갖는 용장성 판독을 사용하는 서열분석된 dna 단편의 오류 억제
CN110313034B (zh) 对核酸分子进行测序的方法、机器可读介质和计算机系统
US20200335178A1 (en) Detecting repeat expansions with short read sequencing data
US20230242977A1 (en) Universal short adapters with variable length non-random unique molecular identifiers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right