KR20240135859A - 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템 - Google Patents

이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템 Download PDF

Info

Publication number
KR20240135859A
KR20240135859A KR1020247028741A KR20247028741A KR20240135859A KR 20240135859 A KR20240135859 A KR 20240135859A KR 1020247028741 A KR1020247028741 A KR 1020247028741A KR 20247028741 A KR20247028741 A KR 20247028741A KR 20240135859 A KR20240135859 A KR 20240135859A
Authority
KR
South Korea
Prior art keywords
sequence
vnrumi
reads
read
adapter
Prior art date
Application number
KR1020247028741A
Other languages
English (en)
Inventor
케빈 우
첸 자오
한-유 추앙
알렉스 소
스테펜 태너
스테펜 엠. 그로스
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20240135859A publication Critical patent/KR20240135859A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/204Modifications characterised by specific length of the oligonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Complex Calculations (AREA)

Abstract

개시된 구체예는 낮은 대립 유전자 빈도 및 긴 서열 길이를 갖는 서열을 포함하여, 개별 폴리뉴클레오티드 단편과 고유하게 관련될 수 있는 고유 분자 인덱스 서열을 사용하여 관심 서열을 결정하기 위한 방법, 장치, 시스템 및 컴퓨터 프로그램 제품에 관한 것이다. 일부 구현에서, 고유 분자 인덱스 서열은 가변 길이의 비 랜덤 서열을 포함한다. 일부 구현에서, 고유 분자 인덱스 서열은 고유 분자 인덱스 서열과 개별 폴리뉴클레오티드 단편으로부터 수득된 서열 리드의 서브시퀀스 사이의 유사성을 나타내는 정렬 스코어에 기초하여 개별 폴리뉴클레오티드 단편과 관련된다. 개시된 방법을 구현하는 관심 서열을 결정하기 위한 시스템, 장치 및 컴퓨터 프로그램 제품이 또한 제공된다.

Description

이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템{METHODS AND SYSTEMS FOR GENERATION AND ERROR-CORRECTION OF UNIQUE MOLECULAR INDEX SETS WITH HETEROGENEOUS MOLECULAR LENGTHS}
관련 출원에 대한 상호 참조
본 출원은 35 U.S.C. § 119(e) 하에서 2017 년 1 월 18 일 출원된 발명의 명칭, "METHODS AND SYSTEMS FOR GENERATION AND ERROR -CORRECTION OF UNIQUE MOLECULAR INDEX SETS WITH HETEROGENEOUS MOLECULAR LENGTHS"의 미국특허가출원 제62/447,851호에 대한 우선권을 주장하며, 그 내용 전체는 모든 용도로 본 발명에 포함된다.
차세대 시퀀싱 기술은 점점 더 빠른 시퀀싱 속도를 제공하여 더 큰 시퀀싱 깊이를 허용한다. 그러나 시퀀싱 정확도와 감도는 샘플 결함, 라이브러리 준비 중 PCR, 농축, 클러스터링 및 시퀀싱과 같은 다양한 소스의 오류 및 노이즈의 영향을 받기 때문에 시퀀싱 깊이만으로는 모체 혈장의 태아 무 세포 DNA(cfDNA), 순환 종양 DNA(ctDNA) 및 병원체의 서브 클론 돌연변이와 같이, 대립 유전자 빈도가 매우 낮은 서열 검출을 보장할 수 없다. 따라서, 다양한 오차의 원인으로 인한 시퀀싱 부정확성을 억제하면서 소량 및/또는 낮은 대립 유전자 빈도로 DNA 분자의 서열을 결정하는 방법을 개발하는 것이 바람직하다.
개시된 구현은 고유 분자 인덱스(UMI)를 사용하여 핵산 단편 서열을 결정하기 위한 방법, 장치, 시스템 및 컴퓨터 프로그램 제품에 관한 것이다. 일부 구현들에서, UMI는 비 랜덤 UMI(NRUMI) 또는 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)를 포함한다.
본 개시 내용의 일 형태는 샘플로부터 핵산 분자를 시퀀싱하는 방법을 제공한다. 상기 방법은 (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계, 여기서, 각각의 어댑터는 비 랜덤 고유 분자 인덱스를 포함하고, 여기서 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성하고; (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리뉴클레오티드를 시퀀싱하여, vNRUMI 세트와 관련된 복수의 리드(reads)를 수득하는 단계; (d) 복수의 리드 중에서, 동일한 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)와 관련된 리드를 식별하는 단계; 및 (e) 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 포함한다.
일부 구현예에서, 동일한 vNRUMI와 관련된 리드를 식별하는 단계는 복수의 리드 중 각각의 리드에 대해 vNRUMI 세트에 대한 정렬 스코어를 수득하는 단계를 포함하고, 각각의 정렬 스코어는 vNRUMI와 리드의 서브시퀀스 사이의 유사성을 나타내며, 상기 서브시퀀스는 vNRUMI로부터 유래된 뉴클레오티드가 위치할 가능성이있는 리드의 영역에 있다.
일부 구현예에서, 정렬 스코어는 리드의 서브시퀀스와 vNRUMI 사이의 뉴클레오티드의 일치(matches) 및 뉴클레오티드의 편집(edits)에 기초한다. 일부 구현예에서, 뉴클레오티드의 편집이 뉴클레오티드의 치환, 첨가 및 제거를 포함한다. 일부 구현예에서, 각각의 정렬 스코어는 서열의 시작에서 불일치를 페널티하지만, 서열의 끝에서 불일치를 페널티하지 않는다.
일부 구현예에서, 리드와 vNRUMI 사이의 정렬 스코어를 수득하는 단계는: (a) vNRUMI와 리드의 서브시퀀스의 모든 가능한 프리픽스 시퀀스 각각 사이의 정렬 스코어를 계산하는 단계; (b) 상기 리드의 서브시퀀스와 상기 vNRUMI의 모든 가능한 프리픽스 서열 중 각각의 서열 사이의 정렬 스코어를 계산하는 단계; 및 (c) 상기 리드와 vNRUMI 사이의 정렬 스코어로서 (a) 및(b)에서 계산된 정렬 스코어 중 가장 큰 정렬 스코어를 수득하는 단계를 포함한다.
일부 구현예에서, 상기 서브시퀀스는 vNRUMI 세트에서 가장 긴 vNRUMI의 길이와 동일한 길이를 갖는다. 일부 구현예에서, (d)에서 동일한 vNRUMI와 관련된 리드를 식별하는 단계는, 정렬 스코어에 기초하여 복수의 리드 중 각각의 리드에 대해, vNRUMI 세트로부터 적어도 하나의 vNRUMI를 선택하는 단계; 및 복수의 리드 중 각각의 리드를, 리드를 위해 선택된 적어도 하나의 vNRUMI와 연관시키는 단계를 더 포함한다.
일부 구현예에서, 상기 vNRUMI 세트로부터 상기 적어도 하나의 vNRUMI를 선택하는 단계는 상기 vNRUMI 세트 중에서 가장 높은 정렬 스코어를 갖는 vNRUMI를 선택한다. 일부 구현예에서, 상기 하나 이상의 vNRUMI는 둘 이상의 vNRUMI를 포함한다.
일부 구현예에서, 상기 방법은 상기(d) 및(e)의 동일한 vNRUMI로서 상기 둘 이상의 vNRUMI 중 하나를 선택하는 단계를 더 포함한다.
일부 구현예에서, (a)에서 부착된 어댑터는, (i) 적어도 2개의 상이한 분자 길이를 갖는 한 세트의 올리고 뉴클레오티드 서열을 제공하는 단계; (ii) 올리고 뉴클레오티드 서열 세트로부터 올리고 뉴클레오티드 서열의 서브세트를 선택하는 단계 - 임계 값을 만족하는 올리고뉴클레오티드 서열의 서브세트 중 올리고뉴클레오티드 서열 사이의 모든 편집 거리는 임계 값을 만족시키고, 올리고뉴클레오티드 서열의 서브세트는 vNRUMI 세트를 형성함 - 및 (iii) 이중 가닥 하이브리드화된 영역, 단일 가닥 5' 암, 단일 가닥 3' 암 및 vNRUMI 세트 중 적어도 하나의 vNRUMI를 각각 포함하는 어댑터를 합성하는 단계에 의해 수득된다. 일부 구현예에서, 상기 임계 값은 3 이다. 일부 구현예에서 vNRUMI 세트는 6 개 뉴클레오티드의 vNRUMI 및 7 개 뉴클레오티드의 vNRUMI를 포함한다.
일부 구현예에서, (e)의 결정하는 단계는, 동일한 vNRUMI와 관련된 리드를 일 그룹으로 붕괴(collapse)시켜 샘플에서 DNA 단편의 서열에 대한 공통 뉴클레오티드 서열을 수득하는 단계를 포함한다. 일부 구현예에서, 공통 뉴클레오티드 서열은 리드의 품질 스코어에 부분적으로 기초하여 수득된다. 일부 구현예에서, (e)의 결정하는 단계는: 동일한 vNRUMI와 관련된 리드 중에서, 참조 서열에서 동일한 리드 위치 또는 유사한 리드 위치를 갖는 리드를 식별하는 단계, 및 (i) 동일한 vNRUMI와 연관된, 그리고, (ii) 참조 서열에서 동일한 리드 위치 또는 유사한 리드 위치를 갖는, 리드를 사용하여 DNA 단편의 서열을 결정하는 단계를 포함한다.
일부 구현예에서, vNRUMI 세트는 약 10,000 개 이하의 상이한 vNRUMI를 포함한다. 일부 구현예에서, vNRUMI 세트는 약 1,000 개 이하의 상이한 vNRUMI를 포함한다. 일부 구현예에서, vNRUMI 세트는 약 200 개 이하의 상이한 vNRUMI를 포함한다.
일부 구현예에서, 샘플에서 DNA 단편에 어댑터를 부착하는 단계는 샘플에서 DNA 단편의 양쪽 말단에 어댑터를 부착하는 단계를 포함한다.
본 개시의 다른 실시형태는, 시퀀싱 어댑터를 제조하는 방법에 관한 것이며, 상기 방법은, (a) 적어도 2개의 상이한 분자 길이를 갖는 한 세트의 올리고 뉴클레오티드 서열을 제공하는 단계; (b) 올리고 뉴클레오티드 서열 세트로부터 올리고 뉴클레오티드 서열의 서브 세트를 선택하는 단계 - 올리고 뉴클레오티드 서열의 서브 세트의 올리고 뉴클레오티드 서열 사이의 모든 편집 거리는 임계 값을 만족하고, 올리고 뉴클레오티드 서열의 서브 세트는 가변 길이의 비 랜덤 고유 분자 인덱스 세트)를 형성함(vNRUMI) - 와, (c) 복수의 시퀀싱 어댑터를 합성하는 단계 - 각각의 시퀀싱 어댑터는 이중 가닥 하이브리드화된 영역, 단일 가닥 5' 아암, 단일 가닥 3' 아암 및 vNRUMI 세트 중 적어도 하나의 vNRUMI를 포함함 - 를 포함한다.
일부 구현예에서,(b)는 (i) 올리고 뉴클레오티드 서열 세트로부터 하나의 올리고 뉴클레오티드 서열을 선택하는 단계; (ii) 올리고 뉴클레오티드 서열의 확장 세트에 선택된 올리고 뉴클레오티드를 첨가하고, 올리고 뉴클레오티드 서열 세트로부터 선택된 올리고 뉴클레오티드를 제거하여, 감소된 올리고 뉴클레오티드 서열 세트를 수득하는 단계; (iii) 거리 함수를 최대화하는 인스턴트 올리고 뉴클레오티드 서열을 상기 감소된 세트로부터 선택하는 단계 - 거리 함수는 인스턴트 올리고 뉴클레오티드 서열과 확장 세트 내 임의의 올리고 뉴클레오티드 서열 사이의 최소 편집 거리이고, 거리 함수는 임계 값을 만족시킴; (iv) 인스턴트 올리고 뉴클레오티드를 확장 세트에 첨가하고 인스턴트 올리고 뉴클레오티드를 감소된 세트로부터 제거하는 단계; (v) (iii) 및(iv) 단계를 1 회 이상 반복하는 단계; 및 (vi) vNRUMI 세트를 형성하는 올리고 뉴클레오티드 서열의 서브 세트로서 확장 세트를 제공하는 단계를 포함한다.
일부 구현예에서, 상기 (v) 단계는 상기 거리 함수가 더 이상 상기 임계 값을 만족시키지 않을 때까지 단계 (iii) 및(iv) 단계를 반복하는 단계를 포함한다.
일부 구현예에서, 상기 (v) 단계는 상기 확장 세트가 정의된 크기에 도달할 때까지 (iii) 및(iv) 단계를 반복하는 단계를 포함한다.
일부 구현예에서, 인스턴트 올리고 뉴클레오티드 서열 또는 확장 세트의 올리고 뉴클레오티드 서열이 올리고 뉴클레오티드 서열 세트 내 가장 긴 올리고 뉴클레오티드 서열보다 짧고, 상기 방법은, 단계 (iii) 이전에, (1) 인스턴트 올리고 뉴클레오티드 서열 또는 확장 세트 내 올리고 뉴클레오티드 서열에 티민 염기 또는 티민 염기 + 4 개의 염기 중 임의의 염기를 부착하여, 올리고 뉴클레오티드 서열 세트에서 가장 긴 올리고 뉴클레오티드 서열과 동일한 길이를 갖는 패딩된 서열을 생성하는 단계, 및 (2) 패딩 서열을 사용하여 최소 편집 거리를 계산하는 단계를 더 포함한다. 일부 구현예에서, 편집 거리는 레벤슈테인 거리(levenshtein distances)이다. 일부 구현예에서, 상기 임계 값이 3 이다.
일부 구현예에서, 상기 방법은 (b) 단계 전에, 올리고 뉴클레오티드 서열 세트로부터 특정 올리고 뉴클레오티드 서열을 제거하여 필터링된 올리고 뉴클레오티드 서열 세트를 수득하는 단계; 및 필터링된 올리고 뉴클레오티드 서열 세트를 서브 세트 선택을 위한 올리고 뉴클레오티드 서열 세트로서 제공하는 단계를 더 포함한다.
일부 구현예에서, 상기 특정 올리고 뉴클레오티드 서열이 3 개 이상의 연속 동일 염기를 갖는 올리고 뉴클레오티드 서열을 포함한다. 일부 구현예에서, 특정 올리고 뉴클레오티드 서열이 2보다 작은 구아닌 및 시토신 염기의 조합된 수를 갖는 올리고 뉴클레오티드 서열과, 4보다 큰 구아닌 및 시토신 염기의 조합된 수를 갖는 올리고 뉴클레오티드 서열을 포함한다.
일부 구현예에서, 특정 올리고 뉴클레오티드 서열이 마지막 두 위치에서 동일한 염기를 갖는 올리고 뉴클레오티드 서열을 포함한다. 일부 구현예에서, 특정 올리고 뉴클레오티드 서열이 하나 이상의 시퀀싱 프라이머의 3' 말단과 일치하는 서브시퀀스를 갖는 올리고 뉴클레오티드 서열을 포함한다.
일부 구현예에서, 특정 올리고 뉴클레오티드 서열이 올리고 뉴클레오티드 서열의 마지막 위치에 티민 염기를 갖는 올리고 뉴클레오티드 서열을 포함한다.
일부 구현예에서, vNRUMI 세트가 6개 뉴클레오티드의 vNRUMI 및 7개 뉴클레오티드의 vNRUMI를 포함한다.
본 개시의 추가의 형태는, 샘플로부터 핵산 분자를 시퀀싱하는 방법에 관한 것으로서, (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계 - 여기서 각각의 어댑터는 비 랜덤 고유 분자 인덱스를 포함하고, 여기서 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성함; (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리뉴클레오티드를 시퀀싱하여, vNRUMI 세트와 관련된 복수의 리드를 수득하는 단계; 및 (d) 복수의 리드 중에서, 동일한 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)와 관련된 리드를 식별하는 단계를 포함한다.
일부 구현예에서, 상기 방법은, 동일한 vNRUMI와 관련된 리드의 횟수를 수득하는 단계를 더 포함한다.
본 개시의 다른 형태는 샘플로부터 핵산 분자를 시퀀싱하는 방법에 관한 것으로서, (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계 - 여기서 각 어댑터는 고유한 분자 인덱스(UMI)를 포함하고, 여기서 어댑터의 고유 분자 인덱스(UMI)는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이 고유 분자 인덱스(vUMI)의 세트를 형성함; (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, vUMI 세트와 관련된 복수의 리드를 수득하는 단계; 및 (d) 복수의 리드 중에서, 동일한 가변 길이 고유 분자 인덱스(vUMI)와 관련된 리드를 식별하는 단계를 포함한다.
일부 구현예에서, 상기 방법은 동일한 vUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 상기 방법은 동일한 vUMI와 관련된 리드의 횟수를 수득하는 단계를 더 포함한다.
본 개시의 또 다른 형태는, 샘플로부터 핵산 분자를 시퀀싱하는 방법에 관한 것으로서, (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계 - 각 어댑터는 고유 분자 인덱스(UMI) 세트 내 하나의 고유 분자 인덱스(UMI)를 포함 함; (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, UMI 세트와 관련된 복수의 리드를 수득하는 단계; (d) 복수의 리드 중 각각의 리드에 대해, UMI 세트에 대한 정렬 스코어를 수득하는 단계 - 각각의 정렬 스코어는 리드의 서브시퀀스와 UMI 사이의 유사성을 나타냄; (e) 복수의 리드 중에서, 정렬 스코어를 사용하여 동일한 UMI와 관련된 리드를 식별하는 단계; 및 (e) 동일한 UMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 포함한다.
일부 구현예에서, 정렬 스코어는 리드의 서브시퀀스와 UMI 사이의 뉴클레오티드의 일치 및 뉴클레오티드의 편집에 기초한다. 일부 구현예에서, 각각의 정렬 스코어는 서열의 시작에서 불일치를 페널티하지만, 서열의 끝에서 불일치를 페널티하지 않는다. 일부 구현예에서, 상기 UMI 세트는 적어도 2개의 상이한 분자 길이의 UMI를 포함한다.
개시된 방법들을 구현하는 DNA 단편 시퀀스를 결정하기 위한 시스템, 장치, 및 컴퓨터 프로그램 제품이 또한 제공된다.
본 개시의 일 형태는, 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 샘플로부터 핵산 분자를 시퀀싱하는 방법을 구현하게하는 프로그램 코드를 저장하는 비 일시적 기계 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 상기 프로그램 코드는 위 방법들을 수행하기 위한 명령어들을 포함한다.
본 명세서의 예는 인간에 관한 것이며 언어는 주로 인간의 관심사에 관한 것이지만, 본 명세서에 기술된 개념은 임의의 바이러스, 식물, 동물 또는 다른 유기체로부터의 핵산 및 동일한 집단(메타 지놈, 바이러스)에 적용 가능하다 본 개시 내용의 이들 및 다른 특징은 도면 및 첨부된 청구 범위를 참조하여하기 설명으로부터 더욱 명백해질 것이며, 이하에 제시된 개시 내용의 실시에 의해 학습될 수 있다.
참조에 의한 통합
본원에 언급된 이들 참고 문헌에 개시된 모든 서열을 포함하는 모든 특허, 특허 출원 및 기타 공보는 각각의 개별 공보, 특허 또는 특허 출원이 구체적이고 개별적으로 지시된 것과 동일한 정도로 본 명세서에 명백히 참고로 포함된다. 참조로 포함된다. 인용된 모든 문헌은 본원에서 인용의 맥락에 의해 지시된 목적을 위해 그 전체가 참고로 본원에 포함된다. 그러나, 임의의 문헌의 인용이 본 개시에 관한 선행 기술이라는 인정으로 해석되어서는 안된다.
도 1A는 핵산 단편을 시퀀싱하기 위해 UMI를 사용하는 예시적인 워크플로우를 도시한 흐름도이다.
도 1B는 DNA 단편/분자 및 도 1A에 도시된 워크플로우의 초기 단계에서 사용되는 어댑터를 도시한다.
도 1C는 vNRUMI를 사용하여 DNA 단편을 시퀀싱하여 오류를 억제하는 과정을 나타내는 블록도이다.
도 1d는 vNRUMI를 갖는 시퀀싱 어댑터를 제조하기 위한 프로세스(140)를 도시한다.
도 1e는 리드 또는 질의 시퀀스(Q)의 서브시퀀스가 vNRUMI 세트에서 2 개의 기준 시퀀스(S1 및 S2)와 비교될 수 있는 방법의 예를 도시한다.
도 1F는 글로컬 정렬 스코어가 어떻게 전체 정렬 스코어보다 더 나은 에러 억제를 제공할 수 있는지의 예를 도시한다.
도 2a는 다양한 구현에서 채택될 수 있는 5 개의 상이한 어댑터 설계를 개략적으로 도시한다.
도 2B는 2 개의 아암 상에 2 개의 물리적 UMI를 갖는 어댑터를 포함하는 PCR 반응에서 UMI 점프가 발생하는 가상 프로세스를 도시한다.
도 2C는 NRUMI를 사용한 시퀀스 리드의 리드 품질 점수와 제어 조건을 대조하는 데이터를 도시한다.
도 3A 및 3B는 본원에 개시된 일부 방법에 따른 결사 어댑터의 이중 가닥 단편에 대한 물질 및 반응 생성물을 나타내는 도면이다.
도 4A-4E는 본원에 개시된 바와 같은 방법이 이중 가닥 DNA 단편의 서열을 결정할 때 상이한 오차의 원인을 억제할 수 있는 방법을 도시한다.
도 5는 롱 페어 엔드 리드를 효율적으로 얻기 위해 물리적 UMI 및 가상 UMI를 적용하는 것을 개략적으로 도시한다.
도 6은 테스트 샘플을 처리하기 위한 분산 시스템의 블록도이다.
도 7은 컴퓨터로서 기능할 수 있는 컴퓨터 시스템을 도시한 것이다.
본 개시 내용은 핵산, 특히 모체 혈장에서의 태아 cfDNA 또는 암 환자의 혈액에서의 순환 종양 DNA(ctDNA)와 같이 제한된 양 또는 저농도의 핵산을 시퀀싱하기 위한 방법, 장치, 시스템 및 컴퓨터 프로그램 제품에 관한 것이다.
수치 범위는 범위를 정의하는 수치를 포함한다. 본 명세서 전체에 걸쳐 주어진 모든 최대 수치 제한은, 그러한 더 낮은 수치 제한이 본 명세서에 명백히 기록된 것처럼 모든 더 낮은 수치 제한을 포함하는 것으로 의도된다. 본 명세서 전체에 걸쳐 부여된 모든 최소 수치 제한은, 그러한 더 높은 수치 제한이 본원에 명백히 기록된 것처럼 모든 더 높은 수치 제한을 포함할 것이다. 본 명세서 전체에 걸쳐 주어진 모든 수치 범위는, 보다 좁은 수치 범위가 모두 본 명세서에 명백하게 쓰여진 것처럼, 보다 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위를 포함할 것이다.
본원에 제공된 표제는 본 개시를 제한하려는 것이 아니다.
본 명세서에서 달리 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어는 당업자에게 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본원에 포함된 용어를 포함하는 다양한 과학 사전은 잘 알려져 있으며 당업자에게 이용 가능하다. 본 명세서에 기술된 것과 유사하거나 동등한 임의의 방법 및 재료가 본 명세서에 개시된 실시예의 실시 또는 시험에 사용되는 것으로 밝혀 지지만, 일부 방법 및 재료가 설명된다.
바로 아래에 정의된 용어들은 본 명세서 전체를 참조하여 더 완전하게 설명된다. 본 개시는 당업자가 사용하는 상황에 따라 달라질 수 있으므로, 기술된 특정 방법론, 프로토콜 및 시약에 제한되지 않는다는 것을 이해해야한다.
정의
본 명세서에서 사용된 바와 같이, 단수 용어 "일", "하나의" 및 "상기"는 문맥 상 명백하게 다르게 나타내지 않는한 복수 참조를 포함한다.
달리 지시되지 않는 한, 핵산은 5'에서 3' 방향으로 왼쪽에서 오른쪽으로 기록되고 아미노산 서열은 각각 아미노에서 카르복시 방향으로 왼쪽에서 오른쪽으로 기록된다.
고유 분자 인덱스(UMI)는 개별 DNA 분자를 서로 구별하는데 사용될 수 있는 DNA 분자에 적용되거나 식별되는 뉴클레오티드의 서열이다. UMI는 DNA 분자를 식별하는 데 사용되므로 고유 분자 식별자라고도한다. 예를 들어 Kivioja, Nature Methods 9, 72-74(2012)를 참조할 수 있다. 리드된 서열이 하나의 소스 DNA 분자의 것인지 또는 다른 것인지를 결정하기 위해 UMI는 이들이 연관된 DNA 분자와 함께 서열화될 수 있다. 용어 "UMI"는 본원에서 폴리뉴클레오티드의 서열 정보 및 물리적 폴리뉴클레오티드 자체를 지칭하기 위해 사용된다.
일반적으로, 단일 소스 분자의 다중 인스턴스가 시퀀싱된다. Illumina의 시퀀싱 기술을 사용한 합성에 의한 시퀀싱의 경우, 플로우 셀(flow cell)에 전달하기 전에 소스 분자가 PCR 증폭될 수 있다. PCR 증폭 여부에 관계없이, 플로우 셀에 공급된 개별 DNA 분자는 브릿지 증폭 또는 ExAmp 증폭되어 클러스터를 생성한다. 클러스터의 각 분자는 동일한 소스 DNA 분자에서 파생되지만 별도로 시퀀싱된다. 오류 수정 및 기타 목적을 위해 단일 클러스터의 모든 리드 값이 동일한 소스 분자에서 파생된 것으로 식별됨을 결정하는 것이 중요할 수 있다. UMI는 이러한 그룹화를 허용한다. 증폭에 의해 복사되거나 DNA 분자의 다중 인스턴스를 생성하는 DNA 분자는 소스 DNA 분자로 지칭된다.
소스 DNA 분자와 관련된 에러 이외에, UMI와 관련된 영역에서 에러가 발생할 수도 있다. 일부 구현들에서, 후자의 타입의 에러는 리드 서열을 UMI 풀 중 가장 가능성있는 UMI에 매핑함으로써 정정될 수 있다.
UMI는 하나의 샘플의 리드를 다른 샘플의 리드와 구별하기 위해 일반적으로 사용되는 바코드와 유사하지만, 대신에 많은 DNA 분자가 함께 서열화될 때 하나의 소스 DNA 분자를 다른 것과 구별하기 위해 UMI가 사용된다. 시퀀싱 배열의 샘플들보다 일 샘플에 더 많은 DNA 분자가 있을 수 있으므로, 시퀀싱 배열(sequencing run)의 개별 바코드들보다 더 많은 개별 UMI가 존재하는 것이 일반적이다.
언급한 바와 같이, UMI는 개별 DNA 분자에(서) 부착되거나 식별될 수 있다. 일부 구현에서, UMI는 UMI를 DNA 분자에 물리적으로 연결 또는 결합시키는 방법, 예를 들어 폴리머라제, 엔도뉴클레아제, 트랜스포사제 등을 통한 결찰(ligation) 또는 전위(transposition)에 의해, DNA 분자에 부착될 수 있다. 따라서 이들 "부착된" UMI는 또한 물리적 UMI라고한다. 일부 상황에서는 외인성 UMI라고도한다. 소스 DNA 분자 내에서 확인된 UMI를 가상 UMI라고한다. 일부 맥락에서, 가상 UMI는 또한 내인성 UMI로 지칭될 수 있다.
물리적 UMI는 많은 방식으로 정의될 수 있다. 예를 들어, 이들은 어댑터에 삽입되거나 서열화를 위해 소스 DNA 분자에 혼입되는 랜덤, 유사 랜덤 또는 부분 랜덤 또는 비 랜덤 뉴클레오티드 서열일 수 있다. 일부 구현에서, 물리적 UMI는 매우 독특하여, 그 각각은 샘플에 존재하는 임의의 주어진 소스 DNA 분자를 고유하게 식별할 것으로 기대될 수 있다. 각각 물리적 UMI를 갖는 어댑터들의 군이 생성되고, 이들 어댑터는 시퀀싱될 단편 또는 다른 소스 DNA 분자에 부착되며, 각각의 시퀀싱된 개별 분자는 각각 다른 모든 단편과 구별되도록 돕는 UMI를 갖는다. 이러한 구현에서, 샘플 내 DNA 단편을 고유하게 식별하기 위해 매우 많은 수의 상이한 물리적 UMI(예를 들어, 수천 내지 수백만개)가 사용될 수 있다.
물론, 물리적 UMI는 각각의 모든 소스 DNA 분자에 대해 이러한 고유성을 보장하기에 충분한 길이를 가져야한다. 일부 구현들에서, 시퀀싱 과정 동안 각각의 소스 DNA 분자가 고유하게 식별되도록하기 위해 덜 독특한 분자 식별자가 다른 식별 기술과 연계하여 사용될 수 있다. 이러한 구현에서, 다수의 단편 또는 어댑터가 동일한 물리적 UMI를 가질 수 있다. 정렬 위치 또는 가상 UMI와 같은 다른 정보는 물리적 UMI와 결합되어 리드가 단일 소스 DNA 분자/조각으로부터 유래된 것으로 고유하게 식별될 수 있다. 일부 구현에서, 어댑터는 비교적 적은 수의 비 랜덤 시퀀스, 예를 들어 120 개의 비 랜덤 시퀀스로 제한되는 물리적 UMI를 포함한다. 이러한 물리적 UMI는 비 랜덤 UMI라고도한다. 일부 구현들에서, 비 랜덤 UMI는 동일한 소스 DNA 분자에 기인한 리드를 식별하기 위해 서열 위치 정보, 서열 위치 및/또는 가상 UMI와 결합될 수 있다. 식별된 리드 값을 조합하여 본원에 기재된 바와 같은 소스 DNA 분자의 서열을 반영하는 공통 서열을 수득할 수 있다. 물리적 UMI, 가상 UMI 및/또는 정렬 위치를 사용하여 동일하거나 관련된 UMI 또는 위치를 갖는 리드를 식별할 수 있으며, 식별된 리드는 결합되어 하나 이상의 공통 서열을 얻을 수 있다. 공통 서열을 얻기 위해 리드를 결합하는 프로세스는 또한 리드 "붕괴"("collapsing" reads)로 지칭되며, 이는 이후에 더 설명된다.
"가상 고유 분자 인덱스" 또는 "가상 UMI"는 소스 DNA 분자의 고유한 서브시퀀스가다. 일부 구현에서, 가상 UMI는 소스 DNA 분자의 말단 또는 그 근처에 위치한다. 하나 이상의 이러한 고유한 말단 위치는 단독으로 또는 다른 정보와 함께 소스 DNA 분자를 고유하게 식별할 수 있다. 가상 UMI에서의 별개의 소스 DNA 분자의 수 및 뉴클레오티드 수에 따라, 하나 이상의 가상 UMI는 샘플에서 소스 DNA 분자를 고유하게 식별할 수 있다. 일부 경우에, 소스 DNA 분자를 식별하기 위해 2 개의 가상 고유 분자 식별자의 조합이 필요하다. 이러한 조합은 극히 드물며, 가능하다면, 샘플에서 한 번만 발견될 수 있다. 일부 경우에, 하나 이상의 물리적 UMI와 조합된 하나 이상의 가상 UMI는 함께 소스 DNA 분자를 고유하게 식별할 수 있다.
"랜덤 UMI"는 하나 이상의 서열 길이가 제공된 모든 가능한 상이한 올리고 뉴클레오티드 서열로 구성된 UMI 세트로부터 대체되거나 존재하지 않는 랜덤 샘플로서 선택된 물리적 UMI로 간주될 수 있다. 예를 들어, UMI 세트의 각 UMI가 n 개의 뉴클레오티드를 갖는 경우, 세트는 서로 상이한 서열을 갖는 4^n 개의 UMI를 포함한다. 4^n개의 UMI에서 선택된 랜덤 샘플은 랜덤 UMI를 구성한다.
반대로, 본 명세서에서 사용되는 "비 랜덤 UMI"(NRUMI)는 랜덤 UMI가 아닌 물리적 UMI를 지칭한다. 일부 실시예에서, 비 랜덤 UMI는 특정 실험 또는 응용을 위해 미리 정의된다. 특정 실시 양태에서, 규칙은 세트에 대한 서열을 생성하거나 세트로부터 샘플을 선택하여 비 랜덤 UMI를 얻는 데 사용된다. 예를 들어, 세트의 시퀀스는 시퀀스가 특정 패턴(들)을 갖도록 생성될 수 있다. 일부 구현에서, 각 서열은 특정 수의(예를 들어, 2, 3 또는 4) 뉴클레오티드만큼의 세트 내 모든 다른 서열과 상이하다. 즉, 비-랜덤 UMI 서열은 특정 개수의 뉴클레오티드보다 적은 수를 대체함으로써 임의의 다른 이용 가능한 비-랜덤 UMI 서열로 전환될 수 없다. 일부 구현들에서, 시퀀싱 프로세스에 사용된 NRUMI 세트는 특정 시퀀스 길이가 주어지면 모든 가능한 UMI보다 적은 수를 포함한다. 예를 들어, 6 개의 뉴클레오티드를 갖는 NRUMI 세트는 총 4^6 = 4096 개의 가능한 상이한 서열 대신에 총 96 개의 상이한 서열을 포함할 수 있다.
비 랜덤 UMI가 가능한 모든 상이한 서열보다 적은 세트로부터 선택되는 일부 구현에서, 비 랜덤 UMI의 수는 소스 DNA 분자의 수보다 적고 때로는 상당히 유의미하게 작다. 이러한 구현에서, 비 랜덤 UMI 정보는 동일한 소스 DNA 분자로부터 유래된 서열 리드를 식별하기 위해 가상 UMI, 참조 서열상의 리드 위치 및/또는 리드의 서열 정보와 같은 다른 정보와 조합될 수 있다.
용어 "가변 길이, 비 랜덤 분자 인덱스"(vNRUMI)는 비 랜덤 선택 공정을 사용하여 가변 분자 길이(또는 이종 길이)의 UMI 풀로부터 선택된 vNRUMI 세트의 UMI를 지칭한다. 용어 vNRUMI는 UMI의 분자 및 UMI의 서열 둘 다를 지칭하기 위해 사용된다. 일부 구현들에서, 특정 UMI들은 UMI 풀로부터 제거되어 필터링된 UMI 풀을 제공할 수 있고, 그 풀은 vNRUMI 세트를 생성하는데 사용된다.
일부 구현들에서, 각각의 vNRUMI는 적어도 정의된 편집 거리만큼 프로세스에서 사용되는 세트에서 모든 다른 vNRUMI와 상이하다. 일부 구현에서, 시퀀싱 프로세스에 사용된 vNRUMI 세트는 관련 분자 길이가 주어지면 모든 가능한 UMI보다 적은 수를 포함한다. 예를 들어, 6 개 및 7 개 뉴클레오티드를 갖는 vNRUMI 세트는(총 46 + 47 = 20480 개의 가능한 상이한 서열 대신) 총 120 개의 상이한 서열을 포함할 수 있다. 다른 구현들에서, 서열들은 세트로부터 무작위로 선택되지 않는다. 대신, 일부 서열은 다른 서열보다 확률이 높은 것으로 선택된다.
"분자 길이"라는 용어는 또한 서열 길이로 지칭되며, 뉴클레오티드에서 측정될 수 있다. 용어 분자 길이는 용어 분자 크기, DNA 크기 및 서열 길이와 상호 교환 적으로 사용된다.
편집 거리는 하나의 문자열을 다른 문자열로 변환하는 데 필요한 최소의 연산 수를 세어 서로 다른 두 문자열(예를 들어, 단어)이 서로 얼마나 상이한지를 정량화하는 메트릭이다. 생물 정보학에서는 A, C, G 및 T 문자의 문자열로 볼 수 있는 DNA 서열의 유사성을 정량화하는 데 사용할 수 있다.
상이한 형태의 편집 거리는 상이한 세트의 스트링 연산을 사용한다. 레벤슈 테인 거리는 일반적인 유형의 편집 거리이다. Levenshtein 거리의 문자열 연산은 문자열에서 문자의 삭제, 삽입 및 대체의 수를 설명한다. 일부 구현들에서, 다른 편집 거리들의 변형들이 사용될 수 있다. 예를 들어, 일련의 연산을 제한함으로써 다른 편집 거리 변형을 얻을 수 있다. 가장 긴 공통 서브시퀀스(LCS) 거리는 단 하나의 단가로 두 번의 편집 작업으로 삽입 및 삭제가 있은 편집 거리이다. 마찬가지로, 치환 만 허용함으로써 해밍 거리(Hamming distance)가 얻어지며, 이는 같은 길이의 스트링으로 제한된다. Jaro-Winkler 거리는 전위(transposition)만 허용되는 편집 거리에서 얻을 수 있다.
일부 구현들에서, 상이한 스트링 동작들은 편집 거리에 대해 다르게 가중될 수 있다. 예를 들어, 치환 연산은 3의 값으로 가중될 수 있는 반면, 인델은 2의 값으로 가중될 수 있다. 일부 구현에서, 상이한 종류의 매치는 다르게 가중될 수 있다. 예를 들어, A-A 일치는 G-G 일치보다 두 배로 가중될 수 있다.
정렬 스코어는 정렬 방법을 사용하여 결정된 2 개의 서열의 유사성을 나타내는 점수이다. 일부 구현들에서, 정렬 스코어는 편집의 수(예를 들어, 문자열에서 문자의 삭제, 삽입 및 대체)를 설명한다. 일부 구현들에서, 정렬 스코어는 다수의 매칭을 설명한다. 일부 구현들에서, 정렬 스코어는 일치 횟수 및 편집 횟수 모두를 설명한다. 일부 구현에서, 일치 및 편집의 수는 정렬 스코어에 대해 동일하게 가중치가 부여된다. 예를 들어 정렬 스코어는 다음과 같이 계산될 수 있다. 일치 수 - 삽입 수 - 삭제 수 - 대체 수. 다른 구현들에서, 매치 및 편집의 수는 다르게 가중될 수 있다. 예를 들어, 정렬 스코어는 다음과 같이 계산될 수 있다. 일추 수 x 5 - 삽입 수 × 4 - 삭제 수 × 4 - 치환 수 × 6.
용어 "paired end reads"는 핵산 단편의 각 단부에서 하나의 리드를 얻는 페어드 엔드 시퀀싱으로부터 얻은 리드를 의미한다. 페어드 엔드 시퀀싱에는 DNA를 인서트라고하는 서열로 단편화하는 것이 포함된다. Illumina에서 사용하는 일부 프로토콜과 같은 일부 프로토콜에서는, 짧은 인서트(예: 수십에서 수백 bp 정도)의 리드를 짧은 인서트 페어드 엔드 리드 또는 간단히 페어드 엔드 리드가라고 한다. 대조적으로, 더 긴 인서트(예를 들어, 수천 bp 정도)로부터의 리드는 메이트 페어 리드로 지칭된다. 본 개시에서, 짧은-삽입 페어드 엔드 리드 및 긴-삽입 메이트 페어 리드는 둘 다 사용될 수 있고 DNA 단편의 서열을 결정하는 과정과 관련하여 구별되지 않는다. 따라서, "페어드 엔드 리드"이라는 용어는 쇼트-삽입 페어드 엔드 리드 및 롱-삽입 메이트 페어 리드를 모두 지칭할 수 있으며, 이에 대해서는 이후에 더 설명한다. 일부 실시예에서, 페어드 엔드 리드는 약 20 bp 내지 1000 bp의 리드를 포함한다. 일부 실시예들에서, 페어드 엔드 리드는 약 50 bp 내지 500 bp, 약 80 bp 내지 150 bp, 또는 약 100 bp의 리드를 포함한다.
본원에서 사용되는 용어 "정렬" 및 "정렬하는"은 리드를 참조 서열과 비교하여 참조 서열이 리드 서열을 함유하는지 여부를 결정하는 과정을 지칭한다. 본원에 사용된 정렬 프로세스는 리드가 참조 서열에 맵핑될 수 있는지를 결정하려고 시도하지만, 항상 리드가 참조 서열에 정렬되는 것은 아니다. 참조 서열이 리드를 포함하는 경우, 리드는 참조 서열에, 또는 특정 실시예에서 참조 서열의 특정 위치에, 매핑될 수 있다. 일부 경우에, 정렬은 단순히 리드가 특정 참조 서열의 구성원인지의 여부(즉, 리드가 참조 서열에 존재하는지 부재하는지)를 단순히 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 대한 리드의 정렬은 염색체 13에 대한 참조 서열에 리드가 존재 하는지를 알려줄 것이다.
물론, 정렬 도구는 본 출원에서 설명되지 않은 생체 정보학에서 많은 추가 실시형태 및 많은 다른 응용예를 갖는다. 예를 들어, 정렬을 사용하여 두 개의 서로 다른 종의 두 DNA 서열이 얼마나 유사한 지 결정하여 진화 트리에서 얼마나 밀접하게 관련되어 있는지 측정할 수 있다.
본 명세서의 일부 구현들에서, 정렬은 참조 시퀀스로 vNRUMI 와 리드의 서브시퀀스 사이에서 수행되어, 이후에 더 설명되는 바와 같이 정렬 스코어를 결정한다. 그런 다음 리드와 여러 vNRUMI 간의 정렬 스코어를 사용하여 리드와 연관되거나 매핑되어야하는 vNRUMI 중 하나를 결정할 수 있다.
일부 경우에, 정렬은 추가로 리드가 맵핑되는 참조 서열에서의 위치를 표시한다. 예를 들어, 참조 서열이 전체 인간 게놈 서열 인 경우, 정렬은 리드가 염색체 13에 존재 함을 나타내고, 리드가 특정 가닥 및/또는 염색체 13에 존재 함을 추가로 나타낼 수 있다. 일부 시나리오에서 a) 모든 유효한 정렬이 발견되지 않고 b) 일부 정렬이 유효하지 않기 때문에, 정렬 도구가 불완전한다. 이는 다양한 이유로 인해 발생한다(예: 리드에 오류가 있을 수 있고 시퀀스된 리드가 일배 체형 차이(haplotype differences)로 인해 참조 게놈과 다를 수 있음). 일부 응용 분야에서 정렬 도구에는 기본 불일치 공차가 포함되어있어 기본 쌍의 특정 정도의 불일치를 감내할 수 있고, 리드를 참조 서열에 정렬할 수 있다. 이것은 그렇지 않으면 놓칠 수 있는 유효한 리드 정렬을 식별하는 데 도움이될 수 있다.
정렬된 리드는 핵산 분자의 순서와 관련하여 참조 게놈과 같은 공지된 참조 서열과의 일치로 식별되는 하나 이상의 서열이다. 정렬된 리드 및 참조 서열상의 결정된 위치는 서열 태그를 구성한다. 정렬은 본 명세서에 개시된 방법을 구현하기 위해 합리적인 시간주기 내에 리드를 정렬하는 것이 불가능하기 때문에 전형적으로 컴퓨터 알고리즘에 의해 구현되지만 수동으로 수행될 수 있다. 정렬 서열로부터의 알고리즘의 일례는 이후에 추가로 기술되는 바와 같이 리드의 프리픽스 서열을 vNRUMI와 비교하기 위한 글로벌-로컬(glocal) 하이브리드 정렬 방법이다. 정렬 방법의 또 다른 예는 Illumina Genomics Analysis 파이프 라인의 일부로 배포된 ELAND(Efficient Local Alignment of Nucleotide Data) 컴퓨터 프로그램이다. 대안 적으로, 블룸 필터 또는 유사한 세트 멤버쉽 테스터를 이용하여 리드를 기준 게놈에 정렬시킬 수 있다. 2014 년 4 월 25 일에 출원된 미국 특허 출원 번호 제14/354,528호를 참조하며, 이는 그 전체가 본 명세서에 참조로 포함된다. 정렬에서 리드된 서열의 매칭은 100 % 서열 매칭 또는 100 % 미만(즉, 완전하지 않은 매칭) 일 수 있다. 추가적인 정렬 방법은 2016 년 4 월 15 일자로 출원된 미국 특허 출원 번호 제15/130,668호(대리인 참조번호 ILMNP008)에 개시되어 있으며, 이의 전체 내용은 본 발명에 참고로 포함된다.
본원에 사용된 용어 "매핑(mapping)"은 정렬에 의해 리드 서열을 더 큰 서열, 예를 들어 기준 게놈에 할당하는 것을 지칭한다.
용어 "폴리 뉴클레오티드", "핵산"및 "핵산 분자"는 상호 교환 적으로 사용되며, 공유 결합된 뉴클레오티드 서열(즉, RNA의 리보뉴클레오티드 및 DNA의 데옥시리보뉴클레오티드)을 지칭하며, 여기서 하나의 뉴클레오티드의 펜 토스의 3' 위치는 포스포디에스테르 그룹에 의해 다음의 펜토오스의 5' 위치에 연결된다. 뉴클레오티드는 비 제한적으로 RNA 및 DNA 분자, 예컨대 무 세포 DNA(cfDNA) 분자를 포함하는 임의의 형태의 핵산의 서열을 포함한다. 용어 "폴리뉴클레오티드"는 단일 가닥 및 이중 가닥 폴리뉴클레오티드를 제한없이 포함한다.
본원에서 용어 "시험 샘플"은 전형적으로 생물학적 유체, 세포, 조직, 기관 또는 유기체로부터 유래된 샘플을 의미하며, 이는 핵산 또는 핵산 서열을 갖는 핵산 혼합물 또는 하나 이상의 핵산 혼합물을 포함한다. 단일 뉴클레오티드 다형성, 삽입, 결실 및 구조적 변이와 같은 카피 수 변이 및 다른 유전자 변형에 대해 스크리닝되어야한다. 특정 실시 양태에서, 샘플은 카피 수가 변이된 것으로 의심되는 하나 이상의 핵산 서열을 갖는다. 이러한 샘플에는 객담/경구 액, 양수, 혈액, 혈액 분획 또는 미세 바늘 생검 샘플, 소변, 복막 액, 흉막액 등이 포함 되나 이에 제한되지 않는다. 샘플은 종종 인간 대상체(예를 들어, 환자)로부터 채취되지만, 분석은 야생으로부터의 미생물 집단, 또는 환자로부터의 바이러스 집단으로서. 혼합 집단뿐만 아니라 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이에 제한되지 않는 임의의 포유 동물로부터의 샘플에 사용될 수 있다. 샘플은 생물학적 소스로부터 얻은 그대로 또는 전처리 후 샘플의 특성을 변경하기 위해 사용될 수 있다. 예를 들어, 이러한 전처리는 혈액으로부터 혈장을 제조하는 것, 점성 유체를 희석하는 것 등을 포함할 수 있다. 전처리 방법은 또한 여과, 침전, 희석, 증류, 혼합, 원심 분리, 동결, 동결 건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 불 활성화, 시약의 첨가, 용해 등을 포함할 수 있으나, 이에 제한되지는 않는다. 이러한 전처리 방법이 샘플과 관련하여 사용되는 경우, 이러한 전처리 방법은 전형적으로 관심있는 핵산(들)이 시험 샘플에, 때로는 미처리된 시험 샘플에 비례하는 농도로 유지되도록하는 방법이다(예를 들어, 즉, 그러한 전처리 방법(들)을 거치지 않은 샘플. 이러한 "처리 된"또는 "처리 된"샘플은 여전히 본원에 기술된 방법과 관련하여 생물학적 "테스트"샘플 인 것으로 간주된다.
본원에서 용어 "NGS(Next Generation Sequencing)"는 클론 증폭 분자 및 단일 핵산 분자의 대규모 병렬 시퀀싱을 허용하는 시퀀싱 방법을 지칭한다. NGS의 비 제한적인 예는 가역성 염료 종결자를 사용한 합성에 의한 시퀀싱 및 결찰에 의한 시퀀싱을 포함한다.
용어 "리드"은 핵산 샘플의 일부로부터 리드된 서열을 지칭한다. 반드시 그런 것은 아니지만 일반적으로 리드는 샘플에서 짧은 연속 염기쌍의 시퀀스를 나타낸다. 리드는 염기의 정확성(품질 점수)의 확률 적 추정과 함께 샘플 부분의 A, T, C 및 G에서 염기 쌍 서열로 상징적으로 표시될 수 있다. 그것은 메모리 장치에 저장되고 그것이 참조 서열와 일치하는지 또는 다른 기준을 충족시키는지를 결정하기 위해 적절하게 처리될 수 있다. 리드는 시퀀싱 장치로부터 직접 또는 샘플에 관한 저장된 서열 정보로부터 간접적으로 얻을 수 있다. 일부 경우에, 리드는 더 큰 서열 또는 영역을 확인하는데 사용될 수 있는, 예를 들어 염색체 또는 게놈 영역 또는 유전자에 정렬되고 맵핑될 수 있는 충분한 길이(예를 들어, 적어도 약 20 bp)의 DNA 서열이다 .
용어 "사이트"및 "정렬 위치"는 참조 게놈상의 고유 위치(즉, 염색체 ID, 염색체 위치 및 배향)를 지칭하기 위해 상호 교환 적으로 사용된다. 일부 실시 양태에서, 사이트는 잔기, 서열 태그 또는 참조 서열상의 세그먼트의 위치 일 수 있다.
본원에 사용된 용어 "참조 게놈"또는 "참조 서열"은 대상체로부터 확인된 서열을 참조하는데 사용될 수 있는 임의의 유기체 또는 바이러스의 부분적으로 또는 완전한 임의의 공지된 유전자 서열을 지칭한다. 예를 들어, 인간 피험자 및 다른 많은 유기체에 사용되는 참조 게놈은 ncbi.nlm.nih.gov의 국립 생명 공학 정보 센터(National Center for Biotechnology Information)에서 찾을 수 있다. "게놈"은 핵산 서열로 발현된 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다. 그러나, "완전한"은 상대적인 개념 인 것으로 이해되는데, 금-표준 기준 게놈조차도 간극 및 오차를 포함할 것으로 예상되기 때문이다.
일부 구현들에서, vNRUMI 시퀀스는 리드의 프리픽스 시퀀스가 정렬되는 참조 서열로서 사용될 수 있다. 정렬은 리드의 프리픽스 시퀀스와 vNRUMI 사이의 정렬 스코어를 제공하며, 이는 동일한 vNRUMI와 연관된 리드를 축소하는 프로세스에서 리드와 vNRUMI가 연결되어야하는지 여부를 결정하는 데 사용될 수 있다.
다양한 실시예들에서, 기준 시퀀스는 그것에 정렬된 리드들보다 상당히 크다. 예를 들어, 약 100 배 이상, 또는 약 1000 배 이상, 또는 약 10,000 배 이상, 또는 약 105 배 이상, 또는 약 106 배 이상, 또는 약 107 이상일 수 있다. 배 더 크다.
일 예에서, 참조 서열은 전장 인간 게놈의 서열이다. 이러한 서열은 게놈 참조 서열로 지칭될 수 있다. 다른 예에서, 참조 서열은 염색체 13과 같은 특정 인간 염색체로 제한된다. 일부 실시 양태에서, 참조 Y 염색체는 인간 게놈 버전 hg19의 Y 염색체 서열이다. 이러한 서열은 염색체 참조 서열로 지칭될 수 있다. 참조 서열의 다른 예는 다른 종의 게놈뿐만 아니라 임의의 종의 염색체, 서브-염색체 영역(가닥과 같은) 등을 포함한다.
일부 실시예들에서, 정렬을 위한 기준 시퀀스는 리드 길이의 약 1 내지 약 100 배의 시퀀스 길이를 가질 수 있다. 이러한 실시 양태에서, 정렬 및 서열 분석은 전체 게놈 정렬 또는 서열 분석 대신에 표적화된 정렬 또는 서열 분석으로 간주된다. 이들 구체예에서, 참조 서열은 전형적으로 유전자 서열 및/또는 다른 제한적 관심 서열을 포함한다. 이러한 의미에서, vNRUMI에 대한 리드의 서브시퀀스의 정렬은 타겟 정렬의한 형태이다.
다양한 실시 양태에서, 참조 서열은 공통 서열 또는 다수의 개체로부터 유래된 다른 조합이다. 그러나, 특정 적용에서, 참조 서열은 특정 개체로부터 취해질 수 있다.
본원에서 핵산 또는 핵산의 혼합물과 관련하여 사용될 때 용어 "유도된"은 핵산(들)이 유래한 소스로부터 핵산(들)을 얻는 수단을 지칭한다. 예를 들어,한 실시 양태에서, 2 개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산, 예를 들어 cfDNA가 괴사 또는 아폽토시스(apoptosis)와 같은 자연 발생 과정을 통해 세포에 의해 자연적으로 방출되었음을 의미한다. 다른 실시 형태에서, 2 개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산이 대상체로부터 2 개의 상이한 유형의 세포로부터 추출되었음을 의미한다.
본원에서 용어 "생물학적 유체"는 생물학적 소스로부터 취한 액체를 말하며, 예를 들어 혈액, 혈청, 혈장, 가래, 세척액, 뇌척수액, 소변, 정액, 땀, 눈물, 타액 및 등. 본원에 사용된 용어 "혈액", "혈장"및 "혈청"은 분획 또는 이의 가공된 부분을 분명히 포함한다. 유사하게, 생검, 면봉, 도말 등으로부터 샘플을 채취하는 경우, "샘플"은 생검, 면봉, 도말 등으로부터 유래된 가공된 분획 또는 부분을 명시 적으로 포함한다.
본원에 사용된 용어 "염색체"는 DNA 및 단백질 성분(특히 히스톤)을 포함하는 염색질 가닥으로부터 유래된 살아있는 세포의 유전 보유 유전자 운반체를 지칭한다. 종래의 국제적으로 인정된 개별 인간 게놈 염색체 넘버링 시스템이 본원에 사용된다.
본원에 사용된 용어 "프라이머"는 연장 생성물의 합성을 유도하는 조건하에 놓일 때 합성의 개 시점으로서 작용할 수 있는 단리된 올리고 뉴클레오티드를 지칭한다(예를 들어, 조건은 뉴클레오티드, 유도를 포함한다) DNA 폴리머라제, 필요한 이온 및 분자, 및 적절한 온도 및 pH와 같은 작용제). 프라이머는 증폭 효율을 최대화하기 위해 바람직하게는 단일 가닥 일 수 있지만, 대안 적으로 이중 가닥 일 수 있다. 이중 가닥 인 경우, 프라이머는 먼저 연장 생성물을 제조하는데 사용되기 전에 가닥을 분리하도록 처리된다. 프라이머는 올리고 데옥시리보뉴클레오티드 일 수 있다. 프라이머는 유도제의 존재 하에서 연장 생성물의 합성을 프라이밍하기에 충분히 길다. 프라이머의 정확한 길이는 온도, 프라이머 소스, 방법의 사용 및 프라이머 디자인에 사용되는 파라미터를 포함한 많은 요소에 따라 달라진다.
소개와 맥락
차세대 시퀀싱(NGS) 기술은 연구 및 과학을 발전시키는 새로운 도구를 제공 할뿐만 아니라 유전 및 관련 생물학적 정보에 의존하는 건강 관리 및 서비스를 제공하면서 빠르게 발전했다. NGS 방법은 대규모 병렬 방식으로 수행되어 생체 분자 서열 정보를 결정하는 데 점점 더 빠른 속도를 제공한다. 그러나, 많은 NGS 방법 및 관련 샘플 조작 기술은 결과 시퀀스가 수백 개의 염기쌍의 하나의 오류에서 수 천개의 염기쌍의 하나의 오류에 이르는 비교적 높은 오류율을 갖도록 오류를 도입한다. 이러한 오류율은 때로는 생식선 돌연변이와 같은 유전 적 유전 정보를 결정하는데 수용 가능한다. 왜냐하면 그러한 정보는 대부분의 체세포에 걸쳐 일관성이 있기 때문에 시험 샘플에서 동일한 게놈의 많은 사본을 제공하기 때문이다. 시퀀스의한 복사본을 읽음으로써 발생하는 오류는 같은 시퀀스의 많은 복사본이 오류없이 읽힐 때 경미하거나 제거 가능한 영향을 미친다. 예를 들어, 시퀀스의한 복사본에서 잘못된 리드 값을 참조 서열에 올바르게 정렬할 수없는 경우 분석에서 폐기될 수 있다. 동일한 시퀀스의 다른 사본에서 오류가없는 리드는 여전히 유효한 분석에 충분한 정보를 제공할 수 있다. 대안 적으로, 동일한 시퀀스로부터의 다른 리드와는 다른 염기 쌍을 갖는 리드를 폐기하는 대신, 알려진 또는 알려지지 않은 에러의 원인으로 인해 상이한 염기 쌍을 무시할 수 있다.
그러나, 이러한 오류 정정 접근법은 종양 조직으로부터의 핵산에서 발견되는 서브 클론, 체세포 돌연변이, 순환 종양 DNA, 모계 혈장에서의 저농도 태아 cfDNA, 이들 예에서, 하나의 DNA 단편은 서열 부위에서 체세포의 관심 돌연변이를 보유할 수 있는 반면, 동일한 서열 부위의 많은 다른 단편은 관심 돌연변이를 갖지 않는다. 이러한 시나리오에서, 돌연변이된 DNA 단편으로부터의 서열 리드 또는 염기쌍은 통상적 인 시퀀싱에서 사용되지 않거나 잘못 해석될 수 있으며, 이에 따라 관심 돌연변이를 검출하기 위한 정보가 손실된다.
이들 다양한 오차의 원인으로 인해, 시퀀싱 깊이의 증가만으로도 대립 유전자 빈도가 매우 낮은(예를 들어, <1 %) 체세포 변화의 검출을 보장할 수 없다. 본 명세서에 개시된 일부 구현은 유효한 대립 유전자의 신호, 예를 들어 낮은 대립 유전자 주파수를 갖는 샘플이 낮은 상황에서 오류를 효과적으로 억제하는 이중 서열 분석 방법을 제공한다.
고유 분자 인덱스(UMI)는 다수의 리드로부터의 정보의 사용이 시퀀싱 노이즈를 억제할 수 있게한다. 정렬 위치와 같은 맥락 정보와 함께 UMI를 사용하면 각 독해의 원점을 특정 원래 DNA 분자로 추적할 수 있다. 동일한 DNA 분자에 의해 생성된 다수의 리드가 주어지면, 계산적 접근법은 시퀀싱 오류를 통해 인위적으로 도입된 변이체로부터 실제 변이체(즉, 원래 DNA 분자에 생물학적으로 존재하는 변이체)를 분리하는데 사용될 수 있다. 변이체는 삽입, 결실, 다중-뉴클레오티드 변이체, 단일-뉴클레오티드 변이체 및 구조적 변이체를 포함할 수 있지만, 이에 제한되지는 않는다. 이 정보를 사용하여 DNA 분자의 실제 서열을 추론할 수 있다. 이 계산 방법론을 리드 붕괴라고한다. 이 오류 감소 기술에는 몇 가지 중요한 응용 프로그램이 있다. 무 세포 DNA 분석의 맥락에서, 중요한 변이체는 종종 매우 낮은 주파수(즉, <1 %)에서 발생한다. 따라서 시퀀싱 오류로 인해 신호가 사라질 수 있다. UMI 기반 노이즈 감소를 통해 이러한 저주파수 변형을 훨씬 더 정확하게 호출할 수 있다. UMI 및 리드 축소는 높은 범위의 데이터에서 PCR 중복을 식별하는 데 도움이되므로보다 정확한 변형 주파수 측정이 가능한다.
일부 구현에서, 랜덤 서열이 DNA 분자에 부착된 랜덤 UMI가 사용되며, 이러한 랜덤 서열은 UMI 바코드로서 사용되었다. 그러나 의도적으로 설계된 비 랜덤 UMI 세트를 사용하면 일부 구현에서 더 간단한 제조가 가능했는다 방법은 비 랜덤이므로 UMI는 NRUMI(비 랜덤 UMI)라고한다. 일부 구현에서, NRUMI 세트는 균일한 길이의 서열(예를 들어, n = 6 개의 뉴클레오티드 길이)로 구성된다. 이들 NRUMI 분자가 DNA 분자에 결찰되는 A-꼬리 과정으로 인해, 7 번째(n + 1) 리드 값은 항상 티민(T)이다. 이러한 균일성으로 인해 이 염기의 하향의 리드 사이클 전체에 전파되는 리드 품질이 저하될 수 있다. 이 효과는 도 2C에 설명되어 있다.
이 문제는 4 개의 염료를 사용하여 시퀀싱된 비 패턴 화 플로우 셀에서 덜 두드러 질 수 있지만, 기본 호출이 본질적으로 더 어려워 짐에 따라 2 개의 염료를 사용하여 시퀀싱된 패턴 화된 플로우 셀에서 그 심각성이 확대될 가능성이있다. 일부 구현들에서, 새로운 길이의 프로세스는 혼합 길이의 NRUMI 세트를 생성하고, 그러한 가변 길이 NRUMI(vNRUMI)를 고유하게 식별하고, 이들 vNRUMI 내의 에러를 정정하는데 사용된다. 이종 길이의 DNA 바코드를 생성하고 구별할 수 있는 다양성을 제공한다. 실험 결과에 따르면 vNRUMI 방법은 기존 솔루션보다 더 강력한다(즉, 시퀀싱 오류 수정 가능).
일부 구현에서, 탐욕스러운 알고리즘은 vNRUMI 세트를 반복적으로 구성하기 위해 사용된다. 각 반복에서, 선택된 시퀀스가 자신과 이미 선택된 vNRUMI 사이의 최소 Levenshtein 거리를 최대화하도록 vNRUMI 후보 풀에서 시퀀스를 선택한다. 여러 시퀀스가이 메트릭의 최대 값을 공유하는 경우 알고리즘은 짧은 시퀀스를 선호하여 이러한 시퀀스 중 하나를 임의로 선택한다. 이 거리 메트릭은 결과 vNRUMI 세트 내에서 올바른 오류 수정을 시행하기 위해 3 이상이어야한다. 이 조건을 만족할 수 없으면 프로세스는 새 vNRUMI를 세트에 추가하는 것을 중지하고 세트를있는 그대로 반환한다. 이 전체 프로세스를 반복하여 유사한 특성을 가진 다른 vNRUMI 세트를 생성할 수 있다.
어댑터는 리드 값이 유래된 DNA 단편의 어느 가닥을 결정할 수 있게하는 물리적 UMI를 포함할 수 있다. 일부 실시 양태는 DNA 단편의 하나의 가닥으로부터 유래된 리드에 대한 제 1 공통 서열 및 상보 적 가닥에 대한 제 2 공통 서열을 결정하기 위해이를 이용한다. 많은 구체예에서, 공통 서열은 모든 리드 또는 대부분의 리드에서 검출된 뉴클레오티드를 포함하지만, 소수의 리드에서 나타나는 뉴클레오티드는 제외한다. 상이한 합의 기준이 구현될 수 있다. 합의 순서를 얻기 위해 UMI 또는 정렬 위치를 기반으로 리드를 결합하는 프로세스를 리드를 "축소"라고한다. 물리적 UMI, 가상 UMI 및/또는 정렬 위치를 사용하여, 제 1 및 제 2 합의 서열에 대한 리드가 동일한 이중 가닥 단편으로부터 유래된 것으로 결정할 수 있다. 따라서, 일부 실시 양태에서, 제 3 공통 서열은 동일한 DNA 분자/단편에 대해 수득된 제 1 및 제 2 공통 서열을 사용하여 결정되며, 제 3 공통 서열은 제 1 및 제 2 공통 서열에 공통 인 뉴클레오티드를 포함하지만 둘 사이의 불일치를 배제한다 . 대안적인 구현에서, 2 개의 가닥로부터 수득된 2 개의 공통 서열을 비교하는 대신에, 동일한 단편의 2 개의 가닥로부터 유래된 모든 리드 값을 붕괴시킴으로써 단지 하나의 공통 서열이 직접 수득된다. 마지막으로, 단편의 서열은 단편의 양쪽 가닥으로부터 유래된 리드에 걸쳐 일치하는 염기쌍을 포함하는 제 3 또는 유일한 하나의 공통 서열로부터 결정될 수 있다.
일부 실시 양태에서, 방법은 상이한 유형의 지수를 조합하여 리드가 유도되는 소스 폴리뉴클레오티드를 결정한다. 예를 들어, 본 방법은 단일 DNA 분자로부터 유도된 리드를 식별하기 위해 물리적 및 가상 UMI를 모두 사용할 수 있다. 물리적 UMI에 추가하여, 제 2 형태의 UMI를 사용함으로써, 물리적 UMI만이 단지 소스 U 뉴클레오티드를 결정하기 위해 물리적 UMI가 사용될 때보 다 짧을 수 있다. 이 방법은 라이브러리 준비 성능에 최소한의 영향을 미치며 추가 시퀀싱 리드 길이가 필요하지 않는다.
개시된 방법의 적용은 다음을 포함한다:
● 체세포 돌연변이 감지를위한 오류 억제. 예를 들어, 0.1 % 미만의 대립 유전자 빈도를 갖는 돌연변이의 검출은 순환 종양 DNA의 액체 생검에서 매우 중요하다.
● 고품질의 긴 리드 값(예: 1x1000 bp)을 달성하기 위해 올바른 사전 위상 조정, 위상 조정 및 기타 시퀀싱 오류
● 고정 리드 길이의주기 시간을 줄이고 이 방법으로 증가된 위상 및 사전 위상을 수정.
● 조각의 양쪽에 UMI를 사용하여 가상의 긴 페어드 엔드 리드를 생성. 예를 들어, 중복에 500 + 50을 수행하여 2x500 리드를 스티칭(stitching)
● 관심 서열과 관련된 핵산 단편의 정량화 또는 계수.
UMI를 사용한 핵산 단편 시퀀싱 워크플로우
도 1a는 UMI를 사용하여 핵산 단편을 시퀀싱하기 위한 예시적인 워크플로우(100)를 도시한 흐름도이다. 워크플로우(100)는 일부 구현들만을 예시한다. 일부 구현은 여기에 도시되지 않은 추가 동작을 갖는 워크플로우를 사용하는 반면, 다른 구현은 여기에 도시된 일부 동작을 생략할 수 있음을 이해해야한다. 예를 들어, 일부 구현은 작업(102) 및/또는 작업(104)을 필요로하지 않는다. 또한, 워크플로우(100)는 전체 게놈 시퀀싱을 위해 사용된다. 표적화된 시퀀싱을 포함하는 일부 구현들에서, 특정 영역들을 하이브리드 화하고 강화하기 위한 동작 단계들이 동작 110과 112 사이에 적용될 수 있다.
작업 102는 이중 가닥 DNA의 단편을 제공한다. DNA 단편은 게놈 DNA를 단편화하거나, 천연 단편화된 DNA(예를 들어, cfDNA 또는 ctDNA)를 수집하거나, 또는 RNA로부터 DNA 단편을 합성함으로써 수득될 수 있다. 일부 구현에서, RNA, 메신저 RNA 또는 비 코딩 RNA로부터 DNA 단편을 합성하기 위해, 먼저 폴리 A 선택 또는 리보솜 RNA의 고갈을 사용하여 정제된 후, 선택된 mRNA는 화학적으로 단편화되고 랜덤 6 량체 프라이밍을 사용하여 단일 가닥 cDNA로 전환된다. cDNA의 상보 적 가닥이 생성되어 라이브러리 구축 준비가된 이중 가닥 cDNA를 생성한다. 게놈 DNA(gDNA)로부터 이중 가닥 DNA 단편을 수득하기 위해, 입력 gDNA는 예를 들어 유체 역학적 전단, 분무, 효소 단편화 등에 의해 단편화되어 적절한 길이, 예를 들어 약 1000bp, 800bp, 500 또는 200bp의 단편을 생성한다. 예를 들어, 분무는 DNA를 단기간에 800bp 미만의 조각으로 분해할 수 있다. 이 과정은 이중 가닥 DNA 조각을 생성한다.
일부 구현에서, 단편화된 또는 손상된 DNA는 추가 단편화를 요구하지 않고 처리될 수 있다. 예를 들어, 포르말린-고정, 파라핀 매립(FFPE) DNA 또는 특정 cfDNA는 때때로 추가적인 단편화 단계가 필요하지 않을 정도로 충분히 단편화된다.
도 1B는 DNA 단편/분자 및 도 1A의 워크플로우(100)의 초기 단계에서 사용되는 어댑터를 도시한다. 하나의 이중 가닥 단편 만이 도 1b에 도시되어 있지만, 워크플로우에서 샘플의 수천 내지 수백만 단편이 동시에 준비될 수 있다. 물리적 방법에 의한 DNA 단편화는 3' 돌출부, 5' 돌출부 및 무딘 말단(blunt ends)의 혼합물을 포함하는 이종 말단을 생성한다. 돌출부는 길이가 다양하며 말단은 인산화되거나되지 않을 수 있다. 작동 102의 게놈 DNA를 단편화하여 수득한 이중 가닥 DNA 단편의 예는 도 1B에서 단편 123으로 도시되어있다.
단편(123)은 좌측 단부에 3' 돌출부 및 우측 단부에 도시된 5' 돌출부를 모두 갖고, 일부 구현에서 가상 UMI로서 사용될 수 있는 단편에서 2 개의 서열을 나타내는 ρ 및 φ로 표시된다. 단편에 연결되는 어댑터의 물리적 UMI와 함께 또는 단독으로 사용될 때, 단편을 고유하게 식별할 수 있다. UMI는 소스 폴리 뉴클레오티드 및 이의 상보 적 가닥을 포함하는 샘플에서 단일 DNA 단편과 유일하게 연관되어있다. 물리적 UMI는 소스 폴리 뉴클레오티드, 이의 상보 적 가닥 또는 소스 폴리 뉴클레오티드로부터 유래된 폴리 뉴클레오티드에 연결된 올리고 뉴클레오티드의 서열이다. 가상 UMI는 소스 폴리 뉴클레오티드 내의 올리고 뉴클레오티드, 이의 상보 적 가닥 또는 소스 폴리 뉴클레오티드로부터 유래된 폴리 뉴클레오티드의 서열이다. 이러한 방식에서, 물리적 UMI를 외인성 또는 외인성 UMI로 지칭하고 가상 UMI를 내재적 또는 내생 적 UMI로 지칭할 수도있다.
2 개의 서열 ρ 및 φ는 각각 동일한 게놈 부위에서 2 개의 상보 적 서열을 지칭하지만, 간략화를 위해, 이들은 본원에 도시된 일부 이중 가닥 단편에서 하나의 가닥에만 표시되어있다. ρ 및 φ와 같은 가상 UMI는 워크플로우의 나중 단계에서 단일 DNA 소스 단편의 하나 또는 두 가닥에서 발생하는 리드 값을 식별하는 데 사용될 수 있다. 리드 값이 식별되면 공통 서열을 얻기 위해 축소될 수 있다.
DNA 단편이 물리적 방법에 의해 생성되는 경우, 워크플로우(100)는 5'-포스 포 릴화된 말단을 갖는 블런트 말단 단편을 생성하는 말단 복구 작업(104)을 수행한다. 일부 구현에서,이 단계는 단편화로 인한 돌출부를 T4 DNA 폴리머라제 및 클레노우 효소를 사용하여 무딘 말단으로 전환시킨다. 이 효소의 3'-5' 엑소뉴클레아제 활성은 3' 돌출부를 제거하고 5'-3' 폴리머라제 활성은 5'돌출부를 채운다. 또한, 이 반응에서 T4 폴리뉴클레오티드 키나제는 DNA 단편의 5' 말단을 인산화시킨다. 도 1b의 단편(125)는 최종 수리된 블런트 엔드 제품의 예이다.
수리 종료 후, 워크플로우(100)는 단편의 3' 단부를 아데닐화하기 위해 작업(106)으로 진행하는데, 이는 어댑터 결찰 반응 동안 이들이 서로 결찰되는 것을 방지하기 위해 단일 dATP가 블런트 단편의 3'단부에 추가되기 때문에 A- 꼬리 또는 dA- 꼬리라고도한다. 도 1b의 이중 가닥 분자 127은 3'-dA 돌출부 및 5'-포스페이트 말단을 갖는 무딘 말단을 갖는 A-꼬리 단편을 보여준다. 도 1B의 129 번 항목에서 볼 수 있듯이 2 개의 시퀀싱 어댑터 각각의 3' 말단에 있는 단일'T '뉴클레오티드는 인서트 각 끝에 3'-dA 돌출부에 상보적인 돌출부를 제공하여 2 개의 어댑터를 인서트에 결찰한다.
3' 말단을 아데닐화한 후, 작업 흐름(100)은 부분 이중 가닥 어댑터를 단편의 양 말단에 연결하기 위해 작업(108)으로 진행한다. 일부 구현에서, 반응에 사용되는 어댑터는 단일 리드 또는 이중 가닥 DNA 단편 일 수 있는 단일 소스 폴리뉴클레오티드에 서열 리드를 연관시키기 위해 상이한 물리적 UMI를 포함한다. 일부 구현에서, 반응에 사용되는 물리적 UMI 세트는 랜덤 UMI이다. 일부 구현에서, 반응에 사용된 물리적 UMI 세트는 NRUMI(nonrandom UMI)이다. 일부 구현에서, 반응에 사용된 물리적 UMI 세트는 가변 길이의 비 랜덤 UMI(vNRUMI)이다.
도 1b의 항목 129는 단편의 단부 근처에 두 개의 가상 UMI ρ 및 φ를 포함하는 이중 가닥 단편에 연결되는 두 개의 어댑터를 도시한다. 다양한 구현은 Illumina의 NGS 플랫폼을 사용하여 리드 및 관심 서열을 감지할 수 있으므로 이러한 어댑터는 Illumina 플랫폼의 시퀀싱 어댑터를 기반으로 설명된다. 왼쪽에 표시된 어댑터는 이중 가닥 영역에 물리적 UMI α를 포함하고 오른쪽에 있는 어댑터는 이중 가닥 영역에 물리적 UMI β를 포함한다. 5' 에서 3'방향으로 5' 변성 말단을 갖는 가닥에서, 어댑터는 P5 서열, 인덱스 서열, 리드 2 프라이머 서열 및 물리적 UMI(α 또는 β)를 갖는다. 3' 에서 5'방향으로 3' 변성 말단을 갖는 가닥에서, 어댑터는 P7'서열, 인덱스 서열, 리드 1 프라이머 서열 및 물리적 UMI(α 또는 β)를 갖는다.
P5 및 P7' 올리고 뉴클레오티드는 Illumina 시퀀싱 플랫폼의 유동 세포의 표면에 결합된 증폭 프라이머에 상보 적이다. 일부 구현에서, 인덱스 시퀀스는 샘플의 소스를 추적하여 시퀀싱 플랫폼에서 여러 샘플의 멀티플렉싱을 허용하는 수단을 제공한다. 어댑터 및 시퀀싱 플랫폼의 다른 설계가 다양한 구현에 사용될 수 있다. 어댑터 및 시퀀싱 기술에 대해서는 다음 섹션에서 자세히 설명한다.
도 1B에 도시된 반응은 게놈 단편에 별개의 서열을 추가한다. 전술한 동일한 단편으로부터의 결찰 생성물(120)이도 1b에 도시되어있다. 이 결찰 제품(120)은 5'-3' 방향으로 물리적 UMI α, 가상 UMI ρ, 가상 UMI φ 및 물리적 UMI β를 최상단에 갖는다. 결찰 제품은 또한 5'-3' 방향으로 하단 UU에 물리적 UMI β, 가상 UMI φ, 가상 UMI ρ 및 물리적 UMI α를 갖는다. 본 개시는 Illumina에 의해 제공된 것 이외의 시퀀싱 기술 및 어댑터를 사용하는 방법을 구현한다.
본 명세서의 예시적인 어댑터는 어댑터의 이중 가닥 영역에 물리적 UMI를 갖지만, 일부 구현은 도 2a의 어댑터(i) 및(iv)와 같은 단일 가닥 영역에 물리적 UMI를 갖는 어댑터를 사용한다.
일부 구현에서, 이 결찰 반응의 생성물은 아가 로스 겔 전기 영동 또는 자기 비드에 의해 정제 및/또는 크기 선택된다. 그런 다음 크기 선택 DNA를 PCR 증폭하여 양쪽 끝에 어댑터가 있은 단편을 풍부하게한다. 블록(110)을 참조할 수 있다. 전술한 바와 같이, 일부 구현에서, DNA 단편의 특정 영역을 혼성화 및 농축시키는 조작이 시퀀싱 영역을 표적화하기 위해 적용될 수 있다.
이어서, 워크플로우(100)는 예를 들어 일루미나(Illumina) 플랫폼에서 PCR 생성물을 클러스터 증폭하기 위해 진행된다. 동작 112를 참조한다. PCR 생성물의 클러스터링에 의해, 라이브러리는 상이한 샘플을 추적하기 위해 어댑터상의 상이한 인덱스 서열을 사용하여 레인 당 최대 12 개의 샘플을 갖는 다중화를 위해 풀링될 수 있다.
클러스터 증폭 후, 시퀀싱 리드는 Illumina 플랫폼상에서의 합성에 의한 시퀀싱을 통해 수득될 수 있다. 114 동작을 참조할 수 있다. 여기에 설명된 어댑터 및 시퀀싱 프로세스는 Illumina 플랫폼을 기반으로하지만, 다른 시퀀싱 기술, 특히 NGS 방법이 Illumina 플랫폼 대신에 또는 Illumina 플랫폼에 더하여 사용될 수 있다.
워크플로우(100)는 동일한 물리적 UMI(들) 및/또는 동일한 가상 UMI(들)를 갖는 리드를 하나 이상의 그룹으로 축소하여 하나 이상의 공통 서열을 얻을 수 있다. 동작 116을 참조한다. 일부 구현에서, 물리적 UMI는 랜덤 UMI이다. 일부 구현들에서, 물리적 UMI는 비 랜덤 UMI이다. 일부 구현들에서, 물리적 UMI는 가변 길이, 랜덤 UMI이다. 일부 구현들에서, 물리적 UMI는 가변 길이의 비 랜덤 UMI(vNRUMI)이다. 합의 서열은 붕괴된 그룹에서 리드에 걸쳐 일치하거나 합의 기준을 충족시키는 뉴클레오티드 염기를 포함한다. 일부 구현들에서, 물리적 UMI들만이 리드를 붕괴시키기 위해 DNA 단편들을 태깅하기에 충분한 정보를 제공할 수 있다. 이러한 구현에는 DNA 단편에 고유하게 태그를 지정하기에 충분한 수의 물리적 UMI가 필요하다. 다른 구현들에서, 물리적 UMI들, 가상 UMI들 및 위치 정보는 단편들의 시퀀스 또는 적어도 일부를 결정하기 위한 공통 서열들을 수득하기 위해 리드들을 붕괴시키기 위해 다양한 방식들로 결합될 수 있다. 일부 구현에서, 물리적 UMI는 가상 UMI와 결합되어 리드를 축소한다. 다른 구현에서, 물리적 UMI 및 리드 위치는 리드를 축소하기 위해 결합된다. 리드 위치 정보는 상이한 위치 측정, 예를 들어 리드의 게놈 좌표, 참조 서열상의 위치, 또는 염색체 위치를 사용하는 다양한 기술에 의해 얻어 질 수 있다. 다른 구현에서, 물리적 UMI, 가상 UMI 및 리드 위치는 리드를 축소하기 위해 결합된다.
마지막으로, 워크플로우(100)는 샘플로부터 핵산 단편의 서열을 결정하기 위해 하나 이상의 공통 서열을 사용한다. 단계 118을 참조한다. 이는 핵산 단편의 서열을 상기 기재된 제 3 공통 서열 또는 단일 공통 서열로 결정하는 것을 포함할 수 있다.
*동작 108-119와 유사한 동작을 포함하는 특정 구현에서, 비 랜덤 UMI를 사용하여 샘플로부터 핵산 분자를 시퀀싱하는 방법은 다음을 포함한다: (a) 샘플에서 DNA 단편에 어댑터를 적용하여 DNA-어댑터를 수득함 - 각각의 어댑터가 NRUMI를 포함하고, 어댑터의 NRUMI가 둘 이상의 상이한 분자 길이를 갖는 생성물이 vNRUMI 세트를 형성하고; (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리뉴클레오티드를 시퀀싱하여, vNRUMI 세트와 관련된 복수의 리드 값을 수득하는 단계; (d) 복수의 리드 중에서, 동일한 vNRUMI와 관련된 리드를 식별하는 단계; 및 (e) 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계.
다른 구현에서, 가변 길이의 랜덤 UMI가 핵산 분자를 시퀀싱하기 위해 사용된다. 이 방법은 (a) 샘플에서 DNA 단편에 어댑터를 적용하여 DNA-어댑터 산물을 얻는데, 여기서 각 어댑터는 고유한 분자 인덱스(UMI)를 포함하고, 어댑터의 고유한 분자 인덱스(UMI)는 적어도 2 개의 상이한 분자 길이 및 가변 길이 고유 분자 인덱스(vUMI) 세트를 형성하고; (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, vUMI 세트와 관련된 복수의 리드 값을 수득하는 단계; 및 (d) 복수의 리드 중에서, 동일한 가변 길이의 비 랜덤 고유 분자 인덱스(vUMI)와 관련된 리드를 식별하는 단계를 포함한다. 일부 구현은 동일한 vUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 것을 추가로 포함한다.
일부 구현에서, 핵산 단편을 시퀀싱하기 위해 사용되는 UMI는 고정 길이 랜덤 UMI, 고정 길이 비 랜덤 UMI, 가변 길이 랜덤 UMI, 가변 길이 비 랜덤 UMI 또는 이들의 임의의 조합 일 수 있다. 이들 구현에서, 핵산 단편을 시퀀싱하는 방법은 (a) 샘플에서 DNA 단편에 어댑터를 적용하여 DNA-어댑터 산물을 수득하는 단계로서, 여기서 각 어댑터는 고유한 분자 인덱스 세트에서 고유한 분자 인덱스(UMI)를 포함한다( UMI); (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계; (c) 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, UMI 세트와 관련된 복수의 리드 값을 수득하는 단계; (d) 복수의 리드의 각각의 리드에 대해, UMI 세트에 대한 정렬 스코어를 수득하고, 각각의 정렬 스코어는 리드의 서브시퀀스와 UMI 사이의 유사성을 나타낸다; (e) 복수의 리드 중에서, 정렬 스코어를 사용하여 동일한 UMI와 관련된 리드를 식별하는 단계; 및 (e) 동일한 UMI와 관련된 리드 값을 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 포함한다. 일부 구현에서, 정렬 스코어는 뉴클레오티드의 서브시퀀스 사이의 뉴클레오티드의 일치 및 뉴클레오티드의 편집에 기초한다.
일부 구현들에서, 시퀀스 리드들은 페어드 엔드 리드들이다. 각 리드에는 비 랜덤 UMI가 포함되거나 페어드 엔드 리드를 통해 비 랜덤 UMI와 연결된다. 일부 구현에서, 리드 길이는 DNA 단편보다 짧거나 단편 길이의 절반보다 짧다. 이러한 경우 전체 조각의 전체 순서가 결정되지 않는 경우가 있다. 오히려 조각의 두 끝이 결정된다. 예를 들어, DNA 단편은 길이가 500 bp 일 수 있으며, 이로부터 2 개의 100bp 페어 드-엔드 리드가 유도될 수 있다. 이 예에서, 단편의 각 끝에서 100 개의 염기가 결정될 수 있고, 다른 리드의 정보를 사용하지 않고 단편의 중간에 있는 300 bp가 결정되지 않을 수 있다. 일부 구현들에서, 2 개의 페어-엔드 리드들이 오버랩하기에 충분히 길다면, 전체 단편의 완전한 시퀀스는 2 개의 리드들로부터 결정될 수 있다. 예를 들어, 도 5와 관련하여 설명된 예를 참조할 수 있다.
일부 구현들에서, 어댑터는 어댑터의 이중 가닥 영역에 이중 비 랜덤 UMI를 가지며, 각각의 리드는 일단에 제 1 비 랜덤 UMI 및 타단에 제 2 비 랜덤 UMI를 포함한다.
vNRUMI를 사용하여 핵산 단편을 시퀀싱하는 방법
일부 구현에서, vNRUMI는 DNA 단편을 시퀀싱하기 위한 어댑터에 통합된다. vNRUMI는 위에서 설명한 것과 같은 워크 플로에서 발생하는 다양한 유형의 오류를 억제하는 메커니즘을 제공한다. 샘플 처리에서 삭제, 추가 및 대체와 같은 일부 오류는 샘플 처리 단계에서 발생할 수 있다. 시퀀싱 단계에서 다른 오류가 발생할 수 있다. 일부 오류는 DNA 단편에서 파생된 염기에 위치할 수 있고, 다른 오류는 어댑터의 UMI에 해당하는 염기에 위치할 수 있다.
일부 구현예는 vNRUMI 및 서열 리드에서 오류를 검출 및 정정하기 위한 신규한 프로세스를 제공한다. 높은 레벨에서(잠재적으로 잘못 읽은) vNRUMI 및 해당 다운 스트림 기반을 포함하는 리드가 제공된 경우 프로세스는 전역 로컬(glocal) 하이브리드 정렬 전략을 사용하여 리드의 처음 몇 개의 기지를 알려진 vNRUMI와 일치시켜 정렬을 얻는다. 리드 및 알려진 vNRUMI의 프리픽스 시퀀스 사이의 점수. 글로컬 정렬 스코어가 가장 높은 vNRUMI는 리드와 관련된 vNRUMI로 결정되며, 이는 동일한 vNRUMI와 관련된 다른 리드로 리드를 축소하여 오류를 수정하는 메커니즘을 제공한다. 일부 구현에서 글로컬 정렬 스코어를 수득하고 글로컬 정렬 스코어를 사용하여 vNRUMI를 매칭하기 위한 의사 코드는 다음과 같이 제공된다.
종래와는 다른 거리 메트릭의 사용은 주목할 가치가 있다. DNA 바코드에 대한 다른 비교 가능한 방법론에서, 대부분 편집 거리, 즉 레벤슈테인 거리, 해밍 거리 또는 이의 유도체를 정량화하는 휴리스틱을 채택한다. 개념적으로 정렬 스코어는 유사한 서열 유사성 메트릭을 제공하지만한 가지 중요한 차이점이 있다. 변경 외에 일치도 계산한다. 일치 인식 휴리스틱은 가변 길이 NRUMI의 일부 구현에서 장점 중 일부를 기반으로한다.
일부 구현들에서, 전통적인 Needleman-Wunsch 글로벌 정렬 또는 전통적인 Smith-Waterman 로컬 정렬 방법이 사용되지 않지만, 새로운 하이브리드 접근법이 사용된다. 즉,이 정렬은 정렬의 시작 부분에 Needleman-Wunsch 접근 방식을 사용하여 편집을 불이익을 주지만 최종 편집을 불이익을주지 않으면 서 정렬의 끝에 Smith Waterman 로컬 정렬의 개념을 활용한다. 이러한 의미에서, 현재 정렬 접근법은 글로벌 및 로컬 구성 요소를 모두 포함하므로, 글로컬 정렬 접근법으로 지칭된다. 시퀀싱에서 삽입 또는 삭제 실수가 발생하면 정렬이 상당히 이동한다. 이 글로벌 접근법은 단일 사건이 단일 점 돌연변이를 처벌한다는 것 이상을 처벌하지 않는다. 후행 공백을 허용하면이를 달성할 수 있다.
글로컬 정렬 접근법은 종래의 방법론과 구별되는 특징인 이종 길이의 바코드 풀로 작업하는 능력을 갖는다.
매치를 식별함에 있어서, 일부 구현은 관계가 있을 때 다수의 vNRUMI 매치를 "최고"로 리턴할 수 있다. 위의 의사 코드는 최고 및 최고 최고 반환 세트 만 반영하지만 일부 구현에는 두 번째 최고 세트, 세 번째 최고 세트, 네 번째 최고 세트 등과 같은 두 세트 이상의 vNRUMI 세트를 반환하는 기능이 있다. 일치하는 정보가 있으면 vNRUMI의 하나 이상의 후보 일치와 연관된 리드를 축소하여 오류를 더 잘 정정할 수 있다. 도 1C는 DNA 단편에서 발생하는 오류 및 DNA 단편의 소스 분자를 표지하는데 사용되는 UMI에서의 오류를 억제하기 위해 vNRUMI를 사용하여 DNA 단편을 시퀀싱하는 과정을 나타내는 블록도이다. 프로세스(130)는 샘플에서 DNA 단편에 어댑터를 적용하여 DNA-어댑터 산물을 얻는 것으로 시작한다. 블록 131을 참조할 수 있다. 어댑터의 각 어댑터에는 비 랜덤 고유 분자 인덱스가 있다. 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며 가변 길이의 비 랜덤 분자 인덱스(vNRUMI)의 세트를 형성한다.
일부 구현에서, 어댑터는 DNA 단편의 각 말단에 부착, 결찰, 삽입, 통합 또는 다른 방식으로 연결된다. 일부 구현에서, DNA 단편을 함유하는 샘플은 혈액 샘플이다. 일부 구현에서, DNA 단편은 무 세포 DNA 단편을 함유한다. 일부 구현에서, DNA 단편은 종양으로부터 유래된 무 세포 DNA를 포함하고, 샘플에서 DNA 단편의 서열은 종양을 나타낸다.
공정 130은 DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리 뉴클레오티드를 수득함으로써 진행된다. 블록 132를 참조한다. 공정 130은 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱함으로써 vNRUMI 세트와 관련된 복수의 리드 값을 수득하는 단계를 추가로 포함한다. 블록 133을 참조한다. 또한, 프로세스(130)는 복수의 리드 중에서 동일한 vNRUMI와 관련된 리드를 식별하는 것을 포함한다. 블록 134를 참조한다. 마지막으로, 프로세스(130)는 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 포함한다.
위에서 언급한 바와 같이, 도 1c에 도시된 프로세스(130)는 vNRUMI를 사용하여 DNA 단편을 시퀀싱하는 방법을 제공한다. 프로세스(130)는 샘플의 DNA 단편에 어댑터를 적용하여 DNA-어댑터 산물을 얻는 것으로 시작한다(블록 131). 프로세스(130)는 또한 DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계(블록 132); 증폭된 폴리 뉴클레오티드의 품질을 시퀀싱하여, vNRUMI 세트와 관련된 복수의 리드 값을 수득하는 단계(블록 133); 동일한 vNRUMI와 관련된 리드를 식별하는 단계(블록 134); 및 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계(블록 135). 샘플은 혈액 샘플, 혈장 샘플, 조직 샘플 또는 본원의 다른 곳에서 설명된 샘플 중 하나 일 수 있다. 일부 구현들에서, 단계 131에서 적용된 어댑터들은 도 1d에 도시된 프로세스(140)와 같은 프로세스로부터 수득될 수 있다.
일부 구현에서, 어댑터의 vNRUMI는 적어도 2 개의 상이한 분자 길이를 갖는다. 일부 구현에서, vNRUMI 세트는 2 개의 상이한 분자 길이를 갖는다. 일부 구현에서, vNRUMI는 6 개 또는 7 개의 뉴클레오티드를 갖는다. 일부 구현에서, vNRUMI는 3 개, 4 개, 5 개, 6 개, 7 개, 8 개, 9 개, 10 개, 20 개 이상의 상이한 분자 길이를 갖는 것과 같이 2 개 이상의 상이한 분자 길이를 갖는다. 일부 구현에서, 분자 길이는 4 내지 100의 범위에서 선택된다. 일부 구현에서, 분자 길이는 4-20 범위에서 선택된다. 일부 구현에서, 분자 길이는 5-15 범위에서 선택된다.
일부 구현들에서, vNRUMI 세트는 약 10,000 개 이하의 상이한 vNRUMI를 포함한다. 일부 구현들에서, vNRUMI 세트는 약 1000 개의 상이한 vNRUMI를 포함하지 않는다. 일부 구현들에서, vNRUMI 세트는 약 200 개의 상이한 vNRUMI를 포함한다.
일부 구현에서, 동일한 vNRUMI와 연관된 리드를 식별하는 단계(134)는 복수의 리드의 각각의 리드에 대해 vNRUMI에 대한 정렬 스코어를 수득하는 것을 포함한다. 각 정렬 스코어는 리드의 하위 시퀀스와 vNRUMI의 유사성을 나타낸다. 서브시퀀스는 vNRUMI로부터 유래된 뉴클레오티드가 위치할 가능성이있는 리드 영역에 존재한다. 다시 말해서, 일부 구현에서, 서브시퀀스는 vNRUMI가 위치할 것으로 예상되는 영역에서 제 1 뉴클레오티드를 포함한다. 일부 구현에서, 서브시퀀스의 크기는 vNRUMI 세트에서 가장 큰 vNRUMI의 크기와 동일하다.
일부 구현에서, 정렬 스코어는 리드의 서브시퀀스와 vNRUMI 사이의 뉴클레오티드의 일치 및 미스 매치/편집에 기초한다. 일부 구현에서, 뉴클레오티드의 편집은 뉴클레오티드의 치환, 첨가 및 결실을 포함한다. 일부 구현들에서, 정렬 스코어는 시퀀스의 시작(예를 들어, 리드의 서브시퀀스 또는 vNRUMI의 참조 서열의 서브시퀀스)에서 편집에 불이익을 주지만 시퀀스의 끝에서 편집에 불이익을주지는 않는다. 정렬 스코어는 리드의 서브시퀀스와 vNRUMI 참조 서열 간의 유사성을 반영한다.
일부 구현들에서, 리드와 vNRUMI 사이의 정렬 스코어를 수득하는 단계는, (a) vNRUMI와 리드의 서브시퀀스의 모든 가능한 프리픽스 시퀀스들 각각 사이의 정렬 스코어를 계산하는 단계; (b) 상기 리드의 서브시퀀스와 상기 vNRUMI의 모든 가능한 프리픽스 서열 중 각각의 서열 사이의 정렬 스코어를 계산하는 단계; 및 (c) 상기 리드와 vNRUMI 사이의 정렬 스코어로서(a) 및(b)에서 계산된 정렬 스코어 중 가장 큰 정렬 스코어를 수득하는 단계를 포함한다.
일부 구현들에서, 리드의 서브시퀀스는 vNRUMI 세트에서 가장 긴 vNRUMI의 길이와 동일한 길이를 갖는다.
일부 구현들에서, 동일한 vNRUMI와 연관된 리드들을 식별하는 단계는 복수의 리드들의 각각의 리드에 대해 정렬 스코어들에 기초하여 vNRUMI들의 세트로부터 적어도 하나의 vNRUMI를 선택하는 단계; 및 복수의 리드의 각각의 리드를 리드를 위해 선택된 적어도 하나의 vNRUMI와 연관시키는 단계를 포함한다. 일부 구현들에서, vNRUMI 세트로부터 적어도 하나의 vNRUMI를 선택하는 단계는 vNRUMI 세트 중에서 가장 높은 정렬 스코어를 갖는 vNRUMI를 선택하는 단계를 포함한다.
일부 구현들에서, 하나의 vNRUMI가 가장 높은 정렬 스코어를 위해 식별된다. 일부 구현들에서, 2 개 이상의 vNRUMI가 가장 높은 정렬 스코어를 위해 식별된다. 이러한 경우에, 리드에 대한 맥락 정보는 DNA 단편에서의 서열을 결정하기 위해 리드와 관련되어야하는 둘 이상의 vNRUMI 중 하나를 선택하는데 사용될 수 있다. 예를 들어, 하나의 vNRUMI에 대해 식별된 총 리드 수는 다른 vNRUMI에 대해 식별된 총 리드 수와 비교될 수 있으며 더 높은 총 수는 DNA 조각의 출처를 나타내는 데 사용해야하는 하나의 vNRUMI를 결정한다. 다른 예에서, 참조 서열상의 리드 또는 리드 위치의 시퀀스 정보는 리드와 관련된 식별된 vNRUMI 중 하나를 선택하는데 사용될 수 있으며, 선택된 vNRUMI는 시퀀스 리드의 소스를 결정하는데 사용된다.
일부 구현들에서, 임의의 단편의 잠재적 소스를 나타 내기 위해 둘 이상의 vNRUMI를 식별하기 위해 둘 이상의 최고 정렬 스코어가 사용될 수 있다. vNRUMI 중 어느 것이 DNA 단편의 실제 소스를 나타내는지를 결정하기 위해 상기 언급된 바와 같이 상황 정보가 사용될 수 있다.
도 1e는 리드 또는 쿼리 시퀀스(Q)의 서브시퀀스가 vNRUMI 세트 γ = {S1, S2} = {AACTTC, CGCTTTCG}에서 2 개의 참조 서열와 비교될 수 있는 방법의 예를 도시한다. 질의 서열 Q는 리드가 vNRUMI로부터 유래될 것으로 예상되는 리드 서열로부터 처음 7 개의 뉴클레오티드를 포함한다.
질의 서열 Q는 7 개의 뉴클레오티드 GTCTTCG를 포함한다. Q는 vNRUMI 세트 γ에서 가장 긴 vNRUMI와 길이가 동일하다. 정렬 스코어 테이블(150)은 Q 및 S1의 프리픽스 시퀀스에 대한 정렬 스코어를 도시한다. 예를 들어, 셀(151)은 Q의 프리픽스 시퀀스(GTCTTC) 및 S1의 완전한 시퀀스(AACTTC)에 대한 정렬 스코어를 도시한다. 정렬 스코어는 두 서열 사이의 일치 수 및 두 서열 사이의 편집 수를 고려한다. 각 일치하는 뉴클레오티드에 대해 점수가 1 씩 올라간다. 레벤슈테인 거리는 편집 거리로, 두 시퀀스 사이의 일치 수를 설명하지 않고 추가, 삭제, 및 대체 수만 설명한다.
뉴클레오티드 단위로 Q(GTCTTC) 및 S1(AACTTC) 뉴클레오티드의 프리픽스 서열(prefix sequence)을 비교하면, G와 A 사이의 불일치, T와 A 사이의 불일치, C와 C 사이의 일치, T와 T 사이의 일치, T와 T 사이의 일치 및 C와 C 사이의 일치가 존재한다. 따라서, 2 개의 프리픽스 서열에 대한 정렬 스코어는 세포(151)에 나타낸 바와 같이 2이다. 정렬 스코어는 뉴클레오티드 G를 갖는 서열 Q의 말단에 불이익을주지 않는다.
정렬 스코어 테이블(150)에서, 굵은 정렬 스코어를 갖는 가장 오른쪽 열은 질의 시퀀스 Q의 모든 가능한 서브시퀀스와 참조 vNRUMI 시퀀스 S1의 모든 가능한 프리픽스 시퀀스 사이의 정렬 스코어를 나타낸다. 정렬 스코어 테이블(150)의 하단 행은 완전한 시퀀스 S1과 Q의 모든 가능한 프리픽스 시퀀스 사이의 정렬 스코어를 도시한다. 다양한 구현에서, 가장 오른쪽 열에서 가장 높은 정렬 스코어 및 하단 행은 Q와 S1 사이의 국소 정렬 스코어로 선택된다. 이 예에서, 셀(151)은 가장 높은 값을 가지며, 이는 Q와 S1 사이의 글로컬 정렬 스코어 또는 g(Q, S1)로 결정된다.
맨 아래 열 및 가장 오른쪽 열에 걸친 가장 높은 정렬 스코어는 두 서열 사이의 글로컬 정렬 스코어로서 사용된다. 여기에 설명된 정렬 스코어에서 다른 문자열 연산에 동일한 가중치가 적용된다. 정렬 스코어는 다음과 같이 계산된다. 일치 수 - 삽입 수 - 삭제 수 - 대체 수 = 일치 수 - 레벤슈타인 거리. 그러나, 전술한 바와 같이, 일부 구현들에서, 정렬 스코어를 계산할 때 상이한 스트링 연산들이 다르게 가중될 수 있다. 예를 들어, 일부 구현들(도 1e에 도시되지 않음)에서, 정렬 스코어는 다음과 같이 계산될 수 있다: 일치 횟수 × 5 - 삽입 횟수 × 4 - 삭제 횟수 × 4 - 치환 횟수 × 6, 또는 다른 가중치 값을 사용할 수 있다.
전술한 구현에서, 정렬 스코어는 일치 및 편집의 효과를 선형 방식으로, 즉 덧셈 및/또는 뺄셈에 의해 조합한다. 다른 구현에서, 정렬 스코어는 곱셈 또는 로그 연산과 같은 비선형 방식으로 매치 및 편집의 효과를 결합할 수 있다.
가장 오른쪽 열과 맨 아래 행의 정렬 스코어는 한편으로는 프리픽스 시퀀스와 다른 한편으로는 완전한 시퀀스 간의 유사성을 나타낸다. 프리픽스 시퀀스의 시작이 전체 시퀀스의 시작과 일치하지 않으면 정렬 스코어가 부과된다. 이런 점에서, 정렬 스코어는 글로벌 성분을 갖는다. 반면, 프리픽스 시퀀스의 끝이 전체 시퀀스의 끝과 일치하지 않으면 시퀀스 정렬 스코어에 불이익이 가해지지 않는다. 이런 의미에서 정렬 스코어에는 로컬 성분이 있다. 따라서 가장 오른쪽 열과 맨 아래 행의 정렬 스코어를 "글로컬" 정렬 스코어로 설명할 수 있다. Q와 S1 사이의 글로컬 정렬 스코어는 가장 오른쪽 행과 맨 아래 열에서 가장 큰 정렬 스코어이며, Q 프리픽스 시퀀스 GTCTTC와 S1(AACTTC)의 경우 2와 셀 151이다.
Q 프리픽스 시퀀스 GTCTTC와 S1 사이의 레벤슈테인 거리(AACTTC) 역시 2이다. 왜냐하면 G와 A 사이의 불일치, T와 A 사이의 불일치, 및 CTTC에 대한 4 개의 매칭이기 때문이다. 이 두 시퀀스의 경우 레벤슈테인 거리와 정렬 스코어가 동일하다.
글로컬 정렬 스코어와 비교하여, 순수한 글로벌 정렬 스코어는 한편으로는 완전한 시퀀스 Q 및 다른 한편으로는 완전한 시퀀스 S1을 필요로하며, 이는 테이블(150)의 우측 하단 코너에서의 정렬 스코어이다.
도 1e의 표 152는 질의 시퀀스 Q 및 기준 시퀀스 S2(CGCTTCG)에 대한 정렬 스코어를 보여준다. 가장 오른쪽 열과 맨 아래 행에서 가장 높은 정렬 스코어는 값이 4 인 셀 153에 있다. Q와 S2 또는 g(Q, S2) 사이의 국소 정렬 스코어이다. Q와 S2 사이의 Levenshtein 거리는 Q와 S1 사이의 Levenshtein 거리와 동일하다. 두 비교에서 두 시퀀스 사이에 두 개의 불일치가 있기 때문이다. 그러나, Q와 S2 사이에 Q와 S1보다 일치하는 뉴클레오티드가 더 많기 때문에 g(Q, S2)는 g(Q, S1)보다 크다. 즉, 국소 국소 스코어는(레벤슈테인 거리와 같이) 뉴클레오티드의 편집뿐만 아니라 서열 사이의 뉴클레오티드의 일치를 설명한다.
도 1E는 글로컬 정렬 스코어가 Levenshtein 거리 또는 편집 거리보다 더 나은 오류 수정을 제공할 수 있음을 보여준다. 왜냐하면, Levenshtein 거리는 시퀀스의 편집 횟수만 나타내고 글로컬 정렬 스코어는 서열간 일치 횟수 및 편집 횟수를 모두 나타낸다. 도 1F는 글로컬 정렬 스코어가 서열의 끝에 삽입, 결실 또는 치환으로 인한 불일치를 과도하게 페널티하지 않기 때문에, 글로컬 정렬 스코어가 글로벌 정렬 스코어보다 더 나은 오류 억제를 제공할 수 있음을 나타내는 예를 제공한다.
도 1F의 예는 다른 vNRUMI 시퀀스 세트, γ = {S1, S2} = {TTGTGAC, GGCCAT}를 사용한다. 시료 처리 공정에서 S1은 DNA 분자를 표지하는 데 사용된다. 이 분자의 서열은 m0 = TTGTGACTNNNNN (SEQ ID No: 1)이다. 시퀀싱 중에 단일 삽입 오류가 발생하고 시퀀스 GCA가 m0에 삽입되어 m1 = TTGGCATGACTNNNNN (SEQ ID NO: 2)이 생성된다. 이 오류를 정정하고이 순서에 적합한 UMI를 복구하기 위해 프로세스는 처음 7 개의 기본 쌍을 조회 순서 Q = TTGGCAT로 사용한다. 이 프로세스는 Q를 γ의 각 시퀀스와 비교한다.
g(Q, S1)에 대한 정렬 스코어 테이블(160)이 얻어지고 도 1F에 도시되어있다. 마찬가지로, g(Q, S2)에 대한 정렬 스코어 테이블(163)이 얻어진다.
글로컬 정렬 스코어 대신에 글로벌 정렬 방식이 사용되는 경우, 셀 161 및 164에서 우측 하단에 있는 스코어가 사용되며, 두 경우 모두 2의 값을 갖는다. Q(TTGGCAT)와 S1(TTGTGAC)의 최적 정렬은 TTG-GCAT를 TTGTG-AC와 정렬하는 것이다. 여기서 대시는 삽입 또는 간격을 나타낸다. 이 정렬은 5 개의 일치, 2 개의 삽입 및 1 개의 치환을 포함하며, 정렬 스코어는 5-2-1 = 2이다. Q(TTGGCAT)와 S2(GGCCAT)의 최적 정렬은 TTGGC-AT와 --GGCCAT를 정렬하는 것이다. 이 정렬에는 5 개의 일치 항목과 3 개의 삽입이 포함되며 정렬 스코어는 5-3 = 2이다. 전역 정렬 스코어를 사용하면 S1 및 S2 중 어느 것이 실제 vNRUMI 일 가능성이 높은지를 결정적으로 결정할 수 없다.
그러나 마지막 행과 열에 걸쳐 최대 값을 사용하는 글로컬 정렬 체계를 사용하여 프로세스는 Q'의 프리픽스 시퀀스 TTGGC 및 S1(TTGTGAC)에 대해 3의 정렬 스코어를 얻는다. 이는 S1의 글로컬 스코어가 되고 S2 (2)에 대한 글러콜 스코어보다 높다. 따라서 프로세스는 Q를 S1과 올바르게 연관시킬 수 있다.
도 1C로 돌아가서, 단계(135)는 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 것을 포함한다. 일부 구현에서, DNA 단편의 서열을 결정하는 것은 동일한 vNRUMI와 관련된 리드를 붕괴시켜 공통 서열을 수득하는 것을 포함하며, 이는 이후에 추가로 설명되는 바와 같이 달성될 수 있다. 일부 구현들에서, 공통 서열은 리드의 품질 점수 및 리드의 시퀀스에 기초한다. 추가적으로 또는 대안 적으로, 리드의 위치와 같은 다른 상황 정보가 공통 서열을 결정하는데 사용될 수 있다.
일부 구현에서, DNA 단편의 서열을 결정하는 것은 또한 참조 서열에서 동일한 위치 또는 유사한 위치를 갖는 리드를 식별하는 것을 포함한다. 이어서, 본 방법은 동일한 vNRUMI와 관련되고 참조 서열에서 동일한 위치 또는 유사한 위치를 갖는 리드를 사용하여 DNA 단편의 서열을 결정한다.
일부 구현들에서, DNA 단편의 서열을 결정하는 것은 동일한 vNRUMI와 관련된 리드 중에서 공통 가상 UMI 또는 유사한 가상 UMI를 공유하는 리드를 식별하는 것을 포함하며, 여기서 공통 가상 UMI는 DNA 단편에서 발견된다. 이 방법은 또한 동일한 vNRUMI와 연관되고 동일한 가상 UMI 또는 셀룰러 가상 UMI를 공유하는 리드만을 사용하여 DNA 단편의 서열을 결정하는 것을 포함한다.
일부 구현들에서, vNRUMI를 갖는 시퀀싱 어댑터는 도 1d에 도시되고 이후에 더 설명되는 프로세스에 의해 준비될 수 있다.
UMI 디자인
물리적 UMI
전술한 어댑터의 일부 구현에서, 어댑터의 물리적 UMI는 랜덤 UMI를 포함한다. 일부 구현들에서, 각각의 랜덤 UMI는 DNA 단편들에 적용된 다른 모든 랜덤 UMI와 다르다. 다시 말해서, 랜덤 UMI는 시퀀스 길이(들)가 주어지면 가능한 모든 다른 UMI를 포함하는 UMI 세트로부터 대체없이 랜덤하게 선택된다. 다른 구현들에서, 랜덤 UMI들은 대체로 랜덤하게 선택된다. 이러한 구현에서 임의의 기회로 인해 두 개의 어댑터가 동일한 UMI를 가질 수 있다.
일부 구현들에서, 프로세스에서 사용되는 물리적 UMI는 이하에 더 설명되는 바와 같이 선택된 UMI들 사이의 차이를 최대화하는 탐욕스러운 접근법을 사용하여 후보 서열 풀로부터 선택된 NRUMI 세트이다. 일부 구현에서, NRUMI는 가변 또는 이종 분자 길이를 가지며, vNRUMI 세트를 형성한다. 일부 구현에서, 후보 서열의 풀은 반응 또는 공정에 사용되는 UMI 세트를 선택하기 위해 제공되기 전에 특정 서열을 제거하도록 여과된다.
랜덤 UMI는 동일한 시퀀스 길이의 비 랜덤 UMI보다 많은 수의 고유 UMI를 제공한다. 즉, 임의 UMI는 비 랜덤 UMI보다 고유할 가능성이 높는다러나, 일부 구현들에서, 비 랜덤 UMI들은 제조가 더 쉬워 지거나 더 높은 변환 효율을 가질 수 있다. 비 랜덤 UMI가 서열 위치 및 가상 UMI와 같은 다른 정보와 결합될 때, DNA 단편의 소스 분자를 색인화하는 효율적인 메커니즘을 제공할 수 있다.
vNRUMI 구축
일부 구현에서, vNRUMI를 갖는 시퀀싱 어댑터는 도 1d에 도시된 탐욕스러운 접근법에 의해 제조될 수 있다. 공정은 (a) 2 개의 상이한 분자 길이를 갖는한 세트의 올리고 뉴클레오티드 서열을 제공하는 단계; 및 (b) 올리고 뉴클레오티드 서열 세트로부터 올리고 뉴클레오티드 서열의 서브 세트를 선택하는 단계 - 상기 서브 세트 내의 올리고 뉴클레오티드 서열 사이의 모든 편집 거리는 임계 값을 충족 함-를 포함한다. 올리고 뉴클레오티드 서열의 서브 세트는 vNRUMI 세트를 형성한다. 상기 방법은 또한 (c) 복수의 시퀀싱 어댑터를 합성하는 단계를 포함하며, 상기 시퀀싱 어댑터는 이중 가닥 혼성화된 영역, 단일 가닥 5' 말단, 단일 가닥 3'말단(도 2a 참고) 및 vNRUMI 세트 중 적어도 하나의 vNRUMI를 가진다.
도 1d는 vNRUMI를 갖는 시퀀싱 어댑터를 제조하기 위한 프로세스(140)를 도시한다. 공정(140)은 2 개 이상의 상이한 분자 길이를 갖는한 세트의 올리고 뉴클레오티드 서열(β)을 제공함으로써 시작된다. 블록 141을 참조할 수 있다.
다양한 구현에서, 비 랜덤 UMI는 UMI 시퀀스 내의 에러 검출 수단, 전환 효율, 검정 호환성, GC 함량, 동종 중합체 및 제조 고려 사항을 포함 하나 이에 제한되지 않는 다양한 인자를 고려하여 제조된다.
일부 구현에서, 동작 141 전에, 올리고 뉴클레오티드 서열 중 일부는 vNRUMI 세트의 특정 분자 길이가 주어지면 뉴클레오티드의 모든 가능한 순열의 완전한 세트로부터 제거된다. 예를 들어, vNRUMI가 6 및 7 뉴클레오티드의 분자 길이를 갖는 경우, 서열의 모든 가능한 순열은 46 + 47 = 20480 서열의 완전한 풀을 포함한다. 특정 올리고 뉴클레오티드 서열은 풀에서 제거되어 올리고 뉴클레오티드 서열 β 세트를 제공한다.
일부 구현에서, 세트 β를 제공하기 위해 3 개 이상의 연속적인 동일한 염기를 갖는 올리고 뉴클레오티드 서열이 풀에서 제거된다. 일부 구현에서, 조합된 수의 구아닌 및 시토신(G 및 C) 염기가 2 미만인 올리고 뉴클레오티드 서열이 제거된다. 일부 구현에서, 조합된 수의 구아닌 및 시토신 염기를 4 개 초과하는 올리고 뉴클레오티드 서열이 제거된다. 일부 구현에서, 서열의 마지막 두 위치에서 동일한 염기를 갖는 올리고 뉴클레오티드 서열이 제거된다. 서열은 DNA 단편에 부착된 말단과 반대쪽에서 시작한다.
일부 구현에서, 임의의 시퀀싱 프라이머의 3' 말단과 일치하는 서브시퀀스를 갖는 올리고 뉴클레오티드 서열이 제거된다.
일부 구현에서, 뉴클레오티드 서열의 마지막 위치에 티민(T) 염기를 갖는 올리고 뉴클레오티드 서열이 제거된다. 가공된 핵산 단편의 A- 꼬리 말단에 부착된 vNRUMI는 vNRUMI 서열 및 vNRUMI 서열의 말단에 어닐링된 T 염기를 갖는 리드의 서브시퀀스를 초래할 것이며, T는 A-꼬리 상의 A 염기의 상보형이다. 마지막 위치에서 T 염기를 갖는 후보 서열을 걸러 내면 이러한 후보 서열과 임의의 vNRUMI로부터 유래된 리드의 서브시퀀스 사이의 혼동을 피할 수 있다.
공정 140은 β로부터 올리고 뉴클레오티드 서열(S0)을 선택함으로써 진행된다. 일부 구현에서, S0는 올리고 뉴클레오티드 서열 세트로부터 무작위로 선택될 수 있다.
공정(140)은 올리고 뉴클레오티드 서열의 확장 세트 γ에 S0를 첨가하고 세트 β로부터 S0을 제거하는 것을 추가로 포함한다. 블록 143을 참조할 수 있다.
공정(140)은 β로부터 올리고 뉴클레오티드 서열 Si를 선택하는 것을 추가로 포함하며, Si는 거리 함수 d(Si, γ)를 최대화하며, 이는 세트 γ에서 Si와 임의의 올리고 뉴클레오티드 서열 사이의 최소 편집 거리이다. 블록 144를 참조한다. 일부 구현에서, 편집 거리는 레벤슈테인 거리이다.
일부 구현에서, 시퀀스가 vNRUMI의 최대 길이보다 짧은 경우, 레벤슈테인 거리 또는 편집 거리를 계산할 때 하나 이상의 염기가 시퀀스의 끝에 추가된다. 일부 구현에서, 서열이 vNRUMI의 최대 길이보다 짧은 하나의 염기 인 경우, 티민(T) 염기가 서열의 끝에 첨가된다. 이 T 염기는 본원의 다른 곳에 기술된 바와 같이 dA- 꼬리 가공을 거친 DNA 단편의 끝에서 A- 염기와 상보적인 어댑터의 말단에서 T- 염기 돌출부를 반영하기 위해 첨가된다. 일부 구현들에서, 시퀀스가 vNRUMI의 최대 길이보다 짧은 하나 이상의 염기 인 경우, 시퀀스의 끝에 T-염기가 추가되고, T-염기 이후에 하나 이상의 랜덤 염기가 추가되어 vNRUMI의 최대 길이와 동일한 분자 길이를 갖는 서열이 생성된다. 다시 말해서, 모든 가능한 관찰된 서열에 걸친 서열을 생성하기 위해 T 염기 다음에 랜덤 염기의 다수의 상이한 조합을 첨가할 수 있다. 예를 들어, vNRUMI의 길이가 6 및 8 인 경우 TA, TC, TG 및 TT를 추가하여 6mer의 4 가지 파생물을 얻을 수 있다.
프로세스(140)는 거리 함수 d(Si, γ)가 임계 값을 만족하는지 여부를 결정하기 위해 진행한다. 일부 구현들에서, 임계 값은 거리 함수(예를 들어, 패딩된 레벤슈테인 거리)가 적어도 3 일 것을 요구할 수 있다. 거리 함수 d(Si, γ)가 임계 값을 만족하면, 프로세스는 Si를 확장에 추가하도록 진행한다 γ를 설정하고 β로부터 Si를 제거한다. 결정(145) 및 블록(146)의 "예" 분기를 참조한다. 거리 함수가 임계 값을 만족하지 않으면, 프로세스(140)는 Si를 확장 세트(γ)에 추가하지 않고, 프로세스는 복수의 시퀀싱 어댑터를 합성하기 위해 진행한다. 시퀀싱 어댑터는 확장 세트 γ에 vNRUMI가 하나 이상 있다. 블록 148을 가리키는 145의 결정 없음 분기를 참조할 수 있다.
단계(146) 후에, 프로세스(140)는 세트 β로부터의 더 많은 서열이 고려될 필요가 있는지의 결정 동작을 추가로 포함한다. 그렇다면, 프로세스는 블록 144로 되돌아 가서 거리 함수를 최대화하는 세트 β로부터 더 많은 올리고 뉴클레오티드 서열을 선택한다. 세트 β로부터 더 많은 서열이 추가로 고려될 필요가 있는지를 결정하기 위해 다양한 인자가 고려될 수 있다. 예를 들어, 일부 구현들에서, 원하는 수의 시퀀스들이 수득될 때, 프로세스는 더 이상 시퀀스 세트 데이터로부터 더 많은 시퀀스들을 고려할 필요가 없다.
더 이상 시퀀스를 고려할 필요가 없다고 결정되면, 프로세스(140)는 각각의 어댑터가 시퀀스 세트 γ에서 적어도 하나의 vNRUMI를 갖는 복수의 시퀀싱 어댑터를 합성하도록 진행한다. 동작 148을 가리키는 결정 없음 동작 147을 참조한다. 일부 구현에서, 각각의 시퀀싱 어댑터는 시퀀싱 어댑터의한 가닥에 vNRUMI를 갖는다. 일부 구현에서, 도 2a에 도시된 임의의 형태를 갖는 시퀀싱 어댑터는 동작 148에서 합성된다. 일부 구현에서, 각각의 시퀀싱 어댑터는 단지 하나의 vNRUMI를 갖는다. 일부 구현에서, 각각의 어댑터는 시퀀싱 어댑터의 각 가닥에 vNRUMI를 갖는다. 일부 구현들에서, 각각의 시퀀싱 어댑터는 이중 가닥의 하이브리드 화된 영역에서 시퀀싱 어댑터의 각 가닥에 vNRUMI를 갖는다.
일부 구현들에서, 프로세스는 아래 의사 코드에 의해 구현될 수 있다.
다음에, 위에서 설명된 프로세스 및 알고리즘에 따라 vNRUMI가 어떻게 수득될 수 있는지를 설명하기 위한 장난감 예(toy example)가 제공된다. 장난감 예제는 5 개의 후보 서열 풀에서 vNRUMI를 생성하고 관찰된 시퀀스 리드 값을 매핑하는 데 사용되는 방법을 보여준다. 이것은 실제로 사용/발생하는 것보다 훨씬 작은 시퀀스 공간에 대한 장난감 예제이므로 vNRUMI 특성의 모든 측면을 다룰 수 있는 것은 아니다.
이 토이 예제에서 프로세스는 6mer 및 7mer 세트에서 시작하여 3 개의 vNRUMI 시퀀스 세트를 구성하는 것을 목표로한다(단, vNRUMI 시퀀스는 2 개만 나타남). 간단히하기 위해 가능한 6mer 및 7mer의 전체 공간이 다음 5 개의 시퀀스로 구성되어 있다고 가정한다.
AACTTC
AACTTCA
AGCTTCG
CGCTTCG
CGCTTC
이들 5 개의 서열 모두가 구현된 생화학 필터를 통과한 것으로 가정한다. 매우 높은 레벨에서이 알고리즘은 입력 시퀀스 풀의 하위 세트를 설정하는 동시에 선택한 시퀀스 간의 편집 거리(레벤슈테인 거리)를 최대화한다. 탐욕스러운 접근 방식을 사용하여이를 수행한다. 각 반복마다 거리 기능을 최대화하는 시퀀스를 선택한다. 이 경우 거리 기능은 추가할 시퀀스와 이미 세트에 있는 시퀀스 사이의 최소 편집 거리이다. 다음과 같이 수학적으로 표현할 수 있다.
아래의 예에서, 구성되는 vNRUMI 세트(n = 3)는 γ로 표시될 것이고, 입력 후보 서열 세트는 β로 표시될 것이다.
γ에는 서열이 없기 때문에, 거리 함수 d는 5 개의 서열 각각에 대해 정의되지 않는다. 최선의 선택을 위해 동점 인 경우, 우리는 항상 짧은 후보를 선호하여 묶인 후보 중 하나를 무작위로 선택한다. 여기서 예제는 6mer 시퀀스 AACTTC를 선택한다. 시퀀스를 γ에 추가하고 후보 서열 풀에서 제거한다.
거리 메트릭 가 계산된다.
d(AACTTCA, γ) = 1, γ의 단일 요소에서 AACTTCA로 가져 오는 데 단한 번의 편집(A 추가) 만 필요하므로 거리 함수는 1이다.
d(AGCTTCG, γ) = 2,이 서열에서 γ에 이미있는 서열로 이동하려면 두 번의 편집이 필요한다.
d(CGCTTCG, γ) = 3.이 서열에서 γ에 이미있는 서열 이동하려면 세 번의 편집이 필요한다.
d(CGCTTC, γ) = 2(비교 순서가 육체 임)에 따라, 일부 구현에서, "T" 염기가 어닐링 프로세스를 시뮬레이션하기 위해 그 끝에 추가되며, 여기서 T 염기는 "A ”테일이 어댑터 시퀀스에 어닐링된다. 이론가들은 실무자들이 나중에 NRUMI를 식별하려고할 때 첫 번째 sixmer 와 첫 번째 sevenmer를 모두 고려할 것이다. 이 T 염기를 추가함으로써, 칠러를 볼 때 여전히 다른 NRUMI와 너무 가깝지 않아야한다. CGCTTCT와 AACTTC를 비교할 때는 두 가지 편집이 필요한다.
시퀀스 CGCTTCG에 의해 생성된 최대 거리 함수는 3이고이 거리는 최소 임계 값(3)을 초과하므로 프로세스는 CGCTTCG를 γ에 추가하고 β에서 제거한다.
다음에, 프로세스는 vNRUMI 세트에서 원하는 수의 시퀀스(3)보다 적기 때문에 거리 메트릭 d(s, γ) ∀s∈β를 계산하기 위해 진행한다.
d(AACTTCA, γ) = 1. 이전 단계에서 계산 된이 시퀀스와 첫 번째 vNRUMI 시퀀스 사이의 편집 거리 s_1 = AACTTC는 1이다.이 시퀀스와 두 번째 vNRUMI 시퀀스 사이의 편집 거리 s_2 = CGCTTCG는 3이다. 거리 함수는 쿼리 시퀀스와 기존 시퀀스 사이의 모든 편집 거리의 최소값과 min(3,1) = 1이므로 거리 함수는 1이다.
d(AGCTTCG, γ) = 1. 이전 단계에서 계산 된이 시퀀스와 s1 사이의 편집 거리는 2이다.이 시퀀스와 s2 사이의 편집 거리는 1이다. 따라서 거리 함수는 2와 1 중 작은 값이다(1).
d(CGCTTC, γ) = 1. 이전과 같이 프로세스는 이 시퀀스에 T를 추가하여 CGCTTCT로 만든다. 확장된 쿼리와 s1 사이의 거리는 이전에 결정된대로 2이다. 확장된 쿼리와 s2 사이의 거리는 1이므로 거리 함수는 1이다.
모든 후보 서열에 대한 모든 거리 함수를 계산한 바, 이들 중 어느 것도 적어도 3의 편집 거리에 대한 우리의 변하지 않는 요구 사항을 만족시키지 못한다.이 요구 조건은 무작위 돌연변이가 하나의 vNRUMI 서열을 다른 vNRUMI 서열과 다른 것으로 돌연변이시킬 가능성이 거의 없다. 따라서 이러한 2개의 vNRUMI 시퀀스 세트 γ = {AACTTC, CGCTTCG}를 반환한다. 2 개의 vNRUMI 시퀀스는 상술 한 도 1E의 S1 및 S2와 동일하며, 도 1E를 참조하여 설명된 바와 같이 리드의 소스 세그먼트를 결정하기 위해 리드와 관련될 수 있다.
가상 UMI
가상 UMI로 전환하면, 소스 DNA 분자의 끝 위치에서 정의되거나 이와 관련한 가상 UMI는 일부 단편화 절차에서처럼 그리고 자연적으로 발생하는 cfDNA에서처럼, 최종 위치의 위치가 일반적으로 임의적일 때 개별 소스 DNA 분자를 고유하게 또는 거의 고유하게 정의할 수 있다. 샘플에 소스 DNA 분자가 상대적으로 적은 경우 가상 UMI 자체가 개별 소스 DNA 분자를 고유하게 식별할 수 있다. 각각 소스 DNA 분자의 상이한 말단과 관련된 2 개의 가상 UMI의 조합을 사용하면, 가상 UMI만으로 소스 DNA 분자를 고유하게 식별할 수 있는 가능성이 증가된다. 물론, 하나 또는 두 개의 가상 UMI가 단독으로 소스 DNA 분자를 고유하게 식별할 수없는 상황에서도, 그러한 가상 UMI와 하나 이상의 물리적 UMI의 조합은 성공할 수 있다.
2 개의 리드가 동일한 DNA 단편으로부터 유래된 경우, 동일한 염기쌍을 갖는 2 개의 서브시퀀스도 리드에서 동일한 상대 위치를 가질 것이다. 반대로, 2 개의 리드가 2 개의 상이한 DNA 단편으로부터 유래되는 경우, 동일한 염기쌍을 갖는 2 개의 서브시퀀스가 리드에서 정확히 동일한 상대 위치를 가질 가능성은 낮다. 따라서, 둘 이상의 리드로부터의 둘 이상의 서브시퀀스가 동일한 염기쌍 및 둘 이상의 리드에서 동일한 상대 위치를 갖는 경우, 둘 이상의 리드가 동일한 단편으로부터 유래된 것으로 추론될 수 있다.
일부 구현에서, DNA 단편의 말단 또는 그 근처의 서브시퀀스가 가상 UMI로서 사용된다. 이 디자인 선택에는 몇 가지 실용적인 이점이 있다. 먼저, 리드에서 이들 서브시퀀스의 상대적인 위치는 리드의 시작에 있거나 근처에 있고 시스템은 가상 UMI를 찾기 위해 오프셋을 사용할 필요가 없기 때문에 쉽게 확인할 수 있다. 또한, 단편의 말단에서 염기쌍이 먼저 시퀀싱되므로, 리드가 비교적 짧은 경우에도 이들 염기쌍을 이용할 수 있다. 또한, 장기 리드에서 더 일찍 결정된 염기쌍은 나중에 결정된 것보다 낮은 서열 오류율을 갖는다. 그러나, 다른 구현에서, 리드의 끝으로부터 떨어져있는 서브시퀀스는 가상 UMI로서 사용될 수 있지만, 리드가 동일한 단편로부터 얻어진다는 것을 유추하기 위해 리드상의 상대 위치가 확인될 필요가 있을 수 있다.
리드에서의 하나 이상의 서브시퀀스가 가상 UMI로서 사용될 수 있다. 일부 구현에서, 각각 소스 DNA 분자의 상이한 말단으로부터 추적된 2 개의 서브시퀀스가 가상 UMI로서 사용된다. 다양한 구현에서, 가상 UMI는 약 24 개 염기쌍 이하, 약 20 개 염기쌍 이하, 약 15 개 염기쌍 이하, 약 10 개 염기쌍 이하, 약 9 개 염기쌍 이하, 약 8 개 염기쌍 이하, 약 7 개 염기쌍 이하, 또는 약 6 개 염기쌍 이하. 일부 구현에서, 가상 UMI는 약 6 내지 10 개의 염기쌍이다. 다른 구현에서, 가상 UMI는 약 6 내지 24 개의 염기쌍이다.
어댑터
위에서 도 1a를 참조하여 예시적인 워크플로우(100)에 설명된 어댑터 설계에 더하여, 다른 설계의 어댑터가 본 명세서에 개시된 방법 및 시스템의 다양한 구현에 사용될 수 있다. 도 2a는 다양한 구현에서 채택될 수 있는 UMI(들)를 갖는 5 개의 상이한 설계의 어댑터를 개략적으로 도시한다.
도 2A(i)는 표준 Illumina TruSeq® 이중 인덱스 어댑터를 도시한다. 어댑터는 부분적으로 이중 가닥이고 2 개의 가닥에 상응하는 2 개의 올리고 뉴클레오티드를 어닐링함으로써 형성된다. 2 개의 가닥은 다수의 상보성 염기쌍(예를 들어, 12-17 bp)을 가지며, 이는 말단에서 2 개의 올리고 뉴클레오티드가 어닐링되어 dsDNA 단편으로 라이게이션될 수 있게한다. 페어-엔드 리드를 위해 양쪽 끝에 연결되는 dsDNA 조각을 인서트(insert)라고도한다. 다른 염기 쌍은 두 가닥에 상보적이지 않으므로 두 개의 플로피 오버행이 있는 포크 모양의 어댑터가 만들어진다. 도 2A(i)의 예에서, 상보 적 염기쌍은 리드 2 프라이머 서열 및 리드 1 프라이머 서열의 일부이다. 리드 2 프라이머 서열의 하류에는 단일 뉴클레오티드 3'-T 돌출부가 있으며, 이는 서열화될 dsDNA 단편의 단일 뉴클레오티드 3'-A 돌출부에 상보적인 돌출부를 제공하여 두 돌출부의 혼성화를 촉진할 수 있다. 리드 1 프라이머 서열은 인산염 기가 부착된 상보 적 가닥의 5' 말단에 있다. 포스페이트 그룹은 리드 1 프라이머 서열의 5' 말단을 DNA 단편의 3'-A 돌출부에 연결하기 위해 필요하다. 5' 에서 3'방향으로 5' 플로피 오버행(상단 가닥)을 갖는 가닥에서, 어댑터는 P5 서열, i5 인덱스 서열 및 리드 2 프라이머 서열을 갖는다. 3' 에서 5'방향으로 3' 플로피 돌출부를 갖는 가닥에서, 어댑터는 P7'서열, i7 인덱스 서열 및 리드 1 프라이머 서열을 갖는다. P5 및 P7' 올리고 뉴클레오티드는 Illumina 서열 분석 플랫폼의 유동 세포의 표면에 결합된 증폭 프라이머에 상보 적이다. 일부 구현에서, 인덱스 시퀀스는 샘플의 소스를 추적하여 시퀀싱 플랫폼에서 여러 샘플의 멀티플렉싱을 허용하는 수단을 제공한다.
도 2A(ii)는 도 2A(i)에 도시된 표준 이중 인덱스 어댑터의 i7 인덱스 영역을 대체하는 단일 물리적 UMI를 갖는 어댑터를 도시한다. 이 어댑터 미러 설계는 도 1B와 관련하여 위에서 설명한 예제 워크플로우에 표시된다. 특정 실시 양태에서, 물리적 UMI α 및 β는 이중 가닥 어댑터의 5' 아암에만 있도록 설계되어, 각 가닥에 하나의 물리적 UMI만을 갖는 결찰 생성물이 생성된다. 이에 비해 어댑터의 두 가닥에 통합된 물리적 UMI는 각 가닥에 두 개의 물리적 UMI가 있은 결찰 제품을 만들어 물리적 UMI를 시퀀싱하는 데 시간과 비용을 두 배로 늘립니다. 그러나, 본 개시는 도 2a(iii) -2A(vi)에 도시된 바와 같이 어댑터의 양 가닥에 물리적 UMI를 사용하는 방법을 구현하며, 이는 상이한 리드를 붕괴시켜 공통 서열을 수득하는데 이용될 수 있는 추가 정보를 제공한다.
일부 구현에서, 어댑터의 물리적 UMI는 랜덤 UMI를 포함한다. 일부 구현에서, 어댑터의 물리적 UMI는 비 랜덤 UMI를 포함한다.
도 2a(iii)는 표준 이중 인덱스 어댑터에 추가된 2 개의 물리적 UMI를 갖는 어댑터를 도시한다. 여기에 표시된 실제 UMI는 임의 UMI 또는 비 랜덤 UMI 일 수 있다. 첫 번째 물리적 UMI는 i7 인덱스 시퀀스의 업스트림이고 두 번째 실제 UMI는 i5 인덱스 시퀀스의 업스트림이다. 도 2A(iv)는 표준 이중 인덱스 어댑터에 추가된 두 개의 물리적 UMI가 있은 어댑터를 보여준다. 제 1 물리 UMI는 i7 인덱스 시퀀스의 다운 스트림이고, 제 2 물리 UMI는 i5 인덱스 시퀀스의 다운 스트림이다. 유사하게, 2 개의 물리적 UMI는 랜덤 UMI 또는 비 랜덤 UMI 일 수 있다.
2A(iii) 및 2A(iv)에 도시된 것과 같이 단일 가닥 영역의 2 개의 아암 상에 2 개의 물리적 UMI를 갖는 어댑터는, 선험적 또는 a 인 경우 이중 가닥 DNA 단편의 2 개의 가닥을 연결할 수 있다. 2 개의 비 보완적인 물리적 UMI를 연관시키는 정보가 알려져있다. 예를 들어, 연구원은 도 2A(iv)에 표시된 설계에서 동일한 어댑터에 통합하기 전에 UMI 1 및 UMI 2의 시퀀스를 알고있을 수 있다. 이 연관 정보는 UMI 1 및 UMI 2를 갖는 리드 값이 어댑터가 결찰된 DNA 단편의 2 개의 가닥으로부터 유래한다는 것을 추론하기 위해 사용될 수 있다. 따라서 동일한 물리적 UMI가 있은 리드뿐만 아니라 두 개의 보완되지 않은 물리적 UMI 중 하나가 있은 리드도 축소될 수 있다. 흥미롭게도, 아래에서 논의되는 바와 같이, "UMI 점프"로 지칭되는 현상은 어댑터의 단일 가닥 영역에서 물리적 UMI 간의 연관성을 추론할 수 있다.
도 2A(iii) 및 도 2A(iv)에서 어댑터의 2 개의 가닥상의 2 개의 물리적 UMI는 동일한 사이트에 위치하거나 서로 상보 적이 지 않다. 그러나, 본 개시는 어댑터의 2 개의 가닥상의 동일한 위치에 있고/또는 서로 상보적인 물리적 UMI를 이용하는 방법을 구현한다. 도 2A(v)는 2 개의 물리적 UMI가 어댑터 끝 또는 끝에서 이중 가닥 영역에 상보적인 이중 어댑터를 보여준다. 2 개의 물리적 UMI는 랜덤 UMI 또는 비 랜덤 UMI 일 수 있다. 도 2A(vi)는 도 2A(v)와 유사하지만 짧은 어댑터를 도시하지만, 유동 세포 표면 증폭 프라이머에 상보적인 인덱스 서열 또는 P5 및 P7' 서열은 포함하지 않는다. 유사하게, 2 개의 물리적 UMI는 랜덤 UMI 또는 비 랜덤 UMI 일 수 있다.
단일 가닥 아암 상에 하나 이상의 단일 가닥 물리적 UMI를 갖는 어댑터와 비교하여, 이중 가닥 영역 상에 이중 가닥 물리적 UMI를 갖는 어댑터는 이중 가닥 DNA 단편의 두 가닥 사이에 직접 연결을 제공할 수 있다. 도 2A(v) 및 도 2A(vi)에 표시된 것처럼 어댑터가 연결된다. 이중 가닥 물리적 UMI의 두 가닥이 서로 상보 적이기 때문에, 이중 가닥 UMI의 두 가닥 사이의 연관은 본질적으로 상보 적 서열에 의해 반영되며, 선험적 또는 사후 정보를 요구하지 않고 확립될 수 있다 . 이 정보는 어댑터의 이중 가닥 물리적 UMI의 2 개의 상보 적 서열을 갖는 리드 값이 어댑터가 결찰된 것과 동일한 DNA 단편으로부터 유래된 것으로 추정하는데 사용될 수 있지만, 물리적 UMI의 2 개의 상보적 서열은 DNA 단편의 한 가닥의 3' 말단과 D다른 가닥의 5' 말단에 결찰된다. 따라서, 2 개의 종단에서 동일한 2 개의 물리적 UMI 시퀀스를 갖는 리드뿐만 아니라 2 개의 종단에서 2 개의 상보 적 시퀀스의 역순을 갖는 리드도 붕괴될 수 있다.
일부 실시예에서, 짧은 물리적 UMI는 어댑터에 통합하기가 쉽기 때문에 비교적 짧은 물리적 UMI를 사용하는 것이 유리할 수 있다. 또한, 증폭된 단편에서 더 짧은 물리적 UMI가 더 빠르고 시퀀싱하기 쉽다. 그러나 물리적 UMI가 매우 짧아짐에 따라 다른 물리적 UMI의 총 수는 샘플 처리에 필요한 어댑터 분자 수보다 적을 수 있다. 충분한 어댑터를 제공하려면 두 개 이상의 어댑터 분자에서 동일한 UMI를 반복해야한다. 이러한 시나리오에서, 동일한 물리적 UMI를 갖는 어댑터는 다수의 소스 DNA 분자에 결찰될 수 있다. 그러나, 이러한 짧은 물리적 UMI는 가상 UMI 및/또는 리드의 정렬 위치와 같은 다른 정보와 결합될 때 샘플의 특정 소스 폴리뉴클레오티드 또는 DNA 단편으로부터 유래된 것으로 리드를 고유하게 식별하기에 충분한 정보를 제공할 수 있다. 동일한 물리적 UMI가 두 개의 다른 단편에 연결될 수 있지만 두 개의 다른 단편이 동일한 정렬 위치를 가지거나 가상 UMI의 역할을하는 일치하는 서브시퀀스를 가질 가능성은 거의 없기 때문이다. 따라서 두 개의 리드 값이 동일한 짧은 물리적 UMI 및 동일한 정렬 위치(또는 동일한 가상 UMI)를 갖는 경우 두 개의 리드 값은 동일한 DNA 조각에서 파생될 가능성이 높다.
더욱이, 일부 구현들에서, 리드 붕괴는 인서트의 양단에 있는 2 개의 물리적 UMI에 기초한다. 이러한 구현에서, 2 개의 매우 짧은 물리적 UMI(예를 들어, 4bp)는 DNA 단편의 소스를 결정하기 위해 조합되며, 2 개의 물리적 UMI의 결합된 길이는 상이한 단편을 구별하기에 충분한 정보를 제공한다.
다양한 구현에서, 물리적 UMI는 약 12개 염기쌍 이하, 약 11 개 염기쌍 이하, 약 10 개 염기쌍 이하, 약 9 개 염기쌍 이하, 약 8 개 염기쌍 이하, 약 7 개 염기쌍 또는 더 짧거나, 약 6 개 염기쌍 이하, 약 5 개 염기쌍 이하, 약 4 개 염기쌍 이하 또는 약 3 개 염기쌍 이하이다. 물리적 UMI가 비 랜덤 UMI 인 일부 구현에서, UMI는 약 12 개 염기쌍 이하, 약 11 개 염기쌍 이하, 약 10 개 염기쌍 이하, 약 9 개 염기쌍 이하, 약 8 개 염기쌍 이하, 7 개 염기쌍 이하, 또는 약 6 개 염기쌍이다.
UMI 점핑은 도 2a(ii)-(iv)의 어댑터에서와 같이 어댑터의 하나의 아암 또는 양 아암에 대한 물리적 UMI 간의 연관 추론에 영향을 줄 수 있다. 이들 어댑터를 DNA 단편에 적용할 때, 증폭 생성물은 샘플의 실제 단편 수보다 고유한 물리적 UMI를 갖는 다수의 단편을 포함할 수 있음이 관찰되었다.
또한, 양 아암에 물리적 UMI를 갖는 어댑터가 적용될 때, 한쪽 끝에 공통 물리적 UMI를 갖는 증폭된 단편은 다른 쪽 끝에 또 다른 공통 물리적 UMI를 갖는 것으로 가정된다. 그러나 때로는 그렇지 않다. 예를 들어, 하나의 증폭 반응의 반응 생성물에서, 일부 단편은 그 양단에 제 1 물리적 UMI 및 제 2 물리적 UMI를 가질 수 있고; 다른 단편들은 제 2 물리적 UMI 및 제 3 물리적 UMI를 가질 수 있고; 또 다른 단편은 제 1 물리적 UMI 및 제 3 물리적 UMI를 가질 수 있고; 또 다른 단편들은 제 3 물리적 UMI 및 제 4 물리적 UMI 등을 가질 수 있다. 이 예에서, 이러한 증폭된 단편에 대한 소스 단편(들)을 확인하기 어려울 수 있다. 증폭 과정에서 물리적 UMI가 다른 물리적 UMI에 의해 "스왑"되었을 수 있다.
이 UMI 점핑 문제를 해결하기 위한 하나의 가능한 접근법은 두 UMI를 공유하는 단편 만이 동일한 소스 분자로부터 유래하는 것으로 간주하지만, 하나의 UMI 만 공유하는 단편은 분석에서 제외될 것이다. 그러나, 하나의 물리적 UMI만을 공유하는 이들 단편 중 일부는 실제로 물리적 UMI를 공유하는 것과 동일한 분자로부터 유래될 수 있다. 하나의 물리적 UMI 만 공유하는 조각을 고려에서 제외하면 유용한 정보가 손실될 수 있다. 다른 가능한 접근법은 하나의 공통 물리적 UMI를 갖는 임의의 단편이 동일한 소스 분자로부터 유래된 것으로 간주한다. 그러나 이 방법은 다운 스트림 분석을 위해 단편의 두 끝에서 두 개의 물리적 UMI를 결합할 수 없다. 위의 예에서, 어느 한 접근법 하에서, 제 1 및 제 2 물리적 UMI를 공유하는 단편은 제 3 및 제 4 물리적 UMI를 공유하는 단편과 동일한 소스 분자로부터 유래하는 것으로 간주되지 않을 것이다. 이것은 사실 일 수도 있고 아닐 수도 있다. 세 번째 접근법은 단일 가닥 영역의 두 가닥 모두에 물리적 UMI가 있은 어댑터를 사용하여 UMI 점프 문제를 해결할 수 있다(예: 도 2A(v)-(vi)의 어댑터). UMI 점프의 기본이되는 가상 메커니즘에 대한 설명이 아래에 추가로 설명되어 있다.
도 2B는 이중 가닥 영역에서 두 가닥 모두에 물리적 UMI를 갖는 어댑터를 포함하는 PCR 반응에서 UMI 점프가 발생하는 가상 프로세스를 도시한다. 2 개의 물리적 UMI는 랜덤 UMI 또는 비 랜덤 UMI 일 수 있다. UMI 점프의 실제 기본 메커니즘과 여기에 설명된 가상 프로세스는 여기에 설명된 어댑터 및 방법의 유틸리티에 영향을 미치지 않는다. PCR 반응은 적어도 하나의 이중 가닥 소스 DNA 단편(202) 및 어댑터(204 및 206)를 제공함으로써 시작된다. 어댑터(204 및 206)는 도 2a(iii)-(iv)에 도시된 어댑터와 유사하다. 어댑터(204)는 5' 팔에 P5 어댑터 시퀀스 및 α1 물리적 UMI를 갖는다. 어댑터(204)는 또한 3' 팔에 P7' 어댑터 시퀀스 및 α2 물리적 UMI를 갖는다. 어댑터(206)는 5' 팔에 P5 어댑터 시퀀스 및 β2 물리적 UMI, 3'팔에 P7' 어댑터 시퀀스 및 β1 물리적 UMI를 갖는다. 이 과정은 어댑터(204) 및 어댑터(206)를 단편(202)에 결찰하여 결찰 생성물(208)을 얻는 것에 의해 진행된다.이 과정은 결찰 생성물(208)을 변성시켜 단일 가닥의 변성된 단편(212)을 생성함으로써 진행된다. 한편, 반응 혼합물은 종종이 단계에서 잔류 어댑터를 포함한다. 공정에 이미 SPRI(Solid Phase Reversible Immobilization) 비드를 사용하는 등의 과잉 어댑터 제거가 포함되어 있어도 일부 어댑터는 여전히 반응 혼합물에 남아 있다. 이러한 남은 어댑터는 어댑터(210)로 도시되며, 어댑터(210)는 3' 및 7'암에 각각 물리적 UMI γ1 및 γ2를 갖는 것을 제외하고는 어댑터 206과 유사하다. 변성된 단편(212)을 생성하는 변성 조건은 또한 P5 어댑터 서열 근처에 물리적 UMI γ2를 갖는 변성된 어댑터 올리고 뉴클레오티드(214)를 생성한다.
단일 가닥 어댑터 단편(214)은 신호 가닥 DNA 단편(212)에 하이브리드 화되고, PCR 공정은 단일 가닥 어댑터 단편(214)을 연장하여 DNA 단편(212)에 상보적인 중간 인서트(216)을 생성한다. PCR 증폭 사이클, 중간 어댑터 단편(218, 220 및 222)은 상이한 물리적 UMI δ, ε 및 ζ를 포함하는 어댑터의 P7' 가닥의 PCR 연장으로부터 생성될 수 있다. 중간 어댑터 단편(218, 220 및 222)은 모두 5' 말단에 P7'서열을 가지며, 각각 물리적 UMI δ, ε 및 ζ를 갖는다. PCR 사이클을 수행함에 있어서, 중간 어댑터 단편(218, 220 및 222)의 3' 말단이 중간 인서트(216)의 영역(217)에 상보 적이기 때문에 중간 어댑터 단편(218, 220 및 222)은 중간 단편(216) 또는 이의 앰플 리콘에 하이브리드 화될 수 있다 혼성화된 단편의 PCR 연장은 단일 가닥 DNA 단편 224, 226 및 228을 생성한다. DNA 단편 224, 226 및 228은 5' 끝에 3 개의 다른 물리적 UMI(δ, ε 및 ζ)와 3'끝에 물리적 UMI γ2로 레이블이 지정되어 있으며, 다른 UMI가 부착된 경우 "UMI 점프"를 나타낸다. 동일한 DNA 단편 202로부터 유래된 뉴클레오티드 서열에 대한 것이다.
본 개시의 일부 구현에서,도 2a(v)-(vi)의 어댑터와 같은 어댑터의 이중 가닥 영역의 두 가닥 모두에 물리적 UMI를 갖는 어댑터를 사용하면 UMI 점프를 방지하거나 줄일 수 있다. 이중 가닥 영역에서한 어댑터의 실제 UMI가 다른 모든 어댑터의 실제 UMI와 다르기 때문일 수 있다. 이는 중간 어댑터 올리고 뉴클레오티드와 중간 단편 사이의 상보성을 감소시켜 중간 올리고 뉴클레오티드(222) 및 중간 단편(220)에 대해 도시된 것과 같은 혼성화를 피함으로써 UMI 점프를 감소 시키거나 방지할 수 있다.
리드 축소 및 공통 서열 수득
UMI를 사용하는 다양한 구현에서, 동일한 UMI(들)을 갖는 다중 서열 리드는 하나 이상의 공통 서열을 얻기 위해 붕괴되고, 이어서 소스 DNA 분자의 서열을 결정하는데 사용된다. 동일한 소스 DNA 분자의 별개의 사례로부터 다수의 별개의 리드가 생성될 수 있으며, 이들 리드는 본원에 기술된 바와 같은 공통 서열을 생성하기 위해 비교될 수 있다. 인스턴스는 시퀀싱 전에 소스 DNA 분자를 증폭함으로써 생성될 수 있으며, 각각의 시퀀싱 작업은 각각의 소스 DNA 분자의 서열을 공유하는 개별 증폭 생성물에 대해 수행된다. 물론, 증폭은 구별되는 증폭 생성물의 서열이 차이를 갖도록 오차를 도입할 수 있다. 맥락에서, Illumina의 합성에 의한 시퀀싱과 같은 일부 시퀀싱 기술, 소스 DNA 분자 또는 이의 증폭 생성물은 플로우 셀의 영역에 연결된 DNA 분자의 클러스터를 형성한다. 클러스터의 분자는 집합 적으로 리드 값을 제공한다. 일반적으로 공통 서열을 제공하려면 적어도 두 번의 리드가 필요한다. 100, 1000 및 10,000의 시퀀싱 깊이는 낮은 대립 유전자 빈도(예를 들어, 약 1 % 이하)에 대한 합의 리드를 생성하기 위해 개시된 실시예에서 유용한 시퀀싱 깊이의 예이다.
일부 구현에서, UMI 또는 UMI의 조합을 공유하는 리드의 100 %에 걸쳐 일치하는 뉴클레오티드는 합의 서열에 포함된다. 다른 구현들에서, 합의 기준은 100 %보다 낮을 수 있다. 예를 들어, 90 % 합의 기준이 사용될 수 있는데, 이는 그룹에서 리드의 90 % 이상에 존재하는 염기쌍이 공통 서열에 포함됨을 의미한다. 다양한 구현들에서, 합의 기준은 약 30 %, 약 40 %, 약 50 %, 약 60 %, 약 70 %, 약 80 %, 약 90 %, 약 95 %, 또는 약 100 %로 설정될 수 있다.
물리적 UMI 및 가상 UMI에 의한 축소(Collapsing by Physical UMIs and Virtual UMIs)
다수의 UMI를 포함하는 리드를 붕괴시키기 위해 다수의 기술이 사용될 수 있다. 일부 구현들에서, 공통 물리적 UMI를 공유하는 리드들은 공통 서열을 얻기 위해 축소될 수 있다. 일부 구현에서, 공통 물리적 UMI가 랜덤 UMI 인 경우, 랜덤 UMI는 샘플에서 DNA 단편의 특정 소스 분자를 식별하기에 충분히 유일할 수 있다. 다른 구현들에서, 공통 물리적 UMI가 비 랜덤 UMI 인 경우, UMI는 그 자체로 특정 소스 분자를 식별하기에 충분히 고유하지 않을 수 있다. 어느 경우이든, 물리적 UMI는 가상 UMI와 결합되어 소스 분자의 지수를 제공할 수 있다.
위에서 설명되고 도 1b, 3a 및 4에 도시된 예시적인 워크플로우에서, 일부 리드 값은 α-ρ-φ UMI를 포함하고, 다른 리드 값은 β-φ-ρ UMI를 포함한다. 물리적 UMI α는 α를 갖는 리드 값을 생성한다. 워크 플로에 사용된 모든 어댑터의 물리적 UMI가 다르면(예: 다른 임의의 UMI) 어댑터 영역에서 α가 있은 모든 리드 값은 DNA 가닥의 동일한 가닥에서 파생된 것 같다. 유사하게, 물리적 UMI β는 β를 갖는 리드 값을 생성하며, 이들 모두는 DNA 단편의 동일한 상보 적 가닥으로부터 유래된다. 따라서 α를 포함한 모든 리드 값을 축소하여 하나의 공통 시퀀스를 얻고, β를 포함한 모든 리드 값을 축소하여 다른 공통 시퀀스를 얻는 것이 유용한다. 이것은 도 4B-4C에서 첫 번째 레벨 붕괴로 설명된다. 그룹의 모든 리드 값은 샘플에서 동일한 소스 폴리뉴클레오티드에서 파생되므로 공통 시퀀스에 포함된 염기쌍은 소스 폴리뉴클레오티드의 실제 서열을 반영할 가능성이 높으며, 공통 시퀀스에서 제외된 염기 쌍은 워크 플로에서 도입된 변동 또는 오류를 반영했을 가능성이 있다.
또한, 가상 UMI(ρ 및 φ)는 하나 또는 둘 모두의 가상 UMI를 포함하는 리드가 동일한 소스 DNA 단편으로부터 유래되었다는 것을 결정하기 위한 정보를 제공할 수 있다. 가상 UMI ρ 및 φ는 소스 DNA 단편 내부에 있기 때문에, 가상 UMI의 악용은 실제로 준비 또는 시퀀싱에 오버 헤드를 추가하지 않는다. 리드로부터 물리적 UMI의 시퀀스를 수득한 후, 리드에서의 하나 이상의 서브시퀀스가 가상 UMI로서 결정될 수 있다. 가상 UMI가 충분한 염기쌍을 포함하고 리드에서 동일한 상대 위치를 갖는 경우, 이들은 리드가 소스 DNA 단편으로부터 유래된 것으로 고유하게 식별할 수 있다. 따라서 가상 UMI ρ 및 φ 중 하나 또는 둘 다를 갖는 리드 값은 공통 서열을 얻기 위해 축소될 수 있다. 가상 UMI와 물리적 UMI의 조합은 도 3A 및 도 4A-4C에 표시된 것처럼 하나의 물리적 UMI 만 각 가닥의 첫 번째 레벨 공통 서열에 할당될 때 두 번째 레벨의 축소를 안내하는 정보를 제공할 수 있다. 그러나, 일부 구현에서, 가상 UMI를 사용한이 제 2 레벨 붕괴는 과잉 입력 DNA 분자가 있거나 단편화가 무작위 화되지 않으면 어려울 수 있다.
대안적인 실시예에서, 도 3b 및 도 4d 및 4e에 도시된 것과 같이 양단에 2 개의 물리적 UMI를 갖는 리드는 물리적 UMI와 가상 UMI의 조합에 기초하여 제 2 레벨 붕괴에서 붕괴될 수 있다. 이는 물리적 UMI가 가상 UMI를 사용하지 않고 소스 DNA 단편을 고유하게 식별하기에 너무 짧은 경우에 특히 유용하다. 이들 실시 양태에서, 동일한 DNA 분자로부터 α-ρ-φ-β 공통 리드 값 및 β-φ-ρ-α 공통 리드 값을 붕괴시킴으로써, 도 3b에 도시된 바와 같이 물리적 이중 UMI를 사용하여 제 2 레벨 붕괴를 구현할 수 있어서, 모든 리드 값 사이에서 일치하는 뉴클레오티드를 포함하는 공통 서열을 수득할 수 있다.
본 명세서에 기술된 UMI 및 붕괴 방식을 사용하여, 다양한 실시예는 단편이 매우 낮은 대립 유전자 빈도를 갖는 대립 유전자를 포함하더라도 단편의 결정된 서열에 영향을 미치는 상이한 오차의 원인을 억제할 수 있다. 동일한 UMI(실제 및/또는 가상)를 공유하는 리드가 함께 그룹화된다. 그룹화된 리드 값을 축소함으로써 PCR, 라이브러리 준비, 클러스터링 및 시퀀싱 오류로 인한 변형(SNV 및 소규모 indel)을 제거할 수 있다. 도 4A-4E는 예시적인 워크플로우에 개시된 바와 같은 방법이 이중 가닥 DNA 단편의 서열을 결정할 때 상이한 오차의 원인을 억제할 수 있는 방법을 도시한다. 도시된 리드는 도 3A 및 4A-4C에서 α-ρ-φ 또는 β-φ-ρ UMI를 포함하고, 도 3B, 4D 및 4E에서 α-ρ-φ-β 또는 β-φ-ρ-α UMI를 포함한다. α 및 β UMI는 도 3A 및 4A-4C에서 단일 플렉스 물리 UMI이다. α 및 β UMI는 도 3B, 4D 및 4E에서 이중 UMI이다. 가상 UMI ρ 및 φ는 DNA 단편의 끝에 위치한다.
도 4a 내지 도 4c에 도시된 바와 같은 단일 플렉스 물리 UMI를 사용하는 방법은 먼저 제 1 레벨 붕괴로서 도시된 동일한 물리 UMI α 또는 β를 갖는 붕괴 리드를 포함한다. 제 1 레벨 붕괴는 물리적 UMI α를 갖는 리드에 대한 α 합의 서열을 수득하는데,이 리드는 이중 가닥 단편의 하나의 가닥으로부터 유래된다. 제 1 레벨 붕괴는 또한 물리적 UMI β를 갖는 리드에 대한 β 공통 서열을 수득하는데,이 리드는 이중 가닥 단편의 다른 가닥으로부터 유래된다. 제 2 레벨 붕괴에서, 본 방법은 α 공통 서열 및 β 공통 서열로부터 제 3 공통 서열을 수득한다. 제 3 합의 서열은 동일한 이중 가상 UMI ρ 및 φ를 갖는 리드로부터의 합의 염기쌍을 반영하며, 리드는 소스 단편의 2 개의 상보 적 가닥으로부터 유래된다. 마지막으로, 이중 가닥 DNA 단편의 서열은 제 3 공통 서열로 결정된다.
도 4d 내지 4e에 도시된 바와 같이 이중 물리 UMI를 이용하는 방법은 먼저 물리 레벨 UMI α 및 β를 5'-3' 방향으로 α->β 순서로 갖는 리드를 제 1 레벨 붕괴로서 도시한다. 제 1 레벨 붕괴는 물리적 UMI α 및 β를 갖는 리드에 대한 α-β 공통 서열을 수득하는데,이 리드는 이중 가닥 단편의 제 1 가닥으로부터 유래된다. 제 1 레벨 붕괴는 또한 5'-3' 방향으로 β->α 차수를 갖는 물리적 UMI β 및 α를 갖는 리드 치에 대한 β-α 공통 서열을 수득하는데, 이 리드 치는 이중 가닥 단편의 제 1 가닥에 상보적인 제 2 가닥으로부터 유래된다. 제 2 레벨 붕괴에서, 상기 방법은 α-β 공통 서열 및 β-α 공통 서열로부터 제 3 공통 서열을 얻는다. 세 번째 공통 시퀀스는 동일한 듀플렉스 가상 UMI ρ 및 φ를 갖는 리드의 공통 기본 쌍을 반영하며,이 리드는 단편의 두 가닥에서 파생된다. 마지막으로, 이중 가닥 DNA 단편의 서열은 제 3 공통 서열로 결정된다.
도 4a는 제 1 레벨 붕괴가 어떻게 시퀀싱 에러를 억제할 수 있는지를 도시한다. 샘플 및 라이브러리 준비(예: PCR 증폭) 후 시퀀싱 플랫폼에서 시퀀싱 오류가 발생한다. 시퀀싱 오류로 인해 서로 다른 잘못된 기준이 다른 리드로 나타날 수 있다. 진 양성 염기(True positive bases)는 실선으로 표시되고, 위 양성 염기(false positive bases)는 빗금으로 표시된다. α-ρ-φ 패밀리에서 상이한 리드 치상의 위 양성 뉴클레오티드(False positive nucleotides)는 α 공통 서열에서 제외되었다. α-ρ-φ 패밀리 리드의 좌측 말단에 예시된 진정한 양성 뉴클레오티드 "A"는 α 공통 서열에 대해 유지된다. 유사하게, β-φ-ρ 패밀리에서 상이한 리드 치상의 위 양성 뉴클레오티드(false positive nucleotides)는 β 공통 서열 "A"를 유지하면서 β 공통 서열에서 제외되었다. 여기에 예시된 바와 같이, 제 1 레벨 붕괴는 시퀀싱 오류를 효과적으로 제거할 수 있다. 도 4A는 또한 가상 UMI ρ 및 φ에 의존하는 선택적 2 단계 붕괴를 보여준다. 이 제 2 레벨 붕괴는 전술한 바와 같이 에러를 더 억제할 수 있지만, 이러한 에러는 도 4a에 도시되지 않았다.
클러스터링 증폭 전에 PCR 오류가 발생한다. 따라서, PCR 공정에 의해 단일 가닥 DNA에 도입된 하나의 잘못된 염기쌍은 클러스터링 증폭 동안 증폭될 수 있으며, 이에 따라 다수의 클러스터 및 리드로 나타날 수 있다. 도 4B 및 도 4D에 도시된 바와 같이, PCR 에러에 의해 도입된 오 탐지 염기쌍은 많은 리드에서 나타날 수 있다. α-ρ-φ(도 4B) 또는 α-β(도 4D) 계열의 "T"염기 리드 값과 β-φ-ρ(도 4B) 또는 β-α(도 4D)의 "C"염기 ) 패밀리 리드 값은 이러한 PCR 오류이다. 반대로, 도 4A에 표시된 시퀀싱 오류는 동일한 제품군에서 하나 또는 몇 번의 리드에 나타난다. PCR 시퀀싱 오류가 패밀리의 많은 리드에서 나타나기 때문에, 비록 제 1 레벨의 축소가 시퀀싱 오류를 제거함에도 불구하고(예: 도 4B의 α-ρ-φ 패밀리 및 도 4D의 α-β 패밀리로부터 G 및 A 제거) 일 가닥에서의 제 1 레벨 리드 붕괴가 PCR 에러를 제거하지 않는다. 그러나, PCR 오류가 단일 가닥 DNA에 도입되기 때문에, 소스 단편의 상보 적 가닥 및 이로부터 유래된 리드는 일반적으로 동일한 PCR 오류를 갖지 않는다. 따라서, 소스 단편의 두 가닥으로부터의 리드에 기초한 제 2 레벨 붕괴는 도 4b 및 4d의 하단에 도시된 바와 같이 PCR 오류를 효과적으로 제거할 수 있다.
일부 시퀀싱 플랫폼에서, 단일 중합체 오류는 반복 단일 뉴클레오티드의 단일 중합체에 작은 삽입 오차를 도입하기 위해 발생한다. 도 4C 및 4E는 본 명세서에 기술된 방법을 사용한 호모 폴리머 에러 정정을 도시한다. α-ρ-φ(도 4C) 또는 α-ρ-φ-β(도 4E) 패밀리 리드에서, 2 개의 "T"뉴클레오티드는 상단으로부터 2 번째 리드로부터 삭제되었고, 하나의 "T"뉴클레오티드는 위로부터 세 번째 리드에서 삭제되었다. β-φ-ρ(도 4C) 또는 β-φ-ρ-α(도 4E) 패밀리 리드에서, 하나의 "T"뉴클레오티드가 처음부터 처음 리드에 삽입되었다. 도 4A에 예시된 서열 분석 오류와 유사하게, PCR 증폭 후 단일 중합체 오류가 발생하므로, 상이한 리드 값은 상이한 단일 중합체 오류를 갖는다. 결과적으로 첫 번째 레벨의 축소는 실제로 삽입된 오류를 제거할 수 있다.
공통 시퀀스는 하나 이상의 공통 비 랜덤 UMI 및 하나 이상의 공통 가상 UMI를 갖는 리드를 축소함으로써 수득될 수 있다. 또한, 위치 정보는 또한 후술하는 바와 같이 공통 서열을 수득하는데 사용될 수 있다.
위치 별 축소(Collapsing by Position)
일부 구현들에서, 기준 시퀀스들상의 리드들의 정렬 위치들을 결정하기 위해 리드들이 기준 시퀀스에 정렬되도록 처리된다(국소화). 그러나, 위에서 예시되지 않은 일부 구현들에서, 국소화는 k-mer 유사성 분석 및 리드 리드 정렬에 의해 달성된다. 이 두 번째 구현에는 두 가지 장점이 있다. 첫째, haplotype 차이 또는 전좌로 인해 참조와 일치하지 않는 리드를 붕괴(에러 교정)할 수 있고, 두번째로, 정렬기 알고리즘에 의존하지 않아서, 정렬기-유도 부작용(정렬기의 오류) 가능성을 제거한다. 일부 구현들에서, 동일한 국소화 정보를 공유하는 리드들은 소스 DNA 단편들의 서열을 결정하기 위해 공통 서열을 얻기 위해 붕괴될 수 있다. 일부 상황에서, 정렬 프로세스는 맵핑 프로세스라고도한다. 시퀀스 리드는 정렬 프로세스를 거쳐 참조 서열에 매핑된다. 본 개시의 다른 곳에서 설명된 바와 같이 리드를 기준 시퀀스에 정렬시키기 위해 다양한 정렬 툴 및 알고리즘이 사용될 수 있다. 통상적으로, 정렬 알고리즘에서, 일부 리드는 참조 서열에 성공적으로 정렬되는 반면, 다른 리드는 성공적으로 정렬되지 않거나 참조 서열에 잘못 정렬될 수 있다. 참조 서열에 연속적으로 정렬된 리드는 참조 서열의 사이트와 연결된다. 정렬된 리드 및 관련 사이트는 시퀀스 태그라고도한다. 많은 반복 횟수를 포함하는 일부 시퀀스 리드는 참조 서열에 맞추기가 더 어려운 경향이 있다. 리드 값이 특정 기준을 초과하는 다수의 불일치 염기를 갖는 참조 서열에 정렬되면 리드가 잘못 정렬된 것으로 간주된다. 다양한 실시예에서, 리드는 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10 개의 불일치와 정렬될 때 정렬이 불량한 것으로 간주된다. 다른 실시 양태에서, 리드는 불일치의 약 5 % 이상과 정렬될 때 정렬이 불량한 것으로 간주된다. 다른 실시 양태에서, 리드가 적어도 약 10 %, 15 % 또는 20 %의 불일치 염기와 정렬될 때 리드가 잘못 정렬된 것으로 간주된다.
일부 구현에서, 개시된 방법은 위치 정보를 물리적 UMI 정보와 조합하여 DNA 단편의 소스 분자를 색인화한다. 동일한 리드 위치를 공유하는 서열 리드 및 동일한 비 랜덤 또는 랜덤 물리 UMI는 단편 또는 그의 일부의 서열을 결정하기 위한 합의 서열을 얻기 위해 붕괴될 수 있다. 일부 구현들에서, 동일한 리드 위치, 동일한 비 랜덤 물리 UMI, 및 랜덤 물리 UMI를 공유하는 시퀀스 리드는 공통 서열을 얻기 위해 붕괴될 수 있다. 이러한 구현들에서, 어댑터는 비 랜덤 물리 UMI 및 랜덤 물리 UMI 모두를 포함할 수 있다. 일부 구현들에서, 동일한 리드 위치를 공유하는 시퀀스 리드들 및 동일한 가상 UMI는 공통 서열을 얻기 위해 축소될 수 있다.
리드 위치 정보는 상이한 기술에 의해 얻어 질 수 있다. 예를 들어, 일부 구현에서, 게놈 좌표는 리드된 위치 정보를 제공하기 위해 사용될 수 있다. 일부 구현들에서, 리드가 정렬되는 기준 시퀀스상의 위치는 리드 위치 정보를 제공하는데 사용될 수 있다. 예를 들어, 염색체상의 리드의 시작 및 정지 위치는 리드 위치 정보를 제공하기 위해 사용될 수 있다. 일부 구현에서, 리드 위치는 동일한 위치 정보를 갖는 경우 동일한 것으로 간주된다. 일부 구현들에서, 위치 정보 사이의 차이가 정의된 기준보다 작은 경우 리드 위치는 동일한 것으로 간주된다. 예를 들어, 시작 게놈 위치가 2, 3, 4 또는 5 미만인 염기쌍을 갖는 2 개의 리드는 동일한 리드 위치를 갖는 리드로 간주될 수 있다. 다른 구현들에서, 그들의 위치 정보가 특정 위치 공간으로 변환되고 매칭될 수 있다면 리드 위치는 동일한 것으로 간주된다. 시퀀싱 이전에 참조 서열이 제공될 수 있으며, 예를 들어, 널리 공지되고 널리 사용되는 인간 게놈 서열 일 수 있거나, 샘플을 시퀀싱하는 동안 수득된 리드 치로부터 결정될 수 있다.
특정 시퀀싱 플랫폼 및 프로토콜에 상관없이, 샘플에 함유된 핵산의 적어도 일부는 수만, 수십만 또는 수백만 개의 서열 리드, 예를 들어 100bp 리드를 생성하도록 서열화된다. 일부 실시 양태에서, 서열 리드는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 36bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 약 500bp, 약 800bp 약 1000bp, 또는 약 2000bp를 포함한다.
일부 실시 양태에서, 리드는 기준 게놈, 예를 들어 hg19에 정렬된다. 다른 실시 양태에서, 리드는 기준 게놈의 일부, 예를 들어 염색체 또는 염색체 세그먼트에 정렬된다. 참조 게놈에 고유하게 매핑된 리드를 시퀀스 태그라고한다. 한 구체예에서, 적어도 약 3 x 106 적격 서열 태그, 적어도 약 5 x 106 적격 서열 태그, 적어도 약 8 x 106 적격 서열 태그, 적어도 약 10 x 106 적격 서열 태그, 적어도 약 15 x 106 적격 서열 태그, 약 20 x 106 적격 서열 태그, 약 30 x 106 적격 서열 태그, 약 40 x 106 적격 서열 태그 또는 약 50 x 106 적격 서열 태그는 기준 게놈에 고유하게 매핑되는 리드로부터 수득된다 .
응용
다양한 응용에서, 본 명세서에 개시된 바와 같은 오류 정정 전략은 다음의 이점 중 하나 이상을 제공할 수 있다:(i) 매우 낮은 대립 유전자 주파수 체세포 돌연변이를 검출하고,(ii) 위상/예상 오류를 완화함으로써 사이클 시간 감소 및/또는(iii) 리드 등의 후반부에서 염기 콜의 품질을 향상시킴으로써 리드 길이를 증가시킨다. 낮은 대립 유전자 주파수 체세포 돌연변이의 검출에 관한 응용 및 이론적 근거는 위에서 논의되었다.
특정 실시 양태에서, 본원에 기재된 기술은 약 2 % 이하, 또는 약 1 % 이하, 또는 약 0.5 % 이하의 주파수를 갖는 대립 유전자의 신뢰할만한 호출을 허용할 수 있다. 이러한 저주파는 암 환자의 종양 세포로부터 유래된 cfDNA에서 흔하다. 일부 실시 양태에서, 본원에 기술된 기술은 예를 들어 환자가 다수의 바이러스 균주에 의해 감염된 경우에 및/또는 의료 처방을 받은 경우에, 바이러스 또는 다른 집단에서 희귀 변이체의 검출뿐만 아니라 metagenomic 샘플에서 희귀 균주의 동정을 허용할 수 있다.
특정 실시 양태에서, 본원에 기재된 기술은 보다 짧은 시퀀싱 화학 사이클 시간을 허용할 수 있다. 단축된 사이클 시간은 시퀀싱 오류를 증가 시키며, 이는 전술한 방법을 사용하여 정정될 수 있다.
UMI를 포함하는 일부 구현에서, 긴 리드는 세그먼트의 양단으로부터한 쌍의 PE(paired-end) 리드에 대한 비대칭 리드 길이를 사용하여한 쌍의 종단 시퀀싱으로부터 얻어 질 수 있다. 예를 들어, 하나의 페어드 엔드 리드에서 50 bp 및 다른 페어드 엔드 리드에서 500 bp를 갖는한 쌍의 리드는 다른 리드 쌍과 함께 "스티칭(stitched)"되어 1000 bp의 긴 리드를 생성할 수 있다. 이들 구현은 낮은 대립 유전자 주파수의 긴 단편을 결정하기 위해 더 빠른 시퀀싱 속도를 제공할 수 있다.
도 5는 물리적 UMI 및 가상 UMI를 적용함으로써 이러한 종류의 애플리케이션에서 긴 페어드 엔드 리드를 효율적으로 얻기 위한 예를 개략적으로 도시한다. 동일한 DNA 단편의 두 가닥의 라이브러리는 플로우 셀에 클러스터된다. 라이브러리의 인서트 크기가 1Kb보다 길다. 긴 500bps 리드의 품질을 보장하기 위해 비대칭 리드 길이(예를 들어, Read1 = 500bp, Read2 = 50bp)로 시퀀싱이 수행된다. 500 + 50bp 시퀀싱만으로 2 개의 가닥 스티치, 1000 bp 길이의 PE 리드를 생성할 수 있다.
샘플
DNA 단편 서열을 결정하기 위해 사용되는 샘플은 관심 서열이 결정될 핵산을 포함하는 임의의 세포, 유체, 조직 또는 기관으로부터 취한 샘플을 포함할 수 있다. 암 진단을 수반하는 일부 실시 양태에서, 순환 종양 DNA는 대상체의 체액, 예를 들어 체액으로부터 수득될 수 있다. 혈액 또는 혈장. 태아의 진단을 수반하는 일부 실시 양태에서, 모체 체액으로부터 무 세포 핵산, 예를 들어 무 세포 DNA(cfDNA)를 얻는 것이 유리하다. 무 세포 DNA를 포함하는 무 세포 핵산은 혈장, 혈청 및 소변을 포함하지만 이에 제한되지 않는 생물학적 샘플로부터 관련 기술 분야에 공지된 다양한 방법에 의해 수득될 수 있다(예를 들어, Fan et al., Proc Natl Acad Sci 105: 16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25: 604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004]).
다양한 실시 형태에서, 샘플에 존재하는 핵산(예를 들어, DNA 또는 RNA)은 사용 전에(예를 들어, 시퀀싱 라이브러리를 제조하기 전에) 구체적으로 또는 비특이적으로 농축될 수 있다. 샘플 DNA의 비특이적 농축은 cfDNA 시퀀싱 라이브러리를 준비하기 전에 샘플 DNA의 레벨을 증가 시키는데 사용될 수 있는 샘플의 게놈 DNA 단편의 전체 게놈 증폭을 지칭한다. 전체 게놈 증폭 방법은 당 업계에 공지되어있다. 올리고 뉴클레오티드-프라임 PCR(DOP), 프라이머 연장 PCR 기술(PEP) 및 다중 변위 증폭(MDA)은 전체 게놈 증폭 방법의 예이다. 일부 구체예에서, 샘플은 DNA가 풍부하지 않다.
본원에 기재된 방법이 적용되는 핵산을 포함하는 샘플은 전형적으로 상기 기재된 바와 같은 생물학적 샘플( "시험 샘플")을 포함한다. 일부 구체예에서, 서열 분석될 핵산은 다수의 잘 알려진 방법에 의해 정제되거나 분리된다.
따라서, 특정 실시 양태에서, 샘플은 정제되거나 분리된 폴리뉴클레오티드를 포함하거나 본질적으로 이것으로 구성되거나, 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등과 같은 샘플을 포함할 수 있다. 적합한 생물학적 유체 샘플은 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 흐름, 림프, 타액, 뇌척수액, 폐색, 골수 현탁액, 질 흐름, 경추 세척, 뇌액, 복수, 우유, 호흡기의 분비물, 장 및 비뇨 관, 양수, 우유 및 백혈구 샘플을 포함하지만 이에 제한되지 않는다. 일부 실시 양태에서, 샘플은 비 침습적 절차, 예를 들어 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 대변, 가래, 귀 흐름, 타액 또는 대변에 의해 용이하게 수득 가능한 샘플이다. 특정 실시 양태에서, 샘플은 말초 혈액 샘플, 또는 말초 혈액 샘플의 혈장 및/또는 혈청 분획이다. 다른 구체예에서, 생물학적 샘플은 면봉 또는 도말, 생검 표본 또는 세포 배양 물이다. 다른 실시 형태에서, 샘플은 둘 이상의 생물학적 샘플의 혼합물이며, 예를 들어 생물학적 샘플은 둘 이상의 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플을 포함할 수 있다. 본원에 사용된 용어 "혈액", "혈장"및 "혈청"은 분획 또는 이의 가공된 부분을 분명히 포함한다. 유사하게, 생검, 면봉, 도말 등으로부터 샘플을 채취하는 경우, "샘플"은 생검, 면봉, 도말 등으로부터 유래된 가공된 분획 또는 부분을 명시 적으로 포함한다.
특정 실시 양태에서, 샘플은 상이한 개체로부터의 샘플, 동일하거나 상이한 개체의 상이한 발달 단계로부터의 샘플, 상이한 병에 걸린 개체(예를 들어, 유전적 장애를 가진 것으로 의심되는 개체), 정상 개체로부터의 샘플, 개체의 질환의 상이한 단계에서 얻은 샘플, 질병에 대해 다른 치료를 받는 개체에서 얻은 샘플, 다른 환경 요인을받는 개체의 샘플, 병리학 적 소인이있는 개체의 샘플 감염성 질환 제제에 노출된 개인의 샘플을 포함하는 소스로부터 얻을 수 있다.
하나의 예시이지만 비 제한적인 실시 양태에서, 샘플은 임산부, 예를 들어 임산부로부터 얻은 모체 샘플이다. 이 경우, 태아의 잠재적 염색체 이상에 대한 태아 진단을 제공하기 위해 본원에 기술된 방법을 사용하여 샘플을 분석할 수 있다. 모체 샘플은 조직 샘플, 생물학적 유체 샘플 또는 세포 샘플 일 수 있다. 생물학적 유체에는 비 제한적 예로서 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 흐름, 림프, 타액, 뇌척수액, 폐색, 골수 현탁액, 질 흐름, 경추 세척, 뇌가 포함된다. 체액, 복수, 우유, 호흡기의 분비물, 장 및 비뇨 관 및 백혈구 샘플가 포함된다.
특정 구체예에서, 샘플은 또한 시험 관내 배양된 조직, 세포, 또는 다른 폴리뉴클레오티드-함유 소스로부터 얻을 수 있다. 배양된 샘플은 상이한 배지 및 조건(예를 들어, pH, 압력 또는 온도)에서 유지되는 배양 물(예를 들어, 조직 또는 세포), 배양된 배양 물(예를 들어, 조직 또는 세포), 상이한 기간의 길이, 상이한 인자 또는 시약(예를 들어, 약물 후보 또는 조절제)으로 처리된 배양 물(예를 들어, 조직 또는 세포), 또는 상이한 유형의 조직 및/또는 세포의 배양 물을 포함하지만 이에 제한되지 않는 소스로부터 채취할 수 있다. .
생물학적 소스로부터 핵산을 분리하는 방법은 잘 알려져 있으며 소스의 성질에 따라 달라질 것이다. 당업자는 본원에 기술된 방법에 필요한 소스로부터 핵산을 용이하게 분리할 수 있다. 일부 경우에, 핵산 샘플에서 핵산 분자를 단편화하는 것이 유리할 수 있다. 단편화는 임의적 일 수 있거나, 예를 들어 제한 엔도뉴클레아 제 분해를 사용하여 달성되는 바와 같이 특이적일 수 있다. 무작위 단편화 방법은 당 업계에 잘 알려져 있으며, 예를 들어 제한된 DNA 분해, 알칼리 처리 및 물리적 전단을 포함한다.
시퀀싱 라이브러리 준비
다양한 실시 형태에서, 시퀀싱은 시퀀싱 라이브러리의 준비를 요구하는 다양한 시퀀싱 플랫폼에서 수행될 수 있다. 준비에는 일반적으로 DNA 단편화(초음파, 분무 또는 전단)에 이어, DNA 수리 및 말단 연마(블런트 엔드 또는 A 돌출부) 및 플랫폼 별 어댑터 결찰이 포함된다. 한 구체예에서, 본원에 기술된 방법은 다수의 샘플이 단일 시퀀싱 실행으로, 게놈 분자들(즉, 단일 플렉스 시퀀싱) 또는 개별적으로 인덱스된 게놈 분자(예를 들어, 다중 시퀀싱)를 포함하는 풀링된 샘플로서 서열 분석될 수 있는 차세대 시퀀싱 기술(NGS)을 이용할 수 있다. 이러한 방법은 최대 수십억 건의 DNA 서열을 생성할 수 있다. 다양한 실시 양태에서, 게놈 핵산 및/또는 인덱싱된 게놈 핵산의 서열은 예를 들어 본원에 기재된 차세대 서열 분석 기술(NGS)을 사용하여 결정될 수 있다. 다양한 실시 양태에서, NGS를 사용하여 수득된 대량의 서열 데이터의 분석은 본원에 기재된 바와 같은 하나 이상의 프로세서를 사용하여 수행될 수 있다.
다양한 실시 양태에서, 이러한 시퀀싱 기술의 사용은 시퀀싱 라이브러리의 제조를 포함하지 않는다.
그러나, 특정 실시 양태에서, 본원에서 고려되는 서열 분석 방법은 서열 분석 라이브러리의 제조를 포함한다. 하나의 예시적인 접근법에서, 시퀀싱 라이브러리 제조는 시퀀싱될 준비가된 어댑터-변형된 DNA 단편(예를 들어, 폴리뉴클레오티드)의 무작위 수집의 생성을 포함한다. 폴리 뉴클레오티드의 서열 분석 라이브러리는 DNA 또는 cDNA의 등가물, 유사체, 예를 들어 역전사 효소의 작용에 의해 RNA 템플릿으로부터 생성된 상보성 또는 카피 DNA 인 DNA 또는 cDNA의 유사체를 포함하는 DNA 또는 RNA로부터 제조될 수 있다. 폴리뉴클레오티드는 이중 가닥 형태(예를 들어, 게놈 DNA 단편, cDNA, PCR 증폭 산물 등과 같은 dsDNA)에서 유래될 수 있거나, 또는, 특정 구체예에서, 폴리뉴클레오티드는 단일 가닥 형태(예를 들어, ssDNA, RNA)에서 유래될 수 있다 등) dsDNA 형식으로 변환되었다. 예를 들어, 특정 실시 양태에서, 단일 가닥 mRNA 분자는 서열 분석 라이브러리를 제조하는데 사용하기에 적합한 이중 가닥 cDNA로 복사될 수 있다. 1 차 폴리 뉴클레오티드 분자의 정확한 서열은 일반적으로 라이브러리 제조 방법에 중요하지 않으며, 공지되거나 알려지지 않을 수 있다. 일 구현예에서, 폴리뉴클레오티드 분자는 DNA 분자이다. 보다 구체적으로, 특정 실시 양태에서, 폴리뉴클레오티드 분자는 유기체의 전체 유전자 상보체 또는 유기체의 실질적으로 전체의 유전자 상보체를 나타내고, 이는 전형적으로 인트론 서열 및 엑손 서열(코딩 서열)뿐만 아니라 프로모터 및 인핸서 서열과 같은 비 코딩 조절 서열을 포함하는 게놈 DNA 분자(예를 들어, 세포 DNA, 무 세포 DNA(cfDNA) 등)이다. 특정 실시 양태에서, 1 차 폴리뉴클레오티드 분자는 인간 게놈 DNA 분자, 예를 들어 임신 대상체의 말초 혈액에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 시퀀싱 플랫폼을 위한 시퀀싱 라이브러리의 제조는 특정 범위의 단편 크기를 포함하는 폴리뉴클레오티드의 사용에 의해 촉진된다. 이러한 라이브러리의 제조는 전형적으로 원하는 크기 범위의 폴리뉴클레오티드를 얻기 위해 큰 폴리뉴클레오티드(예를 들어, 세포 게놈 DNA)의 단편화를 포함한다.
페어드 엔드 리드는 본 명세서에 개시된 시퀀싱 방법 및 시스템에 사용될 수 있다. 단편 또는 인서트 길이가 리드 길이보다 길고 때로는 두 리드 길이의 합보다 길다.
일부 예시적인 구체예에서, 샘플 핵산(들)은 게놈 DNA로서 얻어지며, 이는 NGS 방법을 쉽게 적용할 수 있는 대략 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000 또는 5000 염기쌍보다 긴 단편으로 단편화된다. 일부 실시 양태에서, 페어링된 말단 리드는 약 100-5000 bp의 인서트로부터 수득된다. 일부 실시 양태에서, 인서트는 길이가 약 100-1000bp이다. 이것들은 때때로 일반적인 숏 인서트 페어드 엔드 리드(short-insert paired end read)으로 구현된다. 일부 실시 양태에서, 인서트는 길이가 약 1000-5000bp이다. 이것들은 때때로 위에서 설명한 것처럼 롱 인서트 메이트 페어드 리드로 구현된다.
일부 구현에서, 긴 인서트는 매우 긴 시퀀스를 평가하도록 설계된다. 일부 구현들에서, 메이트 쌍 리드들은 수천의 기본 쌍들만큼 이격된 리드들을 수득하기 위해 적용될 수 있다. 이러한 구현에서, 인서트 또는 단편은 수백 내지 수천의 염기쌍 범위이며, 인서트의 두 말단에 2 개의 비오틴 접합 어댑터가 있다. 이어서, 비오틴 접합 어댑터는 인서트의 두 말단을 연결하여 원형 화된 분자를 형성한 후, 추가로 단편화된다. 비오틴 접합 어댑터와 오리지널 인서트의 두 끝을 포함한 서브 단편은 더 짧은 단편을 시퀀싱하도록 설계된 플랫폼에서 시퀀싱을 위해 선택된다.
단편화는 당업자에게 공지된 임의의 많은 방법에 의해 달성될 수 있다. 예를 들어, 단편화는 분무, 초음파 처리 및 하이드로 시어를 포함하지만 이에 제한되지 않는 기계적 수단에 의해 달성될 수 있다. 그러나, 기계적 단편화는 전형적으로 CO, PO 및 CC 결합에서 DNA 골격을 절단하여, 부서진 CO, PO 및/ CC 결합을 가진 블런트 및 3'- 및 5'- 오버행 말단의 이종 혼합을 초래하며(예를 들어, Alnemri 및 Liwack, J Biol. Chem 265: 17323-17333 [1990]; Richards and Boyer, J Mol Biol 11: 327-240 [1965]), 이는 예를 들어, 시퀀싱을 위한 DNA를 준비하는데 필요한 시퀀싱 어댑터의 결찰과 같은, 후속 효소 반응에 필요한 5'- 포스페이트가 부족하여 수리해야할 수도 있다.
대조적으로, cfDNA는 전형적으로 약 300 개 미만의 염기쌍의 단편으로서 존재하므로, cfDNA 샘플을 사용하여 시퀀싱 라이브러리를 생성하기 위해 단편화가 전형적으로 필요하지 않다.
전형적으로, 폴리뉴클레오티드가 강제적으로 단편화되거나(예를 들어, 시험관 내에서 단편화 됨) 자연적으로 단편으로 존재하는지에 관계없이, 이들은 5'- 포스페이트 및 3'- 히드록실을 갖는 무딘 말단 DNA로 전환된다. 표준 프로토콜, 예를 들어, 도 1a 및 1b를 참조하여 상기 예시적인 워크플로우에 설명된 바와 같은 Illumina 플랫폼을 사용한 시퀀싱 프로토콜은 사용자에게 샘플 DNA를 최종 수리하도록 지시하고, 3' 말단의 dA-꼬리화 또는 아데닐화 전에 최종 수리된 생성물을 정제하도록 지시하며, 라이브러리 준비의 어댑터-결찰 단계 이전에 dA-꼬리화 산물을 정제하도록 지시한다.
본원에 기술된 서열 라이브러리 제조 방법의 다양한 실시 양태는 NGS에 의해 서열 분석될 수 있는 변형된 DNA 생성물을 수득하기 위해 표준 프로토콜에 의해 전형적으로 지시되는 하나 이상의 단계를 수행할 필요성을 제거한다. 약식 방법(ABB 방법), 1 단계 방법 및 2 단계 방법은 시퀀싱 라이브러리의 제조 방법의 예이며, 이는 2012 년 7 월 20 일에 출원된 미국특허 출원 제13/555,037호에서 찾아 볼 수 있다. 그 전체가 참고로 포함된다.
시퀀싱 방법
본 명세서에 기술된 방법 및 장치는 대규모 시퀀싱을 허용하는 차세대 시퀀싱 기술(NGS)을 이용할 수 있다. 특정 실시 양태에서, 클론 증폭된 DNA 템플릿 또는 단일 DNA 분자는 유동 세포 내에서 대규모 병렬 방식으로 서열 분석된다(예를 들어, Volkerding et al. Clin Chem 55: 641-658 [2009]; Metzker M Nature Rev 11: 31-46 [2010]). NGS의 시퀀싱 기술에는 파이로 시퀀싱, 가역성 염료 종결자를 사용한 합성에 의한 시퀀싱, 올리고 뉴클레오티드 프로브 결찰에 의한 시퀀싱 및 이온 반도체 시퀀싱이 포함 되나 이에 제한되지는 않는다. 개별 샘플로부터의 DNA는 개별적으로 시퀀싱될 수 있고(즉, 단일 플렉스 시퀀싱) 또는 다수의 샘플로부터의 DNA는 풀링되어 단일 시퀀싱 실행에서 인덱싱된 게놈 분자(즉, 멀티 플렉스 시퀀싱)로서 시퀀싱되어 최대 수억의 DNA 서열 리드를 생성할 수 있다. 본 발명의 방법에 따라 서열 정보를 수득하기 위해 사용될 수 있는 서열 분석 기술의 예는 추가로 설명된다.
Affymetrix Inc.(Sunnyvale, 캘리포니아)의 하이브리드화에 의한 시퀀싱 플랫폼, 및 454 Life Sciences(Bradford, 코네티컷), Illumina/Solexa (Hayward, 캘리포니아), 및 Helicos Biosciences(Cambridge, 메사츄세츠)의 합성에 의한 시퀀싱 플랫폼, 및 Applied Biosystems(Foster City, 캘리포니아)의 결찰에 의한 시퀀싱 플랫폼과 같이, 소정의 시퀀싱 기술이 가용하다. Helicos Biosciences의 합성에 의한 시퀀싱에 의해 수행된 단일 분자 시퀀싱 이외에, 다른 단일 분자 시퀀싱 기술에는 Pacific Biosciences의 SMRT ™ 기술, ION TORRENTTM 기술 및, 예를 들어, Oxford Nanopore Technologies 사에서 개발한 나노 포어 시퀀싱이 포함 되나 이에 제한되지 않는다.
자동화된 Sanger 방법은 '제 1 세대'기술로 간주되지만, 자동화된 Sanger 시퀀싱을 포함하는 Sanger 시퀀싱은 본 명세서에 기술된 방법에도 사용될 수 있다. 추가의 적합한 시퀀싱 방법은 핵산 이미징 기술, 예를 들어 원자력 현미경(AFM) 또는 투과 전자 현미경(TEM)을 포함하지만 이에 제한되지는 않는다. 예시적인 시퀀싱 기술은 아래에보다 상세하게 기술되어있다.
일부 구현예에서, 개시된 방법은 Illumina의 합성에 의한 시퀀싱 및 가역적 종결자-기반 시퀀싱 화학법(예를 들어, Bentley et al., Nature 6:53-59 [2009] 기재 참고)을 이용하여 수백만개의 DNA 단편의 대량 병렬 시퀀싱에 의해 검사 샘플 내 핵산에 대한 서열 정보를 수득하는 과정을 포함한다. 템플릿 DNA는 게놈 DNA, 예를 들어 세포 DNA 또는 cfDNA 일 수 있다. 일부 실시 양태에서, 단리된 세포로부터의 게놈 DNA가 템플릿으로서 사용되며, 수백 개의 염기쌍의 길이로 단편화된다. 다른 실시 양태에서, cfDNA 또는 순환 종양 DNA(ctDNA)가 템플릿으로 사용되며, cfDNA 또는 ctDNA가 짧은 단편으로 존재하므로 단편화가 필요하지 않다. 예를 들어, 태아 cfDNA는 길이가 약 170 개 염기쌍(bp)인 단편으로서 혈류에서 순환하며(Fan et al., Clin Chem 56: 1279-1286 [2010]), 시퀀싱 전에 DNA의 단편화는 필요하지 않다. Illumina의 시퀀싱 기술은 올리고 뉴클레오티드 앵커가 결합된 평면의 광학적으로 투명한 표면에 단편화된 게놈 DNA의 부착에 의존한다. 5'- 포스포 릴화된 무딘 말단을 생성하기 위해 템플릿 DNA를 최종 수리하고, Klenow 단편의 중합 효소 활성을 사용하여 무딘 포스포릴화된 DNA 단편의 3' 말단에 단일 A 염기를 첨가한다. 이 첨가는 3' 말단에 단일 T 염기의 오버행이 결찰 효율을 증가시키기 위해 올리고 뉴클레오티드 어댑터에 대한 결찰을 위해 DNA 단편을 준비한다. 어댑터 올리고 뉴클레오티드는 유동 세포 앵커 올리고에 상보 적이다. 제한 희석 조건 하에서, 어댑터-변형된 단일 가닥 템플릿 DNA가 플로우 셀에 첨가되고 하이브리드 올리고에 의해 앵커 올리고에 고정화된다. 부착된 DNA 단편은 연장되고 브릿지 증폭되어 각각 약 1,000 개의 동일한 템플릿을 포함하는 수억 개의 클러스터를 갖는 초 고밀도 시퀀싱 플로우 셀을 생성한다.한 구체예에서, 무작위 단편화된 게놈 DNA는 클러스터 증폭되기 전에 PCR을 사용하여 증폭된다. 대안 적으로, 증폭이없는 게놈 라이브러리 제조가 사용되며, 무작위 단편화된 게놈 DNA는 클러스터 증폭만을 사용하여 풍부화된다(Kozarewa et al., Nature Methods 6: 291-295 [2009]). 일부 응용 분야에서, 템플릿은 제거 가능한 형광 염료와 함께 가역적 종결자를 사용하는 강력한 4 색 DNA 시퀀싱 바이 합성 기술을 사용하여 시퀀싱된다. 레이저 여기 및 전체 내부 반사 광학을 사용하여 고감도 형광 검출이 달성된다. 약 10 내지 수백 개의 염기쌍의 짧은 서열 리드는 기준 게놈에 대해 정렬되고, 짧은 서열 리드의 기준 게놈에 대한 고유한 맵핑은 특별히 개발된 데이터 분석 파이프 라인 소프트웨어를 사용하여 식별된다. 첫 번째 리드가 완료된 후, 단편의 반대쪽 끝에서 두 번째 리드를 가능하게하기 위해 템플릿을 현장에서 재생성할 수 있다. 따라서, DNA 단편의 단일-말단 또는 짝-말단 서열 분석이 사용될 수 있다.
본 개시 내용의 다양한 실시 양태는 페어드 말단 시퀀싱을 허용하는 합성에 의한 시퀀싱을 사용할 수 있다. 일부 실시 양태에서, Illumina에 의한 합성 플랫폼에 의한 시퀀싱은 클러스터링 단편을 포함한다. 클러스터링은 각 단편 분자가 등온 적으로 증폭되는 프로세스이다. 일부 실시 양태에서, 본원에 기재된 예와 같이, 단편은 단편의 2 개의 말단에 부착된 2 개의 상이한 어댑터를 가지며, 어댑터는 단편이 플로우 셀 레인의 표면상의 2 개의 상이한 올리고와 혼성화되도록한다. 단편은 단편의 두 말단에서 2 개의 인덱스 서열을 추가로 포함하거나 이에 연결되며, 이 인덱스 서열은 다중 서열 분석에서 상이한 샘플을 식별하기 위한 표지를 제공한다. 일부 시퀀싱 플랫폼에서, 양 말단으로부터 시퀀싱되는 단편을 인서트로 지칭하기도한다.
일부 구현에서, 일루미네이션 플랫폼에서의 클러스터링을 위한 플로우 셀은 레인을 갖는 유리 슬라이드이다. 각 레인은 두 가지 유형의 올리고(예: P5 및 P7' 올리고) 론(lawn)으로 코팅된 유리 채널이다. 표면에 있는 두 가지 유형의 올리고 중 첫 번째로 혼성화가 가능한다. 이 올리고는 단편의 한쪽 끝에 있는 첫 번째 어댑터를 보완한다. 폴리머라제는 혼성화된 단편의 상보 가닥을 생성한다. 이중 가닥 분자가 변성되고, 원래 템플릿 가닥이 세척된다. 나머지 많은 가닥과 평행한 나머지 가닥은 브리지 적용을 통해 클론 증폭된다.
클러스터링을 포함하는 브릿지 증폭 및 다른 시퀀싱 방법에서, 가닥이 접히고, 가닥의 제 2 단부상의 제 2 어댑터 영역은 플로우 셀 표면상의 제 2 유형의 올리고와 혼성화된다. 폴리머라제는 상보적 가닥을 생성하여 이중 가닥 브리지 분자를 형성한다. 이 이중 가닥 분자는 변성되어 두 개의 단일 가닥 분자가 두 개의 다른 올리고를 통해 플로우 셀에 연결된다. 이 과정은 계속 반복되고 수백만 개의 클러스터에 대해 동시에 발생하여 모든 단편의 클론 증폭이 발생한다. 브릿지 증폭 후, 리버스 가닥은 절단되고 세척되어 포워드 가닥 만 남는다. 원치 않는 프라이밍을 방지하기 위해 3' 말단이 차단되었다.
클러스터링 후, 시퀀싱은 제 1 시퀀싱 프라이머를 연장하여 제 1 리드를 생성하는 것으로 시작된다. 각주기마다, 형광 태그된 뉴클레오티드는 성장하는 사슬에 추가하기 위해 경쟁한다. 템플릿 순서에 따라 하나만 통합된다. 각각의 뉴클레오티드의 첨가 후에, 클러스터는 광원에 의해 여기되고, 특징적인 형광 신호가 방출된다. 사이클 수에 따라 리드 길이가 결정된다. 방출 파장과 신호 강도에 따라 기본 호출이 결정된다. 주어진 클러스터에 대해 모든 동일한 가닥이 동시에 읽힌다. 수백 만 개의 클러스터가 대규모 병렬 방식으로 시퀀싱된다. 첫 번째 리드가 완료되면 리드된 제품이 세척된다.
2 개의 인덱스 프라이머를 포함하는 다음 단계의 프로토콜에서, 인덱스 1 프라이머가 도입되고 템플릿상의 인덱스 1 영역에 하이브리드 화된다. 인덱스 영역은 조각을 식별하여 de-mux에 유용한다. 인덱스 1 리드는 제 1 리드와 유사하게 생성된다. 인덱스 1 리드 완료 후, 리드된 산물은 세척되고, 가닥의 3' 말단이 보호해제된다. 그 후 템플릿 가닥이 플로우 셀 상에서 제 2 올리고에 덮혀 결합된다. 인덱스 2 서열이 인덱스 1과 같은 방식으로 리드된다. 그 후 인덱스 2 리드 산물이 이 단계 완료후에 세척된다.
2 개의 지수를 리드한 후, 리드 2는 폴리머라제를 사용하여 제 2 유동 세포 올리고를 연장시켜 이중 가닥 브리지를 형성함으로써 개시된다. 이 이중 가닥 DNA는 변성되고 3' 말단은 차단된다. 원래의 포워드 가닥은 쪼개지고 세척되어 리버스 가닥이 남는다. 리드 2는 리드 2 시퀀싱 프라이머의 도입으로 시작된다. 리드 1에서와 같이, 시퀀싱 단계는 원하는 길이에 도달할 때까지 반복된다. 리드된 2 생성물이 세척된다. 이 전체 프로세스는 모든 조각을 나타내는 수백만 개의 리드를 생성한다. 풀링된 샘플 라이브러리의 시퀀스는 샘플 준비 중에 도입된 고유한 인덱스를 기반으로 분리된다. 각 샘플에 대해 비슷한 레벨의 기본 호출 리드가 로컬로 클러스터된다. 순방향 및 역방향 리드는 쌍을 이루어 연속적인 시퀀스를 생성한다. 이들 연속 서열은 변이체 식별을 위해 참조 게놈에 정렬된다.
전술한 합성 예에 의한 시퀀싱은 개시된 방법의 많은 실시 양태에서 사용되는 페어드 엔드 리드를 포함한다. 페어드 엔드 시퀀싱에는 단편의 두 끝에서 2 번의 리드가 포함된다. 페어드 끝 리드는 모호한 정렬을 해결하는 데 사용된다. 페어드 엔드 시퀀싱을 통해 사용자는 인서트의 길이(또는 시퀀싱할 단편)와 인서트의 끝을 시퀀싱하여 고품질의 정렬 가능한 시퀀스 데이터를 생성할 수 있다. 각 쌍의 리드 사이의 거리가 알려져 있기 때문에 정렬 알고리즘은이 정보를 사용하여 반복 영역에 대한 리드를보다 정확하게 매핑할 수 있다. 이로 인해 특히 게놈의 순서가 까다 롭고 반복적 인 영역에 걸쳐 리드의 정렬이 향상된다. 페어드 엔드 시퀀싱은 삽입 및 삭제(인델) 및 반전을 포함한 재 배열을 감지할 수 있다.
페어드 엔드 리드는 상이한 길이(즉, 시퀀싱될 상이한 단편 크기)의 삽입을 사용할 수 있다. 본 개시에서 디폴트 의미로서, 페어드 엔드 리드는 다양한 인서트 길이로부터 얻어진 리드를 지칭하는데 사용된다. 일부 예에서, 짧은 삽입 쌍 종단 리드를 긴 삽입 쌍 종단 리드와 구별하기 위해, 특히 마지막 쌍을 메이트 쌍 리드가라고한다. 메이트 쌍 리드를 수반하는 일부 실시 양태에서, 2 개의 비오틴 접합 어댑터가 먼저 비교적 긴 인서트(예를 들어, 수 kb)의 2 개의 말단에 부착된다. 비오틴 접합 어댑터는이어서 인서트의 두 말단을 연결하여 원형 분자를 형성한다. 이어서, 원형 화된 분자를 추가로 단편화함으로써 비오틴 접합 어댑터를 포함하는 하위 단편이 수득될 수 있다. 그 후, 반대 순서의 순서로 원래 단편의 두 말단을 포함하는 하위 단편은 상기 기재된 짧은 삽입 쌍단 말단 시퀀싱과 동일한 절차에 의해 시퀀싱될 수 있다. Illumina 플랫폼을 사용한 메이트 쌍 시퀀싱에 대한 자세한 내용은 다음 주소의 온라인 간행물에 나와 있으며, 이 주소는 전체 내용이 참조로 포함되어 있다. res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf
DNA 단편의 서열 분석 후, 미리 결정된 길이, 예를 들어 100 bp의 서열 리드는 공지된 기준 게놈에 맵핑(정렬)함으로써 국소화된다. 참조된 시퀀스에서 매핑된 리드 및 해당 위치를 태그라고도한다. 절차의 다른 실시예에서, 국소화는 k-mer 공유 및 리드-리드 정렬에 의해 실현된다. 본 명세서에 개시된 많은 실시예의 분석은 정렬된 리드(태그)뿐만 아니라 정렬이 불량하거나 정렬될 수없는 리드를 사용한다.한 구체예에서, 참조 게놈 서열은 NCBI36/hg18 서열이며, 이는 월드 와이드 웹(World Wide Web)(genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)에서 이용 가능하다. 대안 적으로, 참조 게놈 서열은 GRCh37/hg19 또는 GRCh38이며, 이는 월드 와이드 웹(genome.ucsc.edu/cgi-bin/hgGateway)에서 이용 가능하다. 공개 서열 정보의 다른 출처로는 GenBank, dbEST, dbSTS, EMBL(유럽 분자 생물학 연구소) 및 DDBJ(DNAJ 일본)가 있다. BLAST(Altschul et al., 1990), BLITZ(MPsrch)(Sturrock & Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE(Langmead et al. , Genome Biology 10: R25.1-R25.10 [2009]), 또는 ELAND(Illumina, Inc., San Diego, CA, USA)를 제한없이 포함하는, 많은 컴퓨터 알고리즘이 서열 정렬에 가용하다. 일 실시예에서, 혈장 cfDNA 분자의 클론적으로 확장된 카피의 한쪽 말단은 일루미나 게놈 분석기를위한 바이오 인포 매틱스 정렬 분석에 의해 시퀀싱되고 처리되는데, 이는 Efficient Large-Scale Alignment of Nucleotide Databases (ELAND) 소프트웨어를 사용한다.
다른 서열 분석 방법이 또한 서열 리드 및 이의 정렬을 얻기 위해 사용될 수 있다. 추가의 적합한 방법은 2016 년 4 월 15 일자로 출원된 미국 특허 출원 번호 제 15/130,668 호에 기술되어 있으며, 이는 그 전문이 본원에 참조로 포함된다.
본원에 기재된 방법의 일부 실시 양태에서, 서열 리드는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp 또는 약 500bp 이다. 기술적인 발전으로 페어드 엔드 리드가 생성될 때 약 500bp 이상의 단일 엔드 리드가 가능해 약 1000bp 이상의 리드가 가능할 것으로 예상된다. 일부 실시 양태에서, 약 20bp 내지 1000bp, 약 50bp 내지 500bp, 또는 80bp 내지 150bp 인 서열 리드를 포함하는 관심있는 서열을 결정하기 위해 페어드 엔드 리드가 사용된다. 다양한 실시예에서, 페어드 엔드 리드는 관심 서열을 평가하는 데 사용된다. 관심 서열은 리드보다 길다. 일부 실시 양태에서, 관심 서열은 약 100bp, 500bp, 1000bp 또는 4000bp보다 길다. 서열 리드의 맵핑은 리드된 서열을 참조 서열과 비교하여 서열화된 핵산 분자의 염색체 기원을 결정함으로써 달성되며, 특이 적 유전자 서열 정보는 필요하지 않다. 소량의 미스 매치(리드 당 0-2 개의 미스 매치)가 혼합된 샘플에서 기준 게놈과 게놈 사이에 존재할 수 있는 작은 다형성을 설명하도록 허용될 수 있다. 일부 실시예들에서, 기준 시퀀스에 정렬된 리드는 앵커 리드로서 사용되고, 리드를 앵커 리드와 쌍을 이루지 만 기준에 정렬할 수 없거나 잘못 정렬될 수없는 앵커는 리드로서 사용된다. 일부 실시예에서, 잘못 정렬된 리드는 리드 당 비교적 많은 수의 미스 매치 백분율, 예를 들어, 리드 당 약 5 % 이상, 약 10 % 이상, 약 15 % 이상, 또는 약 20 % 이상 불일치를 가질 수 있다.
복수의 서열 태그(즉, 참조 서열에 정렬된 리드)는 전형적으로 샘플 당 수득된다. 일부 실시 양태에서, 적어도 약 3 x 106 서열 태그, 적어도 약 5 x 106 서열 태그, 적어도 약 8 x 106 서열 태그, 적어도 약 10 x 106 서열 태그, 적어도 약 15 x 106 서열 태그, 리드 값을 기준에 맵핑함으로써, 약 20 x 106 개 이상의 서열 태그, 약 30 x 106 개 이상의 서열 태그, 약 40 x 106 개 이상의 서열 태그, 또는 예를 들어 100bp 이상의 약 50 x 106 개 서열 태그가 수득된다. 샘플 당 게놈. 일부 실시 양태에서, 모든 서열 리드는 게놈 전체 리드를 제공하여 참조 게놈의 모든 영역에 맵핑된다. 다른 실시예에서, 리드는 관심 서열에 매핑된다.
UMI를 사용한 시퀀싱 장치 및 시스템
명백한 바와 같이, 본 발명의 특정 실시예는 하나 이상의 컴퓨터 시스템에 저장되거나 하나 이상의 컴퓨터 시스템을 통해 전송되는 명령 및/또는 데이터의 제어하에 동작하는 프로세스를 사용한다. 특정 실시예는 또한 이들 동작을 수행하기 위한 장치에 관한 것이다. 이 장치는 요구되는 목적을 위해 특별히 설계 및/또는 구성될 수 있거나, 컴퓨터에 저장되거나 컴퓨터에 이용 가능하게되는 하나 이상의 컴퓨터 프로그램 및/또는 데이터 구조에 의해 선택적으로 구성되는 범용 컴퓨터 일 수 있다. 특히, 다양한 범용 기계가 본 명세서의 교시에 따라 작성된 프로그램과 함께 사용될 수 있거나, 필요한 방법 단계를 수행하기 위해보다 특화된 장치를 구성하는 것이 더 편리할 수 있다. 다양한 이들 기계에 대한 특정 구조가 아래에 도시되고 기술되어있다.
특정 실시예는 본 명세서에 기술된 바와 같이 생성된 결과(예를 들어, 질의 결과) 또는 데이터 구조 중 임의의 것을 저장하기 위한 기능성(예를 들어, 코드 및 프로세스)을 제공한다. 이러한 결과 또는 데이터 구조는 전형적으로 컴퓨터 판독 가능 매체에 적어도 일시적으로 저장된다. 결과 또는 데이터 구조는 또한 디스플레이, 인쇄 등과 같은 다양한 방식으로 출력될 수 있다.
컴퓨터 프로그램 제품 및 본 발명의 계산 장치를 사용하기에 적합한 유형의 컴퓨터 판독 가능 매체의 예는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체; CD-ROM 디스크와 같은 광학 매체; 광 자기 매체; ROM(read-only memory device) 및 RAM(random access memory) 및 때로는 ASIC(application-specific integrated circuit)과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 반도체 메모리 장치(예: 플래시 메모리) 및 하드웨어 장치), 프로그래머블 로직 디바이스(PLD) 및 근거리 통신망, 광역 통신망 및 인터넷과 같은 컴퓨터 판독 가능 명령을 전달하기 위한 신호 전송 매체를 포함하지만 이에 제한되지 않는다. 본 명세서에 제공된 데이터 및 프로그램 명령은 또한 반송파 또는 다른 전송 매체(전자 또는 광학 전도성 경로를 포함) 상에 구현될 수 있다. 본 발명의 데이터 및 프로그램 명령은 또한 반송파 또는 다른 전송 매체(예를 들어, 광선, 전선 및/또는 전파) 상에 구현될 수 있다.
프로그램 명령의 예는 컴파일러에 의해 생성된 것과 같은 저레벨 코드뿐만 아니라, 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 고레벨 코드를 포함한다. 또한, 프로그램 명령은 머신 코드, 소스 코드 및/또는 컴퓨팅 머신의 동작을 직접 또는 간접적으로 제어하는 임의의 다른 코드 일 수 있다. 코드는 입력, 출력, 계산, 조건부, 분기, 반복 루프 등을 지정할 수 있다.
시퀀싱 데이터의 분석 및 이로부터 유래된 진단은 전형적으로 다양한 컴퓨터 실행 알고리즘 및 프로그램을 사용하여 수행된다. 따라서, 특정 실시예는 하나 이상의 컴퓨터 시스템 또는 다른 처리 시스템에 저장되거나이를 통해 전송되는 데이터를 포함하는 프로세스를 사용한다. 본 명세서에 개시된 실시예는 또한 이러한 동작을 수행하기 위한 장치에 관한 것이다. 이 장치는 필요한 목적을 위해 특별히 구성될 수 있거나, 컴퓨터에 저장된 컴퓨터 프로그램 및/또는 데이터 구조에 의해 선택적으로 활성화 또는 재구성되는 범용 컴퓨터(또는 컴퓨터 그룹) 일 수 있다. 일부 실시예에서, 프로세서 그룹은 인용된 분석 동작 중 일부 또는 전부를 협력 적으로(예를 들어, 네트워크 또는 클라우드 컴퓨팅을 통해) 및/또는 병렬로 수행한다. 본 명세서에 기술된 방법을 수행하기 위한 프로세서 또는 프로세서 그룹은 프로그래밍 가능한 장치(예를 들어, CPLD 및 FPGA)와 같은 마이크로 컨트롤러 및 마이크로 프로세서 및 게이트 어레이 ASIC 또는 범용 마이크로 프로세서와 같은 프로그래밍 불가능한 장치를 포함하는 다양한 유형일 수 있다.
한 구현은 핵산을 포함하는 시험 샘플에서 낮은 대립 유전자 빈도를 갖는 서열을 결정하는데 사용하기 위한 시스템을 제공하며, 상기 시스템은 핵산 샘플을 수신하고 샘플로부터 핵산 서열 정보를 제공하기 위한 시퀀서; 프로세서; 및(a) 샘플에서 DNA 단편에 어댑터를 적용하여 DNA-어댑터 산물을 수득하는 단계로서 비 랜덤 고유 분자 인덱스, 및 여기서 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며 가변 길이 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성하고;(b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계;(c) 시퀀서를 사용하여 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, vNRUMI 세트와 관련된 복수의 리드 값을 수득하는 단계;(d) 프로세서에 의해 및 복수의 리드 중에서, 동일한 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)와 관련된 리드를 식별하는 단계; 및(e) 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 수행함으로써 검사 샘플 내 관심 서열을 결정하도록 상기 프로세서 상의 실행을 위한 명령어를 저장한 기계 판독이능 저장 매체를 포함한다. .
본원에 제공된 임의의 시스템의 일부 실시 양태에서, 시퀀서는 차세대 시퀀싱(NGS)을 수행하도록 구성된다. 일부 구체예에서, 시퀀서는 가역적 염료 종결자와의 합성에 의한 시퀀싱을 사용하여 대규모 병렬 시퀀싱을 수행하도록 구성된다. 다른 실시예들에서, 시퀀서는 결찰에 의한 시퀀싱을 수행하도록 구성된다. 또 다른 구체예에서, 시퀀서는 단일 분자 시퀀싱을 수행하도록 구성된다.
다른 구현은 핵산 합성기, 프로세서, 및 시퀀싱 어댑터를 준비하기 위해 상기 프로세서에서 실행하기 위한 명령어를 저장한 기계 판독 가능 저장 매체를 포함하는 시스템을 제공한다. 명령어는 (a) 프로세서에 의해 2 개 이상의 상이한 분자 길이를 갖는 올리고 뉴클레오티드 서열 세트를 제공하는 단계;(b) 올리고 뉴클레오티드 서열 세트로부터 올리고 뉴클레오티드 서열의 서브 세트를 프로세서에 의해 선택하는 단계 - 올리고 뉴클레오티드 서열의 서브 세트의 올리고 뉴클레오티드 서열들 사이의 모든 편집 거리는 임계 값을 만족하고, 이러한 올리고 뉴클레오티드 서열의 서브 세트는 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI) 세트를 형성함; 및 (c) 핵산 합성기를 사용하여 복수의 시퀀싱 어댑터를 합성하는 단계를 포함하며, 각각의 시퀀싱 어댑터는 이중 가닥 혼성화된 영역, 단일 가닥 5' 아암, 단일 가닥 3' 아암, 및 vNRUMI 세트 중 적어도 하나의 vNRUMI를 포함한다.
또한, 특정 실시예는 다양한 컴퓨터 구현 동작을 수행하기 위한 프로그램 명령 및/또는 데이터(데이터 구조 포함)를 포함하는 유형 및/또는 비 일시적 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품에 관한 것이다. 컴퓨터 판독 가능 매체의 예는 반도체 메모리 장치, 디스크 드라이브와 같은 자기 매체, 자기 테이프, CD와 같은 광학 매체, 광 자기 매체, 및 ROM(read-only memory devices) 및 RAM(random access memory)과 같은 프로그램 명령dfm 저장 및 수행하도록 구성된 하드웨어 장치를 포함하지만 이에 제한되지는 않는다. 컴퓨터 판독 가능 매체는 최종 사용자에 의해 직접 제어될 수 있거나 매체는 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어되는 매체의 예는 사용자 시설에 위치한 매체 및/또는 다른 엔티티와 공유되지 않는 매체를 포함한다. 간접적으로 제어되는 미디어의 예로는 외부 네트워크 및/또는 "클라우드"와 같은 공유 리소스를 제공하는 서비스를 통해 사용자가 간접적으로 액세스할 수 있는 미디어가 있다. 프로그램 명령어의 예로는 컴파일러에서 생성한 것과 같은 머신 코드, 및 통역사를 사용하여 컴퓨터에 의해 실행될 수 있는 상위 레벨 코드를 포함하는 파일.
다양한 실시예에서, 개시된 방법 및 장치에 사용된 데이터 또는 정보는 전자 형식으로 제공된다. 이러한 데이터 또는 정보는 핵산 샘플, 참조 서열(단독 또는 주로 다형성을 제공하는 참조 서열 포함), 암 진단 호출, 상담 권고, 진단 등과 같은 호출로부터 유도된 리드 및 태그를 포함할 수 있다. 본 명세서에 사용된 바와 같이, 전자 포맷으로 제공된 데이터 또는 다른 정보는 기계에 저장하고 기계 사이의 전송을 위해 이용 가능하다. 통상적으로, 전자 포맷의 데이터는 디지털 방식으로 제공되며 다양한 데이터 구조,리스트, 데이터베이스 등에 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적으로, 광학적으로 구현될 수 있다.
일 구현예는 시험 샘플에서 관심 DNA 단편의 서열을 나타내는 출력을 생성하기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 전술한 관심 서열을 결정하기 위한 전술한 방법 중 임의의 하나 이상을 수행하기 위한 명령을 포함할 수 있다. 설명된 바와 같이, 컴퓨터 제품은 프로세서가 관심 서열을 결정할 수 있게하기 위해 컴퓨터 실행 가능 또는 컴파일 가능 로직(예를 들어, 명령)이 기록된 비 일시적 및/또는 유형의 컴퓨터 판독 가능 매체를 포함할 수 있다. 일 예에서, 컴퓨터 제품은 프로세서가 상태를 진단하거나 관심 핵산 서열을 결정할 수 있도록하기 위해 컴퓨터 실행 가능 또는 컴파일 가능 논리(예를 들어, 명령)가 기록된 컴퓨터 판독 가능 매체를 포함한다.
어떤 도움없이 인간이 본원에 개시된 방법의 계산 동작을 수행하는 것은 실용적이지 않거나 심지어 대부분의 경우에 가능하지 않다는 것을 이해해야한다. 예를 들어, 샘플에서 단일 30 bp 리드 값을 인간 염색체 중 하나에 매핑하려면 계산 장치의 도움없이 수년간의 노력이 필요할 수 있다. 물론, 낮은 대립 유전자 빈도 돌연변이의 신뢰할 수 있는 호출은 일반적으로 하나 이상의 염색체에 수천(예를 들어, 적어도 약 10,000) 또는 심지어 수백만 리드를 맵핑해야하기 때문에 문제가 복잡해진다.
본원에 개시된 방법은 시험 샘플에서 관심 서열을 결정하기 위한 시스템을 사용하여 수행될 수 있다. 시스템은 (a) 샘플로부터 핵산 서열 정보를 제공하는 시험 샘플로부터 핵산을 수용하기 위한 시퀀서; (b) 프로세서; 및 (c) 상기 테스트 샘플에서 관심 서열을 결정하기 위해 상기 프로세서상에서 실행하기 위한 명령들을 저장한 하나 이상의 컴퓨터 판독 가능한 저장 매체를 포함하는, 컴퓨터 판독 가능 매체를 포함할 수 있다. 일부 실시예에서, 방법은 관심 서열을 결정하기 위한 방법을 수행하기 위한 컴퓨터 판독 가능 명령이 저장된 컴퓨터 판독 가능 매체에 의해 지시된다. 따라서, 일 실시예는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때 컴퓨터 시스템으로 하여금 검사 샘플 내 핵산 단편의 서열을 결정하는 방법을 구현하게하는 프로그램 코드를 저장하는 비 일시적 기계 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 프로그램 코드는 (a) 복수의 증폭된 폴리 뉴클레오티드의 복수의 리드 값을 수득하기 위한 코드 - 복수의 증폭된 폴리 뉴클레오티드의 각각의 폴리 뉴클레오티드는 DNA 단편에 부착된 어댑터를 포함하며, 여기서 어댑터는 비 랜덤 고유 분자 인덱스를 포함하고, 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성하고;(b) 복수의 리드 중에서, 동일한 vNRUMI와 관련된 리드를 식별하기 위한 코드; 및(c) 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하기 위한 코드를 포함할 수 있다.
일부 실시예에서, 프로그램 코드 또는 명령어는 방법과 관련된 정보를 자동으로 기록하는 단계를 더 포함할 수 있다. 환자의 의료 기록은 예를 들어 실험실, 의사 사무실, 병원, 건강 관리 기관, 보험 회사 또는 개인 의료 기록 웹 사이트에 의해 유지될 수 있다. 또한, 프로세서 구현 분석의 결과에 기초하여, 방법은 시험 샘플을 채취한 인간 대상의 치료를 처방, 개시 및/또는 변경하는 단계를 추가로 포함할 수 있다. 여기에는 피험자로부터 채취한 추가 시료에 대해 하나 이상의 추가 검사 또는 분석이 수행될 수 있다.
개시된 방법은 또한 관심 서열을 결정하기 위한 방법을 수행하도록 구성되거나 구성된 컴퓨터 처리 시스템을 사용하여 수행될 수 있다. 일 실시예는 본 명세서에 기술된 바와 같은 방법을 수행하도록 적응되거나 구성된 컴퓨터 처리 시스템을 제공한다.한 구체예에서, 상기 장치는 본원의 다른 곳에 기술된 서열 정보의 유형을 얻기 위해 샘플에서 핵산 분자의 적어도 일부를 시퀀싱하도록 적응되거나 구성된 시퀀싱 장치를 포함한다. 장치는 또한 샘플을 처리하기 위한 구성 요소를 포함할 수 있다. 이러한 구성 요소는 본원의 다른 곳에 기술되어있다.
시퀀스 또는 다른 데이터는 컴퓨터에 입력되거나 컴퓨터 판독 가능 매체에 직접 또는 간접적으로 저장될 수 있다.한 구체예에서, 컴퓨터 시스템은 샘플로부터 핵산의 서열을 리드 및/또는 분석하는 서열 분석 장치에 직접 연결된다. 이러한 도구의 시퀀스 또는 기타 정보는 컴퓨터 시스템의 인터페이스를 통해 제공된다. 대안 적으로, 시스템에 의해 처리된 시퀀스는 데이터베이스 또는 다른 저장소와 같은 시퀀스 저장 소스로부터 제공된다. 처리 장치에 이용 가능 해지면, 메모리 장치 또는 대용량 저장 장치는 적어도 일시적으로 핵산 서열을 완충 또는 저장한다. 또한, 메모리 장치는 다양한 염색체 또는 게놈 등에 대한 태그 카운트를 저장할 수 있다. 메모리는 또한 제시하는 서열 또는 맵핑된 데이터를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이러한 프로그램/루틴에는 통계 분석 등을 수행하기 위한 프로그램이 포함될 수 있다.
일 예에서, 사용자는 샘플을 시퀀싱 장치에 제공한다. 데이터는 컴퓨터에 연결된 시퀀싱 장치에 의해 수집 및/또는 분석된다. 컴퓨터의 소프트웨어를 통해 데이터 수집 및/또는 분석이 가능한다. 데이터는 저장하거나(모니터 또는 기타 유사한 장치를 통해) 표시하거나 다른 위치로 보낼 수 있다. 컴퓨터는 인터넷에 연결되어 원격 사용자(예를 들어, 의사, 과학자 또는 분석가)에 의해 이용되는 핸드 헬드 장치로 데이터를 전송하는데 사용된다. 데이터는 전송 전에 저장 및/또는 분석될 수 있는 것으로 이해된다. 일부 실시예에서, 미가공 데이터는 수집되어 데이터를 분석 및/또는 저장할 원격 사용자 또는 장치로 전송된다. 전송은 인터넷을 통해 발생할 수 있지만 위성 또는 기타 연결을 통해 발생할 수도 있다. 대안 적으로, 데이터는 컴퓨터 판독 가능 매체에 저장될 수 있고 매체는(예를 들어, 메일을 통해) 최종 사용자에게 배송될 수 있다. 원격 사용자는 건물, 도시, 주, 국가 또는 대륙을 포함하지만 이에 제한되지 않는 동일하거나 다른 지리적 위치에 있을 수 있다.
일부 구체예에서, 방법은 또한 복수의 폴리뉴클레오티드 서열(예를 들어, 리드, 태그 및/또는 참조 염색체 서열)에 관한 데이터를 수집하고 데이터를 컴퓨터 또는 다른 계산 시스템으로 보내는 단계를 포함한다. 예를 들어, 컴퓨터는 실험실 장비, 예를 들어 샘플 수집 장치, 뉴클레오티드 증폭 장치, 뉴클레오티드 서열 분석 장치 또는 혼성화 장치에 연결될 수 있다. 그런 다음 컴퓨터는 실험실 장치에서 수집한 적용 가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계, 예를 들어 실시간으로, 전송 전, 전송 중, 전송 중 또는 전송과 관련하여 또는 전송 후에 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터 판독 가능 매체에 저장될 수 있다. 수집되거나 저장된 데이터는 예를 들어 로컬 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 컴퓨터로부터 원격 위치로 전송될 수 있다. 원격 위치에서, 후술된 바와 같이 전송된 데이터에 대해 다양한 동작이 수행될 수 있다.
본 명세서에 개시된 시스템, 장치 및 방법에 저장, 전송, 분석 및/또는 조작될 수 있는 전자적으로 포맷된 데이터의 유형 중에는 다음이있다:
테스트 샘플에서 핵산을 시퀀싱하여 얻은 리드
리드를 참조 게놈 또는 다른 참조 서열에 정렬하여 얻은 태그
기준 게놈 또는 서열
영향을 받거나 영향을받지 않거나 호출이없는 것으로 테스트 샘플을 호출하기 위한 임계 값
관심 순서와 관련된 의학적 상태의 실제 호출
진단(통화와 관련된 임상 상태)
*전화 및/또는 진단에서 파생된 추가 테스트에 대한 권장 사항
통화 및/또는 진단에서 파생된 처방 및/또는 모니터링 계획
이들 다양한 유형의 데이터는 별개의 장치를 사용하여 하나 이상의 위치에서 수득, 저장 전송, 분석 및/또는 조작될 수 있다. 처리 옵션은 광범위한 범위에 걸쳐 있다. 스펙트럼의 한쪽 끝에서, 이 정보의 전부 또는 대부분은 테스트 샘플이 처리되는 위치(예: 의사 사무실 또는 기타 임상 환경)에 저장 및 사용된다. 다른 끝에서, 샘플은 한 위치에서 수집되고, 다른 위치에서 처리 및 선택적으로 시퀀싱되며, 하나 이상의 다른 위치에서 리드가 정렬되어 호출이 이루어지며 진단, 권장 사항 및/또는 계획이 또 다른 위치(샘플을 얻은 위치 일 수 있음)에서 준비된다.
다양한 실시예에서, 리드는 시퀀싱 장치로 생성된 다음, 관심 서열을 결정하기 위해 처리되는 원격 사이트로 전송된다. 이 원격 위치에서, 예로서, 리드는 기준 및 고정 리드를 생성하기 위해 기준 시퀀스에 정렬된다. 별개의 위치에서 사용될 수 있는 처리 작업은 다음과 같다.
샘플 수집
시퀀싱 전 샘플 처리
시퀀싱
시퀀스 데이터 분석 및 의료 통화 유도
진단
진단 또는 환자 또는 의료 서비스 제공자에게 전화
추가 치료, 테스트 및/또는 모니터링을 위한 계획 개발
계획 실행
상담
이들 동작 중 임의의 하나 이상은 본원의 다른 곳에 기술된 바와 같이 자동화될 수 있다. 전형적으로, 서열 데이터의 서열 분석 및 분석 및 의료 호출 도출은 계산적으로 수행될 것이다. 다른 작업은 수동 또는 자동으로 수행될 수 있다.
도 6은 테스트 샘플로부터 호출 또는 진단을 생성하기 위한 분산 시스템의 일 구현을 도시한다. 샘플 수집 위치(01)은 환자로부터 테스트 샘플을 얻기 위해 사용된다. 이어서, 샘플은 처리 및 시퀀싱 위치(03)에 제공되며, 여기서 테스트 샘플은 전술한 바와 같이 처리 및 시퀀싱될 수 있다. 위치(03)은 샘플을 처리하기 위한 장치뿐만 아니라 처리된 샘플을 시퀀싱하기 위한 장치를 포함한다. 본 문서의 다른 곳에서 설명된 시퀀싱의 결과는 일반적으로 전자 형식으로 제공되고 인터넷과 같은 네트워크에 제공되는 리드 모음이다(도 6의 05 참조).
시퀀스 데이터는 분석 및 호 생성이 수행되는 원격 위치(07)에 제공된다. 이 위치는 컴퓨터 또는 프로세서와 같은 하나 이상의 강력한 계산 장치를 포함할 수 있다. 위치 07의 계산 자원이 분석을 완료하고 수신된 시퀀스 정보로부터 호출을 생성한 후, 호출은 네트워크 05로 다시 중계된다. 일부 구현에서, 위치 07에서 호출이 생성된 뿐만 아니라 관련 진단 또한 생성된다. 그 후, 호출 및/또는 진단은 네트워크를 통해 전송되고 도 6에 도시된 바와 같이 샘플 수집 위치(01)로 다시 전송된다. 설명된 바와 같이, 이것은 호출 또는 진단 생성과 관련된 다양한 동작이 다양한 위치 중에서 어떻게 분할될 수 있는지에 대한 많은 변형 중 하나 일 뿐이다. 한 가지 일반적인 변형은 단일 위치에서 샘플 수집 및 처리 및 시퀀싱을 제공하는 것이다. 다른 변형으로는 분석 및 호출 생성과 같은 위치에서 처리 및 시퀀싱을 제공하는 것이 포함된다.
도 7은 적절한 구성 또는 설계시 특정 실시예에 따른 계산 장치로서 기능할 수 있는 전형적인 컴퓨터 시스템을 간단한 블록 포맷으로 도시한다. 컴퓨터 시스템(2000)은 1 차 스토리지(2006)(일반적으로 랜덤 액세스 메모리 또는 RAM), 1 차 스토리지(2004)(일반적으로 리드 전용 메모리 또는 ROM)를 포함하는 저장 장치에 결합된 임의의 수의 프로세서(2002)(중앙 처리 장치 또는 CPU라고도 함)를 포함한다. CPU(2002)는 프로그래머블 디바이스(예를 들어, CPLD 및 FPGA)와 같은 마이크로 컨트롤러 및 마이크로 프로세서 및 게이트 어레이 ASIC 또는 범용 마이크로 프로세서와 같은 비 프로그래머블 디바이스를 포함하는 다양한 유형일 수 있다. 도시된 실시예에서, 1 차 스토리지(2004)는 데이터 및 명령어를 CPU에 단방향으로 전송하는 역할을하고 1 차 스토리지(2006)는 일반적으로 양방향 방식으로 데이터 및 명령어를 전송하는 데 사용된다. 이들 1 차 저장 장치 둘 모두는 전술한 것들과 같은 임의의 적합한 컴퓨터 판독 가능 매체를 포함할 수 있다. 대용량 저장 장치(2008)는 또한 1 차 저장 장치(2006)에 양방향으로 연결되고 추가적인 데이터 저장 용량을 제공하며 전술한 임의의 컴퓨터 판독 가능 매체를 포함할 수 있다. 대용량 저장 장치(2008)는 프로그램, 데이터 등을 저장하는 데 사용될 수 있으며 일반적으로 하드 디스크와 같은 2 차 저장 매체이다. 종종, 이러한 프로그램, 데이터 등은 CPU(2002)에서 실행하기 위해 주 메모리(2006)에 일시적으로 복사된다. 대용량 저장 장치(2008) 내에 보유된 정보는 적절한 경우 표준 방식으로 부분적으로 통합될 수 있음을 이해할 것이다. CD-ROM 2014와 같은 특정 대용량 저장 장치는 또한 데이터를 단방향으로 CPU 또는 1 차 저장 장치로 전달할 수 있다.
CPU(2002)는 또한 핵산 시퀀서(2020), 핵산 합성기(2022), 비디오 모니터, 트랙볼, 마우스와 같은 하나 이상의 입력/출력 장치에 연결되는 인터페이스(2010)에 연결된다. 키보드, 마이크, 터치 감지 디스플레이, 트랜스 듀서 카드 리더, 자기 또는 종이 테이프 리더, 태블릿, 스타일러스, 음성 또는 필기 인식 주변 장치, USB 포트 또는 기타 다른 컴퓨터와 같은 잘 알려진 입력 장치 마지막으로, CPU(2002)는 2012 년에 일반적으로 도시된 바와 같이 외부 연결을 사용하여 데이터베이스 또는 컴퓨터 또는 통신 네트워크와 같은 외부 장치에 선택적으로 연결될 수 있다. 이러한 연결에 의해, CPU는 네트워크로부터 정보를 수신할 수 있으며, 또는 여기에 설명된 방법 단계들을 수행하는 과정에서 정보를 네트워크에 출력할 수 있다. 일부 구현에서, 핵산 시퀀서 또는 핵산 합성기는 인터페이스(2010) 대신 또는 인터페이스(2010)를 통해 네트워크 연결(2012)을 통해 CPU(2002)에 통신 가능하게 연결될 수 있다.
일 실시예에서, 컴퓨터 시스템(2000)과 같은 시스템은 본 명세서에 기술된 태스크 중 일부 또는 전부를 수행할 수 있는 데이터 임포트, 데이터 상관 및 질의 시스템으로서 사용된다. 데이터 파일을 포함한 정보 및 프로그램은 연구원에 의한 액세스 또는 다운로드를 위해 네트워크 연결(2012)을 통해 제공될 수 있다. 대안 적으로, 이러한 정보, 프로그램 및 파일은 저장 장치의 연구원에게 제공될 수 있다.
특정 실시예에서, 컴퓨터 시스템(2000)은 마이크로 어레이, 고 처리량 스크리닝 시스템 또는 샘플로부터 데이터를 캡처하는 핵산 시퀀서(2020)와 같은 데이터 수득 시스템에 직접 연결된다. 그러한 시스템으로부터의 데이터는 시스템(2000)에 의한 분석을 위해 인터페이스(2010)를 통해 제공된다. 대안 적으로, 시스템(2000)에 의해 처리된 데이터는 데이터베이스 또는 관련 데이터의 다른 저장소와 같은 데이터 저장 소스로부터 제공된다. 일단 장치(2000)에서, 주 저장 장치(2006) 또는 대용량 저장 장치(2008)와 같은 메모리 장치는 적어도 일시적인 버퍼링 또는 저장한다
일단 장치(2000)에서, 주 스토리지(2006) 또는 대용량 스토리지(2008)와 같은 메모리 장치는 적어도 일시적으로 관련 데이터를 버퍼링하거나 저장한다. 메모리는 또한 시퀀스 리드, UMI, 시퀀스 리드를 결정하기 위한 코드, 시퀀스 리드를 붕괴시키고 리드에서의 에러를 정정하는 등을 포함하여 데이터를 임포트, 분석 및 제시하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다.
특정 실시예에서, 본 명세서에서 사용된 컴퓨터는 임의의 유형의 컴퓨터(예를 들어, 데스크탑, 랩탑, 태블릿 등), 미디어 컴퓨팅 플랫폼(예를 들어, 케이블, 위성 셋톱 박스, 디지털 비디오 레코더 등), 핸드 헬드 컴퓨팅 장치(예를 들어, PDA, 이메일 클라이언트 등), 휴대폰 또는 다른 유형의 컴퓨팅 또는 통신 플랫폼일 수 있는 사용자 단말을 포함할 수 있다.
특정 실시예에서, 본 명세서에서 사용된 컴퓨터는 또한 사용자 단말과 통신하는 서버 시스템을 포함할 수 있으며, 이 서버 시스템은 서버 장치 또는 분산 서버 장치를 포함할 수 있고, 메인 프레임 컴퓨터, 미니 컴퓨터, 슈퍼 컴퓨터, 개인용 컴퓨터, 또는 이들의 조합을 포함할 수 있다. 본 발명의 범위를 벗어나지 않고 복수의 서버 시스템이 사용될 수도있다. 사용자 단말기와 서버 시스템은 네트워크를 통해 서로 통신할 수 있다. 네트워크는 예를 들어, LAN(근거리 통신망), WAN(광역 통신망), MAN(대도시 통신망), ISDN(통합 서비스 디지털 네트워크) 등과 같은 유선 네트워크뿐만 아니라 본 발명의 범위를 제한하지 않으면서, 무선 LAN, CDMA, 블루투스 및 위성 통신 네트워크 등과 같은 무선 네트워크를 포함할 수 있다.
실험
실시예 1
vNRUMI 방법 및 기타 바코드 방법 비교
표 1은 일부 구현에 따른 vNRUMI의 염기쌍 이질성과 비교하여 NRUMI의 염기쌍 이질성을 나타낸다. 이 120 개의 vNRUMI 세트는 50 개의 6 량 및 70 개의 7 량으로 구성된다. NRUMI 세트는 218 개의 6-mer로 구성되며, 두 NRUMI 사이의 최소 편집 거리가 임계 값을 초과한다. 표 1은 218 개 또는 128 개 바코드 각각이 같은 양으로 존재한다고 가정한다(예: 각 UMI의 1000 개가 있음). 7 번째 염기의 경우, 새로운 vNRUMI 세트는 원래 NRUMI 세트보다 이질성이 훨씬 뛰어나고 염기 당 권장 최소 구성 5 %를 훨씬 초과한다. 따라서, vNRUMI 설계는 특정 사이클에서 염기 페어 다이버 시티의 부족에 대한 전술한 과제를 해결한다는 것이 명백하다. 독점적으로 6 량체로 구성된 다른 바코드 세트는 아래에 묘사된 원래 NRUMI 세트와 유사한 염기 별 이질성을 갖는다.
상기 NRUMI 및 vNRUMI를 사용하여, 실리코 시뮬레이션 연구에서 10,000 개의 바코드를 시뮬레이션하고, 각각의 염기를 독립적으로 돌연변이시킴으로써 모든 단일 바코드를 돌연변이시키고, 원래의 UMI 서열을 회수하려고 시도 하였다. 시뮬레이션은 각 염기에서 2 %의 돌연변이율을 사용 하였다(SNV의 경우 1 % 확률, 1의 indel의 경우 1 % 확률). 이 변이율은 일반적인 Illumina 시퀀싱 오류율보다 상당히 높다는 점에 유의해야 한다. 10,000 개의 시뮬레이션 각각에는 하나 이상의 돌연변이가 포함되었다.
UMI를 사용하는 다른 방법과의 추가 비교를 제공하기 위해, 기존의 접근법 nxCode에 따라 생성된 길이 6nt의 114 개의 NRUMI 시퀀스 세트가 또한 이 시뮬레이션 연구에 사용된다. http://hannonlab.cshl.edu/nxCode/nxCode/main.html을 참조할 수 있다. 이들 서열은 상기한 바와 동일한 돌연변이 과정을 거쳤다. nxCode 접근법은 확률 모델을 사용하여 돌연변이를 결정하고, 반 욕심 접근법을 사용하여 동일한 분자 길이를 갖는 NRUMI 세트를 얻는다. vNRUMI, NRUMI 및 nxCode 세트의 비교 결과는 표 2에 나와 있다.
vNRUMI 세트는 120 개의 UMI를 가지며, 이 중 50 개의 UMI는 6 nt의 길이를 가지며 70 개의 UMI는 7 nt의 길이를 갖는다. NRUMI 세트는 길이 6의 218 시퀀스를 갖는다. 종래의 접근법 nxCode는 길이 6nt의 114 시퀀스의 NRUMI 세트를 사용한다. 세트의 평균 크기는 세트에 포함된 고유 시퀀스의 평균 수이다.
표 2에서, 가장 가까운 이웃 세트가 그 안에 하나의 시퀀스만을 갖는 경우로서 고유한 정정이 정의된다; 즉, 위에서 설명한 UMI 일치 및 수정 알고리즘은 가장 가능성이 높은 실제 vNRUMI에 대한 명확한 제안을 제공했다. vNRUMI 방법론에서 이러한 고유하게 수정 가능한 시퀀스의 수는 NRUMI 및 nxCode보다 훨씬 더 크다. 또한 vNRUMI 방식에서는 가장 가까운/두 번째로 가장 가까운 세트의 평균 크기가 다른 솔루션보다 훨씬 작지만 원래의 돌연변이되지 않은 바코드가 해당 세트에 포함되는 속도는 거의 같다. 리드 축소 중에 컨텍스트 정보를 사용하여 가장 가까운/두 번째로 가장 가까운 세트에서 올바른 UMI를 선택하기 때문에 이는 중요한다. 더 적은 부정확한 시퀀스로이 리드 축소 단계를 제공하면 부정확한 선택을 할 가능성이 줄어들어 궁극적으로 노이즈를 억제하고 변형을 감지하는 기능이 향상된다.
NRUMI 및 nxCode 접근법은 다른 이전의 바코드 전략과 마찬가지로 바코드 서열이 모두 균일한 길이 인 것으로 가정한다는 점에 주목할 가치가 있다. 이 시뮬레이션을 생성할 때 세 가지 접근 방식을 직접 비교하기 위해 NRUMI 및 nxCode 접근 방식으로 설명된 오류를 수정하는 원래 방법이 사용되지 않아 NRUMI 및 nxCode 접근 방식의 성능이 제한될 수 있다. 그러나 표 2의 데이터는 오류 수정을 개선할 수 있는 vNRUMI 방식의 잠재적 인 기능에 대한 통찰력을 제공하며, 다음 예에 자세히 설명되어 있다.
실시예 2
vNRUMI 및 NRUMI를 사용하여 DNA 단편 복구
인 사일로(in silo) 연구의 다른 세트에서, 리드를 복구하는 vNRUMI 및 NRUMI의 능력이 테스트된다. 연구는 무작위 COSMIC 돌연변이를 선택하고 해당 돌연변이를 포함하는 단일 DNA 단편을 생성한다. 단편 크기는 평균 166, 표준 편차는 40이다. 시뮬레이션은 이 단편의 양쪽 끝에 임의의 UMI를 추가한다. ART(예: https://www.niehs.nih.gov/research/resources/software/biostatistics/art/ 참조)를 사용하여 이 UMI-fragment-UMI 분자의 페어드 엔드 리드 10 개를 시뮬레이션하고 버로우 휠러 정렬기(BWA)를 사용하여 이 리드들을 정렬할 수 있다. 예를 들어, http://bio-bwa.sourceforge.net/을 참조할 수 있다.
그 후, 프로세스는 독자적인 리드 축소기(ReCo)로 정렬을 통과시켜, 원래의 단편 시퀀스를 복구하고 추가 리드를 위해 프로세스를 반복할 수 있는지를 결정한다.
표 3은 회수될 수 있는 단편의 수 및 백분율을 나타낸다.
vNRUMI 방법은 고정 길이 NRUMI 방법보다 더 많은 단편을 복구했다. Chi-square 검사는 이 차이가 상당하다는 것을 보여준다. χ^2 = 4.297, 2개의꼬리의 P 값 = 0.0382. α = .05를 사용하여 vNRUMI 방법은 NRUMI 방법의 단점을 해결하면서 NRUMI 방법에 비해 통계적으로 더 나은 오류 수정 성능을 달성했다.
NRUMI 전략은 이종 길이의 NRUMI 세트를 처리한다. 이는 정렬 품질 저하를 야기한 기본 쌍 다양성 문제를 해결한다.
생화학 적 구속 조건을 만족시키는 가변 길이 UMI 세트를 생성하고, 리드된 UMI를 정확한 UMI에 매핑하기 위한 새로운 프로세스가 제공된다. 새로운 접근법은 균일한 길이의 바코드로 인한 시퀀싱 품질 감소 문제를 해결한다. 불일치를 추적하는 것이 아니라 일치 및 불일치 수를 인식하는 일치 구성표를 사용하면 오류 수정 기능을 향상시킬 수 있다. 구현은 기존 솔루션과 유사하거나 초과하면서 추가 기능을 제공한다.
본 발명은 그 사상 또는 본질적인 특성을 벗어나지 않고 다른 특정 형태로 구현될 수 있다. 설명된 실시예들은 모든면에서 단지 예시적이고 제한적이지 않은 것으로 간주되어야한다. 그러므로, 본 개시의 범위는 전술한 설명이 아니라 첨부된 청구 범위에 의해 지시된다. 청구 범위의 의미 및 등가 범위 내에 있는 모든 변경은 그 범위 내에 포함되어야한다.
SEQUENCE LISTING <110> ILLUMINA, INC. <120> METHODS AND SYSTEMS FOR GENERATION AND ERROR-CORRECTION OF UNIQUE MOLECULAR INDEX SETS WITH HETEROGENEOUS MOLECULAR LENGTHS <130> ILMNP013WO <140> PCT/US2018/012669 <141> 2018-01-05 <150> 62/447,851 <151> 2017-01-18 <160> 2 <170> PatentIn version 3.5 <210> 1 <211> 13 <212> DNA <213> Description of Artificial Sequence: Synthetic Polynucleotide <220> <221> misc_feature <222> (9)..(13) <223> n is a, c, g, or t <400> 1 ttgtgactnn nnn 13 <210> 2 <211> 16 <212> DNA <213> Description of Artificial Sequence: Synthetic Polynucleotide <220> <221> misc_feature <222> (12)..(16) <223> n is a, c, g, or t <400> 2 ttggcatgac tnnnnn 16

Claims (30)

  1. 샘플로부터 핵산 분자를 시퀀싱하는 방법으로서,
    (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계,
    여기서, 각각의 어댑터는 비 랜덤 고유 분자 인덱스를 포함하고,
    여기서 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성하고;
    (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계;
    (c) 복수의 증폭된 폴리뉴클레오티드를 시퀀싱하여, vNRUMI 세트와 관련된 복수의 리드(reads)를 수득하는 단계;
    (d) 복수의 리드 중에서, 동일한 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)와 관련된 리드를 식별하는 단계; 및
    (e) 동일한 vNRUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 동일한 vNRUMI와 관련된 리드를 식별하는 단계는,
    복수의 리드 중 각각의 리드에 대해 vNRUMI 세트에 대한 정렬 스코어를 수득하는 단계 - 각각의 정렬 스코어는 vNRUMI와 리드의 서브시퀀스 사이의 유사성을 나타내며, 상기 서브시퀀스는 vNRUMI로부터 유래된 뉴클레오티드가 위치할 가능성이있는 리드의 영역에 있음 - 를 포함하는, 방법.
  3. 제2항에 있어서, 정렬 스코어는 리드의 서브시퀀스와 vNRUMI 사이의 뉴클레오티드의 일치(matches) 및 뉴클레오티드의 편집(edits)에 기초하는, 방법.
  4. 제3항에 있어서, 뉴클레오티드의 편집이 뉴클레오티드의 치환, 첨가 및 제거를 포함하는, 방법.
  5. 제3항에 있어서, 각각의 정렬 스코어는 서열의 시작에서 불일치를 페널티하지만, 서열의 끝에서 불일치를 페널티하지 않는, 방법.
  6. 제5항에 있어서, 리드와 vNRUMI 사이의 정렬 스코어를 수득하는 단계는:
    (a) vNRUMI와 리드의 서브시퀀스의 모든 가능한 프리픽스 시퀀스 각각 사이의 정렬 스코어를 계산하는 단계;
    (b) 상기 리드의 서브시퀀스와 상기 vNRUMI의 모든 가능한 프리픽스 서열 중 각각의 서열 사이의 정렬 스코어를 계산하는 단계; 및
    (c) 상기 리드와 vNRUMI 사이의 정렬 스코어로서 (a) 및(b)에서 계산된 정렬 스코어 중 가장 큰 정렬 스코어를 수득하는 단계를 포함하는, 방법.
  7. 제2항에 있어서, 상기 서브시퀀스는 vNRUMI 세트에서 가장 긴 vNRUMI의 길이와 동일한 길이를 갖는, 방법.
  8. 제2항에 있어서, 단계 (d)에서 동일한 vNRUMI와 관련된 리드를 식별하는 단계는,
    정렬 스코어에 기초하여 복수의 리드 중 각각의 리드에 대해, vNRUMI 세트로부터 적어도 하나의 vNRUMI를 선택하는 단계; 및
    복수의 리드 중 각각의 리드를, 리드를 위해 선택된 적어도 하나의 vNRUMI와 연관시키는 단계를 포함하는, 방법.
  9. 제8항에 있어서, 상기 vNRUMI 세트로부터 상기 적어도 하나의 vNRUMI를 선택하는 단계는 상기 vNRUMI 세트 중에서 가장 높은 정렬 스코어를 갖는 vNRUMI를 선택하는 단계를 포함하는, 방법.
  10. 제8항에 있어서, 상기 적어도 하나의 vNRUMI는 둘 이상의 vNRUMI를 포함하는, 방법.
  11. 제10 항에 있어서, 상기(d) 및(e)의 동일한 vNRUMI로서 상기 둘 이상의 vNRUMI 중 하나를 선택하는 단계를 더 포함하는, 방법.
  12. 제1항에 있어서, (a)에서 부착된 어댑터는
    (i) 적어도 2개의 상이한 분자 길이를 갖는 한 세트의 올리고 뉴클레오티드 서열을 제공하는 단계;
    (ii) 올리고 뉴클레오티드 서열 세트로부터 올리고 뉴클레오티드 서열의 서브세트를 선택하는 단계 - 임계 값을 만족하는 올리고뉴클레오티드 서열의 서브세트 중 올리고뉴클레오티드 서열 사이의 모든 편집 거리는 임계 값을 만족시키고, 올리고뉴클레오티드 서열의 서브세트는 vNRUMI 세트를 형성함 - 및
    (iii) 이중 가닥 하이브리드화된 영역, 단일 가닥 5' 암, 단일 가닥 3' 암 및 vNRUMI 세트 중 적어도 하나의 vNRUMI를 각각 포함하는 어댑터를 합성하는 단계
    에 의해 수득되는, 방법.
  13. 제12항에 있어서, 상기 임계 값은 3 인, 방법.
  14. 제1항에 있어서, vNRUMI 세트는 6 개 뉴클레오티드의 vNRUMI 및 7 개 뉴클레오티드의 vNRUMI를 포함하는, 방법.
  15. 제1항에 있어서,(e) 동일한 vNRUMI와 관련된 리드를 일 그룹으로 붕괴(collapse)시켜 샘플에서 DNA 단편의 서열에 대한 공통 뉴클레오티드 서열을 수득하는 단계를 포함하는, 방법.
  16. 제15항에 있어서, 공통 뉴클레오티드 서열은 리드의 품질 스코어에 부분적으로 기초하여 수득되는, 방법.
  17. 제1항에 있어서, 단계 (e)는:
    동일한 vNRUMI와 관련된 리드 중에서, 참조 서열에서 동일한 리드 위치 또는 유사한 리드 위치를 갖는 리드를 식별하는 단계, 및
    (i) 동일한 vNRUMI와 연관된, 그리고, (ii) 참조 서열에서 동일한 리드 위치 또는 유사한 리드 위치를 갖는, 리드를 사용하여 DNA 단편의 서열을 결정하는 단계를 포함하는, 방법.
  18. 제1항에 있어서, vNRUMI 세트는 약 10,000 개 이하의 상이한 vNRUMI를 포함하는, 방법.
  19. 제18항에 있어서, vNRUMI 세트는 약 1,000 개 이하의 상이한 vNRUMI를 포함하는, 방법.
  20. 제19항에 있어서, vNRUMI 세트는 약 200 개 이하의 상이한 vNRUMI를 포함하는, 방법.
  21. 제1항에 있어서, 샘플에서 DNA 단편에 어댑터를 부착하는 단계는 샘플에서 DNA 단편의 양쪽 말단에 어댑터를 부착하는 단계를 포함하는, 방법.
  22. 샘플로부터 핵산 분자를 시퀀싱하는 방법으로서,
    (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계,
    여기서 각 어댑터는 고유한 분자 인덱스(UMI)를 포함하고,
    여기서 어댑터의 고유 분자 인덱스(UMI)는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이 고유 분자 인덱스(vUMI)의 세트를 형성함;
    (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계;
    (c) 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, vUMI 세트와 관련된 복수의 리드를 수득하는 단계; 및
    (d) 복수의 리드 중에서, 동일한 가변 길이 고유 분자 인덱스(vUMI)와 관련된 리드를 식별하는 단계를 포함하는, 방법.
  23. 제22항에 있어서, 동일한 vUMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 추가로 포함하는, 방법.
  24. 제22항에 있어서, 동일한 vUMI와 관련된 리드의 횟수를 수득하는 단계를 더 포함하는, 방법.
  25. 샘플로부터 핵산 분자를 시퀀싱하는 방법으로서,
    (a) 샘플에서 DNA 단편에 어댑터를 부착하여 DNA-어댑터 산물을 수득하는 단계 - 각 어댑터는 고유 분자 인덱스(UMI) 세트 내 하나의 고유 분자 인덱스(UMI)를 포함 함;
    (b) DNA-어댑터 산물을 증폭시켜 복수의 증폭된 폴리뉴클레오티드를 수득하는 단계;
    (c) 복수의 증폭된 폴리 뉴클레오티드를 시퀀싱하여, UMI 세트와 관련된 복수의 리드를 수득하는 단계;
    (d) 복수의 리드 중 각각의 리드에 대해, UMI 세트에 대한 정렬 스코어를 수득하는 단계 - 각각의 정렬 스코어는 리드의 서브시퀀스와 UMI 사이의 유사성을 나타냄;
    (e) 복수의 리드 중에서, 정렬 스코어를 사용하여 동일한 UMI와 관련된 리드를 식별하는 단계; 및
    (f) 동일한 UMI와 관련된 리드를 사용하여 샘플에서 DNA 단편의 서열을 결정하는 단계를 포함하는, 방법.
  26. 제25항에 있어서, 정렬 스코어는 리드의 서브시퀀스와 UMI 사이의 뉴클레오티드의 일치 및 뉴클레오티드의 편집에 기초하는, 방법.
  27. 제26항에 있어서, 각각의 정렬 스코어는 서열의 시작에서 불일치를 페널티하지만, 서열의 끝에서 불일치를 페널티하지 않는, 방법.
  28. 제25항에 있어서, 상기 UMI 세트는 적어도 2개의 상이한 분자 길이의 UMI를 포함하는 방법.
  29. 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 샘플로부터 핵산 분자를 시퀀싱하는 방법을 구현하게하는 프로그램 코드를 포함하는 컴퓨터 프로그램이 저장된 비 일시적 기계 판독 가능 매체로서, 상기 프로그램 코드는,
    (a) 복수의 증폭된 폴리뉴클레오티드의 복수의 리드를 수득하기 위한 코드 - 복수의 증폭된 폴리뉴클레오티드 중 각각의 폴리뉴클레오티드는 DNA 단편에 부착된 어댑터를 포함하고, 어댑터는 비 랜덤 고유 분자 인덱스를 포함하며, 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 가지며, 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성함;
    (b) 복수의 리드 중에서, 동일한 vNRUMI와 관련된 리드를 식별하기 위한 코드; 및
    (c) 동일한 vNRUMI와 관련된 리드를 사용하여, 샘플에서 DNA 단편의 서열을 결정하기 위한 코드를 포함하는, 비 일시적 기계 판독 가능 매체.
  30. 컴퓨터 시스템으로서,
    하나 이상의 프로세서;
    시스템 메모리; 및
    컴퓨터 시스템이 샘플 내 관심있는 서열의 서열 정보를 결정하기 위한 방법을 구현하게 하는 컴퓨터-실행 가능 명령어를 저장한 하나 이상의 컴퓨터 판독 가능 저장 매체를 포함하되, 상기 명령어는,
    (a) 복수의 증폭된 폴리뉴클레오티드의 복수의 리드를 수득하는 단계 - 복수의 증폭된 폴리뉴클레오티드 중 각각의 폴리뉴클레오티드는 DNA 단편에 부착된 어댑터를 포함하고, 어댑터는 비 랜덤 고유 분자 인덱스를 포함하며, 어댑터의 비 랜덤 고유 분자 인덱스는 적어도 2 개의 상이한 분자 길이를 갖고, 가변 길이의 비 랜덤 고유 분자 인덱스(vNRUMI)의 세트를 형성함;
    (b) 복수의 리드 중에서, 동일한 vNRUMI와 관련된 리드를 식별하는 단계; 및
    (c) 동일한 vNRUMI와 관련된 리드를 사용하여, 샘플 내 DNA 단편의 서열을 결정하는 단계를 포함하는, 컴퓨터 시스템.
KR1020247028741A 2017-01-18 2018-01-05 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템 KR20240135859A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762447851P 2017-01-18 2017-01-18
US62/447,851 2017-01-18
KR1020197023747A KR102701404B1 (ko) 2017-01-18 2018-01-05 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템
PCT/US2018/012669 WO2018136248A1 (en) 2017-01-18 2018-01-05 Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197023747A Division KR102701404B1 (ko) 2017-01-18 2018-01-05 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20240135859A true KR20240135859A (ko) 2024-09-12

Family

ID=61054549

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020247028741A KR20240135859A (ko) 2017-01-18 2018-01-05 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템
KR1020197023747A KR102701404B1 (ko) 2017-01-18 2018-01-05 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197023747A KR102701404B1 (ko) 2017-01-18 2018-01-05 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템

Country Status (11)

Country Link
US (3) US10844429B2 (ko)
EP (2) EP3889962A1 (ko)
JP (3) JP7051900B2 (ko)
KR (2) KR20240135859A (ko)
CN (2) CN110313034B (ko)
AU (1) AU2018210188B2 (ko)
BR (1) BR112019014651A2 (ko)
CA (1) CA3050247A1 (ko)
RU (1) RU2022101605A (ko)
SG (1) SG11201906428SA (ko)
WO (1) WO2018136248A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
ES2701742T3 (es) 2012-10-29 2019-02-25 Univ Johns Hopkins Prueba de Papanicolaou para cánceres de ovario y de endometrio
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
EP3889962A1 (en) 2017-01-18 2021-10-06 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
WO2019067092A1 (en) 2017-08-07 2019-04-04 The Johns Hopkins University METHODS AND SUBSTANCES FOR THE EVALUATION AND TREATMENT OF CANCER
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
NZ758684A (en) 2017-11-06 2024-07-26 Illumina Inc Nucleic acid indexing techniques
EP3844497A2 (en) 2018-08-28 2021-07-07 F. Hoffmann-La Roche AG Nanopore sequencing device comprising ruthenium-containing electrodes
US11440933B2 (en) 2018-12-19 2022-09-13 Roche Sequencing Solutions, Inc. 3′ protected nucleotides
EP3899951A1 (en) 2018-12-23 2021-10-27 F. Hoffmann-La Roche AG Tumor classification based on predicted tumor mutational burden
EP3931833A4 (en) * 2019-02-28 2022-11-30 Pacific Biosciences Of California, Inc. IMPROVED ALIGNMENT USING HOMOPOLYMER COLLAPSED SEQUENCING READINGS
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US11423306B2 (en) 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US10927409B1 (en) * 2019-10-14 2021-02-23 Pioneer Hi-Bred International, Inc. Detection of sequences uniquely associated with a dna target region
EP3836148A1 (en) 2019-12-09 2021-06-16 Lexogen GmbH Index sequences for multiplex parallel sequencing
CN110993024B (zh) * 2019-12-20 2023-08-22 北京科迅生物技术有限公司 建立胎儿浓度校正模型的方法及装置与胎儿浓度定量的方法及装置
WO2021158989A1 (en) * 2020-02-07 2021-08-12 Lodo Therapeutics Corporation Methods and apparatus for efficient and accurate assembly of long-read genomic sequences
CN115136244A (zh) 2020-02-20 2022-09-30 因美纳有限公司 基于人工智能的多对多碱基判读
JP2023532905A (ja) 2020-07-08 2023-08-01 イルミナ インコーポレイテッド トランスポソーム担体としてのビーズ
IL300112A (en) 2020-08-06 2023-03-01 Illumina Inc Preparation of RNA and DNA sequencing libraries using bead-linked transpososomes
CN111968706B (zh) * 2020-10-20 2021-02-12 安诺优达基因科技(北京)有限公司 获得目标样本的目标测序数据的方法及对目标样本的序列进行组装的方法
IL302207A (en) 2020-10-21 2023-06-01 Illumina Inc Sequencing templates that include several additions and compositions and methods to improve sequencing output
US20220135966A1 (en) * 2020-11-03 2022-05-05 Fluent Biosciences Inc. Systems and methods for making sequencing libraries
JP2024511766A (ja) 2021-03-29 2024-03-15 イルミナ インコーポレイテッド 改善されたライブラリ調製方法
IL307172A (en) 2021-03-30 2023-11-01 Illumina Inc Improved methods of isothermal complementary DNA and library preparation
JP2024511760A (ja) 2021-03-31 2024-03-15 イルミナ インコーポレイテッド エラー補正のための固有分子識別子を有するトランスポゾンベースの技術を使用した指向性タグメンテーション配列決定ライブラリーの調製方法
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
CN114550819B (zh) * 2022-01-28 2024-08-27 赛纳生物科技(北京)有限公司 简并测序的索引序列集的设计方法
WO2024036475A1 (zh) * 2022-08-16 2024-02-22 刘宗霖 共识碱基错误率评估方法及其系统

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
AU6846698A (en) 1997-04-01 1998-10-22 Glaxo Group Limited Method of nucleic acid amplification
US6159736A (en) 1998-09-23 2000-12-12 Wisconsin Alumni Research Foundation Method for making insertional mutations using a Tn5 synaptic complex
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20030064366A1 (en) 2000-07-07 2003-04-03 Susan Hardin Real-time sequence determination
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040018520A1 (en) * 2002-04-22 2004-01-29 James Thompson Trans-splicing enzymatic nucleic acid mediated biopharmaceutical and protein
JP3630414B2 (ja) 2002-05-21 2005-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 塩基配列のクラスタ生成システム、塩基配列のクラスタ生成方法、該クラスタ生成方法を実行するためのプログラム、および該プログラムを記憶したコンピュータ可読な記録媒体、および塩基配列情報提供システム
SI3363809T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi za polinukleotidno sekvenciranje
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
WO2006044078A2 (en) 2004-09-17 2006-04-27 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
CA2648149A1 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP2121983A2 (en) 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
AU2010330936B2 (en) 2009-12-17 2014-05-22 Keygene N.V. Restriction enzyme based whole genome sequencing
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
ES2704701T3 (es) 2010-01-19 2019-03-19 Verinata Health Inc Nuevo protocolo de preparación de bibliotecas de secuenciación
WO2011139797A2 (en) * 2010-04-27 2011-11-10 Spiral Genetics Inc. Method and system for analysis and error correction of biological sequences and inference of relationship for multiple samples
JP5516880B2 (ja) * 2010-07-09 2014-06-11 独立行政法人産業技術総合研究所 配列解析装置、配列解析方法およびコンピュータプログラム
ES2595433T3 (es) * 2010-09-21 2016-12-30 Population Genetics Technologies Ltd. Aumento de la confianza en las identificaciones de alelos con el recuento molecular
WO2012040387A1 (en) 2010-09-24 2012-03-29 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target dna using immobilized primers
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
EP2729580B1 (en) 2011-07-08 2015-09-16 Keygene N.V. Sequence based genotyping based on oligonucleotide ligation assays
WO2013062856A1 (en) 2011-10-27 2013-05-02 Verinata Health, Inc. Set membership testers for aligning nucleic acid samples
US20130267428A1 (en) 2012-02-10 2013-10-10 Washington University In St. Louis High throughput digital karyotyping for biome characterization
US9862995B2 (en) 2012-03-13 2018-01-09 Abhijit Ajit Patel Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
HUE051845T2 (hu) 2012-03-20 2021-03-29 Univ Washington Through Its Center For Commercialization Módszerek a tömegesen párhuzamos DNS-szekvenálás hibaarányának csökkentésére duplex konszenzus szekvenálással
PT2850211T (pt) 2012-05-14 2021-11-29 Irepertoire Inc Método para aumentar a precisão na deteção quantitativa de polinucleótidos
US9884893B2 (en) 2012-05-21 2018-02-06 Distributed Bio, Inc. Epitope focusing by variable effective antigen surface concentration
CA2872141C (en) * 2012-05-31 2016-01-19 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
US20140024541A1 (en) * 2012-07-17 2014-01-23 Counsyl, Inc. Methods and compositions for high-throughput sequencing
WO2014142850A1 (en) 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing
US9328382B2 (en) * 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
CN113337604A (zh) 2013-03-15 2021-09-03 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
US10468121B2 (en) * 2013-10-01 2019-11-05 Complete Genomics, Inc. Phasing and linking processes to identify variations in a genome
WO2015058052A1 (en) 2013-10-18 2015-04-23 The Broad Institute Inc. Spatial and cellular mapping of biomolecules in situ by high-throughput sequencing
EP3087204B1 (en) 2013-12-28 2018-02-14 Guardant Health, Inc. Methods and systems for detecting genetic variants
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
WO2015179493A1 (en) 2014-05-23 2015-11-26 Centrillion Technology Holding Corporation Methods for generating and decoding barcodes
WO2016040901A1 (en) 2014-09-12 2016-03-17 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
US11661597B2 (en) 2015-04-15 2023-05-30 The Board Of Trustees Of The Leland Stanford Junior University Robust quantification of single molecules in next-generation sequencing using non-random combinatorial oligonucleotide barcodes
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP3387152B1 (en) 2015-12-08 2022-01-26 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
US11708574B2 (en) 2016-06-10 2023-07-25 Myriad Women's Health, Inc. Nucleic acid sequencing adapters and uses thereof
EP3494214B8 (en) 2016-08-05 2024-09-04 Bio-Rad Laboratories, Inc. Method for preparing cdna libraries
EP3889962A1 (en) 2017-01-18 2021-10-06 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
WO2018148289A2 (en) 2017-02-08 2018-08-16 Integrated Dna Technologies, Inc. Duplex adapters and duplex sequencing
AU2018240559A1 (en) 2017-03-23 2019-09-19 University Of Washington Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
SG11202007648WA (en) 2018-02-13 2020-09-29 Twinstrand Biosciences Inc Methods and reagents for detecting and assessing genotoxicity
CA3093846A1 (en) 2018-03-15 2019-09-19 Twinstrand Biosciences, Inc. Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
CN112218956A (zh) 2018-05-16 2021-01-12 特温斯特兰德生物科学有限公司 用于解析核酸混合物和混合细胞群体的方法和试剂及相关应用
KR20210059694A (ko) 2018-07-12 2021-05-25 트윈스트랜드 바이오사이언시스, 인코포레이티드 게놈 편집, 클론 팽창 및 연관된 분야를 규명하기 위한 방법 및 시약
JP7541363B2 (ja) 2018-10-16 2024-08-28 ツインストランド・バイオサイエンシズ・インコーポレイテッド プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
AU2020321991A1 (en) 2019-08-01 2022-03-03 Twinstrand Biosciences, Inc. Methods and reagents for nucleic acid sequencing and associated applications

Also Published As

Publication number Publication date
CN110313034A (zh) 2019-10-08
EP3889962A1 (en) 2021-10-06
KR102701404B1 (ko) 2024-08-30
JP7051900B2 (ja) 2022-04-11
JP2022088566A (ja) 2022-06-14
US10844429B2 (en) 2020-11-24
US20180201992A1 (en) 2018-07-19
KR20190117529A (ko) 2019-10-16
JP2020505947A (ja) 2020-02-27
US20210079462A1 (en) 2021-03-18
AU2018210188B2 (en) 2023-11-09
EP3571616A1 (en) 2019-11-27
AU2018210188A1 (en) 2019-08-01
JP2023101017A (ja) 2023-07-19
EP3571616B1 (en) 2021-05-19
BR112019014651A2 (pt) 2020-07-21
RU2019122349A3 (ko) 2021-06-02
CN116497103A (zh) 2023-07-28
WO2018136248A1 (en) 2018-07-26
SG11201906428SA (en) 2019-08-27
CN110313034B (zh) 2023-06-06
RU2022101605A (ru) 2022-03-25
US20240011087A1 (en) 2024-01-11
US11761035B2 (en) 2023-09-19
RU2766198C2 (ru) 2022-02-09
RU2019122349A (ru) 2021-02-19
CA3050247A1 (en) 2018-07-26
JP7284849B2 (ja) 2023-05-31

Similar Documents

Publication Publication Date Title
KR102701404B1 (ko) 이종 분자 길이를 가진 고유 분자 인덱스 세트의 생성 및 오류 수정 방법 및 시스템
US11898198B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
EP3289097B1 (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
RU2766198C9 (ru) Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок
NZ795518A (en) Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths

Legal Events

Date Code Title Description
A107 Divisional application of patent