KR20220032516A - 합성 방법에 의한 고속-정방향 시퀀싱 - Google Patents

합성 방법에 의한 고속-정방향 시퀀싱 Download PDF

Info

Publication number
KR20220032516A
KR20220032516A KR1020217039569A KR20217039569A KR20220032516A KR 20220032516 A KR20220032516 A KR 20220032516A KR 1020217039569 A KR1020217039569 A KR 1020217039569A KR 20217039569 A KR20217039569 A KR 20217039569A KR 20220032516 A KR20220032516 A KR 20220032516A
Authority
KR
South Korea
Prior art keywords
region
sequence
polynucleotide
flow
primer
Prior art date
Application number
KR1020217039569A
Other languages
English (en)
Inventor
마크 프랫
길라드 알모기
두미트루 브린자
일리아니 트레파이너
오메르 바라드
요아브 에치오니
플로리안 오베르스트라스
Original Assignee
울티마 제노믹스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울티마 제노믹스, 인크. filed Critical 울티마 제노믹스, 인크.
Publication of KR20220032516A publication Critical patent/KR20220032516A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Abstract

폴리뉴클레오티드에 대한 커플링된 시퀀싱 리드 쌍을 생성하는 방법, 및 커플링된 시퀀싱 리드 쌍을 분석하는 방법이 본원에 기재되어 있다. 커플링된 시퀀싱 리드 쌍은 커플링된 시퀀싱 리드 쌍 내에서 직접적으로 시퀀싱되지 않은 유전자좌를 포함하는 폴리뉴클레오티드 변이체를 검출하기 위해 분석될 수 있다. 다른 분석 방법은 커플링된 시퀀싱 리드 쌍을 사용하여 컨센서스 서열을 구축 또는 검증하는 단계를 포함할 수 있다. 커플링된 시퀀싱 리드 쌍은 표지된 뉴클레오티드를 사용하여 프라이머를 연장함으로써 제1 영역에 대한 시퀀싱 데이터를 생성하는 단계; 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 제2 영역을 통한 프라이머 연장은 제1 영역을 통한 프라이머 연장보다 빠른 것인 단계; 및 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계에 의해 폴리뉴클레오티드에 대해 생성될 수 있다.

Description

합성 방법에 의한 고속-정방향 시퀀싱
관련 출원에 대한 상호 참조
본 출원은 2019년 5월 3일에 출원된 미국 특허 가출원 일련 번호 62/842,534; 2019년 9월 23일에 출원된 미국 특허 가출원 일련 번호 62/904,274; 및 2020년 2월 7일에 출원된 미국 특허 가출원 일련 번호 62/971,530을 우선권 주장하며; 이들 각각의 내용은 그 전문이 본원에 참조로 포함된다.
ASCII 텍스트 파일의 서열 목록의 제출
ASCII 텍스트 파일 상의 하기 제출의 내용은 그 전문이 본원에 참조로 포함된다: 서열 목록의 컴퓨터 판독가능 형태 (CRF) (파일명: 165272000440SEQLIST.TXT, 기록 날짜: 2020년 4월 27일, 크기: 5 KB).
발명의 분야
커플링된 시퀀싱 리드 쌍을 생성하는 방법, 및 시퀀싱 방법으로부터 수득된 시퀀싱 데이터를 분석하는 방법을 포함하는 폴리뉴클레오티드를 시퀀싱하는 방법이 본원에 기재되어 있다.
페어드-엔드 시퀀싱 방법은 폴리뉴클레오티드 분자의 3' 및 5' 말단에 대한 시퀀싱 데이터를 수득하기 위해 사용되어 왔다. 일반적으로, 시퀀싱 프라이머는 시퀀싱될 DNA 폴리뉴클레오티드에 혼성화되고, 여러 염기는 폴리뉴클레오티드의 제1 말단에 대한 시퀀싱 데이터를 수득하기 위해 시퀀싱된다. 그 후, 제2 시퀀싱 프라이머는 폴리뉴클레오티드의 다른 쪽 말단 근처의 상보적 가닥에 혼성화되고, 폴리뉴클레오티드의 다른 쪽 말단의 시퀀싱 데이터를 결정하기 위해 시퀀싱된다. 폴리뉴클레오티드의 3' 및 5' 말단에 대한 시퀀싱 데이터는 시퀀싱 데이터가 동일한 시퀀싱 클러스터로부터 수득되었다는 사실에 기초하여 커플링된다. 페어드-엔드 시퀀싱 방법은 차세대 시퀀싱 (NGS) 프로토콜에서 자주 사용된다.
그러나, 전통적인 페어드-엔드 시퀀싱을 사용하면, 폴리뉴클레오티드의 3' 및 5' 말단 사이의 영역에 대한 정보가 전혀 (또는 거의) 파생되지 않는다. 페어드 엔드 시퀀싱 데이터는 특정 분석 목적으로 사용될 수 있지만, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 특정 변이체를 검출하는데 사용될 수 없다. 특정 장거리 시퀀싱 기술은 전통적인 페어드-엔드 시퀀싱 방법을 사용하여 일반적으로 누락된 폴리뉴클레오티드의 영역의 시퀀싱을 위해 개발되었다. 그러나, 장거리 시퀀싱은 상대적으로 느리고, 상당한 시퀀싱 오류가 발생하기 쉽다.
발명의 간단한 요약
커플링된 시퀀싱 리드 쌍을 생성하는 방법, 및 시퀀싱 방법으로부터 수득된 시퀀싱 데이터를 분석하는 방법을 포함하는, 폴리뉴클레오티드를 시퀀싱하는 방법이 본원에 기재되어 있다.
폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법은 하기를 포함한다: (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제2 영역을 통한 프라이머의 연장은 단계 (b)에서의 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 일부 실시양태에서, 제2 영역을 통한 프라이머의 연장은 단계 (b)에서의 프라이머의 연장보다 빠르게 진행한다. 일부 실시양태에서, 커플링된 시퀀싱 리드 쌍을 생성하는 방법은 제1 영역의 시퀀싱 데이터를 제3 영역의 시퀀싱 데이터와 연관시키는 것을 포함한다.
일부 실시양태에서, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법은 하기를 포함한다: (a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계; 및 (c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 일부 실시양태에서, 제1 영역은 프라이머에 의해 표적화된 자연 발생 서열을 포함한다.
일부 실시양태에서, 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장된다. 일부 실시양태에서, 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부는 비표지된 뉴클레오티드이다. 일부 실시양태에서, 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지된 뉴클레오티드이다.
일부 실시양태에서, 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물은 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용된다.
커플링된 시퀀싱 리드 쌍을 생성하는 방법의 일부 실시양태에서, 제2 영역 흐름 순서는 5개 이상의 뉴클레오티드 흐름을 포함한다. 일부 실시양태에서, 뉴클레오티드 흐름 각각은 단일 뉴클레오티드 염기를 포함한다. 일부 실시양태에서, 제2 영역 흐름 순서는 무작위 시퀀싱 시작 위치의 5% 이상에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도한다. 일부 실시양태에서, 유도된 신호 변화는 신호 강도의 변화이거나, 또는 새로운 실질적으로 제로 (또는 새로운 제로) 또는 새로운 실질적으로 넌-제로 (또는 새로운 넌-제로) 신호이다. 일부 실시양태에서, 유도된 신호 변화는 새로운 실질적으로 제로 (또는 새로운 제로) 또는 새로운 실질적으로 넌-제로 (또는 새로운 넌-제로) 신호이다. 일부 실시양태에서, 제2 영역 흐름 순서는 흐름 당 0.6 이상의 염기 혼입 효율을 갖는다.
일부 실시양태에서, 커플링된 시퀀싱 리드 쌍을 생성하는 방법은 참조 서열 및 제2 영역 흐름 순서를 사용하여 제2 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계를 포함한다. 일부 실시양태에서, 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법은 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 제3 영역 흐름 순서는 5개 이상의 뉴클레오티드 흐름을 포함한다. 일부 실시양태에서, 뉴클레오티드 흐름 각각은 단일 뉴클레오티드 염기를 포함한다. 일부 실시양태에서, 제3 영역 흐름 순서는 무작위 시퀀싱 시작 위치의 5% 이상에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도한다. 일부 실시양태에서, 유도된 신호 변화는 신호 강도의 변화이거나, 또는 새로운 실질적으로 제로 (또는 새로운 제로) 또는 새로운 실질적으로 넌-제로 (또는 새로운 넌-제로) 신호이다. 일부 실시양태에서, 유도된 신호 변화는 새로운 실질적으로 제로 (또는 새로운 제로) 또는 새로운 실질적으로 넌-제로 (또는 새로운 넌-제로) 신호이다. 일부 실시양태에서, 제3 영역 흐름 순서는 흐름 당 0.6 이상의 염기 혼입 효율을 갖는다.
커플링된 시퀀싱 리드 쌍을 생성하는 방법의 일부 실시양태에서, 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법은 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터는 제3 영역에 대해 생성된 동일한 또는 상이한 시퀀싱 데이터이다. 일부 실시양태에서, 제2 영역 또는 제3 영역에 대한 예상 참조 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다. 일부 실시양태에서, 방법은 제2 영역 흐름 순서 및 제2 영역에 대한 제2 참조 서열을 사용하여 제2 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제2 참조 서열은 시험 변이체를 포함한다. 일부 실시양태에서, 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법은 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법은 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터는 제3 영역에 대해 생성된 동일한 또는 상이한 시퀀싱 데이터이다. 일부 실시양태에서, 제2 영역 또는 제3 영역에 대한 예상 참조 시퀀싱 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다.
일부 실시양태에서, 커플링된 시퀀싱 리드 쌍을 생성하는 방법은 참조 서열 및 제2 영역 흐름 순서를 사용하여 제2 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계를 포함한다. 일부 실시양태에서, 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되고, 방법은 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되고, 방법은 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터는 단계 (d)에서 생성된 동일한 또는 상이한 시퀀싱 데이터이다. 일부 실시양태에서, 제2 영역 또는 제3 영역에 대한 예상 참조 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다. 일부 실시양태에서, 방법은 제2 영역 흐름 순서 및 제2 영역에 대한 제2 참조 서열을 사용하여 제2 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 포함하고, 여기서 제2 참조 서열은 시험 변이체를 포함한다. 일부 실시양태에서, 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되고, 방법은 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함한다. 일부 실시양태에서, 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되고, 방법은 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터는 단계 (d)에서 생성된 동일한 또는 상이한 시퀀싱 데이터이다. 일부 실시양태에서, 제2 영역 또는 제3 영역에 대한 예상 참조 시퀀싱 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다.
일부 실시양태에서, 커플링된 시퀀싱 리드 쌍을 생성하는 단계는 하기를 추가로 포함한다: (e) 제4 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제4 영역을 통해 단계 (d)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제4 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제4 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제4 영역을 통한 프라이머의 연장은 단계 (b) 또는 단계 (d)에서의 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및 (f) 표지된 뉴클레오티드를 사용하여 단계 (e)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제5 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 일부 실시양태에서, 방법은 제5 영역의 시퀀싱 데이터를 제1 영역의 시퀀싱 데이터 또는 제3 영역의 시퀀싱 데이터와 연관시키는 것을 추가로 포함한다.
하기를 포함하는, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법이 또한 본원에 기재되어 있다: 커플링된 시퀀싱 리드의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; 및 제2 영역의 길이를 나타내는 거리 정보를 사용하여 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계.
하기를 포함하는, 구조적 변이체를 검출하는 방법이 추가로 제공된다: 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; 제2 영역의 길이를 나타내는 거리 정보를 사용하여, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부에 대한 참조 서열 내의 예상 유전자좌를 결정하는 단계; 참조 서열에 기초하여 예상 유전자좌에서 서열에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부의 시퀀싱 데이터를 예상 시퀀싱 데이터와 비교함으로써 구조적 변이체를 검출하는 단계이며, 여기서 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부의 시퀀싱 데이터 및 예상 시퀀싱 데이터 사이의 차이는 구조적 변이체를 나타내는 것인 단계.
하기를 포함하는, 구조적 변이체를 검출하는 방법이 또한 본원에 제공된다: 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계이며, 여기서 맵핑되지 않은 제1 영역 또는 맵핑되지 않은 제3 영역은 참조 서열 내에서 맵핑불가능한 것인 단계. 일부 실시양태에서, 방법은 제2 영역의 길이를 나타내는 예상 거리 정보에 기초하여 참조 서열 내의 구조적 변이체의 유전자좌를 결정하는 단계를 추가로 포함한다.
일부 실시양태에서, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부는 참조 서열에 비해 삽입 내에 있다. 일부 실시양태에서, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부는 참조 서열에 비해 삽입의 시작 또는 끝을 브릿지한다.
하기를 포함하는, 구조적 변이체를 검출하는 방법이 추가로 본원에 제공된다: 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; 맵핑된 제1 영역 및 맵핑된 제3 영역 사이의 맵핑된 거리 정보를 결정하는 단계; 및 맵핑된 거리 정보를 제2 영역의 예상 거리 정보와 비교함으로써 구조적 변이체를 검출하는 단계이며, 여기서 맵핑된 거리 정보 및 예상 거리 정보 사이의 차이는 구조적 변이체를 나타내는 것인 단계. 일부 실시양태에서, 구조적 변이체는 염색체 융합, 역위, 삽입 또는 결실이다. 일부 실시양태에서, 변이체는 제2 영역 내의 삽입 또는 결실이다.
본원에 기재된 방법의 일부 실시양태에서, 거리 정보는 제2 영역 흐름 순서와 연관된 정보 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정된다. 일부 실시양태에서, 제2 영역 흐름 순서와 연관된 정보는 단계 (c)에서 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수이다. 일부 실시양태에서, 제2 영역에서의 염기의 확률 분포는 게놈 내의 염기의 분포로부터 결정된다.
본원에 기재된 방법의 일부 실시양태에서, 거리 정보는 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정된 제2 영역에 대한 예상 시퀀싱 데이터로부터 파생된다. 일부 실시양태에서, 예상 시퀀싱 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다.
하기를 포함하는, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법이 추가로 본원에 기재되어 있다: 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 제1 위치 및 제2 위치를 포함하는 2개 이상의 상이한 위치 쌍에서 참조 서열에 맵핑하는 단계; 및 제2 영역의 길이를 나타내는 제1 거리 정보 및 2개 이상의 위치 쌍에 대한 제1 위치 및 제2 위치 사이의 거리를 나타내는 제2 거리 정보를 사용하여 올바른 위치 쌍을 선택하는 단계. 일부 실시양태에서, 제1 거리 정보는 제2 영역 흐름 순서와 연관된 정보 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정된다. 일부 실시양태에서, 제2 영역 흐름 순서와 연관된 정보는 단계 (c)에서 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수이다. 일부 실시양태에서, 제2 영역에서의 염기의 확률 분포는 게놈 내의 염기의 분포로부터 결정된다. 일부 실시양태에서, 제1 거리 정보는 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정된 제2 영역에 대한 예상 시퀀싱 데이터로부터 파생된다. 일부 실시양태에서, 예상 참조 시퀀싱 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다.
하기를 포함하는, 상기 방법 중 어느 하나에 따라 생성된 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 방법이며, 여기서 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되는 것인 방법이 또한 본원에 기재되어 있다: 제1 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; (1) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열, 또는 (2) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터를 사용하여 제3 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터를 결정하는 단계이며, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터는 단계 (d)에서 생성된 동일한 또는 상이한 서열 데이터인 단계; 및 제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재를 검출하는 단계. 일부 실시양태에서, 변이체는 구조적 변이체이다. 일부 실시양태에서, 구조적 변이체는 염색체 융합, 역위, 삽입 또는 결실이다. 일부 실시양태에서, 변이체는 단일 뉴클레오티드 다형성 (SNP)이다. 일부 실시양태에서, 방법은 시험 변이체를 검출하는데 사용되고, 참조 서열은 시험 변이체를 포함한다. 일부 실시양태에서, 시험 변이체는 제2 폴리뉴클레오티드 내에서 시험 변이체를 식별함으로써 선택된다. 일부 실시양태에서, 방법은 검출된 시험 변이체를 폴리뉴클레오티드의 제1 영역 또는 제3 영역에서 시퀀싱된 대립유전자와 연관시키는 것을 추가로 포함한다.
하기를 포함하는, 상기 기재된 방법 중 어느 하나에 따라 생성된 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 방법이며, 여기서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되는 것인 방법이 또한 본원에 기재되어 있다: 제1 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; (1) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열, 또는 (2) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터를 사용하여 제3 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터를 결정하는 단계이며, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터는 제3 영역에 대해 생성된 동일한 또는 상이한 서열 데이터인 단계; 및 제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재를 검출하는 단계. 일부 실시양태에서, 변이체는 구조적 변이체이다. 일부 실시양태에서, 구조적 변이체는 염색체 융합, 역위, 삽입 또는 결실이다. 일부 실시양태에서, 변이체는 단일 뉴클레오티드 다형성 (SNP)이다. 일부 실시양태에서, 방법은 시험 변이체를 검출하는데 사용되고, 참조 서열은 시험 변이체를 포함한다. 일부 실시양태에서, 시험 변이체는 제2 폴리뉴클레오티드 내에서 시험 변이체를 식별함으로써 선택된다. 일부 실시양태에서, 방법은 검출된 시험 변이체를 폴리뉴클레오티드의 제1 영역 또는 제3 영역에서 시퀀싱된 대립유전자와 연관시키는 것을 포함한다.
하기를 포함하는, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 염기 전환의 존재를 검출하기 위한 커플링된 시퀀싱 리드 쌍을 생성하는 방법이 추가로 본원에 기재되어 있다: (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 일부 실시양태에서, 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장된다.
하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법이 또한 본원에 기재되어 있다: (a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계; 및 (c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 일부 실시양태에서, 제1 영역은 프라이머에 의해 표적화된 자연 발생 서열을 포함한다. 일부 실시양태에서, 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장된다.
일부 실시양태에서, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 염기 전환의 존재를 검출하는 방법은 하기를 포함한다: 상기 기재된 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계이며, 여기서 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되는 것인 단계; 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및 제3 영역에 대한 예상 시퀀싱 데이터 및 제3 영역에 대한 생성된 시퀀싱 데이터 사이의 차이에 기초하여 염기 전환의 존재를 검출하는 단계. 일부 실시양태에서, 제3 영역에 대한 예상 시퀀싱 데이터는 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역에 대한 참조 서열을 사용하여 결정된다. 일부 실시양태에서, 제3 영역에 대한 예상 시퀀싱 데이터는 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역의 서열과 연관된 생성된 서열 데이터를 사용하여 결정되고, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터는 단계 (d)에서 생성된 동일한 또는 상이한 서열 데이터이다. 일부 실시양태에서, 제3 영역에 대한 예상 시퀀싱 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다.
복수의 커플링된 시퀀싱 리드 쌍을 어셈블리하는 것을 포함하는, 하나 이상의 컨센서스 서열을 생성하는 방법이 추가로 본원에 기재되어 있다. 일부 실시양태에서, 하나 이상의 컨센서스 서열은 복수의 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 어셈블리된다. 일부 실시양태에서, 거리 정보는 제2 영역 흐름 순서와 연관된 정보 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정된다. 일부 실시양태에서, 제2 영역 흐름 순서와 연관된 정보는 단계 (c)에서 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수이다. 일부 실시양태에서, 제2 영역에서의 염기의 확률 분포는 게놈 내의 염기의 분포로부터 결정된다. 일부 실시양태에서, 거리 정보는 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정된 제2 영역에 대한 예상 참조 시퀀싱 데이터로부터 파생된다. 일부 실시양태에서, 예상 참조 시퀀싱 데이터는 바이너리 또는 넌-바이너리 흐름도를 포함한다.
일부 실시양태에서, 하나 이상의 컨센서스 서열을 생성하는 방법은 선택된 컨센서스 서열의 일부와 연관된 선택된 커플링된 시퀀싱 리드를 사용하여 하나 이상의 컨센서스 서열로부터 선택된 컨센서스 서열의 일부를 검증하는 단계를 추가로 포함하고, 여기서 선택된 커플링된 시퀀싱 리드를 생성할 때 단계 (d)에서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되고, 검증하는 단계는 하기를 포함한다: 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 선택된 컨센서스 서열의 일부를 사용하여 선택된 커플링된 시퀀싱 리드의 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및 선택된 커플링된 시퀀싱 리드의 제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 생성된 시퀀싱 데이터와 비교함으로써 선택된 컨센서스 서열의 일부를 검증하는 단계.
하기를 포함하는, 시험 변이체의 상태를 검증하는 방법이 또한 기재되어 있다: 복수의 중첩 커플링된 시퀀싱 리드 쌍에 걸쳐 변이체의 상태를 비교하는 단계이며, 복수의 중첩 커플링된 시퀀싱 리드 쌍은 시험 변이체의 유전자좌에 상응하는 유전자좌를 포함하는 것인 단계; 비교에 기초하여 변이체의 상태를 검증하는 단계. 일부 실시양태에서, 선택된 커플링된 시퀀싱 리드의 제1 영역 또는 제3 영역은 복수의 중첩 커플링된 시퀀싱 리드에서 다른 커플링된 시퀀싱 리드의 적어도 일부의 제2 영역과 중첩된다. 일부 실시양태에서, 선택된 커플링된 시퀀싱 리드의 변이체 상태는 선택된 커플링된 시퀀싱 리드의 제1 영역 또는 제3 영역에서의 변이체를 나타낸다. 일부 실시양태에서, 선택된 커플링된 시퀀싱 리드의 제2 영역은 복수의 중첩 커플링된 시퀀싱 리드에서 다른 커플링된 시퀀싱 리드의 적어도 일부의 제2 영역과 중첩된다. 일부 실시양태에서, 선택된 커플링된 시퀀싱 리드의 변이체 상태는 선택된 커플링된 시퀀싱 리드의 제2 영역에서의 변이체를 나타낸다.
하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법이 추가로 본원에 기재되어 있다: 상기 방법 중 어느 하나에 따라 커플링된 시퀀싱 리드 쌍을 생성하는 단계; 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계; 및 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재 또는 부재를 호출하는 단계. 일부 실시양태에서, 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역에 대한 예상 시퀀싱 데이터와 비교하는 단계는 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터가 폴리뉴클레오티드의 제3 영역에 대한 예상 시퀀싱 데이터와 매치할 가능도를 나타내는 매치 스코어를 결정하는 것을 포함하고; 폴리뉴클레오티드의 제2 영역에서 표적 짧은 유전자 변이체의 존재 또는 부재를 호출하는 단계는 결정된 매치 스코어를 사용하는 것을 포함한다. 일부 실시양태에서, 폴리뉴클레오티드의 제3 영역에 대한 예상 시퀀싱 데이터는 인실리코 폴리뉴클레오티드의 제3 영역의 예상 서열 및 시퀀싱에 의해 수득된다. 일부 실시양태에서, 제1 영역의 서열과 연관된 시퀀싱 데이터 또는 제3 영역의 서열과 연관된 시퀀싱 데이터는 복수의 흐름 위치 내의 각 흐름 위치에 혼입된 염기의 수를 나타내는 염기 카운트를 표시하는 흐름 신호를 포함한다. 일부 실시양태에서, 흐름 신호는 각 흐름 위치에서 적어도 하나의 염기 카운트에 대한 염기 카운트 가능도를 나타내는 통계적 파라미터를 포함한다. 일부 실시양태에서, 흐름 신호는 각 흐름 위치에서 복수의 염기 카운트에 대한 염기 카운트 가능도를 나타내는 통계적 파라미터를 포함한다. 일부 실시양태에서, 제3 영역의 서열과 연관된 시퀀싱 데이터는 복수의 흐름 위치 내의 각 흐름 위치에 혼입된 염기의 수를 나타내는 염기 카운트를 표시하는 흐름 신호를 포함하고, 여기서 흐름 신호는 복수의 염기 카운트에 대한 염기 카운트 가능도를 나타내는 통계적 파라미터를 포함하고; 방법은 해당 흐름 위치에서 예상 서열의 염기 카운트에 상응하는, 시퀀싱 데이터에서 각 흐름 위치에서 통계적 파라미터를 선택하는 단계, 및 시퀀싱 데이터 세트가 예상 서열과 매치할 가능도를 나타내는 매치 스코어를 결정하는 단계를 추가로 포함한다. 일부 실시양태에서, 매치 스코어는 시퀀싱 데이터에서 흐름 위치에 걸쳐 선택된 통계적 파라미터의 조합된 값이다.
상기 방법의 일부 실시양태에서, 흐름-사이클 순서는 동일한 순서로 반복되는 4개의 별도의 흐름을 포함한다.
상기 방법의 일부 실시양태에서, 흐름-사이클 순서는 5개 이상의 별도의 흐름을 포함한다.
상기 방법의 일부 실시양태에서, 커플링된 시퀀싱 리드 쌍을 생성하는 단계는 하기를 추가로 포함한다: 제4 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제4 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제4 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제4 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제4 영역을 통한 프라이머의 연장은 제1 영역 또는 제3 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및 표지된 뉴클레오티드를 사용하여 제4 영역을 통해 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제5 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 일부 실시양태에서, 방법은 제5 영역의 시퀀싱 데이터를 제1 영역의 시퀀싱 데이터 또는 제3 영역의 시퀀싱 데이터와 연관시키는 것을 추가로 포함한다.
상기 방법의 일부 실시양태에서, 폴리뉴클레오티드는 롤링 서클 증폭을 사용하여 증폭된다.
하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법이 또한 본원에 기재되어 있다: (a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA-증폭된 폴리뉴클레오티드를 생성하는 단계; (b) RCA-증폭된 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (c) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (d) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장은 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계; (e) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (f) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계; (g) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계; (h) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및 (i) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계. 일부 실시양태에서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장은 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역을 통한 프라이머의 연장보다 빠르게 진행한다. 일부 실시양태에서, 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터는 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 것에 기초하여 동적으로 생성된다. 일부 실시양태에서, 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장된다. 일부 실시양태에서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부는 비표지된 뉴클레오티드이다. 일부 실시양태에서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지된 뉴클레오티드이다. 일부 실시양태에서, 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용된다. 일부 실시양태에서, 3개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용된다.
하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법이 추가로 본원에 기재되어 있다: (a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA-증폭된 폴리뉴클레오티드를 생성하는 단계; (b) 프라이머를 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계; (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, 또는 (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계; (d) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (e) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계; (f) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계; (g) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및 (h) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계. 일부 실시양태에서, 제1 영역은 프라이머에 의해 표적화된 자연 발생 서열을 포함한다. 일부 실시양태에서, 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터는 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 것에 기초하여 동적으로 생성된다. 일부 실시양태에서, 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장된다. 일부 실시양태에서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부는 비표지된 뉴클레오티드이다. 일부 실시양태에서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지된 뉴클레오티드이다. 일부 실시양태에서, 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용된다. 일부 실시양태에서, 3개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용된다.
하기를 포함하는, 시퀀싱 클러스터 내에서 시퀀싱 프라이머를 동기화하는 방법이 또한 본원에 기재되어 있다: (a) 프라이머를 시퀀싱 클러스터 내의 폴리뉴클레오티드 카피에 혼성화하는 단계; (b) 제1 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제1 영역을 통해 프라이머를 연장하는 단계; (c) 하나 이상의 재위상화 흐름을 사용하여 폴리뉴클레오티드 카피의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물은 하나 이상의 재위상화 흐름 중 적어도 하나에서 사용되는 것인 단계; 및 (d) 제3 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제3 영역을 통해 프라이머를 연장하는 단계. 일부 실시양태에서, 3개의 상이한 유형의 뉴클레오티드 염기의 혼합물은 하나 이상의 재위상화 흐름 중 적어도 하나에서 사용된다. 일부 실시양태에서, 하나 이상의 재위상화 흐름은 4개 이상의 흐름 단계를 포함한다. 일부 실시양태에서, 하나 이상의 재위상화 흐름은 임의의 순서로 하기를 포함한다: (i) A, C 및 G 뉴클레오티드를 포함하고 T 뉴클레오티드를 생략한 혼합물을 포함하는 제1 흐름; (ii) T, C 및 G 뉴클레오티드를 포함하고 A 뉴클레오티드를 생략한 혼합물을 포함하는 제2 흐름; (iii) T, A 및 G 뉴클레오티드를 포함하고 C 뉴클레오티드를 생략한 혼합물을 포함하는 제3 흐름; 및 (iv) T, A 및 C 뉴클레오티드를 포함하고 G 뉴클레오티드를 생략한 혼합물을 포함하는 제4 흐름. 일부 실시양태에서, 방법은 제1 영역을 통해 프라이머를 연장하면서 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함한다. 일부 실시양태에서, 방법은 제3 영역을 통해 프라이머를 연장하면서 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함한다.
하기를 포함하는 시스템이 또한 본원에 기재되어 있다: 하나 이상의 프로세서; 및 하나 이상의 커플링된 시퀀싱 리드와 관련된 정보를 수신하고; 상기 방법 중 임의의 하나 이상의 방법을 수행하기 위한 하나 이상의 프로세서에 의해 실행가능한 하나 이상의 프로그램을 포함하는 비일시적 저장 매체.
도 1은 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하기 위한 예시적인 방법의 개략도를 예시한다.
도 2는 참조 서열을 사용하여 예상 시퀀싱 데이터를 생성하기 위한 예시적인 방법의 개략도를 예시한다.
도 3은 커플링된 시퀀싱 리드 쌍의 제3 영역이 2개의 상이한 유전자좌에 맵핑할 때 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 커플링된 시퀀싱 리드 쌍이 참조 서열에 어떻게 맵핑되는지를 예시한다.
도 4는 커플링된 시퀀싱 리드 쌍의 제3 영역이 반복 영역에 맵핑할 때 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 커플링된 시퀀싱 리드 쌍이 참조 서열에 어떻게 맵핑되는지를 예시한다.
도 5는 대상체의 게놈에서 삽입을 검출하기 위해 커플링된 시퀀싱 리드 쌍이 어떻게 사용될 수 있는지에 대한 개략도를 예시한다.
도 6은 커플링된 시퀀싱 리드 쌍을 사용하여 구조적 변이체를 검출하기 위한 예시적인 방법을 예시한다.
도 7은 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 삽입이다.
도 8은 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 결실이다.
도 9는 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 역위이다.
도 10은 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 염색체 융합이다.
도 11은 커플링된 시퀀싱 리드 쌍을 사용하여 구조적 변이체를 검출하는 예시적인 방법을 예시한다.
도 12는 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍이 어떻게 사용될 수 있는지의 한 예를 나타내는 개략도를 예시한다.
도 13은 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 예시적인 방법을 예시한다.
도 14a는 T-A-C-G의 반복된 흐름-사이클 순서를 사용하여 5'-TATGGTCGTCGA-3' (서열식별번호(SEQ ID NO): 15)의 서열로 프라이머를 연장함으로써 수득된 시퀀싱 데이터를 보여준다. 시퀀싱 데이터는 연장된 프라이머 가닥을 대표하고, 상보적 주형 가닥에 대한 시퀀싱 정보는 쉽게 결정될 수 있고 효과적으로 동등하다. 도 14b는 각 흐름 위치에서 가장 높은 가능도에 기초하여 선택된 시퀀싱 데이터가 주어지면, 가장 가능성이 높은 서열과 함께 도 14a에 표시된 시퀀싱 데이터를 보여준다 (별표로 표시됨). 도 14c는 2개의 상이한 후보 서열 (각각 이들의 상보체로 표시됨): TATGGTCATCGA (서열식별번호: 16) (닫힌 원) 및 TATGGTCGTCGA (서열식별번호: 15) (열린 원)을 표시하는 트레이스와 함께 도 14a에 표시된 시퀀싱 데이터를 보여준다. 시퀀싱 데이터가 주어진 서열과 매치할 가능도는 각 흐름 위치가 후보 서열과 매치할 가능도의 곱으로 결정될 수 있다.
도 15a는 2개의 후보 서열 H1 (서열식별번호: 19) 및 H2 (서열식별번호: 20) (각각 이들의 상보체로 표시됨)와 정렬된 시퀀싱 리드 R1 (서열식별번호: 15), R2 (서열식별번호: 17), 및 R3 (서열식별번호: 18) (각각 연장된 프라이머의 서열로 표시됨)의 정렬을 보여준다. 도 15b는 H1 (닫힌 원) 및 H2 (열린 원)를 표시하는 트레이스와 함께 R1에 상응하는 시퀀싱 데이터를 보여준다. 도 15c는 H1 (닫힌 원) 및 H2 (열린 원)를 표시하는 트레이스와 함께 R2에 상응하는 시퀀싱 데이터를 보여준다. 도 15d는 H1 (닫힌 원) 및 H2 (열린 원)를 표시하는 트레이스와 함께 R3에 상응하는 시퀀싱 데이터를 보여준다.
도 16은 A-T-G-C 흐름 사이클 순서를 사용하여 시퀀싱된 가상의 핵산 분자로부터의 시퀀싱 데이터를 보여준다. 트레이스는 잠재적인 반수체형 서열 (각각 이들의 상보체로 표시됨) TATGGTCG-TCGA (서열식별번호: 21) (H1) 및 TATGGTCGATCG (서열식별번호: 22) (H2)을 사용하여 생성될 수 있으며, H1은 H2에 비해 1개의 염기 결실을 갖는다. 시퀀싱 데이터는 H2 후보 서열과 더 양호한 매치를 갖고, 이 서열에서 indel이 호출되지 않는다.
도 17은 시험 변이체의 상태를 결정하기 위해 커플링된 시퀀싱 리드 쌍을 비교하는 것에 대한 예시적인 개략도를 예시한다.
도 18은 본원에 기재된 바와 같은 방법을 구현하는데 사용될 수 있는, 한 실시양태에 따른 컴퓨팅 디바이스의 한 예를 예시한다.
도 19a는 폴리뉴클레오티드를 통해 시퀀싱 프라이머를 연장할 때 제1 영역 및 제3 영역에서 각 흐름 시퀀싱 사이클 후에 혼입된 염기로부터 오는 신호를 보여준다. 프라이머의 연장이 검출된 염기 혼입 없이 이 영역을 통해 가속화되었기 때문에 제2 영역 내에서 데이터가 수집되지 않았다.
도 19b는 폴리뉴클레오티드를 통해 시퀀싱 프라이머를 연장할 때 제1 영역 및 제3 영역에서 각 흐름 시퀀싱 사이클 후에 혼입된 염기로부터 오는 신호를 보여준다. 데이터는 제2 영역을 통해 수집되었지만, 도면의 크기를 압축하기 위해 표시되지 않았다.
도 20a-20e는 100 뉴클레오티드 흐름 (도 20a), 및 시퀀싱 클러스터 내에서 프라이머를 동기화하도록 설계된 재위상화 흐름 후 예시적인 시뮬레이션된 시퀀싱 프로토콜에서 동일한 폴리뉴클레오티드 주형에 대해 연장된 프라이머의 수를 보여준다. 예시된 재위상화 흐름 순서는 뉴클레오티드 흐름 101 (도 20b), 흐름 102 (도 20c), 흐름 103 (도 20d), 및 흐름 104 (도 20e)를 포함하는 4-단계 순서이다.
도 21a-21e는 100 뉴클레오티드 흐름 (도 21a), 및 시퀀싱 클러스터 내에서 프라이머를 동기화하도록 설계된 재위상화 흐름 후 또 다른 예시적인 시뮬레이션된 시퀀싱 프로토콜에서 동일한 폴리뉴클레오티드 주형에 대해 연장된 프라이머의 수를 보여준다. 예시된 재위상화 흐름 순서는 뉴클레오티드 흐름 101 (도 21b), 흐름 102 (도 21c), 흐름 103 (도 21d), 및 흐름 104 (도 21e)를 포함하는 4-단계 순서이다.
도 22a-22e는 100 뉴클레오티드 흐름 (도 22a), 및 시퀀싱 클러스터 내에서 프라이머를 동기화하도록 설계된 재위상화 흐름 후 또 다른 예시적인 시뮬레이션된 시퀀싱 프로토콜에서 동일한 폴리뉴클레오티드 주형에 대해 연장된 프라이머의 수를 보여준다. 예시된 재위상화 흐름 사이클은 뉴클레오티드 흐름 101 (도 22b), 흐름 102 (도 22c), 흐름 103 (도 22d), 및 흐름 104 (도 22e)를 포함하는 4-단계 순서이다.
도 23은 4개의 예시적인 흐름 사이클 순서 (그 중 3개는 연장된 흐름 사이클 순서인 것을 포함함)에 대해, 무작위 시퀀싱 시작 위치가 주어지면 검출된 SNP 순열의 민감도를 보여준다. 도 23에서, x-축은 흐름 위상 (또는 단편화 시작 위치)의 분율을 나타내고, y-축은 2개 초과의 흐름 위치에서 신호 변화 (즉, 새로운 제로 또는 새로운 넌-제로 신호)를 유도한 SNP 순열의 분율을 나타낸다.
도 24는 시뮬레이션된 고속 정방향 시퀀싱 프로토콜을 사용하여 검출된 다양한 SNP 변이체에 대한 염기 검출 민감도를 나타내는 행렬를 보여주며, 여기서 합성 폴리뉴클레오티드의 제2 영역은 반복된 4-단계 흐름 사이클을 사용하여 시퀀싱되고, 각 흐름은 단일 뉴클레오티드 염기를 갖는다.
도 25a는 반복된 4-단계 흐름 사이클을 사용하여 시뮬레이션된 고속-정방향 시퀀싱 프로토콜에 대한 제1, 제2 및 제3 영역에서의 흐름에 걸친 평균 염기 혼입을 보여주며, 여기서 각 흐름은 3개의 상이한 뉴클레오티드 염기의 혼합물을 포함한다. 참조 염기 검출 민감도에 대한 변이체 염기의 행렬은 도 25b에 표시된다. 도 25c는 합성 리드에 걸친 염기 커버리지의 분포를 보여준다.
도 26a는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C 및 G의 혼합물을 함유하는 재위상화 흐름이 매 24번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키(key)에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26b는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C 및 G의 혼합물을 함유하는 재위상화 흐름이 매 48번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26c는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C 및 G의 혼합물을 함유하는 재위상화 흐름이 매 96번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26d는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C 및 G의 혼합물을 함유하는 재위상화 흐름이 매 192번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26e는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 매 48번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26f는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 매 96번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26g는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C, G 및 T의 혼합물을 함유하는 제1 재위상화 흐름 및 A, C 및 G의 혼합물을 함유하는 제2 재위상화 흐름이 매 96번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26h는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C, G 및 T의 혼합물을 함유하는 제1 재위상화 흐름 및 A, C 및 G의 혼합물을 함유하는 제2 재위상화 흐름이 매 192번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26i는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C, G 및 T의 혼합물을 함유하는 제1 재위상화 흐름, A, C 및 T의 혼합물을 함유하는 제2 재위상화 흐름, A, G 및 T의 혼합물을 함유하는 제3 재위상화 흐름, 및 A, C 및 G의 혼합물을 함유하는 제4 재위상화 흐름이 매 96번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
도 26j는 제어 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드) 또는 재위상화 프로토콜 (T-G-C-A 흐름 사이클의 105 라운드, 여기서 C, G 및 T의 혼합물을 함유하는 제1 재위상화 흐름, A, C 및 T의 혼합물을 함유하는 제2 재위상화 흐름, A, G 및 T의 혼합물을 함유하는 제3 재위상화 흐름, 및 A, C 및 G의 혼합물을 함유하는 제4 재위상화 흐름이 매 192번째 흐름 후에 사용되었음)에 대한 10,000개의 시뮬레이션된 흐름도에 대한 누적된 총 위상화 오류 (지연 위상화 오류 + 선도 위상화 오류)의 합계의 분포를 보여준다. 평균 및 표준 편차가 키에 표시된다. 제어 및 재위상화 프로토콜에 대한 분포의 적분이 또한 표시된다.
발명의 상세한 설명
폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법, 및 이러한 커플링된 시퀀싱 리드 쌍을 분석하는 방법이 본원에 기재되어 있다. 커플링된 시퀀싱 리드 쌍은 예를 들어, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하거나, 구조적 변이체를 검출하거나, 폴리뉴클레오티드의 커플링된 쌍형성된 말단 사이의 영역에서 변이체 (예컨대 SNP)를 검출하거나, 전환을 검출하거나, 또는 컨센서스 서열을 결정 또는 검증하기 위해 분석될 수 있다.
폴리뉴클레오티드는 시퀀싱 프라이머에 혼성화될 수 있으며, 이는 폴리뉴클레오티드의 제1 영역 (즉, 3' 말단)을 통해 연장되어 제1 영역을 시퀀싱한다. 그 후, 프라이머는 폴리뉴클레오티드의 제2 영역을 통해 연장되며, 이는 제1 영역을 통한 프라이머의 연장보다 더 빠른 속도로 발생할 수 있다. 제2 영역을 통한 가속화된 프라이머 연장은 "고속 정방향 시퀀싱"으로 지칭될 수 있다. 본원에서 추가로 논의된 바와 같이, 프라이머가 제2 영역을 통해 연장되기 때문에 (보다 전통적인 페어드-엔드 시퀀싱에서 발생하는 것처럼 프라이머가 제2 영역을 완전히 스킵하는 대신), 일부 정보 (일부 시퀀싱 데이터를 잠재적으로 포함함)는 제2 영역이 제1 영역과 동일한 방식으로 시퀀싱되지 않더라도 제2 영역에 대해 파생될 수 있다. 예를 들어, 프라이머는 비표지된 뉴클레오티드만을 사용하여 제2 영역을 통해 연장될 수 있다. 시퀀싱 프라이머가 제2 영역을 통해 연장되면, 프라이머는 폴리뉴클레오티드의 제3 영역 (즉, 5' 말단)으로 연장되어 제3 영역을 시퀀싱한다. 상기 영역 및 제3 영역의 시퀀싱 데이터가 커플링되어, 폴리뉴클레오티드에 대한 커플링된 시퀀싱 리드 쌍이 생성될 수 있고, 본원에 추가로 기재된 바와 같이, 추가 시퀀싱 데이터가 제2 영역으로부터 파생될 수 있다.
한 예에서, 폴리뉴클레오티드로부터의 커플링된 시퀀싱 리드 쌍은 하기 단계에 의해 생성될 수 있다: (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 제2 영역을 통한 프라이머의 연장은 단계 (b)에서의 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 제1 영역의 시퀀싱 데이터는 커플링된 시퀀싱 리드 쌍을 나타내는 제3 영역의 시퀀싱 데이터와 연관될 수 있다. 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지될 수 있다.
일부 실시양태에서, 폴리뉴클레오티드로부터의 커플링된 시퀀싱 리드 쌍은 하기 단계에 의해 생성될 수 있다: (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되는 것인 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 제1 영역의 시퀀싱 데이터는 커플링된 시퀀싱 리드 쌍을 나타내는 제3 영역의 시퀀싱 데이터와 연관될 수 있다. 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지될 수 있다.
일부 실시양태에서, 폴리뉴클레오티드로부터의 커플링된 시퀀싱 리드 쌍은 하기 단계에 의해 생성될 수 있다: (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 제1 영역의 시퀀싱 데이터는 커플링된 시퀀싱 리드 쌍을 나타내는 제3 영역의 시퀀싱 데이터와 연관될 수 있다. 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지될 수 있다.
일부 실시양태에서, 프라이머는 시퀀싱 클러스터 내에서 복수의 시퀀싱 반응을 재위상화 (즉, 동기화)하기 위해 제2 영역을 통해 연장된다. 뉴클레오티드를 연장 프라이머에 혼입하는 화학적 공정은 종종 불완전하여, 시퀀싱 클러스터 내의 가닥 간에 탈동기화를 유발한다. 리드 길이가 증가함에 따라 연장 프라이머로의 뉴클레오티드 혼입의 존재 또는 부재를 검출할 때 탈동기화는 신호 저하 및 그에 따른 감소된 정확도를 초래할 수 있다. 재동기화는 신호 손실의 대응을 초래할 수 있으며, 이는 더 긴 유효 리드 길이를 허용한다. 시퀀싱 반응을 재위상화하기 위해, 프라이머는 재위상화 사이클을 사용하여 제2 영역을 통해 연장되고, 여기서 적어도 2개 (예를 들어, 2 또는 3개)의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 복수의 단계에서 사용된다. 재위상화 사이클 동안 혼입된 뉴클레오티드는 일부 실시양태에서 검출되지 않을 수 있으며, 이는 생성된 리드에 갭을 초래할 것이다. 그러나, 이러한 리드 갭은 서열이 참조 또는 다른 서열에 정렬될 때 관리될 수 있다.
참조 서열은 제2 영역이 직접적으로 또는 완전히 시퀀싱되지 않았을지라도 제2 영역에 대한 시퀀싱 데이터를 추출하는데 사용될 수 있다. 예를 들어, 시퀀싱 데이터는 연장 프라이머에 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역 및/또는 제3 영역으로부터 수득될 수 있다. 그러나, 프라이머는 비표지된 뉴클레오티드를 사용하여 또는 혼입된 뉴클레오티드의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장될 수 있다. 비표지된 뉴클레오티드의 사용 (또는 시퀀싱 시스템이 혼입된 표지를 검출하는 시간을 허용하지 않음으로써)은 제2 영역을 통해 더 빠른 프라이머 연장을 허용하지만, 시퀀싱 데이터의 직접 결정을 허용하지 않는다. 그러나, 프라이머는 미리 결정된 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 연장되기 때문에, 제2 영역의 변이체는 제3 영역 내에서 결정된 시퀀싱 데이터에 영향을 미칠 수 있다. 참조 서열은 예상 시퀀싱 데이터 (예를 들어, 예상 흐름도)를 결정하는데 사용될 수 있으며, 이는 생성된 시퀀싱 데이터 (예컨대 검출된 흐름도)와 비교되어 제2 영역 내의 변이체를 포함하는 변이체를 검출한다. 예상 시퀀싱 정보 (예를 들어, 예상 흐름도) 및 생성된 시퀀싱 데이터 (예를 들어, 생성된 흐름도) 사이의 비교는 제3 영역에서 수행될 수 있다 (제2 영역의 변이체를 검출하기 위해). 이 방법론은 폴리뉴클레오티드의 3' 말단 또는 5' 말단에 대한 시퀀싱 데이터가 폴리뉴클레오티드의 3' 말단 및 5' 말단 사이의 폴리뉴클레오티드의 변이체에 의해 영향을 받지 않는 전통적인 페어드-엔드 시퀀싱 방법에 비해 상당한 장점을 제공한다.
정의
본원에서 사용된 바와 같이, 단수 형태 "하나"는 문맥이 명백하게 달리 지시하지 않는 한 복수의 언급을 포함한다.
본원에서 "약" 값 또는 파라미터에 대한 언급은 해당 값 또는 파라미터 그 자체에 대한 변경을 포함 (및 기재)한다. 예를 들어, "약 X"를 언급하는 기재는 "X"의 기재를 포함한다.
"예상 시퀀싱 데이터"는 커플링된 시퀀싱 리드 쌍을 생성하는데 사용되는 폴리뉴클레오티드의 서열, 또는 상기 폴리뉴클레오티드의 영역의 서열이 참조 서열과 매치하는 경우 예상되는 시퀀싱 데이터를 지칭한다.
"흐름 순서"는 비종결 뉴클레오티드를 사용하여 핵산 분자를 시퀀싱하는데 사용되는 별도의 뉴클레오티드 흐름의 순서를 지칭한다. 흐름 순서는 반복 단위의 사이클로 나눌 수 있으며, 반복 단위의 흐름 순서는 "흐름-사이클 순서"라고 한다. "흐름 위치"는 시퀀싱 공정 동안 주어진 별도의 뉴클레오티드 흐름의 순차적 위치를 지칭한다.
용어 "개체," "환자" 및 "대상체"는 동의어로 사용되고, 인간을 포함하는 동물을 지칭한다.
본원에서 사용된 바와 같은 용어 "표지"는 또 다른 모이어티, 예를 들어 뉴클레오티드 또는 뉴클레오티드 유사체에 커플링되거나 커플링될 수 있는 검출가능한 모이어티를 지칭한다. 표지는 표지의 존재 또는 부재가 검출될 수 있도록 신호를 방출하거나 표지에 전달된 신호를 변경할 수 있다. 일부 경우에, 커플링은 절단가능, 예컨대 광-절단가능 (예를 들어, 자외선 하에 절단가능), 화학적으로-절단가능 (예를 들어, 환원제, 예컨대 디티오트레이톨 (DTT), 트리스(2-카르복시에틸)포스핀 (TCEP)을 통해) 또는 효소적으로 절단가능 (예를 들어, 에스테라제, 리파제, 펩티다제, 또는 프로테아제를 통해)할 수 있는 링커를 통해 이루어질 수 있다. 일부 실시양태에서, 표지는 형광단이다.
"비종결 뉴클레오티드"는 폴리머라제 또는 전사효소를 사용하여 폴리뉴클레오티드의 3' 말단에 부착될 수 있고, 뉴클레오티드로부터 보호기 또는 가역적 종결자를 제거할 필요 없이 폴리머라제 또는 전사효소를 사용하여 이에 부착된 또 다른 비종결 핵산을 가질 수 있는 핵산 모이어티이다. 자연 발생 핵산은 일종의 비종결 핵산이다. 비종결 핵산은 표지되거나 비표지될 수 있다.
"짧은 유전자 변이체"는 길이가 10개 이하의 연속 염기 (즉, 길이가 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1개의 염기(들))인 유전자 다형체 (즉, 돌연변이)를 설명하기 위해 본원에서 사용된다. 상기 용어는 단일 뉴클레오티드 다형성 (SNP), 다중-뉴클레오티드 다형성 (MNP), 및 길이가 10개 이하의 연속 염기인 indel을 포함한다.
본원에 기재된 본 발명의 측면 및 변경은 측면 및 변경으로 "이루어진" 및/또는 "본질적으로 이루어진"을 포함하는 것으로 이해된다.
값의 범위가 제공되는 경우, 해당 범위의 상한 및 하한 사이의 각 개재 값, 및 해당 언급 범위 내의 임의의 다른 언급된 또는 개재 값은 본 개시내용의 범위 내에 포함되는 것으로 이해되어야 한다. 언급된 범위가 상한 또는 하한을 포함하는 경우, 포함된 한계 중 어느 하나를 제외한 범위가 또한 본 개시내용에 포함된다.
본원에 기재된 분석 방법 중 일부는 서열을 참조 서열에 맵핑하고/거나, 서열 정보를 결정하고/거나, 서열 정보를 분석하는 것을 포함한다. 상보적 서열이 쉽게 결정 및/또는 분석될 수 있고, 본원에 제공된 설명이 상보적 서열을 참조하여 수행되는 분석 방법을 포함한다는 것이 관련 기술분야에서 잘 이해된다.
본원에서 사용된 섹션 제목은 조직화 목적만을 위한 것이며, 설명된 주제를 제한하는 것으로 해석되어서는 안된다. 설명은 관련 기술분야의 통상의 기술자가 본 발명을 만들고 사용할 수 있도록 제공되며 특허 출원 및 그 요건의 문맥에서 제공된다. 설명된 실시양태에 대한 다양한 변형은 관련 기술분야의 통상의 기술자에게 쉽게 명백할 것이고, 본원에서 일반적인 원리는 다른 실시양태에 적용될 수 있다. 그러므로, 본 발명은 표시된 실시양태에 제한되도록 의도되지 않지만, 본원에 기재된 원리 및 특징과 일치하는 가장 넓은 범위가 부여되어야 한다.
도면은 다양한 실시양태에 따른 공정을 예시한다. 예시적인 공정에서, 일부 블록은 임의로 조합되고, 일부 블록의 순서는 임의로 변경되고, 일부 블록은 임의로 생략된다. 일부 예에서, 추가 단계는 예시적인 공정과 조합하여 수행될 수 있다. 따라서, 예시된 (및 아래에서 더 자세히 설명된) 바와 같은 작동은 본래 예시적인 것이며, 이와 같이 제한적인 것으로 간주되어서는 안된다.
본원에 언급된 모든 간행물, 특허 및 특허 출원의 개시내용은 각각 그 전문이 본원에 참조로 포함된다. 참조로 포함된 임의의 참고문헌이 본 개시내용과 충돌하는 범위 내에서는 본 개시내용이 우선한다.
흐름 시퀀싱 방법
시퀀싱 데이터는 미리 결정된 흐름 사이클에 따라 주형 폴리뉴클레오티드 분자에 결합된 프라이머를 연장하는 것을 포함하는 흐름 시퀀싱 방법을 사용하여 생성될 수 있으며, 여기서 임의의 주어진 흐름 위치에서, 단일 유형의 뉴클레오티드가 연장 프라이머에 접근가능하다. 일부 실시양태에서, 특정 유형의 뉴클레오티드 중 적어도 일부는 표지를 포함하고, 이는 표지된 뉴클레오티드를 연장 프라이머에 혼입시 검출가능한 신호를 제공한다. 이러한 뉴클레오티드가 연장된 프라이머에 혼입되는 생성된 서열은 주형 폴리뉴클레오티드 분자의 서열의 역상보체여야 한다. 일부 실시양태에서, 예를 들어, 시퀀싱 데이터는 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 연장 프라이머에 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출하는 것을 포함하는 흐름 시퀀싱 방법을 사용하여 생성된다. 흐름 시퀀싱 방법은 또한 "합성에 의한 자연 시퀀싱" 또는 "합성에 의한 비종결 시퀀싱" 방법으로 지칭될 수 있다. 예시적인 방법은 미국 특허 번호 8,772,473에 기재되어 있으며, 이는 그 전문이 본원에 참조로 포함된다. 흐름 시퀀싱 방법을 참조하여 하기 설명이 제공되지만, 시퀀싱된 영역의 전부 또는 일부를 시퀀싱하기 위해 다른 시퀀싱 방법이 사용될 수 있음이 이해되어야 한다.
흐름 시퀀싱은 폴리뉴클레오티드에 혼성화된 프라이머를 연장하기 위해 뉴클레오티드를 사용하는 것을 포함한다. 주어진 염기 유형 (예를 들어, A, C, G, T, U 등)의 뉴클레오티드는 상보적 염기가 주형 가닥에 존재하는 경우 프라이머를 연장하기 위해 혼성화된 주형과 혼합될 수 있다. 뉴클레오티드는 예를 들어 비종결 뉴클레오티드일 수 있다. 뉴클레오티드가 비종결인 경우, 하나 초과의 연속 상보적 염기가 주형 가닥에 존재하는 경우 하나 초과의 연속 염기는 연장 프라이머 가닥에 혼입될 수 있다. 비종결 뉴클레오티드는 3' 가역적 종결자를 갖는 뉴클레오티드와 대조되며, 여기서 차단기는 일반적으로 연속 뉴클레오티드가 부착되기 전에 제거된다. 상보적 염기가 주형 가닥에 존재하지 않는 경우, 주형 가닥에서 다음 염기에 상보적인 뉴클레오티드가 도입될 때까지 프라이머 연장이 중단된다. 뉴클레오티드의 적어도 일부는 혼입이 검출될 수 있도록 표지될 수 있다. 가장 일반적으로, 특정 실시양태에서 2 또는 3개의 상이한 유형의 뉴클레오티드가 동시에 도입될 수 있지만, 한번에 단일 뉴클레오티드 유형만이 도입된다 (즉, 별개로 첨가됨). 이 방법론은 가역적 종결자를 사용하는 시퀀싱 방법과 대조될 수 있으며, 여기서 프라이머 연장은 모든 단일 염기의 연장 후 종결자가 역전되어 다음 후속 염기의 혼입을 허용하기 전에 정지된다.
뉴클레오티드는 프라이머 연장 과정 동안 결정된 순서로 도입될 수 있으며, 이는 사이클로 추가로 나눌 수 있다. 뉴클레오티드는 단계별로 첨가되며, 이는 주형 가닥이 존재하는 상보적 염기의 시퀀싱 프라이머의 말단에 첨가된 뉴클레오티드의 혼입을 허용한다. 사이클은 뉴클레오티드의 동일한 순서 및 상이한 염기 유형의 수 또는 뉴클레오티드의 상이한 순서 및/또는 상이한 염기 유형의 상이한 수를 가질 수 있다. 그러나, 주어진 흐름 단계에 상응하는 염기 세트 (즉, 단일 흐름 단계에서 동시에 사용되는 하나 이상의 상이한 염기)는 본원에서 사용된 용어와 동일한 사이클에서 반복되지 않으며, 이는 상이한 사이클 간에 구별하기 위한 마커로서 제공할 수 있다. 단지 예로서, 제1 사이클의 순서는 A-T-G-C일 수 있고, 제2 사이클의 순서는 A-T-C-G일 수 있다. 또한, 하나 이상의 사이클은 하나 이상의 뉴클레오티드를 생략할 수 있다. 단지 예로서, 제1 사이클의 순서는 A-T-G-C일 수 있고, 제2 사이클의 순서는 A-T-C일 수 있다. 관련 기술분야의 통상의 기술자는 대안적인 순서를 쉽게 고려할 수 있다. 상이한 뉴클레오티드의 도입 사이에, 비혼입된 뉴클레오티드는 예를 들어 시퀀싱 플랫폼을 세척액으로 세척함으로써 제거될 수 있다.
폴리머라제는 주형-의존적 방식으로 프라이머의 말단에 하나 이상의 뉴클레오티드를 혼입함으로써 시퀀싱 프라이머를 연장하는데 사용될 수 있다. 일부 실시양태에서, 폴리머라제는 DNA 폴리머라제이다. 폴리머라제는 자연 발생 폴리머라제 또는 합성 (예를 들어, 돌연변이체) 폴리머라제일 수 있다. 폴리머라제는 프라이머 연장의 초기 단계에서 첨가될 수 있지만, 보충 폴리머라제는 예를 들어 뉴클레오티드의 단계별 첨가와 함께 또는 다수의 흐름 사이클 후에 시퀀싱 동안 임의로 첨가될 수 있다. 예시적인 폴리머라제는 DNA 폴리머라제, RNA 폴리머라제, 열안정성 폴리머라제, 야생형 폴리머라제, 변형된 폴리머라제, Bst DNA 폴리머라제, Bst 2.0 DNA 폴리머라제, Bst 3.0 DNA 폴리머라제, Bsu DNA 폴리머라제, 이. 콜라이 DNA 폴리머라제 I, T7 DNA 폴리머라제, 박테리오파지 T4 DNA 폴리머라제 Φ29 (phi29) DNA 폴리머라제, Taq 폴리머라제, Tth 폴리머라제, Tli 폴리머라제, Pfu 폴리머라제, 및 SeqAmp DNA 폴리머라제를 포함한다.
도입된 뉴클레오티드는 주형 가닥의 서열을 결정할 때 표지된 뉴클레오티드를 포함할 수 있고, 혼입된 표지된 핵산의 존재 또는 부재는 서열을 결정하기 위해 검출될 수 있다. 표지는 예를 들어 광학 활성 표지 (예를 들어, 형광 표지) 또는 방사성 표지일 수 있고, 표지에 의해 방출되거나 변경된 신호는 검출기를 사용하여 검출될 수 있다. 주형 폴리뉴클레오티드에 혼성화된 프라이머에 혼입된 표지된 뉴클레오티드의 존재 또는 부재는 검출될 수 있으며, 이는 서열의 결정을 허용한다 (예를 들어, 흐름도를 생성함으로써). 일부 실시양태에서, 표지된 뉴클레오티드는 형광성, 발광성 또는 다른 광-방출 모이어티로 표지된다. 일부 실시양태에서, 표지는 링커를 통해 뉴클레오티드에 부착된다. 일부 실시양태에서, 링커는 예를 들어 광화학적 또는 화학적 절단 반응을 통해 절단가능하다. 예를 들어, 표지는 연속 뉴클레오티드(들)의 검출 후에 및 혼입 전에 절단될 수 있다. 일부 실시양태에서, 표지 (또는 링커)는 뉴클레오티드 염기에, 또는 DNA의 초기 가닥의 신장을 방해하지 않는 뉴클레오티드 상의 또 다른 부위에 부착된다. 일부 실시양태에서, 링커는 디술피드 또는 PEG-함유 모이어티를 포함한다.
일부 실시양태에서, 도입된 뉴클레오티드는 비표지된 뉴클레오티드만을 포함하고, 일부 실시양태에서 뉴클레오티드는 표지된 및 비표지된 뉴클레오티드의 혼합물을 포함한다. 예를 들어, 일부 실시양태에서, 총 뉴클레오티드와 비교하여 표지된 뉴클레오티드의 부분은 약 90% 이하, 약 80% 이하, 약 70% 이하, 약 60% 이하, 약 50% 이하, 약 40% 이하, 약 30% 이하, 약 20% 이하, 약 10% 이하, 약 5% 이하, 약 4% 이하, 약 3% 이하, 약 2.5% 이하, 약 2% 이하, 약 1.5% 이하, 약 1% 이하, 약 0.5% 이하, 약 0.25% 이하, 약 0.1% 이하, 약 0.05% 이하, 약 0.025% 이하, 또는 약 0.01% 이하이다. 일부 실시양태에서, 총 뉴클레오티드와 비교하여 표지된 뉴클레오티드의 부분은 약 100%, 약 95% 이상, 약 90% 이상, 약 80% 이상, 약 70% 이상, 약 60% 이상, 약 50% 이상, 약 40% 이상, 약 30% 이상, 약 20% 이상, 약 10% 이상, 약 5% 이상, 약 4% 이상, 약 3% 이상, 약 2.5% 이상, 약 2% 이상, 약 1.5% 이상, 약 1% 이상, 약 0.5% 이상, 약 0.25% 이상, 약 0.1% 이상, 약 0.05% 이상, 약 0.025% 이상, 또는 약 0.01% 이상이다. 일부 실시양태에서, 총 뉴클레오티드와 비교하여 표지된 뉴클레오티드의 부분은 약 0.01% 내지 약 100%, 예컨대 약 0.01% 내지 약 0.025%, 약 0.025% 내지 약 0.05%, 약 0.05% 내지 약 0.1%, 약 0.1% 내지 약 0.25%, 약 0.25% 내지 약 0.5%, 약 0.5% 내지 약 1%, 약 1% 내지 약 1.5%, 약 1.5% 내지 약 2%, 약 2% 내지 약 2.5%, 약 2.5% 내지 약 3%, 약 3% 내지 약 4%, 약 4% 내지 약 5%, 약 5% 내지 약 10%, 약 10% 내지 약 20%, 약 20% 내지 약 30%, 약 30% 내지 약 40%, 약 40% 내지 약 50%, 약 50% 내지 약 60%, 약 60% 내지 약 70%, 약 70% 내지 약 80%, 약 80% 내지 약 90%, 약 90% 내지 100% 미만, 또는 약 90% 내지 약 100%이다.
시퀀싱 데이터, 예컨대 흐름도는 혼입된 뉴클레오티드의 검출 및 뉴클레오티드 도입의 순서에 기초하여 생성될 수 있다. 예를 들어 흐르는 주형 서열: CTG 및 CAG, 및 T-A-C-G의 반복 흐름 사이클 (즉, 상보적 염기가 주형 폴리뉴클레오티드에 존재하는 경우에만 프라이머에 혼입되는 T, A, C 및 G 뉴클레오티드의 순차적 첨가)을 취한다. 생성된 흐름도는 표 1에 표시되며, 여기서 1은 도입된 뉴클레오티드의 혼입을 나타내고, 0은 도입된 뉴클레오티드의 혼입이 없음을 나타낸다. 흐름도는 주형 가닥의 서열을 결정하는데 사용될 수 있다.
<표 1>
Figure pct00001
흐름도는 바이너리 또는 넌-바이너리일 수 있다. 바이너리 흐름도는 혼입된 뉴클레오티드의 존재 (1) 또는 부재 (0)를 검출한다. 넌-바이너리 흐름도는 각 단계별 도입으로부터 혼입된 뉴클레오티드의 수를 보다 정량적으로 결정할 수 있다. 예를 들어, CCG의 서열은 2개의 G 염기를 혼입할 것이고, 표지된 염기에 의해 방출되는 임의의 신호는 단일 염기의 혼입으로서 더 큰 강도를 가질 것이다. 이는 표 1에 표시된다. 넌-바이너리 흐름도는 또한 염기의 존재 또는 부재를 나타내지만, 주어진 단계에서 혼입된 염기의 수를 포함하는 추가 정보를 제공할 수 있다.
시퀀싱 데이터를 생성하기 전에, 폴리뉴클레오티드는 시퀀싱 프라이머에 혼성화되어 혼성화된 주형을 생성한다. 폴리뉴클레오티드는 시퀀싱 라이브러리 제조 동안 어댑터에 라이게이션될 수 있다. 어댑터는 시퀀싱 프라이머에 혼성화하는 혼성화 서열을 포함할 수 있다. 예를 들어, 어댑터의 혼성화 서열은 복수의 상이한 폴리뉴클레오티드에 걸쳐 균일한 서열일 수 있고, 시퀀싱 프라이머는 균일한 시퀀싱 프라이머일 수 있다. 이는 시퀀싱 라이브러리에서 상이한 폴리뉴클레오티드의 다중화된 시퀀싱을 허용한다.
폴리뉴클레오티드는 시퀀싱을 위해 표면 (예컨대 고체 지지체)에 부착될 수 있다. 폴리뉴클레오티드는 증폭되어 (예를 들어, 브릿지 증폭 또는 다른 증폭 기술에 의해) 폴리뉴클레오티드 시퀀싱 콜로니를 생성할 수 있다. 클러스터 내의 증폭된 폴리뉴클레오티드는 실질적으로 동일하거나 상보적이다 (폴리뉴클레오티드의 일부가 원래의 폴리뉴클레오티드와 반드시 동일하지 않을 수 있도록 증폭 공정 동안 일부 오류가 도입될 수 있음). 콜로니 형성은 검출기가 각 콜로니에 대한 표지된 뉴클레오티드의 혼입을 올바르게 검출할 수 있도록 신호 증폭을 허용한다. 일부 경우에, 콜로니는 에멀젼 PCR을 사용하여 비드 상에 형성되고, 비드는 시퀀싱 표면에 걸쳐 분포된다. 시퀀싱을 위한 시스템 및 방법에 대한 예는 미국 특허 일련 번호 10,344,328에서 찾을 수 있으며, 이는 그 전문이 본원에 참조로 포함된다.
폴리뉴클레오티드에 혼성화된 프라이머는 폴리뉴클레오티드의 제1 영역, 제2 영역 및 제3 영역을 통해 연장된다. 제1 영역 및/또는 제3 영역 내의 서열과 연관된 시퀀싱 데이터는 상기 논의된 바와 같이 생성될 수 있다. 그러나, 프라이머는 가속화된 "고속 정방향" 공정을 사용하여 제2 영역 (이는 제1 영역 및 제3 영역 사이에 있음)을 통해 연장된다. 즉, 폴리뉴클레오티드의 제1 영역 및 제3 영역 사이의 제2 영역을 통한 프라이머의 연장은 제1 영역 및/또는 제3 영역을 통한 프라이머의 연장보다 더 빠르게 진행할 수 있다. 예를 들어, 제2 영역을 통한 프라이머의 연장은 연장 프라이머에 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출하지 않고 프라이머를 연장함으로써 진행할 수 있다. 흐름 시퀀싱 동안, 상기 논의된 바와 같이, 표지된 뉴클레오티드가 연장 프라이머에 혼입되고, 혼성화된 주형이 세척되고, 검출기를 사용하여 뉴클레오티드의 표지로부터 신호를 검출하며, 이는 뉴클레오티드가 연장된 프라이머에 혼입되었는지 여부를 나타낸다. 그러나, 검출 공정에는 시간이 소요되고, 제2 영역을 통한 프라이머의 연장은 검출 공정을 스킵함으로써 가속화될 수 있다. 일부 실시양태에서, 프라이머는 비표지된 뉴클레오티드를 사용하여 (또는 비표지된 뉴클레오티드만을 사용하여) 제2 영역을 통해 연장되며, 이는 프라이머 연장 속도를 추가로 가속화할 수 있다.
제2 영역을 통한 프라이머의 연장은 대안적으로 또는 추가적으로 제2 영역을 통한 프라이머의 연장 동안 사용되는 흐름 순서의 적어도 하나의 단계에서 적어도 2개의 상이한 유형의 뉴클레오티드의 혼합물을 사용함으로써 가속화될 수 있다. 예를 들어, 2개의 상이한 염기, 예컨대 G 및 C가 동일한 단계에서 동시에 사용될 수 있으며, 이는 상보적 C 또는 G 염기가 존재하는 경우 프라이머를 연장한다. 이는 상기 염기가 상이한 염기 유형인 경우에도 연속 염기를 프라이머에 혼입함으로써 프라이머의 연장을 가속화한다. 일부 실시양태에서, 흐름 순서의 적어도 하나의 단계는 2개의 상이한 염기를 포함한다. 일부 실시양태에서, 흐름 순서의 적어도 하나의 단계는 3개의 상이한 염기를 포함한다. 예로서, 서열식별번호: 1의 서열 및 표 2에 표시된 상응하는 흐름 순서 및 흐름도를 고려한다. 서열식별번호: 1을 함유하는 폴리뉴클레오티드에 혼성화된 시퀀싱 프라이머를 연장하기 위한 흐름 순서 공정은 5개의 사이클을 포함하며, 사이클 1, 4 및 5는 서로 동일하고, 사이클 2 및 3은 서로 동일하다 (사이클 1, 4 및 5는 사이클 2 및 3과 상이함). 이 예에서, 각 사이클은 4개의 단계를 가지며, 사이클 1, 4 및 5는 A-C-T-G 뉴클레오티드의 순차적이고 독립적인 첨가를 포함하고, 단일 염기 유형이 각 사이클 단계에서 첨가된다. 사이클 2 및 3은 4개의 사이클 단계를 포함하며, 여기서 단계 1은 A 뉴클레오티드를 생략하고 (즉, C, T 및 G를 포함함), 단계 2는 C 뉴클레오티드를 생략하고 (즉, A, T 및 G를 포함함), 단계 3은 T 뉴클레오티드를 생략하고 (즉, A, C 및 G를 포함함), 단계 4는 G 뉴클레오티드를 생략한다 (즉, A, C 및 T를 포함함). 사이클 2 및 3은 프라이머 연장 동안 동시에 다중 상이한 뉴클레오티드 염기 유형을 포함하기 때문에, 프라이머는 단일 염기 유형만이 임의의 주어진 단계에서 사용되었을 경우보다 빠르게 연장된다. 이 흐름 순서를 사용하여 서열식별번호: 1 주형에 대한 프라이머를 연장하기 위한 표 2에 표시된 흐름도는 프라이머 연장의 고속 정방향 부분 동안 최대 6개의 염기의 첨가를 초래한다 (사이클 3, 단계 3). 대조적으로, 표 3은 각 단계에서 사용된 단일 뉴클레오티드와 함께 A-C-T-G 사이클을 사용하는 동일한 서열식별번호: 1의 흐름도를 보여준다 (표 2에서 사이클 1, 4 및 5와 유사함). 표 3에 표시된 프라이머를 연장하는데 사용된 흐름 순서는 폴리뉴클레오티드를 통해 프라이머를 연장하기 위해 10개의 4-단계 사이클을 필요로 하며, 이는 표 2에 제공된 흐름 순서를 사용하여 폴리뉴클레오티드를 통해 프라이머를 연장하기 위해 사용된 5개의 4-단계 사이클보다 실질적으로 더 느리다.
<표 2>
Figure pct00002
서열식별번호: 1에 대한 흐름도: 3'-TGACTTGAATCCGATATGCCTGCAGCTGAC-5'
<표 3>
Figure pct00003
서열식별번호: 1에 대한 흐름도: 3'-TGACTTGAATCCGATATGCCTGCAGCTGAC-5'
고속 정방향 방법은 직접적으로 시퀀싱되지 않은 영역을 통해 프라이머 연장을 가속화하는데 특히 유용하다. 예를 들어, 표 2를 참조하면, 사이클 1, 4 및 5는 표지된 뉴클레오티드를 단계별 방식으로 사용하여 제1 영역 (사이클 1) 및 제3 영역 (사이클 4 및 5)과 연관된 시퀀싱 데이터를 생성한 반면, 프라이머는 제1 영역 및 제3 영역 사이의 제2 영역 (사이클 2 및 3)을 통해 빠르게 연장되었다.
흐름 시퀀싱을 사용하는 프라이머 연장은 대략 수백 또는 심지어 수천 개의 염기 길이의 장거리 시퀀싱을 허용한다. 흐름 단계 또는 사이클의 수는 원하는 시퀀싱 길이를 수득하기 위해 증가 또는 감소될 수 있다. 제1 영역 또는 제3 영역에서 프라이머의 연장은 하나 이상의 상이한 염기 유형을 갖는 뉴클레오티드를 사용하여 프라이머의 단계별 연장을 위한 하나 이상의 흐름 단계를 포함할 수 있다. 일부 실시양태에서, 제1 영역에서의 프라이머의 연장 또는 제3 영역에서의 프라이머의 연장은 1 내지 약 1000개의 흐름 단계, 예컨대 1 내지 약 10개의 흐름 단계, 약 10 내지 약 20개의 흐름 단계, 약 20 내지 약 50개의 흐름 단계, 약 50 내지 약 100개의 흐름 단계, 약 100 내지 약 250개의 흐름 단계, 약 250 내지 약 500개의 흐름 단계, 또는 약 500 내지 약 1000개의 흐름 단계를 포함한다. 흐름 단계는 동일한 또는 상이한 흐름 사이클로 세그먼트화될 수 있다. 제1 영역 또는 제3 영역에서 프라이머에 혼입된 염기의 수는 각각 제1 영역 또는 제3 영역의 서열, 및 제1 영역 또는 제3 영역에서 프라이머를 연장하는데 사용되는 흐름 순서에 의존한다. 일부 실시양태에서, 제1 영역 또는 제3 영역은 길이가 약 1개 염기 내지 약 4000개 염기, 예컨대 길이가 약 1개 염기 내지 약 10개 염기, 길이가 약 10개 염기 내지 약 20개 염기, 길이가 약 20개 염기 내지 약 50개 염기, 길이가 약 50개 염기 내지 약 100개 염기, 길이가 약 100개 염기 내지 약 250개 염기, 길이가 약 250개 염기 내지 약 500개 염기, 길이가 약 500개 염기 내지 약 1000개 염기, 길이가 약 1000개 염기 내지 약 2000개 염기, 또는 길이가 약 2000개 염기 내지 약 4000개 염기이다.
제2 영역을 통한 프라이머 연장은 임의의 수의 흐름 단계를 통해 진행할 수 있다. 일부 실시양태에서, 제2 영역을 통한 프라이머의 연장은 표지된 뉴클레오티드를 생략하며, 이는 폴리머라제 정지 없이 프라이머의 실현가능한 연장 거리를 추가로 증가시킨다. 일부 실시양태에서, 제2 영역을 통한 프라이머의 연장은 1 내지 약 10,000개의 흐름 단계, 예컨대 1 내지 약 10개의 흐름 단계, 약 10 내지 약 20개의 흐름 단계, 약 20 내지 약 50개의 흐름 단계, 약 50 내지 약 100개의 흐름 단계, 약 100 내지 약 250개의 흐름 단계, 약 250 내지 약 500개의 흐름 단계, 약 500 내지 약 1000개의 흐름 단계, 약 1000개의 흐름 단계 내지 약 2500개의 흐름 단계, 약 2500개의 흐름 단계 내지 약 5000개의 흐름 단계, 또는 약 5000개의 흐름 단계 내지 약 10,000개의 흐름 단계를 포함한다. 일부 실시양태에서, 제2 영역을 통한 프라이머의 연장은 약 10,000개 초과의 흐름 단계를 포함한다. 제2 영역에서 프라이머에 혼입된 염기의 수는 제2 영역의 서열, 및 제2 영역에서 프라이머를 연장하는데 사용되는 흐름 순서에 의존한다. 일부 실시양태에서, 제2 영역은 길이가 약 1개 염기 내지 약 50,000개 염기, 예컨대 길이가 약 1개 염기 내지 약 10개 염기, 길이가 약 10개 염기 내지 약 20개 염기, 길이가 약 20개 염기 내지 약 50개 염기, 길이가 약 50개 염기 내지 약 100개 염기, 길이가 약 100개 염기 내지 약 250개 염기, 길이가 약 250개 염기 내지 약 500개 염기, 길이가 약 500개 염기 내지 약 1000개 염기, 길이가 약 1000개 염기 내지 약 2000개 염기, 길이가 약 2000개 염기 내지 약 2500개 염기, 길이가 약 2500 내지 약 5000개 염기, 길이가 약 5000 내지 약 10,000개 염기, 길이가 약 10,000 내지 약 25,000개 염기, 또는 길이가 약 25,000 내지 약 50,000개 염기이다. 일부 실시양태에서, 제2 영역의 길이는 약 50,000개 초과의 염기 길이이다.
프라이머의 연장은 제1 영역, 제2 영역 및 제3 영역을 통해 진행할 수 있으며, 여기서 프라이머는 표지된 뉴클레오티드를 사용하여 제1 영역 및 제3 영역을 통해 연장된다. 연장 프라이머에 혼입된 뉴클레오티드의 검출은 시퀀싱 데이터를 생성하기 위해 검출될 수 있다. 제2 영역을 통한 프라이머의 연장은 예를 들어 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고, 또는 프라이머를 연장하기 위해 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물을 포함함으로써, 제1 및/또는 제3 영역을 통한 프라이머의 연장보다 더 빠른 속도로 발생할 수 있다 (여기서 제1 및/또는 제3 영역을 통한 프라이머의 연장은 더 적은 수의 상이한 유형의 뉴클레오티드 염기에 의존함). 프라이머의 연장은 교대 패턴으로 추가로 연장될 수 있다. 예를 들어, 프라이머가 제3 영역을 통해 연장된 후, 제4 영역으로 추가로 연장될 수 있다. 제4 영역을 통한 프라이머의 연장은 예를 들어 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고, 또는 프라이머를 연장하기 위해 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물을 포함함으로써, 제1 및/또는 제3 영역을 통한 프라이머의 연장보다 더 빠른 속도로 발생할 수 있다. 그 후, 프라이머는 표지된 뉴클레오티드를 사용하여 제5 영역으로 연장될 수 있으며, 연장된 프라이머에 혼입된 뉴클레오티드를 검출함으로써 제5 영역에 대한 시퀀싱 데이터가 생성될 수 있다. 이 공정은 원하는 만큼 많은 변경 사이클 동안 반복될 수 있다. 임의의 2개의 영역으로부터의 시퀀싱 데이터는 커플링된 시퀀싱 리드 쌍을 생성하기 위해 연관될 수 있고, 커플링된 시퀀싱 리드 쌍은 본원에 기재된 바와 같이 분석될 수 있다 (예를 들어, 선택된 영역 사이의 영역을 본원에 제공된 분석 방법에 대해 기재된 바와 같이 "제2 영역"으로 고려함으로써).
도 1은 폴리뉴클레오티드 (예컨대 DNA)로부터 커플링된 시퀀싱 리드 쌍을 생성하기 위한 예시적인 방법의 개략도를 예시한다. 102에서, 폴리뉴클레오티드 (104)는 프라이머 (106)와 혼성화되어 혼성화된 주형을 형성한다. 일부 실시양태에서, 폴리뉴클레오티드는 어댑터 영역 (108)을 포함하며, 이는 시퀀싱 라이브러리 제조 동안 표적 폴리뉴클레오티드의 3'에 라이게이션될 수 있다. 어댑터 영역 (108)은 혼성화 영역을 포함할 수 있고, 프라이머 (106)는 어댑터 영역 (108)의 혼성화 영역에 혼성화할 수 있다. 단계 110에서, 폴리뉴클레오티드 (104)의 제1 영역 (112)에 대한 시퀀싱 데이터는 표지된 뉴클레오티드를 사용하여 프라이머 (106)를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 생성된다. 프라이머를 연장하는데 사용되는 뉴클레오티드는 비표지된 뉴클레오티드를 추가로 포함할 수 있지만, 표지된 뉴클레오티드는 시퀀싱 데이터를 생성하기 위한 뉴클레오티드 혼입을 검출하는데 사용된다. 일부 실시양태에서, 뉴클레오티드는 제1 영역 (112)을 통해 프라이머 (106)를 연장하기 위해 제1 영역 흐름 순서에 따라 하나 이상의 사이클에서 단계별로 첨가되고, 혼성화된 주형은 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출하기 전에 비혼입된 뉴클레오티드를 제거하기 위한 사이클 단계 후에 세척될 수 있다. 단계 114에서, 프라이머 (106)는 제2 영역 흐름 순서에 따라 폴리뉴클레오티드 (104)의 제2 영역 (116)을 통해 연장된다. 프라이머 (106)는 단계 110에서 프라이머의 연장보다 빠른 속도로 제2 영역 (116)을 통해 연장될 수 있다. 이 가속화된 프라이머 연장은 방법의 "고속-정방향" 부분으로 지칭될 수 있다. 뉴클레오티드 (이는 일부 실시양태에서 비표지됨)는 제2 영역 흐름 순서에 따라 하나 이상의 사이클에서 단계별로 혼성화된 주형에 첨가된다. 일부 실시양태에서, 하나 초과 (예를 들어, 2 또는 3개)의 상이한 염기 유형은 주어진 사이클 단계에서 동시에 사용되며, 이는 프라이머 연장을 가속화한다. 일부 실시양태에서, 뉴클레오티드는 비표지되며, 이는 표지된 뉴클레오티드보다 더 빠른 프라이머 연장을 허용한다. 일부 실시양태에서, 프라이머는 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 연장된다. 단계 118에서, 폴리뉴클레오티드 (104)의 제3 영역 (118)에 대한 시퀀싱 데이터는 표지된 뉴클레오티드를 사용하여 프라이머 (106)를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 생성된다. 제3 영역 (118)에 대한 시퀀싱 데이터의 생성은 제1 영역 (112)에 대한 시퀀싱 데이터를 생성하기 위해 기재된 바와 유사한 방식으로 진행할 수 있다. 단계 122에서, 제1 영역 (112)에 대해 생성된 시퀀싱 데이터는 제3 영역 (120)에 대해 생성된 시퀀싱 데이터와 연관되며, 이는 폴리뉴클레오티드 (104)에 대한 커플링된 시퀀싱 리드 쌍 (124)을 초래한다. 제1 영역 및 제3 영역 사이에 연관된 시퀀싱 데이터는 제1 영역 및 제3 영역의 서열을 포함할 수 있다. 커플링된 시퀀싱 리드 쌍 (124)은 제1 영역 (112) 및 제3 영역 (120)에 대한 시퀀싱 데이터를 포함하며, 이는 시퀀싱 데이터가 반드시 알려지지 않은 제2 영역 (116)에 의해 분리된다.
폴리뉴클레오티드의 제1 영역에 대한 시퀀싱 데이터의 생성은 본원에 기재된 일부 실시양태에 따라 생성될 필요가 없다. 예를 들어, 시퀀싱 프라이머는 표적화된 영역에 혼성화함으로써 표적화된 시퀀싱을 위해 사용될 수 있다. 표적화된 시퀀싱에서, 폴리뉴클레오티드의 제1 영역은 공지되어 있고, 프라이머는 제1 영역에 특이적으로 결합하도록 설계된다. 그 후, 프라이머는 생성되는 제3 영역에 대한 시퀀싱 데이터와 함께 기재된 바와 같이 제2 및 제3 영역을 통해 연장될 수 있다. 일부 실시양태에서, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법은 (a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계; 및 (c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함한다.
참조 서열은 제1 영역, 제2 영역 및/또는 제3 영역에 대한 예상 시퀀싱 데이터 (예컨대 흐름도)를 결정하는데 사용될 수 있다. 제1 영역 및 제3 영역에 대한 서열은 해당 영역에 대한 생성된 시퀀싱 데이터로부터 결정될 수 있다. 예를 들어, 표 2를 참조하면, 사이클 1은 염기에 대한 상보체로서 서열이 쉽게 결정되는 제1 영역과 연관되고 (즉, 염기 흐름 A-C-T-G는 TGAC의 서열에 상응함), 사이클 4 및 5는 CTGAC (즉, G-A-C-T-G의 상보체)로서 서열이 결정되는 제3 영역과 연관된다. 그러므로, 제1 영역 및/또는 제3 영역으로부터 생성된 시퀀싱 데이터를 사용하여, 제1 영역 및/또는 제3 영역 (또는 제1 영역 및/또는 제3 영역의 적어도 일부)은 참조 서열에 맵핑될 수 있다. 참조 서열에 맵핑되면, 제2 영역에 대한 예상 시퀀싱 데이터는 제2 영역을 통해 프라이머를 연장하는데 사용된 흐름 순서 및 참조 서열을 사용하여 생성될 수 있다.
예상 시퀀싱 데이터는 또한 제2 영역에 대한 참조 서열, 제2 영역에 대한 흐름 순서, 제3 영역에 대한 흐름 순서, 및 제3 영역의 서열에 대한 정보를 사용하여 제3 영역에 대해 결정될 수 있다. 유사하게, 예상 시퀀싱 데이터는 제2 영역에 대한 참조 서열, 제2 영역에 대한 흐름 순서, 제1 영역에 대한 흐름 순서, 및 제1 영역의 서열에 대한 정보를 사용하여 제1 영역에 대해 결정될 수 있다. 제3 영역 (또는 제1 영역)의 서열에 대한 정보는 예를 들어 참조 서열 (또는 상이한 참조 서열) 또는 생성된 시퀀싱 데이터, 예컨대 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 생성된 시퀀싱 데이터, 또는 다른 방법에 의해 수득된 시퀀싱 데이터 (예를 들어, 폴리뉴클레오티드의 제3 영역의 제3 영역을 독립적으로 시퀀싱함)로부터 수득될 수 있다.
예로서, 제3 영역에 대한 예상 시퀀싱 데이터는 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 결정될 수 있다. 제1 영역 (또는 이의 일부)은 참조 서열에 맵핑될 수 있고, 제2 영역에 상응하는 참조 서열 및 제2 영역 흐름 순서는 제2 영역에 대한 예상 참조 시퀀싱 데이터를 결정하는데 사용될 수 있다. 유사하게, 제3 영역에 대한 참조 서열은 제3 영역 흐름 순서와 함께 사용되어 제3 영역에 대한 예상 참조 시퀀싱 데이터를 결정할 수 있다. 제1 영역에 대한 예상 시퀀싱 데이터는 유사한 방법을 사용하여 결정될 수 있다. 예를 들어, 제1 영역에 대한 예상 시퀀싱 데이터는 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제1 영역 흐름 순서, 및 제1 영역에 대한 참조 서열을 사용하여 결정될 수 있다. 제3 영역 (또는 이의 일부)은 참조 서열에 맵핑될 수 있고, 제2 영역에 상응하는 참조 서열 및 제2 영역 흐름 순서는 제2 영역에 대한 예상 참조 시퀀싱 데이터를 결정하는데 사용될 수 있다. 유사하게, 제1 영역에 대한 참조 서열은 제1 영역 흐름 순서와 함께 사용되어 제1 영역에 대한 예상 참조 시퀀싱 데이터를 결정할 수 있다.
또 다른 예에서, 제3 영역에 대한 예상 시퀀싱 데이터는 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 시퀀싱된 것과 연관된 시퀀싱 데이터를 사용하여 결정될 수 있으며, 이는 앞서 기재된 바와 같이 생성된 시퀀싱 데이터와 동일하거나 상이할 수 있다. 제1 영역 (또는 이의 일부)은 참조 서열에 맵핑될 수 있고, 제2 영역에 상응하는 참조 서열 및 제2 영역 흐름 순서는 제2 영역에 대한 예상 참조 시퀀싱 데이터를 결정하는데 사용될 수 있다. 제3 영역에 대한 시퀀싱 데이터는 제3 영역의 서열을 결정하는데 사용될 수 있다. 또한, 제3 영역의 서열은 제3 영역 흐름 순서와 함께 사용되어 제3 영역에 대한 예상 시퀀싱 데이터를 결정할 수 있다.
도 2는 예상 시퀀싱 데이터를 생성하기 위한 예시적인 방법의 개략도를 예시한다. 단계 202에서, 커플링된 시퀀싱 리드 쌍은 참조 서열에 맵핑된다. 커플링된 시퀀싱 리드 쌍을 맵핑하는 것은 커플링된 시퀀싱 리드 쌍 (또는 이의 일부)의 제1 영역 (또는 이의 일부)을 참조 서열에 맵핑하거나, 커플링된 시퀀싱 리드 쌍의 제3 영역 (또는 이의 일부)을 참조 서열에 맵핑하거나, 또는 제1 영역 (또는 이의 일부) 및 제3 영역 (또는 이의 일부) 둘 모두를 참조 서열에 맵핑하는 것을 포함할 수 있다. 단계 204에서, 제2 영역에 대한 예상 시퀀싱 데이터 (예컨대 예상 흐름도)는 제2 영역 흐름 순서 및 참조 서열을 사용하여 결정된다. 흐름 순서 및 참조 시퀀싱이 공지되어 있으므로, 예상 시퀀싱 데이터 (즉, 폴리뉴클레오티드의 제2 영역이 참조 서열과 매치하는 경우 예상되는 시퀀싱 데이터)를 결정하는 것은 쉽게 수득가능하다. 또한, 제2 영역에 대한 예상 시퀀싱 데이터는 제2 영역의 예상된 5' 말단을 결정하는데 사용될 수 있다. 제2 영역의 5' 말단은 해당 영역에 대한 흐름 순서 및 제2 영역의 서열에 따라 달라질 수 있다. 그러므로, 제3 영역의 3' 말단이 제2 영역의 5' 말단에 인접하기 때문에 제3 영역의 3' 말단은 또한 제2 영역 흐름 순서 및 제2 영역의 서열에 기초하여 달라질 수 있다. 제3 영역의 3' 말단이 확립되면 (예를 들어, 제2 영역에 대한 예상 시퀀싱 데이터를 사용하여 결정된 바와 같이), 제3 영역에 대한 예상 시퀀싱 데이터는 단계 206에 나타낸 바와 같이 결정될 수 있다. 본원에 추가로 기재된 바와 같이, 제3 영역에 대한 예상 시퀀싱 데이터는 변이체, 예컨대 폴리뉴클레오티드의 제2 영역 내의 변이체를 결정하는데 사용될 수 있다.
폴리뉴클레오티드가 제2 영역 내에 변이체를 포함하는 경우, 제3 영역과 연관된 생성된 시퀀싱 데이터 (예를 들어, 흐름도)는 제3 영역과 연관된 예상 시퀀싱 데이터와 상이할 수 있다 (서열 컨텍스트 및 변이체의 크기에 따라). 그러므로, 일부 실시양태에서, 변이체는 예상 시퀀싱 데이터 및 생성된 시퀀싱 데이터 사이의 차이에 기초하여 검출된다.
참조 서열은 폴리뉴클레오티드와 동일한 종의 임의의 적합한 서열일 수 있으며, 참조 서열 및 폴리뉴클레오티드의 서열 사이에 약간의 차이가 있을 수 있다. 본원에 기재된 방법의 일부 실시양태에서, 이들 차이 또는 변이체가 검출될 수 있다. 일부 실시양태에서, 시험 변이체 (즉, 관심 변이체)가 참조 서열에 포함되고, 다른 실시양태에서, 시험 변이체가 참조 서열로부터 생략된다. 일부 실시양태에서, 분석은 2개의 상이한 참조 서열로 수행될 수 있으며, 하나의 참조 서열은 시험 변이체를 포함하고, 다른 참조 서열은 시험 변이체를 생략한다. 일부 실시양태에서, 2개의 참조 서열 사이의 유일한 차이는 시험 변이체의 존재 또는 부재이다.
본원에 기재된 변이체 검출 방법의 민감도는 변이체의 컨텍스트 및/또는 제1, 제2 및/또는 제3 영역에서 프라이머를 연장하는데 사용되는 흐름 순서에 의존할 수 있다. 주어진 흐름 순서를 갖는 누락된 변이체는 제1, 제2 및/또는 제3 영역에서 상이한 흐름 순서를 사용하여 검출가능할 수 있다. 따라서, 본원에 기재된 방법의 일부 실시양태에서, 폴리뉴클레오티드의 제1, 제2 및/또는 제3 영역 중 하나 이상을 통해 프라이머를 연장하기 위한 상이한 흐름 순서를 사용하여 하나 초과의 커플링된 시퀀싱 리드 쌍이 생성된다.
본원에 기재된 방법에서 사용된 폴리뉴클레오티드는 임의의 적합한 생물학적 공급원, 예를 들어 조직 샘플, 혈액 샘플, 혈장 샘플, 타액 샘플, 대변 샘플, 또는 소변 샘플로부터 수득될 수 있다. 폴리뉴클레오티드는 DNA 또는 RNA 폴리뉴클레오티드일 수 있다. 일부 실시양태에서, RNA 폴리뉴클레오티드는 폴리뉴클레오티드를 시퀀싱 프라이머에 혼성화하기 전에 DNA 폴리뉴클레오티드로 역전사된다. 일부 실시양태에서, 폴리뉴클레오티드는 무세포 DNA (cfDNA), 예컨대 순환 종양 DNA (ctDNA) 또는 태아 무세포 DNA이다.
폴리뉴클레오티드의 라이브러리는 공지된 방법을 통해 제조될 수 있다. 일부 실시양태에서, 폴리뉴클레오티드는 어댑터 서열에 라이게이션될 수 있다. 어댑터 서열은 커플링된 시퀀싱 리드 쌍의 생성 동안 연장된 프라이머에 혼성화된 혼성화 서열을 포함할 수 있다.
일부 실시양태에서, 시퀀싱 데이터는 시퀀싱 콜로니 (시퀀싱 클러스터로도 지칭됨)를 확립하기 전에 핵산 분자를 증폭하지 않고 수득된다. 시퀀싱 콜로니를 생성하는 방법은 브릿지 증폭 또는 에멀젼 PCR을 포함한다. 샷건 시퀀싱 및 컨센서스 서열 호출에 의존하는 방법은 일반적으로 고유한 분자 식별자 (UMI)를 사용하여 핵산 분자를 표지하고, 핵산 분자를 증폭하여 독립적으로 시퀀싱된 동일한 핵산 분자의 수많은 카피를 생성한다. 그 후, 증폭된 핵산 분자는 표면에 부착되고 브릿지 증폭되어 독립적으로 시퀀싱된 시퀀싱 클러스터를 생성할 수 있다. 그 후, UMI는 독립적으로 시퀀싱된 핵산 분자를 연관시키는데 사용될 수 있다. 그러나, 증폭 공정은 예를 들어 DNA 폴리머라제의 제한된 충실도로 인해 핵산 분자에 오류를 도입할 수 있다. 일부 실시양태에서, 핵산 분자는 시퀀싱 데이터를 수득하기 위한 콜로니를 생성하기 위해 증폭 전에 증폭되지 않는다. 일부 실시양태에서, 핵산 시퀀싱 데이터는 고유한 분자 식별자 (UMI)를 사용하지 않고 수득된다.
일부 실시양태에서, 흐름 시퀀싱 방법은 롤링 서클 증폭 (RCA) 시퀀싱과 함께 사용된다. RCA는 선형 서열에서 공유결합으로 부착된 핵산 분자의 다중 카피의 형성을 허용한다. 예를 들어, 문헌 [Dean et al., Rapid Amplification of Plasmid and Phage DNA Using Phi29 DNA Polymerase and Multiply-Primed Rolling Circle Amplification, Genome Research, vol. 11, pp. 1095-1099 (20001)]; 및 미국 특허 번호 5,714,320을 참조하며, 이들 각각의 내용은 본원에 참조로 포함된다. 핵산 분자의 다중 카피가 선형으로 시퀀싱될 수 있기 때문에, 주어진 영역은 시퀀싱이 진행됨에 따라 "어두운" 모드 또는 "밝은" 모드에서 대안적으로 시퀀싱될 수 있다. 일부 실시양태에서, 시퀀싱 모드 전환은 동적으로 (및 임의로, 자동으로) 결정될 수 있다. 예를 들어, 변이체는 "어두운" 영역 내에서 검출될 수 있지만, 생성되는 제한된 정보는 특이적 변이체가 호출되는 것을 방지한다. 따라서, 시퀀싱 흐름은 밝은 모드에서 변이체를 함유하는 핵산 분자의 영역을 시퀀싱하도록 동적으로 조정될 수 있다. 예를 들어, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법은 (a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA 증폭된 폴리뉴클레오티드를 생성하는 단계; (b) RCA-증폭된 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (c) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (d) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장은 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계; (e) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (f) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계; (g) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계; (h) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및 (i) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계를 포함할 수 있다. 일부 실시양태에서, 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터는 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 것에 기초하여 동적으로 생성된다.
연장된 흐름 사이클
흐름-사이클 순서는 4개의 염기 흐름 사이클 (예를 들어, A, G, C 및 T 각각의 하나, 임의의 반복 순서로)로 제한될 필요는 없으며, 사이클에서 4개 초과의 염기 유형을 갖는 연장된 흐름 사이클일 수 있다. 연장된 사이클 순서는 시퀀싱 프라이머를 연장하기 위해 원하는 수의 사이클 동안 반복될 수 있다. 예로서, 일부 실시양태에서, 연장된 흐름 순서는 흐름 사이클 순서에서 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 별도의 뉴클레오티드 흐름을 포함한다. 사이클은 A, G, C 및 T 각각을 적어도 하나 포함할 수 있지만, 사이클이 반복되기 전에 사이클 내에서 하나 이상의 염기 유형을 반복한다. 연장된 흐름 사이클은 예를 들어 본원에 기재된 방법에 따라 제2 영역을 통해 프라이머를 연장하는데 사용될 수 있다.
연장된 흐름 사이클 순서는 4개의 반복된 염기를 갖는 흐름 사이클 순서보다 더 큰 비율의 작은 게놈 변이체 (예를 들어, SNP)를 검출하는데 유용할 수 있다. 예를 들어, XYZ → XQZ 형식의 치환 SNP의 192개의 유효한 구성 (여기서, Q≠Y (및 Q, X, Y 및 Z는 각각 A, C, G 및 T 중 어느 하나임))이 있다. 이들 중, 168개는 시퀀싱 데이터 세트 (예를 들어, 흐름도)에서 새로운 신호 (즉, 새로운 넌-제로 신호 또는 새로운 제로 신호)를 생성할 수 있다. 민감한 흐름 순서와 조합된 새로운 제로 또는 넌-제로 신호는 참조와 관련하여 변이체에서 동일한 후행 서열이 주어지면, 다중 흐름 위치 (예를 들어, 사이클의 길이 초과로 연장할 수 있는 흐름 이동)에 대해 전파되는 신호를 생성할 수 있다. 호모폴리머 길이 변화보다는 호모폴리머의 삽입 또는 결실이 신호 차이 전파를 초래할 수 있다는 점에 주목해야 한다. 나머지 24개의 변이체는 영향을 받는 흐름 위치에서 호모폴리머 길이 변화를 유발하지만, 이러한 변화는 전파된 신호 변화를 유발하지 않는다. 그러므로, 이론상 최대 87.5%의 SNP는 2개 초과의 흐름 위치에 대해 참조 (또는 후보) 서열과 상이한 새로운 신호를 초래할 수 있다. 상기 논의된 바와 같이, 전파된 신호 차이는 시험 시퀀싱 데이터 세트 및 틀리게 매치된 후보 서열 사이의 가능도 차이를 증가시킨다. 또한, 전파된 신호 변화는 변이체에 걸친 흐름 순서에 의존한다.
무작위로 단편화된 시험 샘플에서 핵산 분자를 시퀀싱하는 것은 시퀀싱 프라이머가 흐름 순서를 사용하여 연장될 때 변이체의 흐름 순서 컨텍스트에서 무작위 이동을 초래한다. 즉, 변이체의 흐름 위치는 시퀀싱된 핵산 분자의 시작 위치에 따라 달라질 수 있다. 핵산 분자 서열에서 모든 시퀀싱 시작 위치가 활용되더라도, 모든 흐름 사이클 조합이 SNP의 모든 87.5%에 대해 2개 초과의 흐름 위치에서 신호 변화를 검출할 수 있는 것은 아니다. 예를 들어, 4-염기 흐름 사이클 순서 T-A-C-G는 SNP의 41.7%에 대해 2개 초과의 흐름 위치에서 참조 시퀀싱 데이터 세트와 상이한 시험 시퀀싱 데이터 세트를 초래할 수 있다. 본원에서 추가로 논의된 바와 같이, 연장된 흐름 사이클 순서는 충분히 높은 시퀀싱 깊이 (즉, 충분히 많은 수의 시작 위치의 샘플링)가 주어지면, 모든 이론상 최대 SNP (즉, 가능한 SNP의 87.5%, 또는 호모폴리머 길이 변화를 초래하는 것 이외의 모든 SNP)가 시험 시퀀싱 데이터 세트 및 참조 시퀀싱 데이터 세트 사이의 2개 초과의 흐름 위치에서 차이를 일으킬 수 있도록 설계되었다.
연장된 시퀀싱 흐름 순서는 상이한 효율을 가질 수 있다 (즉, 인간 참조 게놈을 시퀀싱하는데 사용될 때 흐름 당 혼입의 평균 수). 일부 실시양태에서, 흐름 순서는 약 0.6 이상 (예컨대 약 0.62 이상, 약 0.64 이상, 약 0.65 이상, 약 0.66 이상, 또는 약 0.67 이상)의 효율을 갖는다. 일부 실시양태에서, 흐름 순서는 약 0.6 내지 약 0.7의 효율을 갖는다. 흐름 사이클 순서 및 해당 추정 효율의 예는 표 4에 나타낸다.
일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 5%에 대한 SNP 순열의 약 50% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 5%에 대한 SNP 순열의 약 60% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자 (즉, "흐름 위상")와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 5%에 대한 SNP 순열의 약 70% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 5%에 대한 SNP 순열의 약 80% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다.
일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 10%에 대한 SNP 순열의 약 50% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 10%에 대한 SNP 순열의 약 60% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 10%에 대한 SNP 순열의 약 70% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 10%에 대한 SNP 순열의 약 80% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다.
일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 20%에 대한 SNP 순열의 약 50% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 20%에 대한 SNP 순열의 약 60% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 20%에 대한 SNP 순열의 약 70% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 20%에 대한 SNP 순열의 약 80% 내지 87.5%에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다.
일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 30%에 대한 SNP 순열의 약 50% 내지 87.5% (또는 약 50% 내지 약 80%)에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 30%에 대한 SNP 순열의 약 60% 내지 87.5% (또는 약 60% 내지 약 80%)에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다. 일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 무작위 시퀀싱 시작 위치의 적어도 30%에 대한 SNP 순열의 약 70% 내지 87.5% (또는 약 70% 내지 약 80%)에 대해 SNP에 의해 상이한 핵산 분자와 연관된 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하도록 선택된다.
일부 실시양태에서, 연장된 시퀀싱 흐름 순서는 표 4의 연장된 시퀀싱 흐름 순서 중 임의의 하나이다. "이동 민감도"는 모든 가능한 SNP 순열에 대해 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하기 위한 최대 민감도를 지칭한다. "최대 이동 민감도"는 민감도가 유지되는 흐름 위상의 가장 높은 분율에서 모든 가능한 SNP 순열에 대해 2개의 시퀀싱 데이터 세트 (예를 들어, 시험 또는 표적 시퀀싱 데이터 세트 및 후보 또는 참조 시퀀싱 데이터 세트) 사이의 2개 초과의 흐름 위치에서 신호 차이를 생성하기 위한 최대 민감도를 지칭한다.
<표 4>
Figure pct00004
Figure pct00005
Figure pct00006
일부 실시양태에서, 흐름-사이클 순서는 무작위 시퀀싱 시작 위치의 5%에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도한다. 일부 실시양태에서, 유도된 신호 변화는 신호 강도의 변화이거나, 또는 새로운 실질적으로 제로 (또는 새로운 제로) 또는 새로운 실질적으로 넌-제로 (또는 새로운 넌-제로) 신호이다. 일부 실시양태에서, 유도된 신호 변화는 새로운 실질적으로 제로 (또는 새로운 제로) 또는 새로운 실질적으로 넌-제로 (또는 새로운 넌-제로) 신호이다. 일부 실시양태에서, 흐름-사이클 순서는 흐름 당 0.6 이상의 염기 혼입 효율을 갖는다. 일부 실시양태에서, 흐름-사이클은 표 4에 나열된 흐름-사이클 순서 중 임의의 하나이다.
재위상화 흐름
하나 이상의 재위상화 흐름은 시퀀싱 클러스터 내에서 병렬 시퀀싱 반응을 재위상화 (즉, 동기화)하기 위해 제2 영역으로서 또는 제2 영역 내에서 사용될 수 있다. 시퀀싱 클러스터는 공통 표면 (예를 들어, 비드 또는 플로우셀) 상에 밀접하게 부착된 복수의 폴리뉴클레오티드 카피를 포함한다. 클러스터는 예를 들어 폴리뉴클레오티드를 표면에 부착하고 부착된 폴리뉴클레오티드를 증폭함으로써 (예를 들어, 브릿지 증폭에 의해) 형성될 수 있다. 각각의 폴리뉴클레오티드에 혼성화된 프라이머가 동일한 주형에 기초하여 뉴클레오티드를 혼입함으로써 동시에 연장되기 때문에, 시퀀싱 데이터는 시퀀싱 클러스터로부터 전체로서 수집될 수 있다. 그러나, 뉴클레오티드를 연장 프라이머에 혼입하는 화학적 공정은 종종 불완전하여, 시퀀싱 클러스터 내의 가닥 간에 탈동기화를 유발한다. 즉, 특정 프라이머는 클러스터 내의 다른 연장된 프라이머에 비해 지연될 수 있다. 리드 길이가 증가함에 따라 연장 프라이머로의 뉴클레오티드 혼입의 존재 또는 부재를 검출할 때, 탈동기화는 신호 저하 및 그에 따른 감소된 정확도를 초래할 수 있다. 재동기화는 신호 손실의 대응을 초래할 수 있으며, 이는 더 긴 유효 리드 길이를 허용한다. 시퀀싱 반응을 재위상화하기 위해, 프라이머는 하나 이상의 재위상화 흐름을 사용하여 제2 영역을 통해 연장되고, 여기서 적어도 2개 (예를 들어, 2 또는 3개)의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 복수의 단계에서 사용된다. 재위상화 흐름(들) 동안 혼입된 뉴클레오티드는 일부 실시양태에서 검출되지 않을 수 있으며, 이는 생성된 리드에 갭을 초래할 것이다. 그러나, 이러한 리드 갭은 서열이 참조 또는 다른 서열에 정렬될 때 관리될 수 있다. 이러한 "추적 흐름"을 포함함으로써, 지연 프라이머는 클러스터 내의 다른 연장된 프라이머를 추적할 수 있다.
(예를 들어, 시퀀싱 클러스터 내에서) 복수의 폴리뉴클레오티드 카피를 포함하는 시퀀싱 클러스터를 재동기화하는 방법은 재위상화 흐름 순서를 사용하여 폴리뉴클레오티드 카피에 혼성화된 프라이머를 연장하는 단계를 포함할 수 있으며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 재위상화 흐름 순서의 적어도 하나의 단계에서 사용된다. 일부 실시양태에서, 시퀀싱 클러스터 내에서 시퀀싱 프라이머를 동기화하는 방법은 하기를 포함한다: (a) 프라이머를 시퀀싱 클러스터 내의 폴리뉴클레오티드 카피에 혼성화하는 단계; (b) 제1 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제1 영역을 통해 프라이머를 연장하는 단계; (c) 하나 이상의 재위상화 흐름을 사용하여 폴리뉴클레오티드 카피의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 하나 이상의 재위상화 흐름 각각에서 사용되는 것인 단계; 및 (d) 제3 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제3 영역을 통해 프라이머를 연장하는 단계.
(예를 들어, 시퀀싱 클러스터 내에서) 복수의 폴리뉴클레오티드 카피로부터 시퀀싱 리드를 생성하는 방법은 재동기화 방법을 포함할 수 있다. 예를 들어, 복수의 폴리뉴클레오티드 카피로부터 시퀀싱 리드를 생성하는 방법은 하기를 포함할 수 있다: (a) 폴리뉴클레오티드 카피를 프라이머에 혼성화하여 혼성화 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드 카피의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) 하나 이상의 재위상화 흐름에 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 하나 이상의 재위상화 흐름 각각에서 사용되는 것인 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
재위상화 흐름 순서 (또는 재위상화 흐름 사이클)는 지연 프라이머가 시퀀싱 클러스터에서 선도 프라이머를 추적하도록 허용하는 하나 이상의 단계를 포함한다. 재위상화 흐름 순서에서 단계 중 적어도 하나 (예를 들어, 1, 2, 3, 4개 또는 그 이상)는 2개 이상 (예를 들어, 3개)의 상이한 유형의 뉴클레오티드 염기의 혼합물을 포함한다. 일부 실시양태에서, 재위상화 흐름 순서는 1, 2, 3, 4, 5개 또는 그 이상의 흐름을 포함하고, 각각은 2 또는 3개의 상이한 유형의 뉴클레오티드 염기를 포함한다.
재위상화 흐름 순서는 재위상화 흐름 순서 후에 동기화된 연장 프라이머의 부분을 증가시키도록 구성된다. 일부 실시양태에서, 재위상화 흐름 순서는 임의의 순서로 하기를 포함한다: (i) A, C 및 G 뉴클레오티드를 포함하고 T (및/또는 U) 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계 ("T가 아님" (및/또는 "U가 아님") 단계로도 지칭됨); (ii) T (및/또는 U), C 및 G 뉴클레오티드를 포함하고 A 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계 ("A가 아님" 단계로도 지칭됨); (iii) T (및/또는 U), A 및 G 뉴클레오티드를 포함하고 C 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계 ("C가 아님" 단계로도 지칭됨); 및 (iv) T (및/또는 U), A 및 C 뉴클레오티드를 포함하고 G 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계 ("G가 아님" 단계로도 지칭됨).
다른 재위상화 흐름이 결정될 수 있다. 예로서, 일부 실시양태에서, 재위상화 흐름 (재위상화 흐름 순서에서)은 임의의 순서로 하기 중 하나 이상을 포함한다: (i) A 및 C 뉴클레오티드를 포함하고 G 및 T (및/또는 U) 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (ii) T (및/또는 U) 및 G 뉴클레오티드를 포함하고 A 및 C 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (iii) A 및 G 뉴클레오티드를 포함하고 T (및/또는 U) 및 C 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (iv) T (및/또는 U) 및 C 뉴클레오티드를 포함하고 A 및 G 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (v) A 및 T (및/또는 U) 뉴클레오티드를 포함하고 G 및 C 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (vi) C 및 G 뉴클레오티드를 포함하고 A 및 T (및/또는 U) 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (vii) A, G 및 C 뉴클레오티드를 포함하고 T 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (viii) T (및/또는 U), A 및 G 뉴클레오티드를 포함하고 C 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; (ix) C, T (및/또는 U) 및 A 뉴클레오티드를 포함하고 G 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계; 및/또는 (x) G, C 및 T (및/또는 U) 뉴클레오티드를 포함하고 A 뉴클레오티드를 생략한 혼합물을 포함하는 흐름 단계.
4개의 유형의 비종결 뉴클레오티드 모두의 혼합물 (즉, A, C, G 및 T (및/또는 U)를 포함하는 혼합물)의 포함은 비제어된 프라이머 연장을 초래할 수 있다. 그러나, 4개의 유형의 뉴클레오티드 모두의 혼합물 (여기서, 3개의 염기 유형은 비종결 뉴클레오티드이고, 1개의 염기 유형은 가역적 종결자를 포함함)은 재위상화 흐름 순서에서 사용될 수 있다. 예를 들어, 일부 실시양태에서, 재위상화 흐름 순서는 하기를 포함한다: (i) 비종결 A 뉴클레오티드, 비종결 C 뉴클레오티드, 비종결 G 뉴클레오티드, 및 가역적 종결자를 포함하는 T (및/또는 U) 뉴클레오티드를 포함하는 (또는 이로 이루어진) 혼합물을 포함하는 흐름 단계; 또는 (ii) 비종결 T (및/또는 U) 뉴클레오티드, 비종결 A 뉴클레오티드, 비종결 C 뉴클레오티드, 및 가역적 종결자를 포함하는 G 뉴클레오티드를 포함하는 (또는 이로 이루어진) 혼합물을 포함하는 흐름 단계; 또는 (iii) 비종결 G 뉴클레오티드, 비종결 T (및/또는 U) 뉴클레오티드, 비종결 A 뉴클레오티드, 및 가역적 종결자를 포함하는 C 뉴클레오티드를 포함하는 (또는 이로 이루어진) 혼합물을 포함하는 흐름 단계; 또는 (iv) 비종결 C 뉴클레오티드, 비종결 G 뉴클레오티드, 비종결 T (및/또는) 뉴클레오티드, 및 가역적 종결자를 포함하는 A 뉴클레오티드를 포함하는 (또는 이로 이루어진) 혼합물을 포함하는 흐름 단계. 프라이머는 가역적 종결자를 포함하는 뉴클레오티드가 혼입될 때까지 주형 가닥에 기초하여 뉴클레오티드를 혼입함으로써 연장되며, 이는 염기의 시퀀싱 클러스터 내의 연장 프라이머를 가역적 종결자와 동기화한다. 그 후, 가역적 종결자가 제거될 수 있고, 그 후 시퀀싱 공정이 동기화된 프라이머로 진행할 수 있다.
일부 실시양태에서, 재위상화 흐름 순서는 (i) 임의의 순서로, C, G 및 T (및/또는 U) 염기의 혼합물 (A 염기 생략)을 포함하는 제1 재위상화 흐름, 및 A, C 및 G 염기의 혼합물 (T 및/또는 U 염기 생략)을 포함하는 제2 재위상화 흐름 순서를 포함한다.
시퀀싱 클러스터 내에서 연장 프라이머를 동기화하기 위한 본원에 기재된 방법은 프라이머를 연장하기 위해 비종결 뉴클레오티드를 사용하는 합성에 의한 시퀀싱 방법에서 사용될 수 있다. 일부 실시양태에서, 방법은 본원에 기재된 다른 방법, 예컨대 본원에 기재된 고속-정방향 시퀀싱 방법 (예를 들어, "어두운" 영역을 생성하는 시퀀싱 방법)과 조합하여 사용된다.
커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑함
커플링된 시퀀싱 리드 쌍은 시험 관심 변이체를 포함할 수 있거나 포함하지 않을 수 있는 참조 서열에 맵핑될 수 있다. 제1 영역 또는 제3 영역에 대한 시퀀싱 데이터는 각각 제1 영역 또는 제3 영역의 서열을 유도하는데 사용될 수 있다. 제1 영역 또는 제1 영역의 일부, 또는 제3 영역 또는 제3 영역의 일부는 참조 서열에 맵핑될 수 있다. 제1 영역 및 제3 영역 사이의 거리 (즉, 제2 영역의 길이)는 맵핑되지 않은 제3 또는 제1 영역에 대한 대략적인 유전자좌를 제공하여 결정 또는 추정될 수 있다. 그 후, 대략적인 유전자좌를 사용하여, 맵핑되지 않은 제1 또는 제3 영역은 참조 서열에 쉽게 맵핑될 수 있다.
맵핑된 서열은 하나의 서열 (예컨대 영역 또는 이의 일부의 서열)을 또 다른 서열 (예컨대 참조 서열)에 정렬하는 것을 지칭한다. 맵핑가능한 서열은 선택된 맵핑 역치 (즉, 맵핑 스코어)에 따라 또 다른 서열 (예컨대 참조 서열)에 맵핑될 수 있는 서열 (예컨대 영역 또는 이의 일부의 서열)이다. 따라서, 맵핑불가능한 서열은 선택된 맵핑 역치 (맵핑 스코어)에 따라 다른 서열에 맵핑가능하지 않은 서열이다. 스코어는 오류 위험 관용에 기초하여 미리 결정될 수 있다 (즉, 맵핑 이전에 선택됨). 예를 들어, 스미스-워터만(Smith-Waterman) 알고리즘은 하나의 서열을 또 다른 서열에 맵핑할 때 사용될 수 있고, 맵핑 역치는 "맵핑가능한" 서열을 "맵핑불가능한" 서열과 구별하도록 선택될 수 있다. 예로서, 맵핑 스코어 역치는 +5 이상, +6 이상, +8 이상, +10 이상, +12 이상, +14 이상, +16 이상, +18 이상, 또는 +20 이상일 수 있으며, +1의 매치 스코어, -1의 미스매치 스코어, -2의 갭 개방 스코어, 및 -2의 갭 연장 스코어를 갖는다. 다른 스코어 또는 페널티 스코어는 관련 기술분야의 통상의 기술자에 의해 선택될 수 있다.
서열, 예컨대 커플링된 시퀀싱 리드 쌍의 하나 이상의 영역은 임의의 적합한 맵핑 소프트웨어, 예컨대 GATK, Bowtie, Bowtie2, BWA, BWA MEM, 노보얼라인(Novoalign), SOAP2, SOAP3, 및 다른 버로우즈-휠러 변환 (Burrows-Wheeler transform; BWT)-기반 얼라이너를 포함하는 기타로 맵핑될 수 있다. 예를 들어, 문헌 [Miller et al., Assembly algorithms for next-generation sequencing data, Genomics, vol. 95, pp. 315-327 (2010)]; [Chaisson et al., De novo fragment assembly with short mate-paired reads: Does the read length matter? Genome Research, vol. 19, pp. 336-346 (2009)]; [Mielczarek et al., Review of alignment and SNP calling algorithms for next-generation sequencing data, J. Appl. Genetics, vol. 57, pp. 71-79 (2016)]; [Nielsen et al., Genotype and SNP calling from next-generation sequencing data, Nature Reviews Genetics, vol. 2, pp. 443-451 (2011)]; 및 [Hwang et al., Systematic comparison of variant calling pipelines using gold standard personal exome variants, Sci Rep., vol. 5, 17875 (2015)]을 참조하며, 이들 각각은 모든 목적을 위해 본원에 참조로 포함된다.
참조 서열에 대한 폴리뉴클레오티드의 영역의 유전자좌를 근사화하기 위한 거리 정보의 사용은 폴리뉴클레오티드의 제2 영역 내의 구조적 변이체 (예컨대 삽입 또는 결실)를 검출하거나, 게놈 내의 다중 맵핑가능한 유전자좌 (예를 들어, 제1 영역 또는 제3 영역이 반복 영역 또는 다른 비고유 서열을 포함하는 경우)를 분석하는데 유용하다. 본원에서 논의된 바와 같이, 거리 정보는 2개의 포인트 (예를 들어, 영역의 시작 및 끝) 사이의 공간의 양과 관련되며, 상이한 참조 프레임에서 고려될 수 있다. 예를 들어, 물리적 공간의 거리 정보는 염기의 수 또는 물리적 거리 (예를 들어, 폴리뉴클레오티드가 선형으로 위치한 경우, 1차원 공간의 마이크로미터 수)를 지칭할 수 있다. 시퀀싱 데이터 공간 (예를 들어, 흐름도 공간)의 거리 정보는 주어진 흐름 순서로 공간 내에서 프라이머를 연장하는데 사용되는 흐름 단계의 수를 지칭할 수 있다. 물리적 공간의 거리 정보 및 시퀀싱 데이터 공간의 거리 정보는 서열 (또는 참조 서열) 및 흐름 순서가 공지된 경우 분석적으로 상호교환가능하다.
거리 정보는 제2 영역의 길이를 나타내지만, 맵핑되지 않은 영역은 궁극적으로 거리 정보에 의해 근사화된 위치 내에서 맵핑되기 때문에 제2 영역의 정밀한 길이일 필요는 없다. 한 예에서, 거리 정보는 제2 영역 흐름 순서 (또는 제2 영역 흐름 순서와 연관된 정보) 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정된다. 제2 영역에서의 염기의 확률 분포는 예를 들어 게놈 전반에 걸쳐 가정된 염기의 분포일 수 있거나, 제1 영역 또는 제3 영역의 맵핑된 유전자좌에 기초하여 보다 국소화된 확률일 수 있다. 제2 영역 흐름 순서와 연관된 정보는 예를 들어 제2 영역을 통해 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수일 수 있다. 예로서, 반복 사이클에서 3-염기 흐름 단계를 사용하여 제2 영역 내에서 프라이머를 연장하고 (예를 들어, (A가 아님)-(C가 아님)-(T가 아님)-(G가 아님)의 사이클 단계를 사용하고, 각 사이클 단계는 3개의 다른 염기를 포함함), 게놈 전체와 대략적으로 동일한 제2 영역의 염기의 분포를 가정하면, 프라이머는 사이클의 각 단계에 대해 대략 4.7개의 염기만큼 연장될 것으로 예상된다. 그러므로, 제2 영역의 길이는 제2 영역 흐름 순서에서 단계의 수의 4.7배로 근사화될 수 있다.
일부 실시양태에서, 거리 정보는 제2 영역에 대한 예상 참조 시퀀싱 데이터로부터 파생된다. 본원에서 논의된 바와 같이, 제2 영역에 대한 예상 참조 시퀀싱 데이터는 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정될 수 있다. 폴리뉴클레오티드의 제1 또는 제3 영역이 참조 서열에 맵핑되면, 예상 서열 길이를 포함하는 예상 서열 정보가 결정되며, 이는 폴리뉴클레오티드의 제1 영역 및 제3 영역 사이의 길이를 제공한다.
하나 초과의 맵핑가능한 위치가 참조 서열 내에서 이용가능한 경우, 거리 정보는 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는데 사용될 수 있다. 예를 들어, 일부 실시양태에서, 제1 영역은 높은 신뢰도로 참조 서열에 맵핑될 수 있지만, 제3 영역은 참조 서열 내의 복수의 상이한 위치에 맵핑될 수 있다. 일부 실시양태에서, 제3 영역은 높은 신뢰도로 참조 서열에 맵핑될 수 있지만, 제1 영역은 참조 서열 내의 복수의 상이한 위치에 맵핑될 수 있다. 일부 실시양태에서, 제1 영역 및 제3 영역 둘 모두는 참조 서열 내의 복수의 상이한 위치에 맵핑될 수 있다. 참조 서열에 맵핑된 제1 영역 및 제2 영역에 대한 올바른 위치 쌍은 제2 영역에 대한 거리 정보를 사용하여 선택될 수 있다. 예를 들어, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법은 커플링된 시퀀싱 리드 쌍의 제1 영역 (또는 이의 일부) 및 제3 영역 (또는 이의 일부)을 제1 위치 및 제2 위치를 포함하는 2개 이상의 상이한 위치 쌍에서 참조 서열에 맵핑하는 것을 포함할 수 있다. 그 후, 폴리뉴클레오티드의 제2 영역의 길이를 나타내는 거리 정보는 제1 위치 및 제2 위치 사이의 길이를 나타내는 거리 정보와 비교될 수 있다. 비교된 거리 정보가 서로 근사하거나 매치하는 경우, 올바른 위치 쌍이 선택될 수 있다. 그러나, 제2 영역의 길이가 제1 위치 및 제2 위치 사이의 거리와 유의하게 상이한 경우, 해당 위치 쌍이 거부될 수 있다.
도 3은 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 커플링된 시퀀싱 리드 쌍이 참조 서열에 어떻게 맵핑되는지를 예시한다. 커플링된 시퀀싱 리드 쌍 (304)은 제1 영역 (306), 제2 영역 (308) 및 제3 영역 (310)을 포함한다. 제1 영역 (306)은 참조 서열 (302)의 참조 제1 영역 (312)에 맵핑될 수 있지만, 제3 영역 (310)은 참조 제3 영역, 옵션 A (314), 및 참조 제3 영역, 옵션 B (316) 둘 모두에 맵핑될 수 있다. 참조 제1 영역 (312)의 끝 및 참조 제3 영역, 옵션 A (314)의 시작 사이의 거리는 n개의 염기 길이이고 (참조 서열에 기초하여), 참조 제1 영역 (312)의 끝 및 참조 제3 영역, 옵션 B (316)의 시작 사이의 거리는 m개의 염기 길이이다 (참조 서열에 기초하여). 제2 영역에 대한 거리 정보는 제2 영역의 길이가 대략 n개의 염기 길이임을 나타낸다. 따라서, 제3 영역 (310)은 참조 제3 영역, 옵션 A (314)에 적절하게 맵핑된다고 결론을 내릴 수 있다. 제1 영역에 대한 다중 맵핑가능한 유전자좌 및/또는 제3 영역에 대한 다중 맵핑가능한 유전자좌가 있는 경우에도 유사한 분석이 수행될 수 있다.
더욱이, 거리 정보는 제1 영역 또는 제3 영역이 제1 영역 또는 제3 영역의 유전자좌에 있는 반복 영역으로 인해 정확한 위치에 명확하게 맵핑될 수 없는 경우, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는데 사용될 수 있다. 도 4는 커플링된 시퀀싱 리드 쌍의 제3 영역이 반복 영역에 맵핑할 때 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 커플링된 시퀀싱 리드 쌍이 참조 서열에 어떻게 맵핑되는지를 예시한다. 도 4는 참조 서열 (402) 및 커플링된 시퀀싱 리드 쌍 (404)을 보여준다. 커플링된 시퀀싱 리드 쌍은 제1 영역 (406), 제2 영역 (408) 및 제3 영역 (410)을 포함한다. 제1 영역 (406)은 참조 제1 영역 (412) 내의 특이적 유전자좌에 맵핑될 수 있지만, 제3 영역 (410)은 반복 영역 (414) 내의 임의의 위치에 맵핑될 수 있다. 제2 영역 (408)의 길이를 알면, 제3 영역 (410)은 반복 영역 (414) 내에서 보다 올바르게 맵핑될 수 있다. 예를 들어, 제2 영역 (408)의 길이가 대략 n개의 염기 길이인 경우, 이 거리 정보는 일단 제1 영역 (406)이 맵핑되면 제3 영역 (410)을 위치시키는데 사용될 수 있다. 유사하게, 이 방법은 제3 영역이 정밀하게 맵핑될 수 있지만 제1 영역이 반복 영역 내에서 맵핑되는 경우에 사용될 수 있다.
구조적 변이체의 검출
게놈으로부터 유래된 폴리뉴클레오티드로부터 생성된 커플링된 시퀀싱 리드 쌍은 게놈 내의 변이체, 예컨대 구조적 변이체를 검출하는데 사용될 수 있다. 구조적 변이체는 삽입, 결실, 역위, 및 염색체 융합 변이체를 포함할 수 있으며, 이는 폴리뉴클레오티드의 제1, 제2 또는 제3 영역 내에 위치될 수 있거나, 폴리뉴클레오티드의 제1, 제2 또는 제3 영역을 브릿지하는 위치에 위치될 수 있다.
게놈에서의 삽입은 임의의 크기, 예컨대 1개의 염기 길이 내지 수백 또는 수천 킬로염기 또는 그 이상의 길이일 수 있다. 또한, 삽입은 내인성 삽입 (즉, 대상체의 게놈의 다른 곳에서 유래한 유전자좌에 삽입된 서열)일 수 있거나, 외인성 삽입 (예컨대 대상체의 게놈 이외의 공급원으로부터 유래한 유전자좌에 삽입된 서열, 예컨대 대상체의 게놈에 삽입된 바이러스 게놈)일 수 있다. 외인성 삽입은 참조 서열 내에 존재하지 않는 핵산 서열을 초래하여, 대상체의 게놈 내에서 외인성 삽입 변이체를 검출하거나 위치시키는데 추가적인 문제를 제기한다. 본원에 기재된 방법은 다른 구조적 변이체 중에서 외인성 삽입을 검출 및/또는 위치시키는데 사용될 수 있다.
한 예에서, 커플링된 시퀀싱 리드 쌍을 사용하여 게놈 내의 구조적 변이체 (예컨대 외인성 삽입)를 검출하는 방법은 커플링된 시퀀싱 리드 쌍의 제1 영역 (또는 이의 일부)을 참조 서열에 맵핑하는 단계, 및 제3 영역 (또는 이의 일부)을 참조 서열에 맵핑하려고 시도하는 단계를 포함한다. 제3 영역 (또는 이의 일부)이 맵핑불가능한 경우, 외인성 삽입의 존재가 식별될 수 있다. 이는 참조 서열이 제3 영역에 상응하는 서열을 포함하지 않기 때문이다. 유사하게, 커플링된 시퀀싱 리드 쌍을 사용하여 게놈 내의 외인성 삽입을 검출하는 방법은 커플링된 시퀀싱 리드 쌍의 제3 영역 (또는 이의 일부)을 참조 서열에 맵핑하는 단계, 및 제1 영역 (또는 이의 일부)을 참조 서열에 맵핑하려고 시도하는 단계를 포함할 수 있다. 제1 영역 (또는 이의 일부)이 맵핑불가능한 경우, 외인성 삽입의 존재가 식별될 수 있다. 이는 참조 서열이 제1 영역에 상응하는 서열을 포함하지 않기 때문이다. 추가로 (및 어느 하나의 예에서), 참조 서열 내의 외인성 삽입의 유전자좌는 제2 영역의 길이를 나타내는 예상 거리 정보에 기초하여 결정될 수 있다. 도 5는 외인성 삽입을 검출하기 위한 예시적인 방법에 대한 개략도를 예시한다. 커플링된 시퀀싱 리드 쌍 (502)은 제1 영역 (504), 제2 영역 (506) 및 제3 영역 (508)을 포함하고, 제2 영역 (506)은 제1 영역 (504) 및 제3 영역 (508) 사이에 있다. 제3 영역 (508)은 대상체의 게놈 (512)에 존재하지만 참조 서열 (514)에는 존재하지 않는 외인성 삽입 요소 (510)를 포함한다. 참조 요소 (516)는 대상체의 게놈 (512) 및 참조 서열 (514) 둘 모두에 존재하지만, 참조 제1 영역 (518)으로부터 상이하게 이격된다. 제1 영역 (504)은 참조 서열 내의 참조 제1 영역 (518)에 맵핑된다. 그러나, 제3 영역 (508)은 참조 서열 (514) 내에서 맵핑되는 상응하는 영역을 갖지 않는다 (즉, 이는 맵핑불가능함). 이는 제3 영역 (508)의 서열이 대상체의 게놈 내의 외인성 삽입의 결과임을 나타낸다. 제2 영역 (506)에 대한 거리 정보는 또한 참조 제1 영역 (518)에 대한 외인성 게놈의 유전자좌를 결정하는데 사용될 수 있다. 즉, 제2 영역 (506)이 대략 n개의 염기 길이인 경우, 외인성 삽입물은 제1 영역 (504)의 말단으로부터 대략 n개의 염기에 위치된다.
또 다른 예에서, 커플링된 시퀀싱 리드 쌍은 예상 시퀀싱 데이터를 사용하여 구조적 변이체 (예컨대 삽입, 결실, 역위, 또는 염색체 융합)를 검출하고, 생성된 시퀀싱 데이터를 예상 시퀀싱 데이터와 비교하는데 사용될 수 있다. 예를 들어, 커플링된 시퀀싱 리드 쌍의 제1 영역 (또는 이의 일부) 또는 제3 영역 (또는 이의 일부) 중 하나는 참조 서열에 맵핑될 수 있다. 맵핑되지 않은 제1 영역 (또는 이의 일부) 또는 맵핑되지 않은 제3 영역 (또는 이의 일부)에 대한 참조 서열 내의 유전자좌는 제2 영역의 길이를 나타내는 거리 정보를 사용하여 결정될 수 있다. 거리 정보는 예를 들어 본원에 기재된 바와 같이 결정될 수 있다. 맵핑되지 않은 제1 영역 (또는 이의 일부) 또는 맵핑되지 않은 제3 영역 (또는 이의 일부)에 대한 유전자좌가 결정되면, 유전자좌에서 예상 시퀀싱 데이터 참조 서열이 결정될 수 있다. 예를 들어, 예상 서열 데이터는 제2 영역의 서열, 제2 영역 흐름 순서, 맵핑되지 않은 영역의 서열과 관련된 정보, 및 맵핑되지 않은 영역 흐름 순서에 기초하여 결정될 수 있다. 그 후, 예상 시퀀싱 데이터는 맵핑되지 않은 영역의 생성된 시퀀싱 데이터와 비교될 수 있다. 맵핑되지 않은 영역의 시퀀싱 데이터 및 예상 시퀀싱 데이터 사이의 차이는 유전자좌에서 구조적 변이체를 나타낸다.
도 6은 커플링된 시퀀싱 리드 쌍을 사용하여 구조적 변이체를 검출하기 위한 예시적인 방법을 예시한다. 단계 602에서, 제1 영역 또는 이의 일부 (또는 제3 영역 또는 이의 일부) 중 하나가 참조 서열에 맵핑된다. 단계 604에서, 시퀀싱된 참조 내의 예상 유전자좌는 제3 영역 또는 이의 일부 (또는 제1 영역 또는 이의 일부)에 대해 결정된다. 즉, 제1 영역 또는 이의 일부가 단계 602 동안 맵핑되는 경우, 제3 영역 또는 이의 일부에 대한 예상 유전자좌가 단계 604에서 결정되고, 제3 영역 또는 이의 일부가 단계 602 동안 맵핑되는 경우, 제1 영역 또는 이의 일부에 대한 예상 유전자좌가 단계 604에서 결정된다. 단계 606에서, 제3 영역 또는 이의 일부 (또는 제1 영역 또는 이의 일부)에 대한 결정된 예상 유전자좌에서의 예상 시퀀싱 데이터가 결정된다. 단계 608에서, 제3 영역 또는 이의 일부 (또는 제1 영역 또는 이의 일부)에 대한 예상 시퀀싱 데이터는 제3 영역 또는 이의 일부 (또는 제1 영역 또는 이의 일부)에 대한 결정된 시퀀싱 데이터와 비교되고, 여기서 결정된 시퀀싱 데이터 및 예상 시퀀싱 데이터 사이의 차이는 구조적 변이체를 나타낸다.
도 7은 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 삽입이다. 대상체의 게놈 (702)은 제1 영역 (704), 및 제1 참조 영역 (708)과 제2 참조 영역 (710) 사이의 삽입 (706)을 포함한다. 참조 서열 (712)은 제1 영역 (704), 제1 참조 영역 (708), 및 제2 참조 영역 (710)을 포함하지만, 제1 참조 영역 (708)과 제2 참조 영역 (710) 사이의 삽입 (706)을 포함하지 않는다 (삽입은 참조 영역의 또 다른 부분에서 발견되는 영역에 상응할 수 있거나, 또는 완전히 외인성 서열일 수 있음). 커플링된 시퀀싱 리드 쌍 (714)은 제1 영역 (716) (제1 영역 (704)에 상응함) 및 제3 영역 (718) (삽입 (706)에 상응함)을 포함하며, 이는 제2 영역 (720)을 분리한다. 커플링된 시퀀싱 리드 쌍 (714)의 제1 영역 (716)은 참조 서열 (712)의 제1 영역 (704)에 맵핑된다. 거리 정보는 커플링된 시퀀싱 리드 쌍 (714)의 제2 영역 (720)의 길이를 대략 n개의 염기 길이로 나타낸다. 따라서, 제3 영역 (718)에 대한 예상 유전자좌 (722)의 시작은 제1 영역 (704)의 끝으로부터 대략 n개의 염기에서 시작하도록 결정된다. 그 후, 예상 시퀀싱 데이터는 본원에 기재된 바와 같이 예상 유전자좌에 대해 결정될 수 있다. 예를 들어, 예상 시퀀싱 데이터는 참조 서열 (712) (예를 들어, 예상 유전자좌에 대한 및/또는 이를 포함하는 제1 영역 (704) 사이의 참조 서열), 제2 영역에 대한 흐름 순서, 및 제3 영역에 대한 흐름 순서를 사용하여 예상 유전자좌에 대해 결정될 수 있다. 도 7에 예시된 예에서, 예상 시퀀싱 데이터는 제3 영역 (718)이 제2 참조 영역 (710)이었다면 수득되었을 시퀀싱 데이터에 상응하는데, 이는 제2 참조 영역 (710)이 예상 유전자좌에 있기 때문이다. 예상 유전자좌에 대한 예상 시퀀싱 데이터가 커플링된 시퀀싱 리드 쌍 (714)의 제3 영역 (718)에 대한 생성된 시퀀싱 데이터와 상이한 경우 (이는 도 7에 예시된 예의 상황임), 구조적 변이체가 검출된다.
도 8은 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 결실이다. 대상체의 게놈 (802)은 제1 영역 (804), 제1 참조 영역 (806), 및 제2 참조 영역 (808)을 포함한다. 참조 서열 (810)은 제1 참조 영역 (806)과 제2 참조 영역 (808) 사이에 위치된 추가 영역 (812)과 함께, 제1 영역 (804), 제1 참조 영역 (806), 및 제2 참조 영역 (808)을 포함한다. 추가 영역 (812)은 참조 서열 (810)에 존재하지만, 추가 영역 (812)은 대상체의 게놈 (802)으로부터 결실되었다. 커플링된 시퀀싱 리드 쌍 (814)은 제1 영역 (816) (제1 영역 (804)에 상응함) 및 제3 영역 (818) (제2 참조 영역 (808)에 상응함)을 포함하며, 이는 제2 영역 (820)을 분리한다. 커플링된 시퀀싱 리드 쌍 (814)의 제1 영역 (816)은 참조 서열 (810)의 제1 영역 (804)에 맵핑된다. 거리 정보는 커플링된 시퀀싱 리드 쌍 (814)의 제2 영역 (820)의 길이를 대략 n개의 염기 길이로 나타낸다. 따라서, 제3 영역 (818)에 대한 예상 유전자좌 (822)의 시작은 제1 영역 (804)의 끝으로부터 대략 n개의 염기에서 시작하도록 결정된다. 그 후, 예상 시퀀싱 데이터는 본원에 기재된 바와 같이 예상 유전자좌에 대해 결정될 수 있다. 예를 들어, 예상 시퀀싱 데이터는 참조 서열 (812) (예를 들어, 예상 유전자좌에 대한 및/또는 이를 포함하는 제1 영역 (804) 사이의 참조 서열), 제2 영역에 대한 흐름 순서, 및 제3 영역에 대한 흐름 순서를 사용하여 예상 유전자좌에 대해 결정될 수 있다. 도 8에 예시된 예에서, 예상 시퀀싱 데이터는 제3 영역 (818)이 추가 영역 (812) (대상체의 게놈에서 결실됨)이었다면 수득되었을 시퀀싱 데이터에 상응하는데, 이는 추가 영역 (812)이 예상 유전자좌에 있기 때문이다. 예상 유전자좌에 대한 예상 시퀀싱 데이터가 커플링된 시퀀싱 리드 쌍 (814)의 제3 영역 (818)에 대한 생성된 시퀀싱 데이터와 상이한 경우 (이는 도 8에 예시된 예의 상황임), 구조적 변이체가 검출된다.
도 9는 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 역위이다. 대상체의 게놈 (902)은 제1 세그먼트 (904), 제2 세그먼트 (906), 및 제3 세그먼트 (908)를 포함한다. 참조 서열 (910)은 또한 제1 세그먼트 (904), 제2 세그먼트 (906), 및 제3 세그먼트 (908)를 포함한다. 그러나, 참조 서열 (910)에서, 제2 세그먼트 (906)는 제3 세그먼트 (908)에 비해 5' 말단에 근위에 있는 반면, 대상체의 게놈 (902)에서, 제2 세그먼트 (906)는 제3 세그먼트 (908)에 비해 3' 말단에 근위에 있다. 그러므로, 대상체의 게놈 (902)에서 제2 세그먼트 (906) 및 제3 세그먼트 (908)는 참조 서열 (910)에 비해 역위된다. 커플링된 시퀀싱 리드 쌍 (912)은 제1 영역 (914) (제1 세그먼트 (904)에 상응함) 및 제3 영역 (916) (제3 세그먼트 (908)에 상응함)을 포함하며, 이는 제2 영역 (918)을 분리한다. 커플링된 시퀀싱 리드 쌍 (912)의 제1 영역 (914)은 참조 서열 (910)의 제1 세그먼트 (904)에 맵핑된다. 거리 정보는 커플링된 시퀀싱 리드 쌍 (912)의 제2 영역 (918)의 길이를 대략 n개의 염기 길이로 나타낸다. 따라서, 제3 세그먼트 (908)에 대한 예상 유전자좌 (920)의 시작은 제1 세그먼트 (904)의 끝으로부터 대략 n개의 염기에서 시작하도록 결정된다. 그 후, 예상 시퀀싱 데이터는 본원에 기재된 바와 같이 예상 유전자좌에 대해 결정될 수 있다. 예를 들어, 예상 시퀀싱 데이터는 참조 서열 (910) (예를 들어, 예상 유전자좌에 대한 및/또는 이를 포함하는 제1 세그먼트 (904) 사이의 참조 서열), 제2 영역에 대한 흐름 순서, 및 제3 영역에 대한 흐름 순서를 사용하여 예상 유전자좌에 대해 결정될 수 있다. 도 9에 예시된 예에서, 예상 시퀀싱 데이터는 제3 영역 (916)이 제2 세그먼트 (906)와 상응하였다면 수득되었을 시퀀싱 데이터에 상응하는데, 이는 제2 세그먼트 (906) (및 제3 세그먼트 (908)가 아님)가 참조 서열 (910)에서 예상 유전자좌에 있기 때문이다. 예상 유전자좌에 대한 예상 시퀀싱 데이터가 커플링된 시퀀싱 리드 쌍 (912)의 제3 영역 (916)에 대한 생성된 시퀀싱 데이터와 상이한 경우 (이는 도 9에 예시된 예의 상황임), 구조적 변이체가 검출된다.
도 10은 대상체의 게놈에서 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍을 사용하는 것에 대한 개략도를 예시하며, 여기서 구조적 변이체는 염색체 융합이다. 염색체 융합은 염색체의 일부가 염색체의 또 다른 부분 (동일한 염색체 또는 상이한 염색체)에 융합되는 염색체 재배열 사건으로부터 기인된다. 참조 서열 (1002)은 제1 세그먼트 (1004) 및 제2 세그먼트 (1006)를 포함하는 염색체 A, 및 제3 세그먼트 (1008)를 포함하는 염색체 B를 포함한다. 대상체의 게놈 (1010)은 참조 게놈 (1002)의 포인트 (1012) 및 (1014)에서 염색체 A 및 염색체 B의 염색체 융합을 포함한다. 이는 염색체 A의 3' 말단 및 염색체 B의 5' 말단을 포함하는 염색체 A/B, 및 염색체 B의 3' 말단 및 염색체 A의 5' 말단을 포함하는 염색체 B/A를 초래한다. 그러므로, 염색체 A/B는 제1 세그먼트 (1004) 및 제3 세그먼트 (1008)를 포함하고, 염색체 B/A는 제2 세그먼트 (1006)를 포함한다. 커플링된 시퀀싱 리드 쌍 (1016)은 대상체의 게놈 (1010)의 염색체 A/B로부터 유래되고, 제1 영역 (1018) (제1 세그먼트 (1004)에 상응함) 및 제3 영역 (1020) (제3 세그먼트 (1008)에 상응함)을 포함하며, 이는 제2 영역 (1022)을 분리한다. 커플링된 시퀀싱 리드 쌍 (1016)의 제1 영역 (1018)은 참조 서열 (1002)의 제1 세그먼트 (1004)에 맵핑된다. 거리 정보는 커플링된 시퀀싱 리드 쌍 (1016)의 제2 영역 (1022)의 길이를 대략 n개의 염기 길이로 나타낸다. 따라서, 제3 세그먼트 (1020)에 대한 예상 유전자좌 (1024)의 시작은 제1 세그먼트 (1004)의 끝으로부터 대략 n개의 염기에서 시작하도록 결정된다. 그 후, 예상 시퀀싱 데이터는 본원에 기재된 바와 같이 예상 유전자좌에 대해 결정될 수 있다. 예를 들어, 예상 시퀀싱 데이터는 참조 서열 (1002)의 염색체 A (예를 들어, 예상 유전자좌에 대한 및/또는 이를 포함하는 제1 세그먼트 (1004), 제2 세그먼트 (1006) 사이의 참조 서열), 제2 영역 (1022)에 대한 흐름 순서, 및 제3 영역 (1020)에 대한 흐름 순서를 사용하여 예상 유전자좌에 대해 결정될 수 있다. 도 10에 예시된 예에서, 예상 시퀀싱 데이터는 제3 영역 (1020)이 제2 세그먼트 (1006)와 상응하였다면 수득되었을 시퀀싱 데이터에 상응하는데, 이는 제2 세그먼트 (1006) (및 제3 세그먼트 (1008)가 아님)가 참조 서열 (1002)에서 예상 유전자좌에 있기 때문이다. 예상 유전자좌에 대한 예상 시퀀싱 데이터가 커플링된 시퀀싱 리드 쌍 (1016)의 제3 영역 (1020)에 대한 생성된 시퀀싱 데이터와 상이한 경우 (이는 도 10에 예시된 예의 상황임), 구조적 변이체가 검출된다.
참조 서열에 대한 구조적 변이체 (예를 들어, 삽입, 결실, 염색체 융합, 또는 역위)의 접합점은 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 제3 영역 전체에 걸쳐 있을 필요는 없다. 일부 실시양태에서, 구조적 변이체의 적어도 일부는 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 제3 영역 내에서 종결된다. 예상 시퀀싱 데이터는 제1 또는 제3 영역에 대한 결정된 시퀀싱 데이터와 여전히 상이할 것이다.
제2 영역 내의 변이체의 검출
일부 실시양태에서, 제2 영역을 통해 연장된 프라이머로의 뉴클레오티드의 혼입이 검출될 필요가 없더라도, 커플링된 시퀀싱 리드 쌍은 제2 영역 내의 변이체를 검출하는데 사용된다. 검출가능한 변이체는 구조적 변이체 (예컨대 삽입, 결실, 역위, 또는 염색체 융합) 또는 단일 뉴클레오티드 다형성 (SNP)을 포함한다.
구조적 변이체 (예를 들어, 염색체 융합, 역위, 삽입 또는 결실)를 검출하는 방법은 커플링된 시퀀싱 리드 쌍의 제1 영역 (또는 이의 일부) 및 제3 영역 (또는 이의 일부) 둘 모두를 참조 서열에 맵핑하는 단계를 포함할 수 있다. 제2 영역 내에서 완전히 발생하는 역위에 대한 거리 정보는 일반적으로 제2 영역 흐름 순서 (예를 들어, 흐름도 공간에서)를 참조하여 고려되는 반면, 제2 영역 (예를 들어, 적어도 부분적으로 제1 영역 또는 제3 영역)에서 완전히 발생하지 않은 염색체 융합, 삽입 또는 결실에 대한 거리 정보는 물리적 공간 또는 제2 영역 흐름 순서를 참조하여 고려될 수 있다. 참조 서열에 맵핑된 제1 영역 및 참조 서열에 맵핑된 제3 영역 사이의 거리 정보 (즉, 맵핑된 거리 정보)가 결정될 수 있다. 맵핑된 거리 정보는 참조 서열에 맵핑된 제1 영역의 맵핑된 위치 및 참조 서열에 맵핑된 제3 영역의 맵핑된 위치 사이의 거리, 예를 들어 제1 및 제3 맵핑된 영역 사이의 염기의 수를 나타낸다. 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 예상 거리 정보가 또한 결정될 수 있다 (예를 들어 제2 영역 및 참조 서열에 대한 흐름 순서를 사용하거나, 또는 본원에 달리 기재된 바와 같이). 예상 거리 정보 및 맵핑된 거리 정보의 비교는 구조적 변이체를 검출하는데 사용될 수 있다. 예를 들어, 예상된 거리가 맵핑된 거리보다 더 짧은 경우, 대상체의 게놈 내의 구조적 변이체, 예컨대 삽입 또는 염색체 융합 변이체가 표시된다. 예상된 거리가 맵핑된 거리보다 더 긴 경우, 대상체의 게놈 내의 결실 변이체가 표시된다.
도 11은 단계 1102에서 커플링된 시퀀싱 리드 쌍의 제1 영역 (또는 이의 일부) 및 제3 영역 (또는 이의 일부)을 참조 서열에 맵핑하는 것을 포함하는 구조적 변이체를 검출하는 예시적인 방법을 예시한다. 단계 1104에서, 참조 서열에 맵핑된 제1 영역 및 참조 서열에 맵핑된 제3 영역 사이의 거리를 나타내는 맵핑된 서열 거리 정보가 결정된다. 단계 1106에서, 서열 영역 흐름 순서 및 제2 영역의 서열에 대한 정보 (예를 들어, 참조 서열로부터의 제2 영역의 서열)에 기초하여 제2 영역에 대한 예상 거리 정보가 결정된다. 단계 1108에서, 구조적 변이체는 예상 거리 정보를 맵핑된 거리 정보와 비교함으로써 식별되며, 여기서 맵핑된 거리 정보 및 예상 거리 정보 사이의 차이는 구조적 변이체를 나타낸다.
도 12는 구조적 변이체를 검출하기 위해 커플링된 시퀀싱 리드 쌍이 어떻게 사용될 수 있는지의 한 예를 나타내는 개략도를 예시한다. 예시된 예는 대상체의 게놈에서의 삽입을 보여주지만, 방법론은 다른 구조적 변이체 (예를 들어, 결실 또는 염색체 융합)에 유사하게 적용된다. 참조 서열 (1202)은 제1 세그먼트 (1204) 및 제2 세그먼트 (1206)를 포함한다. 대상체의 게놈 (1208)은 또한 제1 세그먼트 (1204) 및 제2 세그먼트 (1206)를 포함하지만, 제1 세그먼트 (1204) 및 제2 세그먼트 (1206) 사이에 삽입물 (1210)을 추가로 포함한다. 대상체의 게놈 (1208)으로부터 생성된 커플링된 시퀀싱 리드 쌍 (1212)은 제1 세그먼트 (1204)에 상응하는 제1 영역 (1214) 및 제2 세그먼트 (1206)에 상응하는 제3 영역 (1216)을 포함한다. 제2 영역 (1218)은 제1 영역 (1214) 및 제3 영역 (1216)을 분리한다. 제1 영역 (1214) 및 제3 영역 (1216)의 서열은 제1 세그먼트 (1204) 및 제2 세그먼트 (1206)에서 참조 서열 (1202)에 각각 맵핑될 수 있다. 일단 맵핑되면, 참조 서열 (1202)에 맵핑된 제1 영역 (1214) 및 제3 영역 (1216) 사이의 거리 (즉, 참조 서열 (1202)의 제1 세그먼트 (1204) 및 제2 세그먼트 (1206) 사이의 거리)를 나타내는 맵핑된 거리 정보가 n의 거리로서 결정된다. 제2 영역 (1218)의 길이에 대한 예상 거리 정보가 또한 m으로서 결정될 수 있다. 그 후, 맵핑된 거리 정보 n을 예상 거리 정보 m과 비교함으로써 구조적 변이체가 결정될 수 있다.
제2 영역 내에서 변이체 (예컨대 구조적 변이체 또는 SNP)를 검출하는 또 다른 방법에서, 예상 시퀀싱 데이터는 결정된 시퀀싱 데이터와 비교된다. 예를 들어, 일부 실시양태에서, 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 방법 (프라이머는 제1 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제1 영역을 통해 연장되고/거나 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장됨)은 제1 영역 (또는 이의 일부) 및/또는 제3 영역 (또는 이의 일부)을 참조 서열에 맵핑하는 것을 포함한다. 그 후, 다른 영역 또는 이의 일부에 대한 예상 참조 시퀀싱 데이터 (즉, 제1 영역 또는 일부가 맵핑된 경우, 다른 영역은 제3 영역 또는 이의 일부를 지칭하고; 제3 영역 또는 이의 일부가 맵핑된 경우, 다른 영역은 제1 영역 또는 이의 일부를 지칭함)가 결정된다. 예상 시퀀싱 데이터는 예를 들어 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 다른 영역 또는 이의 일부에 대한 참조 서열 (즉, 제1 영역 또는 이의 일부가 맵핑되는 영역인 경우 제3 영역 또는 이의 일부, 및 제3 영역 또는 이의 일부가 맵핑되는 영역인 경우 제1 영역 또는 이의 일부), 및 다른 영역 또는 이의 일부에 대한 흐름 순서를 사용하여 결정될 수 있다. 또 다른 예에서, 예상 시퀀싱 데이터는 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 다른 영역에 대한 흐름 순서, 및 다른 영역의 서열과 연관된 시퀀싱 데이터 (이는 커플링된 시퀀싱 리드 쌍을 생성할 때 생성된 동일한 시퀀싱 데이터, 또는 다른 수단에 의해 생성된 시퀀싱 데이터일 수 있음)를 사용하여 결정된다. 다른 영역에 대한 결정된 예상 시퀀싱 데이터는 다른 영역에 대한 생성된 시퀀싱 데이터와 비교될 수 있다. 예상된 및 생성된 시퀀싱 데이터 사이의 차이는 변이체의 존재를 나타낸다.
일부 실시양태에서, 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체 (예컨대 구조적 변이체 (예를 들어, 염색체 융합, 역위, 삽입 또는 결실) 또는 SNP)를 검출하는 방법이며, 여기서 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되는 것인 방법은 하기를 포함한다: 제1 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; (1) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열, 또는 (2) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터를 사용하여 제3 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및 제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재를 검출하는 단계. 일부 실시양태에서, 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체 (예컨대 구조적 변이체 (예를 들어, 염색체 융합, 역위, 삽입 또는 결실) 또는 SNP)를 검출하는 방법이며, 여기서 프라이머는 제1 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되는 것인 방법은 하기를 포함한다: 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; (1) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제1 영역 흐름 순서, 및 제1 영역에 대한 참조 서열, 또는 (2) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제1 영역 흐름 순서, 및 제1 영역의 서열과 연관된 생성된 시퀀싱 데이터를 사용하여 제1 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및 제1 영역에 대한 예상 시퀀싱 데이터를 제1 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재를 검출하는 단계.
도 13은 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 예시적인 방법을 예시한다. 단계 1302에서, 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부가 참조 서열에 맵핑된다. 단계 1304에서, 제3 영역 또는 이의 일부 또는 제1 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터가 결정된다. 단계 1306에서, 제1 영역 또는 제3 영역에 대한 예상 시퀀싱 데이터를 제1 영역 또는 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재가 검출된다. 예시적인 변이체 검출 방법이 실시예에 제공된다.
변이체를 검출하는 방법은 시험 변이체를 포함할 수 있거나 포함하지 않을 수 있는 참조 서열을 사용할 수 있다. 시험 변이체는 예를 들어 제2 폴리뉴클레오티드 내에서 또는 바이오마커 패널로부터 시험 변이체를 식별하여 선택될 수 있다. 예로서, 시험 변이체는 폴리뉴클레오티드의 반수체형을 결정하는데 사용될 수 있다. 대립유전자 또는 변이체는 폴리뉴클레오티드에서 식별될 수 있고, 본원에 기재된 방법은 커플링된 시퀀싱 리드 쌍을 생성한 폴리뉴클레오티드가 식별된 대립유전자 또는 변이체를 갖는 폴리뉴클레오티드와 동일한 반수체형 또는 상이한 반수체형인지를 결정하는데 사용될 수 있다. 커플링된 시퀀싱 리드 쌍에서 검출된 시험 변이체는 폴리뉴클레오티드의 제1 영역 또는 제3 영역에서 시퀀싱된 대립유전자와 연관될 수 있다.
시험 변이체의 존재를 검출할 때, 참조 서열은 시험 변이체를 포함할 수 있고, 대상체의 게놈 내의 시험 변이체의 존재는 제3 영역 또는 이의 일부에 대한 예상 시험 변이체 시퀀싱 데이터를 제3 영역 또는 이의 일부에 대한 결정된 시퀀싱 데이터와 비교함으로써 검출될 수 있다. 예상 시험 변이체 시퀀싱 데이터가 결정된 시퀀싱 데이터와 매치하는 경우, 시험 변이체가 참조 서열 내에서 검출된다. 예를 들어, 일부 실시양태에서, 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 시험 변이체를 검출하는 방법 (프라이머는 제1 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제1 영역을 통해 연장되고/거나 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장됨)은 제1 영역 또는 이의 일부를 시험 변이체를 포함하는 참조 서열에 맵핑하는 것을 포함한다. 그 후, 다른 영역 또는 이의 일부에 대한 시험 변이체 예상 참조 시퀀싱 데이터 (즉, 제1 영역 또는 일부가 맵핑된 경우, 다른 영역은 제3 영역 또는 이의 일부를 지칭함)가 결정된다. 시험 변이체 예상 시퀀싱 데이터는 예를 들어 제2 영역에 대한 시험 변이체를 포함하는 참조 서열, 제2 영역 흐름 순서, 다른 영역 또는 이의 일부에 대한 참조 서열, 및 다른 영역 또는 이의 일부에 대한 흐름 순서를 사용하여 결정될 수 있다. 또 다른 예에서, 예상 시퀀싱 데이터는 제2 영역에 대한 시험 변이체를 갖는 참조 서열, 제2 영역 흐름 순서, 다른 영역에 대한 흐름 순서, 및 다른 영역의 서열과 연관된 시퀀싱 데이터 (이는 커플링된 시퀀싱 리드 쌍을 생성할 때 생성된 동일한 시퀀싱 데이터, 또는 다른 수단에 의해 생성된 시퀀싱 데이터일 수 있음)를 사용하여 결정된다. 다른 영역에 대한 결정된 시험 변이체 예상 시퀀싱 데이터는 다른 영역에 대한 생성된 시퀀싱 데이터와 비교될 수 있다. 예상된 및 생성된 시퀀싱 데이터 사이의 매치는 시험 변이체의 존재를 나타낸다.
짧은 유전자 변이체의 검출
본원에 기재된 방법은 제2 영역 내의 짧은 유전자 변이체 (예를 들어, SNP 또는 짧은 indel (10개 미만의 연속 염기 길이)를 검출하는데 사용될 수 있다 (예를 들어, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않거나, 또는 프라이머를 연장하기 위해 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물을 포함함으로써 제2 영역을 통해 연장될 때). 제2 영역 내의 짧은 유전자 변이체는 다운스트림 (예를 들어, 제3) 영역에서 뉴클레오티드의 혼입을 검출할 때 수득된 신호를 분석함으로써 검출될 수 있다. 짧은 유전자 변이체는 예를 들어 개체의 하위집단 내에서 발견되는 변이체 또는 돌연변이, 또는 단일 또는 특정 개체에 고유한 변이체 또는 돌연변이일 수 있다. 짧은 유전자 변이체는 생식계열 변이체 또는 체세포 변이체일 수 있다.
시퀀싱 데이터는 혼입된 뉴클레오티드의 검출 및 뉴클레오티드 도입의 순서에 기초하여 생성될 수 있다. 예를 들어, 흐르는 연장된 서열 (즉, 상응하는 주형 서열의 각 역상보체): CTG, CAG, CCG, CGT, 및 CAT (시퀀싱 방법에 적용되는 선행 서열 또는 후속 서열이 없다고 가정함), 및 T-A-C-G의 반복 흐름 사이클 (즉, 반복 사이클에서 T, A, C 및 G 뉴클레오티드의 순차적 첨가)을 취한다. 주어진 흐름 위치에서 특정 유형의 뉴클레오티드는 상보적 염기가 주형 폴리뉴클레오티드에 존재하는 경우에만 프라이머에 혼입될 것이다. 예시적인 생성된 흐름도는 표 5에 표시되며, 여기서 1은 도입된 뉴클레오티드의 혼입을 나타내고, 0은 도입된 뉴클레오티드의 혼입이 없음을 나타낸다. 흐름도는 주형 가닥의 서열을 유도하는데 사용될 수 있다. 예를 들어, 논의된 시퀀싱 데이터 (예를 들어, 흐름도)는 연장된 프라이머 가닥의 서열을 표시하고, 이의 역상보체는 주형 가닥의 서열을 표시하는 것으로 쉽게 결정될 수 있다. 표 5에서 별표 (*)는 추가 뉴클레오티드가 연장된 시퀀싱 가닥 (예를 들어, 더 긴 주형 가닥)에 혼입되는 경우 시퀀싱 데이터에 신호가 존재할 수 있음을 나타낸다.
<표 5>
Figure pct00007
흐름도는 바이너리 또는 넌-바이너리일 수 있다. 바이너리 흐름도는 혼입된 뉴클레오티드의 존재 (1) 또는 부재 (0)를 검출한다. 넌-바이너리 흐름도는 각 단계별 도입으로부터 혼입된 뉴클레오티드의 수를 보다 정량적으로 결정할 수 있다. 예를 들어, CCG의 연장된 서열은 동일한 C 흐름 (예를 들어, 흐름 위치 3에서) 내에서 연장 프라이머에 2개의 C 염기의 혼입을 포함할 것이며, 표지된 염기에 의해 방출되는 신호는 단일 염기 혼입에 상응하는 강도 수준보다 더 큰 강도를 가질 것이다. 이는 표 5에 표시된다. 넌-바이너리 흐름도는 또한 염기의 존재 또는 부재를 나타내고, 주어진 흐름 위치에서 각 연장 프라이머에 혼입될 가능성이 있는 염기의 수를 포함하는 추가 정보를 제공할 수 있다. 값이 정수일 필요는 없다. 일부 경우에, 값은 주어진 흐름 위치에서 혼입되는 염기의 수의 불확실성 및/또는 확률을 반영할 수 있다.
일부 실시양태에서, 시퀀싱 데이터 세트는 각 흐름 위치에 혼입된 시퀀싱된 핵산 분자에서 염기의 수를 나타내는 염기 카운트를 표시하는 흐름 신호를 포함한다. 예를 들어, 표 5에 나타낸 바와 같이, T-A-C-G 흐름 사이클 순서를 사용하여 CTG 서열로 연장된 프라이머는 위치 3에서 1의 값을 가지며, 이는 해당 위치에서 1의 염기 카운트를 나타낸다 (1개의 염기는 C이며, 이는 시퀀싱된 주형 가닥에서 G에 상보적임). 또한 표 5에서, T-A-C-G 흐름 사이클 순서를 사용하여 CCG 서열로 연장된 프라이머는 위치 3에서 2의 값을 가지며, 이는 이 흐름 위치 동안 연장 프라이머에 대한 해당 위치에서 2의 염기 카운트를 나타낸다. 여기서, 2개의 염기는 연장 프라이머 서열에서 CCG 서열의 시작에 있는 C-C 서열을 지칭하고, 이는 주형 가닥에서 G-G 서열에 상보적이다.
시퀀싱 데이터 세트의 흐름 신호는 각 흐름 위치에서 하나 이상의 염기 카운트에 대한 가능도 또는 신뢰 구간을 나타내는 하나 이상의 통계적 파라미터를 포함할 수 있다. 일부 실시양태에서, 흐름 신호는 시퀀싱 공정 동안 검출된 아날로그 신호, 예컨대 시퀀싱 동안 시퀀싱 프라이머에 혼입된 하나 이상의 염기의 형광 신호로부터 결정된다. 일부 경우에, 아날로그 신호는 통계적 파라미터를 생성하기 위해 프로세싱될 수 있다. 예를 들어, 기계-학습 알고리즘은 공개된 국제 특허 출원 WO 2019084158 A1 (그 전문이 본원에 참조로 포함됨)에 기재된 바와 같이 아날로그 시퀀싱 신호의 컨텍스트 효과를 수정하는데 사용될 수 있다. 0 이상의 정수의 염기가 임의의 주어진 흐름 위치에 혼입되지만, 주어진 아날로그 신호는 아날로그 신호와 완벽하게 매치하지 않을 수 있다. 따라서, 검출된 신호가 주어지면, 흐름 위치에 혼입된 염기의 수의 가능도를 나타내는 통계적 파라미터가 결정될 수 있다. 단지 예로서, 표 5의 CCG 서열에 대해, 흐름 신호가 흐름 위치 3에 혼입된 2개의 염기를 나타낼 가능도는 0.999일 수 있고, 흐름 신호가 흐름 위치 3에 혼입된 1개의 염기를 나타낼 가능도는 0.001일 수 있다. 시퀀싱 데이터 세트는 각 흐름 위치에서 복수의 염기 카운트에 대한 가능도를 나타내는 통계적 파라미터를 포함하는 흐름 신호와 함께 희소 행렬로 포맷될 수 있다. 단지 예로서, T-A-C-G의 반복 흐름-사이클 순서를 사용하여 TATGGTCGTCGA (서열식별번호: 15)의 서열로 연장된 프라이머는 도 14a에 표시된 시퀀싱 데이터 세트를 초래할 수 있다. 통계적 파라미터 또는 가능도 값은 예를 들어 시퀀싱 동안 아날로그 신호의 검출 동안 존재하는 노이즈 또는 다른 아티팩트에 기초하여 달라질 수 있다. 일부 실시양태에서, 통계적 파라미터 또는 가능도가 미리 결정된 역치 미만인 경우, 파라미터는 본원에서 추가로 논의된 통계적 분석을 돕기 위해 실질적으로 제로 (즉, 일부 매우 작은 값 또는 무시가능한 값)인 미리 결정된 넌-제로 값으로 설정될 수 있으며, 여기서 진정한 제로 값은 계산적 오류를 발생시킬 수 있거나, 불가능도의 수준, 예를 들어 매우 가능성이 낮은 (0.0001) 및 상상할 수 없는 (0)을 불충분하게 구분할 수 있다.
주어진 서열에 대한 시퀀싱 데이터 세트의 가능도를 나타내는 값은 서열 정렬 없이 시퀀싱 데이터 세트로부터 결정될 수 있다. 예를 들어, 데이터가 주어지면, 가장 가능성이 높은 서열은 도 14b에서 별로 표시된 바와 같이 각 흐름 위치에서 가장 높은 가능도를 갖는 염기 카운트를 선택함으로써 결정될 수 있다 (도 14a에 표시된 동일한 데이터 사용). 그러므로, 프라이머 연장의 서열은 각 흐름 위치에서 가장 가능성이 높은 염기 카운트에 따라 결정될 수 있다: TATGGTCGTCGA (서열식별번호: 15). 이로부터, 역상보체 (즉, 주형 가닥)가 쉽게 결정될 수 있다. 또한, TATGGTCGTCGA (서열식별번호: 15) 서열 (또는 역상보체)이 주어지면, 이 시퀀싱 데이터 세트의 가능도는 각 흐름 위치에서 선택된 가능도의 곱으로 결정될 수 있다.
핵산 분자와 연관된 시퀀싱 데이터 세트는 하나 이상 (예를 들어, 2, 3, 4, 5, 6개 또는 그 이상)의 가능한 후보 서열과 비교될 수 있다. 시퀀싱 데이터 세트 및 후보 서열 사이의 근접 매치 (하기 논의된 바와 같이 매치 스코어에 기초하여)는 시퀀싱 데이터 세트가 밀접하게 매치된 후보 서열과 동일한 서열을 갖는 핵산 분자로부터 발생하였을 가능성이 있음을 나타낸다. 일부 실시양태에서, 시퀀싱된 핵산 분자의 서열은 서열에 대한 유전자좌 (또는 하나 이상의 유전자좌)를 결정하기 위해 참조 서열에 맵핑될 수 있다 (예를 들어 버로우즈-휠러 정렬 (BWA) 알고리즘 또는 다른 적합한 정렬 알고리즘을 사용하여). 상기 논의된 바와 같이, 플로우스페이스의 시퀀싱 데이터 세트는 베이스스페이스로 쉽게 전환될 수 있고 (또는 흐름 순서가 공지된 경우 역도 또한 같음), 맵핑은 플로우스페이스 또는 베이스스페이스에서 수행될 수 있다. 맵핑된 서열에 상응하는 유전자좌 (또는 유전자좌들)는 하나 이상의 변이체 서열과 연관될 수 있으며, 이는 본원에 기재된 분석 방법에 대한 후보 서열 (또는 반수체형 서열)로서 작동할 수 있다. 본원에 기재된 방법의 한 가지 장점은 시퀀싱된 핵산 분자의 서열이 일반적으로 계산적으로 고가인 일부 경우에 정렬 알고리즘을 사용하여 각 후보 서열과 정렬될 필요가 없다는 것이다. 대신, 매치 스코어는 보다 계산적으로 효율적인 작동인 플로우스페이스의 시퀀싱 데이터를 사용하여 후보 서열 각각에 대해 결정될 수 있다.
매치 스코어는 시퀀싱 데이터 세트가 후보 서열을 얼마나 잘 뒷받침하는지를 나타낸다. 예를 들어, 시퀀싱 데이터 세트가 후보 서열과 매치할 가능도를 나타내는 매치 스코어는 후보 서열에 대한 예상 시퀀싱 데이터가 주어지면 흐름 위치의 염기 카운트에 상응하는, 각 흐름 위치에서 통계적 파라미터 (예를 들어, 가능도)를 선택함으로써 결정될 수 있다. 선택된 통계적 파라미터의 곱은 매치 스코어를 제공할 수 있다. 예를 들어, 연장된 프라이머에 대한 도 14a에 표시된 시퀀싱 데이터 세트, 및 TATGGTC A TCGA (서열식별번호: 16)의 후보 프라이머 연장 서열을 가정한다. 도 14c (도 14a에서 동일한 시퀀싱 데이터 세트를 나타냄)는 후보 서열에 대한 트레이스 (속이 찬 원)를 보여준다. 비교로서, TATGGTC G TCGA (서열식별번호: 15) 서열에 대한 트레이스 (도 14b 참조)는 열린 원을 사용하여 도 14c에 표시된다. 시퀀싱 데이터가 제1 후보 서열 TATGGTCATCGA (서열식별번호: 16)와 매치할 가능도를 나타내는 매치 스코어는 서열이 단일 염기 변이에 의해서만 달라진다 하더라도 시퀀싱 데이터가 제2 후보 서열 TATGGTCGTCGA (서열식별번호: 15)와 매치할 가능도를 나타내는 매치 스코어와 실질적으로 상이하다. 도 14c에 표시된 바와 같이, 트레이스 사이의 차이는 흐름 위치 12에서 관찰되고, 적어도 9개의 흐름 위치에 대해 전파된다 (그리고, 시퀀싱 데이터가 추가 흐름 위치에 걸쳐 연장된 경우 잠재적으로 더 길다). 하나 이상의 흐름 사이클에 걸친 이러한 계속된 전파는 "흐름 이동" 또는 "사이클 이동"으로 지칭될 수 있고, 시퀀싱 데이터 세트가 후보 서열과 매치하는 경우 일반적으로 매우 가능성이 낮은 사건이다.
그 후, 각 시퀀싱 데이터 세트 및 후보 서열 (또는 각 후보 서열) 사이의 매치 스코어가 결정될 수 있다. 예를 들어, 시퀀싱 데이터 세트가 주어진 후보 서열과 매치할 가능도 L(Rj│Hi)는 주어진 후보 서열에 대한 각 흐름 위치에서 선택된 염기 카운트의 가능도 (예를 들어, 이의 곱)를 사용하여 결정될 수 있다.
매치 스코어는 시험 시퀀싱 데이터 및/또는 시험 시퀀싱 데이터와 연관된 핵산 분자를 분류하는데 사용될 수 있다. 분류기는 핵산 분자가 변이체 (예를 들어, 후보 서열에 포함된 변이체)를 포함한다는 것, 핵산 분자가 변이체를 포함하지 않는다는 것을 나타낼 수 있거나, 널 호출을 나타낼 수 있다. 널 호출은 시험 시퀀싱 데이터와 연관된 핵산 분자에서 변이체의 존재 또는 부재를 나타내지 않지만, 대신 매치 스코어가 원하는 통계적 신뢰도로 호출을 하는데 사용될 수 없음을 나타낸다. 시험 시퀀싱 데이터 또는 핵산 분자는 예를 들어 매치 스코어가 원하는 신뢰도 역치를 초과하는 경우 변이체를 갖는 것으로 분류될 수 있다. 반대로, 시험 시퀀싱 데이터 또는 핵산 분자는 예를 들어 매치 스코어가 원하는 신뢰도 역치 미만인 경우 변이체를 갖지 않는 것으로 분류될 수 있다.
상기 분석은 2개 이상의 상이한 후보 서열로부터 후보 서열을 선택하기 위해 적용될 수 있다. 시퀀싱 데이터 세트가 각 후보 서열과 매치할 가능도를 나타내는 매치 스코어가 결정될 수 있다. 예를 들어, 해당 흐름 위치에서 후보 서열의 염기 카운트에 상응하는, 시퀀싱 데이터 세트의 각 흐름 위치에서 통계적 파라미터는 각 후보 서열에 대해 선택될 수 있다. 일부 실시양태에서, 이 분석은 후보 서열이 시퀀싱된 시험 핵산 분자에 대한 시퀀싱 데이터 세트를 생성하는데 사용된 동일한 흐름 순서를 사용하여 시퀀싱된다고 가정하여 후보 시퀀싱에 대한 예상 시퀀싱 데이터를 생성하는 것을 포함한다. 이는 후보 서열로 핵산 분자를 시퀀싱함으로써, 또는 후보 서열 및 흐름 순서에 기초하여 인실리코에서 후보 시퀀싱 데이터 세트를 생성함으로써 생성될 수 있다. 예시적인 후보 시퀀싱 데이터 세트는 하기 표시된 도 14c의 시험 데이터 시퀀싱 데이터 세트이며, 제1 후보 서열 (TATGGTCATCGA (서열식별번호: 16))은 속이 찬 원 트레이스에 상응하고, 제2 후보 서열 (TATGGTCGTCGA (서열식별번호: 15))은 열린 원 트레이스에 상응한다. 일부 실시양태에서, 예를 들어, 매치 스코어가 2개 이상의 상이한 후보 서열에 대해 결정되는 경우, 시험 시퀀싱 데이터 또는 핵산 분자는 2개 이상의 후보 서열 중 하나의 변이체를 갖는 것으로, 2개 이상의 후보 서열 중 하나의 변이체를 갖지 않는 것으로 분류될 수 있거나, 또는 2개 이상의 후보 서열 간에 널 호출이 수행될 수 있다 (예를 들어, 후보 서열 중 임의의 것에 대해 호출이 수행될 수 없는 경우, 또는 매치 스코어가 동일한 유전자좌에서 2개 이상의 상이한 변이체를 나타내는 경우).
시퀀싱 데이터 세트에 대한 매치 스코어가 후보 서열에 대해 결정되면, 짧은 유전자 변이체를 갖는 후보 서열은 매치 스코어에 기초하여 선택될 수 있다 (예를 들어, 2개 이상의 후보 서열 중에서 가장 높은 가능도 매치로 매치 스코어를 초래하는 후보 서열). 짧은 유전자 변이체를 갖는 서열 핵산 분자로부터 발생하는 시퀀싱 데이터는 짧은 유전자 변이체를 갖는 후보 서열과 매치할 것이고, 해당 후보 서열이 선택될 수 있지만, 거부된 (또는 비선택된) 후보 서열(들)은 더 적은 가능도 매치로 표시된 바와 같은 짧은 유전자 변이체를 포함하지 않는다 (해당 후보 서열에 대한 결정된 매치 스코어에 기초하여). 비선택된 후보 서열은 2개 이상의 연속 흐름 위치 또는 2개 이상의 비연속 흐름 위치일 수 있는 2개 이상의 흐름 위치에서 선택된 후보 서열 (이는 시퀀싱된 핵산 분자 시퀀싱 데이터 세트와 가장 잘 매치함)과 상이할 수 있다. 일부 실시양태에서, 비선택된 후보 서열은 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 또는 10개 이상의 흐름 위치에서 선택된 후보 서열과 상이하다. 일부 실시양태에서, 비선택된 후보 서열은 1개 이상, 2개 이상, 3개 이상, 4개 이상, 또는 5개 이상의 흐름 사이클에 걸쳐 선택된 후보 서열과 상이하다. 일부 실시양태에서, 비선택된 후보 서열은 X개의 염기 위치에서 선택된 후보 서열과 상이하며, 여기서 서열 핵산 분자와 연관된 시퀀싱 데이터 세트는 (X+2)개 이상의 흐름 위치에서 비선택된 후보 서열과 상이하다. 선택된 및 비선택된 후보 서열 사이의 상이한 흐름 위치의 수의 증가 (여기서 시퀀싱된 핵산 분자 시퀀싱 데이터 세트는 선택된 후보 서열과 가장 잘 매치함)는 시퀀싱된 핵산 분자 시퀀싱 데이터 세트가 비선택된 후보 서열로 핵산 분자를 시퀀싱함으로써 야기될 가능도를 낮춘다.
시퀀싱된 핵산 분자에 대한 시퀀싱 데이터 세트가 비선택된 후보 서열과 매치할 가능도는 바람직하게는 0.05 미만, 0.04 미만, 0.03 미만, 0.02 미만, 0.01 미만, 0.005 미만, 0.001 미만, 0.0005 미만, 또는 0.0001 미만과 같이 낮다. 시퀀싱된 핵산 분자에 대한 시퀀싱 데이터 세트가 선택된 후보 서열과 매치할 가능도는 바람직하게는 0.95 초과, 0.96 초과, 0.97 초과, 0.98 초과, 0.99 초과, 0.995 초과, 또는 0.999 초과와 같이 높다.
시험 샘플에서 짧은 유전자 변이체를 검출하는 방법은 일부 실시양태에서 복수의 시험 시퀀싱 데이터 세트를 분석하는 단계를 포함할 수 있으며, 각 시험 시퀀싱 데이터 세트는 시험 샘플에서 별도의 시험 핵산 분자와 연관된다. 핵산 분자는 예를 들어 핵산 분자의 서열이 참조 서열에 정렬된 경우 유전자좌에서 적어도 부분적으로 중첩된다. 핵산 분자의 적어도 일부는 상이한 시퀀싱 시작 위치 (유전자좌에 대해)를 가질 수 있으며, 이는 서열 내의 주어진 염기에 대한 상이한 흐름 위치 및/또는 상이한 흐름 순서 컨텍스트를 초래한다. 이러한 방식으로, 동일한 후보 서열은 복수의 시험 시퀀싱 데이터 세트를 분석하는데 사용될 수 있다. 각 후보 서열에 대해, 복수의 시험 시퀀싱 데이터 세트가 후보 서열과 매치할 가능도를 나타내는 매치 스코어가 결정될 수 있고, 가장 높은 가능도 매치를 갖는 후보 서열 (및 그러므로, 짧은 유전자 변이체 포함)이 선택될 수 있다. 복수의 시험 시퀀싱 데이터 세트를 사용하여 짧은 유전자 변이체를 검출하기 위한 예시적인 분석이 도 15a-15d에 표시된다. 도 15a에서, 3개의 시퀀싱된 시험 핵산 분자에 상응하는 서열 (R1, R2 및 R3, 각각은 연장된 프라이머의 서열로 표시됨)은 2개의 후보 서열 (H1 및 H2)과 연관된 중첩 유전자좌에서 참조 서열에 정렬된다. 도 15b, 도 15c 및 도 15d는 H1 (닫힌 원) 또는 H2 (열린 원)의 염기에 상응하는 시퀀싱 데이터 세트의 각 흐름 위치에서 선택된 통계적 파라미터와 함께 각각 R1, R2 및 R3에 대한 예시적인 시퀀싱 데이터 세트를 보여준다.
짧은 유전자 변이체의 존재 (또는 아이덴티티) 또는 부재는 하나 이상의 결정된 매치 스코어를 사용하여 시험 샘플에 대해 호출될 수 있다. 일부 실시양태에서, 예를 들어, 변이체를 갖는 것으로 분류된 단일 핵산 분자 (또는 연관된 시험 시퀀싱 데이터 세트)는 예를 들어 매치 스코어가 원하는 또는 미리 설정된 신뢰도로 후보 서열과의 매치를 나타내는 경우, 변이체의 존재, 아이덴티티 또는 부재를 호출하기에 충분할 수 있다. 일부 실시양태에서, 미리 결정된 수 (예를 들어, 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상 등)의 핵산 분자 (또는 핵산 분자와 연관된 시험 시퀀싱 데이터 세트)는 변이체가 시험 샘플에 대해 호출되기 전에 변이체를 갖는 것으로 분류된다. 일부 실시양태에서, 핵산 분자 (또는 핵산 분자와 연관된 시험 시퀀싱 데이터 세트)의 수는 매치 스코어에 따라 동적으로 선택되고; 예를 들어, 높은 신뢰도 매치 스코어로 변이체를 갖는 것으로 분류된 단일 핵산 분자는 변이체를 호출하는데 사용될 수 있거나, 또는 더 낮은 신뢰도 매치 스코어로 변이체를 갖는 것으로 분류된 2개 이상의 핵산 분자는 변이체를 호출하는데 사용될 수 있다.
임의로, 시퀀싱 데이터 세트에 대한 별도의 매치 스코어는 복수의 시험 시퀀싱 데이터 세트에 대한 매치 스코어를 결정하기 위해 집합적으로 분석된다. 예를 들어, 각 후보 서열에 대한 각 시험 시퀀싱 데이터 세트에 대한 매치 스코어가 본원에 기재된 방법을 사용하여 결정되면, 복수의 시험 시퀀싱 데이터 세트가 후보 서열과 매치할 가능도를 나타내는 매치 스코어는 공지된 베이지안 방법을 사용하여, 예를 들어 게놈 분석 툴키트 (Genome Analysis Toolkit; GATK)에 포함된 하플로타입콜러(HaplotypeCaller) 알고리즘을 사용하여 결정될 수 있고, 가장 높은 가능도 매치를 갖는 후보 서열이 선택될 수 있다. 예를 들어, 문헌 [DePristo et al., A framework for variation discovery and genotyping using next-generation DNA sequencing data, Nature Genetics 43, 491-498 (2011)]; 및 [Poplin et al., Scaling accurate genetic variant discovery to tens of thousands of samples, bioRxiv, www.biorxiv.org/content/10.1101/201178v3 (July 24, 2018)]; [Hwang et al., Systematic comparison of variant calling pipelines using gold standard personal exome variants, Scientific Reports, vol. 5, no. 17875 (2015)]을 참조하며; 이들 각각의 내용은 본원에 포함된다.
가상의 실시예 1 - SNP 검출. 가상의 핵산 분자는 흐름-사이클 순서 A-T-G-C에 따라 별도의 뉴클레오티드 흐름에 제공된 비종결 뉴클레오티드를 사용하여 시퀀싱되며, 결과적으로 도 14a에 표시된 시험 시퀀싱 데이터 세트가 생성된다. 시퀀싱 데이터 세트의 각 값은 각 흐름 위치에서 표시된 염기 카운트가 올바를 가능도를 나타낸다. 시퀀싱 데이터 세트에 기초하여, 예비 서열은 TATGGTCGTCGA (서열식별번호: 15)로 결정되며, 이는 참조 게놈의 유전자좌에 맵핑된다. 참조 게놈의 유전자좌는 잠재적인 반수체형 서열 TATGGTCGTCGA (서열식별번호: 15) (H1) 및 TATGGTCATCGA (서열식별번호: 16) (H2)과 연관된다. 각 흐름 위치에 대한 반수체형 서열의 염기 카운트와 연관된 가능도 값이 각 반수체형에 대해 선택된다. 각 반수체형이 주어진 시퀀싱 데이터 세트의 가능도는 각 흐름 위치에 대한 반수체형 서열의 염기 카운트와 연관된 가능도 값을 곱함으로써 결정된다. 시퀀싱 데이터 세트의 로그 가능도는 H1이 올바른 서열인 경우 -0.015이고, 시퀀싱 데이터 세트의 로그 가능도는 H2가 올바른 서열인 경우 -27.008이다. 그러므로, 이 핵산 분자에 대해 H1의 서열이 선택된다.
가상의 실시예 2 - Indel 검출. 가상의 핵산 분자는 흐름-사이클 순서 A-T-G-C에 따라 별도의 뉴클레오티드 흐름에 제공된 비종결 뉴클레오티드를 사용하여 시퀀싱되며, 결과적으로 도 16에 표시된 시험 시퀀싱 데이터 세트가 생성된다. 시퀀싱 데이터 세트의 각 값은 각 흐름 위치에서 표시된 염기 카운트가 올바를 가능도를 나타낸다. 시퀀싱 데이터 세트에 기초하여 (즉, 각 흐름 위치에서 가장 가능성이 높은 염기 카운트를 선택함으로써), 예비 서열은 TATGGTCGATCG (서열식별번호: 22)로 결정되며, 이는 참조 게놈의 유전자좌에 맵핑된다. 참조 게놈의 유전자좌는 잠재적인 반수체형 서열 TATGGTCG-TCGA (서열식별번호: 21) (H1) 및 TATGGTCGATCG (서열식별번호: 22) (H2)과 연관된다. 각 흐름 위치에 대한 반수체형 서열의 염기 카운트와 연관된 가능도 값이 각 반수체형에 대해 선택된다. 각 반수체형이 주어진 시퀀싱 데이터 세트의 가능도는 각 흐름 위치에 대한 반수체형 서열의 염기 카운트와 연관된 가능도 값을 곱함으로써 결정된다. 시퀀싱 데이터 세트의 로그 가능도는 H1이 올바른 서열인 경우 -24.009이고, 시퀀싱 데이터 세트의 로그 가능도는 H2가 올바른 서열인 경우 -0.015이다. 그러므로, 이 핵산 분자에 대해 H2의 서열이 선택된다.
제2 (즉, "어두운") 영역의 변이체로 인한 신호 차이가 제3 영역 (즉, 뉴클레오티드의 혼입이 검출되는 영역)으로 전파될 때, 제2 영역의 변이체로부터 기인된 흐름 이동은 제3 영역에서 검출될 수 있다. 상기 논의된 가상의 예에서, 예를 들어 사이클 3은 "어두운" 또는 제2 영역 (이는 임의의 수의 사이클일 수 있음)으로 간주될 수 있고, 사이클 4 및 사이클 5는 제3 영역 (이는 또한 임의의 수의 사이클일 수 있음)일 수 있다.
전환의 검출
전환은 퓨린을 피리미딘으로 또는 그 반대로 교환하는 SNP이다. 본원에 기재된 방법은 커플링된 시퀀싱 리드 쌍의 제2 영역 내의 전환의 검출에 특히 민감하도록 구현될 수 있다. 예를 들어, 퓨린 (A+G)과 피리미딘 (C+T)의 교대 뉴클레오티드 쌍을 포함하는 제2 영역 흐름 순서를 사용한 제2 영역을 통한 프라이머 연장은 전환에 고도로 민감할 것이다.
예를 들어, 폴리뉴클레오티드에서 염기 전환의 존재를 검출하기 위한 커플링된 시퀀싱 리드 쌍은 하기 단계에 의해 생성될 수 있다: (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계; (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; (c) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계; 및 (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계. 전환은 제2 영역을 통해 연장된 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고도 제2 영역에서 검출될 수 있다.
전환 검출을 위해 생성된 커플링된 시퀀싱 리드 쌍은 하기 단계에 의해 전환을 검출하는데 사용될 수 있다: 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 (또는 제3 영역 또는 이의 일부)를 맵핑하는 단계; 제2 영역 흐름 순서, 제3 영역 흐름 순서 및 참조 서열을 사용하여 제3 영역 또는 이의 일부 (또는 제1 영역 또는 이의 일부)에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및 제3 영역에 대한 예상 참조 시퀀싱 데이터 및 제3 영역에 대한 생성된 시퀀싱 데이터 사이의 차이에 기초하여 염기 전환의 존재를 검출하는 단계.
제3 영역 또는 이의 일부 (또는 제1 영역 또는 이의 일부)에 대한 예상 참조 시퀀싱 데이터는 예를 들어 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역에 대한 참조 서열을 사용하여 결정될 수 있다. 일부 실시양태에서, 제3 영역에 대한 예상 참조 시퀀싱 데이터는 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역의 서열과 연관된 생성된 서열 데이터를 사용하여 결정되며, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터는 커플링된 시퀀싱 리드 쌍이 생성될 때 생성된 동일한 또는 상이한 서열 데이터이다.
변이체 검증
복수의 적어도 부분적으로 중첩되는 커플링된 시퀀싱 리드는 변이체 상태를 검증하는데 사용될 수 있다. 시퀀싱 오류는 연장 프라이머로의 뉴클레오티드 혼입의 정상적인 과정 동안 때때로 발생할 수 있기 때문에 (예를 들어, 폴리머라제 오류 또는 리드 오류로 인해), 변이체 검증은 위양성 또는 위음성 보고를 최소화하는데 도움이 될 수 있다. 또한, 본원에 기재된 방법의 민감도는 제2 영역을 통해 프라이머를 연장할 때 사용되는 변이체 및 흐름 순서의 컨텍스트에 따라 달라질 수 있다. 따라서, 위양성 또는 위음성 오류를 최소화하기 위해, 중첩되거나 적어도 부분적으로 중첩되는 커플링된 시퀀싱 리드 쌍은 비교되어 변이체를 검증할 수 있다. 변이체를 검증하는데 사용되는 복수의 커플링된 시퀀싱 리드 쌍은 상이한 시작 포인트 (예를 들어, 상이한 제1 영역 시작 포인트, 상이한 제2 영역 시작 포인트, 및/또는 상이한 제3 영역 시작 포인트)를 포함할 수 있거나, 상이한 제2 영역 흐름 순서를 사용하여 생성될 수 있다.
시험 관심 변이체가 선택될 수 있고, 복수의 중첩 커플링된 시퀀싱 리드 쌍이 분석되어 커플링된 시퀀싱 리드 쌍 내에서 시험 변이체의 상태 (예를 들어, 변이체가 존재 또는 부재하는지 여부)를 결정한다. 중첩 커플링된 시퀀싱 리드 쌍은 시험 변이체의 유전자좌에 상응하는 유전자좌를 포함한다. 일부 실시양태에서, 시험 변이체는 커플링된 시퀀싱 리드 쌍의 적어도 일부의 제1 영역 내에 있다. 일부 실시양태에서, 시험 변이체는 커플링된 시퀀싱 리드 쌍의 적어도 일부의 제2 영역 내에 있다. 일부 실시양태에서, 시험 변이체는 커플링된 시퀀싱 리드 쌍의 적어도 일부의 제3 영역 내에 있다.
시험 변이체가 유전자좌에 존재 또는 부재하는지 여부에 대한 호출을 수행하기 위해 관용 역치가 선택될 수 있다. 미리 결정된 역치가 시험 변이체를 식별하는 것보다 더 많은 복수의 커플 시퀀싱 리드 쌍이 시험 변이체를 양성으로 식별하는 경우, 예를 들어 시험 변이체는 양성으로 호출된다. 역치는 위험 관용에 의해 원하는 대로 설정될 수 있다. 예를 들어, 관용 역치는 시험 변이체를 식별하는 커플링된 시퀀싱 리드 쌍의 60% 이상, 70% 이상, 80% 이상, 90% 이상, 또는 95% 이상일 수 있다.
도 17은 시험 변이체의 상태를 결정하기 위해 커플링된 시퀀싱 리드 쌍을 비교하는 것에 대한 예시적인 개략도를 예시한다. 복수의 중첩 커플링된 시퀀싱 리드 쌍 (1402)은 참조 서열 (1404)에 정렬된다. 유전자좌 (1406)에서, 5개의 중첩 커플링된 시퀀싱 리드 쌍 중 4개는 커플링된 시퀀싱 리드 쌍 중 하나에서 식별되지 않은 변이체의 식별을 허용하였다. 구체적으로, 커플링된 시퀀싱 리드 쌍 (1408, 1410, 1414 및 1416)은 각각 유전자좌 (1418, 1420, 1424 및 1426)에서 식별된 변이체를 포함한다. 각 커플링된 시퀀싱 리드 쌍에서 변이체의 유전자좌는 유전자좌 (1406)에서 참조 서열 (1404)과 정렬한다. 커플링된 시퀀싱 리드 쌍 (1412)은 유전자좌 (1422)에서 변이체를 식별하지 않았다 (예를 들어, 시퀀싱 리드 오류로 인해 또는 커플링된 시퀀싱 리드 쌍 (1412)을 생성하는데 사용된 흐름 순서 및 제2 영역을 갖는 변이체의 컨텍스트로 인해).
컨센서스 서열의 구축 또는 검증
본원에 기재된 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍은 커플 시퀀싱 리드 쌍을 어셈블리함으로써 하나 이상의 컨센서스 서열을 생성하는데 사용될 수 있다. 페어드-엔드 시퀀싱은 컨센서스 서열을 어셈블리하는데 이전에 사용되었지만, 폴리뉴클레오티드의 시퀀싱된 말단 사이의 영역에 대해 이용가능한 제한된 정보는 빈번하게 잘못 정렬된 서열을 갖는 더 낮은 품질의 컨센서스 서열을 초래한다. 예를 들어 문헌 [Zerbino et al., Velvet: Algorithms for de novo short read assembly using de Bruinn graphs, Genome Research, vol. 18, pp. 821-820 (2008)]을 참조하며, 이는 모든 목적을 위해 본원에 참조로 포함된다. 본원에 기재된 방법은 시퀀싱된 제1 영역 및 제3 영역 사이의 시퀀싱되지 않은 제2 영역으로부터 실질적으로 더 많은 정보가 추출되도록 허용한다. 이 추가 정보는 보다 강력하고 정확한 컨센서스 서열을 허용한다.
한 예에서, 하나 이상의 컨센서스 서열은 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 어셈블리된다. 거리 정보는 본원에 기재된 바와 같이 결정될 수 있다. 한 예에서, 거리 정보는 제2 영역 흐름 순서 (또는 제2 영역 흐름 순서와 연관된 정보) 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정된다. 제2 영역에서의 염기의 확률 분포는 예를 들어 게놈 전반에 걸쳐 가정된 염기의 분포일 수 있거나, 제1 영역 또는 제3 영역의 맵핑된 유전자좌에 기초하여 보다 국소화된 확률일 수 있다. 제2 영역 흐름 순서와 연관된 정보는 예를 들어 제2 영역을 통해 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수일 수 있다. 예로서, 반복 사이클에서 3-염기 흐름 단계를 사용하여 제2 영역 내에서 프라이머를 연장하고 (예를 들어, (A가 아님)-(C가 아님)-(T가 아님)-(G가 아님)의 사이클 단계를 사용하고, 각 사이클 단계는 3개의 다른 염기를 포함함), 게놈 전체와 대략적으로 동일한 제2 영역의 염기의 분포를 가정하면, 프라이머는 사이클의 각 단계에 대해 대략 4.7개의 염기만큼 연장될 것으로 예상된다. 그러므로, 제2 영역의 길이는 제2 영역 흐름 순서에서 단계의 수의 4.7배로 근사화될 수 있다.
일부 실시양태에서, 거리 정보는 제2 영역에 대한 예상 참조 시퀀싱 데이터로부터 파생된다. 본원에서 논의된 바와 같이, 제2 영역에 대한 예상 참조 시퀀싱 데이터는 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정될 수 있다. 폴리뉴클레오티드의 제1 또는 제3 영역이 참조 서열에 맵핑되면, 예상 서열 길이를 포함하는 예상 서열 정보가 결정되며, 이는 폴리뉴클레오티드의 제1 영역 및 제3 영역 사이의 길이를 제공한다.
커플링된 시퀀싱 리드 쌍은 하나 이상의 컨센서스 서열 또는 하나 이상의 컨센서스 서열의 일부를 검증하는데 사용될 수 있다. 컨센서스 서열 어셈블리는 이용가능한 데이터가 주어지면 다중 가능한 서열 어셈블리를 초래할 수 있고, 이들 가능한 서열 중 전통적인 페어드-엔드 시퀀싱 데이터를 사용하여 올바른 컨센서스 서열을 선택하는 것은 어려울 수 있다. 추가 정보가 커플링된 시퀀싱 리드 쌍의 제2 영역으로부터 추출될 수 있기 때문에, 본원에 기재된 방법을 사용한 컨센서스 서열 검증이 더 강력하다. 컨센서스 서열을 검증하기 위해, 제1 영역 또는 이의 일부 (또는 제3 영역 또는 이의 일부)가 선택된 컨센서스 서열에 맵핑될 수 있다. 다른 영역 또는 이의 일부 (즉, 제1 영역 또는 이의 일부가 맵핑된 경우 제3 영역 또는 이의 일부, 또는 제3 영역 또는 이의 일부가 맵핑된 경우 제1 영역 또는 이의 일부)에 대한 예상 시퀀싱 데이터. 예상 시퀀싱 데이터는 예를 들어 본원에 기재된 바와 같이 결정될 수 있다. 한 예에서, 예상 시퀀싱 데이터는 제2 영역 흐름 순서, 선택된 컨센서스 서열, 및 제1 영역 흐름 순서 (예상 시퀀싱 데이터가 제1 영역 또는 이의 일부에 대한 것인 경우) 또는 제3 영역 흐름 순서 (예상 시퀀싱 데이터가 제3 영역 또는 이의 일부에 대한 것인 경우)를 사용하여 결정된다. 그 후, 예상 시퀀싱 데이터는 상응하는 영역에서 커플링된 시퀀싱 리드 쌍에 대한 생성된 시퀀싱 데이터와 비교되어 컨센서스 서열 부분을 검증할 수 있다. 생성된 시퀀싱 데이터와 매치하는 예상 시퀀싱 데이터는 컨센서스 서열 부분이 올바르게 어셈블리되었음을 나타낸다. 생성된 시퀀싱 데이터와 매치하지 않는 예상 시퀀싱 데이터는 컨센서스 서열 부분이 틀리게 어셈블리되었음을 나타낸다.
일부 실시양태에서, 하나 초과의 컨센서스 서열이 구축 또는 검증된다. 예를 들어, 특정 유기체는 배수체이다 (예를 들어, 건강한 인간은 이배체 유기체이고, 각 염색체의 2개의 카피를 갖는다 (남성 인간의 성염색체 제외). 하나 이상의 염색체 카피에 상응하는 컨센서스 서열이 어셈블리될 수 있다 (예를 들어, 컨센서스 서열은 인간 서열의 각 염색체 쌍에 대해 어셈블리될 수 있음). 커플링된 시퀀싱 리드 쌍을 배수체 유기체의 상응하는 염색체에 할당하는 공정은 반수체형 유형화(haplotyping)로 지칭될 수 있다. 본원에 기재된 방법은 반수체형 유형화의 정확도 또는 효율을 개선하는데 사용될 수 있다. 예를 들어, 시험 변이체는 본원에 기재된 커플링된 시퀀싱 리드 쌍의 제2 영역으로부터의 정보를 사용하여 제1 염색체 또는 제2 염색체 (또는 배수체 유기체로부터의 다른 추가 염색체)와 연관될 수 있다.
시스템, 디바이스 및 보고서
도 1 내지 17을 참조하여 기재된 것을 포함하여 상기 기재된 작동은 임의로 도 18에 도시된 구성성분에 의해 구현된다. 다른 공정, 예를 들어 상기 기재된 작동의 전부 또는 일부의 조합 또는 하위조합이 도 18에 도시된 구성성분에 기초하여 구현될 수 있다는 것은 관련 기술분야의 통상의 기술자에게 명백할 것이다. 또한, 상기 방법, 기술, 시스템 및/또는 디바이스가 도 18에 도시된 구성성분에 의해 구현되고/거나 이에 의해 제공되는지 여부에 관계 없이 본원에 기재된 방법, 기술, 시스템 및 디바이스가 전체적으로 또는 부분적으로 서로 조합될 수 있는 방법이 관련 기술분야의 통상의 기술자에게 명백할 것이다.
도 18은 한 실시양태에 따른 컴퓨팅 디바이스의 한 예를 예시한다. 디바이스 (1800)는 네트워크에 연결된 호스트 컴퓨터일 수 있다. 디바이스 (1800)는 클라이언트 컴퓨터 또는 서버일 수 있다. 도 18에 나타낸 바와 같이, 디바이스 (1800)는 임의의 적합한 유형의 마이크로프로세서-기반 디바이스, 예컨대 개인용 컴퓨터, 워크스테이션, 서버, 또는 핸드헬드 컴퓨팅 디바이스 (휴대용 전자 디바이스), 예컨대 전화 또는 태블릿일 수 있다. 디바이스는 예를 들어 프로세서 (1810), 입력 디바이스 (1820), 출력 디바이스 (1830), 스토리지 (1840), 및 통신 디바이스 (1860) 중 하나 이상을 포함할 수 있다. 입력 디바이스 (1820) 및 출력 디바이스 (1830)는 일반적으로 상기 기재된 것들에 상응할 수 있고, 컴퓨터와 연결가능하거나 통합될 수 있다.
입력 디바이스 (1820)는 입력을 제공하는 임의의 적합한 디바이스, 예컨대 터치 스크린, 키보드 또는 키패드, 마우스, 또는 음성-인식 디바이스일 수 있다. 출력 디바이스 (1830)는 출력을 제공하는 임의의 적합한 디바이스, 예컨대 터치 스크린, 햅틱 디바이스, 또는 스피커일 수 있다.
스토리지 (1840)는 저장을 제공하는 임의의 적합한 디바이스, 예컨대 RAM, 캐시, 하드 드라이브, 또는 제거가능한 저장 디스크를 포함하는 전기, 자기 또는 광학 메모리일 수 있다. 통신 디바이스 (1860)는 네트워크를 통해 신호를 전송 및 수신할 수 있는 임의의 적합한 디바이스, 예컨대 네트워크 인터페이스 칩 또는 디바이스를 포함할 수 있다. 컴퓨터의 구성성분은 임의의 적합한 방식으로, 예컨대 물리적 버스를 통해 또는 무선으로 연결될 수 있다.
스토리지 (1840)에 저장되고 프로세서 (1810)에 의해 실행될 수 있는 소프트웨어 (1850)는 예를 들어 본 개시내용의 기능성을 구현하는 프로그래밍을 포함할 수 있다 (예를 들어, 상기 기재된 바와 같은 디바이스에서 구현된 바와 같이).
소프트웨어 (1850)는 또한 명령 실행 시스템, 장치 또는 디바이스로부터 소프트웨어와 연관된 명령을 페치하고 명령을 실행할 수 있는, 명령 실행 시스템, 장치 또는 디바이스, 예컨대 상기 기재된 것들에 의해 또는 이와 관련하여 사용하기 위한 임의의 비일시적 컴퓨터-판독가능 저장 매체 내에 저장 및/또는 전송될 수 있다. 본 개시내용의 문맥에서, 컴퓨터-판독가능 저장 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그래밍을 함유 또는 저장할 수 있는 임의의 매체, 예컨대 스토리지 (1840)일 수 있다.
소프트웨어 (1850)는 또한 명령 실행 시스템, 장치 또는 디바이스로부터 소프트웨어와 연관된 명령을 페치하고 명령을 실행할 수 있는, 명령 실행 시스템, 장치 또는 디바이스, 예컨대 상기 기재된 것들에 의해 또는 이와 관련하여 사용하기 위한 임의의 전송 매체 내에서 전파될 수 있다. 본 개시내용의 문맥에서, 전송 매체는 명령 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그래밍을 통신, 전파 또는 전송할 수 있는 임의의 매체일 수 있다. 전송 판독가능 매체는 전자, 자기, 광학, 전자기 또는 적외선 유선 또는 무선 전파 매체를 포함할 수 있지만 이에 제한되지는 않는다.
디바이스 (1800)는 임의의 적합한 유형의 상호연결된 통신 시스템일 수 있는 네트워크에 연결될 수 있다. 네트워크는 임의의 적합한 통신 프로토콜을 구현할 수 있고, 임의의 적합한 보안 프로토콜에 의해 보장될 수 있다. 네트워크는 네트워크 신호의 전송 및 수신을 구현할 수 있는 임의의 적합한 배열의 네트워크 링크, 예컨대 무선 네트워크 연결, T1 또는 T3 라인, 케이블 네트워크, DSL, 또는 전화선을 포함할 수 있다.
디바이스 (1800)는 네트워크 상에서 작동하기에 적합한 임의의 운영 체제를 구현할 수 있다. 소프트웨어 (1850)는 임의의 적합한 프로그래밍 언어, 예컨대 C, C++, 자바 또는 파이썬으로 작성될 수 있다. 다양한 실시양태에서, 본 개시내용의 기능성을 구현하는 애플리케이션 소프트웨어는 예를 들어, 상이한 구성으로, 예컨대 클라이언트/서버 배열에서 또는 웹-기반 애플리케이션 또는 웹 서비스와 같은 웹 브라우저를 통해 전개될 수 있다.
본원에 기재된 방법은 임의로 분석 방법을 사용하여 결정된 정보를 보고하는 단계 및/또는 분석 방법을 사용하여 결정된 정보를 함유하는 보고서를 생성하는 단계를 추가로 포함한다. 예를 들어, 일부 실시양태에서, 방법은 대상체로부터 유래된 폴리뉴클레오티드 (예를 들어, 대상체의 게놈 내의)의 변이체의 식별과 관련된 내용을 함유하는 보고서를 보고 또는 생성하는 단계를 추가로 포함한다. 보고된 정보 또는 보고서 내의 정보는 예를 들어 참조 서열에 맵핑된 커플링된 시퀀싱 리드 쌍의 유전자좌, 검출된 변이체 (예컨대 검출된 구조적 변이체 또는 검출된 SNP), 하나 이상의 어셈블리된 컨센서스 서열 및/또는 하나 이상의 어셈블리된 컨센서스 서열에 대한 검증 통계와 연관될 수 있다. 수신자, 예를 들어 임상의, 대상체, 또는 연구자에게 보고서가 배포될 수 있거나 이들에게 정보가 보고될 수 있다.
예시적인 실시양태
하기 실시양태는 예시적이며, 청구된 발명의 범위를 제한하도록 의도되지 않는다.
실시양태 1. 하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
(a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계;
(b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
(c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제2 영역을 통한 프라이머의 연장은 단계 (b)에서의 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및
(d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
실시양태 2. 실시양태 1에 있어서, 제2 영역을 통한 프라이머의 연장이 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 방법.
실시양태 3. 실시양태 1 또는 2에 있어서, 제1 영역의 시퀀싱 데이터를 제3 영역의 시퀀싱 데이터와 연관시키는 것을 추가로 포함하는 방법.
실시양태 4. 하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
(a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계;
(b) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계; 및
(c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
실시양태 5. 실시양태 4에 있어서, 제1 영역이 프라이머에 의해 표적화된 자연 발생 서열을 포함하는 것인 방법.
실시양태 6. 실시양태 1-5 중 어느 하나에 있어서, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되는 것인 방법.
실시양태 7. 실시양태 1-6 중 어느 하나에 있어서, 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부가 비표지된 뉴클레오티드인 방법.
실시양태 8. 실시양태 1-6 중 어느 하나에 있어서, 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드가 비표지된 뉴클레오티드인 방법.
실시양태 9. 실시양태 1-8 중 어느 하나에 있어서, 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 방법.
실시양태 10. 실시양태 1-9 중 어느 하나에 있어서, 제2 영역 흐름 순서가 5개 이상의 뉴클레오티드 흐름을 포함하는 것인 방법.
실시양태 11. 실시양태 10에 있어서, 뉴클레오티드 흐름 각각이 단일 뉴클레오티드 염기를 포함하는 것인 방법.
실시양태 12. 실시양태 10 또는 11에 있어서, 제2 영역 흐름 순서가 무작위 시퀀싱 시작 위치의 5% 이상에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도하는 것인 방법.
실시양태 13. 실시양태 10-12 중 어느 하나에 있어서, 제2 영역 흐름 순서가 흐름 당 0.6 이상의 염기 혼입 효율을 갖는 것인 방법.
실시양태 14. 실시양태 1-13 중 어느 하나에 있어서, 참조 서열 및 제2 영역 흐름 순서를 사용하여 제2 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계를 추가로 포함하는 방법.
실시양태 15. 실시양태 1-14 중 어느 하나에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함하는 것인 방법.
실시양태 16. 실시양태 15에 있어서, 제3 영역 흐름 순서가 5개 이상의 뉴클레오티드 흐름을 포함하는 것인 방법.
실시양태 17. 실시양태 16에 있어서, 뉴클레오티드 흐름 각각이 단일 뉴클레오티드 염기를 포함하는 것인 방법.
실시양태 18. 실시양태 16 또는 17에 있어서, 제3 영역 흐름 순서가 무작위 시퀀싱 시작 위치의 5% 이상에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도하는 것인 방법.
실시양태 19. 실시양태 16-18 중 어느 하나에 있어서, 제3 영역 흐름 순서가 흐름 당 0.6 이상의 염기 혼입 효율을 갖는 것인 방법.
실시양태 20. 실시양태 1-19 중 어느 하나에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터가 제3 영역에 대해 생성된 동일한 또는 상이한 시퀀싱 데이터인 방법.
실시양태 21. 실시양태 14-20 중 어느 하나에 있어서, 제2 영역 또는 제3 영역에 대한 예상 참조 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
실시양태 22. 실시양태 14-21 중 어느 하나에 있어서, 제2 영역 흐름 순서 및 제2 영역에 대한 제2 참조 서열을 사용하여 제2 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제2 참조 서열이 시험 변이체를 포함하는 것인 방법.
실시양태 23. 실시양태 22에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하는 것인 방법.
실시양태 24. 실시양태 22에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터가 제3 영역에 대해 생성된 동일한 또는 상이한 시퀀싱 데이터인 방법.
실시양태 25. 실시양태 22-24 중 어느 하나에 있어서, 제2 영역 또는 제3 영역에 대한 예상 참조 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
실시양태 26. 하기를 포함하는, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법:
실시양태 1-25 중 어느 하나의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; 및
제2 영역의 길이를 나타내는 거리 정보를 사용하여 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계.
실시양태 27. 하기를 포함하는, 구조적 변이체를 검출하는 방법:
실시양태 1-25 중 어느 하나의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계;
제2 영역의 길이를 나타내는 거리 정보를 사용하여, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부에 대한 참조 서열 내의 예상 유전자좌를 결정하는 단계;
참조 서열에 기초하여 예상 유전자좌에서 서열에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및
맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부의 시퀀싱 데이터를 예상 시퀀싱 데이터와 비교함으로써 구조적 변이체를 검출하는 단계이며, 여기서 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부의 시퀀싱 데이터 및 예상 시퀀싱 데이터 사이의 차이는 구조적 변이체를 나타내는 것인 단계.
실시양태 28. 하기를 포함하는, 구조적 변이체를 검출하는 방법:
실시양태 1-25 중 어느 하나의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계이며, 여기서 맵핑되지 않은 제1 영역 또는 맵핑되지 않은 제3 영역은 참조 서열 내에서 맵핑불가능한 것인 단계.
실시양태 29. 실시양태 28에 있어서, 제2 영역의 길이를 나타내는 예상 거리 정보에 기초하여 참조 서열 내의 구조적 변이체의 유전자좌를 결정하는 단계를 추가로 포함하는 방법.
실시양태 30. 실시양태 27-29 중 어느 하나에 있어서, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부가 참조 서열에 비해 삽입 내에 있는 것인 방법.
실시양태 31. 실시양태 27-29 중 어느 하나에 있어서, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부가 참조 서열에 비해 삽입의 시작 또는 끝을 브릿지하는 것인 방법.
실시양태 32. 하기를 포함하는, 구조적 변이체를 검출하는 방법:
실시양태 1-25 중 어느 하나의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계;
맵핑된 제1 영역 및 맵핑된 제3 영역 사이의 맵핑된 거리 정보를 결정하는 단계; 및
맵핑된 거리 정보를 제2 영역의 예상 거리 정보와 비교함으로써 구조적 변이체를 검출하는 단계이며, 여기서 맵핑된 거리 정보 및 예상 거리 정보 사이의 차이는 구조적 변이체를 나타내는 것인 단계.
실시양태 33. 실시양태 27-32 중 어느 하나에 있어서, 구조적 변이체가 염색체 융합, 역위, 삽입 또는 결실인 방법.
실시양태 34. 실시양태 27-32 중 어느 하나에 있어서, 변이체가 제2 영역 내의 삽입 또는 결실인 방법.
실시양태 35. 실시양태 26-32 중 어느 하나에 있어서, 거리 정보가 제2 영역 흐름 순서와 연관된 정보 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정되는 것인 방법.
실시양태 36. 실시양태 35에 있어서, 제2 영역 흐름 순서와 연관된 정보가 제2 영역을 통해 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수인 방법.
실시양태 37. 실시양태 35 또는 36에 있어서, 제2 영역에서의 염기의 확률 분포가 게놈 내의 염기의 분포로부터 결정되는 것인 방법.
실시양태 38. 실시양태 26-35 중 어느 하나에 있어서, 거리 정보가 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정된 제2 영역에 대한 예상 시퀀싱 데이터로부터 파생되는 것인 방법.
실시양태 39. 실시양태 38에 있어서, 예상 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
실시양태 40. 하기를 포함하는, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법:
실시양태 1-25 중 어느 하나의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 제1 위치 및 제2 위치를 포함하는 2개 이상의 상이한 위치 쌍에서 참조 서열에 맵핑하는 단계; 및
제2 영역의 길이를 나타내는 제1 거리 정보 및 2개 이상의 위치 쌍에 대한 제1 위치 및 제2 위치 사이의 거리를 나타내는 제2 거리 정보를 사용하여 올바른 위치 쌍을 선택하는 단계.
실시양태 41. 실시양태 40에 있어서, 제1 거리 정보가 제2 영역 흐름 순서와 연관된 정보 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정되는 것인 방법.
실시양태 42. 실시양태 41에 있어서, 제2 영역 흐름 순서와 연관된 정보가 제2 영역을 통해 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수인 방법.
실시양태 43. 실시양태 41 또는 42에 있어서, 제2 영역에서의 염기의 확률 분포가 게놈 내의 염기의 분포로부터 결정되는 것인 방법.
실시양태 44. 실시양태 40에 있어서, 제1 거리 정보가 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정된 제2 영역에 대한 예상 시퀀싱 데이터로부터 파생되는 것인 방법.
실시양태 45. 실시양태 44에 있어서, 예상 참조 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
실시양태 46. 하기를 포함하는, 실시양태 1-25 중 어느 하나에 따라 생성된 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 방법이며, 여기서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되는 것인 방법:
제1 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계;
(1) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열, 또는 (2) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터를 사용하여 제3 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터를 결정하는 단계이며, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터는 제3 영역에 대해 생성된 동일한 또는 상이한 서열 데이터인 단계; 및
제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재를 검출하는 단계.
실시양태 47. 실시양태 46에 있어서, 변이체가 구조적 변이체인 방법.
실시양태 48. 실시양태 47에 있어서, 구조적 변이체가 염색체 융합, 역위, 삽입 또는 결실인 방법.
실시양태 49. 실시양태 46에 있어서, 변이체가 단일 뉴클레오티드 다형성 (SNP)인 방법.
실시양태 50. 실시양태 46-49 중 어느 하나에 있어서, 방법이 시험 변이체를 검출하는데 사용되고, 참조 서열이 시험 변이체를 포함하는 것인 방법.
실시양태 51. 실시양태 50에 있어서, 시험 변이체가 제2 폴리뉴클레오티드 내에서 시험 변이체를 식별함으로써 선택되는 것인 방법.
실시양태 52. 실시양태 50 또는 51에 있어서, 검출된 시험 변이체를 폴리뉴클레오티드의 제1 영역 또는 제3 영역에서 시퀀싱된 대립유전자와 연관시키는 것을 포함하는 방법.
실시양태 53. 하기를 포함하는, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 염기 전환의 존재를 검출하기 위한 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
(a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계;
(b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
(c) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계; 및
(d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
실시양태 54. 하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
(a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계;
(b) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계; 및
(c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
실시양태 55. 실시양태 54에 있어서, 제1 영역이 프라이머에 의해 표적화된 자연 발생 서열을 포함하는 것인 방법.
실시양태 56. 실시양태 54 또는 55에 있어서, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되는 것인 방법.
실시양태 57. 하기를 포함하는, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 염기 전환의 존재를 검출하는 방법:
실시양태 54-56 중 어느 하나에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계이며, 여기서 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되는 것인 단계;
제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및
제3 영역에 대한 예상 시퀀싱 데이터 및 제3 영역에 대한 생성된 시퀀싱 데이터 사이의 차이에 기초하여 염기 전환의 존재를 검출하는 단계.
실시양태 58. 실시양태 57에 있어서, 제3 영역에 대한 예상 시퀀싱 데이터가 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역에 대한 참조 서열을 사용하여 결정되는 것인 방법.
실시양태 59. 실시양태 57에 있어서, 제3 영역에 대한 예상 시퀀싱 데이터가 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역의 서열과 연관된 생성된 서열 데이터를 사용하여 결정되고, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터가 제3 영역에 대해 생성된 동일한 또는 상이한 서열 데이터인 방법.
실시양태 60. 실시양태 57-59 중 어느 하나에 있어서, 제3 영역에 대한 예상 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
실시양태 61. 실시양태 1-25 중 어느 하나에 따라 생성된 복수의 커플링된 시퀀싱 리드 쌍을 어셈블리하는 것을 포함하는, 하나 이상의 컨센서스 서열을 생성하는 방법.
실시양태 62. 실시양태 61에 있어서, 하나 이상의 컨센서스 서열이 복수의 커플링된 시퀀싱 리드 쌍의 제2 영역의 길이를 나타내는 거리 정보를 사용하여 어셈블리된 것인 방법.
실시양태 63. 실시양태 61에 있어서, 거리 정보가 제2 영역 흐름 순서와 연관된 정보 및 제2 영역에서의 염기의 확률 분포를 사용하여 결정되는 것인 방법.
실시양태 64. 실시양태 63에 있어서, 제2 영역 흐름 순서와 연관된 정보가 제3 영역을 통해 프라이머를 연장하는데 동시에 사용되는 상이한 유형의 뉴클레오티드 염기의 수인 방법.
실시양태 65. 실시양태 63 또는 64에 있어서, 제2 영역에서의 염기의 확률 분포가 게놈 내의 염기의 분포로부터 결정되는 것인 방법.
실시양태 66. 실시양태 62에 있어서, 거리 정보가 참조 서열 및 제2 영역 흐름 순서를 사용하여 결정된 제2 영역에 대한 예상 참조 시퀀싱 데이터로부터 파생되는 것인 방법.
실시양태 67. 실시양태 66에 있어서, 예상 참조 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
실시양태 68. 실시양태 61-67 중 어느 하나에 있어서, 선택된 컨센서스 서열의 일부와 연관된 선택된 커플링된 시퀀싱 리드를 사용하여 하나 이상의 컨센서스 서열로부터 선택된 컨센서스 서열의 일부를 검증하는 단계이며, 여기서 선택된 커플링된 시퀀싱 리드를 생성할 때 제3 영역을 통해 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되는 것인 단계를 추가로 포함하며, 검증하는 단계는 하기를 포함하는 것인 방법:
제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 선택된 컨센서스 서열의 일부를 사용하여 선택된 커플링된 시퀀싱 리드의 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및
선택된 커플링된 시퀀싱 리드의 제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 생성된 시퀀싱 데이터와 비교함으로써 선택된 컨센서스 서열의 일부를 검증하는 단계.
실시양태 69. 하기를 포함하는, 시험 변이체의 상태를 검증하는 방법:
실시양태 1-25 중 어느 하나에 따라 생성된 복수의 중첩 커플링된 시퀀싱 리드 쌍에 걸쳐 변이체의 상태를 비교하는 단계이며, 복수의 중첩 커플링된 시퀀싱 리드 쌍은 시험 변이체의 유전자좌에 상응하는 유전자좌를 포함하는 것인 단계;
비교에 기초하여 변이체의 상태를 검증하는 단계.
실시양태 70. 실시양태 69에 있어서, 선택된 커플링된 시퀀싱 리드의 제1 영역 또는 제3 영역이 복수의 중첩 커플링된 시퀀싱 리드에서 다른 커플링된 시퀀싱 리드의 적어도 일부의 제2 영역과 중첩되는 것인 방법.
실시양태 71. 실시양태 69 또는 70에 있어서, 선택된 커플링된 시퀀싱 리드의 변이체 상태가 선택된 커플링된 시퀀싱 리드의 제1 영역 또는 제3 영역에서의 변이체를 나타내는 것인 방법.
실시양태 72. 실시양태 71에 있어서, 선택된 커플링된 시퀀싱 리드의 제2 영역이 복수의 중첩 커플링된 시퀀싱 리드에서 다른 커플링된 시퀀싱 리드의 적어도 일부의 제2 영역과 중첩되는 것인 방법.
실시양태 73. 실시양태 71 또는 72에 있어서, 선택된 커플링된 시퀀싱 리드의 변이체 상태가 선택된 커플링된 시퀀싱 리드의 제2 영역에서의 변이체를 나타내는 것인 방법.
실시양태 74. 하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법:
실시양태 1-25 중 어느 하나에 따라 커플링된 시퀀싱 리드 쌍을 생성하는 단계;
폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계; 및
폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재 또는 부재를 호출하는 단계.
실시양태 75. 실시양태 74에 있어서,
폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역에 대한 예상 시퀀싱 데이터와 비교하는 단계가 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터가 폴리뉴클레오티드의 제3 영역에 대한 예상 시퀀싱 데이터와 매치할 가능도를 나타내는 매치 스코어를 결정하는 것을 포함하고;
폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재 또는 부재를 호출하는 단계가 결정된 매치 스코어를 사용하는 것을 포함하는 것인 방법.
실시양태 76. 실시양태 74 또는 75에 있어서, 폴리뉴클레오티드의 제3 영역에 대한 예상 시퀀싱 데이터가 인실리코 폴리뉴클레오티드의 제3 영역의 예상 서열 및 시퀀싱에 의해 수득되는 것인 방법.
실시양태 77. 실시양태 1-76 중 어느 하나에 있어서, 제1 영역의 서열과 연관된 시퀀싱 데이터 또는 제3 영역의 서열과 연관된 시퀀싱 데이터가 복수의 흐름 위치 내의 각 흐름 위치에 혼입된 염기의 수를 나타내는 염기 카운트를 표시하는 흐름 신호를 포함하는 것인 방법.
실시양태 78. 실시양태 77에 있어서, 흐름 신호가 각 흐름 위치에서 적어도 하나의 염기 카운트에 대한 염기 카운트 가능도를 나타내는 통계적 파라미터를 포함하는 것인 방법.
실시양태 79. 실시양태 78에 있어서, 흐름 신호가 각 흐름 위치에서 복수의 염기 카운트에 대한 염기 카운트 가능도를 나타내는 통계적 파라미터를 포함하는 것인 방법.
실시양태 80. 실시양태 75 또는 76에 있어서,
제3 영역의 서열과 연관된 시퀀싱 데이터가 복수의 흐름 위치 내의 각 흐름 위치에 혼입된 염기의 수를 나타내는 염기 카운트를 표시하는 흐름 신호를 포함하고, 여기서 흐름 신호가 복수의 염기 카운트에 대한 염기 카운트 가능도를 나타내는 통계적 파라미터를 포함하고;
방법이 해당 흐름 위치에서 예상 서열의 염기 카운트에 상응하는, 시퀀싱 데이터에서 각 흐름 위치에서 통계적 파라미터를 선택하는 단계, 및 시퀀싱 데이터 세트가 예상 서열과 매치할 가능도를 나타내는 매치 스코어를 결정하는 단계를 추가로 포함하는 것인 방법.
실시양태 81. 실시양태 80에 있어서, 매치 스코어가 시퀀싱 데이터에서 흐름 위치에 걸쳐 선택된 통계적 파라미터의 조합된 값인 방법.
실시양태 82. 실시양태 1-81 중 어느 하나에 있어서, 흐름-사이클 순서가 동일한 순서로 반복되는 4개의 별도의 흐름을 포함하는 것인 방법.
실시양태 83. 실시양태 1-81 중 어느 하나에 있어서, 흐름-사이클 순서가 5개 이상의 별도의 흐름을 포함하는 것인 방법.
실시양태 84. 실시양태 1-83 중 어느 하나에 있어서, 커플링된 시퀀싱 리드 쌍을 생성하는 단계가 하기를 추가로 포함하는 것인 방법:
제4 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제4 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제4 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제4 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제4 영역을 통한 프라이머의 연장은 제1 영역 또는 제3 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및
표지된 뉴클레오티드를 사용하여 제4 영역을 통해 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제5 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
실시양태 85. 실시양태 84에 있어서, 제5 영역의 시퀀싱 데이터를 제1 영역의 시퀀싱 데이터 또는 제3 영역의 시퀀싱 데이터와 연관시키는 것을 추가로 포함하는 방법.
실시양태 86. 실시양태 1-85 중 어느 하나에 있어서, 폴리뉴클레오티드가 롤링 서클 증폭을 사용하여 증폭되는 것인 방법.
실시양태 87. 하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법:
(a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA-증폭된 폴리뉴클레오티드를 생성하는 단계;
(b) RCA-증폭된 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계;
(c) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
(d) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장은 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계;
(e) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
(f) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계;
(g) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계;
(h) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및
(i) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계.
실시양태 88. 실시양태 87에 있어서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장이 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 방법.
실시양태 89. 하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법:
(a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA-증폭된 폴리뉴클레오티드를 생성하는 단계;
(b) 프라이머를 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계;
(c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, 또는 (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계;
(d) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
(e) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계;
(f) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계;
(g) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및
(h) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계.
실시양태 90. 실시양태 89에 있어서, 제1 영역이 프라이머에 의해 표적화된 자연 발생 서열을 포함하는 것인 방법.
실시양태 91. 실시양태 87-90 중 어느 하나에 있어서, 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터가 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 것에 기초하여 동적으로 생성되는 것인 방법.
실시양태 92. 실시양태 87-91 중 어느 하나에 있어서, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되는 것인 방법.
실시양태 93. 실시양태 87-92 중 어느 하나에 있어서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부가 비표지된 뉴클레오티드인 방법.
실시양태 94. 실시양태 87-92 중 어느 하나에 있어서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드가 비표지된 뉴클레오티드인 방법.
실시양태 95. 실시양태 87-94 중 어느 하나에 있어서, 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 방법.
실시양태 96. 실시양태 87-95 중 어느 하나에 있어서, 3개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 방법.
실시양태 97. 하기를 포함하는, 시퀀싱 클러스터 내에서 시퀀싱 프라이머를 동기화하는 방법:
(a) 프라이머를 시퀀싱 클러스터 내의 폴리뉴클레오티드 카피에 혼성화하는 단계;
(b) 제1 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제1 영역을 통해 프라이머를 연장하는 단계;
(c) 하나 이상의 재위상화 흐름을 사용하여 폴리뉴클레오티드 카피의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 하나 이상의 재위상화 흐름 중 적어도 하나에서 사용되는 것인 단계; 및
(d) 제3 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제3 영역을 통해 프라이머를 연장하는 단계.
실시양태 98. 실시양태 97에 있어서, 3개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 하나 이상의 재위상화 흐름 중 적어도 하나에서 사용되는 것인 방법.
실시양태 99. 실시양태 97 또는 98에 있어서, 하나 이상의 재위상화 흐름이 4개 이상의 흐름 단계를 포함하는 것인 방법.
실시양태 100. 실시양태 99에 있어서, 하나 이상의 재위상화 흐름이 임의의 순서로 하기를 포함하는 것인 방법:
(i) A, C 및 G 뉴클레오티드를 포함하고 T 뉴클레오티드를 생략한 혼합물을 포함하는 제1 흐름;
(ii) T, C 및 G 뉴클레오티드를 포함하고 A 뉴클레오티드를 생략한 혼합물을 포함하는 제2 흐름;
(iii) T, A 및 G 뉴클레오티드를 포함하고 C 뉴클레오티드를 생략한 혼합물을 포함하는 제3 흐름; 및
(iv) T, A 및 C 뉴클레오티드를 포함하고 G 뉴클레오티드를 생략한 혼합물을 포함하는 제4 흐름.
실시양태 101. 실시양태 97-100 중 어느 하나에 있어서, 제1 영역을 통해 프라이머를 연장하면서 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함하는 방법.
실시양태 102. 실시양태 97-101 중 어느 하나에 있어서, 제3 영역을 통해 프라이머를 연장하면서 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함하는 방법.
실시양태 103. 하기를 포함하는 시스템:
하나 이상의 프로세서; 및
하기를 수행하기 위한 하나 이상의 프로세서에 의해 실행가능한 하나 이상의 프로그램을 포함하는 비일시적 저장 매체:
하나 이상의 커플링된 시퀀싱 리드와 관련된 정보를 수신함; 및
실시양태 26-52 및 57-86 중 어느 하나의 방법을 수행함.
실시양태 104. 실시양태 103에 있어서, 하나 이상의 커플링된 시퀀싱 리드가 실시양태 1-25, 53-56, 및 87-96 중 어느 하나의 방법에 따라 생성되는 것인 시스템.
실시예
본 출원은 본 출원의 예시적인 실시양태로서 제공되는 하기 비제한적인 실시예를 참조하여 더 잘 이해될 수 있다. 하기 실시예는 실시양태를 보다 완전하게 예시하기 위해 제시되지만, 본 출원의 넓은 범위를 제한하는 것으로 결코 해석되어서는 안된다. 본 출원의 특정 실시양태가 본원에 도시되고 설명되었지만, 이러한 실시양태는 단지 예로서 제공된다는 것이 명백할 것이다. 본 발명의 사상 및 범위를 벗어나지 않으면서 관련 기술분야의 통상의 기술자에게 수많은 변경, 변화 및 치환이 발생할 수 있다. 본원에 기재된 실시양태에 대한 다양한 대안이 본원에 기재된 방법을 실시하는데 사용될 수 있음을 이해해야 한다.
실시예 1
고속-정방향 영역을 포함하는 흐름 시퀀싱 방법을 사용하고, 다시 표준 흐름 시퀀싱 방법 (즉, 이는 고속 정방향 영역을 포함하지 않음)을 사용하여 262개의 염기를 갖는 핵산 구축물을 시퀀싱하였다. 폴리뉴클레오티드를 어댑터 서열에 라이게이션하고, 비드에 테더링하여, 이를 증폭하고 시퀀싱 표면과 연관시켰다. 시퀀싱 프라이머는 어댑터 서열 내의 혼성화 영역에 혼성화되었으며, 이는 흐름 시퀀싱 방법의 시작을 허용하였다. 제1 방법에서, 단일 유형의 형광 표지된 비종결 뉴클레오티드의 교대 흐름을 사용하여 시퀀싱 프라이머를 연장함으로써 62개의 염기를 시퀀싱하고, 형광 검출기를 사용하여 각 단계 후 뉴클레오티드 혼입을 결정하였다. 다음 177개의 염기를 비표지된 비종결 뉴클레오티드의 교대 흐름에 노출시켰으며, 여기서 각 흐름은 프라이머가 제2 영역을 통해 연장되도록 허용하기 위해 존재하는 4개의 뉴클레오티드 중 3개 (즉, "고속 정방향" 모드)를 갖는다. "어두운" (즉, 혼입된 뉴클레오티드를 검출하지 않고) 제2 영역을 통한 프라이머의 연장 후, 단일 유형의 형광 표지된 비종결 뉴클레오티드의 교대 흐름을 사용하여 또 다른 23개의 염기를 시퀀싱하고, 형광 검출기를 사용하여 각 단계 후 뉴클레오티드 혼입을 결정하였다. 결과는 도 19a에 나타내며, 이는 수평 접근에 대한 흐름 단계 수 및 수직 접근에서 시퀀싱 신호 (즉, 정규화된 형광 신호)의 측정을 보여준다. 상기 방법은 고속 정방향 체제에 따라 고품질 시퀀싱 데이터를 초래한다.
개재 고속 정방향 체제 없이 표준 흐름 시퀀싱 방법으로 동일한 262개의 염기 구축물을 완전히 시퀀싱하였다. 즉, 단일 유형의 형광 표지된 비종결 뉴클레오티드의 교대 흐름을 사용하여 전체 262개의 염기를 시퀀싱하고, 형광 검출기를 사용하여 각 단계 후 뉴클레오티드 혼입을 결정하였다. 결과는 도 19b에 나타내며, 이는 도면을 압축하기 위해 상응하는 177개의 염기 영역으로부터의 데이터를 생략한다.
시퀀싱 구축물은 표준 흐름-시퀀싱 방법보다 고속-정방향 흐름 시퀀싱 방법을 사용하여 더 빠르게 진행한다. 폴리뉴클레오티드의 양쪽 말단으로부터의 시퀀싱 데이터는 연관되어 커플링된 시퀀싱 리드 쌍을 생성하고 분석될 수 있다.
실시예 2
서열식별번호: 4 내의 변이체 (참조 서열 서열식별번호: 1에 비해 염기 위치 15에 C→G 단일 뉴클레오티드 다형성 변이체를 가짐)의 검출이 이 실시예에서 설명된다. 서열식별번호: 4의 5' 말단에 있는 혼성화 서열에 프라이머를 혼성화하고, 흐름 시퀀싱 방법을 사용하여 프라이머를 연장함으로써 서열식별번호: 4에 대해 커플링된 시퀀싱 리드 쌍을 생성할 수 있다. 이 실시예에서, 5개의 사이클을 사용하며, 제1 영역을 통해 프라이머를 연장하는데 사이클 1을 사용하고, 제2 영역을 통해 프라이머를 연장하는데 사이클 2 및 사이클 3을 사용하고, 제3 영역을 통해 프라이머를 연장하는데 사이클 4 및 사이클 5를 사용한다. 사이클 1, 사이클 4 및 사이클 5는 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 각 사이클 단계 후에 프라이머로의 뉴클레오티드의 혼입을 검출한다. 대조적으로, 사이클 2 및 사이클 3 동안 프라이머로의 뉴클레오티드의 혼입을 스킵할 수 있다. 각 사이클은 4개의 단계를 가지며, 사이클 1, 4 및 5는 A-C-T-G 표지된 뉴클레오티드의 순차적이고 독립적인 첨가를 포함하고, 단일 염기 유형을 각 사이클 단계에서 첨가하고, 각 단계 후에 표지된 뉴클레오티드의 혼입을 검출한다. 사이클 2 및 사이클 3은 "고속 정방향" 모드로 구현되고, 4개의 사이클 단계를 포함하며, 여기서 단계 1은 A 뉴클레오티드를 생략하고 (즉, C, T 및 G를 포함함), 단계 2는 C 뉴클레오티드를 생략하고 (즉, A, T 및 G를 포함함), 단계 3은 T 뉴클레오티드를 생략하고 (즉, A, C 및 G를 포함함), 단계 4는 G 뉴클레오티드를 생략한다 (즉, A, C 및 T를 포함함). 사이클 2 및 사이클 3의 고속 정방향 모드 동안 뉴클레오티드 혼입이 검출되지 않는다. 사이클 2 및 3은 프라이머 연장 동안 동시에 다중 상이한 뉴클레오티드 염기 유형을 포함하기 때문에, 프라이머는 단일 염기 유형만이 임의의 주어진 단계에서 사용되었을 경우보다 빠르게 연장된다. 서열식별번호: 1 (참조 서열) 및 서열식별번호: 4 (SNP 서열)에 대한 흐름도는 표 6에 표시된다. 시퀀싱 데이터는 서열식별번호: 1의 제3 영역 (사이클 4 및 사이클 5)이 3'-CTGAC-5' (서열식별번호: 5)이고, 서열식별번호: 4의 제3 영역 (사이클 4 및 사이클 5)이 3'-CCTGC-5' (서열식별번호: 7)임을 나타낸다. 서열식별번호: 1 및 서열식별번호: 4 사이의 시퀀싱 데이터 사이의 차이는 제2 영역 내의 변이체의 존재를 나타낸다.
<표 6>
Figure pct00008
<표 7>
Figure pct00009
<표 8>
Figure pct00010
<표 9>
Figure pct00011
실시예 3
서열식별번호: 8 내의 변이체 (참조 서열 서열식별번호: 1에 비해 염기 위치 23 다음에 ATC 삽입물을 포함함)의 검출이 이 실시예에서 설명된다. 제2 영역을 통해 고속 정방향 부분을 포함하는 흐름 시퀀싱 방법을 사용하여 서열식별번호: 1 및 서열식별번호: 8에 대해 커플링된 시퀀싱 리드 쌍을 생성할 수 있다. 이 실시예에서, 5개의 사이클을 사용하며, 제1 영역을 통해 프라이머를 연장하는데 사이클 1을 사용하고, 제2 영역을 통해 프라이머를 연장하는데 사이클 2 및 사이클 3을 사용하고, 제3 영역을 통해 프라이머를 연장하는데 사이클 4 및 사이클 5를 사용한다. 사이클 1, 사이클 4 및 사이클 5는 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 각 사이클 단계 후에 프라이머로의 뉴클레오티드의 혼입을 검출한다. 대조적으로, 사이클 2 및 사이클 3 동안 프라이머로의 뉴클레오티드의 혼입을 스킵할 수 있다. 각 사이클은 4개의 단계를 가지며, 사이클 1, 4 및 5는 A-C-T-G 표지된 뉴클레오티드의 순차적이고 독립적인 첨가를 포함하고, 단일 염기 유형을 각 사이클 단계에서 첨가하고, 각 단계 후에 표지된 뉴클레오티드의 혼입을 검출한다. 사이클 2 및 사이클 3은 "고속 정방향" 모드로 구현되고, 4개의 사이클 단계를 포함하며, 여기서 단계 1은 A 뉴클레오티드를 생략하고 (즉, C, T 및 G를 포함함), 단계 2는 C 뉴클레오티드를 생략하고 (즉, A, T 및 G를 포함함), 단계 3은 T 뉴클레오티드를 생략하고 (즉, A, C 및 G를 포함함), 단계 4는 G 뉴클레오티드를 생략한다 (즉, A, C 및 T를 포함함). 사이클 2 및 사이클 3의 고속 정방향 모드 동안 뉴클레오티드 혼입이 검출되지 않는다. 사이클 2 및 3은 프라이머 연장 동안 동시에 다중 상이한 뉴클레오티드 염기 유형을 포함하기 때문에, 프라이머는 단일 염기 유형만이 임의의 주어진 단계에서 사용되었을 경우보다 빠르게 연장된다. 서열식별번호: 1 (참조 서열) 및 서열식별번호: 8에 대한 흐름도는 표 7에 표시된다. 시퀀싱 데이터는 서열식별번호: 1의 제3 영역 (사이클 4 및 사이클 5)이 3'-CTGAC-5' (서열식별번호: 5)이고, 서열식별번호: 8의 제3 영역 (사이클 4 및 사이클 5)이 3'-AC-5'임을 나타낸다. 서열식별번호: 1 및 서열식별번호: 8 사이의 시퀀싱 데이터 사이의 차이는 제2 영역 내의 변이체의 존재를 나타낸다.
실시예 4
서열식별번호: 9 내의 변이체 (참조 서열 서열식별번호: 1에 비해 염기 위치 17 후에 GCCTGCA (서열식별번호: 13) 염기의 결실을 포함함)의 검출이 이 실시예에서 설명된다. 제2 영역을 통해 고속 정방향 부분을 포함하는 흐름 시퀀싱 방법을 사용하여 서열식별번호: 1 및 서열식별번호: 9에 대해 커플링된 시퀀싱 리드 쌍을 생성할 수 있다. 이 실시예에서, 5개의 사이클을 사용하며, 제1 영역을 통해 프라이머를 연장하는데 사이클 1을 사용하고, 제2 영역을 통해 프라이머를 연장하는데 사이클 2 및 사이클 3을 사용하고, 제3 영역을 통해 프라이머를 연장하는데 사이클 4 및 사이클 5를 사용한다. 사이클 1, 사이클 4 및 사이클 5는 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 각 사이클 단계 후에 프라이머로의 뉴클레오티드의 혼입을 검출한다. 대조적으로, 사이클 2 및 사이클 3 동안 프라이머로의 뉴클레오티드의 혼입을 스킵할 수 있다. 각 사이클은 4개의 단계를 가지며, 사이클 1, 4 및 5는 A-C-T-G 표지된 뉴클레오티드의 순차적이고 독립적인 첨가를 포함하고, 단일 염기 유형을 각 사이클 단계에서 첨가하고, 각 단계 후에 표지된 뉴클레오티드의 혼입을 검출한다. 사이클 2 및 사이클 3은 "고속 정방향" 모드로 구현되고, 4개의 사이클 단계를 포함하며, 여기서 단계 1은 A 뉴클레오티드를 생략하고 (즉, C, T 및 G를 포함함), 단계 2는 C 뉴클레오티드를 생략하고 (즉, A, T 및 G를 포함함), 단계 3은 T 뉴클레오티드를 생략하고 (즉, A, C 및 G를 포함함), 단계 4는 G 뉴클레오티드를 생략한다 (즉, A, C 및 T를 포함함). 사이클 2 및 사이클 3의 고속 정방향 모드 동안 뉴클레오티드 혼입이 검출되지 않는다. 사이클 2 및 3은 프라이머 연장 동안 동시에 다중 상이한 뉴클레오티드 염기 유형을 포함하기 때문에, 프라이머는 단일 염기 유형만이 임의의 주어진 단계에서 사용되었을 경우보다 빠르게 연장된다. 서열식별번호: 1 (참조 서열) 및 서열식별번호: 9에 대한 흐름도는 표 8에 표시된다. 시퀀싱 데이터는 서열식별번호: 1의 제3 영역 (사이클 4 및 사이클 5)이 3'-CTGAC-5' (서열식별번호: 5)이고, 서열식별번호: 9의 제3 영역 (사이클 4 및 사이클 5)이 3'-AC-5'임을 나타낸다. 서열식별번호: 1 및 서열식별번호: 8 사이의 시퀀싱 데이터 사이의 차이는 제2 영역 내의 변이체의 존재를 나타낸다.
실시예 5
서열식별번호: 12 내의 변이체 (참조 서열 서열식별번호: 1에 비해 염기 위치 17 후에 염기 GCCTGCA (서열식별번호: 13) 염기의 역위를 포함함)의 검출이 이 실시예에서 설명된다. 제2 영역을 통해 고속 정방향 부분을 포함하는 흐름 시퀀싱 방법을 사용하여 서열식별번호: 1 및 서열식별번호: 12에 대해 커플링된 시퀀싱 리드 쌍을 생성할 수 있다. 이 실시예에서, 5개의 사이클을 사용하며, 제1 영역을 통해 프라이머를 연장하는데 사이클 1을 사용하고, 제2 영역을 통해 프라이머를 연장하는데 사이클 2 및 사이클 3을 사용하고, 제3 영역을 통해 프라이머를 연장하는데 사이클 4 및 사이클 5를 사용한다. 사이클 1, 사이클 4 및 사이클 5는 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 각 사이클 단계 후에 프라이머로의 뉴클레오티드의 혼입을 검출한다. 대조적으로, 사이클 2 및 사이클 3 동안 프라이머로의 뉴클레오티드의 혼입을 스킵할 수 있다. 각 사이클은 4개의 단계를 가지며, 사이클 1, 4 및 5는 A-C-T-G 표지된 뉴클레오티드의 순차적이고 독립적인 첨가를 포함하고, 단일 염기 유형을 각 사이클 단계에서 첨가하고, 각 단계 후에 표지된 뉴클레오티드의 혼입을 검출한다. 사이클 2 및 사이클 3은 "고속 정방향" 모드로 구현되고, 4개의 사이클 단계를 포함하며, 여기서 단계 1은 A 뉴클레오티드를 생략하고 (즉, C, T 및 G를 포함함), 단계 2는 C 뉴클레오티드를 생략하고 (즉, A, T 및 G를 포함함), 단계 3은 T 뉴클레오티드를 생략하고 (즉, A, C 및 G를 포함함), 단계 4는 G 뉴클레오티드를 생략한다 (즉, A, C 및 T를 포함함). 사이클 2 및 사이클 3의 고속 정방향 모드 동안 뉴클레오티드 혼입이 검출되지 않는다. 사이클 2 및 3은 프라이머 연장 동안 동시에 다중 상이한 뉴클레오티드 염기 유형을 포함하기 때문에, 프라이머는 단일 염기 유형만이 임의의 주어진 단계에서 사용되었을 경우보다 빠르게 연장된다. 서열식별번호: 1 (참조 서열) 및 서열식별번호: 12에 대한 흐름도는 표 9에 표시된다. 시퀀싱 데이터는 서열식별번호: 1의 제3 영역 (사이클 4 및 사이클 5)이 3'-CTGAC-5' (서열식별번호: 5)이고, 서열식별번호: 12의 제3 영역 (사이클 4 및 사이클 5)이 3'-G-5'임을 나타낸다. 서열식별번호: 1 및 서열식별번호: 12 사이의 시퀀싱 데이터 사이의 차이는 제2 영역 내의 변이체의 존재를 나타낸다.
실시예 6
합성에 의한 시퀀싱 방법은 일반적으로 연장 프라이머로의 뉴클레오티드의 불완전한 혼입을 갖는다. 시간이 지남에 따라, 시퀀싱 클러스터 내에서, 프라이머는 탈동기화될 수 있으며, 이는 신호를 저하시키고 염기 혼입 호출에서 신뢰도를 낮춘다. 시퀀싱 클러스터 내의 프라이머 탈동기화는 10,000개의 동일한 주형 가닥을 갖는 시퀀싱 클러스터를 가정하고, A-C-T-G의 흐름 순서를 가정하는 비종결 뉴클레오티드를 사용하여 주형 가닥을 시퀀싱함으로써 시뮬레이션되었으며, 여기서 각 흐름은 단일 뉴클레오티드를 갖는다. 실패한 혼입의 확률 (즉, 뉴클레오티드가 혼입되어야 함을 주형이 표시하였을 때 뉴클레오티드가 연장 프라이머 가닥에 혼입하지 않았음)은 0.5%로 설정되었다. 도 20a는 100개의 흐름 단계 후에 각 리드 염기에서 연장된 프라이머 (가닥)의 수를 보여주며, 100번째 흐름은 G 비종결 뉴클레오티드를 갖는다. 시퀀싱 클러스터는 선도 시퀀싱 프라이머 (여기서 G 뉴클레오티드는 다음 예상된 혼입된 뉴클레오티드가 A가 되도록 연장 프라이머에 혼입되었음), 제1 지연 프라이머 (여기서 G 뉴클레오티드는 다음 예상된 혼입된 뉴클레오티드가 C가 되도록 연장 프라이머에 혼입되었음), 및 제2 지연 프라이머 (여기서, 뉴클레오티드가 100번째 흐름으로부터 연장 프라이머에 혼입되지 않았음)에 혼성화된 주형을 포함한다. 제1 지연 프라이머 및 제2 지연 프라이머는 시퀀싱 공정 동안 일부 포인트에서 연장 프라이머로의 예상된 뉴클레오티드의 혼입이 실패한 프라이머를 표시한다. 재위상화 흐름 순서를 사용한 연장 프라이머의 동기화는 동기화 흐름 순서를 사용하여 시뮬레이션되었다. 흐름 101에서, 프라이머는 G, C 및 A 비종결 뉴클레오티드의 혼합물을 사용하여 연장되었으며 (도 20b), 이는 선도 프라이머와 동기화될 때까지 제1 및 제2 지연 프라이머를 연장하였다. 흐름 101은 T 뉴클레오티드를 포함하지 않았기 때문에, 더 이상 연장하지 않았다. 시뮬레이션된 동기화 흐름 순서는 G, C 및 T 비종결 뉴클레오티드의 혼합물을 갖는 흐름 102 (도 20c), G, T 및 A 비종결 뉴클레오티드의 혼합물을 갖는 흐름 103 (도 20d), 및 T, A 및 C 비종결 뉴클레오티드의 혼합물을 갖는 흐름 104 (도 20e)로 계속되었다.
도 21a-21e 및 도 22a-22e에 표시된 바와 같은 추가 서열을 사용하여 시뮬레이션된 동기화 흐름 순서를 시험하였다. 동기화 흐름 순서 및 상이한 주형 서열을 사용하여 다른 성공적인 시뮬레이션을 수행하였다.
실시예 7
모든 가능한 SNP 세트 (XYZ → XQZ, 여기서 Q≠Y (및 Q, X, Y 및 Z는 각각 A, C, G 및 T 중 어느 하나임))에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도할 가능도에 대해 인실리코에서 백만개 초과의 연장된 시퀀싱 흐름 순서를 시험하였다. 연장된 흐름 순서는 모든 유효한 2-염기 흐름 순열과 함께 최소 12개의 염기 서열을 갖도록 설계되었으며, 순차적 염기 반복부를 갖는 흐름 순서는 제거되었다. 2개 초과의 흐름 위치에서 신호 변화를 유도하기 위해 연장된 흐름 순서의 민감도를 평가하기 위해 흐름 순서에 대한 모든 가능한 시작 위치를 시험하였다. 도 23 및 표 4는 이 분석의 예시적인 결과를 보여준다. 도 23에서, x-축은 흐름 위상 (또는 단편화 시작 위치)의 분율을 나타내고, y-축은 2개 초과의 흐름 위치에서 신호 변화를 유도한 SNP 순열의 분율을 나타낸다. 여러 흐름 순서는 리드 (또는 흐름 시작 위치)의 대략 10%에 대해 모든 가능한 (87.5%) SNP 순열에서 2개 이상의 신호 차이를 유도한다. 4개의 염기 주기적인 흐름은 가능한 SNP의 42%에서만 사이클 이동을 유도하지만, 모든 리드 또는 흐름 위상에서 이를 수행한다. 생존성을 확립하기 위해 인간 참조 게놈의 백만 리드 서브세트에 대해 효율의 최종 평가를 수행하였다. 이는 실제 유기체의 패턴 및 편향이 주어지면 흐름 순서가 서열을 얼마나 효율적으로 연장하는지에 대한 실용적인 측정이다.
실시예 8
SNP를 검출하기 위한 고속 정방향 시퀀싱의 민감도를 시험하기 위해, 시퀀싱 방법은 hg38 참조 게놈 내의 대략 114만개의 합성 핵산 분자를 시퀀싱하기 위해 인실리코에서 시뮬레이션되었으며, 각 합성 핵산 분자는 참조 게놈 내의 무작위 시작 포인트를 갖는 2 킬로베이스 세그먼트이다. 각 합성 시퀀싱 리드로부터 502 bp 세그먼트가 생성되었으며, ~502 bp 세그먼트 내의 각 염기에서 쿼리된 세 가지 모든 가능한 단일 염기 돌연변이 (즉, 총 500 x ~1.14M x 3 가능한 변이체 (즉, ABC → ADC, 여기서 B ≠ D))가 SNP 검출을 위해 쿼리되었다. 각 SNP 변이체 ABC→ADC에 대해, SNP는 (A = B 및 D = C) 또는 (A = D 및 B = C)일 때 검출불가능한 것으로 간주되었으며, 이는 SNP가 흐름도에서 새로운 제로 또는 새로운 넌-제로 신호를 생성하지 않기 때문이다. 참조 염기 검출 민감도에 대한 변이체 염기의 행렬이 도 24에 표시된다.
그 후, 합성 핵산 분자를 4-단계 흐름 사이클을 사용하여 인실리코에서 시퀀싱하였으며, 여기서 각 흐름은 중간 (제2) 영역에서 3개의 뉴클레오티드의 혼합물을 포함하였다. 4-단계 흐름 사이클에 따라 80개의 뉴클레오티드 흐름을 사용하여 합성 핵산 분자의 제1 영역을 시퀀싱하였으며, 여기서 각 단계는 단일 뉴클레오티드 염기 유형을 포함하였다. 시퀀싱 프라이머는 제1 영역에서 80개 흐름에서 54 ± 7개 염기로 연장되었다 (흐름 당 ~0.675개 염기). 4-단계 흐름 사이클에 따라 200개의 뉴클레오티드를 사용하여 합성 핵산 분자의 제2 영역을 시퀀싱하였으며, 여기서 각 단계는 3개를 포함하고 1개의 뉴클레오티드 염기 유형을 생략하였다 (즉, (i) A, C, T, 및 G가 아님; (ii) G, A, C, 및 T가 아님; (iii) T, G, A, 및 C가 아님; 및 (iv) C, T, G, 및 A가 아님). 시퀀싱 프라이머는 제2 영역에서 200개 흐름에서 915 ± 89개 염기로 연장되었다 (흐름 당 ~4.575개 염기). 4-단계 흐름 사이클에 따라 80개의 뉴클레오티드 흐름을 사용하여 합성 핵산 분자의 제3 영역을 시퀀싱하였으며, 여기서 각 단계는 단일 뉴클레오티드 염기 유형을 포함하였다. 시퀀싱 프라이머는 제3 영역에서 80개 흐름에서 54 ± 7개 염기로 연장되었다 (흐름 당 ~0.675개 염기). 각 합성 변이체 핵산 분자에 대한 제3 (다운스트림) 영역의 흐름도를 상응하는 합성 야생형 핵산 분자에 대한 제3 영역의 흐름도와 비교하였다. 상응하는 합성 야생형 핵산 분자와 비교하여, 합성 변이체 핵산 분자의 제3 영역에서 새로운 넌-제로 흐름도 엔트리 및/또는 새로운 제로 흐름도 엔트리는 제2 영역에 도입된 SNP의 검출을 나타내었다. 도 25a는 제1, 제2 및 제3 영역에서 흐름에 걸친 평균 염기 혼입을 보여준다. 참조 염기 검출 민감도에 대한 변이체 염기의 행렬이 도 25b에 표시된다. 도 25c는 합성 리드에 걸친 염기 커버리지의 분포를 보여준다.
실시예 9
2 또는 3개의 상이한 뉴클레오티드 염기의 혼합물을 갖는 재위상화 흐름 단계를 사용한 재위상화의 효과를 시뮬레이션된 시퀀싱 방법론을 사용하여 연구하였다. 각각 길이가 600 bp인 대략 10,000개의 합성 시퀀싱 리드가 인간 게놈으로부터 무작위 시작-부위 선택에 의해 생성되었다. 대조군에서, T-G-C-A 흐름 사이클의 105 라운드 (총 420개 흐름)를 사용하여 합성 시퀀싱 리드의 인실리코 시퀀싱에 의해 시뮬레이션된 흐름도를 생성하였다. 지연 위상화의 확률 (즉, 올바르게 혼입된 뉴클레오티드마다 뉴클레오티드가 혼입되어야 함을 주형이 표시하였을 때 연장 프라이머 가닥에 혼입되지 않은 뉴클레오티드의 분율)은 0.2%로 설정되었고, 선도 위상화의 확률 (즉, 각 흐름 후에 추가 뉴클레오티드가 연장 프라이머에 혼입된 시퀀싱 리드의 분율)은 0.5%로 설정되었다. 대조군에 대한 평균 리드 길이는 322bp ± 18bp였다.
일련의 시험군에서, 하기 조건 중 하나를 제외하고 T-G-C-A 흐름 사이클의 105 라운드 (총 420개 흐름)를 사용하여 합성 시퀀싱 리드의 인실리코 시퀀싱에 의해 시뮬레이션된 흐름도를 생성하였다: (1) 매 24번째 흐름 후에, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26a); (2) 매 48번째 흐름 후에, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26b); (3) 매 96번째 흐름 후에, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26c); (4) 매 192번째 흐름 후에, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26d); (5) 매 48번째 흐름 후에, C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, 제어 프로토콜에 따라 T-G-C-A 사이클로 복귀하기 전에 단일 A 흐름 (중복 흐름을 피하기 위해)이 삽입되었다 (도 26e); (6) 매 96번째 흐름 후에, C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, 제어 프로토콜에 따라 T-G-C-A 사이클로 복귀하기 전에 단일 A 흐름 (중복 흐름을 피하기 위해)이 삽입되었다 (도 26f); (7) 매 96번째 흐름 후에, C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26g); (8) 매 192번째 흐름 후에, C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26h); (9) 매 96번째 흐름 후에, C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, C 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26i); 또는 (10) 매 192번째 흐름 후에, C, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, C 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, G 및 T의 혼합물을 함유하는 재위상화 흐름이 삽입된 후, A, C 및 G의 혼합물을 함유하는 재위상화 흐름이 삽입되었다 (도 26j).
시험된 재위상화 흐름 중 임의의 것의 사용은 시퀀싱 데이터의 최소 손실로 대조군과 비교하여 인실리코 시퀀싱의 전체 라운드 후에 총 위상화 오류 (즉, 지연 또는 선도 오류가 도입되지 않은 명목상 시퀀싱된 가닥에 대한, 지연 위상화 오류를 갖는 가닥의 분율 및 선도 위상화 오류를 갖는 가닥의 분율의 합계)의 실질적인 감소를 초래하였다. 도 26a-26j는 제어 프로토콜 및 각각의 개별 재위상화 흐름 프로토콜에 대한 총 위상화 오류의 합계의 분포를 보여준다. C 및 G의 혼합물을 함유하는 재위상화 흐름의 사용은, 매 24번째 흐름 후에 평균 총 누적 위상화 오류를 31.2 ± 9.6%로 감소시켰고 (51.5 ± 1.3% 대조군과 비교하여) (도 26a), 매 48번째 흐름 후에 평균 총 누적 위상화 오류를 36.9 ± 9.7%로 감소시켰고 (도 26b), 매 96번째 흐름 후에 평균 총 누적 위상화 오류를 40.2 ± 10.1%로 감소시켰고 (도 26c), 매 192번째 흐름 후에 평균 총 누적 위상화 오류를 42.8 ± 10.4%로 감소시켰지만 (도 26d), 재위상화 흐름 당 ~1 bp 평균 프라이머 연장 (즉, 시퀀싱 갭)만을 생성하였다. C, G 및 T의 혼합물을 함유하는 재위상화 흐름의 사용은, 매 48번째 흐름 후에 평균 총 누적 위상화 오류를 28.5 ± 10.6%로 감소시켰고 (도 26e), 매 96번째 흐름 후에 평균 총 누적 위상화 오류를 31.1 ± 12.2%로 감소시켰지만 (도 26f), 재위상화 흐름 당 ~5 bp 평균 프라이머 연장만을 생성하였다. C, G 및 T의 혼합물을 함유하는 제1 재위상화 흐름 및 A, C 및 G의 혼합물을 함유하는 제2 재위상화 흐름의 사용은, 매 96번째 흐름 후에 평균 총 누적 위상화 오류를 25.3 ± 10.6%로 감소시켰고 (도 26g), 매 192번째 흐름 후에 평균 총 누적 위상화 오류를 26.6 ± 12.6%로 감소시켰지만 (도 26h), 재위상화 이중체 흐름 당 ~9 bp 평균 프라이머 연장만을 생성하였다. C, G 및 T의 혼합물을 함유하는 제1 재위상화 흐름, A, C 및 T의 혼합물을 함유하는 제2 재위상화 흐름, A, G 및 T의 혼합물을 함유하는 제3 재위상화 흐름, 및 A, C 및 G의 혼합물을 함유하는 제4 재위상화 흐름의 사용은, 매 96번째 흐름 후에 평균 총 누적 위상화 오류를 20.6 ± 9.4%로 감소시켰고 (도 26i), 매 192번째 흐름 후에 평균 총 누적 위상화 오류를 20.9 ±11.2%로 감소시켰지만 (도 26j), 재위상화 사중체 흐름 당 ~18 bp 평균 프라이머 연장만을 생성하였다.
SEQUENCE LISTING <110> ULTIMA GENOMICS, INC <120> FAST-FORWARD SEQUENCING BY SYNTHESIS METHODS <130> 16527-20004.40 <140> Not Yet Assigned <141> Concurrently Herewith <150> US 62/971,530 <151> 2020-02-07 <150> US 62/904,274 <151> 2019-09-23 <150> US 62/842,534 <151> 2019-05-03 <160> 22 <170> FastSEQ for Windows Version 4.0 <210> 1 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 1 cagtcgacgt ccgtatagcc taagttcagt 30 <210> 2 <211> 4 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 2 ggct 4 <210> 3 <211> 6 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 3 cggacg 6 <210> 4 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 4 cagtcgacgt ccgtatagtc taagttcagt 30 <210> 5 <211> 5 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 5 cagtc 5 <210> 6 <211> 5 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 6 tatac 5 <210> 7 <211> 5 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 7 cgtcc 5 <210> 8 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 8 cagtcgacta cgtccgtata gcctaagttc agt 33 <210> 9 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 9 cagtcgtata gcctaagttc agt 23 <210> 10 <211> 5 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 10 atatg 5 <210> 11 <211> 4 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 11 cgac 4 <210> 12 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 12 cagtcggcct gcatatagcc taagttcagt 30 <210> 13 <211> 7 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 13 gcctgca 7 <210> 14 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 14 caggccgac 9 <210> 15 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 15 tatggtcgtc ga 12 <210> 16 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 16 tatggtcatc ga 12 <210> 17 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 17 tggtcgtcga gc 12 <210> 18 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 18 tatatggtcg tc 12 <210> 19 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 19 tatatggtca tcgagctat 19 <210> 20 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 20 tatatggtcg tcgagctat 19 <210> 21 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 21 tatggtcgtc ga 12 <210> 22 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Synthetic Construct <400> 22 tatggtcgat cg 12

Claims (71)

  1. 하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
    (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계;
    (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
    (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제2 영역을 통한 프라이머의 연장은 단계 (b)에서의 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및
    (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
  2. 제1항에 있어서, 제2 영역을 통한 프라이머의 연장이 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 방법.
  3. 제1항 또는 제2항에 있어서, 제1 영역의 시퀀싱 데이터를 제3 영역의 시퀀싱 데이터와 연관시키는 것을 추가로 포함하는 방법.
  4. 하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
    (a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계;
    (b) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계; 및
    (c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
  5. 제4항에 있어서, 제1 영역이 프라이머에 의해 표적화된 자연 발생 서열을 포함하는 것인 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되는 것인 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부가 비표지된 뉴클레오티드인 방법.
  8. 제1항 내지 제6항 중 어느 한 항에 있어서, 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드가 비표지된 뉴클레오티드인 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 제2 영역 흐름 순서가 5개 이상의 뉴클레오티드 흐름을 포함하는 것인 방법.
  11. 제10항에 있어서, 뉴클레오티드 흐름 각각이 단일 뉴클레오티드 염기를 포함하는 것인 방법.
  12. 제10항 또는 제11항에 있어서, 제2 영역 흐름 순서가 무작위 시퀀싱 시작 위치의 5% 이상에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도하는 것인 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서, 제2 영역 흐름 순서가 흐름 당 0.6 이상의 염기 혼입 효율을 갖는 것인 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 참조 서열 및 제2 영역 흐름 순서를 사용하여 제2 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계를 추가로 포함하는 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함하는 것인 방법.
  16. 제15항에 있어서, 제3 영역 흐름 순서가 5개 이상의 뉴클레오티드 흐름을 포함하는 것인 방법.
  17. 제16항에 있어서, 뉴클레오티드 흐름 각각이 단일 뉴클레오티드 염기를 포함하는 것인 방법.
  18. 제16항 또는 제17항에 있어서, 제3 영역 흐름 순서가 무작위 시퀀싱 시작 위치의 5% 이상에서 가능한 SNP 순열의 50% 이상에 대해 2개 초과의 흐름 위치에서 신호 변화를 유도하는 것인 방법.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서, 제3 영역 흐름 순서가 흐름 당 0.6 이상의 염기 혼입 효율을 갖는 것인 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터가 제3 영역에 대해 생성된 동일한 또는 상이한 시퀀싱 데이터인 방법.
  21. 제14항 내지 제20항 중 어느 한 항에 있어서, 제2 영역 또는 제3 영역에 대한 예상 참조 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
  22. 제14항 내지 제21항 중 어느 한 항에 있어서, 제2 영역 흐름 순서 및 제2 영역에 대한 제2 참조 서열을 사용하여 제2 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제2 참조 서열이 시험 변이체를 포함하는 것인 방법.
  23. 제22항에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열을 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하는 것인 방법.
  24. 제22항에 있어서, 프라이머가 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되고, 방법이 제2 영역에 대한 제2 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 시퀀싱 데이터를 사용하여 제3 영역에 대한 예상 시험 변이체 시퀀싱 데이터를 결정하는 것을 추가로 포함하고, 여기서 제3 영역의 서열과 연관된 시퀀싱 데이터가 제3 영역에 대해 생성된 동일한 또는 상이한 시퀀싱 데이터인 방법.
  25. 제22항 내지 제24항 중 어느 한 항에 있어서, 제2 영역 또는 제3 영역에 대한 예상 참조 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
  26. 하기를 포함하는, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법:
    제1항 내지 제25항 중 어느 한 항의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계; 및
    제2 영역의 길이를 나타내는 거리 정보를 사용하여 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계.
  27. 하기를 포함하는, 구조적 변이체를 검출하는 방법:
    제1항 내지 제25항 중 어느 한 항의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계;
    제2 영역의 길이를 나타내는 거리 정보를 사용하여, 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부에 대한 참조 서열 내의 예상 유전자좌를 결정하는 단계;
    참조 서열에 기초하여 예상 유전자좌에서 서열에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및
    맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부의 시퀀싱 데이터를 예상 시퀀싱 데이터와 비교함으로써 구조적 변이체를 검출하는 단계이며, 여기서 맵핑되지 않은 제1 영역 또는 이의 일부 또는 맵핑되지 않은 제3 영역 또는 이의 일부의 시퀀싱 데이터 및 예상 시퀀싱 데이터 사이의 차이는 구조적 변이체를 나타내는 것인 단계.
  28. 하기를 포함하는, 구조적 변이체를 검출하는 방법:
    제1항 내지 제25항 중 어느 한 항의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 또는 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계이며, 여기서 맵핑되지 않은 제1 영역 또는 맵핑되지 않은 제3 영역은 참조 서열 내에서 맵핑불가능한 것인 단계.
  29. 하기를 포함하는, 구조적 변이체를 검출하는 방법:
    제1항 내지 제25항 중 어느 한 항의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계;
    맵핑된 제1 영역 및 맵핑된 제3 영역 사이의 맵핑된 거리 정보를 결정하는 단계; 및
    맵핑된 거리 정보를 제2 영역의 예상 거리 정보와 비교함으로써 구조적 변이체를 검출하는 단계이며, 여기서 맵핑된 거리 정보 및 예상 거리 정보 사이의 차이는 구조적 변이체를 나타내는 것인 단계.
  30. 제27항 내지 제29항 중 어느 한 항에 있어서, 구조적 변이체가 염색체 융합, 역위, 삽입 또는 결실인 방법.
  31. 제27항 내지 제30항 중 어느 한 항에 있어서, 변이체가 제2 영역 내의 삽입 또는 결실인 방법.
  32. 하기를 포함하는, 커플링된 시퀀싱 리드 쌍을 참조 서열에 맵핑하는 방법:
    제1항 내지 제25항 중 어느 한 항의 방법에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 제1 위치 및 제2 위치를 포함하는 2개 이상의 상이한 위치 쌍에서 참조 서열에 맵핑하는 단계; 및
    제2 영역의 길이를 나타내는 제1 거리 정보 및 2개 이상의 위치 쌍에 대한 제1 위치 및 제2 위치 사이의 거리를 나타내는 제2 거리 정보를 사용하여 올바른 위치 쌍을 선택하는 단계.
  33. 하기를 포함하는, 제1항 내지 제25항 중 어느 한 항에 따라 생성된 커플링된 시퀀싱 리드 쌍의 2개의 시퀀싱된 영역 사이의 변이체를 검출하는 방법이며, 여기서 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되는 것인 방법:
    제1 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계;
    (1) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역에 대한 참조 서열, 또는 (2) 제2 영역에 대한 참조 서열, 제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터를 사용하여 제3 영역 또는 이의 일부에 대한 예상 시퀀싱 데이터를 결정하는 단계이며, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터는 제3 영역에 대해 생성된 동일한 또는 상이한 서열 데이터인 단계; 및
    제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 서열과 연관된 생성된 시퀀싱 데이터와 비교함으로써 변이체의 존재를 검출하는 단계.
  34. 제33항에 있어서, 변이체가 구조적 변이체인 방법.
  35. 제34항에 있어서, 구조적 변이체가 염색체 융합, 역위, 삽입 또는 결실인 방법.
  36. 제33항에 있어서, 변이체가 단일 뉴클레오티드 다형성 (SNP)인 방법.
  37. 제33항 내지 제36항 중 어느 한 항에 있어서, 방법이 시험 변이체를 검출하는데 사용되고, 참조 서열이 시험 변이체를 포함하는 것인 방법.
  38. 제37항에 있어서, 시험 변이체가 제2 폴리뉴클레오티드 내에서 시험 변이체를 식별함으로써 선택되는 것인 방법.
  39. 제37항 또는 제38항에 있어서, 검출된 시험 변이체를 폴리뉴클레오티드의 제1 영역 또는 제3 영역에서 시퀀싱된 대립유전자와 연관시키는 것을 포함하는 방법.
  40. 하기를 포함하는, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 염기 전환의 존재를 검출하기 위한 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
    (a) 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계;
    (b) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
    (c) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 단계 (b)에서 연장된 프라이머를 추가로 연장하는 단계; 및
    (d) 표지된 뉴클레오티드를 사용하여 단계 (c)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
  41. 하기를 포함하는, 폴리뉴클레오티드로부터 커플링된 시퀀싱 리드 쌍을 생성하는 방법:
    (a) 프라이머를 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계;
    (b) (1) 시토신 및 티민, 및 (2) 아데닌 및 구아닌의 교대 뉴클레오티드 쌍을 포함하는 흐름 순서를 사용하여 제2 영역을 통해 프라이머를 연장하는 단계; 및
    (c) 표지된 뉴클레오티드를 사용하여 단계 (b)에서 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
  42. 제41항에 있어서, 제1 영역이 프라이머에 의해 표적화된 자연 발생 서열을 포함하는 것인 방법.
  43. 제41항 또는 제42항에 있어서, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제2 영역을 통해 연장되는 것인 방법.
  44. 하기를 포함하는, 폴리뉴클레오티드의 시퀀싱되지 않은 영역에서 염기 전환의 존재를 검출하는 방법:
    제41항 내지 제43항 중 어느 한 항에 따라 생성된 커플링된 시퀀싱 리드 쌍의 제1 영역 또는 이의 일부 및 제3 영역 또는 이의 일부를 참조 서열에 맵핑하는 단계이며, 여기서 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제3 영역을 통해 연장되는 것인 단계;
    제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 참조 서열을 사용하여 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및
    제3 영역에 대한 예상 시퀀싱 데이터 및 제3 영역에 대한 생성된 시퀀싱 데이터 사이의 차이에 기초하여 염기 전환의 존재를 검출하는 단계.
  45. 제44항에 있어서, 제3 영역에 대한 예상 시퀀싱 데이터가 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역에 대한 참조 서열을 사용하여 결정되는 것인 방법.
  46. 제44항에 있어서, 제3 영역에 대한 예상 시퀀싱 데이터가 제2 영역 흐름 순서, 제3 영역 흐름 순서, 제2 영역에 대한 참조 서열, 및 제3 영역의 서열과 연관된 생성된 서열 데이터를 사용하여 결정되고, 여기서 제3 영역의 서열과 연관된 생성된 서열 데이터가 제3 영역에 대해 생성된 동일한 또는 상이한 서열 데이터인 방법.
  47. 제44항 내지 제46항 중 어느 한 항에 있어서, 제3 영역에 대한 예상 시퀀싱 데이터가 바이너리 또는 넌-바이너리 흐름도를 포함하는 것인 방법.
  48. 제1항 내지 제25항 중 어느 한 항에 따라 생성된 복수의 커플링된 시퀀싱 리드 쌍을 어셈블리하는 것을 포함하는, 하나 이상의 컨센서스 서열을 생성하는 방법.
  49. 제48항에 있어서, 선택된 컨센서스 서열의 일부와 연관된 선택된 커플링된 시퀀싱 리드를 사용하여 하나 이상의 컨센서스 서열로부터 선택된 컨센서스 서열의 일부를 검증하는 단계이며, 여기서 선택된 커플링된 시퀀싱 리드를 생성할 때 제3 영역을 통해 연장된 프라이머는 제3 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 연장되는 것인 단계를 추가로 포함하며, 검증하는 단계는 하기를 포함하는 것인 방법:
    제2 영역 흐름 순서, 제3 영역 흐름 순서, 및 선택된 컨센서스 서열의 일부를 사용하여 선택된 커플링된 시퀀싱 리드의 제3 영역에 대한 예상 시퀀싱 데이터를 결정하는 단계; 및
    선택된 커플링된 시퀀싱 리드의 제3 영역에 대한 예상 시퀀싱 데이터를 제3 영역의 생성된 시퀀싱 데이터와 비교함으로써 선택된 컨센서스 서열의 일부를 검증하는 단계.
  50. 하기를 포함하는, 시험 변이체의 상태를 검증하는 방법:
    제1항 내지 제25항 중 어느 한 항에 따라 생성된 복수의 중첩 커플링된 시퀀싱 리드 쌍에 걸쳐 변이체의 상태를 비교하는 단계이며, 복수의 중첩 커플링된 시퀀싱 리드 쌍은 시험 변이체의 유전자좌에 상응하는 유전자좌를 포함하는 것인 단계;
    비교에 기초하여 변이체의 상태를 검증하는 단계.
  51. 하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법:
    제1항 내지 제25항 중 어느 한 항에 따라 커플링된 시퀀싱 리드 쌍을 생성하는 단계;
    폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계; 및
    폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재 또는 부재를 호출하는 단계.
  52. 제1항 내지 제51항 중 어느 한 항에 있어서, 제1 영역의 서열과 연관된 시퀀싱 데이터 또는 제3 영역의 서열과 연관된 시퀀싱 데이터가 복수의 흐름 위치 내의 각 흐름 위치에 혼입된 염기의 수를 나타내는 염기 카운트를 표시하는 흐름 신호를 포함하는 것인 방법.
  53. 제1항 내지 제52항 중 어느 한 항에 있어서, 흐름-사이클 순서가 동일한 순서로 반복되는 4개의 별도의 흐름을 포함하는 것인 방법.
  54. 제1항 내지 제52항 중 어느 한 항에 있어서, 흐름-사이클 순서가 5개 이상의 별도의 흐름을 포함하는 것인 방법.
  55. 제1항 내지 제54항 중 어느 한 항에 있어서, 커플링된 시퀀싱 리드 쌍을 생성하는 단계가 하기를 추가로 포함하는 것인 방법:
    제4 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 제4 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 제4 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제4 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 제4 영역을 통한 프라이머의 연장은 제1 영역 또는 제3 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계; 및
    표지된 뉴클레오티드를 사용하여 제4 영역을 통해 연장된 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제5 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계.
  56. 제55항에 있어서, 제5 영역의 시퀀싱 데이터를 제1 영역의 시퀀싱 데이터 또는 제3 영역의 시퀀싱 데이터와 연관시키는 것을 추가로 포함하는 방법.
  57. 제1항 내지 제56항 중 어느 한 항에 있어서, 폴리뉴클레오티드가 롤링 서클 증폭을 사용하여 증폭되는 것인 방법.
  58. 하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법:
    (a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA-증폭된 폴리뉴클레오티드를 생성하는 단계;
    (b) RCA-증폭된 폴리뉴클레오티드를 프라이머에 혼성화하여 혼성화된 주형을 형성하는 단계;
    (c) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
    (d) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 추가로 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되거나, 또는 (iii) 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장은 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 단계;
    (e) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
    (f) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계;
    (g) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계;
    (h) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및
    (i) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계.
  59. 제58항에 있어서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통한 프라이머의 연장이 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역을 통한 프라이머의 연장보다 빠르게 진행하는 것인 방법.
  60. 하기를 포함하는, 시험 샘플에서 짧은 유전자 변이체를 검출하는 방법:
    (a) 롤링 서클 증폭 (RCA)을 사용하여 폴리뉴클레오티드를 증폭하여 적어도 폴리뉴클레오티드의 제1 카피 및 폴리뉴클레오티드의 제2 카피를 포함하는 RCA-증폭된 폴리뉴클레오티드를 생성하는 단계;
    (b) 프라이머를 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제1 영역에 혼성화하여 혼성화된 주형을 형성하는 단계;
    (c) 제2 영역 흐름 순서로 제공된 뉴클레오티드를 사용하여 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 (i) 프라이머는 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되거나, 또는 (ii) 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 제2 영역 흐름 순서의 적어도 하나의 단계에서 사용되는 것인 단계;
    (d) 표지된 뉴클레오티드를 사용하여 프라이머를 추가로 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계;
    (e) 폴리뉴클레오티드의 제3 영역에 대해 생성된 시퀀싱 데이터를 폴리뉴클레오티드의 제3 영역의 예상 서열에 대한 예상 시퀀싱 데이터와 비교하는 단계;
    (f) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 단계;
    (g) 표지된 뉴클레오티드를 사용하여 프라이머를 연장하고, 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계; 및
    (h) 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 아이덴티티를 호출하는 단계.
  61. 제60항에 있어서, 제1 영역이 프라이머에 의해 표적화된 자연 발생 서열을 포함하는 것인 방법.
  62. 제58항 내지 제61항 중 어느 한 항에 있어서, 폴리뉴클레오티드의 제2 카피 내의 폴리뉴클레오티드의 제2 영역의 서열과 연관된 시퀀싱 데이터가 폴리뉴클레오티드의 제2 영역에서 짧은 유전자 변이체의 존재를 호출하는 것에 기초하여 동적으로 생성되는 것인 방법.
  63. 제58항 내지 제62항 중 어느 한 항에 있어서, 프라이머가 연장 프라이머에 혼입된 뉴클레오티드의 표지의 존재 또는 부재를 검출하지 않고 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 연장되는 것인 방법.
  64. 제58항 내지 제63항 중 어느 한 항에 있어서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드의 적어도 일부가 비표지된 뉴클레오티드인 방법.
  65. 제58항 내지 제64항 중 어느 한 항에 있어서, 폴리뉴클레오티드의 제1 카피 내의 폴리뉴클레오티드의 제2 영역을 통해 프라이머를 연장하는데 사용되는 뉴클레오티드가 비표지된 뉴클레오티드인 방법.
  66. 하기를 포함하는, 시퀀싱 클러스터 내에서 시퀀싱 프라이머를 동기화하는 방법:
    (a) 프라이머를 시퀀싱 클러스터 내의 폴리뉴클레오티드 카피에 혼성화하는 단계;
    (b) 제1 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제1 영역을 통해 프라이머를 연장하는 단계;
    (c) 하나 이상의 재위상화 흐름을 사용하여 폴리뉴클레오티드 카피의 제2 영역을 통해 프라이머를 연장하는 단계이며, 여기서 적어도 2개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 하나 이상의 재위상화 흐름 각각에서 사용되는 것인 단계; 및
    (d) 제3 영역 흐름 사이클에 따라 표지된 뉴클레오티드를 사용하여 폴리뉴클레오티드 카피의 제3 영역을 통해 프라이머를 연장하는 단계.
  67. 제66항에 있어서, 3개의 상이한 유형의 뉴클레오티드 염기의 혼합물이 하나 이상의 재위상화 흐름 중 적어도 하나에서 사용되는 것인 방법.
  68. 제66항 또는 제67항에 있어서, 하나 이상의 재위상화 흐름이 4개 이상의 흐름 단계를 포함하는 것인 방법.
  69. 제68항에 있어서, 하나 이상의 재위상화 흐름이 임의의 순서로 하기를 포함하는 것인 방법:
    (i) A, C 및 G 뉴클레오티드를 포함하고 T 뉴클레오티드를 생략한 혼합물을 포함하는 제1 흐름;
    (ii) T, C 및 G 뉴클레오티드를 포함하고 A 뉴클레오티드를 생략한 혼합물을 포함하는 제2 흐름;
    (iii) T, A 및 G 뉴클레오티드를 포함하고 C 뉴클레오티드를 생략한 혼합물을 포함하는 제3 흐름; 및
    (iv) T, A 및 C 뉴클레오티드를 포함하고 G 뉴클레오티드를 생략한 혼합물을 포함하는 제4 흐름.
  70. 제66항 내지 제69항 중 어느 한 항에 있어서, 제1 영역을 통해 프라이머를 연장하면서 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 제1 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함하는 방법.
  71. 제66항 내지 제70항 중 어느 한 항에 있어서, 제3 영역을 통해 프라이머를 연장하면서 혼입된 표지된 뉴클레오티드의 존재 또는 부재를 검출함으로써 제3 영역의 서열과 연관된 시퀀싱 데이터를 생성하는 단계를 포함하는 방법.
KR1020217039569A 2019-05-03 2020-05-01 합성 방법에 의한 고속-정방향 시퀀싱 KR20220032516A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962842534P 2019-05-03 2019-05-03
US62/842,534 2019-05-03
US201962904274P 2019-09-23 2019-09-23
US62/904,274 2019-09-23
US202062971530P 2020-02-07 2020-02-07
US62/971,530 2020-02-07
PCT/US2020/031163 WO2020227143A1 (en) 2019-05-03 2020-05-01 Fast-forward sequencing by synthesis methods

Publications (1)

Publication Number Publication Date
KR20220032516A true KR20220032516A (ko) 2022-03-15

Family

ID=73050882

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217039569A KR20220032516A (ko) 2019-05-03 2020-05-01 합성 방법에 의한 고속-정방향 시퀀싱

Country Status (9)

Country Link
US (4) US20200377937A1 (ko)
EP (1) EP3963104A4 (ko)
JP (1) JP2022533801A (ko)
KR (1) KR20220032516A (ko)
CN (1) CN114096682A (ko)
AU (1) AU2020269377A1 (ko)
CA (1) CA3138862A1 (ko)
IL (1) IL287707A (ko)
WO (1) WO2020227143A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114072523A (zh) 2019-05-03 2022-02-18 阿尔缇玛基因组学公司 用于检测核酸变体的方法
CA3138862A1 (en) * 2019-05-03 2020-12-10 Ultima Genomics, Inc. Fast-forward sequencing by synthesis methods
JP7194311B2 (ja) 2019-07-10 2022-12-21 ウルティマ ジェノミクス, インコーポレイテッド Rnaシークエンシング法
CA3165571C (en) * 2019-12-23 2023-02-07 Singular Genomics Systems, Inc. Methods for long read sequencing
US20240018599A1 (en) * 2020-11-18 2024-01-18 Ultima Genomics, Inc. Methods and systems for detecting residual disease

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5714320A (en) 1993-04-15 1998-02-03 University Of Rochester Rolling circle synthesis of oligonucleotides and amplification of select randomized circular oligonucleotides
DE69837913T2 (de) * 1997-04-01 2008-02-07 Solexa Ltd., Saffron Walden Verfahren zur vervielfältigung von nukleinsäure
US8192930B2 (en) * 2006-02-08 2012-06-05 Illumina Cambridge Limited Method for sequencing a polynucleotide template
US8364417B2 (en) 2007-02-15 2013-01-29 454 Life Sciences Corporation System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
JP5808515B2 (ja) 2006-02-16 2015-11-10 454 ライフ サイエンシーズ コーポレイション 核酸配列データのプライマー伸長誤差を補正するためのシステムおよび方法
WO2008097887A2 (en) 2007-02-02 2008-08-14 Emory University Methods of direct genomic selection using high density oligonucleotide microarrays
CN101802218A (zh) 2007-06-28 2010-08-11 454生命科学公司 在核酸测序中用于自适应试剂控制的系统和方法
US8236532B2 (en) 2008-12-23 2012-08-07 Illumina, Inc. Multibase delivery for long reads in sequencing by synthesis protocols
WO2010117804A2 (en) 2009-03-30 2010-10-14 The Regents Of The University Of California Mostly natural dna sequencing by synthesis
US20100330569A1 (en) * 2009-04-23 2010-12-30 Intelligent Bio-Systems, Inc. Hydroxymethyl Linkers For Labeling Nucleotides
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
EP2633069B1 (en) 2010-10-26 2015-07-01 Illumina, Inc. Sequencing methods
US20130090860A1 (en) 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US20120252682A1 (en) * 2011-04-01 2012-10-04 Maples Corporate Services Limited Methods and systems for sequencing nucleic acids
US9428807B2 (en) 2011-04-08 2016-08-30 Life Technologies Corporation Phase-protecting reagent flow orderings for use in sequencing-by-synthesis
KR101940833B1 (ko) * 2011-05-27 2019-01-21 제납시스 인크. 유전자 및 생물학적 분석을 위한 시스템 및 방법
US20130345066A1 (en) 2012-05-09 2013-12-26 Life Technologies Corporation Systems and methods for identifying sequence variation
US10192024B2 (en) 2012-05-18 2019-01-29 454 Life Sciences Corporation System and method for generation and use of optimal nucleotide flow orders
US20140052381A1 (en) 2012-08-14 2014-02-20 Life Technologies Corporation Systems and Methods for Detecting Homopolymer Insertions/Deletions
US20140296080A1 (en) 2013-03-14 2014-10-02 Life Technologies Corporation Methods, Systems, and Computer Readable Media for Evaluating Variant Likelihood
EP3965111A1 (en) 2013-08-30 2022-03-09 Personalis, Inc. Methods and systems for genomic analysis
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
US20160110499A1 (en) * 2014-10-21 2016-04-21 Life Technologies Corporation Methods, systems, and computer-readable media for blind deconvolution dephasing of nucleic acid sequencing data
CN106434873B (zh) 2015-08-13 2021-08-27 生捷科技控股公司 使核酸分子同步化的方法
WO2019084158A1 (en) 2017-10-26 2019-05-02 Ultima Genomics, Inc. METHODS AND SYSTEMS FOR SEQUENCE CALL
US10344328B2 (en) 2017-11-17 2019-07-09 Ultima Genomics, Inc. Methods for biological sample processing and analysis
CN112654714A (zh) 2018-12-17 2021-04-13 伊卢米纳剑桥有限公司 用于测序的引物寡核苷酸
CA3138862A1 (en) * 2019-05-03 2020-12-10 Ultima Genomics, Inc. Fast-forward sequencing by synthesis methods
CN114072523A (zh) 2019-05-03 2022-02-18 阿尔缇玛基因组学公司 用于检测核酸变体的方法
US20200392584A1 (en) 2019-05-17 2020-12-17 Ultima Genomics, Inc. Methods and systems for detecting residual disease
JP7194311B2 (ja) 2019-07-10 2022-12-21 ウルティマ ジェノミクス, インコーポレイテッド Rnaシークエンシング法

Also Published As

Publication number Publication date
US11459609B2 (en) 2022-10-04
EP3963104A1 (en) 2022-03-09
CA3138862A1 (en) 2020-12-10
WO2020227143A1 (en) 2020-11-12
US20200377937A1 (en) 2020-12-03
CN114096682A (zh) 2022-02-25
US20210054442A1 (en) 2021-02-25
EP3963104A4 (en) 2023-11-08
JP2022533801A (ja) 2022-07-25
US20220170089A1 (en) 2022-06-02
AU2020269377A1 (en) 2021-11-25
US20230060685A1 (en) 2023-03-02
IL287707A (en) 2021-12-01

Similar Documents

Publication Publication Date Title
US11459609B2 (en) Accelerated sequencing methods
US20220115090A1 (en) Systems and methods for nucleic acid sequence assembly
JP7143486B2 (ja) 深層ニューラルネットワークに基づくバリアント分類器
US10777301B2 (en) Hierarchical genome assembly method using single long insert library
US11763915B2 (en) Methods for detecting nucleic acid variants
US20140129201A1 (en) Validation of genetic tests
Orton et al. Distinguishing low frequency mutations from RT-PCR and sequence errors in viral deep sequencing data
JP2018513445A (ja) 構造変異の特定及びバリアントコールデータを用いたフェージングのためのシステム及び方法
Cheng et al. Methods to improve the accuracy of next-generation sequencing
US20240141425A1 (en) Correcting for deamination-induced sequence errors
US20240043918A1 (en) Methods and systems for determinng sequencing read distances
US20160055293A1 (en) Systems, Algorithms, and Software for Molecular Inversion Probe (MIP) Design
Bolognini Unraveling tandem repeat variation in personal genomes with long reads
Heinrich Aspects of Quality Control for Next Generation Sequencing Data in Medical Genetics
JPWO2018066317A1 (ja) 必要なローカス数を決定する方法および必要なSNPs座位数を決定する方法