KR102515638B1 - 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법 - Google Patents

뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR102515638B1
KR102515638B1 KR1020227011278A KR20227011278A KR102515638B1 KR 102515638 B1 KR102515638 B1 KR 102515638B1 KR 1020227011278 A KR1020227011278 A KR 1020227011278A KR 20227011278 A KR20227011278 A KR 20227011278A KR 102515638 B1 KR102515638 B1 KR 102515638B1
Authority
KR
South Korea
Prior art keywords
sequencing
nucleotide subsequence
reference sequence
nucleotide
variant calling
Prior art date
Application number
KR1020227011278A
Other languages
English (en)
Other versions
KR20220047887A (ko
Inventor
프란시스코 호세 가르시아
컴 라치
아론 데이
마이클 제이. 카니
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Priority to KR1020237010257A priority Critical patent/KR20230044335A/ko
Publication of KR20220047887A publication Critical patent/KR20220047887A/ko
Application granted granted Critical
Publication of KR102515638B1 publication Critical patent/KR102515638B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 명세서에는, 시간 효율적인 방식으로 뉴클레오타이드 서열분석 데이터의 이차 분석을 수행하기 위한 시스템 및 방법이 개시된다. 일부 실시형태는 서열 판독이 서열분석 시스템에 의해 생성되는 동안 반복적으로 이차 분석을 수행하는 단계를 포함한다. 이차 분석은 참조 서열(예를 들어, 인간 참조 게놈 서열)에 대한 서열 판독의 정렬 및 샘플과 참조 간의 차이를 검출하기 위한 이러한 정렬의 활용 양쪽 모두를 포함할 수 있다. 이차 분석은 유전자 차이의 검출, 변이체 검출 및 유전형질 분석, 단일 뉴클레오타이드 다형성(SNP), 작은 삽입과 결손(indels) 및 복제수 변이(CNV)와 염색체 재배열과 같은 DNA의 구조 변화의 식별을 가능하게 할 수 있다.

Description

뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법{SYSTEM AND METHOD FOR SECONDARY ANALYSIS OF NUCLEOTIDE SEQUENCING DATA}
관련 출원
본 출원은 2016년 10월 7일자로 출원된 미국 가출원 제62/405824호에 대한 우선권을 주장하며; 그 전체 내용이 참조로 본 명세서에 포함된다.
분야
본 개시내용은 일반적으로 DNA 서열분석 분야에 관한 것으로, 보다 구체적으로 차세대 서열분석 적용을 위해 실시간 이차 분석을 수행하기 위한 시스템 및 방법에 관한 것이다.
유전자 변이(genetic mutation)는 서열 판독에서, 참조 서열과 관련하여, 변이체(variants)를 식별함으로써 식별될 수 있다. 변이체를 식별하기 위해서, 서열분석 기구를 사용하여 피검체로부터의 샘플을 완전히 서열분석하여 서열 판독(sequence read)을 얻을 수 있다. 서열 판독을 얻은 후, 서열 판독은 변이체 호출 전에 어셈블링되거나 정렬될 수 있다. 따라서, 변이체를 식별하는 것은, 순차적으로 수행되고 서열분석 프로세스의 종료 후에 수행하는 데 시간이 걸릴 수 있는 별개의 단계를 포함한다.
본 명세서에는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템 및 방법이 개시되어 있다. 일 실시형태에서, 상기 시스템은, 참조 뉴클레오타이드 서열을 포함하는 메모리; 및 방법을 수행하는 명령어를 실행하도록 구성되는 프로세서를 포함하며, 상기 방법은, 서열분석 시스템으로부터 판독의 제1 뉴클레오타이드 하위서열(subsequence)을 수신하는 단계; 참조 서열 상에서 판독의 제1 복수의 후보 위치를 결정하기 위해 제1 정렬 경로를 사용하여 제1 뉴클레오타이드 하위서열을 처리하는 단계; 결정된 후보 위치에 기초하여 제1 뉴클레오타이드 하위서열이 참조 서열에 정렬시키는지의 여부를 결정하는 단계; 서열분석 시스템으로부터 제2 뉴클레오타이드 하위서열을 수신하는 단계; 판독이 참조 서열에 정렬되면 제2 정렬 경로를 사용하고, 그렇지 않으면 제1 정렬 경로를 사용하여 참조 서열에 정렬시키는 판독의 제2 복수의 후보 위치를 결정하기 위해 제2 뉴클레오타이드 하위서열을 처리하는 단계를 포함하고, 제2 정렬 경로는 판독의 제2 복수의 후보 위치를 결정하기 위해 제1 정렬 경로보다 계산상 더욱 효율적이다.
일 실시형태에서, 상기 방법은, 서열분석 실행 중에 서열분석 시스템으로부터 제1 뉴클레오타이드 하위서열을 수신하는 단계; 및 제1 분석 경로 또는 제2 분석 경로를 사용하여 참조 서열에 기초하여 판독의 제1 뉴클레오타이드 하위서열의 이차 분석을 수행하는 단계를 포함하며, 제2 분석 경로는 이차 분석을 수행함에 있어서 제1 처리 경로보다 계산상 더욱 효율적이다.
도 1은 실시간 분석을 수행하기 위한 예시적인 서열분석 시스템을 나타내는 개략도이다.
도 2는 실시간 분석을 수행하기 위한 예시적인 컴퓨터 시스템의 기능 블록도를 나타낸다.
도 3은 합성에 의한 서열분석을 위한 예시적인 방법의 흐름도이다.
도 4는 염기 호출(base calling)을 수행하기 위한 예시적인 방법의 흐름도이다.
도 5a 및 도 5b는 예시적인 반복 정렬 및 변이체 호출을 나타낸다.
도 6은 실시간 이차 서열 분석을 수행하기 위한 예시적인 방법의 흐름도이다.
도 7a 및 도 7b는 전통적인 이차 분석 방법(도 7a)과 이차 분석의 반복 방법(도 7b)을 비교하는 개략도이다.
도 8은 16-염기 간격(16-base interval)에서의 판독 생성의 개략도이다.
도 9a는 실시간 이차 분석을 수행하기 위한 예시적인 방법의 흐름도이다. 도 9b는 K-Mer당 처리된 데이터를 나타내는 예측선 그래프이다. 도 9c는 실행 시간을 나타내는 막대 차트이다.
도 10은 실시간 이차 분석을 수행하기 위한 예시적인 방법의 다른 흐름도이다.
도 11a 및 도 11b는 기존의 변이체 호출기(도 11a)와, 본 명세서에서 설명되는 바와 같이 높은 신뢰도의 낮은 처리 경로를 사용하는 변이체 호출기(도 11b)를 비교한다.
다음의 상세한 설명에서는, 그의 일부를 형성하는 첨부 도면을 참조한다. 도면에서, 유사한 기호는 통상적으로 문맥이 달리 지시하지 않는 한 유사한 구성요소를 식별한다. 상세한 설명, 도면 및 청구범위에서 설명되는 예시적인 실시형태는 제한하려는 것이 아니다. 본 명세서에서 제시되는 주제의 사상 또는 범위를 벗어나지 않고 다른 실시형태가 사용될 수 있고, 다른 변경이 이루어질 수 있다. 본 명세서에서 일반적으로 설명되고 도면에 도시된 바와 같이, 본 개시내용의 양태는, 본 명세서에서 명시적으로 고려되는 다양한 다른 구성으로 배치, 대체, 결합, 분리, 및 설계될 수 있음이 쉽게 이해될 것이다.
본 명세서에는, 시간 효율적인 방식으로 뉴클레오타이드 서열분석 데이터의 이차 분석을 수행하기 위한 시스템 및 방법이 개시된다. 일부 실시형태에서, 상기 방법은 서열 판독이 서열분석 시스템에 의해 생성되는 동안 반복적으로 이차 분석을 수행하는 단계를 포함한다. 이차 분석은 참조 서열(예를 들어, 인간 참조 게놈 서열)에 대한 서열 판독의 정렬 및 샘플과 참조 간의 차이를 검출하기 위한 이러한 정렬의 활용 양쪽 모두를 포함할 수 있다. 이차 분석은 유전자 차이의 검출, 변이체 검출 및 유전형질 분석(genotyping), 단일 뉴클레오타이드 다형성(SNP), 작은 삽입과 결손(insertions and deletion: indels) 및 복제수 변이(CNV)와 염색체 재배열과 같은 DNA의 구조적 변화의 식별을 가능하게 할 수 있다.
서열 판독이 생성되는 동안 이차 분석을 수행함으로써, 시스템 및 방법은 예비 변이체 호출을 실시간으로 반복적으로(또는 영 또는 낮은 대기 시간으로) 결정할 수 있다. 변이체 결정의 최종 결과는 서열분석 실행의 종료 후에 곧(또는 직후에) 이용 가능할 수 있다. 대안적으로, 실행 중에 충분한 확신을 가지고 변이체 호출을 사용할 수 있는 경우에 서열분석 실행은 조기에 종료될 수 있다. 일부 실시형태에서, 변이체 결정(예를 들어, 변이체 호출)과 관련된 정보만이 서열분석 시스템으로부터 전달된다. 이것은, 외부에 있는 시스템에서 변이체 결정을 수행하는 것과 비교하여 필요한 데이터 대역폭을 감소시키거나, 최소화할 수 있다. 또한, 변이체 정보만이 추가 처리를 위해 컴퓨팅 시스템(예를 들어, 클라우드 컴퓨팅 시스템)으로 전송될 수 있다. 이 실시형태에서, 서열분석 실행은 전체 서열분석 프로세스의 완료 전에 종료될 수 있다. 예를 들어, 서열분석 실행의 다수의 서열분석 사이클 후에 관심 대상의 병원체의 신원이 결정되면, 서열분석 실행이 종료될 수 있다. 따라서, 특정 답변(예를 들어, 병원균 식별)까지의 시간이 감소될 수 있다. 일 실시형태에서, 시스템의 출력 및 중간 결과는 중복, 정확한 매칭, 단일 및 이중 SNP, 및 단일 및 이중 인델(indel)의 히스토그램을 포함할 수 있다.
정의
달리 정의되지 않는 한, 본 명세서에서 사용되는 기술 및 과학 용어는 본 개시내용이 속하는 기술분야의 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 예를 들어, 문헌[Singleton et al., Dictionary of Microbiology and Molecular Biology 2nd ed., J. Wiley & Sons (New York, NY 1994); Sambrook et al., Molecular Cloning, A Laboratory Manual, Cold Springs Harbor Press (Cold Springs Harbor, NY 1989)]을 참조한다. 본 개시내용의 목적을 위해, 다음의 용어가 아래에 정의된다.
실시간 이차 분석을 수행하기 위한 시퀀서
본 명세서에는 이차 분석을 시간 및/또는 연산 자원의 효율적인 방식으로 반복적으로 수행하기 위한 시스템 및 방법이 개시된다. 이차 분석은 참조 서열(예를 들어, 인간 참조 게놈 서열)에 대한 서열 판독의 정렬 및 샘플과 참조 간의 차이를 검출하기 위한 이러한 정렬의 활용 양쪽 모두를 포함할 수 있다. 이차 분석은 유전자 차이의 검출, 변이체 검출 및 유전형질 분석(genotyping), 단일 뉴클레오타이드 다형성(SNP), 작은 삽입과 결손(insertions and deletion: indels) 및 복제수 변이(CNV)와 염색체 재배열과 같은 DNA의 구조적 변화의 식별을 가능하게 할 수 있다. 이차 분석은 하나의 서열분석 사이클 동안 수행될 수 있는 한편, 서열분석 데이터는 다음의 서열분석 사이클 동안 생성된다.
도 1은 실시간 이차 분석을 수행하기 위한 예시적인 서열분석 시스템(100)을 나타내는 개략도이다. 서열분석 시스템(100)에 의해 이용되는 서열분석 방법의 비한정 예는 합성에 의한 서열분석 및 헬리코프 단일 분자 서열분석을 포함할 수 있다. 서열분석 시스템(100)은, 서열분석 시스템(100)의 일부인 유체 시스템(104)에 의해 공급되는 서열분석 시약을 사용하여 원시 서열분석 데이터를 생성하도록 구성된 광학 시스템(102)을 포함할 수 있다. 원시 서열분석 데이터는 광학 시스템(102)에 의해 포착된 형광 이미지를 포함할 수 있다. 서열분석 시스템(100)의 일부인 컴퓨터 시스템(106)은 통신 채널(108a 및 108b)을 통해 광학 시스템(102) 및 유체 시스템(104)을 제어하도록 구성될 수 있다. 예를 들어, 광학 시스템(102)의 컴퓨터 인터페이스(110)는 통신 채널(108a)을 통해 컴퓨터 시스템(106)과 통신하도록 구성될 수 있다.
서열분석 반응 중에, 유체 시스템(104)은 하나 이상의 시약 튜브(112)를 통해 시약의 흐름을 장착 스테이지(116) 상에 위치하는 플로우셀(flowcell)(114)로 그리고 플로우셀로부터 유도할 수 있다. 시약은, 예를 들어 형광 표지된 뉴클레오타이드, 완충제, 효소, 및 절단 시약(cleavage reagent)일 수 있다. 플로우셀(114)은 적어도 하나의 유체 채널을 포함할 수 있다. 플로우셀(114)은 패터닝된 어레이 플로우셀 또는 랜덤 어레이 플로우셀일 수 있다. 플로우셀(114)은 적어도 하나의 유체 채널에서 서열분석될 단일 가닥 폴리뉴클레오타이드의 다중 클러스터를 포함할 수 있다. 폴리뉴클레오타이드의 길이는, 예를 들어 200개의 염기 내지 1000개의 염기의 범위에서 변할 수 있다. 폴리뉴클레오타이드는 플로우셀(114)의 하나 이상의 유체 채널에 부착될 수 있다. 일부 실시형태에서, 플로우셀(114)은 복수의 비드를 포함할 수 있고, 각각의 비드는 서열분석될 폴리뉴클레오타이드의 다수의 복제를 포함할 수 있다. 장착 스테이지(116)는 광학 시스템(102)의 다른 구성요소와 관련하여 플로우셀(114)의 적절한 정렬 및 이동을 가능하게 하도록 구성될 수 있다. 일 실시형태에서, 장착 스테이지(116)는 플로우셀(114)을 렌즈(118)와 정렬시키는 데 사용될 수 있다.
광학 시스템(102)은 미리 결정된 파장에서 광을 생성하도록 구성된 다수의 레이저(120)를 포함할 수 있다. 레이저(120)에 의해 생성된 광은 광섬유 케이블(122)을 통과하여 플로우셀(114) 내의 형광 라벨을 여기시킬 수 있다. 초점 조절기(focuser)(124) 상에 장착된 렌즈(118)는 z축을 따라 이동할 수 있다. 초점 조절된 형광 방출은 검출기(126), 예를 들어 전하 결합 소자(CCD) 센서 또는 상보형 금속 산화물 반도체(CMOS) 센서에 의해 검출될 수 있다.
광학 시스템(102)의 필터 어셈블리(128)는 플로우셀(114) 내의 형광 라벨의 형광 방출을 필터링하도록 구성될 수 있다. 필터 어셈블리(128)는 제1 필터 및 제2 필터를 포함할 수 있다. 각각의 필터는 시스템에서 사용되는 형광 분자의 유형에 따라 롱패스 필터, 숏패스 필터, 또는 밴드패스 필터일 수 있다. 제1 필터는 검출기(126)에 의해 제1 형광 라벨의 형광 방출을 검출하도록 구성될 수 있다. 제2 필터는 검출기(126)에 의해 제2 형광 라벨의 형광 방출을 검출하도록 구성될 수 있다. 필터 어셈블리(128) 내의 2개의 필터에 의해, 검출기(126)는 형광 방출의 2개의 상이한 파장을 검출할 수 있다.
일부 실시형태에서, 광학 시스템(102)은 형광 방출을 분리하도록 구성된 다이크로익(dichroic)을 포함할 수 있다. 광학 시스템(102)은 2개의 검출기, 즉 제1 파장에서의 형광 방출을 검출하기 위해 제1 필터와 결합된 제1 검출기 및 제2 파장에서의 형광 방출을 검출하기 위해 제2 필터와 결합된 제2 검출기를 포함할 수 있다.
사용 시, 서열분석될 폴리뉴클레오타이드를 갖는 샘플이 플로우셀(114) 내로 로딩되고 장착 스테이지(116) 내에 배치된다. 그런 다음, 컴퓨터 시스템(106)은 유체 시스템(104)을 작동시켜 서열분석 사이클을 시작한다. 서열분석 반응 중에, 컴퓨터 시스템(106)은 통신 인터페이스(108b)를 통해 유체 시스템(104)에 지시하여, 시약, 예를 들어 뉴클레오타이드 유사체를 플로우셀(114)에 공급한다. 통신 인터페이스(108a) 및 컴퓨터 인터페이스(110)를 통해, 컴퓨터 시스템(106)은 광학 시스템(102)의 레이저(120)를 제어하여, 미리 결정된 파장에서 광을 생성하고 서열분석될 폴리뉴클레오타이드에 혼성화된 성장 프라이머(growing primer) 내에 혼입된 형광 라벨과 결합된 뉴클레오타이드 유사체 상에 조광(shine)한다. 컴퓨터 시스템(106)은 광학 시스템(102)의 검출기(126)를 제어하여, 형광 이미지 내의 뉴클레오타이드 유사체의 방출 스펙트럼을 포착한다. 컴퓨터 시스템(106)은 검출기(126)로부터 형광 이미지를 수신하고 수신된 형광 이미지를 처리하여, 서열분석되는 폴리뉴클레오타이드의 뉴클레오타이드 서열을 결정한다.
컴퓨터 시스템
서열분석 시스템(100)의 컴퓨터 시스템(106)은 전술한 바와 같이 광학 시스템(102) 및 유체 시스템(104)을 제어하도록 구성될 수 있다. 컴퓨터 시스템(106)에 대해 많은 구성이 가능하지만, 일 실시형태가 도 2에 도시되어 있다. 도 2에 나타낸 바와 같이, 컴퓨터 시스템(106)은 메모리(204), 스토리지(206), 및 통신 인터페이스(208)와 전기 통신하는 프로세서(202)를 포함할 수 있다. 일 실시형태에서, 컴퓨터 시스템(106)은 서열 정렬을 수행하고 변이체 호출을 생성하기 위해 필드 프로그래머블 게이트 어레이(FPGA), 그래픽 처리 유닛(GPU), 및/또는 벡터 중앙 처리 유닛(CPU)을 포함한다.
프로세서(202)는, 유체 시스템(104)이 서열분석 반응 중에 플로우셀(114)에 시약을 공급하게 하는 명령어를 실행하도록 구성될 수 있다. 프로세서(202)는, 광학 시스템(102)의 레이저(120)를 제어하여 미리 결정된 파장의 광을 생성하는 명령어를 실행할 수 있다. 프로세서(202)는, 광학 시스템(102)의 검출기(126)를 제어하고 검출기(126)로부터 데이터를 수신하는 명령어를 실행할 수 있다. 프로세서(202)는, 검출기(126)로부터 수신된 데이터, 예를 들어 형광 이미지를 처리하고, 검출기(126)로부터 수신된 데이터에 기초하여 폴리뉴클레오타이드의 뉴클레오타이드 서열을 결정하기 위한 명령어를 실행할 수 있다.
메모리(204)는, 서열분석 시스템(100)의 전원이 켜질 때에 컴퓨터 시스템(106)의 기능을 수행하도록 프로세서(202)를 구성하기 위한 명령어를 저장하도록 구성될 수 있다. 서열분석 시스템(100)의 전원이 꺼지면, 스토리지(206)는 컴퓨터 시스템(106)의 기능을 수행하도록 프로세서(202)를 구성하기 위한 명령어를 저장할 수 있다. 통신 인터페이스(208)는 컴퓨터 시스템(106), 광학 시스템(102), 및 유체 시스템(104) 간의 통신을 용이하게 하도록 구성될 수 있다.
컴퓨터 시스템(106)은 서열분석 시스템(100)의 서열분석 결과(변이체 호출과 같은 이차 분석의 결과를 포함함)를 표시하기 위한 표시 장치(미도시)와 통신하도록 구성된 사용자 인터페이스(210)를 포함할 수 있다. 사용자 인터페이스(210)는 서열분석 시스템(100)의 사용자로부터의 입력을 수신하도록 구성될 수 있다. 컴퓨터 시스템(106)의 광학 시스템 인터페이스(212) 및 유체 시스템 인터페이스(214)는 도 1에 도시된 통신 링크(108a 및 108b)를 통해 광학 시스템(102) 및 유체 시스템(104)을 제어하도록 구성될 수 있다. 예를 들어, 광학 시스템 인터페이스(212)는 통신 링크(108a)를 통해 광학 시스템(102)의 컴퓨터 인터페이스(110)와 통신할 수 있다.
컴퓨터 시스템(106)은, 검출기(126)로부터 수신된 데이터를 이용하여 폴리뉴클레오타이드의 뉴클레오타이드 서열을 결정하도록 구성된 핵 염기 결정기(216)를 포함할 수 있다. 핵 염기 결정기(216)는 검출기(126)에 의해 포착된 형광 이미지를 이용하여 플로우셀(114) 내의 폴리뉴클레오타이드 클러스터의 위치의 주형을 생성할 수 있다. 핵 염기 결정기(216)는 생성된 위치 주형에 기초하여 검출기(126)에 의해 포착된 형광 이미지에서 플로우셀(114) 내의 폴리뉴클레오타이드 클러스터의 위치를 등록할 수 있다. 핵 염기 결정기(216)는 형광 이미지로부터 형광 방출의 강도를 추출하여 추출된 강도를 생성할 수 있다. 핵 염기 결정기(216)는 추출된 강도로부터 폴리뉴클레오타이드의 염기를 결정할 수 있다. 핵 염기 결정기(216)는 결정된 폴리뉴클레오타이드의 염기의 품질 스코어를 결정할 수 있다.
컴퓨터 시스템(106)은 반복 얼라이너(iterative aligner)(218) 및 Strelka 변이체 호출기(sites.google.com/site/strelkasomaticvariantcaller/home/faq)와 같은 변이체 호출기(220)를 포함할 수 있다. 서열분석 사이클 중에, 반복 얼라이너(218)는 핵 염기 결정기(216)에 의해 결정된 서열 판독을 참조 서열에 정렬시킬 수 있다. 정렬된 서열 판독은 연관된 스코어를 가질 수 있다. 스코어는 서열 판독이 참조 서열에 정확히 정렬되었을 확률(예를 들어, 부정합 백분율)일 수 있다. 일부 구현예에서, 컴퓨터 시스템(106)은 서열 판독을 참조 서열에 정렬시키고 변이체 호출을 결정하기 위해, 필드 프로그래머블 게이트 어레이(FPGA) 또는 그래픽 처리 유닛(GPU)과 같은 하드웨어를 포함할 수 있다. 일부 실시형태에서, 반복 얼라이너(218) 및 변이체 호출기(220)는 컴퓨터 시스템(106)과는 별개의 컴퓨터 시스템에 의해 구현될 수 있다. 일부 실시형태에서, 컴퓨터 시스템(106)은 서열분석 시스템(100)의 통합된 구성요소일 수 있다. 일부 실시형태에서, 광학 시스템(102), 유체 시스템(104), 및/또는 컴퓨터 시스템(106)은 하나의 기계에 통합될 수 있다.
합성에 의한 서열분석
도 3은 서열분석 시스템(100)을 사용하는 합성에 의한 서열분석을 위한 예시적인 방법(300)의 흐름도이다. 방법(300)이 블록(305)에서 시작한 후에, 단편화된 이중 가닥 폴리뉴클레오타이드 단편을 포함하는 플로우셀(114)이 블록(310)에서 수신된다. 단편화된 이중 가닥 폴리뉴클레오타이드 단편은 데옥시리보핵산(DNA) 샘플로부터 생성될 수 있다. DNA 샘플은 다양한 소스, 예를 들어 생물학적 샘플, 세포 샘플, 환경 샘플, 또는 이들의 임의의 조합일 수 있다. DNA 샘플은 환자로부터의 생물학적 유체, 조직, 및 세포 중 하나 이상을 포함할 수 있다. 예를 들어, DNA 샘플은 혈액, 소변, 뇌척수액, 흉수, 양수, 정액, 타액, 골수, 생검 샘플, 또는 이들의 임의의 조합으로부터 취득되거나 이를 포함할 수 있다.
DNA 샘플은 관심 대상의 세포로부터의 DNA를 포함할 수 있다. 관심 대상의 세포는 변할 수 있고, 일부 실시형태에서는 악성 표현형(malignant phenotype)을 나타낼 수 있다. 일부 실시형태에서, 관심 대상의 세포는 종양 세포, 골수 세포, 암 세포, 줄기 세포, 내피 세포, 바이러스에 감염된 세포, 병원체, 기생체 세포 또는 이들의 임의의 조합을 포함할 수 있다.
단편화된 이중 가닥 폴리뉴클레오타이드 단편의 길이는 200개의 염기 내지 1000개의 염기의 범위일 수 있다. 단편화된 이중 가닥 폴리뉴클레오타이드 단편을 포함하는 플로우셀(114)이 블록(310)에서 수신되면, 방법(300)은 블록(315)으로 진행하고, 여기서 이중 가닥 폴리뉴클레오타이드 단편이 플로우셀, 예를 들어 플로우셀(114)의 하나 이상의 채널의 내면에 부착된 폴리뉴클레오타이드 단편의 클러스터로 브릿지 증폭된다. 플로우셀의 하나 이상의 채널의 내면은 2개의 유형의 프라이머, 예를 들어 제1 프라이머 유형(P1) 및 제2 프라이머 유형(P2)을 포함할 수 있으며, DNA 단편은 잘 알려진 방법에 의해 증폭될 수 있다.
플로우셀(114) 내에 클러스터를 생성한 후에, 방법(300)은 합성에 의한 서열분석 프로세스를 시작할 수 있다. 합성에 의한 서열분석 프로세스는 단일 가닥 폴리뉴클레오타이드 단편의 클러스터의 뉴클레오타이드 서열을 결정하는 것을 포함할 수 있다. 서열 5'-P1-F-A2R-3'을 갖는 단일 가닥 폴리뉴클레오타이드 단편의 클러스터의 서열을 결정하기 위해서, 서열 A2R의 상보적인 서열 A2F를 갖는 프라이머에는 DNA 폴리메라제(polymerase)에 의해 0개, 1개 또는 2개의 라벨을 갖는 뉴클레오타이드 유사체가 블록(320)에서 추가되고 연장되어 성장 프라이머-폴리뉴클레오타이드를 형성할 수 있다.
각각의 서열분석 사이클 중에, 4개의 유형의 뉴클레오타이드 유사체가 성장 프라이머-폴리뉴클레오타이드 상에 추가되고 통합될 수 있다. 4개의 유형의 뉴클레오타이드 유사체는 상이한 변형을 가질 수 있다. 예를 들어, 제1 유형의 뉴클레오타이드는 어떠한 형광 라벨과도 결합(conjugate)되지 않은 데옥시구아노신 트리포스페이트(deoxyguanosine triphosphate: dGTP)의 유사체일 수 있다. 제2 유형의 뉴클레오타이드는 링커(linker)를 통해 제1 유형의 형광 라벨과 결합된 데옥시티미딘 트리포스페이트(deoxythymidine triphosphate: dTTP)의 유사체일 수 있다. 제3 유형의 뉴클레오타이드는 링커를 통해 제2 유형의 형광 라벨과 결합된 데옥시시티딘 트리포스페이트(deoxycytidine triphosphate: dCTP)의 유사체일 수 있다. 제4 유형의 뉴클레오타이드는 하나 이상의 링커를 통해 제1 유형의 형광 라벨과 제2 유형의 형광 라벨 양쪽 모두와 결합된 데옥시아데노신 트리포스페이트(deoxyadenosine triphosphate: dATP)의 유사체일 수 있다. 링커는 하나 이상의 절단기(cleavage group)를 포함할 수 있다. 후속하는 서열분석 사이클 전에, 형광 라벨이 뉴클레오타이드 유사체로부터 제거될 수 있다. 예를 들어, 뉴클레오타이드 유사체에 형광 라벨을 부착하는 링커는, 예를 들어 동일한 탄소 상에 아지드기 및/또는 알콕시기를 포함할 수 있어, 링커가 포스핀 시약에 의해 각각의 혼입 사이클 후에 절단되어, 후속하는 서열분석 사이클로부터 형광 라벨을 방출할 수 있다.
뉴클레오타이드 트리포스페이트는 3' 위치에서 가역적으로 차단되어, 서열분석이 제어되고 단 하나의 뉴클레오타이드 유사체만이 각각의 사이클에서 각각의 연장하는 프라이머-폴리뉴클레오타이드 상에 추가될 수 있다. 예를 들어, 뉴클레오타이드 유사체의 3' 리보스 위치는 포스핀 시약으로 절단함으로써 제거될 수 있는 알콕시 및 아지도 작용기 양쪽 모두를 포함할 수 있어, 더욱 연장될 수 있는 뉴클레오타이드를 생성한다. 뉴클레오타이드 유사체의 혼입 후, 유체 시스템(104)은 임의의 혼입되지 않은 뉴클레오시드 유사체 및 효소를 제거하기 위해 플로우셀(114)의 하나 이상의 채널을 세정할 수 있다. 후속하는 서열분석 사이클 전에, 가역성 3' 블록이 제거되어 다른 뉴클레오타이드 유사체가 각각의 연장하는 프라이머-폴리뉴클레오타이드 상에 추가될 수 있다.
블록(325)에서, 레이저(120)와 같은 레이저가 미리 결정된 파장에서 2개의 형광 라벨을 여기시킬 수 있다. 블록(330)에서, 형광 라벨로부터의 신호가 검출될 수 있다. 형광 라벨의 검출은, 예를 들어 2개의 필터를 사용하는 검출기(126)에 의해 제1 파장 및 제2 파장에서 2개의 형광 이미지에서의 형광 방출을 포착하는 것을 포함할 수 있다. 제1 형광 라벨의 형광 방출은 제1 파장에서, 또는 그 부근에서 있을 수 있고, 제2 형광 라벨의 형광 방출은 제2 파장에서, 또는 그 부근에서 있을 수 있다. 형광 이미지는 추후에 오프라인으로 처리하기 위해 저장될 수 있다. 일부 실시형태에서는, 형광 이미지가 실시간으로 각 클러스터에서 성장 프라이머-폴리뉴클레오타이드의 서열을 결정하기 위해 처리될 수 있다.
온라인 실시간 형광 이미징 처리에서, 검출된 형광 신호를 포함하는 형광 이미지는 블록(335)에서 처리될 수 있고, 혼입된 뉴클레오타이드의 염기가 결정될 수 있다. 결정된 각각의 뉴클레오타이드 염기에 대해, 품질 스코어가 블록(340)에서 결정될 수 있다. 결정 블록(345)에서, 예를 들어 신호의 품질 또는 미리 결정된 수의 염기 후에 기초하여 더 많은 뉴클레오타이드를 검출할 것인지의 여부에 대한 결정이 이루어질 수 있다. 더 많은 뉴클레오타이드가 검출되어야 하면, 다음의 서열분석 사이클의 뉴클레오타이드 결정이 블록(320)에서 수행될 수 있다. 일부 실시형태에서, 표지된 뉴클레오타이드는 클러스터에 대응하는 DNA 가닥의 일단에 추가될 수 있다. 표지된 뉴클레오타이드는 또한 클러스터에 대응하는 DNA 가닥의 타단에 추가될 수 있다. DNA 가닥의 일단에서의 판독은 종종 판독 1(Read 1) 세트라고 지칭되며, DNA 가닥의 타단에서의 해당 판독은 종종 판독 2(Read 2) 세트라고 지칭된다. 단일 폴리뉴클레오타이드 듀플렉스 상의 2 개소로부터의 서열의 2개 이상의 판독을 결정할 수 있게 하는 서열분석 기술은 페어드 엔드(paired-end: PE) 서열분석으로 알려져 있다. 단일 폴리뉴클레오타이드 듀플렉스 상의 2 개소로부터의 서열의 2개 이상의 판독은 판독 1 세트, 판독 2 세트 등으로 언급된다. 페어드 엔드 서열분석은 미국 특허출원 제14/683,580호에 기재되어 있고; 그 전체 내용이 본 명세서에 참조로 포함된다. 페어드 엔드 접근 방식의 이점은, 임의의 방식으로 2개의 독립적인 주형을 서열분석하는 것보다 단일 주형으로부터의 2개의 스트레치를 서열분석하는 것으로부터 얻어지는 정보가 상당히 더 많다는 것이다.
다음의 서열분석 사이클 전에, 형광 라벨이 뉴클레오타이드 유사체로부터 제거될 수 있고, 가역성 3' 블록이 제거될 수 있어 다른 뉴클레오타이드 유사체가 각각의 연장하는 프라이머-폴리뉴클레오타이드 상에 추가될 수 있다. 모든 형광 이미지가 처리된 후에, 방법(300)은 블록(350)에서 종료될 수 있다.
염기 호출
염기 호출은 구아닌(G), 티민(T), 시토신(C), 또는 아데닌(A)인 것으로 서열분석되는 성장 프라이머-폴리뉴클레오타이드의 클러스터 내에 혼입된 뉴클레오타이드의 염기를 결정하는 프로세스를 지칭할 수 있다. 도 4는 서열분석 시스템(100)을 사용하여 염기 호출을 수행하기 위한 예시적인 방법(400)의 흐름도이다. 도 3에 도시된 블록(335)에서 검출된 신호를 처리하는 것은 방법(400)의 염기 호출을 수행하는 것을 포함할 수 있다. 블럭(405)에서 시작한 후에, 미리 결정된 파장의 광이 레이저를 사용하여 생성될 수 있다. 생성된 광은 블록(410)에서 뉴클레오타이드 유사체 상에 조광될 수 있다. 예를 들어, 컴퓨터 시스템(106)은, 그의 광학 시스템 인터페이스(212) 및 통신 채널(108a)을 통해, 레이저(120)가 미리 결정된 파장에서 광을 생성할 수 있게 한다.
레이저로 생성된 광은 플로우셀, 예를 들어 플로우셀(114)의 하나 이상의 채널의 내면에 부착된 성장 프라이머-폴리뉴클레오타이드 내에 혼입된 뉴클레오타이드 유사체 상에 조광될 수 있다. 프라이머-폴리뉴클레오타이드는 서열분석 프라이머에 혼성화된 단일 가닥 폴리뉴클레오타이드 단편의 클러스터를 포함할 수 있다. 뉴클레오타이드 유사체는 각각 0개, 1개 또는 2개의 형광 라벨을 포함할 수 있다. 2개의 형광 라벨은 제1 형광 라벨 및 제2 형광 라벨일 수 있다. 형광 라벨은, 레이저로 생성된 광에 의해 여기된 후에, 형광 방출을 방출할 수 있다. 예를 들어, 제1 형광 라벨은, 예를 들어 제1 형광 이미지에서 포착될 수 있는 제1 파장에서의 형광 방출을 생성할 수 있다. 제2 형광 라벨은, 예를 들어 제2 형광 이미지에서 포착될 수 있는 제2 파장에서의 형광 방출을 생성할 수 있다.
뉴클레오타이드 유사체는 제1 유형의 뉴클레오타이드, 제2 유형의 뉴클레오타이드, 제3 유형의 뉴클레오타이드, 및 제4 유형의 뉴클레오타이드를 포함할 수 있다. 제1 유형의 뉴클레오타이드, 예를 들어 데옥시구아노신 트리포스페이트(dGTP)의 유사체는 제1 형광 라벨 또는 제2 형광 라벨에 결합되지 않는다. 제2 유형의 뉴클레오타이드, 예를 들어 데옥시티미딘 트리포스페이트(dTTP)의 유사체는 제1 유형의 형광 라벨과 결합될 수 있고 제2 유형의 형광 라벨과는 결합될 수 없다. 제3 유형의 뉴클레오타이드, 예를 들어 데옥시시티딘 트리포스페이트(dCTP)의 유사체는 제2 유형의 형광 라벨과 결합될 수 있고, 제1 유형의 형광 라벨과는 결합될 수 없다. 제4 유형의 뉴클레오타이드, 예를 들어 데옥시아데노신 트리포스페이트(dATP)의 유사체는 제1 유형의 형광 라벨과 제2 유형의 형광 레벨 양쪽 모두와 결합될 수 있다.
블록(415)에서, 제1 파장 및 제2 파장에서의 뉴클레오타이드 유사체의 형광 방출은 적어도 하나의 검출기를 사용하여 검출될 수 있다. 예를 들어, 검출기(126)는 2개의 형광 이미지, 즉 제1 파장에서의 제1 형광 이미지 및 제2 파장에서의 제2 형광 이미지를 포착할 수 있다. 광학 시스템(102)으로부터 2개의 형광 이미지를 수신한 후, 핵 염기 결정기(216)는 2개의 형광 이미지에서 형광 방출의 존재 또는 부재를 결정할 수 있다.
제1 유형의 뉴클레오타이드는 제1 형광 라벨 또는 제2 형광 라벨에 결합되지 않기 때문에, 제1 유형의 뉴클레오타이드는 제1 파장 또는 제2 파장에서 형광 방출이 없거나, 또는 최소의 형광 방출을 생성할 수 있다. 판정 블록(420)에서, 형광 방출이 검출되지 않으면, 뉴클레오타이드는 제1 유형의 뉴클레오타이드, 예를 들어 dGTP인 것으로 결정될 수 있다. 임의의 또는 최소한의 형광 방출만이 검출되면, 방법(400)은 결정 블록(425)으로 진행할 수 있다.
제2 유형의 뉴클레오타이드는 제1 유형의 형광 라벨과 결합되고 제2 유형의 형광 라벨과 결합되지 않기 때문에, 제2 유형의 뉴클레오타이드는 제1 파장에서 형광 방출을 생성할 수 있고, 제2 파장에서 형광 방출이 없거나, 또는 최소의 형광 방출을 생성할 수 있다. 판정 블록(425)에서, 제2 파장에서의 형광 방출이 제2 형광 이미지에서 검출되지 않고, 결정 블록(420)으로부터, 제1 파장에서의 형광 방출이 제1 형광 이미지에서 검출되면, 뉴클레오타이드는 제2 유형의 뉴클레오타이드, 예를 들어 dTTP인 것으로 결정될 수 있다. 형광 방출이 제2 파장에서 검출되면, 방법(400)은 결정 블록(430)으로 진행할 수 있다.
제3 유형의 뉴클레오타이드가 제2 유형의 형광 라벨과 결합되고 제1 유형의 형광 라벨과는 결합되지 않기 때문에, 제3 유형의 뉴클레오타이드는 제2 파장에서 형광 방출을 생성할 수 있고, 제1 파장에서 형광 방출이 없거나, 또는 최소의 형광 방출을 생성할 수 있다. 결정 블록(430)에서, 제1 파장에서의 형광 방출이 제1 형광 이미지에서 검출되지 않고, 결정 블록(425)으로부터, 제2 파장에서의 형광 방출이 제2 형광 이미지에서 검출되면, 뉴클레오타이드는 제3 유형의 뉴클레오타이드, 예를 들어 dCTP인 것으로 결정될 수 있다.
제4 유형의 뉴클레오타이드가 제1 유형의 형광 라벨 및 제2 유형의 형광 라벨 양쪽 모두와 결합되기 때문에, 제4 유형의 뉴클레오타이드는 제1 파장 또는 제2 파장에서 형광 방출을 생성할 수 있다. 결정 블록(430)에서, 제1 형광 이미지에서 형광 방출이 제1 파장에서 검출되고, 결정 블록(425)으로부터, 제2 형광 이미지에서 형광 방출이 제2 파장에서 검출될 수 있으면, 뉴클레오타이드는 제4 유형의 뉴클레오타이드, 예를 들어 dATP인 것으로 결정될 수 있다.
플로우셀(114)은 서열 분석될 성장 프라이머-폴리뉴클레오타이드의 클러스터를 포함할 수 있다. 결정 블록(435)에서, 주어진 서열분석 사이클 동안 처리될 형광 방출을 갖는 적어도 하나 이상의 클러스터가 있으면, 방법(400)은 블록(410)에서 계속될 수 있다. 처리될 단일 가닥 폴리뉴클레오타이드의 클러스터가 더 이상 없으면, 방법(400)은 블록(440)에서 종료될 수 있다.
서열분석 방법
본 명세서에서 설명되는 방법은 다양한 핵산 서열분석 기술과 함께 사용될 수 있다. 특히 적용 가능한 기술은, 핵산이 어레이 내의 고정 위치에 부착되어 이들의 상대 위치가 변하지 않는 기술 및 어레이가 반복적으로 이미징되는 기술이다. 예를 들어, 하나의 뉴클레오타이드 염기 유형을 다른 뉴클레오타이드 염기 유형과 구별하는 데 사용되는 상이한 라벨과 일치하는 상이한 컬러 채널에서 이미지가 얻어지는 실시형태가 특히 적용 가능하다. 일부 실시형태에서, 표적 핵산의 뉴클레오타이드 서열을 결정하는 프로세스는 자동화 프로세스일 수 있다. 바람직한 실시형태는 합성에 의한 서열분석(sequencing-by-synthesis: "SBS") 기술을 포함한다.
"합성에 의한 서열분석("SBS") 기술"은 일반적으로 주형 가닥에 대한 뉴클레오타이드의 반복 추가를 통한 초기 핵산 가닥의 효소 확장(enzymatic extension)을 수반한다. SBS의 전통적인 방법에서, 단일 뉴클레오타이드 모노머는 각각의 전달에서 폴리메라제의 존재 하에 표적 뉴클레오타이드에 제공될 수 있다. 그러나, 본 명세서에서 설명된 방법에서, 하나보다 많은 유형의 뉴클레오타이드 모노머가 전달에서 폴리메라제의 존재 시에 표적 핵산에 제공될 수 있다.
반복 정렬 및 변이체 호출
도 5a 및 도 5b는 일 실시형태에 따른 예시적인 반복 정렬 및 변이체 호출 프로세스를 나타낸다. 소정 수의 최소 서열분석 사이클이 이미징된 후에, 실시간 일차 분석이 수행되어 각각의 정렬되지 않은 판독에 대한 염기 호출 및 품질 스코어를 결정할 수 있다. 도 5a에서, 나타낸 서열분석 사이클의 최소 수는 3개이다. 일부 실시형태에서, 최소 서열분석 사이클은 16, 32, 또는 그 이상의 사이클 일 수 있다. 염기 호출 및 품질 스코어 결정은 도 3을 참조하여 상기에 도시되어 있다. 각각의 판독은 가장 가능성 있는 정렬이 선택되는 참조 서열에 정렬될 수 있고, 그런 다음 판독은 파일업(pile-up)으로 적층될 수 있고 변이체 호출이 수행될 수 있다.
도 5a에서, 일차 분석은 플로우셀 상에 나타낸 16개의 클러스터로부터 CCA(504a), TTA(504d), 및 TAG(504k)와 같은 정렬되지 않은 서열 판독을 결정하는 것을 포함한다. 일차 분석 제목 아래에서, 각 클러스터는 일련의 문자로 표시되며, 각각의 문자는 서열분석된 폴리뉴클레오타이드를 표시한다. 최소 사이클 수, 예를 들어 3개의 사이클이 서열분석되면, 이차 분석은 16개의 서열 판독을 도 5a의 이차 분석 제목 아래에 나타낸 참조 서열(GATTACATAAGATTCTTTCATCG(508))에 정렬시키는 것을 포함할 수 있다. 이차 분석 다이어그램에서, 참조 서열 아래에 정렬된 서열은 폴리뉴클레오타이드의 파일업을 구성한다. 일례로서, 서열 판독 CCA(504a)("일차 분석" 제목 아래의 1행), TTA(504d)(4행), 및 TAG(504k)(11행)는, 각각 하나, 영, 및 하나의 부정합을 갖는 참조 서열(508)의 TTACAT(512) 하위서열 내에서, 각각 서열 ACA, TTA, 및 TAC에 정렬될 수 있다. 따라서, TTACAT(512) 하위서열의 제3 위치는 어느 정도의 정확성 확률로 참조 서열(508)에서 A 대신에 C(516a)인 것으로 결정될 수 있고, TTACAT(512) 하위서열의 제4 위치는 어느 정도의 정확성 확률로 참조 서열에서 C 대신에 G(516b)인 것으로 결정될 수 있다. 참조 서열의 다른 변이체도 마찬가지로 결정될 수 있다.
새로운 서열분석 사이클이 수행되고 염기 호출이 결정됨에 따라, 정렬 확률이 정제(refine)될 수 있고, 판독 정렬은 가장 가능성 있는 새로운 정렬로 시프트할 수 있다. 이 시프트는 영향을 받는 영역에서 수행될 새로운 변이체 호출을 트리거할 것이다. 도 5b에서, 제4 서열분석 사이클 후에, 제3 서열분석 사이클로부터의 서열분석 판독 CCA(504a), TTA(504d), 및 TAG(504k)는 각각 CCAT(504a')("일차 분석" 제목 아래의 1행), TTAC(504d')(4행), 및 TAGG(504k')(11행)로 된다. 서열 판독 CCAT(504a') 및 TTAC(504d')는 여전히 하나 및 영의 부정합을 갖는 참조 서열(508)의 TTACAT(512) 하위서열에 각각 정렬될 수 있다. 서열 판독 CCAT(504a') 및 TTAC(504d')에 대하여, 정렬 위치는 도 5a에 나타낸 반복과 도 5b에 나타낸 반복 사이에서 변하지 않고; TTACAT(512) 하위서열의 제3 위치는 참조 서열에서 A 대신에 C(516a)인 것으로 결정될 수 있다. 판독 TAGG(504k')를 TTACAT(512) 하위서열에 정렬시키기 위해서는, 2개의 부정합을 필요로 한다. 그러나, 이 정렬이 단 하나의 부정합만을 갖기 때문에, 서열 판독 TAGG(504K')는 더 높은 확률로 참조 서열(508)의 TAAG(520)에 정렬될 수 있다. 도 5a 및 도 5b의 예는, 서열분석이 진행됨에 따라 정렬 위치가 시프트될 수 있고, 변이체 호출이 개선될 수 있음을 나타낸다.
일부 실시형태에서, 서열 판독을 참조 서열에 정렬시키는 것은 각각의 서열 판독을 위해 노드 상의 리프(leaf)로서 가장 가능성 있는 정렬의 리스트를 유지하는 것을 포함한다. 각 리프는 연관된 확률을 가질 수 있다. 일부 임계값 아래로 떨어질 확률을 갖는 리프는 트리밍될 수 있다.
실시간 이차 분석
도 6은 실시간 이차 서열 분석을 수행하기 위한 예시적인 방법(600)의 흐름도이다. 방법(600)이 블록(605)에서 시작한 후에, 서열분석 사이클의 이미징 데이터가 블록(610)에서 수신될 수 있다. 예를 들어, 컴퓨터 시스템(106)은 검출기(126)로부터 이미징 데이터를 수신할 수 있다. 블록(615)에서, 염기가 결정될 수 있고, 염기의 품질 스코어가 결정될 수 있다. 이미징 데이터를 생성하는 것 및 염기 및 결정된 염기의 품질을 결정하는 것은 도 3 및 도 4를 참조하여 상기에 도시되어 있다. 각각의 서열분석 사이클 후에, 서열분석 판독의 길이는 더 긴 하나의 뉴클레오타이드로 된다. 예를 들어, 제31 서열분석 사이클 후에, 서열분석 판독은 길이가 31개의 뉴클레오타이드이고, 제32 서열분석 사이클 후에, 서열분석 판독은 길이가 32개의 뉴클레오타이드로 더 긴 하나의 뉴클레오타이드로 된다.
결정 블록(620)에서, 소정 수의 최소 서열분석 사이클이 수행되었는지의 여부가 결정될 수 있다. 최소 서열분석 사이클은 16개, 32개, 또는 그 이상의 사이클일 수 있다. 수행된 서열분석 사이클의 수가 필요한 최소 서열분석 사이클보다 적으면, 방법(600)은 블록(610)으로 진행한다. 수행된 서열분석 사이클의 수가 적어도 필요한 최소 서열분석 사이클이면, 방법(600)은 블록(625)으로 진행한다.
블록(625)에서, 결정된 서열 판독은 참조 서열에 정렬될 수 있다. 방법(600)은 다른 구현예에서 다른 정렬 방법을 이용할 수 있다. 정렬 방법의 비한정 예는 글로벌 정렬(예를 들어, Needleman-Wunsch), 로컬 정렬, 동적 프로그래밍(예를 들어, Smith-Waterman 알고리즘), 휴리스틱 알고리즘 또는 확률론적 방법, 프로그레시브 방법, 반복 방법, 모티프 발견(motif finding) 또는 프로파일 분석, 유전 알고리즘, 모의 어닐링(simulated annealing), 쌍별 정렬(pairwise alignment), 다중 서열 정렬을 포함한다.
블록(630)에서, 변이체가 결정될 수 있다. 초기 변이체는 미리 결정된 변이체 임계값에 도달한 후에만 호출될 수 있다. 변이체 임계값은 가능한 PCR 또는 서열분석 에러로 인해 중요할 수 있다. 변이체 임계값은 참조 서열의 대응하는 위치에서의 염기와 다른 참조 서열의 위치로의 염기의 정렬에 기초할 수 있다.
도 5a에서, 변이체 임계값은 하나의 관찰(observation)이다. 따라서, TTACAT의 제3 위치는 참조 서열에서 A 대신에 C인 것으로 결정될 수 있다. 변이체 임계값이 2 이상이면, C 변이체는 특정 서열분석 사이클에서 블록(630)에서 호출되지 않을 것이다. 도 5b에서, TTACAT의 제3 위치는 변이체 임계값이 최대 2개의 관찰인 경우에 참조 서열에서 A 대신에 C인 것으로 결정될 수 있다. 일부 실시형태에서, 변이체 임계값은 1%, 5%, 10%, 25%, 50%, 또는 그 이상과 같은 참조 서열의 특정 위치에 정렬된 모든 염기의 백분율일 수 있다. 아래에서 더욱 상세하게 설명되는 바와 같이, 가장 가능성 있는 정렬은 각각의 서열 판독을 위해 노드 상의 리프로서 저장될 수 있다. 각 리프는 연관된 확률을 가질 수 있다. 일부 임계값 아래로 떨어질 확률을 갖는 리프는 트리밍될 수 있다. 따라서, 참조 서열 상의 뉴클레오타이드 위치에 대해 호출된 변이체는 정제될 수 있거나, 또는 후속 사이클 중에 떨어질 수 있다.
결정 블록(635)에서 판독될 더 많은 뉴클레오타이드가 있는지 또는 모든 서열분석 사이클이 완료되는지의 여부에 대한 결정이 이루어질 수 있다. 이 결정은, 예를 들어 신호의 품질 또는 미리 결정된 수의 염기 후에 기초할 수 있다. 판독될 더 많은 뉴클레오타이드가 있고 모든 서열분석 사이클이 완료되지 않으면, 방법(600)은 블록(610)으로 진행하고, 여기서 서열분석 데이터가 다음의 서열분석 사이클 동안 생성될 수 있다. 판독될 뉴클레오타이드가 더 이상 없고 모든 서열분석 사이클이 완료되면, 방법(600)은 블록(650)에서 종료한다.
일부 실시형태에서, 블록(625, 630) 및 블록(610, 615)은 최소 수의 서열분석 사이클이 수행된 후에 병렬로 수행될 수 있다. 예를 들어, 32개의 서열분석 사이클이 수행된 후에, 방법은 블록(625)으로 진행하여 길이가 32개의 뉴클레오타이드인 서열 판독의 정렬을 수행할 수 있다. 방법(600)이 블록(625)에서 정렬을 수행하고 블록(630)에서 변이체 호출을 수행하는 동안, 다음의 서열분석 사이클(즉, 제33 서열분석 사이클)이 수행될 수 있다. 따라서, 변이체는 제33 서열분석 사이클의 완료 전에 블록(630)에서 결정될 수 있다. 그리고, 방법(600)은 서열분석 사이클이 수행되는 동안 실시간으로(또는 영 또는 낮은 대기 시간으로) 정렬 및 변이체 호출을 가능하게 할 수 있다. 또한, 이전의 서열분석 사이클 중에 호출된 변이체는 후속 사이클 중에 정제될 수 있다. 따라서, 도 6에 도시된 변이체 호출은 반복 프로세스일 수 있다. 예를 들어, 제32 서열분석 사이클 후에 또는 제33 서열분석 사이클 중에 호출된 변이체는 호출된 초기 변이체일 수 있다. 후속하는 서열분석 사이클 중에, 호출된 변이체는 정제될 수 있다(특정 뉴클레오타이드 위치에 대해 이전에 호출된 변이체가 더 이상 호출되지 않고 떨어지는 것을 포함함). 다른 예로서, 도 5a 및 도 5b에 나타낸 바와 같이, TTACAT의 제4 위치에 대한 변이체가 제3 사이클 후에 G인 것으로 호출되었지만, 위치에 대한 변이체는 제4 위치 후에 호출되지 않았다.
다른 실시형태에서, 서열분석 프로세스는 모든 서열분석 사이클이 완료되는 시간 전에 종료될 수 있다. 예를 들어, 특정 표적 변이체가 모든 서열분석 사이클의 완료 전에 식별되면, 서열분석 프로세스는 종료될 수 있다. 이것은, 시스템이 시약에 대한 비용을 절감할 수 있게 하고 표적 변이체 호출이 이루어지기 전에 모든 사이클을 완료할 필요가 있는 시스템보다 먼저 원하는 결과를 제공할 수 있게 한다.
일부 실시형태에서, 정렬은 블록(625)에서 수행되지 않을 수 있고, 변이체는 서열분석 사이클마다 블록(630)에서 호출될 수 있다. 예를 들어, 정렬이 수행될 수 있고 변이체가 제n 서열분석 사이클마다 호출될 수 있으며, 여기서 n은 1, 2, 3, 4, 5, 10, 20, 또는 그 이상의 서열분석 사이클이다. 일부 실시형태에서, 블록(625)에서 수행된 정렬의 빈도 및 블록(630)에서 호출된 변이체는 이전의 서열분석 사이클에서 호출된 변이체의 수에 기초할 수 있다. 예를 들어, 하나의 서열분석 사이클에서 많은 수의 변이체가 호출되면, 정렬 및 변이체 호출은 더 빈번하게(예를 들어, 다음 사이클) 또는 덜 빈번하게 수행될 수 있다. 다른 예로서, 변이체 또는 새로운 변이체가 하나의 서열분석 사이클에서 호출되지 않으면, 정렬 및 변이체 호출은 더 빈번하게 또는 덜 빈번하게(예를 들어, 다음 사이클 아님) 수행될 수 있다.
일부 실시형태에서, 블록(630)에서의 변이체 호출은 참조 서열의 영역에 대해 선택적으로 수행될 수 있다. 정렬되는 참조 서열의 부분은 다른 구현예에서 다를 수 있다. 예를 들어, 변이체 호출은 참조 서열에 대한 서열 판독의 정렬이 이전의 서열분석 사이클(예를 들어, 직전의 서열분석 사이클) 중에 변화된 참조 서열의 영역에 대해 선택적으로 수행될 수 있다. 다른 예로서, 정렬되는 참조 서열의 영역은 알려진 단일 뉴클레오타이드 다형성(SNP) 위치에 기초하여 결정될 수 있다.
일부 실시형태에서, 실시간 이차 서열 분석을 수행하기 위한 방법(600)은 각각의 판독에 대한 트리 구조에 기초할 수 있다. 트리의 루트는 서열의 시작을 나타내는 "$"로 표지될 수 있다. 루트의 자식 노드(child node)는 4개의 가능한 염기 호출, 즉 'A', 'C', 'G' 및 'T'에 대응한다. 트리 내의 각 노드는 그와 연관된 3개의 변수, 즉 루트로부터 해당 노드까지 이어지는 현재 분기의 서열(서열 S라고 칭함)과 현재 판독으로부터의 염기(서열 W라고 지칭함)의 차이의 총수, 및 그 후 서열 S와 정합하는 참조 내의 모든 위치에 대한 참조 서열의 BWT(Burrows-Wheeler Transform)에서의 시작 및 정지 인덱스를 가질 수 있다. BWT의 중요한 특성은 공통의 시작 서열을 갖는 모든 행이 변환에서 연속적인 것으로 보장되는 것이므로, 서열 S와 정합하는 개별 인덱스의 리스트를 참조 내에 유지하기보다는, 시작 및 정지 인덱스를 추적하는 것으로 충분하다. 이것은, 매우 많은 반복 영역이 있기 때문에 판독을 인간 참조 게놈에 매핑하는 경우에 가치가 있다.
그러면, 루트의 각 자식 노드는, 4개의 가능한 염기 'A', 'C', 'G' 및 'T'에도 대응하는 그 자신의 4개의 자식을 또한 가질 것이다. 재차, 현재 판독의 서열 W와의 차이 수가 추적될 수 있다. 예를 들어, 처음 2개의 사이클의 판독이 'C'와 그 다음 'T'이면, 판독은 Root→C→T로 정의된 트리를 통한 경로를 가질 수 있다. 따라서, 총 누적된 차이는 최종 T 노드에 대해 0일 것이다. 대조적으로, Root→A→G로 정의된 경로에 대해서는, A 또는 G 어느 것도 현재 판독에서 대응하는 사이클과 정합하지 않으므로, G 노드에서의 총 누적된 차이는 2일 것이다.
일부 실시형태에서는, 수용 가능한 참조와의 차이의 수에 대한 한계가 정의될 수 있다. 한계에 도달되면, 해당 분기는 사라져서 더 이상 후속 사이클에서 분석되지 않을 것이다. 적절한 인덱스를 갖는 BWT 변환은 일정한(O(1)) 시간에 각 노드에서 필요한 계산을 수행하는 데 사용될 수 있다. 연산에 필요한 메모리의 양, 및 트리 내의 노드의 수는 허용 가능한 에러 임계값의 총수에 의해 영향을 받는다. 일부 실시형태에서는, 작은 삽입 및 결손을 위한 지원이 구현될 수 있다.
일부 실시형태에서는, 더욱 복잡한 재배열이 다수의 시드를 통해 처리될 것이다. 즉, 특정 판독이 어디에도 정합하지 않는 것으로 밝혀지면, 판독의 다른 부분이 어딘가에 매핑될 것이라는 기대를 갖고 프로세스는 추후 사이클에서 재차 시작할 수 있다. 이러한 모든 판독은 추적될 수 있으며, 이용 가능한 연산력이 있을 때에 더욱 복잡한 분석(예를 들어, Smith-Waterman 알고리즘과 같은 동적 프로그래밍 방법)이 수행될 수 있다.
대안적인 실시형태
추가 실시형태는 서열분석 판독의 반복 처리를 포함하는 이차 분석을 위한 시스템 및 방법이다. 이차 분석은 참조 서열(예를 들어, 인간 참조 게놈 서열)에 대한 서열 판독의 정렬, 및 변이체 검출 및 호출과 같은 샘플과 참조 간의 차이를 검출하기 위한 이러한 정렬의 활용 양쪽 모두를 포함할 수 있다. 일 실시형태에서, 정렬 및 변이체 호출 결과는 시퀀서가 실행을 종료하기 전에 얻어질 수 있다. 예를 들어, 이들 결과는 이용 가능한 연산 자원에 따라 시간 간격을 두고 제공될 수 있다. 이것은 현재 반복으로부터의 정렬 결과로 이전 반복으로부터의 중간 정렬 결과를 확장시킴으로써 달성될 수 있다. 현재 반복으로부터의 정렬 결과는 이전에 정렬된 위치에서 참조 서열로부터의 염기와 현재 반복의 새롭게 서열분석된 염기를 비교함으로써 생성된다. 비교 결과는 이전 반복으로부터의 정렬 결과와 조합되며, 조합된 출력은 다음 반복을 위해 저장된다.
도 7a 및 도 7b는 종래의 이차 분석 방법(도 7a)과 본 개시내용의 일 실시형태의 이차 분석(도 7b)을 비교하는 개략도이다. 도 7a는 전통적인 이차 분석 방법에 대하여, 판독 내의 염기의 전체 세트가 서열분석될 때까지 정렬이 진행되지 않는 것을 도시한다. 정렬 프로세스는 다수의 정렬 처리 단계를 포함할 수 있다. 제1 정렬 처리 단계는 판독 내의 서열분석된 염기의 전체 세트가 이용 가능해질 때까지 대기한다. 정렬 프로세스가 완료된 후에, 다수의 변이체 호출기 처리 단계를 포함하는 변이체 호출자 프로세스가 시작될 수 있다. 제1 변이체 호출자 처리 단계는 정렬 데이터의 전체 세트가 사용 가능해질 때까지 대기한다.
도 7b는 본 개시내용의 일 실시형태에 따른 이차 분석의 반복 방법을 도시한다. 나타낸 바와 같이, 정렬 및 변형 호출은 실시간으로 실행되며 중간 결과를 생성한다. 처리는 고정된 간격으로 스케줄링될 수 있다. 고정된 간격은 N개의 염기의 하위서열의 도달을 포함할 수 있고, 여기서 N은 16과 같은 양의 정수이다. 예를 들어, 처리는 16개의 염기의 간격으로 발생할 수 있다. 다른 예로서, 처리는 1, 2, 4, 8, 16, 32, 64, 128, 151, 또는 그 이상의 염기의 간격으로 발생할 수 있다. 일 구현예에서, 처리는 1과 152 사이의 임의의 수의 간격으로, 가장 바람직하게는 16±8의 간격으로 발생할 수 있다. 일 실시형태에서, 간격은 하나의 반복으로부터 다른 반복으로 변할 수 있다. 도 1의 서열분석 시스템(100)과 같은 서열분석 시스템은 도 8에 도시된 바와 같이 16개의 염기의 간격으로 서열 판독을 생성할 수 있다. 대안적으로, 각각의 처리 간격에서의 염기의 수는 상이할 수 있다. 예를 들어, 제1 간격은 16개의 염기가 서열분석된 후에 처리될 수 있고, 제2 반복은 18개의 염기가 서열분석된 후에 처리될 수 있다. 반복 내의 염기의 수는 1만큼 낮거나 판독 내의 염기의 수만큼 높을 수 있다.
도 7b에서 설명되는 프로세스는 페어드 엔드 서열분석 기술(paired end sequencing technique)이 사용될 때에 판독 1 세트 또는 판독 2 세트에 적용될 수 있다. 추가적으로, 판독 1 세트를 처리할 때에 포착된 정보는 판독 2 세트에 적용될 수 있다. 예를 들어, 판독 1 세트가 서열분석되는 중에 또는 그 후에 종래 방법을 사용하여 정렬 단계를 실행할 수 있을 것이고, 이 정보는 판독 2 폴리뉴클레오타이드가 서열분석됨에 따라 판독 2 세트를 처리하는 데 사용될 수 있다.
이제 도 8을 참조하면, 단일 가닥 폴리뉴클레오타이드의 다수의 판독(804a-804d)이 서열분석 기구로부터 생성될 수 있다. 이들 단일 가닥 폴리뉴클레오타이드는 염기 0 내지 염기 150이라고 지칭되는, 길이가 151개의 염기일 수 있다. 이들 단일 가닥 폴리뉴클레오타이드의 서열은 전술한 합성에 의한 서열분석으로 결정될 수 있다. 16개의 서열분석 사이클의 반복 0(제1 반복) 후에, 서열 판독의 16개의 염기가 서열분석 시스템에 의해 결정된다. 예를 들어, 판독 0(804a)에 대해 염기 0 내지 염기 15의 서열 판독이 생성되고, 판독 1(804b)에 대해 염기 0 내지 염기 15의 서열 판독이 결정된다. 다른 16개의 서열분석 사이클의 반복 1(제2 반복) 후에, 각각의 판독에 대해 서열의 16개의 추가 염기가 결정된다. 예를 들어, 판독 0(804a)에 대해 염기 16 내지 염기 31이 생성된다. 서열분석 시스템은 각 클러스터의 염기 128 내지 염기 143의 서열 판독이 반복 8에서 생성될 때까지 16-염기 간격으로 계속해서 판독을 생성할 수 있다. 서열분석 시스템은 반복 9(최종 반복)에서 각 클러스터의 염기 144 내지 염기 151의 판독을 생성할 수 있다. 대안적인 실시형태에서, 각각의 반복에서 생성된 염기의 수는 상이할 수 있고, 반복당 염기의 수는 이용 가능한 연산 자원에 의해 결정된다. 예를 들어, 제1 처리 간격은 16개의 염기로 이루어질 수 있고, 제2 처리 구간은 18개의 염기로 이루어질 수 있다. 처리 간격 내의 최소 염기 수는 1이고, 처리 간격 내의 최대 염기 수는 판독의 길이와 같다.
도 7b를 참조하면, 정렬은 도시된 바와 같이 16개의 염기의 간격으로 발생할 수 있다. 변이체 호출은 정렬이 완료된 후에 16의 간격으로 발생할 수 있다. 예를 들어, 실시간 이차 분석을 위한 서열분석 시스템은 1.3시간마다 서열 판독의 16개의 염기를 출력할 수 있다. 실시간 이차 분석을 위해, 정렬 및 변이체 호출을 수행하는 데 필요한 총 시간은, 사용자가 서열 판독의 다음 16개의 염기가 이용 가능하기 전에 이루어진 변이체 호출에 액세스할 수 있도록 1.3시간 이내이어야 한다.
일 실시형태에서, 처리는 고정된 반복 단계 없이 이용 가능한 컴퓨터 자원에 대해 가능한 한 신속하게 연속적으로 발생할 수 있다. 분석은 자가 조정될 수 있고 가능한 한 서열분석 진행에 근접할 것이다. 정렬 및 변이체 호출 결과는 필요에 따라 언제든지 생성될 수 있다.
대안적인 실시형태 ― 정렬
도 9a는 실시간 이차 분석을 수행하기 위한 예시적인 방법(900)의 흐름도이다. 방법(900)은 2개의 경로, 즉 전통적인 이차 분석 방법의 낮은 신뢰도의 높은 연산 처리 경로 및 본 개시내용의 일 실시형태에 따른 높은 신뢰도의 낮은 연산 처리 경로를 포함한다. 낮은 신뢰도의 높은 처리 경로 및 높은 신뢰도의 낮은 처리 경로는 본 명세서에서 각각 청색 경로 및 황색 경로라고 지칭된다.
낮은 신뢰도의 높은 연산 처리 경로는 참조 서열에 대한 각각의 판독의 서열 정렬을 포함할 수 있다. 이 경로에 대해, 판독의 이용 가능한 반복으로부터의 모든 염기가 참조 서열에 대한 판독을 정렬시키는 데 사용된다. 예를 들어, 반복 0과 반복 1이 각각 16개의 염기로 이루어지면, 32개의 염기가 얼라이너에 의해 처리될 것이다. 다수의 종래 정렬 기술 중 하나가 낮은 신뢰도의 높은 연산 경로를 위해 사용될 수 있다. 서열 정렬이 완료되면, 매핑 및 정렬 위치가 저장되고 채점될 수 있다. 모든 판독이 정렬된 후에, 변이체가 호출될 수 있다.
방법(900)은 높은 신뢰도의 낮은 연산 처리 경로를 추가함으로써 전통적인 이차 분석 방법을 개선한다. 반복 0에서, 방법(900)은 각각의 판독의 다수의 염기를 생성하기 위해 다수의 서열분석 사이클이 완료되기를 대기한다. 예를 들어, 방법(900)은 각각의 판독의 16개의 염기를 생성하기 위해 서열분석의 16개의 사이클이 완료되기를 대기할 수 있다. 반복 0 중에, 각각의 판독의 16개의 염기가 낮은 신뢰도의 높은 연산 처리 경로를 따라 분석되고 처리된다. 전통적인 방법은 본 명세서에서 청색 경로라고 지칭된다. 반복 1 및 임의의 후속 반복 중에, 각각의 판독의 다음 16개의 염기는 낮은 신뢰도의 높은 연산 처리 경로 또는 높은 신뢰도의 낮은 연산 처리 경로를 따라 분석된다. 판독이 직전의 반복에서 충분한 신뢰도로 정렬되면, 현재 반복의 16개의 염기가 높은 신뢰도의 낮은 연산 처리 경로를 따라 분석된다. 그렇지 않으면, 현재 반복의 16개의 염기가 높은 신뢰도의 낮은 연산 처리 경로를 따라 분석된다.
판독이 직전의 반복에서 충분한 신뢰도로 정렬되면, 현재 반복의 16개의 염기가 참조 서열의 다음 16개의 염기에 정렬된다. 이 정렬은 본 명세서에서, 종래의 서열 정렬에 비해 적은 처리를 요구하는 단순 정렬(simple alignment)이라고 지칭된다. 전체 참조 서열에 대한 서열 정렬 대신에, 현재 반복의 16개의 염기와 참조 서열의 다음 16개의 염기 간의 부정합 수가 결정될 수 있다. 부정합 수가 임계값보다 높으면, 16개의 염기의 처리가 낮은 신뢰도의 높은 연산 처리 경로로 복귀할 수 있다. isAligned 변수는 낮은 신뢰도의 높은 처리 경로로의 복귀 시에 0 또는 부정(false)으로 설정될 수 있다. 부정합 수는 현재 반복의 16개의 염기 또는 현재 반복과 이전 반복의(들)의 모든 염기에 대하여 결정될 수 있다.
부정합 수가 임계값보다 낮으면, 16개의 염기의 처리가 높은 신뢰도의 낮은 연산 처리 경로에 체류할 수 있고, 특정 판독의 정렬 결과가 저장될 수 있다. isAligned 변수가 0 또는 부정으로 설정되는지를 결정하기 위해 대안적인 메트릭이 공식화될 수 있다. 예를 들어, 부정합 수가 임계값보다 낮으면, (MAPping Quality) MapQ 스코어가 계산될 수 있다. MapQ 스코어는 가장 가까운 정수로 반올림되는 -10 log10 Pr{매핑 위치가 잘못됨}과 같을 수 있다. 따라서, 일부 임의의 판독을 정확히 매핑할 확률이 0.99이면, MapQ 스코어는 20(즉, 0.01 * -10의 log10)이어야 한다. 정확한 정합의 확률이 0.999까지 증가되면, MapQ 스코어는 30으로 증가할 것이다. 대조적으로, 정확한 정합의 확률이 0을 향함에 따라, MapQ 스코어도 그렇게 된다.
16개의 염기의 처리가 높은 신뢰도의 낮은 연산 처리 경로에 체류할 때, (다수의 판독이 참조 서열의 유사한 위치에 정렬되어 이들 판독이 참조 서열 상에 서로 상하로 "파일업"될 때) 판독은 파일업에 기여할 수 있다. 16개의 염기의 처리가 낮은 신뢰도의 높은 연산 처리 경로로 복귀할 때, 판독은 파일업으로부터 제거될 수 있다. 일 실시형태에서, 판독은 후보 수, 즉 서열 정렬 위치의 총수가 1000과 같은 임계값보다 낮은 경우에만 낮은 신뢰도의 높은 연산 처리 경로에서 처리된다. 판독이 처리될 때 정렬 결과가 저장된다.
도 9b는 도 9a에 나타낸 방법(900)을 이용하여 2개의 처리 경로에 의해 처리되는 데이터 양의 개념도이다. 16개의 서열분석 사이클 후에, 각각의 판독의 16개의 염기가 서열분석 시스템에 의해 생성된다. 판독은 반복 0 중에 낮은 신뢰도의 높은 연산 처리 경로에서 모두 처리된다. 32개의 서열분석 사이클 후에, 후보 중 약 75%가 반복 1 후에 정렬된 것으로 간주된다. 이들 후보는 반복 2 중에 높은 신뢰도의 낮은 연산 처리 경로에서 처리된다. 반복 2 후에, 후보 중 약 90%가 정렬된 것으로 간주되고, 반복 3 중에 높은 신뢰도의 낮은 연산 처리 경로에서 처리된다. 단순 정렬만이 필요하기 때문에 판독이 높은 신뢰도의 낮은 연산 처리 경로에서 처리될 때에 적은 연산 및 처리가 필요했다. 많은 양의 데이터가 높은 신뢰도의 낮은 연산 처리 경로에서 처리되고 이 경로에서 적은 처리가 필요하기 때문에, 필요한 총 시간은 판독이 낮은 신뢰도의 높은 연산 처리 경로에서만 처리되는 경우보다 단축된다. 따라서, 정렬 및 변이체 호출 결과는 시퀀서가 실행을 종료하기 전에 얻어질 수 있다. 이들 결과는 이용 가능한 연산 자원에 따라 시간 간격을 두고 사용자에게 제공될 수 있다. 따라서, 방법(900)은 실시간 이차 분석을 가능하게 하는 시간 효율적인 방식으로 이차 분석을 수행할 수 있다.
도 9c는 도 10에서 설명되는 얼라이너의 예측 런타임 개량을 나타낸다. "기본" 데이터는 도 10에서 "기존 처리"(종래 또는 청색 경로)만을 사용하여 생성된다. "판독 1 로딩" 데이터는, 판독 1 세트로부터의 데이터가 정렬되고 미리 저장된 다음, 판독 2 세트에서의 데이터 처리를 가속하기 위해 사용될 때의 감소된 처리 사이클을 나타낸다. 방법(900)은 높은 신뢰도의 낮은 연산 처리 경로를 위한 2개의 유형의 단순 얼라이너 중 하나, 즉 정확한 정합을 스킵하는 단순 얼라이너 또는 단일 부정합을 스킵하는 단순 얼라이너를 구현할 수 있다. 단일 정합을 스킵하는 단순 얼라이너는 0 또는 하나의 부정합을 허용한다. "정확한 정합 스킵" 데이터는 현재 반복의 16개의 염기가 이전에 결정된 참조 위치에서의 참조 서열의 16개의 염기와 정확히 정합하는 경우에 종래(청색) 경로가 스킵될 때의 감소된 처리 사이클을 나타낸다. "단일 부정합 스킵" 데이터는 현재 반복의 16개의 염기가 많아야 하나의 부정합으로 이전에 결정된 참조 위치에서의 참조 서열의 16개의 염기에 정렬되는 경우에 종래(청색) 경로가 스킵될 때의 감소된 처리 사이클을 나타낸다. 도 9c는, 방법(900)이 높은 신뢰도의 낮은 연산 처리 경로에서 단일의 부정합이 검출될 때에 종래 처리를 스킵한 단순 얼라이너를 사용할 때, 기준치와 비교하여 런타임이 3배 감축되는 것을 나타낸다. 이들 수는 모든 처리 단계를 포함하지 않는 프로토타입 프로세서에 의해 생성되었고, 그 결과 예상의 추정인 것에 유의해야 한다.
도 10은 실시간 이차 분석을 수행하기 위한 예시적인 방법(1000)의 다른 흐름도이다. 방법(1000) 및 도 9a에 나타낸 방법(900)은 동일한 낮은 신뢰도의 높은 연산 처리 경로 및 상이한 높은 신뢰도의 낮은 연산 처리 경로를 구현할 수 있다. 방법(1000)의 높은 신뢰도의 낮은 연산 처리 경로는 단순 정렬 후에 MapQ 스코어를 생성하고 MapQ 스코어를 이용하여 높은 신뢰도의 낮은 연산 처리 경로에서 처리를 계속할 것인지 또는 낮은 신뢰도의 높은 처리 경로로 복귀할 것인지의 여부를 결정한다.
런타임의 높은 백분율은 판독의 작은 백분율에서 발생한다. 일부 실시형태에서, 방법(900 또는 1000)의 낮은 신뢰도의 높은 연산 처리 경로는 메트릭을 사용하여 결정된 바와 같이 성공 신뢰도가 낮으면 정렬 및 저장 단계를 스킵할 수 있다. 일 실시형태에서는, 하위서열이 참조 서열에 정렬할 수 있는 후보 위치의 수를 나타내는 메트릭이 생성될 수 있다. 후보 위치의 수가 많으면 정렬 성공 신뢰도가 낮을 것이다. 제2 실시형태에서는, 서열 내의 염기의 다양성(diversity)이 낮으면 정렬 성공 신뢰도가 낮을 것이다. 염기의 다양성은, 예를 들어, 하위서열의 고유 n-mer의 수를 계수함으로써 결정될 수 있고, 여기서 n-mer는 하위서열 자체의 길이 이하의 길이를 갖는 하위서열 내의 염기의 서열이다.
대안적인 실시형태 ― 변이체 호출기
도 11a 및 도 11b는 기존의 변이체 호출 방법, 즉 Strelka 소형 변이체 호출기(도 11a), 및 본 개시내용의 변이체 호출 방법(도 11b)의 간략화된 흐름도를 나타낸다. 도 11a는 소형 변이체 호출기가 얼라이너로부터 생성된 파일업 정보를 입력으로서 사용하는 것을 나타낸다. 파일업으로부터, 소형 변이체 호출기는 활성 영역으로 알려진 서열 변이체 영역을 식별한다. 다음으로, 드노보 리어셈블리(de novo re-assembly)가 활성 영역에 적용될 수 있다. 각각의 게놈 위치에서, 게놈 위치에서 서열분석된 폴리뉴클레오타이드가 A, C, T, 또는 G일 가능성을 결정하기 위한 확률이 생성된다. 이들 확률로부터 변이체가 검출될 수 있다.
도 11b는 본 발명에 개시된 변이체 호출기의 실시형태를 나타낸다. 이 실시형태에서, 게놈 위치에서의 폴리뉴클레오타이드가 높은 신뢰도로 결정될 수 있는지를 결정하기 위한 메트릭이 생성된다. 예를 들어, 주어진 게놈 위치에서의 모든 폴리뉴클레오타이드가 동일하면 높은 신뢰도 결정이 생성될 수 있다. 대안적으로, 게놈 위치에서의 동일한 유형의 폴리뉴클레오타이드의 수가 임계값보다 높으면 높은 신뢰도 결정이 생성될 수 있다. 높은 신뢰도를 결정하기 위한 대안적인 메트릭이 또한 구현될 수 있다. 폴리뉴클레오타이드가 높은 신뢰도로 결정될 수 있으면, 확률의 공식화는 스킵될 수 있고, 단순 변이체 호출 단계가 실행될 수 있다. 예를 들어, 단순 변이체 호출기는 높은 신뢰도로 검출되는 임의의 변이체를 호출할 수 있다.
기존의 변이체 호출 방법의 확률 단계 및 변이체 호출 단계의 생성은 조합되어 변이체 호출기의 연산 및 처리의 최대 40%를 필요로 할 수 있다. 도 11b는 기존의 변이체 호출 방법의 낮은 신뢰도의 높은 연산 처리 경로 및 높은 신뢰도의 낮은 연산 처리 경로 양쪽 모두를 구현하는 변이체 호출 방법(1100)을 나타낸다. 높은 신뢰도의 낮은 연산 처리 경로를 추가함으로써, Strelka 변이체 호출기가 최적화되었으며 처리가 거의 40%만큼 감소되었다. 높은 신뢰도의 낮은 연산 처리 경로는 대안적인 변이체 호출기에 추가될 수 있다.
도 7b에 나타낸 바와 같이, 변이체 호출기는 반복 처리창 내에서 실행될 수 있다. 도 11a 또는 도 11b의 변이체 호출기는 반복 처리창 내에서 반복적으로 실행될 수 있다. 추가적으로, 하나보다 많은 유형의 변이체 호출기가 반복 처리창 내에서 실행될 수 있다. 예를 들어, Strelka와 같은 소형 변이체 호출기, 및 구조적 변이체 호출기 또는 복제수 변이체 호출자와 같은 대안적인 변이체 호출기가 반복 처리창 내에서 실행될 수 있다.
전술한 실시형태 중 적어도 일부에서, 실시형태에서 사용된 하나 이상의 요소는 이러한 대체가 기술적으로 가능하지 않은 경우가 아닌 한, 다른 실시형태에서 상호 교환 가능하게 사용될 수 있다. 당해 기술분야의 숙련가는, 다양한 다른 생략, 부가 및 수정이 청구된 주제의 범위를 벗어나지 않고 전술한 방법 및 구조에 대해 이루어질 수 있다는 것을 인정할 것이다. 이러한 모든 수정 및 변경은 첨부된 청구범위에 의해 정의된 바와 같은, 주제의 범위 내에 속하는 것으로 의도되어 있다.
본 명세서에서 실질적으로 임의의 복수형 및/또는 단수형 용어의 사용과 관련하여, 당해 기술분야의 숙련가는 문맥 및/또는 적용에 적절한 경우 복수형으로부터 단수형으로 및/또는 단수형으로부터 복수형으로 번역할 수 있다. 다양한 단수형/복수형의 치환은 명료성을 위해 본 명세서에서 명시적으로 제시될 수 있다.
당해 기술분야의 숙련가는, 일반적으로, 본 명세서, 및 특히 첨부된 청구범위(예를 들어, 첨부된 청구범위의 본체부)에서 사용되는 용어가 일반적으로 "개방형" 용어로 의도되어 있다는 것을 이해할 것이다(예를 들어, "포함하는"이라는 용어는 "포함하지만 이에 한정되지 않는"으로 해석되어야 하고, "갖는"이라는 용어는 "적어도 갖는"으로 해석되어야 하며, "포함하다"라는 용어는 "포함하지만 이에 한정되지 않는다"로 해석되어야 한다). 또한, 당해 기술분야의 숙련가는, 특정한 수의 도입된 청구항 기재가 의도되는 경우, 이러한 의도가 청구항에 명시적으로 기재될 것이고, 이러한 기재의 부재 하에 이러한 의도가 존재하지 않는다는 것을 이해할 것이다. 예를 들어, 이해를 돕기 위하여, 하기 첨부된 청구항은 청구항 기재를 도입하기 위하여 도입구 "적어도 하나" 및 "하나 이상"의 사용을 포함할 수 있다. 그러나, 이러한 문구의 사용은, 부정 관사("a" 또는 "an")에 의한 청구항 기재의 도입이 이러한 도입된 청구항 기재를 포함하는 임의의 특정한 청구항을 오직 하나의 이러한 기재를 포함하는 실시형태로 제한하는 것을 암시하는 것으로 해석되지 않아야 하는데, 동일한 청구항이 도입구 "하나 이상" 또는 "적어도 하나" 및 단수 표현을 포함하는 경우에도 그러하고(예를 들면, 단수 표현은 "적어도 하나" 또는 "하나 이상"을 의미하는 것으로 해석되어야 함); 청구항 기재를 도입하는 데 사용된 정관사의 사용에 대해서도 마찬가지이다. 또한, 특정한 수의 도입된 청구항 기재가 명시적으로 기재되는 경우에도, 당해 기술분야의 숙련가는, 이러한 기재가 통상적으로 적어도 기재된 수를 의미(예를 들어, 다른 수식어 없는 "2 기재"의 있는 그대로의 기재(bare recitation)는 통상적으로 적어도 2 기재 또는 2 이상의 기재를 의미)하는 것으로 해석되어야 한다는 것을 인식할 것이다. 또한, "A, B 및 C 중 적어도 하나 등"과 유사한 관례(convention)가 사용되는 이러한 경우에서, 일반적으로 이러한 구성은 당해 기술분야의 지식을 가진 자가 그 관례를 이해하는 의미로 의도되어 있다(예를 들어, "A, B, 및 C 중 적어도 하나를 갖는 시스템"은 A만을, B만을, C만을, A 및 B를 함께, A 및 C를 함께, B 및 C를 함께, 및/또는 A, B, 및 C를 함께 등을 갖는 시스템을 포함하지만 이에 한정되지 않는다). "A, B또는 C 중 적어도 하나 등"과 유사한 관행이 사용되는 이러한 경우에서, 일반적으로 이러한 구성은 당해 기술분야의 기술을 가진 자가 그 관행을 이해하는 의미로 의도되어 있다(예를 들어, "A, B 또는 C 중 적어도 하나를 갖는 시스템"은 A만을, B만을, C만을, A 및 B를 함께, A 및 C를 함께, B 및 C를 함께, 및/또는 A, B 및 C를 함께 등을 갖는 시스템을 포함하지만 이에 한정되지 않는다). 또한, 당해 기술분야의 종사자는, 2 이상의 대안적 용어를 제시하는 사실상 임의의 이접 단어 및/또는 문구는, 상세한 설명, 청구범위 또는 도면에 있든지 간에, 용어들 중 하나, 용어들 중 어느 하나, 또는 양쪽 모두의 용어들을 포함할 가능성을 고려하는 것으로 이해되어야 한다는 것을 이해할 것이다. 예를 들어, 문구 "A 또는 B"는 "A" 또는 "B" 또는 "A 및 B"의 가능성을 포함하는 것으로 이해될 것이다.
또한, 본 개시내용의 특징 또는 양태가 마쿠쉬 그룹의 관점에서 기술되는 경우, 당해 기술분야의 숙련가는 본 개시내용이 또한 이에 따라 마쿠쉬 그룹의 임의의 개별 멤버 또는 멤버들의 서브그룹으로 기재된다는 것을 인식할 것이다.
당해 기술분야의 숙련가에 의해 이해되는 바와 같이, 임의의 그리고 모든 목적으로, 예를 들어, 작성된 설명을 제공하는 관점에서, 본 명세서에 개시된 모든 범위는 또한 임의의 그리고 모든 가능한 하위범위들 및 그 하위범위들의 조합을 포함한다. 임의의 열거된 범위는 같은 범위가 적어도 동등한 1/2, 1/3, 1/4, 1/5, 1/10 등으로 분할되는 것을 충분히 기술하고 가능하게 하는 것으로 용이하게 인식될 수 있다. 비한정 예로서, 본 명세서에서 논의된 각 범위는 하위 1/3, 중간 1/3 및 상위 1/3 등으로 쉽게 분할될 수 있다. 또한, 당해 기술분야의 숙련가에 의해 이해되는 바와 같이, "이하", "적어도", "초과", "미만" 등과 같은 모든 언어는 기재된 수를 포함하고, 후속적으로 상기 논의된 하위범위로 분할될 수 있는 범위를 지칭한다. 마지막으로, 당해 기술분야의 숙련가에 의해 이해되는 바와 같이, 범위는 각각의 개별 멤버를 포함한다. 따라서, 예를 들어, 1-3개의 물품을 갖는 그룹은 1, 2 또는 3개의 물품을 갖는 그룹을 지칭한다. 마찬가지로, 예를 들어, 1-5개의 물품을 갖는 그룹은 1, 2, 3, 4 또는 5개의 물품 등을 갖는 그룹을 지칭한다.
다양한 양태 및 실시형태가 본 명세서에 개시되었지만, 다른 양태 및 실시형태가 당해 기술분야의 숙련가에게 명백할 것이다. 본 명세서에 개시된 다양한 양태 및 실시형태는 설명의 목적을 위한 것이고 한정을 의도하지 않으며, 진정한 범위 및 사상은 하기 청구범위에 의해 지시된다.

Claims (31)

  1. 폴리뉴클레오타이드를 서열분석하기 위한 시스템으로서,
    폴리뉴클레오타이드의 뉴클레오타이드 서열을 결정하도록 구성된 서열분석 장치;
    방법을 수행하는 명령어를 실행하고, 상기 서열분석 장치를 제어하도록 구성된 프로세서를 포함하고, 상기 방법은,
    상기 폴리뉴클레오타이드의 제1 뉴클레오타이드 하위서열(subsequence)을 수신하는 단계;
    제1 프로세스를 사용하여 상기 제1 뉴클레오타이드 하위서열이 임계 신뢰 레벨을 넘어 제1 복수의 후보 위치에서 참조 서열에 정렬되는지의 여부를 결정하는 단계;
    상기 서열분석 장치로부터 상기 폴리뉴클레오타이드의 제2 뉴클레오타이드 하위서열을 수신하는 단계로서, 상기 제2 뉴클레오타이드 하위서열은 상기 제1 뉴클레오타이드 하위서열과 하나 이상의 추가 뉴클레오타이드를 포함하는, 제2 뉴클레오타이드 하위서열을 수신하는 단계; 및
    상기 제1 뉴클레오타이드 하위서열이 상기 임계 신뢰 레벨을 넘어 상기 참조 서열에 정렬되면 상기 제1 복수의 후보 위치에 부분적으로 기초하여 상기 제2 뉴클레오타이드 하위서열의 상기 하나 이상의 추가 뉴클레오타이드를 상기 참조 서열과 비교하거나, 또는 상기 제1 뉴클레오타이드 하위서열이 상기 임계 신뢰 레벨을 넘어 상기 참조 서열에 정렬되지 않으면 상기 제2 뉴클레오타이드 하위서열 전체를 상기 참조 서열에 정렬함으로써 상기 제1 프로세스를 반복하는 단계를 포함하는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  2. 제1항에 있어서, 상기 임계 신뢰 레벨은 부정합의 수 또는 정확한 정합의 확률에 의존하는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  3. 제1항에 있어서, 상기 제1 뉴클레오타이드 하위서열은 길이가 하나 이상의 뉴클레오타이드인, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  4. 제1항에 있어서, 상기 제2 뉴클레오타이드 하위서열은 길이가 하나 이상의 뉴클레오타이드인, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  5. 제1항에 있어서, 상기 제2 뉴클레오타이드 하위서열의 상기 하나 이상의 추가 뉴클레오타이드를 상기 참조 서열과 비교하는 것은, 단순 정렬 프로세스를 포함하고, 상기 단순 정렬 프로세스는 메모리 사용 또는 연산 동작의 수에서 상기 제1 프로세스보다 계산상 더욱 효율적인, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  6. 제5항에 있어서, 상기 프로세서는 상기 단순 정렬 프로세스에 기초하여 단순 정렬 스코어(simple alignment score)를 결정하도록 더 구성되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  7. 제1항에 있어서, 상기 프로세서는 상기 제1 뉴클레오타이드 하위서열이 상기 참조 서열에 정렬되면 상기 제1 복수의 후보 위치 중 적어도 하나에 대응하는 데이터를 저장하도록 더 구성되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  8. 제1항에 있어서, 상기 프로세서는 상기 제2 뉴클레오타이드 하위서열을 상기 참조 서열과 비교한 결과인 제2 복수의 후보 위치 중 적어도 하나에 대응하는 데이터를 저장하도록 더 구성되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  9. 제1항에 있어서, 상기 제2 뉴클레오타이드 하위서열의 상기 하나 이상의 추가 뉴클레오타이드를 상기 참조 서열과 비교하는 것은, 상기 제1 복수의 후보 위치에 기초하여 상기 제2 뉴클레오타이드 하위서열을 상기 참조 서열 상의 상기 제2 뉴클레오타이드 하위서열의 대응하는 서열과 비교하는 것을 포함하는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  10. 제8항에 있어서, 상기 프로세서는 상기 제2 복수의 후보 위치 각각에 대한 매핑 품질(MapQ) 스코어를 결정하도록 더 구성되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  11. 제1항에 있어서, 상기 제1 뉴클레오타이드 하위서열이 상기 참조 서열에 정렬되는지 여부를 결정하는 것은 서열분석 반응이 완료되기 전에 시작되는 것인, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  12. 제1항에 있어서, 상기 프로세서는, 상기 제1 뉴클레오타이드 하위서열 또는 상기 제2 뉴클레오타이드 하위서열에 대한 변이체 호출(variant calling)을 수행하도록 더 구성되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  13. 제12항에 있어서, 상기 변이체 호출을 수행하는 것은,
    제1 변이체 호출 프로세스 또는 단순한 제2 변이체 호출 프로세스를 사용하여 변이체 호출을 수행하는 것을 포함하고, 상기 제2 변이체 호출 프로세스는 상기 제2 뉴클레오타이드 하위서열의 변이체 호출에서 상기 제1 변이체 호출 프로세스보다 계산상 더욱 효율적인, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  14. 제12항에 있어서, 상기 변이체 호출은 변이체 호출 메트릭에 기초하여 상기 제1 프로세스 또는 상기 제2 뉴클레오타이드 하위서열의 상기 하나 이상의 추가 뉴클레오타이드를 상기 참조 서열과 비교하는 데 사용되는 프로세스의 출력을 이용하여 수행되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  15. 제14항에 있어서, 상기 변이체 호출 메트릭은 상기 참조 서열의 위치에서 호출된 상이한 염기 유형의 수에 기초하여 결정되는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  16. 제1항에 있어서, 상기 제2 뉴클레오타이드 하위서열의 상기 하나 이상의 추가 뉴클레오타이드를 상기 참조 서열과 비교하는 것은 서열분석 반응이 완료되기 전에 시작되는 것인, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  17. 제1항에 있어서, 상기 서열분석 장치는 합성에 의한 서열분석(sequencing-by-synthesis) 방법을 구현하는, 폴리뉴클레오타이드를 서열분석하기 위한 시스템.
  18. 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법으로서,
    제1 뉴클레오타이드 하위서열의 서열분석 실행 중에 서열분석 장치로부터 판독의 제1 뉴클레오타이드 하위서열을 수신하는 단계;
    제1 프로세스 또는 제2 프로세스를 사용하여 참조 서열에 기초하여 상기 판독의 상기 제1 뉴클레오타이드 하위서열의 이차 분석을 수행하는 단계; 및
    상기 서열분석 장치가 추가 뉴클레오타이드 판독을 생성해야하는지 결정하는 단계를 포함하고,
    상기 제1 뉴클레오타이드 하위서열은 이전의 반복에 비해 하나 이상의 추가 뉴클레오타이드를 포함하고, 상기 제2 프로세스는 상기 이차 분석을 수행함에 있어서 상기 제1 프로세스보다 계산상 더욱 효율적이며, 상기 제1 프로세스는 상기 제1 뉴클레오타이드 하위서열 전체를 상기 참조 서열에 정렬하고, 상기 제2 프로세스는 상기 이전의 반복의 결과에 부분적으로 기초하여 상기 하나 이상의 추가 뉴클레오타이드를 상기 참조 서열에 정렬하며,
    상기 이차 분석은, 상기 제1 뉴클레오타이드 하위서열과 높은 정도의 유사성을 갖는 상기 참조 서열의 제1 하위서열을 결정하기 위해, 상기 제1 뉴클레오타이드 하위서열을 상기 참조 서열과 비교하는 것을 포함하는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  19. 제18항에 있어서, 상기 이차 분석을 수행하는 단계는,
    상기 판독이 상기 이전의 반복에서 상기 참조 서열에 정렬되지 않으면 상기 제1 프로세스를 사용하고,
    그렇지 않으면 상기 제2 프로세스
    를 사용하여 상기 참조 서열에 정렬되는 상기 판독의 제1 복수의 후보 위치를 결정하기 위해 상기 제1 뉴클레오타이드 하위서열을 처리하는 단계를 포함하고,
    상기 제2 프로세스는 상기 판독의 상기 제1 복수의 후보 위치를 결정하기 위해 상기 제1 프로세스보다 계산상 더욱 효율적인, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  20. 제19항에 있어서, 상기 제2 프로세스를 사용하여 상기 제1 뉴클레오타이드 하위서열의 이차 분석을 수행하는 것은 단순 정렬 스코어를 결정하기 위해 단순 정렬을 수행하는 것을 포함하는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  21. 제19항에 있어서, 상기 이차 분석의 결과는 상기 제1 프로세스의 출력 또는 상기 제2 프로세스의 출력을 포함하는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  22. 제18항에 있어서, 상기 이차 분석을 수행하는 단계는, 상기 제1 뉴클레오타이드 하위서열의 변이체 호출을 수행하는 단계를 포함하고, 상기 변이체 호출을 수행하는 단계는,
    제1 변이체 호출 프로세스 또는 제2 변이체 호출 프로세스를 사용하여 상기 제1 프로세스 또는 제2 프로세스의 출력에 대해 변이체 호출을 수행하는 단계를 포함하며, 상기 제2 변이체 호출 프로세스는 상기 제1 뉴클레오타이드 하위서열의 변이체 호출에서 상기 제1 변이체 호출 프로세스보다 계산상 더욱 효율적인, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  23. 제22항에 있어서, 상기 이차 분석의 결과는 상기 제1 변이체 호출 프로세스의 출력 또는 상기 제2 변이체 호출 프로세스의 출력을 포함하는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  24. 제18항에 있어서, 상기 서열분석 실행 중에 상기 이차 분석의 결과를 사용자에게 제공하는 단계를 더 포함하는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  25. 제24항에 있어서, 상기 이차 분석의 결과는 고정된 간격을 두고 상기 사용자에게 제공되는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  26. 제24항에 있어서, 상기 이차 분석의 결과는 상기 사용자의 요청으로 상기 사용자에게 제공되는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  27. 제19항에 있어서, 상기 이차 분석을 수행하는 것은 상기 이전의 반복에서 상기 제1 뉴클레오타이드 하위서열이 임계 신뢰도를 넘어 상기 참조 서열에 정렬되는지의 여부에 기초하는, 폴리뉴클레오타이드를 효율적으로 서열분석하기 위한 컴퓨터-구현 방법.
  28. 제1항 내지 제17항 중 어느 한 항에 따른 시스템의 기능을 컴퓨터에서 구현하기 위한 프로그램을 기록한, 컴퓨터 판독 가능 기록매체.
  29. 제18항 내지 제27항 중 어느 한 항에 따른 방법을 컴퓨터로 하여금 실행시키도록 하는 프로그램을 기록한, 컴퓨터 판독 가능 기록매체.
  30. 제1항 내지 제17항 중 어느 한 항에 따른 시스템의 기능을 컴퓨팅 장치에서 구현하기 위해 매체에 저장된, 컴퓨터 프로그램.
  31. 제18항 내지 제27항 중 어느 한 항에 따른 방법을 컴퓨팅 장치에서 실행하기 위해 매체에 저장된, 컴퓨터 프로그램.
KR1020227011278A 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법 KR102515638B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237010257A KR20230044335A (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201662405824P 2016-10-07 2016-10-07
US62/405,824 2016-10-07
KR1020187038172A KR102384832B1 (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법
PCT/US2017/055653 WO2018068014A1 (en) 2016-10-07 2017-10-06 System and method for secondary analysis of nucleotide sequencing data

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020187038172A Division KR102384832B1 (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237010257A Division KR20230044335A (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220047887A KR20220047887A (ko) 2022-04-19
KR102515638B1 true KR102515638B1 (ko) 2023-03-29

Family

ID=60480359

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020227011278A KR102515638B1 (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법
KR1020237010257A KR20230044335A (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법
KR1020187038172A KR102384832B1 (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020237010257A KR20230044335A (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법
KR1020187038172A KR102384832B1 (ko) 2016-10-07 2017-10-06 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법

Country Status (15)

Country Link
US (2) US11646102B2 (ko)
EP (1) EP3458993A1 (ko)
JP (3) JP6898441B2 (ko)
KR (3) KR102515638B1 (ko)
CN (2) CN115810396A (ko)
AU (3) AU2017341069A1 (ko)
BR (2) BR122023004154A2 (ko)
CA (1) CA3027179C (ko)
IL (2) IL263512B2 (ko)
MX (2) MX2018015412A (ko)
MY (1) MY193917A (ko)
RU (1) RU2741807C2 (ko)
SG (2) SG11201810924WA (ko)
WO (1) WO2018068014A1 (ko)
ZA (2) ZA201808277B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
EP3447495B2 (en) 2012-10-29 2024-03-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
CN110268072B (zh) * 2016-12-15 2023-11-07 Illumina公司 确定旁系同源基因的方法和系统
EP3665308A1 (en) 2017-08-07 2020-06-17 The Johns Hopkins University Methods and materials for assessing and treating cancer
JP2022533492A (ja) 2019-05-24 2022-07-25 イルミナ インコーポレイテッド ハッシュテーブルゲノムマッピングのための柔軟性のあるシード伸長
KR102292599B1 (ko) * 2019-11-06 2021-08-23 주식회사 뷰웍스 광학 분석 장치 및 광학 분석 방법
CN115210815A (zh) * 2020-03-11 2022-10-18 因美纳有限公司 核酸序列的增量二级分析
CN113436683A (zh) * 2020-03-23 2021-09-24 北京合生基因科技有限公司 筛选候选插入片段的方法和系统
AU2022202798A1 (en) * 2021-05-26 2022-12-15 Genieus Genomics Pty Ltd Processing sequencing data relating to amyotrophic lateral sclerosis
CN113299344A (zh) * 2021-06-23 2021-08-24 深圳华大医学检验实验室 基因测序分析方法、装置、存储介质和计算机设备
WO2024081805A1 (en) * 2022-10-13 2024-04-18 Element Biosciences, Inc. Separating sequencing data in parallel with a sequencing run in next generation sequencing data analysis

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270533A1 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2357263A1 (en) 2001-09-07 2003-03-07 Bioinformatics Solutions Inc. New methods for faster and more sensitive homology search in dna sequences
US7575865B2 (en) * 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
EP1846853B1 (en) * 2005-02-11 2008-08-27 Smartgene GmbH Computer-implemented method and computer-based system for validating dna sequencing data
US20120203792A1 (en) 2011-02-01 2012-08-09 Life Technologies Corporation Systems and methods for mapping sequence reads
US10424394B2 (en) * 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2850785C (en) * 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR101394339B1 (ko) * 2012-03-06 2014-05-13 삼성에스디에스 주식회사 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
US10504613B2 (en) * 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR101481457B1 (ko) 2012-10-29 2015-01-12 삼성에스디에스 주식회사 리드 전체를 고려한 염기 서열 정렬 시스템 및 방법
US20140238250A1 (en) 2013-02-28 2014-08-28 Wki Holding Company, Inc. Microwavable Heating Element and Composition
WO2014152990A1 (en) * 2013-03-14 2014-09-25 University Of Rochester System and method for detecting population variation from nucleic acid sequencing data
US10191929B2 (en) 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
RU2539038C1 (ru) 2013-11-02 2015-01-10 Общество с ограниченной ответственностью "Гамма" Способ секвенирования днк и устройство для его осуществления (варианты)
CN104462211B (zh) * 2014-11-04 2018-01-02 北京诺禾致源科技股份有限公司 重测序数据的处理方法和处理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110270533A1 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cuncong Zhong 외, GRASP: Guided Reference-based Assembly of Short Peptides, Nucleic Acids Research, 2014.11.20., Vol.43, No.3, e18, pp1-10.
Cuncong Zhong 외, GRASPx: efficient homolog-search of short peptide metagenome database through simultaneous alignment and assembly, BMC bioinformatics, 2016.08.31., Vol.17., No.Supplement8, pp.611-621
Cuncong Zhong 외, Metagenome and Metatranscriptome Analyses Using Protein Family Profiles, PLOS Computational Biology, 2016.11.07., pp.1-22.

Also Published As

Publication number Publication date
MY193917A (en) 2022-11-01
US20230410945A1 (en) 2023-12-21
BR122023004154A2 (pt) 2023-10-10
CN109416927A (zh) 2019-03-01
WO2018068014A9 (en) 2018-08-30
AU2021277671B2 (en) 2023-10-12
JP2019522861A (ja) 2019-08-15
IL300135B1 (en) 2024-02-01
KR20190017825A (ko) 2019-02-20
SG11201810924WA (en) 2019-01-30
IL300135B2 (en) 2024-06-01
MX2018015412A (es) 2019-05-27
CN115810396A (zh) 2023-03-17
US20190385699A1 (en) 2019-12-19
RU2018143972A (ru) 2020-06-15
JP6898441B2 (ja) 2021-07-07
SG10201911912XA (en) 2020-02-27
IL263512A (en) 2019-03-31
IL300135A (en) 2023-03-01
BR112018076983A2 (pt) 2019-04-16
JP2022060425A (ja) 2022-04-14
JP2020144936A (ja) 2020-09-10
US11646102B2 (en) 2023-05-09
WO2018068014A1 (en) 2018-04-12
ZA201808277B (en) 2022-06-29
IL263512B2 (en) 2023-09-01
BR112018076983A8 (pt) 2023-10-10
IL263512B1 (en) 2023-05-01
CN109416927B (zh) 2023-05-02
KR20220047887A (ko) 2022-04-19
JP7051937B2 (ja) 2022-04-11
CA3027179A1 (en) 2018-04-12
AU2017341069A1 (en) 2019-01-24
RU2018143972A3 (ko) 2020-06-15
EP3458993A1 (en) 2019-03-27
KR102384832B1 (ko) 2022-04-08
AU2020207826A1 (en) 2020-08-13
ZA202101720B (en) 2023-05-31
JP7387777B2 (ja) 2023-11-28
RU2741807C2 (ru) 2021-01-28
AU2021277671A1 (en) 2021-12-23
CA3027179C (en) 2023-06-27
AU2020207826B2 (en) 2021-09-09
KR20230044335A (ko) 2023-04-03
MX2022011757A (es) 2022-10-18

Similar Documents

Publication Publication Date Title
KR102515638B1 (ko) 뉴클레오타이드 서열분석 데이터의 이차 분석을 위한 시스템 및 방법
US20190362810A1 (en) Systems and methods for determining copy number variation
US11887699B2 (en) Methods for compression of molecular tagged nucleic acid sequence data
JP7373047B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
US20210358572A1 (en) Methods, systems, and computer-readable media for calculating corrected amplicon coverages
NZ793021A (en) System and method for secondary analysis of nucleotide sequencing data
US11566281B2 (en) Systems and methods for paired end sequencing

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right