KR102521547B1 - 페이징 보정 - Google Patents

페이징 보정 Download PDF

Info

Publication number
KR102521547B1
KR102521547B1 KR1020227011478A KR20227011478A KR102521547B1 KR 102521547 B1 KR102521547 B1 KR 102521547B1 KR 1020227011478 A KR1020227011478 A KR 1020227011478A KR 20227011478 A KR20227011478 A KR 20227011478A KR 102521547 B1 KR102521547 B1 KR 102521547B1
Authority
KR
South Korea
Prior art keywords
color values
base calling
nucleic acid
sites
cycle
Prior art date
Application number
KR1020227011478A
Other languages
English (en)
Other versions
KR20220047895A (ko
Inventor
로버트 랑글로아
폴 벨리츠
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Priority to KR1020237012206A priority Critical patent/KR102629171B1/ko
Publication of KR20220047895A publication Critical patent/KR20220047895A/ko
Application granted granted Critical
Publication of KR102521547B1 publication Critical patent/KR102521547B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L3/00Containers or dishes for laboratory use, e.g. laboratory glassware; Droppers
    • B01L3/50Containers for the purpose of retaining a material to be analysed, e.g. test tubes
    • B01L3/502Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures
    • B01L3/5027Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip
    • B01L3/502715Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip characterised by interfacing components, e.g. fluidic, electrical, optical or mechanical interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L3/00Containers or dishes for laboratory use, e.g. laboratory glassware; Droppers
    • B01L3/50Containers for the purpose of retaining a material to be analysed, e.g. test tubes
    • B01L3/502Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures
    • B01L3/5027Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip
    • B01L3/502761Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip specially adapted for handling suspended solids or molecules independently from the bulk fluid flow, e.g. for trapping or sorting beads, for physically stretching molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1068Template (nucleic acid) mediated chemical library synthesis, e.g. chemical and enzymatical DNA-templated organic molecule synthesis, libraries prepared by non ribosomal polypeptide synthesis [NRPS], DNA/RNA-polymerase mediated polypeptide synthesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J3/00Spectrometry; Spectrophotometry; Monochromators; Measuring colours
    • G01J3/02Details
    • G01J3/0267Sample holders for colorimetry
    • G01N15/1433
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/251Colorimeters; Construction thereof
    • G01N21/253Colorimeters; Construction thereof for batch operation, i.e. multisample apparatus
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/27Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
    • G01N21/274Calibration, base line adjustment, drift correction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/6452Individual samples arranged in a regular 2D-array, e.g. multiwell plates
    • G01N21/6454Individual samples arranged in a regular 2D-array, e.g. multiwell plates using an integrated detector array
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6486Measuring fluorescence of biological material, e.g. DNA, RNA, cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/01Arrangements or apparatus for facilitating the optical investigation
    • G01N21/03Cuvette constructions
    • G01N21/05Flow-through cuvettes
    • G01N2021/058Flat flow cell
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/127Calibration; base line adjustment; drift compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time

Abstract

메모리 효율적인 방법이 염기 콜링 사이클 동안 핵산 시퀀서에 의해 획득된 이미지 데이터로부터 보정된 컬러 값을 결정한다. 이러한 방법은 (a) 핵산 염기가 판독되는 복수의 사이트를 포함하는 기질(가령, 플로우 셀의 일부분)의 이미지를 획득하는 단계, (b) 기질의 이미지로부터 복수의 사이트의 컬러 값을 측정하는 단계, (c) 시퀀서의 하나 이상의 프로세서의 프로세서 버퍼에 컬러 값을 저장하는 단계, (d) 복수의 사이트의 부분적으로 페이즈-보정된 컬러 값을 불러오는 단계 - 부분적으로 페이즈-보정된 컬러 값은 바로 이전 염기 콜링 사이클 동안 시퀀서의 메모리에 저장됨 - , (e) 프리페이징 보정을 결정하는 단계, 및 (f) 보정된 컬러 값을 결정하는 단계를 포함한다. 다양한 구현예에서, 이들 동작은 단일 염기 콜링 사이클 동안 모두 수행된다. 특정 실시예에서, 방법은 보정된 컬러 값을 이용해 복수의 사이트에 대해 염기 콜을 하는 단계를 더 포함한다. 시퀀서는 이러한 방법을 구현하도록 설계 또는 구성될 수 있다.

Description

페이징 보정{PHASING CORRECTION}
관련 출원의 상호 참조
이 출원은 본 명세서에 그 전체가 참조로서 그리고 모든 목적으로 포함되는 2017년01월06일에 출원된 미국 가특허출원 번호 62/443,294 발명의 명칭 "PHASING CORRECTION"의 이익을 주장한다.
본 발명은 핵산 시퀀싱과 관련된다. 더 구체적으로, 본 발명은 페이징 보정(phasing correction)을 이용하는 실시간 시퀀싱 시스템 및 방법과 관련된다.
플로우 셀(flow cell) 또는 그 밖의 다른 기질 상의 특정 사이트(site)에서, (시료 처리에 의해 의도치 않게 도입되는 변이가 적은) 모두 동일한 서열을 갖는 핵산 분자의 복수의 복제본이 함께 분석된다. 신뢰할만한 염기 콜(base calling)을 가능하게 하기에 충분한 신호가 생성되도록 충분한 복제본이 사용된다. 한 사이트에서의 핵산 분자 집합이 클러스터라고 지칭된다.
페이징(phasing)은 클러스터 내 복수의 핵산 분자를 시퀀싱하는 것으로부터 발생하는 의도되지 않은 아티팩트(artifact)를 나타낸다. 페이징은 클러스터 내 단일 분자로부터의 신호, 가령, 형광이 서로와의 동기화 상태에서 벗어나는 율(rate)이다. 종종 용어 페이징은 뒤쳐지는 일부 분자로부터의 신호의 오염에 대해 사용되고 용어 프리-페이징(pre-phasing)은 앞서 간 다른 분자로부터의 신호의 오염에 대해 사용된다. 페이징과 프리-페이징은 함께 시퀀싱 장치 및 화학의 성능을 설명한다.
본 발명의 특정 양태는 염기 콜링 사이클 동안 핵산 시퀀서에 의해 획득된 이미지 데이터로부터 보정된 컬러 값을 결정하는 방법과 관련되며, 시퀀서는 이미지 획득 시스템, 하나 이상의 프로세서, 및 메모리를 포함한다. 이러한 방법은 다음의 단계를 특징으로 가질 수 있다: (a) 핵산 염기가 판독되는 복수의 사이트를 포함하는 기질(가령, 플로우 셀의 일부분)의 이미지를 획득하는 단계, (b) 기질의 이미지로부터 복수의 사이트의 컬러 값을 측정하는 단계, (c) 시퀀서의 하나 이상의 프로세서의 프로세서 버퍼에 컬러 값을 저장하는 단계, (d) 복수의 사이트의 부분적으로 페이즈-보정된 컬러 값을 불러오는 단계 - 상기 부분적으로 페이즈-보정된 컬러 값은 바로 이전 염기 콜링 사이클 동안 시퀀서의 메모리에 저장됨 - , (e) 프리페이징 보정을 결정하는 단계, 및 (f) 보정된 컬러 값을 결정하는 단계. 다양한 구현예에서, 이들 단계는 모두 단일 염기 콜링 사이클 동안 수행된다. 특정 실시예에서, 상기 방법은 보정된 컬러 값을 이용해 복수의 사이트에 대해 염기 콜을 하는 단계를 더 포함한다.
시퀀싱 동안, 사이트는 핵산 염기 유형을 나타내는 컬러를 보인다. 측정 및 저장된 컬러 값이 특정 파장 또는 파장 범위에서의 강도 또는 그 밖의 다른 크기 값일 수 있다. 일부 구현예에서, 컬러 값이 시퀀서의 단 2개의 채널로부터 결정된다. 일부 구현예에서, 컬러 값이 시퀀서의 4개의 채널로부터 획득된다. 본 개시내용이 컬러 신호의 페이징 보정에 촛점을 맞추지만, 개념은 동일한 서열을 갖는 핵산의 클러스터를 시퀀싱하는 동안 발생한 그 밖의 다른 유형의 신호에도 적용된다. 이러한 그 밖의 다른 신호의 예시로는 가시광 스펙트럼 밖의 복사, 이온 농도 등이 있다.
특정 실시예에서, (f)에서 보정된 컬러 값을 결정하는 것은 (i) 프로세서 버퍼에 컬러 값, (ii) 바로 이전 사이클 동안 저장된 부분적으로 페이즈 보정된 값, 및 (iii) 프리페이징 보정을 이용한다. 특정 실시예에서, (e)에서 프리-페이징 보정을 결정하는 것은 바로 이전 염기 콜링 사이클 동안 저장된 부분적으로 페이즈-보정된 컬러 값, 및 (ii) 프로세서 버퍼 내에 저장된 컬러 값을 이용한다.
특정 실시예에서, 프리페이징 보정은 가중치를 포함한다. 이러한 실시에에서, 보정된 컬러 값을 결정하는 단계는 가중치와 기질의 이미지로부터 측정된 복수의 사이트의 컬러 값을 곱하는 단계를 포함할 수 있다.
특정 구현예에서, 방법은 바로 다음 염기 콜링 사이클에 대한 페이징 보벙을 결정하는 단계를 더 포함한다. 예를 들어, 바로 다음 염기 콜링 사이클에 대해 페이징 보정을 결정하는 단계는 (i) 시퀀서의 메모리에 저장된 부분적으로 페이즈-보정된 컬러 값, 및 (ii) 프로세서 버퍼에 저장된 컬러 값을 분석하는 단계를 포함한다. 바로 다음 염기 콜링 사이클에 대한 페이징 보정을 결정하는 단계를 포함하는 특정 실시예에서, 상기 방법은 (i) 시퀀서의 메모리에 저장된 복수의 사이트의 컬러 값에 페이징 보정을 적용함으로써 바로 다음 염기 콜링 사이클에 대해 부분적으로 페이즈-보정된 컬러 값을 생성하는 단계, 및 (ii) 바로 다음 염기 콜링 사이클에 대한 부분적으로 페이즈-보정된 컬러 값을 시퀀서의 메모리에 저장하는 단계를 더 포함한다. 특정 실시예에서, 바로 다음 염기 콜링 사이클에 대한 부분적으로 페이즈-보정된 컬러 값을 생성하는 단계는 (i) 복수의 사이트의 페이징 보정된 컬러 값과, (ii) (b)에서 측정된 기질의 이미지로부터의 복수의 사이트의 컬러 값을 합하는 단계를 더 포함한다. 일부 구현예에서, 바로 다음 염기 콜링 사이클에 대한 부분적으로 페이즈-보정된 컬러 값을 저장하는 단계는 부분적으로 보정된 컬러 값을 시퀀서의 메모리의 타일 버퍼에 저장한다.
특정 실시예에서, 상기 방법은 핵산 시퀀서에 의한 서열 리드의 획득 동안 실시간으로 수행된다. 특정 실시예에서, 핵산 시퀀서는 복수의 사이트에서의 핵산을 합성함으로써 시퀀싱한다. 기질이 플로우 셀을 포함하는 특정 실시예에서, 플로우 셀은 타일로 논리적으로 분할되며, 각각의 타일은 사이트의 서브세트를 포함하는 플로우 셀의 영역을 나타내고, 서브세트는 이미지 획득 시스템으로부터의 단일 이미지로 캡처된다.
이러한 시스템을 채용하는 일부 실시예에서, (복수의 사이트의 부분적으로 페이즈-보정된 컬러 값을 불러오는) 단계 (d)에서, 부분적으로 페이즈-보정된 컬러 값이 시퀀서의 메모리의 타일 버퍼에 이전에 저장된 것이며, 타일 버퍼는 기질 상의 개별 타일의 이미지를 나타내는 데이터를 저장하도록 지정된다. 특정 실시에에서, 메모리는 약 512 기가바이트 이하, 또는 약 256 기가바이트 이하의 저장 용량을 가진다. 특정 실시예에서, 예를 들어, 메모리는 2개의 플로우 셀 상의 총 개수의 타일에 포함된 데이터를 저장하는 데 필요한 용량 2배보다 적은 저장 용량을 가진다. 일부 실시예에서, 본 명세서에 기재된 프로세싱은 적어도 약 50 기가바이트를 절약하며, 일부 실시예에서 이는 적어도 약 100 기가바이트를 절약한다.
일부 구현예에서, (기질의 이미지를 획득하는) 단계 (a) 전에, 방법은 시약을 플로우 셀에 제공하는 단계 및 시약이 사이트와 상호작용하게 하여 염기 콜링 사이클 동안 핵산 염기 유형을 나타내는 컬러를 보이는 단계를 더 포함한다. 이러한 실시예에서, 방법은 (보정된 컬러 값을 결정하는) 단계 (f) 후, (i) 플로우 셀로 새 시약을 제공하는 단계 및 새 시약이 사이트와 상호작용하게 하여 다음 염기 콜링 사이클에 대한 핵산 염기 유형을 나타내는 컬러를 보이는 단계, 및 (ii) 다음 염기 콜링 사이클 동안 단계 (a)-(e)를 반복하는 단계를 포함한다. 이러한 방법은 염기 콜링 사이클에 대해 단계 (a)-(f)를 수행하기 위한 제1 프로세서 스레드를 생성하는 단계, 및 다음 염기 콜링 사이클에 대해 단계 (a)-(f)를 수행하기 위한 제2 프로세서 스레드를 생성하는 단계를 더 포함할 수 있다. 특정 실시예에서, 방법은 프로세서 버퍼 및 제2 프로세서 버퍼를 할당하는 단계를 더 포함하며, 제2 프로세서 버퍼가 (f)에서 보정된 컬러 값을 결정하도록 사용된다.
본 발명의 특정한 그 밖의 다른 양태가 이미지 획득 시스템, 메모리, 및 하나 이상의 프로세서에 의해 특징지어질 수 있는 핵산 시퀀서와 관련되며, 상기 하나 이상의 프로세서는 (a) 핵산 염기가 판독되는 복수의 사이트를 포함하는 기질의 이미지를 나타내는 데이터를 획득하며(사이트가, 가령, 핵산 염기 유형을 나타내는 컬러를 보임), (b) 기질의 이미지로부터 복수의 사이트의 컬러 값을 획득하고, (c) 컬러 값을 프로세서 버퍼에 저장하며, (d) 염기 콜링 사이클에 대해 복수의 사이트의 복수의 사이트의 부분적으로 페이즈-보정된 컬러 값을 불러오며(부분적으로 페이즈-보정된 컬러 값은 바로 이전 염기 콜링 사이클 동안 시퀀서의 메모리에 저장됨), (e) 프리페이징 보정을 결정하고, (f) 가령, (i) 프로세서 버퍼 내 컬러 값, (ii) 바로 이전 사이클 동안 저장된 부분적으로 페이즈 보정된 값, 및 (iii) 프리페이징 보정으로부터 보정된 컬러 값을 결정하도록 설계 또는 구성된다.
프리페이징 보정을 결정하기 위한 명령 또는 그 밖의 다른 구성이 (i) 바로 이전 염기 콜링 사이클 동안 저장된 부분적으로 페이즈-보정된 컬러 값, 및 (ii) 프로세서 버퍼에 저장된 컬러 값으로부터 프리페이징 보정을 결정하기 위한 구성을 포함할 수 있다.
특정 실시예에서, 메모리는 복수의 타일 버퍼로 분할되며, 각각의 타일 버퍼는 기질 상의 타일의 단일 이미지를 나타내는 데이터를 저장하도록 지정된다. 특정 실시예에서, 메모리는 약 550 기가바이트 미만의 저장 용량을 가진다(일부 예시에서, 2개의 플로우 셀 상의 총 개수의 타일에 포함된 데이터를 저장하기 위해 필요한 용량을 2배 미만이다).
프로세서는 다양한 방식으로 언급된 동작, 가령, 실행형 기계 판독 명령을 수신하는 동작을 수행하도록 구성될 수 있다. 일부 경우, 프로세서는 펌웨어 또는 커스텀 프로세싱 코어, 가령, 디지털 신호 프로세싱 코어로 프로그램된다. 다양한 실시예에서, 프로세서(들)는 상기에서 기재된 방법 동작 중 하나 이상을 수행(및/또는 제어)하도록 설계 또는 구성된다.
일부 구현예에서, 본 명세서에 개시된 페이징 보정 특징부는 메모리(가령, 랜덤 액세스 메모리(RAM))를 더 효율적으로 사용함으로써 시퀀싱 기구의 비용을 상당히 감소한다. 일부 실시예는 시퀀싱 플랫폼 상의 실히간 분석(RTA)의 맥락에서 이들 페이징 보정 특징부를 이용한다.
본 발명의 이들 및 그 밖의 다른 특징부가 이하에서 관련 도면을 참조하여 더 상세히 제공될 것이다.
도 1은 핵산 클러스터로부터 취해진 이미지 데이터의 실시간 분석을 위한 하드웨어를 갖는 시퀀서의 블록도이다.
도 2는 페이징 및 프리-페이징의 개념을 도시하기 위해 사용되는 2개의채널 시퀀싱 데이터를 도시한다.
도 3은 복수의 타일을 포함하는 플로우 셀 아키텍처를 도시하며, 각각의 타일이 많은 클러스터를 포함한다.
도 4는 타일 내 클러스터에 또는 플로우 셀의 그 밖의 다른 이미징되는 부분 대한 크기 데이터를 포함하는 데이터 어레이를 도시하며, 이때 크기 데이터는 둘 이상의 컬러 채널 각각에 대한 광도 값일 수 있다.
도 5는 페이징 보정을 실시간으로 실시하기 위한 제1 처리 구성 및 방법을 개략적으로 도시한다.
도 6은 도 5에 도시된 프로세서 및 메모리 구성을 채용할 수 있는 염기 콜링 프로세스의 흐름도를 제공한다.
도 7은 페이징 보정을 실시간으로 실시하기 위한 제2 처리 구성 및 방법을 개략적으로 도시한다. 이 구성은 시스템 메모리 요구치를 감소시킨다.
도 8은 페이징 보정을 실시간으로 실시하기 위한 제3 처리 구성 및 방법을 개략적으로 도시한다. 이 구성은 시스템 메모리 요구치를 더 감소시킨다.
도 9는 도 8 및 일부 구현예에서 도 7의 프로세서 및 메모리 구성에 의해 사용될 수 있는 제1 처리 사이클의 하이-레벨 흐름도를 제공한다.
도 10은 완전 페이징 보정된 염기 콜링을 실시하는 처리 사이클의 흐름도를 제공한다. 이러한 사이클은 타일의 클러스터를 시퀀싱할 때 제3의 후속 처리 사이클에서 수행될 수 있다.
도 11은 감소된 메인 메모리 알고리즘을 이용하는 페이징 보정 방법을 위한 비교 데이터를 제공한다.
정의
수치 범위가 범위를 정의하는 숫자들을 포함한다. 본 명세서 전체에서 모든 최대 수치 한계가 모든 더 낮은 수치 한계를, 이러한 더 낮은 수치 한계가 본 명세서에 명시적으로 기재된 것처럼 포함한다. 본 명세서 전체에서 제공되는 모든 최소 수치 한계가 모든 더 높은 수치 한계를, 이러한 더 높은 수치 한계가 명시적으로 기재된 것처럼 포함한다. 본 명세서 전체에서 제공되는 모든 수치 범위가 더 넓은 수치 범위 내에 속하는 모든 더 좁은 수치 범위를, 이러한 더 좁은 수치 범위가 본 명세서에 명시적으로 기재된 것처럼 포함할 것이다.
본 명세서에 제공되는 제목은 본 발명을 제한하려는 의도가 없다.
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술 및 과학 용어는 해당 분야의 통상의 기술자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 본 명세서에 포함된 용어를 포함하는 다양한 과학 용어집이 해당 분야의 통상의 기술자에게 잘 알려져 있고 이용 가능하다. 본 명세서에 기재된 것과 유사하거나 균등한 임의의 방법 및 물질이 본 명세서에 개시된 실시예의 실시 또는 테스트에서 사용될 수 있지만, 일부 방법 및 물질이 기재된다.
바로 아래에서 정의되는 용어가 명세서를 참조하여 더 구체적으로 기재된다. 본 발명은 기재된 특정 방법, 프로토콜, 및 시약에 한정되지 않고, 해당 분야의 통상의 기술자에 의해 사용되는 맥락에 따라 달라질 수 있다.
본 명세서에서 사용될 때, 맥락상 달리 명확히 언급되지 않는 한, 단수 형태 "a", "an" 및 "the"가 복수형 언급을 포함한다. 용어 "복수"는 둘 이상의 요소를 지칭한다. 예를 들어, 상기 용어는 본 명세서에 개시된 방법을 이용해 페이징된 아일랜드를 생성하기 위한 복수의 리드(read)를 일컬을 때 사용된다.
용어 "부분"은 본 명세서에서 합이 하나의 완전한 게놈, 하나의 완전한 염색체, 또는 하나의 완전한 하플로타입의 서열 정보보다 적은 생물체 시료 내 게놈, 염색체, 또는 하플로타입의 서열 정보의 양을 일컬을 때 사용된다
용어 "시료"는 본 명세서에서 핵산 또는 시퀀싱된 적어도 하나의 핵산 서열을 포함하는 핵산의 혼합을 함유하는 생물체 유체, 세포, 조직, 기관, 또는 유기체 시료를 지칭한다. 이러한 시료의 비제한적 예를 들면, 객담/타액, 양수, 뇌척수액, 혈액, 혈액 분획(가령, 혈청 또는 혈장), 세침 생체검사 시료(가령, 수술적 생체검사, 세침 생체검사 등), 소변, 침, 정액, 땀, 눈물, 복수, 흉수, 세척액 조직 절편체, 기관 배양 및 그 밖의 다른 임의의 조직 또는 세포 표본, 또는 이의 단편 또는 유도체 또는 이로부터 고립된 것을 포함한다.
시료는 종종 인간 피험자(가령, 환자)으로부터 취해지지만, 시료는 염색체를 갖는 임의의 유기체, 비제한적 예를 들면, 개, 고양이, 말, 염소, 양, 소, 돼지 등으로부터 취해질 수 있다. 시료는 생물체로부터 획득되자마자 바로 사용되거나, 시료의 특성을 수정하기 위한 전처리 후에 사용될 수 있다. 예를 들어, 이러한 전처리는 혈액으로부터 혈장을 준비하고, 점성 유체를 희석하는 것 등을 포함할 수 있다. 전처리 방법은 또한 여과, 침전, 희석, 증류, 혼합, 원심 분리, 동결, 동결 건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 불활성화, 시약의 첨가, 용해 등을 포함하지만 이에 한정되지는 않는다. 이러한 전처리 방법이 시료와 관련하여 사용되는 경우, 이러한 전처리는 일반적으로, 관심 핵산이, 때때로, 미처리 테스트 시료(가령, 어떠한 전처리 방법의 대상도 되지 않은 시료) 내 농도에 비례하는 농도로, 시험 시료 내에 남아 있도록 하기 위함이다. 이러한 "처리된" 또는 "프로세싱된" 시료는 여전히 본 명세서에 기재된 방법에 대해 생물체 "테스트" 시료로 여겨진다.
용어 "폴리뉴클레오타이드", "핵산" 및 "핵산 분자"가 상호 교환 가능하게 사용되며, 하나의 뉴클레오타이드의 오탄당의 3' 위치가 다음 뉴클레오타이드의 오탄당의 5' 위치에 인산이에스테르 기에 의해 연결되는 뉴클레오타이드의 공유 결합된 서열(즉, RNA의 경우 리보뉴클레오타이드 및 DNA의 경우 디옥시리보뉴클레오타이드)을 지칭한다. 뉴클레오타이드는 임의의 형태의 핵산, 비제한적 예를 들면, RAN 및 DNA 분자의 서열을 포함한다. 용어 "폴리뉴클레오타이드"는, 비제한적으로, 단일 가닥 및 이중-가닥 폴리뉴클레오타이드를 포함한다.
단일 가닥 폴리 뉴클레오타이드 분자는 DNA 또는 RNA와 같은 단일 가닥 형태에서 유래되거나 또는 이중 가닥 DNA (dsDNA) 형태 (예를 들어, 게놈 DNA 단편, PCR 및 증폭 산물 등)에서 유래될 수 있다. 따라서, 단일 가닥 폴리뉴클레오타이드는 폴리뉴클레오타이드 이중체의 센스 또는 안티센스 가닥일 수 있다. 표준 기법을 사용하여 기재된 방법에서의 사용에 적합한 단일 가닥 폴리뉴클레오타이드 분자의 제조 방법은 당해 업계에 잘 공지되어 있다. 1차 폴리뉴클레오타이드 분자의 정확한 서열은 일반적으로 개시된 실시예에 중요하지 않으며 알려지거나 알려지지 않을 수 있다. 단일 가닥 폴리뉴클레오타이드 분자는 인트론(intron) 및 엑손(exon) 서열 (코딩 서열)뿐만 아니라 프로모터 및 인핸서 서열과 같은 비-코딩 조절 서열까지 포함하는 게놈 DNA 분자(가령, 인간 게놈 DNA)를 나타낼 수있다.
본 명세서에서 기재된 핵산은 제공된 방법에서 사용되기에 적합한 임의의 길이를 가질 수 있다. 예를 들어, 타깃 핵산은 적어도 10, 적어도 20, 적어도 30, 적어도 40, 적어도 50, 적어도 75, 적어도 100, 적어도 150, 적어도 200, 적어도 250, 적어도 500, 또는 적어도 1000 kb이거나 그 이상의 길이일 수 있다.
플로우 셀 또는 시퀀싱을 위한 그 밖의 다른 기질의 맥락에서, 용어 "사이트(site)"은 시퀀싱이 발생하는 작은 영역을 지칭한다. 많은 실시예에서, 사이트는 시퀀싱 데이터가 획득되는 단일 핵산 서열의 복수의, 일반적으로 많은, 복제본을 포함한다. 한 사이트로부터 획득된 서열 데이터가 "리드(read)"일 수 있다.
용어 "다형성(polymorphism)" 또는 "유전자 다형성(genetic polymorphism)"은 본 명세서에서 하나의 유전자 자리에서의 동일한 모집단의 둘 이상의 대립유전자의 등장을 지칭할 때 사용된다. 다형성의 다양한 형태는 단일 뉴클레오타이드 다형성, 종열중복, 미세결실, 삽입, 삽입결실, 및 그 밖의 다른 다형성을 포함한다.
"염기 콜(base call)"은 폴리뉴클레오타이드 서열 내 특정 위치에 대해 서열 데이터에 할당된 염기(뉴클레오타이드 형)이다. 염기 콜은 시퀀싱되는 핵산 내 각각의 위치에 대해 시퀀서에 의해 출력될 수 있다. 때때로 콜의 품질이 염기 콜에 할당된다.
용어 "리드(read)"는 핵산 시료의 일부분으로부터 판독된 서열을 지칭한다. 일반적으로, 반드시는 아니더라도, 리드는 시료 내 연속 염기 쌍의 짧은 서열을 나타낸다. 리드는 시료 부분의 (ATCG로 된) 염기 쌍 서열에 의해 기호로 표현될 수 있다. 이는 메모리 디바이스에 저장되고 적절하게 처리되어 기준 서열과 매칭되는지 또는 그 밖의 다른 기준을 충족하는지 여부를 결정할 수 있다. 리드는 시퀀싱 장치로부터 직접 획득되거나 시료에 관한 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우, 리드는 더 긴 서열 또는 영역을 식별하도록 사용될 수 있는, 가령, 정렬되고 염색체 또는 게놈 영역 또는 유전자에게 특정하게 할당될 수 있는 충분한 길이(가령, 적어도 약 25bp)의 DNA 서열이다.
본 명세서의 용어 "차세대 시퀀싱(NGS: Next Generation Sequencing)"은 클론으로 증폭된 분자 및 단일 핵산 분자의 대량 병렬 시퀀싱을 가능하게 하는 시퀀싱 방법을 지칭한다. NGS의 비제한적 예를 들면, 가역적 염료 종결부(reversible dye terminator)를 이용하는 합성에 의한 시퀀싱(sequencing-by-synthesis), 및 결찰에 의한 시퀀싱(sequencing-by-ligation)이 있다.
용어 "파라미터"는 본 명세서에서 물리적 속성 또는 상기 속성의 표현을 특성화하는 수치 값을 지칭한다. 일부 상황에서, 파라미터는 정량적 데이터 세트 및/또는 정량적 데이터 세트 간 수치 관계를 수치적으로 특성화한다. 예를 들어, 히스토그램으로 핏되는 표준 분포의 평균 및 분산이 파라미터이다.
본 명세서에서 용어 "임계값"은 시료, 핵산, 또는 이들의 부분(가령, 리드)을 특성화하기 위한 컷오프(cutoff)로서 사용되는 임의의 숫자를 지칭한다. 임계값은 측정되거나 계산된 값에 비교되어, 이러한 값 제안을 발생시킨 소스가 특정 방식으로 분류되어야 하는지 여부를 결정할 수 있다. 임계값은 실험으로 또는 분석적으로 식별될 수 있다. 임계값의 선택은 사용자가 분류하기 위해 갖길 원하는 신뢰도에 따라 달라진다. 때때로 이들은 특정 목적으로(가령, 감도와 선택도의 균형을 이루기 위해) 선택된다.
실시간 분석이 DNA 시퀀싱 실행 동안의 데이터 획득을 바탕으로 프로세싱 및 데이터 분석이 수행되는 프로세스 및 시스템을 지칭한다. 실시간 분석 시스템의 예시가 미국 특허 번호 8,965,076에 기재되어 있고, 이 미국 특허는 그 전체가 본 명세서에 참조로서 포함된다.
페이징에 대한 맥락
시퀀싱 장치
도 1은 일반적인 핵산 시퀀서(100) 또는 이러한 시퀀서를 포함하는 시스템의 일부 특징부의 블록도를 도시한다. 특히, 시스템(100)은 플로우 셀(flow cell)(101), 및 이미지 획득 시스템(103), 하나 이상의 버퍼(107)를 갖는 하나 이상의 프로세서(105), 및 복수의 타일 버퍼(tile buffer)(111)를 포함하는 시스템 메모리(메인 메모리라고도 지칭됨)(109)를 포함한다. 일반적으로, 시스템 메모리(109)는 하나 이상의 프로세서(105) 중 임의의 것을 포함하는 집적 회로의 일부가 아닌 디바이스 상에 제공된다. 특정 실시예에서, 시스템 메모리는 휘발성 메모리, 가령, 랜덤 액세스 메모리, 즉, RAM, 가령, DRAM, 솔리드 스테이트 하드 드라이버, 또는 하드 디스크 드라이브이다.
플로우 셀 및 이미지 획득 시스템은 핵산 시퀀싱의 분야에서 이해되는 원리에 따라 설계 또는 구성된 구성요소를 포함하고, 이들은 본 명세서에서 상세히 기재되지 않을 것이다. 적합한 이미지 분석 시스템 및 연관된 플로우 셀이 핵산 시퀀서, 가령, 캘리포니아, 샌 디에고에 소재하는 Illumina, Inc.의 MiSeq 및 HiSeq 시리즈 시퀀서에서 채용된다. 추가 정보를 얻기 위해, 각각 그 전체가 본 명세서에 참조로서 포함되는 미국 특허 번호 8,241,573, 미국 특허 번호 9,193,996, 및 미국 특허 번호 8,951,781를 참조할 수 있다.
일반적으로, 개시된 방법과 함께 사용되기에 적합한 핵산 서열은 복수의 타깃 핵산의 신속하고 효율적인 검출을 병렬로 제공한다. 이들은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정된 DNA 단편으로 전달할 수 있는 유체공학적 구성요소를 포함할 수 있으며, 시스템은 구성요소, 가령, 펌프, 밸브, 저장소(reservoir), 유체공학적 라인 등의 구성요소를 포함한다. 플로우 셀은 타깃 핵산의 검출을 위한 일체형 시스템 내에서 구성 및/또는 사용될 수 있다. 예시적 플로우 셀은, 예를 들어, US 2010/0111768 A1 및 미국 특허 번호 13/273,666에 기재되어 있으며, 이들 각각은 그 전체가 본 명세서에 참조로서 포함된다. 플로우 셀에 대해 예를 들면, 일체형 시스템의 유체공학적 구성요소들 중 하나 이상이 증폭 방법 및 검출 방법 모두에 대해 사용될 수 있다. 예를 들어, 일체형 시스템의 유체공학적 구성요소들 중 하나 이상이 증폭 방법을 위해 그리고 시퀀싱 방법에서 시퀀싱 시약의 전달을 위해 사용될 수 있다. 대안으로, 일체형 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위한 개별 유체공학적 시스템을 포함할 수 있다.
본원 발명의 목적으로, 플로우 셀이 우선 시퀀싱될 핵산 시료를 수신하고 고정(immobilize) 또는 그 밖의 다른 방식으로 포착하며, 시퀀싱 프로페스와 연관된 다양한 시약에 노출함을 이해하는 것이 충분하다. 특정 실시예에서, 시퀀싱 프로세스가 합성에 의한 시퀀싱 프로세스이지만, 그 밖의 다른 시퀀싱 기법이 채용될 수 있다.
이미지 획득 시스템(103)은 시퀀싱이 발생하는 플로우 셀 상의 사이트를 조명하기 위한 광학 구성요소, 가령, 형광 여기 구성요소(가령, 레이저 및 연관된 거울 및 렌즈) 및 복수의 사이트를 갖는 플로우 셀의 일부분 상의 형광의 이미지를 포착하기 위한 이미지 포착 구성요소를 포함한다. 이미지 획득 시스템에 의해 포착된 데이터가 임의의 특정 시퀀싱 사이클에서 임의의 특정 사이트 상에서 어느 뉴클레오타이드가 판독되는 중인지를 결정하기에 적합한 정보를 포함한다.
실시간 분석을 가능하게 하기 위해, 일반적으로 시퀀서(100)는 이미지 획득 시스템(103)으로부터 이미지 데이터를 해석하고 저장하는 온보드 프로세서 및 메모리를 포함한다. 시퀀서를 위한 적합한 프로세서의 예시가 Intel's Xeon E5 군이 있다. 일반적으로, 프로세서(105)는 단일 이미지 획득 사이클 동안 취해진 이미지 데이터를 임시로 저장하는 복수의 버퍼(107)를 포함한다. 도시된 실시예에서, 프로세서 버퍼는 시스템 메모리에 할당된다. 특정 프로세서 버퍼는 실시간 분석 동안 플로우 셀의 영역의 이미지 데이터를 분석하도록 생성된 특정 프로세서 스레드와 연관될 수 있다. 특정 실시예에서, 스레드에 의해 분석된 이미지 데이터가 단일 이미지 획득 사이클 동안 캡처된 단일 타일(이하에서 기재됨)의 이미지 데이터이다. 특정 실시예에서, 버퍼가 약 400 기가바이트의 데이터를 저장할 수 있다. 본 명세서에서 사용될 때, 스레드는 프로세서에게 실행될 연산을 알려주는 명령의 정렬된 서열이다. 명령은 특정 기계어 명령 세트 또는 하드웨어 프로세서로 설계된 "네이티브 명령"로부터 선택된 실행형 기계 코드를 이용해 프로세서를 구성한다.
기계어 명령 세트, 또는 네이티브 명령 세트가 하드웨어 프로세서, 또는 CPU에게 알려져 있으며, 기본적으로 여기에 내장된다. 이는 시스템 및 애플리케이션 소프트웨어가 하드웨어 프로세서와 통신할 때 이용하는 "언어"이다. 각각의 네이티브 명령이 프로세싱 아키텍처에 의해 인식되고 산술, 어드레싱, 또는 제어 기능을 위한 특정 레지스터, 특정 메모리 위치 또는 오프셋, 및 연산자를 해석하는 데 사용되는 특정 어드레싱 모드를 특정할 수 있는 이산 코드이다. 이들 단순한 네이티브 명령을 조합함으로써, 더 복합적인 연산이 구축되는데, 이들은 순차적으로 또는 제어 흐름 명령에 의해 지시되는 그 밖의 다른 방식으로 실행된다.
시스템 메모리(109)는 복수의 타일 버퍼(111)를 포함하며, 각각은 단일 이미지 획득 사이클 동안 플로우 셀로부터 획득된 이미지 데이터의 일부분을 저장하도록 구성된다. 이 예시에서 타일 버퍼는 단일 타일의 가치의 이미지 데이터를 보유하도록 구성되기 때문에 이렇게 지칭된다. 이하에서 더 상세히 설명될 바와 같이, 타일은 단일 이미지 획득 사이클 동안 취해진 단일 이미지에서 포착될 수 있는 플로우 셀의 영역이다. 타일 버퍼(111)는 프로세서 버퍼(107)보다 긴 시간 주기 동안 이미지 데이터를 저장하도록 의도된다. 특정 실시예에서, 타일 버퍼(111)는 적어도 2번의 이미지 획득 사이클 동안 이미지 데이터를 저장한다. 본 명세서가가 플로우 셀의 타일로부터의 데이터를 버퍼링하는 버퍼를 기재하지만, 개시된 실시예는 이 크기의 데이터를 저장하는 버퍼에 한정되지 않는다. 달리 기재되거나 문맥상 명백한 경우가 아니면, "타일 버퍼"는 플로우 셀의 일부분으로부터의 이미지 데이터를 저장하며, 이미지 데이터가 본 명세서에 기재된 방식으로 하나의 단위로서 처리되는 임의의 유형의 버퍼를 포함하는 것으로 이해된다.
염기 콜(base call)을 만들기 위해, 하나 이상의 프로세서(105)가 시스템 메모리(109)로부터 제공된 데이터 및 프로세서 버퍼(107)에 저장된 데이터에 작용한다. 일반적으로, 단일 이미지 획득 사이클 동안 단일 사이트에 대해 단일 염기 콜이 이뤄진다.
도시된 바와 같이, 하나 이상의 프로세서(105)와 메인 메모리(109)가 데이터를 양방향으로 공유한다. 덧붙여, 하나 이상의 프로세서(105)는 이미지 획득 시스템(103)으로부터 이미지 데이터를 수신한다. 특징 실시예에서, 플로우 셀(101) 상의 시퀀싱 사이트를 여기시키고 이들 사이트로부터 광학 신호를 수신함으로써 이미지 획득 시스템(103)이 플로우 셀(101)로부터 데이터를 획득한다. 특정 실시예에서, 이미지 획득 시스템(103)에 의해 수신된 신호가 시스템(103)이 적절한 파장의 광으로 플로우 셀(101)을 조명할 때 생성된 형광 신호이다. 이러한 실시예에서, 형광 신호는 복수의 컬러에 대한 강도 값으로 제공된다.
본 명세서 전체에서 사이클의 개념이 사용된다. 단일 시퀀싱 사이클은 하나의 이미지 상에서 캡처된 하나 이상의 사이트 각각으로부터 단일 뉴클레오타이드를 판독하는 것을 포함한다. 이러한 판독이 염기 콜 수행으로 일컬어진다. 본 명세서에 기재된 다양한 실시예에서, 단일 계산 사이클 - 프로세서 및 메모리의 관점에서 - 이 상이한 뉴클레오타이드에 대해 염기 콜링과 이미지 캡처를 모두 수행하며, 이때, 염기 콜링이 판독 또는 호출되고 있는 뉴클레오타이드의 서열에서 이미지 캡처를 지연시킨다. 예를 들어, 단일 계산 사이클에서, 하나 이상의 프로세서가 시퀀싱 사이클 n에서 뉴클레오타이드에 대해 염기 콜링을 실시하고 동시에 시퀀싱 사이클 n+1에서 뉴클레오타이드에 대한 이미지 캡처를 실시한다. 따라서 단일 계산 사이클에서, 시퀀서는 (a) 시퀀싱 사이클 n+1에서 뉴클레오타이드에 대해 수정되지 않은 이미지 데이터를 저장 및 처리하고, (b) 시퀀싱 사이클 n에서 뉴클레오타이드에 대해 염기 콜을 한다. 이러한 사이클 단위 프로세싱에서의 프로세서 버퍼 및 타일 버퍼의 사용이 이하에서 더 상세히 기재될 것이다.
일반적인 페이징
플로우 셀 또는 그 밖의 다른 기질 상의 특정 사이트에서, (아마도 시료 처리에 의해 의도치 않게 도입되는 변형이 제한적인) 동일한 서열을 갖는 핵산 분자의 복수의 복제본이 함께 분석된다. 신뢰할만한 염기 콜링을 가능하게 하도록 충분한 신호가 생성됨을 보장하기 위해 충분한 복제본이 사용된다. 한 사이트에서의 핵산 분자의 집합이 클러스터라고 지칭된다. 일부 경우, 시퀀싱되지 않은 클러스터는 단일 가닥 핵산 분자만 포함한다.
페이징(phasing)은 클러스터 내 복수의 핵산 분자를 시퀀싱하는 것으로부터 발생하는 의도치 않은 아티팩트를 나타낸다. 페이징은 신호, 가령, 클러스터 내 단일 분자로부터의 형광들이 서로 간의 동기성을 잃는 율(rate)이다. 종종 페이징이란 용어가 뒤처진 일부 분자로부터의 신호의 오염에 대해 사용되며, 프리-페이징(pre-phasing)이란 용어가 앞서간 다른 분자들로부터의 신호의 오염에 대해 사용된다. 페이징과 프리-페이징은 함께 시퀀싱 장치 및 화학의 성능을 설명한다.
낮은 숫자가 더 좋다. 0.10/0.10의 값은 각각의 염기 콜링 사이클에서 클러스터 내 분자의 0.10%가 뒤쳐지고 0.10%가 앞섬을 의미한다. 다른 말로, 참 신호(true signal)의 0.20%가 각각의 사이클에서 소실되며 따라서 노이즈가 됨을 의미한다. 또 다른 예를 들면, 0.20/0.20는 사이클당 참 신호의 0.4%가 소실되며, 이 경우 (보정 없이) 250회 사이클 후 노이즈는 신호와 동일해 질 것임을 의미한다
시퀀서의 실시간 분석 구성요소가 페이징 및 프리-페이징을 결정하여, 시퀀싱이 진행됨에 따라 페이징 보정의 보정 레벨을 적용할 수 있다. 이는, 현재 사이클 전 또는 후에, 염기 콜을 기초로 각각의 시퀀서 채널 안 또는 밖으로 신호를 인공적으로 푸시(push)함으로써 작용한다.
이전에는, 지정된 횟수의 사이클(가령, 각각의 판독의 첫 12회 사이클) 동안 페이징 및 프리-페이징이 추정되었고, 그 후 모든 후속 사이클에 적용되었다. 최근의 일부 시퀀서가 보정 범위를 시도하고 가장 높은 순도(chastity)(신호 순도)를 도출하는 하나를 선택함으로써 매 사이클마다 페이징 보정을 최적화하기 위해 경험적 페이징 보정(empirical phasing correction)이라고 지칭되는 알고리즘을 채용한다. 경험적 페이징 보정이 개선된 성능을 제공하지만, 더 많은 계산 자원을 필요로 한다.
종래의 시퀀서에서, 각각의 베이스가 고유의 형광 염료 컬러, 가령, 티민에 대하여 녹색, 시토신에 대해 적색, 구아닌에 대해 청색, 및 아데닌에 대해 황색을 가진다. 염기 콜링을 위한 정보를 포착하기 위해, 4개의 채널 시퀀서가 타일 또는 플로우 셀의 그 밖의 다른 부분의 4개의 이미지를 취한다. 이제 일부 시퀀서는 단 2개의 채널만 가지며, 따라서 플로우 셀의 동일한 부분의 단 2개의 이미지만 취한다. 2-채널 시퀀서가 각각의 염기에 대해 염료의 혼합물을 사용하고 2개의 이미지에 대해 적색 및 녹색 필터를 이용한다. 2개의 채널 시퀀서의 예시에서, 적색 또는 녹색 이미지에서 나타난 클러스터가 C 및 T 염기 각각으로 해석된다. 적색 및 녹색 이미지에서 관측되는 클러스터가 A 염기로 플래깅되고, 라벨링되지 않은 클러스터가 G 염기로 식별된다.
도 2는 서열 . . . ACGTAAG . . .을 갖는 핵 클러스터의 시퀀싱 동안의 페이징을 도시한다. 도시된 바와 같이, 첫 번째 G에 대한 염기 콜링 사이클 동안, 형광 신호의 98.4%가 G에 대한 신호를 현재 발생시키는 서열로부터 기원하고, 형광 신호의 1.5%가 이전 염기 C에 대한 신호를 현재 생성하는 서열로부터 기원하며 형광 신호의 1.1%가 다음 염기 T에 대한 신호를 현재 생성하는 서열로부터 기원한다. 이전 염기 C에 대한 신호 기여는 페이징으로부터 온 것이며 다음 염기 T로부터의 신호 기여는 프리-페이징으로부터 온 것이다.
이러한 G 염기 콜에 대한 페이징 보정이 도 2의 우측 상의 그래프에 반영된다. 2-채널 시퀀서에 대해 도시된 바와 같이, 형광 신호가 2차원 플롯 상에 표현될 수 있으며, 이때 "녹색 축" 상의 최대 강도 신호가 T를 나타내고, "적색 축" 상의 최대 강도가 C를 나타내며, 축들 중간에서의 최대 강도가 A를 나타내며, 두 축 상의 최소 강도가 G를 나타낸다. 페이징 오류가 없다면, G에 대한 신호가 적색 및 녹색 축 모두 상의 0 강도를 가져야 한다. 대신, 언급된 페이징 오류가 있다면, 형광 신호는 녹색 및 적색 축 모두에 약간의 강도 기여를 가진다. 이 예시에서, 프리-페이징 보정이 신호 강도를 녹색 축 상에서 0으로 감소시키고 페이징 보정이 신호 강도를 적색 축 상에서 0으로 감소시킨다. 염기 T, C 및 A에 대한 염기 콜에서 유사한 보정이 이뤄질 수 있다.
타일 및 플로우 셀
설명된 바와 같이, 플로우 셀은 시퀀싱 정보가 수집되는 복수의 사이트를 가진다. 특정 실시예에서, 플로우 셀의 각각의 사이트가 동리한 서열을 공유하는 단일 가닥 핵산의 클러스터를 포함한다. 실시간 시퀀싱에서 사용되는 단일 이미지가 수 백만 개의 이러한 클러스터를 포함할 수 있다. 통상적인 플로우 셀은, 전체 영역을 커버하기 위해 수 백개 또는 심지어 수 천개의 개별 이미지를 필요로 할 정도로 크다. 특정 실시예에서, 실시간 분석을 위해 채용된 프로세서 및 이와 연관된 메모리가 현재 이들 이미지를 모두 처리하여 단일 사이클 동안 염기 콜을 만들 수 있다. 일부 구현예에서, 프로세서 및 메모리가 단일 염기 콜링 사이클 동안 둘 이상의 플로우 셀에 걸쳐 획득된 모든 이미지를 동시에 처리한다. 도 3은 Illumina, Inc.의 일부 시퀀서에서 사용된 플로우 셀 아키텍처를 개략적으로 도시한다. 도시된 예시에서, 시퀀서는 2개의 플로우 셀, 즉, 플로우 셀 1 및 플로우 셀 2 상에서 염기 콜을 동시에 만든다. 특정 실시예에서, 각각의 플로우 셀은 각각의 2개의 표면, 즉, 상부 표면과 하부 표면 상에 시퀀싱 사이트를 가진다. 이러한 셩우, 시퀀서는 각각의 염기 콜링 사이클 동안 상부 표면과 하부 표면 모두를 이미징한다. 도 3에 도시된 바와 같이, 각각의 플로우 셀 표면은 4개의 레인(lane) L1, L2, L3, 및 L4을 포함하는데, 당연히 그 밖의 다른 개수도 가능하다. 각각의 표면의 각각의 레인은 스워스(swath)라고 지칭되는 복수의 하위구획을 가질 수 있다. 각각의 스워스는 다시 복수의 타일로 분할된다. 예를 들어, 스워스당 대략 120개의 타일이 존재할 수 있다. 2개의 플로우 셀을 고려할 때, 각각은 2개의 표면을 가지며, 각각의 표면은 4개의 레인을 갖고, 각각의 레인은 6개의 스워스를 가지며, 각각의 스워스는 120개의 타일을 갖고, 수천 개의 타일의 데이터가 사이클당 분석될 필요가 있다. 다양한 실시예에서, 각각의 타일 이미지(또는 플로우 셀의 일부분으로부터의 그 밖의 다른 이미지)가 단일 프로세서 스레드에 의해 조작된다. 특정 실시예에서, 도 3에 도시된 아키텍처를 갖는 플로우 셀을 채용하는 시퀀서가 각각의 염기 콜링 사이클에서 8000개 이상의 타일의 데이터를 처리한다. 이러한 경우, 실시간 처리 로직이 각각의 염기 콜링 사이클에서 8000개 이상의 프로세서 스레드를 채용할 것이다.
단일 사이클 동안 캡처된 단일 타일로부터의 데이터가 메모리에 어레이로서 저장될 수 있고, 어레이 내 각각의 항목이 타일 내 단일 클러스터의 각각의 채널에 대한 컬러 값을 나타낸다. 2-채널 배열에 대한 어레이가 도 4에 도시된다. 예를 들어, 컬러 강도 검출기가 각각의 채널에 대해 약 400 내지 1500의 신호 카운트를 생성할 수 있다. 시스템 메모리 내 타일 버퍼가 어레이에 모든 정보, 즉, 단일 염기 콜링 사이클에서 하나의 타일 상의 모든 클러스터의 컬러 값을 저장하도록 구성된다. 프로세서 버퍼는 마찬가지로 어레이에 모든 정보를 저장하도록 구성될 수 있다.
페이징 프로세서
전체 실행 길이 동안 모든 타일에 대해 클러스터 강도의 2 또는 3회 사이클이 저장되어야 하는 클러스터 페이징 보정의 요건 때문에 서열 데이터의 실시간 분석의 상당한 메모리 부담이 발생한다. 700nm 플로우셀을 갖는 Illumina HiSeqX 상에서, 이는 메모리의 73 기가바이트를 차지한다. 이 부담은 (이 플랫폼 상의) 대부분의 데이터가 솔리드 스테이트 하드 드라이브에 캐싱되기에 충분히 크다.
설명하자면, 페이징 보정이 클러스터 내 일부 핵산 표준의 벗어난 페이즈 시퀀싱(out of phase sequencing)을 해결하도록 이미지의 강도 값을 조절한다. 페이징 보정은 현재 염기 콜링 사이클에 대해 측정된 클러스터 컬러 강도 값(또는 시퀀싱 방법에 의해 측정된 그 밖의 다른 신호)로 시작하여, 이전 염기 콜링 사이클로부터 측정된 강도 값을 이용하는 보정 값을 더하거나 뺌으로써 및/또는 후속 염기 콜링 사이클로부터 측정된 강도 값을 더하거나 뺌으로써 이를 달성한다. 다양한 구현예에서, 염기 콜을 만들기 위한 페이징 보정된 강도 값이 도 5의 하부에서 나타난 표현을 적용한다. 여기에 나타난 바와 같이, 이미지 내 현재 염기 콜링 사이클을 위한 페이징 보정된 강도 값이 현재 염기 콜링 사이클에 대한 측정된 강도에서 제1 계수와 바로 이전 염기 콜링 사이클에서의 측정된 강도 값의 곱을 빼고 제2 계수와 바로 다음 염기 콜링 사이클에서의 측정된 강도 값의 곱을 뺀 값과 동일하다:
보정된 강도 = -a·In-1 + In - b·In+1
여기서 In-1, In, 및 In+1는 각각 바로 이전 염기 콜링 사이클, 현재 염기 콜링 사이클, 및 바로 다음 염기 콜링 사이클에서의 타일 내 클러스터의 강도 값이다. 계수 a 및 b는 각각 페이징 및 프리-페이징 계수(때때로 가중치라 지칭됨)이다. 이들은 타일의 각각의 염기 콜링 사이클에 대해 새로 계산될 수 있다.
도 2를 다시 참조하면, (이미지 내 단일 클러스터에 대해) 도시된 서열 내 세 번째 염기에 대해 측정된 강도가 도 2의 우측 상의 그래프 내 점으로 도시된다. 이 측정된 강도 값의 프리-페이징 보정이 수평 축을 따르는 측정된 강도 값으로부터의 수직 화살표로 반영된다. 페이징 보정된 강도 값에 대한 표현에서, 이 프리-페이징 보정은 계수 b와 후속 염기 콜링 사이클에 대해 측정된 강도 값의 곱으로 표현된다. 덧붙여, 측정된 강도 값이 그래프 상의 수평 화살표에 의해 나타내어지는 페이징 보정에 의해 보정된다. 이 페이징 보정은 측정된 강도 값에서, 계수 a와 바로 이전 염기 콜링 사이클에 대한 측정된 강도 값의 곱을 뺌으로써 구현된다. 계수 a와 b가 다양한 방법으로 결정될 수 있지만, 많은 구현예에서, 이들은 각각의 염기 콜링 사이클에 대해 새롭게 계산된다. 페이징 보정에서 사용될 계수를 결정하기 위한 방법에 대한 설명은 2015년 06월 11일에 공개된 Belitz외에 의한 국제 특허 출원 번호 WO2015/084985에 기재되어 있으며, 상기 특허 출원은 그 전체가 본 명세서에 참조로서 포함된다.
특정 실시예에서, 페이징 알고리즘은 염기 콜링 사이클 동안 클러스터 강도 데이터의 누적 순도(또는 유사한 메트릭)를 최대화함으로써 경험적으로 페이징 계수를 결정한다. 알고리즘의 하나의 구현은 모든 또는 다수의 페이징 계수에 걸쳐 반복하고 어느 것이 최상 결과를 제공하는지를 결정한다. 예를 들어, 페이징 알고리즘은 순도 필터(chastity filter)를 통과하지 못하는 클러스터의 수를 카운팅하는 비용 함수를 이용하는 패턴 검색을 이용해 매 사이클마다 a 및 b를 최적화할 수 있다. 따라서 a 및 b는 데이터 품질을 최대화하도록 선택된다.
일부 실시예에서, 페이징 계수가 시퀀싱 런 전체에 걸쳐(가령, 리드의 생성 동안) 상시 분석으로 결정된다. 이 방식의 결과로서, 이전 사이클 동안 이뤄진 부정확한 페이징 추정이 후속 사이클에 부정적인 영향을 미치지 않을 것이다.
일부 방법은 동일한 염기 콜링 사이클에 대해 결정된 그 밖의 다른 클러스터 강도 값에 대한 가우시안 중심에 대한 상대 거리의 함수로서, 클러스터 강도 값의 순도를 결정한다. 2-채널 시스템이 사용된다고 가정하면, 중심은 2개의 채널에 대한 A, T, C 및 G 강도의 기대 위치와 정렬되는 것이 이상적이다(도 2 참조). 특정 실시예에서, 이하의 표현식을 이용해 순도가 계산될 수 있다:
순도 = 1 - D1/(D1 + D2)
여기서, D1은 최근접 가우시안 중심까지의 거리이며, D2는 다음 최근접 중심까지의 거리이다. 이러한 방식을 이용할 때, 강도 값의 평균 순도(품질)가 최대화될 때, a 및 b의 올바른 값이 선택된다. 이들 값이 식별되면, 모든 클러스터 값에 보정이 적용되며 염기 콜링이 직접 발생할 수 있다. 2-채널 데이터 세트에 가우시안 분포를 핏팅하는 방법이 참조로서 이전에 포함되는 공개 번호 WO2015/084985를 갖는 국제 특허 출원에 기재되어 있다.
일부 실시예에서, 시퀀싱 런 동안 거의 매 사이클마다 페이징 보정이 계산된다. 일부 실시예에서, 동일한 사이클에서 이미징된 표면의 상이한 위치에 대해 개별 페이징 보정이 계산된다. 예를 들어, 일부 실시예에서, 이미징된 표면의 매 개별 레인, 가령, 개별 플로우 셀 레인마다 개별 페이징 보정이 계산된다. 일부 실시예에서, 개별 페이징 보정이 레인의 매 부분집합, 가령, 플로우셀 레인 내 이미징 스워스에 대해 계산된다. 일부 실시예에서, 개별 페이징 보정은 각각의 개별 이미지에 대해, 가령, 매 타일마다 계산된다. 특정 실시예에서, 개별 페이징 보정이 매 사이클에서 매 타일에 대해 계산된다.
리드가 길어짐에 따라, 페이징 보정에서 더 높은 차수의 항이 더 중요해질 수 있다. 따라서 특정 실시예에서, 이를 보정하기 위해, 2차 경험적 페이징 보정이 계산될 수 있다. 예를 들어, 일부 실시예에서, 방법은 하기와 같이 정의되는 바와 같이 2차 페이징 보정을 포함한다:
I(cycle)= -a*I(cycle-2) - A*I(cycle-I) + I(cycle) - B*I(cycle+1) - b*I(cycle+2)
여기서 I는 강도이고 a, A, B 및 b는 페이징 보정에 대한 1차 및 2차 항을 나타낸다. 구체적 실시예에서, 계산은 a, A, B, 및 b에 대해 최적화된다.
도 5는 실시간으로 페이징 보정을 실시하기 위한 프로세싱 구성 및 방법을 개략적으로 도시한다. 도시된 실시예에서, 프로세서(502)는 이미지, 가령, 타일의 이미지 내 클러스터로부터 염기 콜을 만들도록 프로세서가 호출될 때 새로운 프로세싱 스레드(503)를 생성한다. 각각의 타일에 대한 각각의 염기 콜링 사이클에 대해 새로운 스레드가 생성될 수 있다. 도시된 실시예에서, 프로세서(502)는 타일의 각각의 염기 콜링 사이클에 대해 단일 프로세서 버퍼(505)(및 지정된 프로세싱 스레드)를 이용 가능하게 만든다. 프로세서 버퍼는 현재 염기 콜링 사이클 n에 대해 페이징 보정을 실시하도록 프로세서에 의해 계산적으로 조작된 강도 값을 임시로 저장한다. 도시된 실시예에서, 프로세서는 3개의 버퍼를 포함하는 시스템 메모리(507)와 인터페이싱하고, 각각의 버퍼가 특정 염기 콜링 사이클에 대해 캡처된 이미지 데이터를 저장하기 위한 것이다. 도 3에 도시된 플로우 셀 아키텍처의 경우, 각각의 버퍼는 단일 타일의 클러스터에 대해 이미지 데이터를 저장하기 때문에, 버퍼가 타일 버퍼라고 지칭된다. 물론, 그 밖의 다른 플로우 셀 아키텍처 및/또는 이미지 획득 시스템의 경우, 버퍼는 더 많거나 더 적은 클러스터 데이터를 저장할 수 있다. 편의상, 본 명세서에서는 타일 버퍼라고 지칭할 것이다. 각각의 타일 버퍼는 단일 염기 콜링 사이클 동안 캡처된 단일 타일(또는 플로우 셀의 그 밖의 다른 부분)에 대한 데이터를 저장한다. 이미지 데이터는 도 4에 도시된 바와 같은 데이터의 어레이로서 제공될 수 있다.
도시된 바와 같이, 시스템 메모리(507)는 (프로세서에 의해 핸들링되는 현재 염기 콜링 사이클에 비교해서) 바로 이전 염기 콜링 사이클에 대한 강도 값을 임시 저장하는 타일 버퍼(509), 현재 염기 콜링 사이클에 대해 측정된 강도 값을 저장하는 타일 버퍼(511), 및 바로 다음 염기 콜링 사이클에 대한 강도 값을 저장하는 타일 버퍼(513)를 포함한다. 다시, 각각의 타일 버퍼(509, 511, 및 513)가 단일 염기 콜링 사이클 n에 대해 단일 타일의 측정된 데이터를 포함한다.
도시된 바와 같이, 스레드(503)는 단일 염기 콜링 사이클 동안 타일 버퍼(509, 511, 및 513) 각각에서의 강도 값을 이용한다. 강도 값은 프로세서 버퍼(505)로 연속으로 로딩되고 도 5의 하부에서 표시되는 페이징 보정 표현을 구현하도록 조작된다. 도 5의 프로세서 및 메모리 구성에서 염기 콜링 프로세스가 완료된 후, 프로세서 버퍼가 페이징 보정된 염기 콜을 만들도록 사용된 조정된 강도 값을 보유한다.
도 6은 도 5에 도시된 프로세서 및 메모리 구성을 채용할 수 있는 염기 콜링 프로세스의 흐름도를 나타낸다. 도 6에 도시된 바와 같이, 프로세스(601)는 프로세서 스레드를 생성하고 프로세서 버퍼를 이 스레드에 할당함으로써 새로운 염기 콜링 사이클을 개시한다. 프로세스 블록(603)을 참고할 수 있다. 그 후, 프로세서는 현재 프로세싱 사이클과 동시에 취해진 플로우 셀 타일(또는 플로우 셀의 그 밖의 다른 적절한 부분)의 이미지로부터 강도 데이터를 추출한다. 도시된 구현예에서, 캡처된 이미지 및 연관된 강도 값이 현재 염기 콜링 사이클(현재 프로세싱 반복구간)이 아니라, 후속 염기 콜링 사이클에 대한 주요 강도 값이다. 다시 말하면, 현재 프로세싱 사이클이 바로 이전 프로세싱 사이클에서 수집된 이미지 데이터에 대해 염기 콜을 수행한다. 따라서 프로세스(601)의 프로세스 블록(605)에서 도시된 바와 같이, 추출된 강도 값에 참조 In +1가 주어지며, 여기서 n은 현재 염기 콜링 사이클을 나타낸다. 달리 말하자면, 프로세싱 사이클은 (i) 염기 콜링 사이클 n에 대해 염기를 콜링하고, (ii) 염기 콜링 사이클 n+1 동안 이미지 데이터를 포착한다.
도 4에서 도시된 어레이의 형태로 제공될 수 있는 새로 추출된 강도 데이터가 시스템 메모리 상의 이용 가능한 타일 버퍼(가령, 타일 버퍼(513))에 저장된다. 특정 실시예에서, 이 타일 버퍼가 이전에 사용되었지만 염기 콜링에 더는 필요하지 않은 강도 데이터를 저장한 것이다.
현재 프로세싱 사이클에서, 프로세스(601)가 현재 계산 사이클의 이전 계산 사이클 동안 저장된 강도 데이터를 불러온다. 프로세스 블록(607)을 참조할 수 있다. 불러온 강도 데이터가 현재 염기 콜링 사이클에 대한 것이며 참조번호 In가 주어진다. 불러온 강도 데이터가 도 5에 도시된 바의 시스템 메모리의 적절한 타일 버퍼, 가령, 타일 버퍼(511)로부터 획득된다.
덧붙여, 프로세스(601)는 현재 염기 콜링 사이클 이전의 2개의 사이클을 저장한 강도 데이터를 불러온다. 프로세스 블록(609)을 참조할 수 있다. 예를 들어, 도 5를 참조하면, 이러한 강도 데이터가 시스템 메모리의 타일 버퍼(509)로부터 획득될 수 있다. 동작(609)에서 불러온 강도 값의 어레이가 In -1로 식별된다.
동작(605, 607, 및 609)이 순차적으로 발생하는 것으로 도시되지만, 이 동작 순서는 유연하고 프로세스는 페이징 보정을 포함하는 염기 콜링과 일관되는 한 임의의 순서가 허용될 수 있도록 구현될 수 있다.
현재 염기 콜링 사이클(프로세스 블록(607))에 대한 강도 값 및 바로 이전 염기 콜링 사이클(프로세싱 블록(609))에 대한 강도 값을 불러오면, 프로세서가 페이징 보정을 수행하는 데 필요한 모든 이용 가능한 강도 값을 가진다. 이는, 현재 염기 콜링 사이클에 대해 프리-페이징 보정 가중치 b 및 페이징 보정 가중치 a를 우선 결정함으로써 이뤄진다. 이는, 현재 및 바로 이전 염기 콜링 사이클에 대한 강도 값과 함께, 다음 후속 염기 콜링 사이클에 대해 추출된 강도 값을 이용해 이뤄질 수 있음을 보여주는 프로세스 블록(611)을 참조할 수 있다. 그 후, 페이징 및 프리-페이징 보정 가중치를 이용해, 프로세서는 프로세스 블록(613)에서 도시된 바와 같이, 현재 염기 콜링 사이클에 대한 페이징 보정된 강도 값을 계산한다. 보정된 값은 고려되는 타일 내 클러스터에 대한 것이다. 계산은 블록(613)에서 도시된 표현식을 이용할 수 있다. 페이징 보정된 강도 값을 이용해, 프로세서는 프로세스 블록(615)에서 도시된 바와 같이 현재 염기 콜링 사이클에 대해 콜을 만든다.
이때, 현재 염기 콜링 사이클에 대한 프로세싱이 완료되고 염기 콜링의 다음 반복구간이 실행될 수 있다. 또 다른 염기 콜링 사이클을 실시하는지 여부의 결정이 블록(617)에 도시되어 있으며, 여기서 고려 중인 타일의 클러스터 내에 시퀀싱될 임의의 추가 뉴클레오타이드가 존재하는지 여부를 결정한다. 없다면, 프로세스는 블록(619)에 도시된 바와 같이 완료된다. 존재한다면, 프로세스 제어가 프로세스 블록(621)으로 넘겨지고, 여기서 프로세서는 사이클 카운트를 증분시킨다. 이는 현재 염기 콜링 사이클 In에 대한 강도 값을 바로 이전 염기 콜링 사이클 In-1에 대한 강도 값으로 효과적으로 인덱싱한다. 동시에 바로 다음 염기 콜링 사이클 (In+1)에 대한 강도 값이 새로운 현재 염기 콜링 사이클(In)에 대한 강도 값이 된다. 이들 증분은 타일 버퍼에 저장된 강도 데이터에 적용되는 인덱스와 관련하여 이뤄진다.
페이징 프로세스(감소된 메인 메모리)
도 5 및 6의 접근법은 시퀀서 및 이의 연관된 실시간 분석 시스템에서 메모리 제한이 없는 한 잘 동작할 수 있다. 그러나 특정 현대의 시퀀서에서 처리되어야 할 데이터의 양, 가령, 전체 게놈 시퀀싱을 수행하기 위해 사용되는 데이터의 양을 고려하면, 특히 상용화 비용에서, 불충분한 메모리가 이용 가능할 수 있다. 따라서 염기 콜링 사이클 동안 플로우 셀(또는 플로우 셀들)을 완전히 이미징하는 데 필요한 양의 데이터를 3회 저장하는 것이 상당한 병목현상을 나타낼 수 있다.
페이징 알고리즘, 가령, 도 5 및 6에서 나타난 페이징 알고리즘이 시퀀싱 결과, 특히, 비표준 시료, 가령, 저 다양성 시료에서의 시퀀싱 결과를 상당히 개선한다는 점에서, 실시간 분석에 중요하게 기여한다. 그러나 차세대 시퀀싱 시스템(next generation sequencing system)의 처리량이 증가함에 따라 개선된 메모리 부담이 더 커진다. 이하의 실시예가 이미 부분적으로 페이징 보정된 데이터로부터 학습된 페이징 가중치를 이용함으로써 메모리 부담을 감소시킨다. 페이징 및 프리-페이징 가중치가 독립적으로 학습될 수 있고 또한 고품질 시퀀싱 결과를 제공할 수 있다. 일부 예시에서, 메인 메모리 필요치가 2개의 플로우 셀 상의 총 개수의 타일에 포함된 데이터를 저장하는 데 필요한 용량의 2배보다 적다.
특정 실시예에서, 페이징 보정된 염기 콜링에 대한 프로세서 및 메모리 구성이 시스템 메모리에 대한 요건을 감소시킬 수 있다. 이 작동 방식의 하나의 예시가 도 7에 도시되어 있다. 강도 값이 앞서 기재된 바와 같이 보정되는데, 가령, 페이징 및 프리-페이징 가중치가 계산되고 바로 이전 및 바로 다음 사이클에 적용된다. 그러나 도 7의 예시에서, 시스템 메모리(707)는 페이징 보정을 위해 다음의 단 2개의 타일 버퍼만 이용한다: 타일 버퍼(709) 및 타일 버퍼(711). 이 예시에서, 프로세서(702)는 도 5의 예시와 달리 다음의 2개의 연관된 프로세서 버퍼를 갖는 프로세싱 스레드(703)를 이용한다: 메모리(707)로부터 불러온 강도 값을 저장 및 연산하기 위한 프로세서 버퍼(705) 및 새로 캡처된 이미지 강도 값 In+1을 저장 및 이용하기 위한 프로세서 버퍼(706). 도시된 예시에서, 프로세서 버퍼는 메인 메모리 내에 할당되지만, 항상 그런 것은 아니다. 일부 실시예에서, 프로세서 버퍼가 상이한 물리 메모리 내에 또는 심지어 프로세서 칩 상에 할당된다.
타일 버퍼를 프로세서 버퍼로 대체하는 것이 전체 메모리 요건을 효과적으로 감소시킨다. 복수의 프로세서 및/또는 멀티스레드형 프로세싱을 이용함으로써, 소수의 프로세서가 많은 타일을 핸들링한다. 예를 들어, 시스템 내 타일의 개수가 1000-2000 정도일 수 있으며, 이들 모든 타일을 핸들링하는 프로세서의 개수는 약 20이다. 이론상, 이러한 시스템은 50x 수준의 메모리 감소를 실현할 수 있다. 일부 구현예에서, 감소는 20x 수준이다.
이 구현예에서, 현재 프로세싱 사이클(In+1)에서 타일 이미지로부터 캡처된 강도 값이 프로세서 상에 로컬하게 저장되고 페이징 및 프리-페이징 가중치를 계산하고 차후 염기 콜을 만들도록 사용된다. 일부 구현예에서, 이 프로세스가 완료된 후에 가장 최근에 캡처된 강도 값(In+1)이 시스템 메모리(707) 상에 타일 버퍼에 저장된다.
일부 실시예에서, 프로세서 및 시스템 메모리가 도 8에 도시된 바와 같이 구성된다. 도 7의 프로세서/메모리 구성을 이용할 때, 프로세서(802)는 다음의 2개의 프로세서 버퍼와 각각 연관된 프로세싱 스레드(803)를 이용한다: 시스템 메모리(807)(타일 버퍼(811))로부터의 강도 값을 임시 저장하기 위한 프로세서 버퍼(805), 및 현재 프로세싱 사이클 (In+1) 동안 포착된 강도 값을 임시 저장하기 위한 프로세서 버퍼(806). 이 구성이 효율적이고 효과적으로 동작할 수 있도록 하기 위해, 타일 버퍼(811)에 저장된 강도 값이 부분적으로 페이징 보정되어야 한다. 이를 이루기 위한 메커니즘의 예시가 이하에서 기재된다. 도 7의 프로세서 버퍼(705) 및 도 8의 프로세서 버퍼(805)가 메인 메모리로부터 강도를 로딩하고 그 후 이들 강도를 조작하여 염기 콜링에 대해 채용된 보정된 강도를 생성할 수 있다. 도시된 예를 들면, 프로세서 버퍼가 메인 메모리에 할당되지만, 항상 그런 것은 아니다. 일부 실시예에서, 프로세서 버퍼가 상이한 물리 메모리 내에 또는 심지어 프로세서 칩 상에 할당된다.
도 9는 도 8 및 일부 구현예에서 도 7의 프로세서 및 메모리 구성과 함께 채용될 수 있는 프로세스(901)의 하이-레벨 뷰를 제공한다. 도 9에 도시된 바와 같이, 제1 및 제2 프로세싱 사이클이 불충분한 정보를 이용해 타일 내 이미징된 클러스터 상에서 완전 페이징 보정을 실시할 수 있다. 그러나 페이징은 최초 사이클에서는 유의미한 문제가 아니다.
완전 페이징 보정을 실시하기 위해, 시퀀서는 이미지 데이터의 3개의 연속 사이클을 필요로 한다. 제1 프로세싱 사이클에서, 시퀀서는 염기 콜을 하지 않고, 다음 프로세싱 동안, 즉, 제1 염기 콜이 만들어지는 사이클 동안의 강도 데이터를 저장할 뿐이다.
도시된 바와 같이, 프로세스(901)는 프로세스 블록(903)에서 시작하며, 여기서 제1 프로세싱 사이클에 대한 스레드가 생성된다. 이 스레드에서의 명령이 제1 시퀀싱 사이클(I1) 동안, 즉, 클러스터의 제1 뉴클레오타이드가 판독되는 사이클 동안 클러스터의 이미지로부터 강도 데이터를 직접 추출한다. 프로세스 블록(905)을 참조할 수 있다. 이미지 데이터가 시스템 메모리 내 타일 버퍼에 저장된다. 이때, 제1 프로세싱 사이클이 효과적으로 완료된다.
프로세스가 프로세스 블록(907)으로 계속되며, 여기서 제2 프로세싱 사이클에 대비하여 새로운 스레드가 생성된다. 이 프로세스에서, 제1 및 제2 프로세서 버퍼가 제2 프로세싱 사이클에 대해 할당된다. 블록(907)을 참조할 수 있다. 총체적으로, 프로세스 블록(907)에서 생성된 스레드 및 프로세스 버퍼를 이용해 실행되는프로세스 블록(907, 909, 911, 913, 915, 917, 919, 921, 및 923)이 제2 프로세싱 사이클 동안 수행된다.
도시된 바와 같이, 프로세서는 다음 염기 콜링 사이클(I2)에 대한 이미지로부터 강도 데이터를 추출하고 데이터를 제1 프로세서 버퍼에 저장한다. 프로세스 블록(909)을 참조할 수 있다. 그 후 제2 프로세싱 사이클 동안, 프로세서는 제1 프로세싱 사이클 동안 타일 버퍼에 저장된 강도 데이터를 불러오며, 강도 데이터는 현재 염기 콜링 사이클(I1)에 대한 것이다. 블록(911)을 참조할 수 있다. 제1 및 제2 프로세싱 사이클 동안 수집된 강도 데이터를 이용해, 프로세서는 현재 염기 콜링 사이클(즉, 리드 내 제1 염기 콜)에 대한 프리-페이징 가중치 b를 계산할 수 있다. 프로세스 블록(913)을 참조할 수 있다. 처음 2개의 사이클에 대한 강도 값 및 프리-페이징 가중치를 이용해, 프로세서는 제2 염기 콜링 사이클(I2)에 대한 보정된 강도 데이터 값을 계산한다. 보정된 강도 데이터 값이 제2 프로세서 버퍼에 저장될 수 있다. 프로세스 블록(915)을 참조할 수 있다. 그 후, 프로세서가 블록(915)에서 획득된 보정된 강도 데이터 값을 이용해 제2 염기 콜링 사이클에 대해 염기 콜을 만든다. 프로세스 블록(917)을 참조할 수 있다.
이때, 시퀀싱 프로세스가 다음 염기 콜링 사이클을 준비하기 시작한다. 다음(또는 제2) 염기 콜링 사이클 강도 데이터(I2) 및 타일 버퍼에 저장된 현재 염기 콜링 사이클 데이터(I1)를 이용해 페이징 보정 가중치를 결정함으로써 이는 프로세스 블록(919)에서 시작한다. 페이징 보정 가중치 a를 이용해, 그 후 프로세서가 프로세스 블록(921) 내에 표시된 표현식에 따라 이 제2 프로세싱 사이클 동안 추출된 현재 보정되지 않은 강도 데이터(I2)로부터 페이징 보정된(그러나 프리-페이징 보정되지는 않은) 강도 데이터 값을 계산하고 제 프로세싱 사이클(I1)에 대한 강도 데이터 값을 계산한다. 이는 제2 염기 콜링 사이클에 대한 부분 보정된 강도 값 어레이(I2(부분 보정됨))을 도출한다. 시퀀서가 프리-페이징 보정을 실시하기 전에 다음 프로세싱 사이클을 기다려야 할 것이다. 그러나 이 시점에서, 계산 중 많은 부분이 완료되고 단일 이미지에 대한 어레이 데이터가 다음 염기 콜링 사이클에서 사용되기 위해 타일 버퍼에 저장될 수 있다. 이를 위해, 프로세서가 페이징 보정된(그러나 프리-페이징 보정되지 않은) 강도 데이터를 타일 버퍼에 저장된다(타일 버퍼에서 I2(부분 보정됨)가 I1를 대체함). 프로세스 블록(923)을 참조할 수 있다.
이 시점에서, 제1 및 제2 프로세싱 사이클이 완료되고, 제2 프로세싱 사이클인 제1 염기 콜링 사이클에 대해 염기 콜이 만들어진다. 도 10에 설명된 바와 같이, 완전 페이징 보정과 함께 후속 염기 콜링 사이클이 수행될 수 있다. 프로세스 블록(925)을 참조할 수 있다.
도 10은 완전 페이징 보정된 염기 콜링을 실시하는 프로세싱 사이클 동안 수행될 수 있는 동작의 시퀀스를 도시한다. 타일의 클러스터를 시퀀싱할 때 이러한 사이클은 후속되는 제3 프로세싱 사이클에서 수행될 수 있다. 특정 실시예에서, 도 10에 도시된 동작의 서열이 도 9의 프로세스 블록(925)에 대응한다.
도시된 바와 같이, 프로세스가 스레드 및 연관된 제1 및 제2 프로세서 버퍼를 할당함으로써 시작한다. 프로세스 블록(1003)을 참조할 수 있다. 그 후 프로세서는 다음 염기 콜링 사이클(In+1)에 대한 이미지로부터 강도 데이터 값을 추출하고 이들 값을 제1 프로세서 버퍼에 저장한다. 프로세스 블록(1005)을 참조할 수 있다. 동시에, 프로세서는 이전 염기 콜링 사이클 동안 저장된 부분 보정된 강도 데이터 값(비제한적 예를 들어, 도 9의 실시예에서의 I2(부분 보정됨) 또는 In - a(In-1))을 불러온다. 이제 이들 값이 현재 염기 콜링 사이클에 대한 강도 값(In)을 나타낸다. 이들은 시스템 메모리의 타일 버퍼에 이전에 저장되며 지금 여기서 불러와진다. 프로세스 블록(1007)을 참조할 수 있다. 페이징 보정된 현재 염기 콜링 사이클에 대한 부분 보정된 강도 데이터 값을 이용해, 프로세서가 강도 데이터의 보정을 완료하고 현재 염기 콜링 사이클에 대해 필요한 염기 콜을 만들기 위해 프리-페이징 보정만 실시할 필요가 있다. 이를 위해, 프로세서는 현재 염기 콜링 사이클에 대한 프리-페이징 보정 가중치 b를 결정한다. 프로세서는, 현재 염기 콜링 사이클에 대해 이전 부분 보정된 강도 데이터와 함께, 다음 사이클(In+1)에 대해 이미지 데이터로부터 막 불러와진 추출된 강도 데이터를 이용해 이를 한다. 타일 버퍼로부터 막 불러와진 이 부분적으로 보정된 데이터를 호출한다. 부분 보정된 강도 데이터는 표현식 In - a(In-1)에 의해 표현될 수 있다. 프로세스 블록(1009)을 참조할 수 있다.
현재 염기 콜링 사이클에 대해 계산된 프리-페이징 보정 가중치 b를 이용해, 프로세서가 현재 염기 콜링 사이클(In)에 대해 완전 페이징 보정된 강도 데이터 어레이를 계산하는 데 필요한 모든 것을 가진다. 프로세스 블록(1009)에 나타난 바와 같이 계산이 실시된다. 최종 완전 보정된 강도 데이터 값이 제2 프로세서 버퍼에 저장된다. 프로세스 블록(1011)을 참조할 수 있다. 그 후 프로세서는 제2 프로세서 버퍼에 저장된 보정된 강도 데이터 값을 이용해 현재 염기 콜링 사이클 동안 염기 콜을 만든다. 프로세스 블록(1013)을 참조할 수 있다.
현재 프로세싱 사이클이 다음 프로세싱 사이클 동안 실행될 다음 염기 콜링 사이클에 대해 준비를 시작할 수 있다. 도시된 실시예에서, 프로세서는 현재 염기 콜링 사이클에 대해 이용 가능한 강도 데이터를 이용해 다음 염기 콜링 사이클에 대한 페이징 보정 가중치 a를 결정한다. 프로세스 블록(1015)을 참조할 수 있다. 프로세스 동작(1005)에서 다음 염기 콜링 사이클 강도 데이터가 추출되고 제1 프로세서 버퍼에 저장됨을 알아야 한다. 현재 염기 콜링 사이클에 대한 부분 보정된 강도 값이 현재 염기 콜을 만들기 위해 타일 버퍼로부터 불러와진다. 이제 동일한 부분 보정된 강도 값이 사용되어 다음 염기 콜링 사이클에 대한 페이징 보정 가중치 a를 계산할 수 있다. 지금 계산된 다음 염기 콜링 사이클에 대한 페이징 보정 가중치를 이용해, 프로세서는 프로세스 블록(1017)에 도시된 바와 같이 페이징 보정된(그러나 프리-페이징 보정되지 않는) 강도 데이터 값을 계산한다. 그 후 프로세서가 다음 염기 콜링 사이클에 대한 이들 페이징 보정된 강도 데이터 값을 타일 버퍼에 저장한다. 프로세스 블록(1019)을 참조할 수 있다.
본 발명 전에, 페이징 보정된 강도로부터 프리페이징 가중치를 학습함으로써 염기 콜링 정확도가 악화될 것임이 가정되었다. 그러나 본 명세서의 결과는, 부정확성이 거의 또는 전혀 도출되지 않음을 보인다. 일부 구현예에서, 이미지 데이터가 압축되고(가령, 손실 압축) 심지어 부분 페이즈 보정된 데이터가 압축된다. 두 경우 모두, 압축이 정확도의 손실 없이 수행될 수 있음이 보여졌다. 예를 들어, 압축 없이, 구현예가 각각의 타일에 대해 2개의 부동 버퍼(float buffer)를 이용한다(부동 버퍼의 크기가 4 바이트임). 압축에 의해, 구현예가 단일 바이트 버퍼를 이용하고, 따라서 4x 미만의 메모리를 구현한다.
이 시점에서, 현재 프로세싱 사이클이 효과적으로 완료되어, 프로세서가 현재 타일의 클러스터를 시퀀싱할 때 실시될 필요가 있는 임의의 사이클이 더 존재하는지 여부를 결정한다. 결정 블록(1021)을 참조할 수 있다. 어떠한 추가 염기도 클러스터로부터 판독될 필요가 없는 경우, 프로세스가 완료되고 어떠한 추가 프로세싱 사이클도 실시되지 않는다. 그러나 하나 이상의 추가 시퀀싱 사이클이 필요한 경우, 프로세스 제어가 프로세스 블록(1023)로 향해지며, 여기서 프로세서가 현재 사이클을 증분시키며, 이 시점에서 타일 버퍼에 저장된 부분 보정된 강도 데이터 값이 현재가 된다, 즉, 새로운 염기 콜링 사이클에 대한 값이 된다. 그 후 프로세스 제어가 다음 프로세싱 사이클이 시작하는 프로세스 블록(1003)으로 복귀한다.
예시
설명된 바와 같이, 특정 실시예가 이미 부분적으로 페이징 보정된 데이터로부터 학습된 페이징 가중치를 이용함으로써 메모리 부담을 감소시킨다. 그러나 페이징과 프리-페이징 가중치가 독립적으로 학습될 수 있고 여전히 고품질 시퀀싱 결과를 제공할 수 있음이 명백하지 않았다. 도 11에 제공된 예시가 할 수 있음을 확립한다.
도시된 바와 같이, 2개의 비교가 이뤄졌으며, 각각은 기초 프로세스(가령, 도 5 및 6의 프로세스) 및 메인 메모리 요건을 감소시키기 위해 최적화되는 새로운 프로세스(가령, 도 8 및 10의 프로세스)를 이용한다. 각각의 비교에서, 동일한 시퀀서 및 시료가 채용되었다. 특히, 2 염료 화학물을 이용하도록 Illumina HiSeqX 기구가 변환되었다. 시퀀서의 출력 이미지가 저장되었고 완전히 통제된 테스트를 제공하면서, 2개의 페이징 알고리즘 모두가 동일한 시퀀싱 이미지 상에서 테스트되었다. "클러스터 PF"는 시퀀서에 의해 전달되는 처리율을 나타내고, %Aligned는 표준염기서열(reference genome)에 대한 성공적으로 정렬된 클러스터의 수를 나타내며, "%에러율"은 표준염기서율에 비교되는 소프트웨어에 의해 콜되는 서열의 평균 에러율을 나타낸다.
시퀀싱 결과가 메모리 효율적인 페이징 알고리즘이 기초 알고리즘에 비교 가능함을 보여준다. 이 예시에서, 메모리 효율적인 프로세스가 메인 메모리의 감소(일부 구현예에서 420 기가바이트에서 340 기가바이트로 추정됨)만큼 오프셋된 에러율의 대략 % 증가를 나타냈다.
시퀀싱 방법
앞서 지시된 바와 같이, 본 발명이 핵산 시료 시퀀싱과 관련된다. 염기 콜링을 위한 하나 이상의 정보 채널, 특히, 광학 채널을 이용하는 복수의 시퀀싱 기술이 사용될 수 있다. 특히 적용 가능 기법은 핵산이 어레이 내 고정 위치에(가령, 클러스터로서) 부착되는 기법 및 어레이가 반복적으로 이미징되는 기법이 있다. 하나의 뉴클레오타이드 염기형을 다른 것과 구별하는 데 사용되는 상이한 라벨과 동시에, 상이한 컬러 채널에서 이미지가 획득되는 실시예가 특히 적용 가능하다. 일부 실시예에서, 타깃 핵산의 뉴클레오타이드 서열을 결정하기 위한 프로세스가 자동화된 프로세스일 수 있다. 특정 실시예는 합성에 의한 시퀀싱(sequencing-by-synthesis)("SBS") 기법을 포함한다. 합성 기법에 의한 시퀀싱이 본 명세서에서 강조되지만, 그 밖의 다른 시퀀싱 기법이 사용될 수 있다.
많은 구현예에서, SBS 기법은 템플릿 가닥에 대한 뉴클레오타이드의 반복 첨가를 통한 초기 핵산 가닥의 효소적 확장을 포함한다. SBS의 전통적인 방법에서, 단일 뉴클레오타이드 단량체가 각각의 전달에서 중합효소의 존재 하에서 타깃 뉴클레오타이드에 제공될 수 있다. 그러나 본 명세서에 기재된 방법에서, 전달에서 중합효소의 존재 하에 둘 이상의 유형의 뉴클레오타이드 단량체가 타깃 핵산에 제공될 수 있다.
SBS는 종결부 모이에티(moiety)를 갖는 뉴클레오타이드 단량체 또는 어떠한 종결부 모이에티도 갖지 않는 뉴클레오타이드 단량체를 이용할 수 있다. 종결부가 없는 뉴클레오타이드 단량체를 이용하는 방법은, 예를 들어, γ-인산염-라벨링된 뉴클레오타이드를 이용한 파이로시퀀싱 및 시퀀싱을 포함한다. 종결부가 없는 뉴클레오타이드 단량체를 이용하는 방법에서, 각각의 사이클에서 추가되는 뉴클레오타이드의 개수가 일반적으로 가변적이며 템플릿 서열 및 뉴클레오타이드 전달의 방식에 따라 달라진다. 종결부 모이에티를 갖는 뉴클레오타이드 단량체를 이용하는 SBS 기법의 경우, 종결부는 디데옥시뉴클레오타이드를 이용하는 전통적인 생어 시퀀싱(Sanger sequencing)의 경우처럼 사용되는 시퀀싱 조건 하에서 효과적으로 비가역적이거나, 종결부가 Solexa(현 Illumina, Inc.)에 의해 개발된 시퀀싱 방법의 경우에서처럼 가역적일 수 있다.
SBS 기법이 라벨 모이에티를 갖는 뉴클레오타이드 단량체 또는 라벨 모이에티가 없는 뉴클레오타이드 단량체를 이용할 수 있다. 따라서, 포함 이벤트가 라벨의 특성, 가령, 라벨의 형광; 뉴클레오타이드 단량체의 특성, 가령, 분자 중량 또는 전하량; 뉴클레오타이드의 포함의 부산물, 가령, 피로인산염의 방출 등을 기초로, 검출될 수 있다. 둘 이상의 상이한 뉴클레오타이드가 시퀀싱 시약에서 존재하는 실시예에서, 상이한 뉴클레오타이드가 서로 구별 가능하거나, 대안으로 둘 이상의 상이한 라벨이 사용되는 검출 기법 하에서 구별 가능하지 않을 수 있다. 예를 들어, 시퀀싱 시약에서 존재하는 상이한 뉴클레오타이드가 상이한 라벨을 가질 수 있고 Solexa(현 Illumina, Inc.)에 의해 개발된 시퀀싱 방법에 의해 예시로 든 적절한 광소자를 이용해 구별될 수 있다.
일부 실시예는 파이로시퀀싱(pyrosequencing) 기법을 포함한다. 파이로시퀀싱은 특정 뉴클레오타이드가 초기 가닥에 포함될 때 무기 피로인산염(PPi)의 방출을 검출한다(그 전체가 본 명세서에 참조로서 포함되는, Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. 및 Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. 및 Nyren, P. (1998) "A sequencing method based on real-time Genome." Science 281(5375), 363; 미국 특허 번호 6,210,891; 미국 특허 번호 6,258,568 및 미국 특허 번호 6,274,320). 파이로시퀀싱에서, ATP 설퓨릴라아제에 의해 ATP 펄아데노신 3인산(ATP)로 즉시 변환됨으로써 방출된 PPi가 검출될 수 있고, 생성된 ATP의 레벨이 루시퍼라아제에 의해 생성된 광자를 통해 검출된다. 시퀀싱될 핵산이 어레이 내 특징부에 부착될 수 있고 어레이는 상기 어레이의 특징부에의 뉴클레오타이드의 포함 때문에 생성되는 화학발광 신호를 포착하도록 이미징될 수 있다. 어레이가 특정 뉴클레오타이드 형(가령, A, T, C 또는 G)으로 처리된 후 이미지가 획득될 수 있다. 각각의 뉴클레오타이드 형의 추가 후 획득된 이미지는 어레이 내 어느 특징부와 검출되는지와 관련하여 상이할 것이다. 이들 이미지 차이가 어레이 상의 특징부의 상이한 서열 내용을 반영한다. 그러나 각각의 특징부의 상대 위치는 이미지 내에서 변경되지 않은 채 유지될 것이다. 이미지는, 본 명세서에서 제공된 방법을 이용해, 저장, 처리 및 분석될 수 있다. 예를 들어, 각각의 상이한 뉴클레오타이드 형에 의한 어레이의 처리 후 획득된 이미지가 가역적 종결부-기반 시퀀싱 방법에 대한 상이한 검출 채널로부터 획득된 이미지에 대해 본 명세서에서 예시로 된 바와 동일한 방식으로 핸들링될 수 있다.
또 다른 예시적 유형의 SBS에서, 순환 시퀀싱이, 예를 들어, 본 명세서에 참조로서 포함된 WO 04/018497 및 미국 특허 번호 7,057,026에서 절단될 수 있고 광표백 가능한 염료 라벨이 포함된 가역적 종결부 뉴클레오타이드의 단계적 추가에 의해 이뤄진다. 이러한 접근법은 Solexa(현 Illumina Inc.)에 의해 상용화되었으며 또한 WO 91/06678 및 WO 07/123,744에 기재되어 있으며, 이들 각각은 본 명세서에 참조로서 포함된다. 두 종결부가 가역적일 수 있는 형광 라벨링된 종결부 및 절단된 형광 라벨의 이용 가능성이 효과적인 순환 가역적 종결(CRT: cyclic reversible termination) 시퀀싱을 촉진시킨다. 중합효소는 또한 이들 개질된 뉴클레오타이드를 효과적으로 포함하고 이들로부터 연장되도록 공동-가공될 수 있다.
가역적 종결부 기반 시퀀싱 실시예에서, 라벨은 SBS 반응 조건 하에서 확장을 실질적으로 억제하지 않을 수 있다. 그러나 검출 라벨이, 예를 들어, 절단 또는 열화에 의해 제거될 수 있다. 배열된 핵산 특징부로 라벨을 포함시킨 후 이미지가 캡처될 수 있다. 특정 실시예에서, 각각의 사이클이 4개의 상이한 뉴클레오타이드 형의 어레이로의 동시 전달을 포함하고 각각의 뉴클레오타이드 형이 스펙트럼적으로 구별되는 라벨을 가진다. 그 후 4개의 이미지가 획득될 수 있고, 각각은 4개의 상이한 라벨의 하나의 라벨에 대해 선택된 검출 채널을 이용한다. 대안으로, 상이한 뉴클레오타이드 형이 순차적으로 추가될 수 있고 각각의 추가 단계들 사이에 어레이의 이미지가 획득될 수 있다. 이러한 실시예에서 각각의 이미지가 특정 유형의 포함된 뉴클레오타이드를 갖는 핵산 특징부를 보일 것이다. 각각의 특징부의 상이한 서열 내용 때문에 상이한 특징부가 상이한 이미지에서 존재하거나 부재할 것이다. 그러나 특징부의 상대 위치가 이미지에서 변하지 않은 채 유지될 것이다. 이러한 가역적 종결부-SBS 방법으로부터 획득된 이미지가 본 명세서에 제공된 바와 같이 저장, 처리 및 분석될 수 있다. 이미지 캡처 단계 후, 라벨이 제거될 수 있으며 가역적 종결부 모이에티가 뉴클레오타이드 추가 및 검출의 후속 사이클에 대해 제거될 수 있다. 라벨이 특정 사이클에서 검출된 후 후속 사이클 전에 라벨을 제거하는 것이 배경 신호 및 사이클 간 혼선을 감소시키는 이점을 제공할 수 있다.
구체적인 실시예에서, 뉴클레오타이드 단량체의 일부 또는 전부가 가역적 종결부를 포함할 수 있다. 이러한 실시예에서, 가역적 종결부/절단된 플루오르가 3'에스테르 연결을 통해 리보스 모이에티에 연결되는 플루오르를 포함할 수 있다(본 명세서에 참조로서 포함되는, Metzker, Genome Res. 15:1767-1776 (2005)). 그 밖의 다른 접근법이 종결부 화학을 형광 라벨의 절단으로부터 분리했다(본 명세서에 참조로서 포함되는, Ruparel외 다수, Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel외 다수는 확장을 차단하기 위해 작은 3' 알릴 기를 사용하지만 짧은 팔라듐 촉매 처리에 의해 쉽게 블록 분리될 수 있는 가역적 종결부의 개별을 기재했다. 장파장 UV 광에의 30초 노출에 의해 쉽게 절단될 수 있는 광절단 가능한 링커(photocleavable linker)를 통해 형광단이 염기에 부착되었다. 따라서 디설파이드 환원 또는 광절단이 절단 가능 링커로서 사용될 수 있다. 가역 종결을 위한 또 다른 접근법이 dNTP 상에 벌키 염료을 배치한 후 뒤따르는 자연 종결을 이용하는 것이다. dNTP 상의 충전된 벌키 염료의 존재가 입체 및/또는 정전 장해를 통한 효과적인 종결부로서 역할할 수 있다. 염료가 제거되지 않는 한 하나의 혼입 이벤트의 존재가 추가 혼입을 막는다. 염료의 절단이 플루오르를 제거하고 종결을 효과적으로 반전시킨다. 개질된 뉴클레오타이드의 예시가 또한 미국 특허 번호 7,427,673, 및 미국 특허 번호 7,057,026에 기재되어 있으며, 이들 특허의 내용은 그 전체가 본 명세서에 참조로서 포함된다.
본 명세서에 기재되어 있는 방법 및 시스템에 의해 사용될 수 있는 추가 예시적 SBS 시스템 및 방법이 미국 특허 출원 번호 2007/0166705, 미국 특허 출원 번호 2006/0188901, 미국 특허 번호 7,057,026, 미국 특허 출원 번호 2006/0240439, 미국 특허 출원 번호 2006/0281109, PCT 공개 번호 WO 05/065814, 미국 특허 출원 번호 2005/0100900, PCT 공개 번호 WO 06/064199, PCT 공개 번호 WO 07/010,251, 미국 특허 출원 번호 2012/0270305 및 미국 특허 출원 번호 2013/0260372에 기재되어 있으며, 이들의 내용의 전체가 본 명세서에 참조로서 포함된다.
일부 실시예가 4개보다 적은 상이한 라벨을 이용해 4개의 상이한 뉴클레오타이드의 검출을 이용할 수 있다. 예를 들어, SBS는 미국 특허 출원 번호 2013/0079232에 기재된 방법 및 시스템을 이용해 수행될 수 있다. 제1 예시로서, 한 쌍의 뉴클레오타이드 형이 동일한 파장에서 검출될 수 있지만 쌍의 하나의 구성원와 다른 하나의 구성원의 강도 차이를 기초로, 또는 쌍의 다른 한 구성원에 대해 검출된 신호에 비해 명백한 신호가 나타나게 하거나 사라지게 하는 쌍의 하나의 구성원의 (가령, 화학적 개질, 광화학적 개질 또는 물리적 개질을 통한) 변화를 기초로, 구별될 수 있다. 제2 예시로서, 4번째 뉴클레오타이드 형이 특정 조건 하에서 검출될 수 있는 라벨을 갖지 않거나 상기 특정 조건 하에서 최소한으로 검출(가령, 배경 형광으로 인한 최소 검출 등)되는 동안 상기 특정 조건 하에서 4개의 상이한 뉴클레오타이드 형 중 3개가 검출될 수 있다. 첫 3개의 뉴클레오타이드 형의 핵산으로의 혼입이 이들 각자의 신호의 존재를 기초로 결정될 수 있고 네 번째 뉴클레오타이드 형의 핵산으로의 혼입이 임의의 신호의 부재 또는 최소 검출을 기초로 결정될 수 있다. 제3 예시로서, 하나의 뉴클레오타이드 형이 2개의 상이한 채널에서 검출된 라벨(들)을 포함하며, 반면에 그 밖의 다른 뉴클레오타이드 형이 채널 중 단 하나에서만 검출된다. 앞서 언급된 3개의 예시적 구성이 상호 배타적으로 간주되지 않으며 다양한 실시예에서 사용될 수 있다. 모든 3개의 예시를 조합하는 예시적 실시예가 제1 채널에서 검출된 제1 뉴클레오타이드 형(가령, 제1 여기 파장에 의해 여기될 때 제1 채널에서 검출되는 라벨을 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오타이드 형(가령, 제2 여기 파장에 의해 여기될 때 제2 채널에서 검출되는 라벨을 갖는 dCTP), 제1 채널과 제2 채널 모두에서 검출되는 제3 뉴클레오타이드 형(가령, 제1 및/또는 제2 여기 파장에 의해 여기될 때 두 채널 모두에서 검출되는 적어도 하나의 라벨을 갖는 dTTP), 및 어느 채널에서도 검출되지 않거나 최소한으로 검출되는 라벨이 없는 제4 뉴클레오타이드 형(가령, 라벨을 갖지 않는 dGTP)을 이용하는 형광-기반 SBS 방법이다.
또한, 미국 특허 출원 번호 2013/0079232에 기재된 바와 같이, 시퀀싱 데이터가 단일 채널을 이용해 획득될 수 있다. 이러한 이른바 1-염료 시퀀싱 접근법에서, 제1 뉴클레오타이드 형이 라벨링되지만 제1 이미지가 생성된 후 라벨은 제거되고, 제2 뉴클레오타이드 형은 제1 이미지가 생성된 후에만 라벨링된다. 제3 뉴클레오타이드 형이 제1 및 제2 이미지 모두에서 자신의 라벨을 유지하며, 제4 뉴클레오타이드 형이 두 이미지 모두에서 라벨링되지 않은 채 유지된다.
일부 실시예가 결찰에 의한 시퀀싱(sequencing by ligation) 기법을 이용할 수 있다. 이러한 기법이 DNA 리가아제를 이용하여 올리고뉴클레오타이드를 혼입하고 이러한 올리고뉴클레오타이드의 혼입을 식별할 수 있다. 올리고뉴클레오타이드는 올리고뉴클레오타이드가 혼종되는 서열에서 특정 뉴클레오타이드의 신원과 상관된 상이한 라벨을 가진다. 그 밖의 다른 SBS 방법처럼, 라벨링된 시퀀싱 시약에 의한 핵산 특징부의 어레이의 처리 후에 이미지가 획득될 수 있다. 각각의 이미지가 특정 유형의 라벨을 포함시킨 핵산 특징부를 보여줄 것이다. 각각의 특징부의 상이한 서열 내용 때문에 상이한 이미지에 상이한 특징부가 존재하거나 부재할 것이지만, 특징부의 상대 위치가 이미지 내에서 변하지 않은 채 유지될 것이다. 결찰-기반 시퀀싱 방법으로부터 획득된 이미지가 본 명세서에 제공된 바와 같이 저장, 처리 및 분석될 수 있다. 본 명세서에 기재된 방법 및 시스템과 함께 사용될 수 있는 예시적 SBS 시스템 및 방법이 미국 특허 번호 6,969,488, 미국 특허 번호 6,172,218, 및 미국 특허 번호 6,306,597에 기재되며, 이들의 내용은 그 전체가 본 명세서에 참조로서 포함된다.
일부 실시예는 나노공극 시퀀싱(nanopore sequencing)을 이용할 수 있다(Deamer, D. W. & Akeson, M. "Nanopores and 핵산s: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000); Deamer, D. 및 D. Branton, "Characterization of 핵산s by nanopore analysis". Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, 및 J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003), 이의 내용은 그 전체가 본 명세서 참조로서 포함된다). 이러한 실시예에서, 타깃 핵산이 나노공극을 통과한다. 나노공극은 합성 포어 또는 생물체 막 단백질, 가령, α-헤몰리신일 수 있다. 타깃 핵산이 나노공극을 통과할 때, 공극의 전기 전도율의 변동을 측정함으로써 각각의 염기-쌍이 식별될 수 있다(미국 특허 번호 7,001,792; Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008), 이의 내용은 그 전체가 본 명세서에 참조로서 포함된다). 나노공극 시퀀싱으로부터 획득된 데이터가 본 명세서에 제공된 바와 같이 저장, 처리 및 분석될 수 있다. 구체적으로, 광학 이미지 및 본 명세서에서 제공되는 또 다른 이미지의 예시적 처리에 따라 데이터가 이미지로서 처리될 수 있다.
일부 실시예가 DNA 중합효소 활동의 실시간 모니터링을 포함하는 방법을 이용할 수 있다. 예를 들어, 미국 특허 번호 7,329,492 및 미국 특허 번호 7,211,414(각각 본 명세서에 참조로서 포함됨)에서 기재된 바와 같이, 형광단-내포 중합효소와 γ-인산염-라벨링된 뉴클레오타이드 간 형광 공명 에너지 전달(FRET: fluorescence resonance energy transfer) 상호작용을 통해 뉴클레오타이드 혼입이 검출되거나, 예를 들어, 미국 특허 번호 7,315,019(본 명세서에 참조로서 포함됨)에 기재된 바와 같은 제로-모드 도파관(zero-mode waveguide)에 의해 그리고 미국 특허 번호 7,405,281 및 미국 특허 출원 번호 2008/0108082(각각 본 명세서에 참조로서 포함됨)에 기재된 바와 같이 형광 뉴클레오타이드 아날로그 및 가공된 중합효소를 이용해 뉴클레오타이드 혼입이 검출될 수 있다. 저 배경과 함께 형광 라벨링된 뉴클레오타이드의 혼입이 관측될 수 있도록 조명이 표면-테더링된 중합효소 주변에서 제토리터(zeptoliter)-규모 볼륨에 제한될 수 있다(Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008), 이들의 내용이 참조로서 본 명세서에 포함된다). 이러한 방법으로부터 획득된 이미지가 본 명세서에 제공된 바와 같이 저장, 처리, 및 분석될 수 있다.
일부 SBS 실시예는 뉴클레오타이드의 확장 산물로의 혼입 후 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출을 기초로 하는 시퀀싱이 Ion Torrent(코네티컷 주, 길포드에 소재하는 Life Technologies의 자회사)의 상용화된 전기적 검출기 및 연관된 기법 또는 US 2009/0026082 A1; US 2009/0127589 A1; US 2010/0137143 A1; 또는 US 2010/0282617 A1에 기재된 시퀀싱 방법 및 시스템을 이용할 수 있으며, 이들 각각은 참조로서 본 명세서에 포함된다. 운동 배제를 이용하는 타깃 핵산을 증폭하기 위한 본 명세서에 제공된 방법은 양성자를 검출하기 위해 사용되는 기질에 쉽게 적용될 수 있다. 더 구체적으로, 본 명세서에 제공된 방법은 양성자를 검출하는 데 사용되는 앰플리콘(amplicon)의 클론 모집단을 생성하는 데 사용될 수 있다.
상기의 SBS 방법은 복수의 상이한 타깃 핵산이 동시에 조작되도록 멀티플렉스 형식으로 수행될 수 있는 것이 바람직하다. 특정 실시예에서, 상이한 타깃 핵산이 공통 반응 용기 내에서 또는 특정 기질의 표면 상에서 처리될 수 있다. 이는 멀티플렉스 방식으로의 시퀀싱 시약의 편리한 전달, 비반응 시약의 제거, 및 혼입 이벤트의 검출을 가능하게 한다. 표면-결합 타깃 핵산을 이용한 실시예에서, 타깃 핵산은 어레이 포맷을 가질 수 있다. 어레이 포맷에서, 통상 타깃 핵산이 공간 구별 가능한 방식으로 표면에 결합될 수 있다. 직접 공유 부착, 비드(bead) 또는 그 밖의 다른 입자에의 부착 또는 표면에 부착된 중합효소 또는 그 밖의 다른 분자로의 결합에 의해, 타깃 핵산이 결합될 수 있다. 어레이는 각각의 사이트(특징부라고도 지칭됨)에서의 타깃 핵산의 단일 카피를 포함할 수 있거나, 동일한 서열을 갖는 복수의 카피가 각각의 사이트 또는 특징부에 존재할 수 있다. 복수의 카피는 증폭 방법, 가령, 브리지 증폭(bridge amplification) 또는 유탁액 PCR에 의해 생성될 수 있다.
본 명세서에 제공된 방법이 다음의 다양한 밀도 중 임의의 밀도로 특징부를 갖는 어레이를 이용할 수 있다: 적어도 약 10 특징부/㎠, 100 특징부/㎠, 500 특징부/㎠, 1,000 특징부/㎠, 5,000 특징부/㎠, 10,000 특징부/㎠, 50,000 특징부/㎠, 100,000 특징부/㎠, 1,000,000 특징부/㎠, 5,000,000 특징부/㎠ 이상.
본 명세서에 제공된 방법이 병렬로 이뤄지는 복수의 타깃 핵산의 신속하고 효율적인 검출을 제공할 수 있다. 따라서 본 발명은 종래 기술의 기법, 가령, 앞서 예시로 된 기법을 이용해 핵산을 제조하고 검출할 수 있는 일체형 시스템을 제공한다. 따라서 본 발명의 일체형 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정화된 DNA 단편으로 전달할 수 있는 유체공학적 구성요소를 포함할 수 있으며, 상기 시스템은 구성요소, 가령, 펌프, 밸브, 저장소(reservoir), 유체공학적 라인 등을 포함한다. 플로우 셀은 타깃 핵산의 검출을 위한 일체형 시스템에서 구성 및/또는 사용될 수 있다. 예시적 플로우 셀이, 가령, 미국 출원 번호 2010/0111768 A1 및 미국 출원 번호 13/273,666에서 기재되어 있으며, 이들 각각은 본 명세서에 참조로서 포함된다. 플로우 셀에 대한 예시를 들면, 일체형 시스템의 유체공학적 구성요소 중 하나 이상이 증폭 방법 및 검출 방법에 대해 사용될 수 있다. 핵산 시퀀싱 실시예를 예로 들면, 일체형 시스템의 유체공학적 구성요소 중 하나 이상이 본 명세서에서 제공되는 증폭 방법 및 시퀀싱 방법, 가령, 상기에서 예시로 든 시퀀싱 방법에서의 시퀀싱 시약의 전달을 위해 사용될 수 있다. 대안으로, 일체형 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위한 개별 유체공학적 시스템을 포함할 수 있다. 증폭된 핵산을 생성할 수 있고 또한 핵산의 서열을 결정할 수 있는 통합형 시퀀싱 시스템의 비제한적 예시로는, MiSeqTM 플랫폼(캘리포니아, 샌 디에고에 소재하는 Illumina, Inc.) 및 본 명세서에 참조로 포함되는 미국 출원 번호 13/273,666에 기재된 디바이스가 있다.
본 명세서에 기재된 방법의 일부 실시예에서, 맵핑된 서열 태그가 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp의 서열 리드를 포함한다. 일부 경우, 500bp를 초과하는 단일-종단 리드가 양-종단 리드가 생성될 때의 약 1000bp를 초과하는 리드에 대해 채용된다. 태그의 서열을 표준 서열과 비교하여 시퀀싱된 핵산 분자의 염색체 근원을 결정함으로써 서열 태그의 매핑이 달성되며, 특정 염색체 서열 정보가 필요하지 않다. 낮은 정도의 오정합(서열 태그 당 0-2개의 오정합)이 표준 염기서열과 혼합 시료 내 게놈 사이에 존재할 수 있는 소수 다형성을 해석할 수 있도록 할 수 있다.
시퀀싱 데이터의 실시간 분석을 위한 시스템 및 장치
시퀀싱 데이터의 분석이 다양한 컴퓨터 실행 알고리즘 및 프로그램을 이용해 수행되는 것이 일반적이다. 따라서 특정 실시예가 하나 이상의 컴퓨터 시스템 또는 그 밖의 다른 처리 시스템에 저장되거나 이를 통해 전달되는 데이터를 포함하는 프로세스를 이용한다. 본 명세서에 개시된 실시예는 또한 이들 동작을 수행하기 위한 장치와 관련된다. 이 장치는 요구되는 용도로 특별하게 구성될 수 있거나, 컴퓨터 프로그램 및/또는 컴퓨터에 저장된 데이터 구조에 의해 선택적으로 활성화 또는 재구성되는 범용 컴퓨터(또는 컴퓨터 그룹)일 수 있다. 일부 실시예에서, 프로세서 그룹은 언급된 분석 동작 중 일부 또는 전부를 (가령, 네트워크 또는 클라우드 컴퓨팅을 통해) 협력적으로 및/또는 병렬로 수행한다. 본 명세서에 기재된 방법을 수행하기 위한 프로세서 또는 프로세스 그룹은 다양한 유형일 수 있으며, 가령, 마이크로제어기 및 마이크로프로세서, 가령, 프로그램 가능 디바이스(가령, CPLD 및 FPGA) 및 비프로그램 가능 디바이스, 가령, 게이트 어레이 ASIC 또는 범용 마이크로프로세서일 수 있다.
덧붙여, 특정 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령 및/또는 데이터(데이터 구조를 포함)를 포함하는 유형(tangible) 및/또는 비일시적(non-transitory) 컴퓨터 판독형 매체 또는 컴퓨터 프로그램 프로덕트와 관련된다. 컴퓨터 판독형 매체의 비제한적 예시로는, 반도체 메모리 디바이스, 자기 매체, 가령, 디스크 드라이브, 자기 테이프, 광학 매체, 가령, CD, 자기-광학 매체, 및 프로그램 명령을 저장 및 수행하도록 특정하게 구성된 하드웨어 디바이스, 가령, 리드-온리 메모리 디바이스(ROM) 및 랜덤 액세스 메모리(RAM)이 있다. 컴퓨터 판독형 매체는 최종 사용자에 의해 직접 제어되거나 매체는 최종 사용자에 의해 간접 제어될 수 있다. 직접 제어되는 매체의 예시로는 다른 개체와 공유되지 않는 사용자 설비 및/또는 매체에 위치하는 매체를 포함한다. 간접 제어되는 매체의 예시는 외부 네트워크 및/또는 공유 자원, 가령, "클라우드"를 제공하는 서비스를 통해 사용자에 의해 간접적으로 액세스 가능한 매체를 포함한다. 프로그램 명령의 예시는 기계 코드, 가령, 컴파일러에 의해 생성되는 코드와, 인터프리터를 이용하는 컴퓨터에 의해 실행될 수 있는 상위 레벨 코드를 포함하는 파일 모두를 포함한다.
다양한 실시예에서, 개시된 방법 및 장치에서 채용된 데이터 또는 정보가 전자 포맷으로 제공된다. 이러한 데이터 또는 정보가 핵산 시료로부터 유래된 리드, 표준 서열의 특정 영역과 정렬되는(가령, 염색체 또는 염색체 조각에 정렬되는) 이러한 태그의 카운트 또는 밀도, 인접한 리드 또는 단편 간 분리 간격, 이러한 분리 간격의 분포, 진단 등을 포함할 수 있다. 본 명세서에서 사용될 때, 전자 포맷으로 제공되는 데이터 또는 그 밖의 다른 정보가 기계에 저장되고 기계들 간 전송될 수 있다. 종래에, 전자 포맷의 데이터가 디지털 방식으로 제공되며 다양한 데이터 구조, 리스트, 데이터베이스 등의 비트 및/또는 바이트로 저장될 수 있다. 데이터가 전자, 광학 등의 방식으로 구현될 수 있다.
하나의 실시예가 페이징 및 프리-페이징 계수, 페이징 보정된 크기 값 및 이와 연관된 염기 콜을 결정하기 위한 컴퓨터 프로그램 프로덕트를 제공한다. 컴퓨터 프로덕트는 페이징 및 염기 콜링을 위한 앞서 기재된 방법 중 임의의 하나 이상을 수행하기 위한 명령을 포함할 수 있다. 설명된 바와 같이, 컴퓨터 프로덕트는 프로세서로 하여금, 리드를 정렬, 정렬된 리드로부터 단편 및/또는 아일랜드를 식별, 이형접합 다형성의 대립유전자, 가령, 인델 대립유전자, 염색체의 페이즈 부분, 및 하플로타입 염색체 및 게놈을 식별할 수 있게 하는 컴퓨터 실행 또는 호환 로직(가령, 명령)이 기록된 비일시적 및/또는 유형의 컴퓨터 판독형 매체를 포함할 수 있다. 하나의 예를 들면, 컴퓨터 프로덕트는 (1) 프로세서로 하여금 핵산 시료에 대한 크기 데이터(가령, 둘 이상의 채널로부터의 컬러 강도 데이터)에 페이징 보정을 실시하게 하는 컴퓨터 실행형 또는 컴파일형 로직(가령, 명령)이 저장된 컴퓨터 판독형 매체, (2) 핵산 시료의 염기 콜을 만들기 위한 컴퓨터 보조 로직, 및 (3) 핵산 시료를 특징화하는 출력을 생성하기 위한 출력 절차를 포함한다.
도움 없이 인간이 본 명세서에 개시된 방법의 계산 동작을 수행하는 것이 실용적이지 않으며, 심지어 대부분의 경우에서 가능하지 않음을 알아야 한다. 예를 들어, 단일 염기 콜링 사이클 동안 단일 타일에 대해 페이징 계수를 생성하는 것이 계산 장치의 도움 없이 몇 년간의 노력이 필요할 수 있다. 물론, 신뢰할만한 NGS 시퀀싱은 일반적으로 적어도 수천 또는 심지어 수 백만 리드에 대해 페이징 보정 및 염기 콜링을 필요로 하기 때문에 문제가 더 복잡해진다.
본 명세서에 개시된 방법은 핵산 시료를 시퀀싱하기 위한 시스템을 이용해 수행될 수 있다. 시스템은 (a) 시료로부터 핵산 서열 정보를 제공하는 시험 시료로부터 핵산을 수신하기 위한 시퀀서, (b) 프로세서, 및 (c) 시퀀서로부터 데이터를 평가하기 위해 프로세서 상에서 실행되기 위한 명령이 저장된 하나 이상의 컴퓨터 판독형 저장 매체를 포함할 수 있다. 컴퓨터-판독형 저장 매체는 플로우 셀 상에 클러스터로부터 부분 페이징 보정된 크기 데이터를 더 저장할 수 있다.
일부 실시예에서, 방법은 서열의 페이즈를 결정하기 위한 방법을 수행하기 위한 컴퓨터 판독형 명령이 저장된 컴퓨터 판독형 매체에 의해 지시된다. 따라서 하나의 실시예는 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때 컴퓨터 시스템으로 하여금 DNA 시료를 시퀀싱하기 위한 방법을 구현하게 하는 컴퓨터 실행형 명령이 저장된 하나 이상의 컴퓨터 판독형 비일시적 저장 매체를 포함하는 컴퓨터 프로그램 프로덕트를 제공한다. 방법은 (a) 핵산 염기가 판독되는 복수의 사이트를 포함하는 기질의 이미지를 표현하는 데이터(가령, 이미지 자체)를 획득하는 단계, (b) 기질의 이미지로부터 복수의 사이트의 컬러 값(또는 개별 염기/뉴클레오타이드를 나타내는 그 밖의 다른 값)을 획득하는 단계, (c) 프로세서 버퍼에 컬러 값을 저장하는 단계, (d) 염기 콜링 사이클에 대해 복수의 사이트의 부분적으로 페이즈-보정된 컬러 값을 불러오는 단계 - 바로 이전 염기 콜링 사이클 동안 부분적으로 페이즈-보정된 컬러 값이 시퀀서의 메모리에 저장됨 - , (e) (i) 바로 이전 염기 콜링 사이클 동안 저장된 부분 페이즈-보정된 컬러 값, 및 (ii) 프로세서 버퍼에 저장된 컬러 값으로부터 프리페이징 보정을 결정하는 단계, 및 (f) (i) 프로세서 버퍼 내 컬러 값, (ii) 바로 이전 사이클 동안 저장된 부분 페이즈 보정된 값, 및 (iii) 프리페이징 보정으로부터 보정된 컬러 값을 결정하는 단계를 포함한다.
서열 또는 그 밖의 다른 데이터는 직접 또는 간접으로 컴퓨터로 입력되거나 컴퓨터 판독형 매체에 저장될 수 있다. 다양한 실시예에서, 컴퓨터 시스템이 시료로부터 핵산의 서열을 판독 및/또는 분석하는 시퀀싱 디바이스에 탑재되거나 직접 연결된다. 이러한 도구로부터의 서열 또는 그 밖의 다른 정보가 데이터 전송 인터페이스를 통해 컴퓨터 시스템(또는 탑재된 처리 하드웨어)에 제공된다. 덧붙여, 메모리 디바이스는 판독, 염기 콜링 품질 정보, 페이징 계수 정보 등을 저장할 수 있다. 메모리는 서열 데이터를 분석하고 제공하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이러한 프로그램/루틴이 통계 분석을 수행하기 위한 프로그램 등을 포함할 수 있다.
하나의 예시에서, 사용자는 시퀀싱 장치로 시료를 제공한다. 컴퓨터에 연결되는 시퀀싱 장치에 의해 데이터가 수집 및/또는 분석된다. 컴퓨터 상의 소프트웨어에 의해 데이터 수집 및/또는 분석을 가능하다. 데이터가 저장, (모니터 또는 그 밖의 다른 유사한 디바이스를 통해) 디스플레이, 및/또는 또 다른 위치로 전송될 수 있다. 컴퓨터는 원격 사용자(가령, 의사, 과학자 또는 분석자)에 의해 사용되는 핸드헬드 디바이스에 데이터를 전송하도록 사용되는 인터넷으로 연결될 수 있다. 전송 전에 데이터가 저장 및/또는 분석될 수 있음이 이해되어야 한다. 일부 실시예에서, 원시 데이터가 수집되고 상기 데이터를 분석 및/또는 저장할 원격 사용자 또는 장치로 전송된다. 예를 들어, 리드가 생성될 때, 또는 생성되자마자 전송될 수 있고, 원격지에서 정렬되고 그 밖의 다른 방식으로 분석될 수 있다. 전송이 인터넷을 통해 발생할 수 있지만, 위성 또는 그 밖의 다른 연결을 통해 발생할 수 있다. 대안으로, 데이터가 컴퓨터 판독형 매체 상에 저장될 수 있고 (우편을 통해) 매체가 최종 사용자에게 배송될 수 있다. 원격 사용자가 동일하거나 상이한 그래픽 위치, 비제한적 예를 들면, 건물, 도시, 주, 국가 또는 대륙에 있을 수 있다.
일부 실시예에서, 방법은 복수의 폴리뉴클레오타이드 서열(가령, 리드)에 관한 데이터를 수집하고 데이터를 컴퓨터 또는 그 밖의 다른 계산 시스템으로 전송하는 단계를 더 포함한다. 예를 들어, 컴퓨터는 연구실 장비, 가령, 시료 수집 장치, 폴리뉴클레오타이드 증폭 장치, 또는 뉴클레오타이드 시퀀싱 장치에 연결될 수 있다. 수집되거나 저장된 데이터가 컴퓨터로부터, 예컨대, 로컬 네트워크 또는 광역 네트워크, 가령, 인터넷을 통해, 원격 위치로 전송될 수 있다. 원격 위치에서, 전송된 데이터에 대해 다양한 동작이 수행될 수 있다.
본 명세서에 제공된 시스템 중 임의의 시스템의 일부 실시예에서, 시퀀서가 차세대 시퀀싱(NGS: next generation sequencing)을 수행하도록 구성된다. 일부 실시예에서, 시퀀서가 가역적 염료 종결부를 갖는 합성에 의한 시퀀싱을 이용해 대규모 병렬 시퀀싱을 수행하도록 구성된다. 또 다른 실시예에서, 시퀀서는 단일 분자 시퀀싱을 수행하도록 구성된다.
결론
본 발명은 이의 사상 또는 본실적 특성 내에서 그 밖의 다른 특정 형태로 구현될 수 있다. 기재된 실시예는 모든 면에서 설명으로 간주되며 제한이 아니다. 따라서, 본 발명의 범위는 상기의 기재보다는 청구항에 의해 지시된다. 청구항의 의미 및 균등 범위 내에 있는 모든 변경이 본 발명의 범위 내에 있다.

Claims (20)

  1. 이미지 획득 시스템, 하나 이상의 프로세서, 및 메모리를 포함하는 핵산 시퀀서에 의해, 염기 콜링 사이클 동안, 획득된 이미지 데이터로부터 보정된 컬러 값을 결정하는 방법으로서, 상기 방법은
    (a) 핵산 염기가 판독되는 복수의 사이트(site)를 포함하는 기질의 이미지를 획득하는 단계 - 상기 사이트는 핵산 염기 유형을 나타내는 컬러를 보임 - ,
    (b) 기질의 이미지로부터 복수의 사이트의 컬러 값을 측정하는 단계,
    (c) 시퀀서의 하나 이상의 프로세서의 프로세서 버퍼에 컬러 값을 저장하는 단계,
    (d) 복수의 사이트 중 페이징-보정된 컬러 값을 불러오는 단계 - 상기 페이징-보정된 컬러 값은 직전의 염기 콜링 사이클 동안 시퀀서의 메모리에 저장되었음 - , 및
    (e) 보정된 컬러 값을 프로세서 버퍼 내 컬러 값, 및 직전의 사이클 동안 저장된 페이징-보정된 값으로부터 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    직전의 염기 콜링 사이클 동안 저장된 페이징-보정된 컬러 값, 및
    프로세서 버퍼에 저장된 컬러 값
    으로부터 프리-페이징 보정을 결정하는 단계를 더 포함하며,
    보정된 컬러 값은 프리-페이징 보정으로부터 추가로 결정되는, 방법.
  3. 제2항에 있어서, 프리-페이징 보정은 가중치를 포함하고 보정된 컬러 값을 결정하는 것은 기질의 이미지로부터 측정된 복수의 사이트의 컬러 값을 가중치에 곱하는 것을 포함하는, 방법.
  4. 제1항에 있어서,
    직후의 염기 콜링 사이클에 대한 페이징 보정을 결정하는 단계,
    복수의 사이트의 페이징 보정된 컬러 값, 및
    (b)에서 측정된 기질의 이미지로부터의 복수의 사이트의 컬러 값
    을 합산으로써, 시퀀서의 메모리에 저장된 복수의 사이트의 컬러 값에 페이징 보정을 적용함으로써, 직후의 염기 콜링 사이클에 대한 페이징-보정된 컬러 값을 생성하는 단계, 및
    직후의 염기 콜링 사이클에 대한 페이징-보정된 컬러 값을 시퀀서의 메모리에 저장하는 단계를 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 핵산 시퀀서는 복수의 사이트에서의 핵산을 합성하는, 방법.
  6. 제1항에 있어서, 컬러 값은 시퀀서의 2개의 채널로부터 결정되는, 방법.
  7. 제1항에 있어서, 상기 컬러 값은 시퀀서의 4개의 채널로부터 획득되는, 방법.
  8. 제1항에 있어서, 상기 기질은 플로우 셀(flow cell)을 포함하며, 상기 플로우 셀은 타일로 논리적으로 분할되고, 각각의 타일은 사이트의 서브세트를 포함하는 플로우 셀의 영역을 나타내고, 상기 서브세트는 이미지 획득 시스템으로부터 하나의 이미지로 캡처되며, 상기 방법은, 단계(a) 전에, 시약을 플로우 셀에 제공하는 단계 및 시약이 사이트와 반응하여 염기 콜링 사이클 동안 핵산 염기 유형을 나타내는 컬러를 보이게 하는 단계를 더 포함하는, 방법.
  9. 제8항에 있어서, 단계(e) 후에:
    플로우 셀에 새 시약을 제공하고 상기 새 시약이 사이트와 상호작용하여 다음 염기 콜링 사이클에 대한 핵산 염기 유형을 나타내는 컬러를 보이게 하는 단계, 및
    다음 염기 콜링 사이클에 대해 단계(a)-(e)를 반복하는 단계를 더 포함하는, 방법.
  10. 제9항에 있어서, 염기 콜링 사이클에 대해 단계 (a)-(e)를 수행하기 위한 제1 프로세서 스레드를 생성하는 단계, 및 다음 염기 콜링 사이클에 대해 단계 (a)-(e)를 수행하기 위한 제2 프로세서 스레드를 생성하는 단계를 더 포함하는, 방법.
  11. 핵산 시퀀서로서,
    이미지 획득 시스템,
    메모리, 및
    하나 이상의 프로세서를 포함하며, 상기 프로세서는
    (a) 핵산 염기가 판독되는 복수의 사이트(site)를 포함하는 기질의 이미지를 나타내는 데이터를 획득하고 - 상기 사이트는 핵산 염기 유형을 나타내는 컬러를 보임 - ,
    (b) 기질의 이미지로부터 복수의 사이트의 컬러 값을 획득하며,
    (c) 프로세서 버퍼에 컬러 값을 저장하고,
    (d) 염기 콜링 사이클에 대해 복수의 사이트 중 페이징-보정된 컬러 값을 불러오며 - 상기 페이징-보정된 컬러 값은 직전의 염기 콜링 사이클 동안 메모리에 저장되었음 - ,
    (e) 보정된 컬러 값을 프로세서 버퍼 내 컬러 값, 및 직전의 사이클 동안 저장된 페이징-보정된 값으로부터 결정하도록 설계 또는 구성되는, 핵산 시퀀서.
  12. 제11항에 있어서, 하나 이상의 프로세서는
    직전의 염기 콜링 사이클 동안 저장된 페이징-보정된 컬러 값, 및
    프로세서 버퍼에 저장된 컬러 값
    으로부터 프리-페이징 보정을 결정하도록 더 설계 또는 구성되며,
    보정된 컬러 값은 프리-페이징 보정으로부터 추가로 결정되는, 핵산 시퀀서.
  13. 제11항에 있어서, 메모리는 복수의 타일 버퍼로 분할되며, 각각의 타일 버퍼는 기질 상의 타일의 단일 이미지를 나타내는 데이터를 저장하도록 설계되는, 핵산 시퀀서.
  14. 제11항에 있어서, 메모리는 512 기가바이트 이하의 저장 용량을 갖는, 핵산 시퀀서.
  15. 제12항에 있어서, 프리-페이징 보정은 가중치를 포함하고, 하나 이상의 프로세서는 기질의 이미지로부터 측정된 복수의 사이트의 컬러 값을 가중치에 곱함으로써 보정된 컬러 값을 결정하도록 설계 또는 구성되는, 핵산 시퀀서.
  16. 제11항에 있어서, 하나 이상의 프로세서는
    직후의 염기 콜링 사이클에 대한 페이징 보정을 결정하고,
    메모리에 저장된 복수의 사이트의 컬러 값에 페이징 보정을 적용함으로써, 직후의 염기 콜링 사이클에 대한 페이징-보정된 컬러 값을 생성하며,
    직후의 염기 콜링 사이클에 대한 페이징-보정된 컬러 값을 메모리에 저장하도록 더 설계 또는 구성되는, 핵산 시퀀서.
  17. 제16항에 있어서, 하나 이상의 프로세서는
    복수의 사이트의 페이징 보정된 컬러 값, 및
    동작 (b)에서 측정된 기질의 이미지로부터 복수의 사이트의 컬러 값
    을 합산함으로써, 직후의 염기 콜링 사이클에 대한 페이징-보정된 컬러 값을 생성하도록 설계 또는 구성되는, 핵산 시퀀서.
  18. 제16항에 있어서, 하나 이상의 프로세서는 페이징-보정된 컬러 값을 메모리의 타일 버퍼에 저장함으로써 직후의 염기 콜링 사이클에 대한 페이징-보정된 컬러 값을 저장하도록 설계 또는 구성되는, 핵산 시퀀서.
  19. 제11항에 있어서, 복수의 사이트에서의 핵산을 합성하기 위한 시스템을 더 포함하는, 핵산 시퀀서.
  20. 제11항에 있어서, 하나 이상의 프로세서는 2개의 채널로부터의 컬러 값을 획득하도록 설계 또는 구성되는, 핵산 시퀀서.
KR1020227011478A 2017-01-06 2018-01-05 페이징 보정 KR102521547B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237012206A KR102629171B1 (ko) 2017-01-06 2018-01-05 페이징 보정

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762443294P 2017-01-06 2017-01-06
US62/443,294 2017-01-06
KR1020197019784A KR102385560B1 (ko) 2017-01-06 2018-01-05 페이징 보정
PCT/US2018/012580 WO2018129314A1 (en) 2017-01-06 2018-01-05 Phasing correction

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020197019784A Division KR102385560B1 (ko) 2017-01-06 2018-01-05 페이징 보정

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237012206A Division KR102629171B1 (ko) 2017-01-06 2018-01-05 페이징 보정

Publications (2)

Publication Number Publication Date
KR20220047895A KR20220047895A (ko) 2022-04-19
KR102521547B1 true KR102521547B1 (ko) 2023-04-14

Family

ID=61148478

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020237012206A KR102629171B1 (ko) 2017-01-06 2018-01-05 페이징 보정
KR1020197019784A KR102385560B1 (ko) 2017-01-06 2018-01-05 페이징 보정
KR1020227011478A KR102521547B1 (ko) 2017-01-06 2018-01-05 페이징 보정

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020237012206A KR102629171B1 (ko) 2017-01-06 2018-01-05 페이징 보정
KR1020197019784A KR102385560B1 (ko) 2017-01-06 2018-01-05 페이징 보정

Country Status (18)

Country Link
US (2) US11150179B2 (ko)
EP (1) EP3566158B1 (ko)
JP (2) JP7110207B2 (ko)
KR (3) KR102629171B1 (ko)
CN (2) CN116612818A (ko)
AU (1) AU2018205218B2 (ko)
BR (1) BR112019013886A2 (ko)
CA (1) CA3049142A1 (ko)
DK (1) DK3566158T3 (ko)
ES (1) ES2917403T3 (ko)
HU (1) HUE058858T2 (ko)
IL (3) IL299500B2 (ko)
LT (1) LT3566158T (ko)
MX (1) MX2019008055A (ko)
PL (1) PL3566158T3 (ko)
PT (1) PT3566158T (ko)
WO (1) WO2018129314A1 (ko)
ZA (1) ZA201904381B (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288576B2 (en) 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
EP3621739B1 (en) 2018-01-05 2023-07-05 Illumina Inc. Predicting reagent chiller instability and flow cell heater failure in sequencing systems
NL2023310B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023312B1 (en) * 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
US11347965B2 (en) 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing
WO2020191387A1 (en) * 2019-03-21 2020-09-24 Illumina, Inc. Artificial intelligence-based base calling
NL2023311B9 (en) * 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
IL295560A (en) * 2020-02-20 2022-10-01 Illumina Inc An artificial intelligence-based many-to-many base reader
US20210265009A1 (en) * 2020-02-20 2021-08-26 Illumina, Inc. Artificial Intelligence-Based Base Calling of Index Sequences
US11188778B1 (en) * 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
CN111982899B (zh) * 2020-08-23 2022-11-25 南京中车浦镇城轨车辆有限责任公司 一种检测pH值的方法及便携式pH值快速检测仪
US11361194B2 (en) * 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
US11455487B1 (en) 2021-10-26 2022-09-27 Illumina Software, Inc. Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
WO2023004065A1 (en) * 2021-07-23 2023-01-26 Illumina, Inc. Characterizing analytes in a sample using normalized signals
CN117580961A (zh) * 2021-09-01 2024-02-20 Illumina公司 用于加速碱基判读的幅度调制
WO2023230278A2 (en) * 2022-05-26 2023-11-30 Element Biosciences, Inc. Phasing and prephasing correction of base calling in next generation sequencing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130316918A1 (en) 2010-11-22 2013-11-28 Life Technologies Corporation Model-based residual correction of intensities
WO2015084985A2 (en) 2013-12-03 2015-06-11 Illumina, Inc. Methods and systems for analyzing image data

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
DE69837913T2 (de) 1997-04-01 2008-02-07 Solexa Ltd., Saffron Walden Verfahren zur vervielfältigung von nukleinsäure
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
US7211414B2 (en) 2000-12-01 2007-05-01 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
GB0112238D0 (en) 2001-05-18 2001-07-11 Medical Biosystems Ltd Sequencing method
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3795577A1 (en) 2002-08-23 2021-03-24 Illumina Cambridge Limited Modified nucleotides
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP2789383B1 (en) 2004-01-07 2023-05-03 Illumina Cambridge Limited Molecular arrays
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
CA2672315A1 (en) 2006-12-14 2008-06-26 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes using large scale fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008092150A1 (en) * 2007-01-26 2008-07-31 Illumina, Inc. Nucleic acid sequencing system and method
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
EP2591433A4 (en) * 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
US10273540B2 (en) * 2010-10-27 2019-04-30 Life Technologies Corporation Methods and apparatuses for estimating parameters in a predictive model for use in sequencing-by-synthesis
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
HRP20211523T1 (hr) 2011-09-23 2021-12-24 Illumina, Inc. Pripravci za sekvenciranje nukleinske kiseline
WO2013151622A1 (en) 2012-04-03 2013-10-10 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US20130345066A1 (en) * 2012-05-09 2013-12-26 Life Technologies Corporation Systems and methods for identifying sequence variation
JP6532456B2 (ja) * 2013-10-04 2019-06-19 ライフ テクノロジーズ コーポレーション 終止化学を用いる配列決定における整相効果(phasing effects)をモデル化するための方法及びシステム
EP3519586B1 (en) * 2016-09-28 2024-03-13 Life Technologies Corporation Methods for sequencing nucleic acids using termination chemistry

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130316918A1 (en) 2010-11-22 2013-11-28 Life Technologies Corporation Model-based residual correction of intensities
WO2015084985A2 (en) 2013-12-03 2015-06-11 Illumina, Inc. Methods and systems for analyzing image data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
N. Whiteford 외 'Swift: primary data analysis for the Ilumina Solexa sequencing platform' (Bioinformatics vol.25, 2009.06.23.) pp2194~2199.

Also Published As

Publication number Publication date
KR102385560B1 (ko) 2022-04-11
KR20220047895A (ko) 2022-04-19
EP3566158A1 (en) 2019-11-13
DK3566158T3 (da) 2022-07-18
CN110383386A (zh) 2019-10-25
US20210389236A1 (en) 2021-12-16
IL267799A (en) 2019-09-26
IL291636B2 (en) 2023-06-01
HUE058858T2 (hu) 2022-09-28
LT3566158T (lt) 2022-06-27
IL299500A (en) 2023-02-01
JP7110207B2 (ja) 2022-08-01
AU2018205218B2 (en) 2024-02-15
KR20230056053A (ko) 2023-04-26
US11150179B2 (en) 2021-10-19
MX2019008055A (es) 2019-11-05
AU2018205218A1 (en) 2019-07-18
RU2019122320A3 (ko) 2021-05-27
IL291636A (en) 2022-05-01
CA3049142A1 (en) 2018-07-12
CN110383386B (zh) 2023-06-13
ZA201904381B (en) 2022-03-30
IL267799B (en) 2022-04-01
PT3566158T (pt) 2022-06-23
CN116612818A (zh) 2023-08-18
EP3566158B1 (en) 2022-04-20
WO2018129314A1 (en) 2018-07-12
RU2765996C2 (ru) 2022-02-07
IL299500B1 (en) 2023-10-01
JP2022132542A (ja) 2022-09-08
IL299500B2 (en) 2024-02-01
RU2019122320A (ru) 2021-02-08
KR102629171B1 (ko) 2024-01-25
BR112019013886A2 (pt) 2020-03-03
ES2917403T3 (es) 2022-07-08
KR20190104336A (ko) 2019-09-09
PL3566158T3 (pl) 2022-08-08
US20180195953A1 (en) 2018-07-12
JP2020506677A (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
KR102521547B1 (ko) 페이징 보정
AU2020277261B2 (en) Methods and systems for analyzing image data
AU2019250200B2 (en) Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs)
RU2765996C9 (ru) Коррекция фазирования
RU2805952C2 (ru) Коррекция фазирования

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant