KR20240022490A - 뉴클레오티드 염기 호출 및 염기 호출 품질을 결정하기 위한 신호-대-잡음비 메트릭 - Google Patents

뉴클레오티드 염기 호출 및 염기 호출 품질을 결정하기 위한 신호-대-잡음비 메트릭 Download PDF

Info

Publication number
KR20240022490A
KR20240022490A KR1020237043195A KR20237043195A KR20240022490A KR 20240022490 A KR20240022490 A KR 20240022490A KR 1020237043195 A KR1020237043195 A KR 1020237043195A KR 20237043195 A KR20237043195 A KR 20237043195A KR 20240022490 A KR20240022490 A KR 20240022490A
Authority
KR
South Korea
Prior art keywords
signal
nucleotide
noise
noise ratio
intensity
Prior art date
Application number
KR1020237043195A
Other languages
English (en)
Inventor
에릭 존 오자드
니틴 우드파
압드 알리 카갈왈라
존 에스 비에셀리
라미 메히오
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20240022490A publication Critical patent/KR20240022490A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Abstract

본 개시는 태깅된 뉴클레오티드 염기가 첨가된 올리고뉴클레오티드의 클러스터에 대한 신호-대-잡음비 메트릭을 생성할 수 있고, 뉴클레오티드 염기 호출을 생성하고 염기 호출 품질을 결정하기 위해 신호-대-잡음비 메트릭을 활용할 수 있는 방법, 비일시적 컴퓨터 판독가능 매체, 및 시스템을 설명한다. 예를 들어, 개시된 시스템은 올리고뉴클레오티드의 클러스터로부터 검출된 광 신호와 연관된 스케일링 인자 및 잡음 레벨을 사용하여 신호-대-잡음비 메트릭을 생성할 수 있다. 개시된 시스템은 하나 이상의 염기 호출 분포 모델에 따라 신호에 대한 뉴클레오티드 염기 호출을 생성하기 위한 강도-값 경계를 생성하기 위해 신호-대-잡음비 메트릭을 활용할 수 있다. 추가적으로, 개시된 시스템은 낮은 신호-대-잡음비 메트릭을 갖는 올리고뉴클레오티드의 클러스터로부터 검출된 신호를 필터링하기 위해 임계치를 활용할 수 있다. 개시된 시스템은 생성된 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하기 위해 신호-대-잡음비 메트릭을 추가로 활용할 수 있다.

Description

뉴클레오티드 염기 호출 및 염기 호출 품질을 결정하기 위한 신호-대-잡음비 메트릭
관련 출원의 교차 참조
본 출원은 2021년 6월 29일에 출원된 미국 가출원 제63/216,401호의 이익 및 우선권을 주장한다. 전술한 출원은 그 전체가 참고로 본 명세서에 통합된다.
최근, 생명 공학 회사 및 연구 기관은 핵산 샘플 내의 뉴클레오티드 염기("핵염기(nucleobase)"라고도 함)의 서열을 결정하는 데 사용되는 하드웨어 및 소프트웨어 플랫폼을 개선하였다. 예를 들어, 일부 기존 핵산 시퀀싱 플랫폼은 기존의 Sanger 시퀀싱(Sanger sequencing)을 사용하여 또는 합성에 의한 시퀀싱(sequencing-by-synthesis, SBS)을 사용하여 핵산 서열의 개별 뉴클레오티드 염기를 결정한다. SBS를 사용할 때, 기존 플랫폼은 더 정확한 뉴클레오티드 염기 호출을 검출하기 위해 병렬로 합성되는 수천, 수만, 또는 그 이상의 핵산 중합체를 모니터링할 수 있다. 예를 들어, SBS 플랫폼 내의 카메라는 이러한 합성된 핵산 서열(종종 클러스터로 그룹화됨)에 통합된 뉴클레오티드 염기로부터 조사된 형광 태그의 이미지를 캡처할 수 있다. 이미지를 캡처한 후, 기존 SBS 플랫폼은 시퀀싱-데이터-분석 소프트웨어를 사용하여 이미지 데이터를 컴퓨팅 디바이스에 전송하여, 핵산 중합체에 대한 뉴클레오티드 염기 서열을 결정한다. 시퀀싱-데이터-분석 소프트웨어는 이미지 데이터에서 캡처된 광 신호에 기초하여 주어진 이미지에서 검출되었던 뉴클레오티드 염기를 결정할 수 있다. 반복적으로 뉴클레오티드 염기를 올리고뉴클레오티드에 통합시키고 방출된 광 신호의 이미지를 다양한 시퀀싱 사이클에서 캡처함으로써, SBS 플랫폼은 핵산의 샘플에 존재하는 뉴클레오티드 염기의 서열을 결정할 수 있다.
이러한 최근의 진보에도 불구하고, 기존 시퀀싱 플랫폼은 전형적으로 그러한 플랫폼의 정확도 및 유연성을 방해하는 기술적 한계로 어려움을 겪고 있다. 특히, 엄격한 강도-값 경계 모델은 종종 이러한 시퀀싱 플랫폼이 올바른 뉴클레오티드 염기 호출을 위해 이미지 데이터에서 캡처된 광 신호를 해석하는 것을 방해한다. 또한, 결함이 있는 염기 호출 품질 모델 및 필터링 모델은 결정된 뉴클레오티드 염기 호출의 정확도를 결정하는 그러한 플랫폼의 능력을 제한하는 경향이 있다.
실제로, 기존 시퀀싱 플랫폼의 강도-값 경계 모델은 종종 뉴클레오티드 염기 호출시 이들 뉴클레오티드 염기를 분류하기 위해 뉴클레오티드 염기의 조사된 형광 태그로부터 방출된 광 신호를 해석할 때 부정확한 결과를 초래한다. 예를 들어, 일부 기존의 플랫폼은 광 신호와 연관된 강도 값(예를 들어, 파장 및/또는 밝기 값)을 대응하는 뉴클레오티드 염기에 맵핑하는 결정 경계를 사용하여 뉴클레오티드 염기 호출을 생성한다. 그러나, 이러한 플랫폼은 주어진 광 신호에 대해 부적절한(예를 들어, 강도 값을 뉴클레오티드 염기에 정확하게 맵핑하지 않는) 결정 경계를 사용하여, 부정확한 뉴클레오티드 염기 호출로 이어질 수 있다. 이러한 부정확한 호출은 종종 모든 광 신호에 대한 동일한 결정 경계 세트의 일부 기존 플랫폼에 의한 엄격한 적용에 의해 야기된다. 실제로, 기존 시퀀싱 플랫폼은 단일 모델(예를 들어, 단일 가우시안 혼합 모델)을 사용하여 모든 검출된 광 신호에 대해 사용되는 결정 경계을 생성할 수 있다. 그러나, 상이한 광 신호는 연관된 강도 값에 영향을 미치는 다양한 요인(예컨대, 다양한 레벨의 신호 순도)을 가질 수 있다. 이러한 요인을 고려하지 못함으로써, 기존의 플랫폼은 결정 경계를 광 신호의 특성에 유연하게 맞춤화하지 못한다.
일부 기존 시퀀싱 플랫폼은 문제가 있는 핵산 중합체의 클러스터를 필터링함으로써(예를 들어, 생성된 염기 호출 데이터로부터 대응하는 뉴클레오티드 염기 호출을 배제함으로써) 뉴클레오티드 염기 호출을 생성하는 부정확도를 회피하려고 시도한다. 예를 들어, 기존 플랫폼은 해당 광 신호의 순도(chastity) 값을 분석하는 순도 필터를 사용하여 핵산 중합체의 클러스터를 필터링할 수 있다. 순도 값은 광 신호와 연관된 강도와 가장 가까운 뉴클레오티드 염기 중심점(centroid) 사이의 거리 대 그 강도와 다른 중심점(예를 들어, 두번째 가장 가까운 중심점) 사이의 거리의 비로서 결정될 수 있다.
기존 플랫폼은, 그 순도 값이 임계치를 (예를 들어, 시퀀싱 사이클의 제1 세트 내에서 다수 회) 만족하지 못하는 경우 클러스터에 대한 뉴클레오티드 염기 호출을 필터링할 수 있으며, 이는 방출된 광 신호가 불량한 품질이고 신뢰할 수 없음(예를 들어, 해당 뉴클레오티드 염기 호출이 부정확할 수 있음)을 나타낸다. 그러나, 클러스터는 시퀀싱이 진행됨에 따라 더 문제가 될 수 있다. 실제로, 초기 시퀀싱 사이클에서 순도 필터를 만족시키는 클러스터의 불량한 품질은 나중의 시퀀싱 사이클에서 표면화될 수 있다. 순도 필터를 사용함으로써, 많은 기존 플랫폼이 이러한 문제가 있는 클러스터를 적절히 식별하지 못한다. 따라서, 그러한 플랫폼은 이러한 클러스터로부터 방출된 불량한 광 신호에 기초하여 신뢰할 수 없는 뉴클레오티드 염기 호출을 생성하는 경향이 있고, 염기 호출 데이터에서 그러한 뉴클레오티드 염기 호출을 포함한다.
정확한 뉴클레오티드 염기 호출을 생성하고 신뢰할 수 없는 광 신호를 방출하는 핵산 중합체를 필터링하는 문제에 추가하여, 기존의 시퀀싱 플랫폼은 주어진 뉴클레오티드 염기 호출의 품질을 결정할 때 종종 부정확하다. 예를 들어, 많은 기존 플랫폼은 뉴클레오티드 염기 호출의 에러의 가능성을 추정하는, Phred 품질 스코어와 같은 메트릭을 결정한다. 그러나, 이 품질 스코어를 결정하는 데 사용되는 모델은 (예를 들어, 해당 광 신호와 연관된) 뉴클레오티드 염기 호출과 연관된 많은 특징을, 이러한 특징이 뉴클레오티드 염기 호출의 품질에 유의하게 기여하는 경우에도, 고려하지 않은 채로 둔다. 따라서, 기존 플랫폼은 종종 뉴클레오티드 염기 호출의 품질을 정확하게 추정하지 못한다.
또한, 앞서 언급된 바와 같이, 기존 플랫폼은 뉴클레오티드 염기 호출을 생성하는 데 사용되는 결정 경계를 광 신호의 특성에 맞춤화하지 못한다. 많은 경우에, 품질 추정은 본질적으로 뉴클레오티드 염기 호출을 생성하는 데 사용되는 결정 경계에 결부된다. 따라서, 광 신호의 강도 값을 뉴클레오티드 염기에 정확하게 맵핑하지 못하는 결정 경계를 사용하는 것은 또한 생성된 뉴클레오티드 염기 호출의 품질의 부정확한 추정으로 이어질 수 있다.
본 개시는 뉴클레오티드 염기의 형광 태그로부터 방출된 광 신호에 대한 신호-대-잡음비 메트릭을 결정하고 이러한 신호-대-잡음비 메트릭을 사용하여 보다 정확하고 유연한 염기 호출을 결정하는 방법, 비일시적 컴퓨터 판독가능 매체, 및 시스템의 실시예를 설명한다. 예를 들어, 개시된 시스템은 태깅된 뉴클레오티드 염기가 첨가되는 올리고뉴클레오티드의 다양한 클러스터에 대한 별도의 신호-대-잡음비 메트릭을 결정할 수 있다. 개시된 시스템은 클러스터로부터 방출된 광 신호와 연관된 강도 값을 활용하여 그의 대응하는 신호-대-잡음비 메트릭을 결정할 수 있다. 예를 들어, 개시된 시스템은 올리고뉴클레오티드의 클러스터에서 표지된 뉴클레오티드 염기에 대한 신호-대-잡음비 메트릭을, 클러스터의 광 신호에 대한 스케일링 인자 및 잡음 레벨에 기초하여, 결정한다. 일부 경우에서, 개시된 시스템은 모든 시퀀싱 사이클 후에 신호-대-잡음비 메트릭을 업데이트한다.
개시된 시스템은 아래에서 추가로 설명되는 다양한 염기 호출 애플리케이션에 대해 클러스터와 연관된 그러한 신호-대-잡음비 메트릭을 활용할 수 있다. 예를 들어, 개시된 시스템은 염기 호출 분포 모델(예를 들어, 세그먼트화된 가우시안 혼합 모델)에 따라 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를 생성하고, 불량한 품질의 클러스터를 필터링하고/하거나 뉴클레오티드 염기 호출에 대한 품질 스코어를 결정하기 위해 그러한 신호-대-잡음비 메트릭을 사용할 수 있다. 그러한 신호-대-잡음비 메트릭을 활용함으로써, 개시된 시스템은 뉴클레오티드 염기 호출을 결정하는 데 사용되는 상이한 뉴클레오티드 클라우드 사이의 결정 경계를 검출된 광 신호의 특성에 유연하게 맞춤화하여, 더 정확한 염기 호출을 허용한다. 또한, 개시된 시스템은 신호-대-잡음비 메트릭을 활용하여, 불량한 품질의 웰을 더 정확하게 필터링하고 주어진 뉴클레오티드 염기 호출의 품질 스코어를 더 정확하게 결정할 수 있다.
본 개시의 하나 이상의 실시예의 추가적인 특징 및 이점이 하기 설명에 약술된다.
상세한 설명은 이하에서 간략히 설명되는 도면을 참조한다.
도 1은 하나 이상의 실시예에 따라 신호-대-잡음-인식 염기 호출 시스템을 포함하는 시퀀싱 시스템의 블록도를 예시한다.
도 2는 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 생성 및 활용하는 신호-대-잡음-인식 염기 호출 시스템의 개요도를 예시한다.
도 3은 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 결정하기 위한 도면을 예시한다.
도 4는 하나 이상의 실시예에 따라 분포 모델 세그먼트화를 위해 신호-대-잡음비 메트릭을 활용하는 블록도를 예시한다.
도 5는 하나 이상의 실시예에 따라 뉴클레오티드 염기 호출을 필터링하기 위해 신호의 신호-대-잡음비 메트릭을 활용하기 위한 블록도를 예시한다.
도 6은 하나 이상의 실시예에 따라 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하기 위한 블록도를 예시한다.
도 7은 하나 이상의 실시예에 따른 신호-대-잡음-인식 염기 호출 시스템의 유효성에 관한 연구 결과를 반영하는 그래프를 예시한다.
도 8a 및 도 8b는 하나 이상의 실시예에 따른 신호-대-잡음-인식 염기 호출 시스템의 유효성에 관한 추가적인 연구 결과를 반영하는 그래프를 예시한다.
도 9는 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 사용하여 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하기 위한 일련의 동작의 흐름도를 예시한다.
도 10은 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 사용하여 신호에 대응하는 뉴클레오티드 염기 호출을 필터링하기 위한 일련의 동작의 흐름도를 예시한다.
도 11은 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 사용하여 신호-대-잡음 범위에 대한 강도-값 경계를 생성하기 위한 일련의 동작의 흐름도를 예시한다.
도 12는 본 개시의 하나 이상의 실시예를 구현하기 위한 예시적인 컴퓨팅 디바이스의 블록도를 예시한다.
본 개시는 뉴클레오티드 염기 호출을 결정하고, 뉴클레오티드 염기 호출의 품질을 측정하고, 불량한 품질의 웰을 필터링하기 위해 신호-대-잡음비 메트릭을 활용하는 신호-대-잡음-인식 염기 호출 시스템의 하나 이상의 실시예를 설명한다. 특히, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은 올리고뉴클레오티드의 클러스터를 포함하는 뉴클레오티드 샘플 슬라이드의 섹션(예를 들어, 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션)에 대한 신호-대-잡음비 메트릭을 결정한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템은 클러스터에 의해 방출된 광 신호의 강도 값에 대응하는 스케일링 인자 및 잡음 레벨에 기초하여 신호-대-잡음비 메트릭을 결정할 수 있다.
신호-대-잡음-인식 염기 호출 시스템은 다양한 애플리케이션을 통해 더 나은 품질 또는 더 정확한 핵염기 호출을 결정하기 위해 그러한 신호-대-잡음비 메트릭을 활용할 수 있다. 예를 들어, 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 하나 이상의 염기 호출 분포 모델(예를 들어, 세그먼트화된 가우시안 혼합 모델)에 따라 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를 생성하기 위해 신호-대-잡음비 메트릭을 활용한다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 신호-대-잡음 임계치를 사용하거나 확립하고, 신호-대-잡음비 메트릭이 임계치를 만족하지 못하는 경우, 뉴클레오티드 샘플 슬라이드의 섹션과 연관된 뉴클레오티드 염기 호출을 시퀀싱 데이터 밖으로 필터링한다. 일부 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 섹션에 대해 생성된 뉴클레오티드 염기 호출의 품질을 추정하는 모델(예를 들어, Phred 알고리즘)에 대한 입력으로서 신호-대-잡음비 메트릭을 활용한다.
단지 언급된 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 결정한다. 하나 이상의 실시예에서, 신호-대-잡음비 메트릭은 뉴클레오티드 샘플 슬라이드의 해당 섹션에 특정적이고, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 다른 섹션에 대한 다른 신호-대-잡음비 메트릭을 결정한다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 각각의 시퀀싱 사이클로 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 업데이트한다.
위에서 제안된 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 섹션으로부터 검출된 신호(예를 들어, 광 신호)의 강도 값에 기초하여 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 결정한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템은 검출된 신호에 대한 스케일링 인자를 결정할 수 있다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 신호의 강도 값에 기초하여 최소 제곱 알고리즘을 사용하여 스케일링 인자를 결정한다. 신호-대-잡음-인식 염기 호출 시스템은 검출된 신호에 대응하는 잡음 레벨을 추가로 결정할 수 있다. 예를 들어, 일부 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 신호에 대한 보정된 강도 값에 기초하여 잡음 레벨을 결정한다. 신호-대-잡음-인식 염기 호출 시스템은 스케일링 인자 및 잡음 레벨 둘 모두에 기초하여 신호-대-잡음비 메트릭을 결정할 수 있다.
위에서 추가로 언급된 바와 같이, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를 생성하기 위해 신호-대-잡음비 메트릭을 활용한다. 예시를 위해, 특정 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 (예를 들어, 시퀀싱 사이클 동안 검출된 신호에 기초하여) 뉴클레오티드 샘플 슬라이드의 복수의 섹션에 대한 신호-대-잡음비 메트릭을 생성한다. 신호-대-잡음-인식 염기 호출 시스템은 결정된 신호-대-잡음비 메트릭에 대한 신호-대-잡음비 범위를 결정할 수 있고, 각각의 신호-대-잡음비 범위와 연관된 뉴클레오티드 샘플 슬라이드 섹션에 염기 호출 분포 모델을 피팅할 수 있다. 이어서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 해당 섹션에 대한 신호-대-잡음비 메트릭을 포함하는 신호-대-잡음비 범위의 염기 호출 분포 모델에 따라 뉴클레오티드 샘플 슬라이드의 섹션에 대한 뉴클레오티드 염기 호출을 생성할 수 있다.
추가적으로, 전술한 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 시퀀싱으로부터 발생하는 뉴클레오티드 염기 호출 데이터(예를 들어, 시퀀싱 데이터)로부터 대응하는 뉴클레오티드 염기 호출을 필터링할지 여부를 결정함에 있어서 뉴클레오티드 샘플 슬라이드 섹션의 신호-대-잡음비 메트릭을 활용한다. 실제로, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은 신호-대-잡음비 임계치를 확립한다. 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치를 만족시킨다고 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 염기 호출 데이터 내의 뉴클레오티드 샘플 슬라이드의 섹션에 대한 뉴클레오티드 염기 호출을 결정하고 포함할 수 있다. 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치를 만족시키지 못하는 경우, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 염기 호출 데이터로부터 뉴클레오티드 샘플 슬라이드의 섹션에 대한 뉴클레오티드 염기 호출을 배제할 수 있다.
강도-값 경계의 생성 또는 필터링에 추가하여(또는 대안적으로), 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 섹션에 대해 생성된 뉴클레오티드 염기 호출의 품질을 추정하기 위해 뉴클레오티드 샘플 슬라이드의 섹션의 신호-대-잡음비 메트릭을 활용한다. 예를 들어, 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 신호-대-잡음비 메트릭을 염기 호출 품질 모델(예를 들어, Phred 알고리즘)에 대한 입력으로서 제공한다. 신호-대-잡음-인식 염기 호출 시스템은 신호-대-잡음비 메트릭에 기초하여 뉴클레오티드 염기 호출의 에러를 추정하는 품질 메트릭을 생성하기 위해 염기 호출 품질 모델을 활용할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은 신호-대-잡음비 메트릭을 (예를 들어, 순도 값과 함께) 염기 호출 품질 모델에 대한 많은 입력 중 하나로서 제공한다.
신호-대-잡음-인식 염기 호출 시스템은 종래의 시퀀싱 플랫폼에 비해 여러 이점을 제공한다. 예를 들어, 초기 문제로서, 신호-대-잡음-인식 염기 호출 시스템은 형광 태그에 의해 방출되고 카메라에 의해 캡처된 광 신호에 대한 신호-대-잡음비 메트릭을 결정하기 위한 새로운 계산 모델을 도입한다. 특히, 개시된 계산 모델은 형광 태그에 의해 방출된 광 파장 또는 강도와 연관된 잡음에 대해 광 신호의 순도를 분리하고 관련시킴으로써 광 신호에 대응하는 신호-대-잡음비 메트릭을 결정한다. 예를 들어, 위에서 그리고 아래에서 설명되는 바와 같이, 계산 모델은 검출된 광 신호를 스케일링 인자 및 잡음 레벨로 분해하고 이 값에 기초하여 신호-대-잡음비 메트릭을 결정할 수 있다. 그렇게 함으로써, 계산 모델은 뉴클레오티드 염기 호출에 대응하는 광 신호와 잡음 사이를 더 정확하게 구별할 수 있다. 인간 마음은 표지된 뉴클레오티드 염기로부터 방출된 광 신호를 검출할 수 없고, 광 신호를 연관된 잡음으로부터 분리하는 것은 더더욱 힘들다. 이에 따라서, 신호-대-잡음비 메트릭을 결정함으로써, 새로운 계산 모델은 이전에 이용 불가능했던 기능성을 시퀀싱 플랫폼에 제공한다.
신호-대-잡음비 메트릭을 활용함으로써, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 염기 호출을 개선한다. 예를 들어, 위에서 논의된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 염기 호출을 생성하는 데 사용되는 염기 호출 분포 모델을 다양한 신호-대-잡음비 범위에 피팅한다. 이들 염기 호출 분포 모델은 뉴클레오티드 염기 호출이 기초하는 강도-값 경계(예를 들어, 결정 경계)를 제공한다. 따라서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 섹션으로부터 검출된 신호와 연관된 다양한 레벨의 신호 순도에 강도-값 경계를 유연하게 맞춤화한다. 아래에 기재된 결과에 의해 추가로 입증된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템은 그의 방출된 신호에 적절한 강도-값 경계를 사용하여 뉴클레오티드 샘플 슬라이드의 섹션에 대한 뉴클레오티드 염기 호출을 개선하여, 더 정확한 뉴클레오티드 염기 호출을 초래한다.
신호-대-잡음비 메트릭을 활용함으로써, 신호-대-잡음-인식 염기 호출 시스템은 또한 뉴클레오티드 샘플 슬라이드의 섹션에 대한 불량한 품질의 염기 호출을 필터링한다. 특히, 신호-대-잡음-인식 염기 호출 시스템은 불량한 신호를 방출하는 뉴클레오티드 샘플 슬라이드의 섹션을 더 정확하게 식별한다. 실제로, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드의 이러한 섹션을 식별할 수 있고, 그렇지 않으면 나중의 시퀀싱 사이클에서 그의 에러를 단지 표면화하기 위해 종래의 시퀀싱 플랫폼에 의해 구현된 순도 필터를 통과할 것이다. 필터링 프로세스를 개선함으로써, 신호-대-잡음-인식 염기 호출 시스템은 더 정확하고, 더 신뢰할 수 있는 뉴클레오티드 염기 호출 데이터를 생성한다.
개선된 뉴클레오티드 염기 호출 및 개선된 필터링에 추가하여, 신호-대-잡음-인식 염기 호출 시스템은 종래의 시퀀싱 플랫폼보다 뉴클레오티드 염기 호출 품질을 더 정확하게 결정한다. 실제로, 신호-대-잡음비 메트릭을 활용함으로써, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 염기 호출의 품질을 더 정확하게 추정할 수 있다. 예를 들어, 전술한 바와 같이, 신호-대-잡음-인식 염기 호출 시스템은 염기 호출 품질 모델(예를 들어, Phred 모델)에 대한 입력으로서 뉴클레오티드 샘플 슬라이드의 섹션의 신호-대-잡음비 메트릭을 제공할 수 있다. 따라서, 신호-대-잡음-인식 염기 호출 시스템은 종래의 시퀀싱 플랫폼과 비교할 때 뉴클레오티드 염기 호출 품질의 신규하고 개선된 (및 때때로 추가적인) 표시자를 활용하여, 더 정확한 품질 추정치를 허용한다. 또한, 검출된 광 신호의 특성에 맞춤화된 강도-값 경계를 사용함으로써, 그러한 강도-값 경계에 결부된 품질 추정이 또한 광 신호의 특성에 맞춤화된다.
전술한 논의에 의해 예시된 바와 같이, 본 개시는 신호-대-잡음-인식 염기 호출 시스템의 특징 및 이점을 설명하기 위해 다양한 용어를 활용한다. 이제 그러한 용어의 의미에 관한 추가적인 세부사항이 제공된다. 예를 들어, 본원에 사용되는 바와 같이, 용어 "뉴클레오티드 샘플 슬라이드"는 샘플에 대한 뉴클레오티드 세그먼트를 시퀀싱하기 위한 올리고뉴클레오티드를 포함하는 플레이트 또는 슬라이드를 지칭한다. 특히, 뉴클레오티드 샘플 슬라이드는 시약 및 완충제가 시퀀싱의 일부로서 이동할 수 있는 유체 채널을 포함하는 슬라이드를 지칭할 수 있다. 예를 들어, 하나 이상의 실시예에서, 뉴클레오티드 샘플 슬라이드는 작은 유체 채널 및 어댑터 서열에 상보적인 짧은 올리고뉴클레오티드를 포함하는 유동 셀(예를 들어, 패턴화된 유동 셀 또는 비패턴화된 유동 셀)을 포함한다.
이와 관련하여, 본원에 사용되는 바와 같이, 용어 "뉴클레오티드 샘플 슬라이드"(또는 "뉴클레오티드 샘플 슬라이드 섹션")는 뉴클레오티드 샘플 슬라이드의 일부인 영역을 지칭한다. 특히, 뉴클레오티드 샘플 슬라이드의 섹션은 뉴클레오티드 샘플 슬라이드의 다른 부분과 상이한 뉴클레오티드 샘플 슬라이드의 별개의 부분을 지칭할 수 있다. 예를 들어, 뉴클레오티드 샘플 슬라이드의 섹션은 패턴화된 유동 셀의 웰(예를 들어, 나노웰) 또는 비패턴화된 유동 셀의 개별 서브섹션(예를 들어, 클러스터에 대응하는 서브섹션)을 포함할 수 있다. 일부 경우에, 뉴클레오티드 샘플 슬라이드의 섹션은 동일하거나 유사한 올리고뉴클레오티드의 클러스터가 병렬로 성장하는 타일 또는 서브-타일을 포함한다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "표지된 뉴클레오티드 염기"는 뉴클레오티드 염기의 분류의 형광 또는 광 기반의 표시자를 갖는 뉴클레오티드 염기를 지칭한다. 특히, 표지된 뉴클레오티드 염기는 염기의 유형(예를 들어, 아데닌, 시토신, 티민, 또는 구아닌)을 식별하기 위해 형광 또는 광 기반의 표시자를 통합하는 뉴클레오티드 염기를 지칭할 수 있다. 예를 들어, 하나 이상의 실시예에서, 표지된 뉴클레오티드 염기는 염기 유형을 식별하는 신호를 방출하는 형광 태그를 갖는 뉴클레오티드 염기를 포함한다.
또한, 본원에 사용되는 바와 같이, 용어 "신호"는 표지된 뉴클레오티드 염기 또는 표지된 뉴클레오티드 염기의 그룹(예를 들어, 올리고뉴클레오티드의 클러스터에 첨가된 표지된 뉴클레오티드 염기)으로부터 방출되거나, 반사되거나, 그렇지 않으면 통신되는 신호를 지칭한다. 특히, 신호는 염기의 유형을 나타내는 신호를 지칭할 수 있다. 예를 들어, 신호는 뉴클레오티드 염기의 형광 태그 또는 올리고뉴클레오티드에 통합된 다수의 뉴클레오티드 염기의 형광 태그로부터 방출 또는 반사되는 광 신호를 포함할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은 레이저 또는 다른 광원과 같은 외부 자극을 통해 신호를 트리거한다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 일부 내부 자극을 통해 신호를 트리거한다. 또한, 일부 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 뉴클레오티드 샘플 슬라이드(예를 들어, 뉴클레오티드 샘플 슬라이드의 섹션)의 이미지를 캡처할 때 적용된 필터를 사용하여 신호를 관찰한다. 상기에 제안된 바와 같이, 특정 경우에서, 신호는 올리고뉴클레오티드의 클러스터 내의 개별 올리고뉴클레오티드에 첨가된 각각의 표지된 뉴클레오티드 염기에 의해 제공되는 신호의 집합체를 포함한다.
본원에 사용되는 바와 같이, 용어 "강도 값"은 표지된 뉴클레오티드 염기 또는 올리고뉴클레오티드의 클러스터로부터의 표지된 뉴클레오티드 염기의 그룹으로부터 방출되거나, 반사되거나, 그렇지 않으면 통신되는 신호의 특성 또는 속성을 나타내는 값을 지칭한다. 특히, 강도 값은 색 강도(예를 들어, 파장) 또는 광 강도(예를 들어, 밝기)와 연관된 값을 지칭할 수 있다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템은 상이한 필터(또는 강도 채널)를 사용하여 표지된 뉴클레오티드 염기를 갖는 올리고뉴클레오티드의 클러스터의 여러 이미지를 캡처한다. 따라서, 신호의 강도 값은 특정 필터를 통해 관찰된 바와 같은 신호의 강도에 대응할 수 있다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "신호-대-잡음비 메트릭"은 잡음의 레벨 또는 콘텐츠와 비교된 표적 신호의 측정치를 지칭한다. 특히, 신호-대-잡음비 메트릭은 연관된 잡음과 비교하여 표지된 뉴클레오티드 염기로부터 검출되는 광 신호의 강도를 지칭할 수 있다. 예를 들어, 일부 구현예에서, 신호-대-잡음비 메트릭은 대응하는 잡음 레벨과 비교된 신호와 연관된 스케일링 인자의 비를 포함한다. 본원에 사용되는 바와 같이, 용어 "스케일링 인자"는 밝기를 나타내는 계수 또는 값을 지칭한다. 특히, 본원에 사용되는 바와 같이, 용어 스케일링 인자는 (클러스터 집단 내의 클러스터의 강도 프로파일의 다차원 공간의 원점으로부터의 스케일 및 시프트에서의 차이와 관련된) 클러스터 간 강도 프로파일 변동에서의 스케일 변동(예를 들어, 진폭/밝기 변동)을 고려하는 값을 지칭할 수 있다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템은 광 신호에 대해 결정된 스케일링 인자를 광 신호 자체(예를 들어, 잡음의 추가 없이 신호 순도)에 균등화한다. 또한, 본원에 사용되는 바와 같이, 용어 "잡음 레벨"은 신호와 연관된 잡음을 나타내는 값을 지칭한다. 실제로, 일부 경우에서, 잡음 레벨은 관찰된 집단에서 분포를 야기하는(또는 반영하는) 신호 변동을 포함하는 잡음을 나타내는 값을 포함한다. 신호 변동은 올리고뉴클레오티드 길이, 페이징 또는 프리페이징, 또는 카메라 또는 다른 센서의 시야와 관련한 올리고뉴클레오티드의 클러스터의 위치에 기인하는 신호 변동과 같이, 뉴클레오티드 샘플 슬라이드의 또는 시퀀싱 디바이스의 구성요소 또는 콘텐츠의 화학적 또는 물리적 특성으로부터 비롯될 수 있다. 하나 이상의 실시예에서, 아래에서 더 상세히 논의되는 바와 같이, 신호-대-잡음-인식 염기 호출 시스템은 신호의 하나 이상의 강도 값을 사용하여 스케일링 인자 및 잡음 레벨을 결정한다. 본원에 사용되는 바와 같이, 용어 "신호-대-잡음비 범위"는 신호-대-잡음비 메트릭의 범위를 지칭한다. 다시 말하면, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은 하나 이상의 신호-대-잡음비 범위를 확립하고, 신호의 신호-대-잡음비 메트릭이 특정 신호-대-잡음비 범위 내에 있는지 여부를 결정한다.
또한, 본원에 사용되는 바와 같이, 용어 "신호-대-잡음비 임계치"는 신호-대-잡음비 메트릭에 기초하여 올리고뉴클레오티드의 클러스터(예를 들어, 올리고뉴클레오티드의 클러스터와 연관된 뉴클레오티드 염기 호출)를 필터링하기 위해 확립된 임계치 값을 지칭한다. 예를 들어, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템은, 생성된 뉴클레오티드 염기 호출 데이터에 포함될 클러스터에 대한 뉴클레오티드 염기 호출을 갖도록 올리고뉴클레오티드의 클러스터에 대응하는 표지된 뉴클레오티드 염기로부터의 신호에 의해 만족되어야 하는(예를 들어, 충족되거나 초과되어야 하는) 신호-대-잡음비 값으로서 신호-대-잡음비 임계치를 결정한다.
본원에 사용되는 바와 같이, 용어 "뉴클레오티드 염기 호출"은 시퀀싱 사이클을 위해 올리고뉴클레오티드에 첨가하거나 그 내에 통합하기 위한 특정 뉴클레오티드 염기의 할당 또는 결정을 지칭한다. 특히, 뉴클레오티드 염기 호출은 뉴클레오티드 샘플 슬라이드의 올리고뉴클레오티드 내에 통합되었던 뉴클레오티드 유형의 할당 또는 결정을 나타낸다. 일부 경우에서, 뉴클레오티드 염기 호출은 뉴클레오티드 샘플 슬라이드의 섹션에서 올리고뉴클레오티드에 첨가된 뉴클레오티드로부터 발생하는 강도 값에 대한 뉴클레오티드 염기의 할당 또는 결정을 포함한다. 대안적으로, 뉴클레오티드 염기 호출은 뉴클레오티드 샘플 슬라이드의 나노포어를 통과하는 뉴클레오티드로부터 발생하는 크로마토그램 피크 또는 전류 변화에 대한 뉴클레오티드 염기의 할당 또는 결정을 포함한다. 뉴클레오티드 염기 호출을 사용함으로써, 시퀀싱 시스템은 핵산 중합체의 서열을 결정한다. 예를 들어, 단일 뉴클레오티드 염기 호출은 아데닌 호출, 시토신 호출, 구아닌 호출 또는 티민 호출을 포함할 수 있다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "시퀀싱 사이클"(또는 "사이클")은 올리고뉴클레오티드에 뉴클레오티드 염기를 첨가 또는 통합하는 반복 또는 올리고뉴클레오티드에 뉴클레오티드 염기를 병렬로 첨가 또는 통합하는 반복을 지칭한다. 특히, 사이클은 올리고뉴클레오티드 내에 또는 올리고뉴클레오티드에 병렬로 첨가되거나 통합되는 개별 뉴클레오티드 염기를 나타내는 데이터로 하나 이상의 이미지를 분석하는 반복을 포함할 수 있다. 따라서, 핵산 중합체 시퀀싱의 일부로서 사이클이 반복될 수 있다. 예를 들어, 하나 이상의 실시예에서, 각각의 시퀀싱 사이클은 DNA 또는 RNA 가닥이 단일 방향으로만 판독되는 단일 판독 또는 DNA 또는 RNA 가닥이 양쪽 말단 모두로부터 판독되는 쌍말단(paired-end) 판독을 수반한다. 또한, 특정 경우에서, 각각의 시퀀싱 사이클은 특정 올리고뉴클레오티드 내에 첨가 또는 통합되는 특정 뉴클레오티드 염기를 결정하기 위한 이미지 데이터를 생성하기 위해 뉴클레오티드 샘플 슬라이드 또는 뉴클레오티드 샘플 슬라이드의 다중 섹션의 이미지를 촬영하는 카메라를 수반한다. 이미지 캡처 단계에 이어서, 시퀀싱 시스템은 통합된 뉴클레오티드 염기로부터 특정 형광 표지를 제거하고 핵산 중합체가 완전히 시퀀싱될 때까지 다른 시퀀싱 사이클을 수행할 수 있다. 하나 이상의 실시예에서, 시퀀싱 사이클은 합성에 의한 시퀀싱(SBS) 실행 내의 사이클을 포함한다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "뉴클레오티드 염기 호출 데이터"는 디지털 파일, 이미지 데이터, 또는 핵산 중합체에 대한 개별 뉴클레오티드 염기 또는 뉴클레오티드 염기의 서열을 나타내는 다른 디지털 정보를 지칭한다. 특히, 뉴클레오티드 염기 호출 데이터는 뉴클레오티드 샘플 슬라이드의 카메라로 촬영한 이미지의 강도 값(예를 들어, 개별 클러스터에 대한 색 또는 광 강도 값) 또는 개별 뉴클레오티드 염기 또는 핵산 중합체에 대한 뉴클레오티드 염기 서열을 나타내는 기타 데이터를 포함할 수 있다. 강도 값에 추가적으로 또는 대안적으로, 뉴클레오티드 염기 호출 데이터는 서열에서 개별 핵염기를 나타내는 크로마토그램 피크 또는 전류 변화를 포함할 수 있다. 추가적으로, 일부 실시예에서, 뉴클레오티드 염기 호출 데이터는 개별 뉴클레오티드 염기(예를 들어, A, T, C 또는 G)를 식별하는 개별 뉴클레오티드 염기 호출을 포함한다. 예를 들어, 뉴클레오티드 염기 호출 데이터는 핵산 중합체에 대한 서열에서 뉴클레오티드 염기 호출에 대한 데이터를 포함할 수 있으며, 뉴클레오티드 염기 호출의 수는 이진 염기 호출(BCL) 파일과 같은 디지털 파일에서 조직화된 바와 같이, 특정 염기(예를 들어, 아데닌, 시토신, 티민, 또는 구아닌)에 대응한다. 또한, 뉴클레오티드 염기 호출 데이터는 각각의 뉴클레오티드 염기 호출과 연관된 품질 메트릭과 같은 에러/정확도 정보를 포함할 수 있다. 일부 실시예에서, 뉴클레오티드 염기 호출 데이터는 합성에 의한 시퀀싱(SBS)을 활용하는 시퀀싱 디바이스로부터의 정보를 포함한다.
본원에서 사용되는 바와 같이, 용어 "품질 메트릭"은 시퀀싱 사이클에 대한 뉴클레오티드 염기 호출의 정확도를 나타내는 특정 스코어 또는 기타 측정값을 지칭한다. 특히, 품질 메트릭은 하나 이상의 예측된 뉴클레오티드 염기 호출이 에러를 포함할 가능성을 나타내는 값을 포함한다. 예를 들어, 특정 구현예에서, 품질 메트릭은 시퀀싱 사이클 내 임의의 주어진 뉴클레오티드 염기 호출의 에러 확률을 예측하는 Q 스코어(예를 들어, Phred 품질 스코어)를 포함할 수 있다.
본원에 사용되는 바와 같이, 용어 "염기 호출 품질 모델"은 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하는 컴퓨터 모델 또는 알고리즘을 지칭한다. 예를 들어, 염기 호출 품질 모델은 신호 및/또는 대응하는 클러스터 또는 표지된 뉴클레오티드 염기의 특성을 분석하고 분석에 기초하여 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하는 컴퓨터 알고리즘을 지칭할 수 있다. 예시를 위해, 일부 구현예에서, 염기 호출 품질 모델은 Phred 품질 스코어를 생성하는 컴퓨터 알고리즘을 포함한다.
추가적으로, 본원에 사용되는 바와 같이, 용어 "강도-값 경계"는 신호에 대한 뉴클레오티드 염기 호출을 생성하는 데 사용되는 결정 경계를 지칭한다. 특히, 강도-값 경계는 신호의 하나 이상의 강도 값에 기초하여 뉴클레오티드 염기를 (예를 들어, A, T, C, 또는 G로서) 분류하는 결정 경계를 지칭할 수 있다. 예시를 위해, 강도-값 경계는 각각의 뉴클레오티드 염기에 대응하는 뉴클레오티드 클라우드의 경계를 정의하거나 그렇지 않으면 이를 나타낼 수 있다. 일부 구현예에서, 강도-값 경계는 신호가 뉴클레오티드 염기로서 분류되는 한계를 표시하지 않고, 오히려 신호가 특정 레벨의 정확도로 뉴클레오티드 염기로 분류될 수 있는 지점을 표시한다.
본원에 사용되는 바와 같이, 용어 "염기 호출 분포 모델"은 강도-값 경계를 생성하는 컴퓨터 모델 또는 알고리즘을 지칭한다. 예를 들어, 일부 구현예에서, 염기 호출 분포 모델은 가우시안 분포 모델, 균일한 분포 모델, 베르누이 분포 모델, 이항 분포 모델, 또는 푸아송 분포 모델을 포함하지만 이에 제한되지 않는다. 본원에 사용되는 바와 같이, 용어 "중심점"은 하나 이상의 강도-값 경계에 의해 정의되거나 그렇지 않으면 표시된 뉴클레오티드 클라우드의 중심(center)을 지칭한다. 또한, 본원에 사용되는 바와 같이, 용어 "중심점 강도 값"은 중심점과 연관된 강도 값을 지칭한다. 특히, 중심점 강도 값은 뉴클레오티드 클라우드의 중심에 대응하는 강도 값을 나타낸다.
다음의 단락은 예시적인 실시예 및 구현예를 포함하는 예시적인 도면과 관련하여 신호-대-잡음-인식(signal-to-noise-aware) 염기 호출 시스템을 설명한다. 예를 들어, 도 1은 하나 이상의 실시예에 따라 신호-대-잡음-인식 염기 호출 시스템(106)이 작동하는 시스템 환경(또는 "환경")(100)의 개략도를 예시한다. 예시된 바와 같이, 환경(100)은 네트워크(108)를 통해 시퀀싱 디바이스(110) 및 사용자 클라이언트 디바이스(114)에 연결된 하나 이상의 서버 디바이스(들)(102)를 포함한다. 도 1은 신호-대-잡음-인식 염기 호출 시스템(106)의 일 실시예를 도시하지만, 본 개시는 아래의 대안적인 실시예 및 구성을 설명한다.
도 1에 도시된 바와 같이, 서버 디바이스(들)(102), 시퀀싱 디바이스(110) 및 사용자 클라이언트 디바이스(114)는 네트워크(108)를 통해 연결된다. 이에 따라서, 환경(100)의 각각의 구성요소는 네트워크(108)를 통해 통신할 수 있다. 네트워크(108)는 컴퓨팅 디바이스가 통신할 수 있는 임의의 적합한 네트워크를 포함한다. 예시적인 네트워크는 도 12와 관련하여 아래에서 추가로 자세히 논의된다.
도 1에 의해 나타낸 바와 같이, 시퀀싱 디바이스(110)는 핵산 중합체를 시퀀싱하기 위한 디바이스를 포함한다. 일부 실시예에서, 시퀀싱 디바이스(110)는 샘플로부터 추출된 핵산 세그먼트 또는 올리고뉴클레오티드를 분석하여 시퀀싱 디바이스(110) 상에서 직접 또는 간접적으로 컴퓨터 구현된 방법 및 시스템을 활용하여 데이터를 생성한다. 보다 구체적으로, 시퀀싱 디바이스(110)는 뉴클레오티드 샘플 슬라이드(예를 들어, 유동 셀) 내에서 샘플로부터 추출된 핵산 서열을 수신 및 분석한다. 하나 이상의 실시예에서, 시퀀싱 디바이스(110)는 SBS를 활용하여 핵산 중합체를 시퀀싱한다. 네트워크(108)를 통한 통신에 추가적으로 또는 대안적으로, 일부 실시예에서, 시퀀싱 디바이스(110)는 네트워크(108)를 우회하고 서버 디바이스(들)(102) 및/또는 사용자 클라이언트 디바이스(114)와 직접 통신한다.
방금 언급된 바와 같이, 그리고 도 1에 예시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터(112)를 생성하거나 또는 적어도 생성하는 데 기여할 수 있다. 특히, 일부 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭을 활용하여 뉴클레오티드 염기 호출 데이터(112)를 생성한다. 예시를 위해, 일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 각각의 시퀀싱 사이클 동안 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 (예를 들어, 이러한 섹션으로부터 검출된 신호에 대해) 결정한다. 신호-대-잡음-인식 염기 호출 시스템(106)은 각각의 섹션에 대한 신호-대-잡음비 메트릭을 활용하여 그 섹션으로부터 검출된 신호에 대응하는 뉴클레오티드 염기 호출을 생성할 수 있다. 신호-대-잡음-인식 염기 호출 시스템(106)은 또한 신호-대-잡음비 메트릭을 활용하여, 염기 호출 프로세스로부터 섹션을 배제하고/하거나 뉴클레오티드 염기 호출 데이터(112)로부터 그 섹션에 대해 생성된 뉴클레오티드 염기 호출을 배제할 수 있다. 또한, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션에 대해 결정된 신호-대-잡음비 메트릭을 활용하여, 그 섹션으로부터 검출된 신호에 대해 생성된 뉴클레오티드 염기 호출에 대응하는 품질 메트릭을 생성할 수 있다. 일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭 자체, 필터링을 위해 사용되는 신호-대-잡음비 임계치, 평균 품질 메트릭 등과 같은 추가 정보를 뉴클레오티드 염기 호출 데이터(112)에 제공한다.
도 1에 의해 추가로 나타낸 바와 같이, 서버 디바이스(들)(102)는 뉴클레오티드 염기 호출 또는 핵산 중합체의 시퀀싱과 관련된 데이터와 같은 디지털 데이터를 생성, 수신, 분석, 저장 및 송신할 수 있다. 도 1에 도시된 바와 같이, 시퀀싱 디바이스(110)로부터 뉴클레오티드 염기 호출 데이터(112)를 시퀀싱 디바이스(110)는 전송(하고 서버 디바이스(들)(102)는 수신)할 수 있다. 서버 디바이스(들)(102)는 또한 사용자 클라이언트 디바이스(114)와 통신할 수 있다. 특히, 서버 디바이스(들)(102)는 핵염기 서열, 에러 데이터 및 기타 정보를 사용자 클라이언트 디바이스(114)로 송신할 수 있다.
일부 실시예에서, 서버 디바이스(들)(102)는 서버 디바이스(들)(102)가 네트워크(108)에 걸쳐 분포되고 동일하거나 상이한 물리적 위치에 위치된 다수의 서버 디바이스를 포함하는 분포된 서버 집합을 포함한다. 또한, 서버 디바이스(들)(102)는 콘텐츠 서버, 애플리케이션 서버, 통신 서버, 웹 호스팅 서버, 또는 다른 유형의 서버를 포함할 수 있다.
도 1에 추가로 도시된 바와 같이, 서버 디바이스(들)(102)는 시퀀싱 시스템(104)을 포함할 수 있다. 일반적으로, 시퀀싱 시스템(104)은 시퀀싱 디바이스(110)로부터 수신된 뉴클레오티드 염기 호출 데이터(112)를 분석하여, 샘플 게놈에 대한 뉴클레오티드 염기 서열과 같은 핵산 중합체에 대한 뉴클레오티드 염기 서열을 결정한다. 예를 들어, 시퀀싱 시스템(104)은 시퀀싱 디바이스(110)로부터 로우 데이터를 수신하고 핵산 세그먼트에 대한 뉴클레오티드 염기 서열을 결정할 수 있다. 일부 실시예에서, 시퀀싱 시스템(104)은 DNA 및/또는 RNA 세그먼트 또는 올리고뉴클레오티드 내의 뉴클레오티드 염기의 서열을 결정한다. 일부 경우에서, 전술한 바와 같이, 시퀀싱 시스템(104)은 뉴클레오티드 염기 호출, 품질 메트릭의 형태의 에러/정확도 정보, 및/또는 필터링된(예를 들어, 배제된) 클러스터에 관한 데이터를 포함하는 미리 처리된 데이터를 수신한다. 따라서, 일부 구현예에서, 시퀀싱 시스템(104)은 뉴클레오티드 염기 호출 데이터(112)로부터의 데이터를 유용한 사용자 판독가능 포맷으로 조직화한다.
도 1에 추가로 예시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 시퀀싱 디바이스(110) 상에 및/또는 시퀀싱 시스템(104)의 일부로서 서버 디바이스(들)(102) 상에 위치될 수 있다. 이에 따라서, 일부 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 서버 디바이스(들)(102) 상에 (예를 들어, 전체적으로 또는 부분적으로 위치되어) 구현된다. 또 다른 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 시퀀싱 디바이스(110)와 같은 환경(100)의 하나 이상의 다른 구성요소에 의해 구현된다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 서버 디바이스(들)(102), 네트워크(108), 및 시퀀싱 디바이스(110)에 걸쳐 다양한 상이한 방식으로 구현될 수 있다.
도 1에 추가로 예시되고 나타낸 바와 같이, 사용자 클라이언트 디바이스(114)는 디지털 데이터를 생성, 저장, 수신 및 전송할 수 있다. 특히, 사용자 클라이언트 디바이스(114)는 서버 디바이스(들)(102) 또는 시퀀싱 디바이스(110)로부터 시퀀싱 데이터를 수신할 수 있다. 더욱이, 사용자 클라이언트 디바이스(114)는 서버 디바이스(들)(102)와 통신하여 핵염기 서열, 뿐만 아니라 시퀀싱 사이클 내의 불규칙성에 대한 보고를 수신할 수 있다. 이에 따라서 사용자 클라이언트 디바이스(114)는 사용자 클라이언트 디바이스(114)와 연관된 사용자에게 그래픽 사용자 인터페이스 내 핵염기 호출의 시퀀싱 데이터 및 통지를 제시할 수 있다. 일부 경우에서, 사용자 클라이언트 디바이스(114)는 강도-값 경계, 뉴클레오티드 염기 호출 데이터, 및 디스플레이에 대한 신호-대-잡음비 메트릭의 계산 및 사용에 관련된 다른 정보를 추가로 제시할 수 있다.
도 1에 예시된 사용자 클라이언트 디바이스(114)는 다양한 유형의 클라이언트 디바이스를 포함할 수 있다. 예를 들어, 일부 실시예에서, 사용자 클라이언트 디바이스(114)는 데스크톱 컴퓨터 또는 서버와 같은 비-모바일 디바이스, 또는 다른 유형의 클라이언트 디바이스를 포함한다. 또 다른 실시예에서, 사용자 클라이언트 디바이스(114)는 랩톱, 태블릿, 휴대폰 또는 스마트폰과 같은 모바일 디바이스를 포함한다. 사용자 클라이언트 디바이스(114)에 관한 추가 세부사항은 도 12와 관련하여 아래에서 논의된다.
도 1에 추가로 예시된 바와 같이, 사용자 클라이언트 디바이스(114)는 시퀀싱 애플리케이션(116)을 포함한다. 시퀀싱 애플리케이션(116)은 사용자 클라이언트 디바이스(114)에 저장되고 실행되는 웹 애플리케이션 또는 네이티브 애플리케이션(예를 들어, 모바일 애플리케이션, 데스크톱 애플리케이션)일 수 있다. 시퀀싱 애플리케이션(116)은 신호-대-잡음-인식 염기 호출 시스템(106)으로부터 데이터를 수신할 수 있고, 사용자 클라이언트 디바이스(114)에 표시하기 위해 시퀀싱 데이터를 제시할 수 있다. 더욱이, 시퀀싱 애플리케이션(116)은 강도-값 경계, 필터링된 뉴클레오티드 염기 호출 등에 관한 통지를 제공할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 시퀀싱 애플리케이션(116)의 일부로서 사용자 클라이언트 디바이스(114) 상에 위치된다.
비록 도 1은 네트워크(108)를 통해 통신하는 환경(100)의 구성요소를 예시하지만, 특정 구현예에서 환경(100)의 구성요소는 또한 네트워크(108)를 우회하여 서로 직접 통신할 수 있다. 예를 들어, 그리고 이전에 언급된 바와 같이, 일부 구현예에서, 서버 디바이스(들)(102)는 시퀀싱 디바이스(110) 및/또는 사용자 클라이언트 디바이스(114)와 직접 통신한다. 더욱이, 신호-대-잡음-인식 염기 호출 시스템(106)은 서버 디바이스(들)(102) 또는 환경(100) 내의 다른 곳에 수용되거나 그에 의해 액세스되는 하나 이상의 데이터베이스에 액세스할 수 있다.
앞서 언급된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 섹션에 또는 섹션 내에 위치된 표지된 뉴클레오티드 염기로부터 검출된 신호에 대한 신호-대-잡음비 메트릭을 생성한다. 신호-대-잡음-인식 염기 호출 시스템(106)은 다양한 뉴클레오티드 염기 호출 특징을 제공하기 위해 신호-대-잡음비 메트릭을 활용할 수 있다. 도 2는 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 생성 및 활용하는 신호-대-잡음-인식 염기 호출 시스템(106)의 개요도를 예시한다.
도 2에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 시퀀싱을 위해 뉴클레오티드 샘플 슬라이드(202)를 활용한다. 뉴클레오티드 샘플 슬라이드(202)는 표지된 뉴클레오티드 염기를 수용하거나 통합하는 올리고뉴클레오티드를 포함할 수 있다. 특히, 뉴클레오티드 샘플 슬라이드(202)는 각각의 섹션(예를 들어, 웰) 내의 올리고뉴클레오티드의 클러스터를 포함할 수 있다. 자극될 때, 표지된 뉴클레오티드 염기는 뉴클레오티드 염기의 유형과 연관된 특징을 갖는 신호를 방출할 수 있다.
도 2에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드(202)의 적어도 하나의 섹션의 이미지(204)를 캡처한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드(202)의 섹션 내의 표지된 뉴클레오티드 염기가 신호를 방출할 때 이미지(204)를 캡처한다. 도시된 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 다수의 이미지를 캡처한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 다양한 이미지 필터를 사용하여 다수의 이미지를 캡처할 수 있다. 예시를 위해, 일부 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드(202)의 섹션의 2개의 이미지를 캡처하는 2-채널 구현을 활용한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 이미지 필터를 사용하여 제1 이미지를 사용하여 제1 이미지를 캡처하고 제2 이미지 필터를 사용하여 제2 이미지를 캡처한다. 제1 및 제2 이미지는 사용되는 이미지 필터에 대응하는 방출된 신호의 강도를 캡처할 수 있다. 일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 4-채널 구현을 활용하고 뉴클레오티드 샘플 슬라이드(202)의 섹션의 4개의 상이한 이미지를 캡처한다. 2-채널 구현과 유사하게, 신호-대-잡음-인식 염기 호출 시스템(106)은 상이한 이미지 필터를 사용하여 4-채널 구현에 대한 각각의 이미지를 캡처할 수 있다. 각각의 이미지는 그 이미지에 사용되는 이미지 필터에 기초하여 방출된 신호의 강도를 캡처할 수 있다. 따라서, 일부 경우에서, 4개의 이미지 각각은 상이한 강도를 갖는 방출된 신호를 묘사한다.
도 2에 나타낸 바와 같이, 이미지(204)는 뉴클레오티드 샘플 슬라이드(202)의 섹션 내에 위치된 표지된 뉴클레오티드 염기로부터 방출된 신호(206)를 묘사한다. 앞서 언급한 바와 같이, 신호(206)는 뉴클레오티드 샘플 슬라이드(202)의 섹션 내의 올리고뉴클레오티드에 첨가된 뉴클레오티드 염기의 유형을 나타낼 수 있다. 예를 들어, 아래에서 더 상세히 논의되는 바와 같이, 신호(206)는 뉴클레오티드 염기의 유형을 나타내는 하나 이상의 대응하는 강도 값을 가질 수 있다. 예시를 위해, 일부 구현예에서, 이미지(204) 각각은 신호(206)에 대응하는 적어도 하나의 강도 값을 캡처한다.
신호(206)는 일부 연관된 잡음을 가질 수 있다. 특히, 신호(206)는 신호(206)의 순도에 영향을 미치는 연관된 잡음 레벨을 가질 수 있다. 이에 따라서, 도 2에 의해 나타낸 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(206)에 대한 신호-대-잡음비 메트릭(208)을 생성할 수 있다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(206)에 대응하는 스케일링 인자를 결정할 수 있다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 결정된 스케일링 인자를 신호(206)와 균등화한다. 또한, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(206)에 대응하는 잡음 레벨을 결정할 수 있다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 스케일링 인자 및 잡음 레벨을 활용하는 신호(206)에 대해 신호-대-잡음비 메트릭(208)을 생성할 수 있다.
신호-대-잡음-인식 염기 호출 시스템(106)은 다양한 염기 호출 특징을 제공하기 위해 신호-대-잡음비 메트릭(208)을 활용할 수 있다. 예를 들어, 도 2에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 분포 모델 세그먼트화(210)를 위해 신호-대-잡음비 메트릭(208)을 활용할 수 있다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 가우시안 혼합 모델과 같은 염기 호출 분포 모델을 별개의 염기 호출 분포 모델로 세그먼트화하기 위해 신호-대-잡음비 메트릭(208)을 활용할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 별개의 염기 호출 분포 모델을 복수의 신호-대-잡음비 범위 각각에 피팅함으로써 염기 호출 분포 모델을 세그먼트화한다. 실제로, 아래에서 추가로 논의되는 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드(202)의 복수의 섹션으로부터 검출된 복수의 신호에 대한 신호-대-잡음비 메트릭(신호-대-잡음비 메트릭(208)을 포함함)을 결정할 수 있다. 신호-대-잡음-인식 염기 호출 시스템(106)은 복수의 신호-대-잡음비 메트릭에 대한 복수의 신호-대-잡음비 범위를 추가로 결정한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 염기 호출 분포를 신호-대-잡음비 범위 각각에 피팅할 수 있다.
신호-대-잡음-인식 염기 호출 시스템(106)은 특정 신호-대-잡음비 범위에 대한 염기 호출 분포 모델을 추가로 활용하여 그 범위 내에 속하는 신호-대-잡음비 메트릭을 갖는 신호에 대한 뉴클레오티드 염기 호출을 생성할 수 있다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭(208)을 활용하여 분포 모델 세그먼트화(210)를 통해 신호(206)에 대한 뉴클레오티드 염기 호출을 생성할 수 있다.
도 2에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음 필터링(212)을 위해 신호-대-잡음비 메트릭(208)을 활용할 수 있다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 임계치를 확립할 수 있고, 신호-대-잡음비 메트릭(208)이 신호-대-잡음비 임계치를 만족시키지 못하는 경우 뉴클레오티드 염기 호출 데이터로부터 신호(206)(예를 들어, 뉴클레오티드 샘플 슬라이드(202)의 대응하는 섹션)를 배제할 수 있다.
추가적으로, 도 2에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(206)에 대해 생성된 뉴클레오티드 염기 호출에 대한 품질 메트릭(214)을 결정하기 위해 신호-대-잡음비 메트릭(208)을 활용할 수 있다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭(208)에 기초하여 품질 메트릭(214)을 결정하기 위해 염기 호출 품질 모델을 활용할 수 있다.
상기 논의(및 다음의 논의)의 대부분은 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 결정하는 것에 초점을 맞추지만, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 복수의 섹션 각각에 대한 신호-대-잡음비 메트릭을 병렬로 결정할 수 있다는 것이 이해되어야 한다. 예를 들어, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 각각의 섹션(예를 들어, 각각의 웰 또는 클러스터에 대응하는 각각의 섹션)으로부터 신호를 검출하고, 각각의 검출된 신호에 대한 신호-대-잡음비 메트릭을 결정한다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 세그먼트화된 염기 호출 분포 모델을 통한 뉴클레오티드 염기 호출의 결정, 신호-대-잡음 필터링, 및 생성된 뉴클레오티드 염기 호출에 대한 품질 메트릭의 결정을 위해 다양한 신호-대-잡음비 메트릭을 활용할 수 있다.
앞서 언급된 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 검출된 신호에 대한 신호-대-잡음비 메트릭을 결정한다. 도 3은 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 결정하기 위한 도면을 예시한다.
도 3에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드(302)의 적어도 하나의 섹션의 이미지(304)를 캡처한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)과 연관된 시퀀싱 디바이스(110)용 카메라는 뉴클레오티드 샘플 슬라이드(302) 내의 타일의 이미지(304)를 캡처하며, 여기서 각각의 타일은 클러스터를 포함하는 다수의 나노웰 또는 클러스터를 포함하는 다수의 서브섹션을 포함한다. 추가로 도시된 바와 같이, 이미지(304)는 뉴클레오티드 샘플 슬라이드(302)의 적어도 하나의 섹션으로부터(예를 들어, 클러스터에 대응하는 웰 또는 서브섹션 내의 표지된 뉴클레오티드 염기로부터) 방출된 신호(306)를 묘사한다.
도 3에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(306)에 대응하는 스케일링 인자(310)를 결정한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 최소 제곱 모델(308)을 활용하여 스케일링 인자(310)를 결정한다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(306)에 대응하는 변동 보정 계수를 결정하기 위해 최소 제곱 모델(308)을 활용한다. 2-채널 구현예가 사용되는 것과 같은 하나 이상의 실시예에서, 변동 보정 계수는 클러스터 간 강도 프로파일에서의 스케일 변동을 설명하는 스케일링 인자(310) 및 클러스터 간 강도 프로파일 변동에서의 제1 및 제2 강도 채널을 따른 시프트 변동을 각각 설명하는 2개의 오프셋 인자(채널 특정의 오프셋 계수로도 지칭됨)를 포함한다.
신호-대-잡음-인식 염기 호출 시스템(106)은 최소 제곱 모델(308)을 활용하여, 표지된 뉴클레오티드 염기에 대한 측정된 강도(예를 들어, 신호(306)에 대응하는 측정된 강도)와 변동 보정 계수 사이의 관계를 결정함으로써 변동 보정 계수를 결정할 수 있다. 신호-대-잡음-인식 염기 호출 시스템(106)은 측정된 강도와 변동 보정 계수 사이의 관계에 기초하여 에러 함수를 추가로 결정할 수 있다. 신호-대-잡음-인식 염기 호출 시스템(106)은 스케일링 인자에 대해 에러 함수의 부분 도함수를 생성함으로써 스케일링 인자(310)를 결정할 수 있다. 특히, 일부 구현예에서, 106은 에러 함수의 2 개의 부분 도함수, 즉 스케일링 인자(310)와 관련된 것 하나와 채널 특정의 오프셋 인자에 대한 다른 하나를 결정하기 위해 최소 제곱 모델(308)을 활용한다. 실제로, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 그 전체가 본원에 참고로 통합되는, 2020년 10월 27일자로 출원되고 발명의 명칭이 "SYSTEMS AND METHODS FOR PRE-CLUSTER INTENSITY CORRECTION AND BASE CALLING"인 미국 특허 출원 제63/106,256호에 기술된 바와 같이, 스케일링 인자(310)를 결정하기 위해 최소 제곱 모델(308)을 이용한다.
도 3에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호(306)에 대응하는 잡음 레벨(312)을 결정한다. 특히, 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 (예를 들어, 신호(306)에 대해) 뉴클레오티드 샘플 슬라이드(302)의 섹션에 대한 보정된 강도 값을 사용하여 잡음 레벨(312)을 결정할 수 있다. 하나 이상의 실시예에서, 용어 "보정된 강도 값"은 신호의 하나 이상의 특징에 기초하여 조정된 뉴클레오티드 샘플 슬라이드의 섹션으로부터 방출된 신호에 대응하는 강도 값을 지칭한다. 예시를 위해, 하나 이상의 실시예에서, 보정된 강도 값은 오프셋 및 강도 값에 대응하는 스케일링 인자를 고려하도록 보정된 강도 값을 포함한다. 보정시, 일부 경우에서, 보정된 강도 값은 신호에 대해 초기에 측정되었던 대응하는 강도 값보다 뉴클레오티드 클라우드의 중심점에 더 가깝다. 예를 들어, 2-채널 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 한 쌍의 보정된 강도 값(예를 들어, 각각의 강도 채널에 대해 하나씩)을 결정하여, 그 쌍이 신호에 대해 초기에 측정된 대응하는 강도 값의 쌍보다 뉴클레오티드 클라우드의 중심점에 더 가까워지도록 할 수 있다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 하기를 사용하여 보정된 강도 값을 결정한다:
함수 (1)에서, 는 보정된 강도 값을 나타내고, IX 및 IX는 신호(306)에 대해 초기에 측정된 강도 값을 나타낸다.또한, S는 신호(306)에 대해 결정된 스케일링 인자(예를 들어, 스케일링 인자(310))를 나타내고 O X O Y 는 신호(306)에 대응하는 오프셋 인자를 나타낸다. 4-채널 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 유사하게 4개의 보정된 강도 값(예를 들어, 사용된 4개의 강도 채널 각각에 대해 하나씩)을 결정하도록 동작한다. 그러한 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 함수 (1)과 유사한 함수를 활용하여, 보정된 강도 값을 그 각각의 오프셋 인자를 통합함으로써 결정한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 주어진 강도 채널에 대한 보정된 강도 값을, 해당 강도 채널에 대해 초기에 측정된 강도 값, 해당 강도 채널에 대해 결정된 오프셋 인자, 및 스케일링 인자를 사용하여 결정할 수 있다.
도 3은 그래프(314)를 통해 보정된 강도 값의 시각화를 제공한다. 그래프(314)의 축(316a 내지 316b)은 2-채널 구현예에서 각각의 강도 채널에 대한 강도 값을 나타낸다. 그래프(314)는 뉴클레오티드 클라우드(318a 내지 318d)를 그 각각의 강도-값 경계를 갖는 강도 값에 맵핑한다. 도 3에 도시된 바와 같이, 신호(306)에 대해 초기에 측정된 강도 값은 뉴클레오티드 클라우드(318d) 내의 지점(320)에 대응한다. 또한, 보정된 강도 값은 지점(322)에 대응한다. 추가로 도시된 바와 같이, 보정된 강도 값에 대응하는 지점(322)은 뉴클레오티드 클라우드(318d)의 중심점(324)에 더 가깝다.
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 가장 가까운 뉴클레오티드 클라우드 또는 가장 가까운 중심점과 같은 뉴클레오티드 클라우드의 보정된 강도 값과 중심점 강도 값 사이의 거리를 결정함으로써 잡음 레벨(312)을 결정한다. 예를 들어, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 다음과 같이 잡음 레벨(312)을 결정하며, 여기서 B X B Y 는 중심점 강도 값을 나타낸다:
Figure pct00004
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 하나 이상의 이전 시퀀싱 사이클에 대해 결정된 뉴클레오티드 샘플 슬라이드(302)의 동일한 섹션에 대해 결정된 잡음 레벨을 사용하여 잡음 레벨(312)을 추가로 결정한다. 실제로, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 각각의 시퀀싱 사이클 후에 뉴클레오티드 샘플 슬라이드(302)의 섹션에 대해 결정된 잡음 레벨을 저장한다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 이전 시퀀싱 사이클에 대한 저장된 잡음 레벨을 평균화하고 (예를 들어, 함수 2를 사용하여 결정된 잡음 레벨에 평균화된 잡음 레벨을 가산함으로써, 함수 2를 사용하여 결정된 잡음 레벨과 평균화된 잡음 레벨을 평균화함으로써 등) 현재 시퀀싱 사이클에 대한 잡음 레벨(312)을 결정할 때 평균화된 잡음 레벨을 활용한다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 이전 시퀀싱 사이클에 대한 잡음 레벨의 가중 평균을 활용한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 최신성에 기초하여 이전 시퀀싱 사이클에 대해 결정된 잡음 레벨에 가중치를 할당할 수 있다. 예시를 위해, 신호-대-잡음-인식 염기 호출 시스템(106)은 더 최근의 시퀀싱 사이클에 대해 결정된 잡음 레벨에 비교적 더 높은 가중치를 할당할 수 있다.
일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 현재 시퀀싱 사이클에 대한 잡음 레벨을 결정하는 데 있어서 이전 시퀀싱 사이클의 설정된 수에 대한 잡음 레벨을 활용한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 사용자 입력에 기초하여 활용할 이전 시퀀싱 사이클의 설정된 수를 결정할 수 있다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 모든 이전 시퀀싱 사이클에 대한 잡음 레벨(예를 들어, 동일한 판독 내의 또는 다수의 판독에 걸친 모든 잡음 레벨)을 활용한다.
상기의 단락이 현재 시퀀싱 사이클에 대한 섹션에 대한 잡음 레벨을 결정하기 위해 뉴클레오티드 샘플 슬라이드의 섹션과 연관된 이전 잡음 레벨을 사용하는 것을 설명하지만, 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 모든 섹션과 연관된 이전 잡음 레벨을 활용한다.
도 3에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 스케일링 인자(310) 및 잡음 레벨(312)을 활용하여 신호(306)에 대한 신호-대-잡음비 메트릭(326)을 결정한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 스케일링 인자(310) 대 잡음 레벨(312)의 비를 활용하여 신호-대-잡음비 메트릭(326)을 결정할 수 있다. 실제로, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭(326)을 결정하기 위해 스케일링 인자(310)를 신호(306)와 균등화한다(예를 들어, 스케일링 인자(310)를 신호(306)로서 처리한다).
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대한 신호-대-잡음비 메트릭을 결정할 때 페이징 또는 프리페이징(pre-phasing)을 고려한다. 본원에 사용되는 바와 같이, 용어 "페이징"은 하나의 분자에 대한 시퀀싱으로 특정 사이클에서 적어도 하나의 염기가 다른 분자 뒤에 떨어지는 효과 또는 상황을 지칭한다. 반대로, 본원에 사용되는 바와 같이, 용어 "프리페이징"은 하나의 분자에 대한 시퀀싱으로 특정 사이클에서 적어도 하나의 염기가 다른 분자 보다 앞서 점프하는 효과 또는 상황을 지칭한다. 하나 이상의 실시예에서, 페이징 또는 프리페이징의 효과를 보정하기 위해, 신호-대-잡음-인식 염기 호출 시스템(106)은 각각의 사이클에서 염기 통합에 대한 강도 값을 갖는 신호를 검출하고, (i) 현재 사이클의 강도 값으로부터 바로 이전 사이클의 강도 값을 감산하고 (ii) 현재 사이클의 강도 값으로부터 바로 후속 사이클의 강도 값을 감산함으로써 강도 값을 보정할 수 있다. 실제로, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 2020년 6월 23일자로 발행되고 발명의 명칭이 "Methods and Systems for Analyzing Image Data" 이며 그 전체가 본원에 참고로 통합되는 미국 특허 제10,689,696호에 기재된 바와 같이 페이징 또는 프리페이징의 효과를 보정한다.
이전에 논의된 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 분포 모델 세그먼트화를 위해 뉴클레오티드 샘플 슬라이드의 복수의 섹션으로부터 검출된 신호에 대응하는 신호-대-잡음비 메트릭을 활용한다. 도 4는 하나 이상의 실시예에 따라 분포 모델 세그먼트화를 위해 신호-대-잡음비 메트릭을 활용하는 블록도를 예시한다.
도 4에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭(402a 내지 402d)을 결정한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 시퀀싱 사이클 동안 뉴클레오티드 샘플 슬라이드의 복수의 섹션에 대한 신호-대-잡음비 메트릭을 이러한 섹션으로부터 검출된 신호에 기초하여 결정한다. 신호-대-잡음-인식 염기 호출 시스템(106)은 도 3을 참조하여 위에서 논의된 바와 같이 신호-대-잡음비 메트릭을 결정할 수 있다.
도 4에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭(402a 내지 402d)을 상이한 그룹으로 분리한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 범위를 활용하여 신호-대-잡음비 메트릭(402a 내지 402d)을 분리할 수 있다. 실제로, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 다수의 신호-대-잡음비 범위를 확립한다. 신호-대-잡음-인식 염기 호출 시스템(106)은 사용자 입력에 기초하여, 고정 범위를 사용하여, 또는 현재 시퀀싱 사이클에 대해 결정된 신호-대-잡음비 메트릭에 기초하여 신호-대-잡음비 범위를 확립할 수 있다 (예를 들어, 신호-대-잡음비 메트릭의 최저 세트를 커버하는 제1 범위를 확립하고, 신호-대-잡음비 메트릭의 제2 최저 세트를 커버하는 제2 범위를 확립할 수 있는 등). 도 4는 특정 수의 신호-대-잡음비 범위를 예시하지만, 신호-대-잡음-인식 염기 호출 시스템(106)은 다양한 수의 신호-대-잡음비 범위를 확립할 수 있다.
하나 이상의 실시예에서, 신호-대-잡음비 메트릭(402a 내지 402d) 각각은 상이한 신호-대-잡음비 범위에 대응한다. 예를 들어, 신호-대-잡음비 메트릭(402a)은 제1 신호-대-잡음비 범위(예를 들어, 9.00 내지 9.99)에 대응할 수 있고, 신호-대-잡음비 메트릭(402b)은 제2 신호-대-잡음비 범위(예를 들어, 10.00 내지 10.99)에 대응할 수 있고, 신호-대-잡음비 메트릭(402c)은 제3 신호-대-잡음비 범위(예를 들어, 11.00 내지 11.99)에 대응할 수 있고, 신호-대-잡음비 메트릭(402d)은 제4 신호-대-잡음비 범위(예를 들어, 12.00 내지 12.99)에 대응할 수 있다. 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 각각의 섹션으로부터 검출된 신호를, 신호의 대응하는 신호-대-잡음비 메트릭이 속하는 신호-대-잡음비 범위와 연관시킬 수 있다. 실제로, 도 4에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 범위에 기초하여 강도 값 세트(404a 내지 404d)를 확립한다. 예를 들어, 강도 값 세트(404a)는 신호-대-잡음비 메트릭(402a)과 연관된(예를 들어, 신호-대-잡음비 메트릭(402a)을 포함하는 제1 신호-대-잡음비 범위와 연관된) 신호에 대한 강도 값을 포함한다.
추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션으로부터의 신호에 대한 강도-값 경계를 생성한다. 예를 들어, 도 4는 각각의 가능한 뉴클레오티드 염기(예를 들어, A, T, C, 또는 G)에 대응하는 강도-값 경계 세트(예를 들어, 강도-값 경계(408))를 갖는 그래프(406a 내지 406d)를 예시한다.
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 하나 이상의 염기 호출 분포 모델에 따라 강도-값 경계 세트를 생성한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 염기 호출 분포 모델에 따라 제1 강도-값 경계 세트(예를 들어, 그래프(406a)에 도시된 것), 제2 염기 호출 분포 모델에 따라 제2 강도-값 경계 세트(예를 들어, 그래프(406b)에 도시된 것) 등을 생성할 수 있다.
도 4에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 강도-값 경계를 생성하기 위해 염기 호출 분포 모델(410)을 활용할 수 있다. 일부 경우에서, 염기 호출 분포 모델(410)은 단일 염기 호출 분포 모델을 포함하지만, 신호-대-잡음-인식 염기 호출 시스템(106)은 일부 구현예에서 다수의 염기 호출 분포 모델(예를 들어, 각각의 신호-대-잡음비 범위에 대한 별개의 염기 호출 분포 모델)을 활용할 수 있다. 또한, 염기 호출 분포 모델(410)은 하나 이상의 실시예에서 가우시안 분포 모델을 포함할 수 있지만, 다른 염기 호출 분포 모델이 또한 활용될 수 있다.
도 4에 도시되지 않았지만, 신호-대-잡음-인식 염기 호출 시스템(106)은 강도-값 경계 세트 중 하나를 활용하는 신호에 대한 뉴클레오티드 염기 호출을 생성할 수 있다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호와 연관된 신호-대-잡음비 범위에 대응하는 강도-값 경계 세트를 활용하여 (즉, 신호-대-잡음비 범위에 대응하는 염기 호출 분포 모델에 따라) 뉴클레오티드 염기 호출을 생성할 수 있다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대해 결정된 강도 값을 활용하여 뉴클레오티드 염기 호출을 추가로 생성한다.
예시를 위해, 신호가 제1 신호-대-잡음비 범위(예를 들어, 9.00 내지 9.99) 내에 떨어지는 대응하는 신호-대-잡음비 메트릭을 갖는 것으로 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 신호-대-잡음비 범위에 대해 생성된 강도-값 경계 세트(예를 들어, 그래프(406a)에 도시된 것)를 사용하여 뉴클레오티드 염기 호출을 생성할 수 있다. 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대한 강도 값 세트가 강도-값 경계 세트와 어떻게 관련되는지를 추가로 결정하고, 그에 따라 뉴클레오티드 염기 호출을 생성할 수 있다. 예를 들어, 신호에 대한 강도 값 세트가 특정 뉴클레오티드 염기에 대한 결정 경계 내에 속하는 것으로 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호가 해당 뉴클레오티드 염기와 연관됨을 나타내는 뉴클레오티드 염기 호출을 생성할 수 있다. 신호에 대한 강도 값 세트가 모든 뉴클레오티드 염기에 대한 결정 경계 외측에 있다고 결정하는 것에 기초하여, 신호-대-잡음-인식 염기 호출 시스템(106)은 각각의 뉴클레오티드 염기에 대한 결정 경계의 근접성에 기초하여 및/또는 각각의 뉴클레오티드 염기에 대응하는 뉴클레오티드 클라우드의 중심점에 대한 근접성에 기초하여 신호에 대한 뉴클레오티드 염기 호출을 생성할 수 있다.
신호-대-잡음-인식 염기 호출 시스템(106)이 신호와 연관된 신호-대-잡음비 범위에 대응하는 염기 호출 분포 모델에 따라 신호에 대한 뉴클레오티드 염기 호출을 생성하기 때문에, 신호-대-잡음-인식 염기 호출 시스템(106)은 일부 경우에서 유사한 강도 값을 갖는 신호에 대한 상이한 뉴클레오티드 염기 호출을 생성할 수 있다. 예시를 위해, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 신호-대-잡음비 범위에 대해, 제1 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 제1 강도-값 경계 세트를 생성한다. 신호-대-잡음-인식 염기 호출 시스템(106)은 제2 신호-대-잡음비 범위에 대해, 제2 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 제2 강도-값 경계 세트를 추가로 생성하고, 그 제2 강도-값 경계 세트는 제1 강도-값 경계 세트와 상이하다.
또한, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 신호-대-잡음비 범위 내의 제1 신호-대-잡음비 메트릭에 대응하고 제1 강도-값 경계 세트 외측 및 제2 강도-값 경계 세트 외측의 강도 값 세트를 갖는 제1 신호를 검출할 수 있고, 제2 신호-대-잡음비 범위 내의 제2 신호-대-잡음비 메트릭에 대응하고 강도 값 세트(예를 들어, 제1 신호와 동일한 강도 값 세트)를 갖는 제2 신호를 검출할 수 있다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 염기 호출 분포 모델에 대한 제1 강도-값 경계 세트에 기초하여 제1 신호에 대한 제1 뉴클레오티드 염기 호출을 생성하고 제2 염기 호출 분포 모델에 대한 제2 강도-값 경계 세트에 기초하여 제2 신호에 대한 제2 뉴클레오티드 염기 호출을 생성할 수 있다. 실제로, 두 신호가 동일한 강도 값 세트를 갖더라도, 신호-대-잡음-인식 염기 호출 시스템(106)은 2개의 상이한 염기 호출 분포 모델을 활용하여 상이한 뉴클레오티드 염기 호출을 생성할 수 있다.
다양한 신호-대-잡음비 범위에 대한 강도-값 경계를 생성함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 종래의 시퀀싱 플랫폼과 비교할 때 더 유연하게 동작한다. 실제로, 신호-대-잡음-인식 염기 호출 시스템(106)은 검출된 신호의 신호-대-잡음비 메트릭과 같은 특성에 강도-값 경계를 맞춤화하여, 모든 신호에 대해 동일한 세트의 결정 경계를 그의 특성에 관계없이 활용하는 경향이 있는, 종래의 플랫폼보다 더 많은 유연성을 제공한다. 기술된 바와 같이 강도-값 경계를 맞춤화함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 종래의 시퀀싱 플랫폼보다 더 정확하게 추가로 동작한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 강도-값 경계가 신호의 특성에 더 밀접하게 대응하기 때문에 그러한 신호에 대해 더 적절한 강도-값 경계를 사용하여 신호에 대한 뉴클레오티드 염기 호출을 생성한다.
또한, 상이한 신호-대-잡음비 범위에 대해 상이한 강도-값 경계를 생성함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 검출된 신호에 대해 생성된 뉴클레오티드 염기 호출의 품질을 더 정확하게 결정한다. 실제로, 도 4에서 알 수 있는 바와 같이, 그래프(406a 내지 406d) 각각은 한 세트의 점선 윤곽선을 포함한다. 윤곽선은 뉴클레오티드 염기 호출에 대응하는 상이한 품질 메트릭(예를 들어, Q 스코어)을 나타낼 수 있다. 예를 들어, 주어진 강도 경계 값에 가장 근접하게 위치된 윤곽선은 강도-값 경계와 연관된 뉴클레오티드 염기 호출의 정확도에서 비교적 높은 정도의 신뢰도(예를 들어, 낮은 에러 확률)를 나타내는 품질 메트릭에 대응할 수 있는 반면, 더 멀리 떨어진 윤곽선은 비교적 더 낮은 정도의 신뢰도를 나타내는 품질 메트릭에 대응한다. 따라서, 강도-값 경계와 연관된 윤곽선은 강도-값 경계로부터 더 멀리 있는 강도 값이 강도-값 경계에 대응하는 뉴클레오티드 염기 호출을 할당받은 경우 더 낮은 정도의 신뢰도에 대응한다는 것을 나타낸다.
도 4에서 추가로 알 수 있는 바와 같이, 강도-값 경계와 연관된 점선 윤곽선의 세트는 그래프(406a 내지 406d) 사이에서 변화된다(예를 들어, 그래프의 신호-대-잡음비 범위가 더 높은 신호-대-잡음비 메트릭을 포함함에 따라, 윤곽선은 서로 더 가깝다). 이에 따라서, 뉴클레오티드 염기 호출 자체의 생성과 마찬가지로, 그래프(406a 내지 406d)는 뉴클레오티드 염기 호출의 품질의 결정이 대응하는 신호의 특성에 또한 맞춤화된다는 것을 나타낸다. 따라서, 별개의 강도-값 경계를 사용하여 뉴클레오티드 염기 호출을 생성하는 것은 그러한 뉴클레오티드 염기 호출의 품질의 더 정확한 결정으로 이어질 수 있으며, 이는 도 6을 참조하여 아래에서 더 상세히 추가로 논의될 것이다.
도 4는 2개의 강도 채널이 사용되는 2-채널 구현예에서 강도-값 경계 및 대응하는 뉴클레오티드 염기 호출의 생성을 도시한다. 그러나, 신호-대-잡음-인식 염기 호출 시스템(106)이 4개의 강도 채널이 사용되는 4-채널 구현예에서 유사하게 동작할 수 있다는 점에 유의해야 한다. 예를 들어, 일부 구현예에서, 강도-값 경계를 생성하는 데 활용되는 염기 호출 분포 모델은 4개의 강도 채널에 따라 강도-값 경계를 생성하도록 구성된다.
위에서 추가로 논의된 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션과 연관된 신호-대-잡음비 메트릭을 활용하여, 뉴클레오티드 염기 호출 데이터로부터 해당 섹션에 대해 생성된 하나 이상의 뉴클레오티드 염기 호출을 필터링한다. 도 5는 하나 이상의 실시예에 따라 뉴클레오티드 염기 호출을 필터링하기 위해 신호의 신호-대-잡음비 메트릭을 활용하는 신호-대-잡음-인식 염기 호출 시스템(106)의 블록도를 예시한다.
도 5에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대해 결정된 신호-대-잡음비 메트릭을 신호-대-잡음비 임계치와 비교하는 동작(502)을 수행한다. 실제로, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출을 필터링하는 데 사용될 신호-대-잡음비 임계치를 확립한다. 신호-대-잡음-인식 염기 호출 시스템(106)은 사용자 입력에 기초하여 신호-대-잡음비 임계치를 확립하거나 미리 결정된 신호-대-잡음비 임계치를 활용할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 이력 데이터에 기초하여 신호-대-잡음비 임계치를 확립한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 이전 시퀀싱 데이터를 분석하여 어느 신호-대-잡음비 메트릭이 원하는 품질 메트릭 미만으로 떨어지는 뉴클레오티드 염기 호출과 전형적으로 연관되는지를 결정할 수 있다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 그러한 바람직하지 않은 신호-대-잡음비 메트릭을 갖는 신호를 필터링하기에 충분히 높은 신호-대-잡음비 임계치를 확립할 수 있다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 각각의 시퀀싱 사이클 또는 일련의 시퀀싱 사이클로 신호-대-잡음비 임계치를 조정한다. 그러나, 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 모든 시퀀싱 사이클을 통해 일정한 신호-대-잡음비 임계치를 활용한다.
도 5에 추가로 도시된 바와 같이, 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치를 만족하지 못한다고(예를 들어, 그보다 작다고) 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터로부터 신호에 대응하는 뉴클레오티드 염기 호출을 배제하는 동작(504)을 수행한다. 특히, 일부 구현예에서, 신호에 대응하는 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치를 만족하지 못한다고 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호가 불량한 품질의 것이고, 대응하는 뉴클레오티드 염기 호출(생성되는 경우)은 신뢰할 수 없다고 결정한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터로부터 뉴클레오티드 염기 호출을 배제한다.
일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터로부터, 뉴클레오티드 샘플 슬라이드의 동일한 섹션으로부터 검출된 하나 이상의 후속 신호에 대해 생성된 하나 이상의 후속 뉴클레오티드 염기 호출을 추가로 배제한다. 다시 말하면, 신호-대-잡음-인식 염기 호출 시스템(106)은 후속 시퀀싱 사이클 동안 뉴클레오티드 샘플 슬라이드의 해당 섹션에 대해 생성되는 모든 뉴클레오티드 염기 호출을 배제할 수 있다. 상기에 언급된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 이에 따라서 모든 뉴클레오티드 염기 호출을 배제할 수 있거나, 또는 패턴화된 뉴클레오티드 샘플 슬라이드의 웰에 대응하는 올리고뉴클레오티드의 클러스터 또는 그 클러스터에 대한 비패턴화된 뉴클레오티드 샘플 슬라이드의 서브섹션에 대한 뉴클레오티드 염기 호출을 계속 결정하지 않는다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 또한 뉴클레오티드 염기 호출 데이터로부터, 뉴클레오티드 샘플 슬라이드의 해당 섹션에 대해 생성된 하나 이상의 이전 뉴클레오티드 염기 호출을 배제한다.
실제로, 하나 이상의 실시예에서, 신호에 대해 결정된 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치를 만족하지 못한다고 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 대응하는 섹션을 완전히 필터링한다. 다시 말하면, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 임계치를 만족하지 못하는 것에 기초하여, 뉴클레오티드 샘플 슬라이드의 대응하는 섹션이 불량한 품질이고 신뢰할 수 없다고 결정한다. 이에 따라서, 신호-대-잡음비 임계치를 만족하지 못한다고 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 후속 시퀀싱 사이클로부터 뉴클레오티드 샘플 슬라이드의 섹션을 제거할 수 있다(예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 미래의 사이클에서 섹션을 분석하지 않을 것이다).
도 5에 도시된 바와 같이, 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치를 만족한다고(예를 들어, 그와 동일하거나 그보다 크다고) 결정할 시에, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터에 신호에 대응하는 뉴클레오티드 염기 호출을 포함하는 동작(506)을 수행한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대한 뉴클레오티드 염기 호출을 생성하고 뉴클레오티드 염기 호출을 뉴클레오티드 염기 호출 데이터에 첨가할 수 있다.
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션에 대해 결정된 신호-대-잡음비 메트릭을 모든 시퀀싱 사이클에서 신호-대-잡음비 임계치와 비교한다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 임의의 시퀀싱 사이클에서, 뉴클레오티드 염기 호출 데이터로부터 뉴클레오티드 샘플 슬라이드의 해당 섹션에 대해 생성된 뉴클레오티드 염기 호출을 배제하도록 결정할 수 있다.
신호-대-잡음비 메트릭을 사용하여 특정 뉴클레오티드 염기 호출을 (또는 뉴클레오티드 샘플 슬라이드의 대응하는 섹션을 완전히) 필터링함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 종래의 시퀀싱 플랫폼보다 더 정확하게 동작한다. 실제로, 신호-대-잡음-인식 염기 호출 시스템(106)은, 종종 순도 기반의 필터링에 배타적으로 의존하는, 종래의 플랫폼과 비교할 때 불량한 품질의 뉴클레오티드 염기 호출(또는 뉴클레오티드 샘플 슬라이드의 불량한 품질 섹션)을 더 정확하게 식별할 수 있다. 실제로, 전술한 바와 같이, 순도 값에 기초한 필터링은 초기 시퀀싱 사이클에서 휴면일 수 있지만 시퀀싱이 진행됨에 따라 나타날 수 있는 문제를 식별하지 못할 수 있다. 이에 따라서, 필터링에 대한 순도 값에 배타적으로 의존하는 종래의 플랫폼은 생성된 뉴클레오티드 염기 호출 데이터 내에 잘못된 뉴클레오티드 염기 호출을 포함하는 경향이 있다. 하지만, 필터링을 위해 신호-대-잡음비 메트릭을 활용함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 불량한 품질의 뉴클레오티드 염기 호출을 더 정확하게 식별하고 이를 뉴클레오티드 염기 호출 데이터로부터 배제하여, 더 정확한 시퀀싱 결과를 제공할 수 있다.
전술한 바와 같이, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭을 활용하는 신호에 대해 생성된 뉴클레오티드 염기 호출의 에러를 추정하는 품질 메트릭을 결정한다. 도 6은 하나 이상의 실시예에 따라 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하기 위한 블록도를 예시한다.
도 6에 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 이미지(604)(또는 다수의 이미지)로 캡처된 신호에 대응하는 신호-대-잡음비 메트릭(602)을 결정한다. 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대한 뉴클레오티드 염기 호출(610)을 생성한다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)은 도 3을 참조하여 위에서 논의된 바와 같은 염기 호출 분포 모델에 따라 신호-대-잡음비 메트릭(602)을 활용하여 뉴클레오티드 염기 호출(610)을 생성할 수 있다.
도 6에 추가로 도시된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출(610)의 에러를 추정하기 위해 뉴클레오티드 염기 호출(610)에 대한 품질 메트릭(612)을 생성한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 염기 호출 품질 모델(606)을 활용하여 품질 메트릭(612)을 생성한다. 하나 이상의 실시예에서, 염기 호출 품질 모델(606)은 신호의 특징 및/또는 뉴클레오티드 샘플 슬라이드의 대응하는 섹션의 특징과 관련된 하나 이상의 치수(예를 들어, 입력)를 수용하고, 이 치수에 기초하여 품질 메트릭을 생성한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 염기 호출 품질 모델(606)에 대한 입력 중 하나로서 신호-대-잡음비 메트릭(602)을 제공할 수 있다.
도 6에 도시된 바와 같이, 그리고 이전에 언급된 바와 같이, 염기 호출 품질 모델(606)은 (그래프(608)에 의해 나타낸 바와 같이) Phred 알고리즘을 포함할 수 있다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 Phred 알고리즘에 대한 입력 중 하나로서 신호-대-잡음비 메트릭(602)을 활용할 수 있다. 또한, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출(610)의 정확도를 추정하는 Q 스코어(즉, Phred 품질 스코어)를 생성하기 위해 Phred 알고리즘을 활용할 수 있다. 다시 말하면, 품질 메트릭(612)은 Phred 알고리즘에 의해 생성된 Q 스코어를 포함할 수 있다.
일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출을 참조 게놈에 맵핑하기 위해 신호에 대응하는 뉴클레오티드 염기 호출에 대해 결정된 품질 메트릭을 활용한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호를 방출하는 뉴클레오티드 샘플 슬라이드의 섹션에 위치된 올리고뉴클레오티드를 참조 게놈에 맵핑할 수 있다. 이에 따라서, 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 참조 게놈과 정렬되어 나중에 결정된 게놈 위치에서 성장하는 올리고뉴클레오티드에 통합된 표지된 뉴클레오티드 염기로부터 신호를 검출함으로써 신호를 검출한다. 추가적으로, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대응하는 게놈 위치에서 뉴클레오티드 염기 호출에 대한 신호-대-잡음비 메트릭을 생성한다. 또한, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출에 대한 품질 메트릭을 결정하고 그 품질 메트릭을 활용하여 뉴클레오티드 염기 호출을 참조 게놈에 맵핑할 수 있다.
위에 나타낸 바와 같이, 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출에 대한 품질 메트릭을 결정하기 위해 신호-대-잡음비 메트릭에 더하여 값을 활용한다. 예를 들어, 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭에 더하여 신호에 대응하는 순도 값을 활용한다. 예시를 위해, 일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대한 강도 값과 가장 가까운 중심점의 강도 값 사이의 거리 및 신호에 대한 강도 값과 적어도 하나의 추가 중심점에 대한 강도 값 사이의 거리에 기초하여 신호에 대한(예를 들어, 뉴클레오티드 샘플 슬라이드의 대응하는 섹션에 대한) 순도 값을 결정한다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 추가 중심점으로서 두번째 가장 가까운 중심점을 활용한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 염기 호출 품질 모델을 활용하여, 신호-대-잡음비 메트릭 및 순도 값에 기초하여 품질 메트릭을 생성할 수 있다.
신호에 대응하는 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하기 위해 신호에 대응하는 신호-대-잡음비 메트릭을 활용함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 종래의 시퀀싱 플랫폼과 비교할 때 뉴클레오티드 염기 호출의 품질을 더 정확하게 추정할 수 있다. 실제로, 신호-대-잡음비 메트릭을 분석에 통합함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 품질의 추가 표시자를 활용한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 종래의 시퀀싱 플랫폼보다 더 많은 정보를 활용하여 품질의 결정을 행한다.
전술한 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 불량한 품질 섹션의 개선된 필터링을 제공한다. 특히, 신호-대-잡음-인식 염기 호출 시스템(106)은 불량한 품질의 섹션을 더 정확하게 식별하고, 대응하는 뉴클레오티드 염기 호출을 생성하거나 뉴클레오티드 염기 호출 데이터에 포함시키는 것을 배제한다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 문제가 있는 섹션을 식별하지 못할 수 있는 종래의 시퀀싱 플랫폼과 비교할 때 더 정확한 시퀀싱 결과를 제공한다.
연구자는 다양한 신호-대-잡음비 메트릭과 연관된 뉴클레오티드 샘플 슬라이드의 섹션의 뉴클레오티드 염기 호출 에러율을 결정하기 위해 연구를 수행한다. 특히, 연구자는 일련의 시퀀싱 사이클에 걸쳐 뉴클레오티드 염기 호출 에러율을 분석하였다. 도 7은 하나 이상의 실시예에 따라 다양한 신호-대-잡음비 메트릭을 갖는 하나 이상의 뉴클레오티드 샘플 슬라이드의 섹션의 뉴클레오티드 염기 호출 에러율을 도시하는 그래프를 예시한다.
도 7의 그래프에 의해 도시된 바와 같이, 더 낮은 신호-대-잡음비 메트릭(예를 들어, SNR = 4, SNR = 5 등)과 연관된 하나 이상의 뉴클레오티드 샘플 슬라이드의 테스트된 섹션은 뉴클레오티드 염기 호출에 대한 높은 에러율을 나타낸다. 비교하여, 더 높은 신호-대-잡음비 메트릭(예를 들어, SNR = 15, SNR = 14 등)과 연관된 섹션은 뉴클레오티드 염기 호출에 대한 비교적 더 낮은 에러율과 연관된다. 따라서, 뉴클레오티드 염기 호출 데이터로부터, 더 낮은 신호-대-잡음비 메트릭을 갖는 섹션과 연관된 뉴클레오티드 염기 호출을 배제함으로써, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터 내에 높은 에러 데이터의 포함을 방지한다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 염기 호출 데이터에 더 정확하고 신뢰할 수 있는 염기 호출을 제공한다.
연구자는 신호-대-잡음-인식 염기 호출 시스템(106)의 다양한 실시예의 유효성을 비교하기 위해 추가 연구를 수행하였다. 도 8a 및 도 8b는 하나 이상의 실시예에 따른 신호-대-잡음-인식 염기 호출 시스템(106)의 유효성에 관한 연구 결과를 반영하는 그래프를 예시한다.
특히, 도 8a 및 도 8b의 그래프는 신호-대-잡음-인식 염기 호출 시스템(106)의 실시예의 성능을 기준선 뉴클레오티드 염기 호출 시스템("RTA3"으로 표지됨)과 비교한다. 그래프는 순도 필터를 활용하고 분포 모델 세그먼트화를 사용하지 않는 신호-대-잡음-인식 염기 호출 시스템(106)("LS, SNR 없음, 순도 필터"로 표지됨)의 일 실시예의 성능을 추가로 비교한다. 그래프는 분포 모델 세그먼트화와 함께 순도 필터를 사용하는 신호-대-잡음-인식 염기 호출 시스템(106)의 다른 실시예의 성능을 도시한다("LS, SNR 있음, 순도 필터"로 표지됨). 또한, 그래프는 분포 모델 세그먼트화를 사용하고 신호-대-잡음비 임계치를 활용하여 필터링하는 신호-대-잡음-인식 염기 호출 시스템(106)("LS, SNR 있음, SNR 필터"로 표지됨)의 또 다른 실시예의 성능을 도시한다.
도 8a의 그래프는 분석되는 뉴클레오티드 샘플 슬라이드의 섹션(예를 들어, 웰)의 분율에 기초한 각각의 테스트된 모델과 연관된 뉴클레오티드 염기 호출 에러율을 예시한다. 예를 들어, 분석된 섹션의 분율은 테스트된 모델에 의해 구현된 필터(예를 들어, 순도 필터 또는 신호-대-잡음비 임계치에 기초한 필터)를 통과하고 참조(예를 들어, 참조 게놈)와 정렬되는 섹션의 분율에 기초할 수 있다. 도 8a에 도시된 바와 같이, 신호-대-잡음비 메트릭의 구현예는 더 낮은 뉴클레오티드 염기 호출 에러율을 초래한다. 보다 구체적으로, 분포 모델 세그먼트화와 신호-대-잡음비 임계치의 사용은 모든 비교된 모델 중에서 최저 뉴클레오티드 염기 호출 에러율을 제공한다. 추가로 유의할 점으로, 도 8a의 그래프는 뉴클레오티드 샘플 슬라이드의 섹션을 필터링해내는 데 사용되는 임계치를 조절하는 것이 에러율에 대한 역효과를 갖는다는 것을 예시한다(즉, x-축에서 우측으로 이동하는 것은 더 낮은 임계치 및 이로써 필터를 통과하는 섹션의 더 높은 백분율에 대응하며, 이는 더 높은 에러율을 야기한다).
도 8b의 그래프는 일련의 시퀀싱 사이클에 걸쳐 모델의 성능을 비교한다. 도시된 바와 같이, 모델이 일련의 시퀀싱 사이클을 통해 진행됨에 따라 각각의 모델과 연관된 에러율이 증가한다. 그러나, 신호-대-잡음-인식 염기 호출 시스템(106)의 실시예는 최저 에러율을 제공한다. 또한, 도 8a의 그래프를 참조하여 위에서 논의된 바와 같이, 신호-대-잡음-인식 염기 호출 시스템(106)에 의한 분포 모델 세그먼트화 및 신호-대-잡음비 임계치의 사용은 모든 비교된 모델 중에서 최저 뉴클레오티드 염기 호출 에러율을 제공한다. 따라서, 도 8a 및 도 8b 둘 모두에 의해 도시된 바와 같이, 신호-대-잡음비 메트릭의 구현예는 뉴클레오티드 염기 호출을 생성할 때 개선된 정확도를 제공한다.
도 1 내지 도 8b, 대응하는 텍스트 및 예는 신호-대-잡음-인식 염기 호출 시스템(106)의 다수의 상이한 방법, 시스템, 디바이스, 및 비일시적 컴퓨터 판독가능 매체를 제공한다. 전술한 것에 더하여, 하나 이상의 실시예는 또한 도 9 내지 도 11에 도시된 바와 같이, 특정 결과를 달성하기 위한 동작을 포함하는 흐름도의 관점에서 설명될 수 있다. 도 9 내지 도 11은 더 많거나 더 적은 동작으로 수행될 수 있다. 또한, 동작은 상이한 순서로 수행될 수 있다. 추가적으로, 본원에 설명된 동작은 서로 병행하여 또는 동일하거나 유사한 동작의 다른 경우와 병행하여 반복되거나 수행될 수 있다.
도 9는 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 사용하여 뉴클레오티드 염기 호출에 대한 품질 메트릭을 생성하기 위한 일련의 동작(900)의 흐름도를 예시한다. 도 9는 일 실시예에 따른 동작을 예시하지만, 대안적인 실시예는 도 9에 도시된 동작 중 임의의 것을 생략, 첨가, 재정렬 및/또는 수정할 수 있다. 일부 구현예에서, 도 9의 동작은 방법의 일부로서 수행된다. 일부 경우에서, 비일시적 컴퓨터 판독가능 매체는 적어도 하나의 프로세서에 의해 실행될 때 컴퓨팅 디바이스로 하여금 도 9의 동작을 수행하게 하는 명령어를 저장한다. 일부 구현예에서, 시스템은 도 9의 동작을 수행한다. 예를 들어, 하나 이상의 경우에서, 시스템은 적어도 하나의 프로세서 및 비일시적 컴퓨터 판독가능 매체를 포함하고, 비일시적 컴퓨터 판독가능 매체는, 적어도 하나의 프로세서에 의해 실행될 때, 시스템으로 하여금 도 9의 동작을 수행하게 하는 명령어를 포함한다.
일련의 동작(900)은 뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하기 위한 동작(902)을 포함한다. 예를 들어, 동작(902)은 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하는 것을 수반할 수 있다.
추가적으로, 일련의 동작(900)은 신호에 대응하는 스케일링 인자 및 잡음 레벨을 결정하는 동작(904)을 포함한다. 예를 들어, 동작(904)은 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 신호에 대한 강도 값에 기초하여 신호에 대응하는 스케일링 인자 및 잡음 레벨을 결정하는 것을 수반할 수 있다.
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 신호에 대한 보정된 강도 값을 결정하고; 신호에 대한 보정된 강도 값에 기초하여 신호에 대응하는 잡음 레벨을 결정함으로써, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 신호에 대한 강도 값에 기초하여 신호에 대응하는 잡음 레벨을 결정한다. 일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 신호에 대한 강도 값, 신호에 대응하는 스케일링 인자, 및 신호에 대응하는 보정 오프셋 인자에 기초하여 보정된 강도 값을 결정함으로써 신호에 대한 보정된 강도 값을 결정한다. 일부 경우에, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대응하는 뉴클레오티드 염기 호출에 대한 중심점 강도 값을 결정하고; 중심점 강도 값과 신호에 대한 보정된 강도 값 사이의 거리를 결정함으로써, 신호에 대한 보정된 강도 값에 기초하여 신호에 대응하는 잡음 레벨을 결정한다.
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 하나 이상의 이전 시퀀싱 사이클에 대한 평균 잡음 레벨을 결정한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드에 대한 섹션에 대해, 하나 이상의 이전 시퀀싱 사이클에 대한 평균 잡음 레벨에 기초하여 현재 시퀀싱 사이클에 대한 잡음 레벨을 결정함으로써 신호에 대응하는 잡음 레벨을 결정할 수 있다.
일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 복수의 이전 시퀀싱 사이클에 대한 복수의 잡음 레벨을 결정하고; 시퀀싱 사이클 최신성에 기초하여 복수의 잡음 레벨에 가중치를 적용함으로써 복수의 이전 시퀀싱 사이클에 대한 가중 평균 잡음 레벨을 결정하고; 뉴클레오티드 샘플 슬라이드에 대한 섹션에 대해, 복수의 이전 시퀀싱 사이클에 대한 가중 평균 잡음 레벨에 기초하여 현재 시퀀싱 사이클에 대한 잡음 레벨을 결정함으로써 신호에 대응하는 잡음 레벨을 결정한다.
일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 표지된 뉴클레오티드 염기에 대한 측정된 강도와 스케일링 인자를 포함하는 변동 보정 계수 사이의 관계를 결정하고; 측정된 강도와 변동 보정 계수 사이의 관계에 기초하여 에러 함수를 결정하고; 스케일링 인자에 대한 에러 함수의 부분 도함수를 생성하는 것에 의해 스케일링 인자를 결정함으로써 신호에 대한 강도 값에 기초하여 신호에 대응하는 스케일링 인자를 결정한다.
또한, 일련의 동작(900)은 스케일링 인자 및 잡음 레벨에 기초하여 신호-대-잡음비 메트릭을 생성하는 동작(906)을 포함한다. 예를 들어, 동작(906)은 스케일링 인자 및 잡음 레벨에 기초하여 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성하는 것을 수반할 수 있다. 하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션에 대한 신호-대-잡음비 메트릭을 생성함으로써 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성한다.
일련의 동작(900)은 신호-대-잡음비 메트릭에 기초하여 품질 메트릭을 생성하는 동작(908)을 추가로 포함한다. 특히, 동작(908)은, 염기 호출 품질 모델을 활용하여, 신호-대-잡음비 메트릭에 기초하여 신호에 대응하는 뉴클레오티드 염기 호출의 에러를 추정하는 품질 메트릭을 생성하는 것을 수반할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭에 기초하여 신호에 대응하는 뉴클레오티드 염기 호출의 정확도를 추정하는 Phred 품질 스코어를 생성함으로써 신호-대-잡음비 메트릭에 기초하여 신호에 대응하는 뉴클레오티드 염기 호출의 에러를 추정하는 품질 메트릭을 생성한다.
일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 신호에 대한 강도 값과 가장 가까운 중심점의 강도 값 사이의 거리 및 신호에 대한 강도 값과 적어도 하나의 추가 중심점에 대한 강도 값 사이의 거리에 기초하여 뉴클레오티드 샘플 슬라이드의 섹션에 대한 순도 값을 추가로 결정한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은 염기 호출 품질 모델을 활용하여, 신호-대-잡음비 메트릭 및 순도 값에 기초하여 품질 메트릭을 생성할 수 있다.
도 10은 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 사용하여 신호에 대응하는 뉴클레오티드 염기 호출을 필터링하기 위한 일련의 동작(1000)의 흐름도를 예시한다. 도 10은 일 실시예에 따른 동작을 예시하지만, 대안적인 실시예는 도 10에 도시된 동작 중 임의의 것을 생략, 첨가, 재정렬 및/또는 수정할 수 있다. 일부 구현예에서, 도 10의 동작은 방법의 일부로서 수행된다. 일부 경우에서, 비일시적 컴퓨터 판독가능 매체는 적어도 하나의 프로세서에 의해 실행될 때 컴퓨팅 디바이스로 하여금 도 10의 동작을 수행하게 하는 명령어를 저장한다. 일부 구현예에서, 시스템은 도 10의 동작을 수행한다. 예를 들어, 하나 이상의 경우에서, 시스템은 적어도 하나의 프로세서 및 비일시적 컴퓨터 판독가능 매체를 포함하고, 비일시적 컴퓨터 판독가능 매체는, 적어도 하나의 프로세서에 의해 실행될 때, 시스템으로 하여금 도 10의 동작을 수행하게 하는 명령어를 포함한다.
일련의 동작(1000)은 뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하는 동작(1002)을 포함한다. 예를 들어, 동작(1002)은 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하는 것을 수반한다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 참조 게놈과 정렬되어 나중에 결정된 게놈 위치에서 성장하는 올리고뉴클레오티드에 통합된 표지된 뉴클레오티드 염기로부터 신호를 검출함으로써 신호를 검출한다.
일련의 동작(1000)은 또한 신호에 대한 스케일링 인자 및 잡음 레벨을 결정하는 동작(1004)을 포함한다. 예를 들어, 동작(1004)은 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 신호에 대한 강도 값에 기초하여 신호에 대응하는 스케일링 인자 및 잡음 레벨을 결정하는 것을 수반할 수 있다.
하나 이상의 실시예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 하나 이상의 이전 시퀀싱 사이클에 대한 평균 잡음 레벨을 결정한다. 이에 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)은, 뉴클레오티드 샘플 슬라이드에 대한 섹션에 대해, 하나 이상의 이전 시퀀싱 사이클에 대한 평균 잡음 레벨에 기초하여 현재 시퀀싱 사이클에 대한 잡음 레벨을 결정함으로써 신호에 대응하는 잡음 레벨을 결정할 수 있다.
추가적으로, 일련의 동작(1000)은 스케일링 인자 및 잡음 레벨에 기초하여 신호-대-잡음비 메트릭을 생성하는 동작(1006)을 포함한다. 예를 들어, 동작(1006)은 스케일링 인자 및 잡음 레벨에 기초하여 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성하는 것을 수반할 수 있다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 스케일링 인자 대 상기 잡음 레벨의 비를 결정하기 위해 스케일링 인자를 신호에 균등화함으로써 신호-대-잡음비 메트릭을 생성한다. 일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호에 대응하는 게놈 위치에서 뉴클레오티드 염기 호출에 대한 신호-대-잡음비 메트릭을 생성한다.
또한, 일련의 동작(1000)은 신호-대-잡음비 메트릭에 기초하여 신호에 대응하는 뉴클레오티드 염기 호출을 필터링하는 동작(1008)을 포함한다. 예를 들어, 동작(1008)은 신호-대-잡음비 메트릭을 신호-대-잡음비 임계치와 비교하는 것에 기초하여, 뉴클레오티드 염기 호출 데이터 내에 또는 그로부터 신호에 대응하는 뉴클레오티드 염기 호출을 포함하거나 배제하는 것을 수반할 수 있다. 일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션에 대한 신호에 대응하는 뉴클레오티드 염기 호출을 배제한다.
일부 구현예에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 신호-대-잡음비 메트릭이 신호-대-잡음비 임계치보다 낮다고 결정하는 것에 기초하여, 뉴클레오티드 샘플 슬라이드의 섹션 내의 올리고뉴클레오티드의 클러스터에 첨가된 후속 표지된 뉴클레오티드 염기로부터 검출된 후속 신호에 대응하는 후속 뉴클레오티드 염기 호출을 배제한다.
도 11은 하나 이상의 실시예에 따라 신호-대-잡음비 메트릭을 사용하여 신호-대-잡음 범위에 대한 강도-값 경계를 생성하기 위한 일련의 동작(1100)의 흐름도를 예시한다. 도 11은 일 실시예에 따른 동작을 예시하지만, 대안적인 실시예는 도 11에 도시된 동작 중 임의의 것을 생략, 첨가, 재정렬 및/또는 수정할 수 있다. 일부 구현예에서, 도 11의 동작은 방법의 일부로서 수행된다. 일부 경우에서, 비일시적 컴퓨터 판독가능 매체는 적어도 하나의 프로세서에 의해 실행될 때 컴퓨팅 디바이스로 하여금 도 11의 동작을 수행하게 하는 명령어를 저장한다. 일부 구현예에서, 시스템은 도 11의 동작을 수행한다. 예를 들어, 하나 이상의 경우에서, 시스템은 적어도 하나의 프로세서 및 비일시적 컴퓨터 판독가능 매체를 포함하고, 비일시적 컴퓨터 판독가능 매체는, 적어도 하나의 프로세서에 의해 실행될 때, 시스템으로 하여금 도 11의 동작을 수행하게 하는 명령어를 포함한다.
일련의 동작(1100)은 뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하는 동작(1102)을 포함한다. 예를 들어, 동작(1102)은 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하는 것을 포함할 수 있다.
일련의 동작(1100)은 또한 신호에 대한 신호-대-잡음비 메트릭을 생성하는 동작(1104)을 포함한다. 예를 들어, 동작(1104)은 신호 및 그 신호에 대응하는 잡음 레벨에 기초하여 적어도 하나의 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성하는 것을 포함할 수 있다.
일련의 동작(1100)은 신호-대-잡음비 메트릭에 대한 신호-대-잡음비 범위를 결정하는 동작(1106)을 추가로 포함한다. 실제로, 신호-대-잡음-인식 염기 호출 시스템(106)은 복수의 신호-대-잡음비 범위를 결정할 수 있다.
또한, 일련의 동작은 신호-대-잡음비 범위에 대한 강도-값 경계를 생성하는 동작(1108)을 포함한다. 예를 들어, 동작(1108)은, 하나 이상의 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를, 상기 신호-대-잡음비 범위 중 각각의 신호-대-잡음비 범위에 대해, 생성하는 것을 포함할 수 있다. 하나 이상의 실시예에서, 하나 이상의 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를 생성하는 것은 신호-대-잡음비 범위 중 각각의 신호-대-잡음비 범위에 대한 하나 이상의 가우시안 분포 모델에 따라 강도-값 경계를 생성하는 것을 포함한다.
일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 섹션 내의 올리고뉴클레오티드의 클러스터로부터 표지된 뉴클레오티드 염기의 서브세트로부터의 신호를 검출하고; 신호에 기초하여 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 범위 내의 신호-대-잡음비 메트릭을 생성하고; 신호-대-잡음비 범위에 대응하는 강도-값 경계의 강도-값 경계 세트에 기초하여 신호에 대응하는 뉴클레오티드 염기 호출을 결정한다. 또한, 신호-대-잡음-인식 염기 호출 시스템(106)은 뉴클레오티드 샘플 슬라이드의 추가 섹션 내의 올리고뉴클레오티드의 추가 클러스터로부터의 표지된 뉴클레오티드 염기의 추가 서브세트로부터 추가 신호를 검출할 수 있고; 추가 신호에 기초하여 뉴클레오티드 샘플 슬라이드의 추가 섹션에 대해, 추가 신호-대-잡음비 범위 내에서, 추가 신호-대-잡음비 메트릭을 생성할 수 있고, 추가 신호-대-잡음비 범위는 신호-대-잡음비 범위와 상이하며; 추가 신호-대-잡음비 범위에 대응하는 강도-값 경계의 추가 강도-값 경계 세트에 기초하여 추가 신호에 대응하는 추가 뉴클레오티드 염기 호출을 결정할 수 있다.
하나 이상의 실시예에서, 하나 이상의 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를, 신호-대-잡음비 범위 중 각각의 신호-대-잡음비 범위에 대해, 생성하는 단계는: 제1 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 제1 강도-값 경계 세트를, 제1 신호-대-잡음비 범위에 대해, 생성하는 단계; 및 제2 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 제2 강도-값 경계 세트를, 제2 신호-대-잡음비 범위에 대해, 생성하는 단계를 포함하고, 제2 강도-값 경계 세트는 제1 강도-값 경계 세트와 상이하다.
일부 경우에서, 신호-대-잡음-인식 염기 호출 시스템(106)은 제1 신호-대-잡음비 범위 내의 제1 신호-대-잡음비 메트릭에 대응하고 제1 강도-값 경계 세트 외측 및 제2 강도-값 경계 세트 외측의 강도 값 세트를 갖는 제1 신호를 검출하고; 제2 신호-대-잡음비 범위 내의 제2 신호-대-잡음비 메트릭에 대응하고 강도 값 세트를 갖는 제2 신호를 검출하고; 제1 염기 호출 분포 모델에 대한 제1 강도-값 경계 세트에 기초하여 제1 신호에 대한 제1 뉴클레오티드 염기 호출을 생성하고; 제2 염기 호출 분포 모델에 대한 제2 강도-값 경계 세트에 기초하여 제2 신호에 대한 제2 뉴클레오티드 염기 호출을 생성한다.
본원에 기술된 방법은 다양한 핵산 시퀀싱 기술과 함께 사용될 수 있다. 특히 적용가능한 기술은 핵산이 어레이 내의 고정된 위치에 부착되어 그 상대적 위치가 변화되지 않도록 하고, 그 어레이가 반복적으로 이미지화되는 기술이다. 예를 들어, 하나의 뉴클레오티드 염기 유형을 다른 것과 식별하는 데 사용되는 다른 표지와 일치하는 상이한 색 채널에서 이미지가 수득되는 실시예가 특히 적용가능하다. 일부 실시예에서, 표적 핵산(즉, 핵산 중합체)의 뉴클레오티드 서열을 결정하는 프로세스는 자동화 프로세스일 수 있다. 바람직한 실시예는 합성에 의한 시퀀싱(SBS) 기술을 포함한다.
SBS 기술은 일반적으로 주형 가닥에 대한 뉴클레오티드의 반복적 부가를 통한 신생 핵산 가닥의 효소적 연장을 수반한다. 기존의 SBS 방법에서, 단일 뉴클레오티드 단량체가 각각의 전달에서 중합효소의 존재 하에 표적 뉴클레오티드에 제공될 수 있다. 그러나, 본원에 기술된 방법에서, 하나 초과의 유형의 뉴클레오티드 단량체가 전달에서 중합효소의 존재 하에 표적 핵산에 제공될 수 있다.
SBS는 종결자 모이어티를 갖는 뉴클레오티드 단량체 또는 임의의 종결자 모이어티가 결여되어 있는 뉴클레오티드 단량체를 활용할 수 있다. 종결자가 결여되어 있는 뉴클레오티드 단량체를 활용하는 방법은 예를 들어, 하기에 더욱 상세히 설명되는 바와 같이, γ-포스페이트 표지화된 뉴클레오티드를 사용하는 시퀀싱 및 파이로시퀀싱(pyrosequencing)을 포함한다. 종결자가 결여된 뉴클레오티드 단량체를 사용하는 방법에서, 각각의 사이클에 첨가되는 뉴클레오티드의 수는 일반적으로 가변적이며 주형 서열 및 뉴클레오티드 전달 방식에 따라 다르다. 종결자 모이어티를 갖는 뉴클레오티드 단량체를 이용하는 SBS 기술에서, 종결자는 디데옥시뉴클레오티드를 활용하는 기존의 Sanger 시퀀싱의 경우와 같이, 사용된 시퀀싱 조건 하에서 효과적으로 비가역적일 수 있거나, 종결자는 Solexa(현재, Illumina, Inc.)에 의해 개발된 시퀀싱 방법의 경우와 같이 가역적일 수 있다.
SBS 기술은 표지 모이어티를 갖는 뉴클레오티드 단량체 또는 표지 모이어티가 결여되어 있는 것을 활용할 수 있다. 이에 따라서, 통합 이벤트는 표지의 특성, 예컨대 표지의 형광; 뉴클레오티드 단량체의 특성, 예컨대 분자량 또는 전하; 뉴클레오티드 통합의 부산물, 예컨대 파이로포스페이트의 방출; 등에 기초하여 검출될 수 있다. 2종 이상의 상이한 뉴클레오티드가 시퀀싱 시약 중에 존재하는 실시예에서, 상이한 뉴클레오티드는 서로 구별 가능할 수 있거나, 대안적으로 2개 이상의 상이한 표지가, 사용되고 있는 검출 기술 하에서 구별 가능하지 않을 수 있다. 예를 들어, 시퀀싱 시약에 존재하는 상이한 뉴클레오티드는 상이한 표지를 가질 수 있으며 Solexa(현재 Illumina, Inc.)에서 개발한 시퀀싱 방법에 의해 예시된 바와 같이 적절한 광학 장치를 사용하여 구별될 수 있다.
바람직한 실시예는 파이로시퀀싱 기법을 포함한다. 파이로시퀀싱은 특정 뉴클레오티드가 신생 가닥에 통합될 때 무기 파이로포스페이트(PPi)의 방출을 검출한다(문헌[Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9]; 문헌[Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11]; 문헌[Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363]; 미국 특허 제6,210,891호; 미국 특허 제6,258,568호 및 미국 특허 제6,274,320호, 이 개시는 그 전체가 본원에 참고로 통합됨). 파이로시퀀싱에서, 방출된 PPi는 ATP 설퍼릴라제(sulfurylase)에 의해 즉시 아데노신 삼인산(ATP: adenosine triphosphate)으로 전환되어 검출될 수 있으며, 생성된 ATP의 레벨은 루시퍼라제-생성 광자를 통해 검출된다. 시퀀싱될 핵산은 어레이에서의 특징부에 부착될 수 있고, 어레이의 특징부에서 뉴클레오티드의 통합으로 인해 생성되는 화학발광 신호를 캡처하기 위해 어레이가 이미지화될 수 있다. 이미지는 어레이가 특정 뉴클레오티드 유형(예를 들어, A, T, C 또는 G)으로 처리된 후에 수득될 수 있다. 각 뉴클레오티드 유형을 추가한 후 수득된 이미지는 어레이의 특징부가 검출되는 것과 관련하여 상이하다. 이미지의 이러한 차이는 어레이에 있는 특징부의 상이한 서열 콘텐츠를 반영한다. 그러나, 각각의 특징부의 상대적 위치는 이미지에서 변화되지 않은 상태로 유지된다. 이미지는 본원에 기술된 방법을 사용하여 저장, 처리 및 분석될 수 있다. 예를 들어, 각각의 상이한 뉴클레오티드 유형으로 어레이를 처리한 후 수득된 이미지는 가역적 종결자 기반의 시퀀싱 방법에 대해 서로 상이한 검출 채널에서 수득된 이미지에 대해 본원에 예시된 것과 동일한 방식으로 처리될 수 있다.
SBS의 다른 예시적인 유형에서, 사이클 시퀀싱은 예를 들어, 그 개시가 본원에 참고로 통합되는 국제 특허 공개 WO 04/018497호 및 미국 특허 제7,057,026호에 기재된 바와 같은 예를 들어, 절단가능한 또는 광표백성 염료 표지를 포함하는 가역적 종결자 뉴클레오티드의 단계적 부가에 의해 달성된다. 이러한 접근법은 Solexa(현재 Illumina Inc.)에 의해 상업화되고 있으며, 또한 국제 특허 출원 공개 WO 91/06678호 및 WO 07/123,744호에 기재되어 있으며, 이 각각은 본원에 참고로 통합된다. 종결이 역전될 수 있을 뿐만 아니라 형광 표지가 절단되는 형광-표지된 종결자의 가용성은 효율적인 순환 가역 종결(CRT: cyclic reversible termination) 시퀀싱을 용이하게 한다. 중합효소는 또한 이러한 변형된 뉴클레오티드를 효율적으로 통합하고 신장하도록 공동 조작될 수 있다.
바람직하게는 가역적 종결자 기반의 시퀀싱 실시예에서, 표지는 SBS 반응 조건 하에서 신장을 실질적으로 저해하지 않는다. 그러나, 검출 표지는 예를 들어 절단 또는 분해에 의해 제거될 수 있다. 배열된 핵산 특징부에 표지를 통합한 후 이미지가 캡처될 수 있다. 특정 실시예에서, 각각의 사이클은 어레이에 4종의 상이한 뉴클레오티드 유형을 동시에 전달하는 것을 포함하고, 각각의 뉴클레오티드 유형은 스펙트럼적으로 구별되는 표지를 갖는다. 그 다음 4개의 이미지가 수득될 수 있으며, 각각은 4개의 상이한 표지 중 하나에 대해 선택적인 검출 채널을 사용한다. 대안적으로, 상이한 뉴클레오티드 유형이 순차적으로 첨가될 수 있으며 각각의 추가 단계 사이에 어레이의 이미지가 수득될 수 있다. 이러한 실시예에서, 각각의 이미지는 특정 유형의 뉴클레오티드가 통합된 핵산 특징부를 나타낼 것이다. 각 특징부의 서열 콘텐츠가 상이하기 때문에 상이한 이미지에 상이한 특징부가 있거나 없을 수 있다. 그러나, 특징부의 상대적 위치는 이미지에서 변화되지 않은 상태로 유지된다. 이러한 가역적 종결자-SBS 방법으로부터 수득된 이미지는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 이미지 캡처 단계 후, 표지는 제거될 수 있으며 뉴클레오티드 추가 및 검출의 후속 사이클을 위해 가역적 종결자 모이어티가 제거될 수 있다. 특정 사이클에서 검출된 후 후속 사이클 이전에 표지가 제거되면 배경 신호와 사이클 사이의 누화를 줄이는 이점을 제공할 수 있다. 유용한 표지 및 제거 방법의 예가 하기에 기재된다.
특정 실시예에서, 뉴클레오티드 단량체의 일부 또는 전부는 가역적 종결자를 포함할 수 있다. 이러한 실시예에서, 가역적 종결자/절단 가능한 플루오르는 3' 에스테르 결합을 통해 리보스 모이어티에 연결된 플루오르를 포함할 수 있으며(문헌[Metzker, Genome Res. 15:1767-1776(2005)]), 이는 본원에 참고로 통합된다. 다른 접근법은 형광 표지의 절단으로부터 종결자 화학물질을 분리하였다(문헌[Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)], 이는 그 전체가 본원에 참고로 통합됨). Ruparel 등은 연장을 차단하기 위해 작은 3' 알릴기를 사용하지만 팔라듐 촉매로 짧은 처리로 쉽게 차단이 해제될 수 있는 가역적 종결자의 개발을 설명하였다. 형광단은 장파장 UV 광에 30초 노출되면 쉽게 절단될 수 있는 광절단가능한 링커를 통해 염기에 부착되었다. 따라서, 디설파이드 환원 또는 광절단이 절단가능한 링커로서 사용될 수 있다. 가역적 종결에 대한 다른 접근 방식은 dNTP에 부피가 큰 염료를 배치한 후 발생하는 자연 종결을 사용하는 것이다. dNTP에 하전된 부피가 큰 염료의 존재는 입체 및/또는 정전기 장애를 통해 효과적인 종결자로서 작용할 수 있다. 하나의 통합 이벤트가 있으면 염료가 제거되지 않는 한 추가 통합이 방지된다. 염료의 절단은 플루오르를 제거하고 효과적으로 종결을 역전시킨다. 변형된 뉴클레오티드의 예는 또한 미국 특허 제7,427,673호 및 미국 특허 제7,057,026호에 기재되어 있으며, 이의 개시는 그 전체가 본원에 참고로 통합된다.
본원에 기술된 방법 및 시스템과 함께 활용될 수 있는 추가의 예시적인 SBS 시스템 및 방법은 미국 특허 출원 공개 제2007/0166705호, 미국 특허 출원 공개 제2006/0188901호, 미국 특허 제7,057,026호, 미국 특허 출원 공개 제2006/0240439호, 미국 특허 출원 공개 제2006/0281109호, PCT 공개 WO 05/065814호, 미국 특허 출원 공개 제2005/0100900호, PCT 공개 WO 06/064199호, PCT 공개 WO 07/010,251호, 미국 특허 출원 공개 제2012/0270305호 및 미국 특허 출원 공개 제2013/0260372호에 기술되어 있으며, 이의 개시는 그 전체가 본원에 참고로 통합된다.
일부 실시예는 4개 미만의 상이한 표지를 사용하여 4개의 상이한 뉴클레오티드의 검출을 활용할 수 있다. 예를 들어, SBS는 미국 특허 출원 공개 제2013/0079232호에 포함된 자료에 기술된 방법 및 시스템을 활용하여 수행될 수 있다. 첫 번째 예로서, 한 쌍의 뉴클레오티드 유형은 동일한 파장에서 검출될 수 있지만, 쌍의 한 구성원이 다른 구성원과 비교하여 강도 차이에 기초하여 구별되거나, 쌍 중 한 구성원의 변화(예를 들어, 화학적 변형, 광화학적 변형 또는 물리적 변형을 통해)에 기초하여 쌍의 다른 구성원에 대해 검출된 신호와 비교하여 명백한 신호가 나타나거나 사라지게 한다. 두 번째 예로서, 4개의 상이한 뉴클레오티드 유형 중 3개가 특정 조건 하에서 검출될 수 있는 반면, 제4 뉴클레오티드 유형은 이러한 조건 하에서 검출가능한 표지가 없거나, 이러한 조건 하에서 최소한으로 검출된다(예를 들어, 배경 형광으로 인한 최소 검출 등). 핵산으로의 처음 3개의 뉴클레오티드 유형의 통합은 그 각각의 신호의 존재에 기초하여 결정될 수 있고 핵산으로의 제4 뉴클레오티드 유형의 통합은 임의의 신호의 부재 또는 최소 검출에 기초하여 결정될 수 있다. 세 번째 예로서, 하나의 뉴클레오티드 유형은 두 개의 상이한 채널에서 검출되는 표지(들)를 포함할 수 있는 반면, 다른 뉴클레오티드 유형은 하나의 채널에서만 검출된다. 전술한 3개의 예시적인 구성은 상호 배타적인 것으로 간주되지 않으며, 다양한 조합으로 사용될 수 있다. 모든 3개의 예를 조합한 예시적인 실시예는 제1 채널에서 검출되는 제1 뉴클레오티드 유형(예를 들어, 제1 여기 파장에 의해 여기되는 경우 제1 채널에서 검출되는 표지를 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오티드 유형(예를 들어, 제2 여기 파장에 의해 여기되는 경우 제2 채널에서 검출되는 표지를 갖는 dCTP), 제1 채널 및 제2 채널 둘 모두에서 검출되는 제3 뉴클레오티드 유형(예를 들어, 제1 및/또는 제2 여기 파장에 의해 여기되는 경우 두 채널 모두에서 검출되는 적어도 하나의 표지를 갖는 dTTP) 및 어느 하나의 채널에서도 검출되지 않거나 최소한으로 검출되는 표지가 결여된 제4 뉴클레오티드 유형(예를 들어, 표지를 갖지 않는 dGTP)을 사용하는 형광 기반의 SBS 방법이다.
또한, 미국 특허 출원 공개 제2013/0079232호에 포함된 자료에 기재된 바와 같이, 단일 채널을 사용하여 시퀀싱 데이터가 얻어질 수 있다. 이러한 소위 1-염료(one-dye) 시퀀싱 접근법에서, 제1 뉴클레오티드 유형에 표지화되어 있지만 제1 이미지가 생성된 후 표지가 제거되고, 제2 뉴클레오티드 유형은 제1 이미지가 생성된 후에만 표지화된다. 제3 뉴클레오티드 유형은 제1 이미지와 제2 이미지 둘 모두에서 표지를 유지하고, 제4 뉴클레오티드 유형은 두 이미지 모두에서 표지화되지 않은 상태로 유지된다.
일부 실시예는 라이게이션(ligation) 기술에 의한 시퀀싱을 활용할 수 있다. 이러한 기술은 DNA 리가제를 활용하여 올리고뉴클레오티드를 통합하고 이러한 올리고뉴클레오티드의 통합을 식별한다. 올리고뉴클레오티드는 전형적으로 올리고뉴클레오티드가 혼성화하는 서열에서 특정 뉴클레오티드의 동일성과 상관관계가 있는 상이한 표지를 갖는다. 다른 SBS 방법과 마찬가지로, 표지된 시퀀싱 시약으로 핵산 특징부 어레이를 처리한 후 이미지가 수득될 수 있다. 각각의 이미지는 특정 유형의 표지를 통합한 핵산 특징부를 나타낼 것이다. 각 특징부의 서열 콘텐츠가 상이하기 때문에 상이한 이미지에 상이한 특징부가 있거나 없을 수 있지만, 특징부의 상대적 위치는 이미지에서 변화되지 않은 채로 유지된다. 라이게이션 기반의 시퀀싱 방법으로부터 얻어진 이미지는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 본원에 기술된 방법 및 시스템과 함께 활용될 수 있는 예시적인 SBS 시스템 및 방법은 미국 특허 제6,969,488호, 미국 특허 제6,172,218호 및 미국 특허 제6,306,597호에 기재되어 있으며, 이의 개시는 그 전체가 본원에 참고로 통합된다.
일부 실시예는 나노포어 시퀀싱을 활용할 수 있다(문헌[Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000)]; 문헌[Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis." Acc. Chem. Res. 35:817-825 (2002)]; 문헌[Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)], 이의 개시는 그 전체가 본원에 참고로 통합됨). 이러한 실시예에서, 표적 핵산은 나노포어를 통과한다. 나노포어는 α-헤몰리신과 같은 합성 포어 또는 생물학적 막 단백질일 수 있다. 표적 핵산이 나노포어를 통과할 때, 각각의 염기쌍은 포어의 전기 전도도의 변동을 측정함으로써 확인될 수 있다. (미국 특허 제7,001,792호; 문헌[Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007)]; 문헌[Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007)]; 문헌[Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)], 이의 개시는 그 전체가 본원에 참고로 통합됨). 나노포어 시퀀싱으로부터 얻어진 데이터는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 특히, 데이터는 본원에 언급된 광학 이미지 및 다른 이미지의 예시적인 처리에 따라 이미지로서 처리될 수 있다.
일부 실시예는 DNA 중합효소 활성의 실시간 모니터링을 수반하는 방법을 활용할 수 있다. 뉴클레오티드 통합은, 예를 들어 미국 특허 제7,329,492호 및 미국 특허 제7,211,414호(이 각각은 본원에 참고로 통합됨)에 기술된 바와 같이 형광단 보유 중합효소와 γ-포스페이트 표지된 뉴클레오티드 사이의 형광 공명 에너지 전달(FRET) 상호작용을 통해 검출될 수 있거나, 뉴클레오티드 통합은, 예를 들어 미국 특허 제7,315,019호(이는 본원에 참고로 통합됨)에 기술된 바와 같은 제로-모드 도파관으로 그리고 예를 들어 미국 특허 제7,405,281호 및 미국 특허 공개 제2008/0108082호(이 각각은 본원에 참고로 통합됨)에 기술된 바와 같은 형광 뉴클레오티드 유사체 및 조작된 중합효소를 사용하여 검출될 수 있다. 조명은 형광 표지된 뉴클레오티드의 통합이 저배경에서 관찰될 수 있도록 표면 테더링된(surface-tethered) 중합효소 주변의 젭토리터 스케일(zeptoliter-scale)의 부피로 제한될 수 있다(문헌[Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003)]; 문헌[Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008)]; 문헌[Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)], 이의 개시는 그 전체가 본원에 참고로 통합됨). 이러한 방법으로부터 얻어진 이미지는 본원에 기재된 바와 같이 저장, 처리 및 분석될 수 있다.
일부 SBS 실시예는 연장 생성물 내로 뉴클레오티드의 통합 시에 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출을 기반으로 하는 시퀀싱은 Ion Torrent(Guilford, CT, a Life Technologies subsidiary)에서 상업적으로 입수 가능한 전기 검출기 및 연관 기술, 또는 하기 문헌에 기재된 시퀀싱 방법 및 시스템을 사용할 수 있다: US 2009/0026082 A1; US 2009/0127589 A1; US 2010/0137143 A1; 또는 US 2010/0282617 A1(각각의 문헌은 본원에 참고로서 통합됨). 역학적 배제(kinetic exclusion)를 사용하여 표적 핵산을 증폭하기 위한 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 기재에 용이하게 적용될 수 있다. 보다 구체적으로, 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 앰플리콘의 클론 집단을 제작하는 데 사용될 수 있다.
상기 SBS 방법은 멀티플렉스 포맷으로 유리하게 수행되어 다수의 상이한 표적 핵산이 동시에 조작될 수 있다. 특정 실시예에서, 상이한 표적 핵산이 일반적인 반응 용기에서 또는 특정 기질의 표면에서 처리될 수 있다. 이것은 멀티플렉스 방식으로 시퀀싱 시약의 전달, 미반응 시약의 제거 및 통합 이벤트의 검출을 편리하게 해준다. 표면 결합된 표적 핵산을 사용한 실시예에서, 표적 핵산은 어레이 포맷으로 존재할 수 있다. 어레이 포맷에서, 표적 핵산은 통상 공간적으로 구별가능한 방식으로 표면에 결합될 수 있다. 표적 핵산은 직접 공유 결합, 비드 또는 다른 입자에 대한 부착 또는 표면에 부착된 중합효소 또는 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 각각의 부위(특징부라고도 지칭됨)에서 표적 핵산의 단일 카피를 포함할 수 있거나, 동일한 서열을 갖는 다수의 카피가 각각의 부위 또는 특징부에 존재할 수 있다. 다수의 카피는 아래에 더욱 상세하게 기술된 바와 같은 증폭 방법, 예컨대 브릿지 증폭 또는 에멀젼 PCR에 의해 생성될 수 있다.
본원에 기재된 방법은 예를 들어, 적어도 약 10개의 특징부/cm2, 100개의 특징부/cm2, 500개의 특징부/cm2, 1,000개의 특징부/cm2, 5,000개의 특징부/cm2, 10,000개의 특징부/cm2, 50,000개의 특징부/cm2, 100,000개의 특징부/cm2, 1,000,000개의 특징부/cm2, 5,000,000개의 특징부/cm2 또는 그 이상을 포함하는, 다양한 밀도 중 임의의 밀도의 특징부를 갖는 어레이를 사용할 수 있다.
본원에 제시된 방법의 한 가지 이점은 이것이 병렬로 복수의 표적 핵산의 신속하고 효율적인 검출을 제공한다는 것이다. 따라서, 본 개시는 위에 예시된 것과 같은 당업계에 알려진 기술을 사용하여 핵산을 제조 및 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 개시의 통합 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정된 DNA 단편으로 전달할 수 있는 유체 구성요소를 포함할 수 있으며, 상기 시스템은 펌프, 밸브, 저장소, 유체 라인 등과 같은 구성요소를 포함한다. 유동 셀은 표적 핵산의 검출을 위한 통합 시스템으로 구성되고/되거나 이에 사용될 수 있다. 예시적인 유동 셀은, 예를 들어 미국 특허출원공개 제2010/0111768 A1호 및 미국 특허 출원 제13/273,666호에 기재되어 있으며, 이 각각은 본원에 참고로 통합된다. 유동 셀에 대한 예시로서, 통합 시스템의 유체 구성요소 중 하나 이상이 증폭 방법과 검출 방법에 사용될 수 있다. 핵산 시퀀싱 실시예를 예로 들면, 통합 시스템의 유체 구성요소 중 하나 이상이 본원에 제시된 증폭 방법과, 위에 예시된 것과 같은 시퀀싱 방법에서 시퀀싱 시약의 전달에 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위한 별개의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고, 또한 핵산의 서열을 결정할 수 있는 통합 시퀀싱 시스템의 예는 제한 없이 MiSeq™ 플랫폼(미국 캘리포니아주 샌디에고 소재의 Illumina, Inc.) 및 미국 특허 출원 제13/273,666호에 개시된 디바이스를 포함하며, 상기 특허는 본원에 참고로 통합된다.
위에 설명된 시퀀싱 시스템은 시퀀싱 디바이스에 의해 수용된 샘플에 존재하는 핵산 중합체를 시퀀싱한다. 본원에 정의된 바와 같이, "샘플" 및 이의 파생어는 가장 넓은 의미로 사용되며, 표적을 포함하는 것으로 의심되는 임의의 시료, 배양물 등을 포함한다. 일부 실시예에서, 샘플은 DNA, RNA, PNA, LNA, 키메라 또는 혼성 형태의 핵산을 포함한다. 샘플은 하나 이상의 핵산을 함유하는 임의의 생물학적, 임상적, 외과적, 농업적, 대기 또는 수생 기반의 시료를 포함할 수 있다. 용어는 또한, 게놈 DNA, 신선-동결 또는 포르말린-고정 파라핀-함몰 핵산 시료와 같은 임의의 단리된 핵산 샘플을 포함한다. 또한, 샘플은 단일 개체, 유전적으로 관련된 구성원으로부터의 핵산 샘플의 수집물, 유전적으로 관련되지 않은 구성원으로부터의 핵산 샘플, 종양 샘플 및 정상 조직 샘플과 같은 단일 개체로부터의 (매칭된) 핵산 샘플, 또는 모체 및 모체 대상으로부터 수득된 태아 DNA와 같은 2개의 개별 형태의 유전 물질을 함유하는 단일 공급원으로부터의 샘플, 또는 식물 또는 동물 DNA를 함유하는 샘플 내 오염성 박테리아 DNA의 존재로부터의 것일 수 있다는 것이 구상된다. 일부 실시예에서, 핵산 물질의 공급원은, 예를 들어 전형적으로 신생아 스크리닝에 사용되는 바와 같이, 신생아로부터 수득된 핵산을 포함할 수 있다.
핵산 샘플은 게놈 DNA(gDNA)와 같은 고분자량 물질을 포함할 수 있다. 샘플은 FFPE 또는 보관된 DNA 샘플로부터 수득된 핵산 분자와 같은 저분자량 물질을 포함할 수 있다. 다른 실시예에서, 저분자량 물질은 효소적으로 또는 기계적으로 단편화된 DNA를 포함한다. 샘플은 무세포 순환 DNA를 포함할 수 있다. 일부 실시예에서, 샘플은 생검, 종양, 찰과표본(scraping), 면봉, 혈액, 점액, 소변, 혈장, 정액, 모발, 레이저 캡처 마이크로 절개, 수술 절제, 및 다른 임상 또는 실험실 수득 샘플로부터 수득된 핵산 분자를 포함할 수 있다. 일부 실시예에서, 샘플은 역학, 농업, 법의학 또는 병원성 샘플일 수 있다. 일부 실시예에서, 샘플은 인간 또는 포유류 공급원과 같은 동물로부터 수득된 핵산 분자를 포함할 수 있다. 다른 실시예에서, 샘플은 식물, 박테리아, 바이러스 또는 진균과 같은 비포유류 공급원으로부터 수득된 핵산 분자를 포함할 수 있다. 일부 실시예에서, 핵산 분자의 공급원은 보관되거나 멸종된 샘플 또는 종일 수 있다.
또한, 본원에 개시된 방법 및 조성물은 법의학적 샘플로부터의 분절되고/되거나 단편화된 게놈 DNA와 같은 저품질 핵산 분자를 갖는 핵산 샘플을 증폭시키는 데 유용할 수 있다. 일 실시예에서, 법의학적 샘플은 범죄 현장에서 수득한 핵산, 실종자 DNA 데이터베이스에서 수득한 핵산, 법의학 수사와 관련된 실험실에서 수득한 핵산을 포함할 수 있거나 법 집행 기관, 한 명 이상의 군인 또는 이러한 직원이 확보한 법의학적 샘플을 포함할 수 있다. 핵산 샘플은, 예를 들어 구강용 면봉, 종이, 섬유, 또는 타액, 혈액, 또는 다른 체액으로 침지될 수 있는 다른 기질로부터 유래된, 용해물을 함유하는 미정제 DNA 또는 정제된 샘플일 수 있다. 이와 같이, 일부 실시예에서, 핵산 샘플은 게놈 DNA와 같은 DNA의 소량의 또는 단편화된 부분을 포함할 수 있다. 일부 실시예에서, 표적 서열은 혈액, 가래, 혈장, 정액, 소변, 및 혈청을 포함하지만 이로 제한되지 않는 하나 이상의 체액에 존재할 수 있다. 일부 실시예에서, 표적 서열은 모발, 피부, 조직 샘플, 부검 또는 희생자의 유골로부터 수득될 수 있다. 일부 실시예에서, 하나 이상의 표적 서열을 포함하는 핵산은 사망한 동물 또는 인간으로부터 수득될 수 있다. 일부 실시예에서, 표적 서열은 미생물, 식물 또는 곤충학적 DNA와 같은 비-인간 DNA로부터 수득된 핵산을 포함할 수 있다. 일부 실시예에서, 표적 서열 또는 증폭된 표적 서열은 인간 식별의 목적으로 지향된다. 일부 실시예에서, 본 개시는 일반적으로 법의학적 샘플의 특성을 식별하기 위한 방법에 관한 것이다. 일부 실시예에서, 본 개시는 일반적으로 본원에 개시된 하나 이상의 표적 특이적 프라이머 또는 본원에서 개략된 프라이머 설계 기준을 사용하여 설계된 하나 이상의 표적 특이적 프라이머를 사용하는 인간 식별 방법에 관한 것이다. 하나의 실시예에서, 적어도 하나의 표적 서열을 함유하는 법의학적 또는 인간 식별 샘플은 본원에 개시된 표적 특이적 프라이머 중 임의의 하나 이상을 사용하여 또는 본원에 개략된 프라이머 기준을 사용하여 증폭될 수 있다.
신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 소프트웨어, 하드웨어 또는 둘 모두를 포함할 수 있다. 예를 들어, 신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 컴퓨터 판독가능 저장 매체에 저장되고 하나 이상의 컴퓨팅 디바이스의 프로세서에 의해 실행 가능한 하나 이상의 명령어를 포함할 수 있다. 하나 이상의 프로세서에 의해 실행될 때, 신호-대-잡음-인식 염기 호출 시스템(106)의 컴퓨터 실행가능 명령어는 컴퓨팅 디바이스가 본원에 설명된 거품 검출 방법을 수행하게 할 수 있다. 대안적으로, 신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 특정 기능 또는 기능의 그룹을 수행하는 특수 목적 처리 디바이스와 같은 하드웨어를 포함할 수 있다. 추가적으로 또는 대안적으로, 신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 컴퓨터 실행가능 명령어와 하드웨어의 조합을 포함할 수 있다.
또한, 신호-대-잡음-인식 염기 호출 시스템(106)과 관련하여 본원에 설명된 기능을 수행하는 신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 예를 들어 독립형 애플리케이션의 일부로서, 애플리케이션의 모듈로서, 애플리케이션용 플러그-인으로서, 다른 애플리케이션에 의해 호출될 수 있는 라이브러리 기능 또는 기능들, 및/또는 클라우드 컴퓨팅 모델로서 구현될 수 있다. 따라서, 신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 개인용 컴퓨팅 디바이스 또는 모바일 디바이스에서 독립형 애플리케이션의 일부로서 구현될 수 있다. 추가적으로 또는 대안적으로, 신호-대-잡음-인식 염기 호출 시스템(106)의 구성요소는 Illumina BaseSpace, Illumina DRAGEN 또는 Illumina TruSight 소프트웨어를 포함하지만 이에 제한되지 않는 시퀀싱 서비스를 제공하는 임의의 애플리케이션에서 구현될 수 있다. "Illumina", "BaseSpace", "DRAGEN" 및 "TruSight"는 미국 및/또는 기타 국가에서 Illumina, Inc.의 등록 상표 또는 상표이다.
본 개시의 실시예는 아래에서 더 자세히 논의되는 바와 같이, 예를 들어 하나 이상의 프로세서 및 시스템 메모리와 같은 컴퓨터 하드웨어를 포함하는 특수 목적 또는 범용 컴퓨터를 포함하거나 활용할 수 있다. 본 개시의 범위 내의 실시예는 또한 컴퓨터 실행가능 명령어 및/또는 데이터 구조를 전달하거나 저장하기 위한 물리적 및 기타 컴퓨터 판독가능 매체를 포함한다. 특히, 본원에 설명된 프로세스 중 하나 이상은 비일시적 컴퓨터 판독가능 매체에서 구현(embody)되고 하나 이상의 컴퓨팅 디바이스(예를 들어, 본원에 설명된 미디어 콘텐츠 액세스 디바이스 중 임의의 것)에 의해 실행가능한 명령어로서 적어도 부분적으로 구현(implement)될 수 있다. 일반적으로, 프로세서(예를 들어, 마이크로프로세서)는 비일시적 컴퓨터 판독가능 매체(예를 들어, 메모리 등)로부터 명령어를 수신하고 이 명령어를 실행함으로써 본원에 설명된 프로세스 중 하나 이상을 포함하는 하나 이상의 프로세스를 수행한다.
컴퓨터 판독가능 매체는 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스될 수 있는 임의의 사용가능한 매체일 수 있다. 컴퓨터 실행가능 명령어를 저장하는 컴퓨터 판독가능 매체는 비일시적 컴퓨터 판독가능 저장 매체(디바이스)이다. 컴퓨터 실행가능 명령어를 전달하는 컴퓨터 판독가능 매체는 전송 매체이다. 따라서, 제한이 아닌 예시로서, 본 개시의 실시예는 적어도 두 가지의 뚜렷이 상이한 종류의 컴퓨터 판독가능 매체, 즉 비일시적 컴퓨터 판독가능 저장 매체(디바이스)와 전송 매체를 포함할 수 있다.
비일시적 컴퓨터 판독가능 저장 매체(디바이스)는 RAM, ROM, EEPROM, CD-ROM, 솔리드 스테이트 드라이브(SSD)(예를 들어, RAM 기반), 플래시 메모리, 상-변화 메모리(PCM: phase-change memory), 기타 유형의 메모리, 기타 광학 디스크 저장소, 자기 디스크 저장소 또는 기타 자기 저장소 디바이스, 또는 원하는 프로그램 코드 수단을 컴퓨터 실행가능 명령어나 데이터 구조의 형태로 저장하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 기타 매체를 포함한다.
"네트워크"는 컴퓨터 시스템 및/또는 모듈 및/또는 기타 전자 디바이스 간에 전자 데이터의 전송을 가능하게 하는 하나 이상의 데이터 링크로서 정의된다. 정보가 네트워크 또는 다른 통신 연결(유선, 무선 또는 유선과 무선의 조합)을 통해 컴퓨터로 전송되거나 제공될 때, 컴퓨터는 그 연결을 전송 매체로서 적절하게 간주한다. 전송 매체는 컴퓨터 실행가능 명령어나 데이터 구조의 형태로 원하는 프로그램 코드 수단을 전달하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 네트워크 및/또는 데이터 링크를 포함할 수 있다. 상기의 조합이 또한 컴퓨터 판독가능 매체의 범위에 포함되어야 한다.
또한, 다양한 컴퓨터 시스템 구성요소에 도달할 때, 컴퓨터 실행가능 명령어나 데이터 구조 형태의 프로그램 코드 수단은 전송 매체로부터 비일시적 컴퓨터 판독가능 저장 매체(디바이스)로(또는 그 반대로) 자동으로 전송될 수 있다. 예를 들어, 네트워크 또는 데이터 링크를 통해 수신된 컴퓨터 실행가능 명령어 또는 데이터 구조는 네트워크 인터페이스 모듈(예를 들어, NIC) 내의 RAM에 버퍼링된 다음, 결국 컴퓨터 시스템 RAM 및/또는 컴퓨터 시스템에서 덜 휘발성의 컴퓨터 저장 매체(디바이스)로 전송될 수 있다. 따라서, 비일시적 컴퓨터 판독가능 저장 매체(디바이스)는 전송 매체를 또한(또는 심지어 주로) 활용하는 컴퓨터 시스템 구성요소에 포함될 수 있다는 것이 이해되어야 한다.
컴퓨터 실행가능 명령어는 예를 들어, 프로세서에서 실행될 때 범용 컴퓨터, 특수 목적 컴퓨터 또는 특수 목적 처리 디바이스가 특정 기능 또는 기능의 그룹을 수행하게 하는 명령어 및 데이터를 포함한다. 일부 실시예에서, 컴퓨터 실행가능 명령어는 범용 컴퓨터에서 실행되어 범용 컴퓨터를 본 개시의 요소를 구현하는 특수 목적 컴퓨터로 전환시킨다. 컴퓨터 실행가능 명령어는 예를 들어 바이너리, 어셈블리 언어와 같은 중간 형식 명령어, 또는 심지어 소스 코드일 수 있다. 주제가 구조적 특징 및/또는 방법론적 동작에 특이적인 언어로 설명되었지만, 첨부된 청구범위에 정의된 주제는 위에서 기술된 특징이나 동작에 반드시 제한되는 것은 아니라는 것이 이해되어야 한다. 오히려, 기술된 특징 및 동작은 청구범위를 구현하는 예시적인 형태로서 개시된다.
당업자는 본 개시가 개인용 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 메시지 프로세서, 핸드 헬드 디바이스, 다중 프로세서 시스템, 마이크로프로세서 기반의 또는 프로그래밍가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 휴대폰, PDA, 태블릿, 호출기, 라우터, 스위치 등을 포함하는 다양한 유형의 컴퓨터 시스템 구성을 갖는 네트워크 컴퓨팅 환경에서 실시될 수 있다는 것을 이해할 것이다. 본 개시는 또한 네트워크를 통해 (유선 데이터 링크, 무선 데이터 링크에 의해, 또는 유선과 무선 데이터 링크의 조합에 의해) 연결된 로컬 및 원격 컴퓨터 시스템이 둘 모두 작업을 수행하는 분산 시스템 환경에서 실시될 수 있다. 분산 시스템 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 디바이스 둘 모두에 위치될 수 있다.
본 개시의 실시예는 또한 클라우드 컴퓨팅 환경에서도 구현될 수 있다. 본 설명에서 "클라우드 컴퓨팅"은 구성가능한 컴퓨팅 리소스의 공유 풀에 대한 주문형 네트워크 액세스를 가능하게 하는 모델로서 정의된다. 예를 들어, 클라우드 컴퓨팅은 구성가능한 컴퓨팅 리소스의 공유 풀에 대한 유비쿼터스하고 편리한 주문형 액세스를 제공하기 위해 시장에서 사용될 수 있다. 구성가능한 컴퓨팅 리소스의 공유 풀은 가상화를 통해 신속하게 프로비저닝(provisioning)되고, 작은 관리 노력이나 서비스 제공자 상호작용으로 출시된 다음 그에 따라 확장될 수 있다.
클라우드 컴퓨팅 모델은 예를 들어 주문형 셀프 서비스, 광범위한 네트워크 액세스, 리소스 풀링, 신속한 탄력성, 측정된 서비스 등과 같은 다양한 특성으로 구성될 수 있다. 클라우드 컴퓨팅 모델은 또한 예를 들어 SaaS(Software as a Service), PaaS(Platform as a Service) 및 IaaS(Infrastructure as a Service)와 같은 다양한 서비스 모델을 노출할 수 있다. 클라우드 컴퓨팅 모델은 또한 프라이빗 클라우드, 커뮤니티 클라우드, 퍼블릭 클라우드, 하이브리드 클라우드 등과 같은 다양한 배포 모델을 사용하여 배포될 수도 있다. 본 설명과 청구범위에서 "클라우드 컴퓨팅 환경"은 클라우드 컴퓨팅이 사용되는 환경이다.
도 12는 위에서 설명된 프로세스 중 하나 이상을 수행하도록 구성될 수 있는 컴퓨팅 디바이스(1200)의 블록도를 예시한다. 컴퓨팅 디바이스(1200)와 같은 하나 이상의 컴퓨팅 디바이스가 신호-대-잡음-인식 염기 호출 시스템(106) 및 시퀀싱 시스템(104)을 구현할 수 있다는 것을 이해할 수 있을 것이다. 도 12에 도시된 바와 같이, 컴퓨팅 디바이스(1200)는 프로세서(1202), 메모리(1204), 저장 디바이스(1206), I/O 인터페이스(1208) 및 통신 인터페이스(1210)를 포함할 수 있으며, 이는 통신 인프라스트럭처(1212)를 통해 통신 가능하게 결합될 수 있다. 특정 실시예에서, 컴퓨팅 디바이스(1200)는 도 12에 도시된 것보다 더 적거나 더 많은 구성요소를 포함할 수 있다. 다음 단락에서는 도 12에 도시된 컴퓨팅 디바이스(1200)의 구성요소를 추가로 상세하게 설명한다.
하나 이상의 실시예에서, 프로세서(1202)는 컴퓨터 프로그램을 구성하는 명령어와 같은 명령어를 실행하기 위한 하드웨어를 포함한다. 제한이 아닌 예로서, 작업 흐름을 동적으로 수정하기 위한 명령어를 실행하기 위해, 프로세서(1202)는 내부 레지스터, 내부 캐시, 메모리(1204) 또는 저장 디바이스(1206)로부터 명령어를 검색(또는 페치(fetch))하고, 이를 디코딩하고 실행할 수 있다. 메모리(1204)는 프로세서(들)에 의해 실행하기 위한 데이터, 메타데이터 및 프로그램을 저장하는 데 사용되는 휘발성 또는 비휘발성 메모리일 수 있다. 저장 디바이스(1206)는 본원에 설명된 방법을 수행하기 위한 데이터 또는 명령어를 저장하기 위한 하드 디스크, 플래시 디스크 드라이브 또는 기타 디지털 저장 디바이스와 같은 저장소를 포함한다.
I/O 인터페이스(1208)는 사용자가 컴퓨팅 디바이스(1200)에 입력을 제공하고, 그로부터 출력을 수신하고, 그렇지 않으면 컴퓨팅 디바이스(1200)와 데이터를 전송하고 데이터를 수신할 수 있게 해준다. I/O 인터페이스(1208)는 마우스, 키패드 또는 키보드, 터치 스크린, 카메라, 광학 스캐너, 네트워크 인터페이스, 모뎀, 기타 알려진 I/O 디바이스 또는 이러한 I/O 인터페이스의 조합을 포함할 수 있다. I/O 인터페이스(1208)는 그래픽 엔진, 디스플레이(예를 들어, 디스플레이 스크린), 하나 이상의 출력 드라이버(예를 들어, 디스플레이 드라이버), 하나 이상의 오디오 스피커 및 하나 이상의 오디오 드라이버를 포함하지만 이에 제한되지 않는, 사용자에게 출력을 제공하기 위한 하나 이상의 디바이스를 포함할 수 있다. 특정 실시예에서, I/O 인터페이스(1208)는 사용자에게 제시하기 위해 그래픽 데이터를 디스플레이에 제공하도록 구성된다. 그래픽 데이터는 하나 이상의 그래픽 사용자 인터페이스 및/또는 특정 구현을 제공할 수 있는 임의의 다른 그래픽 콘텐츠를 나타낼 수 있다.
통신 인터페이스(1210)는 하드웨어, 소프트웨어, 또는 둘 모두를 포함할 수 있다. 어떤 경우에도, 통신 인터페이스(1210)는 컴퓨팅 디바이스(1200)와 하나 이상의 다른 컴퓨팅 디바이스 또는 네트워크 사이의 통신(예를 들어 패킷 기반의 통신 등)을 위한 하나 이상의 인터페이스를 제공할 수 있다. 제한이 아닌 예로서, 통신 인터페이스(1210)는 이더넷 또는 다른 유선 기반의 네트워크와 통신하기 위한 네트워크 인터페이스 컨트롤러(NIC) 또는 네트워크 어댑터, 또는 무선 네트워크와 통신하기 위한 무선 NIC(WNIC) 또는 무선 어댑터, 예컨대 WI-FI를 포함할 수 있다.
추가적으로, 통신 인터페이스(1210)는 다양한 유형의 유선 또는 무선 네트워크와의 통신을 용이하게 할 수 있다. 통신 인터페이스(1210)는 또한 다양한 통신 프로토콜을 사용하여 통신을 용이하게 할 수 있다. 통신 인프라스트럭처(1212)는 또한 컴퓨팅 디바이스(1200)의 구성요소를 서로 결합하는 하드웨어, 소프트웨어, 또는 둘 모두를 포함할 수 있다. 예를 들어, 통신 인터페이스(1210)는 하나 이상의 네트워크 및/또는 프로토콜을 사용하여 특정 인프라스트럭처에 의해 연결된 복수의 컴퓨팅 디바이스가 서로 통신하여 본원에 기술된 프로세스의 하나 이상의 양태를 수행 가능하도록 할 수 있다. 예시를 위해, 시퀀싱 프로세스는 복수의 디바이스(예를 들어, 클라이언트 디바이스, 시퀀싱 디바이스 및 서버 디바이스(들))가 시퀀싱 데이터 및 에러 통지와 같은 정보를 교환하도록 허용할 수 있다.
전술한 명세서에서, 본 개시는 그의 구체적인 예시적 실시예를 참조하여 설명되었다. 본 개시(들)의 다양한 실시예 및 양태는 본원에 논의된 세부사항을 참조하여 설명되며, 첨부 도면은 다양한 실시예를 예시한다. 위의 설명과 도면은 본 개시를 예시하는 것이며 본 개시를 제한하는 것으로 해석되어서는 안 된다. 본 개시의 다양한 실시예의 완전한 이해를 제공하기 위해 다수의 특정 세부사항이 기술된다.
본 발명은 그의 사상 또는 본질적인 특성으로부터 벗어남이 없이 다른 특정 형태로 구현될 수 있다. 기술된 실시예는 모든 점에서 단지 제한적이 아닌 예시적인 것으로 고려되어야 한다. 예를 들어, 본원에 기술된 방법은 더 적거나 더 많은 단계/동작로 수행될 수 있거나 단계/동작은 다른 순서로 수행될 수 있다. 추가적으로, 본원에 설명된 단계/동작은 서로 병행하여 또는 동일하거나 유사한 단계/동작의 다른 경우와 병행하여 반복되거나 수행될 수 있다. 따라서, 본 출원의 범위는 전술한 설명보다는 첨부된 청구범위에 의해 표시된다. 청구범위의 등가물의 의미 및 범위 내에 있는 모든 변화는 그 범위 내에 포함되는 것으로 간주된다.

Claims (22)

  1. 시스템으로서,
    적어도 하나의 프로세서; 및
    명령어를 포함하는 비일시적 컴퓨터 판독가능 매체
    를 포함하고, 명령어는 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금:
    뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하게 하고;
    상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 상기 신호에 대한 강도 값에 기초하여 상기 신호에 대응하는 스케일링 인자 및 잡음 레벨을 결정하게 하고;
    상기 스케일링 인자 및 상기 잡음 레벨에 기초하여 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성하게 하고;
    염기 호출 품질 모델을 활용하여, 상기 신호-대-잡음비 메트릭에 기초하여 상기 신호에 대응하는 뉴클레오티드 염기 호출의 에러를 추정하는 품질 메트릭을 생성하게 하는, 시스템.
  2. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금, 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 상기 신호에 대한 상기 강도 값에 기초하여 상기 신호에 대응하는 상기 잡음 레벨을:
    상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 상기 신호에 대한 보정된 강도 값을 결정함으로써; 그리고
    상기 신호에 대한 상기 보정된 강도 값에 기초하여 상기 신호에 대응하는 상기 잡음 레벨을 결정함으로써, 결정하게 하는 명령어를 더 포함하는, 시스템.
  3. 제2항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금, 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 상기 신호에 대한 상기 강도 값, 상기 신호에 대응하는 상기 스케일링 인자, 및 상기 신호에 대응하는 보정 오프셋 인자에 기초하여 상기 보정된 강도 값을 결정함으로써 상기 신호에 대한 상기 보정된 강도 값을 결정하게 하는 명령어를 더 포함하는, 시스템.
  4. 제2항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금, 상기 신호에 대한 상기 보정된 강도 값에 기초하여 상기 신호에 대응하는 상기 잡음 레벨을:
    상기 신호에 대응하는 상기 뉴클레오티드 염기 호출에 대한 중심점 강도 값을 결정함으로써; 그리고
    상기 중심점 강도 값 및 상기 신호에 대한 상기 보정된 강도 값 사이의 거리를 결정함으로써,
    결정하게 하는 명령어를 더 포함하는, 시스템.
  5. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금:
    상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 하나 이상의 이전 시퀀싱 사이클에 대한 평균 잡음 레벨을 결정하게 하고;
    상기 뉴클레오티드 샘플 슬라이드에 대한 상기 섹션에 대해, 상기 하나 이상의 이전 시퀀싱 사이클에 대한 상기 평균 잡음 레벨에 기초하여 현재 시퀀싱 사이클에 대한 상기 잡음 레벨을 결정함으로써 상기 신호에 대응하는 상기 잡음 레벨을 결정하게 하는 명령어를 더 포함하는, 시스템.
  6. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금, 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 상기 신호에 대한 상기 강도 값에 기초하여 상기 신호에 대응하는 상기 스케일링 인자를:
    상기 표지된 뉴클레오티드 염기에 대한 측정된 강도와 상기 스케일링 인자를 포함하는 변동 보정 계수 사이의 관계를 결정함으로써;
    상기 측정된 강도와 상기 변동 보정 계수 사이의 관계에 기초하여 에러 함수를 결정함으로써; 및
    상기 스케일링 인자에 대해 상기 에러 함수의 부분 도함수를 생성하여 상기 스케일링 인자를 결정함으로써,
    결정하게 하는 명령어를 더 포함하는, 시스템.
  7. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금, 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션에 대한 상기 신호-대-잡음비 메트릭을 생성함으로써 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대한 상기 신호-대-잡음비 메트릭을 생성하게 하는 명령어를 더 포함하는, 시스템.
  8. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금, 상기 신호-대-잡음비 메트릭에 기초하여 상기 신호에 대응하는 상기 뉴클레오티드 염기 호출의 정확도를 추정하는 Phred 품질 스코어를 생성함으로써 상기 신호-대-잡음비 메트릭에 기초하여 상기 신호에 대응하는 상기 뉴클레오티드 염기 호출의 에러를 추정하는 상기 품질 메트릭을 생성하게 하는 명령어를 더 포함하는, 시스템.
  9. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금:
    신호에 대한 강도 값과 가장 가까운 중심점의 강도 값 사이의 거리 및 상기 신호에 대한 강도 값과 적어도 하나의 추가 중심점에 대한 강도 값 사이의 거리에 기초하여 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대한 순도(chastity) 값을 결정하게 하고;
    상기 염기 호출 품질 모델을 활용하여, 상기 신호-대-잡음비 메트릭 및 상기 순도 값에 기초하여 상기 품질 메트릭을 생성하게 하는 명령어를 더 포함하는, 시스템.
  10. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 시스템으로 하여금:
    상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 복수의 이전 시퀀싱 사이클에 대한 복수의 잡음 레벨을 결정하게 하고;
    시퀀싱 사이클 최신성에 기초하여 상기 복수의 잡음 레벨에 가중 값을 적용함으로써 상기 복수의 이전 시퀀싱 사이클에 대한 가중 평균 잡음 레벨을 결정하게 하고;
    상기 뉴클레오티드 샘플 슬라이드에 대한 상기 섹션에 대해, 상기 복수의 이전 시퀀싱 사이클에 대한 상기 가중 평균 잡음 레벨에 기초하여 현재 시퀀싱 사이클에 대한 상기 잡음 레벨을 결정함으로써 상기 신호에 대응하는 상기 잡음 레벨을 결정하게 하는 명령어를 더 포함하는, 시스템.
  11. 명령어를 저장하는 비일시적 컴퓨터 판독가능 매체로서, 명령어는 적어도 하나의 프로세서에 의해 실행될 때, 컴퓨팅 디바이스로 하여금:
    뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하게 하고;
    상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 상기 신호에 대한 강도 값에 기초하여 상기 신호에 대응하는 스케일링 인자 및 잡음 레벨을 결정하게 하고;
    상기 스케일링 인자 및 상기 잡음 레벨에 기초하여 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성하게 하고;
    상기 신호-대-잡음비 메트릭을 신호-대-잡음비 임계치와 비교하는 것에 기초하여, 뉴클레오티드 염기 호출 데이터 내에 또는 그로부터 상기 신호에 대응하는 뉴클레오티드 염기 호출을 포함하거나 배제하게 하는, 비일시적 컴퓨터 판독가능 매체.
  12. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금, 상기 신호-대-잡음비 메트릭이 상기 신호-대-잡음비 임계치보다 낮다고 결정하는 것에 기초하여 상기 뉴클레오티드 샘플 슬라이드의 섹션 내의 올리고뉴클레오티드의 클러스터에 첨가된 후속 표지된 뉴클레오티드 염기로부터 검출된 후속 신호에 대응하는 후속 뉴클레오티드 염기 호출을 배제하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독가능 매체.
  13. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금, 패턴화된 유동 셀의 웰 또는 비패턴화된 유동 셀의 서브섹션에 대한 상기 신호에 대응하는 상기 뉴클레오티드 염기 호출을 배제하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독가능 매체.
  14. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금, 상기 스케일링 인자 대 상기 잡음 레벨의 비를 결정하기 위해 상기 스케일링 인자를 상기 신호에 균등화함으로써 상기 신호-대-잡음비 메트릭을 생성하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독가능 매체.
  15. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금:
    참조 게놈과 정렬되어 나중에 결정된 게놈 위치에서 성장하는 올리고뉴클레오티드에 통합된 상기 표지된 뉴클레오티드 염기로부터 상기 신호를 검출함으로써 상기 신호를 검출하게 하고;
    상기 신호에 대응하는 상기 게놈 위치에서 상기 뉴클레오티드 염기 호출에 대한 상기 신호-대-잡음비 메트릭을 생성하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독가능 매체.
  16. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금:
    상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 하나 이상의 이전 시퀀싱 사이클에 대한 평균 잡음 레벨을 결정하게 하고;
    상기 뉴클레오티드 샘플 슬라이드에 대한 상기 섹션에 대해, 상기 하나 이상의 이전 시퀀싱 사이클에 대한 상기 평균 잡음 레벨에 기초하여 현재 시퀀싱 사이클에 대한 상기 잡음 레벨을 결정함으로써 상기 신호에 대응하는 상기 잡음 레벨을 결정하게 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독가능 매체.
  17. 방법으로서,
    적어도 하나의 뉴클레오티드 샘플 슬라이드의 섹션 내의 표지된 뉴클레오티드 염기로부터 신호를 검출하는 단계;
    상기 신호 및 상기 신호에 대응하는 잡음 레벨에 기초하여 상기 적어도 하나의 뉴클레오티드 샘플 슬라이드의 섹션에 대한 신호-대-잡음비 메트릭을 생성하는 단계;
    상기 신호-대-잡음비 메트릭에 대한 신호-대-잡음비 범위를 결정하는 단계; 및
    하나 이상의 염기 호출 분포 모델에 따라 상이한 뉴클레오티드 염기에 대응하는 신호를 구별하기 위한 강도-값 경계를, 상기 신호-대-잡음비 범위 중 각각의 신호-대-잡음비 범위에 대해, 생성하는 단계
    를 포함하는, 방법.
  18. 제17항에 있어서, 상기 하나 이상의 염기 호출 분포 모델에 따라 상기 상이한 뉴클레오티드 염기에 대응하는 상기 신호를 구별하기 위한 상기 강도-값 경계를, 상기 신호-대-잡음비 범위 중 각각의 신호-대-잡음비 범위에 대해, 생성하는 단계는,
    제1 염기 호출 분포 모델에 따라 상기 상이한 뉴클레오티드 염기에 대응하는 제1 강도-값 경계 세트를, 제1 신호-대-잡음비 범위에 대해, 생성하는 단계; 및
    제2 염기 호출 분포 모델에 따라 상기 상이한 뉴클레오티드 염기에 대응하는 제2 강도-값 경계 세트를, 제2 신호-대-잡음비 범위에 대해, 생성하는 단계를 포함하고, 상기 제2 강도-값 경계 세트는 상기 제1 강도-값 경계 세트와는 상이한, 방법.
  19. 제18항에 있어서,
    상기 제1 신호-대-잡음비 범위 내의 제1 신호-대-잡음비 메트릭에 대응하고 상기 제1 강도-값 경계 세트 외측 및 상기 제2 강도-값 경계 세트 외측의 강도 값 세트를 갖는 제1 신호를 검출하는 단계;
    상기 제2 신호-대-잡음비 범위 내의 제2 신호-대-잡음비 메트릭에 대응하고 상기 강도 값 세트를 갖는 제2 신호를 검출하는 단계;
    상기 제1 염기 호출 분포 모델에 대한 상기 제1 강도-값 경계 세트에 기초하여 상기 제1 신호에 대한 제1 뉴클레오티드 염기 호출을 생성하는 단계; 및
    상기 제2 염기 호출 분포 모델에 대한 상기 제2 강도-값 경계 세트에 기초하여 상기 제2 신호에 대한 제2 뉴클레오티드 염기 호출을 생성하는 단계
    를 더 포함하는, 방법.
  20. 제17항에 있어서,
    뉴클레오티드 샘플 슬라이드의 섹션 내의 올리고뉴클레오티드의 클러스터로부터의 표지된 뉴클레오티드 염기의 서브세트로부터 신호를 검출하는 단계;
    상기 신호에 기초하여 상기 뉴클레오티드 샘플 슬라이드의 섹션에 대해, 신호-대-잡음비 범위 내에서, 신호-대-잡음비 메트릭을 생성하는 단계; 및
    상기 신호-대-잡음비 범위에 대응하는 상기 강도-값 경계의 강도-값 경계 세트에 기초하여 상기 신호에 대응하는 뉴클레오티드 염기 호출을 결정하는 단계를 더 포함하는, 방법.
  21. 제20항에 있어서,
    상기 뉴클레오티드 샘플 슬라이드의 추가 섹션 내의 올리고뉴클레오티드의 추가 클러스터로부터의 표지된 뉴클레오티드 염기의 추가 서브세트로부터 추가 신호를 검출하는 단계;
    상기 추가 신호에 기초하여 상기 뉴클레오티드 샘플 슬라이드의 추가 섹션에 대해, 추가 신호-대-잡음비 범위 내에서, 추가 신호-대-잡음비 메트릭을 생성하는 단계로서, 상기 추가 신호-대-잡음비 범위는 상기 신호-대-잡음비 범위와는 상이한, 상기 생성하는 단계; 및
    상기 추가 신호-대-잡음비 범위에 대응하는 상기 강도-값 경계의 추가 강도-값 경계 세트에 기초하여 상기 추가 신호에 대응하는 추가 뉴클레오티드 염기 호출을 결정하는 단계
    를 더 포함하는, 방법.
  22. 제17항에 있어서, 상기 하나 이상의 염기 호출 분포 모델에 따라 상기 상이한 뉴클레오티드 염기에 대응하는 상기 신호를 구별하기 위한 상기 강도-값 경계를 생성하는 단계는 상기 신호-대-잡음비 범위 중 각각의 신호-대-잡음비 범위에 대한 하나 이상의 가우시안 분포 모델에 따라 상기 강도-값 경계를 생성하는 단계를 포함하는, 방법.
KR1020237043195A 2021-06-29 2022-06-02 뉴클레오티드 염기 호출 및 염기 호출 품질을 결정하기 위한 신호-대-잡음비 메트릭 KR20240022490A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163216401P 2021-06-29 2021-06-29
US63/216,401 2021-06-29
PCT/US2022/072737 WO2023278927A1 (en) 2021-06-29 2022-06-02 Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality

Publications (1)

Publication Number Publication Date
KR20240022490A true KR20240022490A (ko) 2024-02-20

Family

ID=82483142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237043195A KR20240022490A (ko) 2021-06-29 2022-06-02 뉴클레오티드 염기 호출 및 염기 호출 품질을 결정하기 위한 신호-대-잡음비 메트릭

Country Status (8)

Country Link
US (1) US20220415442A1 (ko)
KR (1) KR20240022490A (ko)
CN (1) CN117730372A (ko)
AU (1) AU2022305321A1 (ko)
BR (1) BR112023026615A2 (ko)
CA (1) CA3224402A1 (ko)
IL (1) IL309308A (ko)
WO (1) WO2023278927A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117497055B (zh) * 2024-01-02 2024-03-12 北京普译生物科技有限公司 神经网络模型训练、碱基测序电信号的片段化方法及装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
ES2407681T3 (es) 2002-08-23 2013-06-13 Illumina Cambridge Limited Nucleótidos modificados para la secuenciación de polinucleótidos.
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP4134667A1 (en) 2006-12-14 2023-02-15 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
EP3077943B1 (en) 2013-12-03 2020-06-03 Illumina, Inc. Methods and systems for analyzing image data
MX2020007904A (es) * 2018-01-26 2020-09-07 Quantum Si Inc Llamado de pulso y base habilitado por maquina de aprendizaje para dispositivos de secuenciacion.
US11210554B2 (en) * 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata

Also Published As

Publication number Publication date
AU2022305321A1 (en) 2024-01-18
CN117730372A (zh) 2024-03-19
BR112023026615A2 (pt) 2024-03-05
WO2023278927A1 (en) 2023-01-05
IL309308A (en) 2024-02-01
CA3224402A1 (en) 2023-01-05
US20220415442A1 (en) 2022-12-29

Similar Documents

Publication Publication Date Title
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
KR20230167028A (ko) 시퀀싱을 위한 뉴클레오티드 샘플 슬라이드 내 거품을 검출하기 위한 기계-학습 모델
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20240127906A1 (en) Detecting and correcting methylation values from methylation sequencing assays
US20230410944A1 (en) Calibration sequences for nucelotide sequencing
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
US20230343415A1 (en) Generating cluster-specific-signal corrections for determining nucleotide-base calls
US20230368866A1 (en) Adaptive neural network for nucelotide sequencing
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
RU2765996C2 (ru) Коррекция фазирования
RU2765996C9 (ru) Коррекция фазирования