KR20240031968A - 염기 호출에 대한 보간 및 적응을 갖는 강도 추출 - Google Patents

염기 호출에 대한 보간 및 적응을 갖는 강도 추출 Download PDF

Info

Publication number
KR20240031968A
KR20240031968A KR1020237045180A KR20237045180A KR20240031968A KR 20240031968 A KR20240031968 A KR 20240031968A KR 1020237045180 A KR1020237045180 A KR 1020237045180A KR 20237045180 A KR20237045180 A KR 20237045180A KR 20240031968 A KR20240031968 A KR 20240031968A
Authority
KR
South Korea
Prior art keywords
feature
target cluster
image
sequencing
center
Prior art date
Application number
KR1020237045180A
Other languages
English (en)
Inventor
압데 알리 후나이드 카갈왈라
에릭 존 오자드
라미 메히오
개빈 데렉 파르나비
니틴 우드파
보 뤼
존 에스 비에셀리
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/511,483 external-priority patent/US11455487B1/en
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20240031968A publication Critical patent/KR20240031968A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/04Recognition of patterns in DNA microarrays

Abstract

개시된 기술은 염기 호출을 위해 서열분석 이미지로부터의 공간적 크로스토크를 감쇠시킨다. 개시된 기술은 바이오센서에 의해 출력된 이미지의 섹션에 액세스하며, 이미지의 섹션은 바이오센서 내의 복수의 클러스터 및 복수의 클러스터에 인접한 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 복수의 픽셀을 포함한다. 복수의 클러스터는 표적 클러스터를 포함한다. 이미지의 섹션은 콘볼루션 커널로 콘볼루션되어, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성한다. 가중된 특징부 값은 표적 클러스터에 할당되며, 가중된 특징부 값은 특징부 맵의 복수의 특징부 값의 하나 이상의 특징부 값에 기반한다. 표적 클러스터에 할당된 가중된 특징부 값은 처리되어 표적 클러스터를 염기 호출한다.

Description

염기 호출에 대한 보간 및 적응을 갖는 강도 추출
우선권 출원
본 출원은 2021년 7월 19일자로 출원된 발명의 명칭이 "염기 호출을 위한 특정 신호 프로파일러"인 미국 가특허 출원 제63/223,408호의 이익 및 우선권을 주장한다(대리인 문서 번호 ILLM 1041-1/IP-2063-PRV). 우선권 출원은 모든 목적을 위해 이로써 참고로 포함된다.
본 출원은 또한 2021년 10월 26일자로 출원된 발명의 명칭이 "보간 및 적응 호출을 사용한 크로스토크 감쇠를 통한 강도 추출"인 미국 정규 특허 출원 제17/511,483호의 이익 및 우선권을 주장한다(대리인 문서 번호 ILLM 1053-1/IP-2214-US).
일반적인 소유권 진술
35 USC §102(b)(2)(C) 및 MPEP §2146.02(I)에 따라, 본 출원인은 본 출원, 미국 가특허 출원 제63/020,449호, 및 본 출원의 유효 출원일보다 나중에 있지 않은 미국 정규 특허 출원 제17/308,035호가 동일인(Illumina, Inc.)에 의해 소유되었거나 이에 양도 의무가 있고, 본 명세서에 지명된 출원인이자 양수인인 Illumina Software, Inc.가 Illumina, Inc.의 전체 지분을 소유한 자회사임을 명시한다.
기술분야
개시된 기술은 인공 지능 유형 컴퓨터 및 디지털 데이터 처리 시스템 및 상응하는 데이터 처리 방법 및 지능 에뮬레이션을 위한 제품(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)에 관한 것이며; 불확실성이 있는 추론을 위한 시스템(예를 들어, 퍼지 로직 시스템), 적응 시스템, 기계 학습 시스템 및 인공 신경망을 포함한다. 특히, 개시된 기술은 데이터를 분석하기 위한 심층 콘볼루션(deep convolutional) 신경망과 같은 심층 신경망을 사용하는 것에 관한 것이다.
참조 문헌
다음은 본 명세서에 충분히 설명된 것처럼 모든 목적을 위해 참고로 포함된다:
2018년 3월 26일자로 출원되고 발명의 명칭이 "미세형광측정기, 유체 시스템 및 플로우 셀 래치 클램프 모듈을 갖춘 감지 장치"인 미국 정규 특허 출원 제15/936,365호;
2019년 9월 11일자로 출원되고 발명의 명칭이 "플로우 셀 및 이와 관련된 방법"인 미국 정규 특허 출원 제16/567,224호;
2019년 6월 12일자로 출원되고 발명의 명칭이 "발광 이미징 장치"인 미국 정규 특허 출원 제16/439,635호;
2017년 5월 12일자로 출원되고 발명의 명칭이 "핵산 서열분석에 유용한 통합 광전자 판독 헤드 및 유체 카트리지"인 미국 정규 특허 출원 제15/594,413호;
2019년 3월 12일자로 출원되고 발명의 명칭이 "대물렌즈를 이용한 형광 이미징을 위한 조명"인 미국 정규 특허 출원 제16/351,193호;
2009년 12월 15일자로 출원되고 발명의 명칭이 "검정 이미저를 위한 동적 자동초점 방법 및 시스템"인 미국 정규 특허 출원 제12/638,770호;
2013년 3월 1일자로 출원되고 발명의 명칭이 "핵산 라이브러리의 역학적 배제 증폭"인 미국 정규 특허 출원 제13/783,043호;
2011년 1월 13일자로 출원되고 발명의 명칭이 "데이터 처리 시스템 및 방법"인 미국 정규 특허 출원 제13/006,206호;
2014년 10월 31일자로 출원되고 발명의 명칭이 "패턴이 있는 물체에 유용한 이미지 분석"인 미국 정규 특허 출원 제14/530,299호;
2014년 12월 3일자로 출원되고 발명의 명칭이 "이미지 데이터 분석 방법 및 시스템"인 미국 정규 특허 출원 제15/153,953호;
2013년 9월 6일자로 출원되고 발명의 명칭이 "복잡한 폴리뉴클레오티드 서열분석에서 고밀도 클러스터의 이미지 분석을 위한 중심 마커"인 미국 정규 특허 출원 제14/020,570호;
2014년 10월 31일자로 출원되고 발명의 명칭이 "패턴이 있는 물체에 유용한 이미지 분석"인 미국 정규 특허 출원 제14/530,299호;
2009년 9월 23일자로 출원되고 발명의 명칭이 "DNA 염기 식별의 정확성을 결정하는 방법 및 시스템"인 미국 정규 특허 출원 제12/565,341호;
2007년 3월 30일자로 출원되고 발명의 명칭이 "합성 분석에 의한 서열분석을 위한 시스템 및 장치"인 미국 정규 특허 출원 제12/295,337호;
2008년 1월 28일자로 출원되고 발명의 명칭이 "이미지 데이터 효율적인 유전자 서열분석 방법 및 시스템"인 미국 정규 특허 출원 제12/020,739호;
2013년 3월 15일자로 출원되고 발명의 명칭이 "생물학적 또는 화학적 분석을 위한 바이오센서와 이를 위한 시스템 및 방법"인 미국 정규 특허 출원 제13/833,619호(대리인 문서 번호 IP-0626-US);
2016년 6월 7일자로 출원되고 발명의 명칭이 "생물학적 또는 화학적 분석용 바이오센서 및 이의 제조방법"인 미국 정규 특허 출원 제15/175,489호(대리인 문서 번호 IP-0689-US);
2013년 4월 26일자로 출원되고 발명의 명칭이 "생물학적 또는 화학적 분석을 위한 마이크로장치 및 바이오센서 카트리지와 이를 위한 시스템 및 방법"인 미국 정규 특허 출원 제13/882,088호(대리인 문서 번호 IP-0462-US);
2012년 9월 21일자로 출원되고 발명의 명칭이 "핵산 서열분석을 위한 방법 및 조성물"인 미국 정규 특허 출원 제13/624,200호(대리인 문서 번호 IP-0538-US);
2019년 3월 21일자로 "인공지능 기반 서열분석을 위한 훈련 데이터 생성"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/821,602호(대리인 문서 번호 ILLM 1008-1/IP-1693-PRV);
2019년 3월 21일자로 "인공지능 기반 서열분석 메타데이터 생성"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/821,618호(대리인 문서 번호 ILLM 1008-3/IP-1741-PRV);
2019년 3월 21일자로 "인공지능 기반 염기 호출"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/821,681호(대리인 문서 번호 ILLM 1008-4/IP-1744-PRV);
2019년 3월 21일자로 "인공지능 기반 품질평가"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/821,724호(대리인 문서 번호 ILLM 1008-7/IP-1747-PRV);
2019년 3월 21일자로 "인공지능 기반 서열분석"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/821,766호(대리인 문서 번호 ILLM 1008-9/IP-1752-PRV);
2019년 6월 14일자로 "인공지능 기반 서열분석을 위한 훈련 데이터 생성"이라는 발명의 명칭으로 출원된 네덜란드 출원 제2023310호(대리인 문서 번호 ILLM 1008-11/IP-1693-NL);
2019년 6월 14일자로 "인공지능 기반 서열분석 메타데이터 생성"이라는 발명의 명칭으로 출원된 네덜란드 출원 제2023311호(대리인 문서 번호 ILLM 1008-12/IP-1741-NL);
2019년 6월 14일자로 "인공지능 기반 염기 호출"이라는 발명의 명칭으로 출원된 네덜란드 출원 제2023312호(대리인 문서 번호 ILLM 1008-13/IP-1744-NL);
2019년 6월 14일자로 "인공지능 기반 품질평가"이라는 발명의 명칭으로 출원된 네덜란드 출원 제2023314호(대리인 문서 번호 ILLM 1008-14/IP-1747-NL);
2019년 6월 14일자로 "인공지능 기반 서열분석"이라는 발명의 명칭으로 출원된 네덜란드 출원 제2023316호(대리인 문서 번호 ILLM 1008-15/IP-1752-NL);
2020년 3월 20일자로 출원되고 발명의 명칭이 "인공지능 기반 서열분석을 위한 훈련 데이터 생성"인 미국 정규 특허 출원 제16/825,987호(대리인 문서 번호 ILLM 1008-16/IP-1693-US);
2020년 3월 20일자로 출원되고 발명의 명칭이 "인공지능 기반 서열분석을 위한 훈련 데이터 생성"인 미국 정규 특허 출원 제16/825,991호(대리인 문서 번호 ILLM 1008-17/IP-1741-US);
2020년 3월 20일자로 출원되고 발명의 명칭이 "인공지능 기반 염기 호출"인 미국 정규 특허 출원 제16/826,126호(대리인 문서 번호 ILLM 1008-18/IP-1744-US);
2020년 3월 20일자로 출원되고 발명의 명칭이 "인공지능 기반 품질평가"인 미국 정규 특허 출원 제16/826,134호(대리인 문서 번호 ILLM 1008-19/IP-1747-US);
2020년 3월 21일자로 출원되고 발명의 명칭이 "인공지능 기반 서열분석"인 미국 정규 특허 출원 제16/826,168호(대리인 문서 번호 ILLM 1008-20/IP-1752-PRV);
2019년 5월 16일자로 "픽셀 기반 서열분석의 특성화 및 성능 분석을 위한 시스템 및 장치"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/849,091호(대리인 문서 번호 ILLM 1011-1/IP-1750-PRV);
2019년 5월 16일자로 "콘볼루션을 사용한 염기 호출"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/849,132호(대리인 문서 번호 ILLM 1011-2/IP-1750-PR2);
2019년 5월 16일자로 "콘볼루션을 사용한 염기 호출"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/849,133호(대리인 문서 번호 ILLM 1011-3/IP-1750-PR3);
2020년 2월 20일자로 "인공지능 기반 인덱스 서열분석의 염기 호출"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/979,384호(대리인 문서 번호 ILLM 1015-1/IP-1857-PRV);
2020년 2월 20일자로 "인공지능 기반 다대다 염기 호출"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/979,414호(대리인 문서 번호 ILLM 1016-1/IP-1858-PRV);
2020년 2월 20일자로 "인공지능 기반 염기 호출자의 지식 증류 기반 압축"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/979,385호(대리인 문서 번호 ILLM 1017-1/IP-1859-PRV);
2020년 2월 20일자로 "다중 사이클 클러스터 기반 실시간 분석 시스템"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/979,412호(대리인 문서 번호 ILLM 1020-1/IP-1866-PRV);
2020년 2월 20일자로 "인공지능 기반 염기 호출을 위한 데이터 압축"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/979,411호(대리인 문서 번호 ILLM 1029-1/IP-1964-PRV);
2020년 5월 5일자로 출원된 "등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"라는 명칭의 미국 임시 특허 출원 제63/020,449호(대리인 문서 번호 ILLM 1032-1/IP-1991-PRV);
2020년 5월 5일자로 출원된 "등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"라는 명칭의 미국 임시 특허 출원 제17/308,035호(대리인 문서 번호 ILLM 1032-2/IP-1991-US); 및
2020년 2월 20일자로 "인공 지능 기반 염기 호출을 위한 압착 레이어"이라는 발명의 명칭으로 출원된 미국 가특허 출원 제62/979,399호(대리인 문서 번호 ILLM 1030-1/IP-1982-PRV).
이 섹션에서 논의되는 주제는 이 섹션에서 언급된 결과만으로 선행기술로 가정되어서는 안 된다. 마찬가지로, 이 섹션에서 언급되거나 배경으로 제공된 주제와 관련된 문제는 선행기술에서 이전에 인식된 것으로 가정되어서는 안 된다. 이 섹션의 주제는 단지 다양한 접근법을 나타낼 뿐이며, 그 자체로 청구된 기술의 구현에 해당할 수도 있다.
계산 능력에서의 신속한 개선은 유의하게 개선된 정확도를 갖는 많은 컴퓨터 비전 태스크에 대해 최근 수년간 심층 콘볼루션 신경망(CNN: convolution neural network)을 큰 성공으로 만들었다. 추론 페이즈(phase)동안, 많은 애플리케이션은 그래픽 처리 유닛(GPU: graphics processing unit) 및 다른 범용 플랫폼의 효율을 감소시키는 가혹한 전력 소비 요건을 갖는 하나의 이미지의 낮은 레이턴시 처리를 요구하여, 심층 학습 알고리즘 추론에 대해 특정적인 디지털 회로를 커스텀화함으로써 특정 가속화 하드웨어, 예를 들어 필드 프로그래밍가능 게이트 어레이(FPGA: field programmable gate array)에 기회를 가져온다. 그러나, 휴대용 및 임베디드 시스템에 CNN을 배치하는 것은 큰 데이터 볼륨, 집중적인 연산, 다양한 알고리즘 구조, 및 빈번한 메모리 액세스로 인해 여전히 도전적이다.
콘볼루션이 CNN에서 대부분의 연산에 기여함에 따라, 콘볼루션 가속화 스킴은 하드웨어 CNN 가속기의 효율 및 성능에 유의하게 영향을 미친다. 콘볼루션은 커널 및 특징부 맵(feature map)을 따라 슬라이딩하는 4개의 레벨의 루프와의 승산 누적(MAC: multiply and accumulate) 연산을 수반한다. 제1 루프 레벨은 커널 윈도우 내의 픽셀의 MAC를 연산한다. 제2 루프 레벨은 상이한 입력 특징부 맵에 걸쳐 MAC의 곱셈의 합을 누산한다. 제1 및 제2 루프 레벨을 완료한 후, 바이어스를 추가함으로써 출력 특징부 맵에서 최종 출력 요소가 얻어진다. 제3 루프 레벨은 입력 특징부 맵 내에서 커널 윈도우를 슬라이딩한다. 제4 루프 레벨은 상이한 출력 특징부 맵을 생성한다.
FPGA는 그들의 (1) 고도의 재구성 가능성, (2) CNN의 빠른 진화를 따라잡기 위한, 주문형 집적 회로(ASIC: application specific integrated circuit)에 비해 더 빠른 개발 시간, (3) 양호한 성능, 및 (4) GPU에 비해 우수한 에너지 효율로 인해, 특히 추론 태스크를 가속화하기 위해 증가하는 관심 및 인기를 얻어왔다. FPGA의 높은 성능 및 효율은 특정 연산을 위해 커스텀화되는 회로를 합성하여 커스텀화된 메모리 시스템으로 수십억 회의 연산을 직접 처리함으로써 실현될 수 있다. 예를 들어, 최신 FPGA들 상의 수백 내지 수천 개의 디지털 신호 처리(DSP: digital signal processing) 블록은 높은 병렬성과 함께 코어 콘볼루션 연산, 예를 들어, 곱셈 및 덧셈을 지원한다. 외부 온-칩 메모리와 온-칩 처리 엔진(PE: processing engine) 사이의 전용 데이터 버퍼는, FPGA 칩 상에 수십 Mbyte 온-칩 블록 랜덤 액세스 메모리(BRAM: block random access memory)를 구성함으로써 바람직한 데이터 흐름을 실현하도록 설계될 수 있다.
높은 성능을 달성하기 위해 리소스 활용을 최대화하면서 데이터 통신을 최소화하기 위해, CNN 가속화의 효율적인 데이터 흐름 및 하드웨어 아키텍처가 요구된다. 높은 성능, 효율 및 유연성을 갖는 가속화 하드웨어 상에서 다양한 CNN 알고리즘의 추론 프로세스를 가속화하기 위한 방법론 및 프레임워크를 설계할 기회가 발생한다. CNN 알고리즘 및 기타 기계 학습 알고리즘은 생물학적 서열분석 기계를 사용하여 알려지지 않은 뉴클레오티드의 염기(예를 들어, A, C, T 또는 G) 호출을 포함하여 다양한 응용 분야에 적용될 수 있다.
생물학적 또는 화학적 연구에서의 다양한 프로토콜은 국소 지지 표면 상에서 또는 사전에 정해진 반응 챔버 내에서 다수의 제어된 반응을 수행하는 것을 수반한다. 이어서, 바람직한 반응을 관찰하거나 검출할 수 있으며, 후속 분석은 반응에 수반된 화학물질의 속성을 식별하거나 드러내는 것을 도울 수 있다. 예를 들어, 일부 다중 검정에서, 식별 가능한 표지(예를 들어, 형광 표지)를 갖는 미지의 분석물이 제어된 조건 하에서 수천 개의 알려진 프로브에 노출될 수 있다. 각각의 알려진 프로브는 마이크로플레이트의 상응하는 웰(well) 내에 침착될 수 있다. 알려진 프로브와 웰 내의 미지의 분석물 사이에서 발생하는 임의의 화학 반응을 관찰하는 것은 분석물의 속성을 식별하거나 드러내는 것을 도울 수 있다. 이러한 프로토콜의 다른 예는 합성에 의한 서열분석(sequencing-by-synthesis) 또는 사이클릭-어레이 서열분석(cyclic-array sequencing)과 같은 알려진 DNA 서열분석 프로세스를 포함한다. 사이클릭-어레이 서열분석에서, DNA 특징부의 조밀한 어레이(예를 들어, 템플릿 핵산)가 효소 조작의 반복적 사이클을 통해 서열분석된다. 각각의 사이클 후에, 이미지가 캡처되고, 후속적으로, 다른 이미지로 분석되어 DNA 특징부의 서열을 결정하도록 할 수 있다.
보다 구체적인 예로서, 하나의 알려진 DNA 서열분석 시스템은 파이로서열분석(pyrosequencing) 프로세스를 사용하고, 수백만 개의 웰을 갖는 융합된 광섬유 면판(fused fiber-optic faceplate)을 갖는 칩을 포함한다. 관심 게놈으로부터 클론 증폭된 sstDNA를 갖는 단일 캡처 비드가 각각의 웰에 침착된다. 캡처 비드이 웰에 침착된 후, 면판을 따라 특이적 뉴클레오티드를 함유하는 용액을 유동시킴으로써 뉴클레오티드이 웰에 순차적으로 첨가된다. 웰 내의 환경은, 특정 웰을 통해 유동하는 뉴클레오티드가 상응하는 캡처 비드 상의 DNA 가닥을 보완하는 경우, 뉴클레오티드가 DNA 가닥에 첨가되도록 한다. DNA 가닥의 콜로니는 클러스터라고 불린다. 클러스터에 뉴클레오티드를 혼입하는 것은, 궁극적으로는 화학발광 광 신호를 생성하는 프로세스를 개시한다. 시스템은, 면판에 직접 인접하게 포지셔닝되고 웰 내의 DNA 클러스터로부터의 광 신호를 검출하도록 구성된 CCD 카메라를 포함한다. 파이로서열분석 프로세스 전반에 걸쳐 촬영된 이미지의 후속 분석은 관심 게놈의 서열을 결정할 수 있다.
그러나, 다른 시스템에 더하여, 상기의 파이로서열분석 시스템은 소정 제한을 가질 수 있다. 예를 들어, 광섬유 면판은 수백만 개의 작은 웰을 만들기 위해 산 에칭(acid-etch)된다. 웰이 서로 개략적으로 이격될 수 있지만, 다른 인접한 웰과 관련한 웰의 정밀한 위치를 아는 것은 어렵다. CCD 카메라가 면판에 직접 인접하게 포지셔닝될 때, 웰은 CCD 카메라의 픽셀을 따라 균일하게 분포되지 않고, 이와 같이, 웰은 픽셀과 알려진 방식으로 정렬되지 않는다. 공간적 크로스토크는 인접한 웰 사이의 웰간 크로스토크(inter-well crosstalk)이고, 후속 분석에서 관심 웰로부터의 진정한 광 신호를 다른 원하지 않는 광 신호와 구별하는 것을 어렵게 만든다. 또한, 형광 방출물은 실질적으로 등방성이다. 분석물의 밀도가 증가함에 따라, 인접한 분석물로부터의 원하지 않는 광 방출물(예를 들어, 크로스토크)을 관리하거나 처리하는 것은 점점 더 어려워지게 된다. 그 결과, 서열분석 사이클 동안 기록된 데이터는 주의하여 분석되어야 한다.
염기 호출 정확도는 고처리량 DNA 서열분석 및 하류 분석, 예를 들어 판독 맵핑 및 게놈 조립에 중요하다. 인접한 클러스터 사이의 공간적 크로스토크는 서열분석 오차의 큰 부분을 차지한다. 따라서, 클러스터 강도 데이터에서 공간적 크로스토크를 보정함으로써 DNA 서열분석 오차을 감소시키고 염기 호출 정확도를 개선시키기 위한 기회가 발생한다.
도면에서, 유사한 도면 부호는, 대체로, 상이한 도면 전체에 걸쳐서 유사한 부분을 지칭한다. 또한, 도면은 반드시 축척대로인 것은 아니며, 그 대신, 대체적으로, 개시된 기술의 원리를 예시할 시에 강조된다. 하기의 설명에서, 개시된 기술의 다양한 구현이 하기의 도면을 참조하여 기술된다.
도 1은 다양한 구현예에서 사용될 수 있는 바이오센서의 단면을 도시한다.
도 2는 타일 내에 클러스터를 포함하는 플로우 셀의 일 구현을 도시한다.
도 3은 8개의 레인이 있는 예시적인 플로우 셀을 도시하고, 또한 하나의 타일과 이의 클러스터 및 이들 주변 배경을 확대한 것을 도시한다.
도 4는 염기 호출 센서 출력과 같은 서열분석 시스템으로부터의 센서 데이터의 분석을 위한 시스템의 단순화된 블록도이다.
도 5는 호스트 프로세서에 의해 실행되는 실행 시간 프로그램의 기능을 포함한 염기 호출 동작의 양태를 보여주는 단순화된 도면이다.
도 6은 도 4의 것과 같은 구성 가능한 프로세서의 구성의 단순화된 도면이다.
도 7은 샤프닝 마스크(들)를 생성하고/하거나 업데이트하는 시스템을 도시한다.
도 8a는 플로우 셀의 상응하는 영역에 대해 생성된 서열분석 이미지의 상응하는 섹션에 대해 사용되는 복수의 샤프닝 마스크를 도시하며, 플로우 셀의 각각의 타일은 3×3 서브 타일 영역으로 분할되고, 각각의 서브 타일 영역은 하나 이상의 상응하는 샤프닝 마스크를 할당받는다.
도 8b는 플로우 셀의 상응하는 영역에 대해 생성된 서열분석 이미지의 상응하는 섹션에 대해 사용되는 복수의 샤프닝 마스크를 도시하며, 플로우 셀의 각각의 타일은 1×9개의 서브 타일 영역으로 분할되고, 각각의 서브 타일 영역은 하나 이상의 상응하는 샤프닝 마스크를 할당받는다.
도 8c는 플로우 셀의 상응하는 영역에 대해 생성된 서열분석 이미지의 상응하는 섹션에 대해 사용되는 복수의 샤프닝 마스크를 도시하며, 플로우 셀의 각각의 타일은 다수의 주기적으로 발생하는 서브 타일 영역으로 분할되며, 이때 타일에서 주기적으로 발생하는 유사한 서브 영역이 하나 이상의 상응하는 샤프닝 마스크에 할당된다.
도 9a는 훈련 동안 오차 계산을 위한 실측 자료 값으로 사용되는 염기별 강도 표적을 자신의 중심에 포함하는 염기별 가우스 피팅의 하나의 구현을 도시한다.
도 9b는 염기 호출자를 훈련시키는 데 사용될 수 있는 적응적 기술의 일 구현을 도시한다.
도 10a 내지 도 10k는, 조합되어, 센서 픽셀로부터의 공간적 크로스토크를 감쇠시키고 크로스토크 보정된 센서 데이터를 사용하여 클러스터를 염기 호출하기 위해 훈련된 샤프닝 마스크를 사용하는 다양한 구현을 도시한다.
도 11a는 서열분석 이미지의 적어도 섹션의 콘볼루션 및 후속 보간에 기반하여, 하나 이상의 가중된 특징부 값을 클러스터에 할당하고, 할당된 하나 이상의 가중된 특징부 값에 기반하여 클러스터를 염기 호출하는 방법을 도시한다.
도 11b는 샤프닝 마스크를 사용한 개시된 강도 추출 기술의 성능 결과의 비교를 도시하며, 이때 다양한 다른 강도 추출 기술은 염기 호출과 연관된다.
도 11c는 염기 호출의 다양한 다른 기술과 함께 샤프닝 마스크를 사용하는 개시된 기술의 다른 성능 결과의 비교를 도시한다.
도 12는 서열분석 이미지의 적어도 섹션의 콘볼루션 및 후속 보간에 기반하여, 하나 이상의 가중된 특징부 값을 클러스터에 할당하는 염기 호출하고, 할당된 하나 이상의 가중된 특징부 값에 기반하여 클러스터를 염기 호출하는 것에 기반하여 염기 호출하는 방법을 도시하며, 샤프닝 마스크의 계수는 서열분석 실행 동안 적응적으로 업데이트된다.
도 13은 강도 추출에 대해 사용되는 샤프닝 마스크의 계수의 적응을 도시한다.
도 14는 샤프닝 마스크 및 적응을 사용한 개시된 강도 추출 기술의 성능 결과의 비교를 도시하며, 이때 다른 강도 추출 기술은 적응을 사용하지 않는다.
도 15는 샤프닝 마스크 및 적응을 사용한 개시된 강도 추출 기술의 성능 결과의 비교를 도시하며, 이때 다른 강도 추출 기술은 적응을 사용하지 않는다.
도 16은 개시된 기술을 구현하는 데 사용될 수 있는 컴퓨터 시스템이다.
다음의 설명은 통상적으로, 특정 구조적 구현 및 방법을 참조할 것이다. 기술을 구체적으로 개시된 구현 및 방법으로 제한하려는 의도는 없지만, 그 기술은 다른 특징부, 요소, 방법 및 구현을 사용하여 실시될 수 있다는 것이 이해될 것이다. 바람직한 구현은 청구범위에 의해 정의되는 이의 범주를 제한하기 위한 것이 아니라, 본 발명의 기술을 예시하기 위해 기술된다. 당업자는 하기에 뒤따르는 설명에 대한 다양한 등가의 변형을 인식할 것이다.
본 명세서에 대해 사용된 바와 같이, 용어 "폴리뉴클레오티드" 또는 "핵산"은 데옥시리보핵산(DNA)을 나타내지만, 적절한 경우, 당업자는, 본 명세서의 시스템 및 장치가 또한 리보핵산(RNA)과 함께 이용될 수 있다는 것을 인식할 것이다. 이러한 용어는, 뉴클레오티드 유사체로 제조된 DNA 또는 RNA의 유사체를 등가물로 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용된 바와 같은 이러한 용어는 또한 예를 들어 역전사효소의 작용에 의해 RNA 주형으로부터 생성된 상보적 또는 복제 DNA인 cDNA를 포함한다.
본 명세서에서 시스템 및 장치에 의해 서열분석된 단일 가닥 폴리뉴클레오티드 분자는 단일 가닥 형태로, DNA 또는 RNA로 유래될 수 있거나, 이중 가닥 DNA(dsDNA) 형태(예를 들어, 게놈 DNA 단편, PCR 및 증폭 생성물 등)로 유래될 수 있다. 따라서, 단일 가닥 폴리뉴클레오티드는 폴리뉴클레오티드 이중체의 센스 또는 안티센스 가닥일 수 있다. 표준 기술을 사용하여 본 발명의 방법에서 사용하는 데 적합한 단일 가닥 폴리뉴클레오타이드 분자를 제조하는 방법은 당업계에 공지되어 있다. 1차 폴리뉴클레오타이드 분자의 정확한 서열은 일반적으로 본 발명에서 중요하지 않으며, 알려져 있거나 알려져 있지 않을 수 있다. 단일 가닥 폴리뉴클레오티드 분자는 인트론 및 엑손 서열(코딩 서열)뿐 아니라, 프로모터 및 인핸서 서열과 같은 비코딩 조절 서열을 포함하는 게놈 DNA 분자(예를 들어, 인간 게놈 DNA)를 나타낼 수 있다.
특정 구현예에서, 본 발명의 사용을 통한 서열분석될 핵산은 기재(예를 들어, 플로우 셀 내의 기재 또는 플로우 셀과 같은 기재 상의 하나 이상의 비드 등) 상에 고정화된다. 본 명세서에 대해 사용된 바와 같은 용어 "고정화된"은 명시적으로 또는 문맥에 의해 달리 지시되지 않는 한, 직접 또는 간접, 공유적 또는 비공유적 부착을 포함하는 것으로 의도된다. 특정 구현예에서, 공유적 부착이 바람직할 수 있으나, 일반적으로 요구되는 모든 것은 분자(예를 들어, 핵산)가, 예를 들어 핵산 서열분석이 요구되는 적용분야에서 지지체를 사용하도록 의도된 조건 하에 지지체에 고정되거나, 부착된 상태로 유지되는 것이다.
본 명세서에 기재된 바와 같이, 용어 "고체 지지체"(또는 특정 용도에서 "기재")는, 예를 들어 유리 표면, 플라스틱 표면, 라텍스, 덱스트란, 폴리스티렌 표면, 폴리프로필렌 표면, 폴리아크릴아미드 겔, 금 표면, 및 실리콘 웨이퍼와 같은 핵산이 부착될 수 있는 임의의 불활성 기재 또는 매트릭스로 지칭될 수 있다. 많은 구현예에서, 고체 지지체는 유리 표면(예를 들어, 플로우 셀 채널의 평면)이다. 특정 구현예에서, 고체 지지체는, 예를 들어, 폴리뉴클레오티드와 같은 분자에 대한 공유적 부착을 허용하는 반응성 기를 포함하는 중간 재료의 층 또는 코팅을 적용함으로써, "작용화된" 불활성 기재 또는 매트릭스를 포함할 수 있다. 비제한적인 예로서, 이러한 지지체는 유리와 같은 불활성 기재 상에 지지된 폴리아크릴아미드 하이드로겔을 포함할 수 있다. 이러한 구현예에서, 분자(폴리뉴클레오티드)는 중간 물질(예를 들어, 하이드로겔)에 직접 공유적으로 부착될 수 있지만, 중간 물질 자체는 기재 또는 매트릭스(예를 들어, 유리 기재)에 비공유적으로 부착될 수 있다. 따라서 고체 지지체에 대한 공유적 부착은 이러한 유형의 배열을 포함하는 것으로 해석되어야 한다.
위에 나타낸 바와 같이, 본 발명은 핵산을 서열분석하기 위한 신규한 시스템 및 장치를 포함한다. 당업자에게 명백한 바와 같이, 특정 핵산 서열에 대한 본 명세서의 언급은, 문맥에 따라, 이러한 핵산 서열을 포함하는 핵산 분자를 또한 지칭할 수 있다. 표적 단편의 서열분석은 염기의 연대기적 순서의 판독이 확립됨을 의미한다. 판독된 염기는 인접할 필요가 없지만, 이는 바람직하지도 않고, 서열분석 동안 전체 단편 상의 모든 염기도 서열분석되어야 한다. 서열분석은 임의의 적합한 서열분석 기술을 사용하여 수행될 수 있으며, 뉴클레오티드 또는 올리고뉴클레오티드는 유리 3' 하이드록실 기에 연속적으로 첨가되어, 5'에서 3' 방향으로 폴리뉴클레오티드 사슬의 합성을 초래한다. 첨가된 뉴클레오티드의 특성은 바람직하게는 각각의 뉴클레오티드 첨가 후에 결정된다. 라이게이션에 의한 서열분석을 사용하는 서열분석 기술은, 모든 인접한 염기가 서열분석되지 않고, 표면 상의 가닥이 추가되기보다는 염기가 제거되는 대량 병렬 서명 서열분석(MPSS)과 같은 기술이 또한 본 발명의 시스템 및 장치와 함께 사용할 수 있다.
특정 구현예에서, 본 발명은 합성에 의한 서열분석(SBS)을 개시한다. SBS에서, 4개의 형광 표지된 변형된 뉴클레오티드가 기재(예를 들어, 플로우 셀)의 표면 상에 존재하는 증폭된 DNA(가능하게는 수백만 개의 클러스터)의 조밀한 클러스터를 서열분석하는 데 사용된다. 본 명세서에서 시스템 및 장치와 함께 이용될 수 있는 SBS 절차 및 방법에 관한 다양한 추가적인 양태는, 예를 들어, WO04018497, WO04018493 및 미국 특허 제7,057,026호(뉴클레오타이드), WO05024010 및 WO06120433(중합효소), WO05065814(표면 부착 기술), 및 WO 9844151, WO06064199 및 WO07010251에 개시되어 있으며, 이들 각각의 내용은 전체적으로 본 명세서에 참고로 포함된다.
본 명세서의 시스템/장치의 특정 용도에서, 서열분석을 위한 핵산 샘플을 포함하는 플로우 셀이 적절한 플로우 셀 홀더 내에 배치된다. 서열분석을 위한 샘플은 단일 분자의 형태, 클러스터 형태의 증폭된 단일 분자, 또는 핵산의 분자를 포함하는 비드를 취할 수 있다. 핵산은 이들이 미지의 표적 서열에 인접한 올리고뉴클레오티드 프라이머를 포함하도록 제조된다. 제1 SBS 서열분석 사이클을 개시하기 위해, 하나 이상의 상이하게 표지된 뉴클레오티드, 및 DNA 중합효소 등이 유체 유동 서브 시스템(이의 다양한 구현예는 본 명세서에 기재됨)에 의해 플로우 셀 내로/이를 통해 유동된다. 단일 유형의 뉴클레오티드가 한 번에 첨가될 수 있거나, 또는 서열분석 절차에 대해 사용되는 뉴클레오티드가 가역적 종결 속성을 갖도록 특별히 설계될 수 있어서, 이에 따라, 서열분석 반응의 각각의 사이클이 4개의 표지된 뉴클레오티드(예를 들어, A, C, T, G)가 모두 존재하는 경우에 동시에 발생할 수 있게 한다. 4개의 뉴클레오티드가 함께 혼합되는 경우, 중합효소는 혼입할 정확한 염기를 선택할 수 있고, 각각의 서열은 단일 염기에 의해 확장된다. 시스템을 사용하는 이러한 방법에서, 모든 4개의 대안 사이의 자연적인 경쟁은 반응 혼합물에 단지 하나의 뉴클레오티드만이 존재하는 것보다 더 높은 정확도로 이어진다(따라서, 대부분의 서열은 정확한 뉴클레오티드에 노출되지 않는다). 특정 염기가 서로 반복되는 서열(예를 들어, 단일중합체)은 임의의 다른 서열과 같이 그리고 높은 정확도로 해결된다.
유체 유동 서브 시스템은 또한 적절한 시약을 유동시켜, 블로킹된 3' 말단(적절한 경우) 및 각각의 혼입된 염기로부터의 형광단을 제거한다. 기재는 4개의 차단된 뉴클레오티드의 제2 라운드, 또는 선택적으로 상이한 개별 뉴클레오티드로 제2 라운드 중 하나에 노출될 수 있다. 이어서, 이러한 사이클이 반복되고, 각각의 클러스터의 서열은 다수의 화학 사이클에 걸쳐 판독된다. 본 발명의 컴퓨터 양태는 선택적으로 각각의 단일 분자, 클러스터 또는 비드로부터 수집된 서열 데이터를 정렬시켜 더 긴 중합체의 서열을 결정한다. 대안적으로, 이미지 처리 및 정렬은 별도의 컴퓨터 상에서 수행될 수 있다.
시스템의 가열/냉각 성분은 플로우 셀 채널 및 시약 저장 영역/용기 (및 선택적으로 카메라, 광학, 및/또는 다른 구성요소) 내의 반응 조건을 조절하는 반면, 유체 유동 성분은 기재 표면이 혼입(예를 들어, 적절한 형광 표지된 뉴클레오타이드가 혼입됨)을 위해 적합한 시약에 노출되는 동안, 혼입되지 않은 시약이 헹구어진다. 플로우 셀이 배치되는 선택적인 가동 스테이지는 플로우 셀이 기재의 레이저(또는 다른 광) 여기에 대해 적절한 배향으로 되게 하고, 선택적으로 렌즈 대물렌즈와 관련하여 이동하여 기재의 상이한 영역의 판독을 허용한다. 또한, 시스템의 다른 구성요소는 또한 선택적으로 이동/조정 가능하다(예를 들어, 카메라, 렌즈 대물렌즈, 히터/냉각기 등). 레이저 여기 동안, 기재 상의 핵산으로부터의 방출된 형광의 이미지/위치는 카메라 구성요소에 의해 캡처되어, 컴퓨터 구성요소에서, 각각의 단일 분자, 클러스터 또는 비드에 대한 제1 염기의 아이덴티티를 기록한다.
본 명세서에 기술된 구현예는 학문적 또는 상업적 분석을 위한 다양한 생물학적 또는 화학적 프로세스 및 시스템에서 사용될 수 있다. 보다 구체적으로, 본 명세서에 기술된 구현예는, 원하는 반응을 나타내는 사건, 속성, 품질, 또는 특성을 검출하는 것이 요구되는 다양한 프로세스 및 시스템에서 사용될 수 있다. 예를 들어, 본 명세서에 기술된 구현예는 카트리지, 바이오센서, 및 그 구성요소뿐만 아니라 카트리지 및 바이오센서와 함께 작동하는 바이오어세이 시스템을 포함한다. 특정 구현예에서, 카트리지 및 바이오센서는 실질적으로 단일 구조로 함께 커플링되는 플로우 셀 및 하나 이상의 센서, 픽셀, 광 검출기, 또는 광다이오드를 포함한다.
특정 구현예에 대한 다음의 상세한 설명은 첨부된 도면과 함께 읽을 때 더 잘 이해될 것이다. 도면이 다양한 구현예의 기능 블록의 다이어그램을 예시하는 한, 기능 블록은 반드시 하드웨어 회로 사이의 분할을 나타내는 것은 아니다. 따라서, 예를 들어, 기능 블록 중 하나 이상(예를 들어, 프로세서 또는 메모리)은 단일 부분의 하드웨어(예를 들어, 범용 신호 프로세서 또는 랜덤 액세스 메모리, 하드 디스크 등)에서 구현될 수 있다. 유사하게, 프로그램은 독립형 프로그램일 수 있고, 운영 체제의 서브 루틴으로 통합될 수 있으며, 설치된 소프트웨어 패키지에서의 기능일 수 있는 등이다. 다양한 구현예가 도면에 도시된 배열 및 수단으로 제한되지 않는다는 것을 이해해야 한다.
본 명세서에 대해 사용되는 바와 같이, 단수 형태로 언급되고 단어 "a" 또는 "an"에 뒤따르는 요소 또는 단계는 복수의 상기 요소 또는 단계를 배제하지 않는 것으로(이러한 배제가 명시적으로 언급되지 않는 한) 이해되어야 한다. 또한, "일 구현예"에 대한 언급은 언급된 특징부를 또한 포함하는 추가 구현예의 존재를 배제하는 것으로 해석되도록 의도되지 않는다. 더욱이, 명시적으로 반대로 언급되지 않는 한, 특정 성질을 갖는 하나의 요소 또는 복수의 요소를 "포함하는" 또는 "갖는" 구현예는 이러한 성질을 갖든 그렇지 않든 간에 추가 요소를 포함할 수 있다.
본 명세서에 대해 사용된 바와 같이, "원하는 반응"은 관심 분석물의 화학적, 전기, 물리적, 또는 광학 속성(또는 품질) 중 적어도 하나의 변화를 포함한다. 특정 구현예에서, 원하는 반응은 양성 결합 사건(예를 들어, 관심 분석물과 형광 표지된 생체분자의 통합)이다. 더욱 일반적으로, 원하는 반응은 화학적 변환, 화학적 변화, 또는 화학적 상호작용일 수 있다. 원하는 반응은 또한 전기 속성의 변화일 수 있다. 예를 들어, 원하는 반응은 용액 내의 이온 농도의 변화일 수 있다. 예시적인 반응은 화학 반응, 예를 들어, 환원, 산화, 첨가, 제거, 재배열, 에스테르화, 아미드화, 에테르화, 고리화, 또는 대체; 제1 화학물질이 제2 화학물질에 결합하는 결합 상호작용; 둘 이상의 화학물질이 서로로부터 분리되는 해리 반응; 형광; 발광; 생물발광; 화학발광; 및 생물학적 반응, 예를 들어, 핵산 복제, 핵산 증폭, 핵산 혼성화, 핵산 결찰, 인산화, 효소 촉매작용, 수용체 결합, 또는 리간드 결합을 포함하지만, 이에 한정되지 않는다. 원하는 반응은 또한, 예를 들어, 주변 용액 또는 환경의 pH의 변화와 같이 검출가능한 양성자의 첨가 또는 제거일 수 있다. 추가의 원하는 반응은 멤브레인(예를 들어, 천연 또는 합성 이중층 멤브레인)을 가로지르는 이온의 유동을 검출하는 것일 수 있으며, 예를 들어 이온이 멤브레인을 통해 흐를 때 전류가 중단되고 중단이 검출될 수 있다.
특정 구현예에서, 원하는 반응은 분석물에 대한 형광 표지된 분자의 혼입을 포함한다. 분석물은 올리고뉴클레오티드일 수 있고, 형광 표지된 분자는 뉴클레오티드일 수 있다. 표지된 뉴클레오티드를 갖는 올리고뉴클레오티드를 향해 여기 광이 지향될 때 원하는 반응이 검출될 수 있고, 형광단은 검출가능한 형광 신호를 방출한다. 대안적인 구현예에서, 검출된 형광은 화학발광 또는 생물발광의 결과이다. 원하는 반응은, 또한, 예를 들어 공여체 형광단을 수용체 형광단 부근으로 가져옴으로써 형광 공명 에너지 전달(FRET: fluorescence(또는 ) resonance energy transfer)을 증가시킬 수 있거나, 공여체 형광단과 수용체 형광단을 분리시킴으로써 FRET를 감소시킬 수 있거나, 형광단으로부터 소광제(quencher)를 분리시킴으로써 형광을 증가시킬 수 있거나, 또는 소광제와 형광단을 병치시킴으로써 형광을 감소시킬 수 있다.
본 명세서에 대해 사용되는 바와 같이, "반응 성분" 또는 "반응물"은 원하는 반응을 획득하기 위해 사용될 수 있는 임의의 물질을 포함한다. 예를 들어, 반응 성분은 시약, 효소, 샘플, 다른 생체분자, 및 완충 용액을 포함한다. 반응 성분은 통상적으로 용액의 반응 부위에 전달되고/되거나 반응 부위에 고정화된다. 반응 성분은 관심 분석물과 같은 다른 물질과 직접 또는 간접적으로 상호 작용할 수 있다.
본 명세서에 대해 사용된 바와 같이, "반응 부위"라는 용어는 원하는 반응이 일어날 수 있는 국부적 영역이다. 반응 부위는 물질이 그 위에 고정화될 수 있는 기재의 지지 표면을 포함할 수 있다. 예를 들어, 반응 부위는 핵산 콜로니가 있는 플로우 셀의 채널에 실질적으로 평평한 표면을 포함할 수 있다. 항상 그런 것은 아니지만 통상적으로, 콜로니에서의 핵산은 예를 들어 단일 가닥 또는 이중 가닥 템플릿의 클론 복제물인 동일한 서열을 갖는다. 그러나, 일부 구현예에서, 반응 부위는, 예를 들어 단일 가닥 또는 이중 가닥 형태의 단일 핵산 분자만을 함유할 수 있다. 또한, 복수의 반응 부위는 지지 표면을 따라 불균일하게 분포되거나 미리 결정된 방식으로(예를 들어, 마이크로어레이에서와 같이 매트릭스에서 나란히) 배열될 수 있다. 반응 부위는, 또한, 원하는 반응을 구획화하도록 구성된 공간 영역 또는 체적을 적어도 부분적으로 한정하는 반응 챔버(또는 웰(well))를 포함할 수 있다.
본 출원은 "반응 챔버" 및 "웰"이라는 용어를 상호 교환적으로 사용한다. 본 명세서에 대해 사용된 바와 같이, "반응 챔버" 또는 "웰"이라는 용어는 유동 채널과 유체 연통되는 공간 영역을 포함한다. 반응 챔버는 주변 환경 또는 다른 공간 영역으로부터 적어도 부분적으로 분리될 수 있다. 예를 들어, 복수의 반응 챔버는 공유 벽에 의해 서로 분리될 수 있다. 보다 구체적인 예로서, 반응 챔버는 웰의 내부 표면에 의해 정의된 공동을 포함할 수 있으며 공동이 유동 채널과 유체 연통할 수 있도록 개구 또는 구멍을 가질 수 있다. 이러한 반응 챔버를 포함하는 바이오센서는 2011년 10월 20일에 출원된 국제 출원 PCT/US2011/057111호에 더욱 상세히 기재되어 있으며, 이는 그 전체가 참고로 본 명세서에 포함된다.
일부 구현예에서, 반응 챔버는 고체(반고체 포함)에 대해 크기 및 형상이 결정되어 고체가 내부에 완전히 또는 부분적으로 삽입될 수 있다. 예를 들어, 반응 챔버는 하나의 캡처 비드만을 수용하도록 크기 및 형상이 정해질 수 있다. 캡처 비드는 그 위에 클론 증폭된 DNA 또는 다른 물질을 가질 수 있다. 대안적으로, 반응 챔버는 대략적인 개수의 비드 또는 고체 기재를 수용하도록 크기 및 형상이 정해질 수 있다. 다른 예로서, 반응 챔버는 또한 반응 챔버 내로 유동할 수 있는 확산 또는 필터 유체 또는 용액을 제어하도록 구성된 다공성 겔 또는 물질로 충전될 수 있다.
일부 구현예에서, 센서(예를 들어, 광 검출기, 광다이오드)는 바이오센서의 샘플 표면의 상응하는 픽셀 영역과 연관된다. 이와 같이 픽셀 영역은 하나의 센서(또는 픽셀)에 대한 바이오센서 샘플 표면의 영역을 나타내는 기하학적 구조이다. 픽셀 영역과 연관된 센서는 원하는 반응이 연관된 픽셀 영역 위에 놓이는 반응 챔버 또는 반응 부위에서 발생할 때 연관된 픽셀 영역으로부터 수집된 광 방출물을 검출한다. 평평한 표면 구현예에서, 픽셀 영역은 중첩될 수 있다. 일부 경우에, 복수의 센서가 단일 반응 부위 또는 단일 반응 챔버와 연관될 수 있다. 다른 경우에, 단일 센서는 반응 부위 그룹 또는 반응 챔버 그룹과 연관될 수 있다.
본 명세서에 대해 사용된 바와 같이, "바이오센서"는 복수의 반응 부위 및/또는 반응 챔버(또는 웰)를 갖는 구조를 포함한다. 바이오센서는 솔리드 스테이트 이미지화 장치(예를 들어, CCD 또는 CMOS 이미저) 및 선택적으로 이에 탑재되는 플로우 셀을 포함할 수 있다. 플로우 셀은 반응 부위 및/또는 반응 챔버와 유체 연통하는 적어도 하나의 플로우 채널을 포함할 수 있다. 하나의 특정 예로서, 바이오센서는 생물검정 시스템에 유체적으로 그리고 전기적으로 커플링하도록 구성된다. 생물검정 시스템은 미리 결정된 프로토콜(예를 들어, 합성에 의한 서열분석)에 따라 반응물을 반응 부위 및/또는 반응 챔버로 전달하고 복수의 이미지화 사건을 수행할 수 있다. 예를 들어, 생물검정 시스템은 용액이 반응 부위 및/또는 반응 챔버를 따라 흐르도록 할 수 있다. 용액 중 적어도 하나는 동일하거나 상이한 형광 표지를 갖는 4개의 유형의 뉴클레오티드를 포함할 수 있다. 뉴클레오티드는 반응 부위 및/또는 반응 챔버에 위치한 상응하는 올리고뉴클레오티드에 결합할 수 있다. 그 다음, 생물검정 시스템은 여기 광원(예를 들어, 발광 다이오드 또는 LED와 같은 솔리드 스테이트 광원)을 사용하여 반응 부위 및/또는 반응 챔버를 조명할 수 있다. 여기 광은 일정 범위의 파장을 포함한 미리 결정된 파장 또는 파장을 가질 수 있다. 여기된 형광 표지는 센서에 의해 캡처될 수 있는 방출 신호를 제공한다.
대안적인 구현예에서, 바이오센서는 다른 식별 가능한 특성을 검출하도록 구성된 전극 또는 다른 유형의 센서를 포함할 수 있다. 예를 들어, 센서는 이온 농도의 변화를 검출하도록 구성될 수 있다. 다른 예에서, 센서는 멤브레인을 가로지르는 이온 전류 흐름을 검출하도록 구성될 수 있다.
본 명세서에 대해 사용되는 "클러스터"는 유사하거나 동일한 분자 또는 뉴클레오티드 서열 또는 DNA 가닥의 콜로니이다. 예를 들어, 클러스터는 증폭된 올리고뉴클레오티드, 또는 동일하거나 유사한 서열을 갖는 폴리뉴클레오티드 또는 폴리펩티드의 임의의 다른 기일 수 있다. 다른 구현예에서 클러스터는 샘플 표면의 물리적 영역을 차지하는 임의의 원소 또는 원소의 기일 수 있다. 구현예에서, 클러스터는 염기 호출 사이클 동안 반응 부위 및/또는 반응 챔버에 고정화된다.
본 명세서에 대해 사용되는 용어 "고정화된"은 생체분자 또는 생물학적 또는 화학적 물질과 관련하여 사용될 때 생체분자 또는 생물학적 또는 화학적 물질을 분자 수준에서 표면에 실질적으로 부착하는 것을 포함한다. 예를 들어, 생체분자 또는 생물학적 또는 화학적 물질은 비공유적 상호작용(예를 들어, 정전기력, 반 데르 발스, 및 소수성 계면들의 탈수), 및 작용기 및 링커가 생체분자를 표면에 부착하는 것을 용이하게 하는 공유결합 기술을 포함하는 흡착 기술을 사용하여 기재 물질의 표면에 고정화될 수 있다. 생체분자 또는 생물학적 또는 화학적 물질을 기재 물질의 표면에 고정화시키는 것은 기재 표면의 속성, 생체분자 또는 생물학적 또는 화학적 물질을 운반하는 액체 매질, 및 생체분자 또는 생물학적 또는 화학적 물질 자체의 속성에 기반할 수 있다. 일부 경우에 있어서, 기재 표면은 생체분자(또는 생물학적 또는 화학적 물질)을 기재 표면에 고정화시키는 것을 용이하게 하도록 기능화될 수 있다(예를 들어, 화학적으로 또는 물리적으로 개질될 수 있다). 기재 표면은 우선 표면에 결합되는 작용기를 갖도록 개질될 수 있다. 그 다음, 작용기는 생체 분자 또는 생물학적 또는 화학적 물질에 결합하여 이들을 그 위에 고정화시킬 수 있다. 물질은 예를 들어 미국 특허출원공개 제2011/0059865호(A1)에 기재된 바와 같이 겔을 통해 표면에 고정화될 수 있으며, 상기 특허공개는 참고로 본 명세서에 포함된다.
일부 구현예에서, 핵산은 표면에 부착되고 브리지 증폭을 사용하여 증폭될 수 있다. 유용한 브리지 증폭 방법은 예를 들어 미국 특허 제5,641,658호; 국제 특허공개 제WO 2007/010251호; 미국 특허 제6,090,592호; 미국 특허출원공개 제2002/0055100호(A1); 미국 특허 제7,115,400호; 미국 특허출원공개 제2004/0096853호(A1); 미국 특허출원공개 제2004/0002090호(A1); 미국 특허출원공개 제2007/0128624호(A1); 및 미국 특허출원공개 제2008/0009420호(A1)에 기재되어 있으며, 이들 각각은 그 전체가 본 명세서에 포함된다. 표면 상에서 핵산을 증폭시키기 위한 다른 유용한 방법은, 예를 들어, 아래에 더욱 상세히 기술되는 방법을 이용하는 롤링 서클 증폭(RCA: Rolling Circle Amplification)이다. 일부 구현예에서, 핵산은 표면에 부착되고 하나 이상의 프라이머 쌍을 이용하여 증폭될 수 있다. 예를 들어, 프라이머 중 하나는 용액 내에 있을 수 있고 다른 프라이머는 표면 상에 고정화될 수 있다(예를 들어, 5'-부착됨). 예를 들어, 핵산 분자가 표면 상의 프라이머 중 하나에 혼성화된 뒤, 고정화된 프라이머를 연장시켜 핵산의 제1 복제물을 생성할 수 있다. 이어서 용액 내의 프라이머는 핵산의 제1 복제물에 혼성화되며, 이는 핵산의 제1 복제물을 템플릿으로 이용하여 연장될 수 있다. 선택적으로, 핵산의 제1 복제물이 생성된 후에, 원래의 핵산 분자는 표면 상의 제2 고정화된 프라이머에 혼성화될 수 있고 동시에 또는 용액 내의 프라이머가 연장된 후에 연장될 수 있다. 임의의 구현예에서, 고정화된 프라이머 및 용액 내의 프라이머를 이용한 연장(예를 들어, 증폭)의 반복된 라운드는 핵산의 다수의 복제물을 제공한다.
특정 구현예에서, 본 명세서에 기재된 시스템 및 방법에 의해 실행되는 검정 프로토콜은 천연 뉴클레오티드 및 또한 천연 뉴클레오티드와 상호작용하도록 구성된 효소의 사용을 포함한다. 천연 뉴클레오티드에는 예를 들어 리보뉴클레오티드(RNA) 또는 데옥시리보뉴클레오티드(DNA)가 포함된다. 천연 뉴클레오티드는 모노-, 디-, 또는 트라이-포스페이트 형태일 수 있으며, 아데닌(A), 티민(T), 우라실(U), 구아닌(G), 또는 시토신(C)으로부터 선택된 염기를 가질 수 있다. 그러나, 전술된 뉴클레오티드의 비천연 뉴클레오티드, 변형된 뉴클레오티드 또는 유사체가 사용될 수 있음이 이해될 것이다. 유용한 비천연 뉴클레오티드의 일부 예는 합성 방법에 의한 가역적 종결자 기반 서열분석과 관련하여 아래에 설명된다.
반응 챔버를 포함하는 구현예에서, 품목 또는 고체 물질(반고체 물질 포함)은 반응 챔버 내에 배치될 수 있다. 배치될 때, 품목 또는 고체는 억지 끼워맞춤(interference fit), 접착, 또는 포획을 통해 반응 챔버 내에서 물리적으로 유지되거나 고정화될 수 있다. 반응 챔버 내에 배치될 수 있는 예시적인 품목 또는 고체는 중합체 비드, 펠릿, 아가로스 겔, 분말, 양자점, 또는 반응 챔버 내에 압축되고/되거나 보유될 수 있는 다른 고체를 포함한다. 특정 구현예에서, 핵산 상부구조(superstructure), 예를 들어 DNA 볼(ball)은, 예를 들어 반응 챔버의 내부 표면에의 부착에 의해 또는 반응 챔버 내의 액체 중에의 체류에 의해, 반응 챔버 내에 또는 반응 챔버에 배치될 수 있다. DNA 볼 또는 다른 핵산 상부구조가 미리 형성된 다음 반응 챔버 내에 또는 반응 챔버에 배치될 수 있다. 대안적으로, DNA 볼은 반응 챔버에서 인시츄(in situ) 합성될 수 있다. DNA 볼은 특정 핵산 서열의 콘카테머(concatemer)를 생성하기 위해 롤링 서클 증폭에 의해 합성될 수 있으며 콘카테머는 상대적으로 컴팩트한 볼을 형성하는 조건으로 처리될 수 있다. DNA 볼 및 이들의 합성 방법은 예를 들어 미국 특허출원공개 제2008/0242560호(A1) 또는 제2008/0234136호(A1)에 기재되어 있으며, 이들 각각은 그 전체가 본 명세서에 포함된다. 반응 챔버에 유지되거나 배치되는 물질은 고체, 액체 또는 기체 상태일 수 있다.
본 명세서에 대해 사용되는 "염기 호출"은 핵산 서열에서 뉴클레오티드 염기를 식별한다. 염기 호출은 특정 사이클에서 모든 클러스터에 대한 염기 호출(A, C, G, T)을 결정하는 과정을 지칭한다. 예를 들어, 미국 특허출원공개 제2013/0079232호(A1)의 통합 자료에 설명된 4채널, 2채널 또는 1채널 방법 및 시스템을 사용하여 염기 호출이 수행될 수 있다. 특정 구현예에서, 염기 호출 사이클은 "샘플링 사건"으로 지칭된다. 하나의 염료 및 2채널 서열분석 프로토콜에서, 샘플링 사건은 각 단계에서 픽셀 신호가 생성되도록 시간 순서로 2개의 조명 단계를 포함한다. 제1 조명 단계는 AT 픽셀 신호에서 뉴클레오티드 염기 A 및 T를 나타내는 소정의 클러스터로부터 조명을 유도하고, 제2 조명 단계는 CT 픽셀 신호에서 뉴클레오티드 염기 C 및 T를 나타내는 소정의 클러스터로부터 조명을 유도한다.
개시된 기술, 예를 들어, 개시된 염기 호출자는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 필드 프로그래밍 가능 게이트 어레이(FPGA), 공어성-성형된 재구성 아키텍처(CGRA), 애플리케이션 특정 집적 회로(ASIC), 애플리케이션 특정 집적 회로(ASIC), 애플리케이션 특정 명령어-설정 프로세서(ASIP), 및 디지털 신호 프로세서(DSP) 와 같은 프로세서에 구현될 수 있다.
바이오센서
도 1은 다양한 구현예에서 사용될 수 있는 바이오센서(100)의 단면을 도시한다. 바이오센서(100)는 염기 호출 사이클 동안 하나 초과의 클러스터(예를 들어, 픽셀 영역당 2개의 클러스터)를 각각 보유할 수 있는 픽셀 영역(106', 108', 110', 112', 114')을 갖는다. 도시된 바와 같이, 바이오센서(100)는 샘플링 장치(104) 상에 장착되는 플로우 셀(102)을 포함할 수 있다. 예시된 구현예에서, 플로우 셀(102)은 샘플링 장치(104)에 직접 부착된다. 그러나, 대안적인 구현예에서, 플로우 셀(102)은 샘플링 장치(104)에 제거 가능하게 결합될 수 있다. 샘플링 장치(104)는 작용화될 수 있는(예를 들어, 원하는 반응을 수행하기 위해 적절한 방식으로 화학적으로 또는 물리적으로 개질될 수 있는) 샘플 표면(134)을 갖는다. 예를 들어, 샘플 표면(134)은 작용화될 수 있고 염기 호출 사이클 동안 하나 초과의 클러스터를 각각 보유할 수 있는 복수의 픽셀 영역(106', 108', 110', 112', 및 114')을 포함할 수 있다(예를 들어, 각각은 이에 고정화된 상응하는 클러스터 쌍(106a, 106b; 108a, 108b; 110a, 110b; 112a, 112b; 및 114a, 114b)을 가짐). 각 픽셀 영역은 상응하는 센서(또는 픽셀 또는 광다이오드)(106, 108, 110, 112, 114)와 연관되어 픽셀 영역에 의해 수신된 빛이 상응하는 센서에 의해 캡처된다. 픽셀 영역(106')은 또한 클러스터 쌍을 유지하는 샘플 표면(134) 상의 상응하는 반응 부위(106")와 연관될 수 있어, 반응 부위(106")로부터 방출된 광이 픽셀 영역(106')에 의해 수신되고 상응하는 센서(106)에 의해 캡처된다. 이러한 감지 구조의 결과로, 2개 이상의 클러스터가 염기 호출 사이클 동안 특정 센서의 픽셀 영역에 존재하는 경우(예를 들어, 각각 상응하는 클러스터 쌍을 가짐), 그 염기 호출 사이클의 픽셀 신호는 둘 이상의 클러스터 모두에 기초하는 정보를 전달한다. 결과적으로, 본 명세서에 설명된 바와 같은 신호 처리는 각 클러스터를 구별하는 데 사용되며, 특정 염기 호출 사이클의 소정의 샘플링 사건에서 픽셀 신호보다 더 많은 클러스터가 있다.
예시된 구현예에서, 플로우 셀(102)은 측벽(138, 125), 및 측벽(138, 125)에 의해 지지되는 플로우 커버(136)를 포함한다. 측벽(138, 125)은 샘플 표면(134)에 결합되고 플로우 커버(136)와 측벽(138, 125) 사이에서 연장된다. 일부 구현예에서, 측벽(138, 125)은 유동 커버(136)를 샘플링 장치(104)에 접합하는 경화성 접착제 층으로부터 형성된다.
측벽(138, 125)은 유동 커버(136)와 샘플링 장치(104) 사이에 유동 채널(144)이 존재하도록 크기 및 형상을 갖는다. 유동 커버(136)는 바이오센서(100)의 외부로부터 유동 채널(144)로 전파하는 여기 광(101)에 투명한 재료를 포함할 수 있다. 일 예에서, 여기 광(101)은 비직교 각도로 플로우 커버(136)에 접근한다.
또한 도시된 바와 같이, 유동 커버(136)는 다른 포트(미도시)와 유체적으로 맞물리도록 구성된 입구 및 출구 포트(142, 146)를 포함할 수 있다. 예를 들어, 다른 포트는 카트리지 또는 워크스테이션으로부터 나올 수 있다. 유동 채널(144)은 샘플 표면(134)을 따라 유체를 안내하도록 크기 및 형상을 갖는다. 높이(H1) 및 유동 채널(144)의 다른 치수는 샘플 표면(134)을 따라 유체의 실질적으로 균일한 유동을 유지하도록 구성될 수 있다. 유동 채널(144)의 치수는 또한 기포 형성을 제어하도록 구성될 수 있다.
예로서, 플로우 커버(136)(또는 플로우 셀(102))는 유리 또는 플라스틱과 같은 투명 재료를 포함할 수 있다. 유동 커버(136)는 평면 외부 표면 및 유동 채널(144)을 정의하는 평면 내부 표면을 갖는 실질적으로 직사각형 블록을 구성할 수 있다. 블록은 측벽(138, 125) 상에 장착될 수 있다. 대안적으로, 플로우 셀(102)은 플로우 커버(136) 및 측벽(138, 125)을 정의하도록 에칭될 수 있다. 예를 들어, 리세스가 투명 재료로 에칭될 수 있다. 에칭된 재료가 샘플링 장치(104)에 장착될 때, 리세스는 유동 채널(144)이 될 수 있다.
샘플링 장치(104)는 예를 들어, 복수의 적층된 기재 층(120 내지 126)을 포함하는 집적 회로와 유사할 수 있다. 기재 층(120 내지 126)은 염기 기재(120), 솔리드 스테이트 이미저(122)(예를 들어, CMOS 이미지 센서), 필터 또는 광 관리 층(124), 및 패시베이션 층(126)을 포함할 수 있다. 상기 내용은 단지 예시일 뿐이며 다른 구현예는 더 적거나 추가의 층을 포함할 수 있다는 점에 유의해야 한다. 더욱이, 기재 층(120 내지 126) 각각은 복수의 서브-층을 포함할 수 있다. 샘플링 장치(104)는 CMOS 이미지 센서 및 CCD와 같은 집적 회로 제조에 대해 사용된 것과 유사한 공정을 사용하여 제조될 수 있다. 예를 들어, 기재 층(120 내지 126) 또는 이의 부분은 샘플링 장치(104)를 형성하기 위해 성장, 증착, 에칭 등이 될 수 있다.
패시베이션 층(126)은 유동 채널(144)의 유체 환경으로부터 필터 층(124)을 차폐하도록 구성된다. 일부 경우에, 패시베이션 층(126)은 또한 생체분자 또는 다른 관심 분석물이 그 위에 고정화될 수 있도록 하는 고체 표면(즉, 샘플 표면(134))을 제공하도록 구성된다. 예를 들어, 반응 부위 각각은 샘플 표면(134)에 고정화된 생체 분자 클러스터를 포함할 수 있다. 따라서, 패시베이션 층(126)은 반응 부위가 고정화될 수 있도록 하는 물질로 형성될 수 있다. 패시베이션 층(126)은 또한 원하는 형광 광에 대해 적어도 투명한 재료를 포함할 수 있다. 예를 들어, 패시베이션 층(126)은 규소 질화물(Si2N4) 및/또는 실리카(SiO2)를 포함할 수 있다. 그러나, 다른 적합한 재료(들)가 사용될 수 있다. 예시된 구현예에서, 패시베이션 층(126)은 실질적으로 평면일 수 있다. 그러나, 대안적인 구현예에서, 패시베이션 층(126)은 피트, 웰, 홈 등과 같은 리세스를 포함할 수 있다. 예시된 구현예에서, 패시베이션 층(126)은 약 150 내지 200 nm, 보다 구체적으로 약 170 nm의 두께를 갖는다.
필터 층(124)은 광의 투과에 영향을 미치는 다양한 특징부를 포함할 수 있다. 일부 구현예에서, 필터 층(124)은 다중 기능을 수행할 수 있다. 예를 들어, 필터 층(124)은 (a) 여기 광원으로부터의 광 신호와 같은 원치 않는 광 신호를 필터링하거나; (b) 반응 부위로부터의 방출 신호를 검출하도록 구성된 상응하는 센서(106, 108, 110, 112, 및 114)를 향해 반응 부위로부터의 방출 신호를 유도하거나; 또는 (c) 인접한 반응 부위로부터 원치 않는 방출 신호의 검출을 차단하거나 방지하도록 구성될 수 있다. 이와 같이, 필터 층(124)은 또한 광 관리 층으로 지칭될 수 있다. 도시된 구현예에서, 필터 층(124)은 약 1 내지 5 μm, 보다 구체적으로 약 2 내지 4 μm의 두께를 갖는다. 대안적인 구현예에서, 필터 층(124)은 마이크로렌즈 또는 다른 광학 구성요소의 어레이를 포함할 수 있다. 각각의 마이크로렌즈는 연관된 반응 부위로부터 센서로 방출 신호를 유도시키도록 구성될 수 있다.
일부 구현예에서, 솔리드 스테이트 이미저(122) 및 염기 기재(120)는 미리 구성된 솔리드 스테이트 이미지화 장치(예를 들어, CMOS 칩)로서 함께 제공될 수 있다. 예를 들어, 염기 기재(120)는 규소 웨이퍼일 수 있고, 그 위에 솔리드 스테이트 이미저(122)가 장착될 수 있다. 솔리드 스테이트 이미저(122)는 반도체 재료(예를 들어, 규소) 층과 센서(106, 108, 110, 112, 114)를 포함한다. 예시된 구현예에서, 센서는 광을 검출하도록 구성된 광다이오드이다. 다른 구현예에서, 센서는 광 검출기를 포함한다. 솔리드 스테이트 이미저(122)는 CMOS 기반의 제조 공정을 통해 단일 칩으로 제조될 수 있다.
솔리드 스테이트 이미저(122)는 유동 채널(144) 내부에서 또는 유동 채널을 따라 원하는 반응을 나타내는 활동을 검출하도록 구성된 센서(106, 108, 110, 112, 114)의 조밀한 어레이를 포함할 수 있다. 일부 구현예에서, 각각의 센서는 약 1 내지 2 제곱 마이크로미터(μm²)의 픽셀 영역(또는 검출 영역)을 갖는다. 어레이는 500,000개의 센서, 500만개의 센서, 1,000만개의 센서 또는 심지어 1억 2,000만개의 센서를 포함할 수 있다. 센서(106, 108, 110, 112, 114)는 원하는 반응을 나타내는 미리 결정된 광 파장을 검출하도록 구성될 수 있다.
일부 구현예에서, 샘플링 장치(104)는 미국 특허 제7,595,882호에 기술된 마이크로회로 배열과 같은 마이크로회로 배열을 포함하며, 이는 전체가 참조로 본 명세서에 포함된다. 보다 구체적으로, 샘플링 장치(104)는 센서(106, 108, 110, 112, 114)의 평면 어레이를 갖는 집적 회로를 포함할 수 있다. 샘플링 장치(104) 내에 형성된 회로는 신호 증폭, 디지털화, 저장 및 처리 중 적어도 하나를 위해 구성될 수 있다. 회로는 검출된 형광 광을 수집 및 분석하고 검출 데이터를 신호 프로세서에 전달하기 위한 픽셀 신호(또는 검출 신호)를 생성할 수 있다. 회로는 또한 샘플링 장치(104)에서 추가적인 아날로그 및/또는 디지털 신호 처리를 수행할 수 있다. 샘플링 장치(104)는 신호 라우팅(routing)을 수행하는(예를 들어, 픽셀 신호를 신호 프로세서에 전송하는) 전도성 비아(130)를 포함할 수 있다. 픽셀 신호는 또한 샘플링 장치(104)의 전기 접촉부(132)를 통해 전송될 수 있다.
샘플링 장치(104)는 2020년 5월 14일자로 "픽셀 기반 서열분석의 특성화 및 성능 분석을 위한 시스템 및 장치"라는 명칭으로 출원된 미국 정규 특허 출원 제16/874,599호와 관련하여 더 상세하게 논의되며, 이는 마치 본 명세서에 완전히 기재된 것처럼 참고로 포함된다. 샘플링 장치(104)는 전술된 바와 같은 상기 구성 또는 용도로 제한되지 않는다. 대안적인 구현예에서, 샘플링 장치(104)는 다른 형태를 취할 수 있다. 예를 들어, 샘플링 장치(104)는 플로우 셀에 결합되거나 내부에 반응 부위를 갖는 플로우 셀과 인터페이싱하도록 이동되는 CCD 카메라와 같은 CCD 장치를 포함할 수 있다.
도 2는 타일 내에 클러스터를 포함하는 플로우 셀(200)의 일 구현을 도시한다. 플로우 셀(200)은 예를 들어 플로우 커버(136)가 없는 도 1의 플로우 셀(102)에 상응한다. 또한, 플로우 셀(200)의 묘사는 본질적으로 상징적이며, 플로우 셀(200)은 내부의 다양한 다른 구성요소를 예시하지 않고 내부의 다양한 레인 및 타일을 상징적으로 묘사한다. 도 2는 플로우 셀(200)의 평면도를 도시한다.
일 구현예에서, 플로우 셀(200)은 레인(202a, 202b, …, 202p), 즉 P개의 레인과 같은 복수의 레인으로 분할 또는 구획된다. 도 2의 예에서, 플로우 셀(200)은 8개의 레인, 즉 이 예에서 P = 8을 포함하는 것으로 예시되어 있지만, 플로우 셀 내의 레인의 수는 구현에 따라 다르다.
일 구현예에서, 개별 레인(202)은 "타일(212)"이라고 하는 비중첩 영역으로 더 분할된다. 예를 들어, 도 2는 예시적인 레인의 섹션(208)의 확대도를 도시한다. 섹션(208)은 복수의 타일(212)을 포함하는 것으로 예시되어 있다.
일 예에서, 각각의 레인(202)은 하나 이상의 열의 타일을 포함한다. 예를 들어, 도 2에서, 각각의 레인(202)은 확대된 섹션(208) 내에 예시된 바와 같이 2개의 상응하는 열의 타일(212)을 포함한다. 각각의 레인 내 타일의 각각의 열 내의 타일 수는 구현에 따라 다르며, 일 예에서 각각의 레인 내 타일의 각각의 열에 50개의 타일, 60개의 타일, 100개의 타일 또는 다른 적절한 수의 타일이 있을 수 있다.
각각의 타일은 상응하는 복수의 클러스터를 포함한다. 서열분석 절차 동안, 클러스터 및 타일 상의 그들의 주변 배경이 이미지화된다. 예를 들어, 도 2는 예시적인 타일 내의 예시적인 클러스터(216)를 도시한다.
도 3은 8개의 레인이 있는 예시적인 Illumina GA-IIx™ 플로우 셀을 보여주고, 또한 하나의 타일과 이의 클러스터 및 이들 주변 배경을 확대한 것을 보여준다. 예를 들어, Illumina Genome Analyzer II에는 레인당 100개의 타일이 그리고 Illumina HiSeq2000에는 레인당 68개의 타일이 있다. 타일(212)은 수십만 내지 수백만 개의 클러스터를 보유한다. 도 3에서, 밝은 스폿으로 도시된 클러스터를 갖는 타일로부터 생성된 이미지가 308에 도시되어 있고(예를 들어, 308은 타일의 확대된 이미지 도면임), 예시적인 클러스터(304)가 표지되어 있다. 클러스터(304)는 템블릿 분자의 대략 1000개의 동일한 복제물을 포함하지만, 클러스터는 크기 및 형상이 다르다. 클러스터는, 서열분석 실행 전에, 입력 라이브러리의 브리지 증폭에 의해 템플릿 분자로부터 성장된다. 증폭 및 클러스터 성장의 목적은 방출된 신호의 강도를 증가시키는 것인데, 이는 이미지화 장치가 단일 형광단을 신뢰성 있게 감지할 수 없기 때문이다. 그러나, 클러스터(304) 내의 DNA 단편의 물리적 거리는 작고, 따라서 이미지화 장치는 단편의 클러스터를 단일 스폿(304)으로 인지한다.
클러스터 및 타일은 2020년 3월 20일에 "인공지능 기반 서열분석을 위한 훈련 데이터 생성"이라는 명칭으로 출원된 미국 정규 특허 출원 제16/825,987호와 관련하여 더 자세히 논의된다.
도 4는 염기 호출 센서 출력(예를 들어, 도 1 참조)과 같은 서열분석 시스템으로부터의 센서 데이터의 분석을 위한 시스템의 단순화된 블록도이다. 도 4의 예에서, 시스템은 서열분석기(400) 및 구성 가능한 프로세서(450)를 포함한다. 구성 가능한 프로세서(450)는 중앙 처리 유닛(CPU)(402)과 같은 호스트 프로세서에 의해 실행되는 실행 시간 프로그램과 조합하여 신경망 기반 염기 호출자 및/또는 비신경망 기반 염기 호출자(본 명세서에서 더 상세히 논의됨)를 실행할 수 있다. 서열분석기(400)는 염기 호출 센서 및 플로우 셀(401)(예를 들어, 도 1 내지 3과 관련하여 논의됨)을 포함한다. 플로우 셀은, 도 1 내지 도 3과 관련하여 논의된 바와 같이, 유전 물질의 클러스터가 유전 물질에서의 염기를 식별하기 위해 클러스터에서의 반응을 유발하는 데 사용되는 일련의 분석물 유동에 노출되는 하나 이상의 타일을 포함할 수 있다. 센서는 플로우 셀의 각각의 타일에서의 서열의 각각의 사이클에 대한 반응을 감지하여 타일 데이터를 제공한다. 이 기술의 예는 아래에서 더 자세히 설명된다. 유전자 서열분석은 데이터 집약적 동작이며, 이는 염기 호출 센서 데이터를, 염기 호출 동작 동안에 감지된 유전 물질의 각각의 클러스터에 대한 염기 호출의 서열로 변환한다.
이러한 예에서의 시스템은 실행 시간 프로그램을 실행시켜서 염기 호출 동작을 조정하는 CPU(402), 타일 데이터의 어레이의 서열을 저장하기 위한 메모리(403), 염기 호출 동작에 의해 생성되는 염기 호출 판독, 및 염기 호출 동작에서 사용되는 다른 정보를 포함한다. 또한, 이러한 예시에서, 시스템은 구성 파일(또는 파일), 예를 들어 FPGA 비트 파일, 및 구성 가능한 프로세서(450)를 구성 및 재구성하기 위해 그리고 신경망을 실행하기 위해 사용되는 신경망에 대한 모델 파라미터를 저장할 메모리(404)를 포함한다. 서열분석기(400)는 구성 가능한 프로세서를 구성하기 위한 프로그램, 및 일부 구현예에서, 신경망을 실행하기 위한 재구성 가능한 프로세서를 포함할 수 있다.
서열분석기(400)는 버스(405)에 의해 구성 가능한 프로세서(450)에 커플링된다. 버스(405)는 하나의 예에서 PCI-SIG(PCI Special Interest Group)에 의해 현재 유지되고 개발되는 PCIe(Peripheral Component Interconnect Express) 표준과 호환 가능한 버스 기술과 같은 고처리량 기술을 사용하여 구현될 수 있다. 또한, 이러한 예에서, 메모리(460)는 버스(461)에 의해 구성 가능한 프로세서(450)에 커플링된다. 메모리(460)는 구성 가능한 프로세서(450)를 갖는 회로 보드 상에 배치된 온-보드 메모리일 수 있다. 메모리(460)는 염기 호출 동작에서 사용되는 데이터를 작동시키는 구성 가능한 프로세서(450)에 의한 고속 액세스를 위해 사용된다. 버스(461)는 또한 PCIe 표준과 호환 가능한 버스 기술과 같은 고처리량 기술을 사용하여 구현될 수 있다. 메모리(460)는 유전체학 데이터, 예를 들어, 변이체 호출 형식(VCF) 파일을 저장할 수 있다.
필드 프로그래밍 가능 게이트 어레이(FPGA), 코어스-그레인드 재구성 가능한 어레이(CGRA), 및 다른 구성 가능한 그리고 재구성 가능한 장치를 포함한 구성 가능한 프로세서는, 컴퓨터 프로그램을 실행하는 범용 프로세서를 사용하여 달성될 수 있었던 것보다 더 효율적이거나 더 빠르게 다양한 기능을 구현하도록 구성될 수 있다. 구성 가능한 프로세서의 구성은, 때때로 비트스트림 또는 비트 파일로 지칭되는 구성 파일을 생성하기 위한 기능 설명을 컴파일하는 것, 및 구성 파일을 프로세서 상의 구성 가능한 요소에 분배하는 것을 수반한다.
구성 파일은, 데이터 흐름 패턴, 분산형 메모리 및 다른 온-칩 메모리 리소스의 사용, 룩업 테이블 콘텐츠, 승산 및 누산(multiply-and-accumulate) 유닛과 같은 구성 가능한 실행 유닛 및 구성 가능한 로직 블록의 동작, 구성 가능한 상호접속부, 및 구성 가능한 어레이의 다른 요소를 설정하도록 회로를 구성함으로써, 구성 가능한 프로세서에 의해 실행될 로직 기능을 정의한다. 구성 가능한 프로세서는, 구성 파일이 필드 내에서 변경될 수 있는 경우, 로딩된 구성 파일을 변경함으로써 재구성 가능하다. 예를 들어, 구성 파일은, 구성 가능한 또는 재구성 가능한 프로세서 상의 구성 가능한 요소의 어레이 사이에 분포되는, 휘발성 SRAM 요소에, 비휘발성 판독-기록 메모리 요소에, 그리고 이들의 조합에 저장될 수 있다. 다양한 상업적으로 입수 가능한 구성 가능한 프로세서가 본 명세서에 기술된 바와 같은 염기 호출 동작에 대해 사용하는 데 적합하다. 일부 예에서, 호스트 CPU는 구성 가능한 프로세서와 동일한 집적 회로 상에서 구현될 수 있다.
본 명세서에 설명된 구현예는 구성 가능한 프로세서(450)를 사용하여 다중 사이클 신경망을 구현한다. 구성 가능한 프로세서를 위한 구성 파일은 고수준 설명 언어(HDL: high-level description language) 또는 레지스터 전송 수준(RTL: register transfer level) 언어 규격을 사용하여 실행될 로직 함수를 특정함으로써 구현될 수 있다. 규격은 구성 파일을 생성하기 위해, 선택된 구성 가능한 프로세서에 대해 설계된 리소스를 사용하여 컴파일될 수 있다. 구성 가능한 프로세서가 아닐 수 있는 ASIC에 대한 설계를 생성할 목적으로 동일한 또는 유사한 규격이 컴파일될 수 있다.
따라서 본 명세서에 설명된 모든 구현예에서 구성 가능한 프로세서에 대한 대안은, 본 명세서에 기술된 바와 같은 신경망 기반 염기 호출 동작을 실행시키도록 구성된, 주문형 ASIC 또는 특수 목적 집적 회로 또는 집적 회로의 세트를 포함하는 구성된 프로세서, 또는 SOC(system-on-a-chip) 장치를 포함한다.
대체로, 신경망의 실행을 실행하도록 구성된 바와 같은, 본 명세서에 기술된 구성 가능한 프로세서 및 구성된 프로세서는 본 명세서에서 신경망 프로세서로 지칭된다. 다른 예에서, 비신경망 기반 염기 호출자의 실행을 실행하도록 구성된 바와 같은, 본 명세서에 기술된 구성 가능한 프로세서 및 구성된 프로세서는 본 명세서에서 비신경망 프로세서로 지칭된다. 일반적으로, 구성 가능한 프로세서 및 구성된 프로세서는, 본 명세서에서 후술되는 바와 같이, 신경망 기반 염기 호출자 및 비신경망 기반 염기 호출자 중 하나 또는 둘 모두를 구현하는 데 사용될 수 있다.
구성 가능한 프로세서(450)는 이 예에서 CPU(402)에 의해 실행된 프로그램을 사용하여 로딩된 구성 파일에 의해 구성되거나, 염기 호출 함수를 실행하기 위해 구성 가능한 프로세서(454) 상의 구성 가능한 요소의 어레이를 구성하는 다른 소스에 의해 구성된다. 이러한 예에서, 구성은 버스(405, 461)에 커플링되고 염기 호출 동작에 대해 사용되는 요소 사이에서 데이터 및 제어 파라미터를 분배하기 위한 기능을 실행하는 데이터 흐름 로직(451)을 포함한다.
또한, 구성 가능한 프로세서(450)는 다중 사이클 신경망을 실행하기 위한 염기 호출 실행 로직(452)으로 구성된다. 로직(452)은 복수의 다중 사이클 실행 클러스터(예를 들어, 453)를 포함하며, 이러한 예에서, 다중 사이클 클러스터 1부터 다중 사이클 클러스터 X까지를 포함한다. 다중 사이클 클러스터의 수는 원하는 작업 처리량 및 구성 가능한 프로세서 상에서 사용 가능한 리소스와 관련된 균형에 따라 선택할 수 있다.
다중 사이클 클러스터는 구성 가능한 프로세서 상의 구성 가능한 상호접속부 및 메모리 리소스를 사용하여 구현되는 데이터 흐름 경로(454)에 의해 데이터 흐름 로직(451)에 커플링된다. 또한, 다중 사이클 클러스터는, 예를 들어 구성 가능한 프로세서 상의 구성 가능한 상호접속부 및 메모리 리소스를 사용하여 구현된 제어 경로(455)에 의해 데이터 흐름 로직(451)에 커플링되며, 이들은 이용 가능한 클러스터를 나타내는 제어 신호, 신경망의 실행의 실행을 위한 입력 유닛을 이용 가능한 클러스터에 제공하기 위한 준비(readiness), 신경망에 대한 훈련된 파라미터를 제공하기 위한 준비, 염기 호출 분류 데이터의 출력 패치를 제공하기 위한 준비, 및 신경망의 실행을 위해 사용되는 다른 제어 데이터를 제공한다.
구성 가능한 프로세서는 훈련된 파라미터를 사용하여 다중 사이클 신경망의 실행을 실행하여 염기 유동 동작의 감지 사이클에 대한 분류 데이터를 생성하도록 구성된다. 신경망의 실행이 실행되어, 염기 호출 동작의 대상 감지 사이클에 대한 분류 데이터를 생성한다. 신경망의 실행은 N개의 감지 사이클의 각자의 감지 사이클로부터 타일 데이터의 N개의 어레이를 포함하는 서열로 동작하며, N개의 감지 사이클은 본 명세서에 기술된 예에서 시간 서열 내의 동작마다 하나의 염기 포지션에 대한 상이한 염기 호출 동작을 위한 센서 데이터를 제공한다. 선택적으로, N개의 감지 사이클 중 일부는 실행되는 특정 신경망 모델에 따라 필요한 경우 서열 이외일 수 있다. 수 N은 1 초과의 임의의 수일 수 있다. 본 명세서에 기술된 일부 예에서, N개의 감지 사이클의 감지 사이클은 시간 서열에서 대상 감지 사이클에 선행하는 적어도 하나의 감지 사이클 및 대상 사이클에 뒤이은 적어도 하나의 감지 사이클에 대한 감지 사이클의 세트를 표현한다. 수 N이 5 이상의 정수인 예가 본 명세서에 기술된다.
데이터 흐름 로직(451)은 N개의 어레이의 공간적으로 정렬된 패치에 대해 타일 데이터를 포함하는 소정의 실행에 대한 입력 유닛을 사용하여, 신경망의 실행을 위한 타일 데이터 및 모델 파라미터의 적어도 일부의 훈련된 파라미터를 메모리(460)로부터 구성 가능한 프로세서로 이동시키도록 구성된다. 입력 유닛은 하나의 DMA 동작에서 직접 메모리 액세스 동작에 의해 이동될 수 있거나, 또는 더 작은 유닛에서, 전개된 신경망의 실행과 협력하여 이용 가능한 시간 슬롯 동안 이동될 수 있다.
본 명세서에 기술된 바와 같은 감지 사이클에 대한 타일 데이터는 하나 이상의 특징부를 갖는 센서 데이터의 어레이를 포함할 수 있다. 예를 들어, 센서 데이터는 DNA, RNA, 또는 다른 유전 물질의 유전자 서열 내의 염기 포지션에서 4개의 염기 중 하나를 식별하기 위해 분석되는 2개의 이미지를 포함할 수 있다. 타일 데이터는, 또한, 이미지 및 센서에 관한 메타데이터를 포함할 수 있다. 예를 들어, 염기 호출 동작의 구현예에서, 타일 데이터는 타일 상의 유전 물질의 클러스터의 중심으로부터 센서 데이터의 어레이 내의 각각의 픽셀의 거리를 나타내는 중심 정보로부터의 거리와 같은, 클러스터와 이미지의 정렬에 관한 정보를 포함할 수 있다.
아래에 설명된 바와 같이 다중 사이클 신경망을 실행하는 동안, 타일 데이터는 또한 중간 데이터로서 지칭되는, 다중 사이클 신경망을 실행하는 동안 생성된 데이터를 포함할 수 있으며, 이는 다중 사이클 신경망의 실행 동안 재계산되기보다는 재사용될 수 있다. 예를 들어, 다중 사이클 신경망의 실행 동안, 데이터 흐름 로직은 타일 데이터 어레이의 소정의 패치에 대한 센서 데이터 대신에 메모리(460)에 중간 데이터를 기록할 수 있다. 이와 같은 구현예는 아래에서 더 자세히 설명된다.
도시된 바와 같이, 염기 호출 동작의 감지 사이클로부터 타일에 대한 센서 데이터를 포함하는 타일 데이터를 저장하는 실행 시간 프로그램에 의해 액세스 가능한 메모리(예를 들어, 460)를 포함하는, 염기 호출 센서 출력의 분석을 위한 시스템이 기술된다. 또한, 시스템은 메모리에 액세스하는 구성 가능한 프로세서(450)와 같은 신경망 프로세서를 포함한다. 신경망 프로세서는 감지 사이클에 대한 분류 데이터를 생성하기 위해 훈련된 파라미터를 사용하여 신경망의 실행을 실행하도록 구성된다. 본 명세서에 기술된 바와 같이, 대상 사이클에 대한 분류 데이터를 생성하기 위해, 대상 사이클을 포함하는 N개의 감지 사이클의 각자의 감지 사이클로부터의 타일 데이터의 N개의 어레이의 서열 상에서 신경망의 실행이 동작하고 있다. 데이터 흐름 로직(451)은 N개의 감지 사이클의 각자의 감지 사이클로부터 N개의 어레이의 공간적으로 정렬된 패치에 대한 데이터를 포함하는 입력 유닛을 사용하여 신경망의 실행을 위해 타일 데이터 및 훈련된 파라미터를 메모리로부터 신경망 프로세서로 이동시키도록 제공된다.
또한, 신경망 프로세서가 메모리에 액세스하고 복수의 실행 클러스터를 포함하는 시스템이 기술되는데, 복수의 실행 클러스터 중의 실행 로직 클러스터는 신경망을 실행시키도록 구성된다. 데이터 흐름 로직은 메모리 및 복수의 실행 클러스터 중의 실행 클러스터에 액세스하여, 타일 데이터의 입력 유닛을 복수의 실행 클러스터 중 이용 가능한 실행 클러스터에 제공하고 - 입력 유닛은 대상 감지 사이클을 포함하는 각자의 감지 사이클로부터 타일 데이터의 어레이의 N개의 공간적으로 정렬된 패치를 포함함 -, 실행 클러스터가 N개의 공간적으로 정렬된 패치를 신경망에 적용하여 대상 감지 사이클의 공간적으로 정렬된 패치에 대한 분류 데이터의 출력 패치를 생성하게 하며, 여기서 N은 1 초과이다.
도 5는 호스트 프로세서에 의해 실행되는 실행 시간 프로그램의 기능을 포함한 염기 호출 동작의 양태를 보여주는 단순화된 도면이다. 이러한 도면에서, 플로우 셀로부터의 이미지 센서의 출력(도 1 내지 2에 예시된 것과 같은 것)은 라인(500) 상에서 이미지 처리 스레드(501)에 제공되는데, 이는 개별 타일에 대한 센서 데이터 배열에서 재샘플링, 정렬 및 배열과 같은 이미지에 대한 프로세스를 수행할 수 있고, 플로우 셀 내의 각각의 타일에 대한 타일 클러스터 마스크를 계산하는 프로세스에 의해 사용될 수 있으며, 이는 플로우 셀의 상응하는 타일 상의 유전 물질의 클러스터에 상응하는 센서 데이터의 어레이 내의 픽셀을 식별한다. 클러스터 마스크를 계산하기 위해, 하나의 예시적 알고리즘은 소프트맥스(softmax) 출력에서 유도된 메트릭을 사용하여 초기 서열분석 사이클에서 신뢰할 수 없는 클러스터를 감지하는 프로세스를 기반으로 하며, 그 다음 그들 웰/클러스터로부터의 데이터는 폐기되고 출력 데이터는 그들 클러스터에 대해 생성되지 않는다. 예를 들어, 프로세스는 처음 N1(예를 들어, 25)개의 염기 호출 동안 높은 신뢰성을 갖는 클러스터를 식별하고 나머지는 거부할 수 있다. 거부된 클러스터는 다클론성이거나 강도가 매우 약하거나 기점(fiducial)에 의해 가려질 수 있다. 이 절차는 호스트 CPU에서 수행될 수 있다. 대안적인 구현에서, 이 정보는 CPU로 다시 전달되는 필요한 관심 클러스터를 식별하는 데 잠재적으로 사용되어 중간 데이터에 필요한 스토리지를 제한한다.
이미지 처리 스레드(501)의 출력은 라인(502) 상에서 CPU 내의 디스패치 로직(510)에 제공되는데, 이는 염기 호출 동작의 상태에 따라, 도 4의 구성 가능한 프로세서와 같이, 고속 버스(503) 상의 데이터 캐쉬(504)로 또는 고속 버스(505) 상에서 하드웨어(520)로 타일 데이터의 어레이를 라우팅한다. 하드웨어(520)는, 본 명세서에서 후술되는 바와 같이, 신경망 기반 염기 호출자를 실행하기 위한 다중 클러스터 뉴럴 네트워크 프로세서일 수 있거나, 비신경 기반 염기 호출자를 실행하기 위한 하드웨어일 수 있다.
하드웨어(520)는 분류 데이터(예를 들어, 신경망 염기 호출자 및/또는 비신경망 염기 호출자에 의한 출력)를 디스패치 로직(510)으로 반환하고, 이는 정보를 데이터 캐시(504)에 전달하거나 라인(511) 상에서 분류 데이터를 사용하여 염기 호출 및 품질 스코어 계산을 수행하고 염기 호출 판독을 위한 표준 형식으로 데이터를 정렬할 수 있는 스레드(502)로 전달한다. 염기 호출 및 품질 스코어 계산을 수행하는 스레드(502)의 출력은, 라인(512) 상에서, 염기 호출 판독을 집계하고, 데이터 압축과 같은 다른 동작을 수행하고, 고객에 의한 활용을 위해, 생성된 염기 호출 출력을 특정된 목적지에 기록하는 스레드(503)로 제공된다.
일부 구현예에서, 호스트는 신경망의 지원 시에 하드웨어(520)의 출력의 최종 처리를 수행하는 스레드(미도시)를 포함할 수 있다. 예를 들어, 하드웨어(520)는 다중 클러스터 신경망의 최종 층으로부터의 분류 데이터의 출력을 제공할 수 있다. 호스트 프로세서는 염기 호출 및 품질 스코어 스레드(502)에 의해 사용하기 위한 데이터를 구성하기 위해 분류 데이터에 걸쳐, 소프트맥스 함수와 같은 출력 활성화 함수를 실행할 수 있다. 또한, 호스트 프로세서는 하드웨어(520)에 대한 입력에 앞서 타일 데이터의 재샘플링, 배치 정규화 또는 기타 조정과 같은 입력 동작(미도시)을 실행할 수 있다.
도 6은 도 4의 것과 같은 구성 가능한 프로세서의 구성의 단순화된 도면이다. 도 6에서, 구성 가능한 프로세서는 복수의 고속 PCIe 인터페이스를 갖는 FPGA를 포함한다. FPGA는 도 1를 참조하여 기술된 데이터 흐름 로직을 포함하는 래퍼(wrapper)(600)를 갖도록 구성된다. 래퍼(600)는 CPU 통신 링크(609)를 통해 CPU에서의 실행 시간 프로그램과의 협력 및 인터페이스를 관리하고, DRAM 통신 링크(610)를 통해 온-보드 DRAM(602)(예를 들어, 메모리(460))과의 통신을 관리한다. 래퍼(600) 내의 데이터 흐름 로직은 N개의 사이클 동안 온-보드 DRAM(602) 상에서 타일 데이터의 어레이를 클러스터(601)로 순회시킴으로써 검색된 패치 데이터를 제공하고, 온-보드 DRAM(602)으로 다시 전달하기 위해 클러스터(601)로부터 프로세스 데이터(615)를 검색한다. 래퍼(600)는 또한 타일 데이터의 입력 어레이 및 분류 데이터의 출력 패치 둘 모두에 대해, 온-보드 DRAM(602)과 호스트 메모리 사이에서의 데이터의 이송을 관리한다. 래퍼는 라인(613) 상의 패치 데이터를 할당된 클러스터(601)로 이송한다. 래퍼는 라인(612) 상의 가중치 및 바이어스와 같은 훈련된 파라미터를 온-보드 DRAM(602)으로부터 검색된 클러스터(601)에 제공한다. 래퍼는 라인(611) 상의 구성 및 제어 데이터를, CPU 통신 링크(609)를 통해 호스트 상의 실행 시간 프로그램으로부터 제공되거나 이에 응답하여 생성되는 클러스터(601)에 제공한다. 클러스터는 또한 라인(616) 상의 상태 신호를 래퍼(600)에 제공할 수 있는데, 이는 타일 데이터의 어레이의 순회를 관리하여 공간적으로 정렬된 패치 데이터를 제공하기 위해 그리고 클러스터(601)의 리소스를 사용하여 패치 데이터에 걸쳐서 염기 호출을 위한 다중 사이클 신경망 및/또는 비신경망 기반 염기 호출을 위한 동작을 실행하기 위해 호스트로부터의 제어 신호와 협력하여 사용된다.
상기에서 언급된 바와 같이, 타일 데이터의 다수의 패치 중 상응하는 패치 상에서 실행하기 위해 구성된, 래퍼(600)에 의해 관리되는 단일의 구성 가능한 프로세서 상에 다수의 클러스터가 있을 수 있다. 각각의 클러스터는 본 명세서에 기술된 다수의 감지 사이클의 타일 데이터를 사용하여 대상 감지 사이클에서 염기 호출에 대한 분류 데이터를 제공하도록 구성될 수 있다.
시스템의 예에서, 필터 가중치 및 바이어스와 같은 커널 데이터를 포함하는 모델 데이터가 호스트 CPU로부터 구성 가능한 프로세서로 전송되어, 모델이 사이클 수의 함수로서 업데이트될 수 있게 할 수 있다. 염기 호출 동작은, 대표적인 예의 경우에, 대략 수백개의 감지 사이클을 포함할 수 있다. 염기 호출 동작은, 일부 구현예에서, 페어드 엔드 판독(paired end read)을 포함할 수 있다. 예를 들어, 모델 훈련된 파라미터는 20개의 사이클(또는 다른 수의 사이클)마다 1회, 또는 특정 시스템에 대해 구현되는 업데이트 패턴에 따라 업데이트될 수 있다. 타일 상의 유전 클러스터 내의 소정의 스트링에 대한 서열이 제1 말단부로부터 스트링 아래로(또는 위로) 연장되는 제1 부분, 및 제2 말단부로부터 스트링 위로(또는 아래로) 연장되는 제2 부분을 포함하는 페어드 엔드 판독을 포함하는 일부 구현예에서, 훈련된 파라미터는 제1 부분으로부터 제2 부분으로의 전이 시에 업데이트될 수 있다.
일부 예에서, 타일에 대한 감지 데이터의 다수의 사이클 동안의 이미지 데이터는 CPU로부터 래퍼(600)로 전송될 수 있다. 래퍼(600)는, 선택적으로, 감지 데이터의 일부 사전처리 및 변환을 행할 수 있고, 정보를 온-보드 DRAM(602)에 기록할 수 있다. 각각의 감지 사이클에 대한 입력 타일 데이터는 타일당 감지 사이클당 4000 x 3000개 정도 또는 그 이상의 픽셀(2개의 특징부가 타일의 2개의 이미지의 컬러를 표현함), 및 픽셀당 특징부당 1 또는 2 바이트를 포함하는 센서 데이터의 어레이를 포함할 수 있다. 수 N이 다중 사이클 신경망의 각각의 실행에 대해 사용될 3개의 감지 사이클인 구현예의 경우, 다중 사이클 신경망의 각각의 실행에 대한 타일 데이터의 어레이는 타일당 수백 메가바이트 정도를 소비할 수 있다. 시스템의 일부 구현예에서, 타일 데이터는, 또한, 타일당 1회 저장된 DFC 데이터의 어레이, 또는 센서 데이터 및 타일에 관한 다른 유형의 메타데이터를 포함한다.
동작 시에, 다중 사이클 클러스터가 이용 가능할 때, 래퍼는 클러스터에 패치를 할당한다. 래퍼는 타일의 순회에서 타일 데이터의 차기 패치를 페치(fetch)하고, 적절한 제어 및 구성 정보와 함께 그것을 할당된 클러스터로 전송한다. 클러스터는, 적소에 작동 중인, 일부 시스템에서 다수의 사이클로부터의 패치를 포함하는 데이터의 패치, 및 처리의 현재 패치가 다양한 구현예에서 핑퐁 버퍼 기술 또는 래스터 스캐닝 기술을 사용하여 마무리될 때 작동되어야 하는 데이터의 패치를 보유하기에 충분한 메모리를 구성 가능한 프로세서 상에 갖도록 구성될 수 있다.
할당된 클러스터가 현재 패치에 대한 신경망의 이의 실행을 완료하고 출력 패치를 생성할 때, 그것은 래퍼를 시그널링할 것이다. 래퍼는 할당된 클러스터로부터의 출력 패치를 판독할 것이거나, 또는 대안으로, 할당된 클러스터는 데이터를 래퍼로 푸시아웃할 것이다. 이어서, 래퍼는 DRAM(602) 내의 처리된 타일에 대한 출력 패치를 어셈블할 것이다. 전체 타일의 처리가 완료되었고, 데이터의 출력 패치가 DRAM으로 이송되었을 때, 래퍼는 타일에 대한 처리된 출력 어레이를 지정된 포맷으로 호스트/CPU로 다시 전송한다. 일부 구현예에서, 온-보드 DRAM(602)은 래퍼(600) 내의 메모리 관리 로직에 의해 관리된다. 실행 시간 프로그램은, 실시간 분석을 제공하기 위해 연속적인 흐름 중 실행에서의 모든 사이클에 대한 타일 데이터의 모든 어레이의 분석을 완료하도록 서열분석 동작을 제어할 수 있다.
샤프닝 마스크 생성
도 7은 염기 호출자(704)를 훈련함으로써 샤프닝 마스크(들)(706)를 생성하고/하거나 업데이트하는 시스템(700)을 도시한다. 시스템(700)은, 예를 들어 최소 제곱 추정(least square estimation)을 사용하여 염기 호출자(704)를 훈련시키는 훈련기(714)를 포함한다. 본 명세서에 대해 사용된 바와 같이, "샤프닝 마스크"는 노이즈에 의해 방해받는 신호의 신호 대 잡음비를 최대화한다. 샤프닝 마스크는 데이터를 원하는 방식으로 수정하기 위해 데이터에 적용되는 값 또는 함수일 수 있다. 예를 들어, 데이터는 특정 상황에 대해 이의 정확도, 관련성, 또는 적용 가능성을 증가시키도록 수정될 수 있다. 샤프닝 마스크는 추가, 감산, 나눗셈, 승산, 또는 이들의 조합을 포함하지만 이로 제한되지 않는 다양한 수학적 조작 중 임의의 것에 의해 데이터에 적용될 수 있다. 샤프닝 마스크는 수학식, 논리 기능, 컴퓨터 구현 알고리즘 등일 수 있다. 데이터는 이미지 데이터, 전기 데이터, 또는 이들의 조합일 수 있다. 일 구현에서, 샤프닝 마스크는 등화기(예를 들어, 공간 등화기)이다. 등화기는 서열분석 이미지에서 클러스터 강도 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 훈련될 수 있다(예를 들어, 최소 제곱 추정, 적응적 등화 알고리즘 사용). 일부 구현에서, 등화기는 훈련으로부터 학습되는 계수를 포함한다. 콘볼루션 연산의 일 구현에서, 훈련은 신호 대 잡음비를 최대화하는 방식으로 염기 호출되는 표적 클러스터로부터의 강도 방출물 및 하나 이상의 인접한 클러스터로부터의 강도 방출물을 묘사하는 픽셀의 강도 값을 혼합/조합하도록 구성된 등화기 계수를 생성한다. 신호 대 잡음비에서 최대화된 신호는 표적 클러스터로부터의 강도 방출물이고, 신호 대 잡음비에서 최소화된 잡음은 (예를 들어, 배경 강도 방출물을 처리하기 위한) 인접한 클러스터로부터의 강도 방출물, 즉 공간적 크로스토크 + 일부 랜덤 잡음이다. 등화기 계수는 가중치로 사용되고, 혼합하기/조합하기는 픽셀의 강도 값의 가중된 합을 계산하기 위해 등화기 계수와 픽셀의 강도 값 사이에서 요소별 곱셈을 실행하는, 즉, 콘볼루션 연산을 포함한다. 또한, 경우에 따라서, 이미지 데이터는 다수의 컬러 채널에 걸쳐 있고, 등화기 계수의 세트가 각각의 컬러 채널(예를 들어, 하나의 채널, 3개의 채널, 4개의 채널 등)에 대해 생성된다.
서열분석 이미지(702)는 도 1과 관련하여 논의된 바이오센서(100)를 포함하는 서열분석기와 같은 서열분석기에 의해 수행되는 서열분석 실행 동안 생성된다. 서열분석기의 예로는 Illumina의 iSeq, HiSeqX, HiSeq 3000, HiSeq 4000, HiSeq 2500, NovaSeq 6000, NextSeq 550, NextSeq 1000, NextSeq 2000, NextSeqDx, MiSeq, 및 MiSeqDx를 포함한다. 일 구현에서, Illumina 서열분석기는 염기 호출을 위한 순환 가역적 종결(CRT: cyclic reversible termination) 화학을 이용한다. 프로세스는 각각의 새롭게 추가된 뉴클레오티드의 방출된 신호를 추적하면서, 형광 표지된 뉴클레오티드을 갖는 템플릿 가닥에 상보적인 초기(nascent) 가닥을 성장시키는 것에 의존한다. 형광 표지된 뉴클레오티드는 뉴클레오티드 유형의 형광단 신호를 앵커링하는 3' 제거 가능한 블록을 갖는다.
서열분석은 각각 3개의 단계를 포함하는 반복 사이클에서 발생한다: (a) 형광 표지된 뉴클레오티드를 추가하여 초기 가닥을 확장하는 단계; (b) 서열분석기의 광학 시스템의 하나 이상의 레이저를 사용한 형광단의 여기(excitation) 및 광학 시스템의 상이한 필터를 통한 이미징으로 서열분석 이미지를 산출하는 단계; 및 (c) 다음 서열분석 사이클을 대비한 형광단의 절단(cleavage) 및 3' 블록의 제거하는 단계. 혼입 및 이미징 사이클은 지정된 수의 서열분석 사이클까지 반복되어, 판독 길이를 정의한다. 이러한 접근법을 사용하여, 각각의 사이클은 템플릿 가닥을 따라 새로운 위치를 조사한다.
Illumina 서열분석기의 엄청난 힘은 CRT 반응을 겪는 수백만 또는 심지어 수십억 개의 분석물(예를 들어, 클러스터)을 동시에 실행시키고 감지하는 그들의 능력으로부터 유래한다. 클러스터는 템블릿 가닥의 대략 1000개의 동일한 복제물을 포함하지만, 클러스터는 크기 및 형상이 다르다. 클러스터는, 서열분석 실행 전에, 입력 라이브러리의 브리지 증폭(bridge amplification) 또는 배제 증폭(exclusion amplification)에 의해 템플릿 가닥으로부터 성장된다. 이미징 장치가 단일 가닥의 형광단 신호를 신뢰성 있게 감지할 수 없기 때문에 증폭 및 클러스터 성장의 목적은 방출된 신호의 강도를 증가시키는 것이다. 그러나, 클러스터 내의 가닥의 물리적 거리는 작고, 따라서, 이미징 장치는 가닥의 클러스터를 단일 스폿으로서 인지한다.
서열분석은 플로우 셀(입력 가닥을 보유하는 작은 유리 슬라이드)에서 발생한다(예를 들어, 도 2 참조). 플로우 셀은 현미경 이미징, 여기 레이저, 및 형광 필터를 포함하는 광학 시스템에 접속된다. 플로우 셀은 레인으로 지칭되는 다수의 챔버를 포함한다. 레인은 서로 물리적으로 분리되어 있고, 샘플 교차 오염 없이 구별 가능한 상이한 태깅된(tagged) 서열분석 라이브러리를 포함할 수 있다. 일부 구현에서, 플로우 셀은 패턴화된 표면을 포함한다. "패턴화된 표면"은 고체 지지체의 노출된 층 내부 또는 그 상에서의 상이한 영역의 배열을 지칭한다. 예를 들어, 영역 중 하나 이상은 하나 이상의 증폭 프라이머(primer)가 존재하는 특징부일 수 있다. 특징부는 증폭 프라이머가 존재하지 않는 사이 영역(interstitial region)에 의해 분리될 수 있다. 일부 구현에서, 패턴은 행 및 열로 있는 특징부의 x-y 형식일 수 있다. 일부 구현에서, 패턴은 특징부 및/또는 사이 영역의 반복 배열일 수 있다. 일부 구현에서, 패턴은 특징부 및/또는 사이 영역의 랜덤 배열일 수 있다. 본 명세서에 제시된 방법 및 조성에 대해 사용될 수 있는 예시적인 패턴화된 표면은 미국 특허 제8,778,849호, 미국 특허 제9,079,148호, 미국 특허 제8,778,848호, 및 미국 특허공개 제2014/0243224호(A1)에 기술되어 있으며, 이들 각각은 참조로 본 명세서에 포함된다.
일부 구현에서, 플로우 셀은 표면에 함몰부 또는 웰의 어레이를 포함한다. 이는 비제한적으로 포토리소그래피, 스탬핑 기술, 몰딩 기술, 및 마이크로에칭 기술을 포함하는 다양한 기술을 사용하여 당업계에 일반적으로 알려진 바와 같이 제조될 수 있다. 당업자가 이해하는 바와 같이, 사용되는 기술은 어레이 기재의 조성 및 형상에 따라 달라질 것이다.
패턴화된 표면의 특징부는 유리, 실리콘, 플라스틱 또는 패턴화된, 공유결합된 겔이 있는 다른 적합한 고체 지지체, 예를 들어 폴리(N-(5-아지도아세트아미딜펜틸)아크릴아미드-코-아크릴아미드)(PAZAM, 예를 들어, 미국 특허공개 제2013/184796호, 국제 특허공개 제WO 2016/066586호, 및 국제 특허공개 제WO 2015/002813호 참조, 이들 각각은 그 전체가 인용되어 본 명세서에 포함됨)의 웰(예를 들어, 마이크로웰 또는 나노웰) 어레이의 웰일 수 있다. 이러한 공정은 많은 수의 사이클로 실행되는 서열분석에서 안정적일 수 있는 서열분석에 대해 사용되는 겔 패드를 생성한다. 웰에 대한 중합체의 공유결합은 다양한 사용 중에 구조화된 기재의 수명 동안 구조화된 특징부에서 겔을 유지하는데 도움이 된다. 그러나, 많은 구현에서, 겔은 웰에 공유결합될 필요가 없다. 예를 들어, 일부 조건에서, 구조화된 기재의 어떠한 부분에도 공유적으로 부착되지 않은 실란 무함유 아크릴아미드(SFA, 예를 들어, 전체적으로 본 명세서에 참고로 포함되는 미국 특허 제8,563,477호 참조)가 겔 재료로서 사용될 수 있다.
특정 구현에서, 웰(예를 들어, 마이크로웰 또는 나노웰)로 고체 지지체 재료를 패턴화하고, 패턴화된 지지체를 겔 재료(예를 들어, PAZAM, SFA 또는 이의 화학적으로 변형된 변이체, 예를 들어 SFA의 아지도분해된 버전(아지도-SFA))로 코팅하고, 예를 들어 화학적 또는 기계적 연마를 통해, 겔 코팅된 지지체를 연마하여, 이에 의해, 웰 내의 겔을 보유하지만 웰 사이의 구조화된 기재의 표면 상의 사이 영역으로부터 실질적으로 모든 겔을 제거하거나 비활성화시킴으로써, 구조화된 기재가 제조될 수 있다. 프라이머 핵산은 겔 재료에 부착될 수 있다. 표적 핵산의 용액(예를 들어, 단편화된 인간 게놈)은 폴리싱된 기질과 접촉되어 개별 표적 핵산이 겔 물질에 부착된 프라이머와의 상호 작용을 통해 개별 웰에 시딩될 것이지만; 표적 핵산은 겔 재료의 부재 또는 불활성으로 인해 틈새 영역을 점유하지 않을 것이다. 표적 핵산의 증폭은 사이 영역 내에서의 겔의 부재 또는 비활동이 성장하는 핵산 콜로니의 외향 이동을 방지하기 때문에 웰에 한정될 것이다. 프로세스는 제조 가능하고, 스케일링 가능하며, 종래의 마이크로 제조 또는 나노 제조 방법을 활용한다.
서열분석기의 이미징 장치(예를 들어, 전하 결합 소자(CCD: charge-coupled device) 또는 상보성 금속 산화물 반도체(CMOS: complementary metal-oxide-semiconductor) 센서와 같은 솔리드 스테이트 이미저)는 타일로 지칭되는 일련의 비중첩 영역 내의 레인을 따르는 다수의 위치에서 스냅숏(snapshot)을 촬영한다. 예를 들어, 레인당 64개 또는 96개의 타일이 있을 수 있다. 타일은 수십만 내지 수백만 개의 클러스터를 보유한다.
서열분석 실행의 출력은 서열분석 이미지이며, 각각은 클러스터 및 그들의 주변 배경의 강도 방출물을 묘사한다. 서열분석 이미지는 서열분석 동안 서열 내의 뉴클레오티드 혼입의 결과로서 생성되는 강도 방출물을 나타낸다. 강도 방출물은 연관된 분석물/클러스터 및 이들의 주변 배경으로부터의 것이다.
서열분석 이미지(702)는 복수의 서열분석기, 서열분석 실행, 사이클, 플로우 셀, 타일, 웰, 및 클러스터로부터 공급된다. 일 구현에서, 서열분석 이미지는 이미징 채널 기초로 염기 호출자(704)에 의해 처리된다. 서열분석 실행은 m개의 이미징 채널에 상응하는 서열분석 사이클당 m개의 이미지(들)를 생성한다. 일 구현에서, 각각의 이미징 채널(컬러 채널로도 지칭됨)은 복수의 필터 파장 대역 중 하나에 상응한다. 다른 구현에서, 각각의 이미징 채널은 서열분석 사이클에서 복수의 이미징 사건 중 하나에 상응한다. 또 다른 구현에서, 각각의 이미징 채널은 특정 레이저를 사용하는 조명과 특정 광학 필터를 통한 이미징의 조합에 상응한다. 4-, 2-, 및 1-채널 화학과 같은 상이한 구현에서, m은 4 또는 2이다. 다른 구현에서, m은 1, 3, 또는 4 초과이다.
다른 구현에서, 입력 데이터는 분자 연장(molecule extension)동안 수소 이온의 방출에 의해 유도된 pH 변화에 기반한다. pH 변화가 검출되고, (예를 들어, Ion Torrent의 경우에) 혼입된 염기의 수에 비례하는 전압 변화로 변환된다. 또 다른 구현에서, 입력 데이터는, 염기의 아이덴티티를 결정하는 동안 분석물이 나노포어(nanopore)를 통과하거나 이의 애퍼처 근처를 지날 때 바이오센서를 사용하여 전류의 중단을 측정하는 나노포어 감지로부터 구축된다. 예를 들어, Oxford Nanopore Technologies(ONT) 서열분석은 하기의 개념에 기반한다: 나노포어를 경유하여 멤브레인을 통해 DNA(또는 RNA)의 단일 가닥을 전달하고, 멤브레인에 걸친 전압차를 적용한다. 포어에 존재하는 뉴클레오티드는 포어의 전기 저항에 영향을 줄 것이며, 따라서, 시간 경과에 따른 전류 측정치는 포어를 통과하는 DNA 염기의 서열을 나타낼 수 있다. 이러한 전류 신호(플롯될 때 이의 외관으로 인한 '굴곡선(squiggle)')는 ONT 서열분석기에 의해 수집되는 원시 데이터이다. 이러한 측정치는 (예를 들어) 4 ㎑ 주파수에서 취해진 16-비트 정수 데이터 획득(DAC) 값으로 저장된다. 초당 약 450개의 염기 쌍의 DNA 가닥 속도에 의해, 이는 평균적으로 염기당 대략 9개의 원시 관찰물(observation)을 제공한다. 이후, 이러한 신호는 개별 판독에 상응하는 열린 포어 신호에서의 중단부를 식별하도록 처리된다. 원시 신호의 이러한 신장부는 염기 호출된다(DAC 값을 DNA 염기의 서열로 변환하는 프로세스). 일부 구현에서, 입력 데이터는 정규화 또는 스케일링된 DAC 값을 포함한다. 비이미지 기반 서열분석된 데이터에 관한 추가적인 정보는 2019년 5월 16일자로 출원되고 발명의 명칭이 "콘볼루션을 사용한 염기 호출"인 미국 가특허 출원 제62/849,132호, 2019년 5월 16일자로 출원되고 발명의 명칭이 "컴팩트 콘볼루션을 사용한 염기 호출"인 미국 가특허 출원 제62/849,133호, 및 2020년 3월 21일자로 출원되고 발명의 명칭이 "인공지능 기반 서열분석"인 미국 정규 특허 출원 제16/826,168호에서 찾을 수 있다.
공간적으로 다양한 샤프닝 마스크
특정 샤프닝 마스크/마스크/콘볼루션 커널은 데이터의 특정 카테고리/유형/구성/특성/클래스/빈의 신호 대 잡음비를 개선 및/또는 개선하고/하거나 최대화하도록 구성되고/훈련될 수 있다. 유사하게, 각자의 샤프닝 마스크는 다양한 샤프닝 마스크를 개시하는, 각각의 인스턴스/카테고리들/유형/구성/특성/특성/클래스/빈의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성될 수 있다. 예를 들어, "표면 특정 특정적 샤프닝 마스크"는 특정 표면 또는 특정 표면 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다(예를 들어, 상단 표면 또는 하단 표면 또는 플로우 셀의 표면(1 내지 N)). 유사하게, "레인 특정 특정적 샤프닝 마스크"는 특정 레인 또는 특정 레인 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다(예를 들어, 중앙 레인 또는 주변 레인 또는 플로우 셀의 레인(1 내지 N)). 또한, "타일 특정 특정적 샤프닝 마스크"는 특정 타일 또는 특정 타일 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다(예를 들어, 중앙 타일 또는 주변 타일 또는 플로우 셀의 타일(1 내지 N)). 또한, "서브 타일 특정 특정적 샤프닝 마스크"는 특정 서브 타일 또는 특정 서브 타일 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다(예를 들어, 중앙 서브 타일 또는 주변 서브 타일 또는 플로우 셀의 서브 타일(1 내지 N))이다. 일부 구현에서, 단일 샤프닝 마스크는 복수의 특정 계수 세트를 포함할 수 있어서, 각각의 특정 계수 세트는 특정 카테고리/유형/구성/특성/클래스/빈의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다. 일부 구현에서, 단일 샤프닝 마스크는 다양한 특정 계수 세트를 포함할 수 있다. 예를 들어, "표면 특정 특정적 계수 세트"는 특정 표면 또는 특정 표면 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다(예를 들어, 상단 표면 또는 하단 표면 또는 플로우 셀의 표면(1 내지 N)). 유사하게, "레인 특정 특정적 계수 세트"는 특정 레인 또는 특정 레인 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/훈련된다(예를 들어, 중앙 레인 또는 주변 레인 또는 플로우 셀의 레인(1 내지 N)). 또한, "타일 특정 특정적 계수 세트"는 특정 타일 또는 특정 타일 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 훈련되도록 구성되고/훈련된다(예를 들어, 중앙 타일 또는 주변 타일 또는 플로우 셀의 타일(1 내지 N)). 또한, "서브 타일 특정 특정적 계수 세트"는 특정 서브 타일 또는 특정 서브 타일 유형/카테고리/클래스 상에 위치된 클러스터의 서열분석 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 구성되고/된다(예를 들어, 중앙 서브 타일 또는 주변 서브 타일 또는 플로우 셀의 서브 타일(1 내지 N)). 개시된 특정적 샤프닝 마스크는 플로우 셀의 패턴화된 표면 및 비패턴화된 표면 둘 모두에 위치된 클러스터에 적용 가능하다. 비패턴화된 표면에 의해, 클러스터는 플로우 셀 상에 무작위로 분포된다. 무작위로 분포된 클러스터 및 이에 대한 데이터(예를 들어, 이미지)는 공간적으로, 시간적으로, 신호로, 또는 이들의 임의의 조합에 의해 비닝될 수 있다. 따라서, 특정적 샤프닝 마스크는 상이하게 비닝된 무작위로 분포된 클러스터의 상이한 구성에 대해 구성되고 훈련될 수 있다. 패턴화된 표면에 의해, 클러스터는 고정 위치로 패턴화된 웰 상에 위치된다. 패턴화된 웰 및 구성 클러스터는 공간적으로, 시간적으로, 신호로, 또는 이들의 임의의 조합에 의해 비닝될 수 있다. 따라서, 전문적 샤프닝 마스크는 상이하게 비닝된 패턴화된 클러스터의 상이한 구성에 대해 구성되고 훈련될 수 있다. 개시된 특정적 샤프닝 마스크는 서열분석 실행의 상이한 구성에 대해 생성된 이미지 데이터의 신호 대 잡음비를 개선하고/하거나 최대화하도록 훈련된 구성 특정 샤프닝 마스크이다. 이러한 구성은 플로우 셀 상의 상이한 영역과 관련된 공간 구성, 서열분석 실행의 상이한 서열분석/이미징 사이클에 관한 시간 구성, 이미징된 데이터에서 관찰되는/인코딩된 신호 프로파일의 상이한 분포/패턴에 관한 신호 분포 구성, 또는 이들의 조합일 수 있다. 본 발명에 의해 커버되는 구성의 다른 예는 서열분석 데이터 분할하는 것과 이미징 유형, 컬러 채널 유형, 레이저 유형, 광학체 유형, 렌즈 유형, 광학 필터 유형, 조명 유형, 라이브러리 유형, 샘플 유형, 인덱싱 유형(제1 인덱스 판독 v/s 제2 인덱스 판독), 판독 유형(순방향 판독 v/s 역방향 판독), 샘플의 물리적 특성, 노이즈 유형(예를 들어, 버블), 및 시약 유형에 의해 상응하는 특정적 샤프닝 마스크를 훈련시키는 것이 포함된다.
도 8a는 플로우 셀의 상응하는 영역에 대해 생성된 서열분석 이미지의 상응하는 섹션에 대해 사용되는 복수의 샤프닝 마스크(820)를 도시하며, 플로우 셀의 각각의 타일은 3×3 서브 타일 영역으로 분할되고, 각각의 서브 타일 영역은 하나 이상의 상응하는 샤프닝 마스크를 할당받는다.
예를 들어, 도 8a에서, 플로우 셀의 2개의 예시적인 타일(812 및 814)이 예시되며(타일 및 플로우 셀의 추가 논의에 대해 도 2 참조), 플로우 셀은 도 7의 서열분석 이미지(702)를 생성한다. 타일(812)은 예시된 바와 같이, 3×3 서브 타일 영역(812a, 812b, …, 812i)로 분할된다. 유사하게, 타일(814)은 예시된 바와 같이, 3×3 서브 타일 영역(814a, 814b, …, 814i)로 분할된다. 유사하게, 플로우 셀의 다른 타일은 또한 상응하는 3×3 서브 타일 영역으로 분할될 수 있다. 단지 일 예로서, 타일이 상응하는 이미지 내에 9000×9000 픽셀을 갖는 경우, 이미지는 서브 타일 영역으로 분할되어, 각각의 서브 타일 영역이 3000×3000 픽셀을 갖도록 한다.
각각의 서브 타일은 복수의 클러스터를 포함한다. 예를 들어, 이미지의 각각의 3000×3000 픽셀 서브 타일 영역은 상응하는 복수의 클러스터의 이미지를 포함한다.
타일의 각각의 서브 타일 영역은 하나 이상의 상응하는 샤프닝 마스크에 할당된다. 예를 들어, 도 8a의 예에서, 2개의 컬러 채널(802a, 802b)은 단지 일 예로서 가정되지만, 임의의 상이한 수의 컬러 채널이 있을 수 있다. 예를 들어, 샤프닝 마스크(820ax)는 컬러 채널(802a)에 상응하고, 샤프닝 마스크(820bx)는 컬러 채널(802b)에 상응하며, 샤프닝 마스크(820ax) 내의 "a"는 이들 마스크가 컬러 채널(802a)에 대한 이미지를 처리하기 위한 것임을 의미하고, 샤프닝 마스크(820bx) 내의 "b"는 이들 마스크가 컬러 채널(802b)에 대한 이미지를 처리하기 위한 것임을 의미한다.
또한, 마스크(820ax 및 820bx) 내의 인덱스 "x"는 마스크가 사용되어야 하는 상응하는 서브 타일(812x, 814x)과 연관된다. 예를 들어, 마스크(820aa)는 타일(812)의 서브 타일(812a)로부터 생성된 서열분석 이미지(702)의 섹션 및 또한 타일(814)의 서브 타일(814a)에 대해 사용되고; 마스크(820ba)는 타일(812)의 서브 타일(812a)로부터 생성된 서열분석 이미지(702)의 섹션 및 또한 타일(814)의 서브 타일(814a)에 대해 사용되고; 마스크(820ab)는 타일(812)의 서브 타일(812b)로부터 생성된 서열분석 이미지(702)의 섹션 및 또한 타일(814)의 서브 타일(814b) 등에 대해 사용된다.
따라서, 요약하면, 예를 들어, 마스크(820aa)는 컬러 채널(802a)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(812a 및 814a)에 대해 사용되고; 마스크(820ba)는 컬러 채널(802b)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(812a 및 814a)에 대해 사용되고; 마스크(820ab)는 컬러 채널(802a)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(812b 및 814b)에 대해 사용되고; 마스크(820bb)는 컬러 채널(802b)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(812b 및 814b) 등에 대해 사용된다.
다수의 타일의 상응하는 서브 타일 영역에 대해 동일한 샤프닝 마스크가 사용됨에 유의한다. 예를 들어, 샤프닝 마스크(802aa 및 802ba)는 플로우 셀의 다수의 또는 모든 타일의 상단 좌측 서브 타일에 대해 사용되고, 샤프닝 마스크(802ae 및 802be)는 플로우 셀의 다수의 또는 모든 타일의 중앙 서브 타일 등에 대해 사용된다.
따라서, 각각의 타일이 3×3 서브 타일 영역으로 분할되고 2개의 컬러 채널이 가정되는 도 8a의 예에서, 9*2 또는 18 샤프닝 마스크가 존재한다. 일반적으로, 각각의 타일이 N개의 서브 타일 영역으로 분할되고 M 컬러 채널이 가정되면, M*N 수의 샤프닝 마스크가 존재한다.
일 예에서, 타일의 k×k(예를 들어 3×3) 세분은 포인트 및 슈트 이미지 캡처 시스템이 서열분석 이미지를 캡처하는 데 사용되는 시나리오에 대해 사용될 수 있다. 예를 들어, 포인트 및 슈트 이미지 캡처 시스템에서, 예를 들어, 왜곡 효과로 인해, 타일의 상이한 섹션에 대한 상이한 포커싱, 등으로 인해, 타일의 중심은 타일의 에지와 약간 상이하게 캡처될 수 있다. 따라서, 도 8a에 예시된 바와 같이, 타일의 에지는 타일의 중심과 상이한 샤프닝 마스크를 가질 수 있다. 또한, 플로우 셀에 대한 광학 시스템에서의 기울어짐과 같은 인자로 인해, 타일의 상이한 에지로부터의 이미지가 또한 약간 상이할 수 있다(즉, 각각의 에지는 이미지에서 유사하게 표현되지 않을 수 있음). 따라서, 도 8a의 예에서, 9개의 서브 타일 각각은 상이한 연관된 샤프닝 마스크를 가질 수 있다.
도 8b는 플로우 셀의 상응하는 영역에 대해 생성된 서열분석 이미지의 상응하는 섹션에 대해 사용되는 복수의 샤프닝 마스크(840)를 도시하며, 플로우 셀의 각각의 타일은 1×9개의 서브 타일 영역으로 분할되고, 각각의 서브 타일 영역은 하나 이상의 상응하는 샤프닝 마스크를 할당받는다.
예를 들어, 도 8b에서, 플로우 셀의 2개의 예시적인 타일(832 및 834)이 예시되며(타일 및 플로우 셀의 추가 논의에 대해 도 2 참조), 플로우 셀은 도 7의 서열분석 이미지(702)를 생성한다. 타일(832)은 예시된 바와 같이, 1×9 서브 타일 영역(832a, 832b, …, 832i)로 분할된다. 유사하게, 타일(834)은 예시된 바와 같이, 1×9 서브 타일 영역(834a, 834b, …, 834i)로 분할된다. 유사하게, 플로우 셀의 다른 타일은 또한 상응하는 1×9 서브 타일 영역으로 분할될 수 있다.
단지 일 예로서, 타일이 상응하는 이미지 내에 9000×9000 픽셀을 갖는 경우, 이미지는 서브 타일 영역으로 분할되어, 각각의 서브 타일 영역이 9000×1000 픽셀을 갖도록 한다. 이미지의 각각의 9000×1000 픽셀 서브 타일 영역은 상응하는 복수의 클러스터의 이미지를 포함한다.
타일의 각각의 서브 타일 영역은 하나 이상의 상응하는 샤프닝 마스크에 할당된다. 도 8b의 예에서 (그리고 도 8a의 예와 유사하게), 2개의 컬러 채널(804a, 804b)은 단지 일 예로서 가정되지만, 임의의 상이한 수의 컬러 채널이 있을 수 있다. 예를 들어, 샤프닝 마스크(840ax)는 컬러 채널(804a)에 상응하고, 샤프닝 마스크(840bx)는 컬러 채널(804b)에 상응하고, 샤프닝 마스크(840bx)는 이들 마스크가 컬러 채널(804a)에 대한 이미지를 처리하기 위한 것임을 의미하고, 샤프닝 마스크(840bx)에서의 "b"는 이러한 마스크가 컬러 채널(804b)에 대한 이미지를 처리하기 위한 것임을 의미한다.
또한, 마스크(840ax 및 840bx) 내의 인덱스 "x"는 마스크가 사용되어야 하는 상응하는 서브 타일(832x, 834x)과 연관된다. 예를 들어, 마스크(840aa)는 타일(832)의 서브 타일(832a)로부터 생성된 서열분석 이미지(702)의 섹션 및 또한 타일(834)의 서브 타일(834a)에 대해 사용되고; 마스크(840ba)는 타일(832)의 서브 타일(832a)로부터 생성된 서열분석 이미지(702)의 섹션 및 또한 타일(834)의 서브 타일(834a)에 대해 사용된다. 유사하게, 마스크(840ab, 840bb)는 타일(832)의 서브 타일(832b)로부터 생성된 서열분석 이미지(702)의 섹션 및 타일(834)의 서브 타일(834b), 등에 대해 사용된다.
따라서, 마스크(840aa)는 컬러 채널(804a)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(832a 및 834a)에 대해 사용되고; 마스크(840ba)는 컬러 채널(804b)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(832a 및 834a)에 대해 사용되고; 마스크(840ab)는 컬러 채널(804a)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(832b 및 834b)에 대해 사용되고; 마스크(840bb)는 컬러 채널(802b)에 상응하는 서열분석 이미지(702)의 섹션 및 서브 타일 영역(832b 및 834b) 등에 대해 사용된다.
따라서, 각각의 타일이 1×9 서브 타일 영역으로 분할되고 2개의 컬러 채널이 가정되는 도 8b의 예에서, 9*2 또는 18 샤프닝 마스크가 존재한다. 일반적으로, 각각의 타일이 N개의 서브 타일 영역으로 분할되고 M 컬러 채널이 가정되면, M*N 수의 샤프닝 마스크가 존재한다.
일 예에서, 타일의 1×k(예를 들어 1×9) 세분은 라인 스캔 이미지 캡처 시스템이 서열분석 이미지를 캡처하는 데 사용되는 시나리오에 대해 사용될 수 있다. 예를 들어, 라인 스캔 이미지 캡처 시스템에서, 이미지의 다양한 수직 서브 영역이 상이하게 캡처될 수 있다. 따라서, 이미지는 도 8b에 예시된 바와 같이 상이한 수직 서브 영역으로 분할되며, 이때 각각의 서브 영역은 그 자신의 상응하는 샤프닝 마스크를 할당받는다.
도 8c는 플로우 셀의 상응하는 영역에 대해 생성된 서열분석 이미지의 상응하는 섹션에 대해 사용되는 복수의 샤프닝 마스크(860)를 도시하며, 플로우 셀의 각각의 타일은 다수의 서브 타일 영역으로 분할되고, 유사한 서브 영역은 하나 이상의 상응하는 샤프닝 마스크에 할당된다.
예를 들어, 도 8c에서, 플로우 셀의 2개의 예시적인 타일(852 및 854)이 예시되며, 플로우 셀은 도 7의 서열분석 이미지(702)를 생성한다. 타일(852)은 3×3 서브 타일 영역으로 분할되고, 각각의 서브 타일의 코너 영역은 회색 음영을 사용하여 예시된다. 타일(852 및 858)의 다양한 서브 타일 내의 음영 영역은 음영 영역(855a)으로 표지되고, 타일(852 및 858)의 다양한 서브 타일 내의 비음영 영역은 비음영 영역(855b)으로 표지된다.
도 8c의 예에서, 음영 영역(855a)은 특정 주기성으로 발생하고(예를 들어, 각각의 서브 타일의 상단 좌측 코너), 이는 단지 일 예이고, 음영 영역(855a)은 또한 임의의 다른 유형의 주기성으로 발생할 수 있다. 예를 들어, 타일의 픽셀의 2개의 수평 라인이 음영 영역(855a)에 포함될 수 있고, 이어서 픽셀의 5개의 수평 라인을 포함하는 비음영 영역(855b)이 포함될 수 있고, 이러한 패턴은 반복될 수 있다. 따라서, 이 예에서, 음영 영역(855a)의 픽셀의 2개의 라인 및 비음영 영역(855b)의 픽셀의 5개의 라인은 인터리빙되고 반복 패턴으로 발생한다. 음영 영역(855a) 및 비음영 영역(855b)의 임의의 다른 패턴이 또한 가능할 수 있다. 단지 일 예로서, 픽셀의 모든 다른 (제4 행) 및 (제5 및 제6 컬럼)의 교차점이 음영 영역(855a)에 포함될 수 있고, 음영 영역의 이러한 패턴이 이미지 전체에 걸쳐 반복될 수 있다.
일 예에서, 도 8c에 예시된 음영 및 비음영 영역의 반복 패턴의 사용은 CMOS(상보적 금속 산화물 반도체) 이미지 캡처 센서가 서열분석 이미지를 캡처하는 데 사용되는 시나리오에 대해 사용될 수 있다. 예를 들어, 일부 서열분석 플랫폼은 매립된 CMOS 센서을 갖는 플로우 셀을 사용한다. 서열분석 화학은 CMOS 센서의 상단에 직접 수행되고, 이어서 센서 상의 형광 분자를 여기하는 LED의 도움으로 이미지화된다. 일 예에서(예를 들어, 이미징 및 화학 둘 모두를 만족하기 위한 설계 및 비용 요건으로 인해), CMOS 센서 판독 회로부는 "어두운 픽셀"의 반복 행 및 열로서 센서 자체에 매립되며, 어두운 픽셀의 이러한 주기적 패치는 도 8c의 음영 영역(855a)으로 상심적으로 표현된다. 이 설계 패턴은 도 8c와 관련하여 논의된 바와 같이 특정 주기성에서 상이한 추출 커널의 사용을 필요로 하는 고유한 강도 추출 문제를 생성한다. 플로우 셀 내에 매립된 CMOS 센서의 사용은 PCT 공개 WO 2020/236945에서 찾을 수 있으며, 이는 본 명세서에 완전히 제시된 것처럼 참고로 포함된다.
타일의 각각의 음영 영역(855a)은 하나 이상의 상응하는 샤프닝 마스크에 할당된다. 도 8c의 예에서 (그리고 도 8a의 예와 유사하게), 2개의 컬러 채널(806a, 806b)은 단지 일 예로서 가정되지만, 임의의 상이한 수의 컬러 채널이 있을 수 있다. 예를 들어, 샤프닝 마스크(860ax)는 컬러 채널(806a)에 상응하고, 샤프닝 마스크(860bx)는 컬러 채널(806b)에 상응하고, 샤프닝 마스크(840bx)에서 "a"는 이러한 마스크가 컬러 채널(806a)에 대한 이미지를 처리하기 위한 것임을 의미하고, 샤프닝 마스크(860bx)에서의 "b"는 이러한 마스크가 컬러 채널(806b)에 대한 이미지를 처리하기 위한 것임을 의미한다.
또한, 마스크(860ax 및 860bx) 내의 인덱스 "x"는 마스크가 사용될 상응하는 음영/비음영 영역(855x)과 연관된다. 예를 들어, 마스크(860aa 및 860ba)은 다양한 타일의 음영 영역(855a)으로부터 생성된 서열분석 이미지(702)의 섹션에 대해 사용된다. 유사하게, 마스크(860ab 및 860bb)은 다양한 타일의 비음영 영역(855b)으로부터 생성된 서열분석 이미지(702)의 섹션에 대해 사용된다.
따라서, 마스크(860aa)는 컬러 채널(806a)에 상응하는 서열분석 이미지(702)의 섹션 및 음영 영역(855a)에 대해 사용되고; 마스크(860ba)는 컬러 채널(806b)에 상응하는 서열분석 이미지(702)의 섹션 및 음영 영역(855a)에 대해 사용되고; 마스크(860ab)는 컬러 채널(806a)에 상응하는 서열분석 이미지(702)의 섹션 및 비음영 영역(855b)에 대해 사용되고, 마스크(860bb)는 컬러 채널(806b)에 상응하는 서열분석 이미지(702)의 섹션 및 비음영 영역(855b)에 대해 사용된다.
따라서, 각각의 타일이 음영 영역 및 비음영 영역으로 분할되고 2개의 컬러 채널이 가정되는 도 8c의 예에서, 2*2 또는 4개의 샤프닝 마스크가 존재한다.
훈련
도 7을 다시 참조하면, 염기 호출자(704)는 하나 이상의 샤프닝 마스크(706)(예를 들어, 도 8a 내지 도 8c와 관련하여 논의된 샤프닝 마스크와 같음)을 생성하며, 이는 서열분석 이미지(702)(샤프닝 동작이 도 10a 내지 도 10k 및 도 11과 관련하여 더 상세히 논의됨)을 샤프닝하는 데 사용된다. 샤프닝 동작은, 본 명세서에서 나중에 더 상세히 논의되는 바와 같이, 상응하는 특징부 맵을 생성하기 위해 서열분석 이미지로부터의 강도 추출, 및 클러스터의 서브 픽셀 위치에 기반하여 다양한 클러스터의 가중된 특징부 값을 할당하기 위한 후속 보간 연산을 수반한다. 상응하는 할당된 가중된 특징부 값을 갖는 클러스터는 이어서 염기 호출된다.
일 구현에서, 염기 호출자(704)에 의해 생성된 샤프닝 마스크(706)의 수는, 도 8a 내지 도 8c와 관련하여 논의된 바와 같이, 구현 특정적일 수 있다. 예를 들어, 각각의 컬러 채널은 상응하는 샤프닝 마스크(706)를 가질 수 있다. 다른 예에서, 서열분석 이미지(702)가 생성되는 플로우 셀의 타일은, 도 8a 내지 도 8c와 관련하여 더 상세히 논의되는 바와 같이, 타일의 개별 섹션에 대한 전용 샤프닝 마스크로 2개 이상의 섹션으로 분할될 수 있다.
더 상세히 논의될 바와 같이(예를 들어, 나중에 본 명세서의 도 10f에서), 샤프닝 마스크(706)는 콘볼루션 커널로 작용하고, 샤프닝 마스크는 이미지의 상응하는 섹션으로 콘볼루션된다. 단지 일 예로서, 도 8a를 참조하면, 샤프닝 마스크(820aa)는 컬러 채널(802a)에 대한 서브 타일(812a)에 의해 생성된 서열분석 이미지(702)의 섹션으로 콘볼루션된다. 훈련의 일 구현에서, 각각의 샤프닝 마스크(706)의 계수는 이미지의 상응하는 섹션으로부터의 데이터의 상응하는 서브 세트에 대한 최소 제곱 추정을 사용하여 결정된다. 따라서, 다시 도 7 및 도 8a를 참조하면, 예를 들어, 컬러 채널(802a)에 대한 데이터 및 서브 타일(812a)로부터의 데이터는 샤프닝 마스크(820a)를 생성하고/하거나 훈련시키는 데 사용된다.
도 7에 예시된 바와 같이, 염기 호출자(704)에 대한 입력은 플로우 셀의 다양한 타일로부터의 서열분석 이미지의 원시 감각 픽셀이다. 각각의 샤프닝 마스크(706)는 훈련으로부터 학습된 복수의 계수를 갖는다. 하나의 구현에서, 샤프닝 마스크 내의 계수의 수는 클러스터를 염기 호출하는 데 사용되는 센서 픽셀의 수에 상응한다. 일 예에서, 샤프닝 마스크는 k×k 계수를 갖는 정사각형 매트릭스이며, k는 3, 5, 7, 9 등과 같은 적절한 양의 정수이다. 따라서, 각각의 샤프닝 마스크(706)는 k2 계수를 갖는다.
훈련은 신호 대 잡음비를 최대화하는 방식으로 염기 호출되는 표적 클러스터로부터의 강도 방출물 및 하나 이상의 인접한 클러스터로부터의 강도 방출물을 묘사하는 픽셀의 강도 값을 혼합/조합하도록 구성된 샤프닝 마스크 계수를 생성한다. 신호 대 잡음비에서 최대화된 신호는 표적 클러스터로부터의 강도 방출물이고, 신호 대 잡음비에서 최소화된 잡음은 (예를 들어, 배경 강도 방출물을 처리하기 위한) 인접한 클러스터로부터의 강도 방출물, 즉 공간적 크로스토크 + 일부 랜덤 잡음이다. 샤프닝 마스크 계수는 가중치로 사용되고, 혼합하기/조합하기는 픽셀의 강도 값의 가중된 합(예를 들어, 이는 특징부 맵의 특징부이고, 도 10e 및 도 10f 참조)을 계산하기 위해 샤프닝 마스크 계수와 픽셀의 강도 값 사이에서 요소별 곱셈을 실행한다.
훈련 동안, 염기 호출자(704)는 일 구현에 따라, 최소 제곱 추정에 의한 신호 대 잡음비를 개선하고/하거나 최대화하는 것을 학습한다. 최소 제곱 추정을 사용하여, 염기 호출자(704)는 대상 웰 주위의 픽셀 강도 및 원하는 출력으로부터 공유 샤프닝 마스크 계수를 추정하도록 훈련된다. 최소 제곱 추정은 이러한 목적에 매우 적합한데, 그 이유는, 그것이, 제곱 오차를 최소화하고 잡음 증폭의 영향을 고려하는 계수를 출력하기 때문이다.
원하는 출력은 강도 채널이 ON일 때의 웰(즉, 클러스터) 위치(포인트 소스), 및 강도 채널이 OFF일 때의 배경 레벨에서의 임펄스이다. 일부 구현에서, 실측 자료(712)는 원하는 출력을 생성하는 데 사용된다. 일 예에서, 실측 자료(712)는 실측 자료 염기 호출을 포함한다. 추가적으로 또는 대안적으로, 일부 예에서, 실측 자료는 도 9a에 예시된 바와 같이 각각의 염기에 대한 클라우드(또는 평균)의 중심을 포함하며, 이는 본 명세서에서 더 상세히 논의될 바와 같다.
일부 구현에서, 실측 자료(712)는 웰당 DC 오프셋, 증폭 계수, 다클론성(polyclonality)의 정도, 및 최소 제곱 추정에 포함된 이득 오프셋 파라미터를 고려하도록 수정된다. 일 구현에서, 훈련 동안, DC 오프셋, 즉, 고정 오프셋이 최소 제곱 추정의 일부로 계산된다. 추론 동안, DC 오프셋은 각각의 샤프닝 마스크 계산에 대한 바이어스로서 추가된다.
일 구현에서, 원하는 출력은 Illumina의 실시간 분석(RTA: Real-time Analysis) 염기 호출자를 사용하여 추정된다. RTA에 관한 세부사항은 미국 특허 출원 제13/006,206호에서 찾을 수 있으며, 이는 본 명세서에 충분히 기재된 것처럼 참고로 포함된다. 염기 호출 오차는 많은 훈련 예에 걸쳐 평균화된다. 다른 구현에서, 실측 자료(712)는 정렬된 게놈 데이터를 사용하여 얻어지는데, 이는, 정렬된 게놈 데이터가, 잡음을 평균화하기 위해 다수의 서열분석 플랫폼 및 서열분석 실행으로부터 얻은 지식을 포함하는 실측 정보 및 기준 게놈을 사용할 수 있기 때문에 더 양호한 품질을 갖는다.
실측 자료(712)는 염기(A), 염기(C), 염기(G), 및 염기(T)의 강도 프로파일을 각각 신뢰성 있게 나타내는 염기 특정 강도 값(또는 본 명세서에서 나중에 논의되는 특징부 값)이다. RTA와 같은 염기 호출자는 서열분석 이미지(702)를 처리하고 각각의 염기 호출에 대해, 컬러별 강도 값/출력을 생성함으로써 클러스터를 염기 호출한다. 컬러별 강도 값은 염기별 강도 값으로 간주될 수 있는데, 그 이유는 화학 유형(예를 들어, 2-색 화학 또는 4-색 화학)에 따라, 컬러가 염기 A, C, G 및 T 각각에 맵핑되기 때문이다. 가장 가까운 매칭 강도 프로파일을 갖는 염기가 호출된다.
도 9a는 훈련 동안 오차 계산을 위한 실측 자료 값으로 사용되는 염기별 강도 표적을 자신의 중심에 포함하는 염기별 가우스 피팅의 하나의 구현을 도시한다. 훈련 데이터에서 다수의 염기 호출(예를 들어, 수십, 수백, 수천, 또는 수백만의 염기 호출)에 대해 염기 호출자에 의해 생성된 염기별 강도 출력은 염기별 강도 분포를 생성하는 데 사용된다. 도 9a는 각각 염기(A), 염기(C), 염기(G), 및 염기(T)의 염기별 강도 출력의 확률적 분포인 4개의 가우스 클라우드(Gaussian cloud)을 갖는 차트를 도시한다. 4개의 가우스 클라우드의 중심에서의 강도 값은 각각 염기(A), 염기(C), 염기(G), 및 염기(T)에 대한 실측 자료(712)의 실측 자료 강도 표적(또는 특징부 값 표적)으로 사용되고 본 명세서에서 표적(예를 들어, 강도 또는 특징부 값 표적)으로 지칭된다.
훈련 동안, 염기 호출자(704)로 공급되는 입력 이미지 데이터에 실측 자료 염기 호출로서 염기 "a"가 주석첨부되는 것을 고려한다. 실측 자료(712)는 또한 각각 염기(A), 염기(C), 염기(G), 및 염기(T)의 강도 프로파일을 신뢰성있게 표현하는 염기 특정 강도 값을 포함한다. 따라서, 예를 들어, 실측 자료(712)는 또한, 도 9a에 예시된 바와 같이(특징부 값은 본 명세서에서 나중에 논의됨), 염기 A에 대해, 염기 A에 대한 평균 강도 또는 평균 특징부 값의 좌표를 포함한다(즉, 도 9a에서 녹색 클라우드의 중심). 이어서, 염기 호출자(704)의 표적/원하는 출력은 도 9a에서 녹색 클라우드의 중심에서의 강도 값 또는 특징부 값, 즉, 염기 A에 대한 강도 표적이다. 유사하게, 염기 "C"의 경우, 실측 자료는 도 9a의 청색 클라우드의 중심에서의 강도 값 또는 특징부 값을 포함하며, 즉, 염기 C에 대한 강도 표적(또는 특징부 값 표적)은 좌표 (Cx,Cy)를 갖는다. 유사하게, 염기 "T"의 경우, 실측 자료는 도 9a에서 적색 클라우드의 중심에서의 강도 값 또는 특징부 값을 포함하며, 즉, 염기 T에 대한 강도 표적(또는 특징부 값 표적)은 좌표 (Tx,Ty)를 갖는다. 또한, 염기 "G"의 경우, 실측 자료는 도 9a에서 갈색 클라우드의 중심에서의 강도 값 또는 특징부 값을 포함하며, 즉, 염기 G에 대한 강도 표적(또는 특징부 값 표적)은 좌표 (Gx,Gy)를 갖는다.
따라서, 염기 호출자(704)의 훈련 동안의 표적 또는 원하는 출력은 훈련 데이터에서의 평균화 이후 각각의 염기(A), 염기(C), 염기(G), 및 염기(T)에 대한 평균 강도(또는 평균 특징부 값)이다. 일 구현에서, 훈련기(714)는 최소 제곱 추정을 사용하여 샤프닝 마스크(706)의 계수를 피팅하여 이러한 표적에 대한 출력 오차를 최소화한다.
일 구현에서, 훈련 동안, 염기 호출자(704)는 주어진 샤프닝 마스크 내의 계수를 주어진 염기 내의 표지된 서열분석 이미지의 픽셀에 적용한다. 이는 계수를 픽셀의 강도 값과 요소별로 곱하고, 특징부 맵의 강도 값의 가중된 합을 생성하는 것을 포함하며, 이때 계수는 가중치로서 역할을 하고/작용하고/사용된다. 특징부 맵은 상응하는 특징부 값을 갖는 다양한 특징부를 포함한다. 클러스터의 중심은 서열분석 이미지(702)의 픽셀의 중심과 정렬되지 않을 수 있다는 점에 유의한다. 이러한 오정렬을 고려하기 위해, 서열분석 이미지(702)(이미지의 상응하는 섹션으로 샤프닝 마스크를 콘볼루션함으로써 특징부 맵이 생성됨)로부터 생성된 특징부 맵에서, 클러스터에 할당된 가중된 특징부 값이 이선형 보간에 의해 생성되며, 예를 들어, 이웃하는 특징부는, 본 명세서에서 더 상세히 논의되는 바와 같이, 클러스터에 상응하는 가중된 특징부 값을 생성하기 위해 보간된다. 이어서, 클러스터에 상응하는 보간된 특징부 값은 그 클러스터에 대한 염기 호출자(704)의 예측된 출력이 된다. 이어서, 비용/오차 함수(예를 들어, 제곱 오차의 합(SSE: sum of squared errors))에 기반하여, 보간된 가중된 특징부 값과 클러스터의 주어진 염기에 대해 결정된 강도 표적 사이의 오차(예를 들어, 최소 제곱 오차, 최소 평균 제곱 오차)가 (예를 들어, 주어진 염기에 대해 관찰된 평균 강도로서 상응하는 강도 가우스 피팅의 중심으로부터) 계산된다. SSE와 같은 비용 함수는 적응적 접근법을 사용하여 샤프닝 마스크 계수를 추정하는 데 사용되는 차동 함수이며, 따라서, 계수에 대해 오차의 도함수를 평가할 수 있고, 이어서, 이러한 도함수는 오차를 최소화하는 값으로 계수를 업데이트하는 데 사용된다. 이러한 프로세스는 업데이트된 계수가 더 이상 오차를 감소시키지 않을 때까지 반복된다. 다른 구현에서, 배치식(batch) 최소 제곱 접근법이 염기 호출자(704)를 훈련시키는 데 사용된다.
예를 들어, 도 9a에서의 녹색 클라우드의 중심이, 즉, 염기 A에 대한 강도 표적은 (Ax,Ay)인 것으로 가정하며, 이는 염기 A 염기 호출에 대한 표적 또는 원하는 출력이다(예를 들어, 표적 특징부 값). 서열분석 실행 동안, 클러스터(904)는 좌표 (Ix,Iy)에 표현된 가중된 특징부 값을 갖는다고 가정한다. 일 구현예에서, 염기 호출자(704)는 주어진 샤프닝 마스크에서 계수를 업데이트하여, 클러스터(904)의 강도가 좌표 (Ix,Iy)로부터 좌표 (Ax,Ay)로 전치되도록 한다. 따라서, 훈련은 좌표 (Ax,Ay)과 좌표 (Ix,Iy) 사이의 거리를 최소화하거나 감소시키는 것을 목표로 한다.
일 예에서, 도 9a에 도시된 염기별 강도 분포/가우스 클라우드은 웰 기초로 생성될 수 있고, DC 오프셋, 증폭 계수, 및/또는 페이싱 파라미터의 추가에 의해 잡음에 대해 보정될 수 있다. 이러한 방식으로, 특정 웰의 웰 위치에 따라, 상응하는 염기별 가우스 클라우드가 그 특정 웰(또는 웰에 상응하는 클러스터)에 대한 표적 강도 값을 생성하는 데 사용될 수 있다.
일 구현에서, 염기 호출자(704)의 출력을 생성하는 내적(dot product)에 바이어스 항이 추가된다. 훈련 동안, 바이어스 파라미터는 샤프닝 마스크의 계수, 즉, 최소 제곱 또는 최소 평균 제곱(LMS: least mean square)을 학습하는 데 사용되는 유사한 접근법을 사용하여 추정될 수 있다. 일부 구현에서, 바이어스 파라미터에 대한 값은 1과 동일한 상수 값, 즉, 입력 픽셀 강도에 따라 변하지 않는 값이다. 계수의 세트당 하나의 바이어스가 있다. 바이어스는 훈련 동안 학습되고, 그 후, 추론 동안 사용하기 위해 고정된다. 학습된 바이어스는 각각의 샤프닝 마스크의 학습된 계수와 함께, 추론 동안 모든 계산에서 사용되는 DC 오프셋을 나타낸다. 바이어스는 상이한 클러스터 크기, 상이한 배경 강도, 다양한 자극 응답, 다양한 초점, 다양한 센서 감도, 및 다양한 렌즈 수차에 의해 야기되는 랜덤 잡음을 고려한다.
또 다른 결정 지향 구현에서, 염기 호출자(704)의 출력은 훈련 목적에 정확한 것으로 상정된다.
훈련기(714)는 염기 호출자(704)를 훈련시킬 수 있고, 복수의 훈련 기술을 사용하여 샤프닝 마스크(706)의 훈련된 계수를 생성할 수 있다. 훈련 기술의 예는 최소 제곱 추정, 일반 최소 제곱, 최소 평균 제곱, 및 순환 최소 제곱(recursive least-square)을 포함한다. 최소 제곱 기술은 함수의 파라미터를 조정하여, 제곱 잔차의 합이 최소화되도록 데이터 세트를 가장 잘 피팅한다. 다른 구현에서, 염기 호출자(704)를 훈련시키기 위해 다른 추정 알고리즘 및 적응적 알고리즘이 사용될 수 있다.
염기 호출자(704)는 오프라인 모드 또는 온라인 조정 모드에서 훈련될 수 있다. 일 구현에 따르면, 염기 호출자(704)의 훈련된 계수는 다음의 배치식 최소 제곱 로직을 사용하여 생성되고/되거나 업데이트된다:
[식 1]
상기의 식에서, 샤프닝 마스크 계수는 베타 모자이다. 예를 들어, 샤프닝 마스크(706)는 k×k의 치수를 갖는 경우, 베타 모자는 (k×k)의 치수를 갖는 벡터이다. 따라서, 3×3 치수 샤프닝 마스크의 경우, 베타 모자는 크기 9의 벡터이다.
X는 크기 m× (k×k)의 픽셀 값을 갖는, 즉, m 행 및 (k×k) 열의 행렬이고, m은 적절한 양의 정수이다. 행렬 X의 각각의 행은 하나의 클러스터에 상응하고, 각각의 열은 서브 픽셀 보간에 대해 조정한 후의 이미지 픽셀의 값이다.
y는 각각의 클러스터의 중심 위치에 상응하는 크기 m의 벡터이다. 예를 들어, y는 모든 훈련 예에 대한 표적 출력이고, 즉, 각각의 값은 훈련 예 진자에 따라 온/오프 클라우드의 강도 중심이다. 이어서, 베타 모자는 제곱 잔차의 합을 최소화하는 계수의 세트이다.
일 예에서, 염기 호출자(704)는 또한, 샤프닝 마스크(706)의 계수를 적응시키기 위해, 예를 들어, 온도(예를 들어, 광학 왜곡(optical distortion), 초점, 화학, 기계 특정 변동 등의 변화를 추적하기 위해 온라인 모드에서 훈련될 수 있는 반면, 서열분석 기계는 실행 중이고 서열분석 실행이 주기적으로 진행된다. 온라인 모드에서, 샤프닝 마스크(706)의 훈련된 계수는 적응적 기술을 사용하여 업데이트된다. 온라인 모드는 확률적 기울기 하강의 형태인 훈련 알고리즘으로서 최소 평균 제곱을 사용한다. 샤프닝 마스크(706)의 계수의 온라인 적응에 관한 추가 세부사항이 본 명세서에서, 예를 들어, 도 12 및 도 13과 관련하여 나중에 논의되었다.
최소 평균 제곱 기술은 각각의 계수에 대한 제곱 오차의 기울기를 사용하여, 제곱 오차의 예상 값인 비용 함수를 최소화하는 방향으로 계수를 이동시킨다. 이는 매우 낮은 계산 비용을 갖는다(계수당 곱셈 및 누산 연산만이 실행됨). 계수를 제외하면, 어떠한 장기 저장도 필요하지 않다. 최소 평균 제곱 기술은 다량의 데이터를 처리하는 데 매우 적합하다(예를 들어, 수십억 개의 클러스터로부터의 데이터를 병렬로 처리함). 최소 평균 제곱 기술의 확장은 정규화된 최소 평균 제곱 및 주파수 도메인 최소 평균 제곱을 포함하는데, 이들은 또한 본 명세서에서 사용될 수 있다. 일부 구현에서, 최소 평균 제곱 기술은, 결정이 정확하다고, 즉, 오차율이 매우 낮고 작은 뮤(mu) 값이 부정확한 염기 호출로 인한 임의의 교란된 업데이트를 필터링할 것이라고 가정하는 결정 지향 방식으로 적용될 수 있다.
도 9b는, 예를 들어, 오프라인 또는 온라인 모드를 사용하여 염기 호출자(104)를 훈련시키는 데 사용될 수 있는 적응적 기술의 일 구현을 도시한다, 여기서, 로직은 y = x.h + d이며, 식 중에서, x는 입력 픽셀 강도이고, h는 샤프닝 마스크 계수이고, d는 DC 오프셋이다. 일 구현에서, x 및 h는 각각 행 및 열 벡터이고, 길이가 81이다. 이러한 벡터 모델은 입력 픽셀 및 계수를 표현하는 9 x 9 매트릭스의 내적과 동등하다. 비용은 오차 제곱의 예상 값이다. 기울기 업데이트는 오차 제곱의 예상 값을 감소시키는 방향으로 각각의 계수를 이동시킨다. 이는 하기의 업데이트로 이어진다:
대부분의 시스템에 대해, 기대 기능 E{x(n)e*(n)}는 근사화되어야 한다. 이는 하기의 바이어스되지 않은 추정치로 수행될 수 있다:
식 중에서, N은 추정하는 샘플의 수를 나타낸다. 가장 단순한 용이성은 N = 1.
이러한 간단한 경우에, 업데이트 알고리즘은 다음과 같다:
실제로, 이는 LMS 필터에 대한 업데이트 알고리즘을 구성한다.
상기의 식에서, h는 샤프닝 마스크 계수의 벡터이고, x는 입력 강도의 벡터이고, e는 x에서의 값을 사용하여 수행된 계산의 오차, 즉, 출력당 오로지 1개의 오차 항이다.
이러한 업데이트를 적용하는 것은 (평균적으로) 평균 제곱 오차(MSE: mean squared error,)를 감소시키는 방향으로 계수를 이동시키는 새로운 계수 추정치를 생성한다. 일부 구현에서, 뮤는 적응률/수렴 속도를 변경하는 데 사용되는 작은 상수이다. DC 항목 업데이트가 유사한 방식으로 계산될 수 있다. 이득 항목 업데이트가 또한 유사한 방식으로 계산될 수 있다.
일부 구현에서, 계수 세트에 선형 보간이 적용되므로, 업데이트는 하기의 방식으로 약간 상이하게 적용된다:
상기의 식에서, h(q, n)는 사이클 n에서의 가중치 q이며, lambda_q는 계수의 특정 세트에 대한 선형 보간 가중치이고 2차원에서의 선형 보간으로 인해 출력당 4개의 업데이트를 포함할 수 있다.
순환 최소 제곱 기술은 최소 제곱 기술을 순환 알고리즘으로 확장한다.
공간적 크로스토크 감쇠기
도 10a 내지 도 10k는, 조합하여, 도 7 내지 도 8c의 훈련된 샤프닝 마스크(706)를 사용하여, 센서 픽셀로부터의 공간적 크로스토크를 감쇠시키고 크로스토크 보정된 센서 데이터를 사용하여 클러스터를 염기 호출하는 다양한 구현을 예시한다. 구체적으로, 도 10a는 다양한 클러스터 중심이 상응하는 픽셀의 중심에 대해 오프셋되어 있는 타일의 서브 타일(예를 들어, 타일(812)의 서브 타일(812a), 도 8a 참조)로부터의 서열분석 이미지(702)의 섹션(1000)을 예시한다.
서브 타일이 서열분석 이미지(706)의 다수의 픽셀을 생성할 가능성이 있지만, 서브 타일에 상응하는 도 10a의 섹션(1000)은 단순화를 위해 단지 몇 개의 픽셀을 포함한다.
도 10a는 서브 타일 내의 복수의 클러스터의 중심을 추가로 예시하며, 클러스터의 중심은 서열분석 이미지(706)의 섹션(1000)에 중첩된다. 또한, 도 10에 표시된 섹션(1000)은 특정 컬러 채널에 대한 것임을 가정한다. 2개의 상이한 이미징 채널인 적색 채널과 녹색 채널을 사용하는 서열분석기의 광학 시스템을 고려한다(서열분석기는 1, 3, 4, 이상과 같이 임의의 상이한 수의 컬러 채널을 생성할 수 있음). 이어서, 각각의 서열분석 사이클에서, 광학 시스템은 적색 채널 강도를 갖는 적색 이미지 및 녹색 채널 강도를 갖는 녹색 이미지를 생성하는데, 이들은 함께, (전형적인 컬러 이미지의 RGB 채널과 같은) 단일 서열분석 이미지를 형성한다. 일 예에서, 도 10에 도시된 픽셀은 특정 컬러 채널에 대한 것이다.
도 10a에서, 중심이 흑색 도트를 사용하여 예시되는 클러스터 중 일부가 표지된다. 예를 들어, I-X-Y 좌표 평면, 클러스터(1011)는 위치 (x1,y1)에 배치된 중심을 갖고; 클러스터(1012)는 위치 (x2,y2)에 배치된 중심을 갖고; 클러스터(1013)는 위치 (x3,y3)에 배치된 중심을 갖고; 클러스터(1014)는 위치 (x4,y4)에 배치된 중심을 갖고; 클러스터(1015)는 위치 (x5,y5)에 배치된 중심을 갖는다.
일 예에서, 타일 상의 클러스터의 위치(예를 들어, 좌표)는 기점 마커를 사용하여 식별된다. 생물학적 시료가 이미지화되는 고체 지지체는, 고체 지지체에 부착된 프로브와 관련하여 시료 또는 이의 이미지의 배향의 결정을 용이하게 하기 위해 이러한 기점 마커를 포함할 수 있다. 예시적인 기점은 비드(형광 모이어티 또는 표지된 프로브가 결합될 수 있는 핵산과 같은 모이어티가 있거나 없는), 알려졌거나 결정 가능한 특징부에 부착된 형광 분자, 또는 형태학적 형태를 형광 부분과 조합하는 구조가 포함되지만 이에 국한되지는 않는다. 예시적인 기점이 본 명세서에 참고로 포함된 미국 특허공개 제2002/0150909호에 기재되어 있다. 따라서, 예에서, 기점 마커는 서열분석 이미지(706)의 섹션(1000)에 대한 클러스터의 위치 및 도 10a에 예시된 클러스터의 좌표를 결정하는 데 사용된다.
클러스터의 중심은 상응하는 픽셀의 중심과 일치하지 않을 수 있다는 점에 유의한다. 예를 들어, 클러스터(1011)의 중심은 픽셀(1001)에 대해 내부에 있지만 중심을 벗어나 있고; 클러스터(1012)의 중심은 픽셀(1002)에 대해 내부에 있지만 중심을 벗어나 있고; 클러스터(1013)의 중심은 픽셀(1003)에 대해 내부에 있지만 중심을 벗어나 있고; 클러스터(1014)의 중심은 픽셀(1004)에 대해 내부에 있지만 중심을 벗어나 있고; 클러스터(1015)의 중심은 픽셀(1005)에 대해 내부에 있지만 중심을 벗어나 있다.
도 10b는 클러스터 대 픽셀 신호(1033)의 일 예를 시각화한다. 일 구현예에서, 센서 픽셀은 픽셀 평면 내에 있다. 공간적 크로스토크는 샘플 평면(예를 들어, 플로우 셀) 내의 클러스터의 주기적인 분포(1037)로 인해 발생한다. 일 구현에서, 클러스터는 다이아몬드 형상으로 플로우 셀에 주기적으로 분포되고 플로우 셀의 웰에 고정된다. 다른 구현에서, 클러스터는 육각형 형상으로 플로우 셀에 주기적으로 분포되고 플로우 셀의 웰에 고정된다. 클러스터로부터의 신호 콘(signal cone)(1035)은 적어도 하나의 렌즈(예를 들어, 오버헤드 또는 인접한 CCD 카메라의 하나 이상의 렌즈)를 통해 센서 픽셀의 로컬 그리드에 광학적으로 커플링된다.
다이아몬드 형상 및 육각형 형상에 더하여, 클러스터는 정사각형, 마름모, 삼각형 등과 같은 다른 규칙적인 형상으로 배열될 수 있다. 또 다른 구현에서, 클러스터는 무작위, 비주기적 배열로 샘플 평면 상에 배열된다. 당업자는, 특정 서열분석 구현에 의해 필요한 바와 같이, 클러스터가 임의의 배열로 샘플 평면 상에 배열될 수 있다는 것을 이해할 것이다.
도 10c는 클러스터 대 픽셀 신호 중첩의 일 예를 시각화한다. 신호 콘(1035)(도 10b 참조)은 센서 픽셀에 중첩되고 충돌하여 공간적 크로스토크(1037)를 생성한다.
도 10d는 클러스터 신호 패턴의 일 예를 시각화한다. 일 구현에서, 클러스터 신호 패턴은 클러스터 신호가 클러스터 중심에서 가장 강하고 그것이 클러스터 중심으로부터 멀리 전파됨에 따라 감쇠하는 감쇠 패턴(1039)을 따른다.
도 10e는 콘볼루션 연산(1030aa)을 예시하며, 샤프닝 마스크(820aa)는 서열분석 이미지의 상응하는 섹션으로 콘볼루션되어 상응하는 특징부 맵을 생성한다. 도 10e의 예에서, k×k(이 예에서 k = 3이지만, k는 다른 적절한 양의 정수일 수 있음) 샤프닝 마스크(820aa)(도 8a 참조)는 타일(812)의 서브 타일(812a)로부터의 그리고 컬러 채널(802a)에 대해 서열분석 이미지(702)의 섹션(1000)(섹션(1000)을 도시하는 도 10a 참조)으로 콘볼루션된다. 도 10a와 유사하게, 흑색 도트의 클러스터 중심은 서열분석 이미지(702)의 섹션(1000)에 중첩된다.
특징부 맵(1042aa)은 콘볼루션 연산의 결과로서 생성된다. 특징부 맵(1042aa)은 타일(812)의 서브 타일(812a)에 특정적이고 컬러 채널(802a)에 특정적인 것에 유의한다. 다시, 흑색 도트의 클러스터 중심은 특징부 맵(1042aa) 상에 중첩된다.
섹션(1000)는 치수 w×h를 갖고, w(폭) 및 h (높이)는 100,000 또는 예를 들어, 서브 타일(812a)의 크기에 따라 훨씬 더 높을 수 있다. 따라서, w 및 h는 상이한 서브 타일로의 타일의 분할에 기반한다. 일 구현에서, 콘볼루션(1030aa)으로 인해, 특징부 맵(1042aa)의 차원수는 섹션(1000)의 차원수와 상이할(예를 들어, 그보다 작을) 수 있다. 다른 구현에서, 차원수는, 예를 들어, 콘볼루션(1030a a) 이전에 섹션(1000)을 적절히 패딩하거나, 콘볼루션 연산 후에 특징부 맵(1042a)을 적절히 패딩함으로써 보존될 수 있다.
특징부 맵(1042aa)은 복수의 특징부를 포함하며, 각각의 특징부는 서열분석 이미지(702)의 섹션(1000)의 각자의 픽셀에 상응한다. 단지 일 예로서, 특징부 맵(1042aa)의 특징부(1051)는 섹션(1000)의 픽셀(1001)에 상응한다. 예를 들어, 콘볼루션(1030aa) 동안, 샤프닝 마스크(820aa)는 섹션(1000)을 가로질러 이동되고, 승산 및 합산 연산은 샤프닝 마스크(820aa)의 각각의 위치에서 수행된다. 특징부(1051)는 승산 및 합산 연산으로 인해 생성되고, 예를 들어, 샤프닝 마스크(820aa)가 픽셀(1001)을 중심으로 하는 섹션(1000)의 패치로 콘볼루션될 때, 특징부(1051)는 픽셀(1001)에 상응한다. 유사하게, 특징부 맵(1042aa)의 다른 특징부는 섹션(1000)의 각자의 픽셀에 상응한다(즉, 섹션(1000)의 픽셀과 특징부 맵(1042aa)의 특징부 사이의 일대일 위치 매핑 (on-to-inotic position mapping)).
도 10e의 예에서, 클러스터의 위치는 또한 특징부 맵(1042aa)의 특징부 상에 중첩된다. 예를 들어, 도 10a에 예시된 바와 같이, 하나 이상의 클러스터의 클러스터 중심은 상응하는 픽셀의 중심에 대해 중심을 벗어나 있다. 유사하게, 도 10e에서, 하나 이상의 클러스터의 클러스터 중심은 또한 상응하는 특징부의 중심에 대해 중심을 벗어나 있다.
도 10f는 복수의 콘볼루션 연산을 예시하며, 복수의 샤프닝 마스크 각각은 서열분석 이미지(702)의 복수의 섹션의 상응하는 섹션으로 콘볼루션되어 복수의 특징부 맵 중 상응하는 하나를 생성한다. 예를 들어, 도 8a 및 도 10f를 참조하면, 샤프닝 마스크(820aa)는 서브 타일(812a)에 상응하는 그리고 컬러 채널(802a)에 대해 서열분석 이미지(702)의 섹션(1000)으로 콘볼루션되어 상응하는 특징부 맵(1042aa)을 생성하고, 이러한 콘볼루션 연산은 도 10e와 관련하여 더 상세히 논의된다. 유사하게, 샤프닝 마스크(820ab)는 서브 타일(812b)에 상응하는 그리고 컬러 채널(802a)에 대해 서열분석 이미지(702)의 각자의 섹션으로 콘볼루션되어 상응하는 특징부 맵(1042ab)을 생성한다. 유사하게, 샤프닝 마스크(820ai)는 서브 타일(812i)에 상응하는 그리고 컬러 채널(802a)에 대해 서열분석 이미지(702)의 각자의 섹션으로 콘볼루션되어 상응하는 특징부 맵(1042ai)을 생성한다. 일반적으로 말하면, 샤프닝 마스크(820ax)는 서브 타일(812x)에 상응하는 그리고 컬러 체널(802a)에 대해 서열분석 이미지(702)의 각자의 섹션으로 콘볼루션되어, 상응하는 특징부 맵(1042ax)(x = a, …, i)을 생성한다. 도 10f의 좌측 상의 콘볼루션 연산(1030ax)(x = a, …, i)은 예시적인 컬러 채널(802a)에 대한 것이다.
도 10f의 우측 상의 콘볼루션 연산(1030by)(y = a, …, i)은 예시적인 컬러 채널(802b)에 대한 것이다. 예를 들어, 샤프닝 마스크(820ba)는 서브 타일(812a)에 상응하는 그리고 컬러 채널(802b)에 대해 서열분석 이미지(702)의 각자의 섹션으로 콘볼루션되어 상응하는 특징부 맵(1042ba)을 생성한다. 유사하게, 샤프닝 마스크(820bb)는 서브 타일(812b)에 상응하는 그리고 컬러 채널(802b)에 대해 서열분석 이미지(702)의 각자의 섹션으로 콘볼루션되어 상응하는 특징부 맵(1042bb) 등을 생성한다. 일반적으로 말하면, 샤프닝 마스크(820bx)는 서브 타일(812y)에 상응하는 그리고 컬러 채널(802b)에 대해 서열분석 이미지(702)의 각자의 섹션으로 콘볼루션되어, 상응하는 특징부 맵(1042by)(y = a, …, i)을 생성한다.
또한 앞서 논의된 바와 같이, 2개의 컬러 채널(802a 및 802b)은 단지 예일 뿐이며, 서열분석기는 하나의 컬러 채널, 또는 3개 또는 다른 더 높은 수의 컬러 채널과 같은 임의의 상이한 수의 컬러 채널을 포함할 수 있다.
도 10g는 도 10e의 특징부 맵(1042aa)을 더 상세히 예시하며, 클러스터의 특징부 및 중심 중 일부가 표지된다. 예를 들어, 클러스터(1011)는 위치 (x1,y1)에서 그리고 특징부(1051) 내에 중심을 갖고, 클러스터(1012)는 위치 (x2,y2) 그리고 특징부(1052) 내에 중심, 등을 갖는다(또한 서열분석 이미지의 섹션(1000)에서의 클러스터 중심 좌표에 대해 도 10a 참조).
도 10h는 도 10e 및 도 10g의 특징부 맵(1042aa)을 예시하며, 표적 클러스터(1011)를 포함하는 특징부 맵(1042aa)의 일부(1029)는 확대도로 더 상세히 예시된다. 예를 들어, 특징부 맵(1042aa)의 부분(1029)의 도면은 증폭되거나 확대되고, 위치 (x1,y1)에서의 클러스터(1011)의 중심은 특징부 맵(1042aa)의 부분(1029)에 중첩된다.
논의된 바와 같이, 클러스터(1011)는 특징부(1051)(도 10h에서 1051e로 표지됨) 내에 있지만, 특징부(1051e)의 중심에 대해 중심을 벗어나 있다. 특징부(1051e)를 둘러싸는 8개의 이웃하는 특징부(1051a,., 1051d, 1051f, …, 1051i)가 또한 표지된다.
각각의 특징부의 중심은 도 10h에서 흑색 정사각형 및 일부 후속 도면을 사용하여 표현된다. 특징부(1051a)의 중심은 좌표 (xa,ya)를 갖고, 특징부(1051b)의 중심은 좌표 (xb,yb)를 갖고, 특징부(1051i)의 중심은 도 10h에 예시된 바와 같이 좌표 (xi,yi)를 갖는다.
도 10e와 관련하여 논의된 바와 같이, 도 10h의 각각의 특징부(1051a, 1051e)는 콘볼루션(1030aa)에 의해 생성되는 상응하는 특징부 값을 갖는다. 도 10h를 참조하면, 예에서, 클러스터(1011)는 가중된 특징부 값을 할당받고, 가중된 특징부 값은 적절한 보간 기술에 기반하여 할당된다. 예를 들어, 클러스터(1011)의 중심이 특징부(1051e)의 중심과 일치하는 경우, 특징부(1051e)의 특징부 값은 클러스터(1011)에 할당될 수 있다. 그러나, 도 10h의 예에서 클러스터(1011)의 중심은 특징부(1051e)의 중심과 일치하지 않기 때문에, 클러스터(1011)에 할당될 가중된 특징부 값은 특징부(1051e) 뿐만 아니라 특징부(1051e)에 이웃하는 하나 이상의 특징부에 의해 영향을 받는다.
일 구현예에서, 가중된 특징부 값을, 예를 들어, (i) 클러스터(1011)의 중심이 위치하는 특징부(1051e)의 특징부 값, (ii) 클러스터(1011)의 중심으로부터 임계 거리 내에 있는 하나 이상의 이웃하는 특징부의 특징부 값, (iii) 클러스터의 중심과 특부의 중심 사이의 중심 간 거리, (iv) 클러스터의 중심과 픽셀의 중심 사이의 중심 간 거리, 그리고 (v) 클러스터와 연관된 중심 간 거리에 기반하여 클러스터(1011)에 할당하는 데 적절한 보간 기술이 사용된다.
도 10h는 특징부 맵 도메인 내에 있음에 유의한다(즉, 특징부 맵(1042a)을 예시하며, 클러스터(1011)는 특징부 맵 상에 중첩됨). 특징부의 중심 및 클러스터(1011)의 중심의 좌표가 또한 예시된다. 이름이 암시하는 바와 같이, 클러스터 중심과 특징부 중심 사이의 중심간 거리는 클러스터의 중심과 특징부의 중심 사이의 거리를 지칭하며, 또한 클러스터와 특징부 사이의 중심간 거리로 지칭된다. 예를 들어, 클러스터(1011)와 특징부(1051e) 사이의 중심간 거리(d1)는, 예를 들어, 다음과 같이 결정되는, 좌표 (x1,y1)과 좌표 (xe, ye) 사이의 거리이다:
유사하게, 클러스터(1011)와 임의의 다른 특징부 사이의 중심간 거리가 또한 결정될 수 있다.
다른 한편, 클러스터와 픽셀 사이의 중심간 거리로도 지칭되는 클러스터 중심과 픽셀 중심 사이의 중심간 거리는 클러스터의 중심과 픽셀의 중심 사이의 거리를 지칭한다. 예를 들어, 도 10a를 참조하면, 서열분석 이미지(702)의 섹션(1000)이 예시되어 있다. 도 10h와 유사하게, 다양한 픽셀의 중심의 좌표가 결정될 수 있고, 따라서 클러스터(1011)과 다양한 픽셀 사이의 중심간 거리가 또한 결정될 수 있다.
예를 들어, 도 10i는 도 10e의 콘볼루션 연산(1030aa)을 예시하고, 클러스터(1011)와 픽셀(1011) 사이의 중심간 거리(d2)뿐만 아니라 클러스터(1011)와 특징부(1051e) 사이의 중심간 거리(d1)를 추가로 예시한다. 도 10e와 관련하여 논의된 바와 같이, 특징부(1051e)는 픽셀(1011)에 상응한다는 것에 유의한다. 예를 들어, 콘볼루션(1030aa) 동안, 샤프닝 마스크(820aa)는 섹션(1000)을 가로질러 이동되고, 승산 및 합산 연산은 샤프닝 마스크(820aa)의 각각의 위치에서 수행된다. 특징부(1051e)는 승산 및 합산 연산으로 인해 생성되고, 예를 들어, 샤프닝 마스크(820aa)가 픽셀(1001)을 중심으로 하는 섹션(1000)의 패치로 콘볼루션될 때, 특징부(1051)는 픽셀(1001)에 상응한다. 따라서, 픽셀(1001)의 중심에 대한 클러스터(1011)의 위치는 특징부(1051e)의 중심에 대한 클러스터(1011)의 위치와 동일하다. 즉, 거리(d1)와 거리(d2)는 동일하다.
본 명세서에서 후술되는 보간 연산 중 적어도 일부에 대해, (i) 클러스터와 픽셀 사이의 중심간 거리, 또는 (ii) 클러스터와 특징부 사이의 중심간 거리가 사용될 수 있다. 예를 들어, 일 구현은 클러스터와 픽셀 사이의 중심간 거리를 사용할 수 있는 반면, 다른 구현은 클러스터와 특징부 사이의 중심간 거리를 사용할 수 있으며, 이들 2개의 중심간 거리는 수치적으로 동일하다.
본 명세서에서 나중에 논의된 보간 예 중 일부는 클러스터와 특징부 사이의 중심간 거리를 논의한다. 그러나, 당업자에 의해 쉽게 이해되는 바와 같이, 클러스터와 픽셀 사이의 중심간 거리가 또한 대신에 사용될 수 있다.
본 발명의 목적으로 그리고 달리 언급되지 않는 한, 클러스터와 연관된 중심간 거리는 클러스터와 상응하는 픽셀 사이의 중심간 거리, 또는 클러스터와 상응하는 특징부 사이의 중심간 거리를 의미한다.
일 예에서, 클러스터의 서브 픽셀 위치는 클러스터가 위치되는 픽셀의 경계 또는 픽셀의 중심에 대한 클러스터의 중심의 위치를 포함한다. 예를 들어, 도 10i의 픽셀(1001)이 3×3 서브 픽셀의 그리드로 분할되는 경우, 클러스터(1011)는 픽셀(1001)의 상단 우측 서브 픽셀 내에 포함될 가능성이 있다.
일 예에서, 클러스터의 서브 특징부 위치는 클러스터가 위치되는 특징부의 경계 또는 특징부의 중심에 대한 클러스터의 중심의 위치를 포함한다. 예를 들어, 도 10i의 특징부(1051e)가 3×3 서브 특징부의 그리드로 분할되는 경우, 클러스터(1011)는 픽셀(1001)의 상단 우측 서브 특징부 내에 포함될 가능성이 있다.
표적 클러스터의 가중된 특징부 값을 결정하기 위한 보간
도 10h와 관련하여 논의된 바와 같이, 예를 들어, (i) 클러스터(1011)의 중심이 위치하는 특징부(1051e)의 특징부 값, 및 (ii) 클러스터(1011)의 중심으로부터 임계 거리 내에 있는 하나 이상의 이웃하는 특징부의 특징부 값에 기반하여, 가중된 특징부 값을 클러스터(1011)에 할당하기 위해 임의의 적절한 보간 기술이 사용될 수 있다. 일부 이러한 보간 기술이 본 명세서에서 아래에 논의된다. 아래에서 논의되는 보간 기술의 목록은 배타적이지 않고, 당업자에게 알려진 다른 적절한 보간 기술이 또한 사용될 수 있다는 것에 유의한다.
A. 가장 가까운 이웃 보간
이 보간 기술에서, 클러스터(1011)에 가장 가까운 특징부가 결정되고, 가장 가까운 특징부의 특징부 값이 클러스터(1011)에 할당된다. 도 10h에 예시된 바와 같이, 위치 (xe, ye)에서의 특징부(1051e)의 중심은 클러스터(1011)의 중심(x1,y1)에 가장 가깝다. 따라서, 클러스터(1011)는 특징부(1051e)의 특징부 값을 할당받는다.
따라서, 이 기술은 중심간 거리를 결정하는 것을 포함하며, 예를 들어 (그러나, 클러스터와 픽셀 사이의 중심간 거리가 또한 사용될 수 있지만) 클러스터(1011) 중심의 중심(즉, 좌표 (x1,y1))과 이웃하는 특징부의 중심 사이의 중심간 거리가 결정된다. 가장 가까운 중심간 거리에 상응하는 특징부는 가장 가까운 이웃으로 선택되고, 가장 가까운 특징부의 특징부 값이 클러스터에 할당된다. 보간은 또한 클러스터의 서브 픽셀 또는 서브 특징부 위치에 기반한다는 것에 유의한다.
B. 가장 가까운 이웃 보간의 평균
다른 예시적인 보간 기술은 n개의 가장 가까운 이웃하는 픽셀의 특징부 값을 평균화하는 것을 수반하며, n은 1, 4, 9, 등과 같은 적절한 정수이다. 예를 들어, n = 4로 가정하면, 클러스터(1011)에 할당된 가중된 특징부 값은 도 10h의 예에서 특징부(1051b, 1051c, 1051e, 1051f)인 가장 가까운 4개의 이웃하는 특징부의 특징부 값의 평균이다. 따라서, (클러스터와 이웃하는 픽셀 사이의 중심간 거리가 또한 사용될 수 있지만) 이 기술은 클러스터(1011)의 중심(즉, 좌표 (x1,y1))과 이웃하는 특징부의 중심 사이의 중심간 거리를 결정하는 것을 수반한다. 4개의 가장 가까운 특징부가 선택되고, 그들의 강도가 평균되어 클러스터(1011)에 할당될 가중된 특징부 값을 결정한다. 따라서, 보간은 또한 클러스터의 서브 픽셀 또는 서브 특징부 위치에 기반한다. n = 4는 단지 예이며, n은 본 발명의 교시에 기반하여 당업자에 의해 쉽게 이해되는 바와 같이 임의의 다른 적절한 값일 수 있다는 것에 유의한다.
C. 이선형 보간
일 구현예에서, 이선형 보간은 인접한 특징부의 특징부 값에 기반하여 클러스터(1011)에 할당될 가중된 특징부 값을 결정하는 데 사용될 수 있다.
이선형 보간은 직선 2차원 그리드에서 두 변수(예를 들어, x 및 y)의 보간 함수에 대한 선형 보간법의 확장이다. 이선형 보간은 먼저 일 방향으로 그 후 다시 다른 방향으로 선형 보간법을 사용하여 수행된다. 각 단계가 샘플링된 값 및 위치에서 선형적이지만, 전체적으로 보간법은 선형이 아니라 오히려 샘플 위치에서 2차(quadratic)이다. 이선형 보간은 컴퓨터 비전 및 이미지 처리에서의 기본 재샘플링 기술 중 하나이며, 이는 또한 이선형 필터링 또는 이선형 텍스처 맵핑으로도 지칭된다.
도 10j는 이선형 보간을 도시하는 예시적인 스킴을 예시한다. 도 10j에서, 4개의 특징부(1051b, 1051e, 1051c 및 1051f)는 클러스터(1011)의 중심에 대한 4개의 가장 가까운 특징부이고(추가적인 상세사항에 대해 도 10h 참조), 및 특징부(1051b, 1051e, 1051c 및 1051f)의 특징부 값은 클러스터(1011)에 대한 가중된 특징부 값을 생성하기 위해 이선형으로 보간되어야 한다.
도 10j에 예시된 바와 같이, 특징부(1051b)의 중심의 좌표는 (x1,y2)이고; 특징부(1051e)의 중심의 좌표는 (x1,y1)이고; 특징부(1051c)의 중심의 좌표는 (x2,y2)이고; 특징부(1051f)의 중심의 좌표는 (x2,y1)이고; 클러스터(1011)의 중심의 좌표는 (x,y)로 가정한다. 좌표의 이러한 표지는 도 10h의 표지와 반대임에 유의한다. 중심의 좌표는 단순화를 위해 도 10j에서 이러한 방식으로 표지된다.
특징부(1051b, 1051e, 1051c 및 1051f)가 위에서 논의된 좌표에 기반하여 각각 Q12, Q11, Q22, 및 Q21로 표지됨을 가정한다. 따라서, 특징부(1051b, 1051e, 1051c 및 1051f)의 특징부 값은, 알려진 f(Q12), f(Q11), f(Q22), 및 f (Q21)로 각각 표지된다. 예를 들어, 도 10e와 관련하여 논의된 콘볼루션 연산 동안, 특징부 값 f(Q12), f(Q11), f(Q22), 및 f(Q21)가 결정된다.
이선형 보간은 특징부 값 f(Q12), f(Q11), f(Q22), 및 f(Q21)를 (x,y)에서 클러스터 중심에 보간하여, 가중된 특징부 값을 클러스터(1011)에 할당하는 것을 목표로 한다.
처음에, x-방향에서의 선형 보간이 좌표 (x,y1) 및 (x,y2)에 대해 수행된다:
이어서, y-방향에서의 선형 보간이 다음과 같이 좌표 (x,y)에 대해 수행된다:
따라서, f(x,y)는 클러스터(1011)의 중심인 이선형 보간을 사용하여 좌표 (x,y)에 가중된 특징부를 제공한다. 따라서, f(x,y)는 클러스터(1011)에 할당된 가중된 특징부이다.
D. 바이큐빅 보간
수학에서, 바이큐빅 보간은 2차원 정규 그리드 상에서 데이터 포인트를 보간하기 위한 입방 보간의 확장이다. 보간된 표면은 이선형 보간 또는 가장 가까운 이웃하는 보간에 의해 얻어진 상응하는 표면보다 더 매끄럽다. 바이큐빅 보간은 라그랑주 다항식, 입방 스플라인, 또는 입방 콘볼루션 알고리즘을 사용하여 달성될 수 있다. 일 예에서, 처리 속도가 문제가 되지 않을 때, 이미지 리샘플링에서 이선형 또는 가장 가까운 이웃하는 보간에 걸쳐 바이큐빅 보간이 때때로 선택된다.
클러스터(1011)에 대한 가중된 특징부 값을 결정할 때 4개의 이웃하는 특징부를 고려하는 위에서 논의된 이선형 보간과는 대조적으로, 바이큐빅 보간은 (예를 들어, 클러스터(1011)의 중심을 둘러싸는 4×4 특징부의 그리드에서와 같은) 16개의 특징부 값을 고려한다. 예를 들어, 클러스터 중심과 특징부 중심(또는 이전에 논의된 바와 같은 픽셀 중심) 사이의 중심간 거리가 고려되어, 클러스터 중심에 가장 가까운 특징부의 4×4 그리드를 선택한다. 이어서, 4×4 그리드의 특징부의 특징부 값이, 예를 들어, 바이큐빅 보간에 따라 클러스터(1011)의 가중된 특징부 값을 결정하는 데 사용된다.
E. 가중된 영역 커버리지에 기반한 보간
다른 보간 기술은 도 10k에 예시된 바와 같이 중앙 클러스터 주위의 커버리지 영역에 기반하여 클러스터(1011)의 가중된 특징부 값을 할당한다. 예를 들어, 도 10k에 예시된 바와 같이, 커버리지(1011)의 중심과 커버리지 A의 영역의 중심이 일치하도록 커버리지 A의 영역이 클러스터(1011) 주위에 인입된다. 일 예에서, 커버리지 A의 영역은 정사각형 형상을 갖는다. 일 예에서, 커버리지 A의 영역은 단지 예로서 특징부의 크기와 동일한 크기를 갖는다. 예를 들어, 커버리지 A의 영역이 특징부(1051b)의 Wb%, 특징부(1051c)의 Wc%, 특징부(1051f)의 Wf%, 및 특징부(1051e)의 We%를 포함한다고 가정한다. 이어서, 클러스터(1011)에 할당된 가중된 특징부 값은 다음과 같을 것이다:
도 10k는 커버리지 A의 영역이 특징부의 크기와 동일한 크기를 갖는다고 가정함에 유의한다. 다른 예에서, 커버리지 A의 영역은 특징부의 크기와 같은, 예를 들어 2배 또는 3배 크기를 가질 수 있거나, 또는 심지어 특징부의 비정수배일 수 있다(예를 들어, 예를 들어, 특징부의 크기의 1.5배). 이러한 예에서, 클러스터(1011)의 가중된 특징부 값은 본 발명의 교시에 기반하여 당업자에 의해 쉽게 이해되는 바와 같이, 4개 초과의 특징부의 특징부 값에 기반할 수 있다.
F. 다른 예시적인 보간 기술
보간 기술의 일부 예가 본 명세서에서 위에서 논의된다. 일 구현예에서, 임의의 다른 적절한 보간 기술이 또한 사용될 수 있다. 예를 들어, 랜조스 리샘플링 또는 랜조스 보간이 보간을 위해 사용되어, 클러스터(1011)에 할당될 가중된 특징부 값을 결정할 수 있다. 랜조스 필터링 및 랜조스 리샘플링은 수학 공식의 두 가지 응용 프로그램으로, 이는 이의 샘플 사이의 디지털 신호의 값을 매끄럽게 보간하는 데 사용될 수 있다. 예를 들어, 기술은 주어진 신호의 각각의 샘플을, 제2, 더 긴 sinc 함수의 중심 로브에 의해 나타내는 sinc 함수 윈도우인 랜조스 커널의 변환 및 스케일링된 사본으로 맵핑한다. 이어서, 이러한 변환과 스케일링된 커널의 합이 원하는 포인트에서 평가된다. 이 필터는 발명가인 Cornelius Lanczos의 이름을 따서 명명된다.
보간 기술의 다른 예시적인 유형은 해닝 윈도우(Hanning window)를 사용하며, 이는 클러스터(1011)에 할당될 가중된 특징부 값을 결정하기 위해 보간에 대해 사용될 수 있다. 신호 처리 및 통계에서, 윈도우 함수는 일부 선택된 간격의 외부에서 0 값인 수학 함수로, 정상적으로 간격의 중간 주위에서 대칭이고, 일반적으로 중간에서 최대값에 가깝고 일반적으로 중간으로부터 멀리 테이퍼링된다. 제로 위상 버전 때문에 상승된 코사인으로도 알려진 해닝 윈도우는 윈도우 함수의 예이다. 해밍 윈도우와는 달리, 해닝 윈도우의 종점은 0에 닿는다 일 구현예에서, 다른 적절한 윈도우 함수가 또한 보간을 위해 사용될 수 있다.
염기 호출
본 명세서에서 위에서 논의된 보간에 후속하여, 클러스터의 가중된 특징부 값(들)은 염기 호출자(704)에 입력으로서 공급되어, 해당 클러스터에 대한 염기 호출을 생성한다. 염기 호출자(704)는 비신경망 기반 염기 호출자 또는 신경망 기반 염기 호출자일 수 있으며, 둘 모두의 예는 미국 특허 출원 제62/821,766호 및 미국 특허 출원 제16/826,168호와 같은, 본 명세서에 참고로 포함된 출원에 기재되어 있다.
논의된 바와 같이, 클러스터에 대한 가중된 특징부 값의 할당은 신호 대 잡음비를 최대화하거나 증가시키고, 인접한 클러스터 사이의 공간적 크로스토크를 감소시킨다. 예를 들어, 콘볼루션(도 10e 참조) 및 보간으로 인해, 인접한 클러스터 사이의 공간적 크로스토크가 감소되거나 제거된다. 예를 들어, 샤프닝 마스크(820)의 계수는 신호 대 잡음비를 최대화하거나 증가시키는 방식으로 튜닝된다. 신호 대 잡음비에서 최대화되거나 증가된 신호는 표적 클러스터로부터의 강도 방출물이고, 신호 대 잡음비에서 최소화되거나 감소된 잡음은 (예를 들어, 배경 강도 방출물을 처리하기 위한) 인접한 클러스터로부터의 강도 방출물, 즉, 공간적 크로스토크 + 일부 랜덤 잡음이다.
일단 가중된 특징부 값이 클러스터에 할당되면, 클러스터에 할당된 가중된 특징부 값에 기반하여 클러스터에 대한 염기 호출자에 의해 염기 호출이 이루어진다. 따라서, 복수의 서열분석 사이클을 포함하는 서열분석 실행의 경우, 서열분석 이미지(702) 각각의 서열분석 사이클에 대해 생성된다. 주어진 서열분석 사이클에 대한 서열분석 이미지(702)는 복수의 클러스터 및 하나 이상의 컬러 채널에 대한 이미지를 포함한다.
예를 들어, 논의된 바와 같이, 특정 서열분석 사이클에 대해, 제1 가중된 특징부 값은 제1 컬러 채널에 대한 특정 클러스터에 할당될 수 있고, 제2 가중된 특징부 값은 제2 컬러 채널에 대한 특정 클러스터에 할당될 수 있다(예를 들어, 2개의 컬러 채널이 있다고 가정하면, 1개, 3개, 또는 임의의 다른 더 높은 수의 컬러 채널이 있을 수 있다). 이러한 예에서, 특정 클러스터 및 특정 서열분석 사이클에 대한 염기 호출은 제1 가중된 특징부 및 제2 가중된 특징부에 기반할 수 있다. 염기 호출의 추가 세부사항은 미국 특허 출원 제62/821,766호 및 미국 특허 출원 제16/826,168호와 같은 본 명세서에 참고로 포함된 응용에 기재되어 있다.
콘볼루션 및 보간을 사용한 염기 호출 방법, 및 성능 결과
도 11a는 서열분석 이미지의 적어도 섹션의 콘볼루션 및 후속 보간에 기반하여, 하나 이상의 가중된 특징부 값을 클러스터에 할당하고, 할당된 하나 이상의 가중된 특징부 값에 기반하여 클러스터를 염기 호출하는 방법(1100)을 도시한다.
방법(1100)의 1104에서, 서열분석 실행의 특정 서열분석 사이클에 대해, 상응하는 서열분석 사이클이 도 7의 염기 호출자(704)와 같은 염기 호출자에 의해 액세스되는 동안, 서열분석 이미지(예를 들어, 도 7의 서열분석 이미지(702))는 플로우 셀(예를 들어, 도 1과 관련하여 논의된 플로우 셀)에 의해 출력된다.
1108에서, 서열분석 이미지는 플로우 셀의 컬러 채널 및/또는 공간 부분에 기반하여 복수의 섹션으로 분할되며, 서열분석 이미지의 각각의 섹션은 상응하는 컬러 채널에 대해 복수의 클러스터를 포함한다.
예를 들어, 도 8a에서, 플로우 셀의 각각의 타일은 3×3 공간 부분으로 분할되고, 따라서 특정 컬러 채널에 대한 타일로부터 생성된 서열분석 이미지는 상응하는 3×3 섹션으로 분할된다. 또한, 도 8a에서, 본 발명의 범주를 제한하지 않고 단지 예로서, 2개의 컬러 채널이 가정된다. 따라서, 특정 타일의 경우, 서열분석 이미지는 제1 컬러 채널에 대해 제1 3×3 섹션 및 제2 컬러 채널에 대해 제2 3×3 섹션으로 분할된다.
유사하게, 도 8b의 예에서, 플로우 셀의 각각의 타일은 1×9 부분으로 분할되고, 따라서 특정 컬러 채널에 대한 타일로부터 생성된 서열분석 이미지는 제1 컬러 채널에 대해 상응하는 제1 1×9 섹션 및 제2 컬러 채널에 대해 제2 1×9 섹션으로 분할된다(즉, 2개의 컬러 채널을 가정함).
서열분석 이미지의 다른 예시적인 분할은 또한 본 발명의 교시에 기반하여, 예를들어, 타일의 상이한 예시적인 분할 및 상이한 수의 컬러 채널에 대해, 당업자에 의해 구상될 수 있다.
이어서, 방법(1100)은 1112로 진행하며, 서열분석 이미지의 각각의 섹션은 상응하는 샤프닝 마스크로 콘볼루션되어, 복수의 섹션에 대해 복수의 특징부 맵이 생성되도록 상응하는 섹션에 대한 상응하는 특징부 맵을 생성한다. 예를 들어, 도 8a 및 도 8b와 관련하여 논의된 바와 같이, 서열분석 이미지의 각각의 섹션은 상응하는 샤프닝 마스크를 갖는다. 도 10f에 예시된 바와 같이, 서열분석 이미지의 각각의 섹션은 상응하는 샤프닝 마스크로 콘볼루션되어 상응하는 특징부 맵을 생성한다. 도 10e는 서열분석 이미지의 특정 섹션에 대한 콘볼루션 연산을 예시한다.
서열분석 이미지의 각각의 섹션은 상응하는 복수의 클러스터를 갖는다는 것에 유의한다. 예를 들어, 서열분석 이미지의 제1 섹션 및 제2 섹션이 각각 제1 컬러 채널 및 제2 컬러 채널에 대해 생성되고, 타일의 동일한 제1 서브 타일 부분으로부터 생성되고, 따라서 제1 섹션 및 제2 섹션 둘 모두는 동일한 제1 복수의 클러스터를 가질 것이다. 다른 예에서, 서열분석 이미지의 제3 섹션 및 제4 섹션이 각각 제1 컬러 채널 및 제2 컬러 채널에 대해 생성되고, 타일의 동일한 제2 서브 타일 부분으로부터 생성된다고 가정한다. 따라서, 제3 섹션 및 제4 섹션 둘 모두는 제1 복수의 클러스터와는 상이한 동일한 제2 복수의 클러스터를 가질 것이다.
이어서, 방법(1100)은 1116으로 진행하고, 각각의 특징부 맵 내의 각각의 클러스터에 대해, 적절한 보간 기술에 기반하여 가중된 특징부 값이 클러스터에 할당되어, 각각의 클러스터가 하나 이상의 컬러 채널에 대한 하나 이상의 상응하는 가중된 특징부 값을 갖도록 한다. 예를 들어, 2개의 컬러 채널 예를 가정하면, 각각의 클러스터는 2개의 컬러 채널에 상응하는 2개의 가중된 특징부 값을 할당받는다. 일부 예시적인 보간 기술이 본 명세서에서 이전에 논의되지만, 본 명세서에서 논의되지 않은 임의의 다른 보간 기술이 또한 사용될 수 있다.
이어서, 방법(1100)은 1120으로 진행하며, 염기 호출자는 상응하는 클러스터에 대한 상응하는 하나 이상의 가중된 특징부 값에 기반하여 각각의 클러스터의 염기를 호출한다. 예를 들어, 클러스터의 가중된 특징부 값은 염기 호출자(704)에 입력으로서 공급되어, 해당 클러스터에 대한 염기 호출을 생성한다. 염기 호출자(704)는 비신경망 기반 염기 호출자 또는 신경망 기반 염기 호출자일 수 있으며, 둘 모두의 예는 미국 특허 출원 제62/821,766호 및 미국 특허 출원 제16/826,168호와 같은, 본 명세서에 참고로 포함된 출원에 기재되어 있다.
이어서, 방법(1100)은 1124로 진행하며, 방법(1100)은 서열분석 실행의 다음 서열분석 사이클로 진행하고, 방법(1100)은 1104로 되돌아간다. 방법(1100)의 이러한 반복은 서열분석 실행의 모든 서열분석 사이클이 완료될 때까지 계속된다.
도 11b는 샤프닝 마스크를 사용한 개시된 강도 추출 기술의 성능 결과의 비교를 도시하며, 이때 다양한 다른 강도 추출 기술은 염기 호출과 연관된다. 도 11b의 플롯의 X 축은 서열분석 사이클을 나타내고, 플롯의 Y 축은 염기 호출에 대한 오류율을 나타낸다. 예를 들어, 발명의 명칭이"등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"이고 본 명세서에 완전히 제시된 것과 같이 모든 목적을 위해 참고로 포함된 미국 특허 출원 제17/308,035호에 개시된 바와 같이, 플롯의 적색 라인은 강도 추출을 위해 샤프닝 마스크를 사용하지 않고 염기 호출을 위한 것이고; 플롯의 녹색 라인은 등화기 기술을 사용하여 샤프닝 마스크를 사용한 염기 호출을 위한 것이다. 플롯의 청색 라인은 도 7 내지 도 11a와 관련하여 본 명세서에서 논의된 기술을 사용하여 샤프닝 마스크를 염기 호출하기 위한 것이다. 알 수 있는 바와 같이, (논의된 기술을 사용하여 샤프닝 마스크로 염기 호출하기 위한) 플롯의 청색 라인은 (강도 추출을 위한 샤프닝 마스크의 사용 없이 염기 호출을 위해) 플롯에서 적색 라인보다 실질적으로 더 낮은 오류율을 갖는다.
도 11b는 또한 염기 호출 및 평균 통과 필터 백분율에 대한 평균 오류율을 예시하는 표를 도시한다. 통과 필터 백분율은 양호한 품질 염기 호출(예를 들어, 임계 백분율 초과의 신뢰도 레벨을 갖는 염기 호출)을 갖고 염기 호출되는 클러스터의 분획을 나타낸다. 따라서, 더 높은 통과 필터 백분율은 처리량을 개선한다. 알 수 있는 바와 같이, 본 명세서에서 논의된 기술(표의 제3 열에 표시됨)을 사용하여 샤프닝 마스크로 염기 호출하는 것은 샤프닝 마스크를 사용하지 않는 시나리오(테이블의 제1 열에 나타냄)보다 더 낮은 오류율 및 더 양호한 통과 필터 백분율을 갖는다. 또한, 발명의 명칭이"등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"이고 본 명세서에 완전히 제시된 것과 같이 모든 목적을 위해 참조로 포함된 미국 특허 출원 제17/308,035호에 개시된 바와 같이, 본 명세서에서 논의된 기술(테이블의 제3 열에 표시됨)을 사용하여 샤프닝 마스크로 염기 호출하는 것은 등화기 기술을 사용하여 샤프닝 마스크를 사용하는 시나리오에 비해 약간 더 낮은 오류율 및 약간 더 높은 패스 필터 백분율을 갖는다. 본 명세서에서 논의된 기술을 사용하여 샤프닝 마스크를 갖는 염기 호출은, 도 11c와 관련하여 본 명세서에서 논의되는 바와 같이, 등화기 기술을 사용하여 샤프닝 마스크를 사용하는 시나리오와 비교하여 더 낮은 수의 샤프닝 마스크를 사용하고 더 빠른 실행 시간을 갖는다는 것에 유의한다.
도 11c는 염기 호출의 다양한 다른 기술과 함께 샤프닝 마스크를 사용하는 개시된 기술의 성능 결과의 다른 비교를 예시한다. 구체적으로, 다양한 시나리오에 대한 염기 호출의 속도(또는 염기 호출 실행 시간)가 도 11c에서 비교된다.
2개의 플롯(플롯(1100c1) 및 플롯(1100c2))이 예시되어 있다. 플롯(1100c1)은 개발 하에서 새로운 서열분석 플랫폼으로부터의 서열분석 데이터를 사용하여 생성되고, 플롯(1100c2)은 Illumina NextSeq 1000/NextSeq 2000 서열번호기로부터의 서열분석 데이터를 사용하여 생성된다. 또한, 플롯(1100c1)의 경우, 픽셀 당 웰 또는 클러스터의 수는 7×7에서 사용되는 0.3 및 커널(또는 샤프닝 마스크) 크기이다. 플롯(1100c2)의 경우, 픽셀당 웰 또는 클러스터의 수는 9×9에서 사용되는 0.1 및 커널(또는 샤프닝 마스크) 크기이다. 따라서, 플롯(1100c1)은 플롯(1100c2)에 비해 더 높은 클러스터 밀도를 갖는다.
플롯(1100c2)에서 알 수 있는 바와 같이, 본 명세서에서 논의된 기술(녹색으로 표시됨)을 사용하여 샤프닝 마스크와 염기 호출하는 것은 등화기 기술을 사용하여 샤프닝 마스크를 사용하는 시나리오보다 12.5% 더 빠르다. 성능의 개선은 더 높은 클러스터 밀도를 갖는 플롯(1100c1)에서 훨씬 더 두드러진다. 예를 들어, 플롯(1100c1)에서 알 수 있는 바와 같이, 본 명세서에서 논의된 기술(녹색으로 표시됨)을 사용하여 샤프닝 마스크와 염기 호출하는 것은 등화기 기술을 사용하여 샤프닝 마스크를 사용하는 시나리오보다 49.8% 더 빠르다.
정규 캐시 액세스
(발명의 명칭이"등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"인 공동 계류 중인 미국 특허 출원 제17/308,035호에 개시된 바와 같이) 등화기 기술을 사용하여 샤프닝 마스크를 사용하는 시나리오는, 예를 들어, 픽셀의 중심에 대한 클러스터의 서브 픽셀 위치에 따라, 상이한 클러스터에 대해 상이한 샤프닝 마스크를 사용한다. 따라서, 예를 들어, 플로우 셀의 타일 상의 3개의 인접한 클러스터는 3개의 상이한 샤프닝 마스크를 가능하게 사용할 수 있다.
대조적으로, 본 발명에 개시된 강도 추출 기술의 경우(예를 들어, 도 7 내지 도 11a와 관련함), 타일의 전체 서브 타일 영역 상의 클러스터는 동일한 샤프닝 마스크를 사용한다. 예를 들어, 도 8a를 참조하면, 서브 타일(812a) 상의 모든 클러스터는 컬러 채널(802a)에 대해 동일한 샤프닝 마스크(820aa)를 사용한다. 따라서, 일 예에서, 컬러 채널(802a)에 대한 서브 타일(812a) 상의 클러스터를 처리할 때, 상응하는 샤프닝 마스크(820aa)가 캐시에 로딩되고, 동일한 샤프닝 마스크(820aa)가 도 10f의 콘볼루션 연산(1030aa) 동안 캐시로부터 반복적으로 액세스된다. 다른 예에서, 일단 샤프닝 마스크(820aa)가 캐시로부터 처리 유닛에 로딩되면, 동일한 샤프닝 마스크(820aa)가 콘볼루션 연산(1030aa)의 전체에 대해 사용된다. 이는 상대적으로 더 규칙적인 캐시 액세스 패턴을 개선하고(즉, 규칙적인 캐시 액세스 패턴), 결과적으로 캐시 미스가 적거나 없다.
대조적으로, 논의된 바와 같이, 등화기 기술(발명의 명칭이"등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"인 공동 계류 중인 미국 특허 출원 제17/308,035호에 개시된 바와 같이)을 사용하여 샤프닝 마스크를 사용하는 시나리오에 대해, 플로우 셀의 타일 상의 상이한 인접한 클러스터는 상대적으로 불규칙한 캐시 액세스 패턴 및 더 높은 수의 캐시 미스를 초래하는 상응하는 상이한 샤프닝 마스크를 사용할 수 있다. 따라서, 본 발명에 개시된 강도 추출 기술(예를 들어, 도 7 내지 도 11a와 관련함)은 도 11c에서 또한 반영된 바와 같이, 공동 계류 중인 미국 특허 출원 제17/308,035호에 개시된 등화기 기반 강도 추출 기술보다 상대적으로 더 빠르다.
샤프닝 마스크의 계수의 온-라인 적응
서열분석 이미지의 상응하는 섹션의 콘볼루션에 대해 사용되는 각각의 샤프닝 마스크는 k×k 행렬이며, k는 3, 5, 7, 9, 또는 그 초과와 같은 적절한 양의 정수인 것에 유의한다. "m" 개수의 컬러 채널(m은 1, 2, 또는 그 초과와 같은 양의 정수임)이 있다고 가정하면, 타일의 각각의 서브 타일에 대해, m×k×k 계수가 존재한다. 타일이 "n" 개수의 부분으로 세분된다고 가정하면(예를 들어, 도 8a 및 도 8b를 참조), 훈련 프로세스 동안 업데이트되어야 하는 n×m×k×k 수의 계수가 존재한다. n, m, 및 k의 비교적 낮은 값 때문에, 업데이트될 계수의 수는 유의하게 높지 않다. 단지 일 예로서, 2개의 컬러 채널이 가정되는 경우, 샤프닝 마스크는 3×3의 치수를 갖는 것으로 가정되고, 각각의 타일은 3×3 또는 9개의 서브 타일로 분할되고, 이어서 모든 샤프닝 마스크의 계수의 총 수는 2×9×3×3 = 162이다.
본 명세서에서 이전에 논의된 오프라인 훈련에 더하여, 일 구현예에서, 샤프닝 마스크의 계수는 또한 서열분석 실행 동안 적응적으로 업데이트된다. 예를 들어, 위에서 논의된 예에서, 모든 샤프닝 마스크의 계수의 162개가 단지 존재하고, 예를 들어, 서열분석 실행이 진행 중일 때 162개의 계수를 온라인으로 적응하는 것은 상대적으로 용이하다(숫자 162는 단지 예일 뿐이라는 점에 유의함). 대조적으로, 등화기 기술(발명의 명칭이"등화 기반 이미지 처리 및 공간적 크로스토크 감쇠기"인 공동 계류 중인 미국 특허 출원 제17/308,035호에 개시된 바와 같음)을 사용하는 샤프닝 마스크는 샤프닝 마스크의 더 높은 수의 파라미터(예를 들어, 4050와 같음)를 가질 수 있다.
도 12는 서열분석 이미지의 적어도 섹션의 콘볼루션 및 후속 보간에 기반하여, 하나 이상의 가중된 특징부 값을 클러스터에 할당하는 염기 호출하고, 할당된 하나 이상의 가중된 특징부 값에 기반하여 클러스터를 염기 호출하는 것에 기반하여 염기 호출하는 방법(1200)을 도시하며, 샤프닝 마스크의 계수는 서열분석 실행 동안 적응적으로 업데이트된다.
일 예에서, 서열분석 기계가 실행 중이고 서열분석 실행이 주기적으로 진행되는 동안, 샤프닝 마스크의 계수의 온라인 적응은, 온도, 초점(예를 들어, 광학 왜곡), 화학, 기계 특정 변동 등의 변화와 같은, 서열분석 실행의 작동 파라미터의 변화를 추적할 수 있게 한다. 예를 들어, 온도(예를 들어, 광학 왜곡), 초점, 화학, 및/또는 기계 특정 변형은 샤프닝 마스크 계수의 오프라인 훈련을 적어도 부분적으로 무효화할 수 있다. 계수의 온라인 적응, 예를 들어, 서열분석 실행이 주기적으로 진행하는 경우, 서열분석 실행에 영향을 미치는 임의의 파라미터(들)에 대한 임의의 변화에 적응하기 위해 계수를 다시 트랙 상에서 가져올 수 있다.
방법(1200) 및 방법(1100)은 다양한 공통 동작을 공유하며, 이는 두 도면에서 동일한 표지를 사용하여 표지된다. 예를 들어, 둘 모두의 도면에서 블록(1104, 1108, 1112, 1116, 1120 및 1124)은 동일하고 동일하게 표지되고, 이러한 블록에 대한 동작은 도 12와 관련하여 다시 논의되지 않는다.
블록(1104 내지 1120)(도 11a와 관련하여 논의됨)에 대해 논의된 완전한 동작 후에, 도 12의 방법(1200)이 1204로 진행하며, 샤프닝 마스크의 계수가 현재 서열분석 사이클의 데이터를 사용하여 업데이트/훈련되어야 하는지 여부가 결정된다. 예를 들어, 샤프닝 마스크의 계수는 서열분석 실행의 모든 서열분석 사이클에서 업데이트되지 않을 수 있다. 오히려, 예에서, 샤프닝 마스크의 계수는 서열분석 실행의 하나 이상의 선택된 서열분석 사이클(그러나 반드시 전부는 아님) 동안 업데이트될 수 있다(그러나, 다른 예에서, 계수는 각각의 서열분석 사이클 동안 업데이트될 수 있음).
예를 들어, 계수가 업데이트될 서열분석 사이클(들)은 구현 특정적일 수 있고, 사용자 구성 가능한 파라미터일 수 있다. 예를 들어, 본 명세서에서 이후에 도 14에서 알 수 있는 바와 같이, 서열분석 사이클(10 및 30)동안 샤프닝 마스크 계수가 업데이트되는 시나리오에 대해 결과가 제시된다.
1204에서 "아니오"인 경우(즉, 계수는 현재 서열분석 실행 동안 업데이트되지 않아야 함), 방법(1200)은 1124로 진행하고, 이어서, 도 11a의 방법(1100)과 관련하여 논의된 바와 같이 1104로 되돌아간다.
1204에서 "예"인 경우(즉, 계수는 현재 서열분석 실행 동안 업데이트되어야 함), 방법(1200)은 1208로 진행하며, 샤프닝 마스크의 계수는 현재 서열분석 사이클(C)로부터의 데이터를 사용하여 업데이트되거나 적응된다. 일 예에서, 샤프닝 마스크의 업데이트된 계수는 서열분석 사이클(C+2) 및 후속 서열분석 사이클 동안 강도 추출을 위해 적용된다. 적응 또는 업데이트 프로세스는 식 1 및 도 9a 및 도 9b와 관련하여 본 명세서에서 이전에 더 상세히 논의된다. 이어서, 방법은 블록(1124)으로 진행하고, 이어서 블록(1104)로 되돌아간다.
일 예에서 그리고 도 12에 예시되지 않았지만, 서열분석 사이클(C)로부터의 데이터를 사용하여 샤프닝 마스크의 계수를 업데이트 또는 적응시키는 것은 블록(1104 내지 1102)의 동작 중 적어도 일부의 다음 반복에 적어도 부분적으로 발생한다. 즉, 염기 호출자가 서열분석 사이클(C+1)로부터 데이터를 처리하고 있는 동안, 염기 호출자는 병렬로 또한 서열분석 사이클(C)로부터의 데이터를 사용하여 계수의 업데이트를 수행할 수 있다. 따라서, 예에서, 업데이트된 계수는 서열분석 사이클(C+1)의 이미지에 적용되지 않을 수 있고, 서열분석 사이클(C+2)의 이미지에 적용될 수 있다.
현재 서열분석 사이클(C)을 염기 호출하기 위해, 서열분석 사이클(C+1)의 강도가 먼저 추출되어야 함에 유의한다. 예를 들어, 서열분석 사이클(C+1)의 강도는 서열분석 사이클(C)의 예비 페이싱/페이싱을 보정하는 데 사용된다. 페이싱 및 예비 페이싱에 대한 추가적인 상세사항은 발명의 명칭이 "다수의 염기 호출자 모델을 사용하는 염기 호출"이고, 본 명세서에 완전히 제시된 것처럼 모든 목적을 위해 참고에 의해 통합되는 공동 계류 중인 미국 가특허 출원 제63/228,954호에서 논의된다.
도 13은 강도 추출에 대해 사용되는 샤프닝 마스크의 계수의 적응을 예시한다. 예를 들어, 1304에서, 염기 호출자는 서열분석 사이클(C+1)을 위해 플로우 셀로부터 서열분석 이미지를 수신하고, 본 명세서에 개시된 기술을 사용하여 강도를 추출한다(예를 들어, 콘볼루션을 사용하여, 보간이 이어짐). 서열분석 사이클(C)와 같은 초기 사이클에 대한 강도 추출이 서열분석 사이클(C+1)에 대해 동작(1304)이 실행될 때 이미 완료되었다고 가정됨에 유의한다.
1308에서, 염기 호출자는 사이클(C+1)의 페이싱 오류를 보정한다. 1312에서, 염기 호출자는, 예를 들어, 서열분석 사이클(C+1)의 추출된 (및 페이싱 보정된) 강도를 사용하여 서열분석 사이클(C)의 예비 페이싱 오류를 보정한다. 1316에서, 염기 호출자는 서열분석 사이클(C)에 대한 다양한 클러스터의 염기를 호출한다. 1320에서, 염기 호출자는 서열분석 사이클(C)로부터의 데이터를 사용하여 샤프닝 마스크의 계수를 적응시키거나 업데이트한다. 마지막으로, 샤프닝 마스크의 업데이트된 계수는 서열분석 사이클(C+2)에 이어지게 사용된다. 실제 적응 또는 업데이트 프로세스는 식 1 및 도 9a 및 도 9b와 관련하여 본 명세서에서 이전에 더 상세히 논의된다.
도 14는 샤프닝 마스크 및 적응을 사용한 개시된 강도 추출 기술의 성능 결과의 비교를 도시하며, 이때 다른 강도 추출 기술은 적응을 사용하지 않는다. NextSeq 1000/NextSeq 2000 서열분석기로부터의 서열분석 데이터에 기반하여 도 14의 플롯 및 표를 생성하였다. 도 14의 플롯의 X 축은 서열분석 사이클을 나타내고, 플롯의 Y 축은 염기 호출에 대한 오류율을 나타낸다. 예를 들어, 플롯의 적색 점선은 강도 추출을 위한 샤프닝 마스크에 대한 적응을 사용하지 않고 염기 호출을 위한 것이고; 플롯에서의 청색 라인은 본 발명에 개시된 바와 같이 샤프닝 마스크의 적응으로 염기 호출을 위한 것이다(도 12 참조). 도 14의 표는 2개의 시나리오에 대한 오류율 및 통과 필터 백분율을 비교한다. 표에서 알 수 있는 바와 같이, 적응이 샤프닝 마스크에 대해 사용되는 경우, 평균 오차율은 약 9.4% 만큼 개선된다. 도 14의 예에서, 적응은 비인덱스 판독의 서열분석 사이클(10 및 30)에 대해 수행된다. 서열분석 사이클(150)에서 그리고 이후의 그래프의 불연속성은 이러한 서열분석 사이클 동안 발생하는 인덱스 판독으로 인한 것이다. 인덱스 판독물에 대한 추가적인 상세사항은 본 명세서에 참고로 포함된 2020년 2월 20일자로 출원된 발명의 명칭이 "인공 지능 기반 염기 호출"인 미국 가특허 출원 제62/979,384호에서 찾을 수 있다.
도 15는 샤프닝 마스크 및 적응을 사용한 개시된 강도 추출 기술의 성능 결과의 비교를 도시하며, 이때 다른 강도 추출 기술은 적응을 사용하지 않는다. 도 15의 플롯 및 표는 Illumina, inc.(미국 캘리포니아주 샌디에고 소재)에 의해 개발된 새로운 서열분석 플랫폼으로부터의 서열분석 데이터에 기반하여 생성되었다. 도 15의 플롯의 X 축은 서열분석 사이클을 나타내고, 플롯의 Y 축은 염기 호출에 대한 오류율을 나타낸다. 예를 들어, 플롯의 적색 라인은 본 발명에 개시된 바와 같이(예를 들어, 도 12 참조), 강도 추출을 위한 샤프닝 마스크에 대한 적응의 사용으로 염기 호출을 위한 것이고; 플롯의 청색 라인은 샤프닝 마스크의 적응 없이 염기 호출을 위한 것이다. 도 15의 표는 2개의 강도 추출 기술에 대한 오류율 및 통과 필터 백분율을 비교한다. 표에서 알 수 있는 바와 같이, 평균 오류율은, 적응이 샤프닝 마스크에 대해 사용될 때, 또한 통과 필터 백분율의 일부 개선과 함께, 약 23% 만큼 개선된다. 서열분석 사이클(150)에서 그리고 이후의 그래프의 불연속성은 이러한 서열분석 사이클 동안 발생하는 인덱스 판독으로 인한 것이다. 인덱스 판독물에 대한 추가적인 상세사항은 본 명세서에 참고로 포함된 2020년 2월 20일자로 출원된 발명의 명칭이 "인공 지능 기반 염기 호출"인 미국 가특허 출원 제62/979,384호에서 찾을 수 있다.
본 출원에서, 용어 "클러스터", "웰", "샘플" 및 "형광 샘플"은, 웰이 상응하는 클러스터/샘플/형광 샘플을 함유하기 때문에 상호교환 가능하게 사용된다. 본 명세서에 정의된 바와 같이, "샘플" 및 이의 파생어는 가장 넓은 의미로 사용되며, 표적을 포함하는 것으로 의심되는 임의의 시료, 배양물 등을 포함한다. 일부 구현에서, 샘플은 DNA, RNA, PNA, LNA, 키메라 또는 혼성 형태의 핵산을 포함한다. 샘플은 하나 이상의 핵산을 함유하는 임의의 생물학적, 임상적, 외과적, 농업적, 대기 또는 수생 기반 시료를 포함할 수 있다. 용어는 또한, 게놈 DNA, 신선 동결 또는 포르말린-고정 파라핀 함몰 핵산 시료와 같은 임의의 단리된 핵산 샘플을 포함한다. 또한, 샘플은 단일 개체, 유전적으로 관련된 구성원으로부터의 핵산 샘플의 수집물, 유전적으로 관련되지 않은 구성원으로부터의 핵산 샘플, 종양 샘플 및 정상 조직 샘플과 같은 단일 개체로부터의 (매칭된) 핵산 샘플, 또는 모체 및 모체 대상으로부터 수득된 태아 DNA와 같은 2개의 개별 형태의 유전 물질을 함유하는 단일 소스로부터의 샘플, 또는 식물 또는 동물 DNA를 함유하는 샘플 내 오염성 박테리아 DNA의 존재로부터의 것일 수 있다는 것이 구상된다. 일부 구현에서, 핵산 재료의 소스는, 예를 들어 통상적으로 신생아 스크리닝에 대해 사용되는 바와 같이, 신생아로부터 수득된 핵산을 포함할 수 있다.
핵산 샘플은 게놈 DNA(gDNA)와 같은 고분자량 물질을 포함할 수 있다. 샘플은 FFPE 또는 보관된 DNA 샘플로부터 수득된 핵산 분자와 같은 저분자량 물질을 포함할 수 있다. 다른 구현예에서, 저분자량 재료는 효소적으로 또는 기계적으로 단편화된 DNA를 포함한다. 샘플은 무세포 순환 DNA를 포함할 수 있다. 일부 구현에서, 샘플은 생검, 종양, 찰과표본(scraping), 면봉, 혈액, 점액, 소변, 혈장, 정액, 모발, 레이저 캡처 마이크로 절개, 수술 절제, 및 다른 임상 또는 실험실 수득 샘플로부터 수득된 핵산 분자를 포함할 수 있다. 일부 구현에서, 샘플은 역학적(epidemiological), 농업적, 법의학적 또는 병원성 샘플일 수 있다. 일부 구현에서, 샘플은 인간 또는 포유류 소스와 같은 동물로부터 수득된 핵산 분자를 포함할 수 있다. 다른 구현에서, 샘플은 식물, 박테리아, 바이러스 또는 진균과 같은 비포유류 소스로부터 수득된 핵산 분자를 포함할 수 있다. 일부 구현에서, 핵산 분자의 소스는 보관된 또는 멸절된 샘플 또는 종일 수 있다.
또한, 본 명세서에 개시된 방법 및 조성물은 법의학적 샘플로부터의 분절되고/되거나 단편화된 게놈 DNA와 같은 저품질 핵산 분자를 갖는 핵산 샘플을 증폭시키는 데 유용할 수 있다. 일 구현에서, 법의학적 샘플은 범죄 장면으로부터 수득된 핵산, 실종자 DNA 데이터염기로부터 수득된 핵산, 과학 수사와 연관된 실험실로부터 수득된 핵산을 포함할 수 있거나, 또는 사법당국, 하나 이상의 군용 서비스 또는 임의의 이러한 인원에 의해 수득된 법의학적 샘플을 포함할 수 있다. 핵산 샘플은, 예를 들어 구강용 면봉, 종이, 섬유, 또는 타액, 혈액, 또는 다른 체액으로 침지될 수 있는 다른 기질로부터 유래된, 용해물을 함유하는 조질(crude) DNA 또는 정제된 샘플일 수 있다. 이와 같이, 일부 구현에서, 핵산 샘플은 게놈 DNA와 같은 DNA의 소량의 또는 단편화된 부분을 포함할 수 있다. 일부 구현에서, 표적 서열은 혈액, 가래, 혈장, 정액, 소변 및 혈청을 포함하지만 이들로 제한되지 않는 하나 이상의 체액에 존재할 수 있다. 일부 구현에서, 표적 서열은 모발, 피부, 조직 샘플, 부검 또는 희생자 유해로부터 수득될 수 있다. 일부 구현에서, 하나 이상의 표적 서열을 포함하는 핵산은 사망한 동물 또는 인간으로부터 수득될 수 있다. 일부 구현에서, 표적 서열은 미생물, 식물, 또는 곤충학적 DNA와 같은 비인간 DNA로부터 수득된 핵산을 포함할 수 있다. 일부 구현에서, 표적 서열 또는 증폭된 표적 서열은 인간 식별의 목적으로 지향된다. 일부 구현에서, 본 발명은 대체적으로, 법의학적 샘플의 특성을 식별하기 위한 방법에 관한 것이다. 일부 구현에서, 본 발명은 대체적으로, 본 명세서에 개시된 하나 이상의 표적 특이적 프라이머 또는 본 명세서에서 개략된 프라이머 설계 기준을 사용하여 설계된 하나 이상의 표적 특이적 프라이머를 사용하는 인간 식별 방법에 관한 것이다. 일 구현에서, 적어도 하나의 표적 서열을 함유하는 법의학적 또는 인간 식별 샘플은 본 명세서에 개시된 표적 특이적 프라이머 중 임의의 하나 이상을 사용하여 또는 본 명세서에 개략된 프라이머 기준들을 사용하여 증폭될 수 있다.
본 명세서에서 사용되는 바와 같이, 용어 "인접"은 2개의 반응 부위와 관련하여 사용될 때, 2개의 반응 부위 사이에 어떠한 다른 반응 부위도 위치되지 않음을 의미한다. 용어 "인접"은 인접한 검출 경로 및 인접한 광 검출기와 관련하여 사용될 때 유사한 의미를 가질 수 있다(예를 들어, 인접한 광 검출기는 그들 사이에 다른 광 검출기를 갖지 않음). 일부 경우에 있어서, 반응 부위는 다른 반응 부위에 인접하지 않을 수 있지만, 여전히 또 다른 반응 부위의 바로 부근 내에 있을 수 있다. 제1 반응 부위는 제1 반응 부위로부터의 형광 방출 신호가 제2 반응 부위와 연관된 광 검출기에 의해 검출될 때 제2 반응 부위의 바로 부근에 있을 수 있다. 보다 구체적으로, 제1 반응 부위는 제2 반응 부위와 연관된 광 검출기가 예를 들어 제1 반응 부위로부터의 크로스토크를 검출할 때 제2 반응 부위의 바로 부근에 있을 수 있다. 인접한 반응 부위는 이들이 서로 접해 있도록 근접할 수 있거나, 또는 인접한 부위는 근접하지 않아서 사이에 개재 공간을 가질 수 있다.
업샘플링된 구현
일 구현에서, 예를 들어, 하나 이상의 보간 기술 또는 전치 콘볼루션 기술을 사용하여 업샘플링된 이미지를 생성함으로써 이미지가 업샘플링될 수 있다. 일부 구현에서, 이미지는 픽셀 해상도를 가질 수 있고, 업샘플링된 이미지는 서브 픽셀 해상도를 가질 수 있다. 일 구현에서, 콘볼루션 커널/샤프닝 마스크/마스크는, 예를 들어, 하나 이상의 보간 기술 또는 전치 콘볼루션 기술을 사용하여 업샘플링된 콘볼루션 커널/샤프닝 마스크/마스크를 생성함으로써 업샘플링될 수 있다. 일부 구현에서, 콘볼루션 커널/샤프닝 마스크/마스크는 픽셀 해상도를 가질 수 있고, 업샘플링된 콘볼루션 커널/샤프닝 마스크/마스크는 서브 픽셀 해상도를 가질 수 있다. 이어서, 업샘플링된 콘볼루션 커널/샤프닝 마스크/마스크가 업샘플링된 이미지에 적용되어 업샘플링된 특징부를 생성한다. 일부 구현에서, 특징부는 픽셀 해상도를 가질 수 있고, 업샘플링된 특징부는 서브 픽셀 해상도를 가질 수 있다. 이어서, 업샘플링된 특징부는 픽셀 별로 분석되어 표적 클러스터를 염기 호출할 수 있다. 다른 구현에서, 업샘플링된 특징부는 클러스터 별 상응으로 분석되어 표적 클러스터를 염기 호출할 수 있다.
기술적 개선 및 용어
특허, 특허 출원, 물품, 책, 논문, 및 웹페이지를 포함하지만 이들로 제한되지 않는, 본 출원에 인용된 모든 문헌 및 유사한 재료는, 이러한 문헌 및 유사한 재료의 형식과는 관계 없이, 그들 전체가 명백히 참고로 포함된다. 포함된 문헌 및 유사한 재료 중 하나 이상이, 정의된 용어, 용어 사용, 기재된 기술 등을 포함하지만 이로 제한되지 않는 본 출원과 상이하거나 이에 모순되는 경우에, 본 출원이 우선한다. 용어에 관한 추가적인 정보는 2020년 3월 21일자로 출원되고 발명의 명칭이 "인공지능 기반 서열분석"인 미국 정규 특허 출원 제16/826,168호 및 2019년 3월 21일자로 출원되고 발명의 명칭이 "인공지능 기반 서열분석"인 미국 가특허 출원 제62/821,766호에서 찾을 수 있다.
개시된 기술은 신경망을 사용하여, 핵산 샘플, 예를 들어 핵산 템플릿 또는 이의 상보체, 예를 들어 DNA 또는 RNA 폴리뉴클레오티드 또는 다른 핵산 샘플로부터 획득될 수 있는 핵산 서열 정보의 품질 및 양을 개선한다. 따라서, 개시된 기술의 특정 구현은 이전에 이용 가능한 방법론에 비하여, 더 높은 처리량의 폴리뉴클레오티드 서열분석, 예를 들어 DNA 또는 RNA 서열 데이터의 더 높은 수집률, 서열 데이터 수집에 있어서의 더 큰 효율성, 및/또는 이러한 서열 데이터를 획득하는 더 낮은 비용을 제공한다.
개시된 기술은 신경망을 사용하여, 고체상 핵산 클러스터의 중심을 식별하고, 이러한 클러스터의 서열분석 동안 생성되는 광학 신호를 분석하여, 서열분석 신호를 단일의 개별 소스 클러스터에 할당하기 위해 인접한, 접해 있는, 또는 중첩하는 클러스터 사이를 명확하게 구별한다. 따라서, 이들 및 관련된 구현은, 중첩하는 또는 매우 조밀하게 이격된 인접한 클러스터의 교락 효과(이들로부터 발산하는 (예를 들어, 핵산 서열분석에서 사용된 바와 같은) 중첩하는 신호의 효과를 포함함)로 인해, 유용한 정보가 이러한 영역으로부터 이전에 획득될 수 없었던 고밀도 클러스터 어레이의 영역으로부터 서열 데이터와 같은 의미 있는 정보의 검색을 허용한다.
더 상세히 후술되는 바와 같이, 특정 구현에서, 본 명세서에 제공된 바와 같은 하나의 또는 복수의 핵산 클러스터를 고정화시킨 고체 지지체를 포함하는 조성물이 제공된다. 각각의 클러스터는 동일한 서열의 복수의 고정화된 핵산을 포함하며, 본 명세서에 제공된 바와 같은 검출 가능한 중심 표지를 갖는 식별 가능한 중심을 가지며, 이에 의해 식별 가능한 중심은 클러스터에서 주변 영역 내의 고정화된 핵산과 구별 가능하다. 또한, 식별 가능한 중심을 갖는 이러한 클러스터의 제조 및 사용 방법이 본 명세서에 기술된다.
현재 개시된 구현은, 고처리량 핵산 서열분석, 광학 또는 다른 신호를 별개의 소스 클러스터에 할당하기 위한 이미지 분석 알고리즘의 개발, 및 고정화된 핵산 클러스터의 중심의 인식이 바람직하고 유익한 다른 응용과 같은, 클러스터 내의 실질적으로 중심인 위치의 포지션을 식별하거나, 결정하거나, 주석첨부하거나, 기록하거나, 또는 달리 할당하는 능력으로부터 이점이 획득되는 많은 상황에서 사용될 것이다.
특정 구현에서, 본 발명은 핵산 서열 결정(예를 들어, "서열분석")과 같은 고처리량 핵산 분석에 관련된 방법을 고려한다. 예시적인 고처리량 핵산 분석은, 제한 없이, 드 노보 서열분석, 재서열분석, 전체 게놈 서열분석, 유전자 발현 분석, 유전자 발현 모니터링, 후성 분석, 게놈 메틸화 분석, 대립유전자 특이적 프라이머 연장(APSE), 유전적 다양성 프로파일링, 전체 게놈 다형성 검색 및 분석, 단일 뉴클레오티드 다형성 분석, 혼성화 기반 서열 결정 방법 등을 포함한다. 당업자는 다양한 상이한 핵산이 본 발명의 방법 및 조성물을 사용하여 분석될 수 있음을 이해할 것이다.
본 발명의 구현이 핵산 서열분석과 관련하여 기술되어 있지만, 이들은 상이한 시점, 공간 위치 또는 다른 시간적 또는 물리적 관점에서 획득된 이미지 데이터가 분석되는 어떠한 분야에도 적용 가능하다. 예를 들어, 본 명세서에 기술된 방법 및 시스템은 마이크로어레이, 생물학적 시료, 세포, 유기체 등으로부터의 이미지 데이터가 상이한 시점 또는 관점에서 획득되고 분석되는 분자 생물학 및 세포 생물학의 분야에서 유용하다. 이미지는 형광 현미경법, 광학 현미경법, 공초점 현미경법, 광학 이미징, 자기 공명 이미징, 단층촬영 스캐닝 등을 포함하지만 이로 제한되지 않는, 당업계에 알려진 임의의 수의 기술을 사용하여 획득될 수 있다. 다른 예로서, 본 명세서에 기술된 방법 및 시스템은, 감시, 항공 또는 위성 이미징 기술 등에 의해 획득된 이미지 데이터가 상이한 시점 또는 관점에서 획득되고 분석되는 경우에 적용될 수 있다. 방법 및 시스템은, 관찰되는 분석물이 시야에서 서로에 대해 동일한 위치에서 유지되는, 상기 시야에 대해 획득된 이미지를 분석하는 데 특히 유용하다. 그러나, 분석물은 별개의 이미지에서 상이한 특성을 가질 수 있는데, 예를 들어, 분석물은 시야의 별개의 이미지에서 상이하게 보일 수 있다. 예를 들어, 분석물은 상이한 이미지에서 검출된 주어진 분석물의 컬러, 상이한 이미지에서 주어진 분석물에 대해 검출된 신호의 강도의 변화, 또는 심지어 하나의 이미지에서의 주어진 분석물에 대한 신호의 출현 및 다른 이미지에서의 분석물에 대한 신호의 소멸과 관련하여 상이하게 보일 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "분석물"은 상대 위치에 따라 다른 점 또는 영역과 구별될 수 있는 패턴의 점 또는 영역을 의미하도록 의도된다. 개별 분석물은 특정 유형의 하나 이상의 분자를 포함할 수 있다. 예를 들어, 분석물은 특정 서열을 갖는 단일 표적 핵산 분자를 포함할 수 있거나, 또는 분석물은 동일한 서열(및/또는 이의 상보적 서열)을 갖는 여러 핵산 분자를 포함할 수 있다. 소정 패턴의 상이한 분석물에 있는 상이한 분자는 이러한 패턴의 분석물의 위치에 따라 서로 구별될 수 있다. 예시적인 분석물은, 제한 없이, 기재 내의 웰, 기재 내의 또는 기재 상의 비드(또는 다른 입자), 기재로부터의 돌출부, 기재 상의 리지(ridge), 기재 상의 겔 재료의 패드, 또는 기재 내의 채널을 포함한다.
검출, 특성화, 또는 식별될 다양한 표적 분석물 중 임의의 것이 본 명세서에 기술된 장치, 시스템 또는 방법에 대해 사용될 수 있다. 예시적인 분석물은 핵산(예를 들어, DNA, RNA 또는 이의 유사체), 단백질, 다당류, 세포, 항체, 에피토프, 수용체, 리간드, 효소(예를 들어, 키나제, 포스파타제 또는 중합효소), 소분자 약물 후보물질, 세포, 바이러스, 유기체 등을 포함하지만, 이로 한정되지 않는다.
용어 "분석물", "핵산", "핵산 분자", 및 "폴리뉴클레오티드"는 본 명세서에서 상호교환 가능하게 사용된다. 다양한 구현에서, 핵산은, 핵산 증폭, 핵산 발현 분석, 및/또는 핵산 서열 결정 또는 이들의 적합한 조합을 포함하지만 이로 한정되지 않는 특정 유형의 핵산 분석을 위해 본 명세서에 제공된 바와 같은 템플릿(예를 들어, 핵산 템플릿, 또는 핵산 핵산 템플릿에 상보적인 핵산 상보체)로서 사용될 수 있다. 특정 구현에서의 핵산은, 예를 들어, 3'-5' 포스포디에스테르 또는 다른 결합(linkage)에서의 데옥시리보뉴클레오티드의 선형 중합체, 예를 들어 데옥시리보핵산(DNA), 예를 들어, 단일 가닥 및 이중 가닥 DNA, 게놈 DNA, 복제 DNA 또는 상보적 DNA(cDNA), 재조합 DNA, 또는 임의의 형태의 합성 또는 변형된 DNA를 포함한다. 다른 구현에서, 핵산은, 예를 들어, 3'-5' 포스포디에스테르 또는 다른 결합에서의 리보뉴클레오티드의 선형 중합체, 예를 들어 리보핵산(RNA), 예를 들어, 단일 가닥 및 이중 가닥 RNA, 메신저(mRNA), 복제 RNA 또는 상보적 RNA(cRNA), 선택적으로 스플라이싱된 mRNA, 리보솜 RNA, 소핵소체 RNA(snoRNA), 마이크로 RNA(miRNA), 소간섭 RNA(sRNA), piwi RNA(piRNA), 또는 임의의 형태의 합성 또는 변형된 RNA를 포함한다. 본 발명의 조성물 및 방법에 대해 사용되는 핵산은 길이가 다를 수 있으며, 온전한 또는 전장(full-length) 분자 또는 단편 또는 더 큰 핵산 분자의 더 작은 부분일 수 있다. 특정 구현에서, 핵산은, 본 명세서의 다른 곳에 기술된 바와 같이, 하나 이상의 검출 가능한 표지를 가질 수 있다.
용어 "분석물", "클러스터", "핵산 클러스터", "핵산 콜로니", 및 "DNA 클러스터"는 상호교환 가능하게 사용되며, 고체 지지체에 부착된 핵산 템플릿 및/또는 이의 상보체의 복수의 복제물을 지칭한다. 통상적으로 그리고 특정 바람직한 구현에서, 핵산 클러스터는 5' 말단을 통해 고체 지지체에 부착된 템플릿 핵산 및/또는 이의 상보체의 복수의 복제물을 포함한다. 핵산 클러스터를 구성하는 핵산 가닥의 복제물은 단일 가닥 또는 이중 가닥 형태일 수 있다. 클러스터 내에 존재하는 핵산 템플릿의 복제물은, 예를 들어, 표지 모이어티의 존재로 인해, 서로 상이한 상응하는 포지션에 뉴클레오티드를 가질 수 있다. 상응하는 포지션은, 또한, 우라실 및 티민에 대한 경우와 같이, 상이한 화학 구조를 갖지만 유사한 왓슨-크릭(Watson-Crick) 염기 쌍 형성 속성을 갖는 아날로그 구조를 포함할 수 있다.
핵산의 콜로니는 "핵산 클러스터"로도 지칭될 수 있다. 핵산 콜로니는 본 명세서의 다른 곳에서 더욱 상세히 기술되는 바와 같은 클러스터 증폭 또는 브리지 증폭 기술에 의해 선택적으로 생성될 수 있다. 표적 서열의 다수의 반복부가 단일 핵산 분자, 예를 들어 회전환 증폭(rolling circle amplification) 절차를 사용하여 생성된 콘카타머(concatamer)에 존재할 수 있다.
본 발명의 핵산 클러스터는 사용되는 조건에 따라 상이한 형상, 크기 및 밀도를 가질 수 있다. 예를 들어, 클러스터는 실질적으로 둥근형, 다면형, 도넛형 또는 링형인 형상을 가질 수 있다. 핵산 클러스터의 직경은 약 0.2 μm 내지 약 6 μm, 약 0.3 μm 내지 약 4 μm, 약 0.4 μm 내지 약 3 μm, 약 0.5 μm 내지 약 2 μm, 약 0.75 μm 내지 약 1.5 μm, 또는 임의의 중간 직경이 되도록 설계될 수 있다. 특정 구현예에서, 핵산 클러스터의 직경은 약 0.5 μm, 약 1 μm, 약 1.5 μm, 약 2 μm, 약 2.5 μm, 약 3 μm, 약 4 μm, 약 5 μm, 또는 약 6 μm이다. 핵산 클러스터의 직경은, 클러스터를 생성하는 데 있어서 수행되는 증폭 사이클의 수, 핵산 템플릿의 길이, 또는 클러스터가 형성되는 표면에 부착된 프라이머의 밀도를 포함하지만 이로 한정되지 않는 다수의 파라미터에 의해 영향을 받을 수 있다. 핵산 클러스터의 밀도는, 통상적으로 0.1/mm2, 1/mm2, 10/mm2, 100/mm2, 1,000/mm2, 10,000/mm2 내지 100,000/mm2의 범위가 되도록 설계될 수 있다. 본 발명은, 부분적으로, 더 높은 밀도의 핵산 클러스터, 예를 들어, 100,000/mm2 내지 1,000,000/mm2 및 1,000,000/mm2 내지 10,000,000/mm2를 추가로 고려한다.
본 명세서에 대해 사용되는 바와 같이, "분석물"은 시료 또는 시야 내의 관심 영역이다. 마이크로어레이 장치 또는 다른 분자 분석용 장치와 관련하여 사용될 때, 분석물은 유사한 또는 동일한 분자에 의해 점유되는 영역을 지칭한다. 예를 들어, 분석물은 증폭된 올리고뉴클레오티드, 또는 동일하거나 유사한 서열을 갖는 폴리뉴클레오티드 또는 폴리펩티드의 임의의 다른 그룹일 수 있다. 다른 구현에서, 분석물은 시료 상의 물리적 영역을 점유하는 임의의 요소 또는 요소의 그룹일 수 있다. 예를 들어, 분석물은 한 구획의 땅(parcel of land), 수역(body of water) 등일 수 있다. 분석물이 이미징될 때, 각각의 분석물은 약간의 영역을 가질 것이다. 따라서, 많은 구현에서, 분석물은 단지 하나의 픽셀만이 아니다.
분석물 사이의 거리는 많은 방식으로 기술될 수 있다. 일부 구현에서, 분석물 사이의 거리는 하나의 분석물의 중심으로부터 다른 분석물의 중심까지로 설명될 수 있다. 다른 구현에서, 거리는 하나의 분석물의 에지로부터 다른 분석물의 에지까지로, 또는 각각의 분석물의 최외측의 식별 가능한 지점 사이로 설명될 수 있다. 분석물의 에지는 칩 상의 이론적 또는 실제의 물리적 경계로서, 또는 분석물의 경계 내부의 어떠한 지점으로서 설명될 수 있다. 다른 구현에서, 거리는 시료 상의 고정된 지점과 관련하여 또는 시료의 이미지에서 설명될 수 있다.
대체적으로, 여러 구현이 분석 방법에 대하여 본 명세서에 기술될 것이다. 자동화된 또는 반자동화된 방식으로 방법을 수행하기 위한 시스템이 또한 제공된다는 것이 이해될 것이다. 따라서, 본 발명은 신경망 기반 템플릿 생성 및 염기 호출 시스템을 제공하며, 시스템은 프로세서; 저장 장치; 및 이미지 분석을 위한 프로그램을 포함할 수 있고, 프로그램은 본 명세서에 제시된 방법 중 하나 이상을 수행하기 위한 명령어를 포함한다. 따라서, 본 명세서에 기술된 방법은, 예를 들어 본 명세서에 기술되거나 달리 당업계에 알려진 구성요소를 갖는 컴퓨터 상에서 수행될 수 있다.
본 명세서에 기술된 방법 및 시스템은 다양한 객체 중 임의의 것을 분석하는 데 유용하다. 특히 유용한 객체은 부착된 분석물을 갖는 고체 지지체 또는 고체상 표면이다. 본 명세서에 기술된 방법 및 시스템은 xy 평면에서 분석물의 반복 패턴을 갖는 객체에 대해 사용될 때 이점을 제공한다. 일례는 세포, 바이러스, 핵산, 단백질, 항체, 탄수화물, 소분자(예를 들어, 약물 후보물질), 생물학적으로 활성인 분자 또는 다른 관심 분석물의 부착된 수집물을 갖는 마이크로어레이이다.
핵산 및 폴리펩티드와 같은 생물학적 분자를 갖는 분석물을 갖는 어레이에 대해 증가하는 수의 응용이 개발되어 왔다. 이러한 마이크로어레이는 통상적으로 데옥시리보핵산(DNA) 또는 리보핵산(RNA) 프로브를 포함한다. 이들은 인간 및 다른 유기체에 존재하는 뉴클레오티드 서열에 대해 특이적이다. 소정 응용에서, 예를 들어, 개별 DNA 또는 RNA 프로브가 어레이의 개별 분석물에 부착될 수 있다. 알려진 사람 또는 유기체로부터의 것과 같은 테스트 샘플이 어레이에 노출되어, 표적 핵산(예를 들어, 유전자 단편, mRNA 또는 이들의 앰플리콘)이 어레이 내의 각자의 분석물에서의 상보적 프로브에 혼성화되게 할 수 있다. 프로브는 (예를 들어, 표적 핵산 상에 존재하는 표지로 인해 또는 분석물에서 혼성화된 형태로 존재하는 프로브 또는 표적의 효소 표지화로 인해) 표적 특이적 프로세스에서 표지화될 수 있다. 이어서, 어레이는 어느 표적 핵산이 샘플 내에 존재하는지를 식별하기 위해 분석물에 걸쳐서 광의 특정 주파수를 스캐닝함으로써 검사될 수 있다.
생물학적 마이크로어레이는 유전자 서열분석 및 유사한 응용을 위해 사용될 수 있다. 대체적으로, 유전자 서열분석은 DNA 또는 RNA의 단편과 같은 일정 길이의 표적 핵산 내의 뉴클레오티드의 순서를 결정하는 것을 포함한다. 비교적 짧은 서열은 통상적으로 각각의 분석물에서 서열분석되고, 생성된 서열 정보는, 단편이 도출되었던 훨씬 더 큰 대규모의 길이의 유전자 재료의 서열을 신뢰성있게 결정하도록 하기 위해 서열 단편을 함께 논리적으로 피팅하는 다양한 생물정보학 방법에서 사용될 수 있다. 특성 단편에 대한 자동화된 컴퓨터 기반 알고리즘이 개발되어 왔으며, 더 최근에는, 게놈 맵핑(genome mapping), 유전자 및 이들의 기능의 식별 등에서 사용되어 왔다. 마이크로어레이는 게놈 함량을 특성화하는 데 특히 유용한데, 그 이유는 많은 수의 변이체가 존재하고, 이것이 개별 프로브 및 표적에 대해 많은 실험을 수행하는 것의 대안을 대체하기 때문이다. 마이크로어레이는 실용적 방식으로 이러한 조사를 수행하기 위한 이상적인 포맷이다.
당업계에 알려진 다양한 분석물 어레이("마이크로어레이"로도 지칭됨) 중 임의의 것이 본 명세서에 기술된 방법 또는 시스템에 대해 사용될 수 있다. 전형적인 어레이는 분석물을 함유하며, 각각의 분석물은 개별 프로브 또는 프로브의 집단을 갖는다. 후자의 경우에, 각각의 분석물에서의 프로브의 집단은 통상적으로 균질하여 단일 종의 프로브를 갖는다. 예를 들어, 핵산 어레이의 경우에, 각각의 분석물은, 각각 공통 서열을 갖는 다수의 핵산 분자를 가질 수 있다. 그러나, 일부 구현에서, 어레이의 각각의 분석물에서의 집단은 불균질할 수 있다. 유사하게, 단백질 어레이는, 통상적으로 단일 단백질 또는 단백질들의 집단을 갖는 분석물을 가질 수 있지만, 동일한 아미노산 서열을 항상 갖는 것은 아니다. 프로브는, 예를 들어 표면에 대한 프로브의 공유결합을 통해 또는 프로브와 표면의 비공유적 상호작용(들)을 통해 어레이의 표면에 부착될 수 있다. 일부 구현에서, 핵산 분자와 같은 프로브는, 예를 들어, 미국 특허 출원 제13/784,368호 및 미국 특허 출원 공개 제2011/0059865호(A1)에 기재되어 있으며, 이들 각각은 참조로서 본 명세서에 포함된다.
예시적인 어레이는, 제한 없이, Illumina, Inc.(미국 캘리포니아주 샌디에고 소재)로부터 입수가능한 BeadChip 어레이 또는 표면 상에 존재하는 비드에 프로브가 부착된 것과 같은 다른 것(예를 들어, 표면 상의 웰 내의 비드)을 모함하며, 이는 예를 들어 미국 특허 제6,266,459호; 제6,355,431호; 제6,770,441호; 제6,859,570호; 제7,622,294호; 또는 PCT 공개 공보 제WO 00/63437호에 기재된 것을 포함하며, 이들 각각은 본 명세서에 참고로 포함된다. 사용될 수 있는 상업적으로 입수가능한 마이크로어레이의 추가의 예는, 예를 들어, Affymetrix® GeneChip® 마이크로어레이, 또는 때때로 VLSIPS™(Very Large Scale Immobilized Polymer Synthesis) 기술로 지칭되는 기술에 따라 합성된 다른 마이크로어레이를 포함한다. 스폿형 마이크로어레이가, 또한, 본 발명의 일부 구현에 따른 방법 또는 시스템에서 사용될 수 있다. 예시적인 스폿형 마이크로어레이는 Amersham Biosciences로부터 입수가능한 CodeLink™ 어레이이다. 유용한 다른 마이크로어레이는 Agilent Technologies로부터 입수가능한 SurePrint™ Technology와 같은 잉크젯 프린팅 방법을 사용하여 제조되는 것이다.
다른 유용한 어레이는 핵산 서열분석 응용에 대해 사용되는 것을 포함한다. 예를 들어, 게놈 단편의 앰플리콘 (종종 클러스터로 지칭됨)을 갖는 어레이는 문헌 [Bentley et al., nature 456:53-59 (2008)], WO 04/018497; WO 91/06678; WO 07/123744; 미국 특허 제7,329,492호; 제7,211,414호; 제7,315,019호; 제7,405,281호 또는 제7,057,026호 또는 미국 특허 출원 공개 제2008/0108082호(A1)에 기재되어 있으며, 이들 각각은 참조로서 본 명세서에 포함된다. 핵산 서열분석에 유용한 다른 유형의 어레이는 에멀젼 PCR 기술로부터 생성된 입자의 어레이이다. 예는 문헌[Dressman et al., Proc. Natl. Acad. Sci. USA 100:8817-8822 (2003)], WO 05/010145호, 미국 특허 출원 공개 제2005/0130173호 또는 미국 특허 출원 공개 제2005/0064460호에 기재되어 있으며, 이들 각각은 전체가 본 명세서에 참고로 포함된다.
핵산 서열분석에 대해 사용되는 어레이는 종종 핵산 분석물의 랜덤 공간 패턴을 갖는다. 예를 들어, Illumina Inc.(미국 캘리포니아주 샌디에고 소재)로부터 입수가능한 HiSeq 또는 MiSeq 서열분석 플랫폼은 랜덤 시딩 및 후속되는 브리지 증폭에 의해 핵산 어레이가 형성되는 플로우 셀을 활용한다. 하지만, 패턴화된 어레이는 핵산 서열분석 또는 다른 분석 적용에도 사용될 수 있다. 예시적인 패턴화된 어레이, 이의 제조 방법 및 이의 사용 방법이 미국 특허 출원 제13/787,396호; 미국 특허 출원 제13/783,043호; 미국 특허 출원 제13/784,368호; 미국 특허 출원 공개 제2013/0116153호(A1), 미국 특허 공개 제2012/0316086호(A1)에 기재되어 있으며, 이들 각각은 참조로서 본 명세서에 포함된다. 이러한 패턴화된 어레이의 분석물은, 예를 들어 브리지 증폭을 통해, 균질한 콜로니의 후속 형성을 시딩하기 위해 단일 핵산 템플릿 분자를 캡처하는 데 사용될 수 있다. 이러한 패턴화된 어레이는 핵산 서열분석 적용에 특히 유용하다.
어레이 상의 분석물(또는 본 명세서의 방법 또는 시스템에 대해 사용되는 다른 객체)의 크기는 특정 응용에 적합하도록 선택될 수 있다. 예를 들어, 일부 구현에서, 어레이의 분석물은 단일 핵산 분자만을 수용하는 크기를 가질 수 있다. 이러한 크기 범위 내의 복수의 분석물을 갖는 표면은 단일 분자 분해능에서의 검출을 위해 분자의 어레이를 구성하는 데 유용하다. 이러한 크기 범위의 분석물은, 또한, 핵산 분자의 콜로니를 각각 함유하는 분석물을 갖는 어레이에서 사용하는 데 유용하다. 따라서, 어레이의 분석물 각각은 약 1 mm2 이하, 약 500 μm2 이하, 약 100 μm2 이하, 약 10 μm2 이하, 약 1 μm2 이하, 약 500 nm2 이하, 또는 약 100 nm2 이하, 약 10 nm2 이하, 약 5 nm2 이하, 또는 약 1 nm2 이하인 영역을 가질 수 있다. 대안으로 또는 추가로, 어레이의 분석물은 약 1 mm2 이상, 약 500 μm2 이상, 약 100 μm2 이상, 약 10 μm2 이상, 약 1 μm2 이상, 약 500 nm2 이상, 약 100 nm2 이상, 약 10 nm2 이상, 약 5 nm2 이상, 또는 약 1 nm2 이상일 것이다. 사실상, 분석물은 상기에서 예시된 것으로부터 선택되는 상한과 하한 사이의 범위 내에 있는 크기를 가질 수 있다. 표면의 분석물에 대한 여러 크기 범위가 핵산과 관련하여 그리고 핵산의 스케일로 예시되었지만, 이들 크기 범위 내의 분석물은 핵산을 포함하지 않는 응용을 위해 사용될 수 있음이 이해될 것이다. 분석물의 크기는 반드시 핵산 응용을 위해 사용되는 스케일로 한정될 필요는 없다는 것이 추가로 이해될 것이다.
분석물의 어레이와 같은 복수의 분석물을 갖는 객체를 포함하는 구현의 경우, 분석물은 별개로 존재하여, 서로간에 공간으로 분리되어 있을 수 있다. 본 발명에 유용한 어레이는 최대 100 μm, 50 μm, 10 μm, 5 μm, 1 μm, 0.5 μm, 또는 그 미만의 에지-에지 거리에 의해 분리되는 분석물을 가질 수 있다. 대안으로 또는 추가로, 어레이는 최소 0.5 μm, 1 μm, 5 μm, 10 μm, 50 μm, 100 μm, 또는 그 초과의 에지-에지 거리에 의해 분리되는 분석물을 가질 수 있다. 이들 범위은 분석물에 대한 평균 에지-에지 간격뿐만 아니라 최소 또는 최대 간격에 적용될 수 있다.
일부 구현에서, 어레이의 분석물은 개별적일 필요가 없고, 그 대신, 이웃 분석물이 서로 접해 있을 수 있다. 분석물이 개별적이든 아니든, 분석물의 크기 및/또는 분석물의 피치는 어레이가 원하는 밀도를 가질 수 있도록 변동될 수 있다. 예를 들어, 규칙적인 패턴의 평균 분석물 피치는 최대 100 μm, 50 μm, 10 μm, 5 μm, 1 μm, 0.5 μm, 또는 그 미만일 수 있다. 대안으로 또는 추가로, 규칙적인 패턴의 평균 분석물 피치는 최소 0.5 μm, 1 μm, 5 μm, 10 μm, 50 μm, 100 μm, 또는 그 초과일 수 있다. 이들 범위은 마찬가지로 규칙적인 패턴에 대해서도 최대 또는 최소 피치에 적용될 수 있다. 예를 들어, 규칙적인 패턴에 대한 최대 분석물 피치는 최대 100 μm, 50 μm, 10 μm, 5 μm, 1 μm, 0.5 μm, 또는 그 미만일 수 있고/있거나; 규칙적인 패턴의 최소 분석물 피치는 최소 0.5 μm, 1 μm, 5 μm, 10 μm, 50 μm, 100 μm, 또는 그 초과일 수 있다.
어레이 내의 분석물의 밀도는 또한 단위 면적당 존재하는 분석물의 수의 관점에서 이해될 수 있다. 예를 들어, 어레이에 대한 분석물의 평균 밀도는 최소 약 1x103개의 분석물/mm2, 1x104개의 분석물/mm2, 1x105개의 분석물/mm2, 1x106개의 분석물/mm2, 1x107개의 분석물/mm2, 1x108개의 분석물/mm2, 또는 1x109개의 분석물/mm2, 또는 그 초과일 수 있다. 대안으로 또는 추가로, 어레이에 대한 분석물의 평균 밀도는 최대 약 1x109개의 분석물/mm2, 1x108개의 분석물/mm2, 1x107개의 분석물/mm2, 1x106개의 분석물/mm2, 1x105개의 분석물/mm2, 1x104개의 분석물/mm2, 또는 1x103개의 분석물/mm2, 또는 그 미만일 수 있다.
상기 범위은, 예를 들어 분석물의 어레이의 전부 또는 일부를 포함하는 규칙적인 패턴의 전부 또는 일부에 적용될 수 있다.
소정 패턴의 분석물은 다양한 형상 중 임의의 것을 가질 수 있다. 예를 들어, 어레이의 표면 상에서와 같은 2차원 평면에서 관찰될 때, 분석물은 둥근형, 원형, 타원형, 직사각형, 정사각형, 대칭, 비대칭, 삼각형, 다각형 등으로 보일 수 있다. 분석물은, 예를 들어 육각형 또는 직선 패턴을 포함하는 규칙적인 반복 패턴으로 배열될 수 있다. 원하는 레벨의 패킹을 달성하도록 패턴이 선택될 수 있다. 예를 들어, 둥근형 분석물은 육각형 배열에서 최적으로 패킹된다. 물론, 다른 패킹 배열이 또한 둥근형 분석물에 대해 사용될 수 있고, 그 반대도 마찬가지이다.
패턴은 패턴의 최소 기하학적 단위를 형성하는 서브 세트에 존재하는 분석물의 수의 관점에서 특성화될 수 있다. 서브 세트는, 예를 들어, 최소 약 2, 3, 4, 5, 6, 10개 또는 그 초과의 분석물을 포함할 수 있다. 분석물의 크기 및 밀도에 따라, 기하학적 단위는 1 mm2, 500 μm2, 100 μm2, 50 μm2, 10 μm2, 1 μm2, 500 nm2, 100 nm2, 50 nm2, 10 nm2 미만, 또는 그 미만의 면적을 점유할 수 있다. 대안으로 또는 추가로, 기하학적 단위는 10 nm2, 50 nm2, 100 nm2, 500 nm2, 1 μm2, 10 μm2, 50 μm2, 100 μm2, 500 μm2, 1 mm2 초과, 또는 그 초과의 면적을 점유할 수 있다. 형상, 크기, 피치 등과 같은 기하학적 단위 내의 분석물의 특성은, 소정 어레이 또는 패턴의 분석물과 관련하여, 본 명세서에서 더욱 대체적으로 기술된 것으로부터 선택될 수 있다.
분석물의 규칙적인 패턴을 갖는 어레이는 분석물의 상대 위치에 대해 순서화될 수 있지만, 각각의 분석물의 하나 이상의 다른 특성에 대해서는 랜덤할 수 있다. 예를 들어, 핵산 어레이의 경우에, 핵산 분석물은 그들의 상대 위치에 대해 순서화될 수 있지만, 임의의 특정 분석물에 존재하는 핵산 종에 대한 서열의 지식에 대해서는 랜덤할 수 있다. 더 구체적인 예로서, 템플릿 핵산을 반복 패턴의 분석물에 시딩하고 (예를 들어, 클러스터 증폭 또는 브리지 증폭을 통해) 각각의 분석물에서의 템플릿을 증폭시켜 그 분석물에서의 템플릿의 복제물을 형성함으로써 형성된 핵산 어레이는 규칙적인 패턴의 핵산 분석물을 가질 것이지만, 어레이에 걸쳐서 핵산의 서열의 분포에 관해서는 랜덤할 것이다. 따라서, 대체적으로 어레이 상의 핵산 재료의 존재의 검출은 분석물의 반복 패턴을 안출할 수 있는 반면, 서열 특이적 검출은 어레이에 걸쳐서 신호의 비-반복 분포를 안출할 수 있다.
패턴, 순서, 랜덤성 등에 관한 본 명세서에서의 설명은 어레이 상의 분석물과 같은 객체 상의 분석물뿐만 아니라 이미지 내의 분석물과도 관련된다는 것이 이해될 것이다. 이와 같이, 패턴, 순서, 랜덤성 등은, 컴퓨터 판독 가능 매체 또는 컴퓨터 구성요소, 예를 들어 그래픽 사용자 인터페이스 또는 다른 출력 장치를 포함하지만 이로 제한되지 않는, 이미지 데이터를 저장, 조작 또는 통신하는 데 사용되는 다양한 포맷 중 임의의 것으로 존재할 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "이미지"는 객체의 전부 또는 일부의 표현을 의미하도록 의도된다. 표현은 광학적으로 검출되는 재생(reproduction)일 수 있다. 예를 들어, 이미지는 형광, 발광, 산란, 또는 흡수 신호로부터 획득될 수 있다. 이미지에 존재하는 객체의 부분은 객체의 표면 또는 다른 xy 평면일 수 있다. 통상적으로, 이미지는 2차원 표현이지만, 일부 경우에 있어서, 이미지 내의 정보는 3개 이상의 치수로부터 도출될 수 있다. 이미지는 광학적으로 검출된 신호를 포함할 필요가 없다. 비광학적 신호가 대신 존재할 수 있다. 이미지는 본 명세서의 다른 곳에 기술된 것 중 하나 이상과 같은 컴퓨터 판독 가능 포맷 또는 매체에서 제공될 수 있다.
본 명세서에 대해 사용되는 바와 같이, "이미지"는 시료 또는 다른 객체의 적어도 일부분의 재생 또는 표현을 지칭한다. 일부 구현에서, 재생은, 예를 들어 카메라 또는 다른 광학 검출기에 의해 생성되는 광학적 재생이다. 재생은 비-광학적 재생, 예를 들어, 나노포어 분석물의 어레이로부터 획득된 전기 신호의 표현 또는 이온-감수성 CMOS 검출기로부터 획득된 전기 신호의 표현일 수 있다. 특정 구현에서, 비-광학적 재생은 본 명세서에 기술된 방법 또는 장치로부터 배제될 수 있다. 이미지는, 예를 들어 100 μm, 50 μm, 10 μm, 5 μm, 1 μm 또는 0.5 μm 미만만큼 분리되는 것을 포함하는 다양한 간격 중 임의의 간격으로 존재하는 시료의 분석물을 구별할 수 있는 해상도를 가질 수 있다.
본 명세서에 대해 사용되는 바와 같이, "획득하는", "획득" 및 유사 용어는 이미지 파일을 획득하는 프로세스의 임의의 부분을 지칭한다. 일부 구현에서, 데이터 획득은 시료의 이미지를 생성하는 것, 시료 내의 신호를 검색하는 것, 검출 장치가 신호의 이미지를 검색하거나 생성할 것을 지시하는것, 이미지 파일의 추가 분석 또는 변환을 위한 명령어를 제공하는 것, 그리고 이미지 파일의 임의의 수의 변환 또는 조작을 포함할 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "템플릿"은 신호 또는 분석물 사이의 위치 또는 관계의 표현을 지칭한다. 따라서, 일부 구현에서, 템플릿은 시료 내의 분석물에 상응하는 신호의 표현을 갖는 물리적 그리드이다. 일부 구현에서, 템플릿은 차트, 테이블, 텍스트 파일, 또는 분석물에 상응하는 위치를 나타내는 다른 컴퓨터 파일일 수 있다. 본 명세서에 제시된 구현에서, 상이한 참조점에서 캡처된 시료의 이미지의 세트에 걸쳐서 시료의 분석물의 위치를 추적하기 위해 템플릿이 생성된다. 예를 들어, 템플릿은 x,y 좌표의 세트, 또는 다른 분석물에 대한 하나의 분석물의 방향 및/또는 거리를 설명하는 값의 세트일 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "시료"는 이미지가 캡처되는 객체 또는 객체의 영역을 지칭할 수 있다. 예를 들어, 지표면의 이미지가 촬영되는 구현에서, 한 구획의 땅이 시료일 수 있다. 생물학적 분자의 분석이 플로우 셀에서 수행되는 다른 구현에서, 플로우 셀은 임의의 수의 세분으로 분할될 수 있으며, 이들 각각은 시료일 수 있다. 예를 들어, 플로우 셀은 다양한 플로우 채널 또는 레인으로 분할될 수 있고, 각각의 레인은 이미징되는 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60 70, 80, 90, 100, 110, 120, 140, 160, 180, 200, 400, 600, 800, 1000개, 또는 그 초과의 별개의 영역으로 추가로 분할될 수 있다. 플로우 셀의 하나의 예는 8개의 레인을 가지며, 각각의 레인은 120개의 시료 또는 타일로 분할된다. 다른 구현에서, 시료는 복수의 타일 또는 심지어 전체 플로우 셀로 구성될 수 있다. 따라서, 각각의 시료의 이미지는 이미징되는 더 큰 표면의 영역을 표현할 수 있다.
본 명세서에 기술된 범위 및 순차적 번호 목록에 대한 참조는 열거된 숫자뿐만 아니라 열거된 숫자 사이의 모든 실수를 포함한다는 것이 이해될 것이다.
본 명세서에 대해 사용되는 바와 같이, "참조점"은 이미지 사이의 임의의 시간적 또는 물리적 구별을 지칭한다. 바람직한 구현에서, 참조점은 시점이다. 더 바람직한 구현에서, 참조점은 서열분석 반응 동안의 일정 시점 또는 일정 사이클이다. 그러나, 용어 "참조점"은 이미지를 구별하거나 분리할 수 있는 각도, 회전, 시간, 또는 다른 양상과 같은, 이미지를 구별하거나 분리하는 다른 양상을 포함할 수 있다.
본 명세서에 대해 사용되는 바와 같이, "이미지의 서브 세트"는 한 세트 내의 이미지의 그룹을 지칭한다. 예를 들어, 서브 세트는 이미지의 세트로부터 선택된 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60개 또는 임의의 수의 이미지를 포함할 수 있다. 특정 구현에서, 서브 세트는 이미지의 세트로부터 선택된 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60개 또는 임의의 수의 이하의 이미지를 포함할 수 있다. 바람직한 구현에서, 이미지는 4개의 이미지가 각각의 사이클에 상관되는 하나 이상의 서열분석 사이클로부터 획득된다. 따라서, 예를 들어, 서브 세트는 4개의 사이클을 통해 획득된 16개의 이미지의 그룹일 수 있다.
염기는 뉴클레오티드 염기 또는 뉴클레오티드, A(아데닌), C(시토신), T(티민), 또는 G(구아닌)를 지칭한다. 본 출원은 "염기(들)" 및 "뉴클레오티드(들)"를 상호교환 가능하게 사용한다.
용어 "염색체"는 DNA 및 단백질 성분들(특히, 히스톤)을 포함하는 염색질 가닥으로부터 유래된, 살아있는 세포의 유전-보유 유전자 운반체(heredity-bearing gene carrier)를 지칭한다. 통상적인 국제적으로 인식되는 개별 인간 게놈 염색체 넘버링 시스템이 본 발명에 대해 사용된다.
용어 "부위"는 참조 게놈 상의 고유 포지션(예를 들어, 염색체 ID, 염색체 포지션 및 배향)을 지칭한다. 일부 구현에서, 부위는 서열 상의 잔기, 서열 태그, 또는 세그먼트의 포지션일 수 있다. 용어 "좌위(locus)"는 참조 염색체 상의 핵산 서열 또는 다형성의 특정 위치를 지칭하는 데 사용될 수 있다.
본 명세서에서 용어 "샘플"은, 통상적으로, 서열분석되고/되거나 페이싱될(phased) 적어도 하나의 핵산 서열을 함유하는 핵산 또는 핵산 혼합물을 함유하는 생물학적 유체, 세포, 조직, 기관, 또는 유기체로부터 유래된 샘플을 지칭한다. 이러한 샘플은 가래/구강액, 양수, 혈액, 혈액 분획물, 미세 니들 생검 샘플(예를 들어, 외과용 생검, 미세 니들 생검 등), 소변, 복막액, 흉수, 조직 외식체, 기관 배양물 및 임의의 다른 조직 또는 세포 조제물, 또는 이들의 또는 이들로부터 단리된 분획물 또는 유도체를 포함하지만, 이들로 제한되지 않는다. 샘플이 종종 인간 대상체(예를 들어, 환자)로부터 채취되지만, 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하되 이에 한정되지 않는 염색체를 갖는 임의의 유기체로부터 채취할 수 있다. 샘플은 생물학적 공급원으로부터 획득된 바와 같이 직접 사용될 수 있거나, 또는 샘플의 특성을 변경하기 위한 전처리 후에 대해 사용될 수 있다. 예를 들어, 이러한 전처리는 혈액으로부터 혈장을 준비하는 것, 점성 유체를 희석시키는 것 등을 포함할 수 있다. 전처리의 방법은, 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 방해 성분의 불활성화, 시약의 첨가, 용해 등을 수반할 수 있지만, 이들로 한정되지 않는다.
용어 "서열"은 서로 커플링된 뉴클레오티드의 가닥을 포함하거나 표현한다. 뉴클레오티드는 DNA 또는 RNA에 기반할 수 있다. 하나의 서열은 다수의 서브 서열을 포함할 수 있다는 것이 이해되어야 한다. 예를 들어, (예를 들어, PCR 앰플리콘의) 단일 서열은 350개의 뉴클레오티드를 가질 수 있다. 샘플 판독물은 이들 350개의 뉴클레오티드 내에 다수의 서브 서열을 포함할 수 있다. 예를 들어, 샘플 판독물은, 예를 들어, 20 내지 50개의 뉴클레오티드를 갖는 제1 및 제2 플랭킹 서브 서열을 포함할 수 있다. 제1 및 제2 플랭킹 서브 서열은 상응하는 서브 서열(예를 들어, 40 내지 100개의 뉴클레오티드)을 갖는 반복 세그먼트의 양측에 위치될 수 있다. 플랭킹 서브 서열 각각은 프라이머 서브 서열(예를 들어, 10 내지 30개의 뉴클레오티드)을 포함할 수 있다(또는 이의 부분을 포함할 수 있다). 읽기의 용이함을 위해, 용어 "서브 서열"은 "서열"로 지칭될 것이지만, 2개의 서열이 공통 가닥 상에서 반드시 서로 분리되지는 않는다는 것이 이해된다. 본 명세서에 기술된 다양한 서열을 구별하기 위하여, 서열에는 상이한 표지(예를 들어, 표적 서열, 프라이머 서열, 플랭킹 서열, 참조 서열 등)이 주어질 수 있다. "대립유전자"와 같은 다른 용어에는 유사한 객체 사이를 구별하기 위해 상이한 표지가 주어질 수 있다. 본 출원은 "판독물(들)" 및 "서열 판독물(들)"을 상호교환 가능하게 사용한다.
용어 "쌍형성된-말단 서열분석(paired-end sequencing)"은 표적 단편의 양쪽 말단을 서열분석하는 서열분석 방법을 지칭한다. 쌍형성된-말단 서열분석은 게놈 재배열 및 반복적 세그먼트뿐만 아니라 유전자 융합체 및 신규한 전사체의 검출을 용이하게 할 수 있다. 쌍형성된-말단 서열분석을 위한 방법은, PCT 공개 WO07010252호, PCT 출원 PCTGB2007/003798호 및 미국 특허 출원 공개 제2009/0088327호에 기재되어 있으며, 상기 출원 각각은 본 명세서에 참고로 포함된다. 하나의 예에서, 일련의 동작이 하기와 같이 수행될 수 있다: (a) 핵산의 클러스터를 생성함; (b) 핵산을 선형화함; (c) 상기에 제시된 바와 같이, 제1 서열분석 프라이머를 혼성화하고 연장, 스캐닝 및 디블록킹의 반복 사이클을 수행함; (d) 상보적 복제물을 합성함으로써 플로우 셀 표면 상의 표적 핵산을 "역위"시킴; (e) 재합성된 가닥을 선형화함; 및 (f) 상기에 제시된 바와 같이, 제2 서열분석 프라이머를 혼성화하고 연장, 스캐닝 및 디블록킹의 반복 사이클을 수행함. 역위 동작은 단일 사이클의 브리지 증폭에 대해 전술된 바와 같이 시약을 전달하여 수행될 수 있다.
용어 "참조 게놈" 또는 "참조 서열"은 대상체로부터 식별된 서열을 참조하기 위해 사용될 수 있는 임의의 유기체의, 부분적이든 완전하든, 임의의 특정의 알려진 게놈 서열을 지칭한다. 예를 들어, 인간 대상체에 대해 사용되는 참조 게놈뿐만 아니라 많은 다른 유기체가 ncbi.nlm.nih.gov에서의 국립 생물공학 정보 센터(National Center for Biotechnology Information)에서 찾아질 수 있다. "게놈"은 핵산 서열에서 발현되는, 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다. 게놈은 DNA의 유전자 및 논코딩 서열 둘 모두를 포함한다. 참조 서열은 이에 정렬된 판독물보다 클 수 있다. 예를 들어, 그것은 최소 약 100배 더 크거나, 또는 최소 약 1000배 더 크거나, 또는 최소 약 10,000배 더 크거나, 또는 최소 약 105배 더 크거나, 또는 최소 약 106배 더 크거나, 또는 최소 약 107배 더 클 수 있다. 하나의 예에서, 참조 게놈 서열은 전장 인간 게놈의 것이다. 다른 예에서, 참조 게놈 서열은 염색체 13과 같은 특정 인간 염색체로 제한된다. 일부 구현에서, 참조 염색체는 인간 게놈 버전 hg19로부터의 염색체 서열이다. 이러한 서열은 염색체 참조 서열로 지칭될 수 있지만, 용어 "참조 게놈"은 이러한 서열을 포함하도록 의도된다. 참조 서열의 다른 예는 임의의 종의 염색체, 서브 염색체 영역(예를 들어, 가닥) 등뿐만 아니라 다른 종의 게놈을 포함한다. 다양한 구현에서, 참조 게놈은 다수의 개체로부터 유래된 공통 서열 또는 다른 조합이다. 그러나, 특정 응용 분야에서, 참조 서열은 특정 개체로부터 취해질 수 있다. 다른 구현에서, "게놈"은, 또한, 소위 "그래프 게놈"을 포함하는데, 이는 게놈 서열의 특정 저장 포맷 및 표현을 사용한다. 일 구현에서, 그래프 게놈은 선형 파일에 데이터를 저장한다. 다른 구현에서, 그래프 게놈은 대안적 서열(예를 들어, 작은 차이를 갖는 염색체의 상이한 복제물)이 그래프에서 상이한 경로로서 저장되는 표현을 지칭한다. 그래프 게놈 구현에 관한 추가 정보는 https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf에서 찾을 수 있으며, 이의 내용은 이로써 그 전체가 본 명세서에 참고로 포함된다.
용어 "판독물"은 뉴클레오티드 샘플 또는 참조물의 단편을 설명하는 서열 데이터의 수집물을 지칭한다. 용어 "판독물"은 샘플 판독물 및/또는 참조 판독물을 지칭할 수 있다. 필수적인 것은 아니지만, 통상적으로, 판독물은 샘플 또는 참조물 내의 인접한 염기 쌍의 짧은 서열을 표현한다. 판독물은 샘플 또는 참조 단편의 (ATCG에서의) 염기 쌍 서열에 의해 상징적으로 표현될 수 있다. 그것은 메모리 장치에 저장될 수 있으며, 판독물이 참조 서열과 매칭하는지 또는 다른 기준을 충족시키는지 여부를 결정하기 위해 경우에 따라 처리될 수 있다. 판독물은 서열분석 장치로부터 직접 획득되거나 샘플에 관하여 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우에 있어서, 판독물은, 예를 들어 염색체 또는 게놈 영역 또는 유전자에 정렬되고 특이적으로 배정될 수 있는 더 큰 서열 또는 영역을 식별하는 데 사용될 수 있는 충분한 길이(예를 들어, 최소 약 25 bp)의 DNA 서열이다.
차세대 서열분석 방법은, 예를 들어 합성 기술에 의한 서열분석(Illumina), 파이로서열분석(454), 이온 반도체 기술(Ion Torrent 서열분석), 단일 분자 실시간 서열분석(Pacific Biosciences) 및 결찰에 의한 서열분석(SOLiD 서열분석)을 포함한다. 서열분석 방법에 따라, 각각의 판독물의 길이는 약 30 bp 내지 10,000 bp 초과로 달라질 수 있다. 예를 들어, SOLiD 서열분석기를 사용한 DNA 서열분석 방법은 약 50 bp의 핵산 판독물을 생성한다. 다른 예에서, Ion Torrent 서열분석은 최대 400 bp의 핵산 판독물을 생성하고, 454 파이로서열분석은 약 700 bp의 핵산 판독물을 생성한다. 또 다른 예에서, 단일 분자 실시간 서열분석 방법은 10,000 bp 내지 15,000 bp의 판독물을 생성할 수 있다. 따라서, 특정 구현에서, 핵산 서열 판독물은 30 내지 100 bp, 50 내지 200 bp, 또는 50 내지 400 bp의 길이를 갖는다.
용어 "샘플 판독물", "샘플 서열" 또는 "샘플 단편"은 샘플로부터의 관심 게놈 서열에 대한 서열 데이터를 지칭한다. 예를 들어, 샘플 판독물은 정방향 및 역방향 프라이머 서열을 갖는 PCR 앰플리콘으로부터의 서열 데이터를 포함한다. 서열 데이터는 임의의 선택 서열 방법으로부터 획득될 수 있다. 샘플 판독물은, 예를 들어, SBS 반응, 결찰에 의한 서열분석(sequencing-by-ligation) 반응, 또는 반복적 요소의 길이 및/또는 정체를 결정할 것을 요구하는 임의의 다른 적합한 서열분석 방법으로부터의 것일 수 있다. 샘플 판독물은 다수의 샘플 판독물로부터 유래된 공통(예를 들어, 평균된 또는 가중된) 서열일 수 있다. 특정 구현에서, 참조 서열을 제공하는 것은, PCR 앰플리콘의 프라이머 서열에 기반하여 관심 좌위를 식별하는 것을 포함한다.
용어 "원시 단편"은 샘플 판독물 또는 샘플 단편 내의 지정된 관심 포지션 또는 2차 관심 포지션과 적어도 부분적으로 중첩하는 관심 게놈 서열의 일부분에 대한 서열 데이터를 지칭한다. 원시 단편의 비제한적인 예는 이중체 스티치(duplex stitched) 단편, 단일체 스티치(simplex stitched) 단편, 이중체 비-스티치 단편 및 단일체 비-스티치 단편을 포함한다. 용어 "원시"는, 원시 단편이 샘플 판독물 내의 잠재적 변이체에 상응하고 그를 증명 또는 확인하는 지지 변이체를 나타내는지의 여부와는 관계없이, 원시 단편이 샘플 판독물 내의 서열 데이터와 어떠한 관계를 갖는 서열 데이터를 포함함을 나타내는 데 사용된다. 용어 "원시 단편"은, 이러한 단편이 샘플 판독물에서 변이체 호출을 입증하는 지지 변이체를 반드시 포함함을 나타내지는 않는다. 예를 들어, 샘플 판독물이 변이체 호출 애플리케이션에 의해 제1 변이체를 나타내도록 결정될 때, 변이체 호출 애플리케이션은, 하나 이상의 원시 단편이, 샘플 판독물 내의 변이체를 고려하여 발생할 것으로 달리 예상될 수 있는 상응하는 유형의 "지지" 변이체가 결여되어 있다고 결정할 수 있다.
용어 "맵핑", "정렬된", "정렬" 또는 "정렬하는"은 판독물 또는 태그를 참조 서열과 비교하고 이에 의해 참조 서열이 판독물 서열을 포함하는지의 여부를 결정하는 프로세스를 지칭한다. 참조 서열이 판독물을 포함하는 경우, 판독물은 참조 서열에 맵핑될 수 있거나, 또는 특정 구현에서, 참조 서열 내의 특정 위치에 맵핑될 수 있다. 일부 경우에 있어서, 정렬은 판독물이 특정 참조 서열의 구성원인지의 여부(즉, 판독물이 참조 서열에 존재하는지 아니면 존재하지 않는지)를 간단히 알려준다. 예를 들어, 인간 염색체 13에 대한 참조 서열에 대한 판독물의 정렬은 판독물이 염색체 13에 대한 참조 서열에 존재하는지 여부를 알려줄 것이다. 이러한 정보를 제공하는 도구는 세트 멤버십 테스터(set membership tester)로 불릴 수 있다. 일부 경우에 있어서, 정렬은, 추가로, 판독물 또는 태그가 맵핑하는 참조 서열 내의 위치를 나타낸다. 예를 들어, 참조 서열이 전체 인간 게놈 서열인 경우, 정렬은 판독물이 염색체 13 상에 존재함을 나타낼 수 있고, 판독물이 염색체 13의 특정 가닥 및/또는 부위 상에 있음을 추가로 나타낼 수 있다.
용어 "인델(indel)"은 유기체의 DNA 내에서의 염기의 삽입 및/또는 결실을 지칭한다. 마이크로-인델(micro-indel)은 1 내지 50개의 뉴클레오티드의 순(net) 변화를 야기하는 인델을 표현한다. 게놈의 코딩 영역에서, 인델의 길이가 3의 배수가 아닌 한, 그것은 프레임시프트 돌연변이(frameshift mutation)를 생성할 것이다. 인델은 점 돌연변이와 대조될 수 있다. 인델은 뉴클레오티드를 삽입하고 서열로부터 삭제하는 반면, 점 돌연변이는 DNA 내의 뉴클레오티드의 전체 수를 변화시키지 않고서 뉴클레오티드 중 하나를 대체하는 치환의 형태이다. 인델은, 또한, TBM(Tandem Base Mutation, 탠덤 염기 돌연변이)과 대조될 수 있는데, TBM은 인접한 뉴클레오티드에서 치환으로서 정의될 수 있다(2개의 인접한 뉴클레오티드에서의 치환이 주로 관찰되었지만, 3개의 인접한 뉴클레오티드에서 치환이 관찰되었다).
용어 "변이체"는 핵산 참조물과는 상이한 핵산 서열을 지칭한다. 전형적인 핵산 서열 변이체는, 제한 없이, 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism), 짧은 결실 및 삽입 다형성(Indel), 복제 수 변이(CNV: copy number variation), 미소부수체(microsatellite) 마커 또는 짧은 탠덤 반복체 및 구조적 변이를 포함한다. 체세포 변이체 호출은 DNA 샘플에서 낮은 빈도로 존재하는 변이체를 식별하기 위한 노력이다. 체세포 변이체 호출은 암 치료와 관련하여 관심이 있다. 암은 DNA에서 돌연변이의 축적에 의해 야기된다. 종양으로부터의 DNA 샘플은 대체적으로 불균질하며, 이는 일부 정상 세포, 암 진행의 초기 단계에 있는 일부 세포(돌연변이가 더 적음), 및 일부 후기 단계 세포(돌연변이가 더 많음)를 포함한다. 이러한 이종성 때문에, (예를 들어, FFPE 샘플로부터) 종양을 서열분석할 때, 체세포 돌연변이는 종종 낮은 빈도로 출현될 것이다. 예를 들어, SNV는 주어진 염기를 커버하는 판독물의 단지 10%에서만 관찰될 수 있다. 변이체 분류기에 의해 체세포 또는 생식세포계열(germline)로서 분류하려는 변이체는 본 명세서에서 "테스트 중인 변이체"로도 지칭된다.
용어 "잡음"은 서열분석 프로세스에서 그리고/또는 변이체 호출 애플리케이션에서 하나 이상의 오류에 기인하는 오인된 변이체 호출을 지칭한다.
용어 "변이체 빈도"는 분율 또는 백분율로 표현된, 집단 내의 특정 좌위에서의 대립유전자(유전자의 변이체)의 상대 빈도를 표현한다. 예를 들어, 분율 또는 백분율은 이러한 대립유전자를 지니는 집단 내의 모든 염색체의 분율일 수 있다. 예로서, 샘플 변이체 빈도는 개체로부터의 관심 게놈 서열에 대해 획득된 판독물 및/또는 샘플의 수에 상응하는 "집단"에 걸쳐서 관심 게놈 서열을 따르는 특정 좌위/포지션에서의 대립유전자/변이체의 상대 빈도를 표현한다. 다른 예로서, 기저선 변이체 빈도는 정상 개체의 집단으로부터 하나 이상의 기저선 게놈 서열에 대해 판독물 및/또는 샘플의 수에 해당하는 "집단"이 획득했던 하나 이상의 기저선 게놈 서열을 따르는 특정 좌위/포지션에서의 대립유전자/변이체의 상대 빈도를 표현한다.
용어 "변이체 대립유전자 빈도(VAF)"는 변이체와 매칭하는 것으로 관찰된 서열분석된 판독물을 표적 포지션에서의 전체 커버리지로 나눈 값의 백분율을 지칭한다. VAF는 변이체를 지니는 서열분석된 판독물의 비율의 척도이다.
용어 "포지션", "지정된 포지션", 및 "좌위"는 뉴클레오티드의 서열 내의 하나 이상의 뉴클레오티드의 위치 또는 좌표를 지칭한다. 용어 "포지션", "지정된 포지션", 및 "좌위"는 또한 뉴클레오티드의 서열 내의 하나 이상의 염기 쌍의 위치 또는 좌표를 지칭한다.
용어 "하플로타입(haplotype)"은 함께 유전되는 염색체 상의 인접한 부위에서의 대립유전자의 조합을 지칭한다. 하플로타입은, 만약 발생하였다면, 제공된 세트의 좌위 사이에서 발생하였던 재조합 사건의 수에 따라, 하나의 좌위, 수 개의 좌위, 또는 전체 염색체일 수 있다.
본 명세서에서 용어 "역치(threshold)"는 샘플, 핵산, 또는 이의 일부분(예를 들어, 판독물)을 특성화하기 위한 컷오프로서 사용되는 수치 값 또는 비-수치 값을 지칭한다. 역치는 경험적 분석에 기반하여 달라질 수 있다. 역치는 측정되거나 계산된 값과 비교되어, 이러한 값을 발생시킨 소스가 특정 방식으로 분류되어야 하는지의 여부를 결정하게 할 수 있다. 역치 값은 경험적으로 또는 분석적으로 식별될 수 있다. 임계값의 선택은 사용자가 분류를 행할 때 원하는 신뢰도의 수준에 따라 결정된다. 역치는 특정 목적을 위해(예를 들어, 감도와 선택도의 균형을 맞추도록) 선택될 수 있다. 본 명세서에 대해 사용되는 바와 같이, 용어 "역치"는 분석 과정이 변경될 수 있는 지점 및/또는 행동이 촉발될 수 있는 지점을 나타낸다. 역치는 미리결정된 수일 것이 요구되지 않는다. 대신에, 역치는, 예를 들어, 복수의 인자에 기초하는 함수일 수 있다. 역치는 상황에 적응적일 수 있다. 더욱이, 역치는 상한, 하한, 또는 한계 사이의 범위를 나타낼 수 있다.
일부 구현에서, 서열분석 데이터에 기초하는 메트릭 또는 스코어가 역치와 비교될 수 있다. 본 명세서에 대해 사용되는 바와 같이, 용어 "메트릭" 또는 "스코어"는 서열분석 데이터로부터 결정되었던 값 또는 결과를 포함할 수 있거나, 또는 서열분석 데이터로부터 결정되었던 값 또는 결과에 기초한 함수를 포함할 수 있다. 역치와 마찬가지로, 메트릭 또는 스코어는 상황에 적응적일 수 있다. 예를 들어, 메트릭 또는 스코어는 정규화된 값일 수 있다. 스코어 또는 메트릭의 일 예로서, 하나 이상의 구현은 데이터를 분석할 때 카운트 스코어를 사용할 수 있다. 카운트 스코어는 샘플 판독물의 수에 기반할 수 있다. 샘플 판독물은 하나 이상의 필터링 단계를 거쳤을 수 있으며, 이로써 샘플 판독물이 적어도 하나의 공통 특성 또는 품질을 가질 수 있다. 예를 들어, 카운트 스코어를 결정하는 데 사용되는 샘플 판독물 각각은 참조 서열과 정렬되었을 수 있거나, 또는 잠재적인 대립유전자로서 할당될 수 있다. 공통 특성을 갖는 샘플 판독물의 수는 판독물 카운트를 결정하기 위해 카운팅될 수 있다. 카운트 스코어는 판독물 카운트에 기반할 수 있다. 일부 구현에서, 카운트 스코어는 판독물 카운트와 동일한 값일 수 있다. 다른 구현에서, 카운트 스코어는 판독물 카운트 및 다른 정보에 기반할 수 있다. 예를 들어, 카운트 스코어는 유전자 좌위의 특정 대립유전자에 대한 판독물 카운트 및 유전자 좌위에 대한 판독물의 총 수에 기반할 수 있다. 일부 구현에서, 카운트 스코어는 유전자 좌위에 대한 판독물 카운트 및 이전에 획득된 데이터에 기반할 수 있다. 일부 구현에서, 카운트 스코어는 미리결정된 값 사이의 정규화된 스코어일 수 있다. 카운트 스코어는, 또한, 샘플의 다른 좌위로부터의 판독물 카운트의 함수 또는 관심 샘플과 동시에 러닝(running)되었던 다른 샘플로부터의 판독물 카운트의 함수일 수 있다. 예를 들어, 카운트 스코어는 특정 대립유전자의 판독물 카운트 및 샘플 내의 다른 좌위의 판독물 카운트 및/또는 다른 샘플로부터의 판독물 카운트의 함수일 수 있다. 하나의 예로서, 다른 좌위로부터의 판독물 카운트 및/또는 다른 샘플로부터의 판독물 카운트는 특정 대립유전자에 대한 카운트 스코어를 정규화하는 데 사용될 수 있다.
용어 "커버리지" 또는 "단편 커버리지"는 서열의 동일한 단편에 대한 샘플 판독물의 수의 카운트 또는 다른 측정치를 지칭한다. 판독물 카운트는 상응하는 단편을 커버하는 판독물의 수의 카운트를 나타낼 수 있다. 대안으로, 커버리지는 판독물 카운트를 이력 지식, 샘플의 지식, 좌위의 지식 등에 기초하는 지정된 인자와 곱함으로써 결정될 수 있다.
용어 "판독 깊이"(통상적으로 숫자에 이은 "×")는 표적 포지션에서의 중첩 정렬을 갖는 서열분석된 판독물의 수를 지칭한다. 이는 종종(엑손, 유전자, 또는 패널과 같은) 한 세트의 구간에 걸쳐서 컷오프를 초과하는 평균 또는 백분율로서 표현된다. 예를 들어, 임상 보고서에 따르면, 패널 평균 커버리지가 1,105×이고, 이때 표적화된 염기의 98%가 100× 초과로 커버된다고 할 수 있다.
용어 "염기 호출 품질 스코어" 또는 "Q 스코어"는 단일의 서열분석된 염기가 정확할 확률에 반비례하는 0 내지 50 범위의 PHRED-스케일링된 확률을 지칭한다. 예를 들어, Q가 20인 T 염기 호출은 99.99%의 확률로 정확할 것으로 간주된다. Q < 20인 임의의 염기 호출은 저품질로 간주되어야 하고, 변이체를 지지하는 서열분석된 판독물의 상당한 비율이 낮은 품질인 경우에 식별된 임의의 변이체는 잠재적으로 위양성(false positive)으로 간주되어야 한다.
용어 "변이체 판독물" 또는 "변이체 판독물 수"는 변이체의 존재를 지지하는 서열분석된 판독물의 수를 지칭한다.
"가닥형성(strandedness)"(또는 DNA strandedness)에 관하여, DNA 내의 유전자 메시지는 문자 A, G, C, 및 T의 문자열로서 표현될 수 있다. 예를 들어, 5' - AGGACA - 3'. 종종, 서열은 여기에 도시된 방향으로, 즉 5' 말단부가 좌측에 그리고 3' 말단부가 우측에 있는 방향으로 기록된다. DNA는 때때로 (소정 바이러스에서와 같이) 단일 가닥 분자로서 발생할 수 있지만, 보통 이중 가닥 단위로서 DNA가 발견된다. 이는 2개의 역평행 가닥을 갖는 이중 나선형 구조를 갖는다. 이러한 경우에, 단어 "역평행"은 2개의 가닥이 평행하게 이어지지만 반대 극성을 갖는 것을 의미한다. 이중 가닥 DNA는 염기 사이의 쌍형성에 의해 함께 유지되고, 쌍형성은 항상 아데닌(A)은 티민(T)과 쌍형성되고 시토신(C)은 구아닌(G)과 쌍형성되도록 한다. 이러한 쌍형성은 상보성으로 지칭되고, DNA의 하나의 가닥은 다른 가닥의 상보체라고 한다. 따라서, 이중 가닥 DNA는 하기와 같이 2개의 스트링으로서 표현될 수 있다: 5' - AGGACA - 3' 및 3' - TCCTGT - 5'. 2개의 가닥은 반대 극성을 갖는다는 것에 주목하여야 한다. 따라서, 2개의 DNA 가닥의 가닥형성은 참조 가닥 및 이의 상보체, 정방향 및 역방향 가닥, 상부 및 하부 가닥, 센스 및 안티센스 가닥, 또는 왓슨 및 크릭 가닥으로 지칭될 수 있다.
판독물 정렬(판독물 맵핑으로도 칭해짐)은 서열이 게놈 내의 어디로부터 왔는지 알아내는 프로세스이다. 일단 정렬이 수행되면, 주어진 판독물의 "맵핑 품질" 또는 "맵핑 품질 스코어(MAPQ)"는 게놈 상의 이의 포지션이 정확할 확률을 정량화한다. 맵핑 품질은 P가 정렬이 정확하지 않을 확률인 PHRED 스케일로 인코딩된다. 확률은 로서 계산되며, MAPQ는 맵핑 품질이다. 예를 들어, 40의 맵핑 품질 = 10의 -4승이고, 이는 판독이 부정확하게 정렬되었을 가능성이 0.01%인 것을 의미한다. 따라서, 맵핑 품질은, 판독물의 기본 품질, 참조 게놈의 복잡성, 및 쌍형성된 말단 정보와 같은 여러 정렬 인자와 연관된다. 첫 번째에 관하여, 판독물의 기본 품질이 낮은 경우, 그것은 관찰된 서열이 부적절할 수 있고 따라서 이의 정렬이 부적절한 것을 의미한다. 두 번째에 관하여, 맵핑가능성(mappability)은 게놈의 복잡성을 지칭한다. 반복된 영역은 맵핑하기가 더 어렵고, 이러한 영역에 속하는 판독물은 통상 낮은 맵핑 품질을 얻는다. 이러한 맥락에서, MAPQ는 판독물이 고유하게 정렬되지 않고 그들의 실제 기원(real origin)이 결정될 수 없다는 사실을 반영한다. 세 번째에 관하여, 쌍형성된-말단 서열분석 데이터의 경우, 조화된 쌍(concordant pair)은 잘 정렬될 가능성이 더 크다. 맵핑 품질이 높을수록, 정렬은 더 양호해진다. 양호한 맵핑 품질로 정렬된 판독은 판독된 서열이 양호하였고 높은 맵핑가능성 영역에서 미스매칭이 거의 없이 정렬되었음을 통상 의미한다. MAPQ 값은 정렬 결과의 품질 제어로서 사용될 수 있다. 20 초과의 MAPQ로 정렬된 판독물의 비율은 통상 하류 분석을 위한 것이다.
본 명세서에 대해 사용되는 바와 같이, "신호"는, 예를 들어 이미지에서, 방출, 바람직하게는 광 방출과 같은 검출가능한 사건을 지칭한다. 따라서, 바람직한 구현에서, 신호는 이미지(즉, "스폿")에서 캡처되는 임의의 검출가능한 광 방출을 나타낼 수 있다. 따라서, 본 명세서에 대해 사용되는 바와 같이, "신호"는 시료의 분석물로부터의 실제 방출을 지칭할 수 있고, 실제 분석물과 상관되지 않는 스퓨리어스(spurious) 방출을 지칭할 수 있다. 따라서, 신호는 잡음으로부터 발생할 수 있고, 시료의 실제 분석물을 나타내지 않는 것으로서 나중에 폐기될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "클럼프(clump)"는 신호의 그룹을 지칭한다. 특정 구현에서, 신호는 상이한 분석물로부터 도출된다. 바람직한 구현에서, 신호 클럼프는 서로 클러스터링된 신호의 그룹이다. 더 바람직한 구현에서, 신호 클럼프는 하나의 증폭된 올리고뉴클레오티드에 의해 커버되는 물리적 영역을 나타낸다. 각각의 신호 클럼프는 이상적으로는, 여러 신호(템플릿 사이클당 하나의 신호, 그리고 크로스-토크로 인해 가능한 더 많은 신호)로서 관찰되어야 한다. 따라서, 2개의(또는 그 이상의) 신호가 신호의 동일한 클럼프로부터의 템플릿에 포함되는 복제 신호가 검출된다.
본 명세서에 대해 사용되는 바와 같이, "최소", "최대", "최소화하다", "최대화하다" 및 이들의 문법적 변형과 같은 용어는 절대 최대 또는 최소가 아닌 값을 포함할 수 있다. 일부 구현에서, 값은 근사 최대 및 근사 최소 값을 포함한다. 다른 구현에서, 값은 국소 최대 및/또는 국소 최소 값을 포함할 수 있다. 일부 구현에서, 값은 단지 절대 최대 또는 최소 값만을 포함한다.
본 명세서에 대해 사용되는 바와 같이, "크로스-토크"는 별개의 이미지에서 또한 검출되는 하나의 이미지에서의 신호의 검출을 지칭한다. 바람직한 구현에서, 크로스-토크는 방출된 신호가 2개의 별개의 검출 채널에서 검출될 때 발생할 수 있다. 예를 들어, 방출된 신호가 하나의 컬러로 발생하는 경우, 그 신호의 방출 스펙트럼은 다른 컬러의 다른 방출된 신호와 중첩될 수 있다. 바람직한 구현에서, 뉴클레오티드 염기 A, C, G 및 T의 존재를 나타내는 데 사용되는 형광 분자는 별개의 채널에서 검출된다. 그러나, A의 방출 스펙트럼과 C의 방출 스펙트럼이 중첩되기 때문에, C 컬러 신호의 일부는 A 컬러 채널을 사용한 검출 동안 검출될 수 있다. 따라서, A 신호와 C 신호 사이의 크로스-토크는 하나의 컬러 이미지로부터의 신호가 다른 컬러 이미지에 나타날 수 있게 한다. 일부 구현에서, G와 T는 크로스-토크된다. 일부 구현에서, 채널 사이의 크로스-토크의 양은 비대칭이다. 채널 사이의 크로스-토크의 양은, 특히, 검출 채널의 크기 및 파장 범위의 선택뿐만 아니라 적절한 방출 스펙트럼을 갖는 신호 분자의 선택에 의해 제어될 수 있다는 것이 이해될 것이다.
본 명세서에 대해 사용되는 바와 같이, "정합하다", "정합함", "정합" 및 유사 용어는 제1 시점(time point) 또는 관점(perspective)으로부터의 이미지 또는 데이터 세트에서의 신호를 다른 시점 또는 관점으로부터의 이미지 또는 데이터 세트에서의 신호와 상관시키는 임의의 프로세스를 지칭한다. 예를 들어, 정합은 이미지의 세트로부터의 신호를 정렬하여 템플릿을 형성하는 데 사용될 수 있다. 다른 예에서, 정합은 다른 이미지로부터의 신호를 템플릿으로 정렬하는 데 사용될 수 있다. 하나의 신호는 다른 신호에 직접적으로 또는 간접적으로 정합될 수 있다. 예를 들어, 이미지 "S"로부터의 신호는 이미지 "G"에 직접 정합될 수 있다. 다른 예로서, 이미지 "N"으로부터의 신호가 이미지 "G"에 직접 정합될 수 있거나, 또는 대안으로, 이미지 "N"으로부터의 신호가 이미지 "G"에 이전에 정합되었던 이미지 "S"에 정합될 수 있다. 따라서, 이미지 "N"으로부터의 신호는 이미지 "G"에 간접적으로 정합된다.
본 명세서에 대해 사용되는 바와 같이, 용어 "기점"은 객체 내의 또는 상의 참조물의 구별 가능한 지점을 의미하도록 의도된다. 참조점은, 예를 들어, 마크, 제2 객체, 형상, 에지, 영역, 불규칙성, 채널, 피트(pit), 포스트 등일 수 있다. 참조점은 객체의 이미지에 또는 객체를 검출하는 것으로부터 도출된 다른 데이터 세트에 존재할 수 있다. 참조점은 객체의 평면 내의 x 및/또는 y 좌표에 의해 특정될 수 있다. 대안으로 또는 추가로, 참조점은 xy 평면에 직교하는 z 좌표에 의해 특정될 수 있어서, 예를 들어, 객체와 검출기의 상대 위치에 의해 한정된다. 참조점에 대한 하나 이상의 좌표는 객체의 하나 이상의 다른 분석물 또는 객체로부터 도출된 이미지 또는 다른 데이터 세트에 대해 특정될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "광학 신호"는, 예를 들어 형광, 발광, 산란, 또는 흡수 신호를 포함하도록 의도된다. 광학 신호는 자외선(UV) 범위(약 200 내지 390 nm), 가시선(VIS) 범위(약 391 내지 770 nm), 적외선(IR) 범위(약 0.771 내지 25 마이크로미터), 또는 다른 범위의 전자기 스펙트럼에서 검출될 수 있다. 광학 신호는 이러한 범위 중 하나 이상의 범위의 모두 또는 일부를 배제하는 방식으로 검출될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "신호 레벨"은 원하는 또는 미리정의된 특성을 갖는 검출된 에너지 또는 코딩된 정보의 크기 또는 양을 의미하도록 의도된다. 예를 들어, 광 신호는 강도, 파장, 에너지, 주파수, 전력, 휘도 등 중 하나 이상에 의해 정량화될 수 있다. 다른 신호는 전압, 전류, 전기장 강도, 자기장 강도, 주파수, 전력, 온도 등과 같은 특성에 따라 정량화될 수 있다. 신호의 부재는 0의 신호 레벨 또는 잡음과 유의하게 구별되지 않는 신호 레벨인 것으로 이해된다.
본 명세서에 대해 사용되는 바와 같이, 용어 "시뮬레이션하다"는 물리적인 사물이나 액션의 특성을 예측하는 그 사물이나 액션의 표현 또는 모델을 생성하는 것을 의미하도록 의도된다. 표현 또는 모델은 많은 경우에서 사물 또는 액션과 구별 가능할 수 있다. 예를 들어, 표현 또는 모델은, 컬러, 사물의 전부 또는 일부로부터 검출된 신호의 강도, 크기, 또는 형상과 같은 하나 이상의 특성에 관하여 사물과 구별 가능할 수 있다. 특정 구현에서, 표현 또는 모델은 사물 또는 액션과 비교할 때 이상화되거나, 과장되거나, 소리가 약해지거나, 불완전할 수 있다. 따라서, 일부 구현에서, 모델의 표현은, 예를 들어 전술된 특성 중 적어도 하나의 특성에 관하여 그것이 표현하는 사물 또는 액션과 구별 가능할 수 있다. 표현 또는 모델은 본 명세서의 다른 곳에 기술된 것 중 하나 이상과 같은 컴퓨터 판독 가능 포맷 또는 매체에서 제공될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "특정 신호"는 배경 에너지 또는 정보와 같은 다른 에너지 또는 정보에 걸쳐서 선택적으로 관찰되는 검출된 에너지 또는 코딩된 정보를 의미하도록 의도된다. 예를 들어, 특정 신호는 특정 강도, 파장 또는 컬러에서 검출된 광학 신호; 특정 주파수, 전력 또는 필드 강도에서 검출된 전기 신호; 또는 분광법 및 분석 검출에 관한 당업계에 알려진 다른 신호일 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "스와스(swath)"는 객체의 직사각형 부분을 의미하도록 의도된다. 스와스는 스트립의 최장 치수에 평행한 방향으로 객체와 검출기 사이의 상대적 움직임에 의해 스캐닝되는 장방형 스트립일 수 있다. 대체적으로, 직사각형 부분 또는 스트립의 폭은 이의 전체 길이를 따라 일정할 것이다. 객체의 다수의 스와스는 서로 평행할 수 있다. 객체의 다수의 스와스는 서로 인접하거나, 서로 중첩되거나, 서로 접해 있거나, 또는 사이 영역에 의해 서로 분리될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "분산"은 예상되는 것과 관찰되는 것 사이의 차이 또는 2개 이상의 관찰 사이의 차이를 의미하도록 의도된다. 예를 들어, 분산은 예상된 값과 측정된 값 사이의 불일치일 수 있다. 분산은 표준 편차, 표준 편차의 제곱, 변동 계수 등과 같은 통계 함수를 사용하여 표현될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "xy 좌표"은 xy 평면 내의 위치, 크기, 형상 및/또는 배향을 특정하는 정보를 의미하도록 의도된다. 정보는, 예를 들어 직교좌표계에서의 수치 좌표일 수 있다. 좌표는 x축 및 y축 중 하나 또는 둘 모두에 대해 제공될 수 있거나, 또는 xy 평면 내의 다른 위치에 대해 제공될 수 있다. 예를 들어, 객체의 분석물의 좌표는 객체의 기점 또는 다른 분석물의 위치에 대한 분석물의 위치를 특정할 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "xy 평면"은 직선 축 x 및 y에 의해 정의되는 2차원 영역을 의미하도록 의도된다. 검출기 및 검출기에 의해 관찰된 객체를 참조하여 사용될 때, 영역은 검출기와 검출되고 있는 객체 사이의 관찰 방향에 직교하는 것으로서 추가로 특정될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "z 좌표"는 xy 평면에 직교하는 축을 따른 점, 선 또는 영역의 위치를 특정하는 정보를 의미하도록 의도된다. 특정 구현에서, z 축은 검출기에 의해 관찰되는 객체의 영역에 직교한다. 예를 들어, 광학 시스템에 대한 초점 방향은 z 축을 따라 특정될 수 있다.
일부 구현에서, 획득된 신호 데이터는 아핀 변환을 사용하여 변환된다. 일부 이러한 구현에서, 템플릿 생성은 컬러 채널 사이의 아핀 변환이 실행 사이에서 일관된다는 사실을 이용한다. 이러한 일관성 때문에, 디폴트 오프셋의 세트가 시료 내의 분석물의 좌표를 결정할 때 사용될 수 있다. 예를 들어, 디폴트 오프셋 파일은 A 채널과 같은 하나의 채널에 대해 상이한 채널에 대한 상대적 변환(시프트, 스케일, 스큐)을 포함할 수 있다. 그러나, 다른 구현에서, 컬러 채널 사이의 오프셋은 실행 동안 및/또는 실행 사이에서 드리프트되어, 오프셋 구동형 템플릿 생성을 어렵게 만든다. 이러한 구현에서, 본 명세서에 제공된 방법 및 시스템은 오프셋이 없는(offset-less) 템플릿 생성을 활용할 수 있고, 이는 아래에서 추가로 설명된다.
상기 구현의 일부 양태에서, 시스템은 플로우 셀을 포함할 수 있다. 일부 양태에서, 플로우 셀은 타일의 레인 또는 다른 구성을 포함하며, 타일 중 적어도 일부의 타일은 분석물의 하나 이상의 어레이를 포함한다. 일부 양태에서, 분석물은 핵산과 같은 복수의 분자를 포함한다. 특정 양태에서, 플로우 셀은 핵산의 어레이에 표지된 뉴클레오티드 염기를 전달하여, 이에 의해 핵산을 포함하는 분석물에 상응하는 신호를 생성하도록 분석물 내의 핵산으로 혼성화된 프라이머를 연장시키도록 구성된다. 바람직한 구현에서, 분석물 내의 핵산은 서로 동일하거나 실질적으로 동일하다.
본 명세서에 기술된 이미지 분석을 위한 시스템 중 일부에서, 이미지의 세트 내의 각각의 이미지는 컬러 신호를 포함하고, 상이한 컬러는 상이한 뉴클레오티드 염기에 상응한다. 일부 양태에서, 이미지의 세트의 각각의 이미지는 적어도 4개의 상이한 컬러로부터 선택되는 단일 컬러를 갖는 신호를 포함한다. 일부 양태에서, 이미지의 세트의 각각의 이미지는 4개의 상이한 컬러로부터 선택되는 단일 컬러를 갖는 신호를 포함한다. 본 명세서에 기술된 시스템 중 일부에서, 핵산은 4개의 상이한 이미지를 생성하도록 분자의 어레이에 4개의 상이한 표지된 뉴클레오티드 염기를 제공하여(각각의 이미지는 단일 컬러를 갖는 신호를 포함하고, 신호 컬러는 4개의 상이한 이미지 각각에 대해 상이함), 이에 의해 핵산 내의 특정 포지션에 존재하는 4개의 가능한 뉴클레오티드에 상응하는 4개의 컬러 이미지의 사이클을 생성함으로써 서열화될 수 있다. 특정 양태에서, 시스템은 추가의 표지된 뉴클레오티드 염기를 분자의 어레이로 전달하여, 이에 의해 컬러 이미지의 복수의 사이클을 생성하도록 구성되는 플로우 셀을 포함한다.
바람직한 구현에서, 본 명세서에 제공된 방법은 프로세서가 데이터를 능동적으로 획득하고 있는지 여부 또는 프로세서가 낮은 활동 상태에 있는지 여부를 결정하는 것을 포함할 수 있다. 다수의 고품질 이미지를 획득하고 저장하는 것은, 통상적으로, 대량의 저장 용량을 필요로 한다. 추가로, 일단 획득되고 저장되면, 이미지 데이터의 분석은 리소스 집약적이 될 수 있고, 추가적인 이미지 데이터의 진행 중인 획득 및 저장과 같은 다른 기능의 처리 용량을 저해할 수 있다. 따라서, 본 명세서에 대해 사용되는 바와 같이, 용어 낮은 활동 상태는 주어진 시간에서의 프로세서의 처리 용량을 지칭한다. 일부 구현에서, 낮은 활동 상태는 프로세서가 데이터를 획득하고/하거나 저장하지 않을 때 발생한다. 일부 구현에서, 일부 데이터 획득 및/또는 저장이 발생할 때 낮은 활동 상태가 발생하지만, 이미지 분석이 다른 기능을 방해하지 않으면서 동시에 발생할 수 있도록 추가적인 처리 용량이 남아 있다.
본 명세서에 대해 사용되는 바와 같이, "충돌을 식별하는"은 다수의 프로세스가 리소스에 대해 경쟁하는 상황을 식별하는 것을 지칭한다. 일부 이러한 구현에서, 하나의 프로세스는 다른 프로세스에 비해 우선순위를 부여받는다. 일부 구현에서, 충돌은 시간, 처리 용량, 저장 용량, 또는 우선순위가 주어지는 임의의 다른 리소스의 할당에 대한 우선순위를 부여할 필요성에 관련될 수 있다. 따라서, 데이터 세트를 분석하는 것 및 데이터 세트를 획득하고/하거나 저장하는 것과 같은 2개의 프로세스 사이에 처리 시간 또는 용량이 분산되어야 하는 일부 구현에서, 2개의 프로세스 사이의 충돌이 존재하고 프로세스 중 하나의 프로세스에 우선순위를 부여함으로써 해결될 수 있다.
이미지 분석을 수행하기 위한 시스템이 또한 본 명세서에 제공된다. 시스템은 프로세서; 저장 커패시터; 및 이미지 분석을 위한 프로그램을 포함할 수 있고, 프로그램은 저장을 위한 제1 데이터 세트 및 분석을 위한 제2 데이터 세트를 처리하기 위한 명령어를 포함하고, 처리는 제1 데이터 세트를 획득하고/하거나 저장 장치에 저장하는 것 및 프로세서가 제1 데이터 세트를 획득하고 있지 않을 때 제2 데이터 세트를 분석하는 것을 포함한다. 특정 양태에서, 프로그램은, 제1 데이터 세트를 획득하고/하거나 저장하는 것과 제2 데이터 세트를 분석하는 것 사이의 충돌의 적어도 하나의 경우를 식별하기 위한; 그리고 제1 데이터 세트를 획득하고/하거나 저장하는 것이 우선순위를 부여받도록 이미지 데이터를 획득하고/하거나 저장하는 것을 지지하여 충돌을 해결하기 위한 명령어를 포함한다. 특정 양태에서, 제1 데이터 세트는 광학 이미징 장치로부터 획득된 이미지 파일을 포함한다. 특정 양태에서, 시스템은 광학 이미징 장치를 추가로 포함한다. 일부 양태에서, 광학 이미징 장치는 광원 및 검출 장치를 포함한다.
본 명세서에 대해 사용되는 바와 같이, 용어 "프로그램"은 태스크 또는 프로세스를 수행하기 위한 명령어 또는 커맨드를 지칭한다. 용어 "프로그램"은 용어 모듈과 상호교환 가능하게 사용될 수 있다. 특정 구현에서, 프로그램은 커맨드의 동일한 세트 하에서 실행된 다양한 명령어의 컴필레이션(compilation)일 수 있다. 다른 구현에서, 프로그램은 별개의 배치(batch) 또는 파일을 지칭할 수 있다.
본 명세서에 기술된 이미지 분석을 수행하기 위한 방법 및 시스템을 이용하는 놀라운 효과 중 일부가 하기에 기술된다. 일부 서열분석 구현에서, 서열분석 시스템의 유용성의 중요한 척도는 이의 전체 효율이다. 예를 들어, 하루에 생성된 맵핑 가능 데이터의 양, 및 기구를 설치하고 실행시키는 총 비용은 경제적인 서열분석 해결책의 중요한 양태이다. 맵핑 가능 데이터를 생성하기 위한 시간을 감소시키고 시스템의 효율을 증가시키기 위해, 실시간 염기 호출이 기구 컴퓨터 상에서 가능해질 수 있고, 서열분석 화학반응 및 이미징과 병렬로 실행될 수 있다. 이는 서열분석 화학반응이 종료되기 전에 데이터 처리 및 분석 중 많은 것이 완료될 수 있게 한다. 추가로, 이것은 중간 데이터에 필요한 저장소를 감소시킬 수 있고 네트워크를 가로질러 이동할 필요가 있는 데이터의 양을 제한할 수 있다.
서열 출력이 증가되었으나, 본 명세서에 제공된 시스템으로부터 네트워크로 그리고 2차 분석 처리 하드웨어로 전송된 실행별 데이터(data per run)는 실질적으로 감소하였다. 기구 컴퓨터 상에서 데이터를 변환(컴퓨터를 획득)함으로써, 네트워크 부하가 급격히 감소된다. 이들 온-기구(on-instrument), 오프-네트워크(off-network) 데이터 감축 기술 없이, DNA 서열분석기의 그룹의 이미지 출력은 대부분의 네트워크를 손상시킬 것이다.
고처리량 DNA 서열분석기의 광범위한 채택은 사용의 용이성, 다양한 애플리케이션을 위한 지원, 및 거의 모든 실험실 환경에 대한 적합성에 의해 부분적으로 추진되어 왔다. 본 명세서에 제시된 매우 효율적인 알고리즘은 유의한 분석 기능이 서열분석기를 제어할 수 있는 간단한 워크스테이션에 추가될 수 있게 한다. 계산 하드웨어에 대한 요건에서의 이러한 감소는 서열분석 출력 레벨이 계속 증가함에 따라 훨씬 더 중요해지게 되는 여러 실제적인 이점을 갖는다. 예를 들어, 단순한 타워 상에서 이미지 분석 및 염기 호출을 수행함으로써, 열 생성, 실험실 풋프린트, 및 전력 소비가 최소로 유지된다. 대조적으로, 다른 상업적인 서열분석 기술은 최근, 최대 5배 더 많은 처리 전력으로 1차 분석을 위해 그들의 컴퓨팅 인프라스트럭처를 증가시켰으며, 이는 열 출력 및 전력 소비에서 상응하는 증가를 초래하였다. 따라서, 일부 구현에서, 본 명세서에 제공된 방법 및 시스템의 계산 효율은 서버 하드웨어 비용을 최소로 유지하면서 고객이 그들의 서열분석 처리량을 증가시킬 수 있게 한다.
따라서, 일부 구현에서, 본 명세서에 제시된 방법 및/또는 시스템은 상태 기계로 작용하여, 각각의 시료의 개별 상태를 계속 추적하고, 시료가 다음 상태로 진행할 준비가 되어 있음을 그것이 검출할 때, 그것은 적절한 처리를 행하고 시료를 그 상태로 진행시킨다. 바람직한 구현에 따라 시료가 다음 상태로 진행할 준비가 된 때를 결정하기 위해 상태 기계가 파일 시스템을 모니터링하는 방법의 더 상세한 예가 하기에 기술되어 있다.
바람직한 구현에서, 본 명세서에 제공된 방법 및 시스템은 멀티 스레드되고(multi-threaded), 구성 가능한 수의 스레드로 작동할 수 있다. 따라서, 예를 들어 핵산 서열분석의 맥락에서, 본 명세서에 제공된 방법 및 시스템은 실시간 분석을 위한 라이브 서열분석 실행 동안 배경에서 작동할 수 있거나, 또는 그것은 오프 라인 분석을 위해 기존의 이미지 데이터 세트를 사용하여 실행될 수 있다. 특정 바람직한 구현에서, 본 방법 및 시스템은 각각의 스레드에, 그가 책임지고 있는 시료의 자신의 서브 세트를 제공함으로써 멀티 스레딩을 처리한다. 이는 스레드 경쟁의 가능성을 최소화시킨다.
본 발명의 방법은 검출 장치를 사용하여 개체의 표적 이미지를 획득하는 단계를 포함할 수 있고, 이미지는 객체 상의 분석물의 반복 패턴을 포함한다. 표면의 고해상도 이미징이 가능할 수 있는 검출 장치가 특히 유용하다. 특정 구현에서, 검출 장치는 본 명세서에 기술된 밀도, 피치, 및/또는 분석물 크기에서 분석물을 구별하기에 충분한 해상도를 가질 것이다. 표면으로부터 이미지 또는 이미지 데이터를 획득할 수 있는 검출 장치가 특히 유용하다. 예시적인 검출기는 영역 이미지를 획득하면서 객체 및 검출기를 정적 관계로 유지하도록 구성된 것이다. 스캐닝 장치가 또한, 사용될 수 있다. 예를 들어, 순차적 영역 이미지를 획득하는 장치(예를 들어, 소위 '스텝 앤 슛(step and shoot)' 검출기)가 사용될 수 있다. 표면의 이미지를 구성하도록 데이터를 축적하기 위해 객체의 표면 위에 점 또는 라인을 연속적으로 스캐닝하는 장치가 또한 유용하다. 포인트 스캐닝 검출기는 표면의 x-y 평면에서 래스터 모션을 통해 객체의 표면 위에 점(즉, 작은 검출 영역)을 스캐닝하도록 구성될 수 있다. 라인 스캐닝 검출기는 객체의 표면의 y 치수를 따라 라인을 스캐닝하도록 구성될 수 있고, 선의 최장 치수는 x 치수를 따라 발생한다. 검출 장치, 객체 또는 둘 모두가 스캐닝 검출을 달성하기 위해 이동될 수 있다는 것이 이해될 것이다. 예를 들어 핵산 서열분석 응용에서 특히 유용한 검출 장치는 미국 특허 출원 공개 제2012/0270305호(A1); 제2013/0023422호(A1); 및 제2013/0260372호(A1); 및 미국 특허 제5,528,050호; 제5,719,391호; 제8,158,926호 및 제8,241,573호에 기재되어 있으며, 이들 각각은 참고로 본 명세서에 포함되어 있다.
본 명세서에 개시된 구현은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합을 생성하기 위해 프로그래밍 또는 엔지니어링 기술을 사용하는 방법, 장치, 시스템 또는 제조 물품으로서 구현될 수 있다. 본 명세서에 대해 사용되는 용어 "제조 물품"은 하드웨어 또는 컴퓨터 판독 가능한 매체, 예를 들어 광학 저장 장치, 및 휘발성 또는 비휘발성 메모리 장치에서 구현된 코드 또는 로직을 지칭한다. 이러한 하드웨어는 필드 프로그래밍 가능 게이트 어레이(FPGA), 코어스-그레인드 재구성 가능한 아키텍처(CGRA), 애플리케이션 특정 집적 회로(ASIC), 복합 프로그램 가능 논리 소자(CPLD), 프로그램 가능 논리 어레이(PLA), 마이크로프로세서, 또는 다른 유사한 처리 장치를 포함할 수 있지만, 이로 제한되지 않는다. 특정 구현에서, 본 명세서에 기재된 정보 또는 알고리즘은 비일시적 저장 매체에 존재한다.
특정 구현에서, 본 명세서에 기재된 컴퓨터 구현 방법은 객체의 다수의 이미지가 획득되고 있는 동안 실시간으로 발생할 수 있다. 이러한 실시간 분석은 핵산 서열분석 응용에 특히 유용하고, 핵산의 어레이는 유체 및 검출 단계의 반복되는 사이클을 거친다. 서열분석 데이터의 분석은 종종 계산 집약적일 수 있어서, 다른 데이터 획득 또는 분석 알고리즘이 프로세스 중에 있는 동안 실시간으로 또는 배경에서 본 명세서에 기재되어 있는 방법을 수행하는 것이 유익할 수 있게 한다. 본 방법과 함께 사용될 수 있는 예시적인 실시간 분석 방법은, Illumina, Inc.(미국 캘리포니아주 샌디에고 소재)로부터 입수가능한 MiSeq 및 HiSeq 서열분석 장치에 대해 사용되고/되거나 미국 특허 출원 공개 제2012/0020537호(A1)에 기술되며, 이는 참조로 본 명세서에 포함된다.
예시적인 데이터 분석 시스템은 하나 이상의 프로그래밍된 컴퓨터에 의해 형성되며, 이때 프로그래밍은 본 명세서에 기술된 방법의 하나 이상의 단계를 수행하도록 실행되는 코드를 갖는 하나 이상의 기계 판독 가능 매체에 저장된다. 하나의 구현에서, 예를 들어, 시스템은 표적 객체로부터 데이터를 획득하도록 구성되는 하나 이상의 검출 시스템(예를 들어, 광학 이미징 시스템)에 대한 시스템의 네트워킹을 허용하도록 설계된 인터페이스를 포함한다. 인터페이스는, 적절한 경우, 데이터를 수신하고 컨디셔닝할 수 있다. 특정 구현에서, 검출 시스템은 디지털 이미지 데이터, 예를 들어 어레이 또는 다른 객체의 이미지를 함께 형성하는 개별 화상 요소 또는 픽셀을 나타내는 이미지 데이터를 출력할 것이다. 프로세서는 처리 코드에 의해 정의된 하나 이상의 루틴에 따라, 수신된 검출 데이터를 처리한다. 처리 코드는 다양한 유형의 메모리 회로부에 저장될 수 있다.
현재 고려되는 구현에 따르면, 검출 데이터 상에서 실행된 처리 코드는 데이터 내에서 가시적인 또는 인코딩된 개별 분석물의 위치 및 메타데이터뿐만 아니라, 분석물이 검출되지 않는 위치(즉, 분석물이 없는 경우, 또는 기존의 분석물로부터 의미있는 신호가 검출되지 않는 경우)를 결정하기 위해 검출 데이터를 분석하도록 설계된 데이터 분석 루틴을 포함한다. 특정 구현에서, 어레이 내의 분석물 위치는, 통상적으로, 이미징된 분석물에 부착된 형광 염료의 존재로 인해 비분석물 위치보다 더 밝게 보일 것이다. 분석물은, 예를 들어 분석물에서의 프로브에 대한 표적이 검출되고 있는 어레이 내에 존재하지 않을 때, 그들의 주변 영역보다 더 밝게 보일 필요가 없음을 이해할 것이다. 개별 분석물이 보이는 컬러는 이용되는 염료의 함수뿐만 아니라, 이미징 목적을 위해 이미징 시스템에 의해 사용되는 광의 파장의 함수일 수 있다. 표적이 결합되어 있지 않거나 또는 달리 특정 표지가 없는 분석물은 마이크로어레이 내의 그들의 예상 위치와 같은 다른 특성에 따라 식별될 수 있다.
일단 데이터 분석 루틴이 데이터 내의 개별 분석물을 위치확인했다면, 일정 값 할당이 수행될 수 있다. 대체적으로, 값 할당은 상응하는 위치에서 검출기 구성요소(예를 들어, 픽셀)에 의해 표현되는 데이터의 특성에 기반하여 각각의 분석물에 디지털 값을 할당할 것이다. 즉, 예를 들어 이미징 데이터가 처리될 때, 값 할당 루틴은, 특정 위치에서, 그 위치에서 픽셀의 그룹 또는 클러스터에 의해 나타내진 바와 같이, 특정 컬러 또는 광의 파장이 검출되었음을 인식하도록 설계될 수 있다. 전형적인 DNA 이미징 애플리케이션에서, 예를 들어, 4개의 공통 뉴클레오티드는 4개의 별개의 그리고 구별 가능한 컬러로 표현될 것이다. 이어서, 각각의 컬러에는 해당 뉴클레오티드에 상응하는 값이 할당될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 용어 "모듈", "시스템," 또는 "시스템 제어기"는 하나 이상의 기능을 수행하도록 동작하는 하드웨어 및/또는 소프트웨어 시스템 및 회로부를 포함할 수 있다. 예를 들어, 모듈, 시스템, 또는 시스템 제어기는 컴퓨터 메모리와 같은 유형적 및 비일시적 컴퓨터 판독 가능 저장 매체 상에 저장된 명령어에 기반하여 동작을 수행하는 컴퓨터 프로세서, 제어기, 또는 다른 로직 기반 장치를 포함할 수 있다. 대안적으로, 모듈, 시스템, 또는 시스템 제어기는 하드와이어드 로직 및 회로에 기반하여 동작을 수행하는 하드와이어드 장치를 포함할 수 있다. 첨부된 도면에 도시된 모듈, 시스템, 또는 시스템 제어기는 소프트웨어 또는 하드와이어드 명령어에 기반하여 동작하는 하드웨어 및 회로부, 동작을 수행하도록 하드웨어에 지시하는 소프트웨어, 또는 이들의 조합을 나타낼 수 있다. 모듈, 시스템, 또는 시스템 제어기는 하나 이상의 프로세서, 예를 들어 하나 이상의 컴퓨터 마이크로프로세서를 포함하고/하거나 그들과 접속되는 하드웨어 회로 또는 회로부를 포함하거나 나타낼 수 있다.
본 명세서에 대해 사용되는 용어 "소프트웨어" 및 "펌웨어"는 상호교환 가능하며, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 및 비휘발성 RAM(NVRAM) 메모리를 포함한, 컴퓨터에 의한 실행을 위한 메모리에 저장된 임의의 컴퓨터 프로그램을 포함한다. 상기의 메모리 유형은 단지 예이며, 따라서, 컴퓨터 프로그램의 저장을 위해 사용 가능한 메모리의 유형에 대한 제한은 아니다.
분자 생물학 분야에서, 사용 중인 핵산 서열분석을 위한 프로세스 중 하나의 프로세스는 SBS이다. 이 기술은 대량의 병렬 서열분석 프로젝트에 적용될 수 있다. 예를 들어, 자동화된 플랫폼을 사용함으로써, 수십만 개의 서열분석 반응을 동시에 수행하는 것이 가능하다. 따라서, 본 발명의 구현 중 하나의 구현은 핵산 서열분석 동안 생성된 이미지 데이터를 획득하고, 저장하고, 그리고 분석하기 위한 기구 및 방법에 관한 것이다.
획득 및 저장될 수 있는 데이터의 양적인 면에서의 막대한 이득은 능률적인 이미지 분석 방법을 더욱 더 유익하게 만든다. 예를 들어, 본 명세서에 기술된 이미지 분석 방법은 설계자 및 최종 사용자 둘 모두가 기존의 컴퓨터 하드웨어의 효율적인 사용을 할 수 있게 한다. 따라서, 급속히 증가하는 데이터 출력의 면에서 데이터를 처리하는 계산 부담을 감소시키는 방법 및 시스템이 본 명세서에 제시된다. 예를 들어, DNA 서열분석 분야에서, 수율은 최근 1년의 과정에 걸쳐서 15배 증가하였으며, 이제 DNA 서열분석 장치의 단일 실행으로 수백 기가염기(gigabase)에 도달할 수 있다. 계산 인프라스트럭처 요건이 비례하여 성장하면, 대규모 게놈 스케일의 실험은 대부분의 연구자들에게 이를 수 없는 상태로 남을 것이다. 따라서, 더 많은 원시 서열 데이터의 생성은 이차 분석 및 데이터 저장에 대한 필요성을 증가시켜서, 데이터 전송 및 저장의 최적화를 매우 가치있게 만들 것이다. 본 명세서에 제시된 방법 및 시스템의 일부 구현은 사용 가능한 서열 데이터를 생성하는 데 필요한 시간, 하드웨어, 네트워킹, 및 실험실 인프라스트럭처 요건을 감소시킬 수 있다.
본 발명은 다양한 방법 및 방법을 수행하기 위한 시스템을 기술한다. 방법 중 일부 방법의 예는 일련의 단계로서 기술된다. 그러나, 구현은 본 명세서에 기술된 특정 단계 및/또는 단계의 순서로 제한되지 않는다는 것이 이해되어야 한다. 단계가 생략될 수 있고/있거나, 단계가 수정될 수 있고/있거나, 다른 단계가 추가될 수 있다. 더욱이, 본 명세서에 기술된 단계가 조합될 수 있거나, 단계가 동시에 수행될 수 있거나, 단계가 함께 수행될 수 있거나, 단계가 다수의 서브 단계로 분할될 수 있거나, 단계가 상이한 순서로 수행될 수 있거나, 또는 단계(또는 일련의 단계)가 반복적인 방식으로 재수행될 수 있다. 또한, 상이한 방법이 본 명세서에 기술되어 있지만, 상이한 방법(또는 상이한 방법의 단계)이 다른 구현에서 조합될 수 있다는 것을 이해해야 한다.
일부 구현에서, 태스크 또는 동작을 수행"하도록 구성되는" 처리 유닛, 프로세서, 모듈, 또는 컴퓨팅 시스템은 태스크 또는 동작을 수행하도록 특별히 구조화되어 있는 것(예를 들어, 하나 이상의 프로그램 또는 명령어가 태스크 또는 동작을 수행하도록 맞춰지거나 의도되게 하는 것과 함께 그 상에 저장되거나 사용되게 하는 것, 및/또는 처리 회로부의 배열이 태스크 또는 동작을 수행하도록 맞춰지거나 의도되게 하는 것)으로 이해될 수 있다. 명확함을 위해 그리고 의심을 피하기 위해, 범용 컴퓨터(이는 적절히 프로그래밍되는 경우 태스크 또는 동작을 수행"하도록 구성"될 수 있음)는 태스크 또는 동작을 수행하도록 특별히 프로그래밍되지 않거나 구조적으로 수정되지 않는다면, 또는 특별히 프로그래밍되거나 구조적으로 수정될 때까지 태스크 또는 동작을 수행"하도록 구성"되지 않는다.
더욱이, 본 명세서에 기술된 방법의 동작은, 동작이 상업적으로 합리적인 기간 내에 당업자에 의해 또는 보통 사람에 의해 정신적으로 수행될 수 없도록 충분히 복잡할 수 있다. 예를 들어, 방법은 이러한 사람이 상업적으로 합리적인 시간 내에 방법을 완료할 수 없도록 비교적 복잡한 계산에 의존적일 수 있다.
본 출원 전반에 걸쳐서 다양한 공개물, 특허 또는 특허 출원이 참조되었다. 이들 공개물의 개시 내용은 그 전체가 본 발명이 속하는 최신의 기술을 더욱 완전히 설명하기 위하여 본 출원에 참고로 포함된다.
용어 "포함하는"은, 본 명세서에서, 언급된 요소를 포함할 뿐만 아니라 임의의 추가적인 요소를 추가로 포괄하는 개방형(open-ended)인 것으로 의도된다.
본 명세서에 대해 사용되는 바와 같이, 용어 "각각"은 물품의 집합과 관련하여 사용될 때, 집합 내의 개별 물품을 나타내는 것으로 의도되지만, 반드시 집합 내의 모든 물품을 지칭하지는 않는다. 명시적 개시 또는 문맥이 명백히 달리 지시하면 예외가 발생할 수 있다.
본 발명이 상기에 제공된 예을 참조하여 설명되었지만, 본 발명으로부터 벗어남이 없이 다양한 변형이 이루어질 수 있음이 이해되어야 한다.
본 출원에서 모듈은 하드웨어로 또는 소프트웨어로 구현될 수 있고, 도면에 도시된 바와 같이 정확하게 동일한 블록로 분할될 필요가 없다. 일부는 또한 상이한 프로세서 또는 컴퓨터 상에서 구현될 수 있거나, 다수의 상이한 프로세서 또는 컴퓨터 사이에 분산될 수 있다. 또한, 모듈 중 일부가, 달성된 기능에 영향을 주지 않고서 도면에 도시된 것과 조합되어, 병렬로 또는 상이한 순서로 동작될 수 있다는 것이 이해될 것이다. 또한, 본 명세서에 대해 사용되는 바와 같이, 용어 "모듈"은 "서브 모듈"을 포함할 수 있는데, 그 자체는 본 명세서에서 모듈을 구성하는 것으로 간주될 수 있다. 모듈로서 지정된 도면 내의 블록은, 또한, 방법에서의 흐름도 단계로서 생각될 수 있다.
본 명세서에 대해 사용되는 바와 같이, 정보의 아이템의 "식별"은 그 정보의 아이템의 직접적인 규격을 반드시 필요로 하지는 않는다. 정보는, 하나 이상의 간접 층을 통해 실제 정보를 단순히 지칭함으로써, 또는 함께 정보의 실제 아이템을 결정하기에 충분한 상이한 정보의 하나 이상의 아이템을 식별함으로써 필드 내에서 "식별"될 수 있다. 또한, 용어 "특정하다"는 본 명세서에서 "식별하다"와 동일한 것을 의미하도록 사용된다.
본 명세서에 대해 사용되는 바와 같이, 주어진 신호, 사건 또는 값은 주어진 신호, 사건 또는 값에 의해 영향을 받는 선행 신호, 사건 또는 값의 선행 신호, 사건 또는 값"에 의존적"이다. 개재되는 처리 요소, 단계 또는 기간이 있는 경우, 주어진 신호, 사건 또는 값은 여전히 선행 신호, 사건 또는 값"에 의존적"일 수 있다. 개재되는 처리 요소 또는 단계가 하나 초과의 신호, 사건 또는 값을 조합하는 경우, 처리 요소 또는 단계의 신호 출력은 신호, 사건 또는 값 입력 각각"에 의존적"인 것으로 고려된다. 주어진 신호, 사건 또는 값이 선행 신호, 사건 또는 값과 동일한 경우, 이는 주어진 신호, 사건 또는 값이 여전히 선행 신호, 사건 또는 값"에 의존적"인 것 또는 "의존하는" 것 또는 "기초하는" 것으로 고려되는 퇴보 사례일 뿐이다. 다른 신호, 사건 또는 값에 대한 주어진 신호, 사건 또는 값의 "응답성"은 유사하게 정의된다.
본 명세서에 대해 사용되는 바와 같이, "동시에" 또는 "병렬로"는 정확한 동시성을 요구하지는 않는다. 그것은, 개인들 중 하나의 개인의 평가가 개인들 중 다른 개인의 평가가 완료되기 전에 시작된다면 충분하다.
컴퓨터 시스템
도 16은 개시된 기술을 구현하는 데 사용될 수 있는 컴퓨터 시스템(1600)이다. 컴퓨터 시스템(1600)은 버스 서브 시스템(1655)을 통해 다수의 주변 장치와 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(1672)을 포함한다. 이러한 주변 장치는, 예를 들어 메모리 장치 및 파일 저장 서브 시스템(1636)을 포함하는 저장 서브 시스템(1610), 사용자 인터페이스 입력 장치(1638), 사용자 인터페이스 출력 장치(1676), 및 네트워크 인터페이스 서브 시스템(1674)을 포함할 수 있다. 입력 및 출력 장치는 컴퓨터 시스템(1600)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브 시스템(1674)은 다른 컴퓨터 시스템에서의 상응하는 인터페이스 장치에 대한 인터페이스를 포함하는 인터페이스를 외부 네트워크에 제공한다.
하나의 구현에서, 염기 호출자(704)는 저장 서브 시스템(1610) 및 사용자 인터페이스 입력 장치(1638)에 통신 가능하게 링크된다.
사용자 인터페이스 입력 장치(1638)는 키보드; 마우스, 트랙볼, 터치패드, 또는 그래픽 태블릿과 같은 포인팅 장치; 스캐너; 디스플레이 내에 통합된 터치 스크린; 음성 인식 시스템 및 마이크로폰과 같은 오디오 입력 장치; 및 다른 유형의 입력 장치를 포함할 수 있다. 대체적으로, 용어 "입력 장치"의 사용은 정보를 컴퓨터 시스템(1600)에 입력하기 위한 모든 가능한 유형의 장치 및 방식을 포함하도록 의도된다.
사용자 인터페이스 출력 장치(1676)는 디스플레이 서브 시스템, 프린터, 팩스 기계, 또는 오디오 출력 장치와 같은 비시각적 디스플레이를 포함할 수 있다. 디스플레이 서브 시스템은 LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평면 장치, 프로젝션 장치, 또는 가시적인 이미지를 생성하기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브 시스템은 또한, 오디오 출력 장치와 같은 비시각적 디스플레이를 제공할 수 있다. 대체적으로, "출력 장치"라는 용어의 사용은 정보를 컴퓨터 시스템(1600)으로부터 사용자에게 또는 다른 기계 또는 컴퓨터 시스템에 출력하기 위한 모든 가능한 유형의 장치 및 방식을 포함하도록 의도된다.
저장 서브 시스템(1610)은 본 명세서에 기술된 모듈 및 방법 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 이러한 소프트웨어 모듈은 대체적으로, 프로세서(1678)에 의해 실행된다.
프로세서(1678)는 그래픽 처리 유닛(GPU), 필드 프로그래밍가능 게이트 어레이(FPGA), 주문형 반도체(ASIC), 및/또는 코어스-그레인드 재구성가능 아키텍처(CGRA)일 수 있다. 프로세서(1678)는 Google Cloud Platform™, Xilinx™, 및 Cirrascale™과 같은 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 프로세서(1678)의 예는 Google의 Tensor Processing Unit(TPU)™, 랙마운트 솔루션, 예를 들어 GX4 Rackmount Series™, GX16 Rackmount Series™, NVIDIA DGX-1™, Microsoft의 Stratix V FPGA™, Graphcore의 Intelligent Processor Unit (IPU)™, Snapdragon processors™을 갖는 Qualcomm의 Zeroth Platform™, NVIDIA의 Volta™, NVIDIA의 DRIVE PX™, NVIDIA의 JETSON TX1/TX2 MODULE™, Intel의 Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM의 DynamicIQ™, IBM TrueNorth™, Testa V100s™을 갖는 Lambda GPU 서버 등을 포함한다.
저장 서브 시스템(1610)에 대해 사용되는 메모리 서브 시스템(1622)은 프로그램 실행 동안 명령어 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(1632) 및 고정된 명령어가 저장되는 판독 전용 메모리(ROM)(1634)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(1636)은 프로그램 및 데이터 파일을 위한 영구 저장소를 제공할 수 있고, 하드 디스크 드라이브, 연관된 착탈식 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 착탈식 매체 카트리지를 포함할 수 있다. 특정 구현의 기능을 구현하는 모듈은 저장 서브 시스템(1610) 내의 파일 저장 서브 시스템(1636)에 의해, 또는 프로세서에 의해 액세스 가능한 다른 기계에 저장될 수 있다.
버스 서브 시스템(1655)은 컴퓨터 시스템(1600)의 다양한 구성요소 및 서브 시스템이 의도된 대로 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브 시스템(1655)은 개략적으로 단일 버스로서 도시되어 있지만, 버스 서브 시스템의 대안적인 구현은 다수의 버스를 사용할 수 있다.
컴퓨터 시스템(1600) 자체는 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 단말기, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 느슨하게 네트워킹된 컴퓨터의 광범위하게 분포된 세트, 또는 임의의 다른 데이터 처리 시스템 또는 사용자 장치를 포함한 다양한 유형의 것일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 16에 묘사된 컴퓨터 시스템(1600)의 설명은 본 발명의 바람직한 구현을 예시하기 위한 특정 예로서만 의도된다. 도 16에 묘사된 컴퓨터 시스템보다 더 많은 또는 더 적은 구성요소를 갖는 컴퓨터 시스템(1600)의 많은 다른 구성이 가능하다.
조항
개시된 기술은 샤프닝 마스크 기반 이미지 처리 기술을 사용하여 센서 픽셀로부터의 공간적 크로스토크를 감쇠시킨다. 개시된 기술은 시스템, 방법 또는 제조 물품으로서 실시될 수 있다. 구현의 하나 이상의 특징부는 기본 구현과 조합될 수 있다. 상호 배타적이지 않은 구현은 조합 가능한 것으로 교시되어 있다. 구현의 하나 이상의 특징부는 다른 구현과 조합될 수 있다. 본 발명은 이러한 옵션을 사용자에게 주기적으로 상기시킨다. 이러한 옵션을 반복하는 기재의 일부 구현으로부터의 생략은 전술한 섹션에 교시된 조합을 제한하는 것으로서 간주되어서는 안 된다(이들 기재는 본 명세서에 다음의 구현 각각에 참고로 포함됨).
일 구현에서, 개시된 기술은 센서 픽셀로부터의 공간적 크로스토크를 감쇠시키는 컴퓨터 구현 방법을 제안한다.
개시된 기술은 시스템, 방법 또는 제조 물품으로서 실시될 수 있다. 구현의 하나 이상의 특징부는 기본 구현과 조합될 수 있다. 상호 배타적이지 않은 구현은 조합 가능한 것으로 교시되어 있다. 구현의 하나 이상의 특징부는 다른 구현과 조합될 수 있다. 본 발명은 이러한 옵션을 사용자에게 주기적으로 상기시킨다. 이러한 옵션을 반복하는 기재의 일부 구현으로부터의 생략은 전술한 섹션에 교시된 조합을 제한하는 것으로서 간주되어서는 안 된다(이들 기재는 본 명세서에 다음의 구현 각각에 참고로 포함됨).
개시된 기술 또는 이의 요소의 하나 이상의 구현 및 조항은, 나타낸 방법 단계를 수행하기 위한 컴퓨터 사용가능 프로그램 코드를 갖는 비일시적 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 제품의 형태로 구현될 수 있다. 더욱이, 개시된 기술 또는 이의 요소의 하나 이상의 구현 및 조항은, 메모리, 및 메모리에 커플링되고 예시적인 방법 단계를 수행하기 위해 동작하는 적어도 하나의 프로세서를 포함하는 장치의 형태로 구현될 수 있다. 또한, 추가로, 다른 양태에서, 개시된 기술 또는 이의 요소의 하나 이상의 구현 및 조항은, 본 명세서에 기술된 방법 단계 중 하나 이상을 수행하기 위한 수단의 형태로 구현될 수 있고; 수단은 (i) 하드웨어 모듈(들), (ii) 하나 이상의 하드웨어 프로세서 상에서 실행되는 소프트웨어 모듈(들), 또는 (iii) 하드웨어와 소프트웨어 모듈의 조합을 포함할 수 있고; (i) 내지 (iii) 중 임의의 것이 본 명세서에 제시된 특정 기술을 구현하고, 소프트웨어 모듈은 컴퓨터 판독 가능 저장 매체(또는 다수의 이러한 매체)에 저장된다.
이 섹션에 기술된 조항은 특징부로서 조합될 수 있다. 간결함을 위해, 특징부의 조합은 개별적으로 열거되지 않고 특징부의 각각의 기본 세트로 반복되지 않는다. 독자는 본 섹션에서 기술된 조항에서 식별된 특징부가 본 출원의 다른 섹션에서 구현으로서 식별된 기본 특징부의 세트와 어떻게 용이하게 조합될 수 있는지를 이해할 것이다. 이들 조항은 상호 배타적이거나, 총망라하거나 제한적이라는 의미가 아니며, 개시된 기술은 이러한 조항으로 제한되지 않지만, 오히려 청구된 기술 및 이의 등가물의 범주 내의 모든 가능한 조합, 수정, 및 변형을 포함한다.
이 섹션에 기술된 조항의 다른 구현은 본 섹션에서 기술된 조항 중 임의의 것을 수행하도록 프로세서에 의해 실행 가능한 명령어를 저장하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 이 섹션에 기술된 조항의 또 다른 구현은 메모리, 및 본 섹션에서 기술된 조항 중 임의의 것을 수행하기 위해, 메모리에 저장된 명령어를 실행하도록 동작 가능한 하나 이상의 프로세서를 포함하는 시스템을 포함할 수 있다.
하기 조항이 개시되어 있다:
조항 1. 염기 호출하는 컴퓨터 구현 방법으로서, 상기 방법은,
바이오센서에 의해 출력된 이미지의 섹션에 액세스하는 단계(상기 이미지의 섹션은 상기 바이오센서 내의 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 복수의 픽셀을 포함하고, 상기 복수의 클러스터는 표적 클러스터를 포함함);
상기 이미지의 상기 섹션을 콘볼루션 커널로 콘볼루션하여, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성하는 단계;
가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 가중된 특징부 값은 상기 특징부 맵의 상기 복수의 특징부 값 중 하나 이상의 특징부 값에 기반함); 및
상기 표적 클러스터에 할당된 상기 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는, 방법.
조항 2. 조항 1에 있어서, 상기 이미지의 상기 섹션은 상기 바이오센서의 플로우 셀의 제1 부분으로부터 생성되는 제1 섹션이고, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 복수의 클러스터는 제1 복수의 클러스터이고, 상기 복수의 픽셀은 제1 복수의 픽셀이고, 상기 특징부 맵은 제1 특징부 맵이고, 상기 복수의 특징부 값은 제1 복수의 특징부 값이고, 상기 표적 클러스터는 제1 표적 클러스터이고, 상기 가중된 특징부 값은 제1 가중된 특징부 값이며, 상기 방법은,
상기 바이오센서의 상기 플로우 셀의 제2 부분에 의해 상기 이미지 출력의 제2 섹션에 액세스하는 단계(상기 이미지의 상기 제2 섹션은 상기 바이오센서 내의 제2 복수의 클러스터 및 상기 제2 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함하고, 상기 제2 복수의 클러스터는 제2 표적 클러스터를 포함함);
상기 이미지의 상기 제2 섹션을 상기 제1 콘볼루션 커널과 상이한 제2 콘볼루션 커널로 콘볼루션하여, 상응하는 제2 복수의 특징부 값을 갖는 제2 복수의 특징부를 포함하는 제2 특징부 맵을 생성하는 단계;
제2 가중된 특징부 값을 상기 제2 표적 클러스터에 할당하는 단계(상기 제2 가중된 특징부 값은 상기 제2 특징부 맵의 상기 제2 복수의 특징부 값의 하나 이상의 특징부 값에 기반함); 및
상기 제2 표적 클러스터에 할당된 상기 제2 가중된 특징부 값을 처리하여 상기 제2 표적 클러스터를 염기 호출하는 단계를 추가로 포함하는, 방법.
조항 3. 조항 2에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 k×k 부분으로 분할되고, k는 양의 정수이고, 상기 제1 부분 및 상기 제2 부분은 상기 타일의 상기 k×k 부분의 2개의 부분인, 방법.
조항 4. 조항 3에 있어서, k는 3, 5 또는 9 중 하나인, 방법.
조항 5. 조항 1 내지 조항 4 중 어느 한 조항에 있어서,
포인트 및 슈트 이미지 캡처 시스템을 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는, 방법.
조항 6. 조항 2에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 1×k 부분으로 분할되고, k는 양의 정수이고, 상기 제1 부분 및 상기 제2 부분은 상기 타일의 상기 1×k 부분의 2개의 부분인, 방법.
조항 7. 조항 1 내지 조항 6 중 어느 한 조항에 있어서,
라인 스캔 이미지 캡처 시스템을 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는, 방법.
조항 8. 조항 2 내지 조항 7 중 어느 한 조항에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 복수의 부분으로 분할되고, 상기 복수의 부분은 제1 유형의 부분 및 제2 유형의 부분을 포함하고, 제2 유형의 부분은 주기적으로 제1 유형의 부분 내에 인터리빙되고;
상기 제1 부분은 상기 제1 유형의 부분 중 하나이고;
상기 제2 부분은 상기 제2 유형의 부분 중 하나인, 방법.
조항 9. 조항 1 내지 조항 8 중 어느 한 조항에 있어서,
하나 이상의 CMOS(상보적 금속 산화물 반도체) 센서를 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는, 방법.
조항 10. 조항 2 내지 조항 9 중 어느 한 조항에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 상기 제1 부분, 상기 제2 부분, 및 제3 부분을 포함하는 복수의 부분으로 분할되고;
상기 플로우 셀의 상기 타일의 상기 제1 부분으로부터 생성된 상기 이미지의 상기 제1 섹션은 상기 제1 콘볼루션 커널로 콘볼루션되고;
상기 플로우 셀의 상기 타일의 상기 제2 부분으로부터 생성된 상기 이미지의 상기 제2 섹션은 상기 제2 콘볼루션 커널로 콘볼루션되고;
상기 플로우 셀의 상기 타일의 상기 제3 부분으로부터 생성된 상기 이미지의 제3 섹션은 상기 제1 및 제2 콘볼루션 커널 각각과 상이한 제3 콘볼루션 커널로 콘볼루션되는, 방법.
조항 11. 조항 1 내지 조항 9 중 어느 한 조항에 있어서, 상기 이미지의 상기 섹션은 플로우 셀의 제1 부분으로부터의 제1 컬러 채널에 대해 생성되는 제1 섹션이고, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 복수의 픽셀은 제1 복수의 픽셀이고, 상기 특징부 맵은 제1 특징부 맵이고, 상기 복수의 특징부 값은 제1 복수의 특징부 값이고, 상기 가중된 특징부 값은 제1 가중된 특징부 값이고, 상기 방법은,
상기 플로우 셀의 상기 제1 부분으로부터 제2 컬러 채널에 대해 생성되는 상기 이미지의 제2 섹션에 액세스하는 단계(상기 이미지의 상기 제2 섹션은 상기 바이오센서 내의 상기 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함함);
상기 이미지의 상기 제2 섹션을 상기 제1 콘볼루션 커널과 상이한 제2 콘볼루션 커널로 콘볼루션하여, 상응하는 제2 복수의 특징부 값을 갖는 제2 복수의 특징부를 포함하는 제2 특징부 맵을 생성하는 단계;
제2 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 제2 가중된 특징부 값은 상기 제2 특징부 맵의 상기 제2 복수의 특징부 값의 하나 이상의 특징부 값에 기반함); 및
상기 표적 클러스터에 할당된 상기 제1 가중된 특징부 값 및 상기 제2 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 추가로 포함하는, 방법.
조항 12. 조항 11에 있어서,
상기 제1 컬러 채널에 대한 상기 이미지의 상기 제1 섹션은 상기 제1 콘볼루션 커널로 콘볼루션되고;
상기 제2 컬러 채널에 대한 상기 이미지의 상기 제2 섹션은 상기 제2 콘볼루션 커널로 콘볼루션되고;
제3 컬러 채널에 대한 상기 이미지의 상기 제3 섹션은 상기 제1 및 제2 콘볼루션 커널 각각과 상이한 제3 콘볼루션 커널로 콘볼루션되는, 방법.
조항 13. 조항 1 내지 조항 12 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 표적 클러스터의 서브 픽셀 위치 또는 서브 특징부 위치에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
조항 14. 조항 13에 있어서, 상기 표적 클러스터의 상기 서브 픽셀 위치는 상기 표적 클러스터가 위치되는 픽셀의 경계 또는 상기 픽셀의 중심에 대한 상기 표적 클러스터의 중심의 위치를 포함하는, 방법.
조항 15. 조항 13 또는 조항 14에 있어서, 상기 표적 클러스터의 상기 서브 특징부 위치는 상기 표적 클러스터가 위치되는 특징부의 경계 또는 상기 특징부의 중심에 대한 상기 표적 클러스터의 중심의 위치를 포함하는, 방법.
조항 16. 조항 1 내지 조항 15 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 이미지의 상기 섹션 내의 인접한 픽셀의 위치를 좌표하는 것에 대한 상기 표적 클러스터의 중심의 좌표 위치에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
조항 17. 조항 1 내지 조항 16 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 특징부 맵 내의 인접한 특징부의 위치를 좌표하는 것에 대한 상기 표적 클러스터의 중심의 좌표 위치에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
조항 18. 조항 1 내지 조항 17 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 표적 클러스터와 연관된 하나 이상의 중심간 거리에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
조항 19. 조항 18에 있어서,
상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리를 결정하는 단계(상기 하나 이상의 중심간 거리는 (i) 상기 표적 클러스터의 중심과 상기 이미지의 상기 섹션의 상기 복수의 픽셀의 제1 픽셀의 중심 사이의 제1 중심간 거리(상기 표적 클러스터는 상기 제1 픽셀 내에 있음), 및 (ii) 상기 표적 클러스터의 중심과 상기 복수의 픽셀의 제2 픽셀의 중심 사이의 제2 중심간 거리(상기 제2 픽셀은 상기 이미지의 상기 섹션의 상기 제1 픽셀에 이웃함)를 포함함)를 추가로 포함하는, 방법.
조항 20. 조항 18 또는 조항 19에 있어서,
상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리를 결정하는 단계(상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리는 (i) 상기 표적 클러스터의 중심과 상기 특징부 맵의 상기 복수의 특징부의 제1 특징부의 중심 사이의 제1 중심간 거리, 및 (ii) 상기 표적 클러스터의 중심과 상기 복수의 특징부의 제2 특징부의 중심 사이의 제2 중심간 거리(상기 제2 특징부는 상기 특징부 맵에서 상기 제1 특징부에 이웃함)를 포함함)를 추가로 포함하는, 방법.
조항 21. 조항 1 내지 조항 20 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 표적 클러스터의 중심에 가장 가까운 상기 복수의 특징부의 하나 이상의 특징부를 선택하는 단계; 및
상기 선택된 하나 이상의 특징부에 상응하는 상기 하나 이상의 특징부 값을 보간하여 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
조항 22. 항목 21에 있어서, 상기 선택된 하나 이상의 특징부에 상응하는 상기 하나 이상의 특징부 값을 보간하여 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 가중된 특징부 값을 상기 표적 클러스터에 할당하기 위해, 이선형 보간, 바이큐빅 보간, 가중된 영역 커버리지 기반 보간, 랜조스 보간, 또는 해밍 윈도우 기반 보간 중 하나를 사용하는 단계를 포함하는, 방법.
조항 23. 조항 1 내지 조항 22 중 어느 한 조항에 있어서,
상기 콘볼루션 커널의 계수를 생성하고/하거나 업데이트하기 위해 염기 호출자를 훈련시키는 단계를 추가로 포함하는, 방법.
조항 24. 조항 23에 있어서, 상기 염기 호출자를 훈련시키는 단계는,
상기 계수를 생성하고/하거나 업데이트하기 위해 적어도 제곱 추정, 통상 최소 제곱, 최소 평균 제곱, 및 재귀적 최소 제곱 중 적어도 하나를 사용하여 상기 염기 호출자를 훈련시키는 단계를 포함하는, 방법.
조항 25. 조항 23 또는 조항 24에 있어서, 상기 염기 호출자를 훈련시키는 단계는,
서열분석 실행 동안 상기 염기 호출자를 훈련시켜, 상기 콘볼루션 커널의 계수를 업데이트하는 단계를 포함하는, 방법.
조항 26. 조항 23 내지 조항 25 중 어느 한 조항에 있어서, 상기 서열분석 실행 동안 상기 염기 호출자를 훈련시키는 단계는,
상기 서열분석 실행의 하나 이상의 서열분석 사이클로부터의 데이터를 사용하여 상기 염기 호출자를 훈련시켜, 상기 콘볼루션 커널의 상기 계수를 업데이트하는 단계; 및
상기 서열분석 실행의 후속 하나 이상의 서열분석 사이클 동안 생성된 이미지의 콘볼루션을 위해 상기 콘볼루션 커널의 상기 업데이트된 계수를 사용하는 단계를 포함하는, 방법.
조항 27. 조항 23 내지 조항 26 중 어느 한 조항에 있어서, 상기 서열분석 실행 동안 상기 염기 호출자를 훈련시키는 단계는,
상기 서열분석 실행의 제1 서열분석 사이클로부터의 데이터를 사용하여 상기 염기 호출자를 훈련시켜, 상기 콘볼루션 커널의 상기 계수를 업데이트하는 단계; 및
상기 서열분석 실행의 제2 서열분석 사이클 및 후속 하나 이상의 후속 서열분석 사이클 동안 생성된 이미지의 콘볼루션을 위해 상기 콘볼루션 커널의 상기 업데이트된 계수를 사용하는 단계를 포함하는, 방법.
조항 28. 조항 23 내지 조항 27 중 어느 한 조항에 있어서,
상기 훈련 데이터에서 이미지의 이전 염기 호출 동안 생성된 상기 4개의 염기(A), 염기(C), 염기(G), 및 염기(T) 각각의 염기별 특징부 값 분포에 액세스하는 단계;
상응하는 컬러 채널에 대한 염기별 실측 자료 표적으로서 상기 염기별 특징부 값 분포의 각자의 중심을 선택하는 단계; 및
상기 염기 호출자를 훈련하기 위해 상기 염기별 실측 자료 표적을 사용하는 단계를 포함하는, 방법.
조항 29. 염기 호출을 수행하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
서열분석 실행의 복수의 서열분석 사이클의 제1 서열분석 사이클 동안 플로우 셀에 의해 출력된 제1 이미지에 액세스하는 단계(상기 제1 이미지는 상기 플로우 셀 내의 복수의 클러스터로부터의 강도 방출 값을 도시하는 제1 복수의 픽셀을 포함함);
상기 제1 서열분석 사이클 동안 출력되는 상기 제1 이미지를 처리하여 콘볼루션 커널의 계수를 업데이트하는 단계;
상기 서열분석 실행의 복수의 서열분석 사이클의 제2 서열분석 사이클 동안 상기 플로우 셀에 의해 출력된 제2 이미지에 액세스하는 단계(상기 제2 이미지는 상기 복수의 클러스터로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함함);
상기 콘볼루션 커널의 상기 업데이트된 계수로 상기 제2 이미지를 콘볼루션하여, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성하는 단계;
상기 특징부 맵의 하나 이상의 특징부의 하나 이상의 특징부 값을 보간하여 상기 표적 클러스터에 대한 가중된 특징부 값을 생성하는 단계; 및
상기 표적 클러스터에 할당된 상기 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 30. 조항 29에 있어서, 상기 제1 이미지를 처리하여 계수를 업데이트하는 단계는,
상기 제1 이미지 내의 표적 클러스터의 실측 자료에 액세스하는 단계(상기 표적 클러스터의 실측 자료는 연관된 실측 자료 특징부 값을 가짐);
상기 계수의 이전 값을 사용하여 상기 제1 이미지를 처리하는 단계에 기반하여, 상기 표적 클러스터에 대한 출력 특징부 값을 생성하는 단계; 및
상기 실측 자료 특징부 값과 상기 출력 특징부 값 사이의 차이에 기반하여, 상기 차이를 감소시키기 위해, 상기 계수를 업데이트하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 31. 조항 29 또는 조항 30에 있어서, 상기 제2 서열분석 사이클은 상기 제1 서열분석 사이클에 후속하고, 상기 제1 서열분석 사이클과 상기 제2 서열분석 사이클 사이에 적어도 하나의 서열분석 사이클이 존재하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 32. 조항 29 내지 조항 31 중 어느 한 조항에 있어서, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 제1 이미지를 처리하는 단계는,
(i) 제1 서열분석 사이클 동안 플로우 셀의 타일의 제1 섹션에 의해 출력되는 상기 제1 이미지의 제1 섹션을 처리하여 상기 제1 콘볼루션커널의 계수를 없데이트하고, (ii) 상기 제1 서열분석 사이클 동안 상기 타일의 제2 섹션에 의해 출력되는 상기 제1 이미지의 제2 섹션을 처리하여 제2 콘볼루션 커널의 계수를 업데이트하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 33. 조항 32에 있어서, 상기 제1 이미지를 처리하는 단계는,
상기 제1 서열분석 사이클 동안 상기 타일의 제3 섹션에 의해 출력되어, 제3 콘볼루션 커널의 계수를 업데이트하기 위해, 상기 제1 이미지의 제3 섹션을 처리하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 34. 조항 29 내지 조항 33 중 어느 한 조항에 있어서, 상기 특징부 맵의 상기 하나 이상의 특징부의 상기 하나 이상의 특징부 값을 보간하는 단계는,
상기 가중된 특징부 값을 상기 표적 클러스터에 할당하기 위해, 이선형 보간, 바이큐빅 보간, 또는 가중된 영역 커버리지 기반 보간 중 하나를 사용하여, 상기 특징부 맵의 상기 하나 이상의 특징부의 상기 하나 이상의 특징부 값을 보간하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 35. 조항 29 내지 조항 34 중 어느 한 조항에 있어서, 상기 특징부 맵 내에서, 상기 특징부 맵의 상기 복수의 특징부 중 상기 하나 이상의 특징부의 중심은 상기 표적 클러스터의 중심에 가장 가까운, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 36. 메모리에 커플링된 하나 이상의 프로세서를 포함하는 시스템으로서, 상기 메모리에는 염기 호출을 수행하기 위한 컴퓨터 명령어가 로딩되고, 상기 명령어는, 상기 프로세서 상에서 실행될 때,
픽셀이 표적 클러스터 및 상기 표적 클러스터에 인접한 위치로부터의 제1 컬러 채널 및 제2 컬러 채널에 대한 강도 방출물을 도시하는 이미지에 액세스하는 단계;
상기 이미지에서 상기 제1 컬러 채널에 대한 상기 픽셀의 상기 강도 방출물을 갖는 제1 마스크를 콘볼루션하여 제1 특징부 맵을 생성하고, 상기 이미지에서 상기 제2 컬러 채널에 대한 상기 픽셀의 상기 강도 방출물을 갖는 제2 마스크를 콘볼루션하여 제2 특징부 맵을 생성하는 단계;
(i) 상기 제1 특징부 맵의 하나 이상의 특징부의 하나 이상의 특징부 값을 보간하여, 상기 표적 클러스터에 대한 제1 가중된 특징부 값을 생성하고, (ii) 상기 제2 특징부 맵의 하나 이상의 특징부의 하나 이상의 특징부 값을 보간하여 상기 표적 클러스터에 대한 제2 가중된 특징부 값을 생성하는 단계; 및
상기 표적 클러스터에 할당된 상기 제1 및 제2 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는 동작을 구현하는, 시스템.
조항 37. 염기 호출을 수행하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
바이오센서에 의해 출력된 이미지의 섹션에 액세스하는 단계(상기 이미지의 섹션은 상기 바이오센서 내의 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 복수의 픽셀을 포함하고, 상기 복수의 클러스터는 표적 클러스터를 포함함);
상기 이미지의 상기 섹션을 콘볼루션 커널로 콘볼루션하여, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성하는 단계;
가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 가중된 특징부 값은 상기 특징부 맵의 상기 복수의 특징부 값 중 하나 이상의 특징부 값에 기반함); 및
상기 표적 클러스터에 할당된 상기 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 38. 조항 37에 있어서, 상기 이미지의 상기 섹션은 상기 바이오센서의 플로우 셀의 제1 부분으로부터 생성되는 제1 섹션이고, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 복수의 클러스터는 제1 복수의 클러스터이고, 상기 복수의 픽셀은 제1 복수의 픽셀이고, 상기 특징부 맵은 제1 특징부 맵이고, 상기 복수의 특징부 값은 제1 복수의 특징부 값이고, 상기 표적 클러스터는 제1 표적 클러스터이고, 상기 가중된 특징부 값은 제1 가중된 특징부 값이며, 상기 방법은,
상기 바이오센서의 상기 플로우 셀의 제2 부분에 의해 상기 이미지 출력의 제2 섹션에 액세스하는 단계(상기 이미지의 상기 제2 섹션은 상기 바이오센서 내의 제2 복수의 클러스터 및 상기 제2 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함하고, 상기 제2 복수의 클러스터는 제2 표적 클러스터를 포함함);
상기 이미지의 상기 제2 섹션을 상기 제1 콘볼루션 커널과 상이한 제2 콘볼루션 커널로 콘볼루션하여, 상응하는 제2 복수의 특징부 값을 갖는 제2 복수의 특징부를 포함하는 제2 특징부 맵을 생성하는 단계;
제2 가중된 특징부 값을 상기 제2 표적 클러스터에 할당하는 단계(상기 제2 가중된 특징부 값은 상기 제2 특징부 맵의 상기 제2 복수의 특징부 값의 하나 이상의 특징부 값에 기반함); 및
상기 제2 표적 클러스터에 할당된 상기 제2 가중된 특징부 값을 처리하여 상기 제2 표적 클러스터를 염기 호출하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 39. 조항 38에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 k×k 부분으로 분할되고, k는 양의 정수이고, 상기 제1 부분 및 상기 제2 부분은 상기 타일의 상기 k×k 부분의 2개인, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 40. 조항 39에 있어서, k는 3, 5 또는 9 중 하나인, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 41. 조항 37 내지 조항 40 중 어느 한 조항에 있어서,
포인트 및 슈트 이미지 캡처 시스템을 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는 비일시적 컴퓨터 판독 가능 저장 매체.
조항 42. 조항 38에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 1×k 부분으로 분할되고, k는 양의 정수이고, 상기 제1 부분 및 상기 제2 부분은 상기 타일의 상기 1×k 부분의 2개인, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 43. 조항 37 내지 조항 42 중 어느 한 조항에 있어서,
라인 스캔 이미지 캡처 시스템을 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는, 방법.
조항 44. 조항 38에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 복수의 부분으로 분할되고, 상기 복수의 부분은 제1 유형의 부분 및 제2 유형의 부분을 포함하고, 제2 유형의 부분은 주기적으로 제1 유형의 부분 내에 인터리빙되고;
상기 제1 부분은 상기 제1 유형의 부분 중 하나이고;
상기 제2 부분은 상기 제2 유형의 부분 중 하나인, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 45. 조항 37 내지 조항 44 중 어느 한 조항에 있어서,
하나 이상의 CMOS(상보적 금속 산화물 반도체) 센서를 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는, 방법.
조항 46. 조항 38에 있어서,
상기 바이오센서의 상기 플로우 셀의 타일은 상기 제1 부분, 상기 제2 부분, 및 제3 부분을 포함하는 복수의 부분으로 분할되고;
상기 플로우 셀의 상기 타일의 상기 제1 부분으로부터 생성된 상기 이미지의 상기 제1 섹션은 상기 제1 콘볼루션 커널로 콘볼루션되고;
상기 플로우 셀의 상기 타일의 상기 제2 부분으로부터 생성된 상기 이미지의 상기 제2 섹션은 상기 제2 콘볼루션 커널과 콘볼루션되고;
상기 플로우 셀의 상기 타일의 상기 제3 부분으로부터 생성된 상기 이미지의 제3 섹션은 상기 제1 및 제2 콘볼루션 커널 각각과 상이한 제3 콘볼루션 커널과 콘볼루션되는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 47. 조항 37 내지 조항 46 중 어느 한 조항에 있어서, 상기 이미지의 상기 섹션은 플로우 셀의 제1 부분으로부터의 제1 컬러 채널에 대해 생성되는 제1 섹션이고, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 복수의 픽셀은 제1 복수의 픽셀이고, 상기 특징부 맵은 제1 특징부 맵이고, 상기 복수의 특징부 값은 제1 복수의 특징부 값이고, 상기 가중된 특징부 값은 제1 가중된 특징부 값이고, 상기 방법은,
상기 바이오센서의 플로우 셀의 상기 제1 부분으로부터 제2 컬러 채널에 대해 생성되는 상기 이미지의 제2 섹션에 액세스하는 단계(상기 이미지의 상기 제2 섹션은 상기 바이오센서 내의 상기 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함함);
상기 이미지의 상기 제2 섹션을 상기 제1 콘볼루션 커널과 상이한 제2 콘볼루션 커널로 콘볼루션하여, 상응하는 제2 복수의 특징부 값을 갖는 제2 복수의 특징부를 포함하는 제2 특징부 맵을 생성하는 단계;
제2 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 제2 가중된 특징부 값은 상기 제2 특징부 맵의 상기 제2 복수의 특징부 값의 하나 이상의 특징부 값에 기반함); 및
상기 표적 클러스터에 할당된 상기 제1 가중된 특징부 값 및 상기 제2 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 추가로 포함하는, 방법.
조항 48. 조항 37 내지 조항 47 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 표적 클러스터와 연관된 하나 이상의 중심간 거리에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 49. 조항 48에 있어서,
상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리를 결정하는 단계(상기 하나 이상의 중심간 거리는 (i) 상기 표적 클러스터의 중심과 상기 이미지의 상기 섹션의 상기 복수의 픽셀의 제1 픽셀의 중심 사이의 제1 중심간 거리(상기 표적 클러스터는 상기 제1 픽셀 내에 있음), 및 (ii) 상기 표적 클러스터의 중심과 상기 복수의 픽셀의 제2 픽셀의 중심 사이의 제2 중심간 거리(상기 제2 픽셀은 상기 이미지의 상기 섹션의 상기 제1 픽셀에 이웃함)를 포함함)를 추가로 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 50. 조항 48 또는 조항 49에 있어서,
상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리를 결정하는 단계(상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리는 (i) 상기 표적 클러스터의 중심과 상기 특징부 맵의 상기 복수의 특징부의 제1 특징부의 중심 사이의 제1 중심간 거리, 및 (ii) 상기 표적 클러스터의 중심과 상기 복수의 특징부의 제2 특징부의 중심 사이의 제2 중심간 거리(상기 제2 특징부는 상기 특징부 맵에서 상기 제1 특징부에 이웃함)를 포함함)를 추가로 포함하는, 방법.
조항 51. 조항 37 내지 조항 50 중 어느 한 조항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 표적 클러스터의 중심에 가장 가까운 상기 복수의 특징부의 하나 이상의 특징부를 선택하는 단계; 및
상기 선택된 하나 이상의 특징부에 상응하는 상기 하나 이상의 특징부 값을 보간하여 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 52. 조항 51에 있어서, 상기 선택된 하나 이상의 특징부에 상응하는 상기 하나 이상의 특징부 값을 보간하여 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
상기 가중된 특징부 값을 상기 표적 클러스터에 할당하기 위해, 이선형 보간, 바이큐빅 보간, 또는 가중된 영역 커버리지 기반 보간 중 하나를 사용하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 53. 조항 37 내지 조항 52 중 어느 한 조항에 있어서,
상기 콘볼루션 커널의 계수를 생성하고/하거나 업데이트하기 위해 염기 호출자를 훈련시키는 단계를 추가로 포함하는, 방법.
조항 54. 조항 53에 있어서, 상기 염기 호출자를 훈련시키는 단계는,
상기 계수를 생성하고/하거나 업데이트하기 위해 적어도 제곱 추정, 통상 최소 제곱, 최소 평균 제곱, 및 재귀적 최소 제곱 중 적어도 하나를 사용하여 상기 염기 호출자를 훈련시키는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 55. 조항 53 또는 조항 54에 있어서, 상기 염기 호출자를 훈련시키는 단계는,
서열분석 실행 동안 상기 염기 호출자를 훈련시켜, 상기 콘볼루션 커널의 계수를 업데이트하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 56. 조항 53 내지 조항 55 중 어느 한 조항에 있어서, 상기 서열분석 실행 동안 상기 염기 호출자를 훈련시키는 단계는,
상기 서열분석 실행의 하나 이상의 서열분석 사이클로부터의 데이터를 사용하여 상기 염기 호출자를 훈련시켜, 상기 콘볼루션 커널의 상기 계수를 업데이트하는 단계; 및
상기 서열분석 실행의 후속 하나 이상의 서열분석 사이클 동안 생성된 이미지의 콘볼루션을 위해 상기 콘볼루션 커널의 상기 업데이트된 계수를 사용하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 57. 조항 53 내지 조항 56 중 어느 한 조항에 있어서, 상기 서열분석 실행 동안 상기 염기 호출자를 훈련시키는 단계는,
상기 서열분석 실행의 제1 서열분석 사이클로부터의 데이터를 사용하여 상기 염기 호출자를 훈련시켜, 상기 콘볼루션 커널의 상기 계수를 업데이트하는 단계; 및
상기 서열분석 실행의 제2 서열분석 사이클 및 후속 하나 이상의 후속 서열분석 사이클 동안 생성된 이미지의 콘볼루션을 위해 상기 콘볼루션 커널의 상기 업데이트된 계수를 사용하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
조항 58. 조항 53 내지 조항 57 중 어느 한 조항에 있어서,
상기 훈련 데이터에서 이미지의 이전 염기 호출 동안 생성된 상기 4개의 염기(A), 염기(C), 염기(G), 및 염기(T) 각각의 염기별 강도 분포에 액세스하는 단계;
상응하는 컬러 채널에 대한 염기별 실측 자료 표적 강도로서 상기 염기별 강도 분포의 각자의 중심을 선택하는 단계; 및
상기 염기 호출자를 훈련하기 위해 상기 염기별 실측 자료 표적 강도를 사용하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
본 발명이 상기에 상술된 바람직한 구현 및 예를 참조하여 개시되지만, 이러한 예는 제한적인 의미가 아니라 예시적인 것으로 의도됨이 이해될 것이다. 수정 및 조합이 당업자에게 용이하게 떠오를 것이며, 이러한 수정 및 조합은 본 발명의 사상 및 하기의 청구범위의 범주 내에 있을 것이라는 것이 고려된다.

Claims (22)

  1. 염기 호출하는 컴퓨터 구현 방법으로서, 상기 방법은,
    바이오센서에 의해 출력된 이미지의 섹션에 액세스하는 단계(상기 이미지의 섹션은 상기 바이오센서 내의 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 복수의 픽셀을 포함하고, 상기 복수의 클러스터는 표적 클러스터를 포함함);
    상기 이미지의 상기 섹션을 콘볼루션 커널로 콘볼루션하여, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성하는 단계;
    가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 가중된 특징부 값은 상기 특징부 맵의 상기 복수의 특징부 값 중 하나 이상의 특징부 값에 기반함); 및
    상기 표적 클러스터에 할당된 상기 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 이미지의 상기 섹션은 상기 바이오센서의 플로우 셀의 제1 부분으로부터 생성되는 제1 섹션이고, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 복수의 클러스터는 제1 복수의 클러스터이고, 상기 복수의 픽셀은 제1 복수의 픽셀이고, 상기 특징부 맵은 제1 특징부 맵이고, 상기 복수의 특징부 값은 제1 복수의 특징부 값이고, 상기 표적 클러스터는 제1 표적 클러스터이고, 상기 가중된 특징부 값은 제1 가중된 특징부 값이며, 상기 방법은,
    상기 바이오센서의 상기 플로우 셀의 제2 부분에 의해 상기 이미지 출력의 제2 섹션에 액세스하는 단계(상기 이미지의 상기 제2 섹션은 상기 바이오센서 내의 제2 복수의 클러스터 및 상기 제2 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함하고, 상기 제2 복수의 클러스터는 제2 표적 클러스터를 포함함);
    상기 이미지의 상기 제2 섹션을 상기 제1 콘볼루션 커널과 상이한 제2 콘볼루션 커널로 콘볼루션하여, 상응하는 제2 복수의 특징부 값을 갖는 제2 복수의 특징부를 포함하는 제2 특징부 맵을 생성하는 단계;
    제2 가중된 특징부 값을 상기 제2 표적 클러스터에 할당하는 단계(상기 제2 가중된 특징부 값은 상기 제2 특징부 맵의 상기 제2 복수의 특징부 값의 하나 이상의 특징부 값에 기반함); 및
    상기 제2 표적 클러스터에 할당된 상기 제2 가중된 특징부 값을 처리하여 상기 제2 표적 클러스터를 염기 호출하는 단계를 추가로 포함하는, 방법.
  3. 제2항에 있어서,
    상기 바이오센서의 상기 플로우 셀의 타일은 k×k 부분으로 분할되고, k는 양의 정수이고, 상기 제1 부분 및 상기 제2 부분은 상기 타일의 상기 k×k 부분의 2개의 부분인, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    포인트 및 슈트 이미지 캡처 시스템, 라인 스캔 이미지 캡처 시스템, 및/또는 하나 이상의 CMOS(상보적 금속 산화물 반도체) 센서를 사용하여 상기 바이오센서 내에서 상기 이미지를 캡처하는 단계를 추가로 포함하는, 방법.
  5. 제2항에 있어서,
    상기 바이오센서의 상기 플로우 셀의 타일은 1×k 부분으로 분할되고, k는 양의 정수이고, 상기 제1 부분 및 상기 제2 부분은 상기 타일의 상기 1×k 부분의 2개의 부분인, 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 바이오센서의 상기 플로우 셀의 타일은 복수의 부분으로 분할되고, 상기 복수의 부분은 제1 유형의 부분 및 제2 유형의 부분을 포함하고, 상기 제2 유형의 부분은 주기적으로 상기 제1 유형의 부분 내에 인터리빙되고;
    상기 제1 부분은 상기 제1 유형의 부분 중 하나이고;
    상기 제2 부분은 상기 제2 유형의 부분 중 하나인, 방법.
  7. 제2항 내지 제6항 중 어느 한 항에 있어서,
    상기 바이오센서의 상기 플로우 셀의 타일은 상기 제1 부분, 상기 제2 부분, 및 제3 부분을 포함하는 복수의 부분으로 분할되고;
    상기 플로우 셀의 상기 타일의 상기 제1 부분으로부터 생성된 상기 이미지의 상기 제1 섹션은 상기 제1 콘볼루션 커널로 콘볼루션되고;
    상기 플로우 셀의 상기 타일의 상기 제2 부분으로부터 생성된 상기 이미지의 상기 제2 섹션은 상기 제2 콘볼루션 커널로 콘볼루션되고;
    상기 플로우 셀의 상기 타일의 상기 제3 부분으로부터 생성된 상기 이미지의 제3 섹션은 상기 제1 및 제2 콘볼루션 커널 각각과 상이한 제3 콘볼루션 커널로 콘볼루션되는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 이미지의 상기 섹션은 플로우 셀의 제1 부분으로부터의 제1 컬러 채널에 대해 생성되는 제1 섹션이고, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 복수의 픽셀은 제1 복수의 픽셀이고, 상기 특징부 맵은 제1 특징부 맵이고, 상기 복수의 특징부 값은 제1 복수의 특징부 값이고, 상기 가중된 특징부 값은 제1 가중된 특징부 값이고, 상기 방법은,
    상기 플로우 셀의 상기 제1 부분으로부터 제2 컬러 채널에 대해 생성되는 상기 이미지의 제2 섹션에 액세스하는 단계(상기 이미지의 상기 제2 섹션은 상기 바이오센서 내의 상기 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함함);
    상기 이미지의 상기 제2 섹션을 상기 제1 콘볼루션 커널과 상이한 제2 콘볼루션 커널로 콘볼루션하여, 상응하는 제2 복수의 특징부 값을 갖는 제2 복수의 특징부를 포함하는 제2 특징부 맵을 생성하는 단계;
    제2 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 제2 가중된 특징부 값은 상기 제2 특징부 맵의 상기 제2 복수의 특징부 값의 하나 이상의 특징부 값에 기반함); 및
    상기 표적 클러스터에 할당된 상기 제1 가중된 특징부 값 및 상기 제2 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 추가로 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
    상기 표적 클러스터의 서브 픽셀 위치 또는 서브 특징부 위치에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
  10. 제9항에 있어서, 상기 표적 클러스터의 상기 서브 픽셀 위치는 상기 표적 클러스터가 위치되는 픽셀의 경계 또는 상기 픽셀의 중심에 대한 상기 표적 클러스터의 중심의 위치를 포함하는, 방법.
  11. 제9항 또는 제10항에 있어서, 상기 표적 클러스터의 상기 서브 특징부 위치는 상기 표적 클러스터가 위치되는 특징부의 경계 또는 상기 특징부의 중심에 대한 상기 표적 클러스터의 중심의 위치를 포함하는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
    상기 이미지의 상기 섹션 내의 인접한 픽셀의 위치를 좌표하는 것에 대한 상기 표적 클러스터의 중심의 좌표 위치에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
    상기 특징부 맵 내의 인접한 특징부의 위치를 좌표하는 것에 대한 상기 표적 클러스터의 중심의 좌표 위치에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
    상기 표적 클러스터와 연관된 하나 이상의 중심간 거리에 기반하여, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
  15. 제14항에 있어서,
    상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리를 결정하는 단계(상기 하나 이상의 중심간 거리는 (i) 상기 표적 클러스터의 중심과 상기 이미지의 상기 섹션의 상기 복수의 픽셀의 제1 픽셀의 중심 사이의 제1 중심간 거리(상기 표적 클러스터는 상기 제1 픽셀 내에 있음), 및 (ii) 상기 표적 클러스터의 중심과 상기 복수의 픽셀의 제2 픽셀의 중심 사이의 제2 중심간 거리(상기 제2 픽셀은 상기 이미지의 상기 섹션의 상기 제1 픽셀에 이웃함)를 포함함)를 추가로 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  16. 제14항 또는 제15항에 있어서,
    상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리를 결정하는 단계(상기 표적 클러스터와 연관된 상기 하나 이상의 중심간 거리는 (i) 상기 표적 클러스터의 중심과 상기 특징부 맵의 상기 복수의 특징부의 제1 특징부의 중심 사이의 제1 중심간 거리, 및 (ii) 상기 표적 클러스터의 중심과 상기 복수의 특징부의 제2 특징부의 중심 사이의 제2 중심간 거리(상기 제2 특징부는 상기 특징부 맵에서 상기 제1 특징부에 이웃함)를 포함함)를 추가로 포함하는, 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계는,
    상기 표적 클러스터의 중심에 가장 가까운 상기 복수의 특징부의 하나 이상의 특징부를 선택하는 단계; 및
    상기 선택된 하나 이상의 특징부에 상응하는 상기 하나 이상의 특징부 값을 보간하여 상기 가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계를 포함하는, 방법.
  18. 염기 호출을 수행하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
    서열분석 실행의 복수의 서열분석 사이클의 제1 서열분석 사이클 동안 플로우 셀에 의해 출력된 제1 이미지에 액세스하는 단계(상기 제1 이미지는 상기 플로우 셀 내의 복수의 클러스터로부터의 강도 방출 값을 도시하는 제1 복수의 픽셀을 포함함);
    상기 제1 서열분석 사이클 동안 출력되는 상기 제1 이미지를 처리하여 콘볼루션 커널의 계수를 업데이트하는 단계;
    상기 서열분석 실행의 상기 복수의 서열분석 사이클의 제2 서열분석 사이클 동안 상기 플로우 셀에 의해 출력된 제2 이미지에 액세스하는 단계(상기 제2 이미지는 상기 복수의 클러스터로부터의 강도 방출 값을 도시하는 제2 복수의 픽셀을 포함함);
    상기 콘볼루션 커널의 상기 업데이트된 계수로 상기 제2 이미지를 콘볼루션하여, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성하는 단계;
    상기 특징부 맵의 하나 이상의 특징부의 하나 이상의 특징부 값을 보간하여 표적 클러스터에 대한 가중된 특징부 값을 생성하는 단계; 및
    상기 표적 클러스터에 할당된 상기 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  19. 제18항에 있어서, 상기 제1 이미지를 처리하여 계수를 업데이트하는 단계는,
    상기 제1 이미지 내의 표적 클러스터의 실측 자료에 액세스하는 단계(상기 표적 클러스터의 상기 실측 자료는 연관된 실측 자료 특징부 값을 가짐);
    상기 계수의 이전 값을 사용하여 상기 제1 이미지를 처리하는 단계에 기반하여, 상기 표적 클러스터에 대한 출력 특징부 값을 생성하는 단계; 및
    상기 실측 자료 특징부 값과 상기 출력 특징부 값 사이의 차이에 기반하여, 상기 계수를 업데이트하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  20. 제18항 또는 제19항에 있어서, 상기 콘볼루션 커널은 제1 콘볼루션 커널이고, 상기 제1 이미지를 처리하는 단계는,
    (i) 제1 서열분석 사이클 동안 플로우 셀의 타일의 제1 섹션에 의해 출력되는 상기 제1 이미지의 제1 섹션을 처리하여 상기 제1 콘볼루션커널의 계수를 없데이트하고, (ii) 상기 제1 서열분석 사이클 동안 상기 타일의 제2 섹션에 의해 출력되는 상기 제1 이미지의 제2 섹션을 처리하여 제2 콘볼루션 커널의 계수를 업데이트하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 저장 매체.
  21. 메모리에 커플링된 하나 이상의 프로세서를 포함하는 시스템으로서, 상기 메모리에는 염기 호출을 수행하기 위한 컴퓨터 명령어가 로딩되고, 상기 명령어는, 상기 프로세서 상에서 실행될 때,
    픽셀이 표적 클러스터 및 상기 표적 클러스터에 인접한 위치로부터의 제1 컬러 채널 및 제2 컬러 채널에 대한 강도 방출물을 도시하는 이미지에 액세스하는 단계;
    상기 이미지에서 상기 제1 컬러 채널에 대한 상기 픽셀의 상기 강도 방출물을 갖는 제1 마스크를 콘볼루션하여 제1 특징부 맵을 생성하고, 상기 이미지에서 상기 제2 컬러 채널에 대한 상기 픽셀의 상기 강도 방출물을 갖는 제2 마스크를 콘볼루션하여 제2 특징부 맵을 생성하는 단계;
    (i) 상기 제1 특징부 맵의 하나 이상의 특징부의 하나 이상의 특징부 값을 보간하여, 상기 표적 클러스터에 대한 제1 가중된 특징부 값을 생성하고, (ii) 상기 제2 특징부 맵의 하나 이상의 특징부의 하나 이상의 특징부 값을 보간하여 상기 표적 클러스터에 대한 제2 가중된 특징부 값을 생성하는 단계; 및
    상기 표적 클러스터에 할당된 상기 제1 및 제2 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는 동작을 구현하는, 시스템.
  22. 염기 호출을 수행하기 위한 컴퓨터 프로그램 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어는, 프로세서 상에서 실행될 때,
    바이오센서에 의해 출력된 이미지의 섹션에 액세스하는 단계(상기 이미지의 상기 섹션은 상기 바이오센서 내의 복수의 클러스터 및 상기 복수의 클러스터에 인접한 상기 바이오센서 내의 위치로부터의 강도 방출 값을 도시하는 복수의 픽셀을 포함하고, 상기 복수의 클러스터는 표적 클러스터를 포함함);
    상기 이미지의 상기 섹션을 콘볼루션 커널로 콘볼루션하여, 상응하는 복수의 특징부 값을 갖는 복수의 특징부를 포함하는 특징부 맵을 생성하는 단계;
    가중된 특징부 값을 상기 표적 클러스터에 할당하는 단계(상기 가중된 특징부 값은 상기 특징부 맵의 상기 복수의 특징부 값 중 하나 이상의 특징부 값에 기반함); 및
    상기 표적 클러스터에 할당된 상기 가중된 특징부 값을 처리하여 상기 표적 클러스터를 염기 호출하는 단계를 포함하는 방법을 구현하는, 비일시적 컴퓨터 판독 가능 저장 매체.
KR1020237045180A 2021-07-19 2022-07-14 염기 호출에 대한 보간 및 적응을 갖는 강도 추출 KR20240031968A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163223408P 2021-07-19 2021-07-19
US63/223,408 2021-07-19
US17/511,483 US11455487B1 (en) 2021-10-26 2021-10-26 Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
US17/511,483 2021-10-26
PCT/US2022/037219 WO2023003757A1 (en) 2021-07-19 2022-07-14 Intensity extraction with interpolation and adaptation for base calling

Publications (1)

Publication Number Publication Date
KR20240031968A true KR20240031968A (ko) 2024-03-08

Family

ID=82899341

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237045180A KR20240031968A (ko) 2021-07-19 2022-07-14 염기 호출에 대한 보간 및 적응을 갖는 강도 추출

Country Status (2)

Country Link
KR (1) KR20240031968A (ko)
WO (1) WO2023003757A1 (ko)

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2073908A (en) 1930-12-29 1937-03-16 Floyd L Kallam Method of and apparatus for controlling rectification
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
DE69530072T2 (de) 1994-12-08 2004-03-04 Molecular Dynamics, Sunnyvale System zur fluoreszenzabbildung unter verwendung eines objektivs mit makroabtastung
US5528050A (en) 1995-07-24 1996-06-18 Molecular Dynamics, Inc. Compact scan head with multiple scanning modalities
US6327410B1 (en) 1997-03-14 2001-12-04 The Trustees Of Tufts College Target analyte sensors utilizing Microspheres
US6023540A (en) 1997-03-14 2000-02-08 Trustees Of Tufts College Fiber optic sensor with encoded microspheres
US7622294B2 (en) 1997-03-14 2009-11-24 Trustees Of Tufts College Methods for detecting target analytes and enzymatic reactions
ATE364718T1 (de) 1997-04-01 2007-07-15 Solexa Ltd Verfahren zur vervielfältigung von nukleinsäure
ATE269908T1 (de) 1997-04-01 2004-07-15 Manteia S A Methode zur sequenzierung von nukleinsäuren
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20020150909A1 (en) 1999-02-09 2002-10-17 Stuelpnagel John R. Automated information processing in randomly ordered arrays
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
EP1196630B2 (en) 1999-04-20 2018-10-17 Illumina, Inc. Detection of nucleic acid reactions on bead arrays
US6770441B2 (en) 2000-02-10 2004-08-03 Illumina, Inc. Array compositions and methods of making same
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
HUE032483T2 (en) 2002-08-23 2017-09-28 Illumina Cambridge Ltd Marked nucleotides
SI3587433T1 (sl) 2002-08-23 2020-08-31 Illumina Cambridge Limited Modificirani nukleotidi
EP2261372B1 (en) 2003-01-29 2012-08-22 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
WO2005010145A2 (en) 2003-07-05 2005-02-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
GB2423819B (en) 2004-09-17 2008-02-06 Pacific Biosciences California Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0514910D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Method for sequencing a polynucleotide template
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
US20080009420A1 (en) 2006-03-17 2008-01-10 Schroth Gary P Isothermal methods for creating clonal single molecule arrays
CA2648149A1 (en) 2006-03-31 2007-11-01 Solexa, Inc. Systems and devices for sequence by synthesis analysis
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
US7595882B1 (en) 2008-04-14 2009-09-29 Geneal Electric Company Hollow-core waveguide-based raman systems and methods
US8039817B2 (en) 2008-05-05 2011-10-18 Illumina, Inc. Compensator for multiple surface imaging
WO2010003132A1 (en) 2008-07-02 2010-01-07 Illumina Cambridge Ltd. Using populations of beads for the fabrication of arrays on surfaces
US8965076B2 (en) 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
WO2012170936A2 (en) 2011-06-09 2012-12-13 Illumina, Inc. Patterned flow-cells useful for nucleic acid analysis
ES2639938T5 (es) 2011-09-23 2021-05-07 Illumina Inc Métodos y composiciones para la secuenciación de ácidos nucleicos
US8778849B2 (en) 2011-10-28 2014-07-15 Illumina, Inc. Microarray fabrication system and method
EP2628504A1 (en) 2012-01-16 2013-08-21 Greatbatch Ltd. EMI filtered co-connected hermetic feedthrough, feedthrough capacitor and leadwire assembly for an active implantable medical device
MX337140B (es) 2012-04-03 2016-02-12 Illumina Inc Cabazal integrado de lectura optoelectrónica y cartucho fluído útil para secuenciación de ácidos nucleicos.
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
KR102266002B1 (ko) 2013-07-01 2021-06-16 일루미나, 인코포레이티드 촉매-무함유 표면 작용화 및 중합체 그라프팅
CA2965578C (en) 2014-10-31 2024-03-19 Illumina Cambridge Limited Polymers and dna copolymer coatings
US11210554B2 (en) * 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
NL2023312B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based base calling
NL2023310B1 (en) 2019-03-21 2020-09-28 Illumina Inc Training data generation for artificial intelligence-based sequencing
NL2023311B9 (en) 2019-03-21 2021-03-12 Illumina Inc Artificial intelligence-based generation of sequencing metadata
NL2023316B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based sequencing
NL2023314B1 (en) 2019-03-21 2020-09-28 Illumina Inc Artificial intelligence-based quality scoring
WO2020236945A1 (en) 2019-05-21 2020-11-26 Illumina, Inc. Sensors having an active surface

Also Published As

Publication number Publication date
WO2023003757A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
EP3942072B1 (en) Training data generation for artificial intelligence-based sequencing
US20200302225A1 (en) Training Data Generation for Artificial Intelligence-Based Sequencing
WO2020205296A1 (en) Artificial intelligence-based generation of sequencing metadata
US11694309B2 (en) Equalizer-based intensity correction for base calling
US20210265018A1 (en) Knowledge Distillation and Gradient Pruning-Based Compression of Artificial Intelligence-Based Base Caller
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
US11455487B1 (en) Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
KR20240031968A (ko) 염기 호출에 대한 보간 및 적응을 갖는 강도 추출
US20230407386A1 (en) Dependence of base calling on flow cell tilt
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
WO2023049215A1 (en) Compressed state-based base calling
WO2023183937A1 (en) Sequence-to-sequence base calling