KR20240037882A - 염기 호출 시스템의 품질 점수 보정 - Google Patents

염기 호출 시스템의 품질 점수 보정 Download PDF

Info

Publication number
KR20240037882A
KR20240037882A KR1020237043770A KR20237043770A KR20240037882A KR 20240037882 A KR20240037882 A KR 20240037882A KR 1020237043770 A KR1020237043770 A KR 1020237043770A KR 20237043770 A KR20237043770 A KR 20237043770A KR 20240037882 A KR20240037882 A KR 20240037882A
Authority
KR
South Korea
Prior art keywords
value
base
sensor data
range
quality score
Prior art date
Application number
KR1020237043770A
Other languages
English (en)
Inventor
로한 폴
도르나 카셰프하기기
존 에스. 비에셀리
앤드류 도지 하이버그
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/839,387 external-priority patent/US20230029970A1/en
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20240037882A publication Critical patent/KR20240037882A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Signal Processing (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)

Abstract

염기 호출자에 의해 염기 호출을 생성하는 방법이 개시된다. 방법은 플로우 셀로부터 복수의 센서 데이터를 수신하는 단계 - 복수의 센서 데이터는 제1 범위 내에 있음 -, 및 복수의 센서 데이터의 적어도 임계값 백분율이 제2 범위 내에 있도록 제2 범위를 식별하는 단계를 포함한다. 제2 범위 내에 있는 복수의 센서 데이터 중 적어도 서브세트가 제3 범위로 매핑되어 복수의 정규화된 센서 데이터를 생성한다. 복수의 정규화된 센서 데이터는 염기 호출자에서 처리되어 복수의 정규화된 센서 데이터에 대해 하나 이상의 대응 염기를 호출한다.

Description

염기 호출 시스템의 품질 점수 보정
우선권 출원
본 출원은 2022년 6월 13일에 출원된 "Quality Score Calibration of Basecalling Systems"라는 명칭의 미국 정규 특허 출원 제17/839,387호(대리인 문서 번호 ILLM 1045-2/IP-2093-US)의 우선권을 주장하며, 이는 차례로 2021년 7월 28일에 출원된 "Quality Score Calibration of Basecalling Systems"라는 제목의 미국 임시 특허 출원 제63/226,707호(대리인 문서 번호 ILLM 1045-1/IP-2093-PRV)의 이익을 주장한다. 우선권 출원은 모든 목적을 위해 참고로 본원에 포함된다.
기술분야
개시된 기술은 인공 지능 유형 컴퓨터 및 디지털 데이터 처리 시스템 및 대응하는 데이터 처리 방법 및 지능 에뮬레이션 제품(즉, 지식 기반 시스템, 추론 시스템 및 지식 획득 시스템)에 관한 것이며; 불확실성이 있는 추론을 위한 시스템(예를 들어, 퍼지 로직 시스템), 적응 시스템, 기계 학습 시스템 및 인공 신경망을 포함한다. 특히, 개시된 기술은 데이터를 분석하기 위한 심층 컨볼루션(deep convolutional) 신경망과 같은 심층 신경망을 사용하는 것에 관한 것이다.
참조 문헌
하기는 본원에 완전히 기재된 것처럼 참고로 포함된다:
발명의 명칭이 "ARTIFICIAL INTELLIGENCE-BASED BASE CALLING OF INDEX SEQUENCES"이고 2020년 2월 20일자로 출원된 미국 임시 특허 출원 제62/979,384호(대리인 문서 번호 ILLM 1015-1/IP-1857-PRV);
발명의 명칭이 "ARTIFICIAL INTELLIGENCE-BASED MANY-TO-MANY BASE CALLING"이고 2020년 2월 20일자로 출원된 미국 임시 특허출원 제62/979,414호(대리인 문서 번호 ILLM 1016-1/IP-1858-PRV);
발명의 명칭이 "TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING"이고 2020년 3월 20일자로 출원된 미국 정규 특허 출원 제16/825,987호(대리인 문서 번호 ILLM 1008-16/IP-1693-US);
발명의 명칭이 "ARTIFICIAL INTELLIGENCE-BASED GENERATION OF SEQUENCING METADATA"이고 2020년 3월 20일자로 출원된 미국 정규 특허 출원 제16/825,991호(대리인 문서 번호 ILLM 1008-17/IP-1741-US);
발명의 명칭이 "ARTIFICIAL INTELLIGENCE-BASED BASE CALLING"이고 2020년 3월 20일자로 출원된 미국 정규 특허 출원 제16/826,126호(대리인 문서 번호 ILLM 1008-18/IP-1744-US);
발명의 명칭이 "ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING"이고 2020년 3월 20일자로 출원된 미국 정규 특허 출원 제16/826,134호(대리인 문서 번호 ILLM 1008-19/IP-1747-US);
발명의 명칭이 "ARTIFICIAL INTELLIGENCE-BASED SEQUENCING"이고 2020년 3월 21일자로 출원된 미국 정규 특허 출원 제16/826,168호(대리인 문서 번호 ILLM 1008-20/IP-1752-PRV-US);
이 섹션에서 논의되는 주제는 단지 이 섹션 내에서의 그의 언급의 결과로서 종래기술이라고 가정되어서는 안 된다. 유사하게, 이 섹션에서 언급되거나 배경기술로서 제공되는 주제와 연관된 문제는 종래 기술에서 이전에 인식되었다고 가정되어서는 안 된다. 이 섹션에서의 주제는 단지 상이한 접근법을 표현할 뿐이며, 그 접근법 자체는 청구되는 기술의 구현예에 또한 대응할 수 있다.
계산 능력에서의 신속한 개선은 유의하게 개선된 정확도를 갖는 많은 컴퓨터 비전 태스크에 대해 최근 수년간 심층 컨볼루션 신경망(CNN: convolution neural network)을 큰 성공으로 만들었다. 추론 페이즈(phase) 동안, 많은 애플리케이션은 그래픽 처리 유닛(GPU: graphics processing unit) 및 다른 범용 플랫폼의 효율을 감소시키는 가혹한 전력 소비 요건을 갖는 하나의 이미지의 낮은 레이턴시 처리를 요구하여, 심층 학습 알고리즘 추론에 대해 특정적인 디지털 회로를 커스텀화함으로써 특정 가속화 하드웨어, 예컨대 필드 프로그래밍가능 게이트 어레이(FPGA: field programmable gate array)에 기회를 가져온다. 그러나, 휴대용 및 임베디드 시스템에 CNN을 배치하는 것은 큰 데이터 볼륨, 집중적인 연산, 다양한 알고리즘 구조, 및 빈번한 메모리 액세스로 인해 여전히 도전적이다.
컨볼루션이 CNN에서 대부분의 연산에 기여함에 따라, 컨볼루션 가속화 스킴(scheme)은 하드웨어 CNN 가속기의 효율 및 성능에 유의하게 영향을 미친다. 컨볼루션은 커널 및 피쳐 맵(feature map)을 따라 슬라이딩하는 4개의 레벨의 루프와의 승산 및 누산(MAC: multiply and accumulate) 연산을 수반한다. 제1 루프 레벨은 커널 윈도우 내의 픽셀의 MAC를 연산한다. 제2 루프 레벨은 상이한 입력 피쳐 맵에 걸쳐 MAC의 곱셈들의 합을 누산한다. 제1 및 제2 루프 레벨을 완료한 후, 바이어스를 추가함으로써 출력 피쳐 맵에서의 최종 출력 요소가 얻어진다. 제3 루프 레벨은 입력 피쳐 맵 내에서 커널 윈도우를 슬라이딩한다. 제4 루프 레벨은 상이한 출력 피쳐 맵을 생성한다.
FPGA는 그것들의 (1) 고도의 재구성가능성, (2) CNN의 빠른 진화를 따라잡기 위한, 특정용도용 집적 회로(ASIC: Application Specific Integrated Circuit)에 비해 더 빠른 개발 시간, (3) 양호한 성능, 및 (4) GPU에 비해 우수한 에너지 효율로 인해, 특히 추론 태스크를 가속화하기 위해 증가하는 관심 및 인기를 얻어왔다. FPGA의 높은 성능 및 효율은 특정 연산을 위해 커스텀화되는 회로를 합성하여 커스텀화된 메모리 시스템으로 수십억 회의 연산을 직접 처리함으로써 실현될 수 있다. 예를 들어, 최신 FPGA 상의 수백 내지 수천 개의 디지털 신호 처리(DSP: digital signal processing) 블록은 높은 병렬성과 함께 코어 컨볼루션 연산, 예컨대, 곱셈 및 덧셈을 지원한다. 외부 온-칩 메모리와 온-칩 처리 엔진(PE: processing engine)들 사이의 전용 데이터 버퍼는, FPGA 칩 상에 수십 Mbyte 온-칩 블록 랜덤 액세스 메모리(BRAM: block random access memory)를 구성함으로써 바람직한 데이터 흐름을 실현하도록 설계될 수 있다.
높은 성능을 달성하기 위해 리소스 활용을 최대화하면서 데이터 통신을 최소화하기 위해, CNN 가속화의 효율적인 데이터 흐름 및 하드웨어 아키텍처가 요구된다. 높은 성능, 효율 및 유연성을 갖는 가속화 하드웨어 상에서 다양한 CNN 알고리즘의 추론 프로세스를 가속화하기 위한 방법론 및 프레임워크를 설계할 기회가 발생한다.
심층 신경망은 광범위한 적용 가능성과 향상된 예측 능력으로 인해 생물정보학 연구에 큰 가능성을 가지고 있다. 컨볼루션 신경망은 모티프 발견, 병원성 변이체 식별, 유전자 발현 추론과 같은 유전체학에서의 서열 기반 문제를 해결하기 위해 채택되었다. 컨볼루션 신경망은 중요한 생물학적 기능을 갖는 것으로 추정되는 DNA에서의 짧고 반복되는 로컬 패턴인 서열 모티프를 캡처할 수 있기 때문에 DNA 연구에 특히 유용한 가중치 공유 전략을 사용한다. 신경망은 단백질이나 DNA 서열과 같은 다양한 길이의 순차적 데이터에서 장거리 종속성을 캡처할 수 있다. 따라서 염기 호출에 원칙적인 심층 학습 기반 프레임워크를 사용할 수 있는 기회가 생긴다.
유전체학(예를 들어, 임의의 및 모든 동물, 식물, 미생물 또는 기타 생물학적 종이나 개체군의 게놈 특성화를 위해), 약물유전체학, 전사체학, 진단, 예후, 생물의학 위험 평가, 임상 및 연구 유전학, 맞춤 의학, 약물 효능 및 약물 상호작용 평가, 수의학, 농업, 진화 및 생물 다양성 연구, 양식업, 임업, 해양학, 생태 및 환경 관리 및 기타 목적을 포함하여 다양한 용도에 대해 신속하고 비용 효율적으로 얻을 수 있는 핵산 서열분석 데이터의 품질과 양을 증가시킬 필요가 있다. 예를 들어, 심층 학습 네트워크 모델 또는 기타 적절한 모델을 사용하여 다양한 유전체학을 위한 서열분석 데이터를 생성할 수 있다.
이러한 모델은 염기 호출을 생성하는 것 외에도 또한 대응하는 품질 점수를 생성한다. 일반적으로, 품질 점수는 아데닌(A), 티민(T), 구아닌(G) 또는 시토신(C)으로 불리는 염기의 확률을 로그 척도로 표시한다. 예를 들어, 염기에 대한 품질 점수 Q(A)는 염기가 A일 확률에 대한 표시를 제공하고; 염기에 대한 품질 점수 Q(C)는 염기가 C일 확률에 대한 표시를 제공하는 등이다.
종종 품질 점수는 중요한 의료 결정과 같은 중요한 결정을 내리는 데 사용된다. 예를 들어, 의료 환경에서 인간 조직 샘플의 염기를 검출하는 것과 관련된 품질 점수는 건강 상태를 치료하는 접근법에 영향을 미칠 수 있다. 따라서, 염기 호출을 위해 생성된 품질 점수는 상대적으로 정확하고 신뢰할 수 있는 것이 바람직하다. 예를 들어, 염기 호출을 위해 생성된 품질 점수는 경험적으로 결정된 품질 점수(이는 실제 품질 점수를 나타냄)에 더 잘 정렬되는 것이 바람직하다.
도면에서, 유사한 도면 부호는, 대체로, 상이한 도면 전체에 걸쳐서 유사한 부분을 지칭한다. 또한, 도면은 반드시 축척대로인 것은 아니며, 그 대신, 대체적으로, 개시된 기술의 원리를 예시할 시에 강조된다. 하기의 설명에서, 개시된 기술의 다양한 구현예가 하기의 도면을 참조하여 기술된다.
도 1은 다양한 실시형태에서 사용될 수 있는 바이오센서의 단면을 도시한다.
도 2는 타일 내에 클러스터를 포함하는 플로우 셀의 일 구현예를 도시한다.
도 3은 8개의 레인이 있는 예시적인 플로우 셀을 보여주고, 또한 하나의 타일과 그의 클러스터 및 이들 주변 배경을 확대한 것을 보여준다.
도 4는 염기 호출 센서 출력과 같은 서열분석 시스템으로부터의 센서 데이터의 분석을 위한 시스템의 단순화된 블록도이다.
도 5는 호스트 프로세서에 의해 실행되는 런타임 프로그램의 기능을 포함한 염기 호출 동작의 양태를 보여주는 단순화된 도면이다.
도 6은 도 4의 것과 같은 구성가능한 프로세서의 구성의 단순화된 도면이다.
도 7은 본원에 설명된 바와 같이 구성된 구성 가능 또는 재구성 가능한 어레이를 사용하여 실행될 수 있는 신경망 아키텍처의 도면이다.
도 8a는 도 7의 것과 같은 신경망 아키텍처에 의해 사용되는 센서 데이터의 타일 구성의 단순화된 예시이다.
도 8b는 도 7의 것과 같은 신경망 아키텍처에 의해 사용되는 센서 데이터의 타일 패치(patch of tile)의 단순화된 예시이다.
도 9는 필드 프로그래밍가능 게이트 어레이(FPGA)와 같은 구성 가능 또는 재구성 가능한 어레이 상의 도 7의 것과 같은 신경망에 대한 구성의 일부를 도시한다.
도 10은 본원에 설명된 바와 같이 구성된 구성 가능 또는 재구성 가능한 어레이를 사용하여 실행될 수 있는 디른 대안적 신경망 아키텍처의 도면이다.
도 11은 상이한 서열분석 사이클에 대한 데이터의 처리를 분리하는 데 사용되는 신경망 기반 염기 호출자의 특화된 아키텍처의 일 구현예를 도시한다.
도 12는 분리형 층의 일 구현예를 도시하며, 이들 각각은 컨볼루션을 포함할 수 있다.
도 13a는 조합 층의 일 구현예를 도시하며, 이들 각각은 컨볼루션을 포함할 수 있다.
도 13b는 조합 층의 다른 구현예를 도시하며, 이들 각각은 컨볼루션을 포함할 수 있다.
도 14a는 호출할 다양한 염기에 대해 A, C, T 및 G에 대응하는 품질 점수를 생성하는 염기 호출 시스템을 예시한다.
도 14b는 확률 점수, 품질 점수, 대응 오류 확률 및 대응 오류율 간의 관계를 나타내는 표를 예시한다.
도 14c는 도 14a의 염기 호출 시스템에 의해 예측된 예측 품질 점수와 실제(예를 들어, 경험적으로 계산된) 품질 점수 사이의 비교 동작을 예시한다.
도 14d는 도 14c의 실제(예를 들어, 경험적으로 결정된) 품질 점수의 결정을 예시한다.
도 15a는 예측된 품질 점수와 실제 품질 점수 사이의 비교를 나타내는 그래프를 예시하고, 도 15b는 예측된 품질 점수와 실제 품질 점수 사이의 다른 비교를 나타내는 다른 그래프를 예시한다.
도 16은 예측된 품질 점수와 실제 품질 점수 간의 비교를 나타내는 다른 그래프를 예시한다.
도 17a는 염기 호출자에 의해 수신되는 센서 데이터를 정규화하기 위한 정규화 모듈을 포함하는 염기 호출 시스템을 예시한다.
도 17b는 도 17a의 염기 호출 시스템의 정규화 모듈에 의해 수행되는 센서 데이터에 대한 정규화 동작을 나타내는 2개의 그래프를 예시한다.
도 17c는 예측된 품질 점수와 실제 품질 점수 사이의 비교를 나타내는 그래프를 예시하며, 센서 데이터는 도 17c의 그래프에 대한 데이터를 생성하는 동안 도 17a의 염기 호출 시스템의 정규화 모듈에 의해 정규화되었다.
도 17d는 입력 정규화를 갖는 염기 호출 시스템 대 그러한 입력 정규화가 결여된 다른 염기 호출 시스템에 대한 예상 보정 오류(ECE: expected calibration error)를 나타내는 도표를 예시한다.
도 17e는 정규화 전의 센서 데이터와 정규화된 센서 데이터 간의 색상 비교를 예시한다.
도 17f는 센서 데이터를 정규화하고 염기 호출 동작을 위해 정규화된 센서 데이터를 사용하는 예시적인 방법을 나타내는 흐름도를 예시한다.
도 18a는 염기 호출 시스템의 염기 호출자에 의해 예측된 품질 점수를 선택적으로 재매핑하기 위한 품질 점수 재매핑 모듈을 포함하는 염기 호출 시스템을 예시한다.
도 18b1, 18b2, 18b3, 18b4 및 18b5는 품질 점수 재매핑 및 양자화의 예를 조합하여 예시한다.
도 18c1 및 18c2는 품질 점수 재매핑 및 양자화의 두 가지 추가 예를 예시한다.
도 19는 일부 특정 염기 서열에 대해 (i) 특정 염기 서열의 품질 점수 평균과 (ii) 특정 염기 서열의 재매핑된 품질 점수 평균 사이의 편차를 나타내는 표를 예시하며, 재매핑은 예를 들어 도 18b2의 일반적인 LUT(Look Up Table)에 따라 수행된다.
도 20a는 특정 염기 서열의 예측된 품질 점수를 재매핑된 품질 점수로 재매핑하는 데 사용 가능한 LUT를 예시한다.
도 20b는 도 20a의 LUT를 사용하여 특정 염기 서열에 대한 예측된 품질 점수를 재매핑하는 것을 예시한다.
도 21은 하나 이상의 특정 염기 서열에 대한 손실을 선택적으로 벌점화하기 위한 손실 벌점화 모듈을 포함하는 염기 호출 시스템을 예시한다.
도 22a 내지 도 22e는 특정 염기 서열의 검출에 응답하여 (예를 들어, 손실 벌점화 모듈(2106)에 의한) 손실 함수의 페널티화를 조합하여 예시한다.
도 22f는 특정 염기 서열의 중간 염기와 연관된 손실에 특화된 가중치의 적용을 예시한다.
도 22g는 손실에 벌점을 부과하지 않는 염기 호출 시스템 대 특정 염기 서열에 대한 손실에 벌점을 부과하는 염기 호출 시스템의 성능을 비교하는 2개의 그래프를 예시한다.
도 23은 (i) 도 17a의 염기 호출 시스템의 정규화 모듈, (ii) 도 18a의 염기 호출 시스템의 품질 점수 재매핑 모듈 및 품질 점수 양자화 모듈, 및 (iii) 도 21의 염기 호출 시스템의 손실 벌점화 모듈을 포함하는 염기 호출 시스템을 예시한다.
도 24는 일 구현예에 따른 염기 호출 시스템의 블록도이다.
도 25는 도 24의 시스템에서 사용될 수 있는 시스템 제어기의 블록도이다.
도 26은 개시된 기술을 구현하는 데 사용될 수 있는 컴퓨터 시스템의 단순화된 블록도이다.
본원에서 사용되는 용어 "폴리뉴클레오티드" 또는 "핵산"은 데옥시리보핵산(DNA)을 지칭하지만, 적절한 경우 숙련된 기술자는 본원의 시스템 및 장치가 리보핵산(RNA)에 활용될 수도 있음을 인식할 것이다. 이들 용어는 뉴클레오티드 유사체로부터 만들어진 DNA 또는 RNA의 유사체를 등가물로서 포함하는 것으로 이해되어야 한다. 본원에서 사용되는 용어는 또한 예를 들어 역전사효소의 작용에 의해 RNA 주형으로부터 생성되는 상보적 또는 복제 DNA인 cDNA를 포함한다.
본원의 시스템 및 장치에 의해 서열분석된 단일 가닥 폴리뉴클레오티드 분자는 DNA 또는 RNA로서 단일 가닥 형태로 유래되었거나 이중 가닥 DNA(dsDNA) 형태(예를 들어, 게놈 DNA 단편, PCR 및 증폭 생성물 등)로 유래되었을 수 있다. 따라서, 단일 가닥 폴리뉴클레오티드는 폴리뉴클레오티드 이중체(duplex)의 센스(sense) 또는 안티센스 가닥일 수 있다. 표준 기술을 사용하여 본 개시내용의 방법에 사용하기에 적합한 단일 가닥 폴리뉴클레오티드 분자를 제조하는 방법은 당업계에 잘 알려져 있다. 1차 폴리뉴클레오티드 분자의 정확한 서열은 일반적으로 본 개시내용에 중요하지 않으며 알려지거나 알려지지 않을 수 있다. 단일 가닥 폴리뉴클레오티드 분자는 인트론 및 엑손 서열(코딩 서열)뿐만 아니라 비코딩 조절 서열, 예컨대 프로모터 및 인핸서 서열을 포함하는 게놈 DNA 분자(예를 들어, 인간 게놈 DNA)를 나타낼 수 있다.
특정 실시형태에서, 본 개시내용의 사용을 통해 서열분석될 핵산은 기재(예를 들어, 플로우 셀 내의 기재 또는 플로우 셀과 같은 기재 상의 하나 이상의 비드 등) 상에 고정된다. 본원에서 사용되는 용어 "고정된"은 명시적으로 또는 문맥에 의해 달리 나타내지 않는 한, 직접적 또는 간접적, 공유 또는 비공유 부착을 포함하도록 의도된다. 특정 실시형태에서, 공유 부착이 바람직할 수 있지만, 일반적으로 요구되는 모든 것은 분자(예를 들어, 핵산)가 예를 들어 핵산 서열분석이 필요한 적응에서 지지체를 사용하도록 의도되는 조건 하에서 지지체에 고정되거나 부착된 상태로 유지되는 것이다.
본원에서 사용되는 용어 "고체 지지체"(또는 특정 용도에서는 "기재")는 핵산이 부착될 수 있는 임의의 불활성 기재 또는 매트릭스, 예를 들어 유리 표면, 플라스틱 표면, 라텍스, 덱스트란, 폴리스티렌 표면, 폴리프로필렌 표면, 폴리아크릴아미드 겔, 금 표면, 및 규소 웨이퍼를 지칭한다. 많은 실시형태에서, 고체 지지체는 유리 표면(예를 들어, 플로우셀 채널의 평면 표면)이다. 특정 실시형태에서 고체 지지체는 예를 들어 폴리뉴클레오티드와 같은 분자에 대한 공유 부착을 허용하는 반응기를 포함하는 중간 물질의 층 또는 코팅을 적용함으로써 "작용화된" 불활성 기재 또는 매트릭스를 포함할 수 있다. 비제한적인 예로서, 이러한 지지체는 유리와 같은 불활성 기재 상에 지지된 폴리아크릴아미드 하이드로겔을 포함할 수 있다. 이러한 실시형태에서, 분자(폴리뉴클레오티드)는 중간 물질(예를 들어, 하이드로겔)에 직접 공유 부착될 수 있지만, 중간 물질 자체는 기재 또는 매트릭스(예를 들어, 유리 기재)에 비공유 부착될 수 있다. 따라서 고체 지지체에 대한 공유 부착은 이러한 유형의 배열을 포함하는 것으로 해석될 것이다.
위에서 나타낸 바와 같이, 본 개시내용은 핵산 서열분석을 위한 신규한 시스템 및 장치를 포함한다. 당업자에게 명백한 바와 같이, 특정 핵산 서열에 대한 본원에서의 언급은 문맥에 따라 이러한 핵산 서열을 포함하는 핵산 분자를 또한 지칭할 수 있다. 표적 단편의 서열분석은 염기의 시계열적 판독이 확립되었음을 의미한다. 판독되는 염기는 바람직하기는 하지만 연속적일 필요는 없으며, 또한 전체 단편 상의 모든 염기가 서열분석 중에 서열분석되어야 하는 것도 아니다. 서열분석은 임의의 적합한 서열분석 기술을 사용하여 수행될 수 있으며, 뉴클레오티드 또는 올리고뉴클레오티드가 유리 3' 하이드록실기에 연속적으로 첨가되어 5'에서 3' 방향으로 폴리뉴클레오티드 사슬이 합성된다. 첨가된 뉴클레오티드의 성질은 바람직하게는 각각의 뉴클레오티드 첨가 후에 결정된다. 모든 연속적인 염기가 서열분석되지는 않는 결찰에 의한 서열분석을 사용하는 서열분석 기술, 및 표면 상의 가닥에 염기가 첨가되기보다는 제거되는 대량 병렬 시그니처 서열분석(MPSS: massively parallel signature sequencing)과 같은 기술이 또한 본 개시내용의 시스템 및 장치와 함께 사용될 수 있다.
특정 실시형태에서, 본 개시내용은 합성에 의한 서열분석(SBS: sequencing-by-synthesis)을 개시한다. SBS에서는 4개의 형광 표지된 변형 뉴클레오티드가 사용되어 기재(예를 들어, 플로우셀) 표면에 존재하는 증폭된 DNA의 조밀한 클러스터(아마도 수백만 개의 클러스터)를 서열분석한다. 본원의 시스템 및 장치와 함께 활용될 수 있는 SBS 절차 및 방법에 관한 다양한 추가 양태가 예를 들어 국제공개 WO04018497호, 국제공개 WO04018493호 및 미국 특허 제7,057,026호(뉴클레오티드), 국제공개 WO05024010호 및 국제공개 WO06120433호(중합효소), 국제공개 WO05065814호(표면 부착 기술), 및 국제공개 WO9844151호, 국제공개 WO06064199호 및 국제공개 WO07010251호에 개시되어 있으며, 이들 각각의 내용은 그 전체가 본원에 참고로 포함된다.
본원의 시스템/장치의 특정 용도에서는 서열분석을 위한 핵산 샘플이 포함된 플로우 셀이 적절한 플로우 셀 홀더 내에 배치된다. 서열분석을 위한 샘플은 단일 분자, 클러스터 형태의 증폭된 단일 분자, 또는 핵산 분자를 포함하는 비드의 형태를 취할 수 있다. 핵산은 미지 표적 서열에 인접한 올리고뉴클레오티드 프라이머를 포함하도록 제조된다. 첫 번째 SBS 서열분석 사이클을 시작하기 위해, 하나 이상의 상이하게 표지된 뉴클레오티드 및 DNA 중합효소 등은 유체 흐름 하위 시스템(이의 다양한 실시형태가 본원에 설명되어 있음)에 의해 플로우 셀로/플로우 셀을 통해 유동된다. 단일 뉴클레오티드가 한 번에 첨가될 수 있거나, 또는 서열분석 절차에 사용되는 뉴클레오티드가 가역적 종결 특성을 갖도록 특별히 설계될 수 있어, 서열분석 반응의 각 사이클이 표지된 4개의 모든 뉴클레오티드(A, C, T, G) 존재 하에서 동시에 발생하도록 할 수 있다. 4개의 뉴클레오티드가 함께 혼합되는 경우, 중합효소는 혼입할 올바른 염기를 선택할 수 있으며 각 서열은 단일 염기에 의해 확장된다. 시스템을 사용하는 이러한 방법에서, 네 가지 모든 대안들 사이의 자연적인 경쟁은 단지 하나의 뉴클레오티드가 반응 혼합물에 존재하는 경우(따라서 대부분의 서열이 올바른 뉴클레오티드에 노출되지 않는 경우)보다 더 높은 정확도로 이어진다. 특정 염기가 차례로 반복되는 서열(예를 들어, 단독중합체)은 임의의 다른 서열과 마찬가지로 높은 정확도로 처리된다.
유체 흐름 하위 시스템은 또한 각각의 혼입된 염기에서 차단된 3' 말단(적절한 경우) 및 형광단을 제거하기 위해 적절한 시약을 유동시킨다. 기재는 4개의 차단된 뉴클레오티드 중 제2 라운드에 노출되거나 선택적으로 상이한 개별 뉴클레오티드를 갖는 제2 라운드에 노출될 수 있다. 그런 다음 이러한 사이클이 반복되고 각 클러스터의 서열이 여러 화학 사이클에 걸쳐 판독된다. 본 개시내용의 컴퓨터 양태는 선택적으로 각각의 단일 분자, 클러스터 또는 비드로부터 수집된 서열 데이터를 정렬하여 더 긴 중합체의 서열 등을 결정할 수 있다. 대안적으로, 별도의 컴퓨터에서 이미지 처리 및 정렬이 수행될 수 있다.
시스템의 가열/냉각 구성요소는 플로우 셀 채널 및 시약 저장 영역/컨테이너(및 선택적으로 카메라, 광학 장치 및/또는 기타 구성요소) 내의 반응 조건을 조절하는 한편, 유체 흐름 구성요소는 기재 표면이 혼입을 위한 적합한 시약(예를 들어, 혼입될 적절한 형광 표지된 뉴클레오티드)에 노출되도록 하면서 혼입되지 않은 시약은 씻어낸다. 플로우 셀이 배치되는 선택적인 이동가능한 스테이지는 플로우 셀이 기재의 레이저(또는 기타 광) 여기를 위해 적절한 배향으로 되고 선택적으로 렌즈 대물렌즈와 관련하여 이동되도록 하여 기재의 상이한 영역을 판독할 수 있게 한다. 또한 시스템의 다른 구성요소도 선택적으로 이동/조정 가능하다(예를 들어, 카메라, 렌즈 대물렌즈, 가열기/냉각기 등). 레이저 여기 동안, 기재 상의 핵산으로부터 방출된 형광의 이미지/위치가 카메라 구성요소에 의해 캡처되어 각각의 단일 분자, 클러스터 또는 비드에 대한 제1 염기의 정체성(identity)을 컴퓨터 구성요소에 기록한다.
본원에 기술된 실시형태는 학문적 또는 상업적 분석을 위한 다양한 생물학적 또는 화학적 프로세스 및 시스템에서 사용될 수 있다. 보다 구체적으로, 본원에 기술된 실시형태는, 원하는 반응을 나타내는 이벤트, 속성, 품질, 또는 특성을 검출하는 것이 요구되는 다양한 프로세스 및 시스템에서 사용될 수 있다. 예를 들어, 본원에 기술된 실시형태는 카트리지, 바이오센서, 및 그 구성요소뿐만 아니라 카트리지 및 바이오센서와 함께 작동하는 바이오어세이 시스템을 포함한다. 특정 실시형태에서, 카트리지 및 바이오센서는 실질적으로 단일 구조로 함께 결합되는 플로우 셀 및 하나 이상의 센서, 픽셀, 광 검출기, 또는 광다이오드를 포함한다.
특정 실시형태에 대한 다음의 상세한 설명은 첨부된 도면과 함께 읽을 때 더 잘 이해될 것이다. 도면이 다양한 실시형태의 기능 블록의 다이어그램을 예시하는 한, 기능 블록은 반드시 하드웨어 회로 사이의 분할을 나타내는 것은 아니다. 따라서, 예를 들어, 기능 블록들 중 하나 이상(예를 들어, 프로세서 또는 메모리)은 단일 부분의 하드웨어(예를 들어, 범용 신호 프로세서 또는 랜덤 액세스 메모리, 하드 디스크 등)에서 구현될 수 있다. 유사하게, 프로그램은 독립형 프로그램일 수 있고, 운영 체제의 서브루틴으로서 통합될 수 있으며, 설치된 소프트웨어 패키지에서의 기능일 수 있는 등이다. 다양한 실시형태가 도면에 도시된 배열 및 수단으로 제한되지 않는다는 것을 이해해야 한다.
본원에서 사용되는, 단수 형태로 언급되고 단어 "a" 또는 "an"에 뒤따르는 요소 또는 단계는 복수의 상기 요소 또는 단계를 배제하지 않는 것으로(그러한 배제가 명시적으로 언급되지 않는 한) 이해되어야 한다. 또한, "일 실시형태"에 대한 언급은 언급된 피쳐를 또한 포함하는 추가 실시형태의 존재를 배제하는 것으로 해석되도록 의도되지 않는다. 더욱이, 명시적으로 반대로 언급되지 않는 한, 특정 성질을 갖는 하나의 요소 또는 복수의 요소를 "포함하는" 또는 "갖는" 실시형태는 그러한 성질을 갖든 그렇지 않든 간에 추가 요소를 포함할 수 있다.
본원에서 사용되는, "원하는 반응"은 관심 분석물의 화학적, 전기, 물리적, 또는 광학 속성(또는 품질) 중 적어도 하나의 변화를 포함한다. 특정 실시형태에서, 원하는 반응은 양성 결합 이벤트(예를 들어, 관심 분석물과 형광 표지된 생체분자의 통합)이다. 더욱 일반적으로, 원하는 반응은 화학적 변환, 화학적 변화, 또는 화학적 상호작용일 수 있다. 원하는 반응은 또한 전기 속성의 변화일 수 있다. 예를 들어, 원하는 반응은 용액 내의 이온 농도의 변화일 수 있다. 예시적인 반응은 화학 반응, 예컨대, 환원, 산화, 첨가, 제거, 재배열, 에스테르화, 아미드화, 에테르화, 고리화, 또는 대체; 제1 화학물질이 제2 화학물질에 결합하는 결합 상호작용; 둘 이상의 화학물질이 서로로부터 분리되는 해리 반응; 형광; 발광; 생물발광; 화학발광; 및 생물학적 반응, 예컨대, 핵산 복제, 핵산 증폭, 핵산 혼성화, 핵산 결찰, 인산화, 효소 촉매작용, 수용체 결합, 또는 리간드 결합을 포함하지만, 이에 한정되지 않는다. 원하는 반응은 또한, 예를 들어, 주변 용액 또는 환경의 pH의 변화와 같이 검출가능한 양성자의 첨가 또는 제거일 수 있다. 추가의 원하는 반응은 멤브레인(예를 들어, 천연 또는 합성 이중층 멤브레인)을 가로지르는 이온의 유동을 검출하는 것일 수 있으며, 예를 들어 이온이 멤브레인을 통해 흐를 때 전류가 중단되고 중단이 검출될 수 있다.
특정 실시형태에서, 원하는 반응은 분석물에 대한 형광 표지된 분자의 혼입을 포함한다. 분석물은 올리고뉴클레오티드일 수 있고, 형광 표지된 분자는 뉴클레오티드일 수 있다. 표지된 뉴클레오티드를 갖는 올리고뉴클레오티드를 향해 여기 광이 지향될 때 원하는 반응이 검출될 수 있고, 형광단은 검출가능한 형광 신호를 방출한다. 대안적인 실시형태에서, 검출된 형광은 화학발광 또는 생물발광의 결과이다. 원하는 반응은, 또한, 예를 들어 공여체 형광단을 수용체 형광단 부근으로 가져옴으로써 형광 공명 에너지 전송(FRET: fluorescence (또는
Figure pct00001
) resonance energy transfer)을 증가시킬 수 있거나, 공여체 형광단과 수용체 형광단을 분리시킴으로써 FRET를 감소시킬 수 있거나, 형광단으로부터 소광제(quencher)를 분리시킴으로써 형광을 증가시킬 수 있거나, 또는 소광제와 형광단을 병치시킴으로써 형광을 감소시킬 수 있다.
본원에서 사용되는, "반응 성분" 또는 "반응물"은 원하는 반응을 획득하기 위해 사용될 수 있는 임의의 물질을 포함한다. 예를 들어, 반응 성분은 시약, 효소, 샘플, 다른 생체분자, 및 완충 용액을 포함한다. 반응 성분은 전형적으로 용액의 반응 부위에 전달되고/되거나 반응 부위에 고정화된다. 반응 성분은 관심 분석물과 같은 다른 물질과 직접 또는 간접적으로 상호 작용할 수 있다.
본원에서 사용되는, "반응 부위"라는 용어는 원하는 반응이 일어날 수 있는 국부적 영역이다. 반응 부위는 물질이 그 위에 고정화될 수 있는 기재의 지지 표면을 포함할 수 있다. 예를 들어, 반응 부위는 핵산 콜로니가 있는 플로우 셀의 채널에 실질적으로 평평한 표면을 포함할 수 있다. 항상 그런 것은 아니지만 전형적으로, 콜로니에서의 핵산은 예를 들어 단일 가닥 또는 이중 가닥 템플릿의 클론 복제물인 동일한 서열을 갖는다. 그러나, 일부 실시형태에서, 반응 부위는, 예를 들어 단일 가닥 또는 이중 가닥 형태의 단일 핵산 분자만을 함유할 수 있다. 또한, 복수의 반응 부위는 지지 표면을 따라 불균일하게 분포되거나 미리 결정된 방식으로(예를 들어, 마이크로어레이에서와 같이 매트릭스에서 나란히) 배열될 수 있다. 반응 부위는, 또한, 원하는 반응을 구획화하도록 구성된 공간 영역 또는 체적을 적어도 부분적으로 한정하는 반응 챔버(또는 웰(well))를 포함할 수 있다.
본 출원은 "반응 챔버" 및 "웰"이라는 용어를 상호교환적으로 사용한다. 본원에서 사용되는, "반응 챔버" 또는 "웰"이라는 용어는 유동 채널과 유체 연통되는 공간 영역을 포함한다. 반응 챔버는 주변 환경 또는 다른 공간 영역으로부터 적어도 부분적으로 분리될 수 있다. 예를 들어, 복수의 반응 챔버는 공유 벽에 의해 서로 분리될 수 있다. 보다 구체적인 예로서, 반응 챔버는 웰의 내부 표면에 의해 한정된 공동을 포함할 수 있으며 공동이 유동 채널과 유체 연통할 수 있도록 개구 또는 구멍을 가질 수 있다. 이러한 반응 챔버를 포함하는 바이오센서는 2011년 10월 20일에 출원된 국제출원 PCT/US2011/057111호에 더욱 상세히 기재되어 있으며, 이는 그 전체가 본원에 참고로 포함된다.
일부 실시형태에서, 반응 챔버는 고체(반고체 포함)에 대해 크기 및 형상이 결정되어 고체가 내부에 완전히 또는 부분적으로 삽입될 수 있다. 예를 들어, 반응 챔버는 하나의 캡처 비드만을 수용하도록 크기 및 형상이 정해질 수 있다. 캡처 비드는 그 위에 클론 증폭된 DNA 또는 다른 물질을 가질 수 있다. 대안적으로, 반응 챔버는 대략적인 개수의 비드 또는 고체 기재를 수용하도록 크기 및 형상이 정해질 수 있다. 다른 예로서, 반응 챔버는 또한 반응 챔버 내로 유동할 수 있는 확산 또는 필터 유체 또는 용액을 제어하도록 구성된 다공성 겔 또는 물질로 충전될 수 있다.
일부 실시형태에서, 센서(예를 들어, 광 검출기, 광다이오드)는 바이오센서의 샘플 표면의 대응하는 픽셀 영역과 연관된다. 이와 같이 픽셀 영역은 하나의 센서(또는 픽셀)에 대한 바이오센서 샘플 표면의 영역을 나타내는 기하학적 구조이다. 픽셀 영역과 연관된 센서는 원하는 반응이 연관된 픽셀 영역 위에 놓이는 반응 챔버 또는 반응 부위에서 발생할 때 연관된 픽셀 영역으로부터 수집된 광 방출을 검출한다. 평평한 표면 실시형태에서, 픽셀 영역은 중첩될 수 있다. 일부 경우에, 복수의 센서가 단일 반응 부위 또는 단일 반응 챔버와 연관될 수 있다. 다른 경우에, 단일 센서는 반응 부위 그룹 또는 반응 챔버 그룹과 연관될 수 있다.
본원에서 사용되는, "바이오센서"는 복수의 반응 부위 및/또는 반응 챔버(또는 웰)를 갖는 구조를 포함한다. 바이오센서는 솔리드-스테이트 이미지화 디바이스(예컨대, CCD 또는 CMOS 이미저) 및 선택적으로 이에 탑재되는 플로우 셀을 포함할 수 있다. 플로우 셀은 반응 부위 및/또는 반응 챔버와 유체 연통하는 적어도 하나의 플로우 채널을 포함할 수 있다. 하나의 특정 예로서, 바이오센서는 생물검정 시스템에 유체적으로 그리고 전기적으로 커플링하도록 구성된다. 생물검정 시스템은 미리 결정된 프로토콜(예를 들어, 합성에 의한 서열분석)에 따라 반응물을 반응 부위 및/또는 반응 챔버로 전달하고 복수의 이미지화 이벤트를 수행할 수 있다. 예를 들어, 생물검정 시스템은 용액이 반응 부위 및/또는 반응 챔버를 따라 흐르도록 할 수 있다. 용액 중 적어도 하나는 동일하거나 상이한 형광 표지를 갖는 4개의 유형의 뉴클레오티드를 포함할 수 있다. 뉴클레오티드는 반응 부위 및/또는 반응 챔버에 위치한 상응하는 올리고뉴클레오티드에 결합할 수 있다. 그 다음, 생물검정 시스템은 여기 광원(예컨대, 발광 다이오드 또는 LED와 같은 솔리드-스테이트 광원)을 사용하여 반응 부위 및/또는 반응 챔버를 조명할 수 있다. 여기 광은 일정 범위의 파장을 포함한 미리 결정된 파장 또는 파장을 가질 수 있다. 여기된 형광 표지는 센서에 의해 캡처될 수 있는 방출 신호를 제공한다.
대안적인 실시형태에서, 바이오센서는 다른 식별가능한 특성을 검출하도록 구성된 전극 또는 다른 유형의 센서를 포함할 수 있다. 예를 들어, 센서는 이온 농도의 변화를 검출하도록 구성될 수 있다. 다른 예에서, 센서는 멤브레인을 가로지르는 이온 전류 흐름을 검출하도록 구성될 수 있다.
본원에서 사용되는 "클러스터"는 유사하거나 동일한 분자 또는 뉴클레오티드 서열 또는 DNA 가닥의 콜로니이다. 예를 들어, 클러스터는 증폭된 올리고뉴클레오티드, 또는 동일하거나 유사한 서열을 갖는 폴리뉴클레오티드 또는 폴리펩티드의 임의의 다른 그룹일 수 있다. 다른 실시형태에서 클러스터는 샘플 표면의 물리적 영역을 차지하는 임의의 요소 또는 요소 그룹일 수 있다. 실시형태에서, 클러스터는 염기 호출 사이클 동안 반응 부위 및/또는 반응 챔버에 고정화된다.
본원에서 사용되는 용어 "고정화된"은 생체분자 또는 생물학적 또는 화학적 물질과 관련하여 사용될 때 생체분자 또는 생물학적 또는 화학적 물질을 분자 수준에서 표면에 실질적으로 부착하는 것을 포함한다. 예를 들어, 생체분자 또는 생물학적 또는 화학적 물질은 비공유적 상호작용(예컨대, 정전기력, 반 데르 발스, 및 소수성 계면의 탈수), 및 작용기 및 링커가 생체분자를 표면에 부착하는 것을 용이하게 하는 공유 결합 기법을 포함하는 흡착 기법을 사용하여 기재 물질의 표면에 고정화될 수 있다. 생체분자 또는 생물학적 또는 화학적 물질을 기재 물질의 표면에 고정화시키는 것은 기재 표면의 속성, 생체분자 또는 생물학적 또는 화학적 물질을 운반하는 액체 매질, 및 생체분자 또는 생물학적 또는 화학적 물질 자체의 속성에 기초할 수 있다. 일부 경우에 있어서, 기재 표면은 생체분자(또는 생물학적 또는 화학적 물질)를 기재 표면에 고정화시키는 것을 용이하게 하도록 기능화될 수 있다(예컨대, 화학적으로 또는 물리적으로 개질될 수 있다). 기재 표면은 우선 표면에 결합되는 작용기를 갖도록 개질될 수 있다. 그 다음, 작용기는 생체분자 또는 생물학적 또는 화학적 물질에 결합하여 이들을 그 위에 고정화시킬 수 있다. 물질은 예를 들어, 참고로 본원에 포함되는 미국 특허출원공개 US 2011/0059865 A1호에 기재된 바와 같이 겔을 통해 표면에 고정화될 수 있다.
일부 실시형태에서, 핵산은 표면에 부착되고 브릿지 증폭을 사용하여 증폭될 수 있다. 유용한 브리지 증폭 방법은 예를 들어 미국 특허 제5,641,658호; 국제공개 WO 2007/010251호; 미국 특허 제6,090,592호; 미국 특허출원공개 제2002/0055100 A1호; 미국 특허 제7,115,400호; 미국 특허출원공개 제2004/0096853 A1호; 미국 특허출원공개 제2004/0002090 A1호; 미국 특허출원공개 제2007/0128624 A1호; 및 미국 특허출원공개 제2008/0009420 A1호에 기재되어 있으며, 이들 각각은 그 전체가 본원에 포함된다. 표면 상에서 핵산을 증폭시키기 위한 다른 유용한 방법은, 예를 들어, 아래에 더욱 상세히 기술되는 방법을 이용하는 롤링 서클 증폭(RCA: Rolling Circle Amplification)이다. 일부 실시형태에서, 핵산은 표면에 부착되고 하나 이상의 프라이머 쌍을 이용하여 증폭될 수 있다. 예를 들어, 프라이머 중 하나는 용액 내에 있을 수 있고 다른 프라이머는 표면 상에 고정화될 수 있다(예컨대, 5'-부착됨). 예를 들어, 핵산 분자가 표면 상의 프라이머 중 하나에 혼성화된 뒤, 고정화된 프라이머를 연장시켜 핵산의 제1 복제물을 생성할 수 있다. 이어서 용액 내의 프라이머는 핵산의 제1 복제물에 혼성화되며, 이는 핵산의 제1 복제물을 템플릿으로 이용하여 연장될 수 있다. 선택적으로, 핵산의 제1 복제물이 생성된 후에, 원래의 핵산 분자는 표면 상의 제2 고정화된 프라이머에 혼성화될 수 있고 동시에 또는 용액 내의 프라이머가 연장된 후에 연장될 수 있다. 임의의 실시형태에서, 고정화된 프라이머 및 용액 내의 프라이머를 이용한 연장(예컨대, 증폭)의 반복된 라운드는 핵산의 다수의 복제물을 제공한다.
특정 실시형태에서, 본원에 기재된 시스템 및 방법에 의해 실행되는 검정 프로토콜은 천연 뉴클레오티드 및 또한 천연 뉴클레오티드와 상호작용하도록 구성된 효소의 사용을 포함한다. 천연 뉴클레오티드에는 예를 들어 리보뉴클레오티드(RNA) 또는 데옥시리보뉴클레오티드(DNA)가 포함된다. 천연 뉴클레오티드는 모노-, 다이-, 또는 트라이-포스페이트 형태일 수 있으며, 아데닌(A), 티민(T), 우라실(U), 구아닌(G), 또는 시토신(C)으로부터 선택된 염기를 가질 수 있다. 그러나, 전술된 뉴클레오티드의 비-천연 뉴클레오티드, 변형된 뉴클레오티드 또는 유사체가 사용될 수 있음이 이해될 것이다. 유용한 비-천연 뉴클레오티드의 일부 예는 합성 방법에 의한 가역적 종결자 기반 서열분석과 관련하여 아래에 설명된다.
반응 챔버를 포함하는 실시형태에서, 품목 또는 고체 물질(반고체 물질 포함)은 반응 챔버 내에 배치될 수 있다. 배치될 때, 품목 또는 고체는 억지 끼워맞춤(interference fit), 접착, 또는 포획을 통해 반응 챔버 내에서 물리적으로 유지되거나 고정화될 수 있다. 반응 챔버 내에 배치될 수 있는 예시적인 품목 또는 고체는 중합체 비드, 펠릿, 아가로스 겔, 분말, 양자점, 또는 반응 챔버 내에 압축되고/되거나 보유될 수 있는 다른 고체를 포함한다. 특정 실시형태에서, 핵산 상부구조(superstructure), 예컨대 DNA 볼(ball)은, 예를 들어 반응 챔버의 내부 표면에의 부착에 의해 또는 반응 챔버 내의 액체 중에의 체류에 의해, 반응 챔버 내에 또는 반응 챔버에 배치될 수 있다. DNA 볼 또는 다른 핵산 상부구조가 미리 형성된 다음 반응 챔버 내에 또는 반응 챔버에 배치될 수 있다. 대안적으로, DNA 볼은 반응 챔버에서 인시츄(in situ) 합성될 수 있다. DNA 볼은 특정 핵산 서열의 콘카테머(concatemer)를 생성하기 위해 롤링 서클 증폭에 의해 합성될 수 있으며 콘카테머는 상대적으로 컴팩트한 볼을 형성하는 조건으로 처리될 수 있다. DNA 볼 및 이들의 합성 방법은 예를 들어 미국 특허출원공개 제2008/0242560 A1호 또는 제2008/0234136 A1호에 기재되어 있으며, 이들 각각은 그 전체가 본원에 포함된다. 반응 챔버에 유지되거나 배치되는 물질은 고체, 액체 또는 기체 상태일 수 있다.
본원에서 사용되는 "염기 호출"은 핵산 서열에서 뉴클레오티드 염기를 식별한다. 염기 호출은 특정 사이클에서 모든 클러스터에 대한 염기 호출(A, C, G, T)을 결정하는 과정을 지칭한다. 예를 들어, 미국 특허출원공개 제2013/0079232호의 통합 자료에 설명된 4채널, 2채널 또는 1채널 방법 및 시스템을 사용하여 염기 호출이 수행될 수 있다. 특정 실시형태에서, 염기 호출 사이클은 "샘플링 이벤트"로서 지칭된다. 하나의 염료 및 2채널 서열분석 프로토콜에서, 샘플링 이벤트는 각 스테이지에서 픽셀 신호가 생성되도록 시간 순서로 2개의 조명 스테이지를 포함한다. 제1 조명 스테이지는 AT 픽셀 신호에서 뉴클레오티드 염기 A 및 T를 나타내는 소정의 클러스터로부터 조명을 유도하고, 제2 조명 스테이지는 CT 픽셀 신호에서 뉴클레오티드 염기 C 및 T를 나타내는 소정의 클러스터로부터 조명을 유도한다.
개시된 기술, 예를 들어 개시된 염기 호출자는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 필드 프로그래밍가능한 게이트 어레이(FPGA), 코어스-그레인드 재구성가능한 아키텍처(CGRA), 특정용도용 집적회로(ASIC), 애플리케이션 특정 명령-세트 프로세서(ASIP), 및 디지털 신호 프로세서(DSP)와 같은 프로세서 상에서 구현될 수 있다.
바이오센서
도 1은 다양한 실시형태에서 사용될 수 있는 바이오센서(100)의 단면을 도시한다. 바이오센서(100)는 염기 호출 사이클 동안 하나 초과의 클러스터(예를 들어, 픽셀 영역당 2개의 클러스터)를 각각 보유할 수 있는 픽셀 영역(106', 108', 110', 112', 114')을 갖는다. 도시된 바와 같이, 바이오센서(100)는 샘플링 장치(104) 상에 장착되는 플로우 셀(102)을 포함할 수 있다. 예시된 실시형태에서, 플로우 셀(102)은 샘플링 장치(104)에 직접 부착된다. 그러나, 대안적인 실시형태에서, 플로우 셀(102)은 샘플링 장치(104)에 제거 가능하게 결합될 수 있다. 샘플링 장치(104)는 작용화될 수 있는(예를 들어, 원하는 반응을 수행하기 위해 적절한 방식으로 화학적으로 또는 물리적으로 개질될 수 있는) 샘플 표면(134)을 갖는다. 예를 들어, 샘플 표면(134)은 작용화될 수 있고 염기 호출 사이클 동안 하나 초과의 클러스터를 각각 보유할 수 있는 복수의 픽셀 영역(106', 108', 110', 112', 114')을 포함할 수 있다(예를 들어, 각각은 그에 고정화된 상응하는 클러스터 쌍(106A, 106B; 108A, 108B; 110A, 110B; 112A, 112B; 및 114A, 114B)을 가짐). 각 픽셀 영역은 대응하는 센서(또는 픽셀 또는 광다이오드)(106, 108, 110, 112, 114)와 연관되어 픽셀 영역에 의해 수신된 빛이 대응하는 센서에 의해 캡처된다. 픽셀 영역(106')은 또한 클러스터 쌍을 유지하는 샘플 표면(134) 상의 대응하는 반응 부위(106")와 연관될 수 있어, 반응 부위(106")로부터 방출된 광이 픽셀 영역(106')에 의해 수신되고 대응하는 센서(106)에 의해 캡처된다. 이러한 감지 구조의 결과로, 2개 이상의 클러스터가 염기 호출 사이클 동안 특정 센서의 픽셀 영역에 존재하는 경우(예를 들어, 각각 대응하는 클러스터 쌍을 가짐), 그 염기 호출 사이클의 픽셀 신호는 둘 이상의 클러스터 모두에 기초하는 정보를 전달한다. 결과적으로, 본원에 설명된 바와 같은 신호 처리는 각 클러스터를 구별하는 데 사용되며, 특정 염기 호출 사이클의 소정의 샘플링 이벤트에서 픽셀 신호보다 더 많은 클러스터가 있다.
예시된 실시형태에서, 플로우 셀(102)은 측벽(138, 125), 및 측벽(138, 125)에 의해 지지되는 플로우 커버(136)를 포함한다. 측벽(138, 125)은 샘플 표면(134)에 결합되고 플로우 커버(136)와 샘플 표면(134) 사이에서 연장된다. 일부 실시형태에서, 측벽(138, 125)은 유동 커버(136)를 샘플링 장치(104)에 접합하는 경화성 접착제 층으로부터 형성된다.
측벽(138, 125)은 유동 커버(136)와 샘플링 장치(104) 사이에 유동 채널(144)이 존재하도록 크기 및 형상을 갖는다. 유동 커버(136)는 바이오센서(100)의 외부로부터 유동 채널(144)로 전파하는 여기 광(101)에 투명한 재료를 포함할 수 있다. 일 예에서, 여기 광(101)은 비-직교 각도로 플로우 커버(136)에 접근한다.
또한 도시된 바와 같이, 유동 커버(136)는 다른 포트(도시되지 않음)와 유체적으로 맞물리도록 구성된 입구 및 출구 포트(142, 146)를 포함할 수 있다. 예를 들어, 다른 포트는 카트리지 또는 워크스테이션으로부터 나올 수 있다. 유동 채널(144)은 샘플 표면(134)을 따라 유체를 안내하도록 크기 및 형상을 갖는다. 높이(H1) 및 유동 채널(144)의 다른 치수는 샘플 표면(134)을 따라 유체의 실질적으로 균일한 유동을 유지하도록 구성될 수 있다. 유동 채널(144)의 치수는 또한 기포 형성을 제어하도록 구성될 수 있다.
예로서, 플로우 커버(136)(또는 플로우 셀(102))는 유리 또는 플라스틱과 같은 투명 재료를 포함할 수 있다. 유동 커버(136)는 평면 외부 표면 및 유동 채널(144)을 정의하는 평면 내부 표면을 갖는 실질적으로 직사각형 블록을 구성할 수 있다. 블록은 측벽(138, 125) 상에 장착될 수 있다. 대안적으로, 플로우 셀(102)은 플로우 커버(136) 및 측벽(138, 125)을 정의하도록 에칭될 수 있다. 예를 들어, 리세스가 투명 재료로 에칭될 수 있다. 에칭된 재료가 샘플링 장치(104)에 장착될 때, 리세스는 유동 채널(144)이 될 수 있다.
샘플링 장치(104)는 예를 들어, 복수의 적층된 기재 층(120-126)을 포함하는 집적 회로와 유사할 수 있다. 기재 층(120-126)은 베이스 기재(120), 솔리드-스테이트 이미저(122)(예를 들어, CMOS 이미지 센서), 필터 또는 광-관리 층(124), 및 패시베이션 층(126)을 포함할 수 있다. 상기 내용은 단지 예시일 뿐이며 다른 실시형태는 더 적거나 추가의 층을 포함할 수 있다는 점에 유의해야 한다. 더욱이, 기재 층(120-126) 각각은 복수의 서브-층을 포함할 수 있다. 샘플링 장치(104)는 CMOS 이미지 센서 및 CCD와 같은 집적 회로 제조에 사용된 것과 유사한 공정을 사용하여 제조될 수 있다. 예를 들어, 기재 층(120-126) 또는 그의 부분은 샘플링 장치(104)를 형성하기 위해 성장, 증착, 에칭 등이 될 수 있다.
패시베이션 층(126)은 유동 채널(144)의 유체 환경으로부터 필터 층(124)을 차폐하도록 구성된다. 일부 경우에, 패시베이션 층(126)은 또한 생체분자 또는 다른 관심 분석물이 그 위에 고정화될 수 있도록 하는 고체 표면(즉, 샘플 표면(134))을 제공하도록 구성된다. 예를 들어, 각 반응 부위는 샘플 표면(134)에 고정화된 생체분자 클러스터를 포함할 수 있다. 따라서, 패시베이션 층(126)은 반응 부위가 고정화될 수 있도록 하는 물질로 형성될 수 있다. 패시베이션 층(126)은 또한 원하는 형광 광에 대해 적어도 투명한 재료를 포함할 수 있다. 예를 들어, 패시베이션 층(126)은 규소 질화물(Si2N4) 및/또는 실리카(SiO2)를 포함할 수 있다. 그러나, 다른 적절한 재료(들)가 사용될 수 있다. 예시된 실시형태에서, 패시베이션 층(126)은 실질적으로 평면일 수 있다. 그러나, 대안적인 실시형태에서, 패시베이션 층(126)은 피트, 웰, 홈 등과 같은 리세스를 포함할 수 있다. 예시된 실시형태에서, 패시베이션 층(126)은 약 150 내지 200 nm, 보다 구체적으로 약 170 nm의 두께를 갖는다.
필터 층(124)은 광의 투과에 영향을 미치는 다양한 피쳐를 포함할 수 있다. 일부 실시형태에서, 필터 층(124)은 다중 기능을 수행할 수 있다. 예를 들어, 필터 층(124)은 (a) 여기 광원으로부터의 광 신호와 같은 원치 않는 광 신호를 필터링하거나; (b) 반응 부위로부터의 방출 신호를 검출하도록 구성된 대응하는 센서(106, 108, 110, 112, 및 114)를 향해 반응 부위로부터의 방출 신호를 유도하거나; 또는 (c) 인접한 반응 부위로부터 원치 않는 방출 신호의 검출을 차단하거나 방지하도록 구성될 수 있다. 이와 같이, 필터 층(124)은 또한 광-관리층으로서 지칭될 수 있다. 도시된 실시형태에서, 필터 층(124)은 약 1 내지 5 μm, 보다 구체적으로 약 2 내지 4 μm의 두께를 갖는다. 대안적인 실시형태에서, 필터 층(124)은 마이크로렌즈 또는 다른 광학 구성요소의 어레이를 포함할 수 있다. 각각의 마이크로렌즈는 연관된 반응 부위로부터 센서로 방출 신호를 유도시키도록 구성될 수 있다.
일부 실시형태에서, 솔리드-스테이트 이미저(122) 및 베이스 기재(120)는 미리 구성된 솔리드-스테이트 이미지화 디바이스(예를 들어, CMOS 칩)로서 함께 제공될 수 있다. 예를 들어, 베이스 기재(120)는 규소 웨이퍼일 수 있고, 그 위에 솔리드-스테이트 이미저(122)가 장착될 수 있다. 솔리드-스테이트 이미저(122)는 반도체 재료(예를 들어, 규소) 층과 센서(106, 108, 110, 112, 114)를 포함한다. 예시된 실시형태에서, 센서는 광을 검출하도록 구성된 광다이오드이다. 다른 실시형태에서, 센서는 광 검출기를 포함한다. 솔리드-스테이트 이미저(122)는 CMOS 기반의 제조 공정을 통해 단일 칩으로서 제조될 수 있다.
솔리드-스테이트 이미저(122)는 유동 채널(144) 내부에서 또는 유동 채널을 따라 원하는 반응을 나타내는 활동을 검출하도록 구성된 센서(106, 108, 110, 112, 114)의 조밀한 어레이를 포함할 수 있다. 일부 실시형태에서, 각각의 센서는 약 1 내지 2 제곱 마이크로미터(μm²)의 픽셀 영역(또는 검출 영역)을 갖는다. 어레이는 500,000개의 센서, 500만개의 센서, 1,000만개의 센서 또는 심지어 1억 2,000만개의 센서를 포함할 수 있다. 센서(106, 108, 110, 112, 114)는 원하는 반응을 나타내는 미리 결정된 광 파장을 검출하도록 구성될 수 있다.
일부 실시형태에서, 샘플링 장치(104)는 미국 특허 제7,595,882호에 기술된 마이크로회로 배열과 같은 마이크로회로 배열을 포함하며, 이는 그 전체가 본원에 참고로 포함된다. 보다 구체적으로, 샘플링 장치(104)는 센서(106, 108, 110, 112, 114)의 평면 어레이를 갖는 집적 회로를 포함할 수 있다. 샘플링 장치(104) 내에 형성된 회로는 신호 증폭, 디지털화, 저장 및 처리 중 적어도 하나를 위해 구성될 수 있다. 회로는 검출된 형광 광을 수집 및 분석하고 검출 데이터를 신호 프로세서에 전달하기 위한 픽셀 신호(또는 검출 신호)를 생성할 수 있다. 회로는 또한 샘플링 장치(104)에서 추가적인 아날로그 및/또는 디지털 신호 처리를 수행할 수 있다. 샘플링 장치(104)는 신호 라우팅(routing)을 수행하는(예를 들어, 픽셀 신호를 신호 프로세서에 송신하는) 전도성 비아(130)를 포함할 수 있다. 픽셀 신호는 또한 샘플링 장치(104)의 전기 접촉부를 통해 송신될 수 있다.
샘플링 장치(104)는 2020년 5월 14일자로 "Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing"라는 명칭으로 출원된 미국 정규 특허 출원 제16/874,599호(대리인 문서 번호 ILLM 1011-4/IP-1750-US)와 관련하여 더 상세하게 논의되며, 이는 마치 본원에 완전히 기재된 것처럼 참조로 포함된다. 샘플링 장치(104)는 전술된 바와 같은 상기 구성 또는 용도로 제한되지 않는다. 대안적인 실시형태에서, 샘플링 장치(104)는 다른 형태를 취할 수 있다. 예를 들어, 샘플링 장치(104)는 플로우 셀에 결합되거나 내부에 반응 부위를 갖는 플로우 셀과 인터페이싱하도록 이동되는 CCD 카메라와 같은 CCD 디바이스를 포함할 수 있다.
도 2는 타일 내에 클러스터를 포함하는 플로우 셀(200)의 일 구현예를 도시한다. 플로우 셀(200)은 예를 들어 플로우 커버(136)가 없는 도 1의 플로우 셀(102)에 대응한다. 또한, 플로우 셀(200)의 묘사는 본질적으로 상징적이며, 플로우 셀(200)은 내부의 다양한 다른 구성요소를 예시하지 않고 내부의 다양한 레인 및 타일을 상징적으로 묘사한다. 도 2는 플로우 셀(200)의 평면도를 도시한다.
일 실시형태에서, 플로우 셀(200)은 레인(202a, 202b, …, 202P), 즉 P개의 레인과 같은 복수의 레인으로 분할 또는 구획화된다. 도 2의 예에서, 플로우 셀(200)은 8개의 레인, 즉 이 예에서 P = 8을 포함하는 것으로 예시되어 있지만, 플로우 셀 내의 레인의 수는 구현예에 따라 다르다.
일 실시형태에서, 개별 레인(202)은 "타일"(212)이라고 하는 비-중첩 영역으로 더 구획화된다. 예를 들어, 도 2는 예시적인 레인의 섹션(208)의 확대도를 도시한다. 섹션(208)은 복수의 타일(212)을 포함하는 것으로 예시되어 있다.
일 예에서, 각각의 레인(202)은 하나 이상의 열의 타일을 포함한다. 예를 들어, 도 2에서, 각 레인(202)은 확대된 섹션(208) 내에 예시된 바와 같이 2개의 대응하는 열의 타일(212)을 포함한다. 각 레인 내 타일의 각 열 내의 타일 수는 구현예에 따라 다르며, 일 예에서 각 레인 내 타일의 각 열에 50개의 타일, 60개의 타일, 100개의 타일 또는 다른 적절한 수의 타일이 있을 수 있다.
각 타일은 대응하는 복수의 클러스터를 포함한다. 서열분석 절차 동안, 클러스터 및 타일 상의 그들의 주변 배경이 이미지화된다. 예를 들어, 도 2는 예시적인 타일 내의 예시적인 클러스터(216)를 도시한다.
도 3은 8개의 레인이 있는 예시적인 Illumina GA-IIx™ 플로우 셀을 보여주고, 또한 하나의 타일과 그의 클러스터 및 이들 주변 배경을 확대한 것을 보여준다. 예를 들어, Illumina Genome Analyzer II에는 레인당 100개의 타일이 그리고 Illumina HiSeq2000에는 레인당 68개의 타일이 있다. 타일(212)은 수십만 내지 수백만 개의 클러스터를 보유한다. 도 3에서, 밝은 스폿으로 도시된 클러스터를 갖는 타일로부터 생성된 이미지가 308에 도시되어 있고(예를 들어, 308은 타일의 확대된 이미지 도면임), 예시적인 클러스터(304)가 표지되어 있다. 클러스터(304)는 템블릿 분자의 대략 1000개의 동일한 복제물을 포함하지만, 클러스터는 크기 및 형상이 다르다. 클러스터는, 서열분석 런 전에, 입력 라이브러리의 브리지 증폭에 의해 템플릿 분자로부터 성장된다. 증폭 및 클러스터 성장의 목적은 방출된 신호의 강도를 증가시키는 것인데, 이는 이미지화 디바이스가 단일 형광단을 신뢰성 있게 감지할 수 없기 때문이다. 그러나, 클러스터(304) 내의 DNA 단편들의 물리적 거리는 작고, 따라서 이미지화 디바이스는 단편들의 클러스터를 단일 스폿(304)으로서 인지한다.
클러스터 및 타일은 2020년 3월 20일에 "TRAINING DATA GENERATION FOR ARTIFICIAL INTELLIGENCE-BASED SEQUENCING"이라는 명칭으로 출원된 미국 정규 특허 출원 제16/825,987호(대리인 문서 번호 ILLM 1008-16/IP-1693-US)와 관련하여 더 자세히 논의된다.
도 4는 염기 호출 센서 출력(예를 들어, 도 1 참조)과 같은 서열분석 시스템으로부터의 센서 데이터의 분석을 위한 시스템의 단순화된 블록도이다. 도 4의 예에서, 시스템은 서열분석기(400) 및 구성 가능한 프로세서(450)를 포함한다. 구성 가능한 프로세서(450)는 중앙 처리 장치(CPU)(402)와 같은 호스트 프로세서에 의해 실행되는 런타임 프로그램과 협력하여 신경망 기반 염기 호출자를 실행할 수 있다. 서열분석기(400)는 염기 호출 센서 및 플로우 셀(401)(예를 들어, 도 1 내지 3과 관련하여 논의됨)을 포함한다. 플로우 셀은, 도 1 내지 3과 관련하여 논의된 바와 같이, 유전 물질의 클러스터가 유전 물질에서의 염기를 식별하기 위해 클러스터에서의 반응을 유발하는 데 사용되는 일련의 분석물 유동에 노출되는 하나 이상의 타일을 포함할 수 있다. 센서는 플로우 셀의 각 타일에서의 서열의 각 사이클에 대한 반응을 감지하여 타일 데이터를 제공한다. 이 기술의 예는 아래에서 더 자세히 설명된다. 유전자 서열분석은 데이터 집약적 동작이며, 이는 염기 호출 센서 데이터를, 염기 호출 동작 동안에 감지된 유전 물질의 각각의 클러스터에 대한 염기 호출의 서열로 변환한다.
이러한 예에서의 시스템은 런타임 프로그램을 실행시켜서 염기 호출 동작을 조정하는 CPU(402), 타일 데이터의 어레이의 서열을 저장하기 위한 메모리(403), 염기 호출 동작에 의해 생성되는 염기 호출 리드, 및 염기 호출 동작에서 사용되는 다른 정보를 포함한다. 또한, 이러한 예시에서, 시스템은 구성 파일(또는 파일들), 예컨대 FPGA 비트 파일, 및 구성가능한 프로세서(450)를 구성 및 재구성하기 위해 그리고 신경망을 실행하기 위해 사용되는 신경망에 대한 모델 파라미터를 저장할 메모리(404)를 포함한다. 서열분석기(400)는 구성가능한 프로세서를 구성하기 위한 프로그램, 및 일부 실시형태에서, 신경망을 실행하기 위한 재구성가능한 프로세서를 포함할 수 있다.
서열분석기(400)는 버스(405)에 의해 구성가능한 프로세서(450)에 커플링된다. 버스(405)는, 하나의 예에서 PCI-SIG(PCI Special Interest Group)에 의해 현재 유지되고 개발되는 PCIe(Peripheral Component Interconnect Express) 표준과 호환가능한 버스 기술과 같은 고처리량 기술을 사용하여 구현될 수 있다. 또한, 이러한 예에서, 메모리(460)는 버스(461)에 의해 구성가능한 프로세서(450)에 커플링된다. 메모리(460)는 구성가능한 프로세서(450)를 갖는 회로 보드 상에 배치된 온-보드 메모리일 수 있다. 메모리(460)는 염기 호출 동작에서 사용되는 데이터를 작동시키는 구성가능한 프로세서(450)에 의한 고속 액세스를 위해 사용된다. 버스(461)는, 또한, PCIe 표준과 호환가능한 버스 기술과 같은 고처리량 기술을 사용하여 구현될 수 있다.
필드 프로그래밍가능 게이트 어레이(FPGA), 코어스-그레인드 재구성가능한 어레이(CGRA), 및 다른 구성가능한 그리고 재구성가능한 디바이스를 포함한 구성가능한 프로세서는, 컴퓨터 프로그램을 실행하는 범용 프로세서를 사용하여 달성될 수 있었던 것보다 더 효율적이거나 더 빠르게 다양한 기능을 구현하도록 구성될 수 있다. 구성가능한 프로세서의 구성은, 때때로 비트스트림 또는 비트 파일로 지칭되는 구성 파일을 생성하기 위한 기능 설명을 컴파일하는 것, 및 구성 파일을 프로세서 상의 구성가능한 요소에 분배하는 것을 수반한다.
구성 파일은, 데이터 흐름 패턴, 분산형 메모리 및 다른 온-칩 메모리 리소스의 사용, 룩업 테이블 콘텐츠, 승산-및-누산 유닛과 같은 구성가능한 실행 유닛 및 구성가능한 논리 블록의 동작, 구성가능한 상호접속부, 및 구성가능한 어레이의 다른 요소를 설정하도록 회로를 구성함으로써, 구성가능한 프로세서에 의해 실행될 논리 기능을 정의한다. 구성가능한 프로세서는, 구성 파일이 필드 내에서 변경될 수 있는 경우, 로딩된 구성 파일을 변경함으로써 재구성가능하다. 예를 들어, 구성 파일은, 구성가능한 또는 재구성가능한 프로세서 상의 구성가능한 요소의 어레이 사이에 분포되는, 휘발성 SRAM 요소에, 비휘발성 판독-기록 메모리 요소에, 그리고 이들의 조합에 저장될 수 있다. 다양한 상업적으로 입수가능한 구성가능한 프로세서가 본원에 기술된 바와 같은 염기 호출 동작에 사용하는 데 적합하다. 예로는 Xilinx Alveo™ U200, Xilinx Alveo™ U250, Xilinx Alveo™ U280, Intel/Altera Stratix™ GX2800, Intel/Altera Stratix™ GX2800, 및 Intel Stratix™ GX10M과 같은 상업적으로 입수 가능한 제품을 포함한다. 일부 예에서, 호스트 CPU는 구성가능한 프로세서와 동일한 집적 회로 상에서 구현될 수 있다.
본원에 설명된 실시형태는 구성 가능한 프로세서(450)를 사용하여 다중 사이클 신경망을 구현한다. 구성 가능한 프로세서를 위한 구성 파일은 고수준 설명 언어(HDL: high-level description language) 또는 레지스터 전송 수준(RTL: register transfer level) 언어 규격을 사용하여 실행될 로직 함수를 특정함으로써 구현될 수 있다. 규격은 구성 파일을 생성하기 위해, 선택된 구성가능한 프로세서에 대해 설계된 리소스를 사용하여 컴파일될 수 있다. 구성가능한 프로세서가 아닐 수 있는 ASIC에 대한 설계를 생성할 목적으로 동일한 또는 유사한 규격이 컴파일될 수 있다.
따라서 본원에 설명된 모든 실시형태에서 구성 가능한 프로세서에 대한 대안은, 본원에 기술된 바와 같은 신경망 기반 염기 호출 동작을 실행시키도록 구성된, 특정용도용 ASIC 또는 특수 목적 집적 회로 또는 집적 회로들의 세트를 포함하는 구성된 프로세서, 또는 SOC(system-on-a-chip) 디바이스를 포함한다.
일반적으로, 신경망의 런을 실행하도록 구성된 바와 같은, 본원에 기술된 구성가능한 프로세서 및 구성된 프로세서는 본원에서 신경망 프로세서로 지칭된다.
구성 가능한 프로세서(450)는 이 예에서 CPU(402)에 의해 실행된 프로그램을 사용하여 로딩된 구성 파일에 의해 구성되거나, 염기 호출 함수를 실행하기 위해 구성 가능한 프로세서(450) 상의 구성 가능한 요소의 어레이를 구성하는 다른 소스에 의해 구성된다. 이러한 예에서, 구성은, 버스(405, 461)에 커플링되고 염기 호출 동작에 사용되는 요소들 사이에서 데이터 및 제어 파라미터를 분배하기 위한 기능을 실행하는 데이터 흐름 로직(451)을 포함한다.
또한, 구성 가능한 프로세서(450)는 다중 사이클 신경망을 실행하기 위한 염기 호출 실행 로직(452)으로 구성된다. 로직(452)은 복수의 다중 사이클 실행 클러스터(예를 들어, 453)를 포함하며, 이는 이 예에서 다중 사이클 클러스터 1 내지 다중 사이클 클러스터 X를 포함한다. 다중 사이클 클러스터의 수는 원하는 작업 처리량과 구성 가능한 프로세서의 이용 가능한 리소스를 포함하는 트레이드-오프에 따라 선택될 수 있다.
다중-사이클 클러스터는 구성가능한 프로세서 상의 구성가능한 상호접속부 및 메모리 리소스를 사용하여 구현되는 데이터 흐름 경로(454)에 의해 데이터 흐름 로직(451)에 커플링된다. 또한, 다중-사이클 클러스터는, 예를 들어 구성가능한 프로세서 상의 구성가능한 상호접속부 및 메모리 리소스를 사용하여 구현된 제어 경로(455)에 의해 데이터 흐름 로직(451)에 커플링되며, 이들은 이용가능한 클러스터를 나타내는 제어 신호, 신경망의 런의 실행을 위한 입력 유닛을 이용가능한 실행 클러스터에 제공하기 위한 준비(readiness), 신경망에 대한 훈련된 파라미터를 제공하기 위한 준비, 염기 호출 분류 데이터의 출력 패치를 제공하기 위한 준비, 및 신경망의 실행을 위해 사용되는 다른 제어 데이터를 제공한다.
구성 가능한 프로세서는 훈련된 파라미터를 사용하여 다중 사이클 신경망의 런을 실행하여 염기 유동 동작의 감지 사이클에 대한 분류 데이터를 생성하도록 구성된다. 신경망의 런이 실행되어, 염기 호출 동작의 대상 감지 사이클에 대한 분류 데이터를 생성한다. 신경망의 런은 N개의 감지 사이클의 각자의 감지 사이클로부터 타일 데이터의 N개의 어레이를 포함하는 서열로 동작하며, N개의 감지 사이클은 본원에 기술된 예에서 시간 서열 내의 동작마다 하나의 염기 포지션에 대한 상이한 염기 호출 동작을 위한 센서 데이터를 제공한다. 선택적으로, N개의 감지 사이클 중 일부는 실행되는 특정 신경망 모델에 따라, 필요한 경우 서열 이외일 수 있다. 수 N은 1 초과의 임의의 수일 수 있다. 본원에 기술된 일부 예에서, N개의 감지 사이클의 감지 사이클은 시간 서열에서 대상 감지 사이클에 선행하는 적어도 하나의 감지 사이클 및 대상 사이클에 뒤이은 적어도 하나의 감지 사이클에 대한 감지 사이클의 세트를 표현한다. 수 N이 5 이상의 정수인 예가 본원에 기술된다.
데이터 흐름 로직(451)은 N개의 어레이의 공간적으로 정렬된 패치에 대해 타일 데이터를 포함하는 소정의 런에 대한 입력 유닛을 사용하여, 신경망의 런을 위한 타일 데이터 및 모델 파라미터의 적어도 일부의 훈련된 파라미터를 메모리(460)로부터 구성가능한 프로세서로 이동시키도록 구성된다. 입력 유닛은 하나의 DMA 동작에서 직접 메모리 액세스 동작에 의해 이동될 수 있거나, 또는 더 작은 유닛에서, 전개된 신경망의 실행과 협력하여 이용가능한 시간 슬롯 동안 이동될 수 있다.
본원에 기술된 바와 같은 감지 사이클에 대한 타일 데이터는 하나 이상의 피쳐를 갖는 센서 데이터의 어레이를 포함할 수 있다. 예를 들어, 센서 데이터는 DNA, RNA, 또는 다른 유전 물질의 유전자 서열 내의 염기 포지션에서 4개의 염기 중 하나를 식별하기 위해 분석되는 2개의 이미지를 포함할 수 있다. 타일 데이터는, 또한, 이미지 및 센서에 관한 메타데이터를 포함할 수 있다. 예를 들어, 염기 호출 동작의 실시형태에서, 타일 데이터는 타일 상의 유전 물질의 클러스터의 중심으로부터 센서 데이터의 어레이 내의 각각의 픽셀의 거리를 나타내는 중심 정보로부터의 거리와 같은, 클러스터와 이미지의 정렬에 관한 정보를 포함할 수 있다.
아래에 설명된 바와 같이 다중 사이클 신경망을 실행하는 동안, 타일 데이터는 또한 중간 데이터로서 지칭되는, 다중 사이클 신경망을 실행하는 동안 생성된 데이터를 포함할 수 있으며, 이는 다중 사이클 신경망의 런 동안 재계산되기보다는 재사용될 수 있다. 예를 들어, 다중 사이클 신경망의 실행 동안, 데이터 흐름 로직은 타일 데이터 어레이의 소정의 패치에 대한 센서 데이터 대신에 메모리(460)에 중간 데이터를 기록할 수 있다. 이와 같은 실시형태는 아래에서 더 자세히 설명된다.
도시된 바와 같이, 염기 호출 동작의 감지 사이클로부터 타일에 대한 센서 데이터를 포함하는 타일 데이터를 저장하는 런타임 프로그램에 의해 액세스가능한 메모리(예컨대, 460)를 포함하는, 염기 호출 센서 출력의 분석을 위한 시스템이 기술된다. 또한, 시스템은 메모리에 액세스하는 구성가능한 프로세서(450)와 같은 신경망 프로세서를 포함한다. 신경망 프로세서는 감지 사이클에 대한 분류 데이터를 생성하기 위해 훈련된 파라미터를 사용하여 신경망의 런을 실행하도록 구성된다. 본원에 기술된 바와 같이, 대상 사이클에 대한 분류 데이터를 생성하기 위해, 대상 사이클을 포함하는 N개의 감지 사이클의 각자의 감지 사이클로부터의 타일 데이터의 N개의 어레이의 서열 상에서 신경망의 런이 동작하고 있다. 데이터 흐름 로직(451)은 N개의 감지 사이클의 각자의 감지 사이클로부터 N개의 어레이의 공간적으로 정렬된 패치에 대한 데이터를 포함하는 입력 유닛을 사용하여 신경망의 런을 위해 타일 데이터 및 훈련된 파라미터를 메모리로부터 신경망 프로세서로 이동시키도록 제공된다.
또한, 신경망 프로세서가 메모리에 액세스하고 복수의 실행 클러스터를 포함하는 시스템이 기술되는데, 복수의 실행 클러스터 중의 실행 로직 클러스터는 신경망을 실행시키도록 구성된다. 데이터 흐름 로직은 메모리 및 복수의 실행 클러스터 중의 실행 클러스터에 액세스하여, 타일 데이터의 입력 유닛을 복수의 실행 클러스터 중 이용가능한 실행 클러스터에 제공하고 - 입력 유닛은 대상 감지 사이클을 포함하는 각자의 감지 사이클로부터 타일 데이터의 어레이의 N개의 공간적으로 정렬된 패치를 포함함 -, 실행 클러스터가 N개의 공간적으로 정렬된 패치를 신경망에 적용하여 대상 감지 사이클의 공간적으로 정렬된 패치에 대한 분류 데이터의 출력 패치를 생성하게 하며, N은 1 초과이다.
도 5는 호스트 프로세서에 의해 실행되는 런타임 프로그램의 기능을 포함한 염기 호출 동작의 양태를 보여주는 단순화된 도면이다. 이러한 도면에서, 플로우 셀로부터의 이미지 센서의 출력(도 1-2에 예시된 것과 같은 것)은 라인(500) 상에서 이미지 처리 스레드(501)에 제공되는데, 이는 개별 타일에 대한 센서 데이터 배열에서 재샘플링, 정렬 및 배열과 같은 이미지에 대한 프로세스를 수행할 수 있고, 플로우 셀 내의 각각의 타일에 대한 타일 클러스터 마스크를 계산하는 프로세스에 의해 사용될 수 있으며, 이는 플로우 셀의 대응하는 타일 상의 유전 물질의 클러스터에 대응하는 센서 데이터의 어레이 내의 픽셀을 식별한다. 클러스터 마스크를 계산하기 위해, 하나의 예시적 알고리즘은 소프트맥스(softmax) 출력에서 유도된 메트릭을 사용하여 초기 서열분석 사이클에서 신뢰할 수 없는 클러스터를 감지하는 프로세스를 기반으로 하며, 그 다음 그 웰/클러스터로부터의 데이터는 폐기되고 출력 데이터는 그 클러스터에 대해 생성되지 않는다. 예를 들어, 프로세스는 처음 N1(예를 들어, 25)개의 염기 호출 동안 높은 신뢰성을 갖는 클러스터를 식별하고 나머지는 거부할 수 있다. 거부된 클러스터는 다클론성이거나 강도가 매우 약하거나 기점(fiducial)에 의해 가려질 수 있다. 이 절차는 호스트 CPU에서 수행될 수 있다. 대안적인 구현예에서, 이 정보는 CPU로 다시 전달되는 필요한 관심 클러스터를 식별하는 데 잠재적으로 사용되어 중간 데이터에 필요한 스토리지를 제한한다.
이미지 처리 스레드(501)의 출력은 라인(506) 상에서 CPU 내의 디스패치 로직(510)에 제공되는데, 이는 염기 호출 동작의 상태에 따라, 도 4의 구성가능한 프로세서와 같은, 신경망 프로세서 하드웨어(520)로의 고속 버스(507) 상에서 또는 고속 버스(505) 상에서 데이터 캐쉬(504)로 타일 데이터의 어레이를 라우팅한다. 하드웨어(520)는 신경망에 의해 출력된 분류 데이터를 디스패치 로직(510)에 반환하는데, 이는 데이터 캐시(504)로, 또는 라인(511) 상에서, 분류 데이터를 사용하여 염기 호출 및 품질 점수 계산을 수행하는 스레드(502)로 정보를 전달하고, 염기 호출 리드에 대한 표준 포맷으로 데이터를 배열할 수 있다. 염기 호출 및 품질 점수 계산을 수행하는 스레드(502)의 출력은, 라인(512) 상에서, 염기 호출 리드를 집계하고, 데이터 압축과 같은 다른 동작을 수행하고, 고객에 의한 활용을 위해, 생성된 염기 호출 출력을 특정된 목적지에 기록하는 스레드(503)로 제공된다.
일부 실시형태에서, 호스트는 신경망의 지원 시에 하드웨어(520)의 출력의 최종 처리를 수행하는 스레드(도시되지 않음)를 포함할 수 있다. 예를 들어, 하드웨어(520)는 다중 클러스터 신경망의 최종 층으로부터의 분류 데이터의 출력을 제공할 수 있다. 호스트 프로세서는 염기 호출 및 품질 점수 스레드(502)에 의해 사용하기 위한 데이터를 구성하기 위해 분류 데이터에 걸쳐, 소프트맥스 함수와 같은 출력 활성화 함수를 실행할 수 있다. 또한, 호스트 프로세서는 하드웨어(520)에 대한 입력에 앞서 타일 데이터의 재샘플링, 배치 정규화 또는 기타 조정과 같은 입력 동작(미도시)을 실행할 수 있다.
도 6은 도 4의 것과 같은 구성가능한 프로세서의 구성의 단순화된 도면이다. 도 6에서, 구성가능한 프로세서는 복수의 고속 PCIe 인터페이스를 갖는 FPGA를 포함한다. FPGA는 도 1을 참조하여 기술된 데이터 흐름 로직을 포함하는 래퍼(wrapper)(600)를 갖도록 구성된다. 래퍼(600)는 CPU 통신 링크(609)를 통해 CPU에서의 런타임 프로그램과의 협력 및 인터페이스를 관리하고, DRAM 통신 링크(610)를 통해 온-보드 DRAM(602)(예컨대, 메모리(460))과의 통신을 관리한다. 래퍼(600) 내의 데이터 흐름 로직은, N개의 사이클 동안 온-보드 DRAM(602) 상에서 타일 데이터의 어레이를 클러스터(601)로 순회시킴으로써 검색된 패치 데이터를 제공하고, 온-보드 DRAM(602)으로 다시 전달하기 위해 클러스터(601)로부터 프로세스 데이터(615)를 검색한다. 래퍼(600)는, 또한 타일 데이터의 입력 어레이 및 분류 데이터의 출력 패치 둘 모두에 대해, 온-보드 DRAM(602)과 호스트 메모리 사이에서의 데이터의 전송을 관리한다. 래퍼는 라인(613) 상의 패치 데이터를 할당된 클러스터(601)로 전송한다. 래퍼(600)는 라인(612) 상의 가중치 및 바이어스와 같은 훈련된 파라미터를 온-보드 DRAM(602)으로부터 검색된 클러스터(601)에 제공한다. 래퍼(600)는 라인(611) 상의 구성 및 제어 데이터를, CPU 통신 링크(609)를 통해 호스트 상의 런타임 프로그램으로부터 제공되거나 그에 응답하여 생성되는 클러스터(601)에 제공한다. 클러스터는, 또한, 라인(616) 상의 상태 신호를 래퍼(600)에 제공할 수 있는데, 이들은 타일 데이터의 어레이의 순회를 관리하여 공간적으로 정렬된 패치 데이터를 제공하기 위해 그리고 클러스터(601)의 리소스를 사용하여 패치 데이터에 걸쳐서 다중-사이클 신경망을 실행하기 위해 호스트로부터의 제어 신호와 협력하여 사용된다.
상기에서 언급된 바와 같이, 타일 데이터의 다수의 패치 중 대응하는 패치 상에서 실행하기 위해 구성된, 래퍼(600)에 의해 관리되는 단일의 구성가능한 프로세서 상에 다수의 클러스터가 있을 수 있다. 각각의 클러스터는 본원에 기술된 다수의 감지 사이클의 타일 데이터를 사용하여 대상 감지 사이클에서 염기 호출에 대한 분류 데이터를 제공하도록 구성될 수 있다.
시스템의 예에서, 필터 가중치 및 바이어스와 같은 커널 데이터를 포함하는 모델 데이터가 호스트 CPU로부터 구성가능한 프로세서로 전송되어, 모델이 사이클 수의 함수로서 업데이트될 수 있게 할 수 있다. 염기 호출 동작은, 대표적인 예의 경우에, 대략 수백개의 감지 사이클을 포함할 수 있다. 염기 호출 동작은, 일부 실시형태에서, 페어드 엔드 리드(paired end read)를 포함할 수 있다. 예를 들어, 모델 훈련된 파라미터는 20개의 사이클(또는 다른 수의 사이클)마다 1회, 또는 특정 시스템 및 신경망 모델에 대해 구현되는 업데이트 패턴에 따라 업데이트될 수 있다. 타일 상의 유전 클러스터 내의 소정의 스트링에 대한 서열이 제1 말단부로부터 스트링 아래로(또는 위로) 연장되는 제1 부분, 및 제2 말단부로부터 스트링 위로(또는 아래로) 연장되는 제2 부분을 포함하는 페어드 엔드 리드를 포함하는 일부 실시형태에서, 훈련된 파라미터는 제1 부분으로부터 제2 부분으로의 전이 시에 업데이트될 수 있다.
일부 예에서, 타일에 대한 감지 데이터의 다수의 사이클 동안의 이미지 데이터는 CPU로부터 래퍼(600)로 전송될 수 있다. 래퍼(600)는, 선택적으로, 감지 데이터의 일부 사전처리 및 변환을 행할 수 있고, 정보를 온-보드 DRAM(602)에 기록할 수 있다. 각각의 감지 사이클에 대한 입력 타일 데이터는, 타일당 감지 사이클당 4000 x 3000개 정도 또는 그 이상의 픽셀 - 2개의 피쳐가 타일의 2개의 이미지들의 컬러를 표현함 -, 및 픽셀당 피쳐당 1 또는 2 바이트를 포함하는 센서 데이터의 어레이를 포함할 수 있다. 수 N이 다중-사이클 신경망의 각각의 런에 사용될 3개의 감지 사이클인 실시형태의 경우, 다중-사이클 신경망의 각각의 런에 대한 타일 데이터의 어레이는 타일당 수백 메가바이트 정도를 소비할 수 있다. 시스템의 일부 실시형태에서, 타일 데이터는, 또한, 타일당 1회 저장된 DFC 데이터의 어레이, 또는 센서 데이터 및 타일에 관한 다른 유형의 메타데이터를 포함한다.
동작 시에, 다중-사이클 클러스터가 이용가능할 때, 래퍼는 클러스터에 패치를 할당한다. 래퍼는 타일의 순회에서 타일 데이터의 차기 패치를 페치(fetch)하고, 적절한 제어 및 구성 정보와 함께 그것을 할당된 클러스터로 전송한다. 클러스터는, 적소에 작동 중인, 일부 시스템에서 다수의 사이클로부터의 패치를 포함하는 데이터의 패치, 및 처리의 현재 패치가 다양한 실시형태에서 핑퐁 버퍼 기법 또는 래스터 스캐닝 기법을 사용하여 마무리될 때 작동되어야 하는 데이터의 패치를 보유하기에 충분한 메모리를 구성가능한 프로세서 상에 갖도록 구성될 수 있다.
할당된 클러스터가 현재 패치에 대한 신경망의 그의 런을 완료하고 출력 패치를 생성할 때, 그것은 래퍼를 시그널링할 것이다. 래퍼는 할당된 클러스터로부터의 출력 패치를 판독할 것이거나, 또는 대안으로, 할당된 클러스터는 데이터를 래퍼로 푸시아웃할 것이다. 이어서, 래퍼는 DRAM(602) 내의 처리된 타일에 대한 출력 패치를 어셈블할 것이다. 전체 타일의 처리가 완료되었고, 데이터의 출력 패치가 DRAM으로 전송되었을 때, 래퍼는 타일에 대한 처리된 출력 어레이를 지정된 포맷으로 호스트/CPU로 다시 전송한다. 일부 실시형태에서, 온-보드 DRAM(602)은 래퍼(600) 내의 메모리 관리 로직에 의해 관리된다. 런타임 프로그램은, 실시간 분석을 제공하기 위해 연속적인 흐름 중 런에서의 모든 사이클에 대한 타일 데이터의 모든 어레이의 분석을 완료하도록 서열분석 동작을 제어할 수 있다.
도 7은 본원에 설명된 시스템을 사용하여 실행될 수 있는 다중 사이클 신경망 모델의 도면이다. 도 7에 도시된 예는 5사이클 입력, 1사이클 출력 신경망으로 지칭될 수 있다. 다중 사이클 신경망 모델에 대한 입력은 소정의 타일의 5개 감지 사이클의 타일 데이터 어레이로부터 5개의 공간적으로 정렬된 패치(예를 들어, 700)를 포함한다. 공간적으로 정렬된 패치는 세트의 다른 패치와 동일한 정렬된 행 및 열 차원(x,y)을 가져, 정보는 서열 사이클에서 타일의 동일한 유전 물질 클러스터와 관련된다. 이 예에서 대상 패치는 사이클 K에 대한 타일 데이터 배열로부터의 패치이다. 5개의 공간적으로 정렬된 패치 세트는 대상 패치보다 2사이클 선행하는 사이클 K-2로부터의 패치, 대상 패치보다 1사이클 선행하는 사이클 K-1로부터의 패치, 대상 사이클의 패치보다 1사이클 다음의 사이클 K+1로부터의 패치, 대상 사이클의 패치보다 2사이클 다음의 사이클 K+2로부터의 패치를 포함한다.
모델은 각각의 입력 패치에 대한 신경망 층의 분리된 스택(701)을 포함한다. 따라서, 스택(701)은 사이클 K+2로부터 패치에 대한 타일 데이터를 입력으로서 수신하고, 스택(702, 703, 704 및 705)으로부터 분리되어 입력 데이터 또는 중간 데이터를 공유하지 않는다. 일부 실시형태에서, 모든 스택(710-705)은 동일한 모델 및 동일한 훈련된 파라미터를 가질 수 있다. 다른 실시형태에서, 모델 및 훈련된 파라미터는 상이한 스택에서 상이할 수 있다. 스택(702)은 사이클 K+1로부터 패치에 대한 타일 데이터를 입력으로서 수신한다. 스택(703)은 사이클 K로부터 패치에 대한 타일 데이터를 입력으로서 수신한다. 스택(704)은 사이클 K-1로부터 패치에 대한 타일 데이터를 입력으로서 수신한다. 스택(705)은 사이클 K-2로부터 패치에 대한 타일 데이터를 입력으로서 수신한다. 분리된 스택의 층은 각각 층에 대한 입력 데이터에 대해 복수의 필터를 포함하는 커널의 컨볼루션 연산을 실행한다. 위의 예에서와 같이, 패치(700)는 3개의 피쳐를 포함할 수 있다. 층(710)의 출력은 10 내지 20개의 피쳐와 같은 더 많은 피쳐를 포함할 수 있다. 마찬가지로, 층(711 내지 716) 각각의 출력은 특정 구현예에 적합한 임의의 수의 피쳐를 포함할 수 있다. 필터의 파라미터는 가중치 및 바이어스와 같은 신경망에 대한 훈련된 파라미터이다. 스택(701-705) 각각으로부터의 출력 피쳐 세트(중간 데이터)는 다중 사이클로부터의 중간 데이터가 조합되는 시간 조합 층의 역 계층(720)에 대한 입력으로서 제공된다. 예시된 예에서, 역 계층(720)은 3개의 조합 층(721, 722, 723) - 각각은 분리된 스택들 중 3개로부터 중간 데이터를 수신함 - 을 포함하는 제1 층, 및 3개의 시간 스택(721, 722, 723)으로부터 중간 데이터를 수신하는 하나의 조합 층(730)을 포함하는 최종 층을 포함한다.
최종 조합 층(730)의 출력은 사이클 K로부터 타일의 대응하는 패치에 위치한 클러스터에 대한 분류 데이터의 출력 패치이다. 출력 패치는 사이클 K에 대한 타일에 대한 분류 데이터의 출력 어레이로 조립될 수 있다. 일부 실시형태에서, 출력 패치는 입력 패치와 상이한 크기 및 치수를 가질 수 있다. 일부 실시형태에서, 출력 패치는 클러스터 데이터를 선택하기 위해 호스트에 의해 필터링될 수 있는 픽셀별 데이터를 포함할 수 있다.
그 다음, 출력 분류 데이터는 특정 구현예에 따라 호스트에 의해 또는 구성 가능한 프로세서에서 선택적으로 실행되는 소프트맥스 함수(740)(또는 다른 출력 활성화 함수)에 적용될 수 있다. 소프트맥스와 상이한 출력 함수가 사용될 수 있다(예를 들어, 가장 큰 출력에 따라 염기 호출 출력 파라미터를 만든 다음, 컨텍스트/네트워크 출력을 사용하여 학습된 비선형 매핑을 사용하여 염기 품질을 제공함).
마지막으로, 소프트맥스 함수(740)의 출력은 사이클 K(750)에 대한 염기 호출 확률로서 제공될 수 있고 후속 처리에서 사용되도록 호스트 메모리에 저장될 수 있다. 다른 시스템은 출력 확률 계산을 위해 다른 함수, 예를 들어 다른 비선형 모델을 사용할 수 있다.
신경망은 하나의 감지 사이클의 시간 간격의 지속 시간 내에 또는 시간 간격의 지속 시간에 근접하여 하나의 타일 사이클의 평가를 완료하기 위해 복수의 실행 클러스터가 있는 구성 가능한 프로세서를 사용하여 구현되어, 실시간으로 출력 데이터를 효과적으로 제공할 수 있다. 데이터 흐름 로직은 타일 데이터의 입력 유닛 및 훈련된 파라미터를 실행 클러스터에 배포하고 메모리에서 집계를 위한 출력 패치를 배포하도록 구성할 수 있다.
도 7의 것과 같은 5-사이클 입력, 1-사이클 출력 신경망에 대한 데이터의 입력 유닛이 2-채널 센서 데이터를 이용한 염기 호출 동작을 위한 도 8a 및 도 8b를 참조하여 설명된다. 예를 들어, 유전자 서열에서의 소정의 염기에 대해, 염기 호출 작업은 2개의 분석물 유동 및 이미지와 같은 2개의 신호 채널을 생성하는 2개의 반응을 실행할 수 있으며, 이것은 처리되어 4개의 염기 중 어느 하나가 유전 물질의 각 클러스터에 대한 유전 서열에서의 현재 위치에 있는지를 식별할 수 있다. 다른 시스템에서, 감지 데이터의 상이한 수의 채널이 활용될 수 있다. 예를 들어, 1-채널 방식 및 시스템을 사용하여 염기 호출이 수행될 수 있다. 미국 특허출원공개 2013/0079232호의 통합 자료는 1-채널, 2-채널 또는 4-채널과 같은 다양한 수의 채널을 사용하는 염기 호출에 대해 논의한다.
도 8a는 5-사이클 입력, 1-사이클 출력 신경망을 실행하기 위해 사용되는 소정의 타일, 타일 M에 대한 5 사이클에 대한 타일 데이터 어레이를 보여준다. 이 예에서 5-사이클 입력 타일 데이터는 온보드 DRAM 또는 데이터 흐름 로직에 의해 액세스될 수 있는 시스템의 다른 메모리에 기록될 수 있으며, 사이클 K-2의 경우 채널 1을 위한 어레이 801과 채널 2를 위한 어레이 811, 사이클 K-1의 경우 채널 1을 위한 어레이 802와 채널 2를 위한 어레이 812, 사이클 K의 경우 채널 1을 위한 어레이 803과 채널 2를 위한 어레이 813, 사이클 K+1의 경우 채널 1을 위한 어레이 804와 채널 2를 위한 어레이 814, 사이클 K+2의 경우 채널 1을 위한 어레이 805와 채널 2를 위한 어레이 815를 포함한다. 또한 타일에 대한 메타데이터의 어레이(820)는 각 사이클과 함께 신경망에 대한 입력으로 사용하기 위해 포함된 메모리, 이 경우 DFC 파일에 한 번 기록될 수 있다.
비록 도 8a는 2-채널 염기 호출 동작을 논의하지만, 두 채널을 사용하는 것은 단지 예일 뿐이며, 염기 호출은 임의의 다른 적절한 수의 채널을 사용하여 수행될 수 있다. 예를 들어, 미국 특허출원공개 2013/0079232호의 통합 자료는 1-채널, 2-채널 또는 4-채널 또는 다른 적절한 수의 채널과 같은 다양한 수의 채널을 사용하는 염기 호출에 대해 논의한다.
데이터 흐름 로직은 입력 패치를 통해 신경망의 런을 실행하도록 구성된 각 실행 클러스터에 대한 타일 데이터 어레이의 공간적으로 정렬된 패치를 포함하는 타일 데이터의, 도 8b를 참조하여 이해될 수 있는 입력 유닛을 구성한다. 할당된 실행 클러스터에 대한 입력 단위는 5개의 입력 사이클에 대한 타일 데이터의 각 어레이(801-805, 811, 815, 820)로부터 공간적으로 정렬된 패치(예를 들어, 851, 852, 861, 862, 870)를 읽고, 이들을 할당된 실행 클러스터에 의해 사용되도록 구성된 구성 가능한 프로세서 상의 메모리에 데이터 경로(도식적으로 850)를 통해 전달함으로써 데이터 흐름 로직에 의해 구성된다. 할당된 실행 클러스터는 5-사이클 입력/1-사이클 출력 신경망의 런을 실행하고, 대상 사이클 K에서의 동일한 타일 패치에 대한 분류 데이터의 대상 사이클 K에 대한 출력 패치를 전달한다.
도 9는 도 7의 것과 같은 시스템(예를 들어, 701 및 720)에서 사용 가능한 신경망 스택의 단순화된 표현이다. 이 예에서, 신경망의 일부 함수(예를 들어, 900, 902)는 호스트에서 실행되고, 신경망의 다른 부분(예를 들어, 901)은 구성 가능한 프로세서에서 실행된다.
일 예에서, 제1 함수는 CPU 상에 형성된 배치 정규화(층 910)일 수 있다. 그러나, 다른 예에서, 함수로서의 배치 정규화는 하나 이상의 층으로 융합될 수 있고, 별도의 배치 정규화 층이 존재하지 않을 수 있다.
구성 가능한 프로세서에 대해 위에서 논의한 바와 같이, 다수의 분리된 공간 컨볼루션 층이 신경망의 컨볼루션 층의 제1 세트로서 실행된다. 이 예에서 컨볼루션 층의 제1 세트는 2D 컨볼루션을 공간적으로 적용한다.
도 9에 도시된 바와 같이, 각각의 스택에서 공간적으로 분리된 신경망 층의 수 L/2에 대해 제1 공간 컨볼루션(921)이 실행되고, 이어서 제2 공간 컨볼루션(922), 제3 공간 컨볼루션(923) 등이 뒤따르는 방식으로 실행된다(L은 도 7을 참조하여 설명된다). 923A에 표시된 바와 같이, 공간 층의 수는 임의의 실제 수일 수 있으며, 이는 문맥상 상이한 실시형태에서 몇 개 내지 20개 초과의 범위일 수 있다.
SP_CONV_ 0의 경우, 이 층에 대한 3개의 입력 채널이 있기 때문에 커널 가중치는 예를 들어 (1,6,6,3,L) 구조에 저장된다. 이 예에서, 이 구조에서의 "6"은 변환된 Winograd 도메인에 계수를 저장하기 때문이다(커널 크기는 공간 도메인에서 3×3이지만 변환 도메인에서 확장됨).
다른 SP_CONV 층의 경우, 이들 각 층에 대해 K(=L) 입력 및 출력이 있기 때문에 커널 가중치가 이 예에 대해 (1,6,6 L) 구조에 저장된다.
공간 층 스택의 출력은 FPGA에서 실행되는 컨볼루션 층(924, 925)을 포함하는 시간 층에 제공된다. 층(924, 925)은 사이클에 걸쳐 1D 컨볼루션을 적용하는 컨볼루션 층일 수 있다. 924A에 표시된 바와 같이, 시간 층의 수는 임의의 실제 수일 수 있으며, 이는 문맥상 상이한 실시형태에서 몇 개 내지 20개 초과의 범위일 수 있다.
제1 시간 층인 TEMP_CONV_0 층(824)은 도 7에 도시된 바와 같이 사이클 채널의 수를 5에서 3으로 줄인다. 제2 시간 층인 층(925)은 도 7에 도시된 바와 같이 사이클 채널의 수를 3에서 1로 줄이고 피쳐 맵의 수를 각 픽셀에 대해 4개의 출력으로 줄여, 각 염기 호출에서 신뢰도를 나타낸다.
시간 층의 출력은 출력 패치에 누적되고 호스트 CPU에 전달되어 예를 들어 소프트맥스 함수(930), 또는 염기 호출 확률을 정규화하는 다른 함수를 적용한다.
도 10은 염기 호출 동작을 위해 실행될 수 있는 10-입력, 6-출력 신경망을 보여주는 대안적인 구현을 예시한다. 이 예에서 사이클 0에서 9까지의 공간적으로 정렬된 입력 패치에 대한 타일 데이터는 사이클 9에 대한 스택(1001)과 같이 공간 층의 분리된 스택에 적용된다. 분리된 스택의 출력은 대상 사이클 2 내지 7에 대한 염기 호출 분류 데이터를 제공하는 출력(1035(2) 내지 1035(7))을 갖는 시간 스택(1020)의 역 계층 배열에 적용된다.
도 11은 상이한 서열분석 사이클에 대한 데이터의 처리를 분리하는 데 사용되는 신경망 기반 염기 호출자(예를 들어, 도 7)의 특화된 아키텍처의 일 구현예를 도시한다. 특화된 아키텍처를 사용하기 위한 동기가 먼저 기술된다.
신경망 기반 염기 호출자는 현재 서열분석 사이클, 하나 이상의 선행 서열분석 사이클, 및 하나 이상의 연속적 서열분석 사이클에 대한 데이터를 처리한다. 추가적인 서열분석 사이클에 대한 데이터는 서열-특이적 콘텍스트를 제공한다. 신경망 기반 염기 호출자는 훈련 동안 서열-특이적 콘텍스트를 학습하고, 그것들을 염기 호출한다. 더욱이, 사전 및 사후 서열분석 사이클에 대한 데이터는 현재 서열분석 사이클에 대한 사전-페이징 및 페이징 신호의 2차 기여를 제공한다.
상이한 서열분석 사이클에서 그리고 상이한 이미지 채널에서 캡처된 이미지는 오정렬되고, 서로에 대해 잔차 등록 오류(residual registration error)를 갖는다. 이러한 오정렬을 처리하기 위해, 특화된 아키텍처는 서열분석 사이클들 사이의 정보를 혼합하지 않고 단지 한 서열분석 사이클 내에서의 정보만을 혼합하는 공간 컨볼루션 층을 포함한다.
공간 컨볼루션 층은, 컨볼루션의 "전용 비공유" 서열을 통해 복수의 서열분석 사이클 각각에 대해 데이터를 독립적으로 처리함으로써 분리를 조작하는 소위 "분리형 컨볼루션"을 사용한다. 분리형 컨볼루션은, 임의의 다른 서열분석 사이클의 데이터 및 생성된 피쳐 맵에 걸쳐서 컨볼루션하지 않고서, 단지 소정의 서열분석 사이클, 즉, 사이클내(intra-cycle) 전용의 데이터 및 생성된 피쳐 맵에 걸쳐서 컨볼루션한다.
예를 들어, 입력 데이터는 (i) 염기 호출될 현재(시간 t) 서열분석 사이클에 대한 현재 데이터, (ii) 이전(시간 t-1) 서열분석 사이클에 대한 이전 데이터, 및 (iii) 차기(시간 t+1) 서열분석 사이클에 대한 차기 데이터를 포함하는 것을 고려한다. 이어서, 특화된 아키텍처는 3개의 별개의 데이터 처리 파이프라인(또는 컨볼루션 파이프라인), 즉, 현재 데이터 처리 파이프라인, 이전 데이터 처리 파이프라인, 및 차기 데이터 처리 파이프라인을 개시한다. 현재 데이터 처리 파이프라인은 현재(시간 t) 서열분석 사이클에 대한 현재 데이터를 입력으로서 수신하고, 이를 복수의 공간 컨볼루션 층을 통해 독립적으로 처리하여 최종 공간 컨볼루션 층의 출력으로서 소위 "현재 공간적으로 컨볼루션된 표현"을 생성한다. 이전 데이터 처리 파이프라인은 이전(시간 t-1) 서열분석 사이클에 대한 이전 데이터를 입력으로서 수신하고, 이를 복수의 공간 컨볼루션 층을 통해 독립적으로 처리하여 최종 공간 컨볼루션 층의 출력으로서 소위 "이전에 공간적으로 컨볼루션된 표현"을 생성한다. 차기 데이터 처리 파이프라인은 차기(시간 t+1) 서열분석 사이클에 대한 차기 데이터를 입력으로서 수신하고, 이를 복수의 공간 컨볼루션 층을 통해 독립적으로 처리하여 최종 공간 컨볼루션 층의 출력으로서 소위 "차기의 공간적으로 컨볼루션된 표현"을 생성한다.
일부 구현예에서, 현재 파이프라인, 하나 이상의 이전 파이프라인, 및 하나 이상의 차기 처리 파이프라인은 병렬로 실행된다.
일부 구현예에서, 공간 컨볼루션 층은 특화된 아키텍처 내의 공간 컨볼루션 네트워크(또는 서브네트워크)의 일부이다.
신경망 기반 염기 호출자는 서열분석 사이클들 사이의, 즉, 인터-사이클 정보를 혼합하는 시간 컨볼루션 층을 추가로 포함한다. 시간 컨볼루션 층은 공간 컨볼루션 네트워크로부터 그것들의 입력을 수신하고, 각자의 데이터 처리 파이프라인에 대해 최종 공간 컨볼루션 층에 의해 생성되는 공간적으로 컨볼루션된 표현 상에서 동작한다.
시간 컨볼루션 층의 인터-사이클 동작가능성 자유는, 공간 컨볼루션 네트워크에 대한 입력으로서 공급되는 이미지 데이터 내에 존재하는 오정렬 속성이 공간 컨볼루션 층의 서열에 의해 수행되는 분리형 컨볼루션의 스택 또는 캐스케이드에 의해, 공간적으로 컨볼루션된 표현으로부터 제거된다(purged out)는 사실로부터 나온다.
시간 컨볼루션 층은 슬라이딩 윈도우 단위로 연속적 입력에서 입력 채널에 걸쳐서 그룹별로 컨볼루션하는 소위 "조합 컨볼루션"을 사용한다. 일 구현예에서, 연속적 입력은 이전 공간 컨볼루션 층 또는 이전 시간 컨볼루션 층에 의해 생성되는 연속적 출력이다.
일부 구현예에서, 시간 컨볼루션 층은 특화된 아키텍처 내의 시간 컨볼루션 네트워크(또는 서브네트워크)의 일부이다. 시간 컨볼루션 네트워크는 그의 입력을 공간 컨볼루션 네트워크로부터 수신한다. 일 구현예에서, 시간 컨볼루션 네트워크의 제1 시간 컨볼루션 층은 서열분석 사이클들 사이의 공간적으로 컨볼루션된 표현을 그룹별로 조합한다. 다른 구현예에서, 시간 컨볼루션 네트워크의 후속 시간 컨볼루션 층은 이전 시간 컨볼루션 층의 연속적 출력을 조합한다.
최종 시간 컨볼루션 층의 출력은 출력을 생성하는 출력 층에 공급된다. 출력은 하나 이상의 서열분석 사이클에서 하나 이상의 클러스터를 염기 호출하는 데 사용된다.
순방향 전파 동안, 특화된 아키텍처는 2개의 스테이지에서 복수의 입력으로부터의 정보를 처리한다. 제1 스테이지에서, 입력들 사이의 정보의 혼합을 방지하기 위해 분리된 컨볼루션이 사용된다. 제2 스테이지에서, 입력들 사이의 정보를 혼합하기 위해 조합 컨볼루션이 사용된다. 제2 스테이지로부터의 결과는 복수의 입력에 대한 단일 추론을 행하는 데 사용된다.
이는, 컨볼루션 층이 배치(batch) 내의 다수의 입력을 동시에 처리하고 배치 내의 각각의 입력에 대한 대응하는 추론을 행하는 배치 모드 기법과는 상이하다. 대조적으로, 특화된 아키텍처는 복수의 입력을 단일 추론에 매핑한다. 단일 추론은 4개의 염기(A, C, T, G) 각각에 대한 분류 점수와 같은 하나 초과의 예측을 포함할 수 있다.
일 구현예에서, 입력은, 각각의 입력이 상이한 시간 단계(time step)에서 생성되고 복수의 입력 채널을 갖도록 시간 순서화를 갖는다. 예를 들어, 복수의 입력은 하기 3개의 입력을 포함할 수 있다: 시간 단계(t)에서 현재 서열분석 사이클에 의해 생성되는 현재 입력, 시간 단계(t-1)에서 이전 서열분석 사이클에 의해 생성된 이전 입력, 및 시간 단계(t+1)에서 차기 서열분석 사이클에 의해 생성되는 차기 입력. 다른 구현예에서, 각각의 입력은 하나 이상의 이전 컨볼루션 층에 의해 현재, 이전, 및 차기 입력으로부터 각각 도출되고, k개의 피쳐 맵을 포함한다.
일 구현예에서, 각각의 입력은 다음의 5개의 입력 채널을 포함할 수 있다: 적색 이미지 채널(적색), 적색 거리 채널(황색), 녹색 이미지 채널(녹색), 녹색 거리 채널(보라색), 및 스케일링 채널(청색). 다른 구현예에서, 각각의 입력은 빨간색 및 녹색 채널 대신에 또는 이에 더하여 파란색 및 보라색 색상 채널(또는 하나 이상의 다른 적절한 색상 채널)일 수 있다. 다른 구현예에서, 각각의 입력은 빨간색, 녹색, 보라색 및/또는 노란색 채널 대신에 또는 이에 더하여 파란색 및 보라색 색상 채널일 수 있다. 다른 구현예에서, 각각의 입력은 이전 컨볼루션 층에 의해 생성된 k개의 피쳐 맵을 포함할 수 있고, 각각의 피쳐 맵은 입력 채널로서 취급된다. 또 다른 예에서, 각각의 입력은 단지 하나의 채널, 2개의 채널, 또는 다른 상이한 수의 채널을 가질 수 있다. 미국 특허출원공개 2013/0079232호의 통합 자료는 1-채널, 2-채널 또는 4-채널과 같은 다양한 수의 채널을 사용하는 염기 호출에 대해 논의한다.
도 12는 분리형 층의 일 구현예를 도시하며, 이들 각각은 컨볼루션을 포함할 수 있다. 분리형 컨볼루션은 컨볼루션 필터를 각각의 입력에 병렬로 인가함으로써 복수의 입력을 한꺼번에 처리한다. 분리형 컨볼루션을 사용하면, 컨볼루션 필터는 동일한 입력에서 입력 채널을 조합하고, 상이한 입력에서 입력 채널을 조합하지 않는다. 일 구현예에서, 동일한 컨볼루션 필터가 병렬로 각각의 입력에 적용된다. 다른 구현예에서, 상이한 컨볼루션 필터가 병렬로 각각의 입력에 적용된다. 일부 구현예에서, 각각의 공간 컨볼루션 층은 병렬로 각각의 입력에 각각 적용되는 k개의 컨볼루션 필터의 뱅크를 포함한다.
도 13a는 조합 층의 일 구현예를 도시하며, 이들 각각은 컨볼루션을 포함할 수 있다. 도 13b는 조합 층의 다른 구현예를 도시하며, 이들 각각은 컨볼루션을 포함할 수 있다. 조합 컨볼루션은, 상이한 입력의 대응하는 입력 채널을 그룹화하고 각각의 그룹에 컨볼루션 필터를 적용함으로써, 상이한 입력들 사이의 정보를 혼합한다. 대응하는 입력 채널의 그룹화 및 컨볼루션 필터의 적용은 슬라이딩 윈도우 단위로 발생한다. 이러한 상황에서, 윈도우는, 예를 들어 2개의 연속적 서열분석 사이클에 대한 출력을 표현하는 2개 이상의 연속적 입력 채널에 걸쳐 있다. 윈도우가 슬라이딩 윈도우이기 때문에, 대부분의 입력 채널이 2개 이상의 윈도우에서 사용된다.
일부 구현예에서, 상이한 입력은 선행 공간 또는 시간 컨볼루션 층에 의해 생성된 출력 서열로부터 유래한다. 출력 서열에서, 상이한 입력은 연속적 출력로서 배열되고, 따라서, 차기 시간 컨볼루션 층에 의해 연속적 입력으로서 보여진다. 이어서, 차기 시간 컨볼루션 층에서, 조합 컨볼루션은 연속적 입력에서 대응하는 입력 채널의 그룹에 컨볼루션 필터를 적용한다.
일 구현예에서, 연속적 입력은, 시간 단계(t)에서 현재 서열분석 사이클에 의해 현재 입력이 생성되고, 시간 단계(t-1)에서 이전 서열분석 사이클에 의해 이전 입력이 생성되고, 시간 단계(t+1)에서 차기 서열분석 사이클에 의해 차기 입력이 생성되도록 시간 순서화를 갖는다. 다른 구현예에서, 각각의 연속적 입력은 하나 이상의 이전 컨볼루션 층에 의해 현재, 이전, 및 차기 입력으로부터 각각 도출되고, k개의 피쳐 맵을 포함한다.
일 구현예에서, 각각의 입력은 다음의 5개의 입력 채널을 포함할 수 있다: 적색 이미지 채널(적색), 적색 거리 채널(황색), 녹색 이미지 채널(녹색), 녹색 거리 채널(보라색), 및 스케일링 채널(청색). 다른 구현예에서, 각각의 입력은 이전 컨볼루션 층에 의해 생성된 k개의 피쳐 맵을 포함할 수 있고, 각각의 피쳐 맵은 입력 채널로서 취급된다.
컨볼루션 필터의 깊이 B는, 대응하는 입력 채널이 슬라이딩 윈도우 단위로 컨볼루션 필터에 의해 그룹별로 컨볼루션되는 연속적 입력의 수에 의존적이다. 다시 말하면, 깊이B는 각각의 슬라이딩 윈도우에서의 연속적 입력의 수 및 그룹 크기와 동일하다.
도 13a에서, 2개의 연속적 입력으로부터의 대응하는 입력 채널이 각각의 슬라이딩 윈도우에서 조합되고, 따라서 B = 2이다. 도 13b에서, 3개의 연속적 입력으로부터의 대응하는 입력 채널이 각각의 슬라이딩 윈도우에서 조합되고, 따라서 B = 3이다.
일 구현예에서, 슬라이딩 윈도우는 동일한 컨볼루션 필터를 공유한다. 다른 구현예에서, 상이한 컨볼루션 필터가 각각의 슬라이딩 윈도우에 사용된다. 일부 구현예에서, 각각의 시간 컨볼루션 층은 슬라이딩 윈도우 단위로 연속적 입력에 각각 적용되는 k개의 컨볼루션 필터의 뱅크를 포함한다.
도 4 내지 10 및 그 변형에 대한 추가적인 세부사항은 2021년 2월 15일에 "HARDWARE EXECUTION AND ACCELERATION OF ARTIFICIAL INTELLIGENCE-BASED BASE CALLER"라는 명칭으로 출원된 동시 계류 중인 미국 정규 특허 출원 제17/176,147호(대리인 문서 번호 ILLM 1020-2/IP-1866-US)에서 찾을 수 있으며, 이는 마치 본원에 완전히 설명된 것처럼 참조로 포함된다.
품질 점수를 생성하는 염기 호출 시스템
도 14a는 호출할 다양한 염기에 대해 A, C, T 및 G에 대응하는 품질 점수를 생성하는 염기 호출 시스템(1400)을 예시한다.
도 14a의 예에서, 염기 호출 시스템(1400)은 도 4의 서열분석 기계(400)와 같은 서열분석기(1404)를 포함한다. 일 실시형태에서, 서열분석기(1404)는 도 1의 바이오센서(100)의 플로우 셀(102)과 유사한 플로우 셀(1405)을 포함하는 바이오센서(도 14a에는 예시되지 않음)를 포함한다.
도 2, 3 및 6과 관련하여 논의된 바와 같이, 시스템(1400)의 플로우 셀(1405)은 복수의 타일(1406)을 포함하며, 각 타일은 복수의 대응 클러스터(1407)를 포함한다. 예를 들어, 플로우 셀(1405)은 복수의 타일 레인을 포함하며, 각 타일은 도 2와 관련하여 논의된 바와 같이 대응하는 복수의 클러스터를 포함한다. 도 14a에서, 플로우 셀(1405)은 예시적 타일의 일부 이러한 예시적 클러스터(1407)를 포함하는 것으로 예시되어 있다. 염기 호출 프로세스 동안, 특정 서열분석 사이클에서 모든 클러스터에 대한 염기 호출(A, C, G, T)이 예측되며, 대응하는 확률 점수(1424) 및/또는 품질 점수(1432)가 수반되는데, 이는 본원에서 더 자세히 설명될 것이다.
본원에서 이전에 논의된 바와 같이, 서열분석기(1404)는 센서 데이터(1412)를 생성한다. 예를 들어, 개별 클러스터 및 개별 서열분석 사이클에 대한 센서 데이터가 생성된다. 특정 클러스터 및 특정 서열분석 사이클에 대한 센서 데이터는 특정 서열분석 사이클에 대해 특정 클러스터를 채우는 염기를 나타낸다.
시스템(1400)은 염기 호출자(1416)를 포함한다. 센서 데이터(1412)에 기초하여 염기 호출자(1416)는 클러스터에 로딩된 서열의 염기를 호출한다. 예를 들어, 염기 호출 사이클 동안 염기 호출자(1416)는 개별 클러스터의 핵산 서열에서 뉴클레오티드 염기를 식별한다. 염기 호출은 특정 사이클에서 모든 클러스터에 대한 염기 호출(A, C, G, T)을 결정하는 과정을 지칭한다. 예를 들어, 미국 특허출원공개 2013/0079232호의 통합 자료에 설명된 4채널, 2채널 또는 1채널 방법 및 시스템을 사용하여 염기 호출이 수행될 수 있다.
이미지 데이터인 센서 데이터(1412)
서열분석기(1404)에 의해 생성된 센서 데이터(1412)의 유형은 사용된 서열분석기(1404)의 유형에 기초한다. 예를 들어, 본원에서 논의된 서열분석기 중 일부는 본원에서 이전에 논의된 바와 같이 플로우 셀의 센서에 의해 캡처된 이미지의 형태로 센서 데이터(1412)를 생성한다. 예를 들어, 이러한 이미지 데이터는 서열분석 런(run) 중에 서열분석기의 시퀀서에 의해 생성된 서열분석 이미지로부터 유도된다. 예를 들어, 센서 데이터(1412)는 분석물 세트의 강도 방출을 묘사하며, 강도 방출은 이미지로서 캡처된다(도 17e 참조, 예를 들어 강도 정보를 포함하는 이미지). 논의된 바와 같이, 강도 방출은 서열분석 런의 서열분석 사이클 동안 분석물 세트에서의 분석물에 의해 생성된다. 메모리는 센서 데이터(1412)의 강도 방출을 포함하는 이미지를 저장한다.
일 구현예에서, 이미지 데이터는 서열분석 이미지로부터 추출된 n×n 이미지 패치를 포함하며, n은 1 내지 10,000 범위의 임의의 숫자 또는 다른 적절한 범위이다. 서열분석 런은 대응 m개의 이미지 채널에 대해 서열분석 사이클당 m개의 이미지(들)를 생성하고, 특정 서열분석 사이클에 대한 이미지 데이터를 준비하기 위해 m개의 이미지(들) 각각으로부터 이미지 패치가 추출된다. 4-, 2-, 및 1-채널 화학과 같은 상이한 구현예에서, m은 4 또는 2이다. 다른 구현예에서, m은 1, 3, 또는 4 초과이다. 이미지 데이터는, 일부 구현예에서는 광학 픽셀 도메인 내에 있고, 다른 구현예에서는 업샘플링된 서브픽셀 도메인(upsampled, subpixel domain) 내에 있다. 이미지 데이터는 다수의 서열분석 사이클(예컨대, 현재 서열분석 사이클, 하나 이상의 선행 서열분석 사이클, 및 하나 이상의 연속적인 서열분석 사이클)에 대한 데이터를 포함한다. 일 구현예에서, 이미지 데이터는 3개의 서열분석 사이클에 대한 데이터를 포함하여, 염기 호출될 현재(시간 t) 서열분석 사이클에 대한 데이터에 (i) 좌측 플랭킹/콘텍스트/이전/선행/우선(시간 t-1) 서열분석 사이클에 대한 데이터, 및 (ii) 우측 플랭킹/콘텍스트/다음/연속/후속(시간 t+1) 서열분석 사이클에 대한 데이터가 동반된다(예를 들어, 도 7 및 10 참조). 다른 구현예에서, 이미지 데이터는 단일 서열분석 사이클에 대한 데이터를 포함한다. 이미지 데이터는 하나 이상의 클러스터와 주변 배경의 강도 방출을 나타낸다. 일 구현예에서, 단일 표적 클러스터가 염기 호출될 때, 이미지 패치는 각 이미지 패치가 중심 픽셀에 타겟 클러스터의 중심을 포함하는 방식으로 서열분석 이미지로부터 추출되며, 이는 본원에서 "표적 클러스터-중심 패치 추출"이라고 지칭되는 개념이다. 이미지 데이터는 강도 채널(이미지 채널이라고도 함)을 사용하여 입력 데이터에 인코딩된다. 특정 서열분석 사이클 동안 시퀀서로부터 얻은 m개의 이미지 각각에 대해 별도의 이미지 채널을 사용하여 그의 강도 데이터를 인코딩한다. 예를 들어, 서열분석 런이 각 서열분석 사이클에서 적색 이미지와 녹색 이미지를 생성하는 2채널 화학을 사용하고, 그 다음 입력 데이터는 (i) 적색 이미지에 캡처된 하나 이상의 클러스터 및 그 주변 배경의 강도 방출을 나타내는 n×n 픽셀을 갖는 제1 적색 이미지 채널, 및 (ii) 녹색 이미지에 캡처된 하나 이상의 클러스터 및 그 주변 배경의 강도 방출을 나타내는 nxn 픽셀을 갖는 제2 녹색 이미지 채널을 포함한다.
일 예에서, 바이오센서는 광 센서의 어레이를 포함한다. 광 센서는 바이오센서의 검출 표면 상의 대응 픽셀 영역(예를 들어, 반응 부위/웰/나노웰)으로부터 정보를 감지하도록 구성된다. 픽셀 영역에 배치된 분석물은 픽셀 영역과 관련되어 있다고, 즉 관련된 분석물이라고 말한다. 서열분석 사이클에서, 픽셀 영역에 대응하는 광 센서는 관련 분석물로부터 방출/광자를 검출/캡처/감지하고 이에 응답하여 이미지화된 각 채널에 대한 픽셀 신호를 생성하도록 구성된다. 일 구현예에서, 각각의 이미지 채널은 복수의 필터 파장 대역 중 하나에 대응한다. 다른 구현예에서, 각각의 이미지 채널은 서열분석 사이클에서의 복수의 이미징 이벤트 중 하나에 대응한다. 또 다른 구현예에서, 각각의 이미지 채널은 특정 레이저를 사용하는 조명과 특정 광학 필터를 통한 이미징의 조합에 대응한다. 광 센서로부터의 픽셀 신호는 바이오센서에 결합된 신호 프로세서로 (예를 들어, 통신 포트를 통해) 전달된다. 각각의 서열분석 사이클과 각각의 이미지화된 채널에 대해 신호 프로세서는 픽셀이 대응 광 센서로부터 얻은 픽셀 신호를 각각 묘사/함유/표시/표현/특성화하는 이미지를 생성한다. 이러한 방식으로 이미지의 픽셀은 (i) 픽셀에 의해 묘사된 픽셀 신호를 생성한 바이오센서의 광 센서, (ii) 방출이 대응 광 센서에 의해 검출되어 픽셀 신호로 변환된 관련 분석물, 및 (iii) 관련 분석물을 보유하는 바이오센서의 검출 표면의 픽셀 영역에 대응한다. 예를 들어, 서열분석 런이 2개의 상이한 이미지 채널, 즉 적색 채널 및 녹색 채널을 사용하는 것을 고려한다. 그 다음, 각각의 서열분석 사이클에서, 신호 프로세서는 적색 이미지 및 녹색 이미지를 생성한다. 이러한 방식으로, 서열분석 런의 일련의 k개의 서열분석 사이클에 대해, 적색 및 녹색 이미지의 k개의 쌍을 갖는 서열이 출력으로서 생성된다. 적색 및 녹색 이미지의 픽셀(즉, 상이한 이미지화 채널)은 서열분석 사이클 내에서 일대일 대응을 갖는다. 이는 적색과 녹색 이미지 쌍의 대응 픽셀이 상이한 이미지화 채널에 있지만 동일한 관련 분석물에 대한 강도 데이터를 나타냄을 의미한다. 유사하게, 적색과 녹색 이미지 쌍에 걸친 픽셀은 서열분석 사이클들 간에 일대일 대응을 갖는다. 이는 서열분석 런의 상이한 획득 이벤트/시간 단계(서열분석 사이클)에 대해서도 적색 및 녹색 이미지의 상이한 쌍에서의 대응 픽셀이 동일한 관련 분석물에 대한 강도 데이터를 나타냄을 의미한다. 적색과 녹색 이미지(즉, 상이한 이미지화 채널)의 대응 픽셀은 제1 적색 채널과 제2 녹색 채널의 강도 데이터를 표현하는 "주기별 이미지"의 픽셀로 간주될 수 있다. 픽셀이 픽셀 영역의 서브세트, 즉 바이오센서 검출 표면의 영역(타일)에 대한 픽셀 신호를 묘사하는 사이클별 이미지가 "사이클별 타일 이미지"라고 불린다. 사이클별 타일 이미지로부터 추출된 패치가 '사이클별 이미지 패치'라고 불린다. 일 구현예에서, 패치 추출은 입력 준비자에 의해 수행된다. 이미지 데이터는 서열분석 런의 일련의 k개의 서열분석 사이클 동안 생성된 사이클별 이미지 패치의 서열을 포함한다. 사이클별 이미지 패치의 픽셀은 관련 분석물에 대한 강도 데이터를 포함하며, 강도 데이터는 관련 분석물로부터의 방출을 검출하도록 구성된 대응 광 센서에 의해 하나 이상의 이미지화 채널(예를 들어, 적색 채널 및 녹색 채널)에 대해 얻어진다. 일 구현예에서, 단일 표적 클러스터가 염기 호출될 때, 사이클별 이미지 패치는 표적 관련 분석물에 대한 강도 데이터를 포함하는 중심 픽셀에 중심을 두고, 사이클별 이미지 패치 내의 비-중심 픽셀은 표적 관련 분석물에 인접한 관련 분석물에 대한 강도 데이터를 포함한다. 일 구현예에서, 이미지 데이터는 입력 준비자에 의해 준비된다.
이미지 데이터인 센서 데이터(1412)의 예에 대한 추가의 상세는 2020년 3월 20일에 출원된 "ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING"라는 제목의 미국 정규 특허 출원 제16/826,134호(대리인 문서 번호 ILLM 1008-19/ IP-1747-US)에서 찾아 볼 수 있으며, 이는 본원에 참조로 포함된다.
비-이미지 데이터인 센서 데이터(1412)
또 다른 예에서, 센서 데이터(1412)는 예측할 염기를 나타내는 화학적 특성(예를 들어, pH 수준)을 나타낼 수 있다. 예를 들어, 이러한 pH 변화는 분자 연장 동안 수소 이온의 방출에 의해 유도될 수 있다. pH 변화가 검출되고, (예컨대, Ion Torrent의 경우에) 혼입된 염기의 수에 비례하는 전압 변화로 변환된다.
다른 예에서, 센서 데이터(1412)는 플로우 셀(1405)에 의해 생성된 전기 신호(예를 들어, 전류 또는 전압)의 형태일 수 있다.
또 다른 예에서, 센서 데이터(1412)는 염기의 정체성을 결정하는 동안 분석물이 나노포어(nanopore)를 통과하거나 그의 구멍(aperture) 근처를 지날 때 바이오센서를 사용하여 전류의 중단을 측정하는 나노포어 감지로부터 구성된다. 예를 들어, Oxford Nanopore Technologies(ONT) 서열분석은 하기의 개념에 기초한다: 나노포어를 경유하여 멤브레인을 통해 DNA(또는 RNA)의 단일 가닥을 전달하고, 멤브레인에 걸친 전압차를 적용한다. 포어에 존재하는 뉴클레오티드는 포어의 전기 저항에 영향을 줄 것이며, 따라서, 시간 경과에 따른 전류 측정치는 포어를 통과하는 DNA 염기의 서열을 나타낼 수 있다. 이러한 전류 신호(플롯될 때 그의 외관으로 인한 '굴곡선(squiggle)')는 ONT 서열분석기에 의해 수집되는 원시 데이터이다. 이러한 측정치는 (예를 들어) 4 ㎑ 주파수에서 취해진 16-비트 정수 데이터 획득(DAC) 값으로서 저장된다. 초당 약 450개의 염기 쌍의 DNA 가닥 속도에 의해, 이는 평균적으로 염기당 대략 9개의 원시 관찰물(observation)을 제공한다. 그 다음, 이러한 신호는 개별 리드에 대응하는 열린 포어 신호에서의 중단을 식별하도록 처리된다. 원시 신호의 이러한 스트레치(stretch)는 DAC 값을 DNA 염기의 서열로 변환하는 프로세스를 통해 염기 호출된다. 일부 구현예에서, 센서 데이터(1412)는 정규화된 또는 스케일링된 DAC 값을 포함한다.
염기 호출자(1416)
염기 호출자(1416)는 임의의 적절한 유형의 염기 호출자일 수 있다. 일 예에서, 염기 호출자(1416)는 신경망 기반 염기 호출자일 수 있으며, 이는 도 7 내지 13b와 관련하여 논의된 "심층 학습" 기반 염기 호출자라고도 지칭된다. 다른 예에서, 염기 호출자는 적어도 부분적으로 선형인 비신경망 모델을 포함하는 "RTA" 기반 염기 호출자이다. 심층 학습 기반 염기 호출자 및 RTA 염기 호출자의 예는 2020년 3월 20일에 출원된 "Artificial Intelligence-Based Base Calling"이라는 명칭의 미국 정규 특허 출원 제16/826,126호(대리인 문서 번호 ILLM 1008-18/IP-1744-US)에 논의되어 있으며, 이는 본원에 완전히 설명된 것처럼 모든 목적을 위해 참조로 포함된다. 본 개시내용의 원리는 염기 호출을 생성하는 데 사용되는 염기 호출자의 유형에 제한되지 않는다. 예를 들어, 염기 호출자(1416)는 본원에서 이전에 논의된 이미지 및/또는 비-이미지 유형의 센서 데이터와 같은 임의의 적절한 유형의 센서 데이터를 처리할 수 있는 일부 다른 적절한 유형일 수 있다.
일 예에서, 염기 호출자(1416)는 서열분석기(1404)에 대해 로컬이다. 따라서, 염기 호출자(1416) 및 서열분석기(1404)는 근위측에 위치하며(예를 들어, 동일한 하우징 내 또는 근위에 위치된 2개의 하우징 내), 염기 호출자(1416)는 서열분석기(1404)로부터 직접 센서 데이터(1412)를 수신한다.
다른 예에서, 염기 호출자(1416)는 소위 클라우드 기반 염기 호출자의 예인 서열분석기(1404)에 대해 원격에 위치한다. 따라서, 염기 호출자(1416)는 인터넷과 같은 컴퓨터 네트워크를 통해 서열분석기(1404)으로부터 센서 데이터(1412)를 수신한다.
확률 점수
일 예에서, 사용된 염기 호출자의 위치 및/또는 유형에 관계없이, 염기 호출자(1416)는 호출될 염기의 확률 점수를 생성하기 위한 출력 층(1420)을 포함한다. 예를 들어, 출력 층(1420)은 현재 서열분석 사이클에서 단일 표적 클러스터에 포함된 염기가 A, C, T, G 중 하나인 우도(분류 점수)를 생성하고, 우도에 기초하여 염기를 A, C, T, G 중 하나로 분류한다(예를 들어, 최대 우도를 갖는 염기가 선택됨). 이러한 구현예에서, 우도는 소프트맥스 분류 층에 의해 생성된 기하급수적으로 정규화된 점수이며 그 합은 1이다. 따라서, 예를 들어 소프트맥스 층을 포함할 수 있는 출력 층(1420)은 호출된 염기 및 대응 확률 P(A), P(C), P(T), P(G)를 예측한다.
예를 들어, 특정 클러스터에 대응하여 호출될 특정 염기에 대해 대응 확률 점수(1424)가 생성된다. 2개의 예시적인 클러스터(1407a 및 1407b)에 대한 예시적인 확률 점수가 도 14a에 예시되어 있다. 단지 예로서, 클러스터(1407a)에 대해 특정 서열분석 사이클에 대해 호출될 염기가 A일 확률은 P(A) = 0.9이고; 특정 서열분석 사이클에 대해 호출될 염기가 C일 확률은 P(C) = 0.02이고; 특정 서열분석 사이클에 대해 호출될 염기가 T일 확률은 P(T) = 0.04이며; 특정 서열분석 사이클에 대해 호출될 염기가 G일 확률은 P(G) = 0.04이다.
단지 예로서, 다른 클러스터(1407b)에 대해 특정 서열분석 사이클에 대해 호출될 염기가 A일 확률은 P(A) = 0.01이고; 특정 서열분석 사이클에 대해 호출될 염기가 C일 확률은 P(C) = 0.03이고; 특정 서열분석 사이클에 대해 호출될 염기가 T일 확률은 P(T) = 0.01이며; 특정 서열분석 사이클에 대해 호출될 염기가 G일 확률은 P(G) = 0.95이다.
소정의 클러스터 및 소정의 서열분석 사이클에 대해 확률 점수 P(A)+P(C)+P(T)+P(G)의 합은 1이며, 즉, 확률 점수는 정규화된다(예를 들어, 출력 층(1420)에서 또는 그 이후에 소프트맥스 함수를 사용하여).
일 예에서, 확률 점수(1424)는 또한 본원에서 우도 점수, 소프트맥스 점수, 신뢰 점수 및/또는 기타로도 지칭된다. 확률 점수(1424)는 각 클러스터에 대해 그리고 서열분석 런의 각 서열분석 사이클에 대해 생성된다.
일 실시형태에서, 확률 점수(1424)에 더하여, 염기 호출자(1416)는 또한 염기를 호출할 수 있다. 단지 예로서, 클러스터(1407a)에 대해, 염기 호출자(1416)는 임계값보다 높은 확률 점수 P(A)에 기초하여 및/또는 P(C), P(T) 또는 P(G) 각각보다 높은 확률 점수 P(A)에 기초하여 염기를 A라고 호출할 수 있다. 유사하게, 클러스터(1407b)에 대해, 염기 호출자(1416)는 임계값보다 높은 확률 점수 P(G)에 기초하여 및/또는 P(A), P(C) 또는 P(T) 각각보다 높은 확률 점수 P(G)에 기초하여 염기를 G라고 호출할 수 있다.
품질 점수(1432)
일 실시형태에서, 염기 호출 시스템(1400)은 확률 점수(1424)를 대응하는 품질 점수(1432)로 변환하도록 구성된 품질 점수 생성 모듈(1428)을 추가로 포함한다. 예를 들어, 품질 점수 Q는 다음과 같이 대응 확률 점수 P와 관련된다:
[식 1]
Q = -10 × log10(1-P).
따라서, 소정의 클러스터와 소정의 서열분석 사이클에 대해 그리고 염기 A, C, T 및 G에 대해, 대응 품질 점수는 다음과 같이 주어진다:
[식 2]
Q(A) = -10 × log10 (1 - P(A)),
Q(C) = -10 × log10 (1 - P(C)),
Q(T) = -10 × log10 (1 - P(T)),
Q(G) = -10 × log10 (1 - P(G)).
P(A), P(C), P(T), P(G)는 각각 호출되는 염기가 A, C, T 또는 G일 확률임에 유의한다. E(A)는 A라고 호출되는 염기와 관련된 오류 확률이고, E(C)는 C라고 호출되는 염기와 관련된 오류 확률이고, E(T)는 T라고 호출되는 염기와 관련된 오류 확률이며, E(G)는 G라고 호출되는 염기와 관련된 오류 확률이라고 가정한다. 따라서 E(A) = 1 - P(A)이고; E(C) = 1 - P(C)이고; 등등이다. 이러한 예에서, 품질 점수는 또한 다음과 같이 다시 작성될 수도 있다:
[식 3]
Q(A) = -10 × log10 (1-E(A)),
Q(C) = -10 × log10 (1-E(C)),
Q(T) = -10 × log10 (1-E(T)),
Q(G) = -10 × log10 (1-E(G)).
식 2 및 3을 참조하면, 품질 점수는 염기 호출 확률 점수 P 또는 염기 호출 오류 확률 점수 E에 대수적으로 관련된 특성으로서 정의된다. 따라서, 품질 점수 Q(A)는 호출될 염기가 A인 우도의 로그 척도 우도이고; 품질 점수 Q(C)는 호출될 염기가 C인 우도의 로그 척도 우도이고; 등등이다.
종종, 품질 점수 Q는 "Phred" 점수라고도 지칭되며, 서열분석기(1404)와 같은 자동화된 DNA 서열분석기에 의해 생성된 핵염기 식별의 품질의 척도이다.
도 14a는 예시적인 클러스터(1407a 및 1407b)에 대한 확률 점수(1424)에 대응하는 예시적인 품질 점수(1422)를 예시한다. 예를 들어, 클러스터(1407a)는 확률 점수 P(A) = 0.9 및 대응 품질 점수 Q(A) = 10(식 2를 사용하여 계산됨)을 갖고, 확률 점수 P(C) = 0.02 및 대응 품질 점수 Q(C) = 0.087 등을 갖는다. 일 예에서, 일반적으로, 품질 점수는 예를 들어 도 14b에 예시된 바와 같이 임계값보다 높은(예를 들어, 0.9보다 높은) 확률 점수와 같이 비교적 높은 확률 점수에 대해 계산된다.
도 14b는 확률 점수(1424), 품질 점수(1432), 대응 오류 확률 및 대응 오류율 간의 관계를 나타내는 표(1460)를 예시한다. 표 14b는 식 1, 2 및 3으로부터 도출된다. 표 1460은 자명하다.
품질 점수의 확률론적 해석은 변이체 호출 및 서열 어셈블리와 같은 다운스트림 분석에서 상이한 서열분석 리드의 공정한 통합을 가능하게 한다. 논의된 바와 같이 품질 점수는 염기 호출에서 서열분석 오류 확률의 척도이다. 품질 점수의 값이 상대적으로 높다는 것은 염기 호출이 더 신뢰적이고 잘못될 가능성이 낮다는 것을 의미하며, 그 반대의 경우도 마찬가지이다. 예를 들어, 표 1460에서 볼 수 있듯이, 염기의 품질 점수가 30인 경우, 이 염기가 잘못 호출될 확률은 0.001이다. 이는 또한 염기 호출 정확도가 99.9%임을 나타낸다.
본 개시내용은 품질 점수 생성 모듈(1428)과 같은 다양한 모듈을 논의한다는 점에 유의한다. 일 예에서 달리 언급되지 않는 한, 이들 모듈 각각은 프로세서(예를 들어, CPU(402) 및/또는 구성 가능 프로세서(450), 도 4 참조)에 의해 실행된다. 따라서, 예를 들어, 그러한 프로세서(들)에 의해 실행 가능한 컴퓨터 판독 가능한 명령은 이들 모듈의 구현을 야기한다.
예측된 품질 점수(1432) 대 실제 품질 점수(1440)
도 14c는 도 14a의 염기 호출 시스템(1400)에 의해 예측된 예측 품질 점수(1432)와 실제(예를 들어, 경험적으로 계산된) 품질 점수(1440) 사이의 비교 동작을 예시한다. 예를 들어, 실제 품질 점수 생성 모듈(1448)은 실제(예를 들어, 경험적으로 계산된) 품질 점수(1440)를 생성한다. 품질 점수 비교 모듈(1436)은 염기 호출 시스템(1400)에 의해 예측된 예측 품질 점수(1432)를 수신한다. 도 14a의 품질 점수(1432)는 실제 품질 점수(1440)와 이들 품질 점수를 더 잘 구별하기 위해 도 14c의 예측된 품질 점수(1432)로 지칭된다. 품질 점수 비교 모듈(1436)은 또한 실제 품질 점수(1440)를 수신하고, 실제 품질 점수(1440)를 예측된 품질 점수(1432)와 비교하여 품질 점수 비교 결과(1444)를 생성한다.
실제(예를 들어, 경험적으로 결정된) 품질 점수(1440)
도 14d는 도 14c의 실제(예를 들어, 경험적으로 결정된) 품질 점수(1440)의 결정을 예시한다. 예를 들어, 실제(예를 들어, 경험적으로 계산된) 품질 점수 생성 모듈(1448)은 예를 들어 품질 점수와 관련된 실제 우도를 나타낼 가능성이 있는 품질 점수를 경험적으로 계산함으로써 실제 품질 점수를 결정한다.
도 14d의 예에서, 도 14a의 염기 호출자(1416)가 센서 데이터(1412)인 1,000개의 입력(x1, x2, …, x1000)을 수신한다고 가정한다. 1,000개의 샘플 수는 비제한적인 예라는 점에 유의한다. 또한 염기 호출자(1416)가 확률 점수 P1, P2, ..., P1000과 같은 1,000개의 확률 점수(1424)를 생성한다고 가정한다. 이들 확률 점수 각각은 A, C, T 또는 G 중 대응하는 것으로 호출되는 대응 염기와 관련된다. 단지 예로서, P2는 T라고 호출되는 염기의 확률 P2(T)이고 0.992의 값을 갖는다고 가정하고; P33은 A라고 호출되는 염기의 확률 P33(A)이고, 도 14d에 예시된 바와 같이 0.21의 값을 갖는다고 가정한다. 일 예에서, 밑수 2에 대해, 관련된 확률은 P2(A), P2(C), P2(T) 및 P2(G)라고 가정한다. 또한 P2(T)가 P2(A), P2(C), P2(T) 및 P2(G) 중에서 가장 높다고 가정한다. 따라서, 도 14b의 예에서, P2는 단순히 P2(T)(P2(A), P2(C) 또는 P2(G)가 아님)인 것으로 가정된다. 즉, P2는 밑수 2에 대한 관련된 4개의 확률 점수 중 가장 높다. 유사하게, P33은 밑수 33에 대한 관련된 4개의 확률 점수 중 가장 높은 등이다.
또한, 입력(x1, x2, ..., x1000)에 대해, 실제 또는 실측(ground truth) 염기 표지(y1, y2, ..., y1000)는 각각 실제 품질 점수 생성 모듈(1448)에 의해 수신된다고 가정한다(즉, 참 염기 표지(y1)는 입력(x1)을 위한 것이고 실제 염기 표지(y2)는 입력(x2)을 위한 것 등이다). 실제 염기 표지는 호출할 염기에 대한 실제 실측 염기 표지이다. 예를 들어, 특정 서열분석 사이클 동안 특정 클러스터에서 생성된 입력 x1에 대해, 염기 호출 확률 P(A), P(C), P(T) 및 P(G)가 예측된다고 가정한다. 실제 염기 표지(y1)는 해당 클러스터 및 해당 서열분석 사이클에 대한 실제 염기(이는 A, C, T 또는 G 중 하나일 수 있음)이다. 일 예에서, 실제 염기 표지(y1, ..., y1000)는 예를 들어 알려진 염기 서열을 서열분석함으로써 선험적으로 알려져 있다.
도 14d에서, 각각의 예측된 확률 점수(1424)는 사전 측정된 수 개의 빈 중 대응하는 것에 할당된다. 단지 예로서, 예측된 확률 점수(1424)는 도 14d에 예시된 바와 같이 다음의 사전 특정된 빈: [0,0.1), [0.1, 0.2), ..., [0.9, 1.0] 중 대응하는 것에 할당된다.
예를 들어, P33이 0.21이므로 예측된 확률 점수(P33)는 빈 [0.2, 0.3)에 할당되고; P2가 0.992이므로 예측된 확률 점수(P2)는 빈 [0.9, 1.0)에 할당된다. 단지 예로서, 예측된 확률 점수(P33, P500, ..., P904)는 빈 [0.2, 0.3)에 할당되고, 예측된 확률 점수(P1, P48, ..., P997)는 빈 [0.8,0.9)에 할당되며, 예측된 확률 점수(P2, P50, ..., P909)는 빈 [0.9,1.0]에 할당된다.
대응하는 빈에 예측된 확률 점수(1424)를 할당한 후, 실제 품질 점수 생성 모듈(1448)은 개별 빈의 정확도 또는 "실제 경험적 우도"를 계산한다. P2 = 0.992가 T의 예측이라고 가정한다. 그 다음 실제 품질 점수 생성 모듈(1448)은 대응 실제 염기 표지(y2)가 T인지 확인하기 위해 검사한다. y2가 실제로 T이면, 예측(P2)이 정확하다.
이 검증(또는 확인) 프로세스는 각 예측과 각 빈에 대해 반복되어 예를 들어, 각 빈의 실제 확률을 계산한다. 예를 들어, 빈 [0.8, 0.9)에 50개의 확률(P1, P48, ..., P907)이 있다고 가정하고, 그러한 확률 중 42개가 대응하는 실제 염기 표지(y1, y48, ...,y907)와 일치하는 것으로 결정된다. 그러면 그 빈에 대한 "실제" 또는 경험적으로 결정된 확률은 42/50 또는 0.84이다. 그 다음, 그 빈의 항목에 대한 실제 품질 점수(1440)는 식 1을 사용하여 결정된다. 구체적으로, 그 빈의 항목에 대한 실제 품질 점수(1440)는 -10×log10(1-0.84) 또는 7.9588이다. 따라서, 빈 [0.8,0.9)의 확률(P1, P48, ..., P907)에는 7.9588의 실제 품질 점수가 할당된다.
대조적으로, 단지 예로서, 빈 [0.8, 0.9)에 할당된 예측된 확률(P997)은 -10×log10(1-0.81) 또는 7.2124의 품질 점수에 대응하는 0.81이라고 가정한다.
따라서 P997의 경우, 예측 품질 점수(1432)는 7.2124인 반면, 실제 품질 점수(1440)는 7.9588이다. 따라서, P997에 대한 예측된 품질 점수(1432)와 실제 품질 점수(1440) 사이에 불일치가 있다.
일 예에서, 품질 점수 비교 모듈(1436)은 실제 품질 점수(1440)를 예측된 품질 점수(1432)와 비교하는 품질 점수 비교 결과(1444)를 출력하며, 이는 본원에서 나중에 차례로 논의될 것이다.
도 14d에 예시된 비닝(binning)은 단지 지나치게 단순화된 예라는 점에 유의한다. 예를 들어, 도 14d에서 예측된 확률은 단지 10개의 빈 사이에 할당된다. 그러나, 다른 예에서, 예측된 확률이 할당되는 빈의 수가 더 많을 수 있다. 예를 들어, 단일 빈 [0.9, 1.0]은 [0.9, 0.91), [0.91, 0.92), ..., [0.99, 1.0]과 같이 여러 빈으로 세분화될 수 있다.
일 예에서, 예측된 확률을 비닝하는 대신(도 14d에 예시된 바와 같이), 예측된 품질 점수(1432)가 대신 비닝될 수 있다. 예를 들어, 예측된 품질 점수(1432)는 대응하는 빈에 할당된다. 또한 개별 빈에 대한 실제 품질 점수는 위에서 논의한 방식으로 계산된다. 그 다음 품질 점수 비교 모듈(1436)은 실제 품질 점수(1440)를 예측된 품질 점수(1432)와 직접 비교할 수 있다.
도 15a는 예측된 품질 점수(1432)와 실제 품질 점수(1440) 사이의 비교를 나타내는 그래프(1500a)를 예시하고, 도 15b는 예측된 품질 점수(1432)와 실제 품질 점수(1440) 사이의 다른 비교를 나타내는 다른 그래프(1500b)를 예시한다.
그래프(1500a)는 기울기가 1인 점선(1505a)을 갖는다. 따라서, 라인(1505a) 상의 임의의 포인트는 예측된 품질 점수(1432)와 실제 품질 점수(1440)의 동일한 값을 갖는다. 유사하게, 그래프(1500b)는 기울기가 1인 점선(1505b)을 갖는다. 따라서, 라인(1505b) 상의 임의의 포인트는 예측된 품질 점수(1432)와 실제 품질 점수(1440)의 동일한 값을 갖는다.
본원에 제시된 후속 그래프의 대부분은 기울기가 1인 점선을 갖는다. 본 개시내용의 목적을 위해, 이러한 라인은 본원에서 "기울기 1 라인" 또는 "기울기 1을 갖는 라인"으로도 지칭된다.
도 15a의 그래프(1500a)는 염기 호출자의 특정 구현에 대해 예측된 품질 점수(1432)(X 축)와 실제 품질 점수(1440)(Y 축) 사이의 관계를 나타내는 라인(1510a)을 갖는다. 도 15a에 예시된 바와 같이, 예측된 점수(1432)의 더 상위의 값에 대해, 예측된 점수(1432)는 일반적으로 대응하는 실제 점수(1440)보다 더 크다. 예를 들어, 예측된 품질 점수(45)는 대략 32의 실제 품질 점수(1440)에 대응한다. 따라서, 품질 점수 Q가 도 15a의 염기 호출자에 의해 45인 것으로 예측될 때. 그것은 경험적으로 약 32이어야 한다. 따라서 염기 호출자는 대응하는 실제 또는 경험적으로 계산된 품질 점수보다 높은 품질 점수를 예측한다. 따라서, 도 15a의 그래프(1500a)를 생성하는 염기 호출자는 품질 점수 예측에 관해 "과신뢰(overconfident)"한다.
도 15b의 그래프(1500b)는 염기 호출자의 다른 특정 구현에 대해 예측된 품질 점수(1432)와 실제 품질 점수(1440) 사이의 관계를 나타내는 라인(1510b)을 갖는다. 도 15b에 도시된 바와 같이, 예측 점수(1432)는 일반적으로 대응하는 실제 점수(1440)보다 작다. 예를 들어, 예측된 품질 점수(45)는 약 50의 실제 품질 점수(1440)에 대략 대응한다. 따라서, 품질 점수(Q)가 도 15b의 염기 호출자에 의해 45인 것으로 예측될 때. 그것은 경험적으로 약 50이어야 한다. 따라서 염기 호출자는 대응하는 실제 또는 경험적으로 계산된 품질 점수보다 낮은 품질 점수를 예측한다. 따라서, 도 15b의 그래프(1500b)를 생성하는 염기 호출자는 품질 점수 예측에 관해 "저신뢰(underconfident)"한다.
따라서, 도 15a 및 도 15b에 도시된 바와 같이, 염기 호출자는 품질 점수를 예측할 때 과신뢰 또는 저신뢰할 수 있다. 이상적으로는, 염기 호출자에 의해 예측된 품질 점수는 실제 품질 점수와 완전히 또는 적어도 실질적으로(예를 들어, 1% 또는 5% 이하의 임계값 내에서) 일치해야 한다. 기울기 1 라인(예를 들어, 각각 도 15a 및 15b의 라인(1505a 및 1505b))의 임의의 지점은 예측된 품질 점수(1432) 및 실제 품질 점수(1440)의 동일한 값을 갖는 다는 점에 유의한다. 따라서, 예측된 품질 점수 대 실제 품질 점수 그래프는 기울기 1 라인과 겹치거나 기울기 1 라인을 밀접하게 따르는(또는 이에 밀접하게 정렬되는) 것이 바람직하다. 그러나, 도 15a 및 도 15b에서 볼 수 있듯이, 염기 호출자에 의해 예측된 품질 점수는 항상 실제 품질 점수와 일치하지 않을 수 있으며(즉, 그래프 상의 점이 기울기 1 라인 상에 있지 않을 수 있음), 이에 따라 염기 호출자에 의해 생성되는 완전히 정확하지는 않은 품질 점수가 초래된다.
대각선 불일치 영역(1625) 및 과신뢰(또는 포화) 영역(1620)
도 16은 예측된 품질 점수(1432)(X 축)와 실제 품질 점수(1440)(Y 축) 사이의 비교를 나타내는 다른 그래프(1600)를 예시한다. 도 15a 및 도 15b와 유사하게, 도 16의 그래프(1600)는 또한 1의 기울기를 갖는 "기울기 1" 라인(1605)을 포함한다. 그래프(1600)는 예를 들어 인간 게놈, 및 다양한 기타 유형의 게놈, 예컨대 아시네토박터 바우만니(A. baumannii) 박테리아, 바실러스 세레우스(B. cereus) 박테리아, 엑솜(exome) 및 버그 풀(bug pool) 게놈에 대응하는 복수의 샘플링 포인트를 갖는다.
도 16의 그래프(1600)에서, 2개의 주요 영역(1620, 1625)(대략 점선을 사용하여 예시됨)이 식별되며, 각 영역은 복수의 그래프 샘플링 포인트와 기울기 1 라인 사이에 불일치를 갖는다. 논의된 바와 같이, 예측된 품질 점수(132)와 실제 품질 점수(1440) 사이의 긴밀한 일치를 위해 그래프 샘플링 포인트가 기울기 1 라인과 밀접하게 겹치거나 정렬되는 것이 바람직하다는 점에 유의한다.
예를 들어, 본원에서 대각선 불일치 영역(1625)으로도 지칭되는 영역(1625)은 그래프의 대각선 영역(예를 들어, 기울기 1 라인에 있는 영역)에서 예측된 품질 점수(132)와 실제 품질 점수(1440) 사이의 불일치를 식별한다. 도 16의 이러한 특정 예에서, 대각선 불일치 영역(1625)은 주로 약 15 내지 40의 실제 품질 점수들 사이에 있다. 이 영역에서, 샘플링 포인트가 기울기 1 라인 주위에 흩어져 있으며, 많은 샘플링 포인트가 기울기 1 라인에 대해 벗어나거나 오정렬되어 있다. 예를 들어, 영역(1625)의 실질적으로 가장 넓은 섹션은 L1의 폭을 갖는다. 다시 말하지만, 이상적으로는 이 폭은 0에 가까워야 하며, 모든 샘플링 포인트는 기울기 1 라인에 가까워야 한다.
영역(1620)은 또한 염기 호출자(1416)가 이 영역에서 과신뢰하기 때문에 과신뢰 영역(1620)(또는 포화 영역(1620))으로도 지칭된다. 예를 들어, 이 영역(1620) 내에 있는 샘플링 포인트의 경우, 대응하는 예측된 품질 점수는 대응하는 실제 품질 점수보다 높다. 예를 들어, 이 영역(1620) 내 샘플링 포인트의 실제 품질 점수는 약 35 내지 40이다. 그러나 이 영역(1620) 내 샘플링 포인트의 예측된 품질 점수는 40을 초과한다. 예를 들어, 이 영역(1620) 내의 예시적인 샘플링 포인트는 70만큼 높은 예측 품질 점수를 가지지만, 약 38의 실제 품질 점수를 갖는다. 따라서 영역(1620)에서 염기 호출자(1416)는 그의 품질 점수 예측에 대해 과신뢰한다.
예시된 바와 같이, 과신뢰 영역(1620)에서 예측된 품질 점수는 포화 상태이다. 즉, 과신뢰 영역(1620)에서, 예측된 품질 점수의 증가는 실제 품질 점수의 대응하는 상당한 증가로 이어지지 않는다. 따라서, 과신뢰 영역(1620)은 포화 영역으로도 지칭된다.
실제 확률 품질 점수(1440)는 일 예에서 약 40(0.9999의 확률 점수 및 0.01%의 오류율로 해석됨)인 임계 실제 점수를 초과하지 않는다는 점에 유의한다. 이는 증폭, 준비, 브릿지 PCR 또는 기타 이유로 인해 발생할 수 있는 서열분석기(1404) 및/또는 염기 호출 시스템에서의 오류 때문일 수 있다. 예를 들어 앞서 논의된 증폭 과정 동안 증폭 오류가 발생할 수 있다. 예를 들어 증폭 과정 동안에 입력 라이브러리 준비를 위해 라이브러리 준비 오류가 발생할 수 있다. 오류의 다른 예는 브릿지 PCR과 관련이 있다. 이러한 오류는 달성 가능한 최대 실제 품질 점수에 제한을 부과한다. 예를 들어 이러한 오류로 인해 적절하게 훈련된 염기 호출자라도 실제로 임계 품질 점수보다 높은 품질 점수를 예측하지 못할 수 있다. 다른 제한은 사용된 데이터 양의 제한과 관련이 있다. 예를 들어 품질 점수가 상대적으로 잘 보정되었는지 확인하려면 각 빈은 적절한 수의 염기 호출을 가져야 한다. 단지 예로서, 빈 Q40(즉, 40의 품질 점수를 포함하는 빈)의 경우, 예를 들어 적어도 10,000개의 염기 호출이 있어야 하지만, 오류율을 확실하게 결정하려면 더 많을 가능성이 있다. Q 점수가 상대적으로 높을수록 이 문제는 더욱 악화되는데, 왜냐하면 염기 호출자가 그렇게 높은 점수로 충분한 염기를 예측하지 못할 수 있기 때문이다. 따라서 상대적으로 높은 품질 점수를 잘 보정하는 능력이 또한 제한된다. 도 16의 예에서 임계 품질 점수는 약 40 또는 45이다. 따라서, 과신뢰적인 염기 호출자가 60 또는 70의 품질 점수를 예측하더라도, 실제 품질 점수는 도 16에 예시된 바와 같이 여전히 40의 임계 품질 점수 내에 있다.
실제 품질 점수(1440)와 예측된 품질 점수(1432) 사이의 불일치 정정
그래프(16A)의 샘플링 포인트가 예를 들어 영역(1620 및 1625) 모두에서 기울기 1 라인을 밀접하게 따르는 것이 바람직할 수 있다. 예를 들어, 예측된 품질 점수(1432)가 실제 품질 점수(1440)에 밀접하게 정렬되는 것이 바람직하다. 본원에서 이 목적을 적어도 부분적으로 달성할 수 있는 다양한 접근법이 나중에 차례로 논의되었다. 이러한 접근법은 크게 세 가지 범주로 분류될 수 있다:
1. 입력 정규화
2. 품질 점수 재매칭
3. 손실 벌점화
이러한 접근법 각각은 아래에서 차례로 더 자세히 논의된다.
입력 정규화
도 17a는 염기 호출자(1416)에 의해 수신되는 센서 데이터를 정규화하기 위한 정규화 모듈(1704)을 포함하는 염기 호출 시스템(1700)을 예시한다. 도 17a의 염기 호출 시스템(1700)은 도 14a의 염기 호출 시스템(1400)과 적어도 부분적으로 유사하고, 두 시스템의 유사한 구성요소는 동일한 라벨을 사용하여 표지된다. 예를 들어, 도 14a의 염기 호출 시스템(1400)과 유사하게, 도 17a의 염기 호출 시스템(1700)은 플로우 셀(1405)을 포함하는 서열분석기(1404)를 포함하며, 플로우 셀(1405)은 센서 데이터(1412)를 생성한다. 또한, 도 14a의 염기 호출 시스템(1400)과 유사하게, 도 17a의 염기 호출 시스템(1700)은 염기 호출자(1416) 및 품질 점수 생성 모듈(1428)을 포함한다.
일 실시형태에서, 도 14a의 염기 호출 시스템(1400)과 달리, 도 17a의 염기 호출 시스템(1700)은 센서 데이터(1412)를 수신하고, 센서 데이터(1412)를 정규화하여 정규화된 센서 데이터(1712)를 생성하고, 정규화된 센서 데이터(1712)를 염기 호출자(1416)에 제공하도록 구성된 정규화 모듈(1704)을 포함한다. 따라서, (도 14a의 시스템(1400)과 관련하여 논의된 바와 같이) 센서 데이터(1412)에 대해 동작하는 대신, 도 17a의 시스템(1700)의 염기 호출자(1416)는 이제 정규화된 센서 데이터(1712)에 대해 동작한다.
도 17b는 도 17a의 염기 호출 시스템의 정규화 모듈(1704)에 의해 수행되는 센서 데이터에 대한 정규화 동작을 나타내는 2개의 그래프(1701, 1711)를 예시한다. 구체적으로, 도 17b의 제1 그래프(1701)는 센서 데이터(1412)와 관련된 히스토그램을 예시하고, 도 17b의 제2 그래프(1711)는 정규화된 센서 데이터(1712)와 관련된 다른 히스토그램을 예시한다.
이제 도 17b의 제1 그래프(1701)를 참조하면, 센서 데이터(1412)의 강도 분포를 묘사하는 히스토그램이 예시되어 있다. 이 예에서, 센서 데이터(1412)는 특정 강도를 갖는 클러스터의 이미지인 것으로 가정된다는 점에 유의한다. 그러나 그러한 가정이 본 개시내용의 범위를 제한하는 것은 아니다. 예를 들어, 본 개시내용의 교시는 예컨대 센서 데이터가 전기 신호(예를 들어, 전압 또는 전류), 화학적 특성(예를 들어, pH 수준) 등으로 표시되는 경우에 다른 유형의 센서에도 적용 가능하다.
그래프(1701)의 X 축의 이미지 강도는 약 220 내지 약 820 범위이고, 이는 그래프(1701)에서 제1 범위(1702)로 표지되며, 이미지 강도는 임의의 적절한 단위를 갖는다. 따라서, 제1 범위(1702)는 220의 대응하는 하위 강도 및 820의 대응하는 상위 강도에 의해 정의된다. 본원에서 이전에 논의된 바와 같이, 강도는 플로우 셀의 이미지 센서에 의해 캡처된다. 본원에서 이전에 논의된 바와 같이, 서열분석 사이클 동안 클러스터로부터 캡처된 이미지 강도는 해당 서열분석 사이클 동안 해당 클러스터에 대해 호출될 염기를 나타낸다.
그래프(1701)의 강도 대 주파수 플롯에서 볼 수 있는 바와 같이, 강도의 대부분(예를 들어, 99.0%)은 제2 강도 범위(1706) 내에 있고, 제2 강도 범위(1706)는 약 240과 760 사이이다. 예를 들어 강도 값 240은 하위 0.5번째 백분위수를 나타내며, 강도의 0.5%만이 240 미만이고 나머지 99.5% 강도는 240을 초과한다. 유사하게, 강도 값 820은 상위 99.5번째 백분위수를 나타내며, 99.5% 강도는 820 미만이고 0.5% 강도만이 820 초과이다. 즉, 강도의 99%는 강도 범위 240에서 820 사이에 있으며, 이는 도 17b에서 제2 범위(1706)로 표지되어 있다. 본원에 사용된 0.5%의 예는 단지 예일 뿐이며, 다른 예에서는 다른 적절한 비율(0.05% 또는 1% 등)이 사용될 수 있음에 유의한다. 따라서, 제1 범위(1706)는 240의 하위 강도 및 760의 상위 강도에 의해 정의된다. 도시된 바와 같이, 제2 범위(1706)는 제1 범위(1702)에 완전히 포함된다.
일 예에서, 이 제2 범위(1706) 밖의 강도는 일부 예에서 실제 품질 점수와 일치하는 예측된 품질 점수를 생성하는 데 도움이 되지 않을 수 있는 특이값 강도이다. 다르게 말하면, 특이값 강도로 인해 예측된 품질 점수와 실제 품질 점수 간에 약간의 불일치가 초래된다. 따라서, 일 실시형태에서, 이들 특이값은 정규화 프로세스 동안 제거된다.
예를 들어, 정규화 프로세스 동안, 제2 범위(1706)보다 하위 강도(하위 특이값 강도라고도 함)에는 제2 범위(1706)의 하위 강도에 대응하는 값이 할당된다. 따라서, 도 17b의 예에서, 하위 특이값 강도(즉, 220과 240 사이의 강도)에는 240의 강도가 할당된다. 240 미만이고 240의 강도가 할당된 단지 0.5%의 하위 특이값 강도가 있음에 유의한다. 그러나 다른 예에서는, 하위 특이값 강도에 240의 강도를 할당하는 대신에, 정규화 프로세스 중에 하위 특이값 강도가 간단히 고려 대상에서 제거된다.
유사하게, 정규화 프로세스 동안, 제2 범위(1706)보다 상위 강도(상위 특이값 강도라고도 함)에는 제2 범위(1706)의 상위 강도에 대응하는 값이 할당된다. 따라서, 도 17b의 예에서, 상위 특이값 강도(즉, 760과 820 사이의 강도)에는 760의 강도가 할당된다. 760 초과이고 760의 강도가 할당된 단지 0.5%의 강도가 있음에 유의한다. 그러나 다른 예에서는, 상위 특이값 강도에 760의 강도를 할당하는 대신에, 정규화 프로세스 중에 상위 특이값 강도가 간단히 고려 대상에서 제거된다.
따라서, 하위 특이값 강도와 상위 특이값 강도를 처리한 후(예를 들어, 제2 범위(1706)의 하위 강도와 상위 강도를 이들 특이값 강도에 각각 할당하거나 단순히 이들 특이값 강도를 무시함으로써), 강도는 이제 단지 제2 범위(1706) 내에 있다. 즉, 이제 특이값 강도가 존재하지 않는다. 이어서, 도 17b의 그래프(1711)에 예시된 바와 같이, 제2 범위(1706) 내의 강도는 강도의 제3 범위(1722)에 매핑된다.
도 17b의 예에서, 제3 범위(1722)는 0의 하위 강도와 255의 상위 강도에 의해 정의된다. 따라서, 제3 범위(1722) 내의 강도는 8비트 데이터를 사용하여 표현될 수 있다. 다른 예에서, 제3 범위(1722)에 대한 다른 상위 및 하위 강도가 사용될 수 있다.
일 예에서, 제3 범위는 제2 범위보다 작다. 예를 들어, 제2 범위는 강도 240 내지 760, 즉 520의 강도 범위이다. 대조적으로, 제3 범위는 강도 0 내지 255, 즉 256의 강도 범위이다. 즉, 제2 범위의 강도를 압착하여 제3 범위에 매핑한다.
매핑 프로세스 동안에, 제 2 범위(1706)의 제 1 강도 값을 갖는 센서 데이터는 제 3 범위(1722)의 제 2 강도 값을 갖도록 매핑된다. 예를 들어, 제2 범위는 강도 240과 760에 의해 정의된다 - 즉, (760-240) = 520의 강도 범위를 갖는다. 제3 범위는 강도 0과 255에 의해 정의된다 - 즉, 256의 강도 범위를 갖는다. 따라서, 단지 예로서, 제2 범위(1706)의 240과 242 사이의 강도는 제3 범위(1722)의 강도 0에 매핑되고; 제2 범위(1706)의 242와 244 사이의 강도는 제3 범위(1722)의 강도 1에 매핑되고; 제2 범위(1706)의 758과 760 사이의 강도는 제3 범위(1722)의 강도 255에 매핑되는 등이다. 따라서, 그래프(1701)와 그래프(1711)에서의 두 히스토그램은 다소 동일한 형상을 갖는다. 일 예에서, 그래프(1701)의 히스토그램의 모든 막대의 합과 그래프(1701)의 히스토그램의 모든 막대의 합은 실질적으로 동일하다. 일 예에서, 제2 범위(1706) 내의 제1 히스토그램(그래프(1701)와 관련됨) 아래의 면적과 제3 범위(1722) 내의 제2 히스토그램(그래프(1711)와 관련됨) 아래의 면적은 실질적으로 동일하다.
특이값 강도 및 매핑을 처리하는 것을 포함하는 정규화는 상이한한 서열분석 런 및 상이한 서열분석 런 준비 프로세스로부터의 이미지들 간 가변성을 낮추고 센서 데이터의 이미지들 간에 지식이 더 쉽게 전달될 수 있다.
정규화 결과
도 17c는 예측된 품질 점수(1432)와 실제 품질 점수(1440) 사이의 비교를 나타내는 그래프(1710)를 예시하며, 센서 데이터(1412)는 도 17c의 그래프에 대한 데이터를 생성하는 동안 도 17a의 염기 호출 시스템(1700)의 정규화 모듈(1704)에 의해 정규화되었다. 도 16과 유사하게, 도 17c의 그래프(1710)는 또한 1의 기울기를 갖는 "기울기 1" 라인(1785)을 포함한다. 그래프(1710)는 예를 들어 도 16의 그래프(1600)와 유사한, 예를 들어 인간 게놈, 및 다양한 기타 유형의 게놈, 예컨대 아시네토박터 바우만니(A. baumannii) 박테리아, 바실러스 세레우스(B. cereus) 박테리아, 엑솜(exome) 및 버그 풀 게놈에 대한 복수의 샘플링 포인트를 갖는다.
따라서, 도 16의 그래프(1600)는 센서 데이터(1412)를 정규화하지 않는 염기 호출 시스템(예를 들어, 도 14a의 염기 호출 시스템(1400))에 의해 생성되는 반면, 도 17c의 그래프(1710)는 센서 데이터(1412)를 정규화하고 정규화된 센서 데이터를 염기 호출에 사용하는 염기 호출 시스템(예를 들어, 도 17a의 염기 호출 시스템(1700))에 의해 생성된다.
도 16의 그래프(1600)의 과신뢰 영역(1620)과 도 17c의 그래프(1710)의 유사한 과신뢰 영역(1720)을 비교하면, 두 그래프의 과신뢰 영역에는 실질적인 변화가 없음을 알 수 있다. 즉, 정규화 프로세스는 과신뢰 영역(1720)에서는 성능 개선에 크게 기여하지 못할 수 있다.
도 16의 그래프(1600)의 대각선 불일치 영역(1625)과 도 17c의 그래프(1710)의 유사한 대각선 불일치 영역(1725)을 비교하면 상당한 성능 개선이 나타난다. 예를 들어, 이전에 논의된 바와 같아. 대각선 불일치 영역은 그래프의 대각선 영역(예를 들어, 기울기 1 라인에 있는 영역)에서 예측된 품질 점수(132)와 실제 품질 점수(1440) 사이의 불일치를 식별한다. 대각선 불일치 영역은 주로 15 내지 40의 실제 품질 점수들 사이에 있다. 이 영역에서, 샘플링 포인트가 기울기 1 라인 주위에 흩어져 있으며, 많은 샘플링 포인트가 기울기 1 라인을 벗어나 있다.
예를 들어, 도 16의 그래프(1600)에서 영역(1625)의 실질적으로 가장 넓은 섹션은 L1의 폭을 갖는다. 다시 말하지만, 이상적으로는 이 폭은 0에 가까워야 하며, 모든 샘플링 포인트는 기울기 1 라인에 가까워야 한다.
도 17c의 그래프(1710)에서 영역(1725)의 대응하는 실질적으로 가장 넓은 섹션은 L2의 폭을 갖는다. 도시된 바와 같이, 도 17c의 L2는 도 16의 L1보다 실질적으로 낮다(즉, L2 < L1). 즉, 도 17c의 그래프(1710)에서 정규화 프로세스로 인해 샘플링 포인트는 도 16의 그래프(1600)에서 샘플링 포인트의 분산 및 정렬과 비교하여 덜 분산되고 기울기 1 라인에 더 잘 정렬된다. 따라서, 본 개시내용의 발명자들은 약 15와 40 사이의 실제 품질 점수에 대해 정규화 프로세스가 예측된 품질 점수(1432)가 실제 품질 점수(1440)에 더 잘 정렬되도록 돕는다는 것을 발견했다(예를 들어, 정규화가 없는 시나리오에 비해).
도 17d는 입력 정규화를 갖는 염기 호출 시스템 대 그러한 입력 정규화가 결여된 다른 염기 호출 시스템에 대한 예상 보정 오류(ECE)를 나타내는 도표를 예시한다. 도시된 바와 같이, 입력 정규화는 본 발명자가 실험한 대부분의 게놈 유형에 대해 ECE를 개선시킨다.
도 17e는 정규화 전의 센서 데이터(1412)와 정규화된 센서 데이터(1712) 간의 색상 비교를 예시한다. 예를 들어, 제1 이미지(1790a)는 임의의 정규화 이전에 플로우 셀로부터 캡처된 센서 데이터(1412)를 예시한다. 기점(fiducial)의 위치는 타원형 형상을 사용하여 이미지(1790a)에 예시된다. 생물학적 시편이 이미지화되는 고체 지지체는 고체 지지체에 부착된 프로브와 관련하여 시편의 배향 또는 그 이미지의 결정을 용이하게 하기 위해 이러한 기점 마커를 포함할 수 있다. 예시적인 기점은 비드(형광 모이어티 또는 표지된 프로브가 결합될 수 있는 핵산과 같은 모이어티가 있거나 없음), 알려진 또는 결정 가능한 피쳐에서 부착된 형광 분자, 또는 형태학적 형태를 형광 모이어티와 결합하는 구조를 포함하지만 이에 제한되지는 않는다. 예시적인 기점은 미국 특허 공개 제2002/0150909호에 기재되어 있으며, 이는 본원에 참고로 포함된다. 비록 표지되지는 않았지만 다수(예컨대, 수십만 또는 심지어 수백만)의 클러스터가 도 17e의 예시에 포함되어 있다. 클러스터와 그 주변의 이미지 데이터를 분석하여 클러스터에 대한 염기 호출을 한다. 이미지(1790a)에서의 강도 스케일은 0 내지 2000이고, 도 17b와 관련하여 논의된 바와 같이 약 200 내지 800의 강도가 주로 존재한다는 점에 유의한다.
제2 이미지(1790b)는 예를 들어 센서 데이터(1412)에 대해 정규화가 수행된 후 정규화된 센서 데이터(1712)를 예시한다. 클러스터의 위치는 타원형 형상을 사용하여 이미지(1790a)에 예시된다. 클러스터와 그 주변의 이미지 데이터를 분석하여 클러스터에 대한 염기 호출을 한다. 이미지(1790b)에서의 강도 스케일은 예를 들어 정규화의 결과로서 0 내지 255이라는 점에 유의한다.
정규화 방법
도 17f는 센서 데이터를 정규화하고 염기 호출 동작을 위해 정규화된 센서 데이터를 사용하는 예시적인 방법(1750)을 나타내는 흐름도를 예시한다.
방법(1750)의 1755에서, 복수의 센서 데이터가 플로우 셀로부터 수신되며(예를 들어, 도 17a의 정규화 모듈(1704)에 의해), 복수의 센서 데이터는 제1 범위(예를 들어, 제1 범위(1702)) 내에 있다. 예를 들어, 도 17b는 복수의 센서 데이터가 제1 범위(1702) 내에 있는 복수의 강도 값을 포함하는 예를 예시한다.
1760에서, 복수의 센서 데이터의 적어도 임계값 백분율이 제2 범위 내에 있도록 제2 범위가 식별된다(예를 들어, 도 17a의 정규화 모듈(1704)에 의해). 예를 들어, 도 17b는 센서 데이터의 99.0%가 이 범위 내에 있도록 하는 제2 범위(1706)의 예를 예시한다. 99.0%는 단지 예로서 사용되며, 본 개시내용의 교시에 기초하여 당업자에 의해 다른 임계값 백분율이 또한 구상될 수 있다는 점에 유의한다.
1765에서, 특이값 센서 데이터, 예를 들어, 제2 범위 밖의 센서 데이터가 처리된다(예를 들어, 도 17a의 정규화 모듈(1704)에 의해). 본원에서 이전에 논의된 바와 같이, 일 예에서, 하위 특이값 센서 데이터(예를 들어, 도 17b에서 220과 240 사이의 강도)에는 도 17b와 관련하여 논의된 바와 같이 제2 범위의 가장 하위의 값(예를 들어, 240)에 대응하는 강도가 할당된다. 유사하게, 일 예에서, 상위 특이값 센서 데이터(예를 들어, 도 17b에서 760과 820 사이의 강도)에는 도 17b와 관련하여 논의된 바와 같이 제2 범위의 가장 상위의 값(예를 들어, 760)에 대응하는 강도가 할당된다. 다른 예에서는 특이값 센서 데이터가 간단히 무시되거나 고려되지 않는다.
1770에서, 예를 들어 제2 범위 내에 있는 복수의 센서 데이터의 적어도 서브세트가 (예를 들어, 도 17a의 정규화 모듈(1704)에 의해) 제3 범위에 매핑되어 복수의 정규화된 센서 데이터(1770)를 생성한다. 예를 들어, 도 17b에 예시된 바와 같이, 그래프(1701)의 제2 범위의 강도는 그래프(1711)의 제3 범위의 대응하는 강도에 매핑된다. 일 예에서, 특이값 센서 데이터가 고려되지 않는다면, 그러한 특이값 센서 데이터는 1770에서 매핑되지 않고, 제2 범위에 있는 복수의 센서 데이터 중 서브세트만이 제3 범위에 매핑된다.
1775에서, 복수의 정규화된 센서 데이터는 염기 호출자에서 처리되어 복수의 정규화된 센서 데이터 각각에 대해 대응 염기를 호출한다. 예를 들어, 도 17a의 염기 호출자(1416)는 정규화된 센서 데이터(1712)를 수신하고 대응 염기 호출을 생성한다.
품질 점수 재매핑 및 양자화
도 18a는 염기 호출자(1416)에 의해 예측된 품질 점수(1432)를 선택적으로 재매핑하기 위한 품질 점수 재매핑 모듈(1804)을 포함하는 염기 호출 시스템(1800)을 예시한다. 도 18a의 염기 호출 시스템(1800)은 도 14a의 염기 호출 시스템(1400)과 적어도 부분적으로 유사하고, 두 시스템의 유사한 구성요소는 동일한 라벨을 사용하여 표지된다. 예를 들어, 도 14a의 염기 호출 시스템(1400)과 유사하게, 도 18a의 염기 호출 시스템(1800)은 플로우 셀(1405)을 포함하는 서열분석기(1404)를 포함하며, 플로우 셀(1405)은 센서 데이터(1412)를 생성한다. 또한, 도 14a의 염기 호출 시스템(1400)과 유사하게, 도 18a의 염기 호출 시스템(1800)은 염기 호출자(1416) 및 품질 점수 생성 모듈(1428)을 포함한다.
도시되지는 않았지만, 일 예에서, 도 18a의 시스템(1800)은 도 17a의 정규화 모듈(1704)을 포함할 수 있다. 이러한 예에서, 염기 호출자(1416)는 정규화된 센서 데이터(1712)에 대해 작동한다. 그러나 다른 예에서, 도 18a의 시스템(1800)은 이러한 정규화 모듈(1704)이 결여된다.
일 실시형태에서, 도 14a의 염기 호출 시스템(1400)과 달리, 도 18a의 염기 호출 시스템(1800)은 본원에서 아래에 논의된 바와 같이 품질 점수 생성 모듈(1428)에 의해 생성된 품질 점수(1432)를 선택적으로 재매핑하도록 구성된 품질 점수 재매핑 모듈(1804)을 포함한다.
일 실시형태에서, 품질 점수를 재매핑하는 것 외에도, 염기 호출 시스템(1800)은 또한 재매핑된 품질 점수(1832)를 양자화하여 양자화된 재매핑된 품질 점수(1836)를 생성하는 품질 점수 양자화 모듈(1812)을 포함할 수 있다. 일 예에서, 품질 점수 양자화 모듈(1812)은 선택적이므로, 도 18a에서는 점선을 사용하여 예시되어 있다. 일 실시형태에서, 시스템(1800)은 품질 점수 재매핑 모듈(1804)에 액세스할 수 있는 메모리에 저장된 하나 이상의 LUT(Look Up Table)(1808)를 추가로 포함한다.
품질 점수 재매핑 및 양자화 예
도 18b1, 18b2, 18b3, 18b4 및 18b5는 품질 점수 재매핑 및 양자화의 예를 조합하여 예시한다. 도 18b1을 참조하면, 염기 호출자(1416)에 의해 출력된 예측 품질 점수(1432)를 X 축으로, 대응하는 실제 품질 점수(1440)를 Y 축으로 나타내는 그래프(1828a)가 예시되어 있다. 도 16과 관련하여 논의된 바와 같이, 과신뢰 영역(1820)(추가의 자세한 내용에 대해서는 도 16 참조)에서, 예측된 품질 점수는 대응하는 실제 점수보다 높다.
예를 들어, 특정 클러스터의 특정 염기에 대응하는 샘플링 포인트(1827)(과신뢰 영역(1820)에서)는 56의 예측된 품질 점수 및 19의 실제 품질 점수를 갖는다. 따라서, 일 예에서 재매핑 모듈(1804)은 56의 값을 갖는 품질 점수(1432)를 19의 값을 갖는 재매핑된 품질 점수에 매핑한다.
그래프(1828a)는 두 가지 유형의 샘플링 포인트, 즉 보정 포인트와 동작 포인트를 포함한다는 점에 유의한다. 보정 포인트에는 알려진 실측 염기 호출 및 알려진 실제 품질 점수(1440)가 있다. 보정 포인트는 재매핑을 위한 LUT를 생성하는 데 사용되며(도 18b2 참조), 이어서 동작 포인트는 새로운 품질 점수로 재매핑되기 위해 LUT를 사용한다. 여기에서의 가정은 보정 포인트를 사용하여 생성된 재매핑 LUT가 또한 동작 포인트에도 적용 가능하다는 것이다.
이제 도 18b2를 참조하면, 예측된 품질 점수(1432)와 실제 품질 점수(1440) 사이의 매핑 데이터를 저장하는 예시적인 재매핑 LUT(1808a)가 예시되어 있다. 예를 들어, 도 18b1과 관련하여 논의된 바와 같이, 재매핑 LUT(1808a)의 제1 행에 표시된 바와 같이 56의 예측된 품질 점수는 실제로 19의 실제 품질 점수에 대응한다. 재매핑 LUT(1808a)의 다른 행도 유사하게 채워진다.
LUT(1808a)는 본 개시내용의 교시를 설명하기 위해 지나치게 단순화된 재매핑 LUT라는 점에 유의한다. 실제 구현예에서, 재매핑 LUT는 다양한 예측된 품질 점수(1432)를 대응하는 실제 품질 점수(1440)로 재매핑하기 위해 더 많은 행을 가질 가능성이 있다.
도 18b3을 참조하면, 도 18b1의 그래프(1828a)의 동작 포인트에 대한 재매핑된 품질 점수를 나타내는 그래프(1828c)가 예시되어 있다. 도 18b3에 예시된 바와 같이, 품질 점수가 재매핑된 후, 품질 점수에 대응하는 샘플링 포인트는 이제 기울기 1을 갖는 라인과 더 잘 정렬된다(예를 들어, 도 18b1의 정렬에 비해). 따라서, 도 18b3의 재매핑된 품질 점수는 이제 각각의 실제 품질 점수에 실질적으로 더 가깝다(동일하다)(예를 들어, 도 18b1의 정렬에 비해). 재매핑은 과신뢰 영역(1820)에서의 정렬에 도움이 된다는 점에 유의한다.
도 18b4는 재매핑된 품질 점수를 양자화하기 위한 LUT(1808b)를 예시한다. 도 18b4의 예에서, 각각의 재매핑된 품질 점수는 LUT(1808b)의 3개 행에 대응하는 3개의 양자화된 품질 점수 중 하나에 할당된다. 그러나, 이러한 양자화된 품질 점수의 개수는 단지 예시일 뿐 본 개시내용의 범위를 제한하지 않는다. 예를 들어, 다른 예에서, 각각의 재매핑된 품질 점수는 LUT의 Q 행 수에 대응하는 Q 수의 양자화된 품질 점수 중 하나에 할당될 수 있으며, Q는 2, 4, 그 초과일 수 있다.
도 18b4의 예에서, 재매핑된 품질 점수는 3개의 빈[0,18), [18,30) 및 [30, 무한)으로 할당되거나 그룹화되지만(LUT(1808b)의 제1 열 참조), 빈의 범위는 단순한 예일 뿐이며 본 개시내용의 범위를 제한하지 않는다. LUT(1808b)의 제2 열은 각 빈에 대응하는 예시적인 양자화된 재매핑된 품질 점수를 나타낸다. 예를 들어, 빈 [0,18)에 포함된 재매핑된 품질 점수에는 9.550의 양자화된 재매핑된 품질 점수가 할당되고; 빈[18,30)에 포함된 재매핑된 품질 점수에는 22.840의 양자화된 재매핑된 품질 점수가 할당되며; 빈 [30, inf)에 포함된 재매핑된 품질 점수에는 37.382의 양자화된 재매핑된 품질 점수가 할당된다.
양자화된 품질 점수 9.550, 22.840 및 37.382는 LUT에서 미리 특정되어 있다. 일 예에서, 이러한 숫자는 대응 빈에 할당된 보정 샘플링 포인트의 실제 품질 점수를 평균함으로써 생성된다(도 18b1 참조). 예를 들어, 300개의 보정 샘플링 포인트가 빈 [0,18)에 할당되어 있다고 가정한다. 빈 [0,18)에 할당된 이들 300개의 보정 샘플링 포인트의 실제 품질 점수 평균은 9.550으로 결정된다. 따라서, 빈 [0,18)에는 9.550의 재매핑된 양자화 품질 점수가 할당되며, 이는 이 빈에 포함된 보정 샘플링 포인트의 실제 품질 점수의 평균이다.
LUT(1808b)의 제3 열은 각각의 빈에서의 원래(즉, 재매핑되지 않은) 품질 점수의 평균을 나타낸다. 예를 들어, 300개의 보정 샘플링 포인트가 빈 [0,18)에 할당된 위의 예를 따르면, 재매핑 전 품질 점수의 평균은 9.347이다. 따라서 LUT의 제2 열과 제3 열을 비교함으로써 재매핑이 품질 점수를 얼마나 변경하거나 벗어나는지 파악할 수 있다. 다르게 말하면, 소정의 행(즉, 소정의 품질 점수 빈)에 대해 LUT의 제2 열과 제3 열 사이의 편차는 재매핑으로 인한 평균 품질 점수의 변화를 나타낸다.
도 18b5는 양자화된 점수를 예시하는 그래프(1828d)이다. 예를 들어, 도 18b5는 도 18b3의 그래프(1828c)와 적어도 부분적으로 유사하다. 그러나, 도 18b3의 그래프(1828c)와는 달리, 도 18b5의 그래프에서, LUT(18B4)의 3개의 양자화된 점수가 재매핑된 품질 점수와 함께 예시되어 있다. 따라서, 일 예에서, 시스템(1800)은 (예를 들어, 재매핑된 품질 점수 대신에) 양자화된 재매핑된 품질 점수(1836)를 출력한다.
도 18c1 및 도 18c2는 품질 점수 재매핑 및 양자화의 두 가지 추가 예를 예시한다. 예를 들어, 서열분석 리드 사이클 1(리드 1이라고 함)과 서열분석 리드 사이클 2(리드 2라고 함)에 대한 품질 점수 재매핑 및 양자화가 예시되어 있다.
리드 1의 예를 참조하면, 2개의 그래프가 리드 1 아래에 예시되어 있다: (i) 재매핑 및 양자화를 예시하는 상단 그래프(1840a), 및 (ii) 히스토그램인 하단 그래프(1840b). 예를 들어, 그래프(1840a)에서, 적색 샘플링 점에서 볼 수 있듯이 약 40 초과의 품질 점수는 기울기 1의 라인으로부터 벗어난다. 품질 점수는 재매핑되며 청색 점을 사용하여 예시된다. 볼 수 있듯이, 재매핑된 품질 점수는 기울기 1 라인과 더 잘 정렬된다(예를 들어, 재매핑 전 품질 점수에 비해). 히스토그램(1840b)은 원래의 품질 점수를 적색으로 나타내고, 재매핑된 품질 점수를 청색으로 나타낸다. 예시된 바와 같이, 원래의 점수는 65 또는 70만큼 높을 수 있는 반면, 재매핑된 품질 점수는 약 52 미만이다.
이제 리드 2의 예를 참조하면, 2개의 그래프, 즉 (i) 재매핑 및 양자화를 예시하는 상단 그래프(1840c), 및 (ii) 히스토그램인 하단 그래프(1840d)가 리드 2 아래에 예시되며, 이들 각각은 리드 1의 그래프에 대한 위의 논의에 기초할 때 분명할 것이다.
특정 염기 서열에 대한 품질 점수 재매핑 및 양자화
일부 구현예에서, 염기 호출자(1416)는 오른쪽 및 왼쪽 서열분석 사이클에 의해 상황화된 현재 서열분석 사이클을 포함하여 복수의 서열분석 사이클에 대한 서열분석 이미지의 창을 처리함으로써 현재 서열분석 사이클에 대한 염기 호출을 수행한다. 일 예에서, 염기 "G"는 서열분석 이미지에서 어둡거나 꺼진 상태로 표시된다. 따라서, 일 예에서, 염기 "G"의 반복 패턴은 잘못된 염기 호출의 더 높은 우도로 이어질 수 있다. 이러한 잘못된 염기 호출은 현재 서열분석 사이클이 G가 아닌 염기(예를 들어, 염기 "T")에 대한 것이지만 오른쪽과 왼쪽에 G에 의해 플랭킹된 경우에도 발생할 수 있다.
일 예에서, 염기 호출의 오류 확률이 상대적으로 높은 일부 특정 염기 호출 서열 패턴이 있다. 예를 들어, 단독중합체의 염기 서열(예를 들어, GGGGG) 또는 플랭킹된 단독중합체(예를 들어, GGTGG)의 경우, 염기 호출에서 오류의 확률이 상대적으로 높다. 염기 호출 오류 확률이 또한 비교적 높은 다른 특정 염기 호출 서열 패턴, 예컨대 GGTCG가 있을 수 있다. 일 예에서, 이러한 특정 염기 호출 서열 패턴은 적어도 서열의 시작과 말단에 있는 G, 및 아마도 5-염기 서열에서 2개의 말단-G 사이의 제3 G와 같은 여러 G를 갖는다. 이러한 특정 염기 호출 서열의 다른 예로는 GGXGG, GXGGG, GGGXG, GXXGG 및 GGXXG가 있으며, X는 A, C, T 또는 G 중 임의의 것일 수 있다.
도 19는 일부 특정 염기 서열에 대해 (i) 특정 염기 서열의 품질 점수 평균과 (ii) 특정 염기 서열의 재매핑된 품질 점수 평균 사이의 편차를 나타내는 표를 예시하며, 재매핑은 예를 들어 도 18b2의 일반적인 LUT에 따라 수행된다. 도 19의 표는 분할되지 않은 표를 나타내기 위한 공간의 제한으로 인해 2개의 섹션(1901a 및 1901b)으로 분할된다는 점에 유의한다. 표에 나타낸 특정 서열은 ACGGC, TCGAG 등이고 마지막으로 GGGGG, GGTGG 등이다. 다양한 특정 염기 서열에 대한 리드 서열 1 및 리드 서열 2의 편차가 예시되어 있다. 아시네토박터 바우만니(A. baumannii) 박테리아, 인간 게놈, 바실러스 세레우스(B. cereus) 박테리아, 로도박터(Rhodobacter)와 같은 다양한 유형의 게놈이 사용된다. 각 게놈 유형에 대해, 대응하는 염기 서열 수와 대응하는 편차가 사용된다. 마지막으로, 다양한 특정 염기 서열에 대한 평균 편차가 도 19 표의 섹션(1901b)의 마지막 열에 나열되어 있다. 도 19에 제시된 편차는 재매핑을 위해 생성 목적 LUT(도 18b2에서와 같은 것)가 사용될 때 재매핑 프로세스로 인해 평균 품질 점수가 변화되는 양을 나타낸다.
도 19의 섹션(1901b)의 제2 열(즉, 특정 염기 서열) 및 마지막 열(즉, 평균 편차)을 참조하면, 어떤 특정 염기 서열에 대해서는 특정 염기 서열 중 적어도 일부에 대한 편차가 상당함을 알 수 있다. 예를 들어, GGGGG의 리드 2에 대한 평균 편차는 7.51이고 GGTGG의 리드 2에 대한 평균 편차는 6이며, 이는 유의미하다(예를 들어, ACGGC의 리드 1에 대한 3.37의 평균 편차에 비해). 따라서, 일반적인 염기 서열에 대해 작동하는 재매핑은 특정 염기 서열 중 적어도 일부에서는 적절하게 작동하지 않을 수 있다.
도 20a는 특정 염기 서열(예를 들어, GGGGG의 단독중합체 서열)의 예측된 품질 점수를 재매핑된 실제 품질 점수로 재매핑하는 데 사용할 수 있는 LUT(2000)를 예시한다. LUT(2000)는 특히 GGGGG의 단독중합체 서열을 위한 것이며, 이는 GGGGG의 단독중합체 서열을 반복적으로 시험하고 예측된 염기 서열에 대한 실제 품질 점수를 생성함으로써 유도될 수 있다. 보다 구체적으로, LUT(2000)는 GGGGG 서열의 중간 G의 예상 품질 점수를 재매핑하기 위한 것이다. 예를 들어, LUT(2000)의 원으로 둘러싸인 항목을 참조하면, 27의 예측된 품질 점수는 GGGGG의 특정 서열의 중간 G에 대한 30의 실제 품질 점수로 재매핑될 수 있다.
도 20b는 도 20a의 LUT(2000)를 사용하여 특정 염기 서열(예를 들어, GGGGG의 단독중합체 서열)에 대한 예측된 품질 점수의 재매핑을 예시한다. 예를 들어, 도 20b에서, G, A, C, G, G, G, G, G, T의 염기 서열이 도 20b 표의 처음 두 행에 예시된 대로 예측된 서열의 개별 염기에 대해 Q25, Q23, Q25, Q27, Q37, Q27, Q27, Q32 및 Q27의 대응하는 예측된 품질 점수 각각과 함께 염기 호출자에 의해 출력된다. 즉, 서열의 제1 G는 예측된 25의 품질 점수와 관련되고, 서열의 제2 A는 23의 예측된 품질 점수와 관련되는 등이다. 염기 호출에 GGGGG의 특정 단독중합체 서열이 존재함에 유의한다.
도 20b에 예시된 바와 같이, GGGGG의 단독중합체 서열의 중간 G를 제외한 모든 염기에 대한 예측된 품질 점수는 도 18b2의 LUT(1808b)(또는 다른 유사한 "범용" LUT)를 사용하여 재매핑된다. 도 18b2의 LUT(1808b)는 본원에서 "범용" 재매핑 LUT라고도 하는데, 왜냐하면 이 LUT가 일반 염기 서열을 재매핑하는 데 사용되기 때문이다.
대조적으로, 도 20a의 LUT(2000)는 GGGGG의 특정 염기 서열의 중간 염기에 특별히 전용된 "염기 서열 특정" LUT이다. 따라서, 도 20b에서 이 서열의 중간 G의 예측된 품질 중간 Q27은 점선 원으로 둘러싸인 항목 LUT(2000)에 따라 대체된다.
도 20b의 서열에서 G의 4번째 염기, G의 6번째 염기, T의 9번째 염기는 각각 Q27의 품질 점수를 갖는다. G의 4번째 염기와 T의 9번째 염기에 대한 Q27의 품질 점수는 예를 들어 범용 LUT를 사용하여 유사하게 재매핑될 수 있는 반면, G의 6번째 염기(특정 염기 서열의 중간 서열)는 예를 들어 염기 서열 특정 LUT를 사용하여 다르게 재매핑될 것이다. 따라서, 3개의 염기 모두는 Q27의 동일한 품질 점수를 가지지만, 단지 예로서 G의 4번째 염기와 T의 9번째 염기는 범용 LUT에 따라 Q32의 재매핑된 품질 점수로 재매핑될 수 있는 반면, G의 6번째 염기(특정 염기 서열 중 중간의 것)는 도 20a의 염기 서열 특정 LUT(2000)에 따라 Q30으로 재매핑될 수 있다.
도 20a 및 20b는 특정 단독중합체 서열 GGGGG에 관한 것이다. GGTGG, GGTCG, GGXGG, GXGGG, GGGXG, GXXGG, GGXXG 등과 같은 다른 특정 단독중합체 또는 플랭킹된-단독중합체 서열에 대해 유사한 특정 LUT가 생성될 수 있으며, X는 A, C, T 또는 G 중 하나일 수 있다.
손실 벌점화
도 21은 하나 이상의 특정 염기 서열에 대한 손실을 선택적으로 벌점화하기 위한 손실 벌점화 모듈(2106)을 포함하는 염기 호출 시스템(2100)을 예시한다. 도 21의 염기 호출 시스템(2100)은 도 14a의 염기 호출 시스템(1400)과 적어도 부분적으로 유사하고, 두 시스템의 유사한 구성요소는 동일한 라벨을 사용하여 표지된다. 예를 들어, 도 14a의 염기 호출 시스템(1400)과 유사하게, 도 21의 염기 호출 시스템(2100)은 플로우 셀(1405)을 포함하는 서열분석기(1404)를 포함하며, 플로우 셀(1405)은 센서 데이터(1412)를 생성한다. 또한, 도 14a의 염기 호출 시스템(1400)과 유사하게, 도 21의 염기 호출 시스템(2100)은 염기 호출자(1416) 및 품질 점수 생성 모듈(1428)을 포함한다.
일 실시형태에서 그리고 도 21에 예시된 바와 같이, 염기 호출자(1416)는 신경망 모델의 순방향 전달 섹션(2108), 역전파 전달 섹션(2112), 손실 생성 모듈(2104) 및 손실 벌점화 모듈(2106)을 포함한다. 손실 생성 모듈(2104)은 순방향 전달 섹션(예를 들어, 예측된 염기 호출) 및 실측(예를 들어, 실측 염기 서열)을 포함하고, 순방향 전달 섹션(2108)과 실측(2105)의 출력의 비교에 기초하여 손실 함수(2109)를 생성한다. 손실 벌점화 모듈(2106)은 손실 함수(2109)에 벌점을 부여하여 벌점화된 손실 함수(2111)를 생성한다. 일 실시형태에서, 벌점화된 손실 함수(2111)는 입력 기울기 및/또는 가중치 기울기를 생성하기 위해 역전파 섹션(2112)에 의해 사용되며, 이는 다시 신경망 모델의 가중치를 적응시켜 신경망 모델을 훈련하는 데 사용된다. 손실 벌점화 모듈(2106)은 예를 들어 특정 염기 서열(예를 들어, 단독중합체 또는 플랭킹된-단독중합체, 예를 들어 GGXGG, X는 A, C, T 또는 G 중 임의의 것임)이 검출되는 경우 손실 함수(2109)에 선택적으로 벌점을 준다.
예를 들어, 심층 신경망(예를 들어, 염기 호출자(1416)의 신경망 모델)을 훈련하는 목표는 순방향 전달의 각 층에서 가중치 파라미터를 최적화하는 것이며, 이는 가장 적합한 계층적 표현이 데이터로부터 학습될 수 있도록 점차적으로 단순한 피쳐를 복잡한 피쳐로 조합한다. 최적화 프로세스의 단일 사이클은 다음과 같이 구성된다. 먼저, 훈련 데이터세트가 주어지면 순방향 전달 섹션은 각 층의 출력을 순차적으로 계산하고 함수 신호를 네트워크를 통해 앞으로 전파한다. 순방향 전달 섹션의 마지막 층에서, 객관적인 손실 함수(예를 들어, 손실 생성 모듈(2104)에 의해 생성됨)는 추론된 출력과 주어진 표지 간의 오류를 측정한다. 손실 벌점화 모듈(2106)은 손실 함수(2109)에 벌점을 부여하여 벌점화된 손실 함수(2111)를 생성한다. 훈련 오류를 최소화하기 위해, 역전파 전달은 연쇄 법칙(chain rule)을 사용하여 오류 신호(예를 들어, 벌점화 손실 함수(2111))를 역전파하고 신경망 전체의 모든 가중치에 대한 기울기를 계산한다. 마지막으로, 기울기 하강법에 기초한 최적화 알고리즘을 사용하여 가중치 파라미터가 업데이트된다. 배치(batch) 기울기 하강법은 각각의 완전한 데이터세트에 대해 파라미터 업데이트를 수행하는 반면, 확률적 기울기 하강법은 각각의 작은 데이터 예 세트에 대해 업데이트를 수행함으로써 확률적 근사치를 제공한다. 수 개의 최적화 알고리즘이 확률적 기울기 하강법으로부터 유래한다. 예를 들어, 훈련 알고리즘은 각각의 파라미터에 대한 기울기의 업데이트 빈도 및 모멘트에 기초하여 학습률을 적응적으로 수정하면서 확률적 기울기 하강법을 수행할 수 있다. 손실 생성 모듈(2104)에 의해 생성된 손실 함수는 로지스틱 회귀(logistic regression)/로그(log) 손실, 다중클래스 교차-엔트로피(multi-class cross-entropy)/소프트맥스 손실, 이진 교차-엔트로피(binary cross-entropy) 손실, 평균 제곱 오류(mean-squared error) 손실, L1 손실, L2 손실, 평활한(smooth) L1 손실, 및 Huber 손실과 같은 임의의 적합한 유형일 수 있다. 순방향 전달 섹션, 역전파 섹션 및 손실 생성 모듈을 포함하는 신경망 모델을 포함하는 염기 호출자는 "ARTIFICIAL INTELLIGENCE-BASED QUALITY SCORING"라는 명칭으로 2020년 3월 20일에 출원된 미국 정규 특허 출원 제16/826,134호(대리인 문서 번호 ILLM 1008-19/IP-1747-US)에서 더 자세히 논의되었으며, 이는 본원에 참조로 포함된다.
도 22a 내지 도 22e는 특정 염기 서열의 검출에 응답하여 (예를 들어, 손실 벌점화 모듈(2106)에 의한) 손실 함수의 페널티화를 조합하여 예시한다. 도 22a 내지 도 22e의 예와 관련하여 논의된 특정 염기 서열은 GGXGG이고, "X"는 A, C, T 또는 G 중 임의의 것일 수 있다. 그러나, 본 개시내용의 교시는 임의의 특정의 "특정 염기 서열"에 제한되지 않고, 임의의 단독중합체, 플랭킹된(flanked) 단독중합체, 및/또는 도 19, 20a 및 도 20b와 관련하여 본원에서 논의된 임의의 다른 특정 염기 서열에 적용될 수 있다.
도 22a를 참조하면, 손실 함수(2109)의 손실 매트릭스인 교차 엔트로피 매트릭스(2204a)의 섹션이 예시되어 있다. 또한 벌점화 매트릭스(2208a)가 예시되어 있다. 일 예에서, 벌점화 매트릭스(2208a)는 교차 엔트로피 매트릭스(2204a)의 손실 함수를 선택적으로 벌점화하기 위한 것이다. 도 22a의 교차-엔트로피 매트릭스(2204a)와 벌점화 매트릭스(2208a)는 서열분석 사이클(t-2)에 대한 것이다. 교차-엔트로피 매트릭스(2204a) 및 벌점화 매트릭스(2208a) 각각은 어레이 형태로 배열된 다수의 요소를 갖고, 플로우 셀로부터의 다양한 클러스터에 대해 생성된 하나 이상의 이미지의 픽셀(또는 서브픽셀)에 대응한다는 점에 유의한다.
일 실시형태에서, 교차-엔트로피 매트릭스(2204a)와 벌점화 매트릭스(2208a)의 요소별 곱셈이 수행된다. 예를 들어, 교차-엔트로피 매트릭스(2204a)의 위치(1,1)에 있는 요소는 벌점화 매트릭스(2208a)의 위치(1,1)에 있는 요소에 곱해지고; 교차-엔트로피 매트릭스(2204a)의 위치(1,2)에 있는 요소는 벌점화 매트릭스(2208a)의 위치(1,2)에 있는 요소에 곱해지며; 일반적으로 말하면, 교차-엔트로피 매트릭스(2204a)의 위치 (i,j)에 있는 요소는 벌점화 매트릭스(2208a)의 위치 (i,j)에 있는 요소에 곱해진다. 도 22a에서, 교차-엔트로피 매트릭스(2204a)와 벌점화 매트릭스(2208a)의 이러한 곱셈은 서열분석 사이클(t-2)에 대한 벌점화된 손실 함수(2111)를 생성한다.
일반적으로, 벌점화 매트릭스(2208a)의 각 요소는 w1의 가중치 또는 벌점을 가지며, 이는 예를 들어 1일 수 있다. 따라서, 벌점화 매트릭스(2208a)의 요소에 대해 w1 = 1이면, 벌점화 매트릭스(2208a)의 요소는 교차-엔트로피 매트릭스(2204a)의 대응하는 요소에 벌점을 부과하지 않는다(또는 1의 벌점을 부과한다). 도 22a의 예에서, 벌점화 매트릭스(2208a)의 모든 요소는 w1 = 1의 동일한 벌점을 가지며, 따라서 교차-엔트로피 매트릭스(2204a)와 벌점화 매트릭스(2208a)의 곱셈에 의해 생성된 벌점화 손실 함수(2111)는 단지 교차-엔트로피 매트릭스(2204a)이다. 따라서, 본질적으로, 벌점화 매트릭스(2208a)는 도 22a에서 벌점을 부과하지 않는다.
교차-엔트로피 매트릭스(2204a)에서의 체크무늬 항목과 가중치 매트릭스(2208a)에서의 대응 가중치 w1이 예시되어 있다. 도 22a의 서열분석 사이클(t-2)에 대해, 체크무늬 박스에 대응하는 실측 염기가 G라고 가정한다.
이제 도 22b를 참조하면, 손실 함수(2109)의 손실 매트릭스인 교차 엔트로피 매트릭스(2204b), 및 서열분석 사이클(t-1)에 대한 벌점화 매트릭스(2208b)의 섹션이 예시되어 있다. 또한 교차-엔트로피 매트릭스(2204b)의 체크무늬 항목이 예시되어 있다. 또한, 도 22b의 서열분석 사이클(t-1)에 대해, 체크무늬 박스에 대응하는 염기가 G의 실측값을 갖는다고 가정한다. 다시, 벌점화 매트릭스(2208b)의 모든 항목은 w1 = 1이므로, 사실상, 벌점화 매트릭스(2208b)는 도 22b에서 벌점을 부과하지 않는다.
이제 도 22c를 참조하면, 손실 함수(2109)의 손실 매트릭스인 교차 엔트로피 매트릭스(2204c), 및 서열분석 사이클(t-1)에 대한 벌점화 매트릭스(2208c)의 섹션이 예시되어 있다. 또한 교차-엔트로피 매트릭스(2204c)의 체크무늬 항목이 예시되어 있다. 또한, 도 22c의 서열분석 사이클(t)에 대해, 체크무늬 박스에 대응하는 염기가 X의 실측을 가지며, 여기서 X는 A, C, T, 또는 G 중 임의의 것일 수 있다고 가정한다. 또한, 도 22d의 서열분석 사이클(t+1)에 대해, 체크무늬 박스에 대응하는 염기가 G의 실측을 갖는다고 가정하고; 도 22e의 서열분석 사이클(t+2)에 대해, 체크무늬 박스에 대응하는 염기가 G의 실측을 갖는다고 가정한다. 따라서, 도 22a 내지 도 22e의 교차-엔트로피 매트릭스(2204a, 2204b, 도 2204c, 2204d, 2204e)의 (3,4) 위치는 각각 GXXGG의 특정 염기 서열과 관련되어 있다. 따라서, 이 특정 염기 서열의 중간 염기는 대응 벌점화 매트릭스(2208c)에 의해 벌점화된다.
예를 들어, 특정 염기 서열의 중간 X와 관련된 손실과 곱해지게 될(즉, 교차 엔트로피 행렬(2204c)의 (3,4) 요소와 곱해질), 도 22c의 벌점화 매트릭스(2208c)의 (3,4) 위치에 대응하는 벌점은 W2이며, 여기서 W2는 w1보다 크다(즉, W2 > w1). 예를 들어, W2는 w1 값의 적어도 2배이다. 예를 들어 W2는 2보다 큰 반면, w1은 1이다. 일 예에서, W2 = 20이거나 그 초과이다. 벌점화 매트릭스(2208c)의 나머지 요소는 여전히 w1이다.
따라서, 사실상, 벌점화 매트릭스(2208c)는 가중치 W2에 의해 벌점화되는 교차-엔트로피 매트릭스(2204c)의 (3,4) 요소를 제외하고 도 22c의 교차-엔트로피 매트릭스(2204c)의 요소 중 어느 것에도 벌점을 부과하지 않는다.
이제 도 22d를 참조하면, 손실 함수(2109)의 손실 매트릭스인 교차 엔트로피 매트릭스(2204d), 및 서열분석 사이클(t+1)에 대한 벌점화 매트릭스(2208d)의 섹션이 예시되어 있다. 또한 교차-엔트로피 매트릭스(2204d)의 체크무늬 항목이 예시되어 있다. 이전에 논의된 바와 같이, 도 22d의 서열분석 사이클(t+1)에 대해, 체크무늬 박스에 대응하는 염기가 G의 실측값을 갖는다고 가정한다. 다시, 벌점화 매트릭스(2208d)의 모든 항목은 w1 = 1이므로, 사실상, 벌점화 매트릭스(2208d)는 도 22d에서 벌점을 부과하지 않는다.
이제 도 22e를 참조하면, 손실 함수(2109)의 손실 매트릭스인 교차 엔트로피 매트릭스(2204e), 및 서열분석 사이클(t+2)에 대한 벌점화 매트릭스(2208e)의 섹션이 예시되어 있다. 또한 교차-엔트로피 매트릭스(2204e)의 체크무늬 항목이 예시되어 있다. 이전에 논의된 바와 같이, 도 22e의 서열분석 사이클(t+2)에 대해, 체크무늬 박스에 대응하는 염기가 G의 실측값을 갖는다고 가정한다. 다시, 벌점화 매트릭스(2208e)의 모든 항목은 w1 = 1이므로, 사실상, 벌점화 매트릭스(2208e)는 도 22e에서 벌점을 부과하지 않는다.
따라서, 도 22a 내지 도 22e에 예시된 5개의 연속적인 염기 호출 사이클에서, 체크무늬 박스는 단독중합체 또는 플랭킹된 단독중합체(예를 들어, X 값에 기초하여)인 염기 서열 GGXGG와 관련되어 있다. 일 실시형태에서, 이 특정 염기 서열에 대한 중간 X(예를 들어, 이는 양쪽에 G에 의해 플랭킹됨)에 대한 손실은 서열의 다른 염기뿐만 아니라 다른 일반적인 염기 서열에 대한 손실의 벌점과 다르게 벌점화된다. 예를 들어, 이 특정 염기 서열의 중간 X에 대한 손실은 1보다 큰 W2(즉, W2>1)의 대응하는 벌점의 대응 증폭에 의해 증폭된다.
손실 벌점화 모듈(2106)이 실측 데이터에서 특정 염기 서열을 검출하는 경우, 손실 벌점화 모듈(2106)은 이러한 특정 염기 서열의 하나 이상의 염기에 특화된 증폭 가중치 또는 벌점을 적용한다. 따라서, 예를 들어, 도 22c의 벌점화 매트릭스(2208c)의 벌점 W2는 다양한 벌점화 매트릭스(2208)의 다양한 다른 벌점과 상이하다(예를 들어, 증폭되거나 더 높다). 예를 들어, 도 22c의 W2는 도 22a, 22b, 22d 및/또는 22e의 w1과 상이하다(예를 들어, 증폭되거나 더 높다).
손실 벌점화는 신경망 기반 염기 호출자의 훈련 페이즈 동안 수행된다. 훈련 페이즈 동안 실측 염기 서열은 도 22a 내지 도 22e와 관련하여 논의된 곱셈 이전에 선험적으로 알려져 있다. 따라서, 특정 염기 서열이 처리될 것인지 여부에 대해 신경망 모델에 미리 알려져 있다. 따라서, 본원에 논의된 바와 같이 도 22c에서는 특정 염기 서열의 중간 염기에 대응하는 벌점 W2가 높게 될 수 있다(예를 들어, 심지어 도 22d 및 도 22e에서의 동작을 수행하고 특정 염기 서열의 마지막 두 염기를 처리하기 전에).
일 예에서, 메모리는 손실 벌점화 매트릭스(2208a, 2208b, ..., 2208e)를 저장한다. 신경망 모델이 특정 염기 서열을 예상하는 경우, 도 22c와 관련하여 논의된 바와 같이 특정 염기 서열의 중간 염기에 대응하는 벌점 W2가 변경된다(예를 들어 높게 된다).
특정 염기 서열 GGXGG의 중간 염기를 다른 염기보다 상대적으로 더 많이 벌점화하는 것(예를 들어, W2를 상대적으로 높게 만듦으로써)은 특정 염기 서열 GGXGG의 중간 염기와 관련된 손실을 증폭시킨다. 예를 들어, 벌점화된 손실 함수(2111)로부터 생성된 기울기는 특정 염기 서열 GGXGG의 중간 염기에 대한 증폭된 손실을 포함한다. 이는 이 특정 염기 호출에 대한 기울기 하강법의 단계 크기를 변경하여, 신경망 모델이 이러한 특정 염기 서열을 인식하고 이러한 특정 염기 서열에 대해 특수 가중치를 적응시키는 것을 용이하게 한다.
도 22f는 특정 염기 서열의 중간 염기와 연관된 손실에 특화된 가중치의 적용을 예시한다. 여기서 특정 염기 서열은 GGXGG이고, 여기서 "X"는 A, C, T 또는 G 중 임의의 것일 수 있다. 그러나, 본 개시내용의 교시는 임의의 특정의 "특정 염기 서열"에 제한되지 않고, 임의의 단독중합체, 플랭킹된 단독중합체, 또는 도 19, 20a 및 도 20b와 관련하여 본원에서 논의된 임의의 다른 특정 염기 서열에 적용될 수 있다. 알 수 있는 바와 같이, 정규적인 벌점 w1(임의의 적절한 가중치 선택 방식에 따라 미리 특정되고 선택될 수 있으며, 예를 들어 w1 = 1)은 특정 염기 서열의 중간 염기와 관련된 손실을 제외하고 모든 염기와 관련된 손실에 적용된다. 특정 염기 서열의 중간 염기에 대해, 대응 손실에 W2의 벌점이 적용되며, 여기서 W2는 정규적인 가중치와 상이하다(예를 들어, 더 높다).
손실 벌점화 결과
도 22g는 손실에 벌점을 부과하지 않는 염기 호출 시스템 대 특정 염기 서열에 대한 손실에 벌점을 부과하는 염기 호출 시스템의 성능을 비교하는 2개의 그래프(2280, 2284)를 예시한다. 이 그래프에서 사용된 특정 염기 서열은 GGGGG이다. 이들 플롯 각각에서의 X축은 예측된 품질 점수(1432)이고, 이들 플롯 각각에서의 Y축은 실제 품질 점수(1440)이다.
그래프(2280)는 특정 염기 서열 GGGGG에 대한 손실을 구체적으로 벌점화하지 않는 염기 호출 시스템에 대한 것이다. 알 수 있는 바와 같이, 그래프(2280)에서 특정 서열의 염기 호출에는 6.4979%의 오류가 있다.
그래프(2284)는 특정 염기 서열 GGGGG의 중간 염기에 대해 20의 벌점을 할당하는 염기 호출 시스템에 대한 것이다. 알 수 있는 바와 같이, 그래프(2284)에서 특정 서열의 염기 호출에는 1.9941%의 오류가 있다.
따라서 그래프(2284)에서 20의 벌점은 오류를 6.4979에서 1.9941로 대폭 개선한다. 따라서, 본원에 논의된 바와 같이, 손실 벌점화는 예를 들어 품질 점수를 실제(또는 경험적으로 결정된) 품질 점수에 더 잘 정렬함으로써 품질 점수를 개선한다.
품질 점수 보정의 예시적 적용
본 개시내용은 예를 들어 보정된 품질 점수가 실제 품질 점수에 더 잘 정렬되도록 품질 점수의 보정을 위한 다양한 접근법을 논의한다. 품질 점수는 기저 염기 호출을 변경하거나 변경하지 않을 수 있다.
예를 들어, 보정 없이 염기와 관련된 품질 점수는 다음과 같다고 가정한다: Q(A) = 70이고 Q(C), Q(T) 및 Q(G)의 각각은 1보다 작음. 보정 없이 호출되는 염기는 A이다. 본원에 논의된 보정 접근법(예를 들어, 입력 정규화, 점수 재매핑 및/또는 손실 벌점화) 중 하나 이상을 사용할 때 보정된 품질 점수는 다음과 같다고 가정한다: Q(A) = 10이고, Q(C), Q(T), Q(G)의 각각은 2보다 작음. 보정하여 호출되는 염기는 여전히 A이다. 따라서, 보정은 기저 염기 호출을 변경하지 않는다. 그러나, 보정이 기저 염기 호출을 변경하거나 변경하지 않을 수 있지만, 정확한 품질 점수와 기저의 정확한 신뢰 수준을 제공하는 것은 많은 실제 적용에서 중요하다. 예를 들어, 종종, 품질 점수는 중요한 의료 결정을 내리는 데 사용된다. 예를 들어, 의료 환경에서 인간 조직 샘플의 염기를 검출하는 것과 관련된 신뢰도 점수는 건강 상태를 치료하는 접근법에 영향을 미칠 수 있다. 예를 들어, 샘플의 여러 염기에서 높은 품질 점수(즉, 높은 신뢰도 수준)는 암의 가능성이 높다는 것을 나타낼 수 있는 반면, 샘플의 여러 염기에서 낮은 품질 점수(즉, 낮은 신뢰도 수준)는 암의 의심스러운 가능성을 나타낼 수 있다 - 따라서 치료 결정은 품질 점수 수준에 따라 달라질 수 있다. 따라서 품질 점수를 보정하고 보정된 품질 점수를 보고하는 것은 품질 점수 수준과 관련된 의료 결정을 혹시 포함할 수도 있는 다양한 다운스트림 작업을 결정하는 데 도움이 된다.
정규화, 재매핑, 양자화, 손실 벌점화를 구현하는 조합된 염기 호출 시스템
도 23은 (i) 도 17a의 염기 호출 시스템(1700)의 정규화 모듈(1704), (ii) 도 18a의 염기 호출 시스템(1800)의 품질 점수 재매핑 모듈(1804) 및 품질 점수 양자화 모듈(1812), 및 (iii) 도 21의 염기 호출 시스템(2100)의 손실 벌점화 모듈(2106)을 포함하는 염기 호출 시스템(2300)을 예시한다. 따라서, 염기 호출 시스템(2300)은 본 개시내용 전반에 걸쳐 논의된 바와 같이 입력 정규화, 품질 점수 재매핑 및 양자화, 및/또는 손실 벌점화 중 하나 이상을 수행할 수 있다.
염기 호출 아키텍처
도 24는 일 구현예에 따른 염기 호출 시스템(2400)의 블록도이다. 염기 호출 시스템(2400)은 생물학적 또는 화학적 물질 중 적어도 하나에 관련된 임의의 정보 또는 데이터를 획득하도록 동작할 수 있다. 일부 구현예에서, 염기 호출 시스템(2400)은 벤치탑(bench-top) 디바이스 또는 데스크톱 컴퓨터와 유사할 수 있는 워크스테이션이다. 예를 들어, 원하는 반응을 이행하기 위한 시스템 및 구성요소의 대부분(또는 전부)이 공통 하우징(2416) 내에 있을 수 있다.
특정 구현예에서, 염기 호출 시스템(2400)은, 드 노보 서열분석(de novo sequencing), 전체 게놈 또는 표적 게놈 영역의 재서열분석, 및 메타게노믹스(metagenomics)를 포함하지만 이들로 제한되지 않는 다양한 적용을 위해 구성된 핵산 서열분석 시스템(또는 서열분석기)이다. 서열분석기는 또한 DNA 또는 RNA 분석을 위해 사용될 수 있다. 일부 구현예에서, 염기 호출 시스템(2400)은 또한 바이오센서 내의 반응 부위를 생성하도록 구성될 수 있다. 예를 들어, 염기 호출 시스템(2400)은 샘플을 수용하도록, 그리고 샘플로부터 도출된 클론 증폭된 핵산의 표면 부착 클러스터를 생성하도록 구성될 수 있다. 각각의 클러스터는 바이오센서 내의 반응 부위를 구성하거나 그의 일부일 수 있다.
예시적인 염기 호출 시스템(2400)은 바이오센서(2402) 내에서 원하는 반응을 수행하기 위해 바이오센서(2402)와 상호작용하도록 구성된 시스템 리셉터클 또는 인터페이스(2412)를 포함할 수 있다. 도 24와 관련한 하기의 설명에서, 바이오센서(2402)는 시스템 리셉터클(2412) 내로 로딩된다. 그러나, 바이오센서(2402)를 포함하는 카트리지는 시스템 리셉터클(2412) 내로 삽입될 수 있고, 일부 상태에서, 카트리지는 일시적으로 또는 영구적으로 제거될 수 있다는 것이 이해된다. 전술된 바와 같이, 카트리지는, 특히, 유체 제어 및 유체 저장 구성요소를 포함할 수 있다.
특정 구현예에서, 염기 호출 시스템(2400)은 바이오센서(2402) 내에서 다수의 병렬 반응을 수행하도록 구성된다. 바이오센서(2402)는 원하는 반응이 발생할 수 있는 하나 이상의 반응 부위를 포함한다. 반응 부위들은, 예를 들어, 바이오센서의 고체 표면에 고정화되거나, 또는 바이오센서의 대응하는 반응 챔버 내에 위치되는 비드(또는 다른 이동가능한 기재)에 고정화될 수 있다. 반응 부위는, 예를 들어, 클론 증폭된 핵산의 클러스터를 포함할 수 있다. 바이오센서(2402)는 솔리드-스테이트 이미지화 디바이스(예컨대, CCD 또는 CMOS 이미저) 및 이에 탑재되는 플로우 셀을 포함할 수 있다. 플로우 셀은, 염기 호출 시스템(2400)으로부터 용액을 수용하고 그 용액을 반응 부위를 향해 지향시키는 하나 이상의 플로우 채널을 포함할 수 있다. 선택적으로, 바이오센서(2402)는 열 에너지를 플로우 채널 내로 또는 플로우 채널 밖으로 이송하기 위한 열 요소와 결합하도록 구성될 수 있다.
염기 호출 시스템(2400)은 생물학적 또는 화학적 분석을 위한 미리 결정된 방법 또는 검정 프로토콜을 수행하기 위해 서로 상호작용하는 다양한 구성요소, 조립체, 및 시스템(또는 서브시스템)을 포함할 수 있다. 예를 들어, 염기 호출 시스템(2400)은 염기 호출 시스템(2400)의 다양한 구성요소, 조립체, 및 서브시스템, 및 또한 바이오센서(2402)와 통신할 수 있는 시스템 제어기(2404)를 포함한다. 예를 들어, 시스템 리셉터클(2412)에 더하여, 염기 호출 시스템(2400)은 또한 염기 호출 시스템(2400) 및 바이오센서(2402)의 유체 네트워크 전체에 걸쳐 유체의 유동을 제어하기 위한 유체 제어 시스템(2406); 생물검정 시스템에 의해 사용될 수 있는 모든 유체(예컨대, 기체 또는 액체)를 보유하도록 구성된 유체 저장 시스템(2408); 유체 네트워크, 유체 저장 시스템(2408), 및/또는 바이오센서(2402)에서의 유체의 온도를 조절할 수 있는 온도 제어 시스템(2410); 및 바이오센서(2402)를 조명하도록 구성된 조명 시스템(2409)을 포함할 수 있다. 전술된 바와 같이, 바이오센서(2402)를 갖는 카트리지가 시스템 리셉터클(2412) 내로 로딩되는 경우, 카트리지는 또한 유체 제어 및 유체 저장 구성요소를 포함할 수 있다.
또한, 도시된 바와 같이, 염기 호출 시스템(2400)은 사용자와 상호작용하는 사용자 인터페이스(2414)를 포함할 수 있다. 예를 들어, 사용자 인터페이스(2414)는 사용자로부터의 정보를 디스플레이하거나 요청하기 위한 디스플레이(2413) 및 사용자 입력을 수신하기 위한 사용자 입력 디바이스(2415)를 포함할 수 있다. 일부 구현예에서, 디스플레이(2413) 및 사용자 입력 디바이스(2415)는 동일한 디바이스이다. 예를 들어, 사용자 인터페이스(2414)는 개인의 터치의 존재를 검출하도록, 그리고 또한 디스플레이 상의 터치의 위치를 식별하도록 구성된 터치 감응형 디스플레이를 포함할 수 있다. 그러나, 마우스, 터치패드, 키보드, 키패드, 핸드헬드 스캐너, 음성 인식 시스템, 모션 인식 시스템 등과 같은 다른 사용자 입력 디바이스(2415)가 사용될 수 있다. 하기에서 더 상세히 논의되는 바와 같이, 염기 호출 시스템(2400)은 원하는 반응을 수행하기 위해, 바이오센서(2402)(예컨대, 카트리지의 형태로 있음)를 포함하는 다양한 구성요소와 통신할 수 있다. 염기 호출 시스템(2400)은 또한 사용자에게 원하는 정보를 제공하기 위해 바이오센서로부터 획득된 데이터를 분석하도록 구성될 수 있다.
시스템 제어기(2404)는 마이크로제어기를 사용하는 시스템, 축약 명령어 세트 컴퓨터(RISC: Reduced Instruction Set Computer), 특정용도용 집적 회로(ASIC), 필드 프로그래밍가능 게이트 어레이(FPGA), 논리 회로, 및 본원에 기술된 함수를 실행할 수 있는 임의의 다른 회로 또는 프로세서를 포함하는, 임의의 프로세서 기반 또는 마이크로프로세서 기반 시스템을 포함할 수 있다. 상기의 예는 단지 예시적인 것이며, 따라서, 어떠한 방식으로든, 용어 "시스템 제어기"의 정의 및/또는 의미를 제한하도록 의도되지 않는다. 예시적인 구현예에서, 시스템 제어기(2404)는 검출 데이터를 획득하는 것 및 분석하는 것 중 적어도 하나를 위해 하나 이상의 저장 요소, 메모리, 또는 모듈에 저장된 명령어의 세트를 실행한다. 검출 데이터는 픽셀 신호의 복수의 서열을 포함하여, 수백만 개의 센서(또는 픽셀) 각각으로부터의 픽셀 신호의 서열이 많은 염기 호출 사이클에 걸쳐서 검출될 수 있게 할 수 있다. 저장 요소를 염기 호출 시스템(2400) 내의 정보 소스 또는 물리적 메모리 요소의 형태로 있을 수 있다.
명령어의 세트는 본원에 기술된 다양한 구현예의 방법 및 프로세스와 같은 특정 동작을 수행하도록 염기 호출 시스템(2400) 또는 바이오센서(2402)에 지시하는 다양한 커맨드를 포함할 수 있다. 명령어의 세트는, 유형적(tangible)인 비일시적 컴퓨터 판독가능 매체 또는 매체의 일부를 형성할 수 있는 소프트웨어 프로그램의 형태로 있을 수 있다. 본원에서 사용되는, 용어 "소프트웨어" 및 "펌웨어"는 상호교환가능하며, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 및 비휘발성 RAM(NVRAM) 메모리를 포함한, 컴퓨터에 의한 실행을 위한 메모리에 저장된 임의의 컴퓨터 프로그램을 포함한다. 상기의 메모리 유형은 단지 예시적이며, 따라서, 컴퓨터 프로그램의 저장을 위해 사용가능한 메모리의 유형에 대한 제한은 아니다.
소프트웨어는 시스템 소프트웨어 또는 애플리케이션 소프트웨어와 같은 다양한 형태로 있을 수 있다. 또한, 소프트웨어는 별개의 프로그램의 집합의 형태, 또는 더 큰 프로그램 내의 프로그램 모듈 또는 프로그램 모듈의 일부분의 형태로 있을 수 있다. 소프트웨어는 또한 객체 지향 프로그래밍 형태의 모듈식 프로그래밍을 포함할 수 있다. 검출 데이터를 획득한 후에, 검출 데이터는 염기 호출 시스템(2400)에 의해 자동으로 처리될 수 있거나, 사용자 입력에 응답하여 처리될 수 있거나, 또는 다른 처리 기계에 의해 이루어진 요청(예컨대, 통신 링크를 통한 원격 요청)에 응답하여 처리될 수 있다. 예시된 구현예에서, 시스템 제어기(2404)는 분석 모듈(2538)(도 25에 도시됨)을 포함한다. 다른 구현예에서, 시스템 제어기(2404)는 분석 모듈(2538)을 포함하지 않고, 대신에, 분석 모듈(2538)에 액세스한다(예컨대, 분석 모듈(2538)은 클라우드 상에서 개별적으로 호스팅될 수 있음).
시스템 제어기(2404)는 통신 링크를 통해 염기 호출 시스템(2400)의 바이오센서(2402) 및 다른 구성요소에 접속될 수 있다. 시스템 제어기(2404)는 또한 현장외(off-site) 시스템 또는 서버에 통신가능하게 접속될 수 있다. 통신 링크는 유선, 코드, 또는 무선일 수 있다. 시스템 제어기(2404)는 사용자 인터페이스(2414) 및 사용자 입력 디바이스(2415)로부터 사용자 입력 또는 커맨드를 수신할 수 있다.
유체 제어 시스템(2406)은 유체 네트워크를 포함하며, 유체 네트워크를 통한 하나 이상의 유체의 유동을 지향시키고 조절하도록 구성된다. 유체 네트워크는 바이오센서(2402) 및 유체 저장 시스템(2408)과 유체 연통할 수 있다. 예를 들어, 선택 유체가, 제어된 방식으로, 유체 저장 시스템(2408)으로부터 인출되어 바이오센서(2402)로 지향될 수 있거나, 또는 유체가 바이오센서(2402)로부터 인출되어, 예를 들어, 유체 저장 시스템(2408) 내의 폐기물 저장조를 향해 지향될 수 있다. 도시되어 있지 않지만, 유체 제어 시스템(2406)은 유체 네트워크 내의 유체의 유량 또는 압력을 검출하는 유동 센서를 포함할 수 있다. 센서는 시스템 제어기(2404)와 통신할 수 있다.
온도 제어 시스템(2410)은 유체 네트워크, 유체 저장 시스템(2408), 및/또는 바이오센서(2402)의 상이한 영역에서의 유체의 온도를 조절하도록 구성된다. 예를 들어, 온도 제어 시스템(2410)은, 바이오센서(2402)와 인터페이싱하고 바이오센서(2402) 내의 반응 부위를 따라 유동하는 유체의 온도를 제어하는 서모사이클러(thermocycler)를 포함할 수 있다. 온도 제어 시스템(2410)은, 또한, 염기 호출 시스템(2400) 또는 바이오센서(2402)의 고체 요소 또는 구성요소의 온도를 조절할 수 있다. 도시되어 있지 않지만, 온도 제어 시스템(2410)은 유체의 온도를 검출하기 위한 센서 또는 다른 구성요소를 포함할 수 있다. 센서는 시스템 제어기(2404)와 통신할 수 있다.
유체 저장 시스템(2408)은 바이오센서(2402)와 유체 연통하고, 내부에서 원하는 반응을 이행하는 데 사용되는 다양한 반응 구성요소 또는 반응물을 저장할 수 있다. 유체 저장 시스템(2408)은, 또한, 유체 네트워크 및 바이오센서(2402)를 세척 또는 세정하기 위한 그리고 반응물을 희석하기 위한 유체를 저장할 수 있다. 예를 들어, 유체 저장 시스템(2408)은 샘플, 시약, 효소, 다른 생체분자, 완충 용액, 수성 및 비극성 용액 등을 저장하기 위한 다양한 저장조를 포함할 수 있다. 더욱이, 유체 저장 시스템(2408)은, 또한, 바이오센서(2402)로부터 폐기물을 수용하기 위한 폐기물 저장조를 포함할 수 있다. 카트리지를 포함하는 구현예에서, 카트리지는 유체 저장 시스템, 유체 제어 시스템, 또는 온도 제어 시스템 중 하나 이상을 포함할 수 있다. 따라서, 그러한 시스템에 관한 것으로 본원에 기술된 구성요소 중 하나 이상은 카트리지 하우징 내에 포함될 수 있다. 예를 들어, 카트리지는 샘플, 시약, 효소, 다른 생체분자, 완충 용액, 수성 및 비극성 용액, 폐기물 등을 저장하기 위한 다양한 저장소를 가질 수 있다. 이와 같이, 유체 저장 시스템, 유체 제어 시스템 또는 온도 제어 시스템 중 하나 이상이 카트리지 또는 다른 바이오센서를 통해 생물검정 시스템과 제거가능하게 결합될 수 있다.
조명 시스템(2409)은 바이오센서를 조명하기 위한 광원(예컨대, 하나 이상의 LED) 및 복수의 광학 구성요소를 포함할 수 있다. 광원들의 예는 레이저, 아크 램프, LED, 또는 레이저 다이오드를 포함할 수 있다. 광학 구성요소는, 예를 들어, 반사기, 다이크로익(dichroic), 빔 스플리터, 시준기, 렌즈, 필터, 웨지, 프리즘, 거울, 검출기 등일 수 있다. 조명 시스템을 사용하는 구현예에서, 조명 시스템(2409)은 여기 광을 반응 부위로 지향시키도록 구성될 수 있다. 하나의 예로서, 형광단은 광의 녹색 파장에 의해 여기될 수 있는데, 이는 여기 광의 그러한 파장이 대략 532 nm일 수 있기 때문이다. 일 구현예에서, 조명 시스템(2409)은 바이오센서(2402)의 표면의 표면 법선에 평행한 조명을 생성하도록 구성된다. 다른 구현예에서, 조명 시스템(2409)은 바이오센서(2402)의 표면의 표면 법선에 대해 오프각(off-angle)인 조명을 생성하도록 구성된다. 또 다른 구현예에서, 조명 시스템(2409)은 일부 평행 조명 및 일부 오프각 조명을 포함한 복수의 각도를 갖는 조명을 생성하도록 구성된다.
시스템 리셉터클 또는 인터페이스(2412)는 기계적 방식, 전기적 방식 및 유체 방식 중 적어도 하나로 바이오센서(2402)와 결합하도록 구성된다. 시스템 리셉터클(2412)은 바이오센서(2402)를 통한 유체의 유동을 용이하게 하기 위해 바이오센서(2402)를 원하는 배향으로 보유할 수 있다. 시스템 리셉터클(2412)은, 또한, 바이오센서(2402)와 결합하도록 구성된 전기 접촉부를 포함하여, 염기 호출 시스템(2400)이 바이오센서(2402)와 통신하고/하거나 바이오센서(2402)에 전력을 제공할 수 있게 할 수 있다. 또한, 시스템 리셉터클(2412)은 바이오센서(2402)와 결합하도록 구성된 유체 포트(예컨대, 노즐)를 포함할 수 있다. 일부 구현예에서, 바이오센서(2402)는 기계적 방식으로, 전기적 방식으로, 그리고 또한 유체 방식으로 시스템 리셉터클(2412)에 제거가능하게 커플링된다.
또한, 염기 호출 시스템(2400)은 다른 시스템 또는 네트워크와 또는 다른 생물검정 시스템(2400)과 원격으로 통신할 수 있다. 생물검정 시스템(들)(2400)에 의해 획득된 검출 데이터는 원격 데이터베이스에 저장될 수 있다.
도 25는 도 24의 시스템에서 사용될 수 있는 시스템 제어기(2404)의 블록도이다. 일 구현예에서, 시스템 제어기(2404)는 서로 통신할 수 있는 하나 이상의 프로세서 또는 모듈을 포함한다. 프로세서 또는 모듈 각각은 특정 프로세스를 수행하기 위한 알고리즘(예컨대, 유형적 그리고/또는 비일시적 컴퓨터 판독가능 저장 매체 상에 저장된 명령어) 또는 서브알고리즘을 포함할 수 있다. 시스템 제어기(2404)는 개념적으로 모듈의 집합체로서 예시되지만, 전용 하드웨어 보드, DSP, 프로세서 등의 임의의 조합을 이용하여 구현될 수 있다. 대안적으로, 시스템 제어기(2404)는 단일 프로세서 또는 다중 프로세서를 갖는 기성품 PC를 이용하여 구현될 수 있으며, 기능적 동작은 프로세서들 사이에 분산된다. 추가 옵션으로서, 후술되는 모듈은 소정의 모듈식 기능이 전용 하드웨어를 활용하여 수행되는 하이브리드 구성을 활용하여 구현될 수 있는 반면, 나머지 모듈식 기능은 기성품 PC 등을 활용하여 수행된다. 모듈은 또한 처리 유닛 내의 소프트웨어 모듈로서 구현될 수 있다.
동작 동안, 통신 포트(2520)는 정보(예컨대, 커맨드)를 바이오센서(2402)(도 24) 및/또는 서브시스템(2406, 2408, 2410)(도 24)로 송신할 수 있거나 정보(예컨대, 데이터)를 그것들로부터 수신할 수 있다. 구현예에서, 통신 포트(2520)는 픽셀 신호의 복수의 서열을 출력할 수 있다. 통신 포트(2520)는 사용자 인터페이스(2414)(도 24)로부터 사용자 입력을 수신할 수 있고, 데이터 또는 정보를 사용자 인터페이스(2414)로 송신할 수 있다. 바이오센서(2402) 또는 서브시스템(2406, 2408, 2410)로부터의 데이터는 생물검정 세션 동안 실시간으로 시스템 제어기(2404)에 의해 처리될 수 있다. 추가로 또는 대안으로, 데이터는 생물검정 세션 동안 시스템 메모리에 일시적으로 저장될 수 있고, 실시간 또는 오프라인 동작보다 느리게 처리될 수 있다.
도 25에 도시된 바와 같이, 시스템 제어기(2404)는 주 제어 모듈(2530)과 통신하는 복수의 모듈(2531 내지 2539)을 포함할 수 있다. 주 제어 모듈(2530)은 사용자 인터페이스(2414)(도 24)와 통신할 수 있다. 모듈(2531 내지 2539)이 주 제어 모듈(2530)과 직접 통신하는 것으로 도시되어 있지만, 모듈(2531 내지 2539)은 또한 서로, 사용자 인터페이스(2414), 및 바이오센서(2402)와 직접 통신할 수 있다. 또한, 모듈(2531 내지 2539)은 다른 모듈을 통해 주 제어 모듈(2530)과 통신할 수 있다.
복수의 모듈(2531 내지 2539)은 서브시스템(2406, 2408, 2410, 2409)과 각각 통신하는 시스템 모듈(2531 내지 2533, 2539)을 포함한다. 유체 제어 모듈(2531)은 유체 제어 시스템(2406)과 통신하여, 유체 네트워크를 통한 하나 이상의 유체의 유동을 제어하기 위해 유체 네트워크의 유동 센서 및 밸브를 제어할 수 있다. 유체 저장 모듈(2532)은 유체가 낮을 때 또는 폐기물 저장소가 최대 용량에 또는 그 근처에 있을 때 사용자에게 통지할 수 있다. 유체 저장 모듈(2532)은, 또한, 온도 제어 모듈(2533)과 통신하여, 유체가 원하는 온도로 저장될 수 있게 할 수 있다. 조명 모듈(2539)은 조명 시스템(2409)과 통신하여, 프로토콜 동안의 지정된 시간에, 예컨대 원하는 반응(예컨대, 결합 이벤트)이 발생한 후에, 반응 부위를 조명할 수 있다. 일부 구현예에서, 조명 모듈(2539)은 지정된 각도로 반응 부위를 조명하기 위해 조명 시스템(2409)과 통신할 수 있다.
복수의 모듈(2531 내지 2539)은, 또한, 바이오센서(2402)와 통신하는 디바이스 모듈(2534) 및 바이오센서(2402)에 관한 식별 정보를 결정하는 식별 모듈(2535)을 포함할 수 있다. 디바이스 모듈(2534)은, 예를 들어, 시스템 리셉터클(2412)과 통신하여, 바이오센서가 염기 호출 시스템(2400)과 전기적 및 유체 접속을 확립하였음을 확인할 수 있다. 식별 모듈(2535)은 바이오센서(2402)를 식별하는 신호를 수신할 수 있다. 식별 모듈(2535)은 다른 정보를 사용자에게 제공하기 위해 바이오센서(2402)의 정체성을 사용할 수 있다. 예를 들어, 식별 모듈(2535)은 로트 번호, 제조 날짜, 또는 바이오센서(2402)로 실행될 것이 추천되는 프로토콜을 결정할 수 있고, 이어서, 이를 디스플레이할 수 있다.
복수의 모듈(2531 내지 2539)은, 또한, 바이오센서(2402)로부터 신호 데이터(예컨대, 이미지 데이터)를 수신 및 분석하는 분석 모듈(2538)(신호 처리 모듈 또는 신호 프로세서로도 칭해짐)을 포함한다. 분석 모듈(2538)은 검출 데이터를 저장하기 위한 메모리(예컨대, RAM 또는 플래시)를 포함한다. 검출 데이터는 픽셀 신호의 복수의 서열을 포함하여, 수백만 개의 센서(또는 픽셀) 각각으로부터의 픽셀 신호의 서열이 많은 염기 호출 사이클에 걸쳐서 검출될 수 있게 할 수 있다. 신호 데이터는 후속 분석을 위해 저장될 수 있거나, 또는 사용자에게 원하는 정보를 디스플레이하기 위해 사용자 인터페이스(2414)로 송신될 수 있다. 일부 구현예에서, 신호 데이터는 분석 모듈(2538)이 신호 데이터를 수신하기 전에 솔리드-스테이트 이미저(예컨대, CMOS 이미지 센서)에 의해 처리될 수 있다.
분석 모듈(2538)은 복수의 서열분석 사이클 각각에서 광 검출기로부터 이미지 데이터를 획득하도록 구성된다. 이미지 데이터는 광 검출기에 의해 검출된 방출 신호로부터 유도되고, 신경망(예를 들어, 신경망 기반 템플릿 생성기(2548), 신경망 기반 염기 호출자(2558)(예를 들어, 도 7, 9 및 10 참조), 및/또는 신경망 기반 품질 스코러(scorer)(2568)를 통해 복수의 서열분석 사이클 각각에 대한 이미지 데이터를 처리하고, 복수의 서열분석 사이클 각각에서 분석물 중 적어도 일부에 대한 염기 호출을 생성한다.
프로토콜 모듈(2536, 2537)은 미리 결정된 검정 프로토콜을 이행할 때 서브시스템(2406, 2408, 2410)의 동작을 제어하기 위해 주 제어 모듈(2530)과 통신한다. 프로토콜 모듈(2536, 2537)은 미리 결정된 프로토콜에 따라 특정 동작을 수행할 것을 염기 호출 시스템(2400)에 지시하기 위한 명령어의 세트를 포함할 수 있다. 도시된 바와 같이, 프로토콜 모듈은 합성에 의한 서열분석(SBS: sequencing-by-synthesis) 프로세스를 수행하기 위한 다양한 커맨드를 발행하도록 구성된 SBS 모듈(2536)일 수 있다. SBS에서, 템플릿 내의 뉴클레오티드의 서열을 결정하기 위해 핵산 템플릿을 따른 핵산 프라이머의 연장이 모니터링된다. 기초 화학적 프로세스는 중합화(예컨대, 폴리머라제 효소에 의해 촉매화되는 바와 같음) 또는 결찰(ligation)(예컨대, 리가아제 효소에 의해 촉매화됨)일 수 있다. 특정 중합효소 기반 SBS 구현예에서, 프라이머에 첨가되는 뉴클레오티드의 순서 및 유형의 검출이 템플릿의 서열을 결정하는 데 사용될 수 있도록 하는 템플릿 의존 방식으로, 형광 표지된 뉴클레오티드가 프라이머에 첨가된다(이에 의해, 프라이머를 연장함). 예를 들어, 제1 SBS 사이클을 개시하기 위해, 핵산 템플릿의 어레이를 수용하는 플로우 셀 내로/플로우 셀을 통해 하나 이상의 표지된 뉴클레오티드, DNA 중합효소 등을 전달하기 위한 커맨드가 제공될 수 있다. 핵산 템플릿은 대응하는 반응 부위에 위치될 수 있다. 프라이머 연장이 표지된 뉴클레오티드가 혼입되게 하는 그러한 반응 부위가 이미지화 이벤트를 통해 검출될 수 있다. 이미지화 이벤트 동안, 조명 시스템(2409)은 반응 부위에 여기 광을 제공할 수 있다. 선택적으로, 뉴클레오티드는, 일단 뉴클레오티드가 프라이머에 첨가되었다면, 추가 프라이머 연장을 종결시키는 가역적 종결 속성을 추가로 포함할 수 있다. 예를 들어, 가역적 종결자 모이어티를 갖는 뉴클레오티드 유사체가 프라이머에 첨가되어, 모이어티를 제거하기 위해 탈블록킹제(deblocking agent)가 전달될 때까지 후속 연장이 발생할 수 없게 할 수 있다. 따라서, 가역적 종결을 사용하는 구현예에 대해, (검출이 발생하기 전 또는 발생한 후) 탈블록킹 시약을 플로우 셀에 전달하기 위한 커맨드가 제공될 수 있다. 다양한 전달 단계들 사이의 세척(들)을 달성하기 위해 하나 이상의 커맨드가 제공될 수 있다. 그 다음, 사이클을 n번 반복하여 프라이머를 n개의 뉴클레오티드만큼 확장하여 길이 n의 서열을 검출할 수 있다. 예시적인 서열분석 기술은 예를 들어 문헌[Bentley et al., Nature 456:53-59 (2008)]; 국제공개 WO 04/018497호; 미국 특허 제7,057,026호; 국제공개 WO 91/06678호; 국제공개 WO 07/123744호; 미국 특허 제7,329,492호; 미국 특허 제7,211,414호; 미국 특허 제7,315,019호; 및 미국 특허 제7,405,281호에 기재되어 있으며, 이들의 각각은 본원에 참고로 포함된다.
SBS 사이클의 뉴클레오티드 전달 단계의 경우, 단일 유형의 뉴클레오티드가 한 번에 전달될 수 있거나, 또는 다수의 상이한 뉴클레오티드 유형이(예컨대, A, C, T, 및 G가 함께) 전달될 수 있다. 단일 유형의 뉴클레오티드만이 한 번에 존재하는 뉴클레오티드 전달 구성의 경우, 상이한 뉴클레오티드는 별개의 표지를 가질 필요가 없는데, 이는 그것들이 개별화된 전달 시에 고유한 시간적 분리에 기초하여 구별될 수 있기 때문이다. 따라서, 서열분석 방법 또는 장치는 단일 컬러 검출을 사용할 수 있다. 예를 들어, 여기 소스는 단일 파장의 또는 단일 파장 범위 내의 여기만을 제공할 필요가 있다. 전달이 플로우 셀 내에 한 번에 존재하는 다수의 상이한 뉴클레오티드를 생성하는 뉴클레오티드 전달 구성의 경우, 상이한 뉴클레오티드 유형을 혼입하는 부위는 혼합물 내의 각자의 뉴클레오티드 유형에 부착되는 상이한 형광 표지에 기초하여 구별될 수 있다. 예를 들어, 4개의 상이한 뉴클레오티드가 사용될 수 있으며, 각각은 4개의 상이한 형광단 중 하나를 갖는다. 일 구현예에서, 4개의 상이한 형광단은 스펙트럼의 4개의 상이한 영역에서의 여기를 사용하여 구별될 수 있다. 예를 들어, 4개의 상이한 여기 방사선 소스가 사용될 수 있다. 대안적으로, 4개 미만의 상이한 여기 소스가 사용될 수 있지만, 단일 소스로부터의 여기 방사선의 광학적 여과가 플로우 셀에서 상이한 범위의 여기 방사선을 생성하는 데 사용될 수 있다.
일부 구현예에서, 4개 미만의 상이한 컬러가 4개의 상이한 뉴클레오티드를 갖는 혼합물에서 검출될 수 있다. 예를 들어, 뉴클레오티드의 쌍은 동일한 파장에서 검출될 수 있지만, 그 쌍의 하나의 구성원에 대해 다른 구성원과 비교한 강도의 차이에 기초하여, 또는 그 쌍의 다른 구성원에 대해 검출된 신호와 비교한, 명백한 신호가 나타나거나 사라지게 하는 (예컨대, 화학적 변형, 광화학적 변형, 또는 물리적 변형을 통한) 그 쌍의 하나의 구성원에 대한 변화에 기초하여 구별될 수 있다. 4개 미만의 색상 검출을 사용하여 4개의 상이한 뉴클레오티드를 구별하기 위한 예시적인 장치 및 방법은 예를 들어 미국 특허출원 제61/538,294호 및 제61/619,878호에 기재되어 있는데, 이들은 전체 내용이 참조로 본원에 포함된다. 2012년 9월 21일자로 출원된 미국 출원 제13/624,200호가 또한 전체가 본원에 참고로 포함된다.
복수의 프로토콜 모듈은, 또한, 바이오센서(2402) 내의 제품을 증폭시키기 위한 커맨드를 유체 제어 시스템(2406) 및 온도 제어 시스템(2410)에 발행하도록 구성된 샘플 준비(또는 생성) 모듈(2537)을 포함할 수 있다. 예를 들어, 바이오센서(2402)는 염기 호출 시스템(2400)에 결합될 수 있다. 증폭 모듈(2537)은 필요한 증폭 성분을 바이오센서(2402) 내의 반응 챔버로 전달하라는 명령어를 유체 제어 시스템(2406)에 발행할 수 있다. 다른 구현예에서, 반응 부위는 증폭을 위한 일부 구성요소, 예컨대 템플릿 DNA 및/또는 프라이머를 이미 함유할 수 있다. 증폭 성분을 반응 챔버로 전달한 후에, 증폭 모듈(2537)은 알려진 증폭 프로토콜에 따라 상이한 온도 스테이지를 통해 순환할 것을 온도 제어 시스템(2410)에 지시할 수 있다. 일부 구현예에서, 증폭 및/또는 뉴클레오티드 혼입은 등온적으로 수행된다.
SBS 모듈(2536)은 클론 앰플리콘(clonal amplicon)의 클러스터가 플로우 셀의 채널 내의 국소화된 영역 상에 형성되는 브리지 PCR을 수행하라는 커맨드를 발행할 수 있다. 브리지 PCR을 통해 앰플리콘을 생성한 후, 앰플리콘은 단일 가닥 템플릿 DNA 또는 sstDNA를 만들기 위해 "선형화"될 수 있고, 서열분석 프라이머는 관심 영역을 플랭킹하는 유니버셜 서열에 혼성화될 수 있다. 예를 들어, 합성 방법에 의한 가역적 종결자 기반 서열분석은 상기에 기재된 바와 같이 또는 하기와 같이 사용될 수 있다.
각각의 염기 호출 또는 서열분석 사이클은, 예를 들어 변형된 DNA 중합효소 및 4개의 유형의 뉴클레오티드의 혼합물을 사용함으로써 달성될 수 있는 단일 염기에 의해 sstDNA를 연장할 수 있다. 상이한 유형의 뉴클레오티드는 고유 형광 표지를 가질 수 있고, 각각의 뉴클레오티드는 각각의 사이클에서 단일 염기 혼입만이 발생하는 것을 허용하는 가역적 종결자를 추가로 가질 수 있다. 단일 염기가 sstDNA에 첨가된 후, 여기 광은 반응 부위 위로 입사할 수 있고, 형광 방출물이 검출될 수 있다. 검출 후에, 형광 표지 및 종결자는 sstDNA로부터 화학적으로 절단될 수 있다. 다른 유사한 염기 호출 또는 서열분석 사이클이 이어질 수 있다. 그러한 서열분석 프로토콜에서, SBS 모듈(2536)은 바이오센서(2402)를 통해 시약 및 효소 용액의 유동을 지향시킬 것을 유체 제어 시스템(2406)에 지시할 수 있다. 본원에 기술된 장치 및 방법으로 활용될 수 있는 예시적인 가역적 종결자 기반 SBS 방법은, 미국 특허출원공개 2007/0166705 A1호, 미국 특허출원공개 2006/0188901 A1호, 미국 특허 제7,057,026호, 미국 특허출원공개 2006/0240439 A1호, 미국 특허출원공개 2006/02814714709 A1호, PCT 국제공개 WO 05/065814호, PCT 국제공개 WO 06/064199호에 기재되어 있으며, 이들 각각은 그 전체가 본원에 참고로 포함된다. 가역적 종결자 기반 SBS를 위한 예시적인 시약은 미국 특허 제7,541,444호; 미국 특허 제7,057,026호; 미국 특허 제7,427,673호; 미국 특허 제7,566,537호, 및 미국 특허 제7,592,435호에 기재되어 있으며, 이들 각각은 그 전체가 본원에 참고로 포함된다.
일부 구현예에서, 증폭 및 SBS 모듈은 단일 검정 프로토콜로 동작할 수 있는데, 여기서 예를 들어, 템플릿 핵산은 증폭되고, 후속하여, 동일한 카트리지 내에서 서열분석된다.
염기 호출 시스템(2400)은 또한 사용자가 검정 프로토콜을 재구성하는 것을 허용할 수 있다. 예를 들어, 염기 호출 시스템(2400)은 결정된 프로토콜을 수정하기 위한 옵션을 사용자 인터페이스(2414)를 통해 사용자에게 제공할 수 있다. 예를 들어, 바이오센서(2402)가 증폭을 위해 사용될 것으로 결정되는 경우, 염기 호출 시스템(2400)은 어닐링 사이클을 위한 온도를 요청할 수 있다. 더욱이, 염기 호출 시스템(2400)은 사용자가 선택된 검정 프로토콜에 대해 대체적으로 수용가능하지 않은 사용자 입력을 제공한 경우에 사용자에게 경고를 발행할 수 있다.
구현예에서, 바이오센서(2402)는 수백만 개의 센서(또는 픽셀)를 포함하고, 이들 각각은 연속적 염기 호출 사이클에 걸쳐서 픽셀 신호의 복수의 서열을 생성한다. 분석 모듈(2538)은 픽셀 신호의 복수의 서열을 검출하고, 이들을 센서의 어레이 상의 센서의 행방향 및/또는 열방향 위치에 따라, 그것들을 대응하는 센서(또는 픽셀)에 귀속시킨다.
센서 어레이에서의 각 센서는 플로우 셀의 타일에 대한 센서 데이터를 생성할 수 있으며, 여기서 유전 물질의 클러스터가 염기 호출 동작 동안에 배치되는 플로우 셀 상의 영역에 있는 타일이다. 센서 데이터는 픽셀 어레이에서의 이미지 데이터를 포함할 수 있다. 소정의 사이클에 대해, 센서 데이터는 하나 초과의 이미지를 포함하여, 타일 데이터로서 픽셀당 다수의 피쳐를 생성할 수 있다.
도 26은 개시된 기술을 구현하는 데 사용될 수 있는 컴퓨터 시스템(2600)의 단순화된 블록도이다. 컴퓨터 시스템(2600)은 버스 서브시스템(2655)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 중앙 처리 유닛(CPU)(2672)을 포함한다. 이러한 주변 디바이스는, 예를 들어 메모리 디바이스 및 파일 저장 서브시스템(2636)을 포함하는 저장 서브시스템(2610), 사용자 인터페이스 입력 디바이스(2638), 사용자 인터페이스 출력 디바이스(2676), 및 네트워크 인터페이스 서브시스템(2674)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨터 시스템(2600)과의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(2674)은 다른 컴퓨터 시스템에서의 대응하는 인터페이스 디바이스에 대한 인터페이스를 포함하는 인터페이스를 외부 네트워크에 제공한다.
사용자 인터페이스 입력 디바이스(2638)는 키보드; 마우스, 트랙볼, 터치패드, 또는 그래픽 태블릿과 같은 포인팅 디바이스; 스캐너; 디스플레이 내에 통합된 터치 스크린; 음성 인식 시스템 및 마이크로폰과 같은 오디오 입력 디바이스; 및 다른 유형의 입력 디바이스를 포함할 수 있다. 일반적으로, 용어 "입력 디바이스"의 사용은 정보를 컴퓨터 시스템(2600)에 입력하기 위한 모든 가능한 유형의 디바이스 및 방식을 포함하도록 의도된다.
사용자 인터페이스 출력 디바이스(2676)는 디스플레이 서브시스템, 프린터, 팩스 기계, 또는 오디오 출력 디바이스와 같은 비시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은 LED 디스플레이, 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평면 디바이스, 프로젝션 장치, 또는 가시적인 이미지를 생성하기 위한 일부 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한, 오디오 출력 디바이스와 같은 비시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 디바이스"라는 용어의 사용은 정보를 컴퓨터 시스템(2600)으로부터 사용자에게 또는 다른 기계 또는 컴퓨터 시스템에 출력하기 위한 모든 가능한 유형의 디바이스 및 방식을 포함하도록 의도된다.
저장 서브시스템(2610)은 본원에 기술된 모듈 및 방법 중 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 이들 소프트웨어 모듈은, 대체적으로, 심층 학습 프로세서(2678)에 의해 실행된다.
일 구현예에서, 신경망은 구성 가능한 그리고 재구성 가능한 프로세서, 필드-프로그래밍 가능한 게이트 어레이(FPGA), 특정용도용 집적 회로(ASIC) 및/또는 코어스-그레인드 재구성가능한 아키텍처(CGRA) 및 그래픽 처리 유닛(GPU) 기타 구성된 디바이스일 수 있는 심층 학습 프로세서(2678)를 사용하여 구현된다. 심층 학습 프로세서(2678)는 Google Cloud Platform™, Xilinx™, 및 Cirrascale™과 같은 심층 학습 클라우드 플랫폼에 의해 호스팅될 수 있다. 심층 학습 프로세서(2678)의 예는 Google의 Tensor Processing Unit(TPU)™, 랙마운트 솔루션, 예컨대 GX4 Rackmount Series™, GX149 Rackmount Series™, NVIDIA DGX-1™, Microsoft의 Stratix V FPGA™, Graphcore의 Intelligent Processor Unit (IPU)™, Snapdragon processors™을 갖는 Qualcomm의 Zeroth Platform™, NVIDIA의 Volta™, NVIDIA의 DRIVE PX™, NVIDIA의 JETSON TX1/TX2 MODULE™, Intel의 Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM의 DynamicIQ™, IBM TrueNorth™ 등을 포함한다.
저장 서브시스템(2610)에 사용되는 메모리 서브시스템(2622)은 프로그램 실행 동안 명령어 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(2634) 및 고정된 명령어가 저장되는 판독 전용 메모리(ROM)(2632)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브시스템(2636)은 프로그램 및 데이터 파일을 위한 영구 저장소를 제공할 수 있고, 하드 디스크 드라이브, 연관된 착탈식 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브, 또는 착탈식 매체 카트리지를 포함할 수 있다. 소정 구현예의 기능을 구현하는 모듈은 저장 서브시스템(2610) 내의 파일 저장 서브시스템(2636)에 의해, 또는 프로세서에 의해 액세스가능한 다른 기계에 저장될 수 있다.
버스 서브시스템(2655)은 컴퓨터 시스템(2600)의 다양한 구성요소 및 서브시스템이 의도된 대로 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(2655)이 개략적으로 단일 버스로서 도시되어 있지만, 버스 서브시스템의 대안적인 구현예는 다수의 버스를 사용할 수 있다.
컴퓨터 시스템(2600) 자체는 개인용 컴퓨터, 휴대용 컴퓨터, 워크스테이션, 컴퓨터 단말기, 네트워크 컴퓨터, 텔레비전, 메인프레임, 서버 팜, 느슨하게 네트워킹된 컴퓨터의 광범위하게 분포된 세트, 또는 임의의 다른 데이터 처리 시스템 또는 사용자 디바이스를 포함한 다양한 유형의 것일 수 있다. 컴퓨터들 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 26에 묘사된 컴퓨터 시스템(2600)의 설명은 본 발명의 바람직한 구현예를 예시하기 위한 특정 예로서만 의도된다. 도 26에 묘사된 컴퓨터 시스템보다 더 많은 또는 더 적은 구성요소를 갖는 컴퓨터 시스템(2600)의 많은 다른 구성이 가능하다.
조항
다음 조항은 본 개시내용의 일부이다.
조항 세트 1(입력 정규화)
1. 염기 호출자에 의해 염기 호출을 생성하는 컴퓨터 구현 방법으로서,
플로우 셀로부터 복수의 센서 데이터를 수신하는 단계 - 복수의 센서 데이터는 제1 범위 내에 있음 -;
복수의 센서 데이터의 적어도 임계값 백분율이 제2 범위 내에 있도록 제2 범위를 식별하는 단계;
제2 범위 내에 있는 복수의 센서 데이터 중 적어도 서브세트를 제3 범위로 매핑하여 복수의 정규화된 센서 데이터를 생성하는 단계; 및
복수의 정규화된 센서 데이터를 염기 호출자에서 처리하여 복수의 정규화된 센서 데이터에 대해 하나 이상의 대응 염기를 호출하는 단계를 포함하는, 컴퓨터 구현 방법.
2. 조항 1에 있어서, 제2 범위는 제1 범위 내에 완전히 포함되는, 방법.
3. 조항 1에 있어서, 제1 범위 내의 하나 이상의 특이값 센서 데이터는 센서 데이터의 제2 범위에 존재하지 않는, 방법.
4. 조항 1에 있어서, 제2 범위를 식별하는 단계는,
제1 범위 내에서 하위 값을 식별하여 복수의 센서 데이터의 하한 임계값 백분율(lower threshold percentage)이 당해 하위 값보다 낮은 값을 갖도록 하는 단계; 및
제1 범위 내에서 상위 값을 식별하여 복수의 센서 데이터의 상한 임계값 백분율(upper threshold percentage)이 당해 상위 값보다 높은 값을 갖도록 하는 단계를 포함하며,
제2 범위는 당해 하위 값과 당해 상위 값에 의해 정의되는, 방법.
5. 조항 4에 있어서, 하한 임계값 백분율 또는 상한 임계값 백분율 중 적어도 하나는 0.5% 이하인, 방법.
6. 조항 4에 있어서, 하한 임계값 백분율 또는 상한 임계값 백분율 중 적어도 하나는 1.0% 이하인, 방법.
7. 조항 4에 있어서, 하한 임계값 백분율 및 상한 임계값 백분율의 각각은 0.5% 이하인, 방법.
8. 조항 4에 있어서, 하한 임계값 백분율 및 상한 임계값 백분율의 각각은 1% 이하인, 방법.
9. 조항 4에 있어서,
(i) 당해 하위 값보다 낮은 복수의 센서 데이터 중 제1 특이값 센서 데이터 및 (ii) 당해 상위 값보다 높은 복수의 센서 데이터 중 제2 특이값 센서 데이터를 식별하는 단계; 및
매핑 이전에, 제1 특이값 센서 데이터에 당해 하위 값을 할당하고, 제2 특이값 센서 데이터에 당해 상위 값을 할당하여, 제1 특이값 센서 데이터 및 제2 특이값 센서 데이터가 할당 이후 제2 범위 내에 있도록 하는 단계를 추가로 포함하는, 방법.
10. 조항 4에 있어서,
(i) 당해 하위 값보다 낮은 복수의 센서 데이터 중 제1 특이값 센서 데이터 및 (ii) 당해 상위 값보다 높은 복수의 센서 데이터 중 제2 특이값 센서 데이터를 식별하는 단계; 및
매핑 동안에 제1 특이값 센서 데이터 및 제2 특이값 센서 데이터를, 제2 범위 밖이므로, 복수의 센서 데이터의 서브세트로부터 제외하여, 제1 특이값 센서 데이터 및 제2 특이값 센서 데이터가 제3 범위로 매핑되지 않도록 하는 단계를 추가로 포함하는, 방법.
11. 조항 1에 있어서, 복수의 센서 데이터 중 적어도 서브세트를 매핑하는 단계는,
서브세트 내의 제1 센서 데이터를 제2 범위 내에 있는 제1 값으로부터 제3 범위 내에 있는 제2 값으로 매핑하는 단계; 및
서브세트 내의 제2 센서 데이터를 제2 범위 내에 있는 제3 값으로부터 제3 범위 내에 있는 제4 값으로 매핑하는 단계를 포함하는, 방법.
12. 조항 1에 있어서, 제2 범위의 적어도 일부는 제3 범위와 중첩되지 않는, 방법.
13. 조항 1에 있어서, 복수의 센서 데이터 중 개별 센서 데이터는 플로우 셀로부터 생성된 이미지의 대응 섹션의 대응 강도를 포함하는, 방법.
14. 조항 1에 있어서,
복수의 정규화된 센서 데이터를 염기 호출자에서 처리하여, 각 염기 호출에 대해 호출된 염기가 A일 확률을 나타내는 제1 품질 점수, 호출된 염기가 C일 확률을 나타내는 제2 품질 점수, 호출된 염기가 T일 확률을 나타내는 제3 품질 점수, 및 호출된 염기가 G일 확률을 나타내는 제4 품질 점수를 할당하는 단계를 추가로 포함하는, 방법.
15. 조항 14에 있어서,
제1 품질 점수, 제2 품질 점수, 제3 품질 점수 및 제4 품질 점수를 포함하는 복수의 품질 점수를 할당하는 단계; 및
복수의 품질 점수 중 적어도 서브세트 각각을 대응하는 재매핑된 품질 점수로 재매핑하는 단계를 추가로 포함하는, 방법.
16. 조항 15에 있어서,
복수의 재매핑된 품질 점수 각각을 복수의 양자화된 재매핑된 품질 점수 중 대응하는 품질 점수로 양자화하는 단계를 추가로 포함하는, 방법.
17. 프로세서 상에서 실행될 때 방법을 구현하는 컴퓨터 프로그램 명령이 기록된 비일시적 컴퓨터 판독가능한 저장 매체로서, 방법은,
플로우 셀로부터 복수의 강도 값을 수신하는 단계 - 개별 강도 값은 표적 클러스터 또는 플로우 셀의 표적 클러스터 바로 근처를 나타내고, 표적 클러스터는 미지 분석물로 채워짐 -;
복수의 강도 값의 적어도 임계값 백분율을 포함하는 제2 범위를 식별하는 단계;
복수의 강도 값의 임계값 백분율을 제2 범위와 상이한 제3 범위로 매핑하는 단계; 및
매핑 후에, 복수의 강도 값의 임계값 백분율을 처리하여 미지 분석물이 A, C, T 또는 G일 우도를 생성하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
18. 조항 17에 있어서, 제2 범위는 제1 범위 내에 완전히 포함되는, 비일시적 컴퓨터 판독가능한 저장 매체.
19. 조항 17에 있어서, 제1 범위 내의 하나 이상의 특이값 강도 값은 복수의 강도 값의 임계값 백분율에 존재하지 않는, 비일시적 컴퓨터 판독가능한 저장 매체.
20. 조항 17에 있어서, 제2 범위를 식별하는 단계는,
제1 범위 내에서 하위 값을 식별하여 복수의 강도 값의 하한 임계값 백분율이 당해 하위 값보다 낮은 값을 갖도록 하는 단계; 및
제1 범위 내에서 상위 값을 식별하여 복수의 강도 값의 상한 임계값 백분율이 당해 상위 값보다 높은 값을 갖도록 하는 단계를 포함하며, 임계값 백분율은 하한 임계값 백분율과 상한 임계값 백분율의 합이고,
제2 범위는 당해 하위 값과 당해 상위 값에 의해 정의되는, 비일시적 컴퓨터 판독가능한 저장 매체.
21. 조항 20에 있어서, 하한 임계값 백분율 또는 상한 임계값 백분율 중 적어도 하나는 0.5% 이하인, 비일시적 컴퓨터 판독가능한 저장 매체.
22. 조항 20에 있어서, 하한 임계값 백분율 및 상한 임계값 백분율의 각각은 1.0% 이하인, 비일시적 컴퓨터 판독가능한 저장 매체.
23. 조항 20에 있어서,
(i) 당해 하위 값보다 낮은 복수의 강도 값 중 제1 특이값 강도 값 및 (ii) 당해 상위 값보다 높은 복수의 강도 값 중 제2 특이값 강도 값을 식별하는 단계; 및
매핑 이전에, 제1 특이값 강도 값에 당해 하위 값을 할당하고, 제2 특이값 강도 값에 당해 상위 값을 할당하여, 제1 특이값 강도 값 및 제2 특이값 강도 값이 할당 이후 제2 범위 내에 있도록 하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
24. 조항 20에 있어서,
(i) 당해 하위 값보다 낮은 복수의 강도 값 중 제1 특이값 강도 값 및 (ii) 당해 상위 값보다 높은 복수의 강도 값 중 제2 특이값 강도 값을 식별하는 단계; 및
매핑 동안에 제1 특이값 강도 값 및 제2 특이값 강도 값을, 제2 범위 밖이므로, 복수의 강도 값의 서브세트로부터 제외하여, 제1 특이값 강도 값 및 제2 특이값 강도 값이 제3 범위로 매핑되지 않도록 하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
25. 조항 17에 있어서, 매핑은,
제1 강도 값을 제2 범위 내에 있는 제1 값으로부터 제3 범위 내에 있는 제2 값으로 매핑하는 단계; 및
제2 강도 값을 제2 범위 내에 있는 제3 값으로부터 제3 범위 내에 있는 제4 값으로 매핑하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
26. 조항 17에 있어서, 제2 범위의 적어도 일부는 제3 범위와 중첩되지 않는, 비일시적 컴퓨터 판독가능한 저장 매체.
27. 염기 호출을 위한 시스템으로서,
분석물 세트의 원래의 강도 방출을 나타내는 이미지를 저장하는 메모리 - 원래의 강도 방출은 서열분석 런의 서열분석 사이클 동안 분석물 세트에서의 분석물에 의해 생성됨 -;
원래의 강도 방출을 수신하고 원래의 강도 방출을 재매핑하여 재매핑된 강도 방출을 생성하여 재매핑된 강도 방출이 원래의 강도 방출에 비해 상이한 강도 값을 갖게 하도록 구성된 정규화 모듈; 및
재매핑된 강도 방출을 처리하여 분석물 세트에 대한 염기 호출을 생성하도록 구성된 염기 호출자를 포함하는, 시스템.
조항 세트 2(품질 점수 재매핑)
1. 염기 호출자에 의해 생성된 품질 점수를 보정하는 컴퓨터 구현 방법으로서,
염기 호출자에서 센서 데이터를 처리하여 복수의 확률 점수를 생성하는 단계 - 복수의 확률 점수 각각은 염기가 A, C, T 또는 G 중 대응하는 하나일 우도를 식별함 -;
각각의 확률 점수를 대응하는 품질 점수로 변환함으로써 복수의 확률 점수에 대응하는 복수의 품질 점수를 생성하는 단계 - 복수의 품질 점수 각각은 염기가 A, C, T 또는 G 중 대응하는 하나일 로그 척도의 대응 우도를 나타냄 -; 및
복수의 품질 점수 중 하나 이상을 재매핑하여 대응하는 복수의 재매핑된 품질 점수를 생성하는 단계를 포함하는, 컴퓨터 구현 방법.
2. 조항 1에 있어서,
복수의 품질 점수 중 제1 품질 점수는 복수의 재매핑된 품질 점수 중 제1 재매핑된 품질 점수로 재매핑되고;
제1 품질 점수는 대응하는 제1 염기가 X일 제1 우도를 나타내고, 여기서 X는 A, C, T 및 G 중 하나이며;
제1 재매핑된 품질 점수는 대응하는 제1 염기가 X일 제1 재매핑 우도를 나타내며;
제1 재매핑 우도는 경험적으로 결정된 우도로의 제1 재매핑된 우도의 정렬과 비교하여 대응하는 제1 염기가 X일 경험적으로 결정된 우도로 더 정렬되는, 방법.
3. 조항 2에 있어서, 제1 품질 점수는 로그 척도의 제1 우도를 나타내고, 제1 재매핑된 품질 점수는 로그 척도의 제1 재매핑된 우도를 나타내는, 방법.
4. 조항 2에 있어서,
제1 재매핑된 우도와 경험적으로 결정된 우도 사이의 차이는 제1 우도와 경험적으로 결정된 우도 사이의 차이보다 작은, 방법.
5. 조항 1에 있어서, 재매핑은,
룩업 테이블(LUT)로부터, 복수의 품질 점수 중 제1 품질 점수가 제1 재매핑된 품질 점수로 재매핑될 것임을 식별하는 단계; 및
제1 재매핑된 품질 점수를 제1 품질 점수에 할당함으로써 제1 품질 점수를 복수의 재매핑된 품질 점수 중 제1 재매핑된 품질 점수로 재매핑하는 단계를 포함하는, 방법.
6. 조항 1에 있어서, 재매핑은,
룩업 테이블(LUT)을 사용하여 복수의 품질 점수 중 하나 이상을 재매핑하여 대응하는 복수의 재매핑된 품질 점수를 생성하는 단계를 포함하는, 방법.
7. 조항 6에 있어서, LUT는 하나 이상의 품질 점수에 대해 대응하는 하나 이상의 재매핑된 품질 점수를 식별하는, 방법.
8. 조항 1에 있어서, 각각의 확률 점수를 대응하는 품질 점수로 변환하는 단계는,
식: Q = -10 × log10(1-P)을 사용하여 확률 점수 P를 대응하는 품질 점수 Q로 변환하는 것을 포함하는, 방법.
9. 조항 1에 있어서,
복수의 품질 점수와 관련된 신뢰도 수준에 비해 염기 호출의 신뢰도 수준의 더 정확한 표시를 제공하는 복수의 재매핑된 품질 점수를 보고하는 단계를 추가로 포함하는, 방법.
10. 조항 1에 있어서,
복수의 그룹 중 대응하는 그룹에서 복수의 재매핑된 품질 점수 각각을 포함시켜, 복수의 그룹 중 제1 그룹이 복수의 재매핑된 품질 점수 중 제1 서브세트를 포함하고, 복수의 그룹 중 제2 그룹이 복수의 재매핑된 품질 점수 중 제2 서브세트를 포함하도록 하는 단계;
제1 그룹에 포함된 복수의 재매핑된 품질 점수의 제1 서브세트 각각에 제1 양자화된 품질 점수를 할당하는 단계; 및
제2 그룹에 포함된 복수의 재매핑된 품질 점수의 제2 서브세트 각각에 제2 양자화된 품질 점수를 할당하는 단계를 포함하는, 방법.
11. 조항 10에 있어서, 복수의 그룹 중 대응하는 그룹에 복수의 재매핑된 품질 점수 각각을 포함시키는 단계는,
복수의 그룹의 각 그룹에 재매핑된 품질 점수의 대응 범위를 할당하는 단계;
제1 재매핑된 품질 점수가 제1 그룹에 할당된 제1 범위 내에 있는 것에 응답하여, 제1 그룹에 제1 재매핑된 품질 점수를 포함시키는 단계; 및
제2 재매핑된 품질 점수가 제2 그룹에 할당된 제2 범위 내에 있는 것에 응답하여, 제2 그룹에 제2 재매핑된 품질 점수를 포함시키는 단계를 포함하는, 방법.
12. 조항 1에 있어서,
복수의 재매핑된 품질 점수 각각을 양자화하여 복수의 양자화된 품질 점수를 생성하는 단계를 추가로 포함하는, 방법.
13. 조항 1에 있어서, 센서 데이터를 처리하는 단계는,
염기 호출자에서 센서 데이터를 처리하여 염기 호출의 서열을 생성하는 단계; 및
(i) 염기 호출의 서열에서 제1 염기 호출 서열 및 (ii) 염기 호출의 서열에서 제2 염기 호출 서열을 식별하고, 추가로 제2 염기 호출 서열이 특정 염기 서열 패턴을 갖는 것을 식별하는 단계를 포함하며,
복수의 품질 점수 중 하나 이상을 재매핑하는 단계는, 제2 염기 호출 서열이 특정 염기 서열 패턴을 갖는 것을 식별하는 것에 응답하여,
제1 룩업 테이블(LUT)을 사용하여 (i) 제1 염기 호출 서열의 각 염기 및 (ii) 제2 염기 호출 서열의 염기의 제1 서브세트와 관련된 품질 점수를 재매핑하는 단계, 및
제2 LUT를 사용하여 제2 염기 호출 서열의 염기의 제2 서브세트와 관련된 품질 점수를 재매핑하는 단계를 포함하는, 방법.
14. 조항 13에 있어서,
제1 염기 호출 서열의 제1 염기, 제2 염기 호출 서열의 염기의 제1 서브세트의 제2 염기, 및 제2 염기 호출 서열의 염기의 제2 서브세트의 제3 염기 각각은 Q1의 품질 점수를 가지고;
제1 염기 호출 서열의 제1 염기 및 제2 염기 호출 서열의 염기의 제1 서브세트의 제2 염기 각각은 제1 LUT를 사용하여 Q2의 재매핑된 품질 점수로 재매핑되고;
제2 염기 호출 서열의 염기의 제2 서브세트의 제3 염기는 제2 LUT를 사용하여 Q3의 재매핑된 품질 점수로 재매핑되며;
Q2의 재매핑된 품질점수, Q3의 재매핑된 품질점수, Q1의 품질점수는 서로 상이한, 방법.
15. 조항 13에 있어서,
제2 염기 호출 서열의 염기의 제2 서브세트는 제2 염기 호출 서열의 염기들 중 중간 염기를 포함하고;
제2 염기 호출 서열의 염기의 제1 서브세트는 제2 염기 호출 서열의 염기들 중 중간 염기를 제외하고, 제2 염기 호출 서열의 모든 염기를 포함하는, 방법.
16. 조항 13에 있어서,
제1 LUT는 제2 염기 호출 서열의 중간 염기를 제외한 모든 염기의 품질 점수에 적용 가능한 범용 LUT이고;
제2 LUT는 제2 염기 호출 서열의 중간 염기의 품질 점수에 구체적으로 적용 가능한 염기 서열 특이적 LUT인, 방법.
17. 조항 13에 있어서,
특정 염기 서열 패턴은 단독중합체 패턴 또는 플랭킹된-단독중합체 패턴을 포함하는, 방법.
18. 조항 13에 있어서,
특정 염기 서열 패턴은 5개의 염기를 포함하고, 적어도 제1 염기와 마지막 염기는 G인, 방법.
19. 조항 13에 있어서,
특정 염기 서열 패턴은 적어도 5개의 염기를 포함하고, 특정 염기 서열 패턴의 적어도 3개의 염기는 G인, 방법.
20. 조항 13에 있어서,
특정 염기 서열 패턴은 GGXGG, GXGGG, GGGXG, GXXGG, GGXXG 중 임의의 것을 포함하고, 여기서 X는 A, C, T, 또는 G 중 임의의 것인, 방법.
21. 조항 13에 있어서,
특정 염기 서열 패턴은 적어도 5개의 염기를 포함하고, 특정 염기 서열 패턴의 적어도 3개의 염기는 센서 데이터 내의 암(dark) 사이클과 관련되어 있는, 방법.
22. 프로세서 상에서 실행될 때 방법을 구현하는 컴퓨터 프로그램 명령이 기록된 비일시적 컴퓨터 판독가능한 저장 매체로서, 방법은,
염기 호출자를 통해 복수의 분석물에 대한 센서 데이터를 처리하여 복수의 출력을 생성하는 단계 - 복수의 출력 각각은 분석물 중 특정 분석물에 포함된 염기가 A, C, T 또는 G 중 대응하는 하나일 대응하는 우도를 식별함 -; 및
복수의 출력 중 하나 이상을 재매핑하여 대응하는 복수의 재매핑된 출력을 생성하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
23. 조항 22에 있어서,
복수의 출력 중 제1 출력은 대응하는 제1 분석물이 A, C, T 또는 G 중 하나일 제1 우도를 제공하고;
제1 출력은 재매핑되어, 대응하는 제1 분석물이 A, C, T 또는 G 중 하나일 제2 우도를 제공하는 제1 재매핑된 출력을 생성하며;
제1 우도는 제2 우도와 상이한, 비일시적 컴퓨터 판독가능한 저장 매체.
24. 조항 23에 있어서, 제1 출력 및 제1 재매핑된 출력 각각은 로그 척도로 제1 우도 및 제1 재매핑된 우도를 각각 표현하는, 비일시적 컴퓨터 판독가능한 저장 매체.
25. 조항 23에 있어서,
제2 우도는 경험적으로 결정된 우도와의 제1 우도의 정렬보다 경험적으로 결정된 우도와 더 잘 정렬되고;
경험적으로 결정된 우도는 대응하는 제1 분석물이 A, C, T 또는 G 중 하나일 경험적으로 결정된 우도인, 비일시적 컴퓨터 판독가능한 저장 매체.
26. 조항 22에 있어서, 재매핑은,
룩업 테이블(LUT)로부터, 복수의 출력 중 제1 출력이 제1 재매핑된 출력으로 재매핑될 것임을 식별하는 단계; 및
LUT에 기초하여 제1 출력을 제1 재매핑된 출력으로 수정하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
27. 조항 22에 있어서,
복수의 재매핑된 출력 각각을 양자화하여 복수의 양자화된 출력을 생성하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
28. 프로세서 상에서 실행될 때 방법을 구현하는 컴퓨터 프로그램 명령이 기록된 비일시적 컴퓨터 판독가능한 저장 매체로서, 방법은,
서열분석기의 플로우 셀에 대한 센서 데이터를 처리하여 염기 호출의 서열 및 염기 호출의 서열의 염기와 관련된 복수의 품질 점수를 예측하는 단계;
(i) 염기 호출의 서열에서 제1 염기 호출 서열 및 (ii) 염기 호출의 서열에서 제2 염기 호출 서열을 식별하고, 추가로 제2 염기 호출 서열이 특정 염기 서열 패턴을 갖는 것을 식별하는 단계; 및
복수의 품질 점수를 재매핑하여 대응하는 복수의 재매핑된 품질 점수를 생성하는 단계를 포함하며, 재매핑은, 제2 염기 호출 서열이 특정 염기 서열 패턴을 갖는 것을 식별하는 것에 응답하여,
제1 룩업 테이블(LUT)을 사용하여 (i) 제1 염기 호출 서열의 각 염기 및 (ii) 제2 염기 호출 서열의 염기의 제1 서브세트와 관련된 품질 점수를 재매핑하는 단계, 및
제2 LUT를 사용하여 제2 염기 호출 서열의 염기의 제2 서브세트와 관련된 품질 점수를 재매핑하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
29. 조항 28에 있어서,
제1 염기 호출 서열의 제1 염기, 제2 염기 호출 서열의 염기의 제1 서브세트의 제2 염기, 및 제2 염기 호출 서열의 염기의 제2 서브세트의 제3 염기 각각은 Q1의 품질 점수를 가지고;
제1 염기 호출 서열의 제1 염기 및 제2 염기 호출 서열의 염기의 제1 서브세트의 제2 염기 각각은 제1 LUT를 사용하여 Q2의 재매핑된 품질 점수로 재매핑되고;
제2 염기 호출 서열의 염기의 제2 서브세트의 제3 염기는 제2 LUT를 사용하여 Q3의 재매핑된 품질 점수로 재매핑되며;
Q2의 재매핑된 품질점수, Q3의 재매핑된 품질점수, Q1의 품질점수는 서로 상이한, 비일시적 컴퓨터 판독가능한 저장 매체.
30. 조항 29에 있어서,
제2 염기 호출 서열의 염기의 제2 서브세트는 제2 염기 호출 서열의 염기들 중 중간 염기를 포함하고;
제2 염기 호출 서열의 염기의 제1 서브세트는 제2 염기 호출 서열의 염기들 중 중간 염기를 제외하고, 제2 염기 호출 서열의 모든 염기를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
31. 조항 28에 있어서,
제1 LUT는 제2 염기 호출 서열의 중간 염기를 제외한 모든 염기의 품질 점수에 적용 가능한 범용 LUT이고;
제2 LUT는 제2 염기 호출 서열의 중간 염기의 품질 점수에 구체적으로 적용 가능한 염기 서열 특이적 LUT인, 비일시적 컴퓨터 판독가능한 저장 매체.
32. 조항 28에 있어서,
특정 염기 서열 패턴은 단독중합체 패턴 또는 플랭킹된-단독중합체 패턴을 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
33. 조항 28에 있어서,
특정 염기 서열 패턴은 5개의 염기를 포함하고, 적어도 제1 염기와 마지막 염기는 G인, 비일시적 컴퓨터 판독가능한 저장 매체.
34. 조항 28에 있어서,
특정 염기 서열 패턴은 적어도 5개의 염기를 포함하고, 특정 염기 서열 패턴의 적어도 3개의 염기는 G인, 비일시적 컴퓨터 판독가능한 저장 매체.
35. 조항 28에 있어서,
특정 염기 서열 패턴은 GGXGG, GXGGG, GGGXG, GXXGG, GGXXG 중 임의의 것을 포함하고, 여기서 X는 A, C, T, 또는 G 중 임의의 것인, 비일시적 컴퓨터 판독가능한 저장 매체.
36. 조항 28에 있어서,
특정 염기 서열 패턴은 적어도 5개의 염기를 포함하고, 특정 염기 서열 패턴의 적어도 3개의 염기는 센서 데이터 내의 암(dark) 사이클과 관련되어 있는, 비일시적 컴퓨터 판독가능한 저장 매체.
37. 프로세서 상에서 실행될 때 염기 호출을 생성하는 방법을 구현하는 컴퓨터 프로그램 명령이 기록된 비일시적 컴퓨터 판독가능한 저장 매체로서, 방법은,
플로우 셀에 의해 생성된 센서 데이터를 처리하여 복수의 품질 점수를 생성하는 단계 - 복수의 품질 점수의 각 품질 점수는 호출될 대응 염기가 A, C, T 또는 G 중 대응 염기일 확률을 나타냄 -; 및
개별 품질 점수를 수정하여 대응하는 개별 수정 품질 점수를 생성함으로써 복수의 수정 품질 점수를 생성하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
조항 세트 3(특정 염기 서열에 대한 손실 벌점화)
1. 염기 호출에 사용되는 신경망 모델을 훈련하는 컴퓨터 구현 방법으로서,
염기 호출자의 신경망 모델의 훈련 페이즈 동안, 신경망 모델의 순방향 전달 섹션에서 센서 데이터를 처리하여 염기 호출을 예측하는 단계;
예측된 염기 호출 및 실측 염기 호출에 기초하여 손실 함수를 생성하는 단계;
특정 염기 서열을 나타내는 실측 염기 호출에 적어도 부분적으로 기초하여 손실 함수를 벌점화하여 벌점화된 손실 함수를 생성하는 단계; 및
신경망 모델의 역전파 섹션에서 벌점화된 손실 함수를 처리하여 신경망 모델의 가중치를 적응시킴으로써 염기 호출을 위해 신경망 모델을 훈련시키는 단계를 포함하는, 컴퓨터 구현 방법.
2. 조항 1에 있어서,
실측 염기 호출로부터 (i) 제1 염기 및 (ii) 제1 염기를 플랭킹하는 하나 이상의 제2 염기를 갖는 특정 염기 서열을 식별하는 단계를 추가로 포함하고,
손실 함수를 벌점화하는 단계는
(i) 제1 벌점으로 제1 염기와 관련된 손실 함수의 제1 요소, 및 (ii) 제1 벌점과 상이한 제2 벌점으로 제1 염기를 플랭킹하는 하나 이상의 제2 염기와 각각 관련된 손실 함수의 하나 이상의 제2 요소의 각각을 벌점화하는 것을 포함하는, 방법.
3. 조항 2에 있어서,
실측 염기 호출로부터 특정 염기 서열에 포함되지 않은 하나 이상의 제3 염기를 식별하는 단계를 추가로 포함하고,
손실 함수를 벌점화하는 단계는
하나 이상의 제3 염기와 각각 관련된 손실 함수의 하나 이상의 제3 요소 각각을 제2 벌점으로 벌점화하는 것을 포함하는, 방법.
4. 조항 2에 있어서, 제1 벌점은 제2 벌점보다 높은, 방법.
5. 조항 2에 있어서, 제2 벌점은 1의 값을 갖는, 방법.
6. 조항 2에 있어서, 제1 벌점은 1과 상이한 값을 갖는, 방법.
7. 조항 2에 있어서, 제1 벌점은 1보다 큰 값을 갖는, 방법.
8. 조항 2에 있어서, 제1 벌점은 제2 벌점의 적어도 2배인, 방법.
9. 조항 1에 있어서, 손실 함수를 벌점화하는 단계는
대응 벌점을 갖는 손실 함수의 다수의 개별 요소를 포함하는, 방법.
10. 조항 1에 있어서, 손실 함수를 벌점화하는 단계는
벌점 매트릭스의 대응하는 개별 요소를 갖는 손실 함수 매트릭스의 다수의 개별 요소를 포함하는, 방법.
11. 조항 1에 있어서, 특정 염기 서열은 GGXGG를 포함하고, 여기서 X는 A, C, T, 또는 G 중 임의의 것인, 방법.
12. 조항 1에 있어서, 특정 염기 서열은 단독중합체 패턴 또는 플랭킹된-단독중합체 패턴을 포함하는, 방법.
13. 조항 1에 있어서, 특정 염기 서열은 5개의 염기를 포함하고, 적어도 제1 염기와 마지막 염기는 G인, 방법.
14. 조항 1에 있어서, 특정 염기 서열은 적어도 5개의 염기를 포함하고, 특정 염기 서열 패턴의 적어도 3개의 염기는 G인, 방법.
15. 조항 1에 있어서, 특정 염기 서열은 GGXGG, GXGGG, GGGXG, GXXGG, GGXXG 중 임의의 것을 포함하고, 여기서 X는 A, C, T, 또는 G 중 임의의 것인, 방법.
16. 조항 1에 있어서, 벌점화 손실 함수를 처리하는 단계는
벌점화 손실 함수를 처리하여 입력 기울기를 생성하는 것을 포함하고, 입력 기울기는 신경망 모델의 가중치를 적응시키는 데 사용됨으로써 염기 호출을 위해 신경망 모델을 훈련시키는, 방법.
17. 프로세서 상에서 실행될 때 염기 호출에 사용되는 신경망 모델을 훈련하는 방법을 구현하는 컴퓨터 프로그램 명령이 기록된 비일시적 컴퓨터 판독가능한 저장 매체로서, 방법은,
염기 호출자의 신경망 모델의 훈련 페이즈 동안, 신경망 모델의 순방향 전달 섹션에서 센서 데이터를 처리하여 염기 호출을 예측하는 단계;
예측된 염기 호출 및 실측 염기 호출에 기초하여 손실 함수를 생성하는 단계;
특정 염기 서열을 나타내는 실측 염기 호출에 적어도 부분적으로 기초하여 손실 함수를 벌점화하여 벌점화된 손실 함수를 생성하는 단계; 및
신경망 모델의 역전파 섹션에서 벌점화된 손실 함수를 처리하여 신경망 모델의 가중치를 적응시킴으로써 염기 호출을 위해 신경망 모델을 훈련시키는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
18. 조항 17에 있어서,
실측 염기 호출로부터 (i) 제1 염기 및 (ii) 제1 염기를 플랭킹하는 하나 이상의 제2 염기를 갖는 특정 염기 서열을 식별하는 단계를 추가로 포함하고,
손실 함수를 벌점화하는 단계는
(i) 제1 벌점으로 제1 염기와 관련된 손실 함수의 제1 요소, 및 (ii) 제1 벌점과 상이한 제2 벌점으로 제1 염기를 플랭킹하는 하나 이상의 제2 염기와 각각 관련된 손실 함수의 하나 이상의 제2 요소의 각각을 벌점화하는 것을 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
19. 조항 18에 있어서,
실측 염기 호출로부터 특정 염기 서열에 포함되지 않은 하나 이상의 제3 염기를 식별하는 단계를 추가로 포함하고,
손실 함수를 벌점화하는 단계는
하나 이상의 제3 염기와 각각 관련된 손실 함수의 하나 이상의 제3 요소 각각을 제2 벌점으로 벌점화하는 것을 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
20. 조항 18에 있어서, 제1 벌점은 제2 벌점보다 높은, 비일시적 컴퓨터 판독가능한 저장 매체.
21. 조항 18에 있어서, 제2 벌점은 1의 값을 갖는, 비일시적 컴퓨터 판독가능한 저장 매체.
22. 조항 21에 있어서, 제1 벌점은 1과 상이한 값을 갖는, 비일시적 컴퓨터 판독가능한 저장 매체.
23. 조항 21에 있어서, 제1 벌점은 1보다 큰 값을 갖는, 비일시적 컴퓨터 판독가능한 저장 매체.
24. 조항 21에 있어서, 제1 벌점은 제2 벌점의 적어도 2배인, 비일시적 컴퓨터 판독가능한 저장 매체.
25. 조항 17에 있어서, 손실 함수를 벌점화하는 단계는,
대응 벌점을 갖는 손실 함수의 다수의 개별 요소를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
26. 조항 17에 있어서, 손실 함수를 벌점화하는 단계는,
벌점 매트릭스의 대응하는 개별 요소를 갖는 손실 함수 매트릭스의 다수의 개별 요소를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
27. 조항 17에 있어서, 특정 염기 서열은 GGXGG를 포함하고, 여기서 X는 A, C, T, 또는 G 중 임의의 것인, 비일시적 컴퓨터 판독가능한 저장 매체.
28. 조항 17에 있어서, 특정 염기 서열은 단독중합체 패턴 또는 플랭킹된-단독중합체 패턴을 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
29. 조항 17에 있어서, 특정 염기 서열은 5개의 염기를 포함하고, 적어도 제1 염기와 마지막 염기는 G인, 비일시적 컴퓨터 판독가능한 저장 매체.
30. 조항 17에 있어서, 특정 염기 서열은 적어도 5개의 염기를 포함하고, 특정 염기 서열 패턴의 적어도 3개의 염기는 G인, 비일시적 컴퓨터 판독가능한 저장 매체.
31. 조항 17에 있어서, 특정 염기 서열은 GGXGG, GXGGG, GGGXG, GXXGG, GGXXG 중 임의의 것을 포함하고, 여기서 X는 A, C, T, 또는 G 중 임의의 것인, 비일시적 컴퓨터 판독가능한 저장 매체.
32. 조항 17에 있어서, 벌점화된 손실 함수를 처리하는 단계는,
벌점화 손실 함수를 처리하여 입력 기울기를 생성하는 것을 포함하고, 입력 기울기는 신경망 모델의 가중치를 적응시키는 데 사용됨으로써 염기 호출을 위해 신경망 모델을 훈련시키는, 비일시적 컴퓨터 판독가능한 저장 매체.
33. 염기 호출을 위한 시스템으로서,
센서 데이터를 저장하는 메모리; 및
센서 데이터에 기초하여 염기를 호출하도록 구성된 신경망 모델을 포함하는 염기 호출자를 포함하며, 신경망 모델은
염기 호출을 예측하기 위해 센서 데이터를 처리하도록 구성된 순방향 전달 섹션,
손실 함수를 생성하기 위해 예측된 염기 호출 및 실측 염기 호출을 비교하도록 구성된 손실 생성 모듈,
벌점화된 손실 함수를 생성하기 위해 손실 함수를 선택적으로 벌점화하도록 구성된 손실 벌점화 모듈; 및
벌점화된 손실 함수를 처리하여 신경망 모델의 가중치 적응을 용이하게 함으로써 염기 호출을 위한 신경망 모델을 훈련시키는 역전파 섹션을 포함하는, 시스템.

Claims (27)

  1. 염기 호출자에 의해 염기 호출을 생성하는 컴퓨터 구현 방법으로서,
    플로우 셀로부터 복수의 센서 데이터를 수신하는 단계 - 복수의 센서 데이터는 제1 범위 내에 있음 -;
    복수의 센서 데이터의 적어도 임계값 백분율이 제2 범위 내에 있도록 제2 범위를 식별하는 단계;
    제2 범위 내에 있는 복수의 센서 데이터 중 적어도 서브세트를 제3 범위로 매핑하여 복수의 정규화된 센서 데이터를 생성하는 단계; 및
    복수의 정규화된 센서 데이터를 염기 호출자에서 처리하여 복수의 정규화된 센서 데이터에 대해 하나 이상의 대응 염기를 호출하는 단계를 포함하는, 컴퓨터 구현 방법.
  2. 제1항에 있어서, 제2 범위는 제1 범위 내에 완전히 포함되는, 방법.
  3. 제1항 또는 제2항에 있어서, 제1 범위 내의 하나 이상의 특이값 센서 데이터는 센서 데이터의 제2 범위에 존재하지 않는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 제2 범위를 식별하는 단계는,
    제1 범위 내에서 하위 값을 식별하여 복수의 센서 데이터의 하한 임계값 백분율(lower threshold percentage)이 당해 하위 값보다 낮은 값을 갖도록 하는 단계; 및
    제1 범위 내에서 상위 값을 식별하여 복수의 센서 데이터의 상한 임계값 백분율(upper threshold percentage)이 당해 상위 값보다 높은 값을 갖도록 하는 단계를 포함하며,
    제2 범위는 당해 하위 값과 당해 상위 값에 의해 정의되는, 방법.
  5. 제4항에 있어서, 하한 임계값 백분율 또는 상한 임계값 백분율 중 적어도 하나는 0.5% 이하인, 방법.
  6. 제4항 또는 제5항에 있어서, 하한 임계값 백분율 또는 상한 임계값 백분율 중 적어도 하나는 1.0% 이하인, 방법.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서, 하한 임계값 백분율 및 상한 임계값 백분율의 각각은 0.5% 이하인, 방법.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서, 하한 임계값 백분율 및 상한 임계값 백분율의 각각은 1% 이하인, 방법.
  9. 제4항 내지 제8항 중 어느 한 항에 있어서,
    (i) 당해 하위 값보다 낮은 복수의 센서 데이터 중 제1 특이값 센서 데이터 및 (ii) 당해 상위 값보다 높은 복수의 센서 데이터 중 제2 특이값 센서 데이터를 식별하는 단계; 및
    매핑 이전에, 제1 특이값 센서 데이터에 당해 하위 값을 할당하고, 제2 특이값 센서 데이터에 당해 상위 값을 할당하여, 제1 특이값 센서 데이터 및 제2 특이값 센서 데이터가 할당 이후 제2 범위 내에 있도록 하는 단계를 추가로 포함하는, 방법.
  10. 제4항 내지 제9항 중 어느 한 항에 있어서,
    (i) 당해 하위 값보다 낮은 복수의 센서 데이터 중 제1 특이값 센서 데이터 및 (ii) 당해 상위 값보다 높은 복수의 센서 데이터 중 제2 특이값 센서 데이터를 식별하는 단계; 및
    매핑 동안에 제1 특이값 센서 데이터 및 제2 특이값 센서 데이터를, 제2 범위 밖이므로, 복수의 센서 데이터의 서브세트로부터 제외하여, 제1 특이값 센서 데이터 및 제2 특이값 센서 데이터가 제3 범위로 매핑되지 않도록 하는 단계를 추가로 포함하는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 복수의 센서 데이터 중 적어도 서브세트를 매핑하는 단계는,
    서브세트 내의 제1 센서 데이터를 제2 범위 내에 있는 제1 값으로부터 제3 범위 내에 있는 제2 값으로 매핑하는 단계; 및
    서브세트 내의 제2 센서 데이터를 제2 범위 내에 있는 제3 값으로부터 제3 범위 내에 있는 제4 값으로 매핑하는 단계를 포함하는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 제2 범위의 적어도 일부는 제3 범위와 중첩되지 않는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 복수의 센서 데이터 중 개별 센서 데이터는 플로우 셀로부터 생성된 이미지의 대응 섹션의 대응 강도를 포함하는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    복수의 정규화된 센서 데이터를 염기 호출자에서 처리하여, 각 염기 호출에 대해 호출된 염기가 A일 확률을 나타내는 제1 품질 점수, 호출된 염기가 C일 확률을 나타내는 제2 품질 점수, 호출된 염기가 T일 확률을 나타내는 제3 품질 점수, 및 호출된 염기가 G일 확률을 나타내는 제4 품질 점수를 할당하는 단계를 추가로 포함하는, 방법.
  15. 제14항에 있어서,
    제1 품질 점수, 제2 품질 점수, 제3 품질 점수 및 제4 품질 점수를 포함하는 복수의 품질 점수를 할당하는 단계; 및
    복수의 품질 점수 중 적어도 서브세트 각각을 대응하는 재매핑된 품질 점수로 재매핑하는 단계를 추가로 포함하는, 방법.
  16. 제15항에 있어서,
    복수의 재매핑된 품질 점수 각각을 복수의 양자화된 재매핑된 품질 점수 중 대응하는 품질 점수로 양자화하는 단계를 추가로 포함하는, 방법.
  17. 프로세서 상에서 실행될 때 방법을 구현하는 컴퓨터 프로그램 명령이 기록된 비일시적 컴퓨터 판독가능한 저장 매체로서, 방법은,
    플로우 셀로부터 복수의 강도 값을 수신하는 단계 - 개별 강도 값은 표적 클러스터 또는 플로우 셀의 표적 클러스터 바로 근처를 나타내고, 표적 클러스터는 미지 분석물로 채워짐 -;
    복수의 강도 값의 적어도 임계값 백분율을 포함하는 제2 범위를 식별하는 단계;
    복수의 강도 값의 임계값 백분율을 제2 범위와 상이한 제3 범위로 매핑하는 단계; 및
    매핑 후에, 복수의 강도 값의 임계값 백분율을 처리하여 미지 분석물이 A, C, T 또는 G일 우도를 생성하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
  18. 제17항에 있어서, 제2 범위는 제1 범위 내에 완전히 포함되는, 비일시적 컴퓨터 판독가능한 저장 매체.
  19. 제17항 또는 제18항에 있어서, 제1 범위 내의 하나 이상의 특이값 강도 값은 복수의 강도 값의 임계값 백분율에 존재하지 않는, 비일시적 컴퓨터 판독가능한 저장 매체.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서, 제2 범위를 식별하는 단계는,
    제1 범위 내에서 하위 값을 식별하여 복수의 강도 값의 하한 임계값 백분율이 당해 하위 값보다 낮은 값을 갖도록 하는 단계; 및
    제1 범위 내에서 상위 값을 식별하여 복수의 강도 값의 상한 임계값 백분율이 당해 상위 값보다 높은 값을 갖도록 하는 단계를 포함하며, 임계값 백분율은 하한 임계값 백분율과 상한 임계값 백분율의 합이고,
    제2 범위는 당해 하위 값과 당해 상위 값에 의해 정의되는, 비일시적 컴퓨터 판독가능한 저장 매체.
  21. 제20항에 있어서, 하한 임계값 백분율 또는 상한 임계값 백분율 중 적어도 하나는 0.5% 이하인, 비일시적 컴퓨터 판독가능한 저장 매체.
  22. 제20항 또는 제21항에 있어서, 하한 임계값 백분율 및 상한 임계값 백분율의 각각은 1.0% 이하인, 비일시적 컴퓨터 판독가능한 저장 매체.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서,
    (i) 당해 하위 값보다 낮은 복수의 강도 값 중 제1 특이값 강도 값 및 (ii) 당해 상위 값보다 높은 복수의 강도 값 중 제2 특이값 강도 값을 식별하는 단계; 및
    매핑 이전에, 제1 특이값 강도 값에 당해 하위 값을 할당하고, 제2 특이값 강도 값에 당해 상위 값을 할당하여, 제1 특이값 강도 값 및 제2 특이값 강도 값이 할당 이후 제2 범위 내에 있도록 하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
  24. 제20항 내지 제23항 중 어느 한 항에 있어서,
    (i) 당해 하위 값보다 낮은 복수의 강도 값 중 제1 특이값 강도 값 및 (ii) 당해 상위 값보다 높은 복수의 강도 값 중 제2 특이값 강도 값을 식별하는 단계; 및
    매핑 동안에 제1 특이값 강도 값 및 제2 특이값 강도 값을, 제2 범위 밖이므로, 복수의 강도 값의 서브세트로부터 제외하여, 제1 특이값 강도 값 및 제2 특이값 강도 값이 제3 범위로 매핑되지 않도록 하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
  25. 제17항 내지 제24항 중 어느 한 항에 있어서, 매핑은,
    제1 강도 값을 제2 범위 내에 있는 제1 값으로부터 제3 범위 내에 있는 제2 값으로 매핑하는 단계; 및
    제2 강도 값을 제2 범위 내에 있는 제3 값으로부터 제3 범위 내에 있는 제4 값으로 매핑하는 단계를 포함하는, 비일시적 컴퓨터 판독가능한 저장 매체.
  26. 제17항 내지 제25항 중 어느 한 항에 있어서, 제2 범위의 적어도 일부는 제3 범위와 중첩되지 않는, 비일시적 컴퓨터 판독가능한 저장 매체.
  27. 염기 호출을 위한 시스템으로서,
    분석물 세트의 원래의 강도 방출을 나타내는 이미지를 저장하는 메모리 - 원래의 강도 방출은 서열분석 런의 서열분석 사이클 동안 분석물 세트에서의 분석물에 의해 생성됨 -;
    원래의 강도 방출을 수신하고 원래의 강도 방출을 재매핑하여 재매핑된 강도 방출을 생성하여 재매핑된 강도 방출이 원래의 강도 방출에 비해 상이한 강도 값을 갖게 하도록 구성된 정규화 모듈; 및
    재매핑된 강도 방출을 처리하여 분석물 세트에 대한 염기 호출을 생성하도록 구성된 염기 호출자를 포함하는, 시스템.
KR1020237043770A 2021-07-28 2022-07-28 염기 호출 시스템의 품질 점수 보정 KR20240037882A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163226707P 2021-07-28 2021-07-28
US63/226,707 2021-07-28
US17/839,387 2022-06-13
US17/839,387 US20230029970A1 (en) 2021-07-28 2022-06-13 Quality score calibration of basecalling systems
PCT/US2022/038729 WO2023009758A1 (en) 2021-07-28 2022-07-28 Quality score calibration of basecalling systems

Publications (1)

Publication Number Publication Date
KR20240037882A true KR20240037882A (ko) 2024-03-22

Family

ID=83149575

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237043770A KR20240037882A (ko) 2021-07-28 2022-07-28 염기 호출 시스템의 품질 점수 보정

Country Status (6)

Country Link
EP (1) EP4377960A1 (ko)
KR (1) KR20240037882A (ko)
AU (1) AU2022319125A1 (ko)
CA (1) CA3223746A1 (ko)
IL (1) IL309786A (ko)
WO (1) WO2023009758A1 (ko)

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5641658A (en) 1994-08-03 1997-06-24 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid with two primers bound to a single solid support
US6090592A (en) 1994-08-03 2000-07-18 Mosaic Technologies, Inc. Method for performing amplification of nucleic acid on supports
ATE269908T1 (de) 1997-04-01 2004-07-15 Manteia S A Methode zur sequenzierung von nukleinsäuren
DE69837913T2 (de) 1997-04-01 2008-02-07 Solexa Ltd., Saffron Walden Verfahren zur vervielfältigung von nukleinsäure
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US20020150909A1 (en) 1999-02-09 2002-10-17 Stuelpnagel John R. Automated information processing in randomly ordered arrays
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
AU2002227156A1 (en) 2000-12-01 2002-06-11 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US20040002090A1 (en) 2002-03-05 2004-01-01 Pascal Mayer Methods for detecting genome-wide sequence variations associated with a phenotype
WO2004018493A1 (en) 2002-08-23 2004-03-04 Solexa Limited Labelled nucleotides
EP1530578B1 (en) 2002-08-23 2013-03-13 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
US8045998B2 (en) 2005-06-08 2011-10-25 Cisco Technology, Inc. Method and system for communicating using position information
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
GB0517097D0 (en) 2005-08-19 2005-09-28 Solexa Ltd Modified nucleosides and nucleotides and uses thereof
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
CN101460953B (zh) 2006-03-31 2012-05-30 索雷克萨公司 用于合成分析的序列的系统和装置
US20080242560A1 (en) 2006-11-21 2008-10-02 Gunderson Kevin L Methods for generating amplified nucleic acid arrays
US7595882B1 (en) 2008-04-14 2009-09-29 Geneal Electric Company Hollow-core waveguide-based raman systems and methods
HUE056246T2 (hu) 2011-09-23 2022-02-28 Illumina Inc Készítmények nukleinsav-szekvenáláshoz
WO2016064703A1 (en) * 2014-10-21 2016-04-28 Life Technologies Corporation Methods, systems, and computer-readable media for blind deconvolution dephasing of nucleic acid sequencing data
JP2021511829A (ja) * 2018-01-26 2021-05-13 クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated シークエンシングデバイスに関する機械学習可能なパルス決定および塩基決定
US11347965B2 (en) * 2019-03-21 2022-05-31 Illumina, Inc. Training data generation for artificial intelligence-based sequencing

Also Published As

Publication number Publication date
IL309786A (en) 2024-02-01
EP4377960A1 (en) 2024-06-05
CA3223746A1 (en) 2023-02-02
AU2022319125A1 (en) 2024-01-18
WO2023009758A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
US20210265018A1 (en) Knowledge Distillation and Gradient Pruning-Based Compression of Artificial Intelligence-Based Base Caller
US20220300811A1 (en) Neural network parameter quantization for base calling
KR20220143854A (ko) 인공 지능 기반 다-대-다 염기 호출
US20230041989A1 (en) Base calling using multiple base caller models
US20230029970A1 (en) Quality score calibration of basecalling systems
KR20240037882A (ko) 염기 호출 시스템의 품질 점수 보정
CN117529780A (zh) 碱基检出系统的质量分数校准
US20230026084A1 (en) Self-learned base caller, trained using organism sequences
US20220415445A1 (en) Self-learned base caller, trained using oligo sequences
KR20240027608A (ko) 유기체 서열을 사용하여 훈련된 자체-학습 염기 호출자
KR20240035413A (ko) 다중 염기 호출자 모델을 사용한 염기 호출
KR20230157230A (ko) 염기 호출을 위한 타일 위치 및/또는 사이클 기반 가중치 세트 선택
JP2024528510A (ja) 生物配列を使用して訓練された自己学習ベースコーラ
JP2024527306A (ja) オリゴ配列を使用して訓練された自己学習ベースコーラ
WO2022197754A1 (en) Neural network parameter quantization for base calling
CN117546248A (zh) 使用多个碱基检出器模型的碱基检出
CN117546249A (zh) 使用寡核苷酸序列训练的自学碱基检出器