KR20240035754A - 뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델 - Google Patents

뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델 Download PDF

Info

Publication number
KR20240035754A
KR20240035754A KR1020237043985A KR20237043985A KR20240035754A KR 20240035754 A KR20240035754 A KR 20240035754A KR 1020237043985 A KR1020237043985 A KR 1020237043985A KR 20237043985 A KR20237043985 A KR 20237043985A KR 20240035754 A KR20240035754 A KR 20240035754A
Authority
KR
South Korea
Prior art keywords
call
base
nucleotide
variant
caller
Prior art date
Application number
KR1020237043985A
Other languages
English (en)
Inventor
개빈 데렉 파르나비
아룬 비스바나트
앙투안 쟝 데용
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20240035754A publication Critical patent/KR20240035754A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Genetics & Genomics (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시는 호출-생성 모델의 뉴클레오티드-염기 호출(예를 들어, 변이 호출)을 재교정하기 위해 기계 학습 모델을 이용할 수 있는 방법, 비일시적 컴퓨터 판독 가능 매체 및 시스템을 설명한다. 예를 들어, 개시된 시스템은 샘플 뉴클레오티드 서열과 연관된 시퀀싱 메트릭들에 기초하여 예측된 변이-호출 분류의 세트를 생성하기 위해 호출-재교정-기계-학습 모델을 훈련시키고 이를 이용할 수 있다. 변이-호출 분류의 세트를 이용하여, 개시된 시스템은 게놈 좌표에 대응하는 뉴클레오티드-염기 호출(예를 들어, 변이 호출)을 추가로 업데이트하거나 수정할 수 있다. 실제로, 개시된 시스템은 호출-생성 모델을 이용하여 샘플 서열의 뉴클레오티드 리드에 대한 시퀀싱 메트릭들에 기초하여 초기 뉴클레오티드-염기 호출을 생성할 수 있고 동일한 시퀀싱 메트릭 또는 다른 시퀀싱 메트릭의 서브세트로부터 초기 뉴클레오티드-염기 호출을 업데이트 또는 재교정하기 위한 분류 예측을 생성하기 위해 호출-재교정-기계-학습 모델을 추가로 이용할 수 있다.

Description

뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델
관련 출원에 대한 상호 참조
본 출원은 2021년 7월 23일자로 출원되고 발명의 명칭이 "뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델(MACHINE-LEARNING MODEL FOR RECALIBRATING NUCLEOTIDE-BASE CALLS)"인 미국 출원 번호 제17/384,423호의 이익 및 우선권을 주장하며, 그 내용은 전체적으로 본원에 참조로 통합된다.
시퀀싱 및 변이 호출에서의 이러한 최근의 발전에도 불구하고, 기존의 시퀀싱-데이터-분석 소프트웨어는 종종 과도한 개수의 위양성(false positive) 및 위음성(negative)을 식별하는 변이 호출자를 포함한다. 예를 들어, 일부 상황에서, 기존 소프트웨어는 참조 서열 내에서 이러한 변이가 없는 사이트 또는 좌표에서 과도한 개수의 변이를 잘못 식별하는 변이 호출자를 적용한다. 다른 예로서, 기존의 변이 호출자는 샘플 서열이 기존 서열의 참조 염기와 상이한 실제 변이를 포함하는 사이트 또는 좌표에서 샘플 서열의 과도한 개수의 비변이(non-variant) 하위 서열을 종종 잘못 식별한다. 실제로, 기존 변이 호출자는 특정 레벨의 정확도를 달성하지만, 그 한계로 인해, 위양성을 감소시키고 위음성을 복구하는 데 여전히 개선의 여지를 남겨 두고 있다. 예를 들어, 헤모글로빈 베타(HBB: hemoglobin beta) 유전자의 특정의 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism)을 식별하는 변이 호출은 상당한 영향을 가질 수 있다. 예를 들어, 변이 호출자가 염색체 11번의 rs344에서 SNP를 식별할 때, 변이 호출자는 겸상 적혈구 빈혈증(sickle cell anemia)의 유전적 원인을 정확하게 식별하거나 질병의 원인을 놓칠 수 있다. 추가 예로서, 헤모글로빈 서브유닛 알파 1(HbA1: hemoglobin subunit alpha 1) 또는 헤모글로빈 서브유닛 알파 2(HbA2) 유전자의 하나 이상의 사본의 결실을 정확하게 또는 부정확하게 식별하는 변이 호출은 유전된 혈액 질환의 유전적 원인을 정확하게 식별하거나 유전자 결실을 완전히 놓칠 수 있다.
앞서 언급한 부정확성에 대한 기여 요인으로, 기존의 많은 뉴클레오티드-염기-시퀀싱 플랫폼과 시퀀싱-데이터-분석 소프트웨어(이하 함께 기존 시퀀싱 시스템이라 칭함)는 뉴클레오티드-염기 호출 결정 시 데이터의 제한된 세트만을 이용한다. 예를 들어, 기존의 시퀀싱 시스템은 종종 리드(read) 깊이, 불일치 카운트 및 매핑 품질과 같은 샘플 서열의 뉴클레오티드 리드로부터 직접 추출된 정보에만 전적으로 의존하여 뉴클레오티드-염기 호출을 결정한다. 뉴클레오티드 리드로부터의 서열 정보는 뉴클레오티드-염기 호출을 결정하는 데 귀중한 통찰력을 제공할 수 있지만, 이러한 데이터에만 의존하는 기존의 시스템은 뉴클레오티드-염기 호출을 정확하게 결정할 때 성능이 저하될 수 있다. 실제로, 미가공 서열 데이터에 의존하는 일부 기존의 시퀀싱 시스템은 더 복잡한 모델과 비교하여 샘플 서열의 SNP, 삽입 결실(indel) 또는 다른 변이를 부정확하게 결정한다. 실제로, 기존의 시퀀싱 시스템은 미국 식품 의약청(FDA: U.S. Food and Drug Administration)의 트러쓰 챌린지(Truth Challenge)에서 위음성 변이 또는 위양성 변이를 종종 식별한다.
변이 호출을 부정확하게 결정하는 것 외에도, 일부 기존의 시퀀싱 시스템은 과도하게 복잡한 모델로 컴퓨팅 리소스를 비효율적으로 소비한다. 구체적으로, 일부 기존의 시퀀싱 시스템의 변이 호출자는 계산 비용이 많이 들고 느리다. 실제로, 일부 기존의 시스템은 학습 및 적용을 위해 광범위한 계산 리소스(예를 들어, 컴퓨팅 시간, 프로세싱 전력 및 메모리)를 필요로 하는 딥 러닝(deep learning) 아키텍처 또는 일부 다른 신경망 아키텍처를 갖는 변이 호출자를 이용한다. 예를 들어, 일부 기존의 시스템은 훈련 후에도 복수의 컴퓨팅 디바이스에 걸쳐 단일 샘플 서열에 대한 뉴클레오티드-염기 호출을 생성하는 데 많은 시간이 걸리는 딥 러닝 아키텍처를 이용한다.
복잡한 네트워크를 갖는 기존의 시퀀싱 시스템의 추가적인 단점으로서, 이러한 많은 시스템은 서열 데이터를 해석할 수 없게 만드는 모델 아키텍처를 이용한다. 보다 구체적으로, 일부 기존의 심층 신경망은 변이 호출을 생성하기 위한 기반으로서, 다양한 계층과 뉴런(neuron)에 걸쳐 하나의 벡터에서 다른 벡터로 변경하면서 서열 데이터를 여러 번 변환하고 조작한다. 많은 경우, 이러한 심층 신경망의 내부 데이터는 해석이 불가능하며 신경망 아키텍처 자체 외부에서는 어떤 방식으로도 이용이 불가능하다.
본 개시는 호출-생성 모델의 뉴클레오티드-염기 호출(예를 들어, 변이 호출)을 재교정하기 위해 기계 학습 모델을 이용할 수 있는 방법, 비일시적 컴퓨터 판독 가능 매체 및 시스템의 실시예를 설명한다. 예를 들어, 개시된 시스템은 샘플 뉴클레오티드 서열과 연관된 시퀀싱 메트릭으로부터 분류 예측의 세트(예를 들어, 변이-호출 분류)를 생성하기 위해 호출-재교정-기계-학습 모델을 훈련하고 이용할 수 있다. 분류 예측의 세트를 이용하여, 개시된 시스템은 샘플 서열에 대한 뉴클레오티드-염기 호출을 추가로 업데이트하거나 수정할 수 있다. 실제로, 개시된 시스템은 (i) 호출-생성 모델을 이용하여 샘플 서열의 뉴클레오티드 리드에 대한 시퀀싱 메트릭에 기초하여 참조 게놈의 게놈 좌표에 대해 초기 뉴클레오티드-염기 호출(예를 들어, 초기 변이 호출)을 생성하고 (ii) 동일한 시퀀싱 메트릭의 서브세트에서 초기 뉴클레오티드-염기 호출을 업데이트하거나 재교정하기 위한 분류 예측을 생성하기 위해 호출-재교정-기계-학습 모델을 이용할 수 있다. 재교정 후, 개시된 시스템은 업데이트되거나 재교정된 뉴클레오티드-염기 호출을 변이 호출 파일 또는 다른 염기-호출-출력 파일의 최종 뉴클레오티드-염기 호출(예를 들어, 최종 변이 호출)로서 출력할 수 있다.
뉴클레오티드-염기 호출을 생성하기 위한 시퀀싱 메트릭을 업데이트하기 위해 호출-재교정-기계-학습 모델을 이용함으로써, 개시된 시스템은 기존의 시퀀싱 시스템에 비해 정확도, 효율성 및 속도를 개선할 수 있다. 예를 들어, 아래에 추가로 설명되는 바와 같이, 개시된 호출-재교정-기계-학습 모델은 변이 호출에 대한 보다 복잡한 신경망보다 더 나은 정확도와 더 빠른 컴퓨팅 시간으로 변이 호출을 결정한다. 또한, 개시된 시스템은 접근 가능하고 해석 가능한 포맷으로 데이터를 프로세싱하는 호출-재교정-기계-학습 모델을 이용함으로써 정확한 변이 호출에 영향을 미치는 요인의 해석성을 개선할 수 있다. 실제로, 개시된 시스템의 개선된 해석성으로 인해, 일부 구현에서, 개시된 시스템은 개별 시퀀싱 메트릭과 연관된 다양한 기여 척도의 시각화를 생성 및 제공하여 시퀀싱 메트릭이 결과적인 뉴클레오티드-염기 호출에 미치는 영향의 각각의 척도를 시각적으로 묘사할 수 있다.
상세한 설명은 아래에 간략히 설명된 도면을 참조한다.
도 1은 하나 이상의 실시예에 따른 염기-호출자-재교정 시스템을 포함하는 시퀀싱 시스템의 블록도를 예시한다.
도 2는 하나 이상의 실시예에 따른 염기-호출자-재교정 시스템을 이용하여 뉴클레오티드-염기 호출을 생성하는 개요를 예시한다.
도 3a 내지 도 3c는 하나 이상의 실시예에 따라 시퀀싱 메트릭을 생성하거나 결정하는 것을 예시한다.
도 4는 하나 이상의 실시예에 따른 호출-재교정-기계-학습 모델을 이용하여 변이-호출 분류를 생성하고 뉴클레오티드-염기 호출을 재교정하는 것을 예시한다.
도 5는 하나 이상의 실시예에 따라 호출-재교정-기계-학습 모델을 훈련하기 위한 예시적인 프로세스를 예시한다.
도 6은 하나 이상의 실시예에 따라 클라이언트 디바이스 상에 표시되는 예시적인 기여-척도 인터페이스를 예시한다.
도 7a 및 도 7b는 하나 이상의 실시예에 따라 호출-재교정-기계-학습 모델을 이용하는 염기-호출자-재교정 시스템과 연관된 정확도 개선을 묘사하는 그래프를 예시한다.
도 8은 하나 이상의 실시예에 따라 염기-호출자-재교정 시스템과 재교정되지 않은 시스템을 비교하는 그래프를 예시한다.
도 9는 하나 이상의 실시예에 따른 호출-재교정-기계-학습 모델로부터의 변이-호출 분류에 기초하여 뉴클레오티드-염기 호출을 생성하기 위한 일련의 동작의 흐름도를 예시한다.
도 10은 본 개시의 하나 이상의 실시예를 구현하기 위한 예시적인 컴퓨팅 디바이스의 블록도를 예시한다.
본 개시는 호출-생성 모델 및 호출-재교정-기계-학습 모델을 이용하여 샘플 뉴클레오티드 서열에 대한 뉴클레오티드-염기 호출을 생성하고 재교정하는 염기-호출자-재교정 시스템의 실시예를 설명한다. 특히, 염기-호출자-재교정 시스템은 샘플 뉴클레오티드 서열의 뉴클레오티드 리드로부터 식별되거나 획득된 시퀀싱 메트릭으로부터 초기 뉴클레오티드-염기 호출(예를 들어, 참조 게놈에 대한 변이 호출 또는 비변이 호출을 식별하는 염기 호출)을 생성하기 위해 호출-생성 모델을 이용할 수 있다. 또한, 염기-호출자-재교정 시스템은 호출 품질, 호출과 연관된 유전자형 및/또는 유전자형과 연관된 유전자형 품질과 같은 다양한 호출 메트릭을 업데이트하기 위해 호출-재교정-기계-학습 모델을 이용하여 그 정확도를 개선하기 위해 초기 뉴클레오티드-염기 호출을 재교정할 수 있다. 메트릭을 업데이트하기 위해 호출-재교정-기계-학습 모델을 이용함으로써, 염기-호출자-재교정 시스템은 샘플 뉴클레오티드 서열의 뉴클레오티드-염기 호출에서 위양성을 제거할 수 있고/있거나 샘플 뉴클레오티드 서열의 뉴클레오티드-염기 호출에서 위음성을 복구할 수 있다.
방금 언급한 바와 같이, 특정 구현에서, 염기-호출자-재교정 시스템은 샘플 뉴클레오티드 서열로부터 시퀀싱 메트릭을 추출하거나 결정한다. 예를 들어, 염기-호출자-재교정 시스템은 샘플 뉴클레오티드 서열에서 뉴클레오티드 리드의 뉴클레오티드-염기 호출로부터 시퀀싱 메트릭을 결정한다. 실제로, 일부 경우에, 염기-호출자-재교정 시스템은 (예를 들어, 특정 게놈 좌표에서) 샘플 뉴클레오티드 서열의 형광 이미징을 통해 캡처되거나 결정된 뉴클레오티드 리드로부터 뉴클레오티드-염기 호출의 세트를 생성하거나 결정한다. 리드-기반 뉴클레오티드-염기 호출로부터, 일부 실시예에서, 염기-호출자-재교정 시스템은 다양한 시퀀싱 메트릭(예를 들어 리드 및/또는 호출-생성 모델의 다양한 구성 요소로부터 획득된 다양한 유형의 시퀀싱 메트릭)을 결정하거나 추출한다.
상세히 설명하자면, 특정 구현에서, 염기-호출자-재교정 시스템은 상이한 소스와 연관된 상이한 유형의 시퀀싱 메트릭을 결정한다. 예를 들어, 염기-호출자-재교정 시스템은 샘플 뉴클레오티드 서열의 뉴클레오티드 리드에서 도출된 메트릭을 포함하는 리드-기반 시퀀싱 메트릭을 결정한다. 또한, 염기-호출자-재교정 시스템은 다양한 뉴클레오티드 속성, 매핑 문제 및 시퀀싱 바이어스(bias)와 연관된 게놈 서열을 나타내는 하나 이상의 외부 데이터베이스로부터 식별된 외부적으로 소싱된 시퀀싱 메트릭을 결정한다. 추가로, 염기-호출자-재교정 시스템은 다른 시스템이나 당사자에 대해 액세스 불가한 염기-호출자-재교정 시스템 내부의 변수(예를 들어, 독점 품질 스코어, 염기 컨텍스트, 리드 필터링, 독점 가설 스코어 및 다른 메트릭)와 같은 변이 호출자 또는 다른 호출-생성 모델을 통해 생성된 호출-모델-생성 시퀀싱 메트릭을 결정한다. 실제로, 일부 경우에, 염기-호출자-재교정 시스템은 변이-호출 시퀀싱 메트릭과 매핑-및-정렬 시퀀싱 메트릭의 형태로 호출-모델-생성 시퀀싱 메트릭을 결정하며, 여기서 각각의 유형은 호출-생성 모델의 상이한 구성 요소에 의해 추출된다.
추가로 언급된 바와 같이, 특정 구현에서, 염기-호출자-재교정 시스템은 뉴클레오티드-염기 호출 또는 변이-호출 데이터 또는 뉴클레오티드-염기 호출과 연관된 필드를 수정하거나 개선하기 위해 시퀀싱 메트릭으로부터 예측된 분류의 세트를 생성한다. 보다 구체적으로, 염기-호출자-재교정 시스템은 특정 게놈 좌표(예를 들어, 샘플 뉴클레오티드 서열로부터의 뉴클레오티드 리드의 뉴클레오티드-염기 호출에 대응하는 게놈 좌표)에서 변이를 식별하는 정확도에 영향을 미치거나 이를 반영하는 3개의 변이-호출 분류의 세트를 시퀀싱 메트릭으로부터 생성하기 위해 호출-재교정-기계-학습 모델을 이용한다. 예를 들어, 염기-호출자-재교정 시스템은 i) 위양성 분류(예를 들어, 뉴클레오티드-염기 호출이 위양성 변이일 확률), ii) 유전자형-오류 분류(예를 들어, 뉴클레오티드-염기 호출의 유전자형을 부정확하게 식별할 확률) 및 iii) 진양성 분류(예를 들어, 뉴클레오티드-염기 호출의 진양성 변이일 확률)를 포함하는 변이-호출 분류를 생성하기 위해 호출-재교정-기계-학습 모델을 이용한다. 일부 경우, 변이-호출 분류는 이에 따라 변이-호출자-중간-스코어링 메트릭을 나타낸다.
변이-호출 분류로부터, 염기-호출자-재교정 시스템은 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출(예를 들어, 변이 호출 또는 비변이 호출을 나타내는 최종 뉴클레오티드-염기 호출)(에 대한 메트릭)을 추가로 수정하거나 업데이트할 수 있다. 예를 들어, 염기-호출자-재교정 시스템은 뉴클레오티드-염기 호출을 나타내거나 표현하는 디지털 호출 파일(예를 들어, 변이 호출 포맷 파일 또는 다른 염기-호출-출력 파일) 내의 호출 품질, 유전자형 및 유전자형 품질에 대응하는 데이터 필드를 업데이트하기 위해 변이-호출 분류를 이용한다. 실제로, 위에서 언급한 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템은 게놈 좌표에 대한 시퀀싱 메트릭으로부터 최종 뉴클레오티드-염기 호출을 생성하거나 결정하기 위해 호출-생성 모델을 이용한다.
추가적으로, 염기-호출자-재교정 시스템은 개선된 정확도를 위해 뉴클레오티드-염기 호출을 업데이트하기 위해 변이-호출 분류를 이용할 수 있다. 특정 구현에서, 염기-호출자-재교정 시스템은 호출 재교정-기계-학습 모델을 이용하면서 또한 호출-생성 모델을 이용하여 변이-호출 분류를 생성하여 변이-호출 분류에 기초한 뉴클레오티드-염기 호출을 생성한다. 실제로, 일부 실시예에서, 염기-호출자-재교정 시스템은 (i) 호출-생성 모델을 이용하여 초기 뉴클레오티드-염기 호출을 생성하고 (ii) 호출-재교정-기계-학습 모델을 이용하여 뉴클레오티드-염기 호출에 대한 변이 호출 파일에 대응하는 데이터 필드를 수정한다. 일부 경우에, 염기-호출자-재교정 시스템은 추가로 하나 이상의 데이터 필드에 기초하여 뉴클레오티드-염기 호출을 편집하고, 편집된 뉴클레오티드-염기 호출로 변이 호출 파일을 생성한다. 대조적으로, 일부 경우에, 염기-호출자-재교정 시스템은 호출-생성 모델로부터의 초기 뉴클레오티드-염기 호출 없이 호출-생성 모델에 대한 시퀀싱 메트릭과 호출-재교정-기계-학습 모델로부터의 변이-호출 분류 모두에 기초하여 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출을 결정한다. 예를 들어, 일부 실시예에서, 호출-생성 모델은 (업데이트되는 초기 변이 호출을 생성하지 않고) 변이-호출 분류를 담당하는 최종 변이 호출을 출력할 수 있다. 대조적으로, 특정 경우에, 호출-생성 모델은 변이 호출에 포함하기 위해 임계값을 충족하지 못하는 잠재적 변이 호출에 대응하는 신뢰도 또는 품질을 초기에 결정할 수 있지만, (염기-호출-품질 메트릭을 업데이트하는 변이 호출 분류를 처리한 후) 변이 호출 파일에 변이 호출을 포함하도록 결정할 수 있다. 이러한 방식으로 호출-재교정-기계-학습 모델과 호출-생성 모델을 구현한 결과, 염기-호출자-재교정 시스템은 위음성 호출을 복구하거나 호출-생성 모델에 의해 초기에 만들어진 위양성 호출을 제거한다.
하나 이상의 실시예에서, 염기-호출자-재교정 시스템은 하나 이상의 시퀀싱 메트릭과 연관된 기여 척도를 추가로 결정한다. 특히, 염기-호출자-재교정 시스템은 각각의 시퀀싱 메트릭 또는 시퀀싱 메트릭의 서브세트가 최종 뉴클레오티드-염기 호출에 미치는 영향 또는 영향력의 척도를 결정한다. 예를 들어, 일부 메트릭은 다른 것에 비해 하나의 게놈 좌표에서의 호출을 결정할 때 다른 메트릭보다 더 높게 가중화될 수 있다. 실제로, 호출-생성 모델과 호출-재교정-기계-학습 모델의 접근성과 해석 가능성으로 인해, 염기-호출자-재교정 시스템은 뉴클레오티드-염기 호출을 생성하는 데 사용되는 내부 시퀀싱 메트릭에 접근할 수 있으며, 어떠한 메트릭이 뉴클레오티드-염기 호출(예를 들어, 변이 호출)의 재교정을 유발하거나 추진하는지 궁극적으로 결정할 때 그 각각의 기여 척도를 결정할 수 있다. 일부 경우에, 염기-호출자-재교정 시스템은 클라이언트 디바이스 상에 표시하기 위한 기여 척도의 시각화를 추가로 생성하고 제공한다.
위에서 제안된 바와 같이, 염기-호출자-재교정 시스템은 변이 호출자 및 다른 시퀀싱-데이터-분석 소프트웨어를 포함하는 기존의 시퀀싱 시스템에 비해 몇몇 이점, 이익 및/또는 개선점을 제공한다. 예를 들어, 염기-호출자-재교정 시스템은 새로운 애플리케이션을 수행하도록 고유하게 훈련된 해당 종류의 첫 번째의 기계-학습 모델 - 호출-재교정-기계-학습 모델을 도입한다. 미가공의 추출된 메트릭에서만 뉴클레오티드-염기 호출을 생성하는 통상의 변이 호출자와 달리, 염기-호출자-재교정 시스템은 외부 및 내부 시퀀싱 메트릭으로부터 특정 변이-호출 분류를 생성하는 고유한 호출-재교정-기계-학습 모델을 이용한다. 실제로, 일부 경우에, 염기-호출자-재교정 시스템은 호출-재교정-기계-학습 모델을 이용하여 호출-재교정-기계-학습 모델에 의해 사용되는 동일한 것(또는 동일한 것의 서브세트)으로부터 호출-생성 모델에 의해 생성된 뉴클레오티드-염기 호출을 업데이트하여 변이-호출 분류를 생성한다.
게놈 분류 시스템은 기존의 시퀀싱 시스템에 비해 해당 종류의 첫 번째 기계-학습 모델을 도입한 것 외에, 뉴클레오티드-염기 호출의 정확도를 개선한다. 실제로, 일부 기존의 시퀀싱 시스템은 어느 정도의 정확도로 뉴클레오티드-염기 호출을 생성하지만, 그럼에도 불구하고 이러한 시스템은 (예를 들어, 참조 서열에 존재하지 않는 변이를 식별하여) 과도한 수의 위양성 변이 호출을 식별하고/식별하거나 (예를 들어, 실제로 위치가 변이를 갖는 경우 게놈 위치를 비변이로 식별하여) 과도한 수의 위음성 변이 호출을 필터링 아웃한다. 염기-호출자-재교정 시스템은 호출-재교정-기계-학습 모델을 이용하여 다수의 위양성을 제거하고 다수의 위음성을 복구함으로써 기존 시스템의 정확도를 개선한다. 초기 뉴클레오티드-염기 호출을 편집하거나 호출-재교정-기계-학습 모델로부터의 변이-호출 분류에 기초하여 최종 뉴클레오티드-염기 호출을 생성함으로써, 염기-호출자-재교정 시스템은 고유한 기계-학습 출력을 사용하여 기존 변이 호출자 또는 변이 호출을 위한 기계-학습 모델보다 더 나은 정확도로 염기 호출을 재교정할 수 있다. 예를 들어, 염기-호출자-재교정 시스템은 호출-재교정-기계-학습 모델을 이용하여 내부(예를 들어, 독점 및 모델-특정) 및 외부 시퀀싱 메트릭 모두에서 변이-호출 분류를 생성하며, 이는 이전에 필터링된 변이-뉴클레오티드-염기 호출의 복구 및/또는 이전에 필터링 아웃되지 않은 비변이-뉴클레오티드-염기 호출의 제거로 귀결된다.
개선된 정확도에 적어도 부분적으로 기여하여, 염기-호출자-재교정 시스템은 기존 시퀀싱 시스템에 비해 개선된 유연성을 나타낸다. 예를 들어, 위에서 언급한 바와 같이, 기존 시퀀싱 시스템은 때때로 이러한 내부 시퀀싱 메트릭을 리엔지니어링 또는 수정하거나 대응하는 뉴클레오티드-염기 호출의 게놈 좌표와 관련되어 외부적으로 소싱된 시퀀싱 메트릭을 분석하지 않고 특정 염기 호출에 대한 내부 시퀀싱 메트릭에만 의존하여 뉴클레오티드-염기 호출을 생성하는 변이 호출자를 이용한다. 대조적으로, 일부 실시예에서, 염기-호출자-재교정 시스템은 외부 및 내부 시퀀싱 메트릭 모두를 생성하고 조작한다. 실제로, 일부 경우에, 염기-호출자-재교정 시스템은 베이지안(Bayesian) 확률 모델과 기계 학습 기술을 효율적인 방식으로 결합하여 변이-호출자 구성 요소와 호출-생성 모델의 매핑-및-정렬 구성 요소로부터의 호출-모델-생성 시퀀싱 메트릭을 결정한다. 또한, 염기-호출자-재교정 시스템은 호출-재교정-기계-학습 모델을 이용하여 하나 이상의 시퀀싱 메트릭으로부터 (예를 들어, 변이-호출 분류로부터) 업데이트된 뉴클레오티드-염기 호출을 생성한다.
개선된 정확도 및 유연성에 추가하여, 특정 실시예에서, 염기-호출자-재교정 시스템은 효율성 및 속도를 개선한다. 위에서 언급한 바와 같이, 일부 기존 시퀀싱 시스템은 계산 비용이 많이 들고 느린 신경망 아키텍처(예를 들어, 콘볼루션 신경망과 같은 딥 러닝 아키텍처)를 이용하며, 이는 많은 시간(예를 들어, 서버에서 복수의 프로세서를 실행하는 경우 5~8시간)과 시퀀싱 실행으로부터 변이 호출로 또한 파일을 구현하고 생성하기 위한 많은 양의 계산 리소스를 필요로 한다. 이러한 딥 러닝 아키텍처는 훈련하는 데 며칠(또는 몇 주)이 추가로 필요할 수 있다. 반대로, 염기-호출자-재교정 시스템은 호출-생성 모델과 호출-재교정-기계-학습 모델 모두에 대해 비교적 가볍고 빠른 아키텍처를 이용한다. 실제로, 이전 시스템에서 복수의 프로세서에 걸쳐 많은 시간이 필요했던 것과 달리, 염기-호출자-재교정 시스템은 많은 경우 샘플 뉴클레오티드 서열에 대한 뉴클레오티드-염기 호출을 생성하기 위해 단일 필드-프로그래밍 가능-게이트 어레이 또는 단일 프로세서 상에서 런타임의 (함께 호출-생성 모델과 호출-재교정-기계-학습 모델 모두에 대해) 30분 미만을 필요로 한다. 따라서, 염기-호출자-재교정 시스템은 변이 호출에 대한 많은 딥 러닝 접근법보다 훨씬 빠르고 계산 비용도 저렴하다. 염기-호출자-재교정 시스템의 모델은 구현하는 데 더 빠르고 계산 비용이 적게 들 뿐만 아니라, 염기-호출자-재교정 시스템의 모델은 기존의 많은 딥-러닝-기반 시스템보다 훈련하는 데 훨씬 더 빠르고 계산 비용이 저렴하다.
개선된 속도 및 효율성의 일부로서, 일부 실시예에서, 염기-호출자-재교정 시스템은 각각의 호출이 호출-생성 모델에 의해 프로세싱될 때 호출별로 뉴클레오티드-염기 호출을 재교정한다. 실제로, 염기-호출자-재교정 시스템은 뉴클레오티드-염기 호출을 재교정하면서(예를 들어, 호출-재교정-기계-학습 모델을 이용) 또한 하나 이상의 시퀀싱 메트릭과 함께 변이-호출 분류로부터 뉴클레오티드-염기를 생성하기 위해 변이-호출 분류를 생성할 수 있다. 일부 실시예에서, 염기-호출자-재교정 시스템은 호출-재교정-기계-학습 모델과 병행하여 호출-생성 모델을 이용하여 초기 뉴클레오티드-염기 호출을 수정하거나 재교정하기 위해 초기 뉴클레오티드-염기 호출 및 변이-호출 분류를 동시에 생성한다.
기존 시퀀싱 시스템에 대한 추가 이점으로서, 특정 구현에서, 염기-호출자-재교정 시스템은 뉴클레오티드-염기 호출의 정확도에 영향을 미치는 개별 메트릭에 대한 변경을 식별하거나 촉진할 수 있다. 많은 통상의 시스템의 신경망 아키텍처는 잠재 특징으로 내부 모델 데이터의 임의의 해석을 불가능하게 만드는 반면, 염기-호출자-재교정 시스템은 개별 시퀀싱 메트릭의 효과의 해석을 용이하게 하는 모델 아키텍처를 이용한다. 보다 구체적으로, 일부 경우에, 염기-호출자-재교정 시스템은 뉴클레오티드-염기 호출을 생성하는 프로세스 전반에 걸쳐 사용되는 개별 시퀀싱 메트릭의 추출 및 분석을 가능하게 하는 호출-생성 모델 및 호출-재교정-기계-학습 모델을 이용한다. 실제로, 염기-호출자-재교정 시스템은 특정 게놈 좌표에서 뉴클레오티드-염기 호출을 결정하는 데 수반되는 시퀀싱 메트릭에 대한 각각의 기여 척도를 결정할 수 있다.
위의 논의에 의해 제안된 바와 같이, 본 개시는 염기-호출자-재교정 시스템의 특징 및 이점을 설명하기 위해 다양한 용어를 이용한다. 본 개시에서 사용되는 이러한 용어의 의미에 관한 추가적인 상세 사항이 이하에 제공된다. 예를 들어, 본 개시에 사용되는 바와 같이, "샘플 뉴클레오티드 서열" 또는 "샘플 서열"이라는 용어는 샘플 유기체로부터 격리 또는 추출된 뉴클레오티드의 서열(또는 이러한 격리 또는 추출된 서열의 사본)을 지칭한다. 특히, 샘플 뉴클레오티드 서열은 샘플 유기체로부터 격리 또는 추출되고 질소성 헤테로사이클릭 염기로 구성된 핵산 중합체의 세그먼트를 포함한다. 예를 들어, 샘플 뉴클레오티드 서열은 디옥시리보핵산(DNA: deoxyribonucleic acid), 리보핵산(RNA: ribonucleic acid), 또는 아래에 언급된 핵산의 다른 중합체 형태 또는 키메릭(chimeric) 또는 하이브리드 형태의 세그먼트를 포함할 수 있다. 보다 구체적으로, 일부 경우에, 샘플 뉴클레오티드 서열은 키트(kit)에 의해 준비되거나 격리된 샘플에서 발견되고 시퀀싱 디바이스에 의해 수용된다.
본원에서 추가로 사용되는 바와 같이, "뉴클레오티드-염기 호출"(또는 때때로 간단히 "호출")이라는 용어는 샘플 게놈의 게놈 좌표에 대해 또는 시퀀싱 사이클 동안 올리고뉴클레오티드에 대해 특정 뉴클레오티드 염기(또는 뉴클레오티드-염기 쌍)의 결정 또는 예측을 지칭한다. 특히, 뉴클레오티드-염기 호출은 (i) 뉴클레오티드-샘플 슬라이드(예를 들어, 리드-기반 뉴클레오티드-염기 호출) 상의 올리고뉴클레오티드 내에 통합된 뉴클레오티드 염기 유형의 결정 또는 예측 또는 (ii) 디지털 출력 파일의 변이-호출 또는 비변이 호출을 포함하여 샘플 게놈 내의 게놈 좌표 또는 영역에 존재하는 뉴클레오티드 염기 유형의 결정 또는 예측을 나타낼 수 있다. 일부 경우에, 뉴클레오티드 리드의 경우, 뉴클레오티드-염기 호출은 (예를 들어, 플로우 셀의 웰(well)의) 뉴클레오티드-샘플 슬라이드의 올리고뉴클레오티드에 첨가된 형광-태깅된 뉴클레오티드로 인한 강도 값에 기초하여 뉴클레오티드 염기의 결정 또는 예측을 포함한다. 대안적으로, 뉴클레오티드-염기 호출은 뉴클레오티드-샘플 슬라이드의 나노포어(nanopore)를 통과하는 뉴클레오티드로 인해 발생하는 크로마토그램 피크 또는 전류 변화에 대한 뉴클레오티드 염기의 결정 또는 예측을 포함한다. 대조적으로, 뉴클레오티드-염기 호출은 또한 게놈 좌표에 대응하는 뉴클레오티드 리드에 기초하여 변이 호출 파일 또는 다른 염기-호출-출력 파일에 대한 샘플 게놈의 게놈 좌표에서 뉴클레오티드 염기의 초기 또는 최종 예측을 포함할 수 있다. 따라서, 뉴클레오티드-염기 호출은 참조 게놈에 대응하는 특정 위치에서의 변이 또는 비변이의 표시와 같이 게놈 좌표 및 참조 게놈에 대응하는 염기 호출을 포함할 수 있다. 실제로, 뉴클레오티드-염기 호출은 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism), 삽입 또는 결실(삽입과 결실(indel)), 또는 구조적 변이의 일부인 염기 호출에 한정되지 않지만 이를 포함하는 변이 호출을 지칭할 수 있다. 뉴클레오티드-염기 호출을 사용하여, 시퀀싱 시스템은 핵산 중합체의 서열을 결정한다. 예를 들어, 단일 뉴클레오티드-염기 호출은 DNA에 대해 아데닌 호출, 시토신 호출, 구아닌 호출, 티민 호출(A, C, G, T로 약칭) 또는 RNA에 대해 우라실 호출(티민 호출 대신)(U로 약칭)을 포함할 수 있다.
관련하여, 본원에 사용되는 바와 같이, "뉴클레오티드 리드"라는 용어는 샘플 뉴클레오티드 서열의 전부 또는 일부로부터 하나 이상의 뉴클레오티드 염기(또는 뉴클레오티드-염기 쌍)의 추론된 서열을 지칭한다. 특히, 뉴클레오티드 리드는 게놈 샘플에 대응하는 시퀀싱 라이브러리로부터 뉴클레오티드 단편(또는 모노클론 뉴클레오티드 단편의 그룹)에 대한 뉴클레오티드-염기 호출의 결정되거나 예측된 서열을 포함한다. 예를 들어, 염기-호출자-재교정 시스템은 형광 태깅을 통해 결정되거나 플로우 셀의 웰로부터 결정된 뉴클레오티드-샘플 슬라이드의 나노포어를 통과한 뉴클레오티드 염기에 대한 뉴클레오티드-염기 호출을 생성함으로써 뉴클레오티드 리드를 결정한다.
위에서 언급한 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템은 뉴클레오티드 리드의 뉴클레오티드-염기 호출에 대한 시퀀싱 메트릭을 결정한다. 본원에 사용되는 바와 같이, "시퀀싱 메트릭"이라는 용어는 참조 게놈의 게놈 좌표 또는 게놈 영역에 대해, 뉴클레오티드 리드로부터의 뉴클레오티드-염기 호출에 대해, 또는 외부 게놈 시퀀싱 또는 게놈 구조에 대해 개별 뉴클레오티드-염기 호출(또는 뉴클레오티드-염기 호출의 서열)이 정렬, 비교 또는 정량화되는 정도를 나타내는 정량적 측정치 또는 스코어를 지칭한다. 예를 들어, 시퀀싱 메트릭은 (i) 개별 뉴클레오티드-염기 호출이 참조 게놈의 게놈 좌표 또는 참조 염기를 정렬, 매핑 또는 커버하거나; (ii) 뉴클레오티드-염기 호출이 매핑, 불일치, 염기-호출 품질 또는 다른 미가공 시퀀싱 메트릭의 측면에서 참조 또는 대안 뉴클레오티드 리드와 비교하거나; (iii) 뉴클레오티드-염기 호출에 대응하는 게놈 좌표 또는 영역이 매핑 가능성, 반복적 염기-호출 컨텐츠, DNA 구조 또는 기타 일반화된 메트릭을 입증하는 정도를 나타내는 정량적 측정치 또는 스코어를 포함한다.
일부 실시예에서, 염기-호출자-재교정 시스템은 리드-기반 시퀀싱 메트릭, 외부에서 소싱되는 시퀀싱 메트릭 및 호출-모델-생성 시퀀싱 메트릭과 같은 다양한 소스로부터 다양한 유형의 시퀀싱 메트릭을 결정한다. 본원에 사용되는 바와 같이, "리드-기반 시퀀싱 메트릭"이라는 용어는 샘플 뉴클레오티드 서열의 뉴클레오티드 리드로부터 도출된 시퀀싱 메트릭을 지칭한다. 예를 들어, 리드-기반 시퀀싱 메트릭은 참조 서열과 뉴클레오티드 리드 사이의 차이를 검출하기 위해 통계 테스트를 적용하여 결정된 시퀀싱 메트릭을 포함한다. 예를 들어, 리드-기반 시퀀싱 메트릭은 매핑 품질 간의 비교를 나타내는 비교-매핑-품질-분포 메트릭 또는 불일치 카운트 간의 비교를 나타내는 비교-불일치-카운트 메트릭을 포함할 수 있다.
대조적으로, "외부에서 소싱된 시퀀싱 메트릭"은 하나 이상의 외부 데이터베이스로부터 식별되거나 획득된 시퀀싱 메트릭을 지칭한다. 예를 들어, 외부에서 소싱된 시퀀싱 메트릭은 염기-호출자-재교정 시스템 외부에서 이용할 수 있는 뉴클레오티드의 매핑 가능성, 복제 타이밍 또는 DNA 구조와 관련된 메트릭을 포함한다.
추가로, "호출-모델-생성 시퀀싱 메트릭"은 호출-생성 모델에 의해 생성되거나 추출된 내부의 모델-특정 시퀀싱 메트릭을 지칭한다. 예를 들어, 호출-모델-생성 시퀀싱 메트릭은 호출-생성 모델의 변이-호출자 구성 요소를 통해 추출되거나 결정된 변이-호출 시퀀싱 메트릭과 호출-생성 모델의 매핑-및-정렬 구성 요소를 통해 추출되거나 결정된 매핑-및-정렬 시퀀싱 메트릭을 포함한다. 위에 나타낸 바와 같이, 호출-모델-생성 시퀀싱 메트릭은 샘플 핵산 서열이 결실-크기 메트릭 또는 매핑-품질 메트릭과 같은 예시적인 핵산 서열의 게놈 좌표와 정렬되는 정도를 정량화하는 정렬 메트릭을 포함할 수 있다. 추가로, 호출-모델-생성 시퀀싱 메트릭은 정방향-역방향-깊이 메트릭 또는 정규화된-깊이 메트릭과 같이 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 뉴클레오티드 염기 호출의 깊이를 정량화하는 깊이 메트릭을 포함할 수 있다. 호출-모델-생성 시퀀싱 메트릭은 또한 뉴클레오티드-염기-호출-품질 메트릭, 호출 가능성 메트릭 또는 체세포(somatic)-품질 메트릭과 같은 뉴클레오티드 염기 호출의 품질 또는 정확도를 정량화하는 호출-품질 메트릭을 포함할 수 있다.
본원에 사용되는 바와 같이, "염기-호출-품질 메트릭"은 뉴클레오티드-염기 호출의 정확도를 나타내는 특정 스코어 또는 다른 측정치를 지칭한다. 특히, 염기-호출-품질 메트릭은 게놈 좌표에 대한 하나 이상의 예측된 뉴클레오티드-염기 호출이 오류를 포함할 가능성을 나타내는 값을 포함한다. 예를 들어, 특정 구현에서, 염기-호출-품질 메트릭은 임의의 주어진 뉴클레오티드-염기 호출의 오류 확률을 예측하는 Q 스코어(예를 들어, Phred 품질 스코어)를 포함할 수 있다. 예시하기 위해, 품질 스코어(또는 Q 스코어)는 게놈 좌표에서 부정확한 핵염기 호출의 확률이 Q20 스코어의 경우 100분의 1, Q30 스코어의 경우 1,000분의 1, Q40 스코어의 경우 10,000분의 1 등과 동일함을 나타낼 수 있다.
이와 관련하여, 본원에 사용되는 바와 같이, "리엔지니어링된 시퀀싱 메트릭"이라는 용어는 다른 뉴클레오티드-염기 호출, 표준 또는 참조에 대해, 또는 특정 목적 또는 작업에 대해 타깃화를 위해 뉴클레오티드-염기 호출(예를 들어, 리드에 대한 뉴클레오티드-염기 호출 또는 변이 호출)을 측정하거나 비교하기 위해 업데이트, 수정, 증대, 정제 또는 리엔지니어링된 시퀀싱 메트릭을 지칭한다. 예를 들어, 리엔지니어링된 시퀀싱 메트릭은 미가공 시퀀싱 메트릭에 대한 수정 또는 이의 조합을 포함할 수 있다. 일부 실시예에서, 예를 들어, 염기-호출자-재교정 시스템은 리드-기반 시퀀싱 메트릭, 외부적으로 소싱된 시퀀싱 메트릭 및/또는 호출-모델-생성 시퀀싱 메트릭 중 하나 이상을 리엔지니어링된 시퀀싱 메트릭으로서 생성한다. 일부 경우에, 리엔지니어링된 시퀀싱 메트릭은 염기-호출자-재교정 시스템에 의해 생성된 시퀀싱 메트릭을 지칭하므로 염기-호출자-재교정 시스템의 독점 또는 내부에 속하며 제3자 시스템에서는 이용할 수 없다. 예시적인 리엔지니어링된 시퀀싱 메트릭은 참조 서열과 연관된 매핑 품질 분포와 대안적인 지원 뉴클레오티드 리드 간의 비교를 나타내는 비교-매핑-품질-분포 메트릭 또는 참조 서열의 염기 품질과 대안적인 지원 뉴클레오티드 리드 간의 비교를 나타내는 비교-염기-품질 메트릭을 포함한다.
본원에서 추가로 사용되는 바와 같이, "게놈 좌표"라는 용어는 게놈(예를 들어, 유기체의 게놈 또는 참조 게놈) 내의 뉴클레오티드 염기의 특정 위치 또는 포지션을 지칭한다. 일부 경우에, 게놈 좌표는 게놈의 특정 염색체에 대한 식별자 및 특정 염색체 내의 뉴클레오티드 염기의 포지션에 대한 식별자를 포함한다. 예를 들어, 게놈 좌표 또는 좌표는 염색체에 대한 번호, 이름 또는 다른 식별자(예를 들어, chr1 또는 chrX)와 염색체에 대한 식별자 뒤에 오는 넘버링된 포지션과 같은 특정 포지션 또는 포지션들(예를 들어, chr1:1234570 또는 chr1:1234570-1234870)을 포함할 수 있다. 추가로, 특정 구현에서, 게놈 좌표는 참조 게놈의 소스(예를 들어, 미토콘드리아 DNA 참조 게놈의 경우 mt 또는 SARS-CoV-2 바이러스에 대한 참조 게놈의 경우 SARS-CoV-2) 및 참조 게놈에 대한 소스 내의 뉴클레오티드 염기의 위치(예를 들어, mt:16568 또는 SARS-CoV-2:29001)를 지칭한다. 대조적으로, 특정 경우에, 게놈 좌표는 염색체 또는 소스를 참조하지 않고 참조 게놈 내 뉴클레오티드 염기의 포지션을 지칭한다(예를 들어, 29727).
위에서 언급한 바와 같이, 게놈 좌표는 참조 게놈 내의 포지션을 포함한다. 이러한 포지션은 특정 참조 게놈 내에 있을 수 있다. 본원에서 사용되는 바와 같이, "참조 게놈"이라는 용어는 유기체의 유전자 및 기타 유전적 서열의 대표적인 예(또는 대표적인 예들)로서 조립된 디지털 핵산 서열을 지칭한다. 서열 길이에 관계없이, 일부 경우에, 참조 게놈은 특정 종의 유기체를 나타내는 것으로 과학자들이 결정한 시퀀싱된 디지털 핵산의 예시적인 유전자의 세트 또는 핵산 서열의 세트를 나타낸다. 예를 들어, 선형 인간 참조 게놈은 GRCh38 또는 Genome Reference Consortium으로부터의 참조 게놈의 다른 버전일 수 있다. 추가 예로서, 참조 게놈은 Illumina DRAGEN Graph Reference Genome hg19와 같이 앤시스트럴 하플로타입(ancestral haplotype)으로부터의 핵산 서열을 나타내는 경로와 선형 참조 게놈을 모두 포함하는 참조 그래프 게놈을 포함할 수 있다.
위에서 제안한 바와 같이, 염기-호출자-재교정 시스템은 기계 학습 모델을 이용하여 시퀀싱 메트릭을 수정하고 뉴클레오티드-염기 호출을 업데이트할 수 있다. 본원에서 사용되는 바와 같이, "기계 학습 모델"이라는 용어는 데이터 사용에 기초한 경험을 통해 특정 작업에 대해 자동으로 개선하는 컴퓨터 알고리즘 또는 컴퓨터 알고리즘의 집합을 지칭한다. 예를 들어, 기계 학습 모델은 하나 이상의 학습 기술을 이용하여 정확도 및/또는 효과성을 개선할 수 있다. 예시적인 기계 학습 모델은 다양한 유형의 결정 트리, 서포트 벡터 머신, 베이지안 네트워크 또는 신경망을 포함한다. 일부 경우에, 호출-재교정-기계-학습 모델은 일련의 그래디언트 부스팅된 결정 트리(예를 들어, XGBoost 알고리즘)인 반면, 다른 경우 호출-재교정-기계-학습 모델은 랜덤 포레스트 모델, 다층 퍼셉트론, 선형 회귀, 서포트 벡터 머신, 심층 테이블 학습 아키텍처, 딥 러닝 변환기(예를 들어, 셀프-어텐션(self-attention)-기반-테이블 변환기) 또는 로지스틱 회귀이다.
일부 경우에, 염기-호출자-재교정 시스템은 호출-재교정-기계-학습 모델을 이용하여 시퀀싱 메트릭에 기초하여 뉴클레오티드-염기 호출을 수정하거나 업데이트한다. 본원에서 사용되는 바와 같이, "호출-재교정-기계-학습 모델"이라는 용어는 변이-호출 분류를 생성하는 기계 학습 모델을 지칭한다. 예를 들어, 일부 경우에, 호출-재교정-기계-학습 모델은 서열 메트릭에 기초하여 변이 호출에 대한 다양한 확률이나 예측을 나타내는 변이-호출 분류를 생성하도록 훈련된다. 따라서, 일부 경우에, 호출-재교정-기계-학습 모델은 변이-호출-재교정-기계-학습 모델이다. 특정 실시예에서, 호출-재교정-기계-학습 모델은 복수의 서브-모델을 포함하거나 다른 호출-재교정-기계-학습 모델과 연계하여 동작한다. 예를 들어, 제1 호출-재교정-기계-학습 모델(예를 들어, 그래디언트 부스팅된 트리의 앙상블)은 변이-호출 분류의 제1 세트를 생성하고, 제2 호출-재교정-기계-학습 모델(예를 들어, 랜덤 포레스트)은 변이-호출 분류의 제2 세트를 생성한다.
이와 관련하여, "변이-호출 분류"라는 용어는 확률, 스코어 또는 하나 이상의 시퀀싱 메트릭에 기초하여 뉴클레오티드-염기 호출의 일부 양태와 연관된 다른 정량적 측정치를 나타내는 호출-재교정-기계-학습 모델로부터 예측된 분류를 지칭한다. 일부 경우에, 변이-호출 분류는 뉴클레오티드-염기 호출에 대한 유전자형이 정확할 예측된 확률을 포함한다. 예를 들어, 일부 실시예에서, 호출-재교정-기계-학습 모델은 i) 뉴클레오티드-염기 호출이 위양성일 확률을 나타내는 위양성 분류, ii) 유전자형(예를 들어, 특정 위치에서의 변이 호출에 대한 이형 접합성 또는 동형 접합성 유전자형의 표시)이 부정확할 확률을 나타내는 유전자형-오류 분류, 및/또는 iii) 뉴클레오티드-염기 호출이 진양성일 확률을 나타내는 진양성 분류와 같은 변이-호출 분류 중 하나 이상을 생성한다. 일부 경우에, 변이-호출 분류는 그에 따라 변이-호출자-중간-스코어링 메트릭을 나타낸다.
언급한 바와 같이, 일부 실시예에서, 호출-재교정-기계-학습 모델은 신경망일 수 있다. "신경망"이라는 용어는 입력에 기초하여 훈련 및/또는 튜닝되어 분류 또는 대략적인 알려지지 않은 기능을 결정할 수 있는 기계 학습 모델을 지칭한다. 예를 들어, 신경망은 신경망에 제공된 복수의 입력에 기초하여 복잡한 기능을 근사화하고 출력(예를 들어, 생성된 디지털 이미지)을 생성하도록 통신하고 학습하는 상호 연결된 인공 뉴런(예를 들어, 계층으로 구성)의 모델을 포함한다. 일부 경우에, 신경망은 데이터의 하이-레벨 추상화를 모델링하기 위해 딥 러닝 기술을 구현하는 알고리즘(또는 알고리즘의 세트)을 지칭한다. 예를 들어, 신경망은 콘볼루션 신경망, 순환 신경망(예를 들어, LSTM), 그래프 신경망, 셀프-어텐션 변환기 신경망 또는 생성적 적대 신경망을 포함할 수 있다.
위에서 언급한 바와 같이, 염기-호출자-재교정 시스템은 게놈 좌표에서 변이를 식별할 가능성을 나타내거나 반영하는 변이-호출 분류를 생성할 수 있다. 본원에 사용되는 바와 같이, "변이"라는 용어는 참조 서열 또는 참조 게놈의 대응하는 뉴클레오티드 염기(또는 뉴클레오티드 염기들)와 정렬되지 않거나, 상이하거나, 변화하는 뉴클레오티드 염기 또는 복수의 뉴클레오티드 염기를 지칭한다. 예를 들어, 변이는 SNP, 삽입 및 결실, 또는 참조 서열의 대응하는 게놈 좌표의 뉴클레오티드 염기와 상이한 샘플 뉴클레오티드 서열의 뉴클레오티드 염기를 나타내는 구조적 변이를 포함한다. 이러한 맥락에 따라, "변이-뉴클레오티드-염기 호출"은 특정 게놈 좌표에서 변이를 포함하는 뉴클레오티드-염기 호출을 지칭한다. 반대로, "비변이-뉴클레오티드-염기 호출"은 게놈 좌표에서 비변이를 포함하는 뉴클레오티드-염기 호출을 지칭한다.
언급한 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템은 변이 호출 파일에 대응하는 데이터 필드를 수정한다. 본원에 사용되는 바와 같이, "변이 호출 파일"이라는 용어는 뉴클레오티드-염기 호출(예를 들어, 변이 호출)에 관한 다른 정보와 함께 참조 게놈과 비교하여 하나 이상의 뉴클레오티드-염기 호출(예를 들어, 변이 호출)을 나타내거나 표현하는 디지털 파일을 지칭한다. 예를 들어, 변이 호출 포맷(VCF: variant call format) 파일은 메타-정보 라인, 헤더 라인, 각각의 데이터 라인이 단일 뉴클레오티드-염기 호출(예를 들어, 단일 변이)에 대한 정보를 포함하는 데이터 라인을 포함하여 특정 게놈 좌표에서의 변이에 대한 정보가 포함하는 텍스트 파일 포맷을 지칭한다. 아래에 추가로 설명되는 바와 같이, 염기-호출자-재교정 시스템은 염기-호출-품질 메트릭에 대한 품질 필터를 통과하거나 실패하는 변이-뉴클레오티드-염기 호출을 포함하는 사전-필터 변이 호출 파일 또는 품질 필터를 통과하지만 품질 필터에 실패한 변이-뉴클레오티드-염기 호출을 베제하는 변이-뉴클레오티드-염기 호출을 포함하는 사후-필터 변이 호출 파일을 포함하여 상이한 버전의 변이 호출 파일을 생성할 수 있다. 일부 실시예에서, 염기-호출자-재교정 시스템은 호출 품질, 유전자형 및 유전자형 품질에 대한 필드와 같이 변이 호출 파일과 연관된 뉴클레오티드-염기 호출의 메트릭에 대응하는 데이터 필드를 수정한다. 본원에 사용되는 바와 같이, 변이 호출 파일의 데이터 필드와 관련하여 사용될 때 "호출 품질"이라는 용어는 변이가 주어진 위치에 존재할 가능성 또는 확률의 척도 또는 표시를 지칭한다. 따라서, VCF 파일에 대응하는 호출 품질 필드(또는 QUAL 필드)는 샘플 게놈의 게놈 좌표가 변이를 포함할 확률을 나타내는 Phred-스케일링된 품질 또는 Q 스코어와 같은 염기-호출-품질 메트릭을 포함할 수 있다. 유사하게, 필드와 관련하여 사용되는 "유전자형 품질"은 뉴클레오티드-염기 호출에 대한 특정의 예측된 유전자형이 정확할 가능성 또는 확률을 지칭한다.
언급된 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템은 호출-생성 모델을 이용하여 게놈 좌표에 대한 뉴클레오티드-염기 호출을 생성한다. 본원에 사용되는 바와 같이, "호출-생성 모델"이라는 용어는 뉴클레오티드-염기 호출 및 관련 메트릭을 포함하여 샘플 뉴클레오티드 서열의 뉴클레오티드 리드로부터 시퀀싱 데이터를 생성하는 확률 모델을 지칭한다. 따라서, 일부 경우에, 호출-생성 모델은 변이-호출-생성 모델일 수 있다. 예를 들어, 일부 경우에, 호출-생성 모델은 샘플 뉴클레오티드 서열의 뉴클레오티드 리드에 기초하여 변이 호출을 생성하는 베이지안 확률 모델을 지칭한다. 이러한 모델은 매핑 품질, 염기 품질 및 외부 리드, 누락된 리드, 조인트 검출 등을 포함한 다양한 가설을 포함하여 리드 파일업(예를 들어, 단일 게놈 좌표에 대응하는 복수의 뉴클레오티드 리드)에 대응하는 시퀀싱 메트릭을 프로세싱하거나 분석할 수 있다. 호출-생성 모델은 마찬가지로 매핑 및 정렬, 소팅(sorting), 중복 마킹, 리드 파일업 깊이 컴퓨팅 및 변이 호출을 위한 상이한 소프트웨어 애플리케이션 또는 구성 요소에 한정되지 않지만 이를 포함하는 복수의 구성 요소를 포함할 수 있다. 일부 경우에, 호출-생성 모델은 변이 호출 기능과 매핑 및 정렬 기능에 대해 ILLUMINA DRAGEN 모델을 지칭한다.
위에서 언급한 바와 같이, 특정의 설명된 실시예에서, 염기-호출자-재교정 시스템은 개별 시퀀싱 메트릭과 연관된 기여 척도를 생성하거나 결정한다. 본원에 사용되는 바와 같이, "기여 척도"라는 용어는 염기-호출-출력 파일의 뉴클레오티드-염기 호출이 주어진 경우, 또는 (특히) 변이 호출이 주어진 경우, 시퀀싱 메트릭이 염기-호출-출력 파일(예를 들어, 변이 호출 파일)에 대한 필드의 주어진 재교정에 미치는 효과, 영향력 또는 영향의 척도를 지칭한다. 예를 들어, 기여 척도는 하나의 시퀀싱 메트릭이 상이한 뉴클레오티드-염기 호출을 통해 뉴클레오티드-염기 호출을 결정하는 데 (그리고 다른 시퀀싱 메트릭과 비교하여) 얼마나 많은 역할을 하는지를 나타낸다.
이하의 문단은 예시적인 실시예 및 구현을 나타내는 예시적인 도면과 관련하여 염기-호출자-재교정 시스템을 설명한다. 예를 들어, 도 1은 염기-호출자-재교정 시스템(106)이 하나 이상의 실시예에 따라 동작하는 시스템 환경(또는 "환경")(100)의 개략도를 예시한다. 예시된 바와 같이, 환경(100)은 네트워크(112)를 통해 클라이언트 디바이스(108) 및 시퀀싱 디바이스(114)에 연결된 하나 이상의 서버 디바이스(들)(102)를 포함한다. 도 1은 염기-호출자-재교정 시스템(106)의 실시예를 도시하며, 본 개시는 아래에서 대안적인 실시예 및 구성을 설명한다.
도 1에 도시된 바와 같이, 서버 디바이스(들)(102), 클라이언트 디바이스(108) 및 시퀀싱 디바이스(114)는 네트워크(112)를 통해 서로 통신할 수 있다. 네트워크(112)는 컴퓨팅 디바이스가 통신할 수 있는 임의의 적절한 네트워크를 포함한다. 예시적인 네트워크는 도 10과 관련하여 아래에서 추가로 상세히 논의된다.
도 1에 나타낸 바와 같이, 시퀀싱 디바이스(114)는 핵산 중합체를 시퀀싱하기 위한 디바이스를 포함한다. 일부 실시예에서, 시퀀싱 디바이스(114)는 샘플로부터 추출된 핵산 세그먼트 또는 올리고뉴클레오티드를 분석하여 시퀀싱 디바이스(114)에서 직접적으로 또는 간접적으로 컴퓨터 구현 방법 및 시스템(본원에 설명됨)을 이용하여 뉴클레오티드 리드 또는 다른 데이터를 생성한다. 보다 구체적으로, 시퀀싱 디바이스(114)는 뉴클레오티드-샘플 슬라이드(예를 들어, 플로우 셀) 내에서 샘플로부터 추출된 핵산 서열을 수용하고 분석한다. 하나 이상의 실시예에서, 시퀀싱 디바이스(114)는 SBS를 이용하여 핵산 중합체를 뉴클레오티드 리드로 시퀀싱한다. 네트워크(112)를 통한 통신에 추가적으로 또는 대안적으로, 일부 실시예에서, 시퀀싱 디바이스(114)는 네트워크(112)를 우회하여 클라이언트 디바이스(108)와 직접 통신한다.
도 1에 추가로 나타낸 바와 같이, 서버 디바이스(들)(102)는 뉴클레오티드-염기 호출을 결정하거나 핵산 중합체를 시퀀싱하기 위한 데이터와 같은 디지털 데이터를 생성, 수신, 분석, 저장 및 전송할 수 있다. 도 1에 도시된 바와 같이, 시퀀싱 디바이스(114)는 시퀀싱 디바이스(114)로부터의 호출 데이터를 송신할 수 있다(그리고 서버 디바이스(들)(102)는 수신할 수 있다). 서버 디바이스(들)(102)는 또한 클라이언트 디바이스(108)와 통신할 수 있다. 특히, 서버 디바이스(들)(102)는 변이-호출 파일 또는 뉴클레오티드-염기 호출을 나타내는 다른 정보, 시퀀싱 메트릭, 오류 데이터, 또는 호출 품질, 유전자형 및 유전자형 품질과 같은 뉴클레오티드-염기 호출과 연관된 다른 메트릭을 포함하는 데이터를 클라이언트 디바이스(108)로 송신할 수 있다.
일부 실시예에서, 서버 디바이스(들)(102)는 서버 디바이스(들)(102)가 네트워크(112)에 걸쳐 분산되고 동일하거나 상이한 물리적 위치에 위치하는 다수의 서버 디바이스를 포함하는 분산된 서버의 집합을 포함한다. 추가로, 서버 디바이스(들)(102)는 컨텐츠 서버, 애플리케이션 서버, 통신 서버, 웹-호스팅 서버 또는 다른 유형의 서버를 포함할 수 있다.
도 1에 추가로 도시된 바와 같이, 서버 디바이스(들)(102)는 시퀀싱 시스템(104)을 포함할 수 있다. 일반적으로, 시퀀싱 시스템(104)은 시퀀싱 디바이스(114)로부터 수신된 시퀀싱 메트릭과 같은 호출 데이터를 분석하여 핵산 중합체에 대한 뉴클레오티드 염기 서열을 결정한다. 예를 들어, 시퀀싱 시스템(104)은 시퀀싱 디바이스(114)로부터 미가공 데이터를 수신하고 핵산 세그먼트에 대한 뉴클레오티드 염기 서열을 결정할 수 있다. 일부 실시예에서, 시퀀싱 시스템(104)은 DNA 및/또는 RNA 세그먼트 또는 올리고뉴클레오티드의 뉴클레오티드 염기의 서열을 결정한다. 핵산 중합체에 대한 서열을 프로세싱하고 결정하는 것 외에, 시퀀싱 시스템(104)은 또한 하나 이상의 게놈 좌표에 대한 하나 이상의 뉴클레오티드-염기 호출을 나타내는 변이 호출 파일을 생성한다.
방금 언급한 바와 같이, 그리고 도 1에 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 샘플 핵산 서열에 대한 뉴클레오티드-염기 호출을 결정하기 위해 시퀀싱 디바이스(114)로부터의 시퀀싱 메트릭과 같은 호출 데이터를 분석한다. 염기-호출자-재교정 시스템(106)은 호출-생성 모델 및 호출-재교정-기계-학습 모델을 포함한다. 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 샘플 뉴클레오티드 서열에 대한 시퀀싱 메트릭을 결정한다. 시퀀싱 메트릭으로부터 도출되거나 준비된 데이터에 기초하여, 염기-호출자-재교정 시스템(106)은 호출-생성 모델을 훈련하고 적용하여 게놈 좌표에 대응하는 샘플 서열에 대한 뉴클레오티드-염기 호출을 결정한다. 염기-호출자-재교정 시스템(106)은 호출 재교정-기계-학습 모델을 추가로 이용하여 변이-호출 분류의 세트를 생성하여 위양성 확률, 유전자형-오류 확률 및/또는 진양성 확률과 같은 다양한 확률에 기초하여 뉴클레오티드-염기 호출을 업데이트하거나 수정한다. 예를 들어, 이러한 데이터에 기초하여, 염기-호출자-재교정 시스템(106)은 변이 호출 파일에 대응하는 데이터 필드를 업데이트하여 정확도 개선을 위해 뉴클레오티드-염기 호출을 업데이트할 수 있다.
도 1에 추가로 예시되고 나타낸 바와 같이, 클라이언트 디바이스(108)는 디지털 데이터를 생성, 저장, 수신 및 송신할 수 있다. 특히, 클라이언트 디바이스(108)는 시퀀싱 디바이스(114)로부터 시퀀싱 메트릭을 수신할 수 있다. 추가로, 클라이언트 디바이스(108)는 서버 디바이스(들)(102)와 통신하여 뉴클레오티드 염기 호출 및/또는 호출-품질, 유전자형 표시 및 유전자형 품질과 같은 다른 메트릭을 포함하는 변이 호출 파일을 수신할 수 있다. 따라서, 클라이언트 디바이스(108)는 클라이언트 디바이스(108)와 연관된 사용자에게 그래픽 사용자 인터페이스 내에서 뉴클레오티드-염기 호출에 관한 정보를 제시하거나 표시할 수 있다. 예를 들어, 클라이언트 디바이스(108)는 특정 뉴클레오티드-염기 호출과 관련하여 개별 시퀀싱 메트릭과 연관되거나 이에 기인하는 다양한 기역 척도의 시각화 또는 묘사를 포함하는 기여-척도 인터페이스를 제시할 수 있다.
도 1에 예시된 클라이언트 디바이스(108)는 다양한 유형의 클라이언트 디바이스를 포함할 수 있다. 예를 들어, 일부 실시예에서, 클라이언트 디바이스(108)는 데스크탑 컴퓨터 또는 서버 또는 다른 유형의 클라이언트 디바이스와 같은 비모바일 디바이스를 포함한다. 또 다른 실시예에서, 클라이언트 디바이스(108)는 랩탑, 태블릿, 모바일 전화 또는 스마트폰과 같은 모바일 디바이스를 포함한다. 클라이언트 디바이스(108)에 관한 추가적인 상세 사항은 도 10과 관련하여 아래에서 논의된다.
도 1에 추가로 예시된 바와 같이, 클라이언트 디바이스(108)는 시퀀싱 애플리케이션(110)을 포함한다. 시퀀싱 애플리케이션(110)은 클라이언트 디바이스(108)에 저장되고 실행되는 웹 애플리케이션 또는 네이티브 애플리케이션(예를 들어, 모바일 애플리케이션, 데스크탑 애플리케이션)일 수 있다. 시퀀싱 애플리케이션(110)은 (실행될 때) 클라이언트 디바이스(108)가 염기-호출자-재교정 시스템(106)으로부터 데이터를 수신하고 클라이언트 디바이스(108)에 표시하기 위해 변이 호출 파일로부터의 데이터를 제시하도록 하는 명령어를 포함할 수 있다. 추가로, 시퀀싱 애플리케이션(110)은 클라이언트 디바이스(108)에게 뉴클레오티드-염기 호출의 시퀀싱 메트릭에 대한 기여 척도의 시각화를 표시하도록 명령할 수 있다.
도 1에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 시퀀싱 애플리케이션(110)의 일부로서 클라이언트 디바이스(108) 상에 또는 시퀀싱 디바이스(114) 상에 위치할 수 있다. 따라서, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 클라이언트 디바이스(108) 상에 (예를 들어, 전체적으로 또는 부분적으로 위치됨) 구현된다. 또 다른 실시예에서, 염기-호출자-재교정 시스템(106)은 시퀀싱 디바이스(114)와 같은 환경(100)의 하나 이상의 다른 구성 요소에 의해 구현된다. 특히, 염기-호출자-재교정 시스템(106)은 서버 디바이스(들)(102), 네트워크(112), 클라이언트 디바이스(108) 및 시퀀싱 디바이스(114)에 걸쳐 다양한 상이한 방식으로 구현될 수 있다. 예를 들어, 염기-호출자-재교정 시스템(106)은 서버 디바이스(들)(102)로부터 클라이언트 디바이스(108) 및/또는 시퀀싱 디바이스(114)로 다운로드될 수 있으며, 여기서 염기-호출자-재교정 시스템(106)의 기능 중 전부 또는 일부는 환경(100) 내의 각각의 개별 디바이스에서 수행된다.
도 1에 추가로 예시되는 바와 같이, 환경(100)은 데이터베이스(116)를 포함한다. 데이터베이스(116)는 변이 호출 파일, 샘플 뉴클레오티드 서열, 뉴클레오티드 리드, 뉴클레오티드-염기 호출 및 시퀀싱 메트릭과 같은 정보를 저장할 수 있다. 일부 실시예에서, 서버 디바이스(들)(102), 클라이언트 디바이스(108) 및/또는 시퀀싱 디바이스(114)는 변이 호출 파일, 샘플 뉴클레오티드 서열, 뉴클레오티드 리드, 뉴클레오티드-염기 호출 및 시퀀싱 메트릭과 같은 정보를 저장 및/또는 접근하기 위해 (예를 들어, 네트워크(112)를 통해) 데이터베이스(116)와 통신한다. 일부 경우에, 데이터베이스(116)는 또한 호출-재교정-기계-학습 모델 및/또는 호출-생성 모델과 같은 하나 이상의 모델을 저장한다.
도 1은 네트워크(112)를 통해 통신하는 환경(100)의 구성 요소를 예시하지만, 특정 구현에서, 환경(100)의 구성 요소는 또한 네트워크를 우회하여 서로 직접 통신할 수 있다. 예를 들어, 앞서 언급한 바와 같이, 일부 구현에서, 클라이언트 디바이스(108)는 시퀀싱 디바이스(114)와 직접 통신한다. 추가적으로, 일부 실시예에서, 클라이언트 디바이스(108)는 염기-호출자-재교정 시스템(106)과 직접 통신한다. 또한, 염기-호출자 재교정 시스템(106)은 서버 디바이스(들)(102) 또는 환경(100)의 다른 곳에 하우징되거나 이에 의해 접근되는 하나 이상의 데이터베이스에 접근할 수 있다.
위에 나타낸 바와 같이, 염기-호출자-재교정 시스템(106)은 하나 이상의 변이-호출 분류에 기초하여 뉴클레오티드-염기 호출을 결정할 수 있다. 특히, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 시퀀싱 메트릭으로부터 변이-호출 분류를 결정할 수 있고, 생성된 변이-호출 분류로부터 뉴클레오티드-염기 호출과 연관된 다양한 메트릭을 결정하거나 업데이트할 수 있다. 도 2는 하나 이상의 실시예에 따라 변이-호출 분류에 기초하여 뉴클레오티드-염기 호출을 결정하기 위해 염기-호출자-재교정 시스템(106)이 수행하는 동작의 예시적인 시퀀스를 예시한다.
도 2에 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 시퀀싱 메트릭을 결정하기 위해 동작 202를 수행한다. 특히, 염기-호출자-재교정 시스템(106)은 리드-기반 시퀀싱 메트릭, 외부적으로 소싱된 시퀀싱 메트릭, 호출-모델-생성 시퀀싱 메트릭과 같은 시퀀싱 메트릭을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 샘플 뉴클레오티드 서열로부터의 뉴클레오티드 리드의 다양한 뉴클레오티드-염기 호출과 관련된 다양한 속성 또는 데이터를 나타내는 시퀀싱 메트릭을 결정한다. 다양한 유형의 시퀀싱 메트릭을 결정하는 것에 관한 추가적인 상세 사항은 도 3a 내지 도 3c를 참조하여 아래에 제공된다.
도 2에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 변이-호출 분류를 생성하기 위해 동작 204를 수행한다. 보다 구체적으로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 시퀀싱 메트릭으로부터 변이-호출 분류를 생성(또는 업데이트 또는 정제)한다. 상세히 설명하면, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 하나 이상의 시퀀싱 메트릭을 프로세싱 또는 분석하고 분류들의 세트(예를 들어, 유전자형과 연관된 예측된 확률)를 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 시퀀싱 메트릭에 기초하여 대응하는 뉴클레오티드-염기 호출의 유전형과 연관된 특정 확률을 나타내는 변이-호출 분류의 세트를 생성한다.
일부 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(도 2에서 "FP"로 나타냄)을 이용하여 위양성 분류를 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출(예를 들어, 유전자형 호출)이 위양성 변이이거나 뉴클레오티드-염기 호출이 참조 뉴클레오티드 서열과 관련하여 샘플 뉴클레오티드 서열 내에 실제로 변이가 존재하지 않는 변이를 나타낼 확률을 나타내는 위양성 분류를 생성한다. 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델에 의해 함께 고려되는 하나 이상의 시퀀싱 메트릭으로부터 위양성 분류를 생성한다.
특정 구현에서, 염기-호출자-재교정 시스템(106)은 또한(또는 대안적으로) 유전자형-오류 분류(도 2에서 "유전자형 오류"로 표시됨)를 생성한다. 보다 구체적으로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 뉴클레오티드-염기 호출과 연관된 유전자형이 부정확할 확률을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출에 대해 het/hom 오류가 존재할 확률을 결정하며, 여기서 뉴클레오티드-염기 호출은 게놈 좌표 또는 샘플 게놈 내의 영역에서 뉴클레오티드 염기에 대한 이형 접합성 유전자형을 나타낼 수 있으며, 여기서 샘플 게놈의 뉴클레오티드 염기(들)는 실제로 대응하는 게놈 좌표 또는 영역에서 동형 접합성이다. 반대로, 염기-호출자-재교정 시스템(106)은 대응하는 뉴클레오티드 염기(들)가 이형 접합성일 때 뉴클레오티드-염기 호출에 대한 유전자형이 동형 접합성이라고 결정할 확률을 결정한다.
하나 이상의 실시예에서, 염기-호출자-재교정 시스템(106)은 또한(또는 대안적으로) 진양성 분류(도 2에서 "TP"로 표시)를 생성한다. 특히, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 뉴클레오티드-염기 호출(예를 들어, 유전자형 호출)이 진양성 변이이거나 뉴클레오티드-염기 호출이 샘플 뉴클레오티드 서열 내의 실제 변이를 나타낼 확률을 결정하며, 여기서 변이는 대응하는 게놈 좌표에서 참조 뉴클레오티드 서열에 실제로 존재한다. 변이-호출 분류 생성에 관한 추가적인 상세 사항은 후속 도면을 참조하여 아래에 제공된다.
도 2에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 또한 변이-호출 분류에 기초하여 뉴클레오티드-염기 호출을 결정하기 위해 동작 206을 수행한다. 보다 구체적으로, 염기-호출자-재교정 시스템(106)은 참조 게놈 내의 게놈 좌표에서 샘플 뉴클레오티드 서열에 대한 뉴클레오티드-염기 호출을 결정한다. 뉴클레오티드-염기 호출을 결정하거나 생성하기 위해, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-생성 모델을 이용하여 초기 뉴클레오티드-염기 호출을 결정하고 호출-재교정-기계-학습 모델에 의해 생성된 변이-호출 분류에 기초하여 특정의 초기 뉴클레오티드-염기 호출을 편집하거나 업데이트한다.
상세히 설명하면, 염기-호출자-재교정 시스템(106)은 호출-생성 모델을 이용하여 시퀀싱 메트릭(예를 들어, 동작 204에서 변이-호출 분류를 생성하는 데 사용된 동일한 시퀀싱 메트릭 중 하나 이상)을 프로세싱하거나 분석하여 시퀀싱 메트릭에서 뉴클레오티드-염기 호출을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 다수의 베이지안 확률 모델 또는 알고리즘을 적용하여 상이한 뉴클레오티드 염기, 품질 메트릭, 매핑 메트릭, 조인트 메트릭 및 변이 호출 파일 내에 포함되는 샘플 뉴클레오티드 서열 내에서 발생하는 다른 데이터에 대한 다양한 확률을 도출한다. 확률 모델로부터, 염기-호출자-재교정 시스템(106)은 대응하는 게놈 좌표에서 샘플 게놈에 대한 예측된 뉴클레오티드 염기를 나타내는 최종 뉴클레오티드-염기 호출(예를 들어, 참조 게놈과 참조 염기와의 차이 또는 동일성을 나타내는 호출)을 결정한다.
도 2에 추가로 예시된 바와 같이, 특정 구현에서, 염기-호출자-재교정 시스템(106)은 (예를 들어, 동작 204를 통해 결정된) 초기 변이-호출 분류를 이용하여 뉴클레오티드-염기 호출을 생성, 재교정, 결정, 수정 또는 증대시킨다. 상세히 설명하면, 염기-호출자-재교정 시스템(106)은 3개의 변이-호출 분류와 연관된 확률을 이용하여 뉴클레오티드-염기 호출과 연관된 특정 메트릭을 결정하거나 업데이트한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 호출 품질, 유전자형 및 유전자형 품질과 같은 메트릭에 대한 변이 호출 파일에 대응하는 데이터 필드를 수정한다.
일부 경우에, 염기-호출자-재교정 시스템(106)은 호출 품질, 유전자형 및 뉴클레오티드-염기 호출과 연관된 유전자형 품질과 같은 변이 호출 파일에 대응하는 메트릭을 결정하기 위해 변이-호출 분류로부터 외삽한다. 실제로, 유전자형-오류 분류를 이용하여, 염기-호출자-재교정 시스템(106)은 초기 뉴클레오티드-염기 호출에서 또는 이와 연관된 특정 오류를 치유할 수 있다. 예를 들어, 염기-호출자-재교정 시스템(106)이 뉴클레오티드-염기 호출에 대해 높은 위양성 확률을 결정한다면, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 적용하여 변이 필터로서 기능하여 뉴클레오티드-염기 호출과 연관된 호출 품질을 수정(예를 들어, 감소)한다. 다른 예로서, 염기-호출자-재교정 시스템(106)은 시스템이 이전에 het/hom 오류를 필터링 아웃하거나 이중으로 페널티를 준 경우에 뉴클레오티드-염기 호출의 유전자형 및/또는 유전자형 품질을 수정하기 위해 유전자형-오류 확률을 이용한다(예를 들어, 시스템이 부정확한 뉴클레오티드-염기 호출을 생성하는 경우이며, 이는 정확한 뉴클레오티드-염기 호출의 누락을 초래함).
특정 실시예에서, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출에 대한 데이터 필드(예를 들어 호출 품질, 유전자형 또는 유전자형 품질)를 수정하기 위해 단일 변이-호출 분류를 고려한다. 다른 실시예에서, 염기-호출자-재교정 시스템(106)은 호출 품질, 유전자형 및/또는 유전자형 품질에 대한 하나 이상의 데이터 필드를 수정하거나 업데이트하기 위해 한 번에(예를 들어, 가중 조합으로) 복수의 변이-호출 분류를 고려한다. 뉴클레오티드-염기 호출 생성 및 수정에 관한 추가적인 상세 사항은 후속 도면을 참조하여 아래에 제공된다.
하나 이상의 구현에서, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출을 결정하는 프로세스 동안 또는 프로세스 중에 변이-호출 분류를 (예를 들어, 동작 204를 통해) 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델과 호출-생성 모델을 동시에 구현하여 뉴클레오티드-염기 호출을 수정하기 위한 뉴클레오티드-염기 호출 및 변이-호출 분류를 생성한다. 염기-호출자-재교정 시스템(106)은 (예를 들어, 사전-필터 또는 사후-필터 변이 호출 파일 내에서) 최종화된 뉴클레오티드-염기 호출을 생성하기 위해 뉴클레오티드-염기 호출의 변이 호출 파일에 해당하는 데이터 필드를 추가로 수정한다. 실제로, 염기-호출자-재교정 시스템(106)은 변이 호출 분류로부터 최종화된(예를 들어, 재교정된) 뉴클레오티드-염기 호출뿐만 아니라 호출-생성 모델에 의해 프로세싱된 시퀀싱 메트릭(예를 들어, 변이-호출 분류를 생성하는 데 사용된 하나 이상의 동일한 시퀀싱 메트릭)도 생성한다. 상술한 바와 같이, 이러한 동시 또는 병렬 동작은 (하나의 동작을 다른 동작 전에 수행하는 대신) 처음 생성될 때 뉴클레오티드-염기 호출을 재교정함으로써 염기-호출자-재교정 시스템(106)에 개선된 계산 효율성과 속도 증가를 제공한다.
하나 이상의 구현에서, 염기-호출자-재교정 시스템(106)은 SNP, 결실, 삽입 또는 구조적 변이의 일부로서 뉴클레오티드-염기 호출을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 참조 서열에 A가 존재하는 샘플 뉴클레오티드 서열에서 G를 식별함으로써 게놈 좌표(예를 들어, chr1:151863125)에서 SNP를 나타내는 뉴클레오티드-염기 호출을 결정한다. 다른 예로서, 염기-호출자-재교정 시스템(106)은 참조 서열에 GTAAC가 존재하는 샘플 뉴클레오티드 서열에서 단일 G를 식별함으로써 결실을 나타내는 하나 이상의 게놈 좌표(예를 들어, chr1:49263256)를 둘러싸는 뉴클레오티드-염기 호출을 결정한다.
추가 예로서, 염기-호출자-재교정 시스템(106)은 참조 서열에 T가 존재하는 샘플 뉴클레오티드 서열에서 TTTCC의 서열을 식별함으로써 게놈 좌표(예를 들어, chr1:7602080)에서의 삽입을 나타내는 뉴클레오티드-염기 호출의 서열을 결정한다. 실제로, 일부 경우에, 삽입은 참조 서열의 게놈 좌표에서 단일 참조 염기를 대체하는 뉴클레오티드-염기 호출의 서열을 포함한다.
위에서 언급한 바와 같이, 특정의 설명된 실시예에서, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출에 대한 시퀀싱 메트릭을 결정하거나 추출한다. 특히, 염기-호출자-재교정 시스템(106)은 샘플 뉴클레오티드 서열로부터의 뉴클레오티드 리드에 대응하는 호출로부터 리드-기반 시퀀싱 메트릭, 외부적으로 소싱된 시퀀싱 메트릭 및 호출-모델-생성 시퀀싱 메트릭과 같은 시퀀싱 메트릭을 결정한다. 도 3a 내지 도 3c는 하나 이상의 실시예에 따라 시퀀싱 메트릭을 결정하는 것을 예시한다. 구체적으로, 도 3a는 리드-기반 시퀀싱 메트릭을 결정하는 것을 예시하며, 도 3b는 호출-모델-생성 시퀀싱 메트릭을 결정하는 것을 예시하고, 도 3c는 외부적으로 소싱되는 시퀀싱 메트릭을 결정하는 것을 예시한다.
도 3a에 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 뉴클레오티드 리드(302)에 접근, 검색, 획득, 결정 또는 생성한다. 특히, 염기-호출자-재교정 시스템(106)은 샘플 뉴클레오티드 서열(예를 들어, 샘플 게놈)로부터의 영역에 대한 뉴클레오티드-염기 호출을 포함하는 시퀀싱 디바이스(114)를 이용하여 뉴클레오티드 리드(302)를 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 플로우 셀의 웰로부터 및/또는 형광 태깅을 통해 올리고뉴클레오티드 클러스터에 대한 뉴클레오티드-염기 호출을 결정하기 위해 합성에 의한 시퀀싱(SBS: sequencing-by-synthesis) 기술 및/또는 Sanger 시퀀싱 기술을 이용하여 뉴클레오티드 리드(302)를 생성한다. 보다 구체적으로, 염기-호출자-재교정 시스템(106)은 클러스터 생성 및 SBS 케미스트리(chemistry)를 이용하여 플로우 셀에서 수백만 또는 수십억 개의 클러스터를 시퀀싱한다. SBS 케미스트리 동안, 각각의 클러스터에 대해, 염기-호출자-재교정 시스템(106)은 실시간 분석(RTA: real-time analysis) 소프트웨어를 통해 시퀀싱의 모든 사이클에 대해 뉴클레오티드 리드(302)로부터의 뉴클레오티드-염기 호출을 저장한다.
도 3a에 추가로 예시된 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 리드 프로세싱 및 매핑(304)을 수행한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 RTA 소프트웨어를 이용하여 염기-호출 데이터를 개별 염기-호출 데이터 파일(또는 BCL)의 형태로 저장한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 도 3b에 예시된 바와 같이, (예를 들어, BCL에서 FASTQ로의 변환을 통해) BCL 파일을 서열 데이터(308)로 추가로 변환한다. 도 3a에 도시된 바와 같이, 염기-호출자-재교정 시스템(106)은 복수의 뉴클레오티드 리드(302) 또는 단일 게놈 좌표에 대응하는 뉴클레오티드-염기 호출을 포함하는 다중-리드 커버리지(예를 들어, 리드 파일업(pileup))를 생성한다.
특히, 특정 실시예에서, 염기-호출자-재교정 시스템(106)은 뉴클레오티드 리드를 참조 게놈과 정렬하거나 리드 정렬에 관한 정보를 수신한다. 구체적으로, 염기-호출자-재교정 시스템(106)은 주어진 리드의 어느 뉴클레오티드 염기(들)가 참조 서열의 어느 게놈 좌표와 정렬되는지를 결정한다(또는 정렬을 나타내는 정보를 수신). 상이한 리드는 상이한 길이를 가지며 상이한 뉴클레오티드 염기를 포함한다. 따라서, 일부 경우에, 염기-호출자-재교정 시스템(106)은 각각의 리드의 각각의 뉴클레오티드를 분석하여 리드가 참조 서열과 관련하여 "맞는" 한 위치, 예를 들어, 리드 내 염기가 참조의 염기와 정렬되는 위치를 결정한다(또는 이를 나타내는 정보를 수신). 일부 경우에, 염기-호출자-재교정 시스템(106)은 단일 게놈 좌표에서 많은 리드를 정렬하여, 판독 파일업을 초래한다.
특정 실시예에서, 염기-호출자-재교정 시스템(106)은 참조 뉴클레오티드 서열과 연관된 메트릭과 대안적인 지원 뉴클레오티드 리드와 연관된 메트릭 사이의 차이를 결정하거나 검출하기 위해 추가적인 통계 테스트를 수행한다. 이러한 통계 테스트를 통해, 염기-호출자-재교정 시스템(106)은 리드-기반 시퀀싱 메트릭(306)을 결정하기 위해 미가공 시퀀싱 메트릭을 리엔지니어링한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 (i) 예시적인 뉴클레오티드 서열(예를 들어, 참조 게놈 또는 앤시스트럴 하플로타입의 뉴클레오티드 서열)의 게놈 좌표와 샘플 뉴클레오티드 서열의 정렬을 정량화하기 위한 정렬 메트릭, (ii) 예시적인 뉴클레오티드 서열의 게놈 좌표에 있는 샘플 뉴클레오티드 서열에 대한 핵염기 호출의 깊이를 정량화하기 위한 깊이 메트릭, 또는 (iii) 예시적인 뉴클레오티드 서열의 게놈 좌표에 있는 샘플 뉴클레오티드 서열에 대한 핵염기 호출의 품질을 정량화하기 위한 호출-품질 메트릭 중 하나 이상을 포함하는 미가공 시퀀싱 메트릭을 결정하거나 추출한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 매핑-품질 메트릭(예를 들어, 도 3a에 나타낸 MAPQ 메트릭), 소프트-클리핑 메트릭, 또는 참조 게놈과 샘플 서열의 정렬을 측정하는 다른 정렬 메트릭을 결정한다. 다른 예로서, 염기-호출자-재교정 시스템(106)은 순방향-역방향 깊이 메트릭(또는 다른 이러한 깊이 메트릭) 또는 변이-핵염기 호출에 대한 호출 가능성 메트릭(또는 다른 이러한 호출-품질 메트릭)을 결정한다.
방금 언급한 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 미가공 시퀀싱 메트릭을 리엔지니어링하여 참조 뉴클레오티드 서열과 연관된 메트릭을 다양한 지원 대체 뉴클레오티드 리드와 연관된 메트릭과 비교하는 데 더 정보가 많은 리드-기반 시퀀싱 메트릭(306)을 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 참조 서열과 관련하여 샘플 서열에 대한 다양한 메트릭을 결정하고 대체 지원 서열과 관련하여 샘플 서열에 대한 다양한 메트릭을 추가로 결정한다. 또한, 염기-호출자-재교정 시스템(106)은 참조 서열과 연관된 메트릭과 대체 지원 리드와 연관된 메트릭 간의 비교 분석을 수행한다.
예를 들어, 염기-호출자-재교정 시스템(106)은 샘플 뉴클레오티드 서열(예를 들어, 샘플 게놈)의 뉴클레오티드 염기가 참조 서열에 매핑되는 방식과 뉴클레오티드 염기가 다양한 대체 지원 리드에 매핑되는 방식을 비교한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 대체 지원 리드와 연관된 매핑 품질과 비교하기 위해 참조 서열과 연관된 매핑 품질을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 참조 서열을 지원하는 리드 대 대체 대립 유전자를 지원하는 리드의 분포 차이를 반영하는 매핑 품질 통계를 결정한다.
이러한 경우 또는 다른 경우에, 염기-호출자-재교정 시스템(106)은 샘플 서열과 참조 서열 사이, 그리고 참조 서열과 대체 지원 리드 사이의 불일치 카운트를 결정한다. 염기-호출자-재교정 시스템(106)은 비교-불일치-카운트 메트릭을 결정하기 위해 불일치 카운트를 추가로 비교한다. 추가로, 염기-호출자-재교정 시스템(106)은 참조 서열과 관련하여 샘플 서열에 대한 소프트-클리핑 메트릭을 결정하고 대체 지원 리드와 관련하여 소프트-클리핑 메트릭을 추가로 결정한다. 염기-호출자-재교정 시스템(106)은 또한 참조 서열과 대체 지원 리드 간의 소프트 클리핑 메트릭을 비교하여 비교-소프트-클리핑 메트릭을 생성한다. 추가로, 염기-호출자-재교정 시스템(106)은 참조 서열 및 대체 지원 리드와 관련하여 염기-호출-품질 메트릭을 비교하고/비교하거나 참조 서열과 관련하여 샘플 서열의 질의 포지션을 대체 지원 리드와 관련한 것과 비교한다.
도 3a에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 비교 및/또는 다른 통계 테스트를 이용하여 i) 참조 서열과 관련된 매핑 품질과 대체 지원 리드와 관련된 매핑 품질을 비교하는 매핑 품질 분포를 나타내는 비교-매핑-품질-분포 메트릭, ii) 참조 서열의 염기와 관련된 2차 매핑과 대체 지원 리드의 염기 사이의 비교를 나타내는 비교-2차-매핑-정렬 메트릭, iii) 참조 서열과 관련된 미스매칭된 뉴클레오티드 염기와 대체 지원 리드와 관련된 미스매칭된 염기 사이의 비교를 나타내는 비교-불일치-카운트 메트릭, iv) 참조 서열과 관련된 소프트-클리핑 메트릭과 대체 지원 리드와 관련된 소프트-클리핑 메트릭 사이의 비교를 나타내는 비교-소프트-클리핑 메트릭, v) 뉴클레오티드 리드(302)의 리드 깊이와 하나 이상의 평균 리드 깊이(예를 들어, 특정 게놈 좌표에서의 로컬 평균 리드 깊이 및 영역의 다수의 게놈 좌표에 걸친 글로벌 평균 리드 깊이) 사이의 비교를 나타내는 하나 이상의 비교-리드-깊이 메트릭, vi) (예를 들어, 뉴클레오티드 리드(302)의 전체 염기 품질, 초기 염기 품질 및 후기 염기 품질에 대해) 참조 서열과 관련된 염기 품질과 대체 지원 리드와 관련된 염기 품질 사이의 비교를 나타내는 하나 이상의 비교-염기염기-품질 메트릭 판독, vii) 참조 서열과 관련된 질의 포지션과 대체 지원 리드와 관련된 질의 포지션 사이의 비교를 나타내는 비교-질의-포지션 메트릭, viii) 뉴클레오티드-염기 호출의 주기성과 동종 중합체(homopolymer)를 나타내는 하나 이상의 컨텍스트-정보 메트릭, ix) 하나 이상의 뉴클레오티드 리드(302)와 연관된 스트랜드 바이어스(strand bias)를 나타내는 스트랜드-바이어스 메트릭, 및 x) 뉴클레오티드 리드(302)와 연관된 리드 방향 바이어스를 나타내는 리드-방향-바이어스 메트릭을 포함하는 리드-기반 시퀀싱 메트릭(306)을 생성한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 리드-기반 시퀀싱 메트릭(306)의 일부로서 추가적인 또는 대안적인 리드-기반 시퀀싱 메트릭을 생성하거나 리엔지니어링한다.
도 3b에 예시된 바와 같이, 리드-기반 시퀀싱 메트릭(306)에 추가하여, 염기-호출자-재교정 시스템(106)은 호출-모델-생성 시퀀싱 메트릭(312)을 생성한다. 특히, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(310)을 이용하여 서열 데이터(308)로부터 호출-모델-생성 시퀀싱 메트릭을 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 도 3a와 관련하여 설명된 리드 프로세싱 및 매핑(304)에 기초하여 서열 데이터(308)를 추출하거나 결정한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 BCL 및 FASTQ 파일과 같은 하나 이상의 디지털 파일의 일부로서 서열 데이터(308)를 생성한다.
이러한 파일을 생성하기 위해, 일부 실시예에서 시퀀싱 디바이스(114)(또는 염기-호출자-재교정 시스템(106))는 클러스터 생성 및 SBS 케미스트리를 이용하여 플로우 셀에서 수백만 또는 수십억 개의 클러스터를 시퀀싱한다. SBS 케미스트리 동안, 각각의 클러스터에 대해, 시퀀싱 디바이스(114)(또는 염기-호출자-재교정 시스템(106))는 실시간 분석(RTA) 소프트웨어를 통해 시퀀싱의 모든 사이클에 대해 뉴클레오티드 리드(302)로부터의 뉴클레오티드-염기 호출을 저장한다. 시퀀싱 디바이스(114)(또는 염기-호출자-재교정 시스템(106))는 RTA 소프트웨어를 이용하여 개별 염기-호출 데이터 파일(또는 BCL)의 형태로 염기-호출 데이터를 추가로 저장한다. 일부 경우에, 시퀀싱 디바이스(114)(또는 염기-호출자-재교정 시스템(106))는 (예를 들어, BCL에서 FASTQ로의 변환을 통해) BCL 파일을 서열 데이터(308)로 추가로 변환한다. 예를 들어, 시퀀싱 디바이스(114)(또는 염기-호출자-재교정 시스템(106))은 뉴클레오티드 리드(302)로부터 FASTQ 파일을 생성하며, 여기서 FASTQ 파일은 서열 데이터(308)를 포함한다.
일부 경우에, 염기-호출자-재교정 시스템(106)은 샘플 서열로부터 초기 품질 필터를 통과하는 각각의 클러스터에 대한 서열 데이터(308)를 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 각각의 클러스터에 대한 엔트리를 생성하며, 여기서 각각의 엔트리는 4개의 라인(또는 4개의 서열 데이터의 엔트리)을 포함한다: i) 시퀀싱 실행 및 클러스터에 대한 정보를 갖는 서열 식별자, ii) 서열(예를 들어, A, C, T, G 및/또는 N 호출들의 서열)을 구성하는 뉴클레오티드-염기 호출, iii) 구분자(예를 들어, "+" 부호) 및 iv) 뉴클레오티드-염기 호출(Phred +33 인코딩)의 정확성 확률을 나타내는 염기-호출-품질 메트릭.
도 3b에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 서열 데이터(308)를 프로세싱하거나 분석하기 위해 호출-생성 모델(310)을 구현, 이용 또는 적용한다. 실제로, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(310)을 이용하여 호출-모델-생성 시퀀싱 메트릭(312)을 생성하여 미가공 시퀀싱 메트릭(예를 들어, 서열 데이터(308) 내의 미가공 시퀀싱 메트릭)을 리엔지니어링한다. 특히, 호출-생성 모델(310)은 서열 데이터(308)로부터 뉴클레오티드-염기 호출을 매핑하고 정렬하기 위한 매핑-및-정렬 구성 요소를 포함한다. 또한, 호출-생성 모델(310)은 서열 데이터(308)로부터 뉴클레오티드-염기 호출(예를 들어, 변이 호출 또는 비변이 호출과 같은 참조-염기 호출)을 생성하기 위한 변이-호출 구성 요소를 포함한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(310)의 매핑-및-정렬 구성 요소와 변이-호출 구성 요소를 이용하여 생성된 호출-모델-생성 시퀀싱 메트릭(312)을 추출한다.
호출-모델-생성 시퀀싱 메트릭(312)의 예를 예시하기 위해, 일부 경우에, 염기-호출자-재교정 시스템(106)은 i) 호출-생성 모델(310)을 통해 생성된 뉴클레오티드-염기 호출에 대한 품질 스코어를 나타내는 염기-호출-품질 메트릭(예를 들어, DRAGEN QUAL 스코어), ii) 파일업의 하나 이상의 뉴클레오티드 리드(302)가 외부 리드일 수 있는 확률(예를 들어, 실제 위치는 참조 서열의 다른 위치에 있음)을 나타내는 호출-모델-생성-외부-리드-검출 메트릭(예를 들어, 외부 리드 검출(FRD: foreign read detection) 스코어), iii) 스트랜드 바이어스, 스레드(thread)의 오류 포지션, 또는 뉴클레오티드 리드(302)의 서브세트에 대한 낮은 평균(mean) 염기 품질 중 하나 이상에 기초하여 염기 품질 드롭오프(dropoff)의 확률을 나타내는 호출-모델-생성-염기-품질-드롭오프 메트릭(예를 들어, 염기 품질 드롭오프(BQD: base quality dropoff) 스코어), iv) 평균 리드 깊이, v) 삽입 및 결실 통계(예를 들어, 중합 효소 연쇄 반응 또는 "PCR(polymerase chain reaction)" 곡선) 및/또는 vi) 은닉 마르코프 모델(HMM: hidden Markov model) 통계, vii) 2차 뉴클레오티드-염기 호출이 정확할 확률을 나타내는 2차-정렬 메트릭, viii) 뉴클레오티드-염기 호출 주변의 뉴클레오티드에 대한 컨텍스트 정보를 나타내는 염기-컨텍스트 메트릭, iv) 뉴클레오티드-염기 호출 근접(예를 들어, 이로부터 분리의 임계 정도에 인접한 또는 그 이내)을 나타내는 근접-호출 메트릭, x) 2개 이상의 중첩 뉴클레오티드-염기 호출에 대응하는 조인트를 검출할 확률을 나타내는 조인트-검출 메트릭, xii) 낮은 매핑 품질, 염기 품질을 갖는 뉴클레오티드-염기 호출을 필터링 아웃하기 위한 임계값 품질 메트릭 또는 다른 메트릭을 나타내는 리드-필터링 메트릭 또는 다른 품질 메트릭 등 중 하나 이상을 포함하는 변이-호출 메트릭을 생성한다. 염기-호출자-재교정 시스템(106)은 상호 작용하는 프로세싱 경로, 코너 케이스 및 어려운 예측/결정을 반영하는 내부(예를 들어, 독점 및 모델-특정) 변수로부터 호출-모델-생성 시퀀싱 메트릭(312)을 생성한다.
위에 나타낸 바와 같이, 일부 경우에, 염기-호출자-재교정 시스템(106)은 그 전체가 본원에 참조로 통합되는 Eric Jon Ojard의 변이 호출에 대한 상관된 오류 이벤트 완화를 위한 시스템 및 방법(System and Method for Correlated Error Event Mitigation for Variant Calling)이라는 명칭의 미국 특허 출원 16/280,022호에 설명된 방법에 따라 FRD 스코어를 결정한다. 특정 구현에서, 염기-호출자-재교정 시스템(106)은 또한(또는 대안적으로) 본원에 참조로 그 전체가 통합되는 미국 특허 출원 17/165,828호, 15/643,381호 및 14/811,836호에 설명된 방법에 따라 BQD 스코어, FRD 스코어, HMM 통계 및/또는 다른 변이-호출 메트릭을 결정한다.
도 3b에 예시된 바와 같이, 호출-모델-생성 시퀀싱 메트릭(312)은 호출-생성 모델(310)의 변이-호출 구성 요소를 통해 추출된 변이-호출 메트릭을 포함하지만 이에 한정되지는 않는다. 상술한 호출-모델-생성 시퀀싱 메트릭(312)의 예에 추가하여 또는 이에 대안적으로, 일부 경우에, 염기-호출자-재교정 시스템(106)은 i) 모집단의 샘플의 수, ii) 뉴클레오티드-염기 호출을 생성하기 위해 프로세싱된 리드의 수, 변이의 수(예를 들어, SNP, 삽입 및 결실 및 MNP), iii) 이중 대립유전자 사이트의 수(예를 들어, 2개의 관찰된 대립 유전자를 포함하는 게놈 좌표), iv) 다중 대립 유전자 사이트의 수(예를 들어, 3개 이상의 관찰된 대립 유전자를 포함하는 변이 호출 파일의 다수의 사이트), v) SNP의 수, vi) 상이한 유형의 삽입 및 결실의 수(예를 들어, 동형 접합성 삽입, 이형 접합성 삽입 및 동형 접합성 결실), vii) 이형 접합성 삽입 및 결실의 총 수(예를 들어, 삽입 + 결실, 삽입 + SNP 또는 결실 + SNP), viii) 드 노보(de novo) SNP의 수(예를 들어, 임계 레벨을 충족하는 드 노보 품질 메트릭을 갖는 SNP) ix) 드 노보 삽입 및 결실의 수(예를 들어, 임계 레벨을 충족하는 드 노보 품질 메트릭을 갖는 삽입 및 결실), x) 드 노보 MNP의 수(예를 들어, 임계 레벨을 충족하는 드 노보 품질 메트릭을 갖는 MNP), xi) 제1 염색체의 SNP 수를 제2 염색체의 SNP 수로 나눈 값, xii) SNP 전이의 수, xiii) SNP 트랜스버전(transversion)의 수, xiv) 이형 접합성 변이의 수, xv) 동형 접합성 변이의 수, xvi) 이형 접합성 변이의 수와 동형 접합성 변이의 수 사이의 비율, xvii) dbSNP 참조 파일 내에서 검출된 변이의 수, 및/또는 xviii) 총 변이 수에서 dbSNP 파일 내에서 검출된 수를 뺀 수 중 하나 이상을 포함하는 변이-호출 메트릭을 (예를 들어, 메트릭 리엔지니어링을 통해) 생성한다.
추가적으로, 호출-모델-생성 시퀀싱 메트릭(312)은 호출-생성 모델(310)의 매핑-및-정렬 구성 요소를 통해 추출된 매핑-및-정렬 시퀀싱 메트릭을 포함할 수 있다. 예를 들어, 염기-호출자-재교정 시스템 106은 i) 총 입력 리드의 수, ii) 중복 마킹된 리드의 수, iii) 마킹된 중복 및 제거된 메이트 리드의 수, iv) 고유 리드의 수, v) 메이트 시퀀싱된 리드의 수, vi) 메이트 시퀀싱되지 않은 리드의 수, vii) 품질 검사에 실패한 리드의 표시, viii) 매핑된 리드의 표시, ix) 고유하고 매핑된 리드의 수, x) 매핑되지 않은 리드의 수, xi) 단독 개체 리드의 수(예를 들어, 리드가 매핑되었지만 페어링된 메이트는 판독될 수 없는 경우), xii) 페어링된 리드의 수, xiii) 적절하게 페어링된 리드의 수(예를 들어, 한 쌍의 양쪽 리드가 매핑되고 추정된 삽입 길이 분포에 기초하여 서로 수용 가능한 범위 내에 속하는 경우), xiv) 조화되지 않는 리드의 수(예를 들어, 적절하지 않게 페어링된 리드), xv) 상이한 염색체에 매핑된 페어링된 리드의 수, xvi) 또한 10 이상의 매핑-품질 메트릭을 갖는 상이한 염색체에 매핑된 페어링된 리드의 수, xvii) 삽입 및 삭제 R1 및 R2 내의 리드의 퍼센티지, xviii) 소프트 클리핑된 R1 및 R2의 염기의 퍼센티지, xix) R1 및 R2의 미스매칭된 염기의 수, xx) (예를 들어, 전체 및/또는 R1 또는 R2에서) 적어도 30의 염기 품질을 갖는 염기의 수, xxi) 정렬의 수(예를 들어, 전체 정렬, 2차 정렬 및/또는 보충 정렬), xxii) 추정된 리드 길이 및 xxiii) 추정된 샘플 오염 중 하나 이상을 포함하는 매핑-및-정렬 메트릭을 (예를 들어, 메트릭 리엔지니어링을 통해) 생성 또는 추출한다.
이제 도 3c를 참조하면, 도면에 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 외부적으로 소싱되는 시퀀싱 메트릭(316)을 생성, 추출 또는 결정한다. 특히, 염기-호출자-재교정 시스템(106)은 시퀀싱 정보 데이터베이스(314)(예를 들어, 데이터베이스(116))와 같이 염기-호출자-재교정 시스템(106) 외부의 하나 이상의 데이터베이스로부터 외부적으로 소싱되는 시퀀싱 메트릭(316)을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 일반적이거나 일반적으로 시퀀싱 뉴클레오티드에 적용 가능한 시퀀싱 메트릭에 접근한다. 또한, 염기-호출자-재교정 시스템(106)은 (예를 들어, 시퀀싱 정보 데이터베이스(314) 내에 저장된) 특정 참조 서열에 대한 시퀀싱 정보에 접근하거나 결정한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 i) 특정 뉴클레오티드 서열(또는 특정 뉴클레오티드 리드 또는 뉴클레오티드-염기 호출) 매핑의 용이성 또는 어려움을 나타내는 매핑 가능성 메트릭, ii) 참조 뉴클레오티드 서열(예를 들어, 참조 게놈)에서 구아닌-시토신 함량의 카운트(또는 드롭아웃(dropout) 또는 평균)를 나타내는 구아닌-시토신-함량 메트릭, iii) 참조 서열로부터 특정 수의 뉴클레오티드를 복제하는 데 필요한 시간을 나타내는 복제-타이밍 메트릭, iv) 참조 서열(예를 들어, 참조 게놈)의 DNA 구조를 나타내는 하나 이상의 DNA-구조-메트릭, v) 복수의 종에 걸친 서열 보존의 척도(예를 들어, 평균에 대한 변화의 척도)를 나타내는 보존 메트릭 등을 포함하는 외부적으로 소싱된 시퀀싱 메트릭(316)을 결정한다.
언급된 바와 같이, 특정의 설명된 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-생성 모델과 함께 호출-재교정-기계-학습 모델을 이용하여 뉴클레오티드-염기 호출을 생성한다. 특히, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 뉴클레오티드-염기 호출을 나타내는 변이 호출 파일에 대응하는 데이터 필드를 수정한다. 도 4는 하나 이상의 실시예에 따라 호출-재교정-기계-학습 모델 및 호출-생성 모델을 이용하여 변이 호출 파일을 수정함으로써 뉴클레오티드-염기 호출을 생성하는 것을 예시한다.
도 4에 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 시퀀싱 정보 데이터베이스(402)(예를 들어, 시퀀싱 정보 데이터베이스(314)), 참조 서열(403) 및 하나 이상의 뉴클레오티드 리드로부터 외삽된 서열 데이터(404)(예를 들어, 서열 데이터(308))에 접근한다. 실제로, 염기-호출자-재교정 시스템(106)은 도 3a~ 도 3c와 관련하여 상술한 바와 같이 시퀀싱 메트릭을 추출하거나 리엔지니어링하기 위해 시퀀싱-메트릭 추출(410)을 수행한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 리드-기반 시퀀싱 메트릭, 외부적으로 소싱된 시퀀싱 메트릭 및 호출-모델-생성 시퀀싱 메트릭을 생성한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(420)(예를 들어, 호출-생성 모델(310))의 매핑-및-정렬 구성 요소(406)를 이용하여 상술한 바와 같은 매핑-및-정렬 시퀀싱 메트릭을 결정한다. 또한, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(420)의 변이-호출자 구성 요소(408)를 이용하여 상술한 바와 같은 변이-호출 메트릭을 생성한다. 추가로, 염기-호출자-재교정 시스템(106)은 (예를 들어, 시퀀싱 정보 데이터베이스(402) 및/또는 참조 서열(403)로부터) 리드-기반 시퀀싱 메트릭 및 외부적으로 소스 시퀀싱 메트릭도 결정한다.
도 4에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 변이-호출 분류(414)를 생성한다. 보다 구체적으로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(412)을 이용하여 시퀀싱 메트릭으로부터 변이-호출 분류(414)를 생성한다. 예를 들어, 호출-재교정-기계-학습 모델(412)은 위양성 분류, 유전자형-오류 분류 및 진양성 분류를 포함하는 변이-호출 분류(414)를 생성한다. 구체적으로, 위양성 분류는 뉴클레오티드-염기 호출(예를 들어, 변이 호출)이 위양성일 확률을 나타낸다. 반대로, 진양성 분류는 뉴클레오티드-염기 호출(예를 들어, 변이 호출)이 진양성일 확률을 나타낸다. 또한, 유전자형-오류 분류는 뉴클레오티드-염기 호출(예를 들어, 변이 호출)에 대한 유전자형과 연관된 오류 확률을 나타낸다.
일부 경우에, 호출-재교정-기계-학습 모델(412)은 변이-호출 분류(414)를 생성하기 위해 시퀀싱 메트릭을 프로세싱하는 그래디언트 부스팅된 트리(gradient boosted tree)의 앙상블(ensemble)이다. 예를 들어, 호출-재교정-기계-학습 모델(412)은 변이-호출 분류(414)를 생성하기 위해 로지스틱 회귀에서 훈련된 비선형 결정 트리와 같은 일련의 약한 학습기(weak learner)를 포함한다. 일부 경우에 호출-재교정-기계-학습 모델(412)은 호출-재교정-기계-학습 모델(412)이 변이-호출 분류(414)를 생성하기 위해 시퀀싱 메트릭을 프로세싱하는 방식을 정의하는 다양한 트리 내의 메트릭을 포함한다. 호출-재교정-기계-학습 모델(412)의 훈련에 관한 추가적인 상세 사항은 도 5를 참조하여 아래에 제공된다.
특정 실시예에서, 호출-재교정-기계-학습 모델(412)은 신경망, 서포트 벡터 머신 또는 랜덤 포레스트와 같은 상이한 유형의 기계 학습 모델이다. 예를 들어, 호출-재교정-기계-학습 모델(412)이 신경망인 경우, 호출-재교정-기계-학습 모델(412)은 시퀀싱 메트릭을 프로세싱하기 위한 계층을 구성하는 뉴런을 각각 갖는 하나 이상의 계층을 포함한다. 일부 경우에, 호출-재교정-기계-학습 모델(412)은 시퀀싱 메트릭에서 잠재 벡터를 추출하고, 잠재 벡터를 계층에서 계층으로(또는 뉴런에서 뉴런으로) 전달하여 출력 계층(예를 들어, 하나 이상의 완전히 연결된 계층)을 조작하여 (예를 들어, 3개의 개별 분류의 세트로서) 변이-호출 분류(414)를 생성함으로써 변이-호출 분류(414)를 생성한다.
위에서 제안된 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 복수의 호출-재교정-기계-학습 모델을 함께 이용할 수 있다. 예를 들어, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(412)을 이용하여 변이-호출 분류의 제1 세트를 생성하고 추가로 제2 호출-재교정-기계-학습 모델(예를 들어, 동일하거나 상이한 아키텍처를 가짐)을 이용하여 변이-호출 분류의 제2 세트를 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 2개(또는 그 이상)의 상이한 호출-재교정-기계-학습 모델을 병렬로 이용하고, 각각은 (예를 들어, 데이터를 상이하게 프로세싱하기 위한 상이한 바이어스에 대해) 상이한 랜덤 시드(seed)로 훈련되어, 동일한 시퀀싱 메트릭으로부터의 상이한 변이-호출 분류를 초래한다.
일부 실시예에서, 염기-호출자-재교정 시스템(106)은 상이한 호출-재교정-기계-학습 모델을 통해 생성된 상이한 변이-호출 분류로부터 변이-호출 분류의 결합된 세트를 추가로 생성한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 제1 호출-재교정-기계-학습 모델과 제2 호출-재교정-기계-학습 모델로부터 생성된 변이-호출 분류의 제1 세트 및 제2 세트로부터 변이-호출 분류(예를 들어, 변이-호출 분류(414))를 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 변이-호출 분류의 제1 및 제2 세트의 평균 또는 가중화된 조합을 결정하여 뉴클레오티드-염기 호출을 재교정하기 위한 조합된 변이-호출 분류를 생성한다. 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 각각의 호출-재교정-기계-학습 모델에 걸쳐 각각의 변이-호출 분류에 대한 평균을 결정하고 평균 변이-호출 분류를 재정규화한다. 다른 실시예에서, 염기-호출자-재교정 시스템(106)은 선형 가중치를 학습하고 가중치를 적응시켜 변이-호출 분류에 대한 전체 오류 또는 손실을 최소화한다. 또 다른 실시예에서, 염기-호출자-재교정 시스템(106)은 모델에 걸친 평균 오류의 역(inverse)에 기초하여 각각의 호출-재교정-기계-학습 모델에 대한 변이-호출 분류를 가중화한다.
하나 이상의 구현에서, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델에 후속하는 메타모델을 추가로 이용한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 분류-조합기-기계 학습 모델을 이용하여 각각의 호출-재교정-기계-학습 모델에 의해 생성된 변이-호출 분류를 적용하기 위해 가중치를 선택하는 것과 같이 각각의 호출-재교정-기계-학습 모델로부터 생성된 변이-호출 분류를 조합한다. 실제로, 일부 경우에, 염기-호출자-재교정 시스템(106)은 분류-조합기-기계-학습 모델을 훈련시켜 호출-재교정-기계 학습 모델에 대한 각각의 가중치를 결정, 선택 또는 예측하여 최고의 정확도 또는 최소화된 손실로 귀결된다.
변이-호출 분류(414)를 생성할 때, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 참조 지원 리드 및 대체 지원 리드의 매핑 품질 분포(예를 들어, 비교-매핑-품질-분포 메트릭)를 요약하기 위해 통계를 이용하여 변이-호출 분류를 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 변이-호출 분류로서 대체 대립 유전자를 지원하는 리드에 대한 MAPQ의 평균을 결정하고 이용할 수 있다. 이러한 실시예 또는 다른 실시예에서, 호출-재교정-기계-학습 모델(412)은 대체 대립 유전자의 MAPQ가 낮고 깊이 메트릭이 분포의 다른 MAPQ 및 깊이 메트릭에 비해 높을 때 결과적인 뉴클레오티드-염기 호출이 위양성 변이일 가능성이 더 높은 데이터로부터 학습한다. 실제로, 위양성 변이의 확률이 증가함에 따라, MAPQ 메트릭이 감소할 가능성이 높다.
호출-재교정-기계-학습 모델(412)을 이용하여 변이-호출 분류(414)를 생성하는 추가 예로서, 일부 경우에, 염기-호출자-재교정 시스템(106)은 (예를 들어, 시퀀싱 메트릭으로부터의) 뉴클레오티드 리드와 연관된 매핑 품질(예를 들어, MAPQ)을 매핑-품질 임계값과 비교한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 최고 정렬 스코어와 두 번째 최고 정렬 스코어 사이의 임계값 차이와 같은 매핑-품질 임계값을 이용한다. 매핑 품질이 임계값을 충족하지 않는다고 결정하면, 염기-호출자-재교정 시스템(106)은 이에 따라 변이-호출 분류(414) 중 하나 이상을 조정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 매핑 품질이 대응하는 임계값을 충족하는지 여부에 기초하여 유전자형 오류 및/또는 위양성 오류의 확률을 증가시킨다.
방금 설명한 변이-호출 분류(414)를 생성하는 방법에 추가하여(또는 대안으로), 염기-호출자-재교정 시스템(106)은 (i) (호출-재교정-기계-학습 모델(412)의 아키텍처에 따라) 복잡한 함수에 대한 통계 분석의 축적을 이용하여 (예를 들어, 다양한 메트릭 사이의 관계에 기초하여) 데이터에 가장 잘 맞추는 방식을 결정하거나 (ii) 리드 깊이, 염기 품질 또는 (예를 들어, 시퀀싱 메트릭으로부터의) 뉴클레오티드-염기 호출과 연관된 다른 것을 대응하는 임계값과 비교할 수 있다. 염기-호출자-재교정 시스템(106)은 그에 따라 변이-호출 분류(414)를 추가로 생성한다. 예를 들어, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(412)을 훈련하여 변이-호출 분류(414)를 생성하기 위해 데이터에 가장 잘 맞는(예를 들어, 감소되거나 최소화된 손실로 귀결됨) 가중치 및 바이어스를 결정하기 위 다수의 (상이한 유형의) 시퀀싱 메트릭으로부터 생성된 손실을 최소화한다. 다른 예로서, 리드-깊이가 리드-깊이 임계값(예를 들어, 특정 게놈 좌표 또는 일반적으로 모든 게놈 좌표에 걸쳐 대응하는 최대 리드 깊이)을 충족하지 못하는 것으로 결정할 때, 염기-호출자-재교정 시스템(106)은 유전자형-오류 확률을 증가시키고/증가시키거나 대응하는 뉴클레오티드-염기 호출에 대한 위양성 확률 및 진양성 확률을 증가 또는 감소시킨다.
변이-호출 분류(414)를 생성하는 것 외에, 도 4에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 데이터 필드 생성(416)을 수행한다. 더 구체적으로, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(420)의 변이-호출자 구성 요소(408)를 이용하여 변이 호출 파일에 대응하는 뉴클레오티드-염기 호출에 대한 데이터 필드를 생성하고, 변이-호출 분류(414)에 기초하여 이러한 데이터 필드에 대한 값을 수정하거나 유지한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 품질 메트릭, 매핑 메트릭 또는 뉴클레오티드-염기 호출과 연관된 다른 메트릭과 같은 다양한 메트릭을 수정한다. 특정 실시예에서, 뉴클레오티드-염기 호출은 호출-품질 필드에 대응하는 호출-품질 메트릭, 유전자형 필드에 대응하는 유전자형 메트릭 및 유전자형-품질 필드에 대응하는 유전자형-품질 메트릭과 같은 데이터 필드에 대응하는 메트릭을 포함하는 변이 호출 파일(418)에 의해 표현되거나 정의된다.
특정 실시예에서, 염기-호출자-재교정 시스템(106)은 변이-호출 분류(414)와 함께 변이-호출자 구성 요소(408)를 이용하여 뉴클레오티드-염기 호출(에 대한 데이터 필드)을 생성한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 변이-호출자 구성 요소(408)를 이용하여 호출에 포함된 뉴클레오티드(들), 호출 품질(QUAL), 유전자형(GT) 및 유전자형 품질(GQ)과 같은 뉴클레오티드-염기 호출의 다양한 메트릭에 대한 데이터 필드를 생성한다.
호출-생성 모델(420)을 통해 뉴클레오티드-염기 호출을 생성하는 것 외에, 염기-호출자-재교정 시스템(106)은 또한 호출-재교정-기계-학습 모델(412)로부터 변이-호출 분류(414)를 통해 뉴클레오티드-염기 호출을 재교정하거나 수정한다. 하나 이상의 구현에서, 염기-호출자-재교정 시스템(106)은 (예를 들어, 변이 호출 파일(418) 내에 포함된) 뉴클레오티드-염기 호출과 연관된 메트릭 중 하나 이상에 대한 데이터 필드를 수정하거나 재교정함으로써 뉴클레오티드-염기 호출을 수정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 변이-호출 분류(414)로부터 호출 품질, 유전자형 및 유전자형 품질과 같은 메트릭에 대한 업데이트된 값을 결정한다. 실제로, 염기-호출자-재교정 시스템(106)은 변이 호출 파일(418)에 포함된 뉴클레오티드-염기 호출의 대응하는 메트릭을 재교정하기 위해 변이-호출 분류(414)를 조합하거나 비교한다.
뉴클레오티드-염기 호출과 연관된 호출-품질 메트릭을 업데이트하거나 재교정하기 위해, 염기-호출자-재교정 시스템(106)은 각각의 변이-호출 분류(414)가 염기-호출-품질 메트릭에 어떻게 영향을 미치는지 결정하고 이에 따라 염기-호출-품질 메트릭을 조정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 유전자형 오류에 대한 높은 확률이 더 낮은 전체 유전자형 품질 및 가능하게는 상이한 전체 호출 품질을 초래한다고 결정한다. 다른 예로서, 염기-호출자-재교정 시스템(106)은 위양성 변이에 대한 높은 확률이 더 낮은 전체 호출 품질을 초래한다고 결정한다. 또 다른 예로서, 염기-호출자-재교정 시스템(106)은 진양성 변이에 대한 높은 확률이 더 높은 전체(변이) 호출 품질을 초래한다고 결정한다. 추가 예로서, 염기-호출자-재교정 시스템(106)이 (예를 들어, 변이-호출 분류(414)의 다른 2개의 변이-호출 분류에 대한 것보다 높음) 유전자형 오류에 대한 높은 확률을 결정하면, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출이 잘못된 유전자형을 갖는 실제 변이일 가능성이 가장 높다고 결정한다. 이에 따라 염기-호출자-재교정 시스템(106)은 유전자형 품질 및 뉴클레오티드-염기 호출과 연관된 호출 품질과 함께 유전자형을 업데이트한다.
하나 이상의 구현에서, 염기-호출자-재교정 시스템(106)은 호출-품질 메트릭을 재교정하기 위해 변이-호출 분류(414)의 조합(예를 들어, 가중화된 조합 또는 평균)을 생성한다. 특히, 염기-호출자-재교정 시스템(106)은 (변이) 호출 품질에 대한 각각의 영향에 따라 위양성 분류, 유전자형-오류 분류 및 진양성 분류를 가중화한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 각각의 변이-호출 분류를 균등하게 가중화하는 반면, 다른 경우에 염기-호출자-재교정 시스템(106)은 각각의 변이-호출 분류에 대해 상이한 가중치를 결정한다. 어쨌든, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출(예를 들어 초기 변이 호출)에 대한 호출 품질 메트릭을 교정(증가 또는 감소)하기 위해 변이-호출 분류(414)의 가중화된 조합 또는 가중화된 평균을 결정한다.
뉴클레오티드-염기 호출과 연관된 (예를 들어, 변이 호출 파일(418)의 GT 필드 내의) 유전자형 메트릭을 업데이트하거나 재교정하기 위해, 염기-호출자-재교정 시스템(106)은 변이-호출 분류(414) 중 하나 이상을 이용한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 3개의 변이-호출 분류를 변이-호출 분류(414)(예를 들어, 위양성 분류, 유전자형-오류 분류 및 진양성 분류)로서 비교하여 변이-호출 분류(414) 중 어느 것이 가장 높은 확률을 갖는지 결정한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 (예를 들어, 참조 염기에 대응하는 0부터 제1 대체 지원 리드에 대응하는 1까지) 유전자형 메트릭을 재교정하기 위해 가장 높은 확률을 갖는 변이-호출 분류를 이용한다. 예를 들어, 염기-호출자-재교정 시스템(106)이 위양성 분류에 대해 가장 높은 확률을 결정하면, 염기-호출자-재교정 시스템(106)은 이에 따라 유전자형 메트릭을 재교정한다. 다른 예로서, 염기-호출자-재교정 시스템(106)이 진양성 분류에 대해 가장 높은 확률을 결정하면, 염기-호출자-재교정 시스템(106)은 유전자형 메트릭을 재교정한다(또는 재교정하지 않음).
다른 실시예에서, 염기-호출자-재교정 시스템(106)은 유전자형 메트릭을 수정하기 위해 유전자형-오류 확률만을 이용한다. 예를 들어, 염기-호출자-재교정 시스템(106)이 높은 유전자형-오류 확률을 결정하면, 염기-호출자-재교정 시스템(106)은 유전자형 메트릭을 재교정하여 뉴클레오티드-염기 호출의 상이한 유전자형을 나타낸다.
(예를 들어, 변이 호출 파일(418)의 GQ 필드 내의) 뉴클레오티드-염기 호출과 연관된 유전자형-품질 메트릭을 업데이트하거나 재교정하기 위해, 염기-호출자-재교정 시스템(106)은 하나 이상의 변이-호출 분류(414)를 이용한다. 보다 구체적으로, 염기-호출자-재교정 시스템(106)은 변이-호출 분류(414) 각각이 어떻게 유전자형-품질 메트릭에 영향을 미치는지 결정하고 그에 따라 (예를 들어, 0 내지 10 또는 0 내지 100의 품질 스코어를 증가시키거나 감소시킴으로써 또는 일부 다른 스케일로) 유전자형-품질 메트릭을 재교정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 더 높은 유전자형-오류 확률이 (일반적으로) 더 낮은 유전자형-품질 메트릭을 나타내는 것으로 결정하고, 염기-호출자-재교정 시스템(106)은 그에 따라 메트릭을 감소시킨다.
일부 경우에, 염기-호출자-재교정 시스템(106)은 유전자형-품질 메트릭을 수정하기 위해 변이-호출 분류(414)의 조합(예를 들어, 가중화된 조합 또는 가중화된 평균)을 결정한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 변이-호출 분류(414)가 유전자형-품질 메트릭에 미치는 조합된 효과를 결정한다. 다른 예로서, 염기-호출자-재교정 시스템(106)은 각각의 변이-호출 분류가 유전자형-품질 메트릭에 미치는 개별적인 영향을 결정하고 그에 따라 각각의 변이-호출 분류를 가중화한다. 염기-호출자-재교정 시스템(106)은 각각의 변이-호출 분류(414)와 연관된 표시된 확률에 기초하여 그 값을 증가시키거나 감소시킴으로써 유전자형-품질 메트릭을 추가로 재교정한다.
설명된 바와 같이, 염기-호출자-재교정 시스템(106)은 시퀀싱 메트릭의 동일한 세트(또는 호출-재교정-기계 학습 모델(412)과 호출-생성 모델(420) 사이에 공유되는 시퀀싱 메트릭의 서브세트)로부터 변이-호출 분류(414) 및 뉴클레오티드-염기 호출을 생성한다. 실제로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(412)을 이용하여 시퀀싱 메트릭으로부터 변이-호출 분류(414)를 생성하면서 또한 샘플 서열에 대한 뉴클레오티드-염기 호출도 생성한다. 실제로, 염기-호출자-재교정 시스템(106)은 호출 재교정-기계-학습 모델(412)을 호출-생성 모델(420)과 병행하여 동작시켜 생성된 메트릭을 재교정하기 위해 뉴클레오티드-염기 호출 및 변이-호출 분류(414)에 대한 메트릭을 생성할 수 있다.
도 4에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 변이 호출 파일(418)을 생성한다. 특히, 염기-호출자-재교정 시스템(106)은 게놈 좌표에 대응하는 시퀀싱 메트릭으로부터 뉴클레오티드-염기 호출을 나타내거나 정의하는 변이 호출 파일(418)을 생성한다. 도시된 바와 같이, 변이 호출 파일(418)은 호출-품질 메트릭(QUAL), 유전자형 메트릭(GT) 및 유전자형-품질 메트릭(GQ)과 같은 다양한 호출 메트릭을 포함한다. 설명된 바와 같이 변이 호출 파일(418)을 생성하기 위해, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(420)을 이용하여 뉴클레오티드-염기 호출에 대한 메트릭을 생성하고, 호출-재교정-기계-학습 모델(412)로부터 변이-호출 분류(414)를 이용하여 뉴클레오티드-염기 호출을 재교정한다.
하나 이상의 구현에서, 염기-호출자-재교정 시스템(106)은 특정 알고리즘에 따라 변이 호출 파일(418)에 대한 데이터 필드를 업데이트하거나 다르게 수정한다. 이러한 데이터 필드를 수정한 후, 염기-호출자-재교정 시스템(106)은 QUAL, GT 및 GQ에 대한 업데이트된 데이터 필드를 반영하는 메트릭을 포함하도록 변이 호출 파일(418)(예를 들어, 사후-필터 변이 호출 파일)을 생성할 수 있다. 예를 들어, 일부 경우에, 염기-호출자-재교정 시스템(106)은 위양성 변이(예를 들어, 위양성 분류)의 확률에 기초하여 모든 변이에 대한 QUAL 필드를 업데이트한다. 위에 나타낸 바와 같이, 일부 경우에, QUAL은 PHRED 스케일로 측정된 주어진 위치에 어떤 종류의 변이(또는 다른 뉴클레오티드-염기 호출)가 있을 확률을 나타낸다.
또한, 염기-호출자-재교정 시스템(106)이 변이-호출 분류(414)로서 3개의 변이-호출 분류 중 가장 높은 확률이 유전자형-오류 분류(예를 들어, het/ hom 오류의 확률)인 것으로 결정하면, 염기-호출자-재교정 시스템(106)은 GT 필드를 보존하거나 유지하면서 GQ 필드를 업데이트한다. 구체적으로, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 진양성 분류(예를 들어, 실제 유전자형의 확률)에 기초하여 GQ 필드를 업데이트한다.
추가로, 염기-호출자-재교정 시스템(106)이 변이-호출 분류(414) 중에서 가장 높은 확률이 진양성 분류인 것으로 결정하면, 일부 경우에, 염기-호출자-재교정 시스템(106)은 GQ 필드와 GT 필드 모두를 업데이트한다. 구체적으로, 염기-호출자-재교정 시스템(106)은 유전자형-오류 분류에 기초하여 GQ 필드를 업데이트하고 기존 GT가 0/X인지 X/X인지(여기서 X는 0이 아닌 값)에 따라 유전자형을 스위칭하도록 GT 필드를 추가로 업데이트한다.
염기-호출자-재교정 시스템(106)이 진양성 분류도 유전자형-오류 분류도 변이-호출 분류(414) 중에서 가장 높은 확률을 갖지 않는다고 결정하면, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 GQ 필드를 업데이트한다. 즉, 염기-호출자-재교정 시스템(106)이 위양성 분류가 가장 높은 확률을 갖는다고 결정하면, 염기-호출자-재교정 시스템(106)은 GQ 필드를 업데이트한다. 특히, 염기-호출자-재교정 시스템(106)은 진양성 분류에 의해 표시된 확률에 기초하여 GQ 필드를 업데이트한다.
위에서 제안된 바와 같이, 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭(예를 들어, Q 스코어)을 증가시키거나 감소시킨다. 예를 들어, 변이-호출 분류(414)에 기초하여, 염기-호출자-재교정 시스템(106)은 이전에 품질 필터를 통과하지 못한 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭을 증가시키고 증가된 염기-호출-품질 메트릭이 이제 품질 필터를 통과하는 것으로 결정한다. 이러한 일부 경우에, 염기-호출자-재교정 시스템(106)은 사후-필터 변이 호출 파일에 이러한 증가된 염기-호출-품질 메트릭(품질 필터 통과)을 갖는 뉴클레오티드-염기 호출을 포함한다. 대조적으로, 다른 경우에, 염기-호출자-재교정 시스템(106)은 이전에 품질 필터를 통과한 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭을 감소시키고 감소된 염기-호출-품질 메트릭이 이제 품질 필터에 실패한다고 결정한다. 이러한 일부 경우에, 염기-호출자-재교정 시스템(106)은 사후-필터 변이 호출 파일로부터 감소된 염기-호출-품질 메트릭을 갖는(품질 필터에 실패) 뉴클레오티드-염기 호출을 제외하지만, 이러한 감소된 염기-호출-품질 메트릭을 갖는 뉴클레오티드-염기 호출을 사후-필터 변이 호출 파일에 포함한다.
예를 들어, 염기-호출자-재교정 시스템(106)은 대응하는 염기-호출-품질 메트릭을 변경함으로써 위양성 변이 호출을 제거하고 위음성 변이 호출을 복구할 수 있다. 위양성을 제거하기 위해, 일부 경우에, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(412)로부터의 변이-호출 분류(414)에 기초하여 처음에 품질 필터를 통과한 뉴클레오티드-염기 호출의 염기-호출-품질 메트릭을 감소시킨다. 감소된 염기-호출-품질 메트릭이 임계값 메트릭(예를 들어, 3.0 또는 10.0의 Q 스코어) 아래로 떨어진다는 결정에 기초하여, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출이 더 이상 품질 필터를 통과하지 못하는 것으로 결정한다. 따라서 염기-호출자-재교정 시스템(106)은 해당 염기-호출-품질 메트릭을 변경함으로써 초기에 필터를 통과한 위양성-뉴클레오티드-염기 호출을 필터링 아웃하거나 제거한다.
염기-호출-품질 메트릭의 변화에 기초하여 위양성을 제거하는 것 외에, 염기-호출자-재교정 시스템(106)은 유전자형 변화에 기초하여 위양성 변이 호출을 제거할 수 있다. 위양성을 제거하기 위해, 일부 경우에, 염기-호출자-재교정 시스템(106)은 참조 염기와 상이한 뉴클레오티드 염기(예를 들어, GT = 1 또는 2)를 나타내는 초기 뉴클레오티드-염기 호출의 유전자형을 호출-재교정-기계-학습 모델(412)로부터의 변이-호출 분류(414)에 기초하여 참조 염기와 동일한 뉴클레오티드 염기(예를 들어, GT = 0)를 나타내는 업데이트된 뉴클레오티드-염기 호출의 유전자형으로 변경한다. 참조 염기와 동일한 유전자형에 기초하여, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출을 변이로서 식별하지 않으며, 일부 경우에, 변이 호출 파일로부터 뉴클레오티드-염기 호출에 대한 데이터를 제외한다.
위음성을 복구하기 위해, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(412)로부터의 변이-호출 분류(414)에 기초하여 초기에 품질 필터에 실패한 뉴클레오티드-염기 호출의 염기-호출-품질 메트릭을 증가시킨다. 증가된 염기-호출-품질 메트릭이 임계값 메트릭을 초과한다는 결정에 기초하여, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출이 품질 필터를 통과한다고 결정한다. 따라서 염기-호출자-재교정 시스템(106)은 해당 염기-호출-품질 메트릭을 변경함으로써 초기에 필터링 아웃되었던 위음성-뉴클레오티드-염기 호출을 복구한다.
염기-호출-품질 메트릭에 대한 변화에 기초하여 위음성을 복구하는 것 외에, 염기-호출자-재교정 시스템(106)은 유전자형에 대한 변화에 기초하여 위음성 변이 호출을 복구할 수 있다. 위음성을 복구하기 위해, 일부 경우에, 염기-호출자-재교정 시스템(106)은 참조 염기와 동일한 뉴클레오티드 염기(예를 들어, GT = 0)를 나타내는 초기 뉴클레오티드-염기 호출의 유전자형을 호출-재교정-기계-학습 모델(412)의 변이-호출 분류(414)에 기초하여 참조 염기와 상이한 뉴클레오티드 염기(예를 들어, GT = 1 또는 2)를 나타내는 업데이트된 뉴클레오티드-염기 호출의 상이한 유전자형으로 변경한다. 업데이트된 뉴클레오티드-염기 호출의 유전자형을 상이하게 하고 염기-호출-품질 메트릭을 통과시키는 것에 기초하여, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출을 변이로 식별하고 변이 호출 파일 내에 뉴클레오티드-염기 호출을 포함한다.
실제로, 일부 구현에서, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(420) 및 호출-재교정-기계-학습 모델(412)을 이용하여 특정 순차적 순서로 동작한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 BCL 파일을 FASTQ로 변환하여 FASTQ 파일을 생성한다. 또한, 염기-호출자-재교정 시스템(106)은 (후속하여) 호출-생성 모델(420)의 매핑-및-정렬 구성 요소(406)를 이용하여 샘플 뉴클레오티드 서열로부터 뉴클레오티드 염기를 매핑하고 정렬한다. 일부 경우에, 염기-호출자-재교정 시스템(106)은 참조 서열(예를 들어, 참조 게놈) 및/또는 다양한 대체 지원 리드와 관련하여 샘플 서열의 뉴클레오티드 염기를 매핑하고 정렬한다.
본원에 설명되는 바와 같이, 매핑 및 정렬 후에, 염기-호출자-재교정 시스템(106)은 호출-생성 모델(420)의 변이-호출자 구성 요소(408)를 이용하여 다양한 시퀀싱 메트릭에 기초하여 특정 게놈 좌표에 대응하는 샘플 서열에 대한 초기 뉴클레오티드-염기 호출을 생성한다. 이후에 또는 동시에, 염기-호출자-재교정 시스템(106)은 또한 호출-재교정-기계-학습 모델(412)을 적용하여 매핑 및 정렬을 통해, 변이 호출을 통해 및/또는 상술한 바와 같이 다른 소스로부터 추출된 시퀀싱 메트릭으로부터 변이-호출 분류(414)를 생성한다. 변이-호출 분류(414)에 기초하여, 염기-호출자-재교정 시스템(106)은 (예를 들어, QUAL, GT 및 GQ와 같은 뉴클레오티드-염기 호출의 특정 메트릭에 대응하는 다양한 데이터 필드를 수정하여) 뉴클레오티드-염기 호출을 재교정한다.
일부 경우에, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출이 품질 필터(예를 들어, Q20 또는 다른 Q 스코어의 하드 통과 필터)를 통과하는지 여부를 결정하기 위해 뉴클레오티드-염기 호출에 품질 필터를 추가로 적용한다. 염기-호출자-재교정 시스템(106)은 후속하여 참조 염기로부터의 변이를 나타내고 품질 필터를 통과하는 뉴클레오티드-염기 호출의 서브세트를 식별한다. 염기-호출자-재교정 시스템(106)은 QUAL 메트릭, 업데이트된 GT 메트릭 및/또는 업데이트된 GQ 메트릭과 같이, 뉴클레오티드-염기 호출의 서브세트 및 뉴클레오티드-염기 호출의 서브세트에 대한 교정된 메트릭을 포함하는 수정되거나 업데이트된 변이 호출 파일(예를 들어, 변이 호출 파일(418))을 추가로 생성한다.
위에서 언급한 바와 같이, 특정 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(예를 들어 호출-재교정-기계-학습 모델(412))을 훈련하거나 튜닝한다. 특히, 염기-호출자-재교정 시스템(106)은 정확한 변이-호출 분류(예를 들어 변이-호출 분류(414))로 귀결되는 결정 트리 또는 학습 파라미터를 조정하거나 추가하여 호출-재교정-기계-학습 모델을 맞추는 반복적 훈련 프로세스를 이용한다. 도 5는 하나 이상의 실시예에 따라 호출-재교정-기계-학습 모델을 훈련하는 것을 예시한다.
도 5에 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 데이터베이스(502)(예를 들어, 데이터베이스(116))로부터 샘플 시퀀싱 메트릭(504)에 접근한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 샘플 리드-기반 메트릭, 샘플 외부 소싱된 시퀀싱 메트릭 및 샘플 호출-모델-생성 시퀀싱 메트릭을 포함하는 샘플 시퀀싱 메트릭에 접근한다. 일부 경우에, 샘플 시퀀싱 메트릭(504)은 이와 연관된 대응하는 실측(ground truth) 변이 호출 파일(516)을 가지며, 여기서 실측 변이 호출 파일(516)은 실제 뉴클레오티드-염기 호출 및 샘플 시퀀싱 메트릭(504)에 기인하는 다양한 메트릭을 나타낸다. 예를 들어, 염기-호출자-재교정 시스템(106)은 샘플 시퀀싱 메트릭(504)과 PrecisionFDA 데이터세트라고 칭하는 식품 및 의약품 관리국으로부터의 훈련 데이터세트로부터의 실측 변이 호출 파일을 이용한다. 일부 경우에, 샘플 시퀀싱 메트릭(504)은 실측 변이 호출 파일의 각각의 뉴클레오티드-염기 호출에 대한 샘플 시퀀싱 메트릭의 서브세트를 포함한다. 실측 호출 파일은 샘플 시퀀싱 메트릭의 각각의 서브세트에 대응하는 실측 변이 호출(예를 들어, 유전자형 필드의 유전자형 메트릭)을 가질 수 있다.
도 5에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 샘플 시퀀싱 메트릭(504)에 기초하여 예측된 변이-호출 분류(508)를 생성한다. 구체적으로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(506)(예를 들어, 호출-재교정-기계-학습 모델(412))을 이용하여 예측된 변이-호출 분류(508)를 생성한다. 실제로, 일부 실시예에서, 호출-재교정-기계-학습 모델(506)은 예측된 위양성 분류, 예측된 유전자형-오류 분류 및 예측된 진양성 분류를 포함하는 예측된 변이-호출 분류(508)로서 3개의 예측된 변이-호출 분류의 세트를 생성한다. 따라서, 예측된 변이-호출 분류(508)는 상술한 임의의 변이-호출 분류의 형태를 취할 수 있다.
예측된 변이-호출 분류(508)에 기초하여, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출을 결정하고 뉴클레오티드-염기 호출 및 대응하는 필드를 포함하는 수정된 변이 호출 파일(510)을 생성한다. 위에 나타낸 바와 같이, 염기-호출자-재교정 시스템(106)은 (i) 초기 뉴클레오티드-염기 호출을 생성하기 위한 호출-생성 모델 및 (ii) 뉴클레오티드-염기 호출에 대한 변이 호출 파일에 대응하는 데이터 필드를 수정하기 위한 호출-재교정-기계-학습 모델(506)을 이용할 수 있다. 이러한 수정되거나 재교정된 값은 예를 들어, 호출-생성 모델에 의해 수정된 변이 호출 파일(510)에 출력된다. 예를 들어, 염기-호출자-재교정 시스템(106)은 호출-품질 메트릭(QUAL), 유전자형 메트릭(GT) 및 유전자형-품질 메트릭(GQ)을 포함하여 수정된 변이 호출 파일(510) 내의 특정 메트릭에 대해 재교정된 값을 결정한다.
도 5에 추가로 예시되는 바와 같이, 염기-호출자-재교정 시스템(106)은 비교(512)를 수행한다. 구체적으로, 염기-호출자-재교정 시스템(106)은 (i) 수정된 변이 호출 파일(510)의 변이-뉴클레오티드-염기 호출 및/또는 데이터 필드와 (ii) 실측 변이 호출 파일(516)의 변이-뉴클레오티드-염기 호출 및/또는 데이터 필드 사이의 비교(512)를 수행한다. 일부 실시예에서, 염기-호출자-재교정 시스템(106)은 손실 함수(514)를 이용하여 (예를 들어, 이들 사이의 오류 또는 손실 척도를 결정하기 위해) 변이-뉴클레오티드-염기 호출 및/또는 2개의 변이 호출 파일로부터의 데이터 필드를 비교한다. 예를 들어, 호출-재교정-기계 학습 모델(506)이 그래디언트 부스팅 트리의 앙상블인 경우, 염기 호출자-재교정 시스템(106)은 (예를 들어, 회귀를 위해) 평균 제곱 오류 손실 함수 및/또는 손실 함수(514)로서 (예를 들어, 분류를 위해) 로그 손실 함수(514)를 이용한다.
대조적으로, 호출-재교정-기계-학습 모델(506)이 신경망인 실시예에서, 염기-호출자-재교정 시스템(106)은 손실 함수(514)로서 교차 엔트로피 손실 함수, L1 손실 함수 또는 평균 제곱 오류 손실 함수를 이용할 수 있다. 예를 들어, 염기-호출자-재교정 시스템(106)은 손실 함수(514)를 이용하여 변이-뉴클레오티드-염기 호출 및/또는 수정된 변이 호출 파일(510) 및 실측 변이 호출 파일(516)로부터의 데이터 필드 사이의 차이를 결정한다.
도 5에 추가로 예시된 바와 같이, 염기-호출자-재교정 시스템(106)은 모델 맞춤(fitting)(518)을 수행한다. 특히, 염기-호출자-재교정 시스템(106)은 비교(512)에 기초하여 호출-재교정-기계-학습 모델(506)을 맞춤화한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(506)에 대한 수정 또는 조정을 수행하여 후속 훈련 반복에 대한 손실 함수(514)로부터의 손실의 척도를 감소시킨다.
예를 들어, 그래디언트 부스팅 트리의 경우, 염기-호출자-재교정 시스템(106)은 손실 함수(514)에 의해 결정된 오류의 그래디언트에 대해 호출-재교정-기계-학습 모델(506)을 훈련시킨다. 예를 들어, 염기-호출자-재교정 시스템(106)은 오버피팅(overfitting)을 피하기 위해 객체를 정규화하면서 (예를 들어 무한 차원의) 볼록 최적화(convex optimization) 문제를 해결한다. 특정 구현에서, 염기-호출자-재교정 시스템(106)은 과소 표현된 클래스(예를 들어, 위양성보다 진양성이 상당히 더 많은 경우)에 대한 보정을 강조하기 위해 그래디언트를 스케일링한다.
일부 실시예에서, 염기-호출자-재교정 시스템(106)은 최적화 문제를 해결하는 것의 일부로서 각각의 연속적인 훈련 반복에 대해 호출-재교정-기계-학습 모델(506)에 새로운 약한 학습기(예를 들어, 새로운 부스팅된 트리)를 추가한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 손실 함수(514)로부터의 손실을 최소화하는 특징(예를 들어, 시퀀싱 메트릭)을 찾고 현재 반복의 트리에 특징을 추가하거나 특징으로 새로운 트리를 구축하기 시작한다.
그래디언트 부스팅된 결정 트리에 추가로 또는 대안으로, 염기-호출자-재교정 시스템(106)은 진양성 분류와 같은 하나 이상의 변이-호출 분류를 생성하기 위한 파라미터를 학습하기 위해 로지스틱 회귀를 훈련시킨다. 오버피팅을 피하기 위해, 염기-호출자-재교정 시스템(106)은 학습 레이트, 확률적 그래디언트 부스팅, 트리 수, 트리-깊이(들), 복잡성 페널티화 및 L1/L2 정규화와 같은 하이퍼파라미터에 기초하여 추가로 정규화한다.
호출-재교정-기계-학습 모델(506)이 신경망인 실시예에서, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(506)의 내부 파라미터(예를 들어, 가중치)를 수정하여 모델 맞춤화(518)를 수행하여 손실 함수(514)에 대한 손실 척도를 감소시킨다. 실제로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(506)이 내부 네트워크 파라미터를 수정하여 계층과 뉴런 간에 데이터를 분석하고 전달하는 방식을 수정한다. 따라서, 복수의 반복에 걸쳐, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(506)의 정확도를 개선한다.
실제로, 일부 경우에, 염기-호출자-재교정 시스템(106)은 복수의 반복을 위해 도 5에 예시된 훈련 프로세스를 반복한다. 예를 들어, 염기-호출자-재교정 시스템(106)은 대응하는 실측 변이 호출 파일의 대응하는 실측 뉴클레오티드-염기 호출과 함께 각각의 뉴클레오티드-염기 호출에 대한 시퀀싱 메트릭의 새로운 세트를 선택함으로써 반복적인 훈련을 반복한다. 염기-호출자-재교정 시스템(106)은 새로운 수정된 변이 호출 파일과 함께 각각의 반복에 대한 예측된 변이-호출 분류의 새로운 세트를 추가로 생성한다. 상술한 바와 같이, 염기-호출자-재교정 시스템(106)은 또한 각각의 반복에서 수정된 변이 호출 파일로부터의 변이-뉴클레오티드-염기 호출 및/또는 데이터 필드를 대응하는 실측 변이 호출 파일로부터의 대응하는 변이-뉴클레오티드-염기 호출 및/또는 데이터 필드와 비교하고 모델 맞춤화(518)를 추가로 수행한다. 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델(506)이 손실의 임계값 척도를 충족하는 변이 호출을 초래하는 예측된 변이-호출 분류를 생성할 때까지 이러한 프로세스를 반복한다.
위에서 언급한 바와 같이, 특정의 설명된 실시예에서, 염기-호출자-재교정 시스템(106)은 시퀀싱 메트릭과 연관된 기여 척도를 생성하고 제공한다. 특히, 염기-호출자-재교정 시스템(106)은 개별 시퀀싱 메트릭이 특정 뉴클레오티드-염기 호출을 결정하는 데 얼마나 영향력이 있는지를 나타내는 각각의 기여 척도를 결정한다. 도 6은 하나 이상의 실시예에 따른 뉴클레오티드-염기 호출과 연관된 시퀀싱 메트릭에 대한 기여 척도의 예시적인 시각화를 예시한다.
도 6에 예시된 바와 같이, 클라이언트 디바이스(108)는 대응하는 시퀀싱 메트릭과 연관된 기여 척도의 개별적인 묘사를 포함하는 기여-척도 인터페이스(602)를 표시한다. 실제로, 염기-호출자-재교정 시스템(106)은 시퀀싱 메트릭이 최종 뉴클레오티드-염기 호출에 얼마나 영향력이 있고 영향을 주는지에 기초하여 시퀀싱 메트릭에 대한 기여 척도를 결정한다. 딥 러닝 아키텍처를 이용하는 많은 이전 시스템과 달리, 염기-호출자-재교정 시스템(106)에 의해 사용되는 호출-생성 모델의 구조는 메트릭 단위로 이러한 기여 척도의 결정을 용이하게 한다.
예를 들어, 염기-호출자-재교정 시스템(106)은 뉴클레오티드-염기 호출에 대한 시퀀싱 메트릭 각각에 대한 섀플리 부가 설명(SHAP: Shapley Additive Explanation) 값을 결정함으로써 기여 척도를 결정한다. 구체적으로, 염기-호출자-재교정 시스템(106)은 베이스라인 값(예를 들어, 시퀀싱 메트릭에 대한 베이스라인 값)의 결과와 비교하여 시퀀싱 메트릭의 영향을 결정함으로써 SHAP 값을 결정한다. 도 6에 도시된 바와 같이, 염기-호출자-재교정 시스템(106)은 다수의 나열된 시퀀싱 메트릭에 대한 기여 척도를 결정하며, 여기서 각각의 시퀀싱 메트릭에 대한 그래프의 더 두꺼운(예를 들어, 더 둥근) 부분은 (대략) 그 기여 척도를 나타낸다.
도 6에 추가로 도시된 바와 같이, 염기-호출자-재교정 시스템(106)은 기여 척도에 따라 시퀀싱 메트릭의 순위를 매길 수도 있다. 예를 들어, 염기-호출자-재교정 시스템(106)은 mapq_p 메트릭에 대한 기여가 기여-척도 인터페이스(602) 내에 표시된 것 중에서 가장 높다고 결정하고, 그 다음에는 qual 메트릭, gt0 메트릭 등이 목록 아래로 따라온다.
위에서 언급한 바와 같이, 특정의 설명된 실시예에서, 염기-호출자-재교정 시스템(106)은 이전 시스템에 비해 정확도를 개선한다. 특히, 염기-호출자-재교정 시스템(106)은 이전 시스템에 비해 위양성 변이-뉴클레오티드-염기 호출 및 위음성 변이-뉴클레오티드-염기 호출을 감소시킨다. 실제로, 뉴클레오티드-염기 호출을 재교정하기 위해 호출-재교정-기계-학습 모델을 이용함으로써, 염기-호출자-재교정 시스템(106)은 호출-재교정 기계-학습 모델을 이용하지 않은 이전 버전의 호출-생성 모델(그러나, 여전히 다른 시스템보다 성능이 뛰어남)에 비해 더 개선된다. 도 7a 및 도 7b는 하나 이상의 실시예에 따른 염기-호출자-재교정 시스템(106)의 개선을 묘사하는 그래프를 예시한다. 구체적으로, 도 7a는 SNP의 뉴클레오티드-염기 호출에 대한 개선을 예시하며, 도 7b는 비(non)-SNP(예를 들어, 삽입 및 결실)에 대한 개선을 예시한다.
도 7a에 예시된 바와 같이, 그래프(702)는 호출-재교정-기계-학습 모델에 의한 변이-호출 분류를 통해 재교정하지 않고 호출-생성 모델(예를 들어, 호출-생성 모델(420))을 이용하는 시스템과 비교하여 염기-호출자-재교정 시스템(106)에 대한 SNP 위양성의 감소를 예시하는 수신자 동작 특성(ROC: receiver operating characteristic) 곡선을 포함한다. 그래프(702)는 검출된 위양성 변이에 대한 감도를 나타내는 2개의 상이한 ROC 곡선의 부분을 묘사하며, 여기서 감도는 정확하게 결정된 진양성-변이 호출의 수를 진양성-변이 호출과 위양성-변이 호출의 합으로 나눈 값을 나타낸다. 특히, 그래프(702)는 호출-재교정-기계-학습 모델, 즉, "재교정된 모델"을 이용하는 염기-호출자-재교정 시스템(106)에 대한 ROC 곡선을 묘사한다. "재교정된 모델"은 PrecisionFDA HG002 고신뢰 진리 세트(truth set)를 사용하여 테스트된 호출-재교정-기계 학습 모델을 지칭한다. 추가적으로, 그래프(702)는 호출-재교정-기계-학습 모델이 없는 호출-생성 모델, 즉, "재교정되지 않은 모델"에 대한 감도 ROC 곡선을 묘사한다. 각각의 ROC 곡선의 상단을 확대하기 위해, 감도에 대한 y-축은 약 0.985에서 시작합니다. "재교정된 모델"에 대한 ROC 곡선의 끝에서, 감도는 ~0.998이다.
도시된 바와 같이, 호출-재교정-기계-학습 모델을 갖는 염기-호출자-재교정 시스템(106)은 (예를 들어, 동일한 y-축 값에서 재교정되지 않은 모델 곡선과 비교할 때 재교정된 모델 곡선의 좌측 시프트에 의해 나타낸) 특정 감도에서 위양성에 대해 대략 65% 개선을 나타낸다. 테이블(704)에 나타낸 바와 같이, 다른 예로서, 최상의 측정 포인트에서, 염기-호출자-재교정 시스템(106)은 단지 4,073개의 위양성을 생성하는 반면, 재교정되지 않은 시스템은 6,972개의 위양성을 생성한다.
테이블(704)에 추가로 묘사된 바와 같이, 염기-호출자-재교정 시스템(106)은 또한 다른 개선점을 나타낸다. 예를 들어, 염기-호출자-재교정 시스템(106)은 재교정되지 않은 시스템보다 더 적은 위음성 및 더 적은 유전자형 오류(예를 들어, het/hom 오류)를 생성한다. 염기-호출자-재교정 시스템(106)은 또한 재교정되지 않은 시스템에 비해 리콜(recall), 정밀도 및 F-척도에서 개선되며, 모두 전체 계산 시간에 최소한으로 추가된다. 특히, 호출-재교정-기계-학습 모델을 호출 생성 모델에 추가함으로써, 호출-재교정-기계-학습 모델은 시퀀싱 실행에서 변이 호출 파일을 생성하는 데 대략 1 내지 5분을 추가한다(예를 들어, 대략 21 내지 25분).
도 7b에 예시된 바와 같이, 그래프(706)는 호출-생성 모델의 재교정되지 않은 버전과 비교하여 염기-호출자-재교정 시스템(106)에 대한 비-SNP(즉, 삽입 및 결실) 위양성의 감소를 예시하는 ROC 곡선을 포함한다. 위의 논의와 유사하게, 그래프(706)는 "재교정되지 않은 모델"과 비교하여 호출-재교정-기계-학습 모델("재교정된 모델")을 이용하는 염기-호출자-재교정 시스템(106)을 묘사한다. 각각의 ROC 곡선의 상단을 확대하기 위해, 감도에 대한 y-축은 약 0.98에서 시작한다.
그래프(706)에 의해 도시된 바와 같이, 염기-호출자-재교정 시스템(106)은 (예를 들어, 더 큰 도트(dot)로 나타낸) 동일한 감도에서 비-SNP 위양성을 개선한다. 예를 들어, 테이블(708)에 나타낸 바와 같이, 최상의 측정 포인트에서, 염기-호출자-재교정 시스템(106)은 예시된 감도에서 998개의 위양성만을 생성하는 반면, 재교정되지 않은 시스템은 1,342개의 위양성을 생성한다.
테이블(708)에 의해 추가로 묘사된 바와 같이, 염기-호출자-재교정 시스템(106)은 이전 시스템에 비해 다른 개선도 나타낸다. 예를 들어, 염기-호출자-재교정 시스템(106)은 재교정되지 않은 시스템보다 더 적은 유전자형 오류(예를 들어, het/hom 오류)를 생성한다. 염기-호출자-재교정 시스템(106)은 또한 재교정되지 않은 시스템에 비해 비-SNP에 대한 정밀도 및 F-척도에서 개선된다.
도 7a 및 도 7b의 ROC 곡선에 의해 도시된 정확도 개선에 추가하여, 도 8은 교정되지 않은 시스템에 비해 염기-호출자-재교정 시스템(106)에 의해 개선된 정확도를 보여주는 그래프(802)를 예시한다. 구체적으로, 그래프(802)는 (예를 들어, 해시 테이블(HT: hash table) 및 그래프 해시 테이블 모두에 대해 생성된) SNP 및 삽입 및 결실 모두에 대해 재교정되지 않은 시스템의 위양성 변이 호출 및 위음성 변이 호출에 대한 염기-호출자-재교정 시스템(106)에 대한 위양성 변이 호출(FP) 및 위음성 변이 호출(FN)을 묘사한다. 도시된 바와 같이, 염기-호출자-재교정 시스템(106)은 SNP 및 삽입 및 결실 모두에 대한 표준 및 그래프 해시 테이블에 대한 최상의 F1 스코어 측정 포인트에서 전체 FP+FN 값을 크게 감소시킨다. 실제로, 염기-호출자-재교정 시스템(106)은 호출-재교정-기계-학습 모델을 이용하여 위양성의 수와 위음성의 수를 감소시킨다.
이제 도 9를 참조하면, 이 도면은 하나 이상의 실시예에 따른 호출-재교정-기계-학습 모델로부터의 변이-호출 분류에 기초하여 뉴클레오티드-염기 호출을 생성하는 일련의 동작(900)의 흐름도를 예시한다. 도 9는 일 실시예에 따른 동작을 예시하지만, 대안적인 실시예는 도 9에 도시된 동작 중 임의의 것을 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 9의 동작은 방법의 일부로서 수행될 수 있다. 대안적으로, 비일시적 컴퓨터 판독 가능 저장 매체는 하나 이상의 프로세서에 의해 실행될 때 컴퓨팅 디바이스가 도 9에 묘사된 동작을 수행하도록 하는 명령어를 포함할 수 있다. 또 다른 실시예에서, 시스템은 적어도 하나의 프로세서 및 하나 이상의 프로세서에 의해 실행될 때 시스템이 도 9의 동작을 수행하도록 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체를 포함한다.
도 9에 도시된 바와 같이, 동작 900은 뉴클레오티드-염기 호출에 대한 시퀀싱 메트릭을 결정하는 동작 902를 포함한다. 특히, 동작 902는 샘플 뉴클레오티드 서열의 게놈 좌표에 대응하는 뉴클레오티드 리드의 뉴클레오티드-염기 호출에 대한 시퀀싱 메트릭을 결정하는 것을 포함한다. 예를 들어, 동작 902는 리드-기반 시퀀싱 메트릭, 호출-모델-생성 시퀀싱 메트릭, 또는 외부적으로 소싱된 시퀀싱 메트릭 중 하나 이상을 결정하는 것을 포함한다. 일부 경우에, 호출-모델-생성 시퀀싱 메트릭을 결정하는 것은 호출-생성 모델로부터 변이-호출 시퀀싱 메트릭과 매핑-및-정렬 시퀀싱 메트릭을 결정하는 것을 수반한다. 특정 실시예에서, 동작 902는 뉴클레오티드-염기 호출에 대한 다른 시퀀싱 메트릭으로부터 도출된 리엔지니어링된 시퀀싱 메트릭을 결정하는 것을 수반한다. 동작 902는 또한 샘플 뉴클레오티드 서열의 뉴클레오티드 리드로부터 도출된 메트릭, 호출-생성 모델을 통해 생성된 호출-모델-생성 시퀀싱 메트릭, 또는 하나 이상의 외부 데이터베이스로부터 식별된 외부적으로 소싱된 시퀀싱 메트릭을 포함하는 리드-기반 시퀀싱 메트릭 중 하나 이상을 결정하는 것을 포함할 수 있다.
또한, 일련의 동작 900은 시퀀싱 메트릭에 기초하여 변이-호출 분류를 생성하는 동작 904를 포함한다. 특히, 동작 904는 호출-재교정-기계-학습 모델을 이용하고 시퀀싱 메트릭에 기초하여 게놈 좌표에서 변이를 식별하는 정확도를 나타내는 하나 이상의 변이-호출 분류를 생성하는 것을 수반한다. 일부 실시예에서, 일련의 동작 900은 하나 이상의 변이-호출 분류에 기초하여 호출 품질, 유전자형, 또는 유전자형 품질 중 하나 이상에 대한 변이 호출 파일에 대응하는 하나 이상의 데이터 필드를 수정하는 동작을 포함한다. 일부 경우에, 동작 904는 위양성 분류, 유전자형-오류 분류 또는 진양성 분류 중 하나 이상을 생성하는 것을 수반한다. 동작 904는 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출에 대한 유전자형에 대응하는 하나 이상의 분류를 생성하기 위해 호출-재교정-기계-학습 모델을 이용하는 것을 수반할 수 있다. 일부 경우에, 호출-재교정-기계-학습 모델은 신경망, 딥-러닝 변환기, 그래디언트 부스트 결정 트리, 랜덤 포레스트 모델, 선형 회귀, 서포트 벡터 머신 또는 로지스틱 회귀 중 하나 이상을 포함한다.
특정 실시예에서, 동작 904는 호출-재교정-기계-학습 모델을 이용하여 변이-호출 시퀀싱 메트릭과 매핑-및-정렬 시퀀싱 메트릭에 기초하여 하나 이상의 변이-호출 분류를 생성하는 것을 수반한다. 동작 904는 변이 호출 또는 뉴클레오티드-염기 호출이 위양성일 위양성 확률, 변이 호출에 또는 뉴클레오티드-염기 호출에 대한 유전자형이 부정확할 유전자형-오류 확률 또는 변이 호출 또는 뉴클레오티드-염기 호출이 진양성일 진양성 확률 중 하나 이상을 생성하기 위해 기계-학습 분류기를 이용하는 것을 포함할 수 있다. 동작 904는 또한 최종 뉴클레오티드-염기 호출이 위양성일 위양성 확률, 최종 뉴클레오티드-염기 호출에 대한 유전자형이 부정확할 유전자형-오류 확률 또는 최종 뉴클레오티드-염기 호출이 진양성일 진양성 확률 중 하나 이상을 생성하기 위해 기계-학습 분류기를 이용하는 것을 포함할 수 있다.
도 9에 추가로 예시된 바와 같이, 일련의 동작 900은 변이-호출 분류에 기초하여 최종 뉴클레오티드-염기 호출을 결정하는 동작 906을 포함한다. 특히, 동작 906은 하나 이상의 변이-호출 분류에 기초하여 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출을 결정하는 것을 수반한다. 예를 들어, 동작 906은 하나 이상의 시퀀싱 메트릭에 기초한 호출-생성 모델을 이용하여 게놈 좌표에 대한 초기 뉴클레오티드-염기 호출을 결정하고 호출-재교정-기계-학습 모델로부터의 하나 이상의 변이-호출 분류에 기초하여 변이 호출 파일 및 초기 뉴클레오티드-염기 호출에 대응하는 하나 이상의 데이터 필드를 수정하는 것을 수반한다. 일부 경우에, 동작 906은 하나 이상의 변이-호출 분류에 기초하여 게놈 좌표에 대한 변이 호출을 생성하는 것을 수반한다. 일부 실시예에서, 동작 906은 단일 뉴클레오티드 다형성, 결실, 삽입 또는 게놈 좌표에 대응하는 구조적 변이를 포함하는 변이 호출의 일부로서 최종 뉴클레오티드-염기 호출을 결정하는 것을 수반한다.
실제로, 동작 906은 초기 뉴클레오티드-염기 호출의 유전자형을 업데이트된 뉴클레오티드-염기 호출의 업데이트된 유전자형으로 변경함으로써 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출을 결정하는 것을 수반할 수 있다. 일련의 동작 900은 또한 하나 이상의 변이-호출 분류에 기초하여 변이 호출에 대한 염기-호출-품질 메트릭을 업데이트하고, 변이 호출에 대한 염기-호출-품질 메트릭이 품질 필터를 통과한다고 결정하고, 품질 필터를 통과한 염기-호출-품질 메트릭에 기초하여 변이 호출을 포함하는 변이 호출 파일을 생성하는 단계를 포함할 수 있다.
일부 실시예에서, 일련의 동작 900은 하나 이상의 변이-호출 분류에 기초하여 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭을 증가시키는 동작을 포함한다. 이러한 실시예 또는 다른 실시예에서, 일련의 동작 900은 증가된 염기-호출-품질 메트릭이 품질 필터를 통과한다고 결정하고 증가된 염기-호출-품질 메트릭에 기초하여 최종 뉴클레오티드-염기 호출을 포함하는 변이 호출 파일을 생성하거나, 대안적으로 증가된 염기-호출-품질 메트릭에 기초하여 최종 뉴클레오티드-염기 호출을 포함하도록 변이 호출 파일을 업데이트하는 동작을 포함한다. 특정 경우에, 일련의 동작 900은 하나 이상의 변이-호출 분류에 기초하여 최종 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭을 감소시키고, 감소된 염기-호출-품질 메트릭이 품질 필터를 통과하지 못하는 것으로 결정하고, 품질 필터를 통과하지 못한 감소된 염기-호출-품질 메트릭에 기초하여 최종 뉴클레오티드-염기 호출을 배제하는 사후-필터 변이 호출 파일을 생성하거나, 대안적으로 감소된 염기-호출-품질 메트릭에 기초하여 최종 뉴클레오티드-염기 호출을 배제하도록 변이 호출 파일을 업데이트하는 동작을 포함한다.
하나 이상의 구현에서, 일련의 동작 900은 시퀀싱 메트릭이 변이 호출, 뉴클레오티드-염기 호출, 또는 최종 뉴클레오티드-염기 호출에 미치는 영향의 개별 척도를 나타내는 시퀀싱 메트릭에 대한 기여 척도를 결정하고, 클라이언트 디바이스 상에 표시하기 위해, 하나 이상의 시퀀싱 메트릭에 대응하는 기여 척도의 시각화를 제공하는 동작을 포함한다.
본원에 설명된 방법은 다양한 핵산 시퀀싱 기술과 함께 사용될 수 있다. 특히 적용 가능한 기술은 핵산이 어레이의 고정된 위치에 부착되어 상대적인 포지션이 변하지 않고 어레이가 반복적으로 이미징되는 기술이다. 예를 들어, 하나의 뉴클레오티드 염기 유형을 다른 것으로부터 구별하기 위해 사용되는 상이한 라벨과 일치하는, 상이한 컬러 채널에서 이미지가 획득되는 실시예가 특히 적용 가능하다. 일부 구현에서, 타깃 핵산(즉, 핵산 중합체)의 뉴클레오티드 서열을 결정하는 프로세스는 자동화된 프로세스일 수 있다. 바람직한 실시예는 합성에 의한 시퀀싱(SBS: sequencing-by-synthesis) 기술을 포함한다.
SBS 기술은 일반적으로 템플릿 스트랜드에 대한 뉴클레오티드의 반복적인 추가를 통해 초기 핵산 스트랜드의 효소적 확장을 수반한다. SBS의 통상적인 방법에서, 단일 뉴클레오티드 단량체가 각각의 전달에서 중합 효소의 존재 하에 타깃 뉴클레오티드에 제공될 수 있다. 그러나, 본원에 설명된 방법에서, 전달 시 중합 효소의 존재 하에 하나 초과의 유형의 뉴클레오티드 단량체가 타깃 핵산에 제공될 수 있다.
SBS는 터미네이터 모이어티(terminator moiety)를 갖거나 어떠한 터미네이터 모이어티도 없는 뉴클레오티드 단량체를 이용할 수 있다. 터미네이터가 없는 뉴클레오티드 단량체를 이용하는 방법은 예를 들어, 이하에서 추가로 상세히 제시되는 바와 같이, γ-포스페이트-라벨링된 뉴클레오티드를 사용하는 파이로시퀀싱(pyrosequencing) 및 시퀀싱을 포함한다. 터미네이터가 없는 뉴클레오티드 단량체를 사용하는 방법에서, 각각의 사이클에서 추가되는 뉴클레오티드의 수는 일반적으로 가변적이며 템플릿 서열 및 뉴클레오티드 전달 모드에 따른다. 터미네이터 모이어티를 갖는 뉴클레오티드 단량체를 이용하는 SBS 기술의 경우, 터미네이터는 디데옥시뉴클레오티드를 이용하는 통상적인 생어(Sanger) 시퀀싱의 경우와 같이 사용된 시퀀싱 조건 하에서 효과적으로 비가역적일 수 있거나, 또는 터미네이터는 Solexa(현재 Illumina, Inc.)에 의해 개발된 시퀀싱 방법에 대한 경우와 같이 가역적일 수 있다.
SBS 기술은 라벨 모이어티를 갖는 뉴클레오티드 단량체 또는 라벨 모이어티가 없는 뉴클레오티드 단량체를 이용할 수 있다. 따라서, 통합 이벤트가 라벨의 형광성; 분자량이나 전하와 같은 뉴클레오티드 단량체의 특성; 파이로포스페이트의 방출과 같은 뉴클레오티드 통합의 부산물 등과 같은 라벨의 특성에 기초하여 검출될 수 있다. 2개 이상의 상이한 뉴클레오티드가 시퀀싱 시약에 존재하는 실시예에서, 상이한 뉴클레오티드는 서로 구별될 수 있거나, 대안적으로 2개 이상의 상이한 라벨은 사용되는 검출 기술 하에서 구별되지 않을 수 있다. 예를 들어, 시퀀싱 시약에 존재하는 상이한 뉴클레오티드는 상이한 라벨을 가질 수 있으며, Solexa(현재 Illumina, Inc.)에서 개발된 시퀀싱 방법에 의해 예시되는 바와 같이 적절한 광학계를 사용하여 구별될 수 있다.
바람직한 실시예는 파이로시퀀싱 기술을 포함한다. 파이로시퀀싱은 특정 뉴클레오티드가 초기 스트랜드에 통합됨에 따라 무기 파이로포스페이트(PPi)의 방출을 검출한다(Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M.및 Nyren, P.(1996) "실시간 파이로포스페이트 방출의 검출을 사용한 실시간 DNA 시퀀싱." Analytical Biochemistry 242(1), 84-9; Ronaghi, M.(2001) "DNA 시퀀싱에 대한 파이로시퀀싱 쉐드(shed) 광". Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M.및 Nyren, P.(1998) "실시간 파이로포스페이트에 기초한 시퀀싱 방법". Science 281(5375), 363; 미국 특허 6,210,891호; 미국 특허 6,258,568호 및 미국 특허 6,274,320호, 이의 개시는 그 전체가 본원에 참조로 통합됨). 파이로시퀀싱에서, 방출된 PPi는 ATP 설퍼릴라제(sulfurylase)에 의해 즉시 아데노신 삼인산(ATP)으로 변환되어 검출될 수 있으며, 생성된 ATP의 레벨은 루시퍼라제(luciferase)-생성 광자를 통해 검출된다. 시퀀싱될 핵산은 어레이의 특징부에 부착될 수 있고, 어레이의 특징부에서의 뉴클레오티드의 통합으로 인해 생성되는 화학 발광 신호를 캡처하기 위해 어레이가 이미징될 수 있다. 어레이가 특정 뉴클레오티드 유형(예를 들어, A, T, C 또는 G)으로 처리된 후 이미지가 획득될 수 있다. 각각의 뉴클레오티드 유형의 추가 후 획득된 이미지는 어레이의 어떤 특징부가 검출되는지에 대해 상이할 것이다. 이미지의 이러한 차이는 어레이 상의 특징부의 상이한 서열 컨텐츠를 반영한다. 그러나, 각각의 특징부의 상대적 위치는 이미지에서 변하지 않고 유지될 것이다. 이미지는 본원에 제시된 방법을 사용하여 저장, 프로세싱 및 분석될 수 있다. 예를 들어, 각각의 상이한 뉴클레오티드 유형으로 어레이를 처리한 후에 획득된 이미지는 가역적 터미네이터-기반 시퀀싱 방법에 대한 상이한 검출 채널로부터 획득된 이미지에 대해 본원에 예시된 것과 동일한 방식으로 처리될 수 있다.
SBS의 다른 예시적인 유형에서, 사이클 시퀀싱은 예를 들어, 그 개시가 본원에 참조로 통합되는 WO 04/018497호 및 미국 특허 7,057,026호에 설명된 바와 같이 절단 가능 또는 광표백 가능 염료 라벨을 포함하는 가역적 터미네이터 뉴클레오티드의 단계별 추가에 의해 달성된다. 이러한 접근법은 Solexa(현재 Illumina Inc.)에 의해 상용화되고 있으며, 또한 WO 91/06678호 및 WO 07/123,744호에 설명되어 있으며, 이들 각각은 본원에 참조로 통합된다. 터미네이션(termination)이 역전될 수 있고 형광 라벨이 절단될 수 있는 형광성으로 라벨링된 터미네이터의 가용성은 효율적인 사이클릭 가역 터미네이션(CRT: cyclic reversible termination) 시퀀싱을 용이하게 한다. 중합 효소가 또한 이러한 수정된 뉴클레오티드를 효율적으로 통합하고 이로부터 확장하도록 코-엔지니어링(co-engineering)될 수 있다.
바람직하게는 가역적 터미네이터-기반 시퀀싱 실시예에서, 라벨은 SBS 반응 조건 하에서 확장을 실질적으로 억제하지 않는다. 그러나, 검출 라벨은 예를 들어, 절단이나 분해에 의해 제거 가능할 수 있다. 배열된 핵산 특징부에 라벨을 통합한 후 이미지가 캡처될 수 있다. 특정 실시예에서, 각각의 사이클은 4개의 상이한 뉴클레오티드 유형을 어레이에 동시에 전달하는 것을 수반하고, 각각의 뉴클레오티드 유형은 스펙트럼상으로 구별되는 라벨을 갖는다. 그 후 4개의 상이한 라벨 중 하나에 대해 선택적인 검출 채널을 각각 사용하여 4개의 이미지가 획득될 수 있다. 대안적으로, 상이한 뉴클레오티드 유형이 순차적으로 추가될 수 있으며, 각각의 추가 단계 사이에서 어레이의 이미지가 획득될 수 있다. 이러한 실시예에서, 각각의 이미지는 특정 유형의 뉴클레오티드를 통합한 핵산 특징부를 보여줄 것이다. 각각의 특징부의 상이한 서열 컨텐츠로 인해 상이한 이미지에 상이한 특징부가 있거나 없다. 그러나, 특징부의 상대적 포지션은 이미지에서 변하지 않고 유지될 것이다. 이러한 가역적 터미네이터-SBS 방법으로부터 획득된 이미지는 본원에 제시된 바와 같이 저장, 프로세싱 및 분석될 수 있다. 이미지 캡처 단계 후에, 라벨은 제거될 수 있으며 뉴클레오티드 추가 및 검출의 후속 사이클을 위해 가역적 터미네이터 모이어티가 제거될 수 있다. 특정 사이클에서 라벨이 검출된 후 그리고 후속 사이클 이전에 라벨의 제거는 배경 신호와 사이클 간 크로스토크(crosstalk)를 감소시키는 이점을 제공할 수 있다. 유용한 라벨 및 제거 방법의 예가 아래에 제시된다.
특정 실시예에서 뉴클레오티드 단량체 중 일부 또는 전부는 가역적 터미네이터를 포함할 수 있다. 이러한 실시예에서, 가역적 터미네이터/절단 가능 플루오르(fluor)는 3' 에스테르 연결을 통해 리보스(ribose) 모이어티에 링크된 플루오르를 포함할 수 있다(Metzker, Genome Res. 15:1767-1776(2005), 이는 참조로 본원에 통합됨). 다른 접근법은 형광 라벨의 절단으로부터 터미네이터 케미스트리를 분리했다(Ruparel 등, Proc Natl Acad Sci USA 102: 5932-7(2005), 이는 그 전체가 참조로 본원에 통합됨). Ruparel 등은 확장을 차단하기 위해 작은 3' 알릴(allyl) 기를 사용했지만 팔라듐 촉매로 짧은 처리에 의해 쉽게 차단 해제될 수 있는 가역적 터미네이터의 개발을 설명했다. 형광단(fluorophore)은 장파장 UV 광에 30초 노출에 의해 쉽게 절단될 수 있는 광 절단 가능 링커를 통해 베이스에 부착되었다. 따라서, 이황화물 환원 또는 광 절단이 절단 가능한 링커로서 사용될 수 있다. 가역적 터미네이션에 대한 다른 접근법은 dNTP에 부피가 큰 염료를 배치한 후 발생하는 자연 터미네이션의 사용이다. dNTP에 차징된(charged) 부피가 큰 염료의 존재는 입체(steric) 및/또는 정전 장애를 통해 효과적인 터미네이터로서의 역할을 할 수 있다. 하나의 통합 이벤트의 존재는 염료가 제거되지 않는 한 추가 통합을 방지한다. 염료의 절단은 플루오르를 제거하고 효과적으로 터미네이션을 반전시킨다. 수정된 뉴클레오티드의 예는 또한 미국 특허 7,427,673호 및 미국 특허 7,057,026호에 설명되어 있으며, 그 개시는 전체가 본원에 참조로 통합된다.
본원에 설명된 방법 및 시스템과 함께 이용될 수 있는 추가의 예시적인 SBS 시스템 및 방법은 미국 특허 출원 공개 번호 제2007/0166705, 미국 특허 출원 공개 번호 제2006/0188901호, 미국 특허 번호 제7,057,026호, 미국 특허 출원 공개 번호 제2006/0240439호, 미국 특허 출원 공개 번호 제2006/0281109호, PCT 공개 번호 제WO 05/065814호, 미국 특허 출원 공개 번호 제2005/0100900호, PCT 공개 번호 제WO 06/064199호, PCT 공개 번호 제WO 07/010,251호, 미국 특허 출원 공개 번호 제2012/0270305호 및 미국 특허 출원 공개 번호 제2013/0260372호에 설명되며, 그 개시는 전체가 본원에 참조로 통합된다.
일부 실시예는 4개 미만의 상이한 라벨을 사용하여 4개의 상이한 뉴클레오티드의 검출을 이용할 수 있다. 예를 들어, SBS는 미국 특허 출원 공개 번호 제2013/0079232호의 통합된 자료에 설명된 방법 및 시스템을 이용하여 수행될 수 있다. 제1 예로서, 한 쌍의 뉴클레오티드 유형은 동일한 파장에서 검출될 수 있지만, 다른 것과 비교하여 쌍의 하나의 멤버에 대한 강도 차이에 기초하여 구별되거나, 쌍의 다른 멤버에 대해 검출된 신호와 비교하여 명백한 신호가 나타나거나 사라지게 하는 (예를 들어, 화학적 수정, 광화학적 수정 또는 물리적 수정을 통해) 쌍의 하나의 멤버에 대한 변경에 기초하여 구별될 수 있다. 제2 예로서, 4개의 상이한 뉴클레오티드 유형 중 3개가 특정 조건 하에서 검출될 수 있는 반면, 제4 뉴클레오티드 유형에는 해당 조건에서 검출 가능하거나 해당 조건 하에 최소한으로 검출되는(예를 들어, 배경 형광으로 인한 최소 검출 등) 라벨이 없다. 처음 3개의 뉴클레오티드 유형의 핵산으로의 통합은 각각의 신호의 존재에 기초하여 결정될 수 있으며, 네 번째 뉴클레오티드 유형의 핵산으로의 통합은 임의의 신호의 부재 또는 최소 검출에 기초하여 결정될 수 있다. 제3 예로서, 하나의 뉴클레오티드 유형은 2개의 상이한 채널에서 검출되는 라벨(들)을 포함할 수 있는 반면, 다른 뉴클레오티드 유형은 채널 중 하나에서만 검출된다. 위에 언급한 3개의 예시적인 구성은 상호 배타적인 것으로 간주되지 않으며 다양한 조합으로 사용될 수 있다. 3개의 예를 모두 조합한 예시적인 실시예는 제1 채널에서 검출되는 제1 뉴클레오티드 유형(예를 들어, 제1 여기 파장에 의해 여기될 때 제1 채널에서 검출되는 라벨을 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오티드 유형(예를 들어, 제2 여기 파장에 의해 여기될 때 제2 채널에서 검출되는 라벨을 갖는 dCTP), 제1 및 제2 채널 모두에서 검출되는 제3 뉴클레오티드 유형(예를 들어, 제1 및/또는 제2 여기 파장에 의해 여기될 때 두 채널 모두에서 검출되는 적어도 하나의 라벨을 갖는 dTTP) 및 어느 채널에서도 검출되지 않거나 최소로 검출되는 라벨이 없는 제4 뉴클레오티드 유형(예를 들어, 라벨을 갖지 않는 dGTP)을 사용하는 형광-기반 SBS 방법이다.
추가로, 미국 특허 출원 공개 번호 제2013/0079232호의 통합된 자료에 설명된 바와 같이, 시퀀싱 데이터는 단일 채널을 사용하여 획득될 수 있다. 이러한 소위 하나의-염료 시퀀싱 접근법에서, 제1 뉴클레오티드 유형이 라벨링되지만 제1 이미지가 생성된 후에 라벨이 제거되고, 제2 뉴클레오티드 유형은 제1 이미지가 생성된 후에만 라벨링된다. 제3 뉴클레오티드 유형은 제1 이미지와 제2 이미지 모두에서 해당 라벨을 유지하고, 제3 뉴클레오티드 유형은 두 이미지 모두에서 라벨링되지 않고 유지된다.
일부 실시예는 결찰(ligation) 기술에 의한 시퀀싱을 이용할 수 있다. 이러한 기술은 올리고뉴클레오티드를 통합하고 이러한 올리고뉴클레오티드의 통합을 식별하기 위해 DNA 리가제(ligase)를 이용한다. 올리고뉴클레오티드는 통상적으로 올리고뉴클레오티드가 혼성화하는 서열에서 특정 뉴클레오티드의 아이덴티티와 상관되는 상이한 라벨을 갖는다. 다른 SBS 방법과 같이, 라벨링된 시퀀싱 시약으로 핵산 특징부의 어레이의 처리 후 이미지가 획득될 수 있다. 각각의 이미지는 특정 유형의 라벨이 통합된 핵산 특징부를 나타낼 것이다. 각각의 특징부의 상이한 서열 컨텐츠로 인해 상이한 특징부가 상이한 이미지에 존재하거나 존재하지 않지만, 특징부의 상대적 포지션은 이미지에서 변경되지 않고 유지될 것이다. 결찰-기반 시퀀싱 방법으로 획득된 이미지는 본원에 제시되는 바와 같이 저장, 프로세싱 및 분석될 수 있다. 본원에 설명된 방법 및 시스템과 함께 이용될 수 있는 예시적인 SBS 시스템 및 방법은 미국 특허 6,969,488호, 미국 특허 6,172,218호 및 미국 특허 6,306,597호에 설명되어 있으며, 그 개시는 전체가 참조로 본원에 통합된다.
일부 실시예는 나노포어(nanopore) 시퀀싱을 이용할 수 있다(Deamer, D. W. 및 Akeson, M. "나노포어 및 핵산: 초급속 시퀀싱을 위한 전망" Trends Biotechnol. 18, 147-151 (2000); 시예에서, 타깃 핵산은 나노포어를 통과한다. Deamer, D. 및 D. Branton, "나노포어 분석에 의한 핵산의 특성화" Acc. Chem. Res. 35:817-825(2002); Li, J., M. Gershow, D. Stein, E. Brandin, 및 J. A. Golovchenko, "DNA 분자 및 고체 상태 나노포어 현미경의 구성" Nat. Mater. 2:611-615(2003), 그 개시는 전체가 본원에 참조로 통합됨). 이러한 실시예에서, 타깃 핵산은 나노포어를 통과한다. 나노포어는 합성 포어 또는 α-헤모리신과 같은 생물학적 멤브레인 단백질일 수 있다. 타깃 핵산이 나노포어를 통과하면서, 포어의 전기 전도도 변동을 측정하여 각각의 염기쌍이 식별될 수 있다. (미국 특허 7,001,792호; Soni, G.V. 및 Meller, "A. 고체-상태 나노포어를 사용한 초급속 DNA 시퀀싱을 향한 진보" Clin. Chem. 53, 1996-2001(2007); Healy, K. "나노포어-기반 단일-분자 DNA 분석." Nanomed. 2, 459-481(2007); Cockroft, S.L., Chu, J., Amorin, M.& Ghadiri, M.R. "단일-분자 나노포어 디바이스가 단일-뉴클레오티드 해상도로 DNA 중합 효소 활성을 검출" J. Am. Chem. Soc. 130, 818-820(2008), 그 개시는 전체가 본원에 참조로 통합됨). 나노포어 시퀀싱에서 획득된 데이터는 본원에 제시된 바와 같이, 저장, 프로세싱 및 분석될 수 있다. 특히, 데이터는 본원에 제시된 광학 이미지 및 다른 이미지의 예시적인 처리에 따라 이미지로서 처리될 수 있다.
일부 실시예는 DNA 중합 효소 활성의 실시간 모니터링을 수반하는 방법을 이용할 수 있다. 뉴클레오티드 통합은 예를 들어, 미국 특허 7,329,492호 및 미국 특허 7,211,414호(그 각각은 참조로 본원에 통합됨)에 설명된 바와 같이 형광단-함유 중합 효소와 γ-포스페이트-라벨링된 뉴클레오티드 사이의 형광 공진 에너지 전달(FRET: fluorescence resonance energy transfer) 상호 작용을 통해 검출될 수 있거나, 뉴클레오티드 통합은 예를 들어, 미국 특허 7,315,019호(본원에 참조로 통합됨)에 설명된 바와 같이 제로-모드 도파관으로 검출될 수 있고, 예를 들어, 미국 특허 7,405,281호 및 미국 특허 출원 공개 번호 제2008/0108082호(그 각각은 참조로 본원에 통합됨)에 설명된 바와 같이 형광 뉴클레오티드 유사체 및 엔지니어링된 중합 효소를 사용하여 검출될 수 있다. 조명은 형광 라벨링된 뉴클레오티드의 통합이 낮은 배경으로 관찰될 수 있도록 표면에 묶인 중합 효소 주위의 젭토리터(zeptoliter)-스케일 부피로 제한될 수 있다(Levene, M.J. 등. "고농도에서 단일-분자 분석을 위한 제로-모드 도파관." Science 299, 682-686(2003); Lundquist, P.M. 등. "실시간으로 단일 분자의 병렬 공초점 검출." Opt. Lett. 33, 1026-1028(2008); Korlach, J. "제로-모드 도파관 나노 구조에서 단일 DNA 중합 효소 분자의 타깃화된 고정화를 위한 선택적 알루미늄 패시베이션." Proc. Natl. Acad. Sci. USA 105, 1176-1181(2008), 그 개시는 전체가 본원에 참조로 통합됨). 이러한 방법으로 획득된 이미지는 본원에 제시된 바와 같이 저장, 프로세싱 및 분석될 수 있다.
일부 SBS 실시예는 뉴클레오티드를 확장 생성물에 통합할 때 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출에 기초한 시퀀싱은 Ion Torrent(Guilford, CT, a Life Technologies subsidiary)로부터 상업적으로 이용 가능한 전기 검출기 및 관련 기술 또는 US 2009/0026082 A1호; US 2009/0127589 A1호; US 2010/0137143 A1호; 또는 US 2010/0282617 A1호(이들 각각은 참조로 본원에 통합됨)에 설명된 시퀀싱 방법 및 시스템을 사용할 수 있다. 역학적 배제를 사용하여 타깃 핵산을 증폭시키기 위해 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 기질에 쉽게 적용될 수 있다. 보다 구체적으로, 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 앰플리콘(amplicon)의 클론 모집단을 생성하는 데 사용될 수 있다.
위의 SBS 방법은 복수의 상이한 타깃 핵산이 동시에 조작되도록 복수의 포맷으로 유리하게 수행될 수 있다. 특정 실시예에서, 상이한 타깃 핵산은 공통 반응 용기에서 또는 특정 기판의 표면 상에서 처리될 수 있다. 이는 시퀀싱 시약의 편리한 전달, 미반응 시약의 제거 및 다중화 방식으로의 통합 이벤트의 검출을 허용한다. 표면-결합 타깃 핵산을 사용하는 실시예에서, 타깃 핵산은 어레이 포맷일 수 있다. 어레이 포맷에서, 타깃 핵산은 통상적으로 공간적으로 구별 가능한 방식으로 표면에 결합될 수 있다. 타깃 핵산은 직접적인 공유 부착, 비드(bead) 또는 다른 입자에 대한 부착 또는 표면에 부착된 중합 효소 또는 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 각각의 사이트(특징부로도 지칭됨)에 타깃 핵산의 단일 사본을 포함할 수 있거나, 동일한 서열을 갖는 복수의 사본이 각각의 사이트 또는 특징부에 존재할 수 있다. 아래에 추가로 상세히 설명되는 바와 같이, 브릿지 증폭 또는 에멀젼 PCR과 같은 증폭 방법에 의해 복수의 사본이 생성될 수 있다.
본원에 제시된 방법은 예를 들어, 적어도 약 10 특징부/cm2, 100 특징부/cm2, 500 특징부/cm2, 1,000 특징부/cm2, 5,000 특징부/cm2, 10,000 특징부/cm2, 50,000 특징부/cm2, 100,000 특징부/cm2, 1,000,000 특징부/cm2, 5,000,000 특징부/cm2 또는 그 이상을 포함하는 다양한 밀도 중 임의의 밀도의 특징부를 갖는 어레이를 사용할 수 있다.
본원에 제시된 방법의 이점은 복수의 타깃 핵산의 검출을 병렬로 신속하고 효율적으로 제공한다는 것이다. 따라서, 본 개시는 위에 예시된 것과 같은 본 기술 분야에 알려진 기술을 사용하여 핵산을 준비하고 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 개시의 통합 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정화된 DNA 단편에 전달할 수 있는 유체 구성 요소를 포함할 수 있으며, 시스템은 펌프, 밸브, 저장소, 유체 라인 등과 같은 구성 요소를 포함한다. 플로우 셀은 타깃 핵산 검출을 위해 통합 시스템에서 구성 및/또는 사용될 수 있다. 예시적인 플로우 셀은 예를 들어, US 2010/0111768 A1호 및 US 13/273,666호에 설명되어 있으며, 그 각각은 본원에 참조로 통합된다. 플로우 셀에 대해 예시된 바와 같이, 통합 시스템의 하나 이상의 유체 구성 요소는 증폭 방법 및 검출 방법에 사용될 수 있다. 핵산 시퀀싱 실시예를 예로 들면, 통합 시스템의 하나 이상의 유체 구성 요소는 본원에 제시된 증폭 방법 및 위에 예시된 것과 같은 시퀀싱 방법에서 시퀀싱 시약의 전달을 위해 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위해 별도의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고 또한 핵산의 서열을 결정할 수 있는 통합 시퀀싱 시스템의 예는 제한 없이 MiSeqTM 플랫폼(Illumina, Inc., San Diego, CA) 및 본원에 참조로 통합되는 US 13/273,666호에 설명된 디바이스를 포함한다.
상술한 시퀀싱 시스템은 시퀀싱 디바이스에 의해 수용된 샘플에 존재하는 핵산 중합체를 시퀀싱한다. 본원에 정의된 바와 같이, "샘플"과 그 파생어는 가장 넓은 의미로 사용되며 타깃을 포함하는 것으로 의심되는 임의의 표본, 배양물 등을 포함한다. 일부 실시예에서, 샘플은 DNA, RNA, PNA, LNA, 키메릭(chimeric) 또는 하이브리드 형태의 핵산을 포함한다. 샘플은 하나 이상의 핵산을 포함하는 생물학적, 임상적, 수술적, 농업적, 대기적 또는 수생-기반 표본을 포함할 수 있다. 해당 용어는 또한 게놈 DNA, 신선-냉동 또는 포르말린-고정 파라핀-매립 핵산 표본과 같은 임의의 격리된 핵산 샘들을 포함한다. 또한, 샘플은 단일 개인, 유전적으로 관련된 멤버로부터의 핵산 샘플 모음, 유전적으로 관련이 없는 멤버로부터의 핵산 샘플, 종양 샘플 및 정상 조직 샘플과 같은 단일 개인으로부터의 (매칭된) 핵산 샘플, 또는 모체 피험자로부터 획득된 모체 및 태아 DNA와 같은 2개의 별개 형태의 유전 물질을 포함하는 단일 소스로부터의 샘플, 또는 식물 또는 동물 DNA를 포함하는 샘플에 오염 박테리아 DNA의 존재로부터 얻을 수 있는 것으로 구상된다. 일부 실시예에서, 핵산 물질의 소스는 예를 들어, 신생아 스크리닝에 통상적으로 사용되는 것과 같이 신생아로부터 획득된 핵산을 포함할 수 있다.
핵산 샘플은 게놈 DNA(gDNA)와 같은 고분자량 물질을 포함할 수 있다. 샘플은 FFPE 또는 보관된 DNA 샘플에서 획득된 핵산 분자와 같은 저분자량 물질을 포함할 수 있다. 다른 실시예에서, 저분자량 물질은 효소적으로 또는 기계적으로 단편화된 DNA를 포함한다. 샘플은 무세포 순환 DNA를 포함할 수 있다. 일부 실시예에서, 샘플은 생검, 종양, 스크레이핑(scraping), 스왑(swab), 혈액, 점액, 소변, 혈장, 정액, 모발, 레이저 캡처 미세-절개, 외과적 절제 및 다른 임상 또는 실험실에서 획득된 샘플로부터 획득된 핵산 분자를 포함할 수 있다. 일부 실시예에서, 샘플은 역학적, 농업적, 포렌식 또는 병원성 샘플일 수 있다. 일부 실시예에서, 샘플은 인간 또는 포유류 소스와 같은 동물로부터 획득된 핵산 분자를 포함할 수 있다. 다른 실시예에서, 샘플은 식물, 박테리아, 바이러스 또는 곰팡이와 같은 비포유류 소스로부터 획득된 핵산 분자를 포함할 수 있다. 일부 실시예에서, 핵산 분자의 소스는 보관되거나 멸종된 샘플 또는 종일 수 있다.
추가로, 본원에 개시된 방법 및 구성 요소는 포렌식 샘플로부터 분해된 및/또는 단편화된 게놈 DNA와 같은 저-품질 핵산 분자를 갖는 핵산 샘플을 증폭하는 데 유용할 수 있다. 일 실시예에서, 포렌식 샘플은 범죄 현장에서 획득된 핵산, 실종자 DNA 데이터베이스에서 획득된 핵산, 포렌식 조사와 연관된 실험실에서 획득된 핵산을 포함하거나 법 집행 기관, 하나 이상의 군 서비스 또는 임의의 이러한 인력에 의해 획득된 포렌식 샘플을 포함할 수 있다. 핵산 샘플은 예를 들어, 구강 스왑, 종이, 직물 또는 타액, 혈액 또는 다른 체액으로 함침될 수 있는 다른 기질로부터 도출된 용해물을 포함하는 정제된 샘플 또는 크루드(crude) DNA일 수 있다. 이와 같이, 일부 실시예에서, 핵산 샘플은 게놈 DNA와 같은 DNA의 소량 또는 단편화된 부분을 포함할 수 있다. 일부 실시예에서, 타깃 서열은 혈액, 가래, 혈장, 정액, 소변 및 혈청을 포함하지만 이에 제한되지 않는 하나 이상의 체액에 존재할 수 있다. 일부 실시예에서, 타깃 서열은 모발, 피부, 조직 샘플, 부검 또는 피해자의 유해로부터 획득될 수 있다. 일부 실시예에서, 하나 이상의 타깃 서열을 포함하는 핵산은 죽은 동물 또는 인간으로부터 획득될 수 있다. 일부 실시예에서, 타깃 서열은 미생물, 식물 또는 곤충학 DNA와 같은 비인간 DNA로부터 획득된 핵산을 포함할 수 있다. 일부 실시예에서, 타깃 서열 또는 증폭된 타깃 서열은 인간 식별의 목적에 관한 것이다. 일부 실시예에서, 본 개시는 일반적으로 포렌식 샘플의 특성을 식별하기 위한 방법에 관한 것이다. 일부 실시예에서, 본 개시는 일반적으로 본원에 개시된 하나 이상의 타깃 특이적 프라이머 또는 본원에 개괄된 프라이머 설계 기준을 사용하여 설계된 하나 이상의 타깃 특이적 프라이머를 사용하는 인간 식별 방법에 관한 것이다. 일 실시예에서, 적어도 하나의 타깃 서열을 포함하는 포렌식 또는 인간 식별 샘플은 본원에 개시된 임의의 하나 이상의 타깃-특이적 프라이머를 사용하거나 본원에 개괄된 프라이머 기준을 사용하여 증폭될 수 있다.
염기-호출자-재교정 시스템(106)의 구성 요소는 소프트웨어, 하드웨어 또는 둘 모두를 포함할 수 있다. 예를 들어, 염기-호출자-재교정 시스템(106)의 구성 요소는 컴퓨터-판독 가능 저장 매체에 저장되고 하나 이상의 컴퓨팅 디바이스(예를 들어, 클라이언트 디바이스(108))의 프로세서에 의해 실행 가능한 하나 이상의 명령어를 포함할 수 있다. 하나 이상의 프로세서에 의해 실행될 때, 염기-호출자-재교정 시스템(106)의 컴퓨터-실행 가능 명령어는 컴퓨팅 디바이스가 본원에 설명된 버블 검출 방법을 수행하도록 할 수 있다. 대안적으로, 염기-호출자-재교정 시스템(106)의 구성 요소는 특정 기능 또는 기능의 그룹을 수행하기 위한 특수 목적 프로세싱 디바이스와 같은 하드웨어를 포함할 수 있다. 추가로 또는 대안적으로, 염기-호출자-재교정 시스템(106)의 구성 요소는 컴퓨터-실행 가능 명령어와 하드웨어의 조합을 포함할 수 있다.
추가로, 염기-호출자-재교정 시스템(106)에 대해 본원에 설명된 기능을 수행하는 염기-호출자-재교정 시스템(106)의 구성 요소는 예를 들어, 독립형 애플리케이션의 일부로서, 애플리케이션의 모듈로서, 애플리케이션용 플러그-인으로서, 다른 애플리케이션에 의해 호출될 수 있는 라이브러리 기능 또는 기능들로서 및/또는 클라우드-컴퓨팅 모델로서 구현될 수 있다. 따라서, 염기-호출자-재교정 시스템(106)의 구성 요소는 개인용 컴퓨팅 디바이스 또는 모바일 디바이스에서 독립형 애플리케이션의 일부로서 구현될 수 있다. 추가적으로 또는 대안적으로, 염기-호출자-재교정 시스템(106)의 구성 요소는 Illumina BaseSpace, Illumina DRAGEN 또는 Illumina TruSight 소프트웨어를 포함하지만 이에 제한되지 않는 시퀀싱 서비스를 제공하는 임의의 애플리케이션에서 구현될 수 있다. "Illumina", "BaseSpace", "DRAGEN" 및 "TruSight"는 미국 및/또는 다른 국가에서의 Illumina, Inc.의 등록 상표 또는 상표이다.
본 개시의 실시예는 아래에서 더 상세히 논의되는 바와 같이, 예를 들어, 하나 이상의 프로세서 및 시스템 메모리와 같은 컴퓨터 하드웨어를 포함하는 특수 목적 또는 범용 컴퓨터를 포함하거나 이용할 수 있다. 본 개시의 범위 내의 실시예는 또한 컴퓨터-실행 가능 명령어 및/또는 데이터 구조를 전달하거나 저장하기 위한 물리적 및 다른 컴퓨터-판독 가능 매체를 포함한다. 특히, 본원에 설명된 프로세스 중 하나 이상은 비일시적 컴퓨터-판독 가능 매체에 구현되고 하나 이상의 컴퓨팅 디바이스(예를 들어, 본원에 설명된 임의의 미디어 컨텐츠 액세스 디바이스)에 의해 실행 가능한 명령어로서 적어도 부분적으로 구현될 수 있다. 일반적으로, 프로세서(예를 들어, 마이크로프로세서)는 비일시적 컴퓨터-판독 가능 매체(예를 들어, 메모리 등)로부터 명령어를 수신하고, 해당 명령어를 실행하며, 이에 의해 본원에 설명된 하나 이상이 프로세스를 포함하는 하나 이상의 프로세스를 수행한다.
컴퓨터-판독 가능 매체는 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 컴퓨터-실행 가능 명령어를 저장하는 컴퓨터-판독 가능 매체는 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)이다. 컴퓨터-실행 가능 명령어를 전달하는 컴퓨터-판독 가능 매체는 전송 매체이다. 따라서, 제한이 아닌 예시의 방식으로, 본 개시의 실시예는 적어도 두 가지의 상이한 종류의 컴퓨터-판독 가능 매체: 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)와 전송 매체를 포함할 수 있다.
비일시적 컴퓨터-판독 가능 저장 매체(디바이스)는 RAM, ROM, EEPROM, CD-ROM, 솔리드 스테이트 드라이브(SSD: solid state drive)(예를 들어, RAM 기반), 플래시 메모리, 상-변화 메모리(PCM: phase-change memory), 다른 유형의 메모리, 다른 광 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스, 또는 컴퓨터-실행 가능 명령어 또는 데이터 구조의 형태로 원하는 프로그램 코드 수단을 저장하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함한다.
"네트워크"는 컴퓨터 시스템 및/또는 모듈 및/또는 다른 전자 디바이스 간의 전자 데이터 운송을 가능하게 하는 하나 이상의 데이터 링크로서 정의된다. 정보가 네트워크 또는 다른 통신 연결(유선, 무선 또는 유선과 무선의 조합)을 통해 컴퓨터로 전달되거나 제공되면, 컴퓨터는 해당 연결을 전송 매체로 적절하게 간주한다. 전송 매체는 컴퓨터-실행 가능 명령어나 데이터 구조의 형태로 원하는 프로그램 코드 수단을 전달하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 네트워크 및/또는 데이터 링크를 포함할 수 있다. 위의 조합도 컴퓨터-판독 가능 매체의 범위에 포함되어야 한다.
추가로, 다양한 컴퓨터 시스템 구성 요소에 도달하면, 컴퓨터-실행 가능 명령어 또는 데이터 구조 형태의 프로그램 코드 수단은 자동으로 전송 매체에서 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)로(또는 그 반대로) 전송될 수 있다. 예를 들어, 네트워크 또는 데이터 링크를 통해 수신된 컴퓨터-실행 가능 명령어 또는 데이터 구조는 네트워크 인터페이스 모듈(예를 들어, NIC) 내의 RAM에 버퍼링된 다음 결국 컴퓨터 시스템 RAM 및/또는 컴퓨터 시스템에서의 덜 휘발성인 컴퓨터 저장 매체(디바이스)로 전송될 수 있다. 따라서, 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)는 전송 매체를 또한(또는 심지어 주로) 이용하는 컴퓨터 시스템 구성 요소에 포함될 수 있다는 것이 이해되어야 한다.
컴퓨터-실행 가능 명령어는 예를 들어, 프로세서에서 실행될 때 범용 컴퓨터, 특수 목적 컴퓨터 또는 특수 목적 프로세싱 디바이스가 특정 기능 또는 기능의 그룹을 수행하도록 하는 명령어 및 데이터를 포함한다. 일부 실시예에서, 컴퓨터-실행 가능 명령어는 범용 컴퓨터에서 실행되어 범용 컴퓨터를 본 개시의 요소를 구현하는 특수 목적 컴퓨터로 전환시킨다. 컴퓨터 실행 가능 명령어는 예를 들어, 바이너리, 어셈블리 언어와 같은 중간 포맷 명령어, 또는 심지어 소스 코드일 수 있다. 주제가 구조적 특징 및/또는 방법론적 동작에 특정한 언어로 설명되었지만, 첨부된 청구항에 정의된 주제는 설명된 특징이나 상술한 동작에 반드시 제한되는 것은 아니라는 것이 이해되어야 한다. 오히려, 설명된 특징 및 동작은 청구항을 구현하는 예시적인 형태로서 개시된다.
본 기술 분야의 통상의 기술자는 본 개시가 개인용 컴퓨터, 데스크탑 컴퓨터, 랩탑 컴퓨터, 메시지 프로세서, 휴대용 디바이스, 다중-프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 모바일 전화, PDA, 태블릿, 페이저, 라우터, 스위치 등을 포함하는 다수의 유형의 컴퓨터 시스템 구성을 갖는 네트워크 컴퓨팅 환경에서 실시될 수 있음을 이해할 것이다. 본 개시는 또한 네트워크를 통해 (하드와이어링된 데이터 링크, 무선 데이터 링크, 또는 하드와이어링과 무선 데이터 링크의 조합에 의해) 링크된 로컬 및 원격 컴퓨터 시스템이 모두 작업을 수행하는 분산 시스템 환경에서 실시될 수 있다. 분산 시스템 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 디바이스 모두에 위치될 수 있다.
본 개시의 실시예는 클라우드 컴퓨팅 환경에서도 구현될 수 있다. 본 설명에서, "클라우드 컴퓨팅"은 구성 가능한 컴퓨팅 리소스의 공유 풀에 대한 주문형 네트워크 액세스를 가능하게 하기 위한 모델로서 정의된다. 예를 들어, 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 리소스의 공유 풀에 대한 어디서나 편리한 주문형 액세스를 제공하기 위해 시장에서 채택될 수 있다. 구성 가능한 컴퓨팅 리소스의 공유 풀은 가상화를 통해 신속하게 프로비저닝되고, 적은 관리 노력이나 서비스 제공자 상호 작용으로 릴리징된 후, 그에 따라 확장될 수 있다.
클라우드-컴퓨팅 모델은 예를 들어, 주문형 셀프-서비스, 광범위한 네트워크 액세스, 리소스 풀링, 신속한 탄력성, 측정된 서비스 등과 같은 다양한 특성으로 구성될 수 있다. 클라우드-컴퓨팅 모델은 예를 들어, 서비스로서 소프트웨어(SaaS: Software as a Service), 서비스로서 플랫폼(PaaS: Platform as a Service), 서비스로서 인프라스트럭처(IaaS: Infrastructure as a Service)와 같은 다양한 서비스 모델을 노출할 수도 있다. 클라우드-컴퓨팅 모델은 또한 프라이빗 클라우드, 커뮤니티 클라우드, 퍼블릭 클라우드, 하이브리드 클라우드 등과 같은 상이한 배포 모델을 사용하여 배포될 수 있다. 본 설명과 청구항에서, "클라우드-컴퓨팅 환경"은 클라우드 컴퓨팅이 채용되는 환경이다.
도 10은 상술한 프로세스 중 하나 이상을 수행하도록 구성될 수 있는 컴퓨팅 디바이스(1000)의 블록도를 예시한다. 컴퓨팅 디바이스(1000)와 같은 하나 이상의 컴퓨팅 디바이스가 염기-호출자-재교정 시스템(106) 및 시퀀싱 시스템(104)을 구현할 수 있다는 것을 이해할 것이다. 도 10에 도시된 바와 같이, 컴퓨팅 디바이스(1000)는 통신 인프라스트럭처(1012)를 통해 통신 가능하게 커플링될 수 있는 프로세서(1002), 메모리(1004), 스토리지(1006), I/O 인터페이스(1008) 및 통신 인터페이스(1010)를 포함할 수 있다. 특정 실시예에서, 컴퓨팅 디바이스(1000)는 도 10에 도시된 것보다 더 적거나 더 많은 구성 요소를 포함할 수 있다. 이하의 문단은 도 10에 도시된 컴퓨팅 디바이스(1000)의 구성 요소를 추가로 상세하게 설명한다.
하나 이상의 실시예에서, 프로세서(1002)는 컴퓨터 프로그램을 구성하는 것과 같은 명령어를 실행하기 위한 하드웨어를 포함한다. 제한 없이 예로서, 작업 흐름을 동적으로 수정하기 위한 명령어를 실행하기 위해, 프로세서(1002)는 내부 레지스터, 내부 캐시, 메모리(1004) 또는 스토리지(1006)로부터 명령어를 검색(또는 페치(fetch))하고 이를 디코딩 및 실행할 수 있다. 메모리(1004)는 프로세서(들)에 의해 실행하기 위한 데이터, 메타데이터 및 프로그램을 저장하는 데 사용되는 휘발성 또는 비휘발성 메모리일 수 있다. 스토리지(1006)는 본원에 설명된 방법을 수행하기 위한 데이터 또는 명령어를 저장하기 위한 하드 디스크, 플래시 디스크 드라이브 또는 다른 디지털 저장 디바이스와 같은 스토리지를 포함한다.
I/O 인터페이스(1008)는 사용자가 컴퓨팅 디바이스(1000)에 입력을 제공하고, 이로부터 출력을 수신하며, 그렇지 않으면 컴퓨팅 디바이스(1000)로 데이터를 전송하고 이로부터 데이터를 수신할 수 있게 한다. I/O 인터페이스(1008)는 마우스, 키패드 또는 키보드, 터치 스크린, 카메라, 광학 스캐너, 네트워크 인터페이스, 모뎀, 다른 알려진 I/O 디바이스 또는 이러한 I/O 인터페이스의 조합을 포함할 수 있다. I/O 인터페이스(1008)는 그래픽 엔진, 디스플레이(예를 들어, 디스플레이 스크린), 하나 이상의 출력 드라이버(예를 들어, 디스플레이 드라이버), 하나 이상의 오디오 스피커 및 하나 이상의 오디오 드라이버를 포함하지만 이에 제한되지 않는, 사용자에게 출력을 제공하기 위한 하나 이상의 디바이스를 포함할 수 있다. 특정 실시예에서, I/O 인터페이스(1008)는 사용자에게 표시하기 위해 디스플레이에 그래픽 데이터를 제공하도록 구성된다. 그래픽 데이터는 하나 이상의 그래픽 사용자 인터페이스 및/또는 특정 구현을 제공할 수 있는 임의의 다른 그래픽 컨텐츠를 나타낼 수 있다.
통신 인터페이스(1010)는 하드웨어, 소프트웨어 또는 둘 모두를 포함할 수 있다. 임의의 경우에, 통신 인터페이스(1010)는 컴퓨팅 디바이스(1000)와 하나 이상의 다른 컴퓨팅 디바이스 또는 네트워크 사이의 (예를 들어, 패킷-기반 통신과 같은) 통신을 위한 하나 이상의 인터페이스를 제공할 수 있다. 예로서, 제한 없이, 통신 인터페이스(1010)는 이더넷 또는 다른 유선-기반 네트워크와 통신하기 위한 네트워크 인터페이스 제어기(NIC: network interface controller) 또는 네트워크 어댑터 또는 WI-FI와 같은 무선 네트워크와 통신하기 위한 무선 NIC(WNIC) 또는 무선 어댑터를 포함할 수 있다.
추가적으로, 통신 인터페이스(1010)는 다양한 유형의 유선 또는 무선 네트워크와의 통신을 용이하게 할 수 있다. 통신 인터페이스(1010)는 또한 다양한 통신 프로토콜을 사용하여 통신을 용이하게 할 수 있다. 통신 인프라스트럭처(1012)는 또한 컴퓨팅 디바이스(1000)의 구성 요소를 서로 커플링하는 하드웨어, 소프트웨어 또는 둘 모두를 포함할 수 있다. 예를 들어, 통신 인터페이스(1010)는 하나 이상의 네트워크 및/또는 프로토콜을 사용하여 특정 인프라스트럭처에 의해 연결된 복수의 컴퓨팅 디바이스가 서로 통신하여 본원에 설명된 프로세스의 하나 이상의 양태를 수행할 수 있게 할 수 있다. 예시하자면, 시퀀싱 프로세스는 복수의 디바이스(예를 들어, 클라이언트 디바이스, 시퀀싱 디바이스 및 서버 디바이스(들))가 시퀀싱 데이터 및 오류 통지와 같은 정보를 교환하도록 허용할 수 있다.
상술한 명세서에서, 본 개시는 그 구체적인 예시적인 실시예를 참조하여 설명되었다. 본 개시(들)의 다양한 실시예 및 양태는 본원에 논의된 상세 사항을 참조하여 설명되고, 첨부 도면은 다양한 실시예를 예시한다. 위의 설명과 도면은 본 개시를 예시하는 것이며 본 개시를 제한하는 것으로 해석되어서는 안 된다. 본 개시의 다양한 실시예의 완전한 이해를 제공하기 위해 다수의 특정 상세 사항이 설명된다.
본 개시는 그 사상이나 본질적인 특징을 벗어나지 않고도 다른 구체적인 형태로 구현될 수 있다. 설명된 실시예는 모든 면에서 단지 예시적인 것이며 제한적인 것이 아닌 것으로 간주되어야 한다. 예를 들어, 본원에 설명된 방법은 더 적거나 더 많은 단계/동작으로 수행될 수 있거나 단계/동작은 상이한 순서로 수행될 수 있다. 추가적으로, 본원에 설명된 단계/동작은 서로 병행하여 또는 동일하거나 유사한 단계/동작의 상이한 인스턴스와 병행하여 반복되거나 수행될 수 있다. 따라서, 본 출원의 범위는 상술한 설명이 아니라 첨부된 청구항에 의해 나타내어진다. 청구항의 의미와 동등성 범위 내에 있는 모든 변경은 해당 범위 내에 포함되어야 한다.

Claims (21)

  1. 시스템으로서,
    적어도 하나의 프로세서; 및
    비일시적 컴퓨터 판독 가능 매체로서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    샘플 뉴클레오티드 서열의 게놈 좌표에 대응하는 뉴클레오티드 리드(read)들의 뉴클레오티드-염기 호출(call)들에 대한 시퀀싱 메트릭(sequencing metric)들을 결정하고;
    호출-재교정-기계-학습 모델을 이용하고 상기 시퀀싱 메트릭들에 기초하여, 상기 게놈 좌표에서 변이를 식별하는 정확도를 나타내는 하나 이상의 변이-호출 분류들을 생성하고;
    상기 하나 이상의 변이-호출 분류들에 기초하여 상기 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출을 결정하도록 하는 명령어들을 포함하는, 상기 비일시적 컴퓨터 판독 가능 매체를 포함하는, 시스템.
  2. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    상기 하나 이상의 변이-호출 분류들에 기초하여 상기 최종 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭을 증가시키고;
    상기 증가된 염기-호출-품질 메트릭이 품질 필터를 통과하는 것으로 결정하고;
    상기 증가된 염기-호출-품질 메트릭에 기초하여 상기 최종 뉴클레오티드-염기 호출을 포함하는 변이 호출 파일을 생성하도록 하는 명령어들을 더 포함하는, 시스템.
  3. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    상기 하나 이상의 변이-호출 분류들에 기초하여 상기 최종 뉴클레오티드-염기 호출에 대한 염기-호출-품질 메트릭을 감소시키고;
    상기 감소된 염기-호출-품질 메트릭이 품질 필터를 통과하지 못하는 것으로 결정하고;
    상기 품질 필터를 통과하지 못한 상기 감소된 염기-호출-품질 메트릭에 기초하여 상기 최종 뉴클레오티드-염기 호출을 제외하는 필터-후 변이 호출 파일을 생성하도록 하는 명령어들을 더 포함하는, 시스템.
  4. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    하나 이상의 시퀀싱 메트릭들에 기초하여 호출-생성 모델을 이용하여 상기 게놈 좌표에 대한 초기 뉴클레오티드-염기 호출을 결정하고;
    상기 호출-재교정-기계-학습 모델로부터의 상기 하나 이상의 변이-호출 분류들에 기초하여 변이 호출 파일 및 상기 초기 뉴클레오티드-염기 호출에 대응하는 하나 이상의 데이터 필드들을 수정함으로써
    상기 게놈 좌표에 대한 상기 최종 뉴클레오티드-염기 호출을 결정하도록 하는 명령어들을 더 포함하는, 시스템.
  5. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 상기 하나 이상의 변이-호출 분류들에 기초하여 호출 품질, 유전자형 또는 유전자형 품질 중 하나 이상에 대한 변이 호출 파일에 대응하는 하나 이상의 데이터 필드를 수정하도록 하는 명령어들을 더 포함하는, 시스템.
  6. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 리드-기반 시퀀싱 메트릭들, 호출-모델-생성 시퀀싱 메트릭들 또는 외부적으로 소싱된 시퀀싱 메트릭들 중 하나 이상을 결정함으로써 상기 뉴클레오티드-염기 호출들에 대한 상기 시퀀싱 메트릭들을 결정하도록 하는 명령어들을 더 포함하는, 시스템.
  7. 제6항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 호출-생성 모델로부터 변이-호출자(caller) 시퀀싱 메트릭들 및 매핑(mapping)-및-정렬 시퀀싱 메트릭들을 결정함으로써 상기 호출-모델-생성 시퀀싱 메트릭들을 결정하도록 하는 명령어들을 더 포함하는, 시스템.
  8. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 상기 뉴클레오티드-염기 호출들에 대한 다른 시퀀싱 메트릭들로부터 도출된 리엔지니어링된(re-engineered) 시퀀싱 메트릭들을 결정함으로써 상기 뉴클레오티드-염기 호출들에 대한 상기 시퀀싱 메트릭들을 결정하도록 하는 명령어들을 더 포함하는, 시스템.
  9. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 위양성(false-positive) 분류, 유전자형-오류 분류 또는 진양성(true-positive) 분류 중 하나 이상을 생성함으로써 상기 하나 이상의 변이-호출 분류를 생성하도록 하는 명령어들을 더 포함하는, 시스템.
  10. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    상기 시퀀싱 메트릭들이 상기 최종 뉴클레오티드-염기 호출에 미치는 영향의 각각의 척도들을 나타내는 상기 시퀀싱 메트릭들에 대한 기여 척도들을 결정하고;
    클라이언트 디바이스 상에 표시하기 위해, 상기 시퀀싱 메트릭들 중 하나 이상에 대응하는 상기 기여 척도들의 시각화를 제공하도록 하는 명령어들을 더 포함하는, 시스템.
  11. 비일시적 컴퓨터 판독 가능 매체로서, 적어도 하나의 프로세서에 의해 실행 시, 컴퓨팅 디바이스가,
    샘플 뉴클레오티드 서열의 게놈 좌표에 대응하는 뉴클레오티드 리드들의 뉴클레오티드-염기 호출들에 대한 시퀀싱 메트릭들을 결정하고;
    호출-재교정-기계-학습 모델을 이용하고 상기 시퀀싱 메트릭들에 기초하여, 상기 게놈 좌표에서 변이를 식별하는 정확도를 나타내는 하나 이상의 변이-호출 분류들을 생성하고;
    상기 하나 이상의 변이-호출 분류들에 기초하여 상기 게놈 좌표에 대한 최종 뉴클레오티드-염기 호출을 결정하도록 하는 명령어들을 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  12. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 상기 게놈 좌표에 대응하는 단일 뉴클레오티드 다형성(polymorphism), 결실(deletion) 또는 삽입을 포함하는 변이 호출의 일부로서 상기 최종 뉴클레오티드-염기 호출을 결정하도록 하는 명령어들을 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  13. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 초기 뉴클레오티드-염기 호출의 유전자형을 업데이트된 뉴클레오티드-염기 호출의 업데이트된 유전자형으로 변경함으로써 상기 게놈 좌표에 대한 상기 최종 뉴클레오티드-염기 호출을 결정하도록 하는 명령어들을 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  14. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 상기 게놈 좌표에 대한 상기 최종 뉴클레오티드-염기 호출에 대한 유전자형에 대응하는 하나 이상의 분류를 생성하기 위해 상기 호출-재교정-기계-학습 모델을 이용하여 상기 하나 이상의 변이-호출 분류를 생성하도록 하는 명령어들을 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  15. 제11항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가,
    호출-생성 모델로부터 변이-호출자 시퀀싱 메트릭들 및 매핑-및-정렬 시퀀싱 메트릭들을 결정함으로써 상기 시퀀싱 메트릭들을 결정하고;
    상기 호출-재교정-기계-학습 모델을 이용하는 상기 변이-호출자 시퀀싱 메트릭들 및 상기 매핑-및-정렬 시퀀싱 메트릭들에 기초하여 상기 하나 이상의 변이-호출 분류들을 생성하도록 하는 명령어들을 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  16. 컴퓨터-구현 방법으로서,
    샘플 뉴클레오티드 서열의 게놈 좌표에 대응하는 뉴클레오티드 리드들의 뉴클레오티드-염기 호출들에 대한 시퀀싱 메트릭들을 결정하는 단계;
    호출-재교정-기계-학습 모델을 이용하고 상기 시퀀싱 메트릭들에 기초하여, 상기 게놈 좌표에서 변이를 식별하는 정확도를 나타내는 하나 이상의 변이-호출 분류들을 생성하는 단계; 및
    상기 하나 이상의 변이-호출 분류들에 기초하여 상기 게놈 좌표에 대한 변이 호출을 결정하는 단계를 포함하는, 컴퓨터-구현 방법.
  17. 제16항에 있어서,
    상기 하나 이상의 변이-호출 분류에 기초하여 상기 변이 호출에 대한 염기-호출-품질 메트릭을 업데이트하는 단계;
    상기 변이 호출에 대한 상기 염기-호출 품질 메트릭이 품질 필터를 통과한다고 결정하는 단계; 및
    상기 품질 필터를 통과한 상기 염기-호출 품질 메트릭에 기초하여 상기 변이 호출을 포함하는 변이 호출 파일을 생성하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  18. 제16항에 있어서, 상기 하나 이상의 변이-호출 분류들을 생성하는 단계는,
    상기 변이 호출이 위양성인 위양성 확률;
    상기 변이 호출에 대한 유전자형이 부정확한 유전자형-오류 확률; 또는
    상기 변이 호출이 진양성인 진양성 확률중 하나 이상을 생성하기 위해 기계-학습 분류기를 이용하는 단계를 포함하는, 컴퓨터-구현 방법.
  19. 제16항에 있어서, 상기 시퀀싱 메트릭들을 결정하는 단계는 상기 샘플 뉴클레오티드 서열의 상기 뉴클레오티드 리드들로부터 도출된 메트릭들, 호출-생성 모델을 통해 생성된 호출-모델-생성 시퀀싱 메트릭들 또는 하나 이상의 외부 데이터베이스로부터 식별된 외부적으로 소싱된 시퀀싱 메트릭들을 포함하는 리드-기반 시퀀싱 메트릭들 중 하나 이상을 결정하는 단계를 포함하는, 컴퓨터-구현 방법.
  20. 제16항에 있어서, 상기 시퀀싱 메트릭들이 상기 게놈 좌표에 대한 상기 변이 호출에 미치는 영향의 각각의 척도들을 나타내는 상기 시퀀싱 메트릭들에 대한 기여 척도들을 결정하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  21. 제16항에 있어서, 상기 호출-재교정-기계-학습 모델은 신경망, 딥-러닝(deep-learning) 변환기, 그래디언트 부스트(gradient boost) 결정 트리, 랜덤 포레스트(random forest) 모델, 서포트 벡터 머신, 선형 회귀(linear regression) 또는 로지스틱(logistic) 회귀 중 하나 이상을 포함하는, 컴퓨터-구현 방법.
KR1020237043985A 2021-07-23 2022-07-19 뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델 KR20240035754A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/384,423 US20230021577A1 (en) 2021-07-23 2021-07-23 Machine-learning model for recalibrating nucleotide-base calls
US17/384,423 2021-07-23
PCT/US2022/073899 WO2023004323A1 (en) 2021-07-23 2022-07-19 Machine-learning model for recalibrating nucleotide-base calls

Publications (1)

Publication Number Publication Date
KR20240035754A true KR20240035754A (ko) 2024-03-18

Family

ID=82846505

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237043985A KR20240035754A (ko) 2021-07-23 2022-07-19 뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델

Country Status (9)

Country Link
US (1) US20230021577A1 (ko)
EP (1) EP4374377A1 (ko)
KR (1) KR20240035754A (ko)
CN (1) CN117546246A (ko)
AU (1) AU2022316203A1 (ko)
BR (1) BR112023026609A2 (ko)
CA (1) CA3223739A1 (ko)
IL (1) IL309314A (ko)
WO (1) WO2023004323A1 (ko)

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ATE545710T1 (de) 1997-04-01 2012-03-15 Illumina Cambridge Ltd Verfahren zur vervielfältigung von nukleinsäuren
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP2100971A3 (en) 2000-07-07 2009-11-25 Visigen Biotechnologies, Inc. Real-time sequence determination
US7211414B2 (en) 2000-12-01 2007-05-01 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3002289B1 (en) 2002-08-23 2018-02-28 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
US20110059865A1 (en) 2004-01-07 2011-03-10 Mark Edward Brennan Smith Modified Molecular Arrays
GB2423819B (en) 2004-09-17 2008-02-06 Pacific Biosciences California Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
EP1888743B1 (en) 2005-05-10 2011-08-03 Illumina Cambridge Limited Improved polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP4105644A3 (en) 2006-03-31 2022-12-28 Illumina, Inc. Systems and devices for sequence by synthesis analysis
US8343746B2 (en) 2006-10-23 2013-01-01 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2639578B1 (en) 2006-12-14 2016-09-14 Life Technologies Corporation Apparatus for measuring analytes using large scale fet arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
PT3290528T (pt) 2011-09-23 2019-10-14 Illumina Inc Métodos e composições para sequenciamento de ácido nucleico
IN2014DN07992A (ko) 2012-04-03 2015-05-01 Illumina Inc
SG11201903858XA (en) * 2016-10-28 2019-05-30 Illumina Inc Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
EP4022085A4 (en) * 2019-08-30 2023-10-11 Grail, LLC SYSTEMS AND METHODS FOR DETERMINING CONSENSUS BASE CALLING IN NUCLEIC ACID SEQUENCING

Also Published As

Publication number Publication date
IL309314A (en) 2024-02-01
CA3223739A1 (en) 2023-01-05
EP4374377A1 (en) 2024-05-29
WO2023004323A1 (en) 2023-01-26
CN117546246A (zh) 2024-02-09
AU2022316203A1 (en) 2024-01-18
BR112023026609A2 (pt) 2024-03-05
US20230021577A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
KR102539188B1 (ko) 심층 컨볼루션 신경망을 트레이닝하기 위한 심층 학습-기반 기술
US20220319641A1 (en) Machine-learning model for detecting a bubble within a nucleotide-sample slide for sequencing
KR20240022490A (ko) 뉴클레오티드 염기 호출 및 염기 호출 품질을 결정하기 위한 신호-대-잡음비 메트릭
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20240120027A1 (en) Machine-learning model for refining structural variant calls
US20240127905A1 (en) Integrating variant calls from multiple sequencing pipelines utilizing a machine learning architecture
US20230368866A1 (en) Adaptive neural network for nucelotide sequencing
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
KR20240072970A (ko) 대치된 하플로타입을 사용한 그래프 참조 게놈 및 염기 결정 접근법
CN117561573A (zh) 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源
WO2024006705A1 (en) Improved human leukocyte antigen (hla) genotyping