KR20240026932A - 게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델 - Google Patents

게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델 Download PDF

Info

Publication number
KR20240026932A
KR20240026932A KR1020237043988A KR20237043988A KR20240026932A KR 20240026932 A KR20240026932 A KR 20240026932A KR 1020237043988 A KR1020237043988 A KR 1020237043988A KR 20237043988 A KR20237043988 A KR 20237043988A KR 20240026932 A KR20240026932 A KR 20240026932A
Authority
KR
South Korea
Prior art keywords
classification
genome
nucleic acid
confidence
genomic
Prior art date
Application number
KR1020237043988A
Other languages
English (en)
Inventor
미첼 에이 베크리스키
카밀라 콜롬보
도르나 카셰프하기기
로한 폴
파비오 자나렐로
테브피크 우무트 딘체르
네이선 하우드 존슨
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20240026932A publication Critical patent/KR20240026932A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

본 개시는 게놈-위치-분류 모델을 훈련시켜 이러한 게놈 좌표 또는 영역에서 핵염기가 정확하게 식별될 수 있는 정도에 따라 게놈 좌표 또는 영역을 분류하거나 점수를 매길 수 있는 방법, 비일시적 컴퓨터 판독 가능 매체 및 시스템을 설명한다. 예를 들어, 개시된 시스템은 샘플 핵산 서열 또는 특정 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열에 대한 시퀀싱 메트릭을 결정할 수 있다. 게놈 좌표에 대한 실측 분류를 활용함으로써, 개시된 시스템은 게놈 위치 분류 모델을 훈련시켜 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다로부터의 데이터를 이러한 게놈 좌표 또는 영역에 대한 신뢰도 분류와 연관시킬 수 있다. 훈련 후, 개시된 시스템은 또한 게놈-위치-분류 모델을 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열에 적용하여 개별 게놈 좌표 또는 영역에 대한 개별 신뢰도 분류를 결정한 다음, 컴퓨팅 디바이스에 디스플레이하기 위한 이러한 신뢰도 분류를 포함하는 적어도 하나의 디지털 파일을 생성할 수 있다.

Description

게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델
관련 출원들에 대한 상호 참조
본 출원은 2021년 6월 29일자로 출원된 "게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델(MACHINE-LEARNING MODEL FOR GENERATING CONFIDENCE CLASSIFICATIONS FOR GENOMIC COORDINATES)"이라는 명칭의 미국 임시 출원 번호 제63/216,382호의 이익 및 이에 대한 우선권을 주장하며, 그 내용은 그 전문이 본원에 참조로 통합된다.
최근 몇 년 동안, 생명공학 회사와 연구 기관에서는 뉴클레오티드 염기서열을 분석하고 표준 또는 참조 게놈과 다른 핵염기가 포함된 샘플에 대한 변이 호출(variant call)을 식별하기 위한 하드웨어와 소프트웨어를 개선했다. 예를 들어, 기존의 일부 핵산 시퀀싱 플랫폼은 기존의 생어(Sanger) 시퀀싱을 사용하거나 합성에 의한 시퀀싱(Sequencing-by-Synthesis; SBS)을 사용하여 핵산 서열의 개별 핵염기를 결정한다. SBS를 사용할 때, 기존 플랫폼은 병렬로 합성되는 수천, 수만 또는 그 이상의 핵산 폴리머를 모니터링하여 더 큰 염기 호출(base-call) 데이터세트에서 보다 정확한 핵염기 호출을 검출할 수 있다. 예를 들어, SBS 플랫폼의 카메라는 이러한 올리고뉴클레오티드에 통합된 핵염기로부터 조사된 형광 태그의 이미지를 캡처할 수 있다. 이러한 이미지를 캡처한 후, 기존 SBS 플랫폼은 시퀀싱-데이터-분석 소프트웨어를 사용하여 염기 호출 데이터(또는 이미지 데이터)를 컴퓨팅 디바이스로 전송하여 핵산 중합체(예를 들어, 핵산 중합체의 엑손(exon) 영역)에 대한 핵염기 서열을 결정하고 변이 호출자(variant caller)를 사용하여 임의의 단일 뉴클레오티드 변이(SNV), 삽입 또는 결실(indel) 또는 샘플의 핵산 서열 내 기타 변이를 식별한다.
이러한 최근의 시퀀싱 및 변이 호출의 발전에도 불구하고, 기존 시퀀싱-데이터-분석 소프트웨어에는 서열 또는 게놈 내 뉴클레오티드 변이의 위치에 상관없이(또는 표시 없이) 뉴클레오티드 변이를 식별하는 변이 호출자가 포함되는 경우가 많다. 변이 호출의 위치의 컨텍스트는 호출의 신뢰성에 영향을 미칠 수 있으므로 ― 특정 게놈 영역은 예측 가능한 서열을 나타낼 가능성이 더 높으며 다른 게놈 영역은 변이를 나타낼 가능성이 더 높음 ― 뉴클레오티드 변이의 위치는 변이를 진양성(true positive) 또는 위양성(false positive)으로 식별할 확률에 영향을 미칠 수 있다. 게다가, 주어진 게놈 영역에 대한 변이를 정확하게 식별할 확률은 특정 시퀀싱 방법이나 디바이스에 따라 다를 수 있다. 게놈 영역의 정확성을 분석하고 이러한 영역과 변이 호출을 관련시키기 위한 ― 특히 특정 시퀀싱 파이프라인의 경우 ― 빌트 인(built-in) 메커니즘 없이, 임상의는 종종 다른 시퀀싱 방법(예를 들어, SBS 시퀀싱을 보완하는 생어) 또는 보충 검증 테스트를 사용하여 변이 호출을 직교 검증한다.
특정 변이에 대한 변이 호출은 변이 호출의 게놈 영역에 따라 중요하지 않거나 중요한 범위 사이에 있을 수 있다. 그러나, 기존 변이 호출자는 변이 호출과 게놈 영역 또는 위치에 대한 정확도 확률을 연관시킬 수 없는 경우가 많기 때문에, 임상의는 변이 호출의 정확도에 대한 신뢰도가 제한적이다. 예를 들어, 헤모글로빈 베타(HBB) 유전자의 특정 단일 뉴클레이티드 다형성(single nucleotide polymorphism; SNP)을 식별하는 변이 호출은 중요한 의미를 가질 수 있다. 변이 호출자가 염색체 11번의 rs344에서 SNP를 식별할 때, 변이 호출자는 낫적혈구빈혈(sickle cell anemia)의 유전적 원인을 정확하게 식별하거나 질병의 원인을 놓칠 수 있다. 추가 예로서, 헤모글로빈 서브유닛 알파 1(hemoglobin subunit alpha 1; HbA1) 또는 헤모글로빈 서브유닛 알파 2(hemoglobin subunit alpha; HbA2) 유전자의 하나 이상의 사본의 삭제를 정확하게 또는 잘못 식별하는 변이 호출은 유전적 혈액 질환의 유전적 원인을 정확하게 식별하거나 유전자 삭제를 완전히 놓칠 수 있다. 따라서, 이러한 SNP나 유전자 상의 다른 변이에 대한 변이 호출은 중요할 수 있지만 기존 변이 호출자가 변이를 식별하는 영역에 대한 경험적 기반 정확도 확률 표시가 부족한 경우가 많다.
핵염기 호출에 대한 게놈 영역의 변화와 변이 호출의 잠재적 중요성에도 불구하고, 기존 핵산-시퀀싱 플랫폼과 시퀀싱-데이터-분석 소프트웨어(이하 기존 시퀀싱 시스템으로 통칭)에는 게놈 내 정확도가 더 높거나 낮은 영역에 대한 보고 가능한 범위를 식별하는 경험적으로 입증된 방법이 부족하다. 이러한 기존 시퀀싱 시스템에는 마찬가지로 보고 가능한 범위에서 다양한 변이 유형을 구별하는 경험적으로 입증된 방법이 부족하다. 기존 시퀀싱 시스템에는 보고 가능한 범위를 식별하거나 특정 시퀀싱 파이프라인에 대해 해당 범위 내의 변이 유형을 구별하는 경험적으로 입증된 방법이 더욱 부족하다.
종래에, 임상의와 생명공학 기관은 특정 시퀀싱 파이프라인에 얽매이지 않는 참조 게놈의 특성에 의존할 수 있다. 연구자들은 GIAB(Genome in a Bottle Consortium) 및 GA4GH(Global Alliance for Genomic Health)에 의해 식별된 참조 게놈의 높은 신뢰도 영역을 포함하여, 정확도가 높거나 낮은 참조 게놈에서 보고 가능한 영역 범위를 식별했다. 그러나 GIAB 및 GA4GH의 이러한 기존 보고 가능 범위는 인간 게놈의 대략 79 내지 84%가 벤치마크 게놈 영역 내에 있는 까다로운 게놈 영역을 제외하고 보고 가능 범위를 벤치마크 게놈 영역으로 제한하고; 영역에 대한 다양한 유형의 정확도 계층(tier)을 구별하지 못하며; 변이 유형(예를 들어, SNV 대 삽입-결실(indel))별로 보고 가능한 범위를 구분하지 않는다. 참조 게놈의 약 79 내지 84%만이 벤치마크 영역에 매핑되었으며 변이 호출 유형에 따른 보고 가능 범위에 차이가 없는 상황에서, 기존의 보고 가능 범위는 검출 정확도 표시 없이 그리고 특정 변이 호출 유형이 검출 정확도에 영향을 미치는지 여부에 대한 표시 없이 참조 게놈의 상당 부분을 남긴다.
이러한 기존의 보고 가능 범위에도 불구하고, 임상의는 예를 들어 뉴클레오티드-샘플 준비(예를 들어, PCR 또는 더 긴 리드(read))의 변경, 서로 다른 시퀀싱 디바이스 또는 서로 다른 시퀀싱-데이터-데이터-분석 소프트웨어를 설명하기 위해 참조 게놈의 특성이 특정 시퀀싱 파이프라인으로 변환되는 방식에 대한 전문 지식을 필요로 한다. 실제로, 보고 가능 참조 게놈 범위에도 불구하고, 기존 시퀀싱 시스템은 시퀀싱 파이프라인에 특정되거나 경험적 데이터로부터 도출된 보고 가능한 범위를 식별할 수 없다.
GIAB 및 GA4GH의 기존 보고 가능 범위 외에도, 일루미나 사(Illumina, Inc.)는 연구 기관과 제휴하여 일련의 벤치마크 게놈에서 신뢰도가 높은 변이 호출 카탈로그를 개발했다. 3세대 혈통을 가진 사람들의 전체 게놈 서열 데이터를 생성하고 각 게놈의 변이를 호출함으로써, 팀은 이러한 사람들 사이의 유전 패턴과 일치하는 470만 개의 SNV 및 70만개의 작은 삽입-결실(1-50 염기쌍)의 카탈로그를 갖는 플래티넘 게놈(Platinum Genomes)을 개발했다. 플래티넘 게놈의 변이 호출의 진리셋(truthset)은 선별된 샘플에서 변이 호출의 성능을 확인하고 측정하는 데 사용될 수 있지만, 플래티넘 게놈 및 GIAB의 기타 진리셋은 확률적 오류 및 시스템적 오류 둘 모두를 ㅍ로함하는 문제가 있는 게놈 영역을 제외한다. 또한 플래티넘 게놈 또는 기타 진리 세트는 변이 호출의 샘플별 오류를 설명할 수 없다. 문제가 있는 영역은 문제의 근본 원인에 관계없이 제외되고 이러한 시간 집약적인 목록 작성은 확장하기 어렵기 때문에(불가능하지는 않더라도), 신뢰도가 높은 변이 호출 카탈로그는 각 게놈 좌표에서 변이 호출의 정확도과 신뢰도를 결정하는 데 있어 비현실적인 접근 방식임을 입증한다.
본 개시는 게놈-위치-분류 모델을 훈련시켜 이러한 게놈 좌표 또는 영역에서 핵염기가 정확하게 식별될 수 있는 정도에 따라 게놈 좌표 또는 게놈 영역을 분류하거나 점수를 매길 수 있는 방법, 비일시적 컴퓨터 판독 가능 매체 및 시스템의 실시예들을 설명한다. 예를 들어, 개시된 시스템은 다양한 샘플 핵산 서열 및 특정 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열에 대한 시퀀싱 메트릭 중 하나 또는 둘 다를 결정할 수 있다. 게놈 좌표에 대한 실측 분류를 활용함으로써, 일부 경우에, 개시된 시스템은 게놈 위치 분류 모델을 훈련시켜 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다로부터의 데이터를 이러한 게놈 좌표 또는 영역에 대한 신뢰도 분류와 연관시킨다. 이러한 모델을 훈련시킨 후, 개시된 시스템은 마찬가지로 게놈-위치-분류 모델을 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열로부터의 데이터에 적용하여 개별 게놈 좌표 또는 영역에 대한 개별 신뢰도 분류를 결정할 수 있다. 이러한 좌표별 또는 지역별 신뢰도 분류는 새로 보강된 파일 또는 새로운 파일 유형 ― 즉 게놈 좌표 또는 영역에 대한 신뢰도 분류가 포함된 디지털 파일(예를 들어, 변이 호출을 보완하기 위한)로 추가로 패키징될 수 있다.
새로운 유형의 기계 학습 모델을 훈련시키는 것 외에도, 개시된 시스템은 모델을 적용하여 경험적으로 훈련된 신뢰도 분류를 통해 변이 호출을 보완하거나 맥락화할 수도 있다. 샘플 서열에서 게놈 좌표(또는 영역)에서 호출 변이를 검출한 후, 예를 들어, 개시된 시스템은 변이 호출에 대응하는 게놈 좌표 또는 영역에 대한 디지털 파일로부터 좌표별 또는 영역별 신뢰도 분류를 식별할 수 있다. 식별된 좌표별 또는 영역별 신뢰도 분류에 기초하여, 개시된 시스템은 그래픽 사용자 인터페이스에 디스플레이하기 위한 변이 호출에 대응하는 게놈 좌표 또는 영역에 대한 신뢰도 분류의 표시자를 생성할 수 있다. 따라서 개시된 시스템은 게놈 좌표 또는 영역에서 변이 호출에 대한 신뢰도 분류를 지정하는 컴퓨팅 디바이스에 그래픽 또는 텍스트 표시자를 용이하게 할 수 있다.
본원에 설명된 게놈-위치-분류 모델을 훈련시킴으로써, 개시된 시스템은 게놈 좌표 또는 영역에 대한 신뢰도 분류의 보고 가능한 범위를 생성하기 위한 최초의 기계 학습 모델을 생성한다. 참조 게놈에 연결되고 시퀀싱 파이프라인의 경험적 데이터에 연결되지 않은 신뢰도 영역에 의존하는 기존 솔루션과 달리, 개시된 게놈-위치-분류 모델은 경험적으로 훈련되고 맞춤화되어 특정 시퀀싱 파이프라인에 대한 신뢰도 분류를 생성할 수 있다. 게놈-위치-분류 모델은 경험적으로 훈련된 프로세스로부터 신뢰도 분류를 생성하기 때문에, 게놈-위치-분류 모델의 좌표-또는-영역별 신뢰도 분류는 변이 호출 또는 기타 핵염기 호출에 대한 컨텍스트와 새로 발견된 정확도를 제공한다.
상세한 설명은 아래에 간략하게 설명된 도면을 참조한다.
도 1은 하나 이상의 실시예들에 따른 게놈 분류 시스템을 포함하는 시퀀싱 시스템의 블록도를 예시한다.
도 2는 하나 이상의 실시예들에 따라 게놈 좌표에 대한 신뢰도 분류를 결정하기 위해 기계 학습 모델을 훈련시키는 게놈 분류 시스템의 개요를 예시한다.
도 3은 하나 이상의 실시예들에 따라 참조 게놈에 대한 시퀀싱 메트릭을 결정하는 게놈 분류 시스템의 개요를 예시한다.
도 4는 하나 이상의 실시예들에 따라 게놈 분류 시스템이 게놈 위치 분류 모델에 입력하기 위해 시퀀싱 메트릭을 조정하거나 준비하는 프로세스의 개요를 예시한다.
도 5는 하나 이상의 실시예들에 따른 핵염기 호출을 둘러싸는 컨텍스트(contextual) 핵산 하위서열을 예시한다.
도 6a는 하나 이상의 실시예들에 따라 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하기 위해 기계 학습 모델을 훈련시키는 게놈 분류 시스템을 예시한다.
도 6b는 하나 이상의 실시예들에 따른 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하기 위해 훈련된 게놈 위치 분류 모델 버전을 적용하는 게놈 분류 시스템을 예시한다.
도 6c는 하나 이상의 실시예들에 따른 변이 호출의 게놈 좌표에 대응하는 게놈 위치 분류 모델로부터 신뢰도 분류를 식별하고 디스플레이하는 시퀀싱 시스템 또는 게놈 분류 시스템을 예시한다.
도 6d 내지 6h는 하나 이상의 실시들에 따른 게놈 샘플로부터의 샘플 핵산 서열에 대한 시퀀싱 메트릭 중 하나 또는 둘 모두에 기초하여 실측 분류를 결정하는 게놈 분류 시스템 및 게놈 샘플의 혼합물(admixture)에 기초하여 암이나 모자이크현상을 반영하는 특정 유형의 변이를 호출하기 위한 재현율(recall rate) 또는 정밀도율(precision rate)을 예시한다.
도 7a 내지 7g는 하나 이상의 실시예들에 따른 게놈-위치-분류 모델에 대한 정보용 시퀀싱 메트릭 및 시퀀싱 메트릭 도출 데이터를 나타내는 그래프를 예시한다.
도 8은 하나 이상의 실시예들에 따른 게놈-위치-분류 모델이 시퀀싱 메트릭에 기초하여 게놈 좌표에 대한 신뢰도 분류를 정확하게 결정하는 정확도를 도시하는 그래프를 예시한다.
도 9는 하나 이상의 실시예들에 따른 게놈-위치-분류 모델이 컨텍스트 핵산 하위서열에 기초하여 서로 다른 뉴클레오티드 변이에 대응하는 게놈 좌표에 대한 신뢰도 분류를 정확하게 결정하는 정확도를 도시하는 그래프를 예시한다.
도 10a 내지 10b는 하나 이상의 실시예들에 따른 게놈-위치-분류 모델이 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 모두에 기초하여 서로 다른 뉴클레오티드 변이에 대응하는 게놈 좌표에 대한 신뢰도 분류를 정확하게 결정하는 정확도를 도시하는 그래프를 예시한다.
도 11a 내지 11b는 하나 이상의 실시예들에 따른 게놈 좌표에 대한 신뢰도 분류를 결정하기 위해 기계 학습 모델을 훈련시키기 위한 일련의 동작 흐름도를 예시한다.
도 12는 하나 이상의 실시예들에 따른 디지털 파일로부터 변이-핵염기 호출의 게놈 좌표에 대한 신뢰도 분류의 표시자를 생성하기 위한 일련의 동작 흐름도를 예시한다.
도 13은 본 개시의 하나 이상의 실시예들을 구현하기 위한 예시적인 컴퓨팅 디바이스의 블록도를 예시한다.
본 개시는 핵염기가 게놈 좌표 또는 영역에서 정확하게 식별될 수 있는 정도 또는 범위를 나타내는 게놈 좌표(또는 게놈 영역)에 대한 라벨 또는 점수를 결정하기 위해 게놈-위치-분류 모델을 훈련시키는 게놈-분류-시스템의 실시예들을 설명한다. 게놈-위치-분류 모델에 대한 입력을 준비하기 위해, 게놈-분류 시스템은 샘플 핵산 서열에 대한 시퀀싱 메트릭 및 특정 핵염기 호출 주위의 컨텍스트 핵산 하위서열 중 하나 또는 둘 다를 결정한다. 일부 경우에, 게놈-분류 시스템은 특정 시퀀싱 및 생물정보학 파이프라인을 사용하여 이러한 메트릭 및 컨텍스트 핵산 하위서열을 결정한다. 따라서, 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다에서 도출되거나 준비된 데이터에 기초하여 ― 그리고 게놈 좌표에 대한 실측 분류를 활용함으로써 ― 게놈-분류 시스템은 게놈-위치-분류 모델을 훈련시켜 게놈 좌표에 대한 신뢰도 분류를 결정한다.
특정 구현예들에서, 게놈-분류 시스템은 게놈-위치-분류 모델을 통해 샘플에 대응하는 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열의 데이터를 제공함으로써 게놈 좌표(또는 영역)에 대한 신뢰도 분류를 추가로 결정한다. 게놈-분류 시스템은 이러한 좌표별 또는 영역별 신뢰도 분류를 특정 게놈 좌표 또는 게놈 영역에 대한 신뢰도 분류를 포함하는 적어도 하나의 디지털 파일로 추가로 인코딩한다. 예를 들어, 디지털 파일에는 게놈 좌표 및/또는 게놈 영역에 대한 주석이나 기타 데이터 표시자가 포함될 수 있다.
게놈-위치-분류 모델의 훈련 외에 또는 관계없이, 게놈-분류 시스템은 호출의 특정 게놈 좌표 또는 영역을 기반으로 핵염기 호출(예를 들어, 불변 호출 또는 변이 호출)에 대한 신뢰도 분류를 추가로 결정할 수 있다. 예를 들어, 시퀀싱 디바이스의 데이터를 사용하여, 게놈-분류 시스템은 샘플 핵산 서열의 특정 게놈 좌표(또는 특정 영역)에서 변이-핵염기 호출 또는 핵염기 호출 불변을 결정한다. 이러한 핵염기 호출은 게놈-위치-분류 모델을 훈련시키기 위한 훈련 데이터에 사용된 것과 동일한 시퀀싱 및 생물정보학 파이프라인을 사용하여 결정될 수 있다. 그런 다음 게놈-분류 시스템은 (예를 들어, 훈련된 게놈-위치-분류 모델에 의해 생성된 디지털 파일 내의 신뢰도 분류 데이터에 액세스하여) 핵염기 호출에 대응하는 게놈 좌표 또는 영역에 대한 신뢰도 분류를 식별할 수 있다. 신뢰도 분류를 식별함으로써, 게놈-분류 시스템은 그래픽 사용자 인터페이스에 디스플레이하기 위해 변이-핵염기 호출 또는 핵염기-호출 불변의 게놈 좌표 또는 영역에 대한 신뢰도 분류의 표시자를 생성한다.
이전 단락에서 언급된 바와 같이, 일부 경우에, 게놈-분류 시스템은 단일 시퀀싱 파이프라인을 사용하여 시퀀싱 메트릭, 컨텍스트 핵산 하위서열 또는 변이-핵염기 호출의 기본이 되는 핵염기 호출을 결정한다. 예를 들어, 게놈-분류 시스템은 동일한 핵산-서열-추출 방법(예를 들어, 추출 키트), 동일한 시퀀싱 디바이스 및 동일한 서열-분석 소프트웨어를 갖춘 단일 시퀀싱 파이프라인을 사용할 수 있다. 이러한 서열-분석 소프트웨어에는 서열 리드(sequence read)를 참조 게놈과 정렬하는 정렬 소프트웨어 및 변이-핵염기 호출을 식별하는 변이 호출자 소프트웨어가 포함될 수 있으며, 이에 따라 단일 시퀀싱 파이프라인은 동일한 정렬 소프트웨어 및/또는 변이 호출자를 사용한다. 단일 시퀀싱 파이프라인을 사용함으로써, 특정 구현예들에서, 게놈-분류 시스템은 시퀀싱 파이프라인에 특정된 신뢰도 분류를 결정하고 파이프라인에 의한 변이 호출 또는 기타 핵염기 호출에 대한 이러한 분류의 정확도를 높이는 게놈-위치-분류 모델을 훈련하고 적용할 수 있다.
게놈-위치-분류 모델을 훈련시키거나 적용하기 위해 입력할 데이터를 준비하려면, 일부 실시예들에서, 게놈-분류 시스템은 (i) 예시적인 핵산 서열(예를 들어, 조상 일배체형으로부터의 핵산 서열 또는 참조 게놈)의 게놈 좌표와 샘플 핵산 서열의 정렬을 정량화하기 위한 정렬 메트릭, (ii) 또는 의 게놈 좌표와 샘플 핵산 서열의 정렬을 정량화하기 위한 정렬 메트릭), (ii) 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기 호출의 깊이를 정량화하기 위한 깊이 메트릭, 또는 (iii) 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기 호출의 양을 정량화하기 위한 호출-데이터-품질 메트릭 중 하나 이상을 포함하는 시퀀싱 메트릭을 결정한다. 예를 들어, 게놈-분류 시스템은 매핑-품질 메트릭, 소프트-클리핑 메트릭 또는 참조 게놈과 샘플 서열의 정렬을 측정하는 기타 정렬 메트릭을 결정한다. 다른 예로서, 게놈-위치-분류 시스템은 정방향-역방향-깊이 메트릭(또는 이러한 기타 깊이 메트릭) 또는 변이-핵염기 호출에 대한 호출가능성(callability) 메트릭(또는 이러한 기타 호출-데이터-품질 메트릭)을 결정한다.
게놈-위치-분류 모델에 대한 데이터 입력으로 이러한 시퀀싱 메트릭을 사용하는 것에 외에 또는 대안으로, 특정 경우에, 게놈-분류 시스템은 특정 게놈 좌표에서 핵염기 호출을 둘러싼 컨텍스트 핵산 하위서열을 결정한다. 예를 들어, 일부 실시예들에서, 게놈-분류 시스템은 예컨대 SNV, 삽입-결실, 구조적 변이, 또는 복제수 변이(copy number variation; CNV)와 같은 임의의 핵염기-호출 불변 또는 변이-핵염기 호출의 상류 및 하류 둘 다에 위치된 참조 게놈(또는 조상 일배체형 서열)의 핵염기를 컨텍스트 핵산 하위서열로 식별한다. 예를 들어, 게놈-분류 시스템은 참조 게놈 또는 조상 일배체형 서열의 상류에 있는 50개의 핵염기와 특정 게놈 좌표에 위치된 SNV의 하류에 있는 50개의 핵염기를 컨텍스트 핵산 하위서열로 식별할 수 있다.
게놈-분류 시스템이 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열 또는 둘 모두로부터 도출된 데이터를 사용하는지 여부에 관계없이, 게놈-분류 시스템은 데이터를 게놈-위치-분류 모델을 훈련시키기 위한 입력으로 준비한다. 일부 경우에, 게놈-분류 시스템은 게놈 좌표에 대한 예측 신뢰도 분류를 결정하고 예측 분류를 멘델-유전 패턴 또는 게놈 좌표에서 핵염기 호출의 복제 일치를 반영하는 실측 분류와 비교하여 게놈-위치-분류 모델을 훈련시킨다. 손실 함수를 사용하여 예측 신뢰도 분류를 특정 게놈 좌표에 대한 실측 분류와 비교함으로써, 게놈-분류 시스템은 게놈-위치-분류 모델의 파라미터를 반복적으로 조정하여 신뢰도 분류를 보다 정확하게 결정할 수 있다.
위에서 제안한 바와 같이, 게놈-위치-분류 모델은 라벨이나 점수를 포함한 다양한 형태로 신뢰도 분류를 출력할 수 있다. 게놈-분류 시스템은 예를 들어 주어진 게놈 좌표에서 핵염기 호출이 신뢰될 수 있는 정도를 나타내는 고신뢰도 분류, 중간 신뢰도 분류, 또는 저신뢰도 분류를 포함하는 신뢰도 레벨의 계층(tier)을 결정할 수 있다. 추가로 또는 대안으로, 게놈-분류 시스템은 주어진 게놈 좌표에서 핵염기 호출이 신뢰될 수 있는 정도를 나타내는 점수 범위로부터 신뢰도 점수를 결정할 수 있다.
신뢰도 분류를 훈련 및 결정한 후, 게놈-분류 시스템은 게놈 좌표에 특정된 신뢰도 분류를 포함하도록 하나 이상의 디지털 파일을 생성하거나 주석을 달 수 있다. 단 한의 예를 들면, 일부 경우에, 게놈-분류 시스템은 게놈 좌표에 대한 해당 신뢰도 분류를 식별하는 게놈 좌표에서 각 핵염기 호출에 대한 주석을 포함하는 브라우저 확장 가능 데이터(browser extensible data; BED) 파일의 수정된 버전을 생성한다. 일부 경우에, 게놈-분류 시스템은 신뢰도 분류 유형에 따른 게놈 좌표에 대한 주석을 포함하는 BED 파일, 예컨대 고신뢰도 분류를 갖는 게놈 좌표에 대한 주석이 포함된 BED 파일, 중간 신뢰도 분류를 갖는 게놈 좌표에 대한 주석이 포함된 BED 파일 및 저신뢰도 분류를 갖는 게놈 좌표에 대한 주석이 포함된 BED 파일을 생성한다. 게놈-분류 시스템은 마찬가지로 위글(Wiggle; WIG) 형식, BAM(Binary version of Sequence Alignment/Map) 형식, VCF(Variant Call File) 형식, 마이크로어레이(Microarray) 형식 또는 기타 디지털 파일 형식으로 신뢰도 분류가 포함된 디지털 파일을 생성할 수 있다. 디지털 파일로부터 뉴클레오티드-호출 변이에 대한 관련 신뢰도 분류를 식별 시, 게놈-분류 시스템은 마찬가지로 그래픽 사용자 인터페이스에 디스플레이하기 위한 분류 표시자를 제공할 수 있다. 이러한 표시자는 예를 들어, 고신뢰도, 중간 신뢰도 또는 저신뢰도 분류의 그래픽 표시자(예를 들어 컬러 코드 그래픽 표시자)일 수 있다.
상기에 제안된 바와 같이, 게놈-분류 시스템은 기존의 핵산 시퀀싱 시스템 및 해당 시퀀싱-데이터-분석 소프트웨어에 비해 여러 기술적 이점과 기술적 개선사항을 제공한다. 예를 들어, 게놈-분류 시스템은 새로운 애플리케이션을 수행 ― 뉴클레오티드-변이 호출 또는 기타 핵염기가 결정되는 특정 게놈 좌표에 대한 신뢰도 분류를 생성하도록 고유하게 훈련된 최초의 기계 학습 모델을 도입한다. 주로 참조 게놈 특성에 의존하는 기존 변이 호출자 또는 기존 보고 가능 범위와는 달리, 게놈-분류 시스템은 경험적 데이터를 사용하여 게놈-위치-분류 모델을 훈련시켜 핵염기 호출에 대한 경험적인 보고 가능 신뢰도 분류 범위로 귀결되는 좌표별 또는 영역별 신뢰도 분류를 생성한다. 보고 가능 범위에는 참조 게놈에 대한 기존의 모놀리식 분류와 달리 고신뢰도, 중간 신뢰도 또는 저신뢰도 분류와 같은 이해하기 쉬운 다양한 라벨이 포함될 수 있다. 참조 게놈을 위해 개발된 신뢰 영역에 의존하는 기존 시퀀싱 시스템의 두루 적용되는 접근 방식과는 더욱 대조적으로, 일부 실시예들에서, 게놈-분류 시스템은 게놈-위치-분류 모델의 신뢰도 분류를 단일 시퀀싱 파이프라인으로 조정함으로써, 개별 게놈 좌표 레벨에서 특정 시퀀싱 디바이스(및 해당 파이프라인 컴포넌트)의 핵염기 호출에 대한 신뢰도 분류의 정확도를 높일 수 있다.
기존 시퀀싱 시스템과 비교하여 최초의 기계 학습 모델을 도입하는 것 외에, 게놈-분류 시스템은 게놈 전반에 걸쳐 특정 게놈 좌표에서 핵염기 호출에 대한 신뢰도 레벨을 결정하는 정확도와 폭(breadth)을 향상시킨다. 예를 들어, 게놈-분류 시스템은 시퀀싱 시스템이 게놈 좌표에서 변이를 정확하게 식별하는 정밀도, 재현율 및 일치도를 높인다. 일부 구현예들에서, 시퀀싱 시스템은 참조 게놈의 약 90.3%에 대해 개시된 게놈-위치-분류 모델에 의해 고신뢰도 분류로 라벨링된 게놈 좌표에서 약 99.9% 정밀도, 99.9% 재현율 및 99.9% 일치도로 SNV를 정확하게 식별한다. 본 개시는 아래에 정밀도, 재현율 및 일치도에 대한 추가 통계를 보고한다. 개시된 게놈-분류 시스템의 정확성 및 폭과 달리, 참조 게놈에 대한 GIAB 또는 GA4GH의 기존 보고 가능 범위(단일 분류 포함)는 참조 게놈의 약 79 내지 84%로 제한된다. 또한, 플래티넘 게놈스(Platinum Genomes)는 이제 게놈-분류를 통해 탁월한 정밀도, 재현율 및 일치도로 분류할 수 있는 문제가 있는 게놈 영역을 제외한다.
개선된 정확도 외에도, 특정 실시예들에서, 게놈-분류 시스템은 특정 게놈 좌표에서 다양한 변이 유형에 대한 신뢰도 분류를 신뢰성 있게 결정함으로써 기존 방법에 비해 유연성을 향상시킨다. 상기에 언급된 바와 같이, GIAB 및 GA4GH에서 개발된 기존 보고 가능 범위는 변이 유형을 구별하지 않는다. 대조적으로, 일부 구현예들에서, 게놈-분류 시스템은 변이 유형(예를 들어, SNV, 삽입-결실, 암이나 모자이크현상을 반영하는 변이-핵염기 호출)에 특정된 게놈 좌표에 대한 신뢰도 분류를 결정한다. 예를 들어, 게놈-위치-분류 모델은 단일 뉴클레오티드 변이, 핵염기 삽입, 핵염기 결실, 구조적 변이의 일부 또는 CNV의 일부가 검출되는 게놈 좌표에 대해 서로 다른 신뢰도 분류를 생성할 수 있다. 따라서, 게놈-위치-분류 모델의 신뢰도 분류는 핵염기 삽입, 핵염기 결실, 구조적 변이의 일부 또는 CNV의 일부에 대해 다를 수 있는 신뢰도 분류와 달리, 특정 게놈 좌표에서 단일 뉴클레오티드 변이가 정확하게 결정될 수 있다는 특정 신뢰도 정도를 나타낼 수 있다.
향상된 정확도 또는 유연성과 관계없이, 일부 경우에, 게놈-분류 시스템은 기존 게놈 파일과 달리 특정 게놈 좌표 또는 영역에 대한 특정 신뢰도 분류를 도입하는 새로운 파일 유형 또는 새로 강화된 파일 유형을 생성한다. 배경을 통해, 기존 BED 파일에는 염색체 이름(예를 들어, chrom=chr3, chrY), 핵염기의 시작 위치 또는 염색체의 특징(예를 들어, 제1 염기 번호의 경우 chromStart=0), 및 특징의 끝 위치(예를 들어, chromEnd=100)에 대한 필드를 포함하는 경우가 많다. 일부 경우에, BED 파일에는 또한 특정 유전자를 식별하고 감지된 변이를 식별하는 필드도 포함되어 있다. WIG 파일, BAM 파일, VSF 파일, 또는 마이크로어레이(Microarray) 파일과 같이, 기존 BED 파일에는 특정 게놈 좌표에 대한 신뢰 분류를 위한 필드나 주석이 없다. 대조적으로, 게놈-분류 시스템은 BED, BAM, WIG, VCF, 마이크로어레이 또는 기타 디지털 파일 형식의 특정 게놈 좌표 또는 영역에 대한 주석 또는 기타 신뢰 분류 표시자를 갖는 새로운 디지털 파일을 생성한다. 상기에 언급된 바와 같이, 일부 경우에, 게놈-분류 시스템은 서로 다른 신뢰도-분류 유형(예를 들어, 고신뢰도 분류, 중간 신뢰도 분류, 저신뢰도 분류 각각에 대한 서로 다른 디지털 파일)에 따른 게놈 좌표에 대한 주석을 각각 포함하는 서로 다른 디지털 파일을 생성한다. 새로운 신뢰도-분류 표시자를 도입함으로써, 게놈-분류 시스템은 특정 게놈 좌표 또는 영역에서 다양한 서로 다른 변이-핵염기 호출에 대해 라벨 또는 점수 형식으로 특정 신뢰도 분류를 제공할 수 있다.
전술한 설명에 의해 나타낸 바와 같이, 이 개시는 게놈-분류 시스템의 다양한 특징 및 이점을 설명한다. 이 개시에 사용된 바와 같이, 예를 들어, "샘플 핵산 서열" 또는 "샘플 서열"이라는 용어는 샘플 유기체로부터 분리되거나 추출된 뉴클레오티드 서열(또는 분리되거나 추출된 서열의 복제)을 지칭한다. 특히, 샘플 핵산 서열은 샘플 유기체로부터 분리되거나 추출되고 질소성 헤테로사이클릭 염기로 구성된 핵산 폴리머의 세그먼트를 포함한다. 예를 들어, 샘플 핵산 서열은 디옥시리보핵산(DNA), 리보핵산(RNA), 또는 기타 폴리머 형태의 핵산이나 아래에 언급된 키메라 또는 하이브리드 형태의 핵산의 세그먼트를 포함할 수 있다. 보다 구체적으로, 일부 경우에, 샘플 핵산 서열은 키트에 의해 준비되거나 분리된 샘플에서 발견되고 시퀀싱 디바이스에 의해 수용된다.
본원에 추가로 사용된 바와 같이, "핵염기 호출"이라는 용어는 시퀀싱 주기 동안 올리고뉴클레오티드에 추가할 특정 핵염기의 할당 또는 결정을 지칭한다. 특히, 핵염기 호출은 뉴클레오티드-샘플 슬라이드의 올리고뉴클레오티드 내에 통합된 뉴클레오티드 유형의 할당 또는 결정을 나타낸다. 일부 경우에, 핵염기 호출에는 뉴클레오티드-샘플 슬라이드(예를 들어, 유동 셀의 웰(well))의 올리고뉴클레오티드에 추가된 형광 태그가 지정된 뉴클레오티드에서 발생하는 강도 값에 대한 핵염기의 할당 또는 결정이 포함된다. 대안으로, 핵염기 호출에는 뉴클레오티드-샘플 슬라이드의 나노기공을 통과하는 뉴클레오티드로 인해 발생하는 크로마토그램 피크 또는 전류 변화에 대한 핵염기의 할당 또는 결정이 포함된다. 핵염기 호출을 사용하여, 시퀀싱 시스템은 핵산 폴리머의 서열을 결정한다. 예를 들어, 단일 핵염기 호출은 DNA에 대한 아데닌 호출, 시토신 호출, 구아닌 호출 또는 티민 호출(A, C, G, T로 약칭) 또는 RNA에 대한 우라실 호출(티민 호출 대신)(U로 약칭)을 포함할 수 있다.
상기에 언급된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템은 샘플 핵산 서열을 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형의 핵산 서열)과 비교하기 위한 시퀀싱 메트릭을 결정한다. 본원에 사용된 바와 같이, "시퀀싱 메트릭(sequencing metric)"이라는 용어는 "예시적인 핵산 서열의 게놈 좌표 또는 게놈 영역과 관련하여 개별 핵염기 호출(또는 핵염기 호출의 서열)이 정렬, 비교 또는 정량화되는 정도를 나타내는 정량적 측정치 또는 점수를 지칭한다. 특히, 시퀀싱 메트릭은 샘플 핵산 서열이 결실-크기 메트릭 또는 매핑-품질 메트릭과 같은 예시적인 핵산 서열의 게놈 좌표와 정렬되는 정도를 정량화하는 정렬 메트릭을 포함할 수 있다. 또한, 시퀀싱 메트릭은 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기 호출의 깊이를 정량화하는 깊이 메트릭, 예컨대 정방향-역방향-깊이 메트릭 또는 정규화-깊이 메트릭을 포함할 수 있다. 시퀀싱 메트릭은 또한 핵염기-호출-품질 메트릭, 호출 가능성 메트릭 또는 체세포-품질 메트릭과 같은 핵염기 호출의 품질 또는 정확도를 정량화하는 호출-데이터-품질 메트릭을 포함할 수 있다. 일부 실시예들에서, 시퀀싱 메트릭으로부터 도출되거나 준비된 데이터는 게놈-위치-분류 모델에 입력될 수 있다. 본 개시는 시퀀싱 메트릭을 추가로 설명하고 도 3을 참조하여 아래에 추가적인 예를 제공한다.
상기에 언급된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템은 게놈 좌표에서 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정할 수 있다. 본원에 사용된 바와 같이, "컨텍스트 핵산 하위서열"이라는 용어는 샘플 핵산 서열에서 특정 핵염기 호출에 대한 게놈 좌표를 둘러싸는(예를 들어, 각 면 또는 이웃의 측면) 예시적인 핵산 서열로부터의 일련의 핵염기를 지칭한다. 일부 예들에서, 컨텍스트 핵산 하위서열은 샘플 핵산 서열에서 뉴클레오티드-변이 호출 또는 불변 호출을 둘러싸는 참조 서열(또는 조상 일배체형의 게놈 또는 서열)로부터의 일련의 핵염기를 지칭한다. 특히, 컨텍스트 핵산 하위서열은 (i) 샘플 핵산 서열의 특정 핵염기 호출(들)에 대한 게놈 좌표(들)로부터 업스트림 및 다운스트림 모두에 위치되고 (ii) 특정 핵염기 호출(들)에 대한 게놈 좌표(들)로부터 게놈 좌표의 임계 개수 내에 있는 예시적인 핵산 서열로부터의 핵염기를 포함한다. 따라서, 컨텍스트 핵산 하위서열은 예시적인 핵산 서열(예를 들어, 참조 게놈)의 상류에 있는 50개의 핵염기 및 특정 게놈 좌표에 위치된 SNV로부터 하류에 있는 50개의 핵염기의 핵염기를 포함할 수 있다.
방금 언급된 바와 같이, 게놈-분류 시스템은 예시적인 핵산 서열로부터 컨텍스트 핵산 하위서열을 결정할 수 있다. 본원에 사용된 바와 같이, "예시적인 핵산 서열"이라는 용어는 참조 게놈 또는 조상 일배체형의 서열과 같은 참조 또는 관련 게놈으로부터의 뉴클레오티드 서열을 지칭한다. 특히, 예시적인 핵산 서열은 샘플의 조상(예를 들어, 조상 일배체형)으로부터 유전된 핵산 서열 또는 디지털 핵산 서열(예를 들어, 참조 게놈)의 세그먼트를 포함한다. 일부 경우에, 조상 일배체형 서열은 샘플의 부모 또는 조부모로부터 유래된다.
본원에 추가로 사용된 바와 같이, "게놈 좌표"라는 용어는 게놈(예를 들어, 유기체의 게놈 또는 참조 게놈) 내의 핵염기의 특정 위치 또는 위치를 지칭한다. 일부 경우에, 게놈 좌표는 게놈의 특정 염색체에 대한 식별자 및 특정 염색체 내의 핵염기 위치에 대한 식별자를 포함한다. 예를 들어, 게놈 좌표 또는 좌표들에는 염색체에 대한 번호, 이름 또는 기타 식별자(예를 들어, chr1 또는 chrX) 및 특정 위치 또는 위치들, 예컨대 염색체에 대한 식별자 다음에 번호가 매겨진 위치들(예를 들어, chr1:1234570 또는 chr1:1234570-1234870)가 포함될 수 있다. 또한, 특정 구현예들에서, 게놈 좌표는 참조 게놈의 소스(예를 들어, 미토콘드리아 DNA 참조 게놈의 경우 mt, SARS-CoV-2 바이러스의 참조 게놈의 경우 SARS-CoV-2) 및 참조 게놈에 대한 소스 내 핵염기의 위치(예를 들어, mt:16568 또는 SARS-CoV-2:29001)를 나타낸다. 대조적으로, 특정 경우에, 게놈 좌표는 염색체 또는 소스(예를 들어, 29727)를 참조하지 않고 참조 게놈 내 핵염기의 위치를 나타낸다.
위에서 언급한 바와 같이, "게놈 영역"은 게놈 좌표의 범위를 의미한다. 게놈 좌표와 마찬가지로, 특정 실시예들에서, 게놈 영역은 염색체에 대한 식별자 및 특정 위치 또는 위치들, 예컨대 염색체에 대한 식별자 다음에 번호가 매겨진 위치들(예를 들어, chr1:1234570-1234870)에 의해 식별될 수 있다.
상기에 언급된 바와 같이, 게놈 좌표에는 참조 게놈 내의 위치가 포함된다. 이러한 위치는 특정 참조 게놈 내에 있을 수 있다. 본원에 사용된 바와 같이, "참조 게놈"이라는 용어는 유기체에 대한 유전자의 대표적인 예로서 조립된 디지털 핵산 서열을 의미한다. 서열 길이에 관계없이, 일부 경우에, 참조 게놈은 특정 종의 유기체를 대표하는 것으로 과학자들이 결정한 디지털 핵산 서열의 유전자 세트 또는 핵산 서열 세트를 나타낸다. 예를 들어, 선형 인간 참조 게놈은 GRCh38 또는 GRC(Genome Reference Consortium)의 참조 게놈의 다른 버전일 수 있다. 추가 예로서, 참조 게놈에는 선형 참조 게놈과 일루미나 DRAGEN 그래프 참조 게놈 hg19와 같은 조상 일배체형의 핵산 서열을 나타내는 경로가 둘 모두 포함된 참조 그래프 게놈이 포함될 수 있다.
본원에 사용된 바와 같이, "게놈-위치-분류 모델"이라는 용어는 게놈 좌표 또는 게놈 영역에 대한 신뢰도 분류를 생성하도록 훈련된 기계 학습 모델을 의미한다. 따라서, 게놈-위치-분류 모델에는 통계적 기계 학습 모델 또는 이러한 신뢰도 분류를 생성하도록 훈련된 신경망이 포함될 수 있다. 일부 경우에, 예를 들어, 게놈-위치-분류 모델은 로지스틱 회귀 모델, 랜덤 포레스트 분류기 또는 컨볼루션 신경망(convolutional neural network; CNN)의 형태를 취한다. 그러나 다른 기계 학습 모델이 훈련되거나 사용될 수 있다.
방금 제안한 바와 같이, 게놈-위치-분류 모델은 게놈-위치-분류 신경망일 수 있다. 신경망에는 복잡한 기능을 근사화하고 신경망에 제공된 복수의 입력을 기반으로 출력(예를 들어, 생성된 디지털 이미지)을 생성하도록 전달하고 학습하는 상호 연결된 인공 뉴런(예를 들어, 층으로 구성)의 모델이 포함된다. 일부 경우에, 신경망은 데이터에서 높은 수준의 추상화를 모델링하기 위해 딥러닝 기술을 구현하는 알고리즘(또는 알고리즘 세트)을 의미한다.
형태에 관계없이, 게놈-위치-분류 모델은 신뢰도 분류를 생성한다. 본원에 사용된 바와 같이, "신뢰도 분류"라는 용어는 핵염기가 게놈 좌표 또는 게놈 영역에서 결정되거나 검출될 수 있는 신뢰도 또는 신뢰성을 나타내는 라벨, 점수 또는 메트릭을 의미한다. 특히, 신뢰도 분류에는 특정 게놈 좌표 또는 특정 게놈 영역 내에서 핵염기가 정확하게 호출될 수 있는 정도를 분류하는 라벨, 점수 또는 메트릭이 포함된다. 예를 들어, 특정 구현예들에서, 신뢰도 분류에는 게놈 좌표에 대한 고신뢰도 분류, 중간-신뢰도 분류 또는 저신뢰도 분류를 식별하는 라벨이 포함된다. 추가로 또는 대안으로, 신뢰도 분류에는 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 확률 또는 가능성을 나타내는 점수가 포함된다.
다음 문단에서는 예시적인 실시예들 및 구현예들을 묘사하는 예시적인 도면들과 관련하여 게놈-분류 시스템을 설명한다. 예를 들어, 도 1은 하나 이상의 실시예들에 따라 게놈-분류 시스템(106)이 동작하는 시스템 환경(또는 "환경")(100)의 개략도를 예시한다. 예시된 바와 같이, 환경(100)은 네트워크(112)를 통해 사용자 클라이언트 장치(108) 및 시퀀싱 디바이스(114)에 연결된 하나 이상의 서버 장치(들)(102)를 포함한다. 도 1은 게놈-분류 시스템(106)의 일 실시예를 도시하고 있지만, 본 개시는 아래에서 대안적인 실시예 및 구성을 설명한다.
도 1에 도시된 바와 같이, 서버 장치(들)(102), 사용자 클라이언트 장치(108) 및 시퀀싱 디바이스(114)는 네트워크(112)를 통해 연결된다. 따라서, 환경(100)의 컴포넌트 각각은 네트워크(112)를 통해 통신될 수 있다. 네트워크(112)는 컴퓨팅 장치가 통신될 수 있는 임의의 적절한 네트워크를 포함한다. 예시적인 네트워크는 도 13을 참조하여 아래에 추가 세부사항에서 논의된다.
도 1에 의해 나타낸 바와 같이, 시퀀싱 디바이스(114)는 핵산 중합체를 시퀀싱하기 위한 장치를 포함한다. 일부 실시예들에서, 시퀀싱 디바이스(114)는 샘플에서 추출된 핵산 세그먼트 또는 올리고뉴클레오티드를 분석하여 시퀀싱 디바이스(114)에서 직접적으로 또는 간접적으로 컴퓨터 구현 방법 및 시스템(본원에 설명됨)을 활용하여 데이터를 생성한다. 보다 구체적으로, 시퀀싱 디바이스(114)는 뉴클레오티드-샘플 슬라이드(예를 들어, 유동 셀) 내에서 샘플로부터 추출된 핵산 서열을 수용하고 분석한다. 하나 이상의 실시예들에서, 시퀀싱 디바이스(114)는 SBS를 활용하여 핵산 중합체를 시퀀싱한다. 네트워크(112)를 통한 통신 외에 또는 대안으로, 일부 실시예들에서, 시퀀싱 디바이스(114)는 네트워크(112)를 바이패스하고 사용자 클라이언트 장치(108)와 직접 통신한다.
도 1에 의해 또한 나타낸 바와 같이, 서버 장치(들)(102)는 핵염기 호출을 결정하거나 핵산 중합체를 시퀀싱하기 위한 데이터와 같은 디지털 데이터를 생성, 수신, 분석, 저장 및 전송할 수 있다. 도 1에 도시된 바와 같이, 시퀀싱 디바이스(114)는 시퀀싱 디바이스(114)로부터 호출 데이터(116)를 전송(그리고 서버 장치(들)(102)는 수신할 수 있음)할 수 있다. 서버 장치(들)(102)는 또한 사용자 클라이언트 장치(108)와 통신할 수 있다. 특히, 서버 장치(들)(102)는 게놈 좌표에 대한 신뢰도 분류를 포함하는 디지털 파일(118)을 사용자 클라이언트 장치(108)에 전송할 수 있다. 도 1에 의해 나타낸 바와 같이, 일부 실시예들에서, 서버 장치(들)(102)는 각각 서로 다른 신뢰도 분류(예를 들어, 고신뢰도 분류, 중간-신뢰도 분류, 저신뢰도 분류 각각에 대한 서로 다른 디지털 파일)를 포함하는 별도의 디지털 파일을 전송한다. 일부 경우에, 디지털 파일(118)(및/또는 다른 디지털 파일)은 또한 핵염기 호출, 오류 데이터 및 기타 정보를 포함한다.
일부 실시예들에서, 서버 장치(들)(102)는 서버 장치(들)(102)가 네트워크(112)에 걸쳐 분산되고 동일하거나 서로 다른 물리적 위치에 위치되는 다수의 서버 장치를 포함하는 분산된 서버 집합을 포함한다. 또한, 서버 장치(들)(102)는 콘텐트 서버, 애플리케이션 서버, 통신 서버, 웹 호스팅 서버, 또는 다른 유형의 서버를 포함할 수 있다.
도 1에 도시된 추가로 도시된 바와 같이, 서버 장치(들)(102)는 시퀀싱 시스템(104)을 포함할 수 있다. 일반적으로, 시퀀싱 시스템(104)은 시퀀싱 디바이스(114)로부터 수신된 호출 데이터(116)를 분석하여 핵산 폴리머에 대한 핵염기 서열을 결정한다. 예를 들어, 시퀀싱 시스템(104)은 시퀀싱 디바이스(114)로부터 원시 데이터를 수신하고 핵산 세그먼트에 대한 핵염기 서열을 결정할 수 있다. 일부 실시예들에서, 시퀀싱 시스템(104)은 DNA 및/또는 RNA 세그먼트 또는 올리고뉴클레오티드의 핵염기 서열을 결정한'다. 핵산 폴리머에 대한 서열을 처리하고 결정하는 것 외에도, 시퀀싱 시스템(104)은 또한 신뢰도 분류를 포함하는 디지털 파일(118)을 생성하고 디지털 파일(118)을 사용자 클라이언트 장치(108)에 전송할 수 있다.
방금 언급한 바와 같이, 그리고 도 1에 도시된 바와 같이, 게놈-분류 시스템(106)은 시퀀싱 디바이스(114)로부터 호출 데이터(116)를 분석하여 샘플 핵산 서열에 대한 핵염기 호출을 결정한다. 일부 실시예들에서, 게놈-분류 시스템(106)은 이러한 샘플 핵산 서열에 대한 시퀀싱 메트릭 및 특정 핵염기 호출 주위의 컨텍스트 핵산 하위서열 중 하나 또는 둘 다를 결정한다. 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다에서 도출되거나 준비된 데이터에 기초하여 ― 그리고 게놈 좌표에 대한 실측 분류에 기초하여 ― 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 훈련시켜 게놈 좌표에 대한 신뢰도 분류를 결정한다. 게놈-분류 시스템(106)은 (i) 샘플에 대응하는 시퀀싱 메트릭 세트 또는 (ii) 샘플에 대응하는 컨텍스트 핵산 하위서열로부터 준비된 데이터를 입력으로서 게놈-위치-분류 모델에 제공함으로써 게놈 좌표(또는 영역) 세트에 대한 신뢰도 분류 세트를 추가로 결정한다. 이러한 입력에 기초하여, 예를 들어, 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 사용하여 참조 게놈의 각 게놈 좌표에 대한 신뢰도 분류를 결정한다. 상기에 언급된 바와 같이, 게놈-분류 시스템(106)은 게놈 좌표 또는 영역 세트에 대한 신뢰도 분류를 포함하는 디지털 파일을 추가로 생성한다.
도 1에 추가로 예시되고 나타낸 바와 같이, 사용자 클라이언트 장치(108)는 디지털 데이터를 생성, 저장, 수신 및 송신할 수 있다. 특히, 사용자 클라이언트 장치(108)는 시퀀싱 디바이스(114)로부터 호출 데이터(116)를 수신할 수 있다. 또한, 사용자 클라이언트 장치(108)는 서버 장치(들)(102)와 통신하여 핵염기 호출 및/또는 신뢰도 분류를 포함하는 디지털 파일(118)을 수신할 수 있다. 따라서 사용자 클라이언트 장치(108)는 사용자 클라이언트 장치(108)와 관련된 사용자에게 그래픽 사용자 인터페이스 내에서 게놈 좌표에 대한 신뢰도 분류를 - 때로는 뉴클레오티드 변이 호출 또는 뉴클레오티드 불변 호출과 함께 - 제시할 수 있다.
도 1에 예시된 사용자 클라이언트 장치(108)는 다양한 유형의 클라이언트 장치를 포함할 수 있다. 예를 들어, 일부 실시예들에서, 사용자 클라이언트 장치(108)는 데스크톱 컴퓨터나 서버, 또는 다른 유형의 클라이언트 장치와 같은 비-모바일 장치를 포함한다. 또 다른 실시예들에서, 사용자 클라이언트 장치(108)는 랩톱, 태블릿, 휴대폰 또는 스마트폰과 같은 모바일 장치를 포함한다. 사용자 클라이언트 장치(108)에 관한 추가 세부사항은 도 13과 관련하여 아래에서 논의된다.
도 1에 추가로 예시된 바와 같이, 사용자 클라이언트 장치(108)는 시퀀싱 애플리케이션(110)을 포함한다. 시퀀싱 애플리케이션(110)은 웹 애플리케이션 또는 사용자 클라이언트 장치(108)에 저장되고 실행되는 네이티브 애플리케이션(예를 들어, 모바일 애플리케이션, 데스크톱 애플리케이션)일 수 있다. 시퀀싱 애플리케이션(110)은 게놈-분류 시스템(106)으로부터 데이터를 수신하고, 사용자 클라이언트 장치(108)에 디스플레이하기 위해, 디지털 파일(118)로부터의 데이터를 제시(예를 들어, 게놈 좌표에 의한 특정 신뢰도 분류를 제시함으로써)할 수 있다. 더욱이, 시퀀싱 애플리케이션(110)은 변이-핵염기 호출 또는 핵염기-호출 불변의 게놈 좌표에 대한 신뢰도 분류의 표시자를 디스플레이하도록 사용자 클라이언트 장치(108)에 지시할 수 있다.
도 1에 추가로 예시된 바와 같이, 게놈-분류 시스템(106)은 시퀀싱 애플리케이션(110)의 일부로서 사용자 클라이언트 장치(108)에 또는 시퀀싱 디바이스(114)에 위치될 수 있다. 따라서, 일부 실시예들에서, 게놈-분류 시스템(106)은 사용자 클라이언트 장치(108)에 의해 구현(예를 들어, 전체적으로 또는 부분적으로 위치)된다. 또 다른 실시예들에서, 게놈-분류 시스템(106)은 시퀀싱 디바이스(114)와 같은 환경(100)의 하나 이상의 다른 컴포넌트들에 의해 구현된다. 특히, 게놈-분류 시스템(106)은 서버 장치(들)(102), 네트워크(112), 사용자 클라이언트 장치(108) 및 시퀀싱 디바이스(114)에 걸쳐 다양한 방식으로 구현될 수 있다.
도 1은 네트워크(112)를 통해 통신하는 환경(100)의 컴포넌트를 도시하지만, 특정 구현예들에서, 환경(100)의 컴포넌트는 또한 네트워크를 바이패스하여 서로 직접 통신할 수도 있다. 예를 들어, 앞서 언급된 바와 같이, 일부 구현예들에서, 사용자 클라이언트 장치(108)는 시퀀싱 디바이스(114)와 직접 통신한다. 추가로, 일부 실시예들에서, 사용자 클라이언트 장치(108)는 게놈-분류 시스템(106)과 직접 통신한다. 더욱이, 게놈-분류 시스템(106)은 서버 장치(들)(102) 또는 환경(100)의 다른 곳에 수용되거나 이에 의해 액세스되는 하나 이상의 데이터베이스에 액세스할 수 있다.
상기에 나타낸 바와 같이, 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 훈련시켜 게놈 좌표 또는 게놈 영역에 대한 신뢰도 분류를 결정한다. 도 2는 게놈-위치-분류 모델(208)을 트레이닝하기 위해 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 모두를 사용하는 게놈-분류 시스템(106)의 개요를 예시한다. 추가로 아래에 설명된 바와 같이, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 시퀀싱 메트릭(202) 및 컨텍스트 핵산 하위서열(204) 중 하나 또는 둘 다를 결정한다. 시퀀싱 메트릭(202) 또는 컨텍스트 핵산 하위서열(204) 중 하나 이상으로부터 도출되거나 준비된 데이터에 기초하여, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(208)을 훈련시켜 게놈 좌표에 대한 신뢰도 분류를 생성한다. 게놈-위치-분류 모델(208)을 훈련시키고 테스트한 후, 게놈-분류 시스템(106)은 특정 게좀 좌표에 대한 신뢰도 분류를 포함한느 디지털 파일(214)을 생성하고 컴퓨팅 디바이스(220)가 디지털 파일(214)로부터의 이러한 신뢰도 분류를 디스플레이하도록 할 수 있다.
도 2에 도시된 바와 같이, 예를 들어, 게놈-분류 시스템(106)은 샘플 핵산 서열을 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형의 핵산 서열)과 비교하기 위한 시퀀싱 메트릭(202)을 결정한다. 시퀀싱 메트릭(202)을 결정하기 위한 준비로, 일부 경우에, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 호출 데이터를 수신하고 샘플의 다양한 코호트로부터 추출된 핵산 서열에 대한 핵염기 호출을 결정한다. 일부 경우에, 예를 들어, 게놈-분류 시스템(106)은 다양한 집단에 걸쳐 30-150개의 샘플로부터 결정된 핵염기 호출 및 핵산 서열을 사용한다. 각 샘플 핵산 서열에 대한 핵염기 호출을 추출하고 결정하기 위해, 특정 구현예들에서, 게놈-분류 시스템(106)은 각 샘플에 대해 동일한 핵산-서열-추출 방법, 시퀀싱 디바이스 및 서열-분석 소프트웨어를 포함하는 공통 또는 단일 시퀀싱 파이프라인을 사용한다.
샘플 핵산 서열 내의 핵염기 호출에 기초하여, 게놈-분류 시스템(106)은 시퀀싱 메트릭(202)을 결정한다. 상기에 나타낸 바와 같이, 시퀀싱 메트릭(202)는 (i) 샘플 핵산 서열이 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형의 핵산 서열)과 정렬되는 정도를 정량화하는 정렬 메트릭, (ii) 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기 호출의 깊이를 정량화하는 깊이 메트릭, 또는 (iii) 예시적인 핵산 서열의 핵염기 호출의 품질 또는 정확도를 정량화하는 호출-데이터-품질 메트릭 중 하나 이상을 포함할 수 있다. 예를 들어, 정렬 메트릭을 결정할 때, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 결실-엔트로피 메트릭, 결실-크기 메트릭, 매핑-품질 메트릭, 양성-삽입-크기 메트릭, 음성-삽입-크기 메트릭, 소프트-클리핑 메트릭, 리드-포지션 메트릭 또는 리드-참조-불일치 메트릭 중 하나 이상을 결정한다. 대조적으로, 깊이 메트릭을 결정할 때, 게놈-분류 시스템(106)은 정방향-역방향-깊이 메트릭, 정규화-깊이 메트릭, 깊이-언더(depth-under) 메트릭, 깊이-오버(depth-over) 메트릭 또는 피크-카운트(peak-count) 메트릭 중 하나 이상을 결정한다. 호출-데이터-품질 메트릭을 결정할 때, 예를 들어, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 핵염기-호출-품질 메트릭, 호출 가능성 메트릭 또는 체세포-품질 메트릭 중 하나 이상을 결정한다. 시퀀싱 메트릭(202)은 도 3과 관련하여 아래에서 추가로 설명된다.
시퀀싱 메트릭(202)을 결정하는 것 외에도, 도 2에 도시된 바와 같이, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(208)에 입력하기 위해 시퀀싱 메트릭(202)으로부터 데이터(206)를 추가로 준비한다. 입력을 위한 데이터를 준비할 때, 게놈-분류 시스템(106)은 다양한 방식으로 시퀀싱 메트릭(202)을 요약하거나 평균화함으로써 시퀀싱 메트릭(202)으로부터 데이터를 추출할 수 있다. 추출 외에도, 특정 경우에, 게놈-분류 시스템(106)은 또한 시퀀싱 메트릭(202) 또는 시퀀싱 메트릭(202)으로부터 추출된 데이터를 수정하여 게놈-위치-분류 모델(208)에 입력하기 위한 데이터를 포맷팅한다. 시퀀싱 메트릭(202)을 추출하고 수정한 후 또는 이 외에도, 일부 실시들예에서, 게놈-분류 시스템(106)은 다양한 유형의 시퀀싱 메트릭(202)을 동일한 스케일(예를 들어, 평균 0 및 표준 편차 1)로 추가로 표준화한다.
도 2에 또한 도시된 바와 같이, 시퀀싱 메트릭(202)을 결정하는 것 외에 또는 대안으로, 게놈-분류 시스템(106)은 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형 서열)로부터 특정 게놈 좌표에서 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열(204)을 결정한다. 각각의 이러한 컨텍스트 핵산 하위서열에 대해, 일부 경우에, 게놈-분류 시스템(106)은 특정 핵염기 호출에 대한 게놈 좌표로부터 또는 특정 핵염기 호출들에 대한 게놈 좌표들로부터 임계 좌표 거리 내에 있는 참조 게놈의 업스트림 및 다운스트림 핵염기를 둘 모두를 결정한다. 예를 들어, 게놈-분류 시스템(106)은 SNV, 삽입-결실, 구조적 변이, CNV 또는 기타 변이에 대한 게놈 좌표로부터 20개, 50개, 100개 또는 서로 다른 개수의 핵염기 내의 업스트림 및 다운스트림 핵염기를 결정할 수 있다.
추가로 아래에 설명된 바와 같이, 컨텍스트 핵산 하위서열(204)은 특정 SNV, 삽입-결실, 구조적 변이, CNV 또는 문제가 되는 다른 변이 유형에 대응하는 게놈 좌표(들)에 대한 핵염기 호출(들)을 포함하거나 제외할 수 있다. 추가로, 특정 구현예들에서, 게놈-분류 시스템(106)은 예를 들어, 벡터 알고리즘을 적용하여 컨텍스트 핵산 하위서열(204)을 게놈-위치-분류 모델(208)에 입력하기 위한 포맷으로 패키징하거나 압축함으로써 컨텍스트 핵산 하위서열(204)로부터 데이터를 도출하거나 준비한다.
시퀀싱 메트릭(202) 및 컨텍스트 핵산 하위서열(204)로부터 준비된 데이터 중 하나 또는 둘 다를 결정한 후, 게놈-분류 시스템(106)은 이러한 데이터를 기반으로 게놈-위치-분류 모델(208)을 훈련시킨다. 예를 들어, 게놈-분류 시스템(106)은 시퀀싱 메트릭(202)과 컨텍스트 핵산 하위서열(204)로부터 준비된 데이터 중 하나 또는 둘 다를 - 대응하는 게놈 좌표 또는 영역의 표시자와 함께 - 게놈-위치-분류 모델(208)에 반복적으로 입력한다. 반복 입력에 기초하여, 게놈-위치-분류 모델(208)은 각 대응하는 게놈 좌표 또는 게놈 영역에 대한 예측 신뢰도 분류를 생성한다.
예측 신뢰도 분류를 생성 시, 게놈-분류 시스템(106)은 훈련 반복 시 예측 신뢰도 분류를 사용하여 게놈-위치-분류 모델(208)의 성능(210)을 평가한다. 예를 들어, 게놈-분류 시스템(106)은 대응하는 게놈 좌표 또는 게놈 영역에 대한 실측 분류(212)로부터의 실측 분류와 예측 신뢰도 분류를 비교한다. 예를 들어, 각각의 트레이닝 반복 시, 게놈-분류 시스템(106)은 손실 함수를 실행하여 게놈 좌표에 대한 예측 신뢰도 분류와 게놈 좌표에 대한 실측 분류 간의 손실을 결정한다. 결정된 손실에 기초하여, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(208)의 하나 이상의 파라미터를 조정하여 게놈-위치-분류 모델(208)이 예측 신뢰도 분류를 생성하는 정확도를 향상시킨다. 이러한 훈련 반복을 반복적으로 실행함으로써, 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 훈련시켜 신뢰도 분류를 결정한다.
게놈-위치-분류 모델(208)을 훈련시킨 후, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(208)의 훈련된 버전을 사용하여 시퀀싱 메트릭 세트 및/또는 컨텍스트 핵상 하위서열 세트에 기초하여 게놈 좌표(또는 영역) 세트에 대한 신뢰도 분류 세트를 결정한다. 일부 실시예들에서, 게놈-분류 시스템(106)은 시퀀싱 메트릭 세트 및/또는 다양한 샘플로부터의 컨텍스트 핵산 하위서열 세트를 결정한다. 각 게놈 좌표 또는 영역에 대한 신뢰도 분류를 결정함으로써 ― 또는 참조 게놈에 대응하는 적어도 게놈 좌표 또는 영역의 서브셋에 대해 ― 게놈-분류 시스템(106)은 핵염기가 이러한 게놈 좌표 또는 영역에서 정확하게 검출될 수 있는지 여부를 나타내는 좌표별 또는 영역별 분류를 생성한다. 시퀀싱 메트릭(202) 또는 컨텍스트 핵산 하위서열(204)이 결정되는 핵염기 호출은 단일 또는 정의된 시퀀싱 파이프라인을 사용하기 때문에, 게놈-분류 시스템(106)은 마찬가지로 정의된 동일한 시퀀싱 파이프라인을 사용하여 분석되는 샘플 핵산 서열에 기초하여 게놈 좌표 또는 영역에 대한 신뢰도 분류를 결정할 수 있다.
도 2에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 게놈 좌표 또는 영역에 대한 신뢰도 분류를 포함하는 디지털 파일을 생성한다. 일부 경우에, 디지털 파일(214)은 특정 게놈 좌표 또는 영역에 대한 신뢰도 분류를 식별하기 위해 컴퓨팅 장치가 액세스할 수 있는 참조 파일로서 신뢰 분류를 포함한다. 디지털 파일(214)(또는 디지털 파일 세트)은 각 게놈 좌표에 대해 고신뢰도, 중간 신뢰도, 저신뢰도 ― 또는 신뢰도 점수 ― 의 신뢰도 분류를 포함할 수 있다. 추가로, 일부 경우에, 게놈-분류 시스템(106)은 핵염기 호출이 저신뢰도의 신뢰도 분류(예를 들어, 저신뢰도 분류 또는 신뢰도 점수 임계값 미만)에 대응하는 게놈 좌표에 위치되기 때문에 서로 다른 시퀀싱 방법을 사용하여 직교 검증을 위해 디지털 파일(214)의 핵염기를 호출한다.
하기에 추가로 설명된 바와 같이, 특정 경우에, 디지털 파일(214)은 특정 게놈 좌표에 대한 뉴클레오티드-변이 호출 및 특정 게놈 좌표에 대한 신뢰도 분류를 포함한다. 이러한 경우에, 디지털 파일(214)은 임상의 또는 환자가 뉴클레오티드-변이 호출을 포함하여 핵염기 호출에 의존할 수 있는 신뢰성에 대한 컨텍스트를 제공한다. 도 2에 의해 추가로 나타낸 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 각각 서로 다른 신뢰도 분류(예를 들어, 고신뢰도 분류, 중간-신뢰도 분류, 저신뢰도 분류 각각에 대한 서로 다른 디지털 파일)를 포함하는 별도의 디지털 파일을 생성한다.
디지털 파일(214)을 생성하는 것 외에 그리고 도 2에 추가로 도시된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 변이-핵염기 호출 또는 핵염기-호출 불변과 같은 핵염기 호출의 게놈 좌표에 대한 특정 신뢰도 분류의 신뢰도 표시자(216)를 컴퓨팅 장치(220)에 추가로 제공한다. 도 2에 의해 나타낸 바와 같이, 게놈-분류 시스템(106)은 신뢰도 분류를 디지털 파일(214)뿐만 아니라 컴퓨팅 장치(220)의 그래픽 사용자 인터페이스(218)에 대한 변이 호출 또는 불변 호출을 보고하기 위한 데이터에도 통합할 수 있다. 예를 들어, 도 2에 도시된 바와 같이, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 변이 호출을 위한 게놈 좌표 및 특정 유전자에 대한 식별자와 함께 그래픽 사용자 인터페이스(218) 내에 디스플레이하기 위한 신뢰도 표시자(216)를 제공한다. 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 마찬가지로 동일하거나 유사한 게놈 좌표 및/또는 유전자 정보와 함께 그래픽 사용자 인터페이스에 디스플레이하기 위한 불변 호출에 대한 신뢰도 표시자를 제공할 수 있다.
상기에 언급된 바와 같이, 게놈-분류 시스템(106)은 샘플 핵산 서열을 참조 게놈의 게놈 좌표와 비교하기 위한 시퀀싱 메트릭을 결정한다. 하나 이상의 실시예들에 따르면, 도 3은 샘플 핵산 서열에 대한 핵염기 호출을 결정(302)하고, 서열 핵염기 호출을 예시적인 핵산 서열과 정렬(304)하고, 샘플 핵산 서열에 대한 시퀀싱 메트릭을 결정(306)하는 게놈-분류 시스템(106)을 예시한다. 하기에 설명된 바와 같이, 게놈-분류 시스템(106)은 핵염기 호출을 결정하고, 샘플 핵산 서열을 정렬하고, 참조 게놈 내의 특정 게놈 좌표에 대한 시퀀싱 메트릭을 결정한다.
도 3에 도시된 바와 같이, 예를 들어, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 핵염기 호출을 결정(302)한다. 이러한 핵염기 호출을 준비 시, 일부 실시예들에서, 핵산 서열은 추출 키트 또는 특정 핵산-서열-추출 방법을 사용하여 다양한 민족의 샘플로부터 추출되거나 분리된다. 추출 후, 시퀀싱 디바이스(114)는 SBS 시퀀싱 또는 생어 시퀀싱을 사용하여 샘플 핵산 서열에 대한 복제본과 역 가닥(reverse strand)을 합성하고 성장하는 핵산 서열에 통합된 개별 핵염기를 나타내는 호출 데이터를 생성한다. 호출 데이터에 기초하여, 시퀀싱 시스템(104)은 핵산 서열 내의 핵염기 호출을 결정한다.
일부 실시예들에서, 단일 또는 정의된 파이프라인은 각 샘플에 대한 이러한 핵산 서열의 핵염기를 처리하고 결정한다. 예를 들어, 시퀀싱 시스템(104)은 동일한 핵산-서열-추출 방법(예를 들어, 추출 키트), 동일한 시퀀싱 디바이스 및 동일한 서열-분석 소프트웨어를 포함하는 단일 시퀀싱 파이프라인을 사용할 수 있다. 특히, 단일 파이프라인에는 예를 들어 핵산-서열-추출 방법을 위한 일루미나 사(Illumina Inc.)의 TruSeq PCR-Free 샘플 준비 키트를 사용하여 DNA 세그먼트를 추출하는 것; 시퀀싱 디바이스로 NovaSeq 6000 Xp, NextSeq 550, NextSeq 1000 또는 NextSeq 2000을 사용한 시퀀싱하는 것; 및 서열-분석 소프트웨어용 Dragen Germline Pipeline을 사용하여 핵염기 호출을 결정하는 것을 포함할 수 있다.
샘플 핵산 서열에 대한 핵염기를 결정한 후, 도 3에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 서열 핵염기 호출을 예시적인 핵산 서열(304)과 정렬한다. 예를 들어, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 (다양한 리드에 걸친) 특정 핵산 서열의 핵염기를 참조 게놈(예를 들어, 선형 참조 게놈 또는 그래프 참조 게놈)의 핵염기와 대략 일치시킨다. 도 3에 의해 나타낸 바와 같이, 게놈-분류 시스템(106)은 각 샘플의 핵산 서열에 대한 정렬 프로세스를 반복한다. 상기에 나타낸 바와 같이, 핵염기 호출을 참조 게놈과 정렬시키는 것 외에 또는 대안으로, 일부 경우에, (예를 들어, 뉴클레오티드 리드으로부터의) 핵염기 호출을 조상 일배체형으로부터의 하나 이상의 핵산 서열과 정렬시킨다. 대략적으로 정렬되면, 게놈-분류 시스템(106)은 각 샘플에 대한 참조 게놈의 특정 게놈 좌표에서 핵염기 호출을 식별할 수 있다.
도 3에 의해 제안된 바와 같이, 일부 구현예들에서, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 BAM 및 VCF 파일 중 하나 또는 둘 다를 생성하는 과정의 일부로서 서열 핵염기 호출을 예시적인 핵산 서열과 정렬(304)시키고 ― 이러한 핵염기 호출에 대한 리드 및 샘플 데이터를 집계한다. 그렇게 하기 위해, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은, 각 샘플에 대해, 정렬된 샘플 핵산 서열에 대한 데이터를 포함하는 BAM 파일 및 참조 게놈의 게놈 좌표에서 핵산-변이 호출에 대한 데이터를 포함하는 VCF 파일을 생성한다.
도 3에 추가로 도시된 바와 같이, 핵염기 호출을 결정하고 샘플 핵산 서열을 정렬시킨 후, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 시퀀싱 메트릭을 결정(306)한다. 일부 실시예들에서, 게놈-분류 시스템(106)은 각 게놈 좌표(또는 각 게놈 영역)에서 샘플 핵산 서열에 대한 시퀀싱 메트릭을 결정한다. 상기에 나타낸 바와 같이, 게놈-분류 시스템(106)은 다양한 샘플에 대한 BAM 및 VCF 파일로부터 시퀀싱 메트릭을 선택적으로 결정한다. 하기에 설명된 바와 같이, 게놈-분류 시스템(106)은 게놈 좌표에서 깊이, 정렬 또는 호출-데이터 품질을 정량화하는 하나 이상의 시퀀싱 메트릭을 결정한다. 다음의 단락에서는 정렬, 깊이 및 호출-데이터 품질에 따라 대략적으로 그룹화된 예시적인 시퀀싱 메트릭을 설명한다.
방금 나타낸 바와 같이, 게놈-분류 시스템(106)은 샘플 핵산 서열을 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형의 핵산 서열)과 정렬하기 위한 정렬 메트릭을 결정할 수 있다. 예시하기 위해, 일부 경우에, 게놈-분류 시스템(106)은 예를 들어 게놈 좌표에서 리드의 평균 또는 중간값 매핑 품질을 결정함으써 샘플 핵산 서열에 대한 매핑-품질 메트릭을 결정한다. 일부 이러한 실시예들에서, 게놈-분류 시스템(106)은 게놈 좌표에서 핵염기 호출에 대한 매핑 품질(MAPQ) 점수를 식별하거나 생성하며, 여기서 MAPQ 점수는 가장 가까운 정수로 반올림된 -10 log10 Pr{매핑 위치가 잘못됨}을 나타낸다. 평균 또는 중간값 매핑 품질에 대한 대안으로, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈 좌표 또는 조상 일배체형과 정렬되는 모든 리드에 대한 매핑 품질의 전체 분포를 결정함으로써 샘플 핵산 서열에 대한 매핑-품질 메트릭을 결정한다. 매핑-품질 메트릭 외에 또는 대안으로, 게놈-분류 시스템(106)은 예를 들어 기준 게놈 또는 조상 일배체형에 대응하는 게놈 좌표에 걸쳐 있는 소프트-클리핑된 핵염기의 총 개수를 결정함으로써 샘플 핵산 서열에 대한 소프트-클리핑 메트릭을 결정할 수 있다. 따라서, 일부 경우에, 게놈-분류 시스템(106)은 리드의 양쪽에 있는 특정 게놈 좌표(예를 들어, 리드의 5 프라임 엔드 또는 3 프라임 엔드)에서 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형)과 일치하지 않는 핵염기의 개수를 결정하고 정렬을 위해 무시된다.
정렬 메트릭의 추가 예로서, 일부 실시예들에서, 게놈-분류 시스템(106)은 예를 들어 다수의 리드(예를 들어, 특정 게놈 좌표와 중복되는 모든 리드)에 걸쳐 또는 다수의 사이클(예를 들어, 모든 사이클)에 걸쳐 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형)의 핵염기와 일치하지 않는 핵염기의 총 개수를 결정함으로써 샘플 핵상 서열에 대한 리드-참조-불일치 메트릭을 결정한다. 대조적으로, 특정 경우에, 게놈-분류 시스템(106)은 예를 들어 게놈 좌표를 커버하는 핵염기의 시퀀싱 리드 내에서 평균 또는 중간값 위치를 결정함으로써 샘플 핵산 서열에 대한 리드-포지션(read-position) 메트릭을 결정한다.
상기에 언급된 정렬 메트릭 외에, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 게놈 좌표에서 삽입-결실을 정량화하는 삽입-결실 메트릭, 예컨대 결실 메트릭을 결정함으로써 정렬을 결정할 수 있다. 일부 경우에, 게놈-분류 시스템(106)은 예를 들어 참조 게놈의 게놈 좌표에 걸쳐 있는 결실의 평균 또는 중간값 크기를 결정함으로써 샘플 핵산 서열에 대한 결실-크기 메트릭을 결정한다. 또한, 특정 구현예들에서, 게놈-분류 시스템(106)은 예를 들어 참조 게놈의 게놈 좌표 또는 게놈 영역에 대한 결실 크기의 분포 또는 분산을 결정함으로써 샘플 핵산 서열에 대한 결실-엔트로피 메트릭을 결정한다. 단일 핵염기의 샘플 핵산 서열에서 일관되거나 반복된 결실이 있는 게놈 좌표 또는 영역(예를 들어, 샘플의 20%가 단일 핵염기 결실을 포함함)은 샘플 핵산 서열에서 다양한 결실 크기를 갖는 서로 다른 게놈 좌표 또는 영역(예를 들어, 샘플의 20%는 단일 핵염기 결실, 5-핵염기 결실 또는 10-핵염기 결실을 포함함)보다 적은 결실 엔트로피를 갖는다.
상기에 언급된 정렬 메트릭의 예로서 결실 메트릭 외에, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 게놈 좌표에서의 삽입을 정량화하는 삽입-크기 메트릭을 결정할 수 있다. 예를 들어, 특정 구현예들에서, 게놈-분류 시스템(106)은 참조 좌표를 커버하는 리드의 평균 또는 중간값 양성 삽입 크기를 결정함으로써 샘플 핵산 서열에 대한 양성-삽입-크기 메트릭을 결정한다. 이러한 양성 삽입에는 두 개의 시퀀싱 리드 중 어느 것도 포함되지 않는 DNA 또는 RNA 프래그먼트의 영역이 포함될 수 있다. 양성-삽입-크기 메트릭과 대조적으로, 일부 경우에, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 음성-삽입-크기 메트릭을 결정한다. 예를 들어, 게놈-분류 시스템(106)은 게놈 좌표를 커버하는 시퀀싱 리드의 평균 또는 중간값 음성 삽입 크기를 ― 음성-삽입-크기 메트릭으로서 결정한다. 이러한 음성 삽입은 두 개의 시퀀싱 리드 사이에 중복 부분을 포함할 수 있다.
정렬 메트릭 외에 또는 대안으로, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 게놈 좌표에서 핵염기 호출의 깊이를 정량화하는 깊이 메트릭을 결정할 수 있다. 예를 들어 깊이 메트릭은 게놈 좌표에서 결정되고 정렬된 핵염기 호출 수를 정량화할 수 있다. 특정 구현예들에서, 게놈-분류 시스템(106)은 게놈 좌표에서 정방향 가닥과 역방향 가닥 모두에 대한 깊이를 결정함으로써 샘플 핵산 서열에 대한 정방향-역방향-깊이 메트릭을 결정한다. 추가로 또는 대안으로, 게놈-분류 시스템(106)은 예를 들어 게놈 좌표에서 정규화된 스케일로 깊이를 결정함으로써 샘플 핵산 서열에 대한 정규화-깊이 메트릭을 결정한다. 일부 이러한 경우에, 게놈-분류 시스템(106)은 정규화된 깊이 1이 이배체(diploid)를 나타내고 정규화된 깊이 0.5가 반배체(haploid)를 나타내는 스케일을 사용한다.
정방향-역방향-깊이 메트릭 또는 정규화-깊이 메트릭 외에, 일부 경우에, 게놈-분류 시스템(106)은 샘플 핵산 서열에 대한 깊이-언더 메트릭 또는 깊이-오버 메트릭을 결정한다. 예를 들어, 게놈-분류 시스템(106)은 게놈 좌표 또는 게놈 영역에서 예측 또는 임계 깊이 커버리지 미만의 핵염기 호출의 수를 정량화함으로써 깊이-언더 메트릭을 결정할 수 있다. 일부 경우에, 게놈-분류 시스템(106)은 게놈 좌표에서의 평균 깊이 커버리지에 -1을 곱하고, 1을 더하고, 최소값을 0으로 설정한다. 예를 들어, 게놈 좌표가 0.75의 평균 깊이 커버리지를 갖는 경우, 게놈-분류 시스템(106)은 게놈 좌표에 대해 0.25의 깊이-언더 메트릭을 결정할 것이다. 대조적으로, 게놈-분류 시스템(106)은 게놈 좌표 또는 게놈 영역에서 예측 또는 임계 깊이 커버리지 이상의 핵염기 호출의 수를 정량화함으로써 깊이-오버 메트릭을 결정할 수 있다.
상기에 언급된 바와 같이, 일부 구현예들에서, 게놈-분류 시스템(106)은 예를 들어 게놈 샘플(예를 들어, 게놈 샘플의 다양한 코호트)에 걸쳐 게놈 좌표 또는 영역에 대한 깊이 분포를 결정하고 분포로부터 깊이 커버리지에 대한 로컬 최대값을 식별함으로써 피크-카운트 메트릭을 결정한다. 특정 구현예들에서, 게놈-분류 시스템(106)은 가우시안 커널을 사용하여 게놈 영역에 대한 깊이 메트릭을 깊이 커버리지의 분포로 평활화하고 SciPy.org의 신호 처리 하위 패키지로부터의 피크 찾기 기능을 분포에 적용하여 깊이 커버리지에 대한 로컬 최대값을 식별한다.
깊이 메트릭과 무관하게, 게놈-분류 시스템(106)은 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기-호출 품질을 정량화하는 호출-데이터-품질 메트릭을 결정할 수 있다. 특정 실시예들에서, 예를 들어, 게놈-분류 시스템(106)은 예시적인 핵산 서열(예를 들어, 참조 게놈 또는 조상 일배체형의 핵산 서열)의 게놈 좌표에서 임계 품질 점수(예를 들어, Q20)를 충족하는 핵염기 호출의 백분율 또는 서브셋을 결정함으로써 핵염기-호출-품질 메트릭을 결정한다. 예시하기 위해, 품질 점수(또는 Q 점수)는 게놈 좌표에서 부정확한 핵염기 호출의 확률이 Q20 점수의 경우 100분의 1이고, Q30 점수의 경우 1,000분의 1이고, Q40 점수의 경우 10,000분의 1인 식으로 나타낼 수 있다.
핵염기-호출-품질 메트릭 외에 또는 대안으로, 일부 실시예들에서, 게놈-분류 시스템(106)은 예를 들어 게놈 좌표에서 정확한 뉴클레오티드-변이 호출 또는 핵염기 호출을 나타내는 점수를 결정함으로써 샘플 핵산 서열에 대한 호출 가능성 메트릭을 결정한다. 일부 경우에, 호출 가능성 메트릭은 일루미나 사에 의해 구현된 바와 같은, 통과 유전자형 호출이 있는 N이 아닌 참조 위치의 비율 또는 백분율을 나타낸다.또한, 일부 구현예들에서, 게놈-분류 시스템(106)은 GATK(Genome Analysis Toolkit) 버전을 사용하여 호출 가능성 메트릭을 결정한다.
핵염기-호출-품질 메트릭 또는 호출 가능성 메트릭 외에, 일부 실시예들에서, 게놈-분류 시스템(106)은 예를 들어, 종양 샘플에서 비정상 리드의 수를 결정할 확률을 추정하는 점수를 결정함으로써 샘플 핵산 서열에 대한 체세포-품질 메트릭을 결정한다. 예를 들어, 체세포-품질 메트릭은 Fisher Exact Test ― 종양 및 정상 BAM 파일의 비정상 및 정상 리드 수가 지정됨)를 사용하여 종양 샘플에서 지정된(또는 더 극단적인) 카운트의 비정상 리드를 결정할 확률의 추정치를 나타낼 수 있다. 일부 경우에, 게놈-분류 시스템(106)은 Phred 알고리즘을 사용하여 체세포-품질 메트릭을 결정하고 체세포-품질 메트릭을 품질 점수(또는 Q 점수)와 같은 0 내지 60 범위의 Phred-스케일 점수로 표현한다. 이러한 품질 점수는 -10 log10(확률 변이는 체세포임)과 같을 수 있다.
위에서 제안된 바와 같이, 시퀀싱 메트릭을 결정한 후, 게놈-분류 시스템(106)은 게놈-위치-분류 모델에 입력하기 위해 시퀀싱 메트릭으로부터 데이터를 준비할 수 있다. 하나 이상의 실시예들에 따르면, 도 4는 (i) 시퀀싱 메트릭으로부터 데이터를 추출(406)하고, (ii) 시퀀싱 메트릭 또는 메트릭 추출을 변환(408)하고, (iii) 시퀀싱 메트릭 또는 메트릭 추출을 리엔지니어링 또는 재구성)함으로써 시퀀싱 메트릭으로부터 데이터를 준비(404)하는 게놈-분류 시스템(106)을 예시한다. UMAP(Uniform Manifold Approximation and Projection) 그래프(402a 및 402b)에 의해 예시되고 하기에 추가로 설명된 바와 같이, 데이터 준비는 플래티넘 게놈에 의해 카탈로그화된 영역의 백금 염기 및 비-백금 염기로 측정된 게놈-위치-분류 모델에 대한 데이터를 효과적으로 선별한다. 본원에 사용된 바와 같이, "백금 염기(platinum base)" 또는 "진리셋 염기(truthset base)"라는 용어는 일루미나 사에 의해 개발된 플래티넘 게놈의 정의된 신뢰도 영역으로부터 나온 핵염기를 나타낸다.특히, 백금 염기(또는 진리셋 염기)는 정의된 멘델-유전 패턴과 일관된 동형접합 유전 중 하나 또는 둘 다를 갖는 게놈 좌표로부터의 핵염기를 나타낸다.
도 4에 의해 도시된 바와 같이, 예를 들어, 게놈-분류 시스템(106)은 시퀀싱 메트릭으로부터 데이터를 추출(406)하여 게놈-위치-분류 모델에 입력하기 위한 데이터를 준비한다. 시퀀싱 메트릭으로부터 데이터 또는 특징을 추출함으로써, 게놈-분류 시스템(106)은 게놈-위치-분류 모델이 달리 식별하거나 학습할 수 없는 시퀀싱 메트릭으로부터 정보를 요약할 수 있다. 예를 들어, 일부 실시예들에서, 게놈-분류 시스템(106)은 (i) 게놈 좌표에 대한 시퀀싱 메트릭의 로컬 요약을 제공하기 위한 특정 시퀀싱 메트릭의 롤링 평균, (ii) 게놈 좌표 없이 시퀀싱 메트릭의 로컬 요약을 제공하기 위한 특정 시퀀싱 메트릭의 마스킹된 롤링 평균, 또는 (iii) 주어진 시퀀싱 메트릭에 대한 특정 가설을 평가하는 통계 테스트의 통계 측정치 중 하나 이상을 결정함으로써 시퀀싱 메트릭으로부터 데이터를 추출한다.
방금 언급된 바와 같이, 게놈-분류 시스템(106)은 다양한 통계 테스트를 수행하여 게놈-위치-분류 모델에 입력하기 위해 특정 시퀀싱 메트릭으로부터 데이터를 추출할 수 있다. 일부 경우에, 예를 들어, 게놈-분류 시스템(106)은 깊이 메트릭(예를 들어, 정방향-역방향-깊이 메트릭, 정규화-깊이 메트릭)에 대한 콜모고르프-스머노프(Kolmogorov-Smirnov; KS) 테스트를 수행하여 깊이가 샘플 모집단에 걸쳐 정상적으로 분포되는지 여부를 결정한다. 일부 경우에, KS 테스트는 경험적 분포 함수에 따라 각 샘플의 샘플 핵산 서열의 깊이 간의 거리를 정량화한다. 통계 테스트의 추가 예로서, 특정 실시예들에서, 게놈-분류 시스템(106)은 깊이 메트릭(예를 들어, 정방향-역방향-깊이 메트릭)에 대한 이항 테스트를 수행하여 깊이가 정방향 가닥과 역방향 가닥에 동일하게 분포되어 있는지 여부를 결정한다. 특정 상황에서, 이항 테스트는 예측 깊이 분포로부터 정방향 가닥과 역방향 가닥에 대한 카테고리로의 편차에 대한 통계적 유의성을 결정한다.
통계적 테스트로서 KS 테스트나 이항 테스트 외에(또는 대안으로), 게놈-분류 시스템(106)은 호출-데이터-품질 메트릭(예를 들어, 핵염기-호출-품질 메트릭) 및/또는 다른 시퀀싱 메트릭에 대한 이항 비율 테스트를 수행하여 정방향 및 역방향 가닥에 대한 리드가 품질-점수 임계값(예를 들어, Q20 점수)을 충족하는 동일한 백분율의 품질 점수를 갖는지 여부를 결정한다. 일부 경우에, 이항 테스트는 정방향 및 역방향 가닥에 대한 리드가 적어도 Q20 점수의 동일한 백분율 갖는 확률의 이항 분포를 결정한다. 대조적으로, 특정 구현예들에서, 게놈-분류 시스템(106)은 베이츠(Bates) 분포 테스트를 수행하여 참조 게놈으로부터의 게놈 좌표에 대한 평균 시작 위치가 샘플 핵산 서열에 대한 리드의 중반을 지나고 있는지 여부를 결정한다. 예를 들어, 베이츠 분포 테스트는 평균 시작 위치의 평균 개수가 리드 중반을 지나고 있을 확률 분포를 결정할 수 있다.
시퀀싱 메트릭으로부터 데이터를 추출하는 것 외에, 도 4에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 시퀀싱 메트릭 또는 메트릭 추출을 변환(408)하여 게놈-위치-분류 모델에 입력하기 위한 데이터를 준비한다. 시퀀싱 메트릭(또는 시퀀싱 메트릭에서 추출된 데이터)을 새로운 형식이나 스케일로 변환함으로써, 게놈-분류 시스템(106)은 게놈-위치-분류 모델의 과도하게 훈련시키거나 또는 불필요하게 훈련시키는 것을 피하기 위해 특정 시퀀싱 메트릭을 재스케일링할 수 있다. 예를 들어, 일부 실시예들에서, 게놈-분류 시스템(106)은 (i) 이러한 카운트 또는 총 개수를 커버리지로 나누기 위해 카운트 또는 총 개수를 포함하는 시퀀싱 메트릭을 정규화하는 것, (ii) 시퀀싱 메트릭 및/또는 시퀀싱 메트릭으로부터 추출된 데이터의 전부 또는 일부를 동일한 스케일로 표준화하는 것, (iii) 시퀀싱 메트릭에 대한 평균 또는 로컬 평균을 결정하는 것, 또는 (iv) 시퀀싱 메트릭에 대해, 게놈 샘플로부터 원래의 올리고뉴클레오티드의 정방향 가닥 대 역방향 가닥에 대한 리드의 일부 또는 분율을 결정하는 것 중 하나 이상에 의해 시퀀싱 메트릭(또는 시퀀싱 메트릭으로부터 추출된 데이터)을 변형한다. 대조적으로, 게놈-분류 시스템(106)은 선택적으로 매핑-품질 메트릭, 리드-포지션 메트릭, 결실-크기 메트릭, 깊이 메트릭, 깊이-언더 메트릭, 깊이-오버 메트릭, 양성-삽입-크기 메트릭, 음성-삽입-크기 메트릭 및 핵염기-호출-품질 메트릭을 변환하지 않음으로써 특정 시퀀싱 메트릭을 변환하지 않는다.
특정 변환을 예시하기 위해, 일부 실시예들에서, 게놈-분류 시스템(106) 커버리지는 게놈 좌표에 걸쳐 있는 소프트-클리핑된 핵염기의 총 개수를 샘플로부터의 리드의 총 개수에 기초한 백분율로 변환함으로써 소프트-클리핑 메트릭을 정규화한다. 추가 변형 예로서, 특정 경우에, 게놈-류 시스템(106)은 깊이 메트릭을 표준화하여 평균이 0이고 표준 편차가 1인 표준 편차 내의 값이 되도록 한다. 또한, 게놈-분류 시스템(106)은 때때로 게놈 좌표 또는 게놈 영역에서 참조 게놈의 핵염기와 일치하지 않는 핵염기의 평균 개수를 결정함으로써 리드-참조-불일치 메트릭에 대한 로컬 평균을 결정한다. 또 다른 변형 예로서, 일부 구현예들에서, 게놈-분류 시스템(106)은, 핵염기-호출-품질 메트릭 또는 깊이 메트릭에 대해, 게놈 샘플로부터 원래의 올리고뉴클레오티드의 정방향 가닥 대 역방향 가닥에 대한 리드의 일부 또는 분율을 결정한다. 시퀀싱 메트릭에 대한 역방향 가닥에 대한 정방향 가닥의 분율을 결정함으로써, 게놈-분류 시스템(106)은 정방향-분율-핵염기-호출-품질 메트릭 또는 정방향-분율-깊이 메트릭과 같은 정방향-분율 메트릭을 생성할 수 있다.
시퀀싱 메트릭으로부터 데이터를 추출하고 변형한 후, 일부 실시예들에서, 게놈-분류 시스템(106)은 시퀀싱 메트릭 또는 메트릭 추출을 리엔지니어링(re-engineering) 또는 재구성(410)하여 게놈-위치-분류 모델에 입력하기 위한 데이터를 준비한다. 특정 시퀀싱 메트릭 또는 메트릭 추출을 리엔지니어링하거나 재구성함으로써, 게놈-분류 시스템(106)은 특정 시퀀싱 메트릭 또는 메트릭 추출을 게놈-위치-분류 모델이 처리할 수 있는 포맷으로 패키징할 수 있다. 예를 들어, 게놈-분류 시스템(106)은 (i) 선형-스케일링 함수를 적용하여 특정 시퀀싱 메트릭 또는 메트릭 추출을 스케일링하거나; (ii) 특정 시퀀싱 메트릭으로부터 확률 값(p-값)을 클리핑하거나; (iii) 특정 시퀀싱 메트릭 또는 메트릭 추출의 절대값을 결정하거나; (iv) 특정 시퀀싱 메트릭을 이산화하여 이러한 메트릭을 연속 값에서 값의 카테고리로 변경하거나; (v) (예를 들어, 0 값을 방지하기 위해) 특정 시퀀싱 메트릭 또는 메트릭 추출을 다른 값으로 대체하거나; (vi) 정의된 범위 밖의 값을 로그 변환하여 이상값 효과를 최소화하기 위해 특정 시퀀싱 메트릭을 매끄럽게 클리핑함으로써 시퀀싱 메트릭 또는 메트릭 추출을 리엔지니어링하거나 재구성할 수 있다. 대조적으로, 게놈-분류 시스템(106)은 선택적으로 매핑-품질 메트릭, 소프트-클리핑 메트릭, 핵염기-호출-품질 메트릭, 결실-엔트로피 메트릭, 깊이 메트릭, 리드-참조-불일치 메트릭 및 피크-카운트 메트릭과 같은 특정 시퀀싱 메트릭을 리엔지니어링하거나 재구성하지 않는다.
시퀀싱 메트릭을 특정 리엔지니어링 또는 재구성 시퀀싱 메트릭을 예시하기 위해, 일부 실시예들에서, 게놈-분류 시스템(106)은 예를 들어 y = (a*x) + b의 선형 함수를 사용하여 값을 스케일링함으로써 선형-스케일링 함수를 적용하여 특정 시퀀싱 메트릭 또는 메트릭 추출을 스케일링하며, 여기서 "x"는 시퀀싱 메트릭 또는 메트릭 추출에 대한 원래 값을 나타내고, "y"는 시퀀싱 메트릭 또는 메트릭 추출에 대한 스케일링된 값을 나타내고, "a"와 "b"는 스케일링을 위한 서로 다른 변수를 나타낸다. 특정 경우에, 게놈-분류 시스템(106)은 리드-포지션 메트릭, 깊이-언더 메트릭, 깊이-오버 메트릭 및 정방향-분율 메트릭에 대한 값에 선형 스케일링 함수를 적용한다. 시퀀싱 메트릭을 리엔지니어링 또는 재구성하는 추가 예로서, 일부 경우에, 게놈-분류 시스템(106)은 리드-포지션 메트릭 및 정방향-분율 메트릭에 대해 0.0 값을 0.5 값으로 대체하고/하거나 핵염기-호출-품질 메트릭에 대한 이항 비율 테스트에 대해 0.0 값을 1.0e-100으로 대체한다. 또한, 게놈-분류 시스템(106)은 때때로 리드-포지션 메트릭 및 정방향-분율 메트릭에 대한 절대값을 결정한다.
특정 시퀀싱 메트릭을 리엔지니어링하거나 재구성하기 위해 값을 대체하거나 절대값을 결정하는 것 외에도(또는 대안으로), 일부 실시예들에서, 게놈-분류 시스템(106)은 결실-크기 메트릭, 깊이 메트릭 및 깊이-오버 메트릭을 대수적으로 매끄럽게 클리핑하여 결실-크기-클립 메트릭, 깊이-클립 메트릭 및 깊이-오버-클립 메트릭을 효과적으로 생성한다. 예를 들어, 게놈-분류 시스템(106)은 결실-크기 메트릭, 정규화된 깊이 메트릭, 및 값 5 이상의 깊이-오버 메트릭을 대수적으로 매끄럽게 클리핑하면서 이러한 시퀀싱 메트릭에 대한 다른 값은 수정하지 않는다. 값이 1.5인 경우, 예를 들어, 게놈-분류 시스템(106)은 값을 수정하지 않고 게놈-위치-분류 모델에 입력된 해당 시퀀싱 메트릭 입력에 대한 원래 값을 유지한다. 그러나 값이 9인 경우, 게놈-분류 시스템(106)은 5 + log(9 - 5 + 1)의 로그 공식을 사용하여 9 값을 변환하여 ~5.7의 값을 출력하고 사용한다.
매끄러운 클리핑 이후에 또는 대신에, 특정 경우에, 게놈-분류 시스템(106)은 깊이 메트릭에 대한 KS 테스트, 깊이 메트릭에 대한 이항 테스트, 호출-데이터-품질 메트릭에 대한 이항 비율 테스트 또는 리드-포지션 메트릭에 대한 베이츠 분포 테스트로부터 p-값을 클리핑한다. 이러한 통계 테스트의 각 값에 대해, 예를 들어, 게놈-분류 시스템(106)은 게놈-위치-분류 모델의 과도하게 훈련시키는 것을 피하기 위해 5.0 이상의 Phred-스케일링된 p-값을 로그-평활화한다. 예를 들어, 게놈-분류 시스템(106)은 40의 Phred-스케일링된 p-값을 ~6.5가 되도록 로그 평활화할 것이다.
시퀀싱 메트릭의 특정 리엔지니어링 또는 개구성을 추가 예시하기 위해, 일부 실시예들에서, 게놈-분류 시스템(106)은 양성-삽입-크기 메트릭과 음성-삽입-크기 메트릭의 연속 값을 값의 카테고리로 이산화한다. 예를 들어, 게놈-분류 시스템(106)은 다양한 크기의 양성 삽입 또는 음성 삽입을 세 가지 카테고리, 즉 제1 카테고리에서 200개 핵염기 미만의 삽입, 제2 카테고리에서 200 내지 800개 핵염기 사이의 삽입, 제3 카테고리에서 800개 핵염기 초과의 삽입으로 이산화한다.
하기에 추가로 설명된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 시퀀싱 메트릭으로부터 추출, 변환 및 재스케일링된 데이터를 훈련 또는 적용을 위한 게놈-위치-분류 모델에 입력한다. 예를 들어, 게놈-분류 시스템(106)은 각 게놈 좌표에 대한 시퀀싱메트릭으로부터 재스케일링된 데이터를 집계하고 재스케일링된 시퀀싱 메트릭 데이터를 게놈-좌표 식별자와 함께 게놈-위치-분류 모델에 반복적으로 입력한다.
상기에 나타낸 바와 같이 시퀀싱 메트릭으로부터 데이터를 준비함으로써, 게놈-분류 시스템(106)은 게놈-위치-분류 모델에 대한 게놈 좌표의 상대적으로 높거나 낮은 신뢰성을 나타내기 위해 시퀀싱 메트릭(또는 시퀀싱 메트릭으로부터 도출된 것)을 효과적으로 변환한다. 이러한 데이터 준비의 효율성을 직교적으로 테스트하기 위해, 연구자들은 도 4에 예시된 바와 같이, (i) UMAP 그래프(402a)에서 데이터 준비 전 시퀀싱 메트릭에 따라 특정 게놈 좌표에서 핵염기를 시각화하고 (ii) UMAP 그래프(402b)에서 데이터 준비 후 시퀀싱 메트릭에 따라 특정 게놈 좌표에서 핵염기를 시각화하기 위해 UMAP 알고리즘을 실행했다. UMAP 그래프(402a 및 402b)가 나타내는 바와 같이, 데이터 준비는 플래티넘 게놈에 따라 검증된 변이 호출이 있는 게놈 영역(여기서는 백금 염기에서)으로부터 핵염기 호출을 효과적으로 분리하고, 검증된 변이 호출이 없는 게놈 영역(여기서는 비백금 염기에서)으로부터 핵염기 호출을 효과적으로 분리한다. UMAP 그래프(402a 및 402b)는 게놈-위치-분류 모델의 컴포넌트나 데이터 준비의 컴포넌트를 나타내는 것이 아니라, 데이터 준비의 직교 테스트를 시각화하는 것에 불과하다는 점에 유의한다.
시퀀싱 메트릭을 결정하는 것 외에 또는 대안으로, 일부 실시예들에서, 게놈-분류 시스템(106)은 예시적인 핵산 서열(예를 들어, 참조 게놈, 조상 일배체형)로부터 게놈-위치-분류 모델을 위한 입력으로서의 핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정한다. 하나 이상의 실시예들에 따르면, 도 5는 이러한 입력으로서 핵염기 호출(502)에 대응하는 컨텍스트 핵산 하위서열(504)을 결정하는 게놈-분류 시스템(106)의 일 예를 예시한다.
도 5에 도시된 바와 같이, 게놈-분류 시스템(106)은 특정 게놈 좌표에 대한 핵염기 호출(502)을 식별한다. 일부 경우에, 게놈-분류 시스템(106)은 게놈 좌표에서 VCF 파일로부터 뉴클레오티드 호출 변이 또는 뉴클레오티드 호출 불변을 식별한다. 게놈 좌표에 기초하여, 게놈-분류 시스템(106)은 핵염기 호출(502)의 게놈 좌표로부터 상류 및 하류 모두에 위치되고 핵염기 호출(502)의 게놈 좌표로부터 게놈 좌표의 임계 개수 내에 있는 참조 게놈으로부터 일련의 핵염기를 추가로 식별한다. 도 5에 도시된 바와 같이, 게놈-분류 시스템(106)은 예시적인 핵산 서열로부터 이러한 일련의 업스트림 및 다운스트림 핵염기를 핵염기 호출(502)에 대한 컨텍스트 핵산 하위서열(504)로서 식별한다. 식별 후, 일부 실시예들에서, 게놈-분류 시스템(106)은 벡터 알고리즘(예를 들어, Nucl2Vec, 원-핫(one-hot) 벡터)을 적용하여 게놈-위치-분류 모델에 입력하기 위해 컨텍스트 핵산 하위서열(504)을 벡터로 인코딩함으로써 컨텍스트 핵산 하위서열(504)을 추가로 준비한다.
예시적인 핵산 서열로부터 컨텍스트 핵산 하위서열을 식별할 때, 게놈-분류 시스템(106)은 게놈 좌표의 다양한 임계 개수를 사용할 수 있다. 예를 들어, 컨텍스 핵산 하위서열은 특정 핵염기 호출의 게놈 좌표로부터 10개, 50개, 100개, 400개, 또는 임의의 다른 개수의 게놈 좌표 내에 참조 게놈의 핵염기를 포함할 수 있다. 하기에 추가로 설명된 바와 같이, 일부 경우에, 게놈-분류 시스템(106)은 핵염기에 대한 게놈 좌표의 임계 개수가 컨텍스트 핵산 하위서열에 대해 증가함에 따라 게놈-위치-분류 모델이 게놈 좌표에 대한 신뢰도 분류를 결정하는 정확도를 증가시킨다.
다양한 게놈 좌표의 임계 개수 외에, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈 좌표의 임계 개수가 결정되는 핵염기 호출로서 다양한 다른 변이 호출 유형을 사용한다. 도 5에 의해 도시된 바와 같이, 게놈-분류 시스템(106)은 핵염기 호출(502)에 대한 SNV를 식별한다. 그러나 일부 실시예들에서, 게놈-분류 시스템(106)은 삽입-결실, 구조적 변이, 또는 CNV에 대한 게놈 좌표(또는 게놈 좌표들)를 컨텍스트 핵산 하위서열을 구성하는 게놈 좌표의 임계 개수 내에서 핵염기를 결정하기 위한 기준점으로 식별한다.
컨텍스트 핵산 하위서열을 결정하기 위한 기초로서 뉴클레오티드 변이 호출을 식별하기 위해, 일부 경우에, 게놈-분류 시스템(106)은 VCF 파일로부터의 변이 호출을 사용한다. 한 가지 예만 들자면, 게놈-분류 시스템(106)은 HapMap 프로젝트의 NA12878(또는 기타 샘플)에 대한 VCF 파일의 일치 데이터로부터 변이 호출을 식별할 수 있다. 이러한 경우 중 하나에서, 게놈-분류 시스템(106)은 게놈-위치-분류 모델 및 훈련에 입력하기 위한 컨텍스트 핵산 하위서열을 결정하기 위한 기초로서 NA12878의 96개 복제물로부터의 변이 호출을 결정한다.
시퀀싱 메트릭 및 컨텍스트 핵산 하위서열을 결정하고 입력용 데이터를 준비한 후, 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 훈련하고 적용한다. 하나 이상의 실시예들에 따르면, 도 6a 내지 6c는 게놈 좌표(또는 영역)에 대한 신뢰도 분류를 결정하고 후속적으로 컴퓨팅 장치에 디스플레이하기 위한 핵염기 호출에 대응하는 신뢰도 분류에 대한 신뢰도 표시자를 제공하는 게놈-위치-분류 모델(608)을 훈련 및 적용하는 게놈-분류 시스템(106)을 예시한다. 도 6a에 도시된 바와 같이, 게놈-분류 시스템(106)은 게놈-분류 시스템(106)이 (i) 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다에 기초하여 예측 신뢰도 분류를 결정하고 (ii) 이러한 예측 신뢰도 분류를 실측 분류와 비교하는 다수의 훈련 반복을 수행한다. 훈련 후, 도 6b에 도시된 바와 같이, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)의 훈련된 버전을 적용하여 게놈 좌표(또는 영역) 세트에 대한 신뢰도 분류 세트를 결정하고 신뢰도 분류 세트를 포함하는 디지털 파일을 생성한다. 생성된 디지털 파일에 기초하여, 도 6c에 도시된 바와 같이, 게놈-분류 시스템(106)은 그래픽 사용자 인터페이스에 디스플레이하기 위해 핵염기 호출의 게놈 좌표(또는 영역)에 대한 신뢰도 분류를 제공한다.
단순화를 위해, 본 개시는 도 6c에 도시된 후속 훈련 반복의 요약이 뒤따르는 초기 훈련 반복을 설명한다. 도 6a에 의해 도시된 초기 훈련 반복 시, 예를 들어, 게놈-분류 시스템(106)은 특정 게놈 좌표에 대한 게놈-좌표 식별자(604)에 대응하는 시퀀싱 메트릭(602) 및 컨텍스트 핵산 하위서열(606) 중 하나 또는 둘 다로부터 도출되거나 준비된 데이터를 게놈-위치-분류 모델(608)에 입력한다.
방금 제시되고 도 6a에 도시된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈 좌표에 대한 상응하는 컨텍스트 핵산 하위서열 없이 ― 게놈-좌표 식별자(604)에 대한 게놈 좌표에 특정된 시퀀싱 메트릭(602)으로부터 준비된 데이터를 입력한다. 이러한 일부 실시예들에서, 입력에는 KS 테스트, 이항 테스트, 이항 비율 테스트 또는 베이츠 분포 테스트 중 하나 이상의 데이터가 포함된다. 대조적으로, 특정 구현예들에서, 게놈-분류 시스템(106)은 상응하는 시퀀싱 메트릭 없이 ― 게놈-좌표 식별자(604)에 대한 게놈 좌표에 특정된 컨텍스트 핵산 하위서열(606)을 입력한다. 대안으로, 게놈-분류 시스템(106)은 시퀀싱 메트릭(602)과 컨텍스트 핵산 하위서열(606) 모두로부터 도출되거나 준비된 데이터를 입력한다.
상기에 제시된 바와 같이, 게놈-분류 시스템(106)은 이러한 데이터를 다양한 포맷으로 게놈-위치-분류 모델(608)에 입력한다. 예를 들어, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈 좌표에 대한 시퀀싱 메트릭(602)으로부터의 재스케일링된 데이터를 게놈-좌표 식별자(604)에 대한 각각의 재스케일링된 시퀀싱 메트릭을 포함하는 벡터 또는 행렬로 통합한다. 일부 경우에, 게놈-분류 시스템(106)은 컨텍스트 핵산 하위서열(606)과 함께 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에 대한 시퀀싱 메트릭(602)으로부터 재스케일링된 데이터를 입력 벡터 또는 행렬로 통합한다. 대조적으로, 특정 구현예들에서, 게놈-분류 시스템(106)은 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에 대한 시퀀싱 메트릭(602) ― 및 컨텍스트 핵산 하위서열(606)의 핵염기에 대한 각 게놈 좌표에 대한 재스케일링된 시퀀싱 메트릭 ― 으로부터의 재스케일링된 데이터를 컨텍스트 핵산 하위서열(606)과 함께 입력 벡터 또는 행렬로 통합한다.
예시하기 위해, 일부 실시예들에서, 게놈-분류 시스템(106)은 시퀀싱 메트릭(602)으로부터 도출되거나 준비된 데이터를 숫자 배열 세트로서 게놈-위치-분류 모델(608)에 입력한다. 예를 들어, 게놈-분류 시스템(106)은 시퀀싱 메트릭(602)으로부터 도출되거나 준비된 데이터를 HDF5(Hierarchical Data Format 5) 파일에 저장하고 데이터를 숫자 배열 세트(예를 들어, 단일 차원 Python NumPy 배열)로 게놈-위치-분류 모델(608)에 입력한다.
추가로 예시하기 위해, 특정 구현예들에서, 게놈-분류 시스템(106)은 시퀀싱 메트릭(602)과 컨텍스트 핵산 하위서열(606) 둘 다로부터 도출되거나 준비된 데이터를 행렬 ― 컨텍스트 핵산 하위서열(606)의 크기 또는 길이에 대한 제1 디멘션 및 개별 시퀀싱 메트릭의 개수 및/또는 개별 시퀀싱 메트릭으로부터의 도출된 것에 대한 제2 디멘션을 포함함 ― 로서 (게놈-위치-분류 모델(608)에) 입력한다. 예를 들어, 컨텍스트 핵산 하위서열(606)의 크기 또는 길이에 대한 제1 디멘션은 컨텍스트 핵산 하위서열(606)의 핵염기 개수에 1을 더한 디멘션(예를 들어, 핵염기 호출의 각 측면에 있는 25개의 염기의 경우 51 디멘션, 핵염기 호출의 각 측면에 있는 50개의 염기의 경우 101 디멘션)을 포함할 수 있다. 대조적으로, 개별 시퀀싱 메트릭의 개수에 대한 제2 디멘션은 개별 시퀀싱 메트릭 각각을 나타내는 디멘션의 개수, 시퀀싱 메트릭으로부터 도출된 것, 및 컨텍스트 핵산 하위서열의 벡터화된 표현(예를 들어, 5개의 위치를 차지하는 원-핫 인코딩된 컨텍스트 핵산 서열)을 포함할 수 있다.
또한, 다수의 핵염기 호출에 대응하는 컨텍스트 핵산 하위서열의 다수의 예를 게놈-위치-분류 모델(608)에 입력할 때, 일부 경우에, 게놈-분류 시스템(106)은 3차원 텐서를 입력한다. 이러한 텐서는 예의 개수를 나타내는 제1 디멘션, 컨텍스트 핵산 하위서열의 크기 또는 길이를 나타내는 제2 디멘션, 개별 시퀀싱 메트릭의 개수 및/또는 개별 시퀀싱 메트릭으로부터 도출된 것에 대한 제3 디멘션을 포함할 수 있다.
컨텍스트 핵산 하위서열(606)로부터 도출되거나 준비된 데이터를 게놈-위치-분류 모델(608)에 입력할 때, 일부 경우에, 게놈-분류 시스템(106)은 DNA 또는 RNA의 단일 가닥으로부터 도출된 데이터를 입력한다. 예를 들어, 게놈-분류 시스템(106)은 예시적인 핵산 서열(예를 들어, 조상 일배체형)의 양성-센스(positive-sense) 가닥 또는 음성-센스(negative-sense) 가닥으로부터의 컨텍스트 핵산 하위서열의 벡터화된 형태를 입력한다. 일부 실시예들에서, 게놈-분류 시스템(106)은 ― 예시적인 핵산 서열(예를 들어, 조상 일배체형)로부터 결정된 ― 컨텍스트 핵산 서열의 양성-센스 가닥 및 음성-센스 가닥 모두로부터 컨텍스트 핵산 서열의 벡터화된 형태를 별도로 입력하고, 양성-센스 가닥 및 음성-센스 가닥 각각에 대응하는 신뢰도 분류를 결정한다.
시퀀싱 메트릭(202) 또는 컨텍스트 핵산 하위서열(204) 중 하나 또는 둘 모두로부터 도출되거나 준비된 데이터를 입력한 후, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(208)을 실행시킨다. 상기에 나타낸 바와 같이, 게놈-위치-분류 모델(608)은 다양한 형태를 취할 수 있다. 게놈-위치-분류 모델(608)은 예를 들어 통계적 기계 학습 모델 또는 신경망일 수 있다. 일부 경우에, 게놈-위치-분류 모델은 몇 가지 예를 들자면, 로지스틱 회귀 모델, 랜덤 포레스트 분류기, CNN 또는 LSTM(Long Short-Term Memory) 네트워크의 형태를 취한다.
예를 들어, 일부 실시예들에서, 게놈-위치-분류 모델(608)은 2개의 콘볼루션 레이어와 1개의 완전 연결 레이어로 구성된 CNN의 형태를 취한다. 대조적으로, 특정 경우에, 게놈-위치-분류 모델(608)은 8개, 12개, 20개의 콘볼루션 레이어와 1개의 완전 연결 레이어로 구성된 CNN의 형태를 취한다. 대안으로, 게놈-위치-분류 모델(608)은 각 레이어(예를 들어, conv3, conv5, conv7, conv9)에서 함께 연접된 다수의 콘볼루션 레이어를 포함하는 수정된 인셉션 네트워크(Inception Network)의 형태를 취한다.
초기 훈련 반복 동안 입력 데이터를 수신 시, 도 6a에 추가로 도시된 바와 같이, 게놈-위치-분류 모델(608)은 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에 대한 예측 신뢰도 분류(610)를 결정한다. 일부 실시예들에서, 예를 들어, 예측 신뢰도 분류(610)는 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 고신뢰도 분류, 중간-신뢰도 분류 또는 저신뢰도 분류를 나타내는 라벨을 포함한다. 대조적으로, 특정 구현예들에서, 예측 신뢰도 분류(610)는 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에서 핵염기가 고신뢰도로 결정될 수 있는 확률 또는 가능성을 나타내는 점수를 포함한다. 이러한 확률 또는 가능성 점수에 기초하여, 일부 경우에, 게놈-분류 시스템(106)은 고신뢰도 분류, 중간-신뢰도 분류, 또는 저신뢰도 분류를 결정한다.
상기에 나타낸 바와 같이, 특정 구현예들에서, 게놈-분류 시스템(106)은 변이 유형에 특정된 게놈 좌표에 대한 신뢰도 분류를 결정한다. 따라서 예측 신뢰도 분류(610)를 결정할 때, 게놈-분류 시스템(106)은 SNPS에 특정된 게놈 좌표, 다양한 크기의 삽입(예를 들어, 짧은 삽입, 중간 삽입 또는 긴 삽입), 다양한 크기의 결실(예를 들어, 짧은 결실, 중간 결실 또는 긴 결실), 다양한 크기의 구조적 변이, 또는 다양한 크기의 CNV에 대한 예측 변이 신뢰도 분류를 결정할 수 있다. 추가로 또는 대안으로, 게놈-분류 시스템(106)은 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이와 같은 체세포-핵염기 변이 또는 생식세포계열-핵염기 변이에 특정된 게놈 좌표에 대한 예측 변이 신뢰도 분류를 결정할 수 있다. 게놈-위치-분류 모델(608)을 훈련시켜 변이 유형에 특정된 변이 신뢰도 분류를 생성하기 위해, 아래에 설명된 바와 같이, 게놈-분류 시스템(106)은 대응하는 변이 유형에 특정된 실측 분류를 사용한다.
도 6a에 추가로 도시된 바와 같이, 예측 신뢰도 분류(610)를 결한한 후, 게놈-분류 시스템(106)은 예측 신뢰도 분류(610)를 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에 대한 실측 분류(614)와 비교한다. 예를 들어, 일부 구현예들에서, 게놈-분류 시스템(106)은 손실 함수(612)를 사용하여 예측 신뢰도 분류(610)와 실측 분류(614) 사이를 비교(및 임의의 차이 결정)한다. 하기에 설명된 바와 같이, 일부 경우에, 실측 분류(614)는 게놈-좌표 식별자(604)에 대응하는 게놈 좌표에서 핵염기 호출의 복제 일치 또는 멘델-유전 패턴을 반영한다. 도 6a에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 손실 함수(612)를 활용하여 예측 신뢰도 분류(610) 및 실측 분류(614)로부터 손실(616)을 결정한다.
게놈-위치-분류 모델(608)의 형태에 따라, 게놈-분류 시스템(106)은 손실 함수(612)에 대해 다양한 손실 함수를 사용할 수 있다. 특정 실시예들에서, 예를 들어, 게놈-분류 시스템(106)은 로지스틱 손실(예를 들어, 로지스틱 회귀 모델의 경우), 지니 불순도(Gini impurity) 또는 정보 이득(예를 들어, 랜덤 포레스트 분류기의 경우), 또는 교차-엔트로피-손실 함수 또는 최소-제곱-오차 함수(예를 들어, CNN, LSTM의 경우)를 사용한다.
상기에 나타낸 바와 같이, 게놈-분류 시스템(106)은 실측 분류를 식별하기 위해 다양한 기반 또는 근거를 사용할 수 있다. 일부 실시예들에서, 예를 들어, 게놈-분류 시스템(106)은 게놈 좌표가 다음 특성, 즉 멘델-유전 패턴, 일관된 동형접합 유전(예를 들어, 동일한 대립 유전자가 양쪽 부모로부터 나오는 게놈 좌표), 또는 게놈 좌표에서 뉴클레오티드-변이 호출을 나타내는 복제의 임계 개수(또는 임계 부분) 중 하나(또는 임의의 조합)를 갖는 뉴클레오티드-변이 호출에 해당할 때 고신뢰도의 실측 분류로 게놈 좌표를 라벨링한다. 예를 들어, 게놈-분류 시스템(106)은 복제의 임계 개수(또는 임계 부분)가 뉴클레오티드-변이 호출을 나타내는 샘플 핵산 서열의 56%(예를 들어, 96개 샘플 중 54개) 이상일 때 고신뢰도의 실측 분류로 게놈 좌표를 라벨링할 수 있다. 하나의 예시적인 추가 실시예에서, 게놈-분류 시스템(106)은 게놈 좌표가 플래티넘 게놈으로부터의 백금 염기 또는 진리셋 염기에 대응할 때 고신뢰도의 실측 분류로, 그리고 게놈 좌표가 플래티넘 게놈으로부터의 백금 염기 또는 진리셋 염기에 대응하지 않을 때 저신뢰도의 실측 분류로 게놈 좌표를 라벨링한다.
대조적으로, 일부 경우에, 게놈-분류 시스템(106)은 게놈 좌표가 다음 특성, 즉 비-멘델-유전 패턴, 실패하거나 일관성이 없는 동형접합 유전, 또는 게놈 좌표에서 뉴클레오티드-변이 호출을 나타내는 복제의 임계 개수(또는 임계 부분) 중 하나(또는 임의의 조합)를 갖는 뉴클레오티드-변이 호출에 해당할 때 저신뢰도의 실측 분류로 게놈 좌표를 라벨링한다. 예를 들어, 게놈-분류 시스템(106)은 복제의 임계 개수(또는 임계 부분)가 뉴클레오티드-변이 호출을 나타내는 샘플 핵산 서열의 15%(예를 들어, 96개의 샘플 중 14개) 이하일 때 저신뢰도의 실측 분류로 게놈 좌표를 라벨링할 수 있다.
일부 실시예들에서, 게놈-분류 시스템(106)은 선택적으로 중간 신뢰도를 위한 라벨을 사용한다. 예를 들어, 게놈-분류 시스템(106)은 게놈 좌표가 멘델-유전 패턴, 일관된 동형접합 유전(예를 들어, 동일한 대립 유전자가 양쪽 부모로부터 나오는 유전자의 게놈 좌표 부분), 및 기술적 복제 전반에 걸치 재현성 중 최대 2개를 갖는 뉴클레오티드-변이 호출에 해당할 때 중간 신뢰도의 실측 분류로 게놈 좌표를 라벨링한다. 그러나 게놈-분류 시스템(106)은 또한 중간-신뢰도 분류 없이 ― 실측 분류로서 고신뢰도 분류 및 저신뢰도 분류를 위한 라벨을 사용할 수 있다.
상기에 나타낸 바와 같이, 일부 경우에, 게놈-분류 시스템(106)은 특정 유형의 뉴클레오티드-변이 호출에 대한 실측 분류로 게놈 좌표를 라벨링한다. 예를 들어, 게놈-분류 시스템(106)은 SNP, 다양한 크기의 삽입, 다양한 크기의 결실, 다양한 크기의 구조적 변이, 다양한 크기의 CNV, 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이, 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이 중 하나 이상에 대한 실측 분류로 게놈 좌표를 라벨링한다. 이러한 체세포 모자이크현상에는 암세포 또는 모자이크 변이가 있는 건강한 세포의 모자이크현상 중 어느 하나 또는 둘 모두가 포함될 수 있다. 특정 구현예들에서, 게놈-분류 시스템(106)은 게놈 좌표에서 뉴클레오티드-변이 호출을 나타내는 복제의 임계 개수(또는 임계 부분)에 기초한 뉴클레오티드-변이 호출 유형에 특정된 실측 분류로 게놈 좌표를 라벨링한다.
아래의 표 1에 도시된 바와 같이, 연구자들은 고신뢰도 또는 저신뢰도의 실측 분류로 게놈 좌표를 라벨링하기 위한 기반으로 게놈 좌표에서 특정 유형의 뉴클레오티드-변이 호출(예를 들어, SNP, 결실, 삽입)을 식별하기 위한 임계 복제 카운트를 식별했다. 특히, 연구자들은 주어진 게놈 좌표에서 총 96개의 샘플로부터 특정 유형의 뉴클레오티드-변이 호출의 기술적 복제 카운트를 기반으로 특정 유형의 뉴클레오티드-변이 호출의 확률론적 위양성을 검출하는 비율에 대한 양성 예측 값(positive predictive value; PPV)을 결정했다. 반복 카운트를 PPV와 비교함으로써, 연구자들은 뉴클레오티드-변이 호출에 대한 확률론적 위양성 비율이 타겟 임계값, 예컨대 고신뢰도의 실측 분류를 위해 게놈 좌표에서 확률론적 위양성 뉴클레오티드-변이 호출의 0.05% 미만의 타겟 임계값을 충족하는 표 1에 보고된 최소 복제 카운트를 결정했다.
[표 1]
표 1에 보고된 바와 같이, 짧은 결실은 1-5개의 핵염기에 걸쳐 있고, 중간 결실은 5-15개의 핵염기에 걸쳐 있고, 긴 결실은 15개 이상의 핵염기에 걸쳐 있으며 50개의 핵염기의 결실을 포함할 수 있고(또는 이들보다 짧을 수 있고), 짧은 삽입은 1-5개의 핵염기에 걸쳐 있고, 중간 삽입은 5-15개의 핵염기에 걸쳐 있고 긴 삽입은 15개 이상의 핵염기에 걸쳐 있으며 50개의 핵염기의 삽입을 포할 수 있다(또는 이들보다 더 짧을 수 있음). 연구자들은 SNP, 짧은 결실, 중간 결실, 및 긴 결실 각각에 대한 고신뢰도의 실측 분류로 게놈 좌표를 라벨링하기 위한 임계값으로 총 96개의 샘플 중 54개, 64개, 63개, 70개, 63개, 80개 및 47개의 최소 복제 카운트를 결정했다. 표 1에 도시된 바와 같이, 높은 신뢰도의 실측 분류로 게놈 좌표를 라벨링하기 위한 최소 복제 카운트 ― 방금 나열된 해당 최소 복제 카운트 이상 ― 는 SNP, 짧은 결실, 중간 결실, 긴 결실, 짧은 삽입, 중간 삽입 및 긴 삽입 각각에 대한 변이-호출 재현성의 95.07%, 95.22%, 93.83%, 94.14%, 95.25%, 97.39%, 및 81.92%의 평균 신뢰도에 해당한다. 즉, 표 1의 평균 고신뢰도 재현성은 고신뢰도에 대한 임계값을 설정하기 위한 변이의 최소 복제 횟수를 나타낸다. 표 1은 하나 이상의 실시예들에 따라 게놈-분류 시스템(106)이 SNP, 결실 및 삽입에 대해 고신뢰도 또는 저신뢰도의 실측 분류로 라벨링하는 다수의 부위(예를 들어, 게놈 좌표 또는 게놈 영역)를 추가로 보고한다.
라벨에 대한 대안으로, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈 좌표가 멘델-유전 패턴, 일관된 동형접합 유전, 또는 기술적 복제 전반에 걸친 재현성 중 하나 이상을 갖는 뉴클레오티드-변이 호출에 대응하는지 여부에 대한 가중치를 갖는 신뢰도 점수를 반영하는 실측 분류로 게놈 좌표를 할당한다. 예를 들어, 일부 실시예들에서, 게놈 좌표에 대한 이러한 신뢰도 점수는 멘델-유전 패턴에 제1 가중치를 곱한 경우의 하나의 값 포인트, 일관된 동형접합 유전에 제2 가중치를 곱한 경우의 하나의 값 포인트, 그리고 기술적 복제 전반에 걸친 재현성에 제3 가중치를 곱한 경우의 하나의 값 포인트의 합 또는 곱을 나타낸다.
손실 함수(612)로부터 결정된 손실(616)에 기초하여, 게놈-분류 시스템(106)은 후속적으로 게놈-위치-분류 모델(608)의 파라미터를 조정한다. 파라미터를 조정함으로써, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)이 훈련 반복에 걸쳐 예측 신뢰도 분류를 정확하게 결정하는 정확도를 증가시킨다. 초기 훈련 반복 및 파라미터 조정 후, 도 6a에 의해 도시된 바와 같이, 게놈-분류 시스템(106)은 상이한 게놈 좌표에 대한 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 모두로부터 도출되거나 준비된 데이터에 기초하여 상이한 게놈 좌표에 대한 예측 신뢰도 분류를 추가로 결정한다. 일부 경우에, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)의 파라미터(예를 들어, 값 또는 가중치)가 훈련 반복에 걸쳐 크게 변하지 않거나 아니면 수렴 기준을 충족할 때까지 훈련 반복을 수행한다.
도 6a는 게놈 좌표에 대한 예측 신뢰도 분류를 생성하는 훈련 반복을 도시하고 있지만, 일부 실시예들에서, 게놈-분류 시스템(106)은 마찬가지로 데이터를 입력하고 게놈 영역에 대한 신뢰도 분류를 결정한다. 이러한 실시예들의 훈련 반복 시, 게놈-분류 시스템(106)은 게놈 영역에 대한 게놈-영역 식별자 및 게놈 영역 내의 각 게놈 좌표에 대한 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다로부터 도출되거나 준비된 데이터를 입력한다. 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)을 사용하여 이러한 게놈-영역별 입력에 기초하여 게놈 영역에 대한 예측 신뢰도 분류를 추가로 결정한다. 게놈-분류 시스템(106)은 마찬가지로 손실 함수를 사용하여 게놈 영역에 대한 예측 신뢰도 분류와 게놈 영역에 대한 실측 분류를 비교하고, 손실 함수로부터 결정된 손실에 기초하여 게놈-위치-분류 모델(608)의 파라미터를 조정한다.
게놈-위치-분류 모델(608) 훈련 후, 그리고 도 6b에 도시된 바와 같이, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)의 훈련된 버전을 적용하여 게놈 좌표 세트에 대한 신뢰도 분류 세트를 결정하고 신뢰도 분류 세트를 포함하는 디지털 파일을 생성한다. 상기에 설명된 훈련 과정과 유사하게, 도 6a에 도시된 바와 같이, 게놈-분류 시스템(106)은 특정 게놈 좌표에 대응하는 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 모두로부터 도출되거나 준비된 데이터에 기초하여 게놈 좌표 이후 게놈 좌표에 대한 신뢰도 분류를 결정한다. 단순화를 위해, 본 개시는 도 6b에 도시된 후속 애플리케이션 반복의 요약이 뒤따르는 단일 신뢰도 분류를 결정하기 위한 초기 애플리케이션 반복 또는 초기 프로세스를 설명한다.
도 6b에 의해 도시된 초기 훈련 반복 시, 예를 들어, 게놈-분류 시스템(106)은 특정-게놈 좌표에 대한 게놈-좌표 식별자(620)에 대응하는 시퀀싱 메트릭(602) 및 컨텍스트 핵산 하위서열(622) 중 하나 또는 둘 다로부터 도출되거나 준비된 데이터를 게놈-위치-분류 모델(608)의 훈련된 버전에 입력한다. 훈련할 때와 마찬가지로, 게놈-분류 시스템(106)은 게놈 좌표에 특정된 시퀀싱 메트릭(618) 및/또는 게놈-좌표 식별자(620)에 대응하는 게놈 좌표에 특정된 컨텍스트 핵산 하위서열(622)로부터 준비된 데이터의 임의의 조합을 입력할 수 있다. 게놈-분류 시스템(106)은 마찬가지로 위에서 설명된 동일한 형식의 입력 벡터 또는 입력 행렬을 사용하여 시퀀싱 메트릭(618) 및/또는 컨텍스트 핵산 하위서열(622)로부터 준비된 데이터를 입력할 수 있다. 게놈-위치-분류 모델(608)의 훈련된 버전에 입력된 컨텍스트 핵산 하위서열(622)은 마찬가지로 DNA 또는 RNA의 단일 가닥(예를 들어, 양성-센스 가닥 또는 음성-센스 가닥)일 수 있다. 그러나 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)의 훈련된 버전을 적용하기 위해 훈련에 사용된 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열과 상이한 시퀀싱 메트릭 세트 및/또는 상이한 컨텍스트 핵산 하위서열 세트(및 대응하는 핵염기 호출)를 사용한다.
도 6b에 추가로 도시된 바와 같이, 초기 애플리케이션 반복 시, 게놈-위치-분류 모델(608)의 훈련된 버전은 게놈-좌표 식별자(620)에 대응하는 게놈 좌표에 대한 신뢰도 분류(624)를 결정한다. 위의 훈련과 일관되게, 신뢰도 분류(624)는 (i) 핵염기가 게놈-좌표 식별자(620)에 대응하는 게놈 좌표에서 정확하게 결정될 수 있는 고신뢰도 분류, 중간-신뢰도 분류, 또는 저신뢰도 분류에 대한 라벨, 또는 대안으로 (ii) 핵염기가 게놈-좌표 식별자(620)에 대응하는 게놈 좌표에서 고신뢰도로 결정될 수 있는 확률 또는 가능성을 나타내는 점수를 포함할 수 있다. 게놈-위치-분류 모델(608)을 훈련시키는 데 사용된 실측 분류의 유형에 기초하여, 신뢰도 분류(624)는 뉴클레오티드-변이 호출의 유형에 특정, 예컨대 SNP, 다양한 크기의 삽입, 다양한 크기의 결실, 다양한 크기의 구조적 변이, 다양한 크기의 CNV, 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이, 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이 중 하나 이상에 특정될 수 있다.
초기 애플리케이션 반복 후, 게놈-분류 시스템(106)은 상이한 게놈 좌표에 대한 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 모두로부터 도출되거나 준비된 데이터에 기초하여 상이한 게놈 좌표에 대한 신뢰도 분류를 추가로 결정한다. 이러한 애플리케이션 반복 완료 시, 도 6b에 도시된 바와 같이, 게놈-분류 시스템(106)은 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 세트로부터 도출되거나 준비된 데이터에 기초하여 게놈 좌표 세트에 대한 신뢰도 분류 세트를 결정한다. 일부 경우에, 신뢰도 분류 세트는 참조 게놈의 각 게놈 좌표에 대한 신뢰도 분류를 포함한다. 대조적으로, 특정 구현예들에서, 신뢰도 분류 세트는 참조 게놈의 일부(전부는 아님) 게놈 좌표에 대한 신뢰도 분류를 포함한다.
도 6b에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 신뢰도 분류(628)를 포함하는 디지털 파일(626)을 추가로 생성한다. 도 6b에 도시된 바와 같이, 신뢰도 분류(628)는 도 6b의 게놈-위치-분류 모델(608)에 의해 생성된 게놈 좌표 세트에 대한 신뢰도 분류 세트를 포함한다. 신뢰도 분류(624)와 같이 ― 그리고 게놈-위치-분류 모델(608) 훈련에 사용되는 실측 분류의 유형에 따라 ― 신뢰도 분류(628)는 마찬가지로 뉴클레오티드-변이 호출의 유형에 특정, 예컨대 SNP, 다양한 크기의 삽입, 다양한 크기의 결실, 구조적 변이, CNV, 암 또는 체세포 모자이크현상을 반영하는 체세포-핵염기 변이, 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이 중 하나 이상에 특정될 수 있다.
디지털 파일(626)을 생성하거나 수정하기 위해, 특정 구현예들에서, 게놈-분류 시스템(106)은 대응하는 신뢰도 분류를 포함하는 각각의 게놈 좌표에 대한 주석을 포함하도록 BED 파일을 생성하거나 수정한다. 대조적으로, 일부 실시예들에서, 게놈-분류 시스템(106)은 신뢰도 분류(628)를 포함하도록 WIG 파일, BAM 파일, VCF 파일, 마이크로어레이 파일 또는 기타 적합한 디지털 파일 유형을 생성하거나 수정한다. 도 6b에 의해 추가로 나타낸 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 예측 신뢰도 분류와 상이한 신뢰도-분류 유형을 각각 포함하는 별도의 디지털 파일(예를 들어, 고신뢰도 분류, 중간-신뢰도 분류, 저신뢰도 분류 각각에 대한 상이한 디지털 파일)을 생성할 수 있다.
도 6a는 게놈 좌표에 대한 신뢰도 분류를 생성하는 애플리케이션 반복을 도시하고 있지만, 일부 실시예들에서, 게놈-분류 시스템(106)은 마찬가지로 데이터를 입력하고 게놈 영역에 대한 신뢰도 분류를 결정한다. 이러한 실시예들의 애플리케이션 반복 시, 게놈-분류 시스템(106)은 게놈 영역에 대한 게놈-영역 식별자 및 게놈 영역 내의 각 게놈 좌표에 대한 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 중 하나 또는 둘 다로부터 도출되거나 준비된 데이터를 입력한다. 게놈-분류 시스템(106)은 게놈-위치-분류 모델(608)을 사용하여 이러한 게놈-영역별 입력에 기초하여 게놈 영역에 대한 신뢰도 분류를 추가로 결정한다.
디지털 파일(626)(예를 들어, 별도의 디지털 파일의 일부)을 생성한 후, 일부 경우에, 게놈-분류 시스템(106)은 디지털 파일(626)을 사용하여 그래픽 사용자 인터페이스에 디스플레이하기 위한 핵염기 호출의 게놈 좌표(또는 영역)에 대한 특정 신뢰도 분류를 제공한다. 하나 이상의 실시예들에 따르면, 도 6c는 뉴클레오티드-변이 호출의 특정 게놈 좌표에 대응하는 게놈-위치-분류 모델(608)로부터 특정 신뢰도 분류를 식별 및 디스플레이하는 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)을 예시한다.
도 6c에 의해 나타낸 바와 같이, 예를 들어, 시퀀싱 디바이스(630)는 시퀀싱 동안 핵염기를 샘플 핵산 서열에 통합하고 통합된 핵염기를 나타내는 해당 이미지(또는 기타 데이터)를 캡처한다. 이미지 또는 기타 데이터에 기초하여, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 게놈 좌표에서 샘플 핵산 서열 내의 변이-핵염기 호출(632a, 632b 및 632n)을 검출한다. 일부 실시예들에서, 변이-핵염기 호출(632a-632n)은 SNV, 핵염기 삽입, 핵염기 결실, 구조적 변이, CNV를 나타낸다. 추가로 또는 대안으로, 특정 구현예들에서, 변이-핵염기 호출(632a-632n)은 암 또는 체세포 모자이크현상을 반영하는 체세포-핵염기 변이 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이를 나타낸다. 변이-핵염기 호출(632a-632n)은 마찬가지로 유전적 변형 또는 유전적 변형(epigenetic modification)에 의해 발생될 수 있다.
도 6c에 추가 도시된 바와 같이, 게놈-분류 시스템(106)은 변이-핵염기 호출(632a-632n)을 디지털 파일(626)로부터의(또는 다수의 디지털 파일 중 하나로부터의) 신뢰도 분류(628) 중 하나 이상과 통합한다. 예를 들어, 일부 경우에, 게놈-분류 시스템(106)은 변이-핵염기 호출(632a-632n)을 디지털 파일(626)로 인코딩하거나, 변이-핵염기 호출(632a-632n)을 디지털 파일(626)로부터의(또는 다수의 디지털 파일 중 하나로부터의) 신뢰도 분류(628)와 비교하거나, 또는 디지털 파일(626)로부터의 신뢰도 분류(628)를 검색하여 변이-핵염기 호출(632a-632n)에 대한 별도의 디지털 파일(예를 들어, VCF 파일) 내에 통합한다. 추가로 또는 대안으로, 특정 구현예들에서, 디지털 파일(626)은 게놈 좌표가 해당 신뢰도 분류를 포함하는 다양한 변이 유형에 대한 다양한 룩업 테이블과 같은 신뢰도 분류에 대응하는 게놈 좌표에 대한 검색 테이블을 포함한다. 이러한 통합이 어떻게 발생하는지에 관계없이, 게놈-분류 시스템(106)은 변이-핵염기 호출(632a-632n)의 특정 게놈 좌표에 대한 신뢰도 분류(628)로부터 특정 신뢰도 분류를 식별한다.
변이-핵염기 호출(632a-632n)을 포함하는 것 외에도, 일부 경우에, 게놈-분류 시스템(106)은 서로 다른 시퀀싱 방법을 사용하여 직교 검증을 위해 제안된 디지털 파일(214)에서 변이-핵염기 호출 또는 비변이-핵염기 호출을 식별한다. 변이-핵염기 호출이 특정 유형의 변이에 대해 더 낮은 신뢰성의 신뢰도 분류(예를 들어, 저신뢰도 분류 또는 신뢰도-점수 임계값 미만)에 대응하는 게놈 좌표에 위치되는 경우, 예를 들어, 게놈-분류 시스템(106)은 직교 검증을 제안하기 위해 디지털 파일(214)에 이러한 변이-핵염기 호출에 대한 식별자를 포함한다. 특정 신뢰도 분류를 신뢰도 임계값으로 사용함으로써, 게놈-분류 시스템(106)은 단일 시퀀싱 파이프라인이 충분한 신뢰도로 결정될 수 없는 특정 변이-핵염기 호출 또는 비변이-핵염기 호출을 플래그로 지정할 수 있다.
디지털 파일(626)로부터 이러한 신뢰도 분류를 식별한 후, 도 6c에 추가 도시된 바와 같이, 게놈-분류 시스템(106)은 변이-핵염기 호출(632a-632n)의 게놈 좌표에 대한 특정 신뢰도 분류의 신뢰도 표시자를 컴퓨팅 장치(636)에 제공한다. 예를 들어, 도 6c에 도시된 바와 같이, 시퀀싱 시스템(104) 또는 게놈-분류 시스템(106)은 변이-핵염기 호출(632a 및 632b)에 대한 게놈 좌표 및 해당 유전자에 대한 식별자와 함께 ― 컴퓨팅 장치(636)의 그래픽 사용자 인터페이스(634) 내에 디스플레이하기 위한 신뢰도 분류의 신뢰도 표시자(638a 및 638b)를 제공한다. 신뢰도 표시자(638a 및 638b)를 제공함으로써, 게놈-분류 시스템(106)은 특정 유전자에 대한 변이-핵염기 호출(632a 및 632b)의 신뢰성을 나타내는 중요한 정보를 임상의, 시험 대상자 또는 기타 사람들에게 제공한다.
상기에 제안된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 훈련시키거나 적용하여 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이에 특정된 또는 생식세포계열-핵염기 변이에 특정된 신뢰도 분류를 결정한다. 이러한 게놈-위치-분류 모델을 훈련시키기 위해, 일부 실시예들에서, 게놈-분류 시스템(106)은 핵염기 변이를 시뮬레이션하는 일종의 암 또는 모자이크현상과 다른 게놈 샘플로부터 핵산 서열의 서브셋을 결정한다. 게놈-분류 시스템(106)은 참조 게놈의 게놈 좌표와 관련하여 샘플 핵산 서열에 대한 특정 시퀀싱 메트릭을 추가로 결정한다. 이러한 시퀀싱 메트릭에 기초하여, 게놈-분류 시스템(106)은 모자이크현상을 반영하는 체세포-핵염기 변이 또는 생식세초계열-핵염기 변이와 같은 특정 게놈 좌표와 특정 변이-핵염기 호출 모두에 특정된 실측 분류를 생성한다. 실측 분류를 사용하여, 상기에 설명된 바와 같이, 게놈-분류 시스템(106)은 게놈-위치-분류 모델을 훈련시켜 게놈 좌표와 변이-핵염기 호출 유형 모두에 특정된 신뢰도 분류를 추가로 결정할 수 있다.
하나 이상의 실시예들에 따르면, 도 6d 내지 6h는 실측 분류를 결정하는 게놈-분류 시스템(106)을 예시한다.(i) 게놈 샘플(예를 들어, 위에서 설명된 다양한 게놈 샘플 코호트)의 샘플 핵산 서열에 대한 특정 시퀀싱 메트릭 및 (ii) 암이나 모자이크현상을 반영하는 게놈 샘플의 혼합물에 대한 변이-호출 데이터(예를 들어, 암이나 모자이크현상을 반영하는 게놈 샘플의 혼합물에 대한 특정 유형의 변이를 호출하는 재현율 또는 정밀도율) 중 하나 또는 둘 다에 기초하여 실측 분류를 결정하는 게놈-분류 시스템(106)을 예시한다. 도 6d에 도시된 바와 같이, 게놈-분류 시스템(106)은 암 또는 모자이크현상이 있는 게놈 샘플의 변이-대립유전자 빈도를 함께 시뮬레이션하는 남성 및 여성 게놈 샘플의 조합으로부터 샘플 핵산 서열의 서브셋(예를 들어, 백분율)를 결정한다. 도 6e에 도시된 바와 같이, 게놈-분류 시스템(106)은 고신뢰도 게놈 좌표에 대한 실측 분류를 결정하기 위한 기초로서 샘플 핵산 서열에 대한 깊이 메트릭, 매핑-품질 메트릭 또는 핵염기-호출-품질 메트릭 중 하나 이상에서 정상적인 동작(behavior)을 나타내는 게놈 좌표를 결정한다. 도 6f 내지 6h에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 샘플 핵산 서열로부터의 핵염기 호출에 대한 체세포-품질 메트릭 및 게놈 샘플의 혼합물을 기반으로 특정 유형의 변이-핵염기 호출을 결정하기 위한 재현율 또는 정밀도율 중 하나 또는 모두에 추가로 기초하여 실측 분류를 결정한다.
도 6d에 도시된 바와 같이, 예를 들어, 게놈-분류 시스템(106)은 혼합물 게놈을 형성하는 다양한 게놈 샘플로부터의 샘플 핵산 서열의 서브셋을 결정한다. 해당 샘플-핵산-서열 서브셋이 함께 혼합되면, 혼합물 게놈은 암 또는 모자이크현상이 있는 게놈 샘플을 시뮬레이션한다. 암이나 모자이크현상이 있는 이러한 게놈 샘플을 시뮬레이션하기 위해, 게놈-분류 시스템(106)은 함께 혼합될 때, 암이나 모자이크현상의 특징을 나타내는 게놈 샘플의 변이-대립유전자 빈도를 시뮬레이션하는, 제1 게놈 샘플(639a)로부터의 샘플 핵산 서열(640a)의 백분율과 제2 게놈 샘플(639b)로부터의 샘플 핵산 서열(640b)의 백분율을 결정한다. 샘플 핵산 서열(640a 및 640b)의 서브셋을 결정하는 것을 일부로서, 게놈-분류 시스템(106)은 제1 게놈 샘플(639a) 및 제2 게놈 샘플(639b)에 대한 플래티넘 게놈의 진리셋 염기로부터 다양한 서브셋 혼합물(또는 백분율 혼합물)의 변이-대립유전자 빈도를 추정한다.
일부 실시예들에 따르면, 게놈-분류 시스템(106)은 단일의 자연 발생 게놈이 아닌 ― 혼합물 게놈으로부터의 샘플 핵산 서열을 사용한다 ― 그 이유는 시퀀싱 시스템이 종종 자연 발생 게놈의 서열에서 암 또는 모자이크현상을 반영하는 핵염기 변이를 일관되거나 정확하게 검출할 수 없기 때문이다. 예를 들어, 전이된 종양은 일부 체세포 유형의 DNA에 있는 핵염기를 돌연변이시킬 수 있지만, 다른 체세포 유형은 돌연변이시킬 수 없다. 실제로, 일부 종양은 혈액 내 백혈병 확산과 같이 특정 세포 유형의 모든 세포에 영향을 미칠 수 있으며, 이로 인해 종양 전용 샘플을 독점적으로 사용할 수 있게 되고 대조군 샘플을 얻는 것이 비실용적이거나 불가능해진다. 다양한 생검 조직 샘플 또는 다양한 생검 시간에, 암이 있는 자연 발생 게놈으로부터 추출된 DNA는 상당히 다른 핵염기 대립유전자 빈도를 가질 수 있으며 ― 이로써 자연 발생 게놈의 샘플을 일부 암으로 인한 변이 대립유전자 빈도를 추정하기에는 예측 불가능한 샘플로 만든다. 암 또는 건강한 세포의 DNA에서 핵염기 변이의 예측 불가능한 가변성을 피하기 위해, 일부 구현예들에서, 게놈-분류 시스템(106)은 암을 반영하는 변이를 시뮬레이션하는 혼합물 게놈을 결정한다.
암으로 인한 변이와는 대조적으로, 샘플의 DNA에서 자연 발생 모자이크현상은 모자이크현상이 종양, 유전적 유전, 복제 오류 또는 일부 기타 요인으로 인해 발생되는지 여부에 관계없이 ― 시퀀싱 동안 검출하기 어려운 흔하지 않은 변이를 나타낼 수 있다. 한 사람이 모자이크현상을 나타내는 DNA의 비율이 작을을 수 있지만, 기존의 많은 시퀀싱 시스템은 시퀀싱 시스템이 해당 유형의 모자이크현상을 가진 훨씬 더 큰 샘플 그룹에서 올리고뉴클레오티드를 시퀀싱하지 않는 한 ― 모자이크현상을 반영하는 일반적인 핵염기 변이를 검출할 수 없다. 모자이크현상을 나타내는 희귀한 샘플 그룹을 찾지 않고 훈련 게놈 샘플을 생성하기 위해, 특정 실시예들에서, 게놈-분류 시스템(106)은 체세포 모자이크현상 또는 생식세포계열 모자이크현상을 반영하는 변이를 시뮬레이션하기 위한 혼합물 게놈을 결정한다.
도 6d는 하나의 이러한 혼합물 게놈에 대한 샘플 핵산 서열의 서브셋을 결정하고 상응하는 변이 대립유전자 빈도를 결정하는 게놈-분류 시스템(106)의 일 예를 예시한다. 도 6d에 도시된 바와 같이, 게놈-분류 시스템(106)은 혼합물 게놈에 대한 이형접합 대립유전자와 동형접합 대립유전자 모두의 SNP에 대한 변이-대립유전자 빈도를 결정한다. 샘플 핵산 서열(640a)의 서브셋(여기서는 60%)과 샘플 핵산 서열(640b)의 서브셋(여기서는 40%)에 의해 반영된 백분율에 따르면, 게놈-분류 시스템(106)은 플래티넘 게놈의 제1 게놈 샘플(639a)(예를 들어, NA12877) 및 제2 게놈 샘플(639b)(예를 들어, NA12878)의 진리셋 염기를 참조하여 관련 변이 대립유전자 빈도를 결정하거나 예측한다. 도 6d는 혼합물 게놈으로부터의 SNP에 대한 변이 대립유전자 빈도를 도시하고 있지만, 게놈-분류 시스템(106)은 삽입, 결실, 구조적 변이 또는 CNV와 같은 기타 특정 변이 유형에 대한 혼합물 게놈 및 변이 대립유전자 빈도를 결정할 수 있다.
도 6d에 제시된 대립유전자-빈도 표(642)에 도시된 바와 같이, 예를 들어, 게놈-분류 시스템(106)은 제2 게놈 샘플(639b)로부터의 고유한 동형접합 대립유전자 및 고유한 이형접합 대립유전자가 혼합물 게놈에서 각각 0.4 및 0.2의 변이 대립유전자 빈도로 발생한다고 결정한다. 추가 도시된 바와 같이, 게놈-분류 시스템(106)은 제1 게놈 샘플(639a)로부터의 고유한 동형접합 대립유전자 및 고유한 이형접합 대립유전자가 혼합물 게놈에서 각각 0.6 및 0.3의 변이 대립유전자 빈도로 발생한다고 결정한다. 대조적으로, 게놈-분류 시스템(106)은 60% 및 40% 혼합물 게놈에 ― 제2 게놈 샘플(639b)과 제1 게놈 샘플(639a)의 해당 대립유전자 접합성에 따라 ― 동형접합-동형접합 조합, 이형접합-동형접합 조합, 동형접합-이형접합 조합 및 이형접합-이형접합 조합으로 존재하는 공통 대립유전자가 각각 1.0, 0.8, 0.7 및 0.5의 변이 대립유전자 빈도로 발생한다고 결정한다.
암 또는 모자이크현상이 있는 게놈 샘플을 대표하는 적합한 혼합물 게놈을 선택하기 위해, 게놈-분류 시스템(106)은 주어진 혼합물 게놈에서 게놈 샘플의 다양한 조합(및 백분율)의 진리셋 염기로부터 변이 대립유전자 빈도를 결정할 수 있다. 도 6d에 도시된 60% 및 40% 혼합물 게놈에 존재하는 변이 대립유전자 빈도 외에, 게놈-분류 시스템(106)은 암 또는 모자이크현상이 있는 게놈 샘플을 시뮬레이션하기 위해 다른 가능한 혼합물 게놈에 대한 변이 대립유전자 빈도를 결정한다. 예를 들어, 게놈-분류 시스템(106)은 제1 게놈 샘플(639a)로부터의 샘플 핵산 서열의 30% 및 제2 게놈 샘플(639b)로부터의 샘플 핵산 서열의 70%가 제1 게놈 샘플(639a)로부터의 그리고 제2 게놈 샘플(639b)로부터의 고유한 동형접합 대립유전자를 각각 0.7 및 0.3의 변이 대립유전자 빈도로 생성할 뿐만 아니라, 제1 게놈 샘플(639a)로부터의 그리고 제2 게놈 샘플(639b)로부터의 고유한 이형접합 대립유전자를 생성할 것이라고 결정한다. 대조적으로, 게놈-분류 시스템(106)은 동형접합-동형접합 조합, 이형접합-동형접합 조합, 동형접합-이형접합 조합 및 이형접합-이형접합 조합으로서 이러한 30% 및 70% 혼합물 게놈에 존재하는 공통 대립유전자는 ― 동일한 30% 및 70% 혼합물에 따라 ― 각각 1.0, 0.85, 0.65 및 0.5의 변이 대립유전자 빈도를 생성할 것이라고 결정하거나 예측한다.
제1 게놈 샘플(639a) 및 제2 게놈 샘플(639b)로부터 다양한 혼합물 게놈을 결정하는 것 외에도, 특정 구현예들에서, 게놈-분류 시스템(106)은 암 또는 모자이크현상이 있는 게놈 샘플을 시뮬레이션하는 적합한 혼합물 게놈을 식별하기 위해 다양한 샘플 게놈의 조합으로부터 변이 대립유전자 빈도를 결정한다. 다양한 혼합물 게놈에 대한 변이 대립유전자 빈도를 결정함으로써, 게놈-분류 시스템(106)은 타겟 유형 또는 암 또는 모자이크현상의 변이 대립유전자 빈도를 더 밀접하게(또는 가장 밀접하게) 시뮬레이션하는 혼합물 게놈을 선택할 수 있다.
상기에 나타낸 바와 같이, 게놈-분류 시스템(106)은 암 또는 모자이크현상을 반영하는 체세포-핵염기 변이에 특정되거나 특정 시퀀싱 메트릭에 적어도 부분적으로 기초하여 생식세포계열-핵염기 변이에 특정된 실측 분류를 생성할 수 있다. 도 6e에 도시된 바와 같이, 일부 실시예들에서, 게놈-분류 시스템(106)은 (i) 게놈 좌표에 걸쳐 게놈 샘플(예를 들어, 상기에 설명된 바와 같이 게놈 샘플의 다양한 코호트)로부터 샘플 핵산 서열에 대한 시퀀싱-메트릭 분포(644)를 결정하고 (ii) 정규 분포의 타겟 부분에 속하는 특정 시퀀싱 메트릭으로 게놈 좌표를 식별함으로써 고신뢰도 분류(또는 다른 신뢰도 분류)로 게놈 좌표를 소팅(sort)하거나 라벨링한다. 도시된 예에서, 게놈-분류 시스템(106)은 세 가지 시퀀싱 메트릭 각각에 대한 정규 분포의 표준 편차 내에서 깊이 메트릭, 매핑-품질 메트릭 및 핵염기-호출-품질 메트릭을 나타낼 때 고신뢰도 영역(652) 내에서 게놈 좌표를 식별한다. 하기에 논의된 바와 같이, 일반 깊이 메트릭, 매핑-품질 메트릭 및 핵염기-호출-품질 메트릭을 나타내고 ― 그에 따라 고신뢰 영역(652)의 일부인 ― 게놈 좌표는 또한 게놈 샘플의 혼합물을 기반으로 변이-핵염기 호출을 결정하는 데 더 나은 정밀도를 나타낸다.
도 6e에 도시된 바와 같이, 게놈-분류 시스템(106)은 참조 게놈의 게놈 좌표에서 게놈 샘플(예를 들어, 게놈 샘플의 다양한 코호트)로부터의 샘플 핵산 서열에 대한 시퀀싱-메트릭 분포(644)를 결정한다. 이러한 분포를 결정하기 위해, 게놈-분류 시스템(106) 시스템은 다양한 코호트로부터의 시퀀싱된 게놈 샘플에 대한 시퀀싱 메트릭을 결정하고 상이한 게놈 좌표에 따른 시퀀싱 메트릭의 분포를 결정한다. 예를 들어, 특정 경우에, 게놈-분류 시스템(106)은 (예를 들어, DRAGEN Somatic Pipeline의 종양 전용 분석을 사용하여) 게놈 샘플에 대한 핵염기 호출을 결정하고, 게놈 샘플에 대해 결정된 서열에 대한 시퀀싱 메트릭을 결정한다. 일부 실시예들에서, 게놈-분류 시스템(106)은 각 게놈 좌표와 관련하여 샘플 핵산 서열에 대한 깊이 메트릭, 매핑-품질 메트릭 및 핵염기-호출-품질 메트릭을 결정한다. 대로적으로, 특정 구현예들에서, 게놈-분류 시스템(106)은, 이에 제한되는 것은 아니나, 위에 설명된 정렬 메트릭, 깊이 메트릭 또는 호출-데이터-품질 메트릭 중 하나 이상 중 어느 하나를 포함하는, 위에서 설명된 시퀀싱 메트릭 중 어느 하나 이상을 결정한다.
도 6e에 추가로 도시된 바와 같이, 게놈-분류 시스템(106)은 시퀀싱 메트릭 분포(644) 중 하나 이상에 기초하여 정상 게놈 좌표(646) 및 이상치(outlier) 게놈 좌표(648)를 식별한다. 예를 들어, 게놈-분류 시스템(106)은 베이지안 가우시안 혼합 모델을 깊이 메트릭, 매핑-품질 메트릭, 핵염기-호출-품질 메트릭, 및/또는 게놈 좌표에 걸쳐 위에서 설명된 기타 시퀀싱 메트릭 각각에 대한 게놈-전체 분포에 맞춘다. 게놈-분류 시스템(106)은 이후 알고리즘을 사용하여 베이지안 가우시안 혼합 모델에 대한 각 시퀀싱 메트릭에 대한 게놈-전체 분포의 적절한 핏에 기여하지 않거나 거의 기여하지 않는 컴포넌트(예를 들어, 시퀀싱 메트릭의 서브셋)를 프루닝(prune)하거나 제거한다. 각 시퀀싱 메트릭에 대한 피트된 분포에 기초하여, 게놈-분류 시스템(106)은 각 특정 시퀀싱 메트릭에 따라 ― 피트된 분포 내에 속하는 정상 게놈 좌표(646) 및 피트된 분포 외부에 속하는 이상치 게놈 좌표(648)를 정의하거나 식별하기 위해 p-값 임계값을 설정한다. 따라서, 게놈 좌표는 하나의 시퀀싱 메트릭에 대한 정상 게놈 좌표(646) 중 하나일 수 있지만 다른 시퀀싱 메트릭에 대한 이상치 게놈 좌표(648) 중 하나일 수 있다.
정상 게놈 좌표(646) 및 이상치 게놈 좌표(648)를 식별한 후, 게놈-분류 시스템(106)은 고신뢰도 영역(652)의 일부로서 일반 깊이 메트릭, 매핑-품질 메트릭 및 핵염기-호출-품질 메트릭을 나타내는 게놈 좌표를 추가로 식별한다. 중첩 시각화(650)에 의해 나타낸 바와 같이, 게놈-분류 시스템(106)은 깊이 메트릭, 매핑-품질 메트릭 및 핵염기-호출-품질 메트릭 각각에 대한 분포(예를 들어, 피트된 분포) 내에 속하는 게놈 좌표를 결정한다. 식별된 게놈 좌표는 고신뢰도 영역(652)을 형성하고 ― 다른 영역의 간격을 제외하고 ― 참조 게놈의 89.9%를 포함한다. 깊이 메트릭, 매핑-품질 메트릭, 핵염기-호출-품질 메트릭 중 어느 하나에 대한 분포 외부에 속하는 게놈 좌표는 저신뢰도 영역(654)을 형성한다. 도 6e에 도시된 바와 같이, 특정 실시예들에서, 게놈-분류 시스템(106)은 암을 반영하는 체세포-핵염기 변이에 대한 고신뢰도의 실측 분류로 고신뢰도 영역(652) 내에서 게놈 좌표를 라벨링한다.
상기에 제안된 바와 같이, 일반 깊이 메트릭, 매핑-품질 메트릭 및 핵염기-호출-품질 메트릭을 나타내는 게놈 좌표는 또한 변이-핵염기 호출을 결정하는 데 더 나은 정확도 또는 정밀도를 나타낸다. 신뢰성을 테스트하고 실측 분류를 추가로 구별하기 위해, 일부 실시예들에서, 게놈-분류 시스템(106)은 혼합물 게놈에 대한 핵염기 호출을 결정하고 핵염기 호출을 프래티넘 게놈으로부터 혼합물 게놈을 형성하는 게놈 샘플에 고유한 진리셋 염기와 비교한다. 혼합물 게놈에 대한 변이 호출을 대응하는 진리셋 염기와 비교함으로써, 게놈-분류 시스템(106)은 대응하는 게놈 좌표에서 진양성 변이를 식별할 수 있다.
암 또는 모자이크현상을 시뮬레이션하는 혼합물 게놈의 변이는 매우 적기 때문에, 일부 구현예들에서, 게놈-분류 시스템(106)은 정상-정상 차감 방법을 사용하여 게놈 좌표에서 결정된 위양성 변이를 식별한다. 특히, 게놈-분류 시스템(106)은 ― 일루미나 사의 종양/정상 데이터 분석에서 한 복제물을 종양 샘플로 처리하고 또 다른 복제물을 정상 샘플로 처리함으로써 ― 혼합물로부터 동일한 게놈 샘플(예를 들어, NA12877)의 두 복제물에 대한 핵염기 호출을 결정하고, 두 개의 복제물에서 나온 핵염기 호출을 비교하여 위양성 변이를 식별한다. 이러한 분석을 실행할 때, 예를 들어, 게놈-분류 시스템(106)은 https://www.illumina.com/content/dam/illumina-marketing/documents/products/whitepapers/whitepaper_wgs_tn_somatic_variant_calling.pdf에서 확인 가능한, "Evaluating Somatic Variant Calling in Tumor/Normal Studies"(2015)인, 일루미나 사에 의해 설명된 종양/정상 데이터 분석을 사용할 수 있으며, 그 내용은 본원에 참조로 통합된다. 게놈 좌표 또는 게놈 영역에서 위양성 변이의 밀도를 측정함으로써, 게놈-분류 시스템(106)은 암 또는 모자이크현상이 있는 주어진 게놈 샘플에 대한 핵염기-변이 호출을 결정할 때 오류를 생성할 가능성이 가장 적은 게놈 좌표 또는 영역을 식별할 수 있다. 하나 이상의 실시예들에 따르면, 도 6f는 다양한 리드 깊이에서 도 6e의 고신뢰도 영역(652)과 저신뢰도 영역(654) 내에서 결정된 위양성의 밀도를 도시하는 위양성 밀도 그래프(656)를 예시한다.
위양성 변이의 밀도를 결정하는 것 외에도, 일부 실시예들에서, 게놈-분류 시스템(106)은 혼합물 게놈의 샘플 핵산 서열로부터 핵염기 호출에 대한 체세포-품질 메트릭을 결정하고 체세포-품질-메트릭 임계값에 의해 분할된 바와 같이 도 6e의 저신뢰도 영역(654)의 부분 내에서 위양성 변이의 밀도를 결정한다. 아래에 추가로 설명된 바와 같이, 일부 경우에, 게놈-분류 시스템(106)은 체세포-품질-메트릭 임계값을 사용하여 저신뢰도 영역(654) 또는 고신뢰도 영역(652)에서 게놈 좌표에 대한 실측 분류의 서로 다른 계층을 구별한다. 하나 이상의 실시예들에 따르면, 도 6f는 서로 다른 체세포-품질-메트릭 임계값에서 그리고 서로 다른 리드 깊이에서 도 6e로부터의 저신뢰도 영역(654)의 서로 다른 계층 내에서 결정된 위양성 밀도 그래프(656)를 추가로 예시한다.
도 6f의 위양성 밀도 그래프(656)에 도시된 바와 같이, 게놈-분류 시스템(106)은 서로 다른 리드 깊이에서 고신뢰도 영역과 저신뢰도 영역의 게놈 좌표에서 백만 염기(Mb)당 위양성 변이의 밀도를 결정한다. 게놈-분류 시스템(106)은 서로 다른 체세포-품질-메트릭 임계값 ― 즉, 값이 17.5, 20 및 25인 체세포-품질-메트릭에 따라 저신뢰도 영역에서 위양성 변이의 밀도를 추가로 결정한다. 게놈 좌표에서 리드 깊이가 100인 경우, 게놈-분류 시스템(106)은 고신뢰도 영역의 게놈 좌표의 경우 0.1/Mb 조금 넘는 위양성 밀도, 체세포-품질-메트릭이 17.5 내지 20 사이인 저신뢰도 영역의 게놈 좌표의 경우 1.6/Mb 이상의 위양성 밀도, 체세포-품질 메트릭이 20 내지 25 사이인 저신뢰도 영역의 게놈 좌표의 경우 0.8/Mb 이상의 위양성 밀도, 및 체세포-품질-메트릭이 25 이상인 저신뢰도 영역의 게놈 좌표의 경우 0.2/Mb 이상의 위양성 밀도를 결정한다. 주어진 게놈 좌표에서 리드 깊이가 75인 경우, 게놈-분류 시스템(106)은 고신뢰도 영역의 게놈 좌표의 경우 0.1/Mb 조금 넘는 위양성 밀도, 체세포-품질-메트릭이 17.5 내지 20 사이인 저신뢰도 영역의 게놈 좌표의 경우 1.1/Mb 이상의 위양성 밀도, 체세포-품질 메트릭이 20 내지 25 사이인 저신뢰도 영역의 게놈 좌표의 경우 0.7/Mb 이상의 위양성 밀도, 및 체세포-품질-메트릭이 25 이상인 저신뢰도 영역의 게놈 좌표의 경우 대략 0.3/Mb 이상의 위양성 밀도를 결정한다.
위양성 밀도 그래프(656)가 나타내는 바와 같이, 저신뢰도 영역에서 게놈 좌표에 대한 체세포-품질 메트릭이 감소함에 따라 위양성 변이의 밀도가 증가한다. 반대로, 체세포-품질-메트릭 임계값이 증가함에 따라, 위양성 변이의 밀도는 감소하는 반면 위음성 변이의 밀도는 증가한다. 위양성 변이의 밀도는 체세포-변이 호출자의 정확성에 대한 역 표시자이기 때문에, 위양성 밀도 그래프(656)는 저신뢰도 영역의 게놈 좌표에 대한 체세포-품질 메트릭이 감소함에 따라 게놈-분류 시스템(106)이 위양성 변이의 측면에서 체세포-변이 호출을 결정하는 정확도가 증가함을 도시한다.
체세포-품질-메트릭 임계값을 사용함으로써, 특정 구현예들에서, 게놈-분류 시스템(106)은 그에 따라 저신뢰도 영역 내의 게놈 좌표에 대한 실측 분류를 구별할 수 있다. 예를 들어, 일부 경우에, 게놈-분류 시스템(106)은 해당 체세포-품질 메트릭이 25 미만일 때 저신뢰도 분류로 그리고 해당 체세포-품질 메트릭이 25를 초과할 때 중간-신뢰도 분류로 저신뢰도 영역으로부터의 게놈 좌표를 라벨링할 수 있다. 대조적으로, 게놈-분류 시스템(106)은 해당 체세포-품질 메트릭이 25 미만일 때 저신뢰도 점수로 그리고 해당 체세포-품질 메트릭이 25를 초과할 때 고신뢰도 점수로 저신뢰도 영역으로부터의 게놈 좌표를 점수매길 수 있다. 방금 명시한 바와 같이, 실측 분류를 구별하기 위한 임계값 25는 단지 예일 뿐이다. 추가 실시예들에서, 게놈-분류 시스템(106)은 체세포-품질 메트릭에 대해 서로 다른 임계값 또는 임계값들(예를 들어, 15, 20, 30)을 사용한다.
도 6f의 위상성 밀도 그래프(656)에의해 추가로 나타낸 바와 같이, 일부 실시예들에서, 게놈=분류 시스템(106)은 저신뢰도 영역에 대해 서로 다르고 더 엄격한 체세포-품질-메트릭 임계값을 사용하여 기존 시스템에 의해 종종 낮은 품질로 간주되는 게놈 영역 중에서 보다 신뢰할 수 있는 게놈 영역을 식별할 수 있다. 기존 변이 호출자는 일반적으로 체세포 변이 호출 품질에 대한 임계값을 사용한다. 임계값 미만의 품질을 갖는 후보 핵염기 호출 시, 기존 변이 호출자는 해당 핵염기 호출을 필터링 아웃한다(예를 들어, 비-PASS로 라벨링됨). 임계값 체세포-품질 메트릭이 증가하면, 변이 호출자가 더 많은 핵염기 호출을 필터링 아웃하여 위양성 변이는 감소하지만 위음성 변이는 증가한다. 일반적으로, 변이 호출자가 사용하는 체세포-품질 메트릭에 대한 임계값은 위양성 변이과 위음성 변이의 최적의 균형을 달성하도록 선택된다. 그러나 위에서 설명된 체세포-품질-메트릭 임계값을 사용하여 핵염기 호출을 필터링함으로써, 게놈-분류 시스템(106)은 아래에 추가로 도시된 바와 같이, 재현에 과도한 불이익을 주지 않고 위양성 변이를 크게 줄일 수 있다.
위에 나타낸 바와 같이, 특정 구현예들에서, 게놈-분류 시스템(106)은 특정 게놈 좌표에서 변이-핵염기 호출을 결정하기 위한 재현율을 결정하고 재현율에 부분적으로 기초하여 실측 분류를 생성한다. 예를 들어, 특정 경우에, 게놈-분류 시스템(106)은 게놈 샘플의 혼합물에 대한 체세포-변이 호출을 결정하고 체세포-변이 호출과 혼합물로부터의 해당 게놈 샘플에 대한 진리셋(예를 들어, 플래티넘 게놈으로부터의)을 비교하여 재현율을 결정한다. 일부 실시예들에서, 게놈-분류 시스템(106)은 정확하게 결정된 진양성 핵염기-호출 변이의 수를 모든 진양성 핵염기-호출 변이의 수로 나누어 결정함으로써 재현율을 결정한다. 따라서 게놈-분류 시스템(106)은 이러한 재현율을 결정하고 사용하여 (i) 암 또는 모자이크현상을 반영하는 체세포-핵염기 변이 또는 (ii) 모자이크현상을 반영하는 생식세포계열-핵염기 변이에 특정된 실측 분류를 식별할 수 있다.
하나 이상의 실시예들에 따르면, 도 6g는 서로 다른 게놈 영역 내의 게놈 좌표에서 그리고 서로 다른 변이 대립유전자 빈도로 암을 반영하는 체세포-핵염기 변이를 결정하는 게놈-분류 시스템(106)에 대한 재현율을 도시하는 재현 그래프(658a 및 658b)를 예시한다. 특히, 재현율 그래프(658a 및 658b)는 서로 다른 변이 대립 유전자 빈도에 걸쳐 ― 17.5, 20 및 25의 체세포-품질-메트릭 임계값에 따라 분할된 고신뢰도 영역 내의 그리고 저신뢰도 영역 내의 게놈 좌표에 대해 각각 100 리드 깊이 및 75 리드 깊이에서의 지현율을 도시한다.
주어진 게놈 좌표에서 리드 깊이 100 및 75에 대해 각각 재현율 그래프(658a 및 658b)에 의해 나타낸 바와 같이, 게놈-분류 시스템(106)은 다양한 게놈 좌표에서 그리고 다양한 변이 대립유전자 빈도에 걸쳐 암을 반영하는 체세포 변이를 결정하기 위한 재현율을 결정한다. 재현율 그래프(658a 및 658b) 모두에서 도시된 바와 같이, 고신뢰도 영역 내의 게놈 좌표는 분할된 저신뢰도 영역 중 어느 영역보다 변이 대립 유전자 빈도에 걸쳐 더 높은 재현율을 나타낸다. 0.05 내지 0.2의 변이 대립유전자 빈도를 갖는 핵염기 변이는 주어진 게놈 좌표에서 상대적으로 더 적은 리드에 존재하기 때문에, 시퀀싱 시스템에는 더 높은 변이 대립유전자 빈도로 나타나는 거의 1.0의 재현율로 고신뢰도 영역에서 해당 핵염기-변이 호출을 결정하기 위한 충분한 리드(게놈 좌표의 경우 100 및 75의 리드 깊이에서도)가 부족하다.
재현율 그래프(658a 및 658b) 모두에서 추가로 도시된 바와 같이, 체세포-품질-메트릭이 25인 저신뢰도 영역, 체세포-품질-메트릭 임계값이 20인 저신뢰도 영역 및 체세포-품질-메트릭 임계값이 17.5인 저신뢰도 영역 각각의 게놈 좌표는 변이 대립유전자 빈도에 걸쳐 점점 더 나은 재현율을 나타낸다. 즉, 게놈 좌표에 대한 필터링을 위한 체세포-품질-메트릭 임계값이 증가함에 따라, 암을 반영하는 체세포 변이를 결정하기 위한 재현율은 게놈 좌표에 대해 감소한다. 체세포-품질 메트릭 임계값과 재현율 사이의 이러한 관계는 체세포-품질 메트릭 증가를 나타내지 않는다 점에 유의한다. 체세포-품질 메트릭이 증가함에 따라, 체세포 변이을 결정하기 위한 재현율도 마찬가지로 증가해야 하며, 체세포 변이 호출은 위음성 변이과 위양성 변이 모두에 대한 빈도가 낮다.
체세포-품질-메트릭 임계값 및 재현율 모두를 사용함으로써, 특정 구현예들에서, 게놈-분류 시스템(106)은 그에 따라 저신뢰도 영역 내의 게놈 좌표에 대한 실측 분류를 구별할 수 있다. 예를 들어, 일부 경우에, 게놈-분류 시스템(106)은 해당 체세포-품질 메트릭이 25(또는 일부 다른 체세포-품질-메트릭 임계값) 미만일 때 저신뢰도 분류로 저신뢰도 영역으로부터의 게놈 좌표를 라벨링할 수 있다. 반대로, 게놈-분류 시스템(106)은 해당 체세포-품질 메트릭이 25(또는 일부 다른 체세포-품질-메트릭 임계값)을 초과할 때 중간-신뢰도 분류로 저신뢰도 영역으로부터의 게놈 좌표를 라벨링한다. 대조적으로, 게놈-분류 시스템(106)은 해당 체세포-품질 메트릭이 25 이상이거나 미만일 때 저(또는 고) 신뢰도 점수로 저신뢰도 영역으로부터의 게놈 좌표를 점수매길 수 있다.
대조적으로, 일부 실시예들에서, 게놈-분류 시스템(106)은 서로 다른 체세포-품질-메트릭 임계값을 갖는 게놈 좌표의 F-점수에 기초하여 저신뢰도 영역에서 게놈 좌표에 대한 실측 분류를 구별할 수 있다. 예를 들어, 게놈-분류 시스템(106)은 재현율과 정밀도율 둘 다에 기초하여 저신뢰도 영역의 게놈 좌표에서 변이-핵염기 호출을 결정하기 위한 F-점수를 결정할 수 있다. 일부 실시예들에서, 게놈-분류 시스템(106)은 정확하게 결정된 진양성 핵염기-호출 변이의 수를 모든 결정된 핵염기-호출 변이의 수로 나누어 결정함으로써 정밀도율을 결정한다. 일부 경우에, 게놈-분류 시스템(106)은 정밀도율과 재현율의 조화 평균을 결정함으로써 F1 점수를 결정한다. 따라서, 게놈 분류 시스템(106)106 상이한 체세포 정성-메트릭 임계치들을 갖는 게놈 좌표들의 대응하는 F-점수들에 따라 상이한 체세포 정성-메트릭 임계치들을 갖는 저신뢰도 영역 내의 게놈 좌표들을 라벨링할 수 있다따라서, 게놈-분류 시스템(106)은 서로 다른 체세포-품질-메트릭 임계값을 갖는 게놈 좌표의 해당 F-점수에 따라 서로 다른 실측 분류로 ― 서로 다른 체세포-품질-메트릭 임계값을 갖는 ― 저신뢰도 영역의 게놈 좌표를 라벨링할 수 있다.
상기에 추가로 나타낸 바와 같이, 특정 구현예들에서, 게놈-분류 시스템(106)은 특정 게놈 좌표에서 변이-핵염기 호출을 결정하기 위해 정밀도율과 재현율 중 하나 또는 둘 다를 결정하고 정밀도율과 재현율 중 하나 또는 둘 다에 기초하여 실측 분류를 생성한다. 예를 들어, 특정 경우에, 게놈-분류 시스템(106)은 (예를 들어, 암을 시뮬레이션하는 체세포-변이 호출을 결정할 때 종양/정상 DRAGEN Somatic Pipeline을 사용하거나 모자이크현상을 시뮬레이션하는 체세포-변이 호출을 결정할 때 DRAGEN Somatic Pipeline에서 종양 전용 분석을 사용함으로써) 게놈 샘플의 혼합물에 대한 체세포-변이 호출을 결정한다. 게놈-분류 시스템(106)은 후속적으로 체세포-변이 호출과 혼합물로부터의 해당 게놈 샘플에 대한 진리셋(예를 들어, Platinum Genomes로부터의)을 비교하여 정밀도율 및 재현율을 결정한다. 따라서 게놈-분류 시스템(106)은 이러한 정밀도율 또는 재현율을 결정하고 사용하여 (i) 암 또는 모자이크현상을 반영하는 체세포-핵염기 변이 또는 (ii) 모자이크현상을 반영하는 생식세포계열-핵염기 변이에 특정된 실측 분류를 식별할 수 있다.
하나 이상의 실시예들에 따르면, 도 6h는 게놈-분류 시스템(106)이 서로 다른 게놈 영역 내의 게놈 좌표에서 그리고 서로 다른 변이 대립유전자 빈도로 모자이크현상을 반영하는 변이-핵염기 호출을 결정하는 정밀도를 도시하는 정밀도 그래프(660a 및 660b)를 예시한다. 도 6h는 서로 다른 게놈 영역 내의 게놈 좌표에서 그리고 서로 다른 변이 대립유전자 빈도로 모자이크현상을 반영하는 핵염기 변이를 결정하는 게놈-분류 시스템(106)에 대한 재현율을 도시하는 재현 그래프(662a 및 662b)를 예시한다.
주어진 게놈 좌표에서 리드 깊이 100 및 75에 대해 각각 정밀도 그래프(660a 및 660b)에 의해 나타낸 바와 같이, 게놈-분류 시스템(106)은 다양한 게놈 좌표에서 그리고 다양한 변이 대립유전자 빈도에 걸쳐 모자이크현상을 반영하는 핵염기 변이를 결정하기 위한 정밀도를 결정한다. 정밀도 그래프(660a 및 660b) 모두에서 도시된 바와 같이, 고신뢰도 영역 내의 게놈 좌표는 일반적으로 저신뢰도 영역 내의 게놈 좌표보다 변이 대립 유전자 빈도에 걸쳐 더 높은 정밀도율을 나타낸다. 정밀도 그래프(660a 및 660b) 모두에서 0.15의 변이 대립유전자 빈도에서 시작하여, 저신뢰도 영역 내의 게놈 좌표는 고신뢰도 영역 내의 게놈 좌표와 거의 1.000의 거의 동일한 정밀도율 나타낸다.
주어진 게놈 좌표에서 리드 깊이 100 및 75에 대해 각각 재현 그래프(662a 및 662b)에 의해 나타낸 바와 같이, 게놈-분류 시스템(106)은 다양한 게놈 좌표에서 그리고 다양한 변이 대립유전자 빈도에 걸쳐 모자이크현상을 반영하는 핸염기 변이를 결정하기 위한 재현율을 결정한다. 재현 그래프(662a 및 662b) 모두에서 도시된 바와 같이, 고신뢰도 영역 내의 게놈 좌표는 저신뢰도 영역 내의 게놈 좌표보다 변이 대립유전자 빈도에 걸쳐 더 높은 재현율을 일관되게 나타낸다.
상기에 제안된 바와 같이, 0.05 내지 0.15의 변이 대립유전자 빈도를 갖는 핵염기 변이는 주어진 게놈 좌표에서 상대적으로 더 적은 뉴클레오티드 리드에 존재한다. 따러서, 시퀀싱 시스템에는 더 높은 변이 대립유전자 빈도로 나타나는 거의 1.0의 정밀도율 또는 거의 1.0의 재현율로 해당 핵염기-변이 호출을 결정하기 위한 충분한 리드(게놈 좌표의 경우 100 및 75의 리드 깊이에서도)가 부족하다.
정밀도율 및 재현율을 결정하는 것 외에도, 특정 구현예들에서, 게놈-분류 시스템(106)은 정밀도율 및 재현율에 기초하여 게놈 좌표에서 변이-핵염기 호출을 결정하기 위한 F-점수를 추가로 결정한다. 상기에 나타낸 바와 같이, 일부 경우에, 게놈-분류 시스템(106)은 정밀도율과 재현율의 조화 평균을 결정함으로써 F1 점수를 결정한다. 따라서, 게놈-분류 시스템(106)은 상대적 F1 점수에 따라 서로 다른 실측 분류로, 게놈 좌표 또는 게놈 영역, 예컨대 고신뢰도 영역 및 저신뢰도 영역을 라벨링할 수 있다.
재현율 및 정밀도율 중 하나 또는 둘 다에 기초하여, 특정 구현예들에서, 게놈-분류 시스템(106)은 고신뢰도 영역과 저신뢰도 영역 내의 게놈 좌표에 대한 실측 분류를 구별한다. 예를 들어, 일부 경우에, 게놈-분류 시스템(106)은 부분적으로 고신뢰도 영역의 게놈 좌표가 더 나은 재현율과 정밀도율을 나타내기 때문에 고신뢰도 분류로 고신뢰도 영역의 게놈 좌표를 라벨링한다. 대조적으로, 일부 경우에, 게놈-분류 시스템(106)은 저신뢰도 영역이 낮은 재현율 및 정밀도율을 나타내기 때문에 낮은 저신뢰도 분류(또는 중간-신뢰도 분류)로 저신뢰도 영역의 게놈 좌표를 라벨링한다.
게놈-분류 시스템(106)이 이러한 실측 분류를 결정하거나 라벨링하는 방법에 관계없이, 특정 경우에, 게놈-분류 시스템(106)은, 게놈-위치-분류 모델(608)을 훈련시켜 암 또는 체세포 모자이크현상을 반영하는 체세포-핵염기 변이에 대해 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이에 대해, 도 6a에 도시된 바와 같은 이러한 결정된 실측 분류에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정한다. 따라서, 게놈-분류 시스템(106)은 마찬가지로 도 6b에 도시된 바와 같이, 게놈-위치-분류 모델(608)의 훈련된 버전을 활용하여 게놈 좌표 세트에 대해 그리고 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이에 특정되거나, 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이에 대해 변이 신뢰도 분류를 결정할 수 있다. 따라서, 게놈-분류 시스템(106)은 또한 도 6c에 도시된 바와 같이, 암 또는 체세포 모자이크현상을 반영하는 변이 호출 체세포-핵염기 변이의 게놈 좌표 또는 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이에 대한 게놈 좌표에 대응하는 게놈-위치-분류 모델(608)의 훈련된 버전으로부터 변이 신뢰도 분류를 식별하고 디스플레이할 수 있다.
상기에 나타낸 바와 같이, 게놈-위치-분류 모델의 서로 다른 실시예의 성능을 평가하기 위해, 연구자들은 게놈-분류 시스템(106)의 신뢰도 분류를 통해 입증된 변수와 다양한 정확도 메트릭을 측정했다. 다음 단락에서는 도 7 내지 10b에 도시된 바와 같은 측정치 중 일부를 설명한다. 하나 이상의 실시예들에 따르면, 예를 들어, 도 7a 내지 7g는 로지스틱 회귀 모델로부터 훈련될 때 특정 변이 유형에 대한 게놈-위치-분류 모델에 정보를 제공하는 시퀀싱 메트릭 및 시퀀싱-메트릭-도출-입력 데이터를 나타내는 그래프(700a 내지 700g)를 도시한다. 특히, 그래프(700a 내지 700g)는 서로 다른 핵염기-호출-변이 유형에 기초하여 게놈 좌표에 대한 고신뢰도 분류 또는 저신뢰도 분류를 결정하기 위해 상위 23개 시퀀싱 메트릭 및 시퀀싱-메트릭-도출-입력 데이터에 대한 게놈-위치-분류 모델에 의해 사용되는 로지스틱 회귀 계수를 도시한다.
도 7a 및 7b에 도시된 바와 같이, 예를 들어, 그래프(700a 및 700b)는 길이가 1-5개 핵염기의 짧은 결실(그래프(700a)의 경우)에 해당하거나 길이가 1-5개 핵염기의 짧은 삽입(그래프(700b)의 경우)에 해당하는 실측 분류를 사용하여 각각 훈련된 게놈-위치-분류 모델에 대한 로지스틱 회귀 계수를 도시한다. 도 7a 및 7b는 짧은 결실 또는 짧은 삽입을 사용하여 훈련된 로지스틱 회귀 모델이 다른 데이터 입력과 비교하여 가장 큰 크기의 계수로 매핑-품질 메트릭(MAPQ) 또는 표준화된 깊이에 가중치를 두어 게놈 좌표 또는 게놈 영역에 대한 고신뢰도 분류 또는 저신뢰도 분류를 결정하는 것을 보여준다.
특히, 도 7a의 그래프(700a)는 짧은 결실을 위해 훈련된 로지스틱 회귀 모델이 매핑-품질 메트릭에 대해 -1.5 이상의 계수와 1.5 이상의 계수를 사용하여 게놈 좌표 또는 게놈 영역에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 도 7b의 그래프(700b)는 짧은 삽입을 위해 훈련된 로지스틱 회귀 모델이 표준화된 깊이 메트릭에 대해 -1.5 이상의 계수와 1.5 이상의 계수를 사용하여 게놈 좌표 또는 게놈 영역에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 이러한 표준화된 깊이 메트릭에는 표준 편차가 적용되며 정방향-역방향-깊이 메트릭 또는 정규화-깊이 메트릭이 포함될 수 있다.
대조적으로, 도 7a의 그래프(700a)는 짧은 결실에 대해 훈련된 로지스틱 회귀 모델이 정방향-분율 메트릭 및 리드-참조-불일치 메트릭(local_mean_mismatch)에 대해 0.0의 계수 및 거의 0.0의 계수 ―이는 짧은 결실에 대해 다른 데이터 입력보다 크기가 작음 ―를 사용하여 게놈 좌표에 대한 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 도 7b의 그래프(700b)는 짧은 삽입에 대해 훈련된 로지스틱 회귀 모델이 더 큰 음성-삽입-크기 메트릭에 대해 거의 0.0의 계수 ―이는 짧은 삽입에 대해 다른 데이터 입력보다 크기가 작음 ―를 사용하여 게놈 좌표에 대한 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다.
도 7c 및 7d에 도시된 바와 같이, 그래프(700c 및 700d)는 길이가 5-15개 핵염기의 중간 결실(그래프(700c)의 경우)에 해당하거나 길이가 5-15개 핵염기의 중간 삽입(그래프(700d)의 경우)에 해당하는 실측 분류를 사용하여 각각 훈련된 게놈-위치-분류 모델에 대한 로지스틱 회귀 계수를 도시한다. 그래프(700c 및 700d) 둘 모두는 로지스틱 회귀 모델이 다른 데이터 입력과 비교하여 가장 큰 크기의 계수로 매핑-품질 메트릭(MAPQ)에 가중치를 두어 게놈 좌표 또는 게놈 영역에 대한 고신뢰도 분류 또는 저신뢰도 분류를 결정하는 것을 보여준다.
특히, 도 7c의 그래프(700c)는 중간 결실을 위해 훈련된 로지스틱 회귀 모델이 매핑-품질 메트릭에 대해 크기가 거의 -0.8의 계수와 크기가 거의 0.8의 계수를 사용하여 게놈 좌표 또는 게놈 영역에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 유사하게, 도 7d의 그래프(700d)는 중간 삽입을 위해 훈련된 로지스틱 회귀 모델이 매핑-품질 메트릭에 대해 크기가 -0.75 이상의 계수와 크기가 0.75 이상의 계수를 사용하여 게놈 좌표에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다.
대조적으로, 도 7c의 그래프(700c)는 중간 결실에 대해 훈련된 로지스틱 회귀 모델이 이항 비율 테스트 및 베이츠 분포 테스트에 대해 0.0의 계수 ―이는 중간 결실에 대해 다른 데이터 입력보다 크기가 작음 ―를 사용하여 게놈 좌표에 대한 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 도 7d의 그래프(700d)는 중간 삽입에 대해 훈련된 로지스틱 회귀 모델이 정방향-분율 메트릭 및 더 큰 음성-삽입-크기 메트릭에 대해 0.0의 계수 및 거의 0.0의 계수 ―이는 중간 삽입에 대해 다른 데이터 입력보다 크기가 작음 ―를 사용하여 게놈 좌표에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다.
도 7e 및 7f에 도시된 바와 같이, 그래프(700e 및 700f)는 길이가 15개 이상 핵염기의 긴 결실(그래프(700e)의 경우)에 해당하거나 길이가 15개 이상 핵염기의 긴 삽입(그래프(700e)의 경우)에 해당하는 실측 분류를 사용하여 각각 훈련된 게놈-위치-분류 모델에 대한 로지스틱 회귀 계수를 도시한다. 도 7e 및 7f는 긴 결실 또는 긴 삽입을 사용하여 훈련된 로지스틱 회귀 모델이 다른 데이터 입력과 비교하여 가장 큰 크기의 계수로 매핑-품질 메트릭(MAPQ) 또는 깊이-클립 메트릭에 가중치를 두어 게놈 좌표 또는 게놈 영역에 대한 고신뢰도 분류 또는 저신뢰도 분류를 결정하는 것을 보여준다.
특히, 도 7e의 그래프(700e)는 긴 결실을 위해 훈련된 로지스틱 회귀 모델이 매핑-품질 메트릭(MAPQ)에 대해 -0.4 이상의 계수와 0.4 이상의 계수를 사용하여 게놈 좌표 또는 게놈 영역에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 도 7f의 그래프(700f)는 긴 삽입을 위해 훈련된 로지스틱 회귀 모델이 깊이-클립 메트릭에 대해 크기가 -0.4 이상의 계수와 크기가 0.4 이상의 계수를 사용하여 게놈 좌표 또는 게놈 영역에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다.
대조적으로, 도 7e의 그래프(700e)는 긴 결실에 대해 훈련된 로지스틱 회귀 모델이 피크-카운트 메트릭 및 리드-포지션 메트릭 둘 모두에 대해 0.0의 계수 ―이는 긴 결실에 대해 다른 데이터 입력보다 작음 ―를 사용하여 게놈 좌표에 대해 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 도 7f의 그래프(700f)는 긴 삽입에 대해 훈련된 로지스틱 회귀 모델이 리드-참조-불일치 메트릭(local_mean_mismatch)의 로컬 평균 및 이항 비율 테스트에 대해 거의 0.0의 계수 및 0.0의 계수 ―이는 긴 결실에 대해 다른 데이터 입력보다 작음 ―를 사용하여 게놈 좌표에 대해 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다.
도 7g에 도시된 바와 같이, 그래프(700g)는 SNP에 대응하는 실측 분류를 사용하여 훈련된 게놈-위치-분류 모델에 대한 로지스틱 회귀 계수를 보여준다. 도 7g에 도시된 바와 같이, 그래프(700g)는 SNP에 대해 훈련된 로지스틱 회귀 모델이 매핑-품질 메트릭(MAPQ)에 대해 -2.0 이상의 계수와 2.0 이상의 계수 ― 이는 SNP에 대해 다른 데이터 입력보다 높음 ― 를 사용하여 게놈 좌표 또는 게놈 영역에 대해 각각 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다. 대조적으로, 그래프(700g)는 SNP에 대해 훈련된 로지스틱 회귀 모델이 결실-엔트로피 메트릭에 대한 계수 ― 이는 SNP에 대해 다른 데이터 입력보다 작음 ―를 사용하여 게놈 좌표 또는 게놈 영역에 대한 고신뢰도 분류 및 저신뢰도 분류를 결정하는 것을 보여준다.
시퀀싱 메트릭에 기초하여 게놈-위치-분류 모델로 훈련된 로지스틱 회귀의 성능을 추가로 평가하기 위해, 연구자들은 이러한 게놈-위치-분류 모델이 신뢰도 분류를 정확하게 결정하는 비율을 결정했다. 하나 이상의 실시예들에 따르면, 도 8은 게놈-위치-분류 모델로서 훈련된 로지스틱 회귀 모델이 정확하게 (i) 게놈 좌표에서의 고신뢰도 분류 또는 저신뢰도 분류를 진양성 또는 위양성으로 결정하고 (ii) 공통 결실이 있는 게놈 좌표에 대한 진양성 및 위양성으로 신뢰도 분류를 결정하는 레이트에 대한 곡선 아래 영역(area under curve; AUC)을 정의하는 수신기 동작 특성(operating characteristic; ROC) 곡선을 갖는 그래프(800)를 예시한다. 도 8에 도시된 바와 같이, 게놈-분류 시스템(106)은 시퀀싱 메트릭으로부터 도출되거나 준비된 데이터를 게놈-위치-분류 모델에 입력하여 게놈 좌표에 대한 신뢰도 분류를 결정한다.
그래프(800)에 의해 나타낸 바와 같이, 게놈-위치-분류 모델로 훈련된 로지스틱 회귀 모델은 실측 분류와의 비교에 기초하여 AUC가 99.34%인 게놈 좌표에 대해 고신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다. 그래프(800)에 의해 추가로 나타낸 바와 같이, 이러한 게놈-위치-분류 모델은 실측 분류와의 비교에 기초하여 AUC가 97.39%인 게놈 좌표에 대한 저신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다. 마지막으로, 이러한 게놈-위치-분류 모델은 참조 게놈과의 비교에 기초하여 AUC가 97.32%인 공통 결실이 발생하는 게놈 좌표에 대한 신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다.
도 8에 도시된 그래프(800)에 대한 ROC 곡선을 결정하는 것 외에도, 연구자들은 또한 변이 호출자가 게놈-위치-분류 모델로 훈련된 로지스틱 회귀 모델에 의해 분류된 게놈 좌표에서 SNV 및 삽입-결실을 식별할 수 있는 정밀도, 재현율 및 일치도(또는 재현성)을 평가했다. 다양한 테스트를 통해 게놈-위치-분류 모델로 훈련된 로지스틱 회귀 모델이 SNV 및 삽입-결실이 GIAB에서 식별된 것보다 정확하게 식별될 수 있는 고신뢰도 좌표(또는 영역)로 인간 게놈의 더 큰 부분을 정확하게 분류한다는 것을 입증한다. 실제로, 이러한 게놈-위치-분류 모델은 GIAB가 어려운 영역 내에 있는 것으로 식별하는 고신뢰도 분류로 특정 게놈 좌표(또는 영역)를 식별할 수 있다. 예를 들어, 아래 표 2는 게놈-분류 시스템(106)이 기존 시퀀싱 시스템이 특정 게놈 좌표에서 핵염기가 결정될 수 있는 신뢰도의 정도를 식별하는 정확도를 향상시킨다는 것을 입증한다.
[표 2]
표 2에 도시된 바와 같이, 게놈-위치-분류 모델로 훈련된 로지스틱 회귀 모델은 N이 아닌 상염색체 인간 게놈의 90.3%에서 게놈 좌표를 정확하게 분류한다. 대조적으로, GIAB는 N이 아닌 상염색체 인간 게놈의 79 내지 84%에서만 어려움 없이 변이가 정확하게 결정될 수 있는 게놈 영역을 식별했다. 표 2에 추가로 나타낸 바와 같이, 이러한 로지스틱 회귀 모델은 SNV 데이터를 사용하여 결정된 실측 분류에 기초하여 약 99.9% 정밀도, 99.9% 재현율 및 99.9% 일치도로 게놈 좌표를 정확하게 분류한다. 유사하게, 이러한 로지스틱 회귀 모델은 결실-삽입 데이터를 사용하여 결정된 실측 분류에 기초하여 약 99.0% 정밀도, 99.5% 재현율, 및 98.5% 일치도로 게놈 좌표를 정확하게 분류한다. 이러한 로지스틱 회귀 모델에 의한 중간-신뢰도 분류 또는 저신뢰도 분류로 라벨링된 게놈 좌표 ― 또는 공통 결실을 포함하는 게놈 영역 ― 에서, 이러한 로지스틱 회귀 모델은 표 2에 추가 보고된 저 정밀도율, 재현율 및 일치율로 SNV 또는 삽입-결실로부터 도출된 실측 데이터에 기초하여 게놈 좌표를 분류한다.
컨텍스트 핵산 하위서열에 기초하여 게놈-위치-분류 모델로 훈련된 CNN의 성능을 평가하기 위해, 연구자들은 이러한 게놈-위치-분류 모델이 신뢰도 분류를 정확하게 결정하는 비율을 결정했다. 하나 이상의 실시예들에 따르면, 도 9는 삽입-결실 데이터로부터 도출된 실측 분류에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하는 게놈-위치-분류 모델로서 훈련된 CNN에 대한 AUC를 정의하는 ROC 곡선을 갖는 그래프(900a)를 예시한다. 도 9는 단일 뉴클레오티드 다형성(SNP)에 대한 데이터로부터 도출된 실측 분류에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하는 게놈-위치-분류 모델로서 훈련된 CNN에 대한 AUC를 정의하는 ROC 곡선을 갖는 그래프(900b)를 추가로 예시한다. 도 9에 도시된 바와 같이, 게놈 좌표에 대한 신뢰도 분류를 결정하기 위해, 게놈-분류 시스템(106)은 컨텍스트 핵산 하위서열로부터 도출되거나 준비된 데이터를 게놈-위치-분류 모델로서 훈련된 CNN에 입력한다.
개요로서, 그래프(900a 및 900b)는 게놈-위치-분류 모델로서 훈련된 CNN이 AUC가 77.9% 내지 91.7% 사이인 삽입-결실 또는 SNP로부터 도출된 실측 데이터에 기초하여 ― 게놈-위치-분류 모델에 입력되는 컨텍스트 핵산 하위서열의 길이에 따라 ― 게놈 좌표에 대한 신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다는 것을 입증한다. 특히, 그래프(900a)에 의해 나타낸 바와 같이, 삽입-결실에 대해 훈련된 게놈-위치-분류 모델은 각각 21개의 염기 쌍, 101개의 염기 쌍, 151개의 염기 쌍, 301개의 염기 쌍 및 801개의 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여 AUC가 81.4%, 87.4%, 87.6%, 88.2%, 및 87.9%인 게놈 좌표에 대한 신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다. 그래프(900b)에 의해 나타낸 바와 같이, SNP에 대해 훈련된 게놈-위치-분류 모델은 각각 21개의 염기 쌍, 101개의 염기 쌍, 151개의 염기 쌍, 301개의 염기 쌍 및 801개의 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여 AUC가 77.9%, 88.8%, 90.0%, 91.2%, 및 91.7%인 게놈 좌표에 대한 신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다. 따라서, 삽입-결실 및 SNP 양자 모두의 경우, 게놈-위치-분류 모델로 훈련된 CNN은 컨텍스트 핵산 하위서열의 길이가 신뢰도 분류에 대해 증가함에 따라 게놈 좌표에 대한 신뢰도 분류를 보다 정확하게 결정한다.
시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 둘 모두에 기초하여 게놈-위치-분류 모델로 훈련된 CNN의 성능을 테스트하기 위해, 연구자들은 또한 이러한 게놈-위치-분류 모델이 테스팅 또는 홀드-아웃(hold-out) 데이터세트를 사용하여 신뢰도 분류를 정확하게 결정하는 비율을 결정했다. 하나 이상의 실시예들에 따르면, 도 10a 및 10b는 이러한 게놈-위치-분류 모델이 삽입-결실 및 SNP 데이터로부터 도출된 실측 분류에 기초하여 특정 게놈 좌표에 대한 신뢰도 분류를 정확하게 결정하는 비율 및 신뢰도를 도시하는 그래프(1002a-1002b), 히스토그램(1004a-1004b) 및 신뢰도 행렬(1006a-1006b)을 예시한다. 도 10a 및 10b에 도시된 바와 같이, 게놈 좌표에 대한 신뢰도 분류를 결정하기 위해, 게놈-분류 시스템(106)은 시퀀싱 메트릭 및 컨텍스트 핵산 하위서열 둘 모두로부터 도출된(또는 준비된) 데이터를 게놈-위치-분류 모델로서 훈련된 CNN에 입력한다.
도 10a의 그래프(1002a)에 의해 나타낸 바와 같이, 게놈-위치-분류 모델로 삽입-결실에 대해 훈련된 CNN은 101개의 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여 AUC가 97.8%인 게놈 좌표에 대한 신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다. 도 10b의 그래프(1002b)에 의해 나타낸 바와 같이, 게놈-위치-분류 모델로 SNP에 대해 훈련된 CNN은 101개의 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여 AUC가 99.7%인 게놈 좌표에 대한 신뢰도 분류를 진양성 또는 위양성으로 정확하게 결정한다. 따라서, 그래프(1002a 및 1002b)는 도 10a 및 10b에 도시된 바와 같이 게놈-위치-분류 모델로 훈련된 CNN이 시퀀싱 메트릭과 컨텍스트 핵산 하위서열 돌 모두를 입력으로 사용할 때 매우 높은 비율로 특정 게놈 좌표에 대한 신뢰도 분류를 정확하게 결정할 수 있음을 입증한다.
이제 삽입-결실에 대해 도 10a의 히스토그램(1004a)으로 되돌아간다. 히스토그램(1004a)에 의해 나타낸 바와 같이, 게놈-위치-분류 모델로서 삽입-결실에 대해 훈련된 CNN은 게놈 좌표에서 약 1.0의 신뢰도로 80,000개 이상의 예측에서 신뢰도 분류를 진양성으로 정확하게 결정한다. 즉, 101개 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여, 이러한 게놈-위치-분류 모델은 진양성 삽입-결실이 검출되는 게놈 좌표에서 고신뢰도로 분류를 결정한다. 히스토그램(1004a)에 의해 추가로 나타낸 바와 같이, 게놈-위치-분류 모델로서 삽입-결실에 대해 훈련된 CNN은 게놈 좌표에서 80,000개 이상의 예측에서 약 0.0의 신뢰도로 신뢰도 분류를 위양성으로 정확하게 결정한다. 즉, 101개 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여, 이러한 게놈-위치-분류 모델은 위양성 삽입-결실이 검출되는 게놈 좌표에서 저신뢰도로 분류를 결정한다.
이제 SNP에 대해 도 10b의 히스토그램(1004b)으로 되돌아간다. 히스토그램(1004b)에 의해 나타낸 바와 같이, 게놈-위치-분류 모델로서 SNP에 대해 훈련된 CNN은 게놈 좌표에서 약 1.0의 신뢰도로 거의 800,000개의 예측에서 신뢰도 분류를 진양성으로 정확하게 결정한다. 즉, 101개 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여, 진양성 SNP가 검출되는 게놈 좌표에서 고신뢰도로 분류를 결정한다. 히스토그램(1004b)에 의해 추가로 나타낸 바와 같이, 게놈-위치-분류 모델로서 SNP에 대해 훈련된 CNN은 게놈 좌표에서 약 0.0의 신뢰도로 700,000개 이상의 예측에서 신뢰도 분류를 위양성으로 정확하게 결정한다. 즉, 101개 염기 쌍의 컨텍스트 핵산 하위서열에 기초하여, 게놈-위치-분류 모델은 위양성 SNP가 검출되는 게놈 좌표에서 저신뢰도로 분류를 결정한다.
이제 도 10a 및 10b의 혼동 행렬(confusion matrix)(1006a 및 1006b)로 되돌아간다. 도 10a의 혼동 행렬(1006a)에 의해 도시된 바와 같이, 게놈-위치-분류 모델로서 삽입-결실에 대해 훈련된 CNN은 게놈 좌표에서의 전체 예측으로부터 92.322%의 비율로 신뢰도 분류를 진양성(예를 들어, 고신뢰도 분류) 또는 진음성(예를 들어, 저신뢰도 분류)으로 정확하게 결정한다. 대조적으로, 이러한 CNN 시퀀싱 시스템은 게놈 좌표의 전체 예측으로부터 7.678%의 비율로만 신뢰도 분류를 진양성 또는 진음성으로 잘못 결정한다. 도 10b의 혼동 행렬(1006b)에 의해 도시된 바와 같이, 게놈-위치-분류 모델로 SNP에 대해 훈련된 CNN은 게놈 좌표에서의 전체 예측으로부터 97.409%의 비율로 신뢰도 분류를 진양성 또는 진음성으로 정확하게 결정한다. 대조적으로, 이러한 CNN은 게놈 좌표에서의 전체 예측으로부터 2.591%의 비율로만 신뢰도 분류를 진양성 또는 진음성으로 잘못 결정한다.
이제 도 11a로 돌아가서, 이 도면은 기계 학습 모델을 훈련시켜 하나 이상의 실시예들에 따른 게놈 좌표에 대한 신뢰도 분류를 결정하는 일련의 동작 흐름도(1100a)를 예시한다. 도 11a는 일 실시예에 따른 동작을 예시하지만, 대안적인 실시예들은 도 11a에 도시된 동작 중 어느 하나를 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 11a의 동작은 방법의 일부로 수행될 수 있다. 대안으로, 비일시적 컴퓨터 판독 가능 저장 매체는, 하나 이상의 프로세서에 의해 실행 시, 컴퓨팅 디바이스가 도 11a에 도시된 동작을 수행하도록 하는 명령어를 포함할 수 있다. 추가 실시예들에서, 시스템은 적어도 하나의 프로세서 및 하나 이상의 프로세서에 의해 실행 시, 시스템이 도 11a의 동작을 수행하도록 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
도 11a에 도시된 바와 같이, 동작(1100a)는 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열 중 하나 이상을 결정하는 동작(1102)을 포함한다. 특히, 일부 실시예들에서, 동작(1102)은 샘플 핵산 서열을 예시적인 핵산 서열의 게놈 좌표와 비교하기 위한 시퀀싱 메트릭을 결정하는 단계를 포함한다. 일부 경우에, 동작(1102)은, 예시적인 핵산 서열로부터, 참조 게놈의 게놈 좌표로부터 게놈 좌표에 있는 샘플 핵산 서열의 변이-핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정하는 단계를 포함한다. 하나 이상의 실시예들에서, 샘플 핵산 서열은 핵산 서열-추출 방법, 시퀀싱 디바이스 및 서열-분석 소프트웨어를 포함하는 단일 시퀀싱 파이프라인을 사용하여 결정된다. 관련하여, 특정 실시예들에서, 예시적인 핵산 서열은 참조 게놈 또는 조상 일배체형의 핵산 서열을 포함한다.
상기에 나타낸 바와 같이, 일부 경우에, 시퀀싱 메트릭을 결정하는 단계는, 샘플 핵산 서열과 예시적인 핵산 서열의 게놈 좌표의 정렬을 정량화하기 위한 정렬 메트릭; 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기 호출의 깊이를 정량화하기 위한 깊이 메트릭; 또는 예시적인 핵산 서열의 게놈 좌표에서 샘플 핵산 서열에 대한 핵염기 호출의 품질을 정량화하기 위한 호출-데이터-품질 메트릭 중 하나 이상을 결정하는 단계를 포함한다.
이와 관련하여, 특정 구현예들에서, 정렬 메트릭을 결정하는 단계는 샘플 핵산 서열에 대한 결실-크기 메트릭, 매핑-품질 메트릭, 양성-삽입-크기 메트릭, 리드-포지션 메트릭 또는 리드-참조-불일치 메트릭 중 하나 이상을 결정하는 단계를 포함하거나; 깊이 메트릭을 결정하는 단계는 정방향-역방향-깊이 메트릭 또는 정규화-깊이 메트릭 중 하나 이상을 결정하는 단계를 포함하거나; 샘플 핵산 서열에 대한 핵염기-호출-품질 메트릭 또는 호출 가능성 메트릭 중 하나 이상을 결정하는 단계를 포함한다.
도 11a에 추가로 도시된 바와 같이, 동작(1100a)은 게놈-위치-분류 모델을 훈련시켜 시퀀싱 메트릭 또는 컨텍스트 핵산 하위서열 중 하나 이상에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하는 동작(1104)을 포함한다. 특히, 일부 실시예들에서, 동작(1104)은 게놈-위치-분류 모델을 훈련시켜 특정 게놈 좌표에 대한 시퀀싱 메트릭 및 실측 분류에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계를 포함한다. 또한, 일부 경우에, 동작(1104)은 게놈-위치-분류 모델을 훈련시켜 게놈 좌표에 대해 컨텍스트 핵산 하위서열 및 실측 분류에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계를 포함한다.
상기에 제안된 바와 같이, 특정 실시예들에서, 게놈-위치-분류 모델을 훈련시켜 신뢰도 분류를 결정하는 단계는 통계학적 기계 학습 모델 또는 신경망을 훈련시켜 신뢰도 분류를 결정하는 단계를 포함한다. 관련하여, 하나 이상의 실시예들에서, 게놈-위치-분류 모델을 훈련시켜 신뢰도 분류를 결정하는 단계는 로지스틱 회귀 모델, 랜덤 포레스트 분류기 또는 콘볼루션 신경망을 훈련시켜 신뢰도 분류를 결정하는 단계를 포함한다.
또한, 일부 상황에서, 신뢰도 분류는 특정 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 정도를 나타낸다. 관련하여, 일부 경우에, 신뢰도 분류를 결정하는 단계는 게놈 좌표에서 단일 뉴클레오티드 변이, 핵염기 삽입, 핵염기 결실, 구조적 변이의 일부 또는 복제수 변이의 일부에 대한 신뢰도 분류를 결정하는 단계를 포함한다.
상기에 추가 제안된 바와 같이, 하나 이상의 실시예들에서, 게놈-위치-분류 모델을 훈련시켜 신뢰도 분류를 결정하는 단계는, 게놈 좌표에 대해, 예측 신뢰도 분류를 멘델-유전 패턴 또는 게놈 좌표에서의 핵염기 호출의 복제 일치도를 반영하는 실측 분류와 비교하는 단계; 예측 신뢰도 분류와 실측 분류의 비교로부터 손실을 결정하는 단계; 및 결정된 손실에 기초하여 게놈-위치-분류 모델의 파라미터를 조정하는 단계를 포함한다.
도 11a에 추가로 도시된 바와 같이, 동작(1100a)은 게놈 좌표 세트에 대한 신뢰도 분류 세트를 결정하는 동작(1106)을 포함한다. 특히, 특정 구현예들에서, 동작(1106)은, 게놈-위치-분류 모델을 활용하여, 하나 이상의 샘플 핵산 서열에 대한 시퀀싱 메트릭 세트에 기초하여 게놈 좌표 세트에 대한 신뢰도 분류 세트를 결정하는 단계를 포함한다. 일부 경우에, 동작(1106)은, 게놈-위치-분류 모델을 활용하여, 컨텍스트 핵산 하위서열에 기초하여 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계를 포함한다.
예를 들어, 하나 이상의 구현예들에서, 신뢰도 분류 세트로부터 신뢰도 분류를 결정하는 단계는 유전적 변형 또는 후생유전적 변형을 포함하는 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계를 포함한다. 관련하여, 일부 실시예들에서, 신뢰도 분류 세트로부터 신뢰도 분류를 결정하는 단계는 게놈 좌표에서 단일 뉴클레오티드 변이, 핵염기 삽입, 핵염기 결실, 또는 구조적 변이의 일부에 대한 신뢰도 분류를 결정하는 단계를 포함한다.
또한, 일부 상황에서, 신뢰도 분류 세트로부터 신뢰도 분류를 결정하는 단계는 게놈 좌표에 대한 고신뢰도 분류, 중간-신뢰도 분류, 또는 저신뢰도 분류 중 적어도 하나를 결정하는 단계를 포함한다. 추가로 또는 대안으로, 신뢰도 분류 세트로부터 신뢰도 분류를 결정하는 단계는 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 정도를 나타내는 신뢰도 점수 범위 내에서 신뢰도 점수를 결정하는 단계를 포함한다.
도 11a에 추가로 도시된 바와 같이, 동작(1100a)은 신뢰도 분류 세트를 포함하는 적어도 하나의 디지털 파일을 생성하는 동작(1108)을 포함한다. 특히, 특정 구현예들에서, 동작(1108)은 게놈 좌표 세트에 대한 신뢰도 분류 세트를 포함하는 적어도 하나의 디지털 파일을 생성하는 단계를 포함한다. 유사하게, 일부 실시예들에서, 동작(1108)은 변이-핵염기 호출의 게놈 좌표에 대한 신뢰도 분류를 포함하는 디지털 파일을 생성하는 단계를 포함한다.
동작(1102 내지 1108) 외에, 특정 구현예들에서, 동작(1100a)은 예시적인 핵산 서열로부터, 변이-핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정하는 단계; 및 게놈-위치-분류 모델을 훈련시켜 컨텍스트 핵상 하위서열; 컨텍스트 핵산 하위서열에 대응하는 게놈 좌표 서브셋에 대한 시퀀싱 메트릭 서브셋; 및 컨텍스트 핵산 하위서열에 대응하는 게놈 좌표 서브셋에 대한 실측 분류 서브셋에 기초하여 변이-핵염기 호출의 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계를 포함한다.
이제 도 11b로 돌아가서, 이 도면은 기계 학습 모델을 훈련시켜 하나 이상의 실시예들에 따른 게놈 좌표에 대한 변이 신뢰도 분류를 결정하는 일련의 동작 흐름도(1100b)를 예시한다. 도 11b는 일 실시예에 따른 동작을 예시하지만, 대안적인 실시예들은 도 11b에 도시된 동작 중 어느 하나를 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 11b의 동작은 방법의 일부로 수행될 수 있다. 대안으로, 비일시적 컴퓨터 판독 가능 저장 매체는, 하나 이상의 프로세서에 의해 실행 시, 컴퓨팅 디바이스가 도 11b에 도시된 동작을 수행하도록 하는 명령어를 포함할 수 있다. 추가 실시예들에서, 시스템은 적어도 하나의 프로세서 및 하나 이상의 프로세서에 의해 실행 시, 시스템이 도 11b의 동작을 수행하도록 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
도 11b에 도시된 바와 같이, 동작(1100b)은 게놈 샘플의 혼합물로부터 샘플 핵산 서열에 대한 시퀀싱 메트릭을 결정하는 동작(1110)을 포함한다. 특히, 일부 실시예들에서, 동작(1110)은 게놈 센플로부터의 샘플 핵산 서열을 예시적인 핵산 서열의 게놈 좌표와 비교하기 위한 시퀀싱 메트릭을 결정하는 단계를 포함한다. 예를 들어, 일부 경우에, 시퀀싱 메트릭을 결정하는 단계는 샘플 핵산 서열에 대한 매핑-품질 메트릭, 정방향-역방향-깊이 메트릭 및 핵산-호출-품질 메트릭을 결정하는 단계를 포함한다. 하나 이상의 실시예들에서, 샘플 핵산 서열은 핵산 서열-추출 방법, 시퀀싱 디바이스 및 서열-분석 소프트웨어를 포함하는 단일 시퀀싱 파이프라인을 사용하여 결정된다.
도 11b에 추가로 도시된 바와 같이, 동작(1100b)은, 변이-핵염기 호출에 대해, 시퀀싱 메트릭 중 하나 이상에 기초하여 게놈 좌표에 대한 실측 분류를 생성하는 동작(1112)을 포함한다. 예를 들어, 동작(1112)은 특정 변이-핵염기 호출에 대해, 게놈 샘플의 혼합물에 대한 시퀀싱 메트릭 또는 변이-호출 데이터 중 하나 이상에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하는 단계를 포함할 수 있다. 추가 예로서, 동작(1112)은 샘플 핵산 서열에 대한 매핑-품질 메트릭, 정방향-역방향-깊이 메트릭 및 핵염기-호출-품질 메트릭을 포함하는 시퀀싱 메트릭 중 하나 이상에 기초하여 실측 분류를 생성하는 단계를 포함할 수 있다.
상기에 제안된 바와 같이, 특정 실시예들에서, 특정 변이-핵염기 호출에 대해, 게놈 샘플의 혼합물에 대한 변이-호출 데이터에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하는 단계는 특정 게놈 좌포에서 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트를 결정하기 위한 정밀도율 또는 재현율 중 하나 이상을 결정하는 단계; 및 변이-핵염기 호출 세트를 결정하기 위한 정밀도율 또는 재현율 중 하나 이상에 기초하여 실측 분류를 생성하는 단계를 포함한다. 또한, 일부 구현예들에서, 특정 변이-핵염기 호출에 대해, 게놈 샘플의 혼합물에 대한 변이-호출 데이터에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하는 단계는 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트의 변이-대립유전자 빈도를 결정하는 단계; 특정 게놈 좌표에서 그리고 변이-대립유전자 빈도로부터 서로 다른 변이-대립유전자 빈도로 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 서로 다른 변이-핵염기 호출을 결정하기 위한 정밀도율 또는 재현율 중 하나 이상을 결정하는 단계; 및 서로 다른 변이-대립유전자 빈도로 서로 다른 변이-핵염기 호출을 결정하기 위한 정밀도율 또는 재현율 중 하나 이상에 기초하여 실측 분류를 생성하는 단계를 포함한다.
관련하여, 일부 경우에, 특정 변이-핵염기 호출에 대해, 게놈 셈플의 혼합물에 대한 변이-호출 데이터에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하는 단계는 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열로부터 핵염기 호출에 대한 체세포-품질 메트릭을 결정하는 단계; 특정 게놈 좌표에 대한 서로 다른 실측 분류를 구별하기 위한 체세포-품질-메트릭 임계값을 생성하는 단계; 및 체세포-품질-메트릭 임계값에 따른 특정 게놈 좌표에 대한 계층화된 실측 분류를 생성하는 단계를 포함한다. 이러한 일부 경우에, 계층화된 실측 분류를 생성하는 단계는 체세포-품질-메트릭 임계값에 따른 계층화된 실측 분류 서브셋만 생성하는 단계를 포함한다.
또한, 일부 실시예들에서, 특정 변이-핵염기 호출에 대해, 게놈 샘플의 혼합물에 대한 변이-호출 데이터에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하는 단계는 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트의 변이-대립유전자 빈도를 결정하는 단계; 특정 게놈 좌표에서 그리고 변이-대립유전자 빈도로부터 서로 다른 변이-대립유전자 빈도로 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트를 결정하기 위한 정밀도율 및 재현율을 결정하는 단계; 정밀도율 및 재현율에 기초하여 특정 게놈 좌표에서 서로 다른 변이-핵염기 호출을 결정하기 위한 F-점수를 결정하는 단계; 및 서로 다른 변이-핵염기 호출을 결정하기 위한 F-점수에 추가로 기초하여 실측 분류를 생성하는 단계를 포함한다.
동작(1110 및 1112) 외에, 일부 실시예들에서, 동작(1100b)은 하나 이상의 예시적인 핵산 서열로부터, 하나 이상의 게놈 좌표에서 하나 이상의 샘플 핵산 서열에서 변이-핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정하는 단계를 더 포함한다. 특정 구현예들에서, 하나 이상의 예시적인 핵산 서열은 참조 게놈 또는 조상 일배체형의 핵산 서열을 포함한다.
도 11b에 추가로 도시된 바와 같이, 동작(1100b)은 게놈-위치-분류 모델을 훈련시켜 실측 분류에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정하는 동작(1114)을 포함한다. 특히, 일부 실시예들에서, 동작(1114)은 게놈-위치-분류 모델을 훈련시켜, 변이-핵염기 호출에 대해, 시퀀싱 메트릭 및 실측 분류에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정하는 단계를 포함한다. 또한, 일부 경우에, 동작(1114)은 게놈-위치-분류 모델을 훈련시켜, 변이-핵염기 호출에 대해, 컨텍스트 핵상 서열 및 실측 분류에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정하는 단계를 포함한다.
상기에 제안된 바와 같이, 특정 실시예들에서, 변이 신뢰도 분류는 게놈 좌표에서 암 또는 체세포 모자이크현상을 반영하는 체세포-핵염기 변이가 정확하게 결정되는 정도를 나타낸다. 대조적으로, 일부 경우에, 변이 신뢰도 분류는 게놈 좌표에서 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이가 정확하게 결정될 수 있는 정도를 나타낸다.
도 11b에 추가로 도시된 바와 같이, 동작(1100b)은 게놈 좌표 세트에 대한 변이 신뢰도 분류 세트를 결정하는 동작(1116)을 포함한다. 특히, 특정 구현예들에서, 동작(1116)은, 게놈-위치-분류 모델을 활용하여, 하나 이상의 샘플 핵산 서열에 대한 시퀀싱 메트릭 세트에 기초하여 게놈 좌표 세트에 대한 변이 신뢰도 분류 세트를 결정하는 단계를 포함한다. 일부 경우에, 동작(1116)은, 게놈-위치-분류 모델을 활용하여, 해당 변이-핵염기 호출 세트를 둘러싸는 컨텍스트 핵산 하위서열 세트에 기초하여 게놈 좌표 세트에 대한 변이 신뢰도 분류 세트를 결정하는 단계를 포함한다. 예를 들어, 시퀀싱 메트릭 세트를 결정하는 단계는 하나 이상의 게놈 샘플로부터 하나 이상의 샘플 핵산 서열에 대한 시퀀싱 메트릭 세트를 결정하는 단계를 포함할 수 있다.
추가 예로서, 일부 경우에, 동작(1116)은 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이를 둘러싸는 컨텍스트 핵산 하위서열에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정함으로써 변이 신뢰도 분류 세트로부터 변이 신뢰도 분를 결정하는 단계를 포함한다. 대조적으로, 특정 경우에, 동작(1116)은 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이를 둘러싸는 컨텍스트 핵산 하위서열에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정함으로써 변이 신뢰도 분류 세트로부터 변이 신뢰도 분류를 결정하는 단계를 포함한다. 또한, 하나 이상의 실시예들에서, 동작(1116)은 게놈 좌표에서 핵염기 변이가 정확하게 결정될 수 있는 정도를 나타내는 변이 신뢰도 점수의 범위 내에서 변이 신뢰도 점수를 결정함으로써 변이 신뢰도 분류 세트로부터 변이 신뢰도 분류를 결정하는 단계를 포함한다.
동작(1110 내지 1116) 외에, 특정 구현예들에서, 동작(1100b)은 암이나 모자이크현상을 갖는 게놈 샘플의 변이-대립유전자 빈도를 함께 시뮬레이션하는 제1 게놈 샘플로부터의 제1 핵산 서열 서브셋 및 제2 게놈 샘플로부터의 제2 핵산 서열 서브셋을 결정함으로써 게놈 샘플의 혼합물을 결정하는 단계를 포함한다. 유사하게, 일부 경우에, 동작(1100b)은 암이나 모자이크현상을 갖는 게놈 샘플의 변이-대립유전자 빈도를 함께 시뮬레이션하는 제1 자연 발생 게놈 샘플로부터의 제1 핵산 서열 퍼센티지와 제2 자연 발생 게놈 샘플로부터의 제2 핵산 서열 퍼센티지의 조합을 결정함으로써 게놈 샘플의 혼합물을 결정하는 단계를 포함한다.
이제 도 12로 돌아가서, 이 도면은 하나 이상의 실시예들에 따른 디지털 파일로부터 변이-핵염기 호출의 게놈 좌표에 대한 신뢰도 분류의 표시자를 생성하기 위한 일련의 동작 흐름도(1200)를 예시한다. 도 12는 일 실시예에 따른 동작을 예시하고 있지만 대안적인 실시예들은 도 12에 도시된 동작 중 어느 하나를 생략, 추가, 재정렬 및/또는 수정할 수 있다. 도 12의 동작은 방법의 일부로 수행될 수 있다. 대안으로, 비일시적 컴퓨터 판독 가능 저장 매체는, 하나 이상의 프로세서에 의해 실행 시, 컴퓨팅 디바이스가 도 12에 도시된 동작을 수행하도록 하는 명령어를 포함할 수 있다. 추가 실시예들에서, 시스템은 적어도 하나의 프로세서, 하나 이상의 프로세서에 의해 실행 시, 시스템이 도 12의 동작을 수행하도록 하는 명령어를 포함하는 비일시적 컴퓨터 판독 가능 저장 매체를 포함한다.
도 12에 도시된 바와 같이, 동작(1200)은 게놈 좌표에서 변이-핵염기 호출을 검출하는 동작(1202)을 포함한다. 특히, 일부 실시예들에서, 동작(1202)은 샘플 핵산 서열 내에서 게놈 좌표에서 변이-핵염기 호출을 검출하는 단계를 포함한다. 상기에 나타낸 바와 같이, 일부 경우에, 게놈 좌표에서 변이-핵염기 호출을 검출하는 단계는 단일 뉴클레오티드 변이, 뉴클레오티드 삽입, 뉴클레오티드 결실 또는 구조적 변이의 일부를 검출하는 단계를 포함한다.
도 12에 추가로 도시된 바와 같이, 동작(1200)은 게놈-위치-분류 모델에 따른 게놈 좌표에 대한 신뢰도 분류를 식별하는 동작(1204)을 포함한다. 특히, 일부 실시예들에서, 동작(1204)은, 디지털 파일로부터, 게놈-위치-분류 모델에 따른 게놈 좌표에 대한 신뢰도 분류를 식별하는 단계를 포함한다.
상기에 제안된 바와 같이, 특정 실시예들에서, 게놈 좌표에 대한 신뢰도 분류를 식별하는 단계는, 디지털 파일로부터, 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 정도를 나타내는 신뢰도 분류를 식별하는 단계를 포함한다. 또한, 일부 구현예들에서, 디지털 파일로부터, 신뢰도 분류를 식별하는 단계는 디지털 파일 내의 게놈 좌표에 대한 주석 또는 점수로부터 신뢰도 분류를 식별하는 단계를 포함한다. 관련하여, 하나 이상의 실시예들에서, 디지털 파일로부터, 신뢰도 분류를 식별하는 단계는 게놈 좌표에 대한 고신뢰도 분류, 중간-신뢰도 분류, 또는 저신뢰도 분류 중 적어도 하나를 식별하는 단계를 포함한다.
도 12에 추가로 도시된 바와 같이, 동작(1200)은 신뢰도 분류에 대한 표시자를 생성하는 동작(1206)을 포함한다. 특히, 특정 구현예들에서, 동작(1206)은, 그래픽 사용자 인터페이스 내에서 디스플레이하기 위해, 변이-핵염기 호출의 게놈 좌표에 대한 신뢰도 분류의 표시자를 생성하는 단계를 포함한다.
본원에 설명된 방법은 다양한 핵산 시퀀싱 기술과 함께 사용될 수 있다. 특히 적용 가능한 기술은 핵산이 어레이의 고정된 위치에 부착되어 상대적인 포지션이 변하지 않고 어레이가 반복적으로 이미징되는 기술이다. 예를 들어, 하나의 뉴클레오티드 염기 유형을 다른 것으로부터 구별하기 위해 사용되는 상이한 라벨과 일치하는, 상이한 컬러 채널에서 이미지가 획득되는 실시예가 특히 적용 가능하다. 일부 실시예들에서, 타겟 핵산(즉, 핵산 중합체)의 뉴클레오티드 서열을 결정하는 프로세스는 자동화된 프로세스일 수 있다. 바람직한 실시예들은 합성에 의한 시퀀싱(sequencing-by-synthesis; SBS) 기술을 포함한다.
SBS 기술은 일반적으로 템플릿 스트랜드에 대한 뉴클레오티드의 반복적인 추가를 통해 초기 핵산 스트랜드의 효소적 확장을 수반한다. SBS의 통상적인 방법에서, 단일 뉴클레오티드 단량체가 각각의 전달에서 중합 효소의 존재 하에 타깃 뉴클레오티드에 제공될 수 있다. 그러나, 본원에 설명된 방법에서, 전달 시 중합 효소의 존재 하에 하나 초과의 유형의 뉴클레오티드 단량체가 타깃 핵산에 제공될 수 있다.
SBS는 터미네이터 모이어티(terminator moiety)를 갖거나 어떠한 터미네이터 모이어티도 없는 뉴클레오티드 단량체를 이용할 수 있다. 터미네이터가 없는 뉴클레오티드 단량체를 이용하는 방법은 예를 들어, 이하에서 추가로 상세히 제시되는 바와 같이, γ-포스페이트-라벨링된 뉴클레오티드를 사용하는 파이로시퀀싱(pyrosequencing) 및 시퀀싱을 포함한다. 터미네이터가 없는 뉴클레오티드 단량체를 사용하는 방법에서, 각각의 사이클에서 추가되는 뉴클레오티드의 수는 일반적으로 가변적이며 템플릿 서열 및 뉴클레오티드 전달 모드에 따른다. 터미네이터 모이어티를 갖는 뉴클레오티드 단량체를 이용하는 SBS 기술의 경우, 터미네이터는 디데옥시뉴클레오티드를 이용하는 통상적인 생어(Sanger) 시퀀싱의 경우와 같이 사용된 시퀀싱 조건 하에서 효과적으로 비가역적일 수 있거나, 또는 터미네이터는 Solexa(현재 일루미나 사)에 의해 개발된 시퀀싱 방법에 대한 경우와 같이 가역적일 수 있다.
SBS 기술은 라벨 모이어티를 갖는 뉴클레오티드 단량체 또는 라벨 모이어티가 없는 뉴클레오티드 단량체를 이용할 수 있다. 따라서, 통합 이벤트가 라벨의 형광성; 분자량이나 전하와 같은 뉴클레오티드 단량체의 특성; 파이로포스페이트의 방출과 같은 뉴클레오티드 통합의 부산물 등과 같은 라벨의 특성에 기초하여 검출될 수 있다. 2개 이상의 상이한 뉴클레오티드가 시퀀싱 시약에 존재하는 실시예에서, 상이한 뉴클레오티드는 서로 구별될 수 있거나, 대안적으로 2개 이상의 상이한 라벨은 사용되는 검출 기술 하에서 구별되지 않을 수 있다. 예를 들어, 시퀀싱 시약에 존재하는 상이한 뉴클레오티드는 상이한 라벨을 가질 수 있으며, Solexa(현재 Illumina, Inc.)에서 개발된 시퀀싱 방법에 의해 예시되는 바와 같이 적절한 광학계를 사용하여 구별될 수 있다.
바람직한 실시예는 파이로시퀀싱 기술을 포함한다. 파이로시퀀싱은 특정 뉴클레오티드가 초기 스트랜드에 통합됨에 따라 무기 파이로포스페이트(PPi)의 방출을 검출한다(Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M.및 Nyren, P.(1996) "실시간 파이로포스페이트 방출의 검출을 사용한 실시간 DNA 시퀀싱." Analytical Biochemistry 242(1), 84-9; Ronaghi, M.(2001) "DNA 시퀀싱에 대한 파이로시퀀싱 쉐드(shed) 광"Genome Res11(1), 3-11; Ronaghi, M., Uhlen, M.및 Nyren, P.(1998) "실시간 파이로포스페이트에 기초한 시퀀싱 방법"Science 281(5375), 363; 미국 특허 번호 제6,210,891호; 미국 특허 번호 제6,258,568호 및 미국 특허 번호 제6,274,320호, 이의 개시는 그 전체가 본원에 참조로 통합됨). 파이로시퀀싱에서, 방출된 PPi는 ATP 설퍼릴라제(sulfurylase)에 의해 즉시 아데노신 삼인산(ATP)으로 변환되어 검출될 수 있으며, 생성된 ATP의 레벨은 루시퍼라제(luciferase)-생성 광자를 통해 검출된다. 시퀀싱될 핵산은 어레이의 특징부에 부착될 수 있고, 어레이의 특징부에서의 뉴클레오티드의 통합으로 인해 생성되는 화학 발광 신호를 캡처하기 위해 어레이가 이미징될 수 있다. 어레이가 특정 뉴클레오티드 유형(예를 들어, A, T, C 또는 G)으로 처리된 후 이미지가 획득될 수 있다. 각각의 뉴클레오티드 유형의 추가 후 획득된 이미지는 어레이의 어떤 특징부가 검출되는지에 대해 상이할 것이다. 이미지의 이러한 차이는 어레이 상의 특징부의 상이한 서열 컨텐츠를 반영한다. 그러나, 각각의 특징부의 상대적 위치는 이미지에서 변하지 않고 유지될 것이다. 이미지는 본원에 제시된 방법을 사용하여 저장, 프로세싱 및 분석될 수 있다. 예를 들어, 각각의 상이한 뉴클레오티드 유형으로 어레이를 처리한 후에 획득된 이미지는 가역적 터미네이터-기반 시퀀싱 방법에 대한 상이한 검출 채널로부터 획득된 이미지에 대해 본원에 예시된 것과 동일한 방식으로 처리될 수 있다.
SBS의 다른 예시적인 유형에서, 사이클 시퀀싱은 예를 들어, 그 개시가 본원에 참조로 통합되는 WO 04/018497호 및 미국 특허 7,057,026호에 설명된 바와 같이 절단 가능 또는 광표백 가능 염료 라벨을 포함하는 가역적 터미네이터 뉴클레오티드의 단계별 추가에 의해 달성된다. 이러한 접근법은 Solexa(현재 Illumina Inc.)에 의해 상용화되고 있으며, 또한 제WO 91/06678호 및 제WO 07/123,744호에 설명되어 있으며, 이들 각각은 본원에 참조로 통합된다. 터미네이션(termination)이 역전될 수 있고 형광 라벨이 절단될 수 있는 형광성으로 라벨링된 터미네이터의 가용성은 효율적인 사이클릭 가역 터미네이션(cyclic reversible termination; CRT) 시퀀싱을 용이하게 한다. 중합 효소가 또한 이러한 수정된 뉴클레오티드를 효율적으로 통합하고 이로부터 확장하도록 코-엔지니어링(co-engineering)될 수 있다.
바람직하게는 가역적 터미네이터-기반 시퀀싱 실시예에서, 라벨은 SBS 반응 조건 하에서 확장을 실질적으로 억제하지 않는다. 그러나, 검출 라벨은 예를 들어, 절단이나 분해에 의해 제거 가능할 수 있다. 배열된 핵산 특징부에 라벨을 통합한 후 이미지가 캡처될 수 있다. 특정 실시예에서, 각각의 사이클은 4개의 상이한 뉴클레오티드 유형을 어레이에 동시에 전달하는 것을 수반하고, 각각의 뉴클레오티드 유형은 스펙트럼상으로 구별되는 라벨을 갖는다. 그 후 4개의 상이한 라벨 중 하나에 대해 선택적인 검출 채널을 각각 사용하여 4개의 이미지가 획득될 수 있다. 대안적으로, 상이한 뉴클레오티드 유형이 순차적으로 추가될 수 있으며, 각각의 추가 단계 사이에서 어레이의 이미지가 획득될 수 있다. 이러한 실시예에서, 각각의 이미지는 특정 유형의 뉴클레오티드를 통합한 핵산 특징부를 보여줄 것이다. 각각의 특징부의 상이한 서열 컨텐츠로 인해 상이한 이미지에 상이한 특징부가 있거나 없다. 그러나, 특징부의 상대적 포지션은 이미지에서 변하지 않고 유지될 것이다. 이러한 가역적 터미네이터-SBS 방법으로부터 획득된 이미지는 본원에 제시된 바와 같이 저장, 프로세싱 및 분석될 수 있다. 이미지 캡처 단계 후에, 라벨은 제거될 수 있으며 뉴클레오티드 추가 및 검출의 후속 사이클을 위해 가역적 터미네이터 모이어티가 제거될 수 있다. 특정 사이클에서 라벨이 검출된 후 그리고 후속 사이클 이전에 라벨의 제거는 배경 신호와 사이클 간 크로스토크(crosstalk)를 감소시키는 이점을 제공할 수 있다. 유용한 라벨 및 제거 방법의 예가 아래에 제시된다.
특정 실시예에서 뉴클레오티드 단량체 중 일부 또는 전부는 가역적 터미네이터를 포함할 수 있다. 이러한 실시예에서, 가역적 터미네이터/절단 가능 플루오르(fluor)는 3' 에스테르 연결을 통해 리보스(ribose) 모이어티에 링크된 플루오르를 포함할 수 있다(Metzker, Genome Res. 15:1767-1776(2005), 이는 참조로 본원에 통합됨). 다른 접근법은 형광 라벨의 절단으로부터 터미네이터 케미스트리를 분리했다(Ruparel 등, Proc Natl Acad Sci USA 102: 5932-7(2005), 이는 그 전체가 참조로 본원에 통합됨). Ruparel 등은 확장을 차단하기 위해 작은 3' 알릴(allyl) 기를 사용했지만 팔라듐 촉매로 짧은 처리에 의해 쉽게 차단 해제될 수 있는 가역적 터미네이터의 개발을 설명했다. 형광단(fluorophore)은 장파장 UV 광에 30초 노출에 의해 쉽게 절단될 수 있는 광 절단 가능 링커를 통해 베이스에 부착되었다. 따라서, 이황화물 환원 또는 광 절단이 절단 가능한 링커로서 사용될 수 있다. 가역적 터미네이션에 대한 다른 접근법은 dNTP에 부피가 큰 염료를 배치한 후 발생하는 자연 터미네이션의 사용이다. dNTP에 차징된(charged) 부피가 큰 염료의 존재는 입체(steric) 및/또는 정전 장애를 통해 효과적인 터미네이터로서의 역할을 할 수 있다. 하나의 통합 이벤트의 존재는 염료가 제거되지 않는 한 추가 통합을 방지한다. 염료의 절단은 플루오르를 제거하고 효과적으로 터미네이션을 반전시킨다. 수정된 뉴클레오티드의 예는 또한 미국 특허 번호 제7,427,673호 및 미국 특허 번호 제7,057,026호에 설명되어 있으며, 그 개시는 전체가 본원에 참조로 통합된다.
본원에 설명된 방법 및 시스템과 함께 이용될 수 있는 추가의 예시적인 SBS 시스템 및 방법은 미국 특허 출원 공개 번호 제2007/0166705, 미국 특허 출원 공개 번호 제2006/0188901호, 미국 특허 번호 제7,057,026호, 미국 특허 출원 공개 번호 제2006/0240439호, 미국 특허 출원 공개 번호 제2006/0281109호, PCT 공개 번호 제WO 05/065814호, 미국 특허 출원 공개 번호 제2005/0100900호, PCT 공개 번호 제WO 06/064199호, PCT 공개 번호 제WO 07/010,251호, 미국 특허 출원 공개 번호 제2012/0270305호 및 미국 특허 출원 공개 번호 제2013/0260372호에 설명되며, 그 개시는 전체가 본원에 참조로 통합된다.
일부 실시예는 4개 미만의 상이한 라벨을 사용하여 4개의 상이한 뉴클레오티드의 검출을 이용할 수 있다. 예를 들어, SBS는 미국 특허 출원 공개 번호 제2013/0079232호의 통합된 자료에 설명된 방법 및 시스템을 이용하여 수행될 수 있다. 제1 예로서, 한 쌍의 뉴클레오티드 유형은 동일한 파장에서 검출될 수 있지만, 다른 것과 비교하여 쌍의 하나의 멤버에 대한 강도 차이에 기초하여 구별되거나, 쌍의 다른 멤버에 대해 검출된 신호와 비교하여 명백한 신호가 나타나거나 사라지게 하는 (예를 들어, 화학적 수정, 광화학적 수정 또는 물리적 수정을 통해) 쌍의 하나의 멤버에 대한 변경에 기초하여 구별될 수 있다. 제2 예로서, 4개의 상이한 뉴클레오티드 유형 중 3개가 특정 조건 하에서 검출될 수 있는 반면, 제4 뉴클레오티드 유형에는 해당 조건에서 검출 가능하거나 해당 조건 하에 최소한으로 검출되는(예를 들어, 배경 형광으로 인한 최소 검출 등) 라벨이 없다. 처음 3개의 뉴클레오티드 유형의 핵산으로의 통합은 각각의 신호의 존재에 기초하여 결정될 수 있으며, 네 번째 뉴클레오티드 유형의 핵산으로의 통합은 임의의 신호의 부재 또는 최소 검출에 기초하여 결정될 수 있다. 제3 예로서, 하나의 뉴클레오티드 유형은 2개의 상이한 채널에서 검출되는 라벨(들)을 포함할 수 있는 반면, 다른 뉴클레오티드 유형은 채널 중 하나에서만 검출된다. 위에 언급한 3개의 예시적인 구성은 상호 배타적인 것으로 간주되지 않으며 다양한 조합으로 사용될 수 있다. 3개의 예를 모두 조합한 예시적인 실시예는 제1 채널에서 검출되는 제1 뉴클레오티드 유형(예를 들어, 제1 여기 파장에 의해 여기될 때 제1 채널에서 검출되는 라벨을 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오티드 유형(예를 들어, 제2 여기 파장에 의해 여기될 때 제2 채널에서 검출되는 라벨을 갖는 dCTP), 제1 및 제2 채널 모두에서 검출되는 제3 뉴클레오티드 유형(예를 들어, 제1 및/또는 제2 여기 파장에 의해 여기될 때 두 채널 모두에서 검출되는 적어도 하나의 라벨을 갖는 dTTP) 및 어느 채널에서도 검출되지 않거나 최소로 검출되는 라벨이 없는 제4 뉴클레오티드 유형(예를 들어, 라벨을 갖지 않는 dGTP)을 사용하는 형광-기반 SBS 방법이다.
추가로, 미국 특허 출원 공개 번호 제2013/0079232호의 통합된 자료에 설명된 바와 같이, 시퀀싱 데이터는 단일 채널을 사용하여 획득될 수 있다. 이러한 소위 하나의-염료 시퀀싱 접근법에서, 제1 뉴클레오티드 유형이 라벨링되지만 제1 이미지가 생성된 후에 라벨이 제거되고, 제2 뉴클레오티드 유형은 제1 이미지가 생성된 후에만 라벨링된다. 제3 뉴클레오티드 유형은 제1 이미지와 제2 이미지 모두에서 해당 라벨을 유지하고, 제3 뉴클레오티드 유형은 두 이미지 모두에서 라벨링되지 않고 유지된다.
일부 실시예는 결찰(ligation) 기술에 의한 시퀀싱을 이용할 수 있다. 이러한 기술은 올리고뉴클레오티드를 통합하고 이러한 올리고뉴클레오티드의 통합을 식별하기 위해 DNA 리가제(ligase)를 이용한다. 올리고뉴클레오티드는 통상적으로 올리고뉴클레오티드가 혼성화하는 서열에서 특정 뉴클레오티드의 아이덴티티와 상관되는 상이한 라벨을 갖는다. 다른 SBS 방법과 같이, 라벨링된 시퀀싱 시약으로 핵산 특징부의 어레이의 처리 후 이미지가 획득될 수 있다. 각각의 이미지는 특정 유형의 라벨이 통합된 핵산 특징부를 나타낼 것이다. 각각의 특징부의 상이한 서열 컨텐츠로 인해 상이한 특징부가 상이한 이미지에 존재하거나 존재하지 않지만, 특징부의 상대적 포지션은 이미지에서 변경되지 않고 유지될 것이다. 결찰-기반 시퀀싱 방법으로 획득된 이미지는 본원에 제시되는 바와 같이 저장, 프로세싱 및 분석될 수 있다. 본원에 설명된 방법 및 시스템과 함께 이용될 수 있는 예시적인 SBS 시스템 및 방법은 미국 특허 번호 제6,969,488호, 미국 특허 번호 제6,172,218호 및 미국 특허 번호 제6,306,597호에 설명되어 있으며, 그 개시는 전체가 참조로 본원에 통합된다.
일부 실시예는 나노포어(nanopore) 시퀀싱을 이용할 수 있다(Deamer, D.W및 Akeson, M"나노포어 및 핵산: 초급속 시퀀싱을 위한 전망" Trends Biotechnol18, 147-151 (2000); Deamer, D 및 DBranton, "나노포어 분석에 의한 핵산의 특성화" AccChemRes35:817-825(2002); Li, J., MGershow, DStein, EBrandin, 및 JA. Golovchenko, "DNA 분자 및 고체 상태 나노포어 현미경의 구성" NatMater2:611-615(2003), 그 개시는 전체가 본원에 참조로 통합됨). 이러한 실시예에서, 타깃 핵산은 나노포어를 통과한다. 나노포어는 합성 포어 또는 α-헤모리신과 같은 생물학적 멤브레인 단백질일 수 있다. 타깃 핵산이 나노포어를 통과하면서, 포어의 전기 전도도 변동을 측정하여 각각의 염기쌍이 식별될 수 있다. (미국 특허 번호 제7,001,792호; Soni, GV. 및 Meller, "A고체-상태 나노포어를 사용한 초급속 DNA 시퀀싱을 향한 진보" ClinChem53, 1996-2001(2007); Healy, K"나노포어-기반 단일-분자 DNA 분석." Nanomed2, 459-481(2007); Cockroft, SL., Chu, J., Amorin, M& Ghadiri, MR. "단일-분자 나노포어 디바이스가 단일-뉴클레오티드 해상도로 DNA 중합 효소 활성을 검출" JAm. hem. oc. 30, 818-820(2008), 그 개시는 전체가 본원에 참조로 통합됨). 나노포어 시퀀싱에서 획득된 데이터는 본원에 제시된 바와 같이, 저장, 프로세싱 및 분석될 수 있다. 특히, 데이터는 본원에 제시된 광학 이미지 및 다른 이미지의 예시적인 처리에 따라 이미지로서 처리될 수 있다.
일부 실시예는 DNA 중합 효소 활성의 실시간 모니터링을 수반하는 방법을 이용할 수 있다. 뉴클레오티드 통합은 예를 들어, 미국 특허 7,329,492호 및 미국 특허 7,211,414호(그 각각은 참조로 본원에 통합됨)에 설명된 바와 같이 형광단-함유 중합 효소와 γ-포스페이트-라벨링된 뉴클레오티드 사이의 형광 공진 에너지 전달(FRET: fluorescence resonance energy transfer) 상호 작용을 통해 검출될 수 있거나, 뉴클레오티드 통합은 예를 들어, 미국 특허 번호 제7,315,019호(본원에 참조로 통합됨)에 설명된 바와 같이 제로-모드 도파관으로 검출될 수 있고, 예를 들어, 미국 특허 번호 제7,405,281호 및 미국 특허 출원 공개 번호 제2008/0108082호(그 각각은 참조로 본원에 통합됨)에 설명된 바와 같이 형광 뉴클레오티드 유사체 및 엔지니어링된 중합 효소를 사용하여 검출될 수 있다. 조명은 형광 라벨링된 뉴클레오티드의 통합이 낮은 배경으로 관찰될 수 있도록 표면에 묶인 중합 효소 주위의 젭토리터(zeptoliter)-스케일 부피로 제한될 수 있다(Levene, M.J. 등. "고농도에서 단일-분자 분석을 위한 제로-모드 도파관." Science 299, 682-686(2003); Lundquist, P. M. 등. "실시간으로 단일 분자의 병렬 공초점 검출." Opt. Lett. 33, 1026-1028(2008); Korlach, J. 등. "제로-모드 도파관 나노 구조에서 단일 DNA 중합 효소 분자의 타깃화된 고정화를 위한 선택적 알루미늄 패시베이션." Proc. Natl. Acad. Sci. USA 105, 1176-1181(2008), 그 개시는 전체가 본원에 참조로 통합됨). 이러한 방법으로 획득된 이미지는 본원에 제시된 바와 같이 저장, 프로세싱 및 분석될 수 있다.
일부 SBS 실시예는 뉴클레오티드를 확장 생성물에 통합할 때 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출에 기초한 시퀀싱은 Ion Torrent(Guilford, CT, a Life Technologies subsidiary)로부터 상업적으로 이용 가능한 전기 검출기 및 관련 기술 또는 제US 2009/0026082 A1호; 제US 2009/0127589 A1호; 제US 2010/0137143 A1호; 또는 제US 2010/0282617 A1호(이들 각각은 참조로 본원에 통합됨)에 설명된 시퀀싱 방법 및 시스템을 사용할 수 있다. 역학적 배제를 사용하여 타깃 핵산을 증폭시키기 위해 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 기질에 쉽게 적용될 수 있다. 보다 구체적으로, 본원에 제시된 방법은 양성자를 검출하는 데 사용되는 앰플리콘(amplicon)의 클론 모집단을 생성하는 데 사용될 수 있다.
위의 SBS 방법은 복수의 상이한 타깃 핵산이 동시에 조작되도록 복수의 포맷으로 유리하게 수행될 수 있다. 특정 실시예에서, 상이한 타깃 핵산은 공통 반응 용기에서 또는 특정 기판의 표면 상에서 처리될 수 있다. 이는 시퀀싱 시약의 편리한 전달, 미반응 시약의 제거 및 다중화 방식으로의 통합 이벤트의 검출을 허용한다. 표면-결합 타깃 핵산을 사용하는 실시예에서, 타깃 핵산은 어레이 포맷일 수 있다. 어레이 포맷에서, 타깃 핵산은 통상적으로 공간적으로 구별 가능한 방식으로 표면에 결합될 수 있다. 타깃 핵산은 직접적인 공유 부착, 비드(bead) 또는 다른 입자에 대한 부착 또는 표면에 부착된 중합 효소 또는 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 각각의 사이트(특징부로도 지칭됨)에 타깃 핵산의 단일 사본을 포함할 수 있거나, 동일한 서열을 갖는 복수의 사본이 각각의 사이트 또는 특징부에 존재할 수 있다. 아래에 추가로 상세히 설명되는 바와 같이, 브릿지 증폭 또는 에멀젼 PCR과 같은 증폭 방법에 의해 복수의 사본이 생성될 수 있다.
본원에 제시된 방법은 예를 들어, 적어도 약 10 특징부/cm2, 100 특징부/cm2, 500 특징부/cm2, 1,000 특징부/cm2, 5,000 특징부/cm2, 10,000 특징부/cm2, 50,000 특징부/cm2, 100,000 특징부/cm2, 1,000,000 특징부/cm2, 5,000,000 특징부/cm2 또는 그 이상을 포함하는 다양한 밀도 중 임의의 밀도의 특징부를 갖는 어레이를 사용할 수 있다.
본원에 제시된 방법의 이점은 복수의 타깃 핵산의 검출을 병렬로 신속하고 효율적으로 제공한다는 것이다. 따라서, 본 개시는 위에 예시된 것과 같은 본 기술 분야에 알려진 기술을 사용하여 핵산을 준비하고 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 개시의 통합 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정화된 DNA 단편에 전달할 수 있는 유체 구성 요소를 포함할 수 있으며, 시스템은 펌프, 밸브, 저장소, 유체 라인 등과 같은 구성 요소를 포함한다. 플로우 셀은 타깃 핵산 검출을 위해 통합 시스템에서 구성 및/또는 사용될 수 있다. 예시적인 플로우 셀은 예를 들어, 제US 2010/0111768 A1호 및 제US 13/273,666호에 설명되어 있으며, 그 각각은 본원에 참조로 통합된다. 플로우 셀에 대해 예시된 바와 같이, 통합 시스템의 하나 이상의 유체 구성 요소는 증폭 방법 및 검출 방법에 사용될 수 있다. 핵산 시퀀싱 실시예를 예로 들면, 통합 시스템의 하나 이상의 유체 구성 요소는 본원에 제시된 증폭 방법 및 위에 예시된 것과 같은 시퀀싱 방법에서 시퀀싱 시약의 전달을 위해 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위해 별도의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고 또한 핵산의 서열을 결정할 수 있는 통합 시퀀싱 시스템의 예는 제한 없이 MiSeqTM 플랫폼(Illumina, Inc., San Diego, CA) 및 본원에 참조로 통합되는 US 13/273,666호에 설명된 디바이스를 포함한다.
상술한 시퀀싱 시스템은 시퀀싱 디바이스에 의해 수용된 샘플에 존재하는 핵산 중합체를 시퀀싱한다. 본원에 정의된 바와 같이, "샘플"과 그 파생어는 가장 넓은 의미로 사용되며 타깃을 포함하는 것으로 의심되는 임의의 표본, 배양물 등을 포함한다. 일부 실시예에서, 샘플은 DNA, RNA, PNA, LNA, 키메릭(chimeric) 또는 하이브리드 형태의 핵산을 포함한다. 샘플은 하나 이상의 핵산을 포함하는 생물학적, 임상적, 수술적, 농업적, 대기적 또는 수생-기반 표본을 포함할 수 있다. 해당 용어는 또한 게놈 DNA, 신선-냉동 또는 포르말린-고정 파라핀-매립 핵산 표본과 같은 임의의 격리된 핵산 샘들을 포함한다. 또한, 샘플은 단일 개인, 유전적으로 관련된 멤버로부터의 핵산 샘플 모음, 유전적으로 관련이 없는 멤버로부터의 핵산 샘플, 종양 샘플 및 정상 조직 샘플과 같은 단일 개인으로부터의 (매칭된) 핵산 샘플, 또는 모체 피험자로부터 획득된 모체 및 태아 DNA와 같은 2개의 별개 형태의 유전 물질을 포함하는 단일 소스로부터의 샘플, 또는 식물 또는 동물 DNA를 포함하는 샘플에 오염 박테리아 DNA의 존재로부터 얻을 수 있는 것으로 구상된다. 일부 실시예에서, 핵산 물질의 소스는 예를 들어, 신생아 스크리닝에 통상적으로 사용되는 것과 같이 신생아로부터 획득된 핵산을 포함할 수 있다.
핵산 샘플은 게놈 DNA(gDNA)와 같은 고분자량 물질을 포함할 수 있다. 샘플은 FFPE 또는 보관된 DNA 샘플에서 획득된 핵산 분자와 같은 저분자량 물질을 포함할 수 있다. 다른 실시예에서, 저분자량 물질은 효소적으로 또는 기계적으로 단편화된 DNA를 포함한다. 샘플은 무세포 순환 DNA를 포함할 수 있다. 일부 실시예에서, 샘플은 생검, 종양, 스크레이핑(scraping), 스왑(swab), 혈액, 점액, 소변, 혈장, 정액, 모발, 레이저 캡처 미세-절개, 외과적 절제 및 다른 임상 또는 실험실에서 획득된 샘플로부터 획득된 핵산 분자를 포함할 수 있다. 일부 실시예에서, 샘플은 역학적, 농업적, 포렌식 또는 병원성 샘플일 수 있다. 일부 실시예에서, 샘플은 인간 또는 포유류 소스와 같은 동물로부터 획득된 핵산 분자를 포함할 수 있다. 다른 실시예에서, 샘플은 식물, 박테리아, 바이러스 또는 곰팡이와 같은 비포유류 소스로부터 획득된 핵산 분자를 포함할 수 있다. 일부 실시예에서, 핵산 분자의 소스는 보관되거나 멸종된 샘플 또는 종일 수 있다.
추가로, 본원에 개시된 방법 및 컴포넌트는 포렌식 샘플로부터 분해된 및/또는 단편화된 게놈 DNA와 같은 저-품질 핵산 분자를 갖는 핵산 샘플을 증폭하는 데 유용할 수 있다. 일 실시예에서, 포렌식 샘플은 범죄 현장에서 획득된 핵산, 실종자 DNA 데이터베이스에서 획득된 핵산, 포렌식 조사와 연관된 실험실에서 획득된 핵산을 포함하거나 법 집행 기관, 하나 이상의 군 서비스 또는 임의의 이러한 인력에 의해 획득된 포렌식 샘플을 포함할 수 있다. 핵산 샘플은 예를 들어, 구강 스왑, 종이, 직물 또는 타액, 혈액 또는 다른 체액으로 함침될 수 있는 다른 기질로부터 도출된 용해물을 포함하는 정제된 샘플 또는 크루드(crude) DNA일 수 있다. 이와 같이, 일부 실시예에서, 핵산 샘플은 게놈 DNA와 같은 DNA의 소량 또는 단편화된 부분을 포함할 수 있다. 일부 실시예에서, 타깃 서열은 혈액, 가래, 혈장, 정액, 소변 및 혈청을 포함하지만 이에 제한되지 않는 하나 이상의 체액에 존재할 수 있다. 일부 실시예에서, 타깃 서열은 모발, 피부, 조직 샘플, 부검 또는 피해자의 유해로부터 획득될 수 있다. 일부 실시예에서, 하나 이상의 타깃 서열을 포함하는 핵산은 죽은 동물 또는 인간으로부터 획득될 수 있다. 일부 실시예에서, 타깃 서열은 미생물, 식물 또는 곤충학 DNA와 같은 비인간 DNA로부터 획득된 핵산을 포함할 수 있다. 일부 실시예에서, 타깃 서열 또는 증폭된 타깃 서열은 인간 식별의 목적에 관한 것이다. 일부 실시예에서, 본 개시는 일반적으로 포렌식 샘플의 특성을 식별하기 위한 방법에 관한 것이다. 일부 실시예에서, 본 개시는 일반적으로 본원에 개시된 하나 이상의 타깃 특이적 프라이머 또는 본원에 개괄된 프라이머 설계 기준을 사용하여 설계된 하나 이상의 타깃 특이적 프라이머를 사용하는 인간 식별 방법에 관한 것이다. 일 실시예에서, 적어도 하나의 타깃 서열을 포함하는 포렌식 또는 인간 식별 샘플은 본원에 개시된 임의의 하나 이상의 타깃-특이적 프라이머를 사용하거나 본원에 개괄된 프라이머 기준을 사용하여 증폭될 수 있다.
게놈-분류 시스템(106)의 컴포넌트는 소프트웨어, 하드웨어 또는 둘 모두를 포함할 수 있다. 예를 들어, 게놈-분류 시스템(106)의 컴포넌트는 컴퓨터-판독 가능 저장 매체에 저장되고 하나 이상의 컴퓨팅 디바이스(예를 들어, 클라이언트 디바이스(108))의 프로세서에 의해 실행 가능한 하나 이상의 명령어를 포함할 수 있다. 하나 이상의 프로세서에 의해 실행될 때, 게놈-분류 시스템(106)의 컴퓨터-실행 가능 명령어는 컴퓨팅 디바이스가 본원에 설명된 버블 검출 방법을 수행하도록 할 수 있다. 대안적으로, 게놈-분류 시스템(106)의 컴포넌트는 특정 기능 또는 기능의 그룹을 수행하기 위한 특수 목적 프로세싱 디바이스와 같은 하드웨어를 포함할 수 있다. 추가로 또는 대안으로, 게놈-분류 시스템(106)의 컴포넌트는 컴퓨터-실행 가능 명령어와 하드웨어의 조합을 포함할 수 있다.
추가로, 게놈-분류 시스템(106)에 대해 본원에 설명된 기능을 수행하는 게놈-분류 시스템(106)의 컴포넌트는 예를 들어, 독립형 애플리케이션의 일부로서, 애플리케이션의 모듈로서, 애플리케이션용 플러그-인으로서, 다른 애플리케이션에 의해 호출될 수 있는 라이브러리 기능 또는 기능들로서 및/또는 클라우드-컴퓨팅 모델로서 구현될 수 있다. 따라서, 게놈-분류 시스템(106)의 컴포넌트는 개인용 컴퓨팅 디바이스 또는 모바일 디바이스에서 독립형 애플리케이션의 일부로서 구현될 수 있다. 추가로 또는 대안으로, 게놈-분류 시스템(106)의 컴포넌트는, 이에 제하되는 것은 아니나, Illumina BaseSpace, Illumina DRAGEN 또는 Illumina TruSight 소프트웨어를 포함하는 시퀀싱 서비스를 제공하는 임의의 애플리케이션에서 구현될 수 있다. "Illumina", "BaseSpace", "DRAGEN" 및 "TruSight"는 미국 및/또는 다른 국가에서의 Illumina, Inc.의 등록 상표 또는 상표이다.
본 개시의 실시예는 아래에서 더 상세히 논의되는 바와 같이, 예를 들어, 하나 이상의 프로세서 및 시스템 메모리와 같은 컴퓨터 하드웨어를 포함하는 특수 목적 또는 범용 컴퓨터를 포함하거나 이용할 수 있다. 본 개시의 범위 내의 실시예는 또한 컴퓨터-실행 가능 명령어 및/또는 데이터 구조를 전달하거나 저장하기 위한 물리적 및 다른 컴퓨터-판독 가능 매체를 포함한다. 특히, 본원에 설명된 프로세스 중 하나 이상은 비일시적 컴퓨터-판독 가능 매체에 구현되고 하나 이상의 컴퓨팅 디바이스(예를 들어, 본원에 설명된 임의의 미디어 컨텐츠 액세스 디바이스)에 의해 실행 가능한 명령어로서 적어도 부분적으로 구현될 수 있다. 일반적으로, 프로세서(예를 들어, 마이크로프로세서)는 비일시적 컴퓨터-판독 가능 매체(예를 들어, 메모리 등)로부터 명령어를 수신하고, 해당 명령어를 실행하며, 이에 의해 본원에 설명된 하나 이상이 프로세스를 포함하는 하나 이상의 프로세스를 수행한다.
컴퓨터-판독 가능 매체는 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있다. 컴퓨터-실행 가능 명령어를 저장하는 컴퓨터-판독 가능 매체는 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)이다. 컴퓨터-실행 가능 명령어를 전달하는 컴퓨터-판독 가능 매체는 전송 매체이다. 따라서, 제한이 아닌 예시의 방식으로, 본 개시의 실시예는 적어도 두 가지의 상이한 종류의 컴퓨터-판독 가능 매체: 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)와 전송 매체를 포함할 수 있다.
비일시적 컴퓨터-판독 가능 저장 매체(디바이스)는 RAM, ROM, EEPROM, CD-ROM, 솔리드 스테이트 드라이브(SSD: solid state drive)(예를 들어, RAM 기반), 플래시 메모리, 상-변화 메모리(PCM: phase-change memory), 다른 유형의 메모리, 다른 광 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 저장 디바이스, 또는 컴퓨터-실행 가능 명령어 또는 데이터 구조의 형태로 원하는 프로그램 코드 수단을 저장하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함한다.
"네트워크"는 컴퓨터 시스템 및/또는 모듈 및/또는 다른 전자 디바이스 간의 전자 데이터 운송을 가능하게 하는 하나 이상의 데이터 링크로서 정의된다. 정보가 네트워크 또는 다른 통신 연결(유선, 무선 또는 유선과 무선의 조합)을 통해 컴퓨터로 전달되거나 제공되면, 컴퓨터는 해당 연결을 전송 매체로 적절하게 간주한다. 전송 매체는 컴퓨터-실행 가능 명령어나 데이터 구조의 형태로 원하는 프로그램 코드 수단을 전달하는 데 사용될 수 있고 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 네트워크 및/또는 데이터 링크를 포함할 수 있다. 위의 조합도 컴퓨터-판독 가능 매체의 범위에 포함되어야 한다.
추가로, 다양한 컴퓨터 시스템 구성 요소에 도달하면, 컴퓨터-실행 가능 명령어 또는 데이터 구조 형태의 프로그램 코드 수단은 자동으로 전송 매체에서 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)로(또는 그 반대로) 전송될 수 있다. 예를 들어, 네트워크 또는 데이터 링크를 통해 수신된 컴퓨터-실행 가능 명령어 또는 데이터 구조는 네트워크 인터페이스 모듈(예를 들어, NIC) 내의 RAM에 버퍼링된 다음 결국 컴퓨터 시스템 RAM 및/또는 컴퓨터 시스템에서의 덜 휘발성인 컴퓨터 저장 매체(디바이스)로 전송될 수 있다. 따라서, 비일시적 컴퓨터-판독 가능 저장 매체(디바이스)는 전송 매체를 또한(또는 심지어 주로) 이용하는 컴퓨터 시스템 컴포넌트에 포함될 수 있다는 것이 이해되어야 한다.
컴퓨터-실행 가능 명령어는 예를 들어, 프로세서에서 실행될 때 범용 컴퓨터, 특수 목적 컴퓨터 또는 특수 목적 프로세싱 디바이스가 특정 기능 또는 기능의 그룹을 수행하도록 하는 명령어 및 데이터를 포함한다. 일부 실시예에서, 컴퓨터-실행 가능 명령어는 범용 컴퓨터에서 실행되어 범용 컴퓨터를 본 개시의 요소를 구현하는 특수 목적 컴퓨터로 전환시킨다. 컴퓨터 실행 가능 명령어는 예를 들어, 바이너리, 어셈블리 언어와 같은 중간 포맷 명령어, 또는 심지어 소스 코드일 수 있다. 주제가 구조적 특징 및/또는 방법론적 동작에 특정한 언어로 설명되었지만, 첨부된 청구항에 정의된 주제는 설명된 특징이나 상술한 동작에 반드시 제한되는 것은 아니라는 것이 이해되어야 한다. 오히려, 설명된 특징 및 동작은 청구항을 구현하는 예시적인 형태로서 개시된다.
본 기술 분야의 통상의 기술자는 본 개시가 개인용 컴퓨터, 데스크탑 컴퓨터, 랩탑 컴퓨터, 메시지 프로세서, 휴대용 디바이스, 다중-프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 모바일 전화, PDA, 태블릿, 페이저, 라우터, 스위치 등을 포함하는 다수의 유형의 컴퓨터 시스템 구성을 갖는 네트워크 컴퓨팅 환경에서 실시될 수 있음을 이해할 것이다. 본 개시는 또한 네트워크를 통해 (하드와이어링된 데이터 링크, 무선 데이터 링크, 또는 하드와이어링과 무선 데이터 링크의 조합에 의해) 링크된 로컬 및 원격 컴퓨터 시스템이 모두 작업을 수행하는 분산 시스템 환경에서 실시될 수 있다. 분산 시스템 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 디바이스 모두에 위치될 수 있다.
본 개시의 실시예는 클라우드 컴퓨팅 환경에서도 구현될 수 있다. 본 설명에서, "클라우드 컴퓨팅"은 구성 가능한 컴퓨팅 리소스의 공유 풀에 대한 주문형 네트워크 액세스를 가능하게 하기 위한 모델로서 정의된다. 예를 들어, 클라우드 컴퓨팅은 구성 가능한 컴퓨팅 리소스의 공유 풀에 대한 어디서나 편리한 주문형 액세스를 제공하기 위해 시장에서 채택될 수 있다. 구성 가능한 컴퓨팅 리소스의 공유 풀은 가상화를 통해 신속하게 프로비저닝되고, 적은 관리 노력이나 서비스 제공자 상호 작용으로 릴리징된 후, 그에 따라 확장될 수 있다.
클라우드-컴퓨팅 모델은 예를 들어, 주문형 셀프-서비스, 광범위한 네트워크 액세스, 리소스 풀링, 신속한 탄력성, 측정된 서비스 등과 같은 다양한 특성으로 구성될 수 있다. 클라우드-컴퓨팅 모델은 예를 들어, 서비스로서 소프트웨어(SaaS: Software as a Service), 서비스로서 플랫폼(PaaS: Platform as a Service), 서비스로서 인프라스트럭처(IaaS: Infrastructure as a Service)와 같은 다양한 서비스 모델을 노출할 수도 있다. 클라우드-컴퓨팅 모델은 또한 프라이빗 클라우드, 커뮤니티 클라우드, 퍼블릭 클라우드, 하이브리드 클라우드 등과 같은 상이한 배포 모델을 사용하여 배포될 수 있다. 본 설명과 청구항에서, "클라우드-컴퓨팅 환경"은 클라우드 컴퓨팅이 채용되는 환경이다.
도 13은 상술한 프로세스 중 하나 이상을 수행하도록 구성될 수 있는 컴퓨팅 디바이스(1300)의 블록도를 예시한다. 컴퓨팅 디바이스(1300)와 같은 하나 이상의 컴퓨팅 디바이스가 염기-호출자-재교정 시스템(106) 및 시퀀싱 시스템(104)을 구현할 수 있다는 것을 이해할 것이다. 도 13에 도시된 바와 같이, 컴퓨팅 디바이스(1300)는 통신 인프라스트럭처(1312)를 통해 통신 가능하게 커플링될 수 있는 프로세서(1302), 메모리(1304), 스토리지(1306), I/O 인터페이스(1308) 및 통신 인터페이스(1310)를 포함할 수 있다. 특정 실시예에서, 컴퓨팅 디바이스(1300)는 도 13에 도시된 것보다 더 적거나 더 많은 컴포넌트를 포함할 수 있다. 이하의 문단은 도 13에 도시된 컴퓨팅 디바이스(1300)의 컴포넌트를 추가로 상세하게 설명한다.
하나 이상의 실시예에서, 프로세서(1302)는 컴퓨터 프로그램을 구성하는 것과 같은 명령어를 실행하기 위한 하드웨어를 포함한다. 일 예로서, 그리고 제한 없이, 작업 흐름을 동적으로 수정하기 위한 명령어를 실행하기 위해, 프로세서(1302)는 내부 레지스터, 내부 캐시, 메모리(1304) 또는 스토리지(1306)로부터 명령어를 검색(또는 페치(fetch))하고 이를 디코딩 및 실행할 수 있다. 메모리(1304)는 프로세서(들)에 의해 실행하기 위한 데이터, 메타데이터 및 프로그램을 저장하는 데 사용되는 휘발성 또는 비휘발성 메모리일 수 있다. 스토리지 디바이스(1306)는 본원에 설명된 방법을 수행하기 위한 데이터 또는 명령어를 저장하기 위한 하드 디스크, 플래시 디스크 드라이브 또는 다른 디지털 저장 디바이스와 같은 스토리지를 포함한다.
I/O 인터페이스(1308)는 사용자가 컴퓨팅 디바이스(1300)에 입력을 제공하고, 이로부터 출력을 수신하며, 그렇지 않으면 컴퓨팅 디바이스(1300)로 데이터를 전송하고 이로부터 데이터를 수신할 수 있게 한다. I/O 인터페이스(1308)는 마우스, 키패드 또는 키보드, 터치 스크린, 카메라, 광학 스캐너, 네트워크 인터페이스, 모뎀, 다른 알려진 I/O 디바이스 또는 이러한 I/O 인터페이스의 조합을 포함할 수 있다. I/O 인터페이스(1308)는, 이에 제한되는 것은 아니나, 그래픽 엔진, 디스플레이(예를 들어, 디스플레이 스크린), 하나 이상의 출력 드라이버(예를 들어, 디스플레이 드라이버), 하나 이상의 오디오 스피커 및 하나 이상의 오디오 드라이버를 포함하는, 사용자에게 출력을 제공하기 위한 하나 이상의 디바이스를 포함할 수 있다. 특정 실시예에서, I/O 인터페이스(1308)는 사용자에게 표시하기 위해 디스플레이에 그래픽 데이터를 제공하도록 구성된다. 그래픽 데이터는 하나 이상의 그래픽 사용자 인터페이스 및/또는 특정 구현을 제공할 수 있는 임의의 다른 그래픽 컨텐츠를 나타낼 수 있다.
통신 인터페이스(1310)는 하드웨어, 소프트웨어 또는 둘 모두를 포함할 수 있다. 임의의 경우에, 통신 인터페이스(1310)는 컴퓨팅 디바이스(1300)와 하나 이상의 다른 컴퓨팅 디바이스 또는 네트워크 사이의 (예를 들어, 패킷-기반 통신과 같은) 통신을 위한 하나 이상의 인터페이스를 제공할 수 있다. 예로서, 제한 없이, 통신 인터페이스(1310)는 이더넷 또는 다른 유선-기반 네트워크와 통신하기 위한 네트워크 인터페이스 제어기(network interface controller; NIC) 또는 네트워크 어댑터 또는 WI-FI와 같은 무선 네트워크와 통신하기 위한 무선 NIC(WNIC) 또는 무선 어댑터를 포함할 수 있다.
추가적으로, 통신 인터페이스(1310)는 다양한 유형의 유선 또는 무선 네트워크와의 통신을 용이하게 할 수 있다. 통신 인터페이스(1310)는 또한 다양한 통신 프로토콜을 사용하여 통신을 용이하게 할 수 있다. 통신 인프라스트럭처(1312)는 또한 컴퓨팅 디바이스(1300)의 컴포넌트를 서로 커플링하는 하드웨어, 소프트웨어 또는 둘 모두를 포함할 수 있다. 예를 들어, 통신 인터페이스(1310)는 하나 이상의 네트워크 및/또는 프로토콜을 사용하여 특정 인프라스트럭처에 의해 연결된 복수의 컴퓨팅 디바이스가 서로 통신하여 본원에 설명된 프로세스의 하나 이상의 양태를 수행할 수 있게 할 수 있다. 예시하기 위해, 시퀀싱 프로세스는 복수의 디바이스(예를 들어, 클라이언트 디바이스, 시퀀싱 디바이스 및 서버 디바이스(들))가 시퀀싱 데이터 및 오류 통지와 같은 정보를 교환하도록 허용할 수 있다.
상술한 명세서에서, 본 개시는 그 구체적인 예시적인 실시예를 참조하여 설명되었다. 본 개시(들)의 다양한 실시예 및 양태는 본원에 논의된 상세 사항을 참조하여 설명되고, 첨부 도면은 다양한 실시예를 예시한다. 위의 설명과 도면은 본 개시를 예시하는 것이며 본 개시를 제한하는 것으로 해석되어서는 안 된다. 본 개시의 다양한 실시예의 완전한 이해를 제공하기 위해 다수의 특정 상세 사항이 설명된다.
본 개시는 그 사상이나 본질적인 특징을 벗어나지 않고도 다른 구체적인 형태로 구현될 수 있다. 설명된 실시예는 모든 면에서 단지 예시적인 것이며 제한적인 것이 아닌 것으로 간주되어야 한다. 예를 들어, 본원에 설명된 방법은 더 적거나 더 많은 단계/동작으로 수행될 수 있거나 단계/동작은 상이한 순서로 수행될 수 있다. 추가적으로, 본원에 설명된 단계/동작은 서로 병행하여 또는 동일하거나 유사한 단계/동작의 상이한 인스턴스와 병행하여 반복되거나 수행될 수 있다. 따라서, 본 출원의 범위는 상술한 설명이 아니라 첨부된 청구항에 의해 나타내어진다. 청구항의 의미와 동등성 범위 내에 있는 모든 변경은 해당 범위 내에 포함되어야 한다.

Claims (39)

  1. 시스템에 있어서,
    적어도 하나의 프로세서; 및
    비일시적 컴퓨터 판독 가능 매체로서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    샘플 핵산 서열을 예시적인 핵산 서열의 게놈 좌표와 비교하기 위한 시퀀싱 메트릭을 결정하고;
    게놈-위치-분류 모델을 훈련시켜 특정 게놈 좌표에 대한 상기 시퀀싱 메트릭 및 실측 분류에 기초하여 상기 게놈 좌표에 대한 신뢰도 분류를 결정하고;
    상기 게놈-위치-분류 모델을 활용하여, 하나 이상의 샘플 핵산 서열에 대한 시퀀싱 메트릭 세트에 기초하여 게놈 좌표 세트에 대한 신뢰도 분류 세트를 결정하고;
    상기 게놈 좌표 세트에 대한 상기 신뢰도 분류 세트를 포함하는 적어도 하나의 디지털 파일을 생성하도록 하는 명령어를 포함하는, 상기 비일시적 컴퓨터 판독 가능 매체를 포함하는, 시스템.
  2. 제1항에 있어서, 상기 신뢰도 분류는 상기 특정 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 정도를 나타내는, 시스템.
  3. 제1항에 있어서, 상기 샘플 핵산 서열은 핵산 서열-추출 방법, 시퀀싱 디바이스 및 서열-분석 소프트웨어를 포함하는 단일 시퀀싱 파이프라인을 사용하여 결정되는, 시스템.
  4. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 유전적 변형 또는 후생유전적 변형을 포함하는 게놈 좌표에 대한 상기 신뢰도 분류를 결정함으로써 상기 신뢰도 분류 세트로부터 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 시스템.
  5. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    상기 샘플 핵산 서열과 상기 예시적인 핵산 서열의 상기 게놈 좌표의 정렬을 정량화하기 위한 정렬 메트릭;
    상기 예시적인 핵산 서열의 상기 게놈 좌표에서 상기 샘플 핵산 서열에 대한 핵염기 호출의 깊이를 정량화하기 위한 깊이 메트릭; 또는
    상기 예시적인 핵산 서열의 상기 게놈 좌표에서 상기 샘플 핵산 서열에 대한 상기 핵염기 호출의 품질을 정량화하기 위한 호출-데이터-품질 메트릭 중 하나 이상을 결정함으로써 상기 시퀀싱 메트릭을 결정하도록 하는 명령어를 더 포함하는, 시스템.
  6. 제5항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    상기 샘플 핵산 서열에 대한 결실-엔트로피 메트릭, 결실-크기 메트릭, 매핑-품질 메트릭, 양성-삽입-크기 메트릭, 음성-삽입-크기 메트릭, 소프트-클리핑 메트릭, 리드-포지션 메트릭 또는 리드-참조-불일치 메트릭 중 하나 이상을 결정함으로써 상기 정렬 메트릭을 결정하거나;
    정방향-역방향-깊이 메트릭, 정규화-깊이 메트릭, 깊이-언더 메트릭, 깊이-오버 메트릭 또는 피크-카운트 메트릭 중 하나 이상을 결정함으로써 상기 깊이 메트릭을 결정하거나; 또는
    상기 샘플 핵산 서열에 대한 핵염기-호출-품질 메트릭, 호출 가능성 메트릭 또는 체세포-품질 메트릭 중 하나 이상을 결정함으로써 상기 호출-데이터-품질 메트릭을 결정하도록 하는 명령어를 더 포함하는, 시스템.
  7. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 게놈 좌표에 대한 고신뢰도 분류, 중간-신뢰도 분류 또는 저신뢰도 분류 중 적어도 하나를 결정함으로써 상기 신뢰도 분류 세트로부터 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 시스템.
  8. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 게놈 좌표에서 핵염기가 정확하게 결정되는 정도를 나타내는 신뢰도 점수 범위 내에서 신뢰도 점수를 결정함으로써 상기 신뢰도 분류 세트로부터 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 시스템.
  9. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 상기 게놈-위치-분류 모델을 훈련시켜 상기 신뢰도 분류를 결정하기 위한 통계학적 기계 학습 모델 또는 신경망을 훈련시킴으로써 상기 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 시스템.
  10. 제1항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    상기 예시적인 핵산 서열로부터, 변이-핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정하고;
    상기 게놈-위치-분류 모델을 훈련시켜,
    상기 컨텍스트 핵산 하위서열;
    상기 컨텍스트 핵산 하위서열에 대응하는 게놈 좌표 서브셋에 대한 시퀀싱 메트릭 서브셋; 및
    상기 컨텍스트 핵산 하위서열에 대응하는 상기 게놈 좌표 서브셋에 대한 실측 분류 서브셋에 기초하여 상기 변이-핵염기 호출의 게놈 좌표에 대한 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 시스템.
  11. 제1항에 있어서, 상기 예시적인 핵산 서열은 참조 게놈 또는 조상 일배체형의 핵산 서열을 포함하는, 시스템.
  12. 비일시적 컴퓨터 판독 가능 매체로서, 적어도 하나의 프로세서에 의해 실행 시, 컴퓨팅 디바이스가,
    샘플 핵산 서열 내 게놈 좌표에서 변이-핵염기 호출을 검출하고;
    디지털 파일로부터, 게놈-위치-분류 모델에 따라 상기 게놈 좌표에 대한 신뢰도 분류를 식별하고;
    그래픽 사용자 인터페이스 내에서 디스플레이하기 위해, 상기 변이-핵염기 호출의 상기 게놈 좌표에 대한 상기 신뢰도 분류의 표시자를 생성하도록 하는 명령어를 저장하는, 비일시적 컴퓨터 판독 가능 매체.
  13. 제12항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가, 상기 디지털 파일로부터, 상기 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 정도를 나타내는 상기 신뢰도 분류를 식별함으로써 상기 게놈 좌표에 대한 상기 신뢰도 분류를 식별하도록 하는 명령어를 더 저장하는, 비일시적 컴퓨터 판독 가능 매체.
  14. 제12항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 단일 뉴클레이티드 변이, 핵염기 삽입, 핵염기 결실 또는 구조적 변이의 일부를 검출함으로써 상기 게놈 좌표에서 상기 변이-핵염기 호출을 검출하도록 하는 명령어를 더 저장하는, 비일시적 컴퓨터 판독 가능 매체.
  15. 제12항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가, 상기 디지털 파일로부터, 상기 디지털 파일 내에서 상기 게놈 좌표에 대한 주석 또는 점수로부터 상기 신뢰도 분류를 식별함으로써 상기 신뢰도 분류를 식별하도록 하는 명령어를 더 저장하는, 비일시적 컴퓨터 판독 가능 매체.
  16. 제12항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가, 상기 디지털 파일로부터, 상기 게놈 좌표에 대한 고신뢰도 분류, 중간-신뢰도 분류 또는 저신뢰도 분류 중 적어도 하나를 식별함으로써 상기 신뢰도 분류를 식별하도록 하는 명령어를 더 저장하는, 비일시적 컴퓨터 판독 가능 매체.
  17. 방법에 있어서,
    예시적인 핵산 서열로부터, 예시적인 핵산 서열의 게놈 좌표로부터 게놈 좌표에서 샘플 핵산 서열에서 변이-핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정하는 단계;
    게놈-위치-분류 모델을 훈련시켜 상기 게놈 좌표에 대한 상기 컨텍스트 핵산 하위서열 및 실측 분류에 기초하여 상기 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계;
    상기 게놈-위치-분류 모델을 활용하여, 상기 컨텍스트 핵산 하위서열에 기초하여 상기 게놈 좌표에 대한 신뢰도 분류를 결정하는 단계; 및
    상기 변이-핵염기 호출의 상기 게놈 좌표에 대한 상기 신뢰도 분류를 포함하는 적어도 하나의 디지털 파일을 생성하는 단계를 포함하는, 방법.
  18. 제17항에 있어서, 상기 신뢰도 분류를 결정하는 단계는 게놈 좌표에서 단일 뉴클레오티드 변이, 핵염기 삽입, 핵염기 결실, 구조적 변이의 일부 또는 복제수 변이의 일부에 대한 상기 신뢰도 분류를 결정하는 단계를 포함하는, 방법.
  19. 제17항에 있어서, 상기 신뢰도 분류를 결정하는 단계는 게놈 좌표에서 핵염기가 정확하게 결정될 수 있는 정도를 나타내는 신뢰도 점수 범위 내에서 신뢰도 점수를 결정하는 단계를 포함하는, 방법.
  20. 제17항에 있어서, 상기 게놈-위치-분류 모델을 훈련시켜 상기 신뢰도 분류를 결정하는 단계는 로지스틱 회귀 모델, 랜덤 포레스트 분류기 또는 콘볼루션 신경망을 훈련시켜 상기 신뢰도 분류를 결정하는 단계를 포함하는, 방법.
  21. 제17항에 있어서, 상기 게놈-위치-분류 모델을 훈련시켜 상기 신뢰도 분류를 결정하는 단계는,
    상기 게놈 좌표에 대해, 예측 신뢰도 분류를 상기 게놈 좌표에서 핵염기 호출의 멘델-유전 패턴 또는 복제 일치를 반영하는 실측 분류와 비교하는 단계;
    상기 예측 신뢰도 분류와 상기 실측 분류의 상기 비교로부터 손실을 결정하는 단계; 및
    상기 결정된 손실에 기초하여 상기 게놈-위치-분류 모델의 파라미터를 조정하는 단계를 포함하는, 방법.
  22. 제17항에 있어서, 상기 예시적인 핵산 서열은 참조 게놈 또는 조상 일배체형의 핵산 서열을 포함하는, 방법.
  23. 시스템에 있어서,
    적어도 하나의 프로세서; 및
    비일시적 컴퓨터 판독 가능 매체로서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이,
    게놈 샘플로부터의 샘플 핵산 서열을 예시적인 핵산 서열의 게놈 좌표와 비교하기 위한 시퀀싱 메트릭을 결정하고;
    특정 변이-핵염기 호출에 대해, 게놈 샘플의 혼합물에 대한 상기 시퀀싱 메트릭 또는 변이-호출 데이터 중 하나 이상에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하고;
    게놈-위치-분류 모델을 훈련시켜, 변이-핵염기 호출에 대해, 상기 시퀀싱 메트릭 및 상기 실측 분류에 기초하여 상기 게놈 좌표에 대한 변이 신뢰도 분류를 결정하고;
    상기 게놈-위치-분류 모델을 활용하여, 하나 이상의 샘플 핵산 서열에 대한 시퀀싱 메트릭 세트에 기초하여 게놈 좌표 세트에 대한 변이 신뢰도 분류 세트를 결정하도록 하는 명령어를 포함하는, 상기 비일시적 컴퓨터 판독 가능 매체를 포함하는, 시스템.
  24. 제23항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 암이나 모자이크현상을 갖는 게놈 샘플의 변이-대립유전자 빈도를 함께 시뮬레이션하는 제1 게놈 샘플로부터의 제1 핵산 서열 서브셋 및 제2 게놈 샘플로부터의 제2 핵산 서열 서브셋의 조합을 결정함으로써 상기 게놈 샘플의 혼합물을 결정하도록 하는 명령어를 더 포함하는, 시스템.
  25. 제23항에 있어서, 상기 변이 신뢰도 분류는 상기 게놈 좌표에서 암 또는 체세포 모자이크현상을 반영하는 체세포-핵염기 변이가 정확하게 결정되는 정도를 나타내는, 시스템.
  26. 제23항에 있어서, 상기 변이 신뢰도 분류는 상기 게놈 좌표에서 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이가 정확하게 결정될 수 있는 정도를 나타내는, 시스템.
  27. 제23항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이, 상기 특정 변이-핵염기 호출에 대해,
    상기 특정 게놈 좌표에서 상기 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트를 결정하기 위한 정밀도율 또는 재현율 중 하나 이상을 결정하고;
    상기 변이-핵염기 호출 세트를 결정하기 위한 상기 정밀도율 또는 상기 재현율 중 하나 이상에 기초하여 상기 실측 분류를 생성함으로써 상기 게놈 샘플의 혼합물에 대한 상기 변이-호출 데이터에 기초하여 상기 특정 게놈 좌표에 대한 상기 실측 분류를 생성하도록 하는 명령어를 더 포함하는, 시스템.
  28. 제23항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이, 상기 특정 변이-핵염기 호출에 대해,
    상기 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트의 변이-대립유전자 빈도를 결정하고;
    상기 특정 게놈 좌표에서 그리고 상기 변이-대립유전자 빈도로부터 서로 다른 변이-대립유전자 빈도로 상기 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 서로 다른 변이-핵염기 호출을 결정하기 위한 정밀도율 또는 재현율 중 하나 이상을 결정하고;
    상기 서로 다른 변이-대립유전자 빈도로 서로 다른 변이-핵염기 호출을 결정하기 위한 상기 정밀도율 또는 상기 재현율 중 하나 이상에 기초하여 상기 실측 분류를 생성함으로써 상기 게놈 샘플의 혼합물에 대한 상기 변이-호출 데이터에 기초하여 상기 특정 게놈 좌표에 대한 상기 실측 분류를 생성하도록 하는 명령어를 더 포함하는, 시스템.
  29. 제23항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 상기 샘플 핵산 서열에 대한 매핑-품질 메트릭, 정방향-역방향-깊이 메트릭 및 핵염기-호출-품질 메트릭을 포함하는 상기 시퀀싱 메트릭에 기초하여 상기 실측 분류를 생성하도록 하는 명령어를 더 포함하는, 시스템.
  30. 제23항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이, 상기 특정 변이-핵염기 호출에 대해,
    상기 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열로부터 핵염기 호출에 대한 체세포-품질 메트릭을 결정하고;
    상기 특정 게놈 좌표에 대한 서로 다른 실측 분류를 구별하기 위한 체세포-품질-메트릭 임계값을 생성하고;
    상기 체세포-품질-메트릭 임계값에 따른 상기 특정 게놈 좌표에 대한 계층화된 실측 분류를 생성함으로써 상기 게놈 샘플의 혼합물에 대한 상기 변이-호출 데이터에 기초하여 상기 특정 게놈 좌표에 대한 상기 실측 분류를 생성하도록 하는 명령어를 더 포함하는, 시스템.
  31. 제30항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 상기 체세포-품질-메트릭 임계값에 따라 계층화된 실측 분류 서브셋만을 생성함으로써 상기 계층화된 실측 분류를 생성하도록 하는 명령어를 더 포함하는, 시스템.
  32. 제23항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 시스템이 하나 이상의 게놈 샘플로부터 상기 하나 이상의 샘플 핵산 서열에 대한 상기 시퀀싱 메트릭 세트를 결정하도록 하는 명령어를 더 포함하는, 시스템.
  33. 비일시적 컴퓨터 판독 가능 매체로서, 적어도 하나의 프로세서에 의해 실행 시, 컴퓨팅 디바이스가,
    게놈 샘플로부터의 샘플 핵산 서열을 예시적인 핵산 서열의 게놈 좌표와 비교하기 위한 시퀀싱 메트릭을 결정하고;
    특정 변이-핵염기 호출에 대해, 게놈 샘플의 혼합물에 대한 상기 시퀀싱 메트릭 또는 변이-호출 데이터 중 하나 이상에 기초하여 특정 게놈 좌표에 대한 실측 분류를 생성하고;
    하나 이상의 예시적인 핵산 서열로부터, 하나 이상의 게놈 좌표에서 하나 이상의 샘플 핵산 서열에서 변이-핵염기 호출을 둘러싸는 컨텍스트 핵산 하위서열을 결정하고;
    게놈-위치-분류 모델을 훈련시켜, 상기 변이-핵염기 호출에 대해, 상기 컨텍스트 핵산 하위서열 및 상기 실측 분류에 기초하여 상기 게놈 좌표에 대한 변이 신뢰도 분류를 결정하고;
    상기 게놈-위치-분류 모델을 활용하여, 해당 변이-핵염기 호출 세트를 둘러싸는 컨텍스트 핵산 하위서열 세트에 기초하여 게놈 좌표 세트에 대한 변이 신뢰도 분류 세트를 결정하도록 하는 명령어를 저장하는, 비일시적 컴퓨터 판독 가능 매체.
  34. 제33항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 암이나 체세포 모자이크현상을 반영하는 체세포-핵염기 변이를 둘러싸는 컨텍스트 핵산 하위서열에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정함으로써 상기 변이 신뢰도 분류 세트로부터 상기 변이 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  35. 제33항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 생식세포계열 모자이크현상을 반영하는 생식세포계열-핵염기 변이를 둘러싸는 컨텍스트 핵산 하위서열에 기초하여 게놈 좌표에 대한 변이 신뢰도 분류를 결정함으로써 상기 변이 신뢰도 분류 세트로부터 상기 변이 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  36. 제33항에 있어서, 상기 하나 이상의 예시적인 핵산 서열은 참조 게놈 또는 조상 일배체형의 핵산 서열을 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  37. 제33항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 암이나 모자이크현상을 갖는 게놈 샘플의 변이-대립유전자 빈도를 함께 시뮬레이션하는 제1 자연 발생 게놈 샘플로부터의 제1 핵산 서열 퍼센티지 및 제2 자연 발생 게놈 샘플로부터의 제2 핵산 서열 퍼센티지의 조합을 결정함으로써 상기 게놈 샘플의 혼합물을 결정하도록 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  38. 제33항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가 게놈 좌표에서 핵염기 변이가 정확하게 결정되는 정도를 나타내는 변이 신뢰도 점수 범위 내에서 변이 신뢰도 점수를 결정함으로써 상기 변이 신뢰도 분류 세트로부터 변이 신뢰도 분류를 결정하도록 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  39. 제33항에 있어서, 상기 적어도 하나의 프로세서에 의해 실행 시, 상기 컴퓨팅 디바이스가, 상기 특정 변이-핵염기 호출에 대해,
    상기 게놈 샘플의 혼합물로부터 하나 이상의 샘플 핵산 서열에 대한 변이-핵염기 호출 세트의 변이-대립유전자 빈도를 결정하고;
    상기 특정 게놈 좌표에서 상기 변이-대립유전자 빈도로부터 서로 다른 변이-대립유전자 빈도로 상기 변이-핵염기 호출 세트로부터 서로 다른 변이-핵염기 호출을 결정하기 위한 정밀도율 및 재현율을 결정하고;
    상기 정밀도율 및 상기 재현율에 기초하여 상기 특정 게놈 좌표에서 상기 서로 다른 변이-핵염기 호출을 결정하기 위한 F-점수를 결정하고;
    상기 서로 다른 변이-핵염기 호출을 결정하기 위한 상기 F-점수에 추가로 기초하여 상기 실측 분류를 생성함으로써 상기 게놈 샘플의 혼합물에 대한 상기 변이-호출 데이터에 기초하여 상기 특정 게놈 좌표에 대한 상기 실측 분류를 생성하도록 하는 명령어를 더 포함하는, 비일시적 컴퓨터 판독 가능 매체.
KR1020237043988A 2021-06-29 2022-06-24 게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델 KR20240026932A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163216382P 2021-06-29 2021-06-29
US63/216,382 2021-06-29
PCT/US2022/073160 WO2023278966A1 (en) 2021-06-29 2022-06-24 Machine-learning model for generating confidence classifications for genomic coordinates

Publications (1)

Publication Number Publication Date
KR20240026932A true KR20240026932A (ko) 2024-02-29

Family

ID=82656623

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237043988A KR20240026932A (ko) 2021-06-29 2022-06-24 게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델

Country Status (6)

Country Link
US (1) US20220415443A1 (ko)
KR (1) KR20240026932A (ko)
CN (1) CN117546245A (ko)
AU (1) AU2022301321A1 (ko)
CA (1) CA3224393A1 (ko)
WO (1) WO2023278966A1 (ko)

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2044616A1 (en) 1989-10-26 1991-04-27 Roger Y. Tsien Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
ES2407681T3 (es) 2002-08-23 2013-06-13 Illumina Cambridge Limited Nucleótidos modificados para la secuenciación de polinucleótidos.
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
JP2007525571A (ja) 2004-01-07 2007-09-06 ソレクサ リミテッド 修飾分子アレイ
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3373174A1 (en) 2006-03-31 2018-09-12 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP4134667A1 (en) 2006-12-14 2023-02-15 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
CA2867665C (en) 2012-04-03 2022-01-04 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing

Also Published As

Publication number Publication date
CA3224393A1 (en) 2023-01-05
WO2023278966A1 (en) 2023-01-05
AU2022301321A1 (en) 2024-01-18
US20220415443A1 (en) 2022-12-29
CN117546245A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
US10937522B2 (en) Systems and methods for analysis and interpretation of nucliec acid sequence data
US20190318806A1 (en) Variant Classifier Based on Deep Neural Networks
CN110832597A (zh) 基于深度神经网络的变体分类器
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
US20220319641A1 (en) Machine-learning model for detecting a bubble within a nucleotide-sample slide for sequencing
KR20240026932A (ko) 게놈 좌표에 대한 신뢰도 분류를 생성하기 위한 기계 학습 모델
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20240120027A1 (en) Machine-learning model for refining structural variant calls
US20230420082A1 (en) Generating and implementing a structural variation graph genome
US20230207050A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
US20230021577A1 (en) Machine-learning model for recalibrating nucleotide-base calls
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
US20230093253A1 (en) Automatically identifying failure sources in nucleotide sequencing from base-call-error patterns
US20240127905A1 (en) Integrating variant calls from multiple sequencing pipelines utilizing a machine learning architecture
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20230368866A1 (en) Adaptive neural network for nucelotide sequencing
WO2024006705A1 (en) Improved human leukocyte antigen (hla) genotyping