KR102211461B1 - 고-정확도 변이 판정을 위한 시스템들 및 방법들 - Google Patents

고-정확도 변이 판정을 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR102211461B1
KR102211461B1 KR1020197020554A KR20197020554A KR102211461B1 KR 102211461 B1 KR102211461 B1 KR 102211461B1 KR 1020197020554 A KR1020197020554 A KR 1020197020554A KR 20197020554 A KR20197020554 A KR 20197020554A KR 102211461 B1 KR102211461 B1 KR 102211461B1
Authority
KR
South Korea
Prior art keywords
hla
type
sequence
patient
alleles
Prior art date
Application number
KR1020197020554A
Other languages
English (en)
Other versions
KR20190090022A (ko
Inventor
존 재커리 산본
Original Assignee
난토믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난토믹스, 엘엘씨 filed Critical 난토믹스, 엘엘씨
Publication of KR20190090022A publication Critical patent/KR20190090022A/ko
Application granted granted Critical
Publication of KR102211461B1 publication Critical patent/KR102211461B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Abstract

알려진 별개의 HLA 대립 유전자들을 갖는 기준 시퀀스 및 환자 시퀀스 리드들이 de Bruijn 그래프에 사용되는 환자의 HLA 형별의 인실리코 예측을 위한 시스템들 및 방법들이 제공된다. 그런 다음 합성 매칭 스코어가 HLA 대립 유전자들을 순위화하는데 사용되어서 제 1 HLA 형별을 제공한다. 조절된 합성 매칭 스코어를 이용하여 재-순위화함으로써 제 2 HLA 형별이 식별된다.

Description

고-정확도 변이 판정을 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR HIGH-ACCURACY VARIANT CALLING}
본 출원은 2015년 8월 25일에 출원된 일련 번호 62/209,858를 갖는 U.S. 가출원에 대한 우선권을 주장한다.
기술분야
본 발명의 분야는 뉴클레오티드 시퀀스들의 인실리코 분석(in silico analysis)의 시스템들 및 방법들에 관한 것으로, 보다 상세하게는 SNP들, 멀티-뉴클레오티드 변이(variant)들, 삽입-결실(indel)들, 구조상 변이들, 및 HLA 형별 검사(HLA typing)의 고-정확도 판정(high-accuracy calling)에 관한 것이다.
배경 설명은 본 발명을 이해하는데 유용할 수 있는 정보를 포함한다. 여기에 제공된 임의의 정보는 종래 기술이거나 또는 현재 청구된 발명에 관한 것이거나, 또는 구체적으로 또는 함축적으로 언급된 임의의 간행물 종래 기술이라는 인정은 아니다.
본 출원에 모든 간행물들, 및 특허 출원들은 마치 각각의 개별 간행물, 특허 출원이 구체적으로 및 개별적으로 참조로서 통합된 것으로 표시된 것과 같은 정도 까지 참조로서 통합된다. 통합된 참조문헌에 정의 또는 용어의 사용이 본 출원에 제공된 해당 용어의 정의에 반하거나 또는 일관되지 않는 경우, 본 출원에 제공된 해당 용어의 정의가 적용되고 참조문헌에 해당 용어의 정의는 적용되지 않는다.
변이 정보의 부정확도들 또는 손실로 이어지는 시퀀스 리드들에서 사소한 변화들 때문에 종종 오정렬되는 매우 연관된 게놈 시퀀스 세그먼트들을 정확하게 정렬시키는데 고-스루풋 시퀀싱(sequencing) 데이터에 대한 변이 감지가 점점 더 중요해지고 있다. 몇몇의 시도가 매우 연관된 시퀀스들의 정렬을 개선하기 위해 착수되었다. 예를 들어, “Platypus” (The Wellcome Trust Centre for Human Genetics)는 고-스루풋 시퀀싱 데이터내 비교적 효율적이고 정확한 변이-감지를 위해 디자인된 툴(tool)이다. 로컬 어셈블리 및 리드들의 로컬 재정렬을 이용함으로써, Platypus는 몇몇 kb까지의 SNP들, MNP들, 짧은 삽입-결실들, 치환(replacement)들 및 결실(deletion)들의 감지를 위한 비교적 고감도 및 고 특이성(specificity)을 달성한다. 비록 Platypus는 종종 전통적인 정렬 시스템들보다 더 정확하지만, 다양한 어려움들이 그럼에도 불구하고 잔존한다. 무엇보다도, 전체 게놈을 커버하는 게놈 데이터를 프로세싱하는 것이 문제가 있고, 그리고 고 유사성을 갖는 다수의 시퀀스들이 존재하는 경우 원하는 것보다 정확도가 작을 수 있다. 유사하게, DISCOVAR (Broad Institute)는 시퀀스들을 조립하고 그리고 변이들을 식별하는 비교적 정확한 툴이다. 그러나, DISCOVAR는 전반적으로 엄청나게 큰 데이터 양들의 프로세싱에 적절하지 않다.
다른 접근법, Big Genomics Inference Engine (BIGGIE; Bioinformatics, vol.25, pp.2078-9, 2009)에서, 고-복잡도 영역 및 저-복잡도 영역을 먼저 분류하고 이어서 그에 따라서 자원들을 할당함으로써 프로세싱 속도가 증가된다. 이런 접근법은 컴퓨터 자원들에 대한 요구를 축소시키는 경향이 있지만, 변이들이 저 복잡도 영역들에서 발생하는 경우 변이 판정(variant calling)이 종종 원하는 것보다 더 작다. 추가하여, 차세대 시퀀싱 데이터를 위한 알려진 변이 판정기(caller)의 대부분은 변이들을 감지하고 변이들에 확실성을 평가하기 위해서 확률론적(probabilistic) 프레임워크 (예를 들어, 베이지안 통계학(Bayesian statistics)을 이용하여)를 채용한다. 이런 접근법은 일반적으로 만족스럽게 작용하지만, 다양한 요인들 예컨대 극도의 리드 깊이(extreme read depth), 풀링된(pooled) 샘플들, 및 오염되거나 또는 불순물이 섞인(impure) 샘플들은 분석을 교락시키는 경향이 있다. 이런 문제들을 극복하기 위해서, VarScan (Genome Res. 2012 22: 568-576)는 리드 깊이, 베이스(base) 품질, 변이 대립 유전자 빈도(variant allele frequency), 및 통계적 유의도(statistical significance)에 대한 희망하는 임계값들을 충족시키는 변이들을 판정하는 경험적/통계적(heuristic/statistic) 접근법을 채용한다. 그러나, 이런 접근법은 일반적으로 단일 리드에 의해 스패닝(span)되지 않는 게놈내 더 큰 변화들을 식별하지 않을 것이다.
또한 추가로 알려진 방법에서, 채색된 DeBruijn 그래프가 그래프를 함축적으로 인코딩하는 해시 표(hash table) 및 비교적 긴 k-mers (예를 들어, k는 적어도 55이다)를 이용하여 시퀀싱 데이터로부터 (Nat Genet. 2012; 44(2): 226-232) 생성된다. 그러나, 분리된(isolated) SNP들, SNP들 및 삽입-결실들의 짧은 삽입-결실들 (1-100bp) 및 작은 합성 조합들 (1-100bp)에 대하여 입안자들은 이형접합 사이트들(heterozygous sites)을 감지하기 위해서 단지 80% 파워 및 동형접합(homozygous) 변이 사이트들을 감지하기 위해서 90% 파워를 발표하였다. 게다가, 중간 사이즈 (100-1000bp) 삽입-결실들 및 합성 변이들에 대하여, 개별적으로 이형접합 및 동형접합 사이트들에 대하여 파워는 50% 및 75-80%이고, 큰 변이들 (1-50kb)에 대하여 입안자들은 동형접합 변이 사이트들을 감지하기 위해서 단지 파워를 발표하였다 (35%). 결과적으로, 설명된 채색된 DeBruijn 그래프는 적어도 어느 정도까지 SNP들 및 삽입-결실들의 분석을 가능하게 하지만, 정확도 및 감지 파워는 원하는 것보다 작다. 이와 같이, 해당 접근법의 주요 강점은 임의의 기준 게놈(reference genome)의 요구 없이 변이 감지에 대한 강력한 및 정확한 접근법들을 가능하게 하는 다수의 게놈들의 동시 분석에 있다.
따라서, 설사 변이 판정을 위한 많은 시스템들 및 방법들이 관련 기술 분야에서 알려져 있다 할지라도, 고-정확도 변이 판정에 대한, 특별히 그것이 인실리코 HLA 형별 검사에 관한 것일 때 개선된 시스템들 및 방법들에 대한 요구가 잔존한다.
창의적인 내용은 환자 시퀀스 데이터로부터 고-정확도 변이 판정에 대한, 특별히 그것이 시퀀싱 기계들로부터 DNA 및/또는 RNA 시퀀스들을 이용한 HLA 형별 검사에 관한 것일 때 다양한 시스템들, 방법들 및 디바이스들에 관한 것이다. 특별히 선호되는 측면들에서, 다수의 HLA 대립 유전자(allele)들을 포함하는 환자 시퀀스 리드들 및 기준 시퀀스가 De Bruijn 그래프 접근법으로 프로세스된다. 각각의 환자 시퀀스 리드는 상기 다양한 대립 유전자들에 대한 가중 보우트(weighted vote)를 제공하고, 각각의 대립 유전자에 대한 총 보우트들은 그런 다음 상기 대립 유전자들을 순위화하는데 사용된다. 순위화에서 최상위(topmost) 대립 유전자가 상기 제 1 HLA-형별이고, 그런 다음 상기 제 1 HLA-형별에 매칭되는 k-mer에 반대인 바이어스(bias)를 이용한 나머지 대립 유전자들 재-순위화가 상기 제 2 HLA-형별을 제공한다.
창의적인 내용의 일 측면에서, 발명자는 환자에 대한 HLA-형별 인실리코 예측하는 방법을 고려하고 여기에서 알려진 별개의 HLA 대립 유전자들의 복수의 시퀀스들을 포함하는 기준 시퀀스가 제공되고, 복수의 환자 시퀀스 리드들이 제공되고, 상기 환자 시퀀스 리드들의 적어도 일부는 환자 특정 HLA를 인코딩한 시퀀스를 포함한다. 추가 단계에서, 상기 환자 시퀀스 리드들은 복수의 k-mers의 개별 세트들로 분해되고, 그런 다음 합성 de Bruijn 그래프가 상기 기준 시퀀스 및 상기 복수의 k-mers의 개별 세트들을 이용하여 생성된다. 상기 복수의 환자 시퀀스 리드들의 개별 보우트(vote)들로부터 계산된 합성 매칭 스코어(composite match score)를 이용하여 상기 알려진 별개의 HLA 대립 유전자들의 각각이 순위화되고, 각각의 보우트는 상기 알려진 별개의 HLA 대립 유전자들내 대응하는 세그먼트들에 매칭하는 k-mers를 이용하는 것이 추가로 고려된다.
가장 전형적으로, 상기 기준 시퀀스는 적어도 1%의 대립 유전자 빈도를 갖는 적어도 하나의 HLA 형별에 대한 대립 유전자들을 포함하거나, 또는 상기 기준 시퀀스는 적어도 하나의 HLA 형별에 대한 적어도 10개의 상이한 대립 유전자들 및/또는 적어도 두개의 별개의 HLA 형별들에 대한 대립 유전자들을 포함한다. 상기 HLA 형별에 대하여, 적절한 HLA-형별들은 HLA-A 형별, HLA-B 형별, HLA-C 형별, HLA-DRB-1 형별, 및/또는 HLA-DQB-1 형별을 포함한다는 것이 고려된다.
환자 시퀀스 리드들은 전형적으로 복수의 DNA 시퀀싱 리드들 및 RNA 시퀀싱 리드들 중 적어도 하나를 포함하고, 전형적으로 염색체 6p21.3에 매핑될 것이다. 가장 전형적으로, 상기 환자 시퀀스 리드들은 차세대 시퀀싱 리드(next generation sequencing read)들이고 메타데이터(metadata)를 더 포함하고 및/또는 50 와 250 사이의 베이스(base)들의 길이를 갖는다. k-mers에 대하여, 선호되는 k-mers는 10-20의 길이를 갖고 및/또는 상기 환자 시퀀스 리드 길이의 5%와 15% 사이의 길이를 갖는다는 것이 고려된다. 창의적인 내용에 제한되는 것을 아니지만, 일반적으로 상기 합성 매칭 스코어는 상기 복수의 환자 시퀀스 리드들로부터의 모든 보우트들의 합계이고, 상기 보우트는 전형적으로 각 환자 시퀀스 리드에 대하여 전체 수의 k-mers 대 매칭 k-mers의 비율을 나타내는 값인 것이 선호된다.
따라서, 상기 합성 매칭 스코어를 이용하여, 방법들이 상기 환자의 제 1 HLA-형별로서 탑-순위 HLA 대립 유전자를 식별하는 단계를 포함할 수 있다는 것을 고려한다. 원하는 경우, 남은 비-탑-순위의 알려진 별개의 HLA 대립 유전자들을 재-순위화(re-ranking)하는 추가 단계가 상기 환자의 제 2 HLA-형별로서 조절된 탑-순위 HLA 대립 유전자를 식별하기 위해 조절된 합성 매칭 스코어를 이용하여 구현될 수 있다. 가장 전형적으로, 상기 조절된 합성 매칭 스코어는 상기 복수의 환자 시퀀스 리드들의 개별 조절된 보우트들로부터 계산되고, 상기 조절된 보우트들은 상기 제 1 HLA-형별에 매칭되는 k-mer의 가중치(weight)를 차감(devalue)함으로써 계산될 수 있다.
상기의 내용을 고려하여, 발명자는 따라서 환자에 대한 HLA-형별(type) 인실리코(in silico) 예측을 위한 컴퓨터 시스템을 고려한다. 상이한 관점에서 보았을 때, 발명자는 기준 시퀀스 데이터베이스 및 환자 시퀀스 데이터 소스가 분석 엔진에 정보적으로(informationally) 결합된 컴퓨터 시스템에 대한 프로그램 명령들을 포함하는 비-일시적인 컴퓨터 판독가능한 매체를 고려한다. 적절한 기준 시퀀스들, 환자 시퀀스 리드들, HLA-형별들, k-mers, 합성 매칭 스코어들, 및 추가의 재-순위화 단계들에 대하여, 제공된 동일한 고려사항들이 상기와 같이 적용된다.
창의적인 내용들의 다양한 목적들, 특징부들, 측면들 및 장점들은 같은 번호들이 같은 컴포넌트들을 나타내는 첨부 도면들과 함께 선호되는 실시예들의 이하의 상세한 설명으로부터 보다 명확해질 것이다.
도 1은 본 발명의 창의적인 내용에 따른 일 대표적인 방법의 개략도이다.
도 2는 본 발명의 창의적인 내용에 따른 일 대표적인 컴퓨터 시스템의 개략도이다.
발명자는 알려진 시퀀스 정보, 및 통계적 및 경험적 분석으로 기준 시퀀스와 함께 De Bruijn 그래프기반의 방법들을 이용하여 시퀀스들이 프로세스되는 접근법으로 다양한 밀접하게 연관된 시퀀스들의 매우 정확한 정렬이 쉽게 성취될 수 있다는 것을 발견하였다. 각각의 HLA-형별이 아주 흔하게 매우 유사한 대립 유전자들을 갖기 때문에, 전통적인 정렬 방법들은 전형적으로 시퀀스들이 높은 유사 정도를 갖는 경우 상당한 변별 성능들을 갖지 못한 것으로 이런 분석은 DNA 및/또는 RNA 시퀀싱 정보로부터 HLA 결정에 대하여 특별히 유익하다.
창의적인 내용의 일 대표적인 측면에서, 염색체 6p21.3 (또는 HLA 대립 유전자들이 발견된 곳에서/그 근처의 임의의 다른 위치)에 비교적 큰 수의 환자 시퀀스 리드 매핑이 데이터베이스 또는 시퀀싱 기계에 의해 제공된다. 대부분의 전형적인 시퀀스 리드들은 약 100-300 베이스(base)들의 길이를 가질 것이고 리드 품질, 정렬 정보, 방위, 위치, 등을 포함하는 메타데이터를 포함할 것이다. 예를 들어, 적절한 포맷들은 SAM, BAM, FASTA, GAR, 등을 포함한다. 창의적인 내용에 한정되지 않지만, 환자 시퀀스 리드들은 적어도 5x, 보다 전형적으로 적어도 10x, 훨씬 더 전형적으로 적어도 20x, 및 가장 전형적으로 적어도 30x의 커버리지(coverage)의 깊이를 제공하는 것이 일반적으로 선호된다.
환자 시퀀스 리드들에 추가하여, 고려된 방법들은 추가로 알려진 그리고 별개의 HLA 대립 유전자들의 복수의 시퀀스들을 포함하는 하나 이상의 기준 시퀀스들을 채용한다. 예를 들어, 전형적인 기준 시퀀스(reference sequence)는 해당 HLA-형별의 다수의 HLA-대립 유전자들을 갖는 적어도 하나의 HLA-형별의 시퀀스 세그먼트들을 포함하는 인조(synthetic) (대응하는 인체 또는 다른 포유류 상대물(counterpart) 없는) 시퀀스일 수 있다. 예를 들어, 적절한 기준 시퀀스들은 HLA-A의 적어도 50 상이한 대립 유전자들에 대한 알려진 게놈 시퀀스들의 집합(collection)을 포함한다. 대안적으로, 또는 추가적으로, 기준 시퀀스들은 HLA-A의 적어도 50 상이한 대립 유전자들에 대한 알려진 RNA 시퀀스들의 집합을 또한 포함한다. 물론, 그리고 이하에서 더 상세하게 논의되는 바와 같이, 기준 시퀀스는 HLA-A의 50 대립 유전자들로 제한되는 것이 아니라, HLA-형별 및 대립 유전자들의 수/조성물에 대하여 대안 조성물을 가질 수 있다. 가장 전형적으로, 기준 시퀀스는 컴퓨터 판독가능한 포맷으로 있을 것이고 데이터베이스 또는 다른 데이터 스토리지 디바이스로부터 제공될 것이다. 예를 들어, 적절한 기준 시퀀스 포맷들은 FASTA, FASTQ, EMBL, GCG, 또는 GenBank 포맷을 포함하고, 공공 데이터 저장소 (예를 들어, IMGT, the International ImMunoGeneTics information system, 또는 The Allele Frequency Net Database, EUROSTAM, www.allelefrequencies.net)의 데이터로부터 직접 획득되거나 또는 건조될 수 있다. 대안적으로, 기준 시퀀스는 또한 하나 이상의 미리 결정된 기준 예컨대 대립 유전자 빈도, 인종(ethnic) 대립 유전자 분포, 공통 또는 희귀(rare) 대립 유전자 형별들, 등에 기초하여 개별 알려진 HLA-대립 유전자들로부터 건조될 수 있다.
기준 시퀀스를 이용하여, 환자 시퀀스 리드들은 이제 최적합 대립 유전자들을 식별하기 위해 De Bruijn 그래프를 통하여 스레드(thread)될 수 있다. 이런 상황에서, 각각의 개인은 각각의 HLA-형별에 대하여 두개의 대립 유전자들을 가지고 다니고, 이들 대립 유전자들은 매우 유사할 수 있거나, 또는 일부 경우들에서 심지어 같을 수 있다는 것에 유의하여야 한다. 이런 높은 유사 정도는 전통적인 정렬 기법들에 대하여 상당한 문제를 제기한다. 발명자는 이제 HLA 대립 유전자들, 및 심지어 매우 밀접하게 연관된 대립 유전자들은 de Bruijn 그래프가 시퀀스 리드를 비교적 작은 k-mers (전형적으로 10-20 베이스의 길이를 갖는)로 분해함으로써, 그리고 각각의 환자 시퀀스 리드가 대립 유전자의 시퀀스에 매칭되는 해당 시퀀스 리드의 k-mers의 베이시스(basis)상에서 각각의 대립 유전자들에 대한 보우트(vote)(“양적인 리드 서포트(quantitative read support)”)을 제공하는 가중 보우트 프로세스(weighted vote process)를 구현함으로써 구성되는 접근법을 이용하여 해결될 수 있다는 것을 발견하였다. 그런 다음 점증적으로 대립 유전자에 대한 가장 높은 보우트는 가장 가능성이 있는 예견된 HLA 대립 유전자를 나타낸다. 추가하여, 전반적으로 대립 유전자에 매칭되는 각각의 단편(fragment)이 이하에 보다 상세하게 또한 도시되는 것처럼 해당 대립 유전자에 대한 커버리지의 깊이 및 전체 커버리지를 계산하기 위해 또한 사용된다는 것이 선호된다.
동일한 HLA-형별에 대한 제 2 대립 유전자의 식별을 위하여, 발명자는 훨씬 상대적으로 유사한 제 2 대립 유전자들은 탑-순위(top-ranking) HLA-대립 유전자가 추가 고려에서 제거되고, 나머지 대립 유전자들이 조절된 (“스케일링된(scaled)”) 보우트를 이용하여 재-순위화(re-ranked)되는 더 경험적 접근법으로 해결될 수 있다는 것을 발견했다. 보다 구체적으로, 재-순위화는 탑-순위 대립 유전자와 매칭된 k-mers에 대한 보우트 값(vote value)이 재-순위화 보우트에서 축소되도록 수행된다. 이런 조절된 보우트는 탑-순위 대립 유전자에 유사한 유전자형들에 대한 가중 보우트들이 줄어들고(그러나 배제되지 않고), 따라서 유전적으로 덜 연관된 대립 유전자들이 더 가중치를 준다. 동시에, 유사한 대립 유전자들이 무시되지 않는다. 순위화(ranking)는 커버리지의 깊이 및 전체 커버리지를 고려함으로써 추가로 세분화될 수 있다. 예를 들어, 제 1 재-순위화된 대립 유전자는 실질적으로 제 2 재-순위화된 대립 유전자보다 더 낮은 전체 커버리지 및 커버리지의 깊이로 더 높게 스코어 될 수 있다. 이런 경우에, 제 2 재-순위화된 대립 유전자는 더 가능성이 있는 올바른 대립 유전자일 수 있다. 그래서 탑-순위의 재-순위화된 대립 유전자는 동일한 HLA-형별에 대한 제 2 대립 유전자이다. 물론, 및 상기에서 언급한 바와 같이, 재-순위화는 전체 커버리지 및 커버리지의 깊이를 고려할 수 있고, 심지어 전체 커버리지 및/또는 커버리지의 깊이가 유저 정의된 임계값 (예를 들어, 94%보다 작은 전체 커버리지, 및/또는 10x 보다 작은 커버리지의 깊이) 아래로 떨어지는 대립 유전자의 결격으로 이어질 수 있다. 추가하여, 보우트로서 k-mers 매칭을 이용하는 것은 또한 특정 보우트가 올바른 예측일 가능성이 있는이지 없는지에 대한 추가 가이드로서 역할을 할 수 있는 특정 보우트에서 고유 k-mers의 식별을 허용한다. 아래의 표 1은 de Bruijn 그래프 접근법 및 1000 게놈 프로젝트로부터 단일 게놈 (YRI)을 이용하여 다양한 HLA-형별들 (HLA-A, HLA-B, HLA-C, DRB1, DQB1)에 대한 대립 유전자들의 대표적인 예측을 제공한다 (IGSR: The International Genome Sample Resource).
Figure 112019072013085-pat00001
표 1
대표적인 분석으로부터 쉽게 알 수 있는 바와 같이, 각각의 형별에 대한 탑-순위 HLA 대립 유전자는 쉽게 구별되고, 제 2 순위 대립 유전자는 실질적으로 동일한 HLA-형별에 남은 대립 유전자들로부터, 특별히 가중된 스코어가 관측되는 경우 실질적으로 구별된다. 각각의 HLA-형별에 제 1 및 제 2 HLA 대립 유전자들의 선택은 또한 상당히 더 높은 커버리지 깊이까지 그리고 어느 정도의 커버리지까지 잘 서포트된다. % 고유 k-mers (탑 순위에 비하여)는 또한 본 출원에 제공된 시스템들 및 방법들의 좋은 유사도 및 구별 파워의 좋은 표시를 제공한다는 것이 또한 이해되어야 한다.
물론, 분석 및 HLA 예측은 상기에서 도시된 특정한 HLA-형별들에 제한될 필요는 없고, HLA-E, HLA-F, HLA-G, HLA-H, HLA-J, HLA-K, HLA-L, HLA-V, HLA-DQA1, HLA-DMA, HLA-DMB, HLA-DOA, HLA-DOB, HLA-DPA1, HLA-DPB1, HLA-DRA, HLA-DRB345, HLA-MICA, HLA-MICB, HLA-TAP1, HLA-TAP2, 및 심지어 새롭게 발견된 HLA 형별들 및 그것들의 대응하는 대립 유전자들을 포함하여 모든 HLA-형별들 및 대립 형질(allelic) 변이들 본 출원에서 고려된다는 것이 이해되어야 한다. 게다가, 분석은 단일 HLA-형별에 제한될 필요는 없고, 다수의 HLA-형별들이 본 출원에서의 사용에 적절하다는 것이 이해되어야 한다. 결과적으로, 기준 시퀀스는 개별 HLA-형별들에 대한 대립 유전자들의 집합을 갖는 두개, 세개, 네개, 또는 그 이상의 HLA-형별들을 포함할 수 있다. 각각의 HLA-형별은 상당한 수의 대립 유전자들을 갖기 때문에, 알려진 대립 유전자들의 전부가 기준 시퀀스에 포함될 필요가 없다는 것이 고려된다. 예를 들어, 기준 시퀀스는 특정한 임계값을 넘는 대립 유전자 빈도(allele frequency) 예컨대 적어도 0.1%, 또는 적어도 0.5%, 또는 적어도 1%, 또는 적어도 2%, 또는 적어도 5%의 대립 유전자 빈도를 갖는 대립 유전자들을 포함할 수 있다. 따라서, 상이한 관점에서 보았을 때, 적절한 기준 시퀀스들은 적어도 하나의 HLA 형별에 대하여 적어도 10, 또는 적어도 30, 또는 적어도 50, 또는 적어도 100, 또는 적어도 200 또는 적어도 500, 또는 훨씬 더 많은 상이한 대립 유전자들을 포함할 수 있다.
유사하게, 환자 시퀀스 리드들의 성질 및 형별은 상당히 변화할 수 있다는 것이 이해되어야 한다. 예를 들어, 고려되는 환자 시퀀스 리드들이 DNA 및 RNA 시퀀스들을 포함할 것이면, 각각은 관련 기술 분야에서 알려진 모든 방법들을 이용하여 획득될 수 있다. 게다가, 이런 시퀀스 리드들은 데이터 스토리지 (예를 들어, 데이터베이스)로부터 또는 시퀀싱 장비로부터 제공될 수 있다. 예를 들어, DNA 시퀀스 리드들은 NGS 시퀀싱 기계로부터 유도될 수 있고, RNA 시퀀스들은 rtPCR 시퀀싱 디바이스들로부터 유도될 수 있다. 따라서, 환자 시퀀스 리드들의 길이는 전형적으로 20 베이스보다 더 길고, 보다 전형적으로 50 베이스보다 더 길고, 및 가장 전형적으로 100 베이스보다 더 길 것이지만, 그러나, 일반적으로 5,000 베이스보다 더 짧거나, 또는 3,000 베이스보다 더 짧거나, 또는 1,000 베이스보다 더 짧을 것이다. 결과적으로, 고려되는 환자 시퀀스 리드들은 100과 500 베이스 사이 또는 150과 1,000 베이스 사이의 길이를 가질 수 있다.
컴퓨팅 시간 및 데이터 스토리지 및/또는 메모리 요건을 줄이기 위해서, 환자 시퀀스 리드들이 HLA-형별 유전자들이 위치되는 게놈 영역들에 미리 선택되는 것이 추가로 선호된다. 예를 들어, 염색체 6p21.3에 매핑되는 환자 시퀀스 리드들이 특별히 고려된다. 마찬가지로, 환자 시퀀스 리드들은 HLA 대립 유전자 좌위들(loci)이 알려진 게놈에 대한 가능성이 있는 위치를 표시하는 하나 이상의 주석(annotation)의 베이시스상에서 또한 선택될 수 있다. 대안적으로, 주석은 또한 HLA 대립 유전자인 것으로 시퀀스의 가능성을 직접 조회할 수 있다.
환자 시퀀스 리드들의 길이에 관계없이, 일반적으로 환자 시퀀스 리드들은 비교적 짧은 길이를 갖는 k-mers로 분해되고, 특별히 선호되는 길이는 전형적으로 10 과 30 사이인 것이 선호된다. 특히, 이런 짧은 k-mer 길이는 특별히 이런 k-mers를 함유하는 단편에 대한 가중 보우트때문에 변이 판정에서 더 높은 분해능 및 정확도를 허용한다. 따라서, k-mer 길이는 전형적으로 10-30 사이이거나, 또는 15-35 사이이거나, 또는 20-40사이이다. 상이한 관점에서 보았을 때, k-mers는 바람직하게는 60보다 작은, 훨씬 더 바람직하게는 50보다 작은, 및 가장 바람직하게는 40보다 작은, 그러나 5보다 더 긴, 보다 전형적으로 8보다 더 긴, 및 가장 전형적으로 10보다 더 긴 길이를 가질 것이다. 예를 들어, 적절한 k-mers는 따라서 환자 시퀀스 리드 길이의 5% 와 15% 사이의 길이를 가질 것이다.
순위화 및 합성 매칭 스코어에 대하여, 가장 선호되는 측면들에서 매칭 스코어는 환자 시퀀스 리드들에 존재하는 모든 k-mers의 베이시스상에서 생성될 것이고, 각각의 보우팅(voting)(즉, 매칭) k-mer가 같은 보우팅 파워를 갖는다는 것에 유의하여야 한다. 결과적으로, 환자 시퀀스 리드는 기준 시퀀스내 각각의 대립 유전자들에 대한 특정 양적인 리드 서포트를 가질 것이다. 게다가, 대부분의 경우들에서 게놈내 각각의 위치가 >1 시퀀싱 깊이를 갖고, 각각의 환자 시퀀스 리드가 대립 유전자의 전체 길이의 단지 일부를 커버할 것이기 때문에, 각각의 대립 유전자는 다수의 환자 시퀀스 리드들로부터 다수의 보우트들을 수신할 수 있다. 가장 전형적으로, 대립 유전자에 대한 보우트들의 전부가 더해져서 해당 대립 유전자에 대한 합성 매칭 스코어에 도달한다. 그런다음 각각의 대립 유전자들에 대한 합성 매칭 스코어가 순위화 및 추가 분석을 위하여 사용된다.
그러나, 창의적인 내용의 대안 측면들에서, 합성 스코어의 계산 및 스코어링(scoring)은 하나 이상의 특정 목적을 달성하기 위해서 변형될 수 있다는 것에 유의하여야 한다. 예를 들어, 단편에 대한 매칭 스코어는 매칭 k-mers의 전부로부터 계산될 필요가 없고, 단지 k-mers의 랜덤 수 또는 선택을 카운트할 수 있다. 반면에, 완벽한 매칭보다 작은 (예를 들어, 14/15 매칭) k-mers은 보우팅 권리들, 어쩌면 더 낮은 보우팅 가중치(voting weight)가 주어질 수 있다. 마찬가지로, 및 특별히 메타데이터가 이용 가능한 경우, 리드 품질이 특정 임계값 아래로 떨어지는 k-mers 및/또는 환자 시퀀스 리드들에 대하여 보우트 가중치는 축소될 수 있다. 반면에, 낮은 시퀀싱 깊이가 존재하는 경우, 보우트들은 특정한 단편에 대하여 과도하게 표현될 수 있다. 또 다른 고려되는 측면에서, 특별히 리드 깊이가 비교적 높은 (예를 들어, 적어도 15x, 또는 적어도 20x, 또는 적어도 30x) 경우에, 동일한 위치에 대한 환자 시퀀스 리드들은 보우트에 기초하여 배제되거나 또한 포함될 수 있다. 결과적으로, 합성 매칭 스코어는 전체 이용 가능한 보우트들에 기초될 수 있거나, 또는 단지 대립 유전자에 대하여 이용 가능한 비율에 기초될 수 있다.
순위화는 전형적으로 누적 매칭 스코어에 의존하지만, 순위화는 또한 적어도 하나의 인자(factor)를 이용하여 정정될 수 있다는 것이 인식되어야 한다. 이런 정정 인자들은 커버되는 비율(fraction covered), 시퀀싱 깊이(sequencing depth), 고유 k-mers의 양, 및 이용 가능한 단편들의 메타데이터를 포함한다. 예를 들어, 보우팅 가중치는 대립 유전자의 커버리지가 미리 결정된 임계값 (예를 들어, 96%보다 작거나, 또는 94%보다 작거나, 또는 92%보다 작은, 등) 아래인 및/또는 시퀀싱 깊이가 미리 결정된 임계값 (예를 들어, 15x보다 작거나, 또는 12x보다 작거나, 또는 10x보다 작은, 등) 아래인 대립 유전자들에 대하여 축소될 수 있다. 반면에, 보우팅 가중치는 또한 예를 들어, 고유 k-mers의 퍼센티지가 미리 결정된 임계값 (예를 들어, 2% 초과, 또는 5% 초과, 또는 10% 초과)을 초과하는 대립 유전자들에 대하여 증가될 수 있다.
탑 순위 대립 유전자는 전형적으로 소정의 HLA-형별에 대하여 제 1 예견된 대립 유전자이고, 하지만 제 2 순위 대립 유전자는 동일한 HLA-형별에 대하여 제 2 대립 유전자일 수 있다. 그러나, 스코어링(scoring)은 필요할 때, 특별히 탑 순위에 이은 많은 순위들이 유사한 합성 매칭 스코어들을 가지는 경우 (예를 들어, 그것들의 스코어의 중요 부분이 높게 공유된 k-mers의 세트에서 오는 경우) 추가로 개선되거나 또는 세분화될 수 있다는 것에 유의하여야 한다. 일 선호되는 예제에서, 탑-순위 k-mer에 매칭되는 (완벽하게, 또는 적어도 90%, 또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99%의 유사도로) k-mers의 가중치가 정정 인자에 의해 축소되는 재계산을 포함하는 스코어 세분화 절차가 구현될 수 있다. 이런 정정 인자는 임의의 미리 결정된 양 만큼 보우트를 평가절하할 수 있다. 가장 전형적으로 정정 인자는 10%, 또는 20-40%, 또는 40-60% 만큼, 또는 심지어 더 많이 보우트를 평가절하 할 것이다. 이것은 탑-순위 대립 유전자에 유사한 유전자형들에 대한 가중 보우트들을 줄이고, 비교적 다른 유전자형들을 더 중요하게 하는 효과를 가진다. 따라서, 제 1 대립 유전자는 모든 시퀀싱 데이터로부터 가장 높은 최상의 서포트(support)에 기초하여 식별되고, 한편 제 2 대립 유전자는 원래의(raw) 가중 보우트, 스케일링된 가중 보우트, 및 제 2 대립 유전자가 데이터세트들에 서포트를 갖는지 (예를 들어, 높게 스케일링된 가중 보우트 및 유전자형 커버리지) 또는 게놈이 제 1 유전자형에 대한 동형접합인지 (예를 들어, 높은 원래의 가중 보우트, 매우 낮게 스케일링된 가중 보우트, 적절한 커버리지를 갖는 다른 대립 유전자들이 없는)를 결정하기 위한 커버리지를 이용하여 보다 경험 기반 접근법으로 식별된다는 것에 유의하여야 한다. 상이한 관점에서 볼 때, 재-순위화(re-ranking)는 바람직하게는 심지어 탑 순위 대립 유전자에 유사한 대립 유전자들의 존재시에 제 2 대립 유전자의 더 정확한 변별을 허용한다. 게다가, 이런 방법은 또한 동형접합 HLA-형별들의 즉시 이용할 수 있는(ready) 식별을 허용한다. 추가하여, 이런 방법들은 해시 표(hash table)의 사용을 필요로 하지 않고 시퀀스 리드들을 HLA 형별로 조립하지 않고서 적절한 HLA 대립 유전자의 식별을 허용한다는 것이 이해되어야 한다. 더 나아가, 고려되는 시스템들 및 방법들은 또한 DNA 및/또는 RNA 데이터의 사용을 허용한다.
고려되는 방법들의 하나의 전형적인 실시예가 전형적으로 도 1 에 도시되고 여기서 방법(100)은 알려진 별개의 HLA 대립 유전자들의 복수의 시퀀스들을 포함하는 기준 시퀀스가 제공되는 일 단계(110)을 가진다. 단계(120)에서, 복수의 환자 시퀀스 리드들이 제공되고, 환자 시퀀스 리드들의 적어도 일부는 환자 특정 HLA를 인코딩한 시퀀스를 포함하고, 한편 단계(130)에서, 복수의 환자 시퀀스 리드들은 복수의 k-mers의 개별 세트(set)들 (전형적으로 각각의 k-mer가 1 베이스의 증분(increment)들로 진전하는 (또는 바람직하게는 2 베이스, 또는 3 베이스, 또는 4 베이스보다 작은))로 분해된다. 단계(140), 합성 de Bruijn 그래프가 기준 시퀀스 및 복수의 k-mers의 개별세트를 이용하여 생성되고, 단계(150)에서, 각각의 알려진 별개의 HLA 대립 유전자들은 복수의 환자 시퀀스 리드들의 개별 보우트들로부터 계산된 합성 매칭 스코어를 이용하여 순위화되고, 각각의 보우트는 알려진 별개의 HLA 대립 유전자들내 대응하는 세그먼트들에 매칭하는 k-mers를 이용한다.
이런 방법을 위한 대표적인 시스템이 도 2 에 도시되고 여기서 시스템 (200)는 기준 시퀀스 데이터베이스(202) (예를 들어, 알려진 별개의 HLA 대립 유전자들의 복수의 시퀀스들을 포함하는 기준 시퀀스를 저장하는 데이터베이스 또는 파일)를 포함하고 또한 환자 시퀀스 데이터 소스 (204) (예를 들어, 복수의 환자 시퀀스 리드들을 저장 또는 제공하는 시퀀스 데이터베이스 또는 시퀀싱 디바이스, 환자 시퀀스 리드들의 적어도 일부는 환자 특정 HLA를 인코딩한 시퀀스를 포함하고)를 포함하고, 양자는 (i) 복수의 환자 시퀀스 리드들을 복수의 k-mers의 개별 세트들로 분해하고; (ii) 기준 시퀀스 및 복수의 k-mers의 개별 세트들을 이용하여 합성 de Bruijn 그래프를 생성하고; 및 (iii) 복수의 환자 시퀀스 리드들의 개별 보우트들로부터 계산된 합성 매칭 스코어(composite match score)를 이용하여 각각의 알려진 별개의 HLA 대립 유전자들을 순위화시키도록 프로그래밍된 분석 엔진 (208)에 네트워크 (206) (예를 들어, LAN, WAN, 이더넷, 인터넷) 를 통하여 정보적으로(informationllay) 결합되고, 여기서 각각의 보우트는 알려진 별개의 HLA 대립 유전자들내 대응하는 세그먼트들에 매칭하는 k-mers를 사용한다.
컴퓨터에 지시되는 임의의 언어는 서버들, 인터페이스들, 시스템들, 데이터베이스들, 에이전트(agent)들, 피어(peer)들, 엔진들, 제어기들, 또는 개별적으로 또는 총괄하여 동작하는 다른 형별들의 컴퓨팅 디바이스들을 포함하는 컴퓨팅 디바이스들의 임의의 적절한 조합을 포함하는 것으로 이해되어야 한다는 것에 유의하여야 한다. 컴퓨팅 디바이스들은 유형의(tangible), 비-일시적 컴퓨터 판독가능한 스토리지 매체 (예를 들어, 하드 드라이브, 고체 상태 드라이브(solid state drive), RAM, 플래시, ROM, 등)상에 저장된 소프트웨어 명령들을 실행시키도록 구성된 프로세서를 포함한다는 것이 이해되어야 한다. 소프트웨어 명령들은 바람직하게는 개시된 장치에 대하여 이하에서 논의되는 역할들, 책임들, 또는 다른 기능을 제공하도록 컴퓨팅 디바이스를 구성한다. 특별히 선호되는 실시예들에서, 다양한 서버들, 시스템들, 데이터베이스들, 또는 인터페이스들은 어쩌면 HTTP, HTTPS, AES, 공공-개인 키 교환들, 웹 서비스 API들, 알려진 금융 거래 프로토콜들, 또는 다른 전자 정보 교환 방법들에 기초하는 표준화된 프로토콜들 또는 알고리즘들을 이용하여 데이터를 교환한다. 데이터 교환들은 바람직하게는 패킷-스위치된 네트워크, 인터넷, LAN, WAN, VPN, 또는 패킷 스위치드(switched) 네트워크의 다른 유형을 통하여 수행된다.
게다가, 본 출원에 제공된 시스템들 및 방법들은 de Bruijn 그래프 엘리먼트들 (및 가중화)의 구조화 및 순위화가 전통적인 데이터 포맷들 및 프로세싱 기법들에 비교하여 정확도 및 속도를 크게 증가시키는 컴퓨터 기능을 개선한다는 것에 유의하여야 한다. 더욱이, 발명자에 의해 해결된 문제는 생물정보학의 분야에 특정되고 오믹스(omics) 정보의 계산 없이 심지어 존재하지도 않는다는 것이 이해되어야 한다. 마지막으로, 분석 엔진에 의해 수행된 태스크(task)들은 컴퓨터 시스템들의 도움없이 인체의 수명내에 타당하게 수행될 수 없다는 것이 인식되어야 한다.
상기 내용으로부터 쉽게 알 수 있는 것처럼, 고려되는 시스템들 및 방법들은 각각의 HLA 형별에 대하여 제 2 위치 스코어만큼 실질적으로 더 높게 등급된/가중된 탑 스코어를 제공한다. 따라서, De Bruijn 그래프-형별 분석에 기반된, 매우 높은 정확도를 갖는 HLA-형별들이 예견될 수 있다는 것이 인식되어야 한다. 게다가, 본 출원에 제공된 시스템들 및 방법들은 또한 다양한 다른 태스크들 예컨대 병원균 변이들 기준 시퀀스의 일부, 또는 종양 다양성의 유형화, 등을 형성하는 병원균 (예를 들어, 바이러스성 병원균 예컨대 HPV, 박테리아 병원균 예컨대 항균제(myobacteria), 또는 기생 병원균 예컨대 Plasmodium falciparum)의 유형화(typing)에 적절하다는 것이 인식되어야 한다.
창의적인 내용의 추가 측면에서, de Bruijn 그래프들에 기반된 고려되는 시스템 및 방법들은 구조상 변이들을 식별하고 분류하는데 또한 사용될 수 있다. 여기서, 기준 및 원래의(raw) 시퀀싱 데이터는 두개의 게놈 영역들 (예를 들어, 추정(putative) 구조상 변이들의 두개의 측면들, 예를 들어, bcr-abl 융합(fusion))로부터 획득되고 그래프를 건조하기 위해 사용된다. 그런다음 버블(bubble)들은 가능한 구조상의 변이들로서 식별되고 여기서 한계(bounding) 기준 에지들은 유저-정의된 최소 게놈 거리를 너머 분리되거나 또는 여기서 한계 기준 에지들은 상이한 염색체들 상에 위치된다. 이런 접근법은 대부분의 경우에 의심되는 구조상 변이의 사전(a priori) 위치 지식을 요구하지만 (기준 에지들의 위치들은 구조상의 변이가 의심되는 게놈에 정밀한 위치들을 제공한다), 이런 지식은 일반적으로 경계들에서 정확한 시퀀스를 식별하는데 도움이 되지 않는다. De Bruijn 그래프 접근법을 이용하는 것은 구조상의 변이의 훨씬 더 정밀한 재구성을 허용하고 브레이크포인트(breakpoint)내에 또는 그 근처의 임의의 새로운 시퀀스를 돕는다. 이런 방법들은 구조상의 변이들 (예를 들어, 삽입들, 중복, 등)이 동일한 스트랜드(strand)상에 위치되는 경우에 작용할 것이고 뿐만 아니라, 또한 그래프의 구성이 또한 계산된 역 보완(complement) k-mers의 사용을 포함하는 인버전(inversion)들을 식별하는데 동등하게 유용할 것이다는 것에 유의하여야 한다. 이미 앞에서 언급한 바와 같이, 식별된 구조상의 변이들은 그런 다음 vcf 또는 다른 적절한 포맷으로 보고될 수 있다.
예를 들어, 종양으로부터 수집된 시퀀스 정보는 에지들이 k-mer가 (예를 들어, 기준, 정상 샘플, 및/또는 종양 샘플, 상이한 시간들 또는 나이들에서 취해진 샘플들, 상이한 환자 또는 피험자 그룹들로부터의 샘플들, 등)에서 발견되는 어떤 입력 소스를 식별하는 "색상들"을 갖는 k-mers (예를 들어, k=15)이고, 여기서 각각의 에지가 인접한 에지들에 연결되는 채색된 De Bruijn 그래프로 표현될 수 있다. 물론, 시퀀스들은 DNA 뿐만 아니라 RNA 시퀀스들일 수 있고, 이는 바람직하게는 표현된 체세포 돌연변이(somatic mutations), RNA 에디팅(editing) 및 교번 스플라이싱(splicing) (예를 들어, 여기서 DNA 및 RNA는 동일한 조직으로부터 온다)의 식별을 허용한다는 것에 유의하여야 한다. 가장 전형적으로, 창의적인 내용의 일 선호되는 측면에서, 제 1 그래프는 게놈내 k-mer 위치들을 저장하기 위해 기준 시퀀스로부터 구성된다. 바람직하게는, 요구된 특정 태스크에 의존하여, k-mers는 3과 300 베이스 사이, 보다 바람직하게는 10-100 베이스 길이을 가질 것이다. 예를 들어, 삽입-결실(indel) 분석이 원해지는 경우, k-mer 길이들은 20-50 (예를 들어, k=30)일 수 있다. 따라서, 다른 관점에서 보았을 때, k-mer 길이는 시퀀스 리드들의 평균 길이의 5% 내지 15% 사이일 수 있다. 일단 제 1 그래프가 수립된 후에, 게놈의 주어진 영역내에 위치된 정상 원래 시퀀싱 데이터 및 종양으로부터의 k-mers (매핑되지 않은 앵커링된(anchored) 리드들을 포함)가 추가된다. 요구될 때, 약한 에지(weak edge)들은 최대 서포트(maximal support)가 특정 유저 정의된 임계값 (예를 들어, 여기서 k=13, 임계값은 8이다) 아래인 리드들을 제거하기 위해 그래프로부터 프룬(prune)될 수 있다. 이런 프루닝(pruning)은 전형적으로 시퀀스 예측/정렬의 정확도를 증가시킬 것이다.
de Bruijn 그래프 (k=5)내에 두개의 인접하는 에지들에 대한 예제 데이터 구조들이 아래에 설명된다:
Edge0.sequence = ATATC
Edge0.outgoing = [TATCG, TATCC]
Edge0.incoming = [TATAT]
Edge0.support = {‘reference’: 1, ‘tumor’: T0, ‘normal’: N0}
Edge0.quality_sum = {‘tumor’: TQ0, ‘normal’: NQ0}
Edge1.sequence = TATCG
Edge1.outgoing = [ATCGG]
Edge1.incoming = [ATATC]
Edge1.support = {‘reference’: 0, ‘tumor’: T1, ‘normal’: N1}
Edge1.quality_sum = {‘tumor’: TQ1, ‘normal’: NQ1}
이 예에서, Edge0 데이터 구조는 그것들의 k-mer 시퀀스들 TATCG 및 TATCC에 의해 정의된 두개의 아웃고잉(outgoing) 에지들을 가지며, 이들 중 전자는 후속 Edge1 데이터 구조에서 설명된다. Edge1'의 인커밍(incoming) 에지는 Edge0에 다시 링크된다. 상기의 데이터 구조에 열거된 서포트(support)는 에지의 시퀀스가 시퀀싱 데이터 (‘종양' 또는 ‘정상') 또는 기준 게놈 (‘기준(reference)')에서 보여졌던 횟수를 요약한다. 상기 에지들에 서포트에 기초하여, Edge0는 기준 게놈에서 서포트를 갖지만 그러나 (Edge1)에 연결된 아웃고잉 에지는 없다. 이것은 Edge1이 비-기준 변이의 시작일 수 있고, 그러나 추가로 후속 에지들의 인트로스펙션(introspection)이 그것의 토폴로지가 진짜 변이 (예를 들어, SNV 또는 기준 게놈에 존재하는 에지들에 의해 경계지어지는 작은 삽입 / 결실에 의해 야기되는 de Bruijn 그래프내 "버블(bubble)") 또는 인공(artefactual) 변이 (예를 들어, 잠재적으로 정크(junk) 또는 랜덤 시퀀싱 데이터에 의해 야기되는 기준 게놈내 에지에 재연결하지 않는 그래프내 "팁(tip)")에 따르는지 여부를 결정하는데 필요하다는 것을 표시한다. ‘종양' 및 ‘정상' 시퀀싱 데이터 (예를 들어, T0, N0, T1, 및 N1)내 서포트의 레벨에 의존하여, 비-기준 변이의 체세포(somatic) 또는 생식세포(germline) 분류가 결정될 수 있다. 분류의 한가지 간단한 방법에서, 변이는 만약 T1 > 0 및 N1 > 0 이면 생식세포, 만약 T1 > 0 및 N1 = 0이면 체세포, 또는 만약 T1 = 0 및 N1 > 0 이면 LOH로 분류될 것이지만, 그러나 거의 모든 실제적인 육아 발생(incarnation)에서, 체세포 또는 생식세포 상태는 비-기준 변이 (즉, 비-기준 경로내 에지들의 평균 / 최소 / 최대 서포트 및 베이스 품질)를 설명하는 전체 경로의 요약 분석(summary analysis)을 통하여 결정될 것이다.
추가 단계에서, 구성된 합성 그래프는 그런다음 종양 및 기준이 발산하는 접합(junction)들에 대하여 분석된다. 각각의 발산(divergence)에 대하여, 깊이-제 1 검색(search)이 통상 de Bruijn 그래프에 버블로서 도시되는 기준에 수렴하여 종양으로 귀결되는 종양 에지들을 통하여 모든 고유의 경로들을 식별하기 위해 사용된다. 브레드크럼즈(Breadcrumbs)가 루프들을 피하기 위해 사용될 수 있다. 그런 다음 합성 그래프가 추가 시퀀스들로 수립된다. 여기에서, 하나의 시퀀스는 두개의 다른 시퀀스들이, 종양 DNA 및 종양 RNA가 획득된 동일한 환자의 매칭된 정상 조직을 나타낼 수 있다. 이런 예제에서, 종양 DNA 및 종양 RNA은 같다 (반드시 항상 해당 경우는 아니다). 발산 및 수렴의 지점들은 k-mers를 이용하여 시퀀스 정보에 차이들에 의해 유도된다. 상기에서 나타낸 바와 같이, 발산의 면적은 그래프내 '버블'을 생성한다. 따라서, 다른 관점에서 보았을 때, 종양 시퀀스는 발산의 지점 및 재-수렴의 지점을 가질 수 있다는 것이 이해되어야 한다. 또한 주목되어야 하는 것으로, 종양 DNA 및 RNA 그래프들은 서로 평행할 수 있고, 이는 DNA 및 그것의 대응하는 전사(transcript)의 시퀀스 아이덴티티를 표시한다.
각각의 버블 솔루션의 말단으로부터의 통계적 분석은 그런 다음 가장 가능성 있는 정렬 및/또는 시퀀스를 식별하기 위해 사용될 수 있다. 가장 전형적인 실시예들에서 시퀀스들 단순한 원래의 시퀀스 리드들이 아니라 주석이 달린(annotated) SAM 또는 BAM 파일들이기 때문에, 통계적 분석은 각각의 리드에 대한 메타데이터에 기초한 리드 특정 파라미터들을 포함할 수 있다. 따라서, 통계적 분석은 최대 서포트, k-mers에 대한 매핑/베이스 품질들, 매칭된-정상에서 서포트, 등을 포함할 수 있다. 결과적으로, 게놈내 위치의 결정 및 기준 시퀀스를 재구성하기 위해 기준 에지들을 따라서의 백트랙킹(backtracking)이 전형적으로 유저 정의된 기준(예를 들어, 최소 서포트 > X 리드들, 정상에서 최대 서포트 < Y 리드들, 등)을 충족하는 그래프내 경로들에 대하여 수행될 수 있다는 것이 인식되어야 한다. 그래서 복원된 시퀀스들 및/또는 구조들은 그런 다음 특정 변이를 분류하기 위해 사용될 수 있다. 바람직하게는, 변이 분류가 vcf 포맷으로 제공되지만, 그러나 다른 포맷들이 또한 고려된다.
예제
HLA 예측을 확인하기 위해서, 세개의 독립적인 알려진 환자 레코드들 및 샘플들이 1000 게놈 프로젝트로부터 획득되었고 (NA19238, NA19239, 및 NA19240) 그리고 HLA-형별들이 상기에서 논의된 바와 같이 예견되었다. 현저하게 및 예기치 않게, 상기에서 설명된 De Bruijn 그래프 방법을 이용한 HLA 결정 및 예측은 아래의 표들 2A 및 2B에 보여지는 것처럼 HLA-C (NA19238에 대하여), DRB1 (NA19239에 대하여), 및 HLA-C (NA19240에 대하여)에 대한 예외를 갖는 거의 완벽한 매칭들을 가졌다.
Figure 112019072013085-pat00002
Figure 112019072013085-pat00003
표 2A 표 2B
여기서, 애매한 숫자들은 상기의 대립 유전자들로부터 제거되었다. 예를 들어, 만약 예측들이 A*04:02:01 및 A*04:02:02이었다면, 최종 애매한 숫자(여기서: 01 또는 02)는 제거되었고 그래서 예측 A*04:02를 수득하였다. 예견된 HLA 형별들 및 실험적으로 결정된 HLA 형별들 (‘실재(truth)') 사이에 차이들로 추가 조사는 놀랍게도 이하에서 더 상세하게 설명되는 것처럼 NA19238 및 NA19239가 NA19240 의 부모들이었기 때문에 실험적으로 결정된 HLA는 예상되는 유전적 성질(inheritance) 패턴에 따르지 않았다는 것을 보여주었다.
“실재(Truth)”가 결정된 C*18:01 및 예견된 C*18:02인 것에 대하여, 두개의 대립 유전자 형상들간에 단지 단일 베이스 변화가 있다는 것에 유의한다. 특히, C*18:01는 WGS 데이터내 제로 리드 서포트를 갖는 일련의 CTGG T TGTC (단지 연관된 시퀀스 부분)을 갖지만, 그러나 C*18:02는 WGS 데이터내 그것을 서포트하는 33리드들을 갖는 일련의 CTGG C TGTC (단지 연관된 시퀀스 부분)를 갖는다. 데이터에 따라, “실재(Truth)” C*18:01에 대하여 서포트가 없지만, 반면 예견된 C*18:02에 대한 많은 서포트가 있다.
“실재”가 결정된 DRB1*13:01이고 예견된 DRB1*12:01에 대하여: NA19240는 부모들 NA19238 및 NA19239의 자식이다는 것에 유의한다. 자식들은 각각의 부모로부터 각각의 HLA 형별에 대한 단지 하나의 대립 유전자를 물려받기 때문에, 실재 대립 유전자는 간단한 기본 멘델식 유전(Mendelian inheritance)으로부터 결정될 수 있다:
부모 1 (NA19238): 16:02, 11:01
부모 2 (NA19239): 13:01, ? <- 문제의 대립 유전자
자식 (NA19240): 16:02, 12:01
상기에서부터 알 수 있는 바와 같이, 자식은 부모 1로부터 16:02를 물려받아야만 하고, 이는 대립 유전자 12:01는 부모 2로부터 물려받아야만 하는 것을 의미한다. 특히, “실재(Truth)”는 13:01로서 부모 2에 대한 제 2 대립 유전자를 열거하지만, 그러나 이것은 유전에 기초하여 불가능하다. 부모 2에 대한 예견된 대립 유전자는 12:01이다. 그러나, 이것은 정확하게 유전에 기초하여 예견하는 것이다. 결과적으로, 상기 경우에 기초하여, “부정확한” 예측들은 실제로 “실재(Truth)”에서 에러들 때문이었다. 따라서, 본 출원에 제공된 HLA 예측 방법은 3 개별 데이터세트들내 5HLA들의 다양한 패널에 걸쳐 100% 정확도를 입증하였다. 추가로 상기의 예측은 평균 커버리지 WGS 샘플들을 이용하여 수행되었다는 것이 이해되어야 한다. 방법의 정확도는 때때로 DNA에 존재하는 2 대립 유전자들 중 단지 1 일 수 있는 종양에 의해 표현된 대립 유전자들의 식별을 허용하는 RNA 시퀀스 데이터를 이용하여 심지어 추가로 훨씬 개선될 수 있다. 고려된 시스템들 및 방법들의 추가 유익한 측면들에서, DNA 또는 RNA, 또는 양쪽 DNA 및 RNA의 조합은 종양 또는 혈액 DNA 또는 RNA으로부터 유도될 수 있고 크게 정확한 HLA 예측들을 만들도록 프로세스 될 수 있다. 게다가, 고려된 방법들은 모든 26 HLA 형별들에 기한 예측들을 획득하는데 매우 빠르고 (전형적으로 5 분보다 작은 런 타임으로), 및 새롭게 발견되거나 또는 극도로 희귀한 HLA 대립 유전자들이 평범한 방식으로 추가될 수 있다. 마지막으로, 정확한 결과들을 생성하기 위해서 어떠한 모집단기반의 경험적 방법들도 요구되지 않는다는 것에 유의하여야 한다.
따라서, 것이 이해되어야 한다 본 출원에 제공된 시스템들 및 방법들은 게놈 분석에서 발견된 diff 오브젝트들을 입증하거나 또는 확인하기 위해 사용될 수 있다. 게다가, RNA 정보가 동일한 그래프에서 사용되는 경우에, 돌연변이(mutant) 대립 유전자 표현이 즉각적으로 식별될 수 있다. 더 나아가, 상기의 결과들 및 논의에 기초하여 또한 시스템들 및 방법들은 RNA-Seq, 특별히 “활성가능한 융합(actionable fusions)” (예를 들어, BCR-ABL) 또는 종양유발 유전자 아형들 (예를 들어, EGFRvIII)을 이용하여 유전 융합들을 판정하는 것이 가능하다는 것이 고려된다.
본 출원에서 사용되는, 그리고 상황이 다른 식으로 기술하지 않으면, 용어 "에 결합된(coupled to)"은 직접 커플링 (서로에 결합된 두개의 엘리먼트들이 서로 컨택한다) 및 간접 커플링 (적어도 하나의 추가의 엘리먼트가 두개의 엘리먼트들 사이에 위치된다)를 포함하는 것으로 의도된다. 따라서, 용어들 "에 결합된" 및 "와 결합된"은 동의어로 사용된다. 게다가, 본 출원에 개시된 대안 엘리먼트들 또는 본 발명의 실시예들의 그룹화들은 제한들로서 간주되지 않아야 한다. 각각의 그룹 부재는 본 출원에서 발견된 다른 엘리먼트들 또는 그룹의 다른 부재들과 임의로 조합하여 또는 개별적으로 청구되고 언급될 수 있다. 그룹의 하나 이상의 부재들은 편의 및/또는 특허성의 이유들에 대하여 그룹에 포함될 수 있거나 또는 그룹으로부터 삭제될 수 있다. 임의의 이런 포함 또는 삭제가 일어날 때, 명세서는 본 출원에 수정된 그룹을 함유하는 것으로 여겨지고 따라서 첨부된 청구항들에서 사용되는 모든 Markush 그룹들의 기록 설명을 이행한다.
이미 설명된 것들 이외에 많은 더 나은 수정예들이 본 출원에서의 창의적인 개념들로부터 벗어나지 않고서 가능하다는 것이 당해 기술분야의 통상의 기술자들에게 명확하여야 한다. 창의적인 내용은, 따라서, 첨부된 청구항들의 범위를 제외하고 제한되지 않아야 한다. 게다가, 명세서 및 청구항들을 해석할 때, 모든 용어들은 상황에 따라 가능한 가장 광범위한 방식으로 해석되어야 한다. 특별히, 용어들 “포함한다” 및 “포함하는”는 언급된 엘리먼트들, 컴포넌트들, 또는 단계들이 명백하게 언급되지 않은 다른 엘리먼트들, 컴포넌트들, 또는 단계들과 함께 제공될 수 있거나 또는 사용될 수 있거나, 또는 결합된 것을 나타내는 비-배타적인 방식으로 엘리먼트들, 컴포넌트들, 또는 단계들을 지칭하는 것으로 해석되어야 한다. 명세서 청구항들이 A, B, C …. 및 N으로 구성된 그룹으로부터 선택된 적어도 하나의 어떤 것을 언급하는 경우에, 본문은 A 플러스 N, 또는 B 플러스 N, 등이 아니라 해당 그룹으로부터 단지 하나의 엘리먼트를 요구하는 것으로 해석되어야 한다.

Claims (45)

  1. 환자에 대한 HLA-형별(type) 인실리코(in silico) 결정 방법에 있어서,
    복수의 환자 시퀀스 리드(patient sequence read)들을 제공하는 단계로서, 상기 환자 시퀀스 리드들의 적어도 일부는 환자 특정 HLA를 인코딩한 시퀀스를 포함하는, 상기 시퀀스 리드들을 제공하는 단계;
    채색된 de Bruijn 그래프를 통하여 상기 복수의 환자 시퀀스 리드들을 스레드(thread)하기 위해 알려진 별개의 HLA 대립 유전자(allele)들의 복수의 시퀀스들을 포함하는 기준 시퀀스(reference sequence)를 이용하는 단계로서, 상기 de Bruijn 그래프에서 색상은 상이한 HLA 형별 또는 개별 변이(variant)를 구별하는, 상기 기준 시퀀스를 이용하는 단계;
    각각의 환자 시퀀스 리드는 상기 알려진 별개의 HLA 대립 유전자들에 대한 가중 보우트(weighted vote)를 제공하고, 및
    상기 대립 유전자들을 순위화하기 위해 각각의 알려진 별개의 대립 유전자에 대한 총 보우트들을 이용하고, 제 1 HLA-형별로서 최상위 대립유전자를 식별하기 위해 상기 보우트들을 이용하는 단계; 및
    제 2 HLA-형별을 식별하기 위해 총 보우트를 이용한 상기 제 1 대립 유전자 형별에 반대인 바이어스(bias)로 남은 대립 유전자들을 재-순위화하는 단계(re-ranking)를 포함하는, 방법.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 재-순위화하는 단계는 상기 최상위 대립 유전자와 매칭을 갖는 k-mers에 대한 보우트 값이 상기 재-순위화된 보우트에서 줄어들도록 수행되는, 방법.
  4. 청구항 1에 있어서,
    상기 스레드하는 단계는 상기 복수의 시퀀스 리드들의 각각을 k-mers로 분해하는 단계를 포함하는, 방법.
  5. 청구항 1에 있어서,
    상기 각각의 시퀀스 리드에 대한 가중 보우트는 상기 알려진 별개의 대립 유전자의 시퀀스에 매칭되는 상기 시퀀스 리드의 k-mers의 베이시스(basis)상에서 제공되는, 방법.
  6. 청구항 4 또는 청구항 5에 있어서,
    각각의 k-mer는 10과 30 사이의 베이스(base) 길이를 갖는, 방법.
  7. 청구항 1에 있어서,
    상기 시퀀스 리드에 대한 가중 보우트는 메타데이터(metadata)에 기초하여 수정되는, 방법.
  8. 청구항 1에 있어서,
    순위화는 시퀀싱 깊이(sequencing depth), 고유 k-mers의 양, 메타데이터로 구성된 그룹으로부터 선택된 인자를 이용하여 정정되는, 방법.
  9. 청구항 1에 있어서,
    상기 복수의 환자 시퀀스 리드들은 HLA 형별 유전자들이 위치되는 게놈 영역에 미리 선택되는, 방법.
  10. 청구항 1에 있어서,
    상기 복수의 환자 시퀀스 리드들은 복수의 DNA 시퀀싱 리드들을 포함하는, 방법.
  11. 청구항 1에 있어서,
    상기 복수의 환자 시퀀스 리드들은 복수의 RNA 시퀀싱 리드들을 포함하는, 방법.
  12. 청구항 1에 있어서,
    상기 기준 시퀀스는 적어도 1%의 대립 유전자 빈도(allele frequency)를 갖는 적어도 하나의 HLA 형별에 대한 대립 유전자들을 포함하는, 방법.
  13. 청구항 1에 있어서,
    상기 기준 시퀀스는 적어도 하나의 HLA 형별에 대하여 적어도 열 개의 상이한 대립 유전자들을 포함하는, 방법.
  14. 청구항 1에 있어서,
    상기 기준 시퀀스는 HLA-A 형별, HLA-B 형별, HLA-C 형별, HLA-DRB-1 형별, 및 HLA-DQB-1 형별로 구성된 그룹으로부터 선택된 적어도 두개의 별개의 HLA 형별들에 대한 대립 유전자들을 포함하는, 방법.
  15. 청구항 1에 있어서,
    상기 환자 시퀀스 리드들은 BAM 포맷, SAM 포맷, GAR 포맷 또는 RAW 포맷인, 방법.
  16. 환자에 대한 HLA-형별(type) 인실리코(in silico) 결정을 위한 컴퓨터 시스템에 있어서,
    알려진 별개의 HLA 대립 유전자들의 복수의 시퀀스들을 포함하는 기준 시퀀스(reference sequence)를 저장하는 기준 시퀀스 데이터베이스;
    복수의 환자 시퀀스 리드(patient sequence read)들을 제공하거나 또는 저장하는 환자 시퀀스 데이터 소스로서, 상기 환자 시퀀스 리드들의 적어도 일부는 환자 특정 HLA를 인코딩한 시퀀스를 포함하는, 상기 환자 시퀀스 데이터 소스;
    분석 엔진으로서,
    (i) 채색된 de Bruijn 그래프를 통하여 상기 복수의 환자 시퀀스 리드들을 스레드(thread)하기 위해 알려진 상기 기준 시퀀스를 이용하고, 각각의 환자 시퀀스 리드는 상기 알려진 별개의 HLA 대립 유전자들에 대한 가중 보우트(weighted vote)를 제공하고, 상기 de Bruijn 그래프에서 색상은 상이한 HLA 형별 또는 개별 변이(variant)를 구별하고, 및
    (ii) 상기 대립 유전자들을 순위화하기 위해 각각의 알려진 별개의 대립 유전자에 대한 총 보우트들을 이용하고, 제 1 HLA-형별로서 최상위 대립유전자를 식별하기 위해 상기 보우트들을 이용하도록 프로그램된, 상기 분석 엔진을 포함하고,
    상기 분석 엔진은 제 2 HLA-형별을 식별하기 위해 총 보우트를 이용한 상기 제 1 대립 유전자 형별에 반대인 바이어스(bias)로 남은 대립 유전자들을 재-순위화하도록 추가로 프로그램되는, 컴퓨터 시스템.
  17. 삭제
  18. 청구항 16에 있어서,
    상기 재-순위화는 상기 최상위 대립 유전자와 매칭을 갖는 k-mers에 대한 보우트 값이 상기 재-순위화된 보우트에서 줄어들도록 수행되는, 컴퓨터 시스템.
  19. 청구항 16에 있어서,
    상기 분석 엔진은 상기 스레드하는 단계가 상기 복수의 시퀀스 리드들의 각각을 k-mers로 분해하는 단계를 포함하도록 추가로 프로그램되는, 컴퓨터 시스템.
  20. 청구항 16에 있어서,
    상기 각각의 시퀀스 리드에 대한 가중 보우트는 상기 알려진 별개의 대립 유전자의 시퀀스에 매칭되는 상기 시퀀스 리드의 k-mers의 베이시스(basis)상에서 제공되는, 컴퓨터 시스템.
  21. 청구항 19 또는 청구항 20에 있어서,
    각각의 k-mer는 10과 30 사이의 베이스(base) 길이를 갖는, 컴퓨터 시스템.
  22. 청구항 16에 있어서,
    상기 분석 엔진은 메타데이터(metadata)에 기초하여 상기 시퀀스 리드에 대한 가중 보우트를 수정하도록 추가로 프로그램되는, 컴퓨터 시스템.
  23. 청구항 16에 있어서,
    상기 분석 엔진은 시퀀싱 깊이(sequencing depth), 고유 k-mers의 양, 메타데이터로 구성된 그룹으로부터 선택된 인자를 이용하여 순위화를 정정하도록 추가로 프로그램되는, 컴퓨터 시스템.
  24. 청구항 16에 있어서,
    상기 복수의 환자 시퀀스 리드들은 HLA 형별 유전자들이 위치되는 게놈 영역에 미리 선택되는, 컴퓨터 시스템.
  25. 청구항 16에 있어서,
    상기 복수의 환자 시퀀스 리드들은 복수의 DNA 시퀀싱 리드들을 포함하는, 컴퓨터 시스템.
  26. 청구항 16에 있어서,
    상기 복수의 환자 시퀀스 리드들은 복수의 RNA 시퀀싱 리드들을 포함하는, 컴퓨터 시스템.
  27. 청구항 16에 있어서,
    상기 기준 시퀀스는 적어도 1%의 대립 유전자 빈도(allele frequency)를 갖는 적어도 하나의 HLA 형별에 대한 대립 유전자들을 포함하는, 컴퓨터 시스템.
  28. 청구항 16에 있어서,
    상기 기준 시퀀스는 적어도 하나의 HLA 형별에 대하여 적어도 열 개의 상이한 대립 유전자들을 포함하는, 컴퓨터 시스템.
  29. 청구항 16에 있어서,
    상기 기준 시퀀스는 HLA-A 형별, HLA-B 형별, HLA-C 형별, HLA-DRB-1 형별, 및 HLA-DQB-1 형별로 구성된 그룹으로부터 선택된 적어도 두개의 별개의 HLA 형별들에 대한 대립 유전자들을 포함하는, 컴퓨터 시스템.
  30. 청구항 16에 있어서,
    상기 환자 시퀀스 리드들은 BAM 포맷, SAM 포맷, GAR 포맷 또는 RAW 포맷인, 컴퓨터 시스템.
  31. 프로그램 명령들을 포함하는 비-일시적인 컴퓨터 판독가능한 저장 매체에 있어서, 상기 프로그램 명령들은 기준 시퀀스 데이터베이스 및 환자 시퀀스 데이터 소스가 분석 엔진에 정보적으로(informationally) 결합된 컴퓨터 시스템이 환자에 대한 HLA-형별(type) 인실리코(in silico) 결정 방법을 수행하게 하고, 상기 방법들은,
    복수의 환자 시퀀스 리드(patient sequence read)들을 제공하는 단계로서, 상기 환자 시퀀스 리드들의 적어도 일부는 환자 특정 HLA를 인코딩한 시퀀스를 포함하는, 상기 시퀀스 리드들을 제공하는 단계;
    채색된 de Bruijn 그래프를 통하여 상기 복수의 환자 시퀀스 리드들을 스레드(thread)하기 위해 알려진 별개의 HLA 대립 유전자(allele)들의 복수의 시퀀스들을 포함하는 기준 시퀀스(reference sequence)를 이용하는 단계로서, 상기 de Bruijn 그래프에서 색상은 상이한 HLA 형별 또는 개별 변이(variant)를 구별하는, 상기 기준 시퀀스를 이용하는 단계;
    각각의 환자 시퀀스 리드는 상기 알려진 별개의 HLA 대립 유전자들에 대한 가중 보우트(weighted vote)를 제공하고, 및
    상기 대립 유전자들을 순위화하기 위해 각각의 알려진 별개의 대립 유전자에 대한 총 보우트들을 이용하고, 제 1 HLA-형별로서 최상위 대립유전자를 식별하기 위해 상기 보우트들을 이용하는 단계; 및
    제 2 HLA-형별을 식별하기 위해 총 보우트를 이용한 상기 제 1 대립 유전자 형별에 반대인 바이어스(bias)로 남은 대립 유전자들을 재-순위화하는 단계(re-ranking)를 포함하는, 컴퓨터 판독가능한 저장 매체.
  32. 삭제
  33. 청구항 31에 있어서,
    상기 재-순위화하는 단계는 상기 최상위 대립 유전자와 매칭을 갖는 k-mers에 대한 보우트 값이 상기 재-순위화된 보우트에서 줄어들도록 수행되는, 컴퓨터 판독가능한 저장 매체.
  34. 청구항 31에 있어서,
    상기 스레드하는 단계는 상기 복수의 시퀀스 리드들의 각각을 k-mers로 분해하는 단계를 포함하는, 컴퓨터 판독가능한 저장 매체.
  35. 청구항 31에 있어서,
    상기 각각의 시퀀스 리드에 대한 가중 보우트는 상기 알려진 별개의 대립 유전자의 시퀀스에 매칭되는 상기 시퀀스 리드의 k-mers의 베이시스(basis)상에서 제공되는, 컴퓨터 판독가능한 저장 매체.
  36. 청구항 34 또는 청구항 35에 있어서,
    각각의 k-mer는 10과 30 사이의 베이스(base) 길이를 갖는, 컴퓨터 판독가능한 저장 매체.
  37. 청구항 31에 있어서,
    상기 시퀀스 리드에 대한 가중 보우트는 메타데이터(metadata)에 기초하여 수정되는, 컴퓨터 판독가능한 저장 매체.
  38. 청구항 31에 있어서,
    순위화는 시퀀싱 깊이(sequencing depth), 고유 k-mers의 양, 메타데이터로 구성된 그룹으로부터 선택된 인자를 이용하여 정정되는, 컴퓨터 판독가능한 저장 매체.
  39. 청구항 31에 있어서,
    상기 복수의 환자 시퀀스 리드들은 HLA 형별 유전자들이 위치되는 게놈 영역에 미리 선택되는, 컴퓨터 판독가능한 저장 매체.
  40. 청구항 31에 있어서,
    상기 복수의 환자 시퀀스 리드들은 복수의 DNA 시퀀싱 리드들을 포함하는, 컴퓨터 판독가능한 저장 매체.
  41. 청구항 31에 있어서,
    상기 복수의 환자 시퀀스 리드들은 복수의 RNA 시퀀싱 리드들을 포함하는, 컴퓨터 판독가능한 저장 매체.
  42. 청구항 31에 있어서,
    상기 기준 시퀀스는 적어도 1%의 대립 유전자 빈도(allele frequency)를 갖는 적어도 하나의 HLA 형별에 대한 대립 유전자들을 포함하는, 컴퓨터 판독가능한 저장 매체.
  43. 청구항 31에 있어서,
    상기 기준 시퀀스는 적어도 하나의 HLA 형별에 대하여 적어도 열 개의 상이한 대립 유전자들을 포함하는, 컴퓨터 판독가능한 저장 매체.
  44. 청구항 31에 있어서,
    상기 기준 시퀀스는 HLA-A 형별, HLA-B 형별, HLA-C 형별, HLA-DRB-1 형별, 및 HLA-DQB-1 형별로 구성된 그룹으로부터 선택된 적어도 두개의 별개의 HLA 형별들에 대한 대립 유전자들을 포함하는, 컴퓨터 판독가능한 저장 매체.
  45. 청구항 31에 있어서,
    상기 환자 시퀀스 리드들은 BAM 포맷, SAM 포맷, GAR 포맷 또는 RAW 포맷인, 컴퓨터 판독가능한 저장 매체.

KR1020197020554A 2015-08-25 2016-08-25 고-정확도 변이 판정을 위한 시스템들 및 방법들 KR102211461B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562209858P 2015-08-25 2015-08-25
US62/209,858 2015-08-25
PCT/US2016/048768 WO2017035392A1 (en) 2015-08-25 2016-08-25 Systems and methods for high-accuracy variant calling

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020187008056A Division KR102011440B1 (ko) 2015-08-25 2016-08-25 고-정확도 변이 판정을 위한 시스템들 및 방법들

Publications (2)

Publication Number Publication Date
KR20190090022A KR20190090022A (ko) 2019-07-31
KR102211461B1 true KR102211461B1 (ko) 2021-02-03

Family

ID=58101056

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020197020554A KR102211461B1 (ko) 2015-08-25 2016-08-25 고-정확도 변이 판정을 위한 시스템들 및 방법들
KR1020187008056A KR102011440B1 (ko) 2015-08-25 2016-08-25 고-정확도 변이 판정을 위한 시스템들 및 방법들

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020187008056A KR102011440B1 (ko) 2015-08-25 2016-08-25 고-정확도 변이 판정을 위한 시스템들 및 방법들

Country Status (13)

Country Link
US (2) US11393557B2 (ko)
EP (1) EP3341877B1 (ko)
JP (2) JP6533011B2 (ko)
KR (2) KR102211461B1 (ko)
CN (1) CN108351917B (ko)
AU (2) AU2016311444B2 (ko)
BR (1) BR112018003631A2 (ko)
CA (1) CA2996702C (ko)
HK (1) HK1257052A1 (ko)
IL (2) IL257724B (ko)
MX (1) MX2018002293A (ko)
RU (1) RU2018106934A (ko)
WO (1) WO2017035392A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190099475A1 (en) 2015-04-08 2019-04-04 Nantomics, Llc Cancer neoepitopes
KR102211461B1 (ko) 2015-08-25 2021-02-03 난토믹스, 엘엘씨 고-정확도 변이 판정을 위한 시스템들 및 방법들
JP2018535202A (ja) 2015-10-12 2018-11-29 ナントミクス,エルエルシー ネオエピトープの反復発見と適応可能な免疫療法およびその方法
AU2016339035A1 (en) 2015-10-12 2018-05-10 Nantomics, Llc Systems, compositions, and methods for discovery of MSI and neoepitopes that predict sensitivity to checkpoint inhibitors
WO2017139694A1 (en) 2016-02-12 2017-08-17 Nantomics, Llc High-throughput identification of patient-specific neoepitopes as therapeutic targets for cancer immunotherapies
AU2017281126A1 (en) 2016-03-24 2018-10-04 Nant Holdings Ip, Llc Sequence arrangements and sequences for neoepitope presentation
SG11201811074RA (en) 2016-06-30 2019-01-30 Nant Holdings Ip Llc Nant cancer vaccine
US10319465B2 (en) * 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
WO2018094309A2 (en) 2016-11-21 2018-05-24 Nant Holdings Ip, Llc Fractal combination therapy
CA3045811A1 (en) 2016-12-01 2018-06-07 Nantomics, Llc Tumor antigenicity processing and presentation
WO2018200389A1 (en) 2017-04-24 2018-11-01 Nantcell, Inc. Targeted neoepitope vectors and methods therefor
US20200166515A1 (en) 2017-05-30 2020-05-28 Nant Holdings Ip, Llc Circulating tumor cell enrichment using neoepitopes
CN111213210A (zh) * 2017-09-06 2020-05-29 河谷控股Ip有限责任公司 Hla组织匹配及用于其的方法
US11823773B2 (en) 2018-04-13 2023-11-21 Nant Holdings Ip, Llc Nant cancer vaccine strategies
US11564980B2 (en) 2018-04-23 2023-01-31 Nantcell, Inc. Tumor treatment method with an individualized peptide vaccine
TWI816603B (zh) 2018-04-23 2023-09-21 美商南特細胞公司 新抗原表位疫苗及免疫刺激組合物及方法
EP3935638A4 (en) * 2019-03-08 2023-01-25 Nantomics, LLC SYSTEM AND PROCEDURES FOR VARIANT CALLING
CN112885406B (zh) * 2020-04-16 2023-01-31 深圳裕策生物科技有限公司 检测hla杂合性缺失的方法及系统
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置
CN114496077B (zh) * 2022-04-15 2022-06-21 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100261189A1 (en) * 2008-10-03 2010-10-14 Roche Molecular Systems, Inc. System and method for detection of HLA Variants
WO2010127045A2 (en) 2009-04-29 2010-11-04 Complete Genomics, Inc. Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
US20130267429A1 (en) * 2009-12-21 2013-10-10 Lawrence Livermore National Security, Llc Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes
US20140228223A1 (en) 2010-05-10 2014-08-14 Andreas Gnirke High throughput paired-end sequencing of large-insert clone libraries
WO2014058890A1 (en) 2012-10-08 2014-04-17 Spiral Genetics Inc. Methods and systems for identifying, from read symbol sequences, variations with respect to a reference symbol sequence
US9181583B2 (en) * 2012-10-23 2015-11-10 Illumina, Inc. HLA typing using selective amplification and sequencing
EP2931042B1 (en) 2012-12-13 2021-04-28 CytRx Corporation Anthracycline formulations
US9562269B2 (en) 2013-01-22 2017-02-07 The Board Of Trustees Of The Leland Stanford Junior University Haplotying of HLA loci with ultra-deep shotgun sequencing
NZ631022A (en) 2013-06-05 2018-05-25 Cytrx Corp Cytotoxic agents for the treatment of cancer
JP2015035212A (ja) 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
KR102386134B1 (ko) * 2013-10-15 2022-04-12 리제너론 파마슈티칼스 인코포레이티드 고분별능 대립유전자 동정
CN103699819B (zh) 2013-12-10 2016-09-07 深圳先进技术研究院 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
CA2934073A1 (en) 2013-12-20 2015-06-25 The Broad Institute, Inc. Combination therapy with neoantigen vaccine
US20190099475A1 (en) 2015-04-08 2019-04-04 Nantomics, Llc Cancer neoepitopes
KR102211461B1 (ko) 2015-08-25 2021-02-03 난토믹스, 엘엘씨 고-정확도 변이 판정을 위한 시스템들 및 방법들
CN108700566A (zh) 2016-02-19 2018-10-23 河谷控股Ip有限责任公司 免疫原性调节的方法
WO2017161360A2 (en) 2016-03-18 2017-09-21 Nant Holdings Ip, Llc Multimodal vector for dendritic cell infection
SG11201811074RA (en) 2016-06-30 2019-01-30 Nant Holdings Ip Llc Nant cancer vaccine
CN111225673A (zh) 2017-09-06 2020-06-02 河谷细胞有限公司 亚德阿霉素组合治疗及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Y. Bai 외, "Inference of high resolution HLA types using genome-wide RNA or DNA sequencing reads", BMC Genomics 2014, 15:325, 2014.
Zamin Iqbal 외 4인, "De novo assembly and genotyping of variants using colored de Bruijn graphs", Nature Genetics, 44권, 2호, 2012.02.*

Also Published As

Publication number Publication date
KR20180058718A (ko) 2018-06-01
IL263115A (en) 2018-12-31
IL263115B (en) 2020-06-30
IL257724B (en) 2018-11-29
MX2018002293A (es) 2018-09-05
CA2996702A1 (en) 2017-03-02
US11393557B2 (en) 2022-07-19
KR102011440B1 (ko) 2019-08-16
US20220319640A1 (en) 2022-10-06
JP2019169177A (ja) 2019-10-03
RU2018106934A3 (ko) 2019-09-26
AU2016311444A1 (en) 2018-03-15
HK1257052A1 (zh) 2019-10-11
AU2016311444B2 (en) 2019-02-07
CA2996702C (en) 2020-07-14
EP3341877A1 (en) 2018-07-04
US20180237949A1 (en) 2018-08-23
KR20190090022A (ko) 2019-07-31
BR112018003631A2 (pt) 2018-09-25
JP2018533111A (ja) 2018-11-08
JP6883180B2 (ja) 2021-06-09
CN108351917B (zh) 2022-03-08
CN108351917A (zh) 2018-07-31
JP6533011B2 (ja) 2019-06-19
AU2019201869A1 (en) 2019-04-11
EP3341877B1 (en) 2023-05-10
WO2017035392A1 (en) 2017-03-02
RU2018106934A (ru) 2019-09-26
EP3341877A4 (en) 2018-10-03

Similar Documents

Publication Publication Date Title
KR102211461B1 (ko) 고-정확도 변이 판정을 위한 시스템들 및 방법들
Naser-Khdour et al. The prevalence and impact of model violations in phylogenetic analysis
Sedlazeck et al. Accurate detection of complex structural variations using single-molecule sequencing
Nguyen et al. Definition of high-risk type 1 diabetes HLA-DR and HLA-DQ types using only three single nucleotide polymorphisms
Petrovski et al. Genic intolerance to functional variation and the interpretation of personal genomes
Anderson et al. The power of single-nucleotide polymorphisms for large-scale parentage inference
Vollger et al. Increased mutation and gene conversion within human segmental duplications
Halman et al. Accuracy of short tandem repeats genotyping tools in whole exome sequencing data
Ullah et al. Comparison and assessment of family-and population-based genotype imputation methods in large pedigrees
Pool Genetic mapping by bulk segregant analysis in Drosophila: experimental design and simulation-based inference
Pazhenkova et al. Genomic introgression from a distant congener in the Levant fritillary butterfly, Melitaea acentria
Bedoya-Reina et al. Galaxy tools to study genome diversity
Satta et al. Two-dimensional site frequency spectrum for detecting, classifying and dating incomplete selective sweeps
Kõks et al. Sequencing and annotated analysis of full genome of Holstein breed bull
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
US20210313012A1 (en) Difference-based genomic identity scores
Yorgov et al. Use of admixture and association for detection of quantitative trait loci in the Type 2 Diabetes Genetic Exploration by Next-Generation Sequencing in Ethnic Samples (T2D-GENES) study
KR20190000341A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Aissani et al. The major histocompatibility complex conserved extended haplotype 8.1 in AIDS-related non-Hodgkin lymphoma
Liu et al. Ongoing natural selection drives the evolution of SARS-CoV-2 genomes
KR20190000340A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Pandey et al. MASS KIR analyzer: an in silico approach for analyzing the killer immunoglobulin receptor gene content and its diversity
Villanea et al. ABO genetic variation in Neanderthals and Denisovans
Aivazidou Estimating the load, allele frequency, and linkage disequilibrium of functional and possibly deleterious variants in different cattle breeds
JP2008152592A (ja) 個体間の遺伝的非類似度の解析方法およびシステム

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant