KR102386134B1 - 고분별능 대립유전자 동정 - Google Patents

고분별능 대립유전자 동정 Download PDF

Info

Publication number
KR102386134B1
KR102386134B1 KR1020167012427A KR20167012427A KR102386134B1 KR 102386134 B1 KR102386134 B1 KR 102386134B1 KR 1020167012427 A KR1020167012427 A KR 1020167012427A KR 20167012427 A KR20167012427 A KR 20167012427A KR 102386134 B1 KR102386134 B1 KR 102386134B1
Authority
KR
South Korea
Prior art keywords
delete delete
locus
log
pair
alleles
Prior art date
Application number
KR1020167012427A
Other languages
English (en)
Other versions
KR20160063400A (ko
Inventor
유 바이
옌 퓨리
Original Assignee
리제너론 파마슈티칼스 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 리제너론 파마슈티칼스 인코포레이티드 filed Critical 리제너론 파마슈티칼스 인코포레이티드
Publication of KR20160063400A publication Critical patent/KR20160063400A/ko
Application granted granted Critical
Publication of KR102386134B1 publication Critical patent/KR102386134B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Cell Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Veterinary Medicine (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Materials For Medical Uses (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

본 명세서에는 HLA 유전자좌, BGA 유전자좌, 및 HV 유전자좌와 같은 고도로 다형성인 유전자좌를 포함하는 임의의 유전자좌에 널리 적용가능한, 유전자좌에 존재하는 대립유전자를 정확하게 결정하는 방법이 제공된다. 개시된 방법의 실시 형태는, 예를 들어, 장기 이식, 맞춤형 의료, 진단, 법의학, 및 인류학을 포함하는 광범위한 응용에 유용하다.

Description

고분별능 대립유전자 동정{HIGH RESOLUTION ALLELE IDENTIFICATION}
관련출원
본 출원은 2013년 10월 15일자로 출원된 가출원 제61/891,193호에 대한 우선권의 이익을 주장하며, 이는 전체적으로 본 명세서에 참고로 포함된다.
대부분의 인간 유전체는 본질적으로 전체 인간 개체군에 의해 공유되는 보존된 서열로 이루어지지만, 유전체의 작지만 유의적인 분획은 고도로 가변성이다. 이들 서열 차이는 유전체에 걸쳐 고르게 퍼져 있지 않다. 오히려, 소정의 유전체 영역("유전자좌")이 다른 것들보다 더 많은 서열 변이("다형성")를 함유한다. 특정 유전자좌에서의 특이적 뉴클레오티드 서열(즉, 그 유전자좌에 존재하는 대립유전자)의 존재는 유의적인 생물학적 영향을 가질 수 있다. 예를 들어, 특정 유전자좌에서 개체가 지니는 대립유전자는 개체가 질환에 대해 감수성인지 여부, 또는 치료제가 효과적일 가능성이 있는지 여부에 영향을 미칠 수 있다. 또한, 고도로 다형성인 유전자좌에서의 대립유전자의 존재에 대한 지식을 사용하여 생물학적 샘플의 인종적 기원 및/또는 지리적 기원을 추적할 수 있으며, 이는 인류학자에게 매우 유용할 수 있고 개체를 생물학적 샘플과 연결하기 위해 법의학적으로 사용될 수 있다. 차세대 서열분석 기술의 증가하는 이용가능성을 고려할 때, 대립유전자 동정을 위한 차세대 서열분석 데이터 사용의 전망은 매력적이다. 유감스럽게도, 특히 고처리량 전-유전체 서열분석 방법(high-throughput genome-wide sequencing method)을 사용하여 서열분석 데이터를 생성시키는 경우에, 서열분석 데이터를 사용하여 고도로 다형성인 유전자좌에 존재하는 대립유전자를 정확하고 효율적으로 동정하는 것은 어렵다.
고도로 정확한 대립유전자 예측 방법에 대한 필요성이 있는 일 세트의 고도로 다형성인 유전자좌는 인간 백혈구 항원(HLA: Human Leukocyte Antigen) 단백질을 암호화하는 것들이다. 자가 항원 관용 및 병원체 또는 종양에 대한 면역 반응을 포함하는 주요 면역학적 이벤트를 매개하기 위하여 HLA 단백질은 림프구에 항원 펩티드를 제공한다. 클래스 I HLA는 모든 유핵 세포에 의해 보편적으로 발현되며 세포독성 T 세포에 세포질 항원을 제공한다. 클래스 II HLA는 면역 세포에 의해 주로 발현되며 보조 T 세포에 세포외 항원을 제공한다.
인간은 6개의 주요 HLA 단백질, 3개의 클래스 I 단백질(HLA-A, HLA-B, 및 HLA-C) 및 3개의 클래스 II 단백질(HLA-DQ, HLA-DR, 및 HLA-DP)을 가지고 있다. 각각의 클래스 I 단백질은 단일 HLA 유전자좌(예를 들어, HLA-A 유전자좌, HLA-B 유전자좌, 및 HLA-C 유전자좌)에 의해 암호화된다. 반면에, 클래스 II 단백질은 α 사슬 및 β 사슬로 이루어진 이종이량체이며, 이들 각각은 그 자신의 HLA 유전자좌(예를 들어, HLA-DQA1 유전자좌, HLA-DQB1 유전자좌, HLA-DRA 유전자좌, HLA-DRB1 유전자좌, HLA-DRB3 유전자좌, HLA-DRB4 유전자좌, HLA-DRB5 유전자좌, HLA-DPA1 유전자좌, 및 HLA-DPB1 유전자좌)에 의해 암호화된다. 인간에서, 각각의 주요 HLA 유전자좌(클래스 I 및 클래스 II 양자 모두)는 염색체 6 상에 존재한다. 이배체 생물로서, 인간은 2개 카피의 염색체 6을 지니므로, 2개 카피의 각각의 HLA 유전자좌를 지닌다.
HLA 유전자좌는 고도로 다형성이다. HLA 유전자좌 내의 다형성은 흔히 HLA 단백질의 아미노산 서열에 차이를 유발한다. 이러한 HLA 다양성은 개체군 내에서 광범위한 상이한 항원이 면역 세포에 제공되는 것을 가능하게 한다. 그러나, HLA 서열 내의 이들 변이는 개체 사이에 장기 및 조직의 조직 부적합성 또한 유발하여 외과적 이식 절차를 크게 복잡하게 한다. 이식된 장기 또는 조직에 의해 발현되는 HLA 단백질이 이식 수용자의 면역 시스템에 의해 외래로서 인식되는 경우, 가능성 있는 결과는 장기 거부이다. 마찬가지로, 이식 수용자 내의 세포에 의해 발현된 HLA 단백질을 외래로서 인식하는 면역 세포의 전달을 포함하는 이식은 이식편 대 숙주 질환을 유발할 수 있다. 예비(perspective) 공여자 및 수용자의 HLA 유전자좌에 존재하는 대립유전자가 일치하는 HLA 단백질을 암호화하는 경우에는 이식편 대 숙주 질환 및 장기 또는 조직 거부의 위험이 가능한 최대 정도로 최소화될 수 있다. 일치가 존재하는지 여부를 결정하기 위하여, HLA 유형화로서 공지된 방법인, 공여자 및 수용자 내의 HLA 유전자좌에 어느 HLA 대립유전자가 존재하는지를 결정하는 것이 필요하다. HLA 유전자좌에서의 개체의 HLA 유형은 개체의 2개 카피의 HLA 유전자좌에 존재하는 2개의 HLA 대립유전자(또는 동형접합인 경우에 2개 카피의 단일 HLA 대립유전자)로 이루어진다.
HLA 유형은 또한 다수의 질환에서 유의적인 역할을 담당하는 것으로 점점 더 인식되고 있다. 예를 들어, 루푸스, 염증성 장 질환, 다발성 경화증, 관절염, 및 유형 I 당뇨병을 포함하는 자가면역 장애와 소정의 HLA 유형 사이에 강력한 연계가 존재한다(예를 들어, 문헌[Graham et al., Eur. Hum. Genet. 15:823-830 (2007)]; 문헌[Fu et al., J. Autoimmun. 37:104-112 (2011)]; 문헌[Cassinotti et al, Am. J. Gastroenterol 104:195-217 (2009)]; 문헌[Luckey et al., J. Autoimmun. 37:122-128 (2011)]; 문헌[Lemire, M., BMC Proc. 7:S33 (2009)]; 문헌[Noble et al., Curr. Diab. Rep. 11:533-542 (2011)], 이들 각각은 전체적으로 본 명세서에 참고로 포함됨). 일례로서, 전신 홍반 루푸스 환자에게는 클래스 II HLA DQA1 *02:01(DQ2) 및 DRB1 *03:01(DR3)이 빈번하게 존재하며, 이들은 질환 감수성과 유의적으로 연계된다(문헌[Graham et al, Eur. Hum. Genet. 15:823-830 (2007)]). 다른 클래스 II HLA 단백질의 존재 또한 유방암 및 자궁경부암에 대한 저항성 또는 감수성과 상관관계가 있다(예를 들어, 문헌[Chaudhuri et al., Proc. Nuc. Acad. Sci. USA 97:11451-11454 (2000)]; 문헌[Garcia-Corona et al., Arch. Dermatol. 140:1227-1231 (2004)], 이들 각각은 전체적으로 본 명세서에 참고로 포함됨).
HLA 분자의 병원성 및 치료 적응증은 HLA 유형화의 정확하고 효율적인 방법에 대한 필요성을 강조한다. 과거에는, 펩티드 결합에서 혈청학적 특이성이 유사한 "2-자리(two-digit)" 항원 군을 구별함으로써 저분별능으로 HLA 유형을 분별해 왔다. 그러나, 다수의 응용에 있어서, 2-자리 HLA 유형화는 불충분하다. 예를 들어, 동일한 2-자리 유형의 2개의 HLA 단백질 사이의 단일 아미노산 차이가 변경된 T-세포 인식 특이성 및 조직 거부를 유발할 수 있다(예를 들어, 문헌[Archbold et al., Trends Immunol. 29:220-226 (2008)]; 문헌[Tynan et al, Nat. Immunol. 6:1114-1122 (2005)]; 문헌[Fleischhauer et al, N Eng. J. Med. 323:1818-1822 (1990)], 이들 각각은 전체적으로 본 명세서에 참고로 포함됨). 결과적으로, 아미노산 서열 수준에서의 고분별능 HLA 유형화("4-자리(four-digit)" 유형화로서 공지됨)가 결정적일 수 있다. 예를 들어, HLA 유형을 고분별능으로 분별하는 것은 비관련 제대혈 이식(unrelated cord blood transplantation) 및 암 예방접종 시도에서 임상 성과를 실질적으로 개선한다(문헌[Nagorson et al., Cancer Immunol. Immunother. 57:1903-1910 (2008)]; 문헌[Liao et al., Bone Marrow Transplant. 40:201-208 (2007)], 이들 각각은 전체적으로 본 명세서에 참고로 포함됨).
HLA 유전자좌의 고도로 다형성인 성질은, 특히 고처리량에서의 정확한 고분별능 유형화를 상당히 어렵게 한다. 인간 개체군에서 주요 클래스 I 및 클래스 II HLA 유전자좌에는 7527개 초과의 4-자리 HLA 대립유전자가 존재한다. HLA 유형을 4-자리 분별능으로 분별할 수 있는 기존의 HLA 유형화 방법론, 예를 들어 서열분석 특이적 프라이밍(SSP: sequencing specific priming)에 의한 군 특이적 PCR 및 서열-기반 유형화(SBT: sequence-based typing)는 저처리량을 갖는다. 다른 제안된 유형화 전략은 PCR-증폭을 통해 HLA 유전자좌를 특이적으로 표적화한 후에, 심층 서열분석(deep sequencing)을 실행한다. 4-자리 HLA 대립유전자의 정확한 지정을 산출하기 위하여, 이러한 방법은 긴 리드(read)와 높은 커버리지(coverage)(깊이)를 필요로 한다. 비용 및 효율 고려사항으로 인해, 전-유전체 서열분석, 예를 들어 전사체 또는 전체 진유전체(exome)/유전체 서열분석은 일반적으로 훨씬 더 짧은 리드(<100 염기) 및 더 낮은 커버리지를 산출한다. 이들 리드 길이 및 커버리지 한계는 HLA 유형화를 위해 전-유전체 서열분석 방법의 사용을 시도하는 현재 방법론의 정확도를 감소시킨다. 구체적으로, 짧은 리드 서열분석을 사용하는 현재 방법의 4-자리 HLA 유형 동정 정확도는 32% 내지 84%인 것으로 보고되어 있다(예를 들어, 문헌[Boegel et al., Genome Med. 4:102 (2013)]; 문헌[Kim and Pourmand PLoS One 8:e67885 (2013)]).
전술한 사항에 비추어, 짧은 리드 길이 및 낮은 서열 커버리지를 가진 데이터를 포함하는, 다양한 서열분석 데이터를 사용하여 유전자좌에 존재하는 대립유전자를 정확하고 효율적으로 동정하는 새로운 방법에 대한 필요성이 존재한다.
태양들에서, 본 명세서에는 유전자좌에 존재하는 대립유전자를 정확하게 결정(예를 들어, HLA 유전자좌에서 HLA 유형을 결정함)하기 위한 방법(컴퓨터 구현 방법(computer implemented method)을 포함함), 컴퓨터 프로그램, 및 컴퓨터 시스템이 제공된다. 또한 본 명세서에는, 장기, 조직, 또는 세포의 이식 방법, 이식 거부의 예방 방법, 및/또는 이식편 대 숙주 질환의 예방 방법이 제공된다.
일부 태양에서, 본 명세서에는 하나 이상의 유전자좌에서 대립유전자를 결정하는 컴퓨터-구현 방법(예를 들어, 대상, 샘플, 장기, 조직, 및/또는 세포에서)이 제공된다. 일부 실시 형태에서, 유전자좌는 HLA 유전자좌이다. 일부 실시 형태에서, 유전자좌는 미토콘드리아 초가변 영역(HV) 유전자좌(예를 들어, HV1 유전자좌 또는 HV2 유전자좌)이다. 일부 실시 형태에서, 유전자좌는 혈액형 항원(BGA: blood group antigen) 유전자좌이다. 일부 실시 형태에서, 유전자좌는 보통으로 다형성인 유전자좌(즉, 100개 뉴클레오티드의 길이 당 평균 1개 SNP 이상인 유전자좌), 고도로 다형성인 유전자좌(즉, 20개 뉴클레오티드의 길이 당 평균 1개 SNP 이상인 유전자좌), 또는 매우 고도로 다형성인 유전자좌(즉, 10개 뉴클레오티드의 길이 당 평균 1개 SNP 이상인 유전자좌)이다.
일부 실시 형태에서, 유전자좌는 평균적으로 100개 염기 당 1개 이상이지만 20개 미만인 SNP, 2개 이상이지만 20개 미만인 SNP, 3개 이상이지만 20개 미만인 SNP, 4개 이상이지만 20개 미만인 SNP, 5개 이상이지만 20개 미만인 SNP, 6개 이상이지만 20개 미만인 SNP, 7개 이상이지만 20개 미만인 SNP, 8개 이상이지만 20개 미만인 SNP, 9개 이상이지만 20개 미만인 SNP, 10개 이상이지만 20개 미만인 SNP, 11개 이상이지만 20개 미만인 SNP, 12개 이상이지만 20개 미만인 SNP, 13개 이상이지만 20개 미만인 SNP, 14개 이상이지만 20개 미만인 SNP, 15개 이상이지만 20개 미만인 SNP, 16개 이상이지만 20개 미만인 SNP, 17개 이상이지만 20개 미만인 SNP, 18개 이상이지만 20개 미만인 SNP, 또는 19개 이상이지만 20개 미만인 SNP를 함유한다.
다양한 실시 형태에서, 보통으로 다형성인 유전자좌는 평균적으로 100개 염기 당 1개 이상이지만 5개 미만인 SNP, 2개 이상이지만 5개 미만인 SNP, 3개 이상이지만 5개 미만인 SNP, 또는 4개 이상이지만 5개 미만인 SNP를 함유한다. 다양한 실시 형태에서, 보통으로 다형성인 유전자좌는 평균적으로 100개 염기 당 약 1 내지 2개의 SNP, 2 내지 3개의 SNP, 또는 약 3 내지 4개의 SNP를 함유한다.
다양한 실시 형태에서, 고도로 다형성인 유전자좌는 평균적으로 100개 염기 당 100개 뉴클레오티드의 길이 당 5 개 이상이지만 10개 미만인 SNP, 6 개 이상이지만 10개 미만인 SNP, 7 개 이상이지만 10개 미만인 SNP, 8 개 이상이지만 10개 미만인 SNP, 9 개 이상이지만 10개 미만인 SNP를 함유한다. 다양한 실시 형태에서, 고도로 다형성인 유전자좌는 평균적으로 100개 염기 당 약 5 내지 6개의 SNP, 약 6 내지 7개의 SNP, 약 7 내지 8개의 SNP, 또는 약 8 내지 9개의 SNP를 함유한다.
다양한 실시 형태에서, 매우 고도로 다형성인 유전자좌는 평균적으로 100개 염기 당 10개 이상이지만 20개 미만인 SNP, 11개 이상이지만 20개 미만인 SNP, 12개 이상이지만 20개 미만인 SNP, 13개 이상이지만 20개 미만인 SNP, 14개 이상이지만 20개 미만인 SNP, 15개 이상이지만 20개 미만인 SNP, 16개 이상이지만 20개 미만인 SNP, 17개 이상이지만 20개 미만인 SNP, 18개 이상이지만 20개 미만인 SNP, 또는 19개 이상이지만 20개 미만인 SNP를 함유한다. 일 실시 형태에서, 매우 고도로 다형성인 유전자좌는 평균적으로 100개 염기 당 약 10 내지 11개의 SNP, 약 11 내지 12개의 SNP, 약 12 내지 13개의 SNP, 약 13 내지 14개의 SNP, 약 14 내지 15개의 SNP, 약 15 내지 16개의 SNP, 약 16 내지 17개의 SNP, 약 17 내지 18개의 SNP, 또는 약 18 내지 19개의 SNP를 함유한다. 일 실시 형태에서, 매우 고도로 다형성인 유전자좌는 평균적으로 100개 염기 당 약 20개의 SNP를 함유한다.
일부 실시 형태에서, 컴퓨터-구현 방법은 a) 컴퓨터 시스템에 서열 데이터를 수용하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) 컴퓨터 시스템에 의해, 유전자좌의 복수의 대립유전자를 포함하는 참조 서열에 대해 서열분석 리드를 맵핑하여 후보 대립유전자를 동정하는 단계; 및 c) 컴퓨터 시스템에 의해, 유전자좌에 대해 맵핑되는 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 대립유전자는 HLA 대립유전자, HV 대립유전자, 또는 BGA 대립유전자이고, 유전자좌는 HLA 유전자좌, HV 유전자좌, 또는 BGA 유전자좌이다. 일부 실시 형태에서, 유전자좌에 존재하는 대립유전자는 유전자좌에서 HLA 유형을 이룬다. 일부 실시 형태에서, 참조 서열은 유전체 서열(예를 들어, 차폐되거나 제거된 유전자좌를 가진 유전체 서열) 또한 포함한다. 일부 실시 형태에서, 대립유전자 및 서열은 인간의 것이다.
일부 실시 형태에서, 상기 방법의 단계 b)는 컴퓨터 시스템에 의해 수행되는 i) 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 유전자좌의 유전체 서열 및 복수의 대립유전자 서열을 포함하는 단계; ii) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; iii) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; 및 iv) 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 용어 "단백질 군"은 동일한 아미노산 서열을 가진 동일한 단백질을 암호화하는 대립유전자의 세트를 포함한다. 일부 실시 형태에서, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 유전자좌에 대해 맵핑되는 서열분석 리드가 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 제2 세트의 후보 대립유전자는 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자, 및 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자 양자 모두를 포함한다. 일부 실시 형태에서, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에 제3 세트의 후보 대립유전자는 단계 iv)에서만 동정된다.
일부 실시 형태에서, 상기 방법의 단계 b)는 컴퓨터 시스템에 의해 수행되는 i) 낮은 엄격성에서 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 유전자좌의 인간 유전체 서열 및 복수의 대립유전자 서열을 포함하는 단계; ii) 하나 이상의 대립유전자가 맵핑된 대립유전자의 상위 10% 중에 있었던 각각의 4-자리 단백질 패밀리로부터의 모든 대립유전자를 예비-후보 대립유전자로서 동정하는 단계; iii) 더 높은 엄격성에서 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 예비-후보 대립유전자를 포함하는 단계; iv) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 예비-후보 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; v) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 예비-후보 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; 및 vi) 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 예비-후보 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 유전자좌에 대해 맵핑되는 서열분석 리드가 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 제2 세트의 후보 대립유전자는 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자, 및 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자 양자 모두를 포함한다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism); 및 ii) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 SNP의 순차적 쌍을 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다. 일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 개별적인 SNP; ii) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 SNP의 순차적 쌍; 및 iii) 서열 데이터가 그로부터 유래된 생물에서의(예를 들어, 인간에서의) 후보 대립유전자의 쌍의 빈도를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 ii) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상(phase) 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계에 의해 결정되고, 여기서 유전자형 로그-가능성 점수와 위상 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍은 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; ii) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 iii) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합인 단계에 의해 결정되고, 여기서 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍은 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 태양에서, 본 명세서에는 a) 컴퓨터 시스템에 서열 데이터를 수용하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) 컴퓨터 시스템에 의해, 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 유전자좌의 유전체 서열 및 복수의 대립유전자 서열을 포함하는 단계; d) 컴퓨터 시스템에 의해, 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; e) 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 컴퓨터 시스템에 의해, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계; f) 후보 대립유전자의 각각의 쌍에 대해, 컴퓨터 시스템에 의해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; g) 후보 대립유전자의 각각의 쌍에 대해, 컴퓨터 시스템에 의해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; h) 후보 대립유전자의 각각의 쌍에 대해, 컴퓨터 시스템에 의해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합인 단계; 및 i) 컴퓨터 시스템에 의해, 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자로서 동정하는 단계를 포함하는, 컴퓨터-구현 방법이 제공된다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 유전자좌에 대해 맵핑되는 서열분석 리드가 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 제2 세트의 후보 대립유전자는 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자, 및 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자 양자 모두를 포함한다. 일부 실시 형태에서, 대립유전자는 HLA 대립유전자, HV 대립유전자, 또는 BGA 대립유전자이고, 유전자좌는 HLA 유전자좌, HV 유전자좌, 또는 BGA 유전자좌이다. 일부 실시 형태에서, 유전자좌에 존재하는 대립유전자는 유전자좌에서 HLA 유형을 이룬다. 일부 실시 형태에서, 대립유전자 및 서열은 인간의 것이다. 일부 실시 형태에서, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에 제3 세트의 후보 대립유전자는 단계 e)에서만 동정된다.
본 명세서에 제공된 컴퓨터-구현 방법의 일부 실시 형태에서, 서열 데이터는 전-유전체 서열분석 데이터이다. 일부 실시 형태에서, 전-유전체 서열분석 데이터는 전사체 서열분석 데이터, 전체 진유전체 서열분석 데이터, 또는 전체 유전체 서열분석 데이터이다. 일부 실시 형태에서, 서열 데이터의 커버리지는 60배, 50배, 40배, 30배, 20배, 또는 15배 미만이다. 일부 실시 형태에서, 서열 데이터의 커버리지는 60배 초과이다. 일부 실시 형태에서, 서열분석 리드의 평균 길이는 100, 90, 80, 70, 60, 50, 45, 40, 또는 35개 뉴클레오티드 미만이다. 일부 실시 형태에서, 서열분석 리드의 길이는 100개 뉴클레오티드 초과이다.
본 명세서에 제공된 컴퓨터-구현 방법의 소정의 실시 형태에서, 참조 서열은 인간 유전체 서열을 포함한다. 일부 실시 형태에서, 유전체 서열 내의 유전자좌(예를 들어, HLA 유전자좌)의 서열은 제거되거나 차폐되어 있다. 일부 실시 형태에서, 인간 유전체 서열은 GRCh37/ hg19이다.
일부 실시 형태에서, 본 명세서에 기재된 방법은 샘플 상에 전-유전체 서열분석 방법을 수행하여 서열 데이터를 생성시키는 단계를 포함한다. 일부 실시 형태에서, 본 명세서에 기재된 방법은 유전자좌의 핵산 서열을 포함하는 증폭 산물을 산출하는 핵산 증폭 방법을 수행하는 단계 및 증폭 산물 상에 서열분석 방법을 수행하는 단계를 포함한다.
일부 실시 형태에서, 본 명세서에 제공된 방법은 HLA 유전자좌에서의 대상의 HLA 유형에 일치하는 HLA 유전자좌에서의 HLA 유형을 갖는 세포, 조직, 또는 장기를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서는, 본 명세서에 제공된 컴퓨터-구현 방법을 수행하여 HLA 유전자좌에서 수용자의 HLA 유형을 결정한다. 일부 실시 형태에서는, 본 명세서에 제공된 컴퓨터-구현 방법을 수행하여 HLA 유전자좌에서 세포, 조직, 또는 장기의 HLA 유형을 결정한다. 일부 실시 형태에서는, 본 명세서에 제공된 컴퓨터-구현 방법을 수행하여 세포, 조직, 또는 장기, 및 수용자 양자 모두의 HLA 유전자좌에서 HLA 유형을 결정한다.
일부 태양에서, 본 명세서에는 본 명세서에 제공된 컴퓨터-구현 방법을 수행하기 위한 컴퓨터 시스템이 제공된다. 일부 실시 형태에서, 컴퓨터 시스템은 하나 이상의 프로세서; 하나 이상의 프로세서와 연계된 메모리; 디스플레이; 및 유전자좌에서의 대립유전자(예를 들어, HLA 유전자좌에서의 HLA 유형)를 결정하기 위해 메모리 내에 지원되는 프로그램을 포함하며, 프로그램은, 하나 이상의 프로세서에 의해 실행되는 경우에, 하나 이상의 프로세서가 본 명세서에 제공된 컴퓨터-구현 방법을 수행하게 하는 복수의 명령어를 포함한다. 일부 실시 형태에서 명령어는, 하나 이상의 프로세서에 의해 실행되는 경우에, 하나 이상의 프로세서가 a) 서열 데이터를 수용하고(서열 데이터는 복수의 서열분석 리드를 포함함); b) 유전자좌의 복수의 대립유전자를 포함하는 참조 서열에 대해 서열분석 리드를 맵핑하여 후보 대립유전자를 동정하며; c) 유전자좌에 대해 맵핑되는 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자로서 동정하게 한다. 일부 실시 형태에서 명령어는, 하나 이상의 프로세서에 의해 실행되는 경우에, 하나 이상의 프로세서가 a) 서열 데이터를 수용하고(서열 데이터는 복수의 서열분석 리드를 포함함); b) 참조 서열에 대해 서열분석 리드를 맵핑하며(참조 서열은 유전자좌의 인간 유전체 서열 및 복수의 대립유전자 서열을 포함함); c) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제1 세트의 후보 대립유전자로서 동정하고; d) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제2 세트의 후보 대립유전자로서 동정하며; e) 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제3 세트의 후보 대립유전자로서 동정하고; f) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며(각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합임); g) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하고(각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합임); h) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며(빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합임); i) 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자로서 동정하게 한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서, 대립유전자는 HLA 대립유전자, HV 대립유전자, 또는 BGA 대립유전자이고, 유전자좌는 HLA 유전자좌, HV 유전자좌, 또는 BGA 유전자좌이다. 일부 실시 형태에서, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 유전자좌에 대해 맵핑되는 서열분석 리드가 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 제2 세트의 후보 대립유전자는 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자, 및 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자 양자 모두를 포함한다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다. 일부 실시 형태에서, 유전자좌에 존재하는 대립유전자는 유전자좌에서 HLA 유형을 이룬다. 일부 실시 형태에서, 참조 서열은 유전체 서열(예를 들어, 차폐되거나 제거된 유전자좌를 가진 유전체 서열) 또한 포함한다. 일부 실시 형태에서, 대립유전자 및 서열은 인간의 것이다.
일부 태양에서, 본 명세서에는 유전자좌에 존재하는 대립유전자를 결정하기 위한 컴퓨터 프로그램 산물이 제공된다. 일부 실시 형태에서 컴퓨터 프로그램 산물은, 컴퓨터 프로세서에 의해 실행되는 경우에, 그 컴퓨터 프로세서가 본 명세서에 제공된 컴퓨터-구현 방법을 수행하게 하는 복수의 명령어가 그 위에 저장된 비일시적 컴퓨터 리드가능 매체(non-transitory computer readable medium) 상에 상주한다. 소정의 실시 형태에서 복수의 명령어는, 컴퓨터 프로세서에 의해 실행되는 경우에, 컴퓨터 프로세서가 a) 서열 데이터를 수용하고(서열 데이터는 복수의 서열분석 리드를 포함함); b) 유전자좌의 복수의 대립유전자를 포함하는 참조 서열에 대해 서열분석 리드를 맵핑하여 후보 대립유전자를 동정하며; c) 유전자좌에 대해 맵핑되는 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자로서 동정하게 한다. 소정의 실시 형태에서 복수의 명령어는, 컴퓨터 프로세서에 의해 실행되는 경우에, 컴퓨터 프로세서가 a) 서열 데이터를 수용하고(서열 데이터는 복수의 서열분석 리드를 포함함); b) 참조 서열에 대해 서열분석 리드를 맵핑하며(참조 서열은 유전자좌의 인간 유전체 서열 및 복수의 대립유전자 서열을 포함함); c) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제1 세트의 후보 대립유전자로서 동정하고; d) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제2 세트의 후보 대립유전자로서 동정하며; e) 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제3 세트의 후보 대립유전자로서 동정하고; f) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며(각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합임); g) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하고(각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합임); h) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며(빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합임); i) 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자로서 동정하게 한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 유전자좌에 대해 맵핑되는 서열분석 리드가 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 제2 세트의 후보 대립유전자는 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자, 및 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자 양자 모두를 포함한다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다.
일부 태양에서, 본 명세서에는 반수체 DNA의 유전자좌(예를 들어, 미토콘드리아 DNA의 초가변 영역(HV) 유전자좌)에서 대상의 유전자형을 결정하는 컴퓨터-구현 방법이 제공된다. 일부 실시 형태에서, 본 방법은 a) 컴퓨터 시스템에 서열 데이터를 수용하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) 컴퓨터 시스템에 의해, 유전자좌의 복수의 대립유전자를 포함하는 참조 서열에 대해 서열분석 리드를 맵핑하여 후보 대립유전자를 동정하는 단계; 및 c) 컴퓨터 시스템에 의해, 유전자좌에 대해 맵핑되는 서열분석 리드를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자를 유전자좌에 존재하는 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 대립유전자는 HV 대립유전자이고 유전자좌는 HV 유전자좌이다. 일부 실시 형태에서, 유전자좌에 존재하는 대립유전자는 유전자좌에서 유전자형을 이룬다. 일부 실시 형태에서, 참조 서열은 유전체 서열(예를 들어, 차폐되거나 제거된 유전자좌를 가진 유전체 서열) 또한 포함한다. 일부 실시 형태에서, 대립유전자 및 서열은 인간의 것이다. 일부 실시 형태에서, 본 방법은 컴퓨터 시스템에 의해 수행되는 i) 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 유전자좌의 인간 유전체 서열 및 복수의 대립유전자 서열을 포함하는 단계; ii) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; iii) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; 및 iv) 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 배제 후에 유전자좌에 대해 맵핑되는 서열분석 리드의 수가 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제2 세트의 후보 대립유전자의 서브세트로서 추가로 동정한다. 일부 실시 형태에서, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에 제3 세트의 후보 대립유전자는 단계 iv)에서만 동정된다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자는 i) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP); 및 ii) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 SNP의 순차적 쌍을 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자이다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자는 i) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP); ii) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 SNP의 순차적 쌍; 및 iii) 인간에서의 후보 대립유전자의 쌍의 빈도를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자이다. 일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자는 i) 각각의 개별적인 후보 대립유전자 및 후보 대립유전자의 각각의 조합에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 개별적인 후보 대립유전자 또는 대립유전자의 조합이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 ii) 각각의 개별적인 후보 대립유전자 및 후보 대립유전자의 각각의 조합에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 개별적인 후보 대립유전자 또는 후보 대립유전자의 조합이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계에 의해 결정되고; 여기서 유전자형 로그-가능성 점수와 위상 로그-가능성 점수의 합이 가장 높은 개별적인 후보 대립유전자 또는 후보 대립유전자의 조합은 서열분석 리드를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자이다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 각각의 개별적인 후보 대립유전자 및 후보 대립유전자의 각각의 조합에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 개별적인 후보 대립유전자 또는 대립유전자의 조합이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; ii) 각각의 개별적인 후보 대립유전자 및 후보 대립유전자의 각각의 조합에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 개별적인 후보 대립유전자 또는 후보 대립유전자의 조합이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 iii) 각각의 개별적인 후보 대립유전자 및 후보 대립유전자의 각각의 조합에 대해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 각각의 개별적인 후보 대립유전자 및 후보 대립유전자의 각각의 조합이 인간 개체군 내에 존재하는 로그-빈도의 합인 단계에 의해 결정되고; 여기서 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 개별적인 후보 대립유전자 또는 후보 대립유전자의 조합은 서열분석 리드를 설명할 가능성이 가장 큰 하나 이상의 후보 대립유전자이다.
일부 태양에서, 본 명세서에는 대상에 대한 장기, 조직, 또는 세포의 이식, 이식 거부의 예방, 및/또는 이식편 대 숙주 질환의 예방 방법이 제공된다. 일부 실시 형태에서, 본 방법은 a) 대상의 서열 데이터를 수득하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) HLA 유전자좌의 복수의 HLA 대립유전자 서열을 포함하는 참조 서열에 대해 서열분석 리드를 맵핑하여 후보 대립유전자를 동정하는 단계; c) HLA 유전자좌에 대해 맵핑되는 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍을 HLA 유전자좌에서 대상의 HLA 유형을 이루는 대립유전자로서 동정하는 단계; 및 d) HLA 유전자좌에서의 대상의 HLA 유형에 일치하는 HLA 유전자좌에서의 HLA 유형을 갖는 장기, 조직, 또는 세포를 대상에게 이식하는 단계를 포함한다. 일부 실시 형태에서, 본 방법은 a) 장기, 조직, 또는 세포의 서열 데이터를 수득하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) HLA 유전자좌의 복수의 HLA 대립유전자 서열을 포함하는 참조 서열에 대해 서열분석 리드를 맵핑하여 후보 대립유전자를 동정하는 단계; c) HLA 유전자좌에 대해 맵핑되는 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍을 HLA 유전자좌에서 대상의 HLA 유형을 이루는 대립유전자로서 동정하는 단계; 및 d) HLA 유전자좌에서의 장기, 조직, 또는 세포의 HLA 유형에 일치하는 HLA 유전자좌에서의 HLA 유형을 갖는 대상에게 장기, 조직, 또는 세포를 이식하는 단계를 포함한다.
일부 실시 형태에서, 단계 b)는 i) 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 HLA 유전자좌의 인간 유전체 서열 및 복수의 HLA 대립유전자 서열을 포함하는 단계; ii) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; iii) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; 및 iv) HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다.
일부 실시 형태에서, 단계 b)는 i) 낮은 엄격성에서 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 HLA 유전자좌의 인간 유전체 서열 및 복수의 HLA 대립유전자 서열을 포함하는 단계; ii) 하나 이상의 대립유전자가 맵핑된 대립유전자의 상위 10% 중에 있었던 각각의 4-자리 단백질 패밀리로부터의 모든 대립유전자를 예비-후보 대립유전자로서 동정하는 단계; iii) 더 높은 엄격성에서 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 예비-후보 대립유전자를 포함하는 단계; iv) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 예비-후보 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; v) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 예비-후보 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; 및 vi) HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 예비-후보 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP); 및 ii) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 SNP의 순차적 쌍을 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다. 일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP); ii) 후보 대립유전자에 대해 맵핑되는 서열분석 리드에 존재하는 SNP의 순차적 쌍; 및 iii) 인간에서의 후보 대립유전자의 쌍의 빈도를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 HLA 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 ii) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계에 의해 결정되고, 여기서 유전자형 로그-가능성 점수와 위상 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍은 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 실시 형태에서, 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 i) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 HLA 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; ii) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 iii) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합인 단계에 의해 결정되고, 여기서 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍은 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 태양에서, 대상에 대한 장기, 조직, 또는 세포의 이식, 이식 거부의 예방, 및/또는 이식편 대 숙주 질환의 예방 방법은 a) 대상의 서열 데이터를 수득하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 HLA 유전자좌의 인간 유전체 서열 및 복수의 HLA 대립유전자 서열을 포함하는 단계; c) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; d) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; e) HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계; f) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 HLA 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; g) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; h) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합이고, 여기서 HLA 유전자좌에서의 대상의 HLA 유형은 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍인 단계; i) HLA 유전자좌에서의 대상의 HLA 유형에 일치하는 HLA 유전자좌에서의 HLA 유형을 갖는 장기, 조직, 또는 세포를 대상에게 이식하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다.
일부 실시 형태에서, 대상에 대한 장기, 조직, 또는 세포의 이식, 이식 거부의 예방, 및/또는 이식편 대 숙주 질환의 예방 방법은 a) 장기, 조직, 또는 세포의 서열 데이터를 수득하며, 서열 데이터는 복수의 서열분석 리드를 포함하는 단계; b) 서열분석 리드를 참조 서열에 대해 맵핑하며, 참조 서열은 HLA 유전자좌의 인간 유전체 서열 및 복수의 HLA 대립유전자 서열을 포함하는 단계; c) 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계; d) 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; e) HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 90% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계; f) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 HLA 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; g) 후보 대립유전자의 각각의 쌍에 대해, HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 HLA 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; h) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합이고, 여기서 HLA 유전자좌에서의 대상의 HLA 유형은 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍인 단계; i) HLA 유전자좌에서의 장기, 조직, 또는 세포의 HLA 유형에 일치하는 HLA 유전자좌에서의 HLA 유형을 갖는 대상에게 장기, 조직, 또는 세포를 이식하는 단계를 포함한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다. 일부 실시 형태에서는, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 HLA 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 HLA 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 제3 세트의 후보 대립유전자가 동정된다.
본 명세서에 제공된 방법의 일부 실시 형태에서, 서열 데이터는 전-유전체 서열분석 데이터이다. 일부 실시 형태에서, 전-유전체 서열분석 데이터는 전사체 서열분석 데이터, 전체 진유전체 서열분석 데이터, 또는 전체 유전체 서열분석 데이터이다. 일부 실시 형태에서, 서열 데이터의 커버리지는 60배, 50배, 40배, 30배, 20배, 또는 15배 미만이다. 일부 실시 형태에서, 서열분석 리드의 평균 길이는 100, 90, 80, 70, 60, 50, 45, 40, 또는 35개 뉴클레오티드 미만이다.
본 명세서에 제공된 방법의 소정의 실시 형태에서, 참조 서열은 인간 유전체 서열을 추가로 포함한다. 일부 실시 형태에서, 유전체 서열 내의 HLA 유전자좌의 서열은 제거되거나 차폐되어 있다. 일부 실시 형태에서, 인간 유전체 서열은 GRCh37/hg19이다.
일부 실시 형태에서, 본 명세서에 기재된 방법은 샘플 상에 전-유전체 서열분석 방법을 수행하여 서열 데이터를 생성시키는 단계를 포함한다. 일부 실시 형태에서, 본 명세서에 기재된 방법은 HLA 유전자좌의 핵산 서열을 포함하는 증폭 산물을 산출하는 핵산 증폭 방법을 수행하는 단계 및 증폭 산물 상에 서열분석 방법을 수행하는 단계를 포함한다.
본 명세서에 제공된 방법의 일부 실시 형태에서, 장기, 조직, 또는 세포는 피부, 골, 심장 판막, 심장, 폐, 신장, 간, 췌장, 장, 위, 고환, 또는 이들의 일부를 포함한다. 일부 실시 형태에서, 장기, 조직, 또는 세포는 골수, 조혈 줄기 세포, 또는 성체 줄기 세포를 포함한다.
도 1은 하나 이상의 실시 형태에 따른 예시적 방법을 예시하는 작업 흐름도이다. 본 방법 단계는 HLA 유전자좌가 개별적인 대립유전자의 유전체 서열에 의해 치환된 인간 유전체에 대한 보타이(Bowtie) 2를 통한 리드 맵핑(I), 맵핑된 리드의 수를 기반으로 하는 상위 후보 대립유전자의 선택(II 내지 IV), 및 선택된 후보 대립유전자의 모든 쌍에 걸친 로그-가능성 점수화(V)를 포함한다.
도 2는 리드 길이, 커버리지, 및 서열분석 프로토콜의 HLA 유형화 정확도에 대한 영향을 예시하는 그래프이다. 플롯은 HapMap RNAseq(37 bp 리드 길이), 유전체 WXS(100 bp 길이), 및 HapMap WXS(101 bp 리드 길이) 데이터세트로부터의 샘플을 포함한다. 입력 데이터를 페어드-엔드(paired-end)(폐쇄 기호 및 실선) 및 싱글-엔드(single-end)(개방 기호 및 점선)로서 고려하는 예측 정확도가 예시되어 있다. 기호는 이들의 HLA 유전자좌의 배수 커버리지에 의해 비닝된(binned) 샘플의 4-자리 분별능에서의 평균 정확도를 나타내며, 오차 막대는 분산을 표시한다. 후보 대립유전자에 대해 정렬되지 않거나 차선인 리드를 배제하고, 주요 클래스 I 및 II HLA 유전자좌의 CDS 영역을 감안하여 맵핑-후 배수 커버리지를 계산한다. 스플라인 보간법에 의해 매끄러운 선을 도출하여 기호의 경향을 예시하였다.
도 3은 HapMap RNAseq, 1000 유전체 WXS, HapMap WXS, 및 표적화 앰플리콘 서열분석(Targeted amplicon seq) 데이터세트 내에서 PHLAT, HLAminer, HLAforest, seq2HLA의 예측 정확도를 나타내는 표이다. *HapMap RNAseq 데이터세트에는 HLAminer의 리드 정렬 모드를 적용하였고, 다른 모든 데이터세트에는 콘티그 조립 모드(contig assembly mode)를 적용하였다. 모든 데이터세트에서 seq2HLA 예측의 정확도를 계산할 때 p-값 임계치를 적용하지 않았으며, 이는 이전에 기재된 바와 같이 0.1의 p-값 컷오프를 부과하는 것보다 더 적은 위음성(따라서 더 높은 정확도)을 유발하였다. #그 값은 이전 간행물의 본문에 보고되었다.
도 4는 HLA 유형화를 위한 HLA 서열 데이터를 생성시키기 위해 실시예 3에 사용된 표적화 앰플리콘 서열분석 전략을 도시하는 개략도이다.
도 5는 HLA 유형화를 위한 HLA 서열 데이터를 생성시키기 위해 실시예 3에 사용된 표적화 앰플리콘 서열분석 전략에 사용된 프라이머를 제공하는 표이다.
도 6a는 HapMap RNAseq, 1000 유전체 WXS, 및 HapMap WXS 데이터세트에 걸쳐 요약된, HLA-DQA1(좌측 패널) 및 HLA-DQB1(우측 패널) 유전자좌에서 잘못 동정된 대립유전자의 유형(x-축) 및 수(y-축)를 예시하는 히스토그램이다. 도 6b는 대표적인 일 샘플 내의 맵핑된 리드를 도시하는 도식이며, 여기서 HLA-DQA1 *03:01 대립유전자는 HLA-DQA1 *03:03 대립유전자로서 잘못 유형화되어 있다. 2개의 대립유전자를 구별하는 단일 SNP 위치(2개의 수직 점선 사이에 강조된 chr6: 32609965) 주변에 맵핑된 리드를 나타낸다. HLA-DQA1 유전자의 hg19 참조 서열을 패널의 하위에 나타낸다. 강조된 SNP에서 A, C, G, T 염기의 누적 계수(pileup count)는 각각 141, 117, 0, 및 0이다. 도 6c는 질의로서 표시된 HLA-DQA1 *03:03 대립유전자로부터의 135-뉴클레오티드 세그먼트와 인간 유전체 hg19 내의 HLA-DQA2 참조 서열의 정렬을 도시하는 도식이다. 질의 서열은 불일치만 표시된 수평 막대로서 단순화되어 있다. 불일치에서의 기존의 dbSNP 기록은 적색 수직 마커 및 연계된 동정 번호(예를 들어, rs62619945)로 표지되어 있으며 주요 염기 서열 및 대안적 염기 서열을 표시하는 괄호가 이어진다. DQA1 *03:01 및 DQA1 *03:03 대립유전자가 상이한 SNP의 정렬은 상자로 표시되어 있다.
도 7은 하나 이상의 실시 형태에 따른 예시적 방법을 예시하는 순서도이다.
도 8은 하나 이상의 실시 형태에 따른 예시적 방법을 예시하는 순서도이다.
일반
소정의 태양에서, 본 명세서에는 유전자좌(예를 들어, 고도로 다형성인 유전자좌)에 존재하는 대립유전자를 정확하게 결정하는 방법이 제공된다. 일부 실시 형태에서, 본 방법은 PAT(Precise Allele Typing) 또는 PHLAT(Precise HLA Typing)라고 지칭된다. 용어 PHLAT 및 PAT는 본 명세서에서 호환적으로 사용된다. PAT 방법은 HLA 유전자좌, BGA 유전자좌, 및 HV 유전자좌와 같은 고도로 다형성인 유전자좌를 포함하는 임의의 유전자좌에 존재하는 대립유전자의 동정에 널리 적용가능하다. PAT 방법의 소정의 실시 형태는, 예를 들어, 장기 이식, 맞춤형 의료, 진단, 법의학, 및 인류학을 포함하는 광범위한 응용에 유용하다. 예를 들어, PAT 방법의 실시 형태를 사용하여 장기 거부 및 이식편 대 숙주 질환을 예방하고, 질환 감수성을 결정하고, 예방접종 전략을 최적화하고, 치료적 효능을 예측하고, 지리적 기원 및/또는 인종적 기원을 동정할 수 있다.
일부 실시 형태에서는, PAT 방법을 사용하여 HLA 유전자좌에서 HLA 유형을 결정한다. PAT 방법은 광범위한 서열분석 데이터, 심지어 짧은 리드 길이 및/또는 낮은 서열 커버리지를 갖는 서열분석 데이터를 사용하는 정확한 4-자리 및 2-자리 HLA 유형화를 가능하게 한다. 전체 전-유전체 서열분석 방법론(예를 들어, 전사체 서열분석, 전체 진유전체 서열분석, 및 전체 유전체 서열분석) 및 HLA-특이적 서열분석 방법론(예를 들어, HLA 유전자좌의 핵산 증폭에 이어서 생성된 증폭 산물의 서열분석)을 포함하는 다수의 상이한 서열분석 방법을 사용하여 생성시킨 서열분석 데이터를 기반으로 정확한 HLA 유형을 예측할 수 있다.
예를 들어, PAT 방법을 사용하여, 일치하거나 부분적으로 일치하는 HLA 유형을 갖는 공여자와 수용자 사이의 세포, 장기, 또는 조직의 이식을 용이하게 할 수 있다. 일부 실시 형태에서는, PAT 방법을 사용하여 루푸스, 염증성 장 질환, 다발성 경화증, 관절염, 및 유형 I 당뇨병과 같은 면역성 질환, 및 유방암 또는 자궁경부암과 같은 암을 포함하는 소정의 질환 또는 병태에 대해 취약한 개체를 동정하고/하거나 그의 치료를 용이하게 한다. 일부 실시 형태에서는, PAT 방법을 사용하여 종양 면역 요법 및/또는 암 예방접종 요법을 용이하게 한다. 소정의 실시 형태에서는, PAT 방법을 사용하여 대상 또는 샘플의 지리적 기원 및/또는 인종적 기원을 결정한다.
소정의 실시 형태에서, PAT 방법은 하기의 2개 부분을 포함한다: 1) 유전자좌의 가능한 대립유전자 중으로부터의 후보 대립유전자의 선택; 및 2) 어느 후보 대립유전자의 쌍이 유전자좌에서의 대립유전자의 쌍일 가능성이 가장 높은지를 동정하기 위한 후보 대립유전자의 쌍의 순위화. 일부 실시 형태에서, 후보 대립유전자는 리드 계수(read count)를 기반으로 선택된다. 일부 실시 형태에서, 후보 대립유전자의 쌍은 관찰된 데이터가 각각의 대립유전자 쌍에 의해 설명될 수 있을 가능성을 기반으로 순위화된다. 일부 실시 형태에서, 가장 가능성이 높은 대립유전자는 개별적인 위치에서의 서열 일관성(sequence consistency) 및 연속하는 위치에 걸친 위상 일관성(phase consistency) 양자 모두를 기반으로 결정된다. 일부 실시 형태에서는, 인간 개체군 내의 대립유전자의 빈도 또한 대립유전자 쌍의 순위화에 참작한다. 하나 이상의 실시 형태에 따른 예시적 PAT 방법을 예시하는 순서도가 도 7 및 도 8에 제공되어 있다.
일부 실시 형태에서는, 본 명세서에 기재된 방법을 사용하여 임의의 주요 HLA 유전자좌 또는 부수적 HLA 유전자좌의 HLA 유형을 결정할 수 있다. 일부 실시 형태에서, HLA 유전자좌는 클래스 I HLA 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 HLA-A 유전자좌, HLA-B 유전자좌, 또는 HLA-C 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 클래스 II HLA 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 HLA-DQA1 유전자좌, HLA-DQB1 유전자좌, HLA-DRA 유전자좌, HLA-DRB1 유전자좌, HLA-DRB3 유전자좌, HLA-DRB4 유전자좌, HLA-DRB5 유전자좌, HLA-DPA1 유전자좌, 또는 HLA-DPB1 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 부수적 HLA 유전자좌이다. HLA 대립유전자의 서열은 당업계에 공지되어 있다. 예를 들어, HLA 대립유전자의 유전체 및 코딩 DNA 서열(CDS)은 IMGT 발매본 3.8.0으로부터 수득할 수 있다.
일부 실시 형태에서는, 본 명세서에 기재된 방법을 사용하여 HV 유전자좌(예를 들어, 초가변 영역 1(HV1) 유전자좌 또는 초가변 영역 2(HV2) 유전자좌)와 같은 미토콘드리아 DNA 유전자좌의 유전자형을 결정할 수 있다. 이배체이므로 각각의 유전자좌의 2개 카피를 갖는 핵 DNA와는 달리, 미토콘드리아 DNA는 반수체이므로 이론상 유전자좌의 1개 카피만을 함유할 것이다. 그러나, 미토콘드리아 DNA 내의 유전자좌는 흔히 중복된다. 그러므로 미토콘드리아 DNA가 유전자좌의 1개, 2개, 또는 다중 카피를 함유하는 것이 가능하다. 따라서, 본 명세서에 기재된 방법을 미토콘드리아 DNA(또는 생식 세포 유전체, 바이러스 유전체, 또는 박테리아 유전체를 포함하는, 반수체 유전체에 의해 암호화된 임의의 유전자좌)에 적용하는 경우, 대립유전자의 쌍이 아니라 하나 이상의 대립유전자가 유전자좌에 존재하는 것으로 동정될 것이다. HV 대립유전자의 서열은 당업계에 공지되어 있다. 전체적으로 본 명세서에 참고로 포함된 문헌[Kohl et al, Nucleic Acids Research 34:D700-D704 (2006)]에 기재된 바와 같이, 예를 들어, HvrBase++ 데이터베이스(http://www.hvrbase.org)에서 HV 대립유전자 서열을 확인할 수 있다.
일부 실시 형태에서는, 본 명세서에 기재된 방법을 사용하여 BGA 유전자좌에 존재하는 대립유전자를 결정한다. 예시적 BGA 유전자좌는 ABO 유전자좌 및 Rh 유전자좌를 포함한다. BGA 유전자좌 대립유전자의 서열은 당업계에 공지되어 있다. 예를 들어, 전체적으로 본 명세서에 참고로 포함된 문헌[Patnaik et al, Nucleic Acids Research 40:D1023-D1029 (2012)]에 기재된 바와 같이, BGA 유전자좌 서열은 NCBE 혈액형 항원 유전자 돌연변이 데이터베이스(NCBEs Blood Group Antigen Gene Mutation Database)(http://www.ncbi.nlm.nih.gov/projects/gv/rbc/xslcgi.fcgi?cmd=bgmut)로부터 수득할 수 있다.
소정의 실시 형태에서, 본 명세서에 기재된 방법은 컴퓨터-구현된다. 본 방법은 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 임의의 조합에서 구현될 수 있다. 본 방법은 바람직하게는 하나 이상의 프로세서, 프로세서에 의해 리드가능한 저장 매체(예를 들어, 휘발성 및 비-휘발성 메모리 및/또는 저장 요소를 포함함), 및 입력 및 출력 장치를 포함하는 프로그램가능한 컴퓨터 시스템 상에서 실행되는 하나 이상의 컴퓨터 프로그램에서 구현된다. 컴퓨터 시스템은 하나 이상의 물리 머신(physical machine), 또는 하나 이상의 물리 머신 상에서 실행되는 가상 머신(virtual machine)을 포함할 수 있다. 또한, 컴퓨터 시스템은 컴퓨터의 클러스터, 또는 인터넷 또는 다른 네트워크에 의해 연결된 다수의 분산된 컴퓨터를 포함할 수 있다.
각각의 컴퓨터 프로그램은 컴퓨터 시스템의 랜덤 액세스 메모리(random access memory) 내에 상주하는 코드 모듈 내의 프로그램 코드 또는 명령어의 세트일 수 있다. 컴퓨터 시스템이 필요로 할 때까지, 명령어의 세트를 다른 컴퓨터 메모리 내에(예를 들어, 하드 디스크 드라이브 내에, 또는 이동식 메모리, 예를 들어 광 디스크, 외장 하드 드라이브, 메모리 카드, 또는 플래시 드라이브 내에) 저장하거나 다른 컴퓨터 시스템 상에 저장하고 인터넷 또는 다른 네트워크를 통해 다운로드할 수 있다. 각각의 컴퓨터 프로그램은, 예를 들어, 파이톤(Python)을 포함하는 다양한 컴퓨터 프로그래밍 언어로 구현될 수 있다.
서열분석 데이터
소정의 실시 형태에서, 본 명세서에 개시된 방법은 서열 데이터를 수득하거나 수용하는 단계(예를 들어, 도 7 및 도 8의 단계 10)를 포함한다. 일부 실시 형태에서, 서열 데이터는 임의의 방법을 통해 수득하거나 수용할 수 있다. 예를 들어, 샘플 상에 서열분석 방법을 수행함으로써, 서열 데이터를 직접 수득할 수 있다. 대안적으로, 예를 들어, 제3자, 데이터베이스, 및/또는 간행물로부터 간접적으로 서열 데이터를 수득할 수 있다. 일부 실시 형태에서는, 예를 들어, 데이터 저장 장치 또는 별도의 컴퓨터 시스템으로부터 서열 데이터를 컴퓨터 시스템에 수용한다.
본 명세서에 기재된 방법은 광범위한 서열 데이터를 사용하여 유전자좌(예를 들어, 유전자좌의 HLA 유형)에 존재하는 대립유전자를 정확하게 예측할 수 있다. 예를 들어, 일부 실시 형태에서, 서열 데이터는 전-유전체 서열분석 데이터이다. 일부 실시 형태에서, 서열 데이터는 전사체 서열분석 데이터이다. 일부 실시 형태에서, 서열 데이터는 전체 진유전체 서열분석 데이터이다. 일부 실시 형태에서, 서열분석 데이터는 전체 유전체 서열분석 데이터이다. 일부 실시 형태에서, 서열 데이터는 유전자좌를 암호화하는 서열 데이터로 보강된다. 일부 실시 형태에서, 서열 데이터는 RNA 서열 데이터이다. 일부 실시 형태에서, 서열 데이터는 DNA 서열 데이터이다.
일부 실시 형태에서, 서열 데이터는 복수의 서열분석 리드를 포함한다. 일부 실시 형태에서, 서열분석 리드의 평균 리드 길이는 35, 36, 37, 38, 39, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 250, 300, 400, 500, 600, 700, 800, 900, 또는 1000개 뉴클레오티드 이하이다. 일부 실시 형태에서, 서열분석 리드의 평균 리드 길이는 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 125, 150, 175, 200, 또는 250개 뉴클레오티드 이상이다. 일부 실시 형태에서, 서열분석 리드의 커버리지는 100x, 90x, 80x, 70x, 60x, 50x, 40x, 30x, 또는 20x 이하이다. 일부 실시 형태에서, 서열분석 리드의 커버리지는 50x, 45x, 40x, 35x, 30x, 25x, 20x, 19x, 18x, 17x, 16x, 15x, 14x, 13x, 12x, 11x, 또는 10x 이상이다.
일부 실시 형태에서, 서열 데이터는 당업계에 공지된 임의의 서열분석 방법에 의해 산출될 수 있다. 예를 들어, 일부 실시 형태에서 서열분석 데이터는 사슬 종결 서열분석, 결찰(ligation)에 의한 서열분석, 합성에 의한 서열분석, 파이로서열분석(pyrosequencing), 이온 반도체 서열분석, 단일 분자 실시간 서열분석, 희석 진행(dilute-'n'-go) 서열분석, 및/또는 454 서열분석을 사용하여 산출한다.
일부 실시 형태에서, 서열 데이터는 핵산 증폭 방법을 수행하여 하나 이상의 유전체 유전자좌 또는 전사물의 적어도 일부를 증폭한 후에, 생성된 증폭 산물을 서열분석하는 방법의 결과이다. 본 명세서에 개시된 방법의 수행에 유용한 핵산 증폭 방법의 예는 폴리머라아제 연쇄 반응(PCR: polymerase chain reaction), LATE-PCR, 리가아제 연쇄 반응(LCR: ligase chain reaction), 가닥 치환 증폭(SDA: strand displacement amplification), 전사 매개 증폭(TMA: transcription mediated amplification), 자가-유지 서열 복제(3SR: self-sustained sequence replication), Qβ 레플리카아제 기반 증폭(Qβ replicase based amplification), 핵산 서열-기반 증폭(NASBA: nucleic acid sequence-based amplification), 복구 연쇄 반응(RCR: repair chain reaction), 부메랑 DNA 증폭(BDA: boomerang DNA amplification), 및/또는 회전환 증폭(RCA: rolling circle amplification)을 포함하지만 이로 제한되지 않는다.
일부 실시 형태에서, 본 방법은 샘플 상에 서열분석 방법을 수행하는 단계를 포함한다. 샘플이 DNA 및/또는 RNA(예를 들어, HLA 분자를 암호화하는 DNA 또는 RNA)를 함유하는 한, 임의의 샘플을 사용할 수 있다. 일부 실시 형태에서, 샘플은 예비 장기, 세포, 또는 조직 공여자로부터의 것이다. 일부 실시 형태에서, 샘플은 예비 장기, 세포, 또는 조직 수용자로부터의 것이다. 샘플의 공급원은, 예를 들어, 신선, 냉동, 및/또는 보존 장기, 조직 샘플, 조직검사, 또는 흡인물(aspirate)로부터의 것과 같은 고형 조직; 혈액 또는 임의의 혈액 성분, 혈청, 혈액; 뇌척수액, 양수, 복막액 또는 간질액, 소변, 타액, 대변, 누액과 같은 체액; 또는 대상의 임신 또는 발생 중의 임의의 시점으로부터의 세포일 수 있다.
일부 실시 형태에서는, 당업계에서 이용가능한 임의의 서열분석 방법을 수행한다, 일부 실시 형태에서는, 사슬 종결 서열분석, 결찰에 의한 서열분석, 합성에 의한 서열분석, 파이로서열분석, 이온 반도체 서열분석, 단일 분자 실시간 서열분석, 희석 진행 서열분석, 및/또는 454 서열분석을 사용하여 서열분석을 수행한다. 일부 실시 형태에서는, 핵산 증폭 방법을 수행하여 하나 이상의 유전체 유전자좌 또는 전사물(예를 들어, HLA 유전체 유전자좌 또는 전사물)의 적어도 일부를 증폭한 후에, 생성된 증폭 산물을 서열분석한다. 일부 실시 형태에서, 수행되는 핵산 증폭 방법은 폴리머라아제 연쇄 반응(PCR), LATE-PCR, 리가아제 연쇄 반응(LCR), 가닥 치환 증폭(SDA), 전사 매개 증폭(TMA), 자가-유지 서열 복제(3SR), Qβ 레플리카아제 기반 증폭, 핵산 서열-기반 증폭(NASBA), 복구 연쇄 반응(RCR), 부메랑 DNA 증폭(BDA), 및/또는 회전환 증폭(RCA)이다.
후보 대립유전자의 선택
일부 실시 형태에서, 본 명세서에 개시된 방법은 후보 대립유전자의 선택을 위한 단계(예를 들어, 도 7의 단계 20 및 단계 30 및 도 8의 단계 20, 단계 32, 단계 34, 및 단계 36)를 포함한다. 일부 실시 형태에서, 후보 대립유전자의 선택은 서열분석 리드를 참조 서열에 대해 맵핑하는 단계 후에, 일련의 리드 계수 단계에 의해 수행된다. 이 맵핑 방법은, 예를 들어, 임의의 이용가능한 서열 맵핑 소프트웨어를 사용하여 수행할 수 있다. 소정의 실시 형태에서는, 보타이 2가 사용된다. 일부 실시 형태에서, 보타이 2 맵핑 파라미터는 엔드-투-엔드 모드에서 고감도(very-sensitive)(즉 -D 20 -R 3 -N 0 -L 20 -I S, 1, 0.50)로 설정된다. 일부 실시 형태에서, 참조 서열은 HLA 대립유전자(예를 들어, 인공 염색체 상의)와 같은 복수의 대립유전자를 포함한다. 일부 실시 형태에서, 참조 서열은 인간 유전체 서열(예를 들어, GRCh37/ hg19)을 추가로 포함한다. 일부 실시 형태에서는, 인간 유전체 서열 내의 하나 이상의 유전자좌(예를 들어, HLA 유전자좌)가 참조 서열로부터 배제되거나 차폐된다(예를 들어, 유전자좌 서열을 N으로 대체함으로써).
참조 서열 내에 포함된 대립유전자는 대립유전자 서열의 임의의 공급원으로부터 수득할 수 있다. 예를 들어, HLA 대립유전자가 참조 서열 내에 포함되는 경우, 대립유전자의 유전체 및 코딩 DNA 서열(CDS)은 IMGT 발매본 3.8.0으로부터 수득하고 인간 참조 유전체 빌드(human reference genome build) 37/hg19 내의 좌표에 대해 맵핑할 수 있다. 일부 실시 형태에서는, 전사 개시 부위로부터 종결 코돈까지의 대립유전자의 유전체 서열만 참조 서열 내에 포함된다. 비-코딩 영역을 참조 대립유전자의 유전체 서열(예를 들어, 상응하는 유전자좌에서의 hg19 유전체로부터의 서열)로 충전함으로써 유전체 기록은 없고 CDS만 있는 대립유전자를 사용할 수 있다. 이론에 구애됨이 없이, 비-코딩 영역 내의 다형성은 단백질 수준에서 HLA 유형을 변경하지 않으므로, 비-코딩 서열의 유전체 서열 대치(genomic sequence imputation)는 HLA 유형화에 영향을 주지 않거나 거의 주지 않는다.
일부 실시 형태에서는, 후보 대립유전자의 선택 전에, 낮은 엄격성에서 서열 리드를 참조 서열에 대해 맵핑함으로써 예비-후보 대립유전자를 선택한다. 일부 실시 형태에서는, 리드 계수의 상위 분위수 임계치(예를 들어, 상위 95, 90, 85, 80, 75, 70, 65, 60, 55, 또는 50 백분위수)를 가능한 대립유전자의 개략적 예비-선택에 적용하였다. 일부 실시 형태에서, 상위 분위수 임계치는 상위 90 백분위수이다. 일부 실시 형태에서, 상위 분위수 임계치는 70 백분위수이다. 일부 실시 형태에서, 유전자좌에 다수의 대립유전자(예를 들어, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000개 이상의 대립유전자)가 존재하는 경우에 상위 분위수는 상위 90 백분위수이지만, 유전자좌에 소수의 대립유전자(예를 들어, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000개 이하의 대립유전자)가 존재하는 경우에 상위 분위수 임계치는 상위 70 백분위수이다. 일부 실시 형태에서는, 패밀리의 하나 이상의 구성원이 임계치 이내에 들어가는 한, 단백질(4-자리) 패밀리로부터의 모든 대립유전자가 유지된다. 소정의 실시 형태에서는, 하나 이상의 대립유전자가 맵핑된 대립유전자의 상위 5%, 10%, 15%, 20%, 25%, 또는 30% 중에 있는 각각의 4-자리 단백질 패밀리로부터의 모든 대립유전자가 예비-후보 대립유전자로서 선택된다. 일부 실시 형태에서는, 맵핑된 대립유전자의 상위 10%가 선택된다. 일부 실시 형태에서는, 맵핑된 대립유전자의 상위 30%가 선택된다. 일부 실시 형태에서, 유전자좌에 다수의 대립유전자(예를 들어, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000개 이상의 대립유전자)가 존재하는 경우에는 맵핑된 대립유전자의 상위 10%가 선택되지만, 유전자좌에 소수의 대립유전자(예를 들어, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000개 이하의 대립유전자)가 존재하는 경우에는 맵핑된 대립유전자의 상위 30%가 선택된다. 일부 실시 형태에서는, 예비-후보 대립유전자만 후속의 후보 선택 방법에 포함된다. 일부 실시 형태에서는, 참조 서열 내의 모든 대립유전자가 후속의 후보 선택 방법에 포함된다. 이 예비-선택 방법의 예시적 실시 형태는 도 1의 단계 I 및 단계 II에 예시되어 있다.
일부 실시 형태에서는, 유지된 대립유전자에 대해 맵핑된 리드의 수를 엄격한 기준을 사용하여 계산한다. 예를 들어, 일부 실시 형태에서 리드는, 리드에 의해 커버된 상응하는 유전자좌 내부의 SNP 부위에 걸친 서열 동일성에 의해 판단하여 그것이 가장 잘 일치되는 대립유전자(또는 동점인 경우에 다중 대립유전자)에 대해서만 계수된다. 일부 실시 형태에서, 리드를 계수하기 위해서는 99% 이상의 서열 동일성이 필요하다. 일부 실시 형태에서, 유전자좌 당 SNP는 그 유전자좌에서 유지된 대립유전자의 다형성 부위이다. 일부 실시 형태에서, 임의의 유지된 대립유전자 내의 인델(indel)(삽입 또는 결실)과 일치하는 부위는 배제된다. 이 맵핑 방법의 예시적 실시 형태는 도 I의 단계 III에 예시되어 있다.
소정의 실시 형태에서는, 일련의 리드-계수 단계(예를 들어, 도 8의 단계 32, 단계 34, 및 단계 36)를 사용하여 후보 대립유전자를 선택한다. 일부 실시 형태에서는, 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제1 세트의 후보 대립유전자로서 동정한다. 일부 실시 형태에서는, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하고, 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제2 세트의 후보 대립유전자로서 동정한다. 일부 실시 형태에서, 유전자좌에 대해 맵핑되는 서열분석 리드의 95%, 90%, 85%, 또는 80% 미만이 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자를 제3 세트의 후보 대립유전자로서 동정한다. 일부 실시 형태에서, 동정된 대립유전자는 단백질 군의 세트로부터 선택된다.
후보 대립유전자 선택 방법의 예시적 실시 형태는 도 1의 단계 IV에 예시되어 있다. 이 실시 형태에서는, 대립유전자를 먼저 리드 계수에 따라 높은 것으로부터 낮은 것으로 분류한다(도 1에서 수준 0 순위화라고 지칭함). 가장 큰 리드 계수를 가진 대립유전자(또는 동점인 경우에 대립유전자들)를 선택하고 후보로서 저장한다. 이어서, 이전에 선택된 대립유전자와 공유되는 리드를 배제함으로써 나머지 대립유전자 내의 리드 계수를 조정한다. 조정된 리드 계수를 내림 차순으로 분류하고(도 1에서 수준 1 순위화라고 지칭함) 새로운 상위 대립유전자(또는 동점인 경우에 대립유전자들)를 후보 대립유전자로서 선택한다. 리드 맵핑 및 계수에서 불확실성을 용인하기 위해, 수준 0에서 제2 상위 순위 대립유전자로부터의 대립유전자를, 그들이 상위 대립유전자와는 별개인 무시할 수 없는 수의 리드를 보유하는 경우에, 후보 대립유전자로서 포함한다. 예를 들어, 일부 실시 형태에서는, 수준 0 순위화에서 선택된 대립유전자에 대해 맵핑되는 리드의 배제 후에, 그들이 수준 0 순위화된 대립유전자에 대해 맵핑된 서열분석 리드의 수의 1% 이상인 다수의 서열분석 리드를 유지하는 경우, 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드를 배제하기 전에 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 대립유전자가 수준 1 순위화에 포함된다. 수준 0 및 수준 1 순위화로부터 선택된 대립유전자가 유전자좌에 대해 맵핑된 대립유전자의 90% 미만을 설명하는 경우, 리드 계수 절차가 반복되고(도 1에서 수준 2 순위화라고 지칭함), 유전자좌에 대해 맵핑되는 서열분석 리드의 10% 이상이 새로운 상위 대립유전자 또는 대립유전자들에 대해 맵핑되는 경우에 새로운 상위 대립유전자(또는 동점인 경우에 대립유전자들)가 후보 대립유전자 중에 포함된다.
일부 실시 형태에서, 하기의 기준을 만족하는 경우에 유전자좌는 동형접합(즉, 유전자좌의 양자 모두의 카피가 동일한 대립유전자를 함유함)인 것으로 결정된다: 수준 0에서 상위 대립유전자가 리드의 80%, 85%, 90%, 또는 95% 이상을 설명하고 다른 대립유전자는 나머지 리드의 3%, 4%, 5%, 6%, 7%, 8%, 9%, 또는 10% 초과를 설명하지 않음. 일부 실시 형태에서, 하기의 기준을 만족하는 경우에 유전자좌는 동형접합인 것으로 결정된다: 수준 0에서 상위 대립유전자가 유전자좌에 대해 맵핑된 리드의 90% 이상을 설명하고, 다른 대립유전자는, 수준 0에서 상위 대립유전자에 대해 맵핑된 리드를 배제하고, 유전자좌에 대해 맵핑된 리드의 5% 초과를 설명하지 않음.
가능성 순위화
소정의 실시 형태에서, 상기 후보 선택 방법의 수행 후에, 후보 대립유전자 및 이들의 연계된 리드만 후속의 분석에 포함된다. 일부 실시 형태에서는, 후보 대립유전자의 모든 쌍별 조합(pair-wise combination)(자가-쌍(self-pair)을 포함함)에 걸친 평가를 후보 대립유전자에 적용하여 유전자좌에 존재할 가능성이 가장 높은 쌍(예를 들어, HLA 유형을 이룰 가능성이 가장 높은 쌍)을 발견한다. 이러한 방법의 태양의 예는 도 7의 단계 40 및 도 8의 단계 42, 단계 44, 및 단계 46에 도시되어 있다.
일부 실시 형태에서, 본 명세서에 제공된 방법은 유전자좌에 존재하는 대립유전자일 가능성이 가장 큰 후보 대립유전자의 쌍을 동정하는 단계를 포함한다. 일부 실시 형태에서, 동정된 후보 대립유전자의 쌍은 유전자좌에 대해 맵핑되는 서열분석 리드의 서열을 설명할 가능성이 가장 큰 쌍이다. 일부 실시 형태에서, 동정된 후보 대립유전자의 쌍은 1) 후보 대립유전자에 대해 맵핑되는 서열분석 리드 내에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP); 및 2) 후보 대립유전자에 대해 맵핑되는 서열분석 리드 내에 존재하는 SNP의 순차적 쌍을 설명할 가능성이 가장 큰 쌍이다. 일부 실시 형태에서, 동정된 후보 대립유전자의 쌍은 1) 후보 대립유전자에 대해 맵핑되는 서열분석 리드 내에 존재하는 개별적인 단일 뉴클레오티드 다형성(SNP); 2) 후보 대립유전자에 대해 맵핑되는 서열분석 리드 내에 존재하는 SNP의 순차적 쌍; 및 3) 인간에서의 후보 대립유전자의 쌍의 빈도를 설명할 가능성이 가장 큰 쌍이다.
일부 실시 형태에서, 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 서열을 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 1) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 2) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계에 의해 결정되고, 여기서 유전자형 로그-가능성 점수와 위상 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍은 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 실시 형태에서, 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 서열을 설명할 가능성이 가장 큰 후보 대립유전자의 쌍은 1) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 유전자좌 내의 각각의 개별적인 SNP에 대한, 후보 대립유전자의 쌍이 SNP에 대해 맵핑되는 서열분석 리드 내의 개별적인 SNP에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 2) 후보 대립유전자의 각각의 쌍에 대해, 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 후보 대립유전자의 쌍이 SNP의 순차적 쌍에 대해 맵핑되는 서열분석 리드 내의 SNP의 순차적 쌍에 존재하는 서열을 설명할 수 있을 로그-확률의 합인 단계; 및 3) 후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 빈도 로그-가능성 점수는 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도의 합인 단계에 의해 결정되고, 여기서 유전자형 로그-가능성 점수, 위상 로그-가능성 점수, 및 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍은 서열분석 리드를 설명할 가능성이 가장 큰 후보 대립유전자의 쌍이다.
일부 실시 형태에서는, 로그-가능성 점수(
Figure 112016045007928-pct00001
)가 가장 높은 후보 대립유전자의 쌍을 유전자좌에 존재하는 대립유전자(예를 들어, HLA 유전자좌에서의 HLA 유형)로서 동정한다. 일부 실시 형태에서,
Figure 112016045007928-pct00002
은 수학식 1에 따라 계산한다. 수학식 1에 나타낸 바와 같이, 각각의 대립유전자 쌍의(
Figure 112016045007928-pct00003
)은, 인간에 존재하는 대립유전자 쌍의 확률(
Figure 112016045007928-pct00004
)과 함께, 개별적인 SNP 부위에 걸쳐 관찰된 유전자형의 가능성(
Figure 112016045007928-pct00005
) 및 다중 부위에 걸친 위상의 가능성(
Figure 112016045007928-pct00006
)을 통합한다.
[수학식 1]
Figure 112016045007928-pct00007
유전자형 가능성 점수화
일부 실시 형태에서, 유전자좌 내의 개별적인 SNP에 대한 로그-가능성 점수(
Figure 112016045007928-pct00008
)는 베이지안(Bayesian) 모델에 따라 계산된다. 일부 실시 형태에서, 사후 로그-가능성
Figure 112016045007928-pct00009
은 조건부 로그-가능성
Figure 112016045007928-pct00010
에 비례하며, 이는 부위
Figure 112016045007928-pct00011
에서의 관심대상 대립유전자 쌍의 유전자형(
Figure 112016045007928-pct00012
)을 고려하여 누적 염기(piled up base)(
Figure 112016045007928-pct00013
)를 관찰할 로그-확률이다. 주변 사전(marginal prior)
Figure 112016045007928-pct00014
는 임의의 유전자형에 대해 일정한 것으로 가정되므로 제거된다.
Figure 112016045007928-pct00015
는 부위
Figure 112016045007928-pct00016
에서 염기
Figure 112016045007928-pct00017
가 관찰될 개별적인 조건부 로그-가능성
Figure 112016045007928-pct00018
의 곱이다(수학식 2).
[수학식 2]
Figure 112016045007928-pct00019
Figure 112016045007928-pct00020
는 염기
Figure 112016045007928-pct00021
의 프레드 점수(Phred score)로부터 변환된 오차율이다.
위상 가능성 점수화
일부 실시 형태에서, 2개의 인접한 SNP 부위에 걸친 위상 가능성(
Figure 112022019251028-pct00022
)은 상기 기재된 1개의 SNP 부위의 유전자형 가능성과 유사하게 모델화된다.
Figure 112022019251028-pct00023
은, 2개 부위에서의 관심대상 대립유전자 쌍의 위상 서열
Figure 112022019251028-pct00024
을 고려하여, 2개의 인접한 SNP 부위
Figure 112022019251028-pct00025
Figure 112022019251028-pct00026
Figure 112022019251028-pct00027
에 걸쳐 동일한 가닥 상에서 염기의 쌍(
Figure 112022019251028-pct00028
)이 관찰될 로그-확률
Figure 112022019251028-pct00029
에 비례한다. 2개 부위에 걸쳐 15개의 가능한 불일치(역위상(out-of-phase)) 상태 및 1개의 일치(동위상(in-phase)) 상태가 존재한다.
Figure 112022019251028-pct00030
은 부위
Figure 112022019251028-pct00031
Figure 112022019251028-pct00032
Figure 112022019251028-pct00033
을 커버하는 모든 리드로부터의 조건부 로그-가능성의 곱이다(수학식 S1).
Figure 112022019251028-pct00034
는 역위상 오차율(0.01)이다.
[수학식 3]
Figure 112016045007928-pct00035
수학식 3은 동위상 및 역위상 리드의 수를 기반으로 하는 이항 확률의 계산에 의해 유도되는 이종 위상(heterogeneous phase) 서열
Figure 112022019251028-pct00036
을 가진 대립유전자 쌍을 선호하는 편향성을 방지한다. 이종 위상에 대한 동위상 리드 계수는 2개의 동종 위상(homogeneous phase)
Figure 112022019251028-pct00037
Figure 112022019251028-pct00038
을 지원하는 동위상 리드 계수의 합이며, 따라서 항상 그보다 더 크다. 따라서, 이항 모델에서 이종 위상은 항상 2개의 상응하는 동종 위상보다 더 높은 확률을 갖는다. 반면에, 본 명세서에 기재된 베이지안 모델은 하나의 유형이 우세한 경우가 아니라 거의 균형을 이루는
Figure 112022019251028-pct00039
Figure 112022019251028-pct00040
리드만을 가진 이종 위상을 선호하며, 이는 결국 동종 위상을 시사한다.
대립유전자 빈도 점수화
일부 실시 형태에서는, 가장 가능성이 높은 후보 대립유전자의 쌍을 결정하는 경우에 후보 대립유전자의 각각의 쌍이 인간 개체군 내에 존재하는 로그-빈도를 고려한다. 주요 클래스 I 및 II 유전자좌에 대한 대립유전자 빈도는 당업계에 공지되어 있다. 예를 들어, 대립유전자 빈도 네트(Allele Frequency Net)로부터 이러한 대립유전자 빈도를 다운로드할 수 있다. 일부 실시 형태에서는, 각각의 단백질(4-자리) 패밀리에 대해, 문헌상의 대립유전자로부터의 최대 빈도가 사용되었으며 그 안의 모든 대립유전자에 의해 공유되었다. 일부 실시 형태에서는, 미지의 빈도를 가진 임의의 단백질 패밀리(및 그의 대립유전자)에 0.0001의 배경 값이 지정된다. 일부 실시 형태에서,
Figure 112016045007928-pct00041
는 2개 대립유전자의 로그-빈도의 합으로서 계산된다.
이식 방법
일부 태양에서는, 본 명세서에 기재된 HLA 유형화 방법을 사용하여 이식 거부 및/또는 이식편 대 숙주 질환의 가능성을 감소시킬 수 있다. 일부 소정의 태양에서, 본 명세서에는 장기, 세포, 또는 조직 이식을 수행하는 방법이 제공된다. 일부 실시 형태에서 이식 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 장기, 조직, 또는 세포의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서 이식 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 예비 이식 수용자의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서 이식 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 장기, 조직, 또는 세포의 HLA 유형을 결정하는 단계, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 예비 이식 수용자의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다.
일부 소정의 태양에서, 본 명세서에는 이식된 장기, 조직, 또는 세포의 거부를 예방하는 방법이 제공된다. 일부 실시 형태에서 본 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 장기, 조직, 또는 세포의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서 본 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 예비 이식 수용자의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서 본 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 장기, 조직, 또는 세포의 HLA 유형을 결정하는 단계, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 예비 이식 수용자의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다.
일부 소정의 태양에서, 본 명세서에는 이식편 대 숙주 질환을 예방하는 방법이 제공된다. 일부 실시 형태에서 본 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 장기, 조직, 또는 세포의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서 본 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 예비 이식 수용자의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서 본 방법은, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 장기, 조직, 또는 세포의 HLA 유형을 결정하는 단계, 본 명세서에 기재된 HLA 유형화 방법을 수행하여 하나 이상의 HLA 유전자좌에서 예비 이식 수용자의 HLA 유형을 결정하는 단계, 및 이어서, 장기, 조직, 또는 세포를 수용자에게 이식하는 단계를 포함한다. 일부 실시 형태에서, HLA 유형은 2 자리 분별능으로 결정된다. 일부 실시 형태에서, HLA 유형은 4 자리 분별능으로 결정된다.
일부 실시 형태에서, 이식 전에 시험되는 HLA 유전자좌는 클래스 I HLA 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 HLA-A 유전자좌, HLA-B 유전자좌, 또는 HLA-C 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 클래스 II HLA 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 HLA-DQA1 유전자좌, HLA-DQB1 유전자좌, HLA-DRA 유전자좌, HLA-DRB1 유전자좌, HLA-DRB3 유전자좌, HLA-DRB4 유전자좌, HLA-DRB5 유전자좌, HLA-DPA1 유전자좌, 또는 HLA-DPB1 유전자좌이다. 일부 실시 형태에서, HLA 유형은 다중 HLA 유전자좌에 대해 결정된다. 예를 들어, 일부 실시 형태에서, HLA 유형은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 또는 12개 이상의 HLA 유전자좌에 대해 결정된다. 일부 실시 형태에서, HLA 유형은 3개 모두의 클래스 I HLA 유전자좌(HLA-A, HLA-B, 및 HLA-C)에 대해 결정된다. 일부 실시 형태에서, HLA 유형은 HLA-A, HLA-B, HLA-C, HLA-DQA1, HLA-DQB1, 및 HLA-DRB1에 대해 결정된다. 일부 실시 형태에서, HLA 유형은 HLA-A, HLA-B, 및 HLA-DRB1에 대해 결정된다.
일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 HLA 유전자좌에서의 수용자의 HLA 유형에 일치한다. 일부 실시 형태에서, HLA 유전자좌는 HLA-A 유전자좌, HLA-B 유전자좌, 또는 HLA-C 유전자좌이다. 일부 실시 형태에서, HLA 유전자좌는 HLA-DQA1 유전자좌, HLA-DQB1 유전자좌, HLA-DRA 유전자좌, HLA-DRB1 유전자좌, HLA-DRB3 유전자좌, HLA-DRB4 유전자좌, HLA-DRB5 유전자좌, HLA-DPA1 유전자좌, 또는 HLA-DPB1 유전자좌이다. 일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 또는 12개 이상의 HLA 유전자좌에서 수용자의 HLA 유형에 일치한다. 일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 2개 이상의 클래스 I HLA 유전자좌에서 수용자의 HLA 유형에 일치한다. 일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 3개 모두의 클래스 I HLA 유전자좌에서 수용자의 HLA 유형에 일치한다. 일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 HLA-A 유전자좌 및 HLA-B 유전자좌에서 수용자의 HLA 유형에 일치한다. 일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 HLA-A 유전자좌, HLA-B 유전자좌, 및 HLA-DRB1 유전자좌에서 수용자의 HLA 유형에 일치한다. 일부 실시 형태에서, 장기, 조직, 또는 세포의 HLA 유형은 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 또는 1개 이하의 HLA 유전자좌에서 수용자의 HLA 유형에 일치하지 않는다. 일부 실시 형태에서, 일치는 2 자리 분별능에서의 것이다. 일부 실시 형태에서, 일치는 4 자리 분별능에서의 것이다.
본 명세서에 제공된 방법의 일부 실시 형태에서는, 장기가 이식된다. 일부 실시 형태에서, 이식되는 장기는 심장, 폐, 신장, 간, 췌장, 장, 위, 및/또는 고환, 또는 전술한 장기 중 하나의 일부이다. 일부 실시 형태에서, 이식되는 세포, 조직, 또는 장기는 사지(예를 들어, 손, 발, 팔, 또는 다리), 각막, 피부, 안면, 랑게르한스 섬, 골수, 조혈 줄기 세포, 성체 줄기 세포(예를 들어, 유선 줄기 세포, 장 줄기 세포, 중간엽 줄기 세포, 내피 줄기 세포, 신경 줄기 세포, 비점막 줄기 세포, 심장 줄기 세포, 폐 줄기 세포), 혈관, 심장 판막, 및/또는 골이다. 이식되는 장기, 조직, 또는 세포는 살아 있는 공여자 또는 사망한 공여자로부터의 것일 수 있다.
본 명세서에 제공된 방법의 일부 실시 형태에서는, 장기, 조직, 또는 세포의 수용자에게 이식 거부의 가능성을 감소시키는 약제를 투여한다. 일부 실시 형태에서, 약제는 면역억제제이다. 소정의 실시 형태에서는, 수용자에게 프레드니스톨론, 하이드로코르티손, 시클로스포린, 타크롤리무스, 아자티오프린, 마이코페놀산, 시롤리무스, 에베롤리무스, 바실릭시마브, 다클리주마브, 항-흉선세포 글로불린, 항-림프구 글로불린, 및/또는 리툭시마브를 투여한다. 일부 실시 형태에서는, 하나 이상의 HLA 유전자좌에서 수용자의 HLA 유형이 이식되는 장기, 세포, 또는 조직의 HLA 유형에 일치하지 않는 경우에 수용자에게 약제를 투여한다. 일부 실시 형태에서는, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 11개 이상의 HLA 유전자좌에서 수용자의 HLA 유형이 이식되는 장기, 세포, 또는 조직의 HLA 유형에 일치하지 않는 경우에 수용자에게 약제를 투여한다.
본 명세서에 언급된 특허, 출원, 및 젠뱅크(GenBank) 등록 번호를 포함하는 모든 간행물은 각각의 개별적인 간행물 또는 특허가 참고로 포함된 것으로 구체적이고 개별적으로 표시된 것처럼 본 명세서에 전체적으로 참고로 포함된다. 상충되는 경우에는, 본 명세서의 임의의 정의를 포함하여 본 출원이 우선할 것이다.
이제 본 발명이 일반적으로 기재되었으므로, 그것은 하기의 실시예를 참조하여 더 용이하게 이해될 것이며, 이는 단지 본 발명의 소정의 태양 및 실시 형태의 예시 목적으로 포함될 뿐이고, 본 발명을 제한하려는 의도가 아니다.
예시화
실시예 1: PHLAT 방법의 실시 형태를 사용하는 HLA 유형화
보타이 2를 사용하는 참조-기반 리드 맵핑(도 1의 단계 I)으로 시작하는 PHLAT 작업흐름. 인간 유전체 GRCh37/ hg19를 인공 염색체의 집합으로 연장함으로써 참조 유전체를 작제하였으며, 이들 각각은 하나의 HLA 대립유전자의 유전체 DNA 서열을 제공하였다. 염색체 6 상의 HLA-A, B, C, DQA1, DQB1, 및 DRB1 유전자좌에서 상응하는 유전체 서열을 N으로 차폐하여 중복된 맵핑을 방지하였다. 보타이 2 맵핑 파라미터는 ―엔드-투-엔드 모드에서 ―고감도(즉, -D20 -R3 -N0 -L20 -IS, 1, 0.50)로 설정되었다. 각각의 리드에 대한 최상의 정렬(또는 동일하게 양호한 정렬 중 하나)을 보고하였다. PHLAT의 성능은, 리드 길이가 보타이에 적용가능한 경우에 맵핑 엔진을 보타이로 교체함에 의해 유의적으로 변경되지 않았다(데이터는 나타내지 않음).
주요 클래스 I 및 II 유전자좌 HLA-A(1884), HLA-B(2489), HLA-C(1382), HLA-DQA1(47), HLA-DQB1(165), 및 HLA-DRB1(1092)에 대해 총 7059개의 대립유전자가 참조 서열 내에 포함되었다. 대립유전자의 유전체 및 코딩 DNA 서열(CDS)은 IMGT 발매본 3.8.0으로부터 수득하였고 인간 참조 유전체 빌드 37/hg19 내의 좌표에 대해 맵핑하였다. 보타이 2 맵핑에는 유전체 DNA 서열을 사용한 반면에(도 1, 단계 I 및 하기 참조), 다른 모든 절차에는 CDS 서열을 사용하였다(도1 단계 II 내지 단계 V). 전사 개시 부위(TSS)로부터 종결 코돈까지의 유전체 서열만 유지되었다. 유전체 기록은 없고 CDS만 있는 임의의 대립유전자에 대해, 그 대립유전자의 CDS 영역 외부의 변이를 시사한 이용가능한 데이터가 없는 한, 상응하는 유전자좌에서 hg19 유전체에 사용된 참조 대립유전자의 유전체 서열로 비-코딩 영역을 충전하였다(예를 들어, A*03:01:01:01은 HLA-A 유전자좌에 대한 참조 대립유전자임). 비-코딩 영역 내의 다형성이 단백질 수준에서 HLA 유형을 변경하지 않았으므로, 유전체 서열 대치는 HLA 유형화에 거의 영향을 주지 않았다.
하기 2개의 주요 단계에서 하기의 HLA 유형 예측을 완수하였다: 상위 후보 대립유전자의 선택(도 1의 단계 II 내지 단계 IV) 및 가능성 기반 순위화(도 1의 단계 V). 대립유전자 선택은 대립유전자의 모든 쌍별 조합을 평가해야 하는 동안 가능성 순위화의 계산 비용을 크게 감소시켰다. 이어서, 가능성 점수는 유전자형 및 위상 정보와 더불어 선행 지식을 통합하여 고도로 상동성인 HLA 대립유전자를 고분별능으로 분별하였다.
상위 후보 대립유전자 선택은 리드 계수의 반복을 포함하였다. 먼저, 보타이 2 맵핑 결과 상에서, 각각의 대립유전자에 대해 맵핑된 리드의 수를 계수하였다. 가능한 대립유전자의 개략적 예비-선택에 대해 리드 계수의 상위 분위수 임계치(예를 들어 90 백분위수)를 적용하였다(도 1의 단계 II). 패밀리 중 하나의 구성원이 선택된 한, 펩티드(4-자리) 패밀리로부터의 모든 대립유전자가 유지되었다. 그 다음에, 유지된 대립유전자에 대해 맵핑된 리드의 수를 더 엄격한 기준에 따라 재계산하였다(도 1의 단계 III). 보타이 2에 의한 각각의 리드 출력의 좌표를 사용하여, 이 위치에서 모든 유지된 대립유전자에 대해 리드를 비교하였다. 이 리드에 의해 커버된 상응하는 유전자좌 내부의 SNP 부위에 걸친 서열 동일성에 의해 판단하여, 그것이 가장 잘 일치되는 대립유전자(또는 동점인 경우에 다중 대립유전자)에 대한 리드만 계수되었다. 결국 리드를 계수하기 위해서는 99% 이상의 서열 동일성이 필요하였다. 유전자좌 당 SNP는 그 유전자좌에서 유지된 대립유전자로부터의 다형성 부위의 합집합이었다. 인델은 불일치로서 고려되지 않았으므로, 임의의 유지된 대립유전자 내의 인델과 일치하는 부위를 배제하여 정렬 편향성을 방지하였다. 단백질 군(4-자리) 당 리드 계수를 비-중복적으로(non-redundantly) 요약하였으며 순차적 계수-기반 순위화(도 1의 단계 IV)를 통해 상위 후보 대립유전자 선택에 사용하였다. 구체적으로, 주어진 유전자좌에 대해, 단백질 군을 먼저 리드 계수에 따라 높은 것으로부터 낮은 것으로 분류하였다(수준 0 순위화라고 지칭함). 가장 큰 리드 계수를 가진 군(또는 동점인 경우에 군들)을 선택하고 모든 연계된 대립유전자를 후보로서 저장하였다. 이어서, 이전에 선택된 군과 공유되는 리드를 배제함으로써 나머지 단백질 군 내의 리드 계수를 조정하였다. 조정된 리드 계수를 내림 차순으로 분류하고(수준 1 순위화) 새로운 상위 군을 선택하였다. 특히 서열분석 커버리지가 제한되었거나 진성 및 가성 대립유전자가 매우 유사한 경우, 리드 맵핑 및 계수에서 불확실성을 용인하기 위해, 수준 0에서 제2 상위 순위 단백질 군으로부터의 대립유전자를, 그들이 상위 군과는 공유되지 않는 무시할 수 없는 수의 고유한 리드(상위 순위 군에 대해 맵핑된 리드의 1% 초과)를 보유하는 경우에 포함하였다. 흔히 수준 0 및 수준 1 순위화로부터 선택된 대립유전자가 유전자좌에 대해 맵핑된 리드의 대부분(≥90%)을 설명할 수 있었다. 그렇지 않으면, 절차를 반복하고(수준 2 순위화) 유전자좌에서 새로운 상위 단백질 군을 선택하였다.
하기의 기준을 만족하는 경우에 이 후보 대립유전자 선택 단계에서 동형접합 유전자형을 4-자리 분별능으로 결정할 수 있었다: 수준 0에서 상위 단백질 군이 리드의 대부분(>90%)을 설명했고 임의의 다른 군에 의해 설명된 나머지 리드는 설명된 것들에 비교하여 무시할만 했음(5% 미만).
선택의 종료시에는, 후보 대립유전자 및 이들의 연계된 리드만이 후속의 분석에 사용되었다. 전형적으로, 수십개의 대립유전자가 유지되었다. 이 수는 대립유전자의 모든 쌍별 조합(자가-쌍을 포함함)에 걸친 전수 평가가 가장 가능성이 높은 쌍을 발견하기에 충분하게 작았다. 수학식 1에 나타낸 바와 같이, 각각의 대립유전자 쌍의 총 로그-가능성 점수(
Figure 112022019251028-pct00042
)는, 인간에 존재하는 대립유전자 쌍의 확률(
Figure 112022019251028-pct00043
)과 함께, 개별적인 SNP 부위에 걸친 관찰된 유전자형의 가능성(
Figure 112022019251028-pct00044
) 및 다중 부위에 걸친 위상(
Figure 112022019251028-pct00045
)의 가능성을 통합하였다.
[수학식 1]
Figure 112016045007928-pct00046
베이지안 모델을 기반으로, 사후 로그-가능성
Figure 112016045007928-pct00047
은 조건부 로그-가능성
Figure 112016045007928-pct00048
에 비례하였으며, 이는 부위
Figure 112016045007928-pct00049
에서의 관심대상 대립유전자 쌍의 유전자형(
Figure 112016045007928-pct00050
)을 고려하여 누적 염기(
Figure 112016045007928-pct00051
)를 관찰할 로그-확률이었다. 주변 사전
Figure 112016045007928-pct00052
는 임의의 유전자형에 대해 일정한 것으로 가정되었으므로 제거되었다.
Figure 112016045007928-pct00053
는 부위
Figure 112016045007928-pct00054
에서 염기
Figure 112016045007928-pct00055
가 관찰될 개별적인 조건부 로그-가능성,
Figure 112016045007928-pct00056
의 곱이었다(수학식 2).
[수학식 2]
Figure 112016045007928-pct00057
Figure 112016045007928-pct00058
은 염기
Figure 112016045007928-pct00059
의 프레드 점수로부터 변환된 오차율이다.
2개의 인접한 SNP 부위에 걸친 위상 가능성을 하나의 SNP 부위의 유전자형 가능성에 대해 유사하게 모델화하였다. 단일 부위에 대한 3개의 불일치 및 1개의 일치 대신에, 2개의 부위에 대해서는 15개의 가능한 불일치(역위상) 상태 및 1개의 일치(동위상) 상태가 존재하였다. 구체적으로
Figure 112022019251028-pct00060
은, 2개 부위에서의 관심대상 대립유전자 쌍의 위상 서열(
Figure 112022019251028-pct00061
)을 고려하여, 2개의 인접한 SNP 부위
Figure 112022019251028-pct00062
Figure 112022019251028-pct00063
에 걸쳐 동일한 가닥 상에서 염기의 쌍(
Figure 112022019251028-pct00064
)이 관찰될 로그-확률에 비례하였다. 2개 부위에 걸쳐 15개의 가능한 불일치(역위상) 상태 및 1개의 일치(동위상) 상태가 존재하였다.
Figure 112022019251028-pct00065
은 부위
Figure 112022019251028-pct00066
Figure 112022019251028-pct00067
을 커버하는 모든 리드로부터의 조건부 로그-가능성의 곱이었다(수학식 3).
Figure 112022019251028-pct00068
는 역위상 오차율(0.01)이었다.
[수학식 3]
Figure 112016045007928-pct00069
수학식 3은 동위상 및 역위상 리드의 수를 기반으로 하는 이항 확률의 계산에 의해 유도되는 이전 연구에서의 이종 위상 서열
Figure 112022019251028-pct00070
을 가진 대립유전자 쌍을 선호하는 편향성을 방지하였다. 이종 위상에 대한 동위상 리드 계수는 2개의 동종 위상
Figure 112022019251028-pct00071
Figure 112022019251028-pct00072
을 지원하는 동위상 리드 계수의 합이며, 따라서 항상 그보다 더 크다. 따라서, 이항 모델에서 이종 위상은 항상 2개의 상응하는 동종 위상보다 더 높은 확률을 갖는다. 반면에, 본 명세서에 기재된 베이지안 모델은 하나의 유형이 우세한 경우가 아니라 거의 균형을 이루는
Figure 112022019251028-pct00073
Figure 112022019251028-pct00074
리드만을 가진 이종 위상을 선호하며, 이는 결국 동종 위상을 시사한다.
주요 클래스 I 및 II 유전자좌에 대한 대립유전자 빈도는 대립유전자 빈도 네트로부터 다운로드되었다. 각각의 단백질(4-자리) 패밀리에 대해, 문헌상의 대립유전자로부터의 최대 빈도가 사용되었으며 그 안의 모든 대립유전자에 의해 공유되었다. 미지의 빈도를 가진 단백질 패밀리(및 대립유전자)에 0.0001의 배경 값이 지정되었다.
Figure 112016045007928-pct00075
는 2개 대립유전자의 로그-빈도의 합으로서 계산되었다.
가장 높은
Figure 112016045007928-pct00076
을 가진 대립유전자의 쌍이 예측되는 HLA 유형으로서 보고되었다. 일반적으로,
Figure 112016045007928-pct00077
Figure 112016045007928-pct00078
Figure 112016045007928-pct00079
성분에 의해 지배되었다.
Figure 112016045007928-pct00080
는 흔히 몇 자릿수 만큼 유의적으로 더 작았다. 따라서, 구현된 대립유전자 빈도에 불확실성을 적용할 수 있지만, 본 발명자들은 결과에 유의적인 영향이 없을 것으로 예상하였다.
실시예 2: PHLAT는 짧은 리드를 사용하여 HLA 유형을 정확하게 결정한다
짧은 리드를 이용하는 PHLAT를 평가하기 위해, HapMap 전사체 서열분석(RNAseq) 데이터세트를 사용하였다. 페어드-엔드 짧은 리드(2×37 bp)를 사용하는 림프아구성의 전사체 프로파일링을 HapMap 프로젝트(연구 등록번호 ERP000101)로부터 북유럽 및 서유럽으로부터의 가계를 가진 60명의 유타 주민에 대한 공용 데이터베이스로부터 수득하였다. 이들 샘플 중 50개를 주요 클래스 I 및 II HLA 유전자좌에서 4-자리 분별능으로 초기에 문헌[de Bakker et al. Nat. Genet. 38:1166-1172 (2006)]에 의해 유전자형 검사하고, 이어서 문헌[Erlich et al, BMC Genomics 12:42 (2011)]의 상이한 기술을 사용하여 검증하였다. 1개 샘플(실행 등록번호 ERR009139)은 인간 유전체에 대해 맵핑할 수 있는 리드의 비정상적으로 낮은 비(<20%)로 인해 배제되었다. 나머지 49개의 대상을 본 연구에서 분석 및 비교에 사용하였다.
HapMap RNAseq 데이터는 페어드-엔드 37 bp 리드를 채택하였다. 유사한 리드 길이(~35 bp)를 전사체 서열분석 연구에 흔히 사용하였다. 그러나, 그들은 적용가능한 리드 길이의 하한 이내에 있었다. 이전의 기술을 사용하면, 이렇게 매우 짧은 리드를 사용하여 유전자형을 정확하게 결정하기는 어려웠다. 고도로 다형성인 HLA 유전자좌에서는 어려움이 증대된다. 이전의 HLA 유형화 방법을 이용하는 HapMap RNAseq 데이터세트를 사용하는 4-자리 HLA 유형의 예측은 부정확했다(도 3). 예를 들어, seq2HLA 방법은 4-자리 HLA 유형을 분별하기에 적합하지 않았으며, 32%의 낮은 정확도를 가졌다(문헌[Boegel et al., Genome Med. 4:102 (2013)]). 이 데이터세트에 HLAminer를 적용할 경우, 짧은 리드 길이로 인해 그의 콘티그 조립 모드가 작동하지 않았으므로, 정렬 모드에서만 방법을 실행하는 것이 가능할 뿐이었다. 얻어진 정확도는 39.8%에 불과했다(도 3). HLAforest는, 더 높지만 여전히 차선인 84.2%의 예측 정확도에 도달했다(도 3).
동일한 HapMap RNAseq 데이터세트를 사용하여, 실시예 1의 PHLAT 방법의 사용은 클래스 I 유전자좌에서 4-자리 HLA 유형의 96.2%를 정확하게 추론하였고 조합된 클래스 I 및 II 유전자좌 양자 모두에 대해서는 전체 92.3%를 추론하였다(도 3). PHLAT 또한 동형접합 판정(call)을 정확하게 예측하였다. 4-자리 분별능에서 45개의 동형접합 유전자좌(90개의 대립유전자) 중에, 단지 6개가 이형접합인 것으로 잘못 유형화되었다(총 7개의 가성 대립유전자). 잘못 유형화된 대립유전자의 대부분이 2-자리 분별능에서는 정확했으며 진성 대립유전자와는 단지 1개 또는 2개 뉴클레오티드 만큼 상이했다.
또한, PHLAT는 이전의 방법보다 더 정확하게 2-자리 HLA 유형을 예측했다. PHLAT는 564개의 2-자리 대립유전자 중 단지 5개를 부정확하게 예측한 반면에(99.1%의 정확도), 이 데이터세트에 대한 이전의 HLA 예측 방법의 2-자리 정확도는 97.3% 이하였다(도 3).
PHLAT는 대립유전자 빈도 네트에서 임의의 개체군 빈도 기록(record of population frequency)을 갖지 않은 매우 희귀한 HLA 대립유전자를 배제하는 선택사항 또한 제공하였다. 이 선택사항을 이용하여, HLA-A(526), HLA-B(674), HLA-C(373), HLA-DQA1(33), HLA-DQB1(81), HLA-DRB1(407) 유전자좌에서 가장 가능성이 높은 HLA 유형에 대한 탐색을 2094개의 대립유전자로 감소시켰다. 이들 조건하의 PHLAT의 사용은 희귀한 대립유전자를 배제할 경우에 4-자리 분별능에서 93.0%의 정확도를 유발했으며, 이는 희귀한 대립유전자가 포함된 정확도(92.3%, 상기 참조)와 유사하다.
실시예 3: PHLAT는 더 낮은 커버리지 서열분석 데이터를 사용하여 HLA 유형을 정확하게 결정한다
HapMap 전체 진유전체 서열분석(WXS: whole exome sequencing) 데이터세트 및 수반되는 클래스 I 4-자리 HLA 유형은 북유럽 및 서유럽, 일본, 및 나이지리아로부터의 가계를 가진 유타 주민으로부터 수집하였다. WXS 데이터는 공용 데이터베이스로부터 연구 등록번호 SRP004078, SRR004076, 및 SRR004074를 통해 수득하였고, HLA 유전자형은 문헌[Warren et al, Genome Med. 4:95 (2012)] 및 문헌[Abecasis et al., Nature 467:1061-1073 (2010)]으로부터 얻었다. 서열분석은 HLA 유전자좌의 CDS 영역에 걸쳐 ~60x의 중간 커버리지로 페어드-엔드 101 bp 리드에 의해 처리되었다(또한 결과 참조).
CEU, JPT, 및 YRI 개체군으로부터 15명의 HapMap 개체의 2×101 bp 전체 진유전체 서열분석(WXS) 데이터를 사용하여 PHLAT 및 다른 프로그램을 평가하였다. 리드 길이는 HapMap RNAseq 데이터의 것보다 상당히 더 길었다. 그러나, 서열분석 깊이는 감소되었다. 관심대상 HLA 유전자좌에 대해, 맵핑-후 깊이는 ~60x였으며, 반면에 HapMap RNAseq 데이터세트는 ~330x를 가지고 있었다. 일반 유전자형 검사의 경우에는 이러한 배수 커버리지가 적절한 것으로 고려될 수 있지만, 고도로 다형성인 HLA 유전자좌의 정확한 유형화의 경우에 이는 어려울 수 있다.
WXS 데이터세트를 사용하는 다양한 HLA 유형화 방법의 성능이 도 3에 제공되어 있다. 아마도 콘티그가 대립유전자와의 서열 정렬에서 개별적인 리드보다 더 유용했고 커버리지에 덜 의존적이었기 때문에, HLAminer의 조립 모드가 정렬 모드보다 더 양호한 결과를 제공했으므로 HLAminer의 조립 모드를 데이터세트에 적용하였다. 4-자리 분별능에서, HLAminer의 정확도는 53.3%였다. HLAforest 또한 기본 설정으로 동일한 데이터세트 상에 국소적으로 실행되었으며, 45.6%의 정확도를 유발하였다. WXS 데이터가 훨씬 더 긴 리드를 가졌음에도 불구하고, HLAforest의 성능은 HapMap RNAseq 데이터세트에 비교하여 WXS 데이터세트를 이용할 때 더 열등하였다.
실시예 1에 기재된 PHLAT 방법을 WXS 데이터에 적용할 경우, 그것은 93.3%의 4-자리 유형화 정확도를 유발하였다. 또한, PHLAT는 95.6%의 2-자리 정확도를 제공하였으며, 이는 seq2HLA(p-값에 대한 임계치 없이 93.3%) 보다 더 높고 HLAminer(78.9%) 및 HLAforest(81.1%)보다 상당히 더 양호하였다.
실시예 4: 표적화 앰플리콘 서열분석 데이터에 대한 PHLAT의 적용
실시예 1에 기재된 PHLAT 방법을 표적화 앰플리콘 서열분석 데이터에 적용하였다. PCR 증폭을 사용하여 5개의 인간 세포주에서 클래스 I HLA-A 및 HLA-B 유전자좌를 증폭함으로써 데이터를 생성시켰다(도 4). 약술하면, PCR의 제1 라운드에서, HLA-A 및 B 유전자좌에서 엑손 2 및 3에 대해 앰플리콘을 생성시키고(프라이머 서열은 도 5에 제공됨) 일루미나(Illumina) 서열분석 어댑터를 동시에 첨가하였다. 4개의 앰플리콘을 1:1:1:1 비로 합하고 PCR의 제2 라운드를 사용하여 바코드화(barcoded)하였다. 최종적으로, 2×250 주기를 이용하는 다중화 페어드-엔드 실행에 의해 일루미나 MiSeq(캘리포니아주 소재의 일루미나 인코포레이티드(Illumina Inc.)) 상에서 합해진 5개 샘플의 서열분석을 수행하였다. MiSeq 리포터(MiSeq Reporter) 소프트웨어에 의해 5개 샘플의 역-다중화 FASTQ 파일을 수득하였다.
하기와 같이 생거(Sanger) 서열분석에 의해 5개 샘플의 HLA-A 및 B 유전자좌를 또한 유전자형 검사하였다. QIAamp(등록상표) DNA 미니 키트(DNA Mini kit)(캘리포니아주 소재의 퀴아젠 인코포레이티드(Qiagen Inc.))에 의해 15 내지 30 ng/μL의 농도에서 상기 5개의 세포주로부터 유전체 DNA를 추출하고, 이어서 SeCore 시퀀싱 키트(SeCore Sequencing Kit)(캘리포니아주 소재의 라이프 테크놀로지스 인코포레이티드(Life Technologies Inc.))를 사용하여 PCR-증폭하고 정제하였다. 서열분석 반응은 3730×1 자동화 ABI 서열분석 기기 상에 수립하였다. uTYPE(등록상표) SBT 소프트웨어(캘리포니아주 소재의 인비트로젠 인코포레이티드(Invitrogen Inc.))를 사용하여 서열 파일을 처리하고 HLA 유형화 보고서를 작성하였다. 상업적 공급업체(캘리포니아주 소재의 라이프 테크놀로지스 인코포레이티드)에 의해 5개 샘플의 독립적인 HLA 유형화가 실행되고 일치 결과가 회송되었다.
실시예 1의 PHLAT 방법은 보타이 2 정렬기를 사용하며, 이는 짧은 리드 및 긴 리드 양자 모두를 운영할 수 있다. 5개 샘플의 페어드-엔드 250 bp 앰플리콘 서열분석 데이터세트 상에서 PHLAT를 시험하였다. HLA-A 및 HLA-B 유전자좌에서 실험적으로 검증된 총 20개의 대립유전자에 대해, PHLAT는 2-자리 및 4-자리 분별능 양자 모두에서 100% 정확도로 HLA 유형을 예측하였다(도 3). HLAminer를 제외하고는, 이전에 개시된 방법들은 서열분석 데이터를 사용하여 HLA 유형을 예측하지 못하였다. HLAminer의 조립 모드를 실행한 후에는, 4-자리 및 2-자리 분별능에 대해 각각 50% 및 95%의 정확도가 수득되었다.
실시예 5: 잘못 유형화된 대립유전자의 특성화
PHLAT에서 잘못 유형화된 4-자리 대립유전자를 HapMap RNAseq, 1000 유전체 WXS, 및 HapMap WXS 데이터세트로부터 수집하고, 대립유전자 유형에 대해 요약한다(도 6a). 소정의 대립유전자 유형이 보강되었는지 여부를 조사하였으며, 만약 그렇다면, 알고리듬 또는 다른 이유가 그들을 도입하는지 여부를 조사하였다. HLA-A, B, C, 및 DRB1 유전자좌에서, 거의 모든 대립유전자가 제한된 샘플 크기(≤10회 총 발생(total occurrence)) 및 잘못된 유형화 발생률(mistyping incident)(≤2)을 가지고 있었다. 따라서, 대립유전자 유형에 대한 분명한 보강은 없었다.
HLA-DQA1 및 HLA-DQB1 유전자좌에서는, 몇개의 특이적 대립유전자가 관찰된 예측 오차를 지배한다. 도 6a에 나타낸 바와 같이, HLA-DQA1에서는 총 20개의 오류 예측 중에 10개의 HLADQA1*03:01 대립유전자가 HLA-DQA1*03:03으로서 유형화되고, 6개의 HLA-DQA1*05:01 대립유전자가 HLADQA1 *05:05로서 오판된다. HLA-DQB1 유전자좌에서는, 5개의 HLA-DQB1 *02:01 대립유전자가 HLA-DQB1 *02:02로서 판정된다. 이들 오차는 HLA-DQA1 및 HLA-DQB1 유전자좌에서의 모든 오류 예측의 80% 초과를 설명한다. 이들 대립유전자는 또한 본 연구에서 낮은 예측 정확도(61.5% 내지 73.7%)를 나타낸다. 실제 대립유전자와 예측되는 대립유전자는 서열에 있어서 고도로 상동성이지만(<=3 SNP), 하기 몇개의 관찰사항은 이들 오차가 무작위가 아닐 수 있음을 시사한다.
다른 알고리듬, HLAforest 및 HLAminer는, PHLAT에 의해 잘못 판정된 동일한 샘플에서 DQA1 *03:01을 DQA1 *03:03으로서 잘못 유형화하는 유사한 경향을 나타낸다. HLAforest는 7개의 샘플에서 PHLAT와 동일한 오차를 만든다. HLAminer로부터의 출력, DQA1*03:01P는, DQA1*03:01, DQA1*03:03, 및 몇개의 다른 대립유전자를 분류하는 P-표기 주석(P-designation annotation)이다. P-표기 없는 HLAminer의 재실행은 PHLAT에 의해 잘못 유형화된 모든 샘플에서 DQA1 *03:03이 가장 확신 있는 예측임을 규명한다. 상이한 정렬기들, 예를 들어, PHLAT에 대한 보타이 2, HLAforest에 대한 보타이, 및 HLAminer에 대한 BWA를 구현하는 알고리듬에서 동일한 오판이 발생하므로, 오차는 특이적 정렬 엔진에 의해 야기되는 것이 아니다. 사실상, PHLAT에서 정렬기를 BWA로 교체하는 것은 임의의 영향을 받은 샘플에서 출력을 변경하지 않는다. 이들 결과는 문제가 알고리듬에서의 계산 전략 또는 정렬기 선택으로 인한 것이 아닐 수 있음을 시사한다.
DQA1 *03:03 추론은 모든 경우에 적절한 양의 리드에 의해 지원된다. 도 6b는 이러한 잘못된 유형화가 발생하는 대표적인 일 샘플(대상 NA12156)에서 DQA1*03:01과 DQA1*03:03 대립유전자를 구별하는 단일 SNP 부위(chr6: 32609965, DQA1*03:03에 대한 염기 A 및 DQA1*03:01에 대한 염기 C) 주위의 리드 맵핑 상세사항을 예시한다. 이 샘플 내의 제2 대립유전자는 DQA1*02:01이며, 이 위치에서 그의 서열은 C이다. 이들 리드는 PHLAT 파이프라인(pipeline)을 통과하였으며 HLA 예측에 사용된다. 샘플 NA12156에서는, 염기의 약 절반이 A이며, AC의 이형접합 유전자형이 생성된다. 그러므로, DQA1 *02:01 대립유전자와 함께 DQA1 *03:03 대립유전자를 추론하는 것은, 데이터를 고려할 때 설득력이 있다. DQA1 *03:03 예측을 가진 다른 모든 샘플에 대해 유사한 관찰사항이 유지된다. 이는 오차가 단순히 데이터 내의 무작위 잡음으로 인한 것이 아닐 수 있음을 시사한다.
대안적 대립유전자를 지원하는 리드가 유전체 내의 다른 곳으로부터 유래되는 것일 가능성이 있다. HLA- DQA1 *03:03 대립유전자로부터의 SNP 부위(chr6: 32609965)를 지닌 135-뉴클레오티드 세그먼트(chr6: 32609874-32610008)를 사용하는 BLAST 질의는 HLADQA2 유전자의 엑손 3에 위치하는 상위 전체 길이 적중(top full length hit)을 회송한다. 이 영역 내부의 2개 대립유전자 사이의 바로 그 SNP 부위를 제외하고는, 다른 불일치가 없다(도 6c). IMGT 데이터베이스는 임의의 HLADQA2 항목을 포함하지 않으며, 이는 그의 대립유전자의 제한된 지식으로 인한 것이다. 결과적으로, 이전의 모든 알고리듬은 그들의 맵핑 참조 내에 HLADQA2 서열을 갖지 않는다. PHLAT는 참조를 전체 유전체까지 연장한다. 그러나 그것은 hg19 유전체에 사용되는 하나의 특이적 HLA-DQA2 대립유전자의 서열만을 포함하며, 이로 인해 역시 그의 다형성 역시 완전히 포착하지 않는다. HLA-DQA2의 완전한 대립유전자 참조(allelic reference)의 결여 및 높은 서열 상동성을 고려하면, HLA-DQA2 유전자의 리드를 HLA-DQA1 유전자에 잘못 정렬하는 것은 무시할 수 없는 가능성이다. 사실상, chr6: 32713784, DQA1 *03:03 대립유전자 SNP에 대한 서열 정렬 내의 일치 부위에는 HLA-DQA2 유전자의 흔한 C-대-A 미스센스(missense) SNP(rs62619945, ~4%의 부수적 대립유전자 빈도, 도 6c)가 존재한다. 따라서, 대상이 rs62619945 SNP를 가진 특이적 HLA-DQA2 대립유전자를 우연히 지니는 경우, 생성된 리드는 HLA- DQA1 *03:03 대립유전자로부터의 것으로 잘못 판단될 수 있다.
빈번하게 잘못 유형화되는 다른 2개의 대립유전자, HLA- DQA1*05:01 및 HLA-DQBI*02:01에 대해 유사한 관찰사항이 존재한다. 5개의 샘플에서 PHLAT, HLAminer, 및 HLAforest(P-표기 없음) 모두가 그들을 각각 HLA-DQA1 *05:05 및 HLA-DQB1*02:02로서 잘못 동정한다. chr6: 32605266, chr6: 32610002, 및 chr6: 32610445에는 DQA1 *05:05 판정을 추진하는 3개의 SNP가 존재한다. 각각의 SNP는 DQA1 *05:05 대립유전자를 지원하는 유의적인 수의 맵핑된 리드를 갖는다. 추가로, 각각의 SNP는 HLA- DQA2 유전자에 대해 상동성인 엑손 세그먼트(DQA1 *05:05 대립유전자로부터 얻어진 서열) 내부에 위치한다. 이들 세그먼트는 길이가 72 내지 116개 뉴클레오티드이며 HLA- DQA2 서열(hg19 유전체)과는 2 내지 4개의 염색체 위치에서 상이하다. HLA-DQA2 유전자 내의 모든 위치는 dbSNP 기록을 가지며, 여기서 대안적 염기는 DQA1*05:05 대립유전자 내의 서열에 일치한다. 따라서, 이들 영역에 관하여 HLA-DQA2 및 HLA-DQA1 유전자좌로부터의 리드를 혼동할 가능성이 있다. 마찬가지로, SNP는 HLA-DQB1 *02:01 대립유전자(chr6: 32629905)에 비해 HLADQB1* 02:02 대립유전자를 선호한다. 그것은 HLA-DQB1과 HLA-DQB2 유전자 사이의 91개 뉴클레오티드의 상동성 영역 내부에 있다. HLA-DQB2 대립유전자는 잘 연구되어 있지 않으며 IMGT 데이터베이스에 기록되어 있지도 않다.
상기 결과를 종합적으로 고려하여, 본 발명자들은 부수적 HLA-DQA2 및 DQB2 유전자좌로부터의 리드를 각각 이들의 상동성 주요 HLA-DQA1 및 DQB1 유전자좌에 잘못 정렬하는 것이 잘못 유형화된 HLA-DQA1 및 DQB1 대립유전자의 특이하게 높은 빈도로 이어졌을 수 있다고 판단한다. 이러한 한계는 알고리듬에 독립적이다. HLA-DQA2 및 DQB2의 대립유전자 서열을 맵핑 참조에 혼입하는 것이 문제를 경감시킬 가능성이 있다. 본 명세서에 논의된 상동성 영역이 100개 뉴클레오티드 정도이므로, 100 bp 이상의 페어드-엔드 리드를 가진 데이터를 사용하는 경우에는 잘못 유형화된 대립유전자의 우려가 적어진다. 긴 서열분석 리드를 주변의 덜 상동성인 영역 내로 연장하여 잘못된 정렬을 감소시킬 수 있다. PHLAT 또는 다른 기존의 알고리듬의 사용자는 생거 서열분석 또는 표적화 앰플리콘 서열분석에 의해 HLADQA1*03:03, HLA-DQA1*05:05, 및 HLA-DQB1*02:02 대립유전자 유형을 검증할 수 있다.
실시예 6: HLA 추론의 정확도에 영향을 주는 요인
상기 기재된 데이터세트로부터의 PHLAT HLA 예측 성과를 컴파일링하여 서열분석 파라미터가 HLA 추론의 정확도에 어떻게 영향을 미쳤는지를 체계적으로 조사하였다. 벤치마킹 데이터세트가 광범위한 리드 길이(37 bp 내지 250 bp) 및 깊이(<60x 내지 >1000x)에 걸친 시험 사례와 더불어 상이한 서열분석 프로토콜(페어드-엔드 또는 싱글-엔드로 사용됨)을 제공하였다.
도 2는 하기 3개의 데이터세트로부터의 결과를 예시하였다: HapMap RNAseq, 1000 유전체 WXS, 및 HapMap WXS. HapMap RNAseq 및 HapMap WXS 데이터세트는 실시예 2 및 실시예 3에 기재되어 있다.
각각의 데이터세트에 대해, 샘플을 이들의 HLA 유전자좌에서의 맵핑-후 배수 커버리지(x-축)에 의해 비닝하였다. 기호의 y-좌표는 각각의 빈 내의 샘플의 평균 정확도(4-자리 분별능에서)를 나타냈으며, 오차 막대는 분산을 표시한다. 각각의 페어드-엔드 서열분석 데이터세트(폐쇄 기호)에 대해, 리드들 사이의 페어드 관계(paired relationship)를 무시함으로써 샘플을 또한 싱글-엔드 가정(개방 기호) 하에 처리하였다. 스플라인 보간법을 통해 도출된 매끄러운 선에 의해 기호의 경향이 예시되었다.
도 2에 나타낸 바와 같이, PHLAT 방법의 정확도는 배수 커버리지와 양의 상관관계를 나타냈다. 배수 커버리지가 증가함에 따라 정확도가 상승하는 경향은 개별적인 데이터세트 내부에서뿐 아니라 그들 사이에서도 발생하였다. 예를 들어, 2개 데이터세트의 다른 서열분석 파라미터가 유사했음에도 불구하고, HapMap WXS 샘플보다 체계적으로 더 높은 커버리지를 가진 1000 유전체 WXS 샘플은 일관적으로 더 높은 정확도를 나타냈다. 이 의존성은 PHLAT가 최적 예측에 도달하는 경험적 커버리지 임계치를 평가하는 것을 보조할 수 있었다. 페어드-엔드 서열분석에서 90% 이상의 정확도(수평 점선, 도 2)를 달성하기 위해, 30x 내지 50x 커버리지를 적용할 수 있었으며, 100 bp 미만의 리드 길이에 대해서는100x 초과였다.
페어드 제약(paired constrain)을 무시하고 리드를 싱글-엔드로 처리했을 경우, 모든 데이터세트에 대해 예측 정확도에 있어서 무시할 수 없는 체계적인 감소가 관찰되었다. 도 2에서, HapMap WXS 데이터의 정확도는, 각각 페어드-엔드(2×101 bp, 하위 패널, 폐쇄 원) 및 싱글-엔드(1×101 bp, 하위 패널, 개방 원) 리드에 대해, 90% 초과로부터 ~85%까지 하락하였다. HapMap RNAseq 데이터에서는 하기와 같이 감소가 더 극적이었다: 90 내지 95%(2×37 bp, 상위 패널, 폐쇄 원)로부터 70 내지 90%(1×37 bp, 상위 패널, 개방 원)까지. 이들 관찰사항은 HLA 유형 추론에 있어서 페어드-엔드 서열분석의 중요성을 강조하였다. 페어드 리드(paired read)의 이점은 효과적으로 배가된 리드 길이로부터 유래되었으며, 이는 맵핑 모호성을 감소시켰다. 또한, 긴 엔드-대-엔드 폭(end-to-end span)(통상적으로 수백개의 염기)은 상대적으로 멀리 떨어진 SNP를 연결하여, PHLAT가 긴 범위에 걸쳐 SNP 쌍으로부터의 위상 정보를 이용하는 것을 가능하게 했다.
SEQUENCE LISTING <110> Bai, Yu Fury, Wen <120> HIGH RESOLUTION ALLELE IDENTIFICATION <130> 37595.0008U2 <150> PCT/IB2014/002843 <151> 2014-10-14 <150> 61/891,193 <151> 2013-10-15 <160> 25 <170> PatentIn version 3.5 <210> 1 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 1 crggtctcag ccactsctc 19 <210> 2 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 2 ctcggacccg gagactgt 18 <210> 3 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 3 ctygggggac ygggctgac 19 <210> 4 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> synthetic concstruct; primer <400> 4 cccaattgtc tcccctcctt g 21 <210> 5 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 5 ggsagggaaa tggcctct 18 <210> 6 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 6 ggatggggag tcgtgacct 19 <210> 7 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 7 gcgtttaccc ggtttcatt 19 <210> 8 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 8 cggcgaccta taggagatgg 20 <210> 9 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <220> <221> modified_base <222> (23)..(26) <223> n can be a, c, t, g, unknown, or other <400> 9 ctacacgacg ctcttccgat ctnnnncrgg tctcagccac tsctc 45 <210> 10 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 10 cagacgtgtg ctcttccgat ctctcggacc cggagactgt 40 <210> 11 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <220> <221> modified_base <222> (23)..(26) <223> n can be a, c, t, g, unknown or other <400> 11 ctacacgacg ctcttccgat ctnnnnctyg ggggacyggg ctgac 45 <210> 12 <211> 43 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 12 cagacgtgtg ctcttccgat ctcccaattg tctcccctcc ttg 43 <210> 13 <211> 44 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <220> <221> modified_base <222> (23)..(26) <223> n can be a, c, t, g, unknown or other <400> 13 ctacacgacg ctcttccgat ctnnnnggsa gggaaatggc ctct 44 <210> 14 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 14 cagacgtgtg ctcttccgat ctggatgggg agtcgtgacc t 41 <210> 15 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <220> <221> modified_base <222> (23)..(26) <223> n can be a, c, t, g, unknown or other <400> 15 ctacacgacg ctcttccgat ctnnnngcgt ttacccggtt tcatt 45 <210> 16 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 16 cagacgtgtg ctcttccgat ctcggcgacc tataggagat gg 42 <210> 17 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 17 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58 <210> 18 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 18 caagcagaag acggcatacg agatgattag ccgtgactgg agttcagacg tgtgctcttc 60 cgatct 66 <210> 19 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 19 caagcagaag acggcatacg agattgcgac atgtgactgg agttcagacg tgtgctcttc 60 cgatct 66 <210> 20 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 20 caagcagaag acggcatacg agatcagcgt tagtgactgg agttcagacg tgtgctcttc 60 cgatct 66 <210> 21 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 21 caagcagaag acggcatacg agattccgta aggtgactgg agttcagacg tgtgctcttc 60 cgatct 66 <210> 22 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> synthetic construct; primer <400> 22 caagcagaag acggcatacg agatatggta ccgtgactgg agttcagacg tgtgctcttc 60 cgatct 66 <210> 23 <211> 35 <212> DNA <213> Homo sapiens <400> 23 accttcctcc cttctgctga tgagatttat gactg 35 <210> 24 <211> 18 <212> DNA <213> Homo sapiens <400> 24 tcagtcacag aaggtgtt 18 <210> 25 <211> 87 <212> DNA <213> Homo sapiens <400> 25 cattccttct tcaagatcag ttacctcacc ttcctccctt ctgctgatga gatttatgac 60 tgcaaggtgg agcactgggg cctggac 87

Claims (178)

  1. 컴퓨터-구현 방법(computer-implemented method)으로서,
    대상의 서열 데이터를 수용하며, 상기 서열 데이터는 상기 대상의 유전자좌의 핵산 서열과 연계된 복수의 서열분석 리드(read)를 포함하며, 상기 유전자좌는 하나 이상의 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism)을 포함하는 단계;
    유전자좌의 유전체 서열 및 복수의 대립유전자 서열을 포함하는 참조 서열에 대해 상기 복수의 서열분석 리드를 맵핑(mapping)하여 후보 대립유전자의 쌍을 동정하는 단계;
    후보 대립유전자의 각각의 쌍에 대해, 상기 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 상기 유전자좌 내의 각각의 개별적인 SNP에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP에 대해 맵핑되는 상기 서열분석 리드 내의 상기 개별적인 SNP에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    후보 대립유전자의 각각의 쌍에 대해, 적어도 일부 복수의 역위상(out-of-phase) 상태를 기초로 하여, 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP의 순차적 쌍에 대해 맵핑되는 상기 서열분석 리드 내의 상기 SNP의 순차적 쌍에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 상기 빈도 로그-가능성 점수는 상기 후보 대립유전자의 각각의 쌍이 인간 개체군내에 존재하는 로그-빈도의 합인 단계; 및
    상기 유전자형 로그-가능성 점수, 상기 위상 로그-가능성 점수, 및 상기 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍을 상기 유전자좌에 존재하는 상기 대립유전자로서 선택하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 유전체 서열이 인간 유전체 서열이고 상기 복수의 대립유전자 서열이 인간 서열인 방법.
  3. 제1항에 있어서, 상기 유전체 서열 내의 상기 유전자좌의 상기 서열이 제거되거나 차폐되는 방법.
  4. 제2항에 있어서, 상기 인간 유전체 서열이 GRCh37/hg19인 방법.
  5. 제1항에 있어서, 맵핑하는 것이, 컴퓨터 시스템에 의해 수행되는,
    상기 복수의 서열분석 리드를 참조 서열에 대해 맵핑하며, 상기 참조 서열은 상기 유전자좌의 인간 유전체 서열 및 복수의 대립유전자 서열을 포함하는 단계;
    가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계;
    상기 제1 세트의 후보 대립유전자에 대해 맵핑되는 상기 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계; 및
    상기 유전자좌에 대해 맵핑되는 상기 서열분석 리드의 90% 미만이 상기 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 상기 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 상기 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계를 추가로 포함하는 방법.
  6. 제1항에 있어서, 상기 복수의 대립유전자 서열이 단백질 군의 세트로부터 선택되는 방법.
  7. 제5항 또는 제6항에 있어서, 상기 제1 세트의 후보 대립유전자에 대해 맵핑되는 상기 서열분석 리드의 배제 후에 상기 유전자좌에 대해 맵핑되는 서열분석 리드의 수가 상기 제1 세트의 후보 대립유전자에 대해 맵핑되는 서열분석 리드의 수의 1% 초과인 경우, 상기 제1 세트의 후보 대립유전자에 대해 맵핑되는 상기 서열분석 리드를 배제하지 않고 제2의 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 상기 제2 세트의 후보 대립유전자의 서브세트로서 추가로 동정하는 방법.
  8. 제5항 또는 제6항에 있어서, 상기 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 상기 리드를 배제하고, 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자에 대해 맵핑되는 서열분석 리드의 수가 상기 유전자좌에 대해 맵핑되는 서열분석 리드의 총수의 10% 이상을 이루는 경우에만 상기 제3 세트의 후보 대립유전자가 동정되는 방법.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제1항에 있어서, 상기 복수의 서열분석 리드를 포함하는 서열 데이터를 수용하는 것을 추가로 포함하며, 상기 서열 데이터가 전-유전체 서열분석(genome-wide sequencing) 데이터를 포함하는 방법.
  14. 제13항에 있어서, 상기 전-유전체 서열분석 데이터가 전사체 서열분석 데이터, 전체 진유전체(exome) 서열분석 데이터, 또는 전체 유전체 서열분석 데이터인 방법.
  15. 제14항에 있어서, 상기 서열 데이터의 커버리지(coverage)가 30배 이상인 방법.
  16. 제14항에 있어서, 상기 서열 데이터의 커버리지가 30배 내지 100배의 범위이고, 상기 복수의 서열분석 리드가 DNA로부터의 것인 방법.
  17. 제14항에 있어서, 상기 서열 데이터의 커버리지가 100배 내지 500배의 범위이고, 상기 복수의 서열분석 리드가 RNA로부터의 것인 방법.
  18. 제14항에 있어서, 상기 서열 데이터의 커버리지가 1000배 이상이고, 상기 복수의 서열분석 리드가 표적화 서열로부터의 것인 방법.
  19. 삭제
  20. 제1항 내지 제6항 중 어느 한 항 또는 제13항 내지 제18항 중 어느 한 항에 있어서, 상기 복수의 서열분석 리드가 페어드-엔드(paired-end) 리드인 방법.
  21. 제1항 내지 제6항 중 어느 한 항 또는 제13항 내지 제18항 중 어느 한 항에 있어서, 상기 복수의 서열분석 리드가 싱글-엔드(single-end) 리드인 방법.
  22. 삭제
  23. 삭제
  24. 삭제
  25. 제1항 내지 제6항 중 어느 한 항 또는 제13항 내지 제18항 중 어느 한 항에 있어서, 상기 유전자좌가 고도로 다형성인 유전자좌인 방법.
  26. 제1항 내지 제6항 중 어느 한 항 또는 제13항 내지 제18항 중 어느 한 항에 있어서, 상기 유전자좌가 HLA 유전자좌인 방법.
  27. 컴퓨터-구현 방법으로서,
    a) 컴퓨터 시스템에 대상의 서열 데이터를 수용하며, 상기 서열 데이터는 복수의 서열분석 리드를 포함하는 단계;
    b) 상기 컴퓨터 시스템에 의해, 상기 복수의 서열분석 리드를 참조 서열에 대해 맵핑하며, 상기 참조 서열은 유전자좌의 인간 유전체 서열 및 복수의 대립유전자 서열을 포함하는 단계;
    c) 상기 컴퓨터 시스템에 의해, 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 제1 세트의 후보 대립유전자로서 동정하는 단계;
    d) 상기 컴퓨터 시스템에 의해, 상기 제1 세트의 후보 대립유전자에 대해 맵핑되는 상기 서열분석 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 제2 세트의 후보 대립유전자로서 동정하는 단계;
    e) 상기 유전자좌에 대해 맵핑되는 상기 서열분석 리드의 90% 미만이 상기 제1 또는 제2 세트의 후보 대립유전자의 대립유전자에 대해 맵핑되는 경우, 상기 컴퓨터 시스템에 의해, 상기 제1 또는 제2 세트의 후보 대립유전자에 대해 맵핑되는 상기 리드를 배제하고 가장 많은 수의 서열분석 리드가 그에 대해 맵핑되는 상기 대립유전자를 제3 세트의 후보 대립유전자로서 동정하는 단계;
    f) 후보 대립유전자의 각각의 쌍에 대해, 상기 컴퓨터 시스템에 의해, 상기 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 상기 유전자좌 내의 각각의 개별적인 SNP에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP에 대해 맵핑되는 상기 서열분석 리드 내의 상기 개별적인 SNP에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    g) 후보 대립유전자의 각각의 쌍에 대해, 상기 컴퓨터 시스템에 의해, 적어도 일부 복수의 역위상 상태를 기초로 하여, 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP의 순차적 쌍에 대해 맵핑되는 상기 서열분석 리드 내의 상기 SNP의 순차적 쌍에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    h) 후보 대립유전자의 각각의 쌍에 대해, 상기 컴퓨터 시스템에 의해, 빈도 로그-가능성 점수를 결정하며, 상기 빈도 로그-가능성 점수는 상기 후보 대립유전자의 각각의 쌍이 인간 개체군내에 존재하는 로그-빈도의 합인 단계; 및
    i) 상기 컴퓨터 시스템에 의해, 상기 유전자형 로그-가능성 점수, 상기 위상 로그-가능성 점수, 및 상기 빈도 로그-가능성 점수의 합이 가장 높은 상기 후보 대립유전자의 쌍을 상기 유전자좌에 존재하는 상기 대립유전자로서 동정하는 단계를 포함하는 방법.
  28. 컴퓨터 시스템으로서,
    하나 이상의 프로세서;
    상기 하나 이상의 프로세서와 연계된 메모리;
    디스플레이; 및
    유전자좌에 존재하는 대립유전자를 결정하기 위해 상기 메모리 내에 지원되는 프로그램을 포함하며, 상기 프로그램은, 상기 하나 이상의 프로세서에 의해 실행되는 경우에, 상기 하나 이상의 프로세서가,
    대상의 서열 데이터를 수용하며, 상기 서열 데이터는 복수의 서열분석 리드를 포함하며, 상기 복수의 서열분석 리드는 대상의 유전자좌의 핵산 서열을 포함하는 증폭 산물을 산출하는 핵산 증폭 방법을 수행함으로써 발생되며, 상기 유전자좌는 하나 이상의 단일 뉴클레오티드 다형성(SNP)을 포함하며;
    복수의 서열분석 리드를 산출하는 증폭 산물 상에서 서열분석 방법을 수행하며, 상기 복수의 서열분석 리드는 35-100 염기 쌍의 서열분석 리드를 포함하며;
    상기 복수의 서열분석 리드를, 상기 유전자좌의 유전체 서열 및 복수의 대립유전자 서열을 포함하는 참조 서열에 대해 맵핑하여 후보 대립유전자의 쌍을 동정하며;
    후보 대립유전자의 각각의 쌍에 대해, 상기 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 상기 유전자좌 내의 각각의 개별적인 SNP에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP에 대해 맵핑되는 상기 서열분석 리드 내의 상기 개별적인 SNP에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합이며;
    후보 대립유전자의 각각의 쌍에 대해, 적어도 일부 복수의 역위상 상태를 기초로 하여, 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP의 순차적 쌍에 대해 맵핑되는 상기 서열분석 리드 내의 상기 SNP의 순차적 쌍에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합이며;
    후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 상기 빈도 로그-가능성 점수는 상기 후보 대립유전자의 각각의 쌍이 인간 개체군내에 존재하는 로그-빈도의 합이며;
    상기 유전자형 로그-가능성 점수, 상기 위상 로그-가능성 점수, 및 상기 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍을 상기 유전자좌에 존재하는 상기 대립유전자로서 선택하게 하는 복수의 명령어를 포함하는 컴퓨터 시스템.
  29. 복수의 명령어가 그 위에 저장된 비일시적 컴퓨터 리드가능 매체(non-transitory computer readable medium)로서, 상기 비일시적 컴퓨터 리드가능 매체는, 컴퓨터 프로세서에 의해 실행되는 경우에, 그 컴퓨터 프로세서가,
    대상의 서열 데이터를 수용하며, 상기 서열 데이터는 복수의 서열분석 리드를 포함하며, 상기 복수의 서열분석 리드는 대상의 유전자좌의 핵산 서열을 포함하는 증폭 산물을 산출하는 핵산 증폭 방법을 수행함으로써 발생되며, 상기 유전자좌는 하나 이상의 단일 뉴클레오티드 다형성(SNP)을 포함하며;
    복수의 서열분석 리드를 산출하는 증폭 산물 상에서 서열분석 방법을 수행하며, 상기 복수의 서열분석 리드는 35-100 염기 쌍의 서열분석 리드를 포함하며;
    상기 복수의 서열분석 리드를, 상기 유전자좌의 유전체 서열 및 복수의 대립유전자 서열을 포함하는 참조 서열에 대해 맵핑하여 후보 대립유전자의 쌍을 동정하며;
    후보 대립유전자의 각각의 쌍에 대해, 상기 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 상기 유전자좌 내의 각각의 개별적인 SNP에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP에 대해 맵핑되는 상기 서열분석 리드 내의 상기 개별적인 SNP에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합이며;
    후보 대립유전자의 각각의 쌍에 대해, 적어도 일부 복수의 역위상 상태를 기초로 하여, 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP의 순차적 쌍에 대해 맵핑되는 상기 서열분석 리드 내의 상기 SNP의 순차적 쌍에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합이며;
    후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 상기 빈도 로그-가능성 점수는 상기 후보 대립유전자의 각각의 쌍이 인간 개체군내에 존재하는 로그-빈도의 합이며;
    상기 유전자형 로그-가능성 점수, 상기 위상 로그-가능성 점수, 및 상기 빈도 로그-가능성 점수의 합이 가장 높은 후보 대립유전자의 쌍을 상기 유전자좌에 존재하는 상기 대립유전자로서 선택하게 하는, 비일시적 컴퓨터 리드가능 매체.
  30. 미토콘드리아 DNA의 초가변 영역(HV) 유전자좌에서 대상의 유전자형을 결정하는 컴퓨터-구현 방법으로서,
    대상의 유전자좌의 핵산 서열을 포함하는 증폭 산물을 산출하는 핵산 증폭 방법을 수행하며, 상기 유전자좌는 하나 이상의 단일 뉴클레오티드 다형성(SNP)을 포함하는 단계;
    복수의 서열분석 리드를 산출하는 증폭 산물 상에서 서열분석 방법을 수행하며, 상기 복수의 서열분석 리드는 35-100 염기 쌍의 서열분석 리드를 포함하는 단계;
    컴퓨터 시스템에 의해, 상기 복수의 서열분석 리드를, 상기 HV 유전자좌의 유전체 서열 및 복수의 HV 대립유전자 서열을 포함하는 참조 서열에 대해 맵핑하여 후보 대립유전자의 쌍을 동정하는 단계;
    후보 대립유전자의 각각의 쌍에 대해, 상기 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 상기 유전자좌 내의 각각의 개별적인 SNP에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP에 대해 맵핑되는 상기 서열분석 리드 내의 상기 개별적인 SNP에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    후보 대립유전자의 각각의 쌍에 대해, 적어도 일부 복수의 역위상 상태를 기초로 하여, 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP의 순차적 쌍에 대해 맵핑되는 상기 서열분석 리드 내의 상기 SNP의 순차적 쌍에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 상기 빈도 로그-가능성 점수는 상기 후보 대립유전자의 각각의 쌍이 인간 개체군내에 존재하는 로그-빈도의 합인 단계;
    상기 컴퓨터 시스템에 의해, 상기 유전자형 로그-가능성 점수, 상기 위상 로그-가능성 점수, 및 상기 빈도 로그-가능성 점수의 합이 가장 높은 상기 하나 이상의 후보 대립유전자를 상기 HV 유전자좌의 상기 유전자형으로서 선택하는 단계를 포함하는 방법.
  31. HLA 유전자좌에서 대상의 HLA 유형을 결정하는 컴퓨터-구현 방법으로서,
    대상의 유전자좌의 핵산 서열을 포함하는 증폭 산물을 산출하는 핵산 증폭 방법을 수행하며, 상기 유전자좌는 하나 이상의 단일 뉴클레오티드 다형성(SNP)을 포함하는 단계;
    복수의 서열분석 리드를 산출하는 증폭 산물 상에서 서열분석 방법을 수행하며, 상기 복수의 서열분석 리드는 35-100 염기 쌍의 서열분석 리드를 포함하는 단계;
    컴퓨터 시스템에 의해, 상기 복수의 서열분석 리드를, 상기 HLA 유전자좌의 유전체 서열 및 복수의 HLA 대립유전자 서열을 포함하는 참조 서열에 대해 맵핑하여 후보 대립유전자의 쌍을 동정하는 단계;
    후보 대립유전자의 각각의 쌍에 대해, 상기 유전자좌 내의 각각의 개별적인 SNP에 대한 유전자형 로그-가능성 점수를 결정하며, 각각의 유전자형 로그-가능성 점수는 상기 유전자좌 내의 각각의 개별적인 SNP에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP에 대해 맵핑되는 상기 서열분석 리드 내의 상기 개별적인 SNP에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    후보 대립유전자의 각각의 쌍에 대해, 적어도 일부 복수의 역위상 상태를 기초로 하여, 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한 위상 로그-가능성 점수를 결정하며, 각각의 위상 로그-가능성 점수는 상기 유전자좌 내의 SNP의 각각의 순차적 쌍에 대한, 상기 후보 대립유전자의 쌍이 상기 SNP의 순차적 쌍에 대해 맵핑되는 상기 서열분석 리드 내의 상기 SNP의 순차적 쌍에 존재하는 상기 서열을 설명할 수 있을 로그-확률의 합인 단계;
    후보 대립유전자의 각각의 쌍에 대해, 빈도 로그-가능성 점수를 결정하며, 상기 빈도 로그-가능성 점수는 상기 후보 대립유전자의 각각의 쌍이 인간 개체군내에 존재하는 로그-빈도의 합인 단계; 및
    상기 컴퓨터 시스템에 의해, 상기 유전자형 로그-가능성 점수, 상기 위상 로그-가능성 점수, 및 상기 빈도 로그-가능성 점수의 합이 가장 높은 상기 후보 대립유전자의 쌍을 상기 HLA 유전자좌에서 상기 대상의 상기 HLA 유형을 이루는 상기 대립유전자로서 선택하는 단계를 포함하는 방법.
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
  91. 삭제
  92. 삭제
  93. 삭제
  94. 삭제
  95. 삭제
  96. 삭제
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
  103. 삭제
  104. 삭제
  105. 삭제
  106. 삭제
  107. 삭제
  108. 삭제
  109. 삭제
  110. 삭제
  111. 삭제
  112. 삭제
  113. 삭제
  114. 삭제
  115. 삭제
  116. 삭제
  117. 삭제
  118. 삭제
  119. 삭제
  120. 삭제
  121. 삭제
  122. 삭제
  123. 삭제
  124. 삭제
  125. 삭제
  126. 삭제
  127. 삭제
  128. 삭제
  129. 삭제
  130. 삭제
  131. 삭제
  132. 삭제
  133. 삭제
  134. 삭제
  135. 삭제
  136. 삭제
  137. 삭제
  138. 삭제
  139. 삭제
  140. 삭제
  141. 삭제
  142. 삭제
  143. 삭제
  144. 삭제
  145. 삭제
  146. 삭제
  147. 삭제
  148. 삭제
  149. 삭제
  150. 삭제
  151. 삭제
  152. 삭제
  153. 삭제
  154. 삭제
  155. 삭제
  156. 삭제
  157. 삭제
  158. 삭제
  159. 삭제
  160. 삭제
  161. 삭제
  162. 삭제
  163. 삭제
  164. 삭제
  165. 삭제
  166. 삭제
  167. 삭제
  168. 삭제
  169. 삭제
  170. 삭제
  171. 삭제
  172. 삭제
  173. 삭제
  174. 삭제
  175. 삭제
  176. 삭제
  177. 삭제
  178. 삭제
KR1020167012427A 2013-10-15 2014-10-14 고분별능 대립유전자 동정 KR102386134B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361891193P 2013-10-15 2013-10-15
US61/891,193 2013-10-15
PCT/IB2014/002843 WO2015056103A2 (en) 2013-10-15 2014-10-14 High resolution allele identification

Publications (2)

Publication Number Publication Date
KR20160063400A KR20160063400A (ko) 2016-06-03
KR102386134B1 true KR102386134B1 (ko) 2022-04-12

Family

ID=52630401

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167012427A KR102386134B1 (ko) 2013-10-15 2014-10-14 고분별능 대립유전자 동정

Country Status (8)

Country Link
US (2) US10162933B2 (ko)
EP (1) EP3058095B1 (ko)
JP (2) JP6491651B2 (ko)
KR (1) KR102386134B1 (ko)
CN (1) CN106103736B (ko)
AU (1) AU2014335877B2 (ko)
CA (1) CA2927319C (ko)
WO (1) WO2015056103A2 (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
KR102386134B1 (ko) 2013-10-15 2022-04-12 리제너론 파마슈티칼스 인코포레이티드 고분별능 대립유전자 동정
WO2015058095A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for quantifying sequence alignment
WO2015058120A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
AU2014337093B2 (en) 2013-10-18 2020-07-30 Seven Bridges Genomics Inc. Methods and systems for identifying disease-induced mutations
JP2017500004A (ja) 2013-10-18 2017-01-05 セブン ブリッジズ ジェノミクス インコーポレイテッド 遺伝子試料について遺伝子型解析するための方法およびシステム
US9092402B2 (en) 2013-10-21 2015-07-28 Seven Bridges Genomics Inc. Systems and methods for using paired-end data in directed acyclic structure
JP2017506500A (ja) * 2013-12-10 2017-03-09 コネクシオ ゲノミクス ピーティーワイ リミテッド 遺伝子アリルを同定するための方法及びプローブ
US10867693B2 (en) 2014-01-10 2020-12-15 Seven Bridges Genomics Inc. Systems and methods for use of known alleles in read mapping
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
WO2016141294A1 (en) 2015-03-05 2016-09-09 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US10793895B2 (en) 2015-08-24 2020-10-06 Seven Bridges Genomics Inc. Systems and methods for epigenetic analysis
MX2018002293A (es) * 2015-08-25 2018-09-05 Nantomics Llc Sistemas y métodos para las llamadas variantes de alta precisión.
US10724110B2 (en) 2015-09-01 2020-07-28 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US20180268101A1 (en) * 2015-09-28 2018-09-20 Sirona Genomics, Inc. Linkage disequilibrium method and database
US11347704B2 (en) 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
KR101651817B1 (ko) * 2015-10-28 2016-08-29 대한민국 Ngs 라이브러리 제작용 프라이머 세트 및 이를 이용한 ngs 라이브러리 제작방법 및 키트
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US10364468B2 (en) 2016-01-13 2019-07-30 Seven Bridges Genomics Inc. Systems and methods for analyzing circulating tumor DNA
US10262102B2 (en) 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
US10790044B2 (en) 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
EP3464635A4 (en) * 2016-05-27 2020-01-22 Human Longevity, Inc. TYPES OF TYPES OF HUMAN LEUCOCYTARY ANTIGEN
US11981962B2 (en) 2016-06-17 2024-05-14 Mayo Foundation For Medical Education And Research Methods and materials for the effective use of combined targeted enrichment of genomic regions and low coverage whole genome sequencing
KR101815529B1 (ko) * 2016-07-29 2018-01-30 (주)신테카바이오 휴먼 하플로타이핑 시스템 및 방법
US11289177B2 (en) 2016-08-08 2022-03-29 Seven Bridges Genomics, Inc. Computer method and system of identifying genomic mutations using graph-based local assembly
US11250931B2 (en) 2016-09-01 2022-02-15 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
US11324801B2 (en) 2016-09-02 2022-05-10 University Of Utah Research Foundation NNIF and nNIF-related peptides and related methods
JP2019530476A (ja) * 2016-09-26 2019-10-24 シロナ ゲノミクス, インコーポレイテッドSirona Genomics, Inc. ヒト白血球抗原遺伝子型決定方法およびサンプル集団におけるhlaハプロタイプの多様性の決定
US10319465B2 (en) 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
KR101936933B1 (ko) * 2016-11-29 2019-01-09 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
EP3555310A4 (en) * 2016-12-15 2020-07-22 Sirona Genomics, Inc. GENOTYPING DIPLOID SAMPLES WITH COVER PLOT OF UNEXPLAINABLE READINGS
US11347844B2 (en) 2017-03-01 2022-05-31 Seven Bridges Genomics, Inc. Data security in bioinformatic sequence analysis
US10726110B2 (en) 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis
WO2019012296A1 (en) 2017-07-14 2019-01-17 The Francis Crick Institute Limited ANALYSIS OF HLA ALLELS IN TUMORS AND USES THEREOF
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
AU2018330415A1 (en) * 2017-09-06 2020-03-19 Nant Holdings Ip, Llc HLA tissue matching and methods therefor
US11819520B2 (en) 2018-02-23 2023-11-21 Duke University Cultured thymus tissue transplantation promotes donor-specific tolerance to allogeneic solid organ transplants
SG11202007498YA (en) * 2018-02-23 2020-09-29 Duke Univ & Medical Center Cultured thymus tissue transplantation promotes donor-specific tolerance to allogeneic solid organ transplants
CN109448789A (zh) * 2018-09-17 2019-03-08 上海派森诺生物科技股份有限公司 一种基于perl语言的种群特异SNP位点的自动化分析方法
CN110942806A (zh) * 2018-09-25 2020-03-31 深圳华大法医科技有限公司 一种血型基因分型方法和装置及存储介质
JP2022534071A (ja) * 2019-05-22 2022-07-27 ソウル ナショナル ユニバーシティ アールアンドディービー ファウンデーション Ngsデータを用いて遺伝型を予測する方法及び装置
CN111312332B (zh) * 2020-02-13 2020-10-30 国家卫生健康委科学技术研究所 基于hla基因的生物信息处理方法、装置及终端
WO2023196925A2 (en) * 2022-04-07 2023-10-12 Guardant Health, Inc. Methods and systems for allele typing
WO2023225607A2 (en) * 2022-05-18 2023-11-23 The University Of North Carolina At Chapel Hill Unique molecular identifier enhanced hla genotyping and transcript quantitation using nanopore technology
WO2024112946A1 (en) * 2022-11-22 2024-05-30 University Of Southern California Cell-free dna methylation test for breast cancer

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100256917A1 (en) * 2007-06-15 2010-10-07 Mcvean Gilean Allelic determination
CN104160391A (zh) * 2011-09-16 2014-11-19 考利达基因组股份有限公司 确定异质样本的基因组中的变异
KR102386134B1 (ko) 2013-10-15 2022-04-12 리제너론 파마슈티칼스 인코포레이티드 고분별능 대립유전자 동정

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
J. H. Kim 외, "HLA Haplotyping from RNA-seq Data Using Hierarchical Read Weighting", PLoS One. (2013.06.28.)
R. L. Erlich 외, "Next-generation sequencing for HLA typing of class I loci", BMC Genomics, 12:42, 2011.01.18.*
R. L. Warren 외, "Derivation of HLA types from shotgun seqeunce datasets", Genome Medicine, 4(12). (2012.12.10.)
S. Boegel 외, "HLA typing from RNA-Seq sequence reads", Genome Med., 4(12):102, 2012.12.22.*

Also Published As

Publication number Publication date
AU2014335877B2 (en) 2020-09-17
US20190121940A1 (en) 2019-04-25
CN106103736B (zh) 2020-03-03
CA2927319A1 (en) 2015-04-23
KR20160063400A (ko) 2016-06-03
JP6491651B2 (ja) 2019-03-27
EP3058095B1 (en) 2019-12-25
AU2014335877A1 (en) 2016-05-05
WO2015056103A2 (en) 2015-04-23
JP2019145114A (ja) 2019-08-29
JP6715977B2 (ja) 2020-07-01
CN106103736A (zh) 2016-11-09
AU2014335877A2 (en) 2016-06-16
US10162933B2 (en) 2018-12-25
US11594302B2 (en) 2023-02-28
CA2927319C (en) 2023-03-28
JP2016541043A (ja) 2016-12-28
EP3058095A2 (en) 2016-08-24
US20150110754A1 (en) 2015-04-23
WO2015056103A3 (en) 2016-01-21

Similar Documents

Publication Publication Date Title
KR102386134B1 (ko) 고분별능 대립유전자 동정
Bai et al. Inference of high resolution HLA types using genome-wide RNA or DNA sequencing reads
US20230203573A1 (en) Methods for detection of donor-derived cell-free dna
Kiryluk et al. Discovery of new risk loci for IgA nephropathy implicates genes involved in immunity against intestinal pathogens
US20190367972A1 (en) Methods for assessing risk using total and specific cell-free dna
Hoffman et al. Rare complement factor H variant associated with age-related macular degeneration in the Amish
JP2022141905A (ja) 移植拒絶リスクを予測する新規の方法
US20220088174A1 (en) Genomic variants in ig gene regions and uses of same
Pineda et al. Corrigendum: Novel Non-Histocompatibility Antigen Mismatched Variants Improve the Ability to Predict Antibody-Mediated Rejection Risk in Kidney Transplant.
Lázaro-Guevara et al. Identification of RP1 as the genetic cause of retinitis pigmentosa in a multi-generational pedigree using Extremely Low-Coverage Whole Genome Sequencing (XLC-WGS)
Pyo et al. Genotyping of canine MHC gene DLA‐88 by next‐generation sequencing reveals high frequencies of new allele discovery and gene duplication
Quinones-Valdez et al. Long-read RNA-seq demarcates cis-and trans-directed alternative RNA splicing
이선호 New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data
Pineda Sanjuan et al. Novel Non-Histocompatibility Antigen Mismatched Variants Improve the Ability to Predict Antibody-Mediated Rejection Risk in Kidney Transplant
Claeys Benchmark of NGS-based prediction algorithms for
Ramdas Genomics of Complex Traits: Methods and Applications
정윤숙 Identification of genetic susceptibility loci for intestinal Behçet disease using a genome-wide association study
JP2020178548A (ja) 気管支ぜんそくのリスクを判定する方法
JP2020178542A (ja) 十二指腸潰瘍のリスクを判定する方法
Wagner et al. Protective coding variants in CFH and PELI3 and a variant near CTRB1 are associated with age-related macular degeneration

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant