KR102487135B1 - 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템 - Google Patents

기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR102487135B1
KR102487135B1 KR1020197037927A KR20197037927A KR102487135B1 KR 102487135 B1 KR102487135 B1 KR 102487135B1 KR 1020197037927 A KR1020197037927 A KR 1020197037927A KR 20197037927 A KR20197037927 A KR 20197037927A KR 102487135 B1 KR102487135 B1 KR 102487135B1
Authority
KR
South Korea
Prior art keywords
nucleic acid
allele
locus
contributors
sample
Prior art date
Application number
KR1020197037927A
Other languages
English (en)
Other versions
KR20200010464A (ko
Inventor
용 리
조슬린 브런드
라이언 켈리
치 리
콘라드 셰플러
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20200010464A publication Critical patent/KR20200010464A/ko
Application granted granted Critical
Publication of KR102487135B1 publication Critical patent/KR102487135B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Abstract

기지 또는 미지의 게놈을 갖는 1명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플을 정량 및 데콘볼빙시키기 위한 방법 및 시스템이 제공된다. 본 명세서에 제공된 방법 및 시스템은 베이지안 확률적 모델링 기술을 사용하여 키메리즘 샘플에서 유전자적으로 구별되는 기여자의 풍부도 및 신뢰 구간을 결정함으로써, 종래의 방법에 비해서 특이성, 정확도 및 감도를 개선시키고, 응용 범주를 상당히 확장시킨 공정을 구현한다.

Description

기지 또는 미지의 유전자형의 다수의 기여자로부터 DNA 혼합물을 분해 및 정량하기 위한 방법 및 시스템
관련 출원의 상호 참조
본 출원은 2017년 6월 20일자로 출원된 발명의 명칭이 "METHODS FOR ACCURATE 컴퓨터를 이용하는 DECOMPOSITION OF DNA MIXTURES FROM CONTRIBUTORS OF UNKNOWN GENOTYPES"인 미국 가특허 출원 제62/522,605호에 대한 35 U.S.C. § 119(e) 하의 이익을 주장하며, 상기 문헌은 본 명세서에 모든 목적을 위해서 전문이 참고로 포함된다.
밀접하게 관련된 게놈의 핵산(예를 들어, DNA 또는 RNA) 혼합물로부터의 서열분석(sequencing) 데이터는 연구뿐만 아니라 임상 환경에서 빈번하게 발견되며, 혼합 기여자(contributor)를 정량하는 것은 본래 게놈이 미지인 경우에는 도전이었다. 예를 들어, 미생물학 및 메타지노믹스(metagenomics)와 관련하여, 연구자 및 임상의는 환경 샘플에서 동일한 종의 밀접하게 관련된 박테리아 균주를 정량하는 것이 필요할 수 있다. 법의학(forensics)의 설정에서, 법집행관은 다수의 개체의 DNA를 함유하는 혈액 샘플로부터 인간 개체를 정량할 뿐만 아니라 식별하는 것을 필요로 할 수 있다. 생물의학적 연구의 설정에서, 과학자는 세포 또는 DNA 샘플의 순도 및 그 중의 오염 정도를 결정하는 것이 필요할 수 있다.
또 다른 응용은 차세대 서열분석(Next Generation Sequencing: NGS) 커플링된 액체 생검이다. NGS-커플링된 액체 생검은 다양한 임상 설정에서 잠재적인 응용을 갖는 최근에 대두된 진단 전략이다. 기관 또는 조직 이식과 관련하여, NGS-커플링된 액체 생검은 수용자(recipient) 혈액에서 동종이계 DNA의 양을 정량함으로써 동종이계 이식의 건강을 모니터링하기 위한 비침습적 접근법이다. 일부 응용에서, 공여자(donor) 및 수용자 게놈은 미지이거나 또는 부분적으로 미지이다.
용어 키메라는 상이한 개체로부터 유래된 세포 집단을 함유하는 개체를 기술하기 위해서 현대 의학에서 사용되어 왔다. 키메리즘의 상태는 유전을 통해서 자발적으로 일어날 수 있지만, 이식, 수혈(transfusion) 또는 샘플 오염을 통해서 인공적으로 빈번하게 발생된다.
키메리즘은 이식의 유형에 따라서 상이한 DNA 유형에서 정보 신호를 남긴다. 골수 및 조혈 줄기세포 이식의 경우, 이식 후 수집되는 혈액 게놈 DNA(gDNA)는 이식의 생착 상태에 따라서 다양한 수준의 키메리즘을 가질 것이다. 실질 기관 이식의 경우, 키메리즘 신호는 혈액 세포-유리(blood cell-free) DNA(cfDNA)에서 인지될 수 있다. 이러한 신호는, 기관 이식 모니터링에 대한 현재 표준 치료(standard of care)인 침습적 조직 생검 절차와 대조적으로, 비침습적 액체 생검을 통해서 추출될 수 있다.
키메리즘 DNA 샘플의 공여자 게놈의 상대적 기여의 재생 가능하고 정확한 결정은 이식 모니터링에 대한 유익한 툴(tool)을 제공하여, 연구자 및 임상의가 공여자 및 수용자 세포 중에서 역학적으로 그 변화를 비침습적으로 그리고 객관적으로 측정하는 것을 가능하게 할 것인데, 이것은 공여자 세포 및 기관의 건강 상태를 반영한다. 본 출원은 키메리즘 샘플에 대한 각각의 게놈의 상대적인 기여를 정량하기 위한 신규하고 개선된 방법을 소개한다.
본 명세서에 제공된 일부 구현예는 미지의 유전자형의 2명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플의 정량 및 데콘볼루션(deconvolution)을 위한 컴퓨터 구현 방법 및 시스템을 제공한다. 본 개시내용의 일 양상은 상이한 게놈을 갖는 2명 이상의 기여자의 핵산(예를 들어, DNA 또는 RNA)을 포함하는 핵산 샘플에서 핵산 분율을 정량하는 방법에 관한 것이다. 일부 구현예에서, 핵산 혼합물 샘플은 하기에 기재된 바와 같은, 생물학적 조직, 세포, 말초 혈액, 침, 소변 및 다른 생물학적 유체를 포함한다 일부 응용에서, 핵산 샘플은 단일 기여자 만의 핵산을 포함하고, 본 명세서에 기재된 구현예는 단일 기여자의 핵산이 샘플 중의 핵산의 100%를 차지한다고 결정할 수 있다. 따라서, 이하 설명은 일부 구현예에서 핵산 혼합물 샘플로서의 핵산 샘플을 지칭하지만, 이러한 샘플은 단일 기여자의 핵산을 포함할 수 있고, 기여자의 분율은 100% 또는 1이다. 물론, 방법은 또한 2명 이상의 기여자의 핵산을 포함하는 샘플을 정량하는 데 사용될 수 있다.
본 명세서에 제공된 각종 방법 및 시스템은 확률적 혼합 모델 및 베이지안 추론(Bayesian inference) 기술을 사용하는 전략 및 공정을 구현하기 때문에, 실시형태는 핵산(예를 들어, DNA 또는 RNA) 혼합물 샘플의 정량 및 데콘볼루션에 있어서 종래의 방법에 비해서 기술적 개선을 제공한다. 일부 구현예는 개선된 분석 감도 및 특이성을 제공하여, 핵산 혼합물 샘플의 보다 정확한 데콘볼루션 및 정량을 제공한다.
일부 구현예는 종래의 방법으로 정확하게 정량하기에는 너무 적은 핵산 양을 갖는 핵산 혼합물 샘플의 정확한 정량을 가능하게 한다. 일부 구현예는 세포 유리 DNA(cfDNA) 혼합물 샘플의 3 내지 10ng의 정확한 정량을 가능하게 하는데, 이것은 종래의 방법에 의해서 정확하게 정량될 수 없다. 일부 구현예는 3명 이상의 기여자를 갖는 혼합물 샘플에 대한 응용을 가능하게 하는데, 이것은 종래의 방법이 취급할 수 없는 것이다. 일부 구현예는 하나 이상의 미지의 게놈을 갖는 혼합물에 대한 응용을 허용하는데, 이것은 종래의 방법이 취급할 수 없는 것이다. 본 명세서에 기재된 일부 구현예는 DNA 샘플을 지칭하지만, 구현예는 또한 RNA 샘플을 분석하는 데 적용될 수 있다고 이해된다.
일부 실시형태에서, 방법은 2명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플을 데콘볼빙 및 정량하도록 구성된 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현된다.
일부 실시형태는 기여자의 핵산 및 적어도 하나의 다른 기여자의 핵산을 포함하는 핵산 혼합물 샘플 중의 기여자의 핵산의 분율을 정량하는 방법을 제공한다. 방법은 (a) 핵산 샘플로부터 핵산 분자를 추출하는 단계; (b) 추출된 핵산 분자를 증폭시키는 단계; (c) 증폭된 핵산 분자를 핵산 서열분석기(nucleic acid sequencer)를 사용하여 서열분석하여 핵산 서열 판독물(nucleic acid sequence read)을 생성시키는 단계; (d) 하나 이상의 프로세서에 의해서, 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑(mapping)하는 단계; (e) 맵핑된 핵산 서열 판독물을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계; 및 (f) 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 핵산 샘플 중의 1명 이상의 기여자의 핵산의 하나 이상의 분획을 정량하는 단계로서, 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 것을 포함하고, 여기서 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 대립유전자 계수치를 모델링하고, 확률 분포는 핵산 서열 판독물에서의 오류를 설명하는, 상기 정량하는 단계를 포함한다.
일부 구현예에서, (d)의 맵핑은 컴퓨터 해싱(hashing) 또는 컴퓨터 동적 프로그래밍을 사용한 맵핑을 포함한다. 일부 구현예에서, (f)의 정량은 다중-반복 그리드 탐색(multi-iteration grid searching)과 브로이덴-플레처-골드파브-샤노(Broyden-Fletcher-Goldfarb-Shanno: BFGS) - 준뉴튼법(quasi-Newton method)을 조합하는 신규한 최적화 방법을 사용하여 정량하는 것을 포함한다. 일부 구현예에서, (f)의 정량은 반복적인 가중 선형 회귀를 사용하여 정량하는 것을 포함한다. 이러한 특징은 컴퓨터가 수행할 필요가 있고, 컴퓨터 기술에서 루팅된다.
일부 구현예에서, 방법은 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 하나 이상의 다형성 유전자좌에서의 1명 이상의 기여자의 하나 이상의 유전자형을 결정하는 단계를 더 포함한다.
일부 구현예에서, 방법은 1명 이상의 기여자의 핵산의 하나 이상의 분율을 사용하여, 또 다른 기여자(공여자)로부터 이식된 조직 또는 기관을 거부하는 하나의 기여자(수증자(donee))의 위험을 결정하는 단계를 더 포함한다.
일부 구현예에서, 1명 이상의 기여자는 2명 이상의 기여자를 포함한다.
일부 구현예에서, 핵산 분자는 DNA 분자 또는 RNA 분자를 포함한다.
일부 구현예에서, 핵산 샘플은 0종, 1종 또는 그 초과의 오염물 게놈 및 하나의 관심대상 게놈으로부터의 핵산을 포함한다.
일부 구현예에서, 1명 이상의 기여자는 0명, 1명 또는 그 초과의 이식 공여자 및 이식 수증자를 포함하고, 여기서 핵산 샘플은 수증자로부터 획득된 샘플을 포함한다.
일부 구현예에서, 이식은 동종이계 또는 이종 이식을 포함한다.
일부 구현예에서, 핵산 샘플은 수증자로부터 획득된 생물학적 샘플을 포함한다.
일부 구현예에서, 핵산 샘플은 세포 배양물로부터 획득된 생물학적 샘플을 포함한다.
일부 구현예에서, 추출된 핵산 분자는 세포-유리 핵산을 포함한다.
일부 구현예에서, 추출된 핵산 분자는 세포 DNA를 포함한다.
일부 구현예에서, 하나 이상의 다형성 유전자좌는 하나 이상의 이대립인자성 다형성 유전자좌(biallelic polymorphism locus)를 포함한다.
일부 구현예에서, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자는 하나 이상의 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP) 대립유전자를 포함한다.
일부 구현예에서, 확률적 혼합 모델은 단일-유전자좌 우도 함수를 사용하여 단일 다형성 유전자좌에서 대립유전자 계수치를 모델링한다. 단일-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00001
n 1i 는 유전자좌 i에서의 대립유전자 1의 대립유전자 계수치이고, n 2i 는 유전자좌 i에서의 대립유전자 2의 대립유전자 계수치이며, p 1i 는 유전자좌 i에서의 대립유전자 1의 예측된 분율이고, θ하나 이상의 모델 모수를 포함한다.
일부 구현예에서, p 1i 는, (i) 유전자좌 i에서의 기여자의 유전자형 또는 기여자 1...D에서 유전자좌 i에서의 대립유전자 1의 카피 수의 벡터인 g i = (g 11i , ..., g D1i ); (ii) (c)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류, 또는 λ; 및 (iii) 핵산 샘플에서 기여자의 핵산의 분획, 또는 β = (β 1 , ..., β D )(여기서 D는 기여자의 수임)의 함수로서 모델링된다. 일부 구현예에서, 기여자는 2명 이상의 기여자이고,
Figure 112019132469795-pct00002
이되,
Figure 112019132469795-pct00003
는 벡터 내적 연산자이다.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, p 1i 는 표 3의 p 1 ' 값을 사용하여 획득된다.
일부 구현예에서, 기여자의 0, 1 또는 그 초과의 유전자형은 미지이다. 일부 구현예에서, (f)는 유전자형의 복수의 가능한 조합에 걸쳐서 주변화(marginalizing)시켜 확률 모수 p 1i 를 열거하는 단계를 포함한다. 일부 구현예에서, 방법은 하나 이상의 다형성 유전자좌 각각에서 유전자형 구성을 결정하는 단계를 더 포함하고, 유전자형 구성은 1명 이상의 기여자 각각에 대해서 2개의 대립유전자를 포함한다. 일부 구현예에서, 단일-유전자좌 우도 함수는 제1 이항 분포를 포함한다. 일부 구현예에서, 제1 이항 분포는 하기 식과 같이 표현된다:
Figure 112019132469795-pct00004
n 1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 판독물의 대립유전자 계수치이고; n i 는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 총 판독물 계수치이다. 일부 구현예에서, (f)는 복수의 단일-유전자좌 우도 함수로부터 계산된 다중-유전자좌 우도 함수를 최대화시키는 단계를 포함한다.
일부 구현예에서, (f)는 (e)에서 결정된 핵산 서열 판독물의 대립유전자 계수치의 다중-유전자좌 우도 함수 및 복수의 잠재적인 분율(potential fraction) 값을 사용하여 복수의 다중-유전자좌 우도 값을 계산하는 단계; 최대 다중-유전자좌 우도 값과 연관된 하나 이상의 잠재적인 분율 값을 식별하는 단계; 및 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 식별된 잠재적인 분율 값으로서 정량하는 단계를 포함한다.
일부 구현예에서, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00005
L( β , θ, λ, π ; n 1 , n 2 )은 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고; p(g i , λ, β )는 유전자좌 i에서의 기여자의 유전자형 g i 를 기초로 유전자좌 i에서의 대립유전자 1을 관찰할 예측된 분율 또는 확률이며; P(g i |π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 유전자형 g i 를 관찰할 선험적 확률이고; Σg i 는 기여자의 유전자형의 복수의 가능한 조합에 걸친 총합을 나타낸다.
일부 구현예에서, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00006
.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00007
L(β, θ, λ, π ; n 1 , n 2 )은 모수 β π를 고려할 때 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 내지 n 2 를 관찰할 우도이고; p 1i (g 1i , g 2i , λ, β)는 표 3으로부터 p 1 '로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며; P(g 1i ,g 2i |π)는 집단 대립유전자 빈도(π)를 고려할 때 2명의 기여자의 유전자형을 관찰할 선험적 동시 확률이다.
일부 구현예에서, 선험적 동시 확률은 하디-바인버그 평형(Hardy-Weinberg equilibrium)을 충족시키는 주변 분포(marginal distribution) P(g 1i |π) 및 P(g 2i |π)를 사용하여 계산된다.
일부 구현예에서, 선험적 동시 확률은 2명의 기여자 사이의 유전적 관계를 사용하여 계산된다.
일부 구현예에서, 확률적 혼합 모델은 (a)에서 수행된 핵산 분자의 추출로부터 초래한 핵산 분자 카피 수 오류, 뿐만 아니라 (c)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류를 설명한다. 일부 구현예에서, 확률적 혼합 모델은 제2 이항 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 추출된 핵산 분자의 대립유전자 계수치를 모델링한다. 일부 구현예에서, 제2 이항 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00008
n 1i "는 유전자좌 i에서의 대립유전자 1에 대한 추출된 핵산 분자의 대립유전자 계수치이고; n i "는 유전자좌 i에서의 총 핵산 분자 계수치이며; p iu 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 제1 이항 분포는 대립유전자 분율 n 1i "/n i " 에 대해서 조건화된다. 일부 구현예에서, 제1 이항 분포는 하기와 같이 재모수화된다:
Figure 112019132469795-pct00009
n 1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 판독물의 대립유전자 계수치이고; n i "는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 핵산 분자의 총 수이고; n i 는 유전자좌 i에서의 총 판독물 계수치이며; n 1i "는 유전자좌 i에서의 대립유전자 1에 대한 추출된 핵산 분자의 수이다.
일부 구현예에서, 확률적 혼합 모델은 제1 베타 분포를 사용하여 n 1i "/n"의 분포의 근사치를 계산한다. 일부 구현예에서, 제1 베타 분포는 제2 이항 분포의 평균 및 분산에 매칭하는 평균 및 분산을 갖는다. 일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제1 베타 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00010
p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률을 나타내는 확률 모수이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, (f)는 제1 이항 분포를 조합하고, 서열분석 판독물 계수치 및 제1 베타 분포를 모델링하고, 추출된 핵산 분자 수를 모델링하여 제1 베타-이항 분포를 따르는 n1i의 단일-유전자좌 우도 함수를 획득하는 단계를 포함한다. 일부 구현예에서, 제1 베타-이항 분포는 하기 형태:
Figure 112019132469795-pct00011
, 또는 대안적인 근사치:
Figure 112019132469795-pct00012
를 갖는다. 일부 구현예에서, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00013
L(β, n", λ, π ; n 1 ,n 2 )은 모든 유전자좌에서의 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고,
Figure 112019132469795-pct00014
이다.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00015
Figure 112019132469795-pct00016
L(β, n", λ, π ; n 1 , n 2 )은 모수 β, n", λ, π를 고려할 때 모든 유전자좌의 제1 대립유전자에 대한 대립유전자 계수치 벡터(n 1 ) 및 모든 유전자좌의 제2 대립유전자에 대한 대립유전자 계수치 벡터(n 2 )를 관찰할 우도이고; p 1i (g 1i , g 2i , λ, β)는 표 3으로부터 p 1 ' 로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며; p 2i (g 1i , g 2i , λ, β)는 표 3으로부터 p 2 '로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 2의 확률을 나타내며; P(g 1i ,g 2i |π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 상기 제1 대립유전자에 대한 상기 제1 기여자의 유전자형(g 1i ) 및 상기 제1 대립유전자에 대한 상기 제2 기여자의 유전자형(g 2i )을 관찰할 선험적 동시 확률이다.
일부 구현예에서, (f)는 추출된 핵산 분자의 질량으로부터 총 추출된 게놈 카피 수 n"를 추정하는 단계를 포함한다. 일부 구현예에서, 추정된 총 추출된 게놈 카피 수 n"는 추출된 핵산 분자의 단편 크기에 따라서 조정된다.
일부 구현예에서, 확률적 혼합 모델은 (b)에서 수행된 핵산 분자의 증폭으로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 (c)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류를 설명한다. 일부 구현예에서, (b)의 증폭 공정은 하기와 같이 모델링된다:
Figure 112019132469795-pct00017
x t+1 은 주기 t+1의 증폭 후 주어진 대립유전자의 핵산 카피이고; x t 는 주기 t의 증폭 후 주어진 대립유전자의 핵산 카피이며; y t+1 은 주기 t+1에서 생성된 새로운 카피이고, 이항 분포 y t+1 ~BN(x t , r t+1 )를 따르고; r t+1 은 주기 t+1에 대한 증폭 속도이다.
일부 구현예에서, 확률적 혼합 모델은 제2 베타 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 분율을 모델링한다.
일부 구현예에서, 유전자좌 i는 이대립인자성이고, 제2 베타 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00018
n 1i '는 유전자좌 i에서의 제1 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n 2i '는 유전자좌 i에서의 제2 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n"는 임의의 유전자좌에서의 총 핵산 분자 계수치이며; ρ i 는 평균 증폭 속도 r에 관련된 상수이고; p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률이다. 일부 구현예에서, ρ i (1+r)/(1-r) / [1-(1+r) -t ] 이고, r은 주기당 평균 증폭 속도이다. 일부 구현예에서, ρ i (1+r)/(1-r)로서 근사된다.
일부 구현예에서, (f)는 제1 이항 분포 및 상기 제2 베타 분포를 조합하여 제2 베타-이항 분포를 따르는 n1i에 대한 단일-유전자좌 우도 함수를 획득하는 단계를 포함한다. 일부 구현예에서, 제2 베타-이항 분포는 하기 형태를 갖는다:
Figure 112019132469795-pct00019
n 1i 는 유전자좌 i에서의 제1 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치이고; p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률을 나타내는 확률 모수이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, (f)는, 하나 이상의 다형성 유전자좌가 동일한 증폭 속도를 갖는다고 가정함으로써, 제2 베타-이항 분포를 하기로서 재모수화시키는 단계를 포함한다:
Figure 112019132469795-pct00020
식 중, r은 증폭 속도이다. 일부 구현예에서, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00021
Figure 112019132469795-pct00022
.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00023
Figure 112019132469795-pct00024
L(β, n", r, λ, π ; n 1 , n 2 )은 모수 β, n", r, λ, π를 고려할 때 모든 유전자좌의 제1 대립유전자에 대한 대립유전자 계수치 벡터(n 1 ) 및 모든 유전자좌의 제2 대립유전자에 대한 대립 유전자 계수치 벡터(n 2 )를 관찰할 우도이다.
일부 구현예에서, (f)는, 유전자좌의 총 판독물에 비례할 각각의 다형성의 상대적인 증폭 속도를 정의함으로써, 제2 베타-이항 분포를 하기로서 재모수화시키는 단계를 포함한다:
Figure 112019132469795-pct00025
c'는 최적화될 모수이고; n i 는 유전자좌 i에서의 총 판독물이다.
일부 구현예에서, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00026
.
일부 구현예에서, 확률적 혼합 모델은 (a)에서 수행된 핵산 분자의 추출 및 (b)에서 수행된 핵산 분자의 증폭으로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 (c)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류를 설명한다. 일부 구현예에서, 확률적 혼합 모델은, 제3 베타 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 분율을 모델링하여, (a)에서 수행된 상기 핵산 분자의 추출 및 (b)에서 수행된 핵산 분자의 증폭으로부터 초래한 샘플링 오류를 설명한다. 일부 구현예에서, 유전자좌 i는 이대립인자성이고, 제3 베타 분포는 하기의 형태를 갖는다:
Figure 112019132469795-pct00027
n 1i '는 유전자좌 i에서의 제1 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n 2i '는 유전자좌 i에서의 제2 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n"는 총 핵산 분자 계수치이고; r i 는 유전자좌 i에 대한 평균 증폭 속도이며; p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률이다. 일부 구현예에서, (f)는 제1 이항 분포 및 상기 제3 베타 분포를 조합하여 제3 베타-이항 분포를 따르는 n1i의 상기 단일-유전자좌 우도 함수를 획득하는 단계를 포함한다.
일부 구현예에서, 제3 베타-이항 분포는 하기 형태를 갖는다:
Figure 112019132469795-pct00028
r i 는 증폭 속도이다.
일부 구현예에서, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00029
Figure 112019132469795-pct00030
.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 여기서 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00031
Figure 112019132469795-pct00032
L(n 1 , n 2 | β, n", r, λ, π)은 모수 β, n", r, λ π를 고려할 때 제1 대립유전자 벡터에 대한 대립유전자 계수치 n 1 및 제2 대립유전자 벡터에 대한 대립유전자 계수치 n 2 를 관찰할 우도이다.
일부 구현예에서, 방법은 (g) 수치 미분을 사용하여 log-우도의 헤시안 행렬(hessian matrix)을 사용하여 1명 이상의 기여자의 핵산의 하나 이상의 분율의 하나 이상의 신뢰 구간을 추정하는 단계를 더 포함한다.
일부 구현예에서, (d)의 맵핑은, 컴퓨터 해싱 및 컴퓨터 동적 프로그래밍을 사용하는 하나 이상의 프로세서에 의해서, 복수의 불편(unbiased) 표적 서열의 임의의 서열에 매칭하는 핵산 서열 판독물 중에서 판독물을 식별하는 단계를 포함하고, 여기서 복수의 불편 표적 서열은 단일 뉴클레오타이드가 상기 서열과 상이한 상기 기준 서열 및 서열들의 하위서열을 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 복수의 다형성 부위의 각각의 다형성 부위를 포함하는 하기 5개의 서열 카테고리를 포함한다: (i) 기준 서열의 하위서열인 기준 표적 서열, 기준 표적 서열은 다형성 부위에서 기준 뉴클레오타이드를 갖는 기준 대립유전자를 가짐; (ii) 다형성 부위에서 대안적인 뉴클레오타이드를 갖는 대안적인 대립유전자를 각각 갖는 대안적인 표적 서열, 대안적인 뉴클레오타이드는 기준 뉴클레오타이드와 상이함; (iii) 각각 다형성 부위가 아닌 부위에서 단지 하나의 뉴클레오타이드가 기준 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 기준 표적 서열; (iv) 각각 다형성 부위가 아닌 부위에서 단지 하나의 뉴클레오타이드가 대안적인 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 대안적인 표적 서열; (v) 각각 기준 대립유전자 및 대안적인 대립유전자와 상이한 비예측된 대립유전자를 갖고, 각각 4개의 서열 카테고리와 상이한 서열을 갖는 비예측된 대립유전자 표적 서열.
일부 구현예에서, 방법은 (v)의 비예측된 대립유전자 표적 서열을 관찰할 빈도에 대해서 변이체 부위 염기에서 서열분석 오류율 λ를 추정하는 단계를 더 포함한다. 일부 구현예에서, (e)는 식별된 판독물 및 이의 매칭 불편 표적 서열을 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계를 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 핵산 서열 판독물과 동일한 길이를 갖도록 절두된 서열을 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 하나 이상의 해시 테이블(hash table)에 저장된 서열을 포함하고, 판독물은 해시 테이블을 사용하여 식별된다.
개시된 실시형태는 또한 언급된 작업 및 본 명세서에 기재된 다른 컴퓨팅 작업을 수행하기 위한 프로그램 설명서가 제공된 비-일시적인 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다.
일부 실시형태는 기여자의 핵산 및 적어도 하나의 다른 기여자의 핵산을 포함하는 핵산 혼합물 샘플 중의 기여자의 핵산의 분율을 정량하는 시스템을 제공한다. 시스템은 시험 샘플로부터 핵산을 제공받아서 샘플로부터의 핵산 서열 정보를 제공하기 위한 서열분석기, 프로세서; 및 프로세서 상에서 실행하여 본 명세서에 언급된 방법을 사용하여 DNA 혼합물 샘플을 데콘볼빙 및 정량하기 위한 명령이 저장된 하나 이상의 컴퓨터-판독 가능 저장 매체를 포함한다.
본 개시내용의 또 다른 양상은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 시스템을 제공한다. 시스템은 (a) (i) 핵산 샘플로부터 추출된 핵산 분자를 제공받고, (ii) 추출된 핵산 분자를 증폭시키고, (iii) 증폭된 핵산 분자를 핵산 서열 판독물을 생성시키는 조건 하에서 서열분석하도록 구성된 서열분석기; 및 (b) 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하고; 맵핑된 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하고; 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하도록 구성된 하나 이상의 프로세서를 포함하는 컴퓨터를 포함한다. 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 것을 포함하며, 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 대립유전자 계수치를 모델링하고, 확률 분포는 핵산 서열 판독물에서의 오류를 설명한다.
일부 구현예에서, 시스템은 핵산 샘플로부터 핵산 분자를 추출하기 위한 툴(tool)을 포함한다. 일부 구현예에서, 확률 분포는 하기와 같은 제1 이항 분포를 포함한다:
Figure 112019132469795-pct00033
n 1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 판독물의 대립유전자 계수치이고; n i 는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 총 판독물 계수치이고; p 1i 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이다.
본 개시내용의 추가 양상은 컴퓨터 프로그램 제품을 제공하며, 컴퓨터 프로그램 제품은, 컴퓨터 시스템의 하나 이상의 프로세서에 의해서 실행되는 경우, 컴퓨터 시스템이 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 방법을 구현하도록 하는 프로그램 코드를 저장하는 비-일시적인 기기 판독 가능 매체를 포함하고, 상기 프로그램 코드는 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하기 위한 코드; 맵핑된 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하기 위한 코드; 및 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 코드를 포함한다. 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 것을 포함하며, 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 대립유전자 계수치를 모델링하고, 확률 분포는 핵산 서열 판독물에서의 오류를 설명한다.
본 개시내용의 추가의 또 다른 양상은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현되는 방법을 제공한다. 방법은 (a) 하나 이상의 프로세서에 의해서, 핵산 샘플로부터 획득된 핵산 서열 판독물을 제공받는 단계; (b) 하나 이상의 프로세서에 의해서, 컴퓨터 해싱 및 컴퓨터 동적 프로그래밍을 사용하여, 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하는 단계; (c) 맵핑된 핵산 서열 판독물을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계; 및 (d) 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율 및 분율의 신뢰도를 정량하는 단계를 포함한다. 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 것을 포함한다. 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 대립유전자 계수치를 모델링하고, 확률 분포는 맵핑된 핵산 서열 판독물에서의 오류를 설명한다. 정량은 (i) 다중-반복 그리드 탐색(multi-iteration grid searching) 및 BFGS-준뉴튼법, 또는 반복적인 가중 선형 회귀를 조합한 컴퓨터 최적화 방법, 및 (ii) 수치 미분 방법을 사용하는, 핵산 샘플을 정량하는 컴퓨터 시스템에서 구현되는 방법을 사용한다.
본 명세서에서 실시예는 인간을 고려하고, 그 내용은 주로 인간 관심에 관한 것이지만, 본 명세서에 기재된 개념은 임의의 식물 또는 동물로부터의 게놈에 적용될 수 있다. 본 개시내용의 이들 및 다른 목적 및 특징은 하기 설명 및 첨부된 청구범위로부터 보다 완전히 자명해질 것이거나, 또는 이하에 언급된 바와 같은 본 개시내용의 실시에 의해서 학습될 수 있다.
참고에 의한 포함
본 명세서에 언급된 이러한 참고 문헌에 개시된 모든 서열을 비롯한, 모든 특허, 특허 출원 및 다른 간행물은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적으로 그리고 개별적으로 참고에 의해서 포함된다고 제시된 것과 동일한 정도로 본 명세서에 참고로 명확히 포함된다. 인용된 모든 문헌은 관련 부분에서 본 명세서에서 이의 인용과 관련하여 제시된 목적을 위해서 전문이 참고로 본 명세서에 포함된다. 그러나, 임의의 문헌의 인용은 그것이 본 개시내용에 대해서 선행 기술인 것을 인정하는 것으로서 해석되어서는 안 된다.
도 1A 내지 도 1C는 기여자 DNA 정량을 위해서 설계된 방법 및 통계학적 모델의 개요를 나타낸 도면.
도 2a는 핵산 샘플에서 1명 이상의 기여자의 핵산(예를 들어, DNA 또는 RNA)의 하나 이상의 분율을 정량하기 위한 공정을 나타내는 블록 다이어그램.
도 2b는 확률적 혼합 모델의 다양한 성분을 나타내는 블록 다이어그램.
도 2c는 대립유전자를 또 다른 대립유전자로 그리고 진(true) 대립유전자를 비예측된 대립유전자로 전환시키는 서열분석 오류를 개략적으로 나타낸 도면.
도 3은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 평가하기 위한 공정을 나타내는 블록 다이어그램.
도 4는 특정 실시형태에 따른 컴퓨팅 장치로서 제공될 수 있는 전형적인 컴퓨터 시스템의 블록 다이어그램.
도 5는 시험 샘플로부터 콜링(call) 또는 진단을 생성시키기 위한 분산된 시스템의 일 구현예를 나타낸 도면.
도 6은 구별되는 위치에서 일부 구현예의 다양한 작업을 수행하기 위한 선택을 나타낸 도면.
도 7은 각각 cfDNA 길이 모수의 상이한 선택 하에서 개시된 방법의 성능 및 기준선 방법의 성능을 나타낸 도면.
도 8은 또 다른 포맷에서 일부 구현예의 분석 정확도를 나타낸 도면.
도 9는 일부 구현예에 대한 정량 한계(limit of quantification: LOQ)를 결정하기 위한 16개의 조건의 분산 계수(coefficient of variance: CV)를 나타낸 도면.
정의
달리 제시되지 않는 한, 본 명세서에 개시된 방법 및 시스템의 실시는 관련 기술 분야에 속하는 분자 생물학, 미생물학, 단백질 정제학, 단백질 엔지니어링, 단백질 및 DNA 서열분석학, 및 재조합 DNA 분야에서 일반적으로 사용되는 종래의 기술 및 장치를 포함한다. 이러한 기술 및 장치는 당업자에게 공지되어 있고, 다수의 문헌 및 참고 문헌에 기재되어 있다(문헌[Sambrook et al., "Molecular Cloning: A Laboratory Manual", Third Edition (Cold Spring Harbor), [2001]); 및 Ausubel et al., "Current Protocols in Molecular Biology" [1987]] 참고).
수치 범위는 그 범위를 정의하는 수를 포함한다. 본 명세서 전체에 제공된 모든 최대 수치 한계치는, 이러한 수치 하한이 본 명세서에 명백하게 기재된 바와 같이, 모든 수치 하한을 포함하도록 의도된다. 본 명세서 전체에 제공된 모든 최소 수치 한계치는, 이러한 수치 상한이 본 명세서에 명백하게 기재된 바와 같이, 모든 수치 상한을 포함할 것이다. 본 명세서 전체에 제공된 모든 수치 범위는, 이러한 더 좁은 범가 본 명세서에 모두 명확하게 기재된 바와 같이, 이러한 더 넓은 범위에 속하는 모든 더 좁은 수치 범위를 포함할 것이다.
본 명세서에 제공된 제목은 본 개시내용을 제한하는 것으로 의도되지 않는다.
본 명세서에 달리 정의되지 않는 한, 본 명세서에서 사용된 모든 기술 용어 및 과학 용어는 당업자에 의해서 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본 명세서에 포함된 용어를 포함하는 다양한 과학 사전은 널리 공지되어 있고, 당업자에게 입수 가능하다. 본 명세서에 기재된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 명세서에 개시된 실시형태의 실시 또는 시험에서 사용되지만, 일부 방법 및 물질이 기술된다.
바로 아래에 정의된 용어는 전체로서 본 명세서에 대한 참고로 보다 완전히 기재된다. 본 개시내용은 기재된 특정 방법, 프로토콜 및 시약에 제한되지 않는데, 그 이유는 이것은 당업자에 의해서 사용되는 내용에 따라서 달라질 수 있기 때문이다. 본 명세서에 사용되는 바와 같이, 단수 용어는 그 문맥이 달리 명백하게 제시하지 않는 한 복수 대상을 포함한다.
달리 제시되지 않는 한, 각각 핵산은 5'에서 3' 배향으로 좌에서 우로 표기되며, 아미노산 서열은 아미노에서 카복시 배향으로 좌에서 우로 표기된다.
용어 "키메리즘 샘플"은 2개 이상의 게놈의 DNA를 함유한다고 여겨지는 샘플을 지칭하기 위해서 본 명세서에서 사용된다. 키메리즘 분석은 키메리즘 샘플의 생물학적 및 화학적 처리 및 키메라 샘플에서 2개 이상의 유기체의 핵산의 정량을 지칭하도록 본 명세서에서 사용된다. 일부 구현예에서, 키메리즘 분석은 또한 2개 이상의 유기체의 게놈의 서열 정보 중 일부 또는 전부를 결정한다.
용어 공여자 DNA(dDNA)는 이식 공여자의 세포로부터 기원한 DNA 분자를 지칭한다. 각종 구현예에서, dDNA는 공여자로부터 이식된 조직/기관을 제공받은 수증자로부터 수득된 샘플에서 발견된다.
순환 세포-유리 DNA 또는 단순 세포-유리 DNA(cfDNA)는 세포 내에 국한되지 않은 DNA 단편이며, 혈류 또는 다른 체액에서 자유롭게 순환한다. cfDNA는 상이한 기원을 갖고, 일부 경우에는 수증자의 혈액에서 순환하는 공여자 조직 DNA으로부터 기원하고, 일부 경우에는 종양 세포 또는 종양 발생 세포로부터 기원하고, 다른 경우에는 모계 혈액에서 순환하는 태아 DNA로부터 기원한다고 공지되어 있다. 일반적으로, cfDNA는 단편화되고, cfDNA가 획득된 개체의 게놈과 상이할 수 있는 게놈 중 소량 만을 포함한다.
용어 비순환 게놈 DNA(gDNA) 또는 세포 DNA는 세포에 국한되고, 종종 완전 게놈을 포함하는 DNA 분자를 지칭하기 위해서 사용된다.
용어 "대립유전자 계수치"는 특정 대립유전자의 서열 판독물의 계수치 또는 수를 지칭한다. 일부 구현예에서, 그것은 판독물을 기준 게놈 내의 위치에 맵핑하고, 대립유전자 서열을 포함하고 기준 게놈에 맵핑된 판독물을 계수함으로써 결정될 수 있다.
베타 분포는 예를 들어, 확률 변수(random variable)의 지수로서 나타나고, 분포의 형상을 제어하는 α 및 β로 나타낸, 2개의 양형(positive shape) 모수에 의해서 모수화된 구간 [0, 1]에 대해서 정의된 연속 확률 분포의 패밀리이다. 베타 분포는 광범위한 분야에서 유한 길이의 구간에 제한된 확률 변수의 거동을 모델링하는데 적용되어 왔다. 베이지안 추론에서, 베타 분포는 베르누이 분포(Bernoulli distribution), 이항 분포(binomial distribution), 음이항 분포(negative binomial distribution) 및 기하 분포(geometric distribution)에 대한 컨주게이트 선험적 확률 분포이다. 예를 들어, 베타 분포를 베이지안 분석에서 사용하여 성공 확률에 관한 초기 지식을 기술할 수 있다. 확률 변수 X가 베타 분포를 따르는 경우, 확률 변수 XX ~ 베타(α, β)라고 기재된다.
이항 분포는 일련의 n개의 독립적인 실험에서 성공의 수의 이산 확률 분포인데, 이들은 각각 예-아니오 질문을 묻고, 각각 그 자신의 불방식(Boolean)-평가의 결과: 정보의 단일 비트: 양(확률 p를 가짐) 또는 음(확률 q = 1 - p를 가짐)를 함유하는 확률 변수를 갖는다. 단일 시험의 경우, 즉, n = 1인 경우, 이항 분포는 베르누이 분포이다. 이항 분포는 크기 N의 집단으로부터의 교체되어 제거되는 크기 n의 샘플에서 성공의 수를 모델링하기 위해서 빈번하게 사용된다. 확률 변수 X가 모수 
Figure 112019132469795-pct00034
및 
Figure 112019132469795-pct00035
을 갖는 이항 분포를 따르는 경우, 확률 변수 XX ~ B(n, p)라고 기재된다. 
본 명세서에서 Pois()로 표현되는 포아송 분포(Poisson distribution)는, 이러한 사건이 마지막 사건 이례로 시간과 독립적으로 공지된 평균율로 일어나는 경우, 시간 및/또는 공간의 고정된 구간에서 일어나는 주어진 사건의 수의 확률을 나타내는 이산 확률 분포이다. 포아송 분포는 또한 다른 명시된 구간, 예컨대, 거리, 면적 또는 부피에서의 사건의 수에 대해서 사용될 수 있다. 포아송 분포에 따른 구간에서 k 사건을 관찰할 확률은 하기 식으로 제공된다:
Figure 112019132469795-pct00036
식 중, λ는 구간에서의 사건의 평균 수 또는 비율 모수(rate parameter)라고도 불리는 사건율이고, e는 2.71828, 오일러의 수(Euler's number) 또는 자연 로그의 밑의 값이고, k는 값 0, 1, 2, ...를 취하고, k!k의 계승(factorial)이다.
감마 분포는 연속 확률 분포의 2-모수 패밀리이다. 일반적으로 사용되는 3개의 상이한 모수화가 존재한다: 형상 모수 k 및 척도 모수 θ를 가짐; 형상 모수 α = k 및 비율 모수라고 지칭되는 역척도 모수(inverse scale parameter) β = 1/θ를 가짐; 또는 형상 모수 k 및 평균 모수 μ = k/β를 가짐. 이러한 3개의 형태 각각에서, 두 모수 모두는 양의 실수이다. 감마 분포는 E[X] = kθ = α/β가 정해지고, 0보다 크고, E[ln(X)] = Ψ(k) + ln(θ) = Ψ(α) - ln(β)(Ψ는 디감마 함수임)가 정해진 경우 확률 변수 X에 대한 최대 엔트로피 확률 분포이다.
다형성 및 유전적 다형성은, 각각 적용 가능한 빈도로, 하나의 게놈 유전자에서 2개 이상의 대립유전자의 동일한 집단에서의 발생을 지칭하도록 본 명세서에 상호 교환 가능하게 사용된다.
다형 부위(polymorphism site) 및 다형성 부위는 2개 이상의 대립유전자가 존재하는 게놈 상의 유전자좌를 지칭하도록 본 명세서에서 상호 교환 가능하게 사용된다. 일부 구현예에서, 그것은 상이한 연기의 2개의 대립유전자를 갖는 단일 뉴클레오타이드 변화를 지칭하도록 사용된다.
대립유전자 빈도 또는 유전자 빈도는 분율 또는 백분율로서 표현될 수 있는, 유전자의 다른 대립유전자에 대한 유전자(또는 유전자의 변이체)의 대립유전자의 빈도이다. 대립유전자 빈도는 보통 특정 게놈 유전자좌와 연관되는데, 그 이유는 유전자가 보통 하나 이상의 유전자좌에 위치되기 때문이다. 그러나, 대립유전자 빈도는 본 명세서에 사용되는 바와 같이 DNA 단편의 크기-기반 빈(bin)과도 연관될 수 있다. 이러한 의미에서, DNA 단편, 예컨대, cfDNA 함유 대립유전자는 상이한 크기-기반 빈에 배정된다. 다른 대립유전자의 빈도에 대한 크기-기반 빈에서의 대립유전자의 빈도가 대립유전자 빈도이다.
용어 "모수"는 본 명세서에서 값 또는 다른 특징이 관련 조건, 예컨대, 샘플 또는 DNA 단편에 영향을 갖는 시스템의 특성, 예컨대, 물리적 특징을 특징규명하는 수치 값을 지칭한다. 일부 경우에, 용어 모수는 수학적 관계식 또는 모델의 산출값에 영향을 미치는 변수와 관련하여 사용되며, 이러한 변수는 독립 변수(즉, 모델에 대한 입력값) 또는 하나 이상의 독립 변수를 기초로 하는 중간 변수일 수 있다. 모델의 범주에 따라서, 하나의 모델의 출력값이 또 다른 모델의 입력값이 될 수 있기 때문에, 이것은 다른 모델에 대한 모수가 될 수 있다.
용어 "복수"는 하나 초과의 요소를 지칭한다.
용어 "페어드 엔드 판독물(paired end read)"은 핵산 단편의 각각의 단부로부터 하나의 판독물을 획득하는 페어드 엔드 서열분석으로부터의 판독물을 지칭한다. 페어드 엔드 서열분석은 폴리뉴클레오타이드의 가닥을 삽입물이라고 지칭되는 짧은 서열로 단편화하는 것을 포함할 수 있다. 단편화는 비교적 짧은 폴리뉴클레오타이드, 예컨대, 세포 유리 DNA 분자의 경우에는 선택적이거나 또는 불필요하다.
용어 "폴리뉴클레오타이드", "핵산" 및 "핵산 분자"는 상호 교환 가능하게사용되고, 하나의 뉴클레오타이드의 펜토스의 3' 위치가 다음의 펜토스의 5' 위치에 포스포다이에스터에 의해서 결합되는 뉴클레오타이드(즉, RNA의 경우 리보뉴클레오타이드 및 DNA의 경우 데옥시리보뉴클레오타이드)의 공유 결합된 서열을 지칭한다. 뉴클레오타이드는 RNA 및 DNA 분자, 예컨대, cfDNA 또는 세포 DNA 분자를 포함하지만 이들로 제한되지 않는 핵산의 임의의 형태의 서열을 포함한다. 용어 "폴리뉴클레오타이드"는 비제한적으로, 단일 가닥 및 이중 가닥 폴리뉴클레오타이드를 포함한다.
용어 "시험 샘플"은 본 명세서에서 전형적으로, 핵산 또는 핵산의 혼합물을 포함하는, 생물학적 유체, 세포, 조직, 기관, 또는 유기체로부터 유래된 샘플을 지칭한다. 이러한 샘플은 가래/타액, 양막 유체, 혈액, 혈액 분획, 또는 미세 바늘 생검 샘플(예를 들어, 수술 생검, 미세 바늘 생검 등), 소변, 복막액, 늑막액 등을 포함하지만 이들로 제한되지 않는다. 샘플은 보통 인간 대상체(예컨대, 환자)로부터 취해지지만, 분석은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이들로 제한되지 않는 임의의 포유동물로부터의 샘플에서 사용될 수 있다. 샘플은 생물학적 공급원으로부터 획득된 그대로 직접 또는 샘플의 특징을 변형하기 위한 전처리 후에 사용될 수 있다. 예를 들어, 그러한 전처리는 혈액, 희석 점성 유체 등으로부터 혈장을 제조하는 것을 포함할 수 있다. 전처리 방법은 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 냉동, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 비활성화, 시약의 첨가, 용해 등을 포함할 수 있지만 이들로 제한되지 않는다. 이러한 전처리 방법이 샘플과 관련하여 사용되는 경우, 이러한 전처리 방법은 전형적으로 관심대상 핵산(들)이 때때로 미처리 시험 샘플 중의 농도에 비례하는 농도로 시험 샘플에 잔류하도록 한다(예를 들어, 즉, 임의의 이러한 전처리 방법(들)이 수행되지 않은 샘플). 이러한 "처리된" 또는 "가공된" 샘플은 여전히 본 명세서에 기술된 방법과 관련하여 생물학적 "시험" 샘플인 것으로 간주된다.
용어 "차세대 서열분석(NGS)"은 본 명세서에서 클론적으로 증폭된 분자 및 단일 핵산 분자의 대량 병렬 서열분석을 허용하는 서열분석 방법을 나타낸다. NGS의 비제한적 예는 가역적 염료 종결인자를 사용하는 합성에 의한 서열분석 및 결찰에 의한 서열분석을 포함한다.
용어 "판독물"은 핵산 샘플의 일부로부터 획득된 서열을 지칭한다. 전형적으로, 반드시 그러한 것은 아니지만, 판독물은 샘플 중의 연속적인 염기쌍의 짧은 서열을 나타낸다. 판독물은 샘플 부분의 (A, T, C 또는 G에서) 염기쌍 서열에 의해서 기호로 표시될 수 있다. 그것은 메모리 디바이스에 저장될 수 있고, 기준 서열에 매칭하는지 또는 다른 기준을 충족하는지를 측정하기 위해서 적절하게 처리될 수 있다. 판독물은 서열분석 장치로부터 직접적으로 또는 샘플과 관련하여 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우에, 판독물은 더 큰 서열 또는 영역을 확인하기 위해 사용될 수 있는, 예를 들어, 염색체 또는 게놈 영역 또는 유전자에 대해 정렬되고, 특이적으로 배정될 수 있는 충분한 길이(예를 들어, 적어도 약 25bp)의 DNA 서열이다.
용어 "게놈 판독물"은 개체의 전체 게놈에서 임의의 단편의 판독물을 참고로 사용된다.
본 명세서에 사용되는 바와 같이, 용어 "정렬된", "정렬", 또는 "정렬하는"은 판독물 또는 태그(tag)를 기준 서열과 비교함으로써, 기준 서열이 판독물 서열을 함유하는지의 여부를 결정하는 공정을 지칭한다. 기준 서열이 판독물을 함유하는 경우, 판독물은 기준 서열에, 또는 특정 실시형태에서는, 기준 서열 내의 특정 위치에 맵핑될 수 있다. 일부 경우에, 정렬은 단순히 판독물이 특정 기준 서열의 구성원인지 아닌지(즉, 판독물이 기준 서열에 존재하는지 또는 부재하는지)를 알려준다. 예를 들어, 인간 염색체 13의 경우 기준 서열에 대한 판독물의 정렬은 염색체 13에 대한 기준 서열에 판독물이 존재하는지의 여부를 알려줄 것이다. 이러한 정보를 제공하는 툴은 세트 멤버십 시험기(set membership tester)라고 지칭될 수 있다. 일부 경우에, 정렬은 판독물 또는 태그가 맵핑되는 기준 서열 내의 위치를 추가로 나타낸다. 예를 들어, 기준 서열이 전체 인간 게놈 서열인 경우, 정렬은 판독물이 염색체 13 상에 존재한다는 것을 나타낼 수 있고, 판독물이 염색체 13의 특정 가닥 및/또는 부위 상에 존재한다는 것을 추가로 나타낼 수 있다.
정렬된 판독물 또는 태그는 기준 게놈으로부터의 공지된 서열에 대한 핵산 분자의 순서와 관련하여 매치로서 식별된 하나 이상의 서열이다. 정렬은 수동으로 수행될 수 있지만, 컴퓨터 프로그램에 의해서 전형적으로 구현되는데, 그 이유는 본 명세서에 개시된 방법을 구현하기 위해서 타당한 시간 기간 내에 판독물을 정렬하는 것이 불가능할 것이기 때문이다. 서열을 정렬하는 것으로부터의 프로그램의 일례는 일루미나 제노믹스 분석(Illumina Genomics Analysis) 파이프라인의 부분으로서 배포된 뉴클레오타이드 데이터의 효율적인 국지 정렬(Efficient Local Alignment of Nucleotide Data: ELAND) 컴퓨터 프로그램이다. 대안적으로, 블룸(Bloom) 필터 또는 유사한 멤버십 시험기가 판독물을 기준 게놈에 대해서 정렬시키기 위해서 사용될 수 있다(2011년 10월 27일자로 출원된 미국 특허 출원 제61/552,374호(전체 내용이 참조로 본 명세서에 포함됨) 참조). 정렬 시에 서열 판독물의 매칭은 100% 서열 매치이거나 100% 미만(즉 완벽하지 않은 매치)일 수 있다.
용어 "맵핑"은 본 명세서에서 정렬 또는 멤버십 정렬을 사용하여 더 큰 서열, 예를 들어, 더 큰 서열의 하위서열인 기준 게놈에 대해서 서열 판독물을 특별하게 정렬시키는 것을 지칭한다.
본 명세서에 사용되는 바와 같이, 용어 "기준 게놈" 또는 "기준 서열"은 그것이 부분적이든 완전한 것이든, 대상체로부터의 식별된 서열을 참조하기 위해 사용될 수 있는 임의의 유기체 또는 바이러스의 임의의 특별한 공지된 게놈 서열을 지칭한다. 예를 들어, 많은 다른 유기체뿐 아니라 인간 대상체에 대해 사용된 기준 게놈은 ncbi.nlm.nih.gov의 국립 생명공학 정보 센터(National Center for Biotechnology Information)에서 찾아볼 수 있다. "게놈"은 핵산 서열에서 발현된, 유기체 또는 바이러스의 완전한 유전자 정보를 지칭한다.
각종 실시형태에서, 기준 서열은 그것에 대해서 배열되는 판독물보다 상당히 더 크다. 예를 들어, 그것은 적어도 약 100배 더 크거나, 또는 적어도 약 1000배 더 크거나, 또는 적어도 약 10,000배 더 크거나, 또는 적어도 약 105배 더 크거나, 또는 적어도 약 106배 더 크거나, 또는 적어도 약 107배 더 크다.
일례에서, 기준 서열은 전장 인간 게놈의 서열이다. 이러한 서열은 게놈 기준 서열이라고 지칭될 수 있다. 또 다른 예에서, 기준 서열은 염색체 13과 같은 특정 인간 염색체로 한정된다. 일부 실시형태에서, 기준 Y 염색체는 인간 게놈 버전 hg19로부터의 Y 염색체 서열이다. 이러한 서열은 염색체 기준 서열로서 지칭될 수 있다. 기준 서열의 다른 예는 다른 종의 게놈뿐만 아니라 임의의 종의 염색체, 하위-염색체 영역(예컨대, 가닥) 등을 포함한다.
각종 실시형태에서, 기준 서열은 공통 서열 또는 다수의 개체로부터 유래된 다른 조합물이다. 그러나, 특정 응용에서, 기준 서열은 특정 개체로부터 제공될 수 있다.
용어 "유래된"은 핵산 또는 핵산의 혼합물의 맥락에서 사용되는 경우, 본 명세서에서 핵산(들)이 그것이 기원하는 공급원으로부터 획득되는 수단을 지칭한다. 예를 들어, 일 실시형태에서, 2개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산, 예를 들어, cfDNA가 괴사 또는 아포토시스와 같은 자연 q발생 과정을 통해 세포에 의해 자연적으로 방출되었음을 의미한다. 또 다른 실시형태에서, 2개의 상이한 게놈으로부터 유래된 핵산의 혼합물은 핵산이 대상체로부터의 2종의 상이한 유형의 세포로부터 추출되었음을 의미한다. 예를 들어, 핵산의 혼합물은 공여자 세포로부터 기원한 핵산 및 기관 이식 대상체로부터 획득된 수증자 세포를 포함한다. 일부 구현예에서, 핵산의 혼합물은 2명 이상의 기여자 개체의 생물학적 물질을 포함한다. 예를 들어, 2개 이상의 개체의 생물학적 물질을 포함하는 법의학적 샘플은 2개 이상의 개체의 DNA를 포함한다.
용어 "을 기초로 하는"은 특정 정량값을 획득하는 맥락에서 사용되는 경우, 본 명세서에 특정 정량값을 출력값으로서 계산하기 위해서 입력값으로서 또 다른 정량을 사용하는 것을 지칭한다.
용어 "생물학적 유체"는 본 명세서에서 생물학적 공급원으로부터 취해진 액체를 지칭하고, 예를 들어, 혈액, 혈청, 혈장, 가래, 세척 유체, 뇌척수액, 소변, 정액, 땀, 눈물, 침 등을 포함한다. 본 명세서에서 사용되는 바와 같이 용어 "혈액", "혈장" 및 "혈청"은 명확하게 부분 또는 이의 가공된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 채취되는 경우, "샘플"은 명확하게 가공된 부분 또는 생검, 면봉, 얼룩 등으로부터 유래된 부분을 포함한다.
본 명세서에 사용되는 바와 같이, 용어 "에 상응하는"은 때때로 상이한 대상체의 게놈에 존재하는 핵산 서열, 예를 들어, 유전자 또는 염색체를 지칭하고, 이것은 모든 게놈에서 동일한 서열을 필수적으로 갖는 것은 아니지만, 관심대상 서열, 예를 들어, 유전자 또는 염색체의 유전적 정보라기보다는 아이덴티티를 제공하는 역할을 한다.
용어 "기여자"는 본 명세서에서 인간 기여자뿐만 아니라 비-인간 기여자, 예컨대, 포유동물, 무척추동물, 척추동물, 진균, 효모, 박테리아 및 바이러스를 지칭한다. 본 명세서에서 실시예는 인간을 고려하고, 그 내용은 주로 인간 관심에 관한 것이지만, 본 명세서에 개시된 개념은 임의의 식물 또는 동물로부터의 게놈에 적용될 수 있고, 수의학 의약, 동물 과학, 연구 실험 등의 분야에 유용하다.
용어 "감도"는 본 명세서에 사용되는 바와 같이 관심대상 조건이 존재하는 경우 시험 결과가 양성일 확률을 지칭한다. 그것은 진 양성과 위 양성의 총합으로 나눈 진 양성의 수로서 계산될 수 있다.
용어 "특이성"는 본 명세서에 사용되는 바와 같이 관심대상 조건이 존재하지 않는 경우 시험 결과가 음성일 확률을 지칭한다. 그것은 진 음성과 위 음성의 총합으로 나눈 진 음성의 수로서 계산될 수 있다.
용어 "프라이머"는, 본 명세서에 사용되는 바와 같이 연장 생성물의 합성에 귀납적인 조건(예를 들어, 조건은 뉴클레오타이드, 유도제, 예컨대, DNA 폴리머라제, 및 적합한 온도 및 pH를 포함함) 하에 놓이는 경우 합성의 개시 지점으로서 작용할 수 있는 단리된 올리고뉴클레오타이드를 지칭한다. 프라이머는 바람직하게는 증폭의 최대 효율을 위해 단일 가닥일 수 있지만, 대안적으로는 이중 가닥일 수 있다. 이중 가닥인 경우, 프라이머는 연장 생성물을 제조하기 위해서 사용되기 이전에 이의 가닥을 분리하기 위해서 먼저 처리된다. 바람직하게는, 프라이머는 올리고데옥시리보뉴클레오타이드이다. 프라이머는 유도제의 존재 하에서 연장 생성물의 합성을 프라이밍시키기에 충분히 길어야 한다. 프라이머의 실제 길이는 온도, 프라이머의 공급원, 방법의 사용 및 프라이머 설계에 사용된 모수를 비롯한 다수의 인자에 좌우될 것이다.
도입부
본 개시내용은 다양한 이점 및 기술적 개선을 제공하는, 미지의 유전자형의 2명 이상의 기여자의 핵산을 포함하는 핵산 혼합물 샘플의 정량 및 데콘볼루션을 위한 방법 및 시스템을 제공한다. 예를 들어, 일부 구현예는 기여자의 유전자형을 모르는 혼합물에서 기여자 DNA를 정량하기 위해서 확률적 혼합 모델링, 베이지안 추론 기술, 및 수치 최적화 방법을 적용한다.
밀접하게 관련된 게놈의 핵산(예를 들어, DNA 또는 RNA) 혼합물로부터의 서열분석 데이터는 연구뿐만 아니라 임상 환경에서 빈번하게 발견되며, 혼합 기여자를 정량하는 것은 본래 게놈이 미지인 경우에는 도전이었다.
(단지 골수 및 혈액 줄기세포 이식 만의 경우에) 키메리즘 분석의 종래의 방법은 모세관 전기영동법(CE) 단편 분석 또는 짧은 텐덤 반복부(short tandem repeat: STR) 또는 작은 삽입부 또는 결실부(Indel)의 정량적 폴리머라제 연쇄 반응(qPCR) 분석을 사용한다. 이러한 방법은 정량, 동적 범위 또는 재현성의 불량한 한계치를 갖는 경향이 있다. 이것은 분석을 위한 제한된 수의 표적, 복잡된 작업흐름, 및 시간 소모적이고 부정확한 수동 입력을 갖는다. 종래의 방법은 이러한 상이한 매트릭스 중의 것을 포함하는 경향이 있다. CE 접근법은 1% 내지 5%의 범위의 LOQ를 갖고, 낮은 재현성을 갖는다. 이러한 한계는 임상 사용에서 중요할 수 있다. 예를 들어, 99%의 실제 키메리즘 결과가 100%로서 보고될 것이다. qPCR 접근법은 0.1%의 낮은 LOQ를 달성할 수 있지만, 순수한 기준선 샘플에 대해서 요구되는 DNA를 고려하지 않으면서 66ng 이상의 키메리즘 DNA를 필요로 한다. 66ng 또는 10ng 중 어느 것도 실질 기관 이식을 위한 일상적인 cfDNA 분석에 대해서 가능하지 않다. 또한, qPCR-기반 키메리즘의 동적 범위는 더 나빠지며, 부수적인(minor) 기여자가 30%를 초과하는 경우 키메리즘 예측은 실현 가능하지 않다.
높은 입력 DNA 요건을 고려할 때, CE 및 qPCR 접근법은 골수 또는 혈액 줄기세포 이식에만 적용 가능하다. 두 접근법 모두는 전형적인 채혈로부터의 cfDNA 양이 10ng보다 훨씬 적은 실질 기관 이식 모니터링을 위해서 적절하지 않다. 또한, 동일한 양에서조차, cfDNA는 PCR 주형으로서 gDNA만큼 효과적이지 않다.
높은 DNA 입력 요건뿐만 아니라, CE 및 qPCR 접근법 둘 다는 순수한 이식전 기준선 샘플이 입수 가능한 것이 필요하다. 이것은 또한 복잡한 검정과 연관되고, 정량 이전에 적절한 마커를 선택하는 데 있어서 수동 중재가 필요하다.
이것에 더하여, 본 발명자들의 방법이 시스템적으로 다루지만, 기존의 방법은 적절하지 않은, 키메리즘 정량에의 2가지의 기본적인 도전이 존재한다.
제1 도전은, 1명을 초과하는 공여자를 갖는 이식에 상응하는, 2명을 초과하는 기여자를 갖는 키메리즘 샘플을 정량하는 것이다. 다중-공여자 이식은 골수 및 혈액 줄기세포 이식의 경우에 일반적이다. 그것은 또한 실질 기관 이식에서 일어나며, 예를 들어, 이전 신장 이식의 실패 이후의 제2 신장 이식의 경우, 또는 실질 기관 이식이 또 다른 공여자로부터의 혈액 수혈과 동시에 일어나는 경우에 일어난다.
제2 도전은, 기여자 중 1명이 미지인 경우 키메리즘 샘플을 정량하는 것이다. 이것은 임상 설정에서 빈번하게 일어나며, 예를 들어, 1) 공여자 게놈이 입수 가능하지 않은 경우, 2) 다중-공여자 사례에서의 경우, 늙은 기관의 공여자 게놈이 입수 가능하지 않은 경우, 또는 3) 실질 기관 이식 수용자가 또한 미지의 공여자로부터의 혈액 수혈을 제공받은 경우에 빈번하게 일어난다.
종래의 방법은 이러한 도전을 다루었지만, 본 명세서에 개시된 방법은 미지의 공여자가 존재하는 경우 키메리즘 샘플을 정확하게 정량할 수 있다. 단지 1명의 공여자가 존재하는 경우, 공여자 게놈도 그리고 수용자 게놈도 개시된 방법을 사용할 필요가 없다. 추가로, 개시된 방법은 임의적인 수의 공여자를 사용하여 수행될 수 있다. 일부 경험적 연구는 4명의 공여자에 대한 개시된 방법의 수행을 입증하였고, 10ng의 총 gDNA 입력물에서 0.35% 미만의 LOQ를 달성하였다.
일부 구현예에서, 개시된 방법은 3ng만큼 적은 cfDNA 입력물을 사용하여 0.1% 내지 0.2%의 LOQ를 달성하며, 0.1% 내지 99.9%의 넓은 동적 범위를 달성한다. 일부 구현예는 기준선 게놈을 알고 있을 필요가 없지만, 기준선을 알고 있는 것은 성능을 개선시킬 수 있다. 개시된 방법은 임의적인 수의 공여자의 키메리즘 샘플과 함께 수행될 수 있고, 0 내지 4명의 공여자를 갖는 샘플에 대해서 실험적으로 입증되었는데, 이것은 실질 기관 이식, 골수 이식 및 조혈 줄기세포 이식에 대한 거의 모든 임상적으로 관련된 사례를 포함한다. 또한, 개시된 방법은 유전적 마커의 선택 시에 임의의 수동 중재를 필요로 하지 않아서, 핵산의 정량의 디지털화 및 자동화를 가능하게 한다.
일부 구현예는 혈액 cfDNA 또는 gDNA 샘플의 다중-마커 표적화-재서열분석 데이터로부터 기여자 DNA를 정량하기 위한 방법 및 시스템을 제공한다. 일부 구현예는 신규 확률적 모델 및 수치 최적화 방법을 사용하여 혈액 cfDNA 또는 gDNA 샘플의 다중-마커 표적화-재서열분석 데이터로부터 기여자 DNA를 정량하기 위한 방법 및 시스템을 제공한다. 일부 구현예는 유전적-관계를 암호화하는 사전 분포와 함께 베이지안 모델링을 사용하여 미지의 유전자형의 유전자적으로 관련된 공여자 및 수용자에 대한 기여자 DNA를 정량하는 방법 및 시스템을 제공한다. 유전적-관계 정보를 사용하여 베이지안 프레임워크에서 선험적 정보를 제공함으로써, DNA 혼합물의 정량은 유전적-관계 정보를 사용하지 않는 방법에 비해서 개선될 수 있다.
일부 구현예는 로그-우도 함수의 추정된 헤시안 행렬로부터 크래머 라오 경계(Cramer-Rao bound)를 수치적으로 컴퓨터 계산함으로써 DNA 정량의 신뢰 구간을 추정하기 위한 방법 및 시스템을 제공한다.
짧은 서열분석 판독물 맵핑에서 대립유전자 편향은 DNA 정량을 혼동스럽게 한다. 일부 구현예에서, 본 발명자들은, 변이체 부위에 걸친 판독물의 불편 맵핑 전략을 통해서 혼동스러운 효과를 감소시킨다.
본 명세서에 기재된 구현예는, 기여자 게놈에 대한 유전자형을 완전히 모르는 경우에도 기여자 DNA 분율을 정확하게 추정할 수 있다. PCR 증폭 후 마커 부위의 대립유전자 분율은 베타-분포로 신뢰할 수 있게 모델링될 수 있다.
기준 대립유전자 및 대안적인 대립유전자 둘 다를 함유하는 불편 기준 DNA 서열 데이터베이스를 사용함으로써, 기준 대립유전자에 대한 판독물 맵핑 편향을 제거할 수 있고, 변이체 부위에서 대립유전자 계수치 및 서열분석 오류를 신뢰할 수 있게 예측할 수 있다.
본 명세서에 기재된 구현예는 혼합물 DNA 샘플의 단일 서열분석 실시로 예측된 기여자 DNA 분율의 신뢰 구간을 추정할 수 있다.
공식적으로, 기여자 DNA 정량(contributor DNA quantification: CDQ)의 문제는 하기와 같이 언급된다: 1명 이상의 기여자로 구성된 DNA 샘플의 서열분석 데이터를 고려하여, 샘플 중의 각각의 기여자의 분율을 결정함. 기여자 게놈의 유전자형이 미지인 경우, CDQ 문제는 맹검 기여자 DNA 정량(맹검-CDQ)이라고 지칭되며; 그 반대는 비-맹검-CDQ라고 지칭된다. 일부 구현예에 관한 일부 설명은 공여자로서의 2명의 기여자 및 수용자를 지칭하지만, 그것은 방법의 응용을 기관 공여 설정으로 제한하지 않는다. 일부 구현예에 관련된 이하의 일부 설명에서, 기여자는 공여자와 동일하고, 나머지 기여자는 수증자와 동일하다.
맹검-CDQ는 비-맹검 CDQ에 비해서 더 어려운 문제이지만, 그것은 모든 시나리오에 대한 더 넓은 응용을 갖는데, 여기서는 혼합물 샘플의 단지 단일 서열분석 실험이 달성되지만, 비-맹검-CDQ는 기여자(예를 들어, 기관 공여자 및 수용자)의 유전자형을 결정하기 위해서 선험적 서열분석 실험을 필요로 한다.
본 문헌에 기재된 컴퓨팅 방법은 단일, 2명 또는 다수의 기여자를 갖는 맹검-CDQ 및 비-맹검-CDQ 문제 둘 모두를 다룬다.
도 1A 내지 도 1C는 기여자 DNA 정량을 위해서 설계된 방법 및 통계학적 모델의 개요를 나타낸다. 도 1A는 서열분석 기반 동종이계 DNA 검출에 대한 실험 파이프라인을 나타낸다. 도 1B는 대립유전자 계수에 대한 불편 판독물 맵핑 작업흐름을 나타낸다. 도 1C는 마커 유전자좌당 대립유전자 계수치에 대한 계층적, 확률적 혼합 모델을 나타낸다.
일부 구현예는 도 1A에 도시된 바와 같은 실험 파이프라인을 적용한다. 이러한 포괄적인 실험 파이프라인은 하기 단계를 갖는다.
1) 다중 유전적 기원으로부터의 DNA를 함유하는 혈액 또는 다른 유형의 샘플을 획득함.
2) 응용에 따라서, 적절한 유형의 DNA, 예를 들어, 세포 DNA(gDNA라고도 지칭됨) 또는 세포 유리 DNA(cfDNA)를 추출함.
3) 게놈의 특이적 변이체 부위 또는 다형 부위를 접근법, 예컨대, PCR 증폭 또는 혼성화에 의해서 표적화 및 풍부화함. 변이체 부위는 인간(또는 또 다른 관심대상 유기체)의 다양한 집단 중에서 가변적으로 선험적으로 선택된다. 대안적으로, 비표적화된(전체 게놈) 서열분석이 수행될 수 있고, 모든 변이체 부위가 포괄될 것이다.
4) DNA 샘플을 NGS 또는 다른 DNA 서열분석 기술, 예컨대, 하기에 기재된 것 중 일부에 의해서 서열분석하여 관심대상 변이체 부위를 포괄하는 서열분석 판독물을 수득함.
CDQ를 위한 컴퓨팅 방법은 3가지 주요 성분을 갖는다:
1) 대립유전자 계수: 각각의 표적 마커 부위에 대해서 각각의 대립유전자로부터의 서열분석 판독물의 불편 계수를 위한 해싱 및 동적 프로그래밍을 기초로 하는 컴퓨터 프로그램(도 1B), 및
2) 기여자 DNA 정량: 기여자 DNA 분율을 정량하기 위한, 계층적 확률적 모델 및 다중-반복 그리드 탐새 전략과 BFGS - 준뉴튼법의 신규 조합, 또는 일부 구현예에서 반복적인 가중 선형 회귀(도 1C).
3) 신뢰 구간(불확실) 결정: 정량된 혼합물 분율에 맞춰서, 분산은 정보 부등식을 기초로 하는 log 우도 함수의 헤시안 행렬을 기초로 결정됨.
키메리즘 정량에 대한 이러한 성분 전체는 인간 전체에 의해서 수동으로 실행되거나 또는 인간의 머리로 수행하는 것이 불가능하다. 인간은 컴퓨터를 필요로 하고, 이것은 컴퓨터-구현된 기술이다. 이러한 컴퓨팅 성분은 개시된 방법이 상당한 정량 감도, 동적 범위 및 재현성을 달성하는 것을 가능하게 한다. 이것은 또한 개시된 방법이 cfDNA 또는 gDNA, 3 내지 10ng 또는 그 초과의 입력 DNA, 0 내지 4명 또는 그 초과의 공여자, 및 기지 또는 미지의 게놈을 갖는 유전자적으로 관련되거나 관련되지 않은 공여자를 비롯한, 키메리즘 샘플의 다양한 세트를 신뢰할 수 있게 정량하는 것을 가능하게 한다.
일부 구현예는 본 명세서에서 "상대적 정량" 만을 다루지만, 이것은 구현예가 (질량 또는 카피 수의 면에서) 절대적 양이라기보다는, 기여자 공급원으로부터 유래된 DNA 샘플의 백분율 또는 분율을 추정하는 것을 의미한다. 입력 DNA의 총량이 측정되거나 공지된 경우, 추가 단계를 수행하여 상대 풍부도를 절대 풍부도로 전환시킬 수 있다.
핵산 샘플에서 기여자 분율을 정량하기 위한 공정의 개요
도 2a는 핵산 샘플에서 1명 이상의 기여자의 핵산(예를 들어, DNA 또는 RNA)의 하나 이상의 분율을 정량하기 위한 공정(200)을 나타내는 블록 다이어그램이다. 방법은 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템, 예컨대, 이하에 기재된 시스템 상에서 구현된다. 본 명세서에 설명은 일부 구현예 및 응용에서 DNA를 지칭하지만, 당업자는 핵산의 다른 형태가 또한 본 명세서에 기재된 구현예를 사용하여 분석될 수 있음을 인지한다. 본 명세서에 기재된 각종 구현예를 사용하여 1명 이상의 기여자로부터의 핵산을 함유하는 핵산 샘플을 분석할 수 있다. 일부 구현예에서, 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 방법 및 시스템이 제공된다. 본 명세서에서 일부 설명에서, 핵산 샘플은 혼합물 샘플이라고 지칭되는데, 그 이유는 샘플이 2명 이상의 기여자로부터의 핵산을 포함할 수 있기 때문이다. 그러나, 용어 "혼합물"의 사용은 샘플이 2명 이상의 기여자의 핵산을 포함할 가능성을 나타내고, 샘플이 단지 단일 기여자로부터의 핵산을 포함할 가능성을 배제하지 않는다는 것이 이해된다. 후자의 경우에, 1 또는 100%의 백분율(또는 오차 범위 이내의 값)의 분율이 하나의 기여자에 대해서 결정될 수 있다.
일부 구현예에서, 핵산 샘플의 1명 이상의 기여자는 이식 공여자 및 이식 수증자를 포함한다. 일부 구현예에서, 이식은 동종이계 또는 이종 이식을 포함한다. 일부 구현예에서, 핵산 샘플은 수증자로부터 획득된 생물학적 샘플이다. 일부 구현예에서, 핵산 샘플은 세포-유리 핵산을 포함한다. 일부 구현예에서, 샘플은 세포 DNA를 포함한다. 일부 구현예에서, 핵산 샘플은 0종, 1종 또는 그 초과의 오염물 게놈 및 하나의 관심대상 게놈으로부터의 핵산을 포함한다. 일부 구현예에서, 핵산 샘플은 일부 구현예에서 상이한 유전적 기원의 다수의 세포주의 혼합물일 수 있는 세포 배양물로부터 획득된 생물학적 샘플을 포함한다.
공정(200)은 본 명세서에 기재된 것과 같은 기술을 사용하여 핵산 샘플로부터 핵산 분자를 추출하는 단계를 포함한다. 블록(202)을 참고하기 바란다.
공정(200)은 추출된 핵산 분자를 증폭 또는 풍부화시키는 단계를 추가로 포함한다. 블록(204)을 참고하기 바란다. 다양한 증폭 또는 풍부화 기술, 예컨대, 본 명세서에 기재된 것이 사용될 수 있다. 일부 구현예에서, PCR을 사용하여 추출된 핵산 분자를 증폭시킨다. 일부 구현예에서, 증폭은 특이적 다형성을 표적으로 하며, 증폭은 또한 표적화된 풍부화로서 지칭된다. 다른 구현예에서, 전체 게놈 증폭을 수행할 수 있고, 특이적 다형 부위에 대한 대립유전자 데이터는 서열분석에 의해서 획득될 수 있다.
공정(200)은 또한 증폭 또는 풍부화된 핵산 분자를 핵산 서열분석기를 사용하여 서열분석하여 핵산 서열 판독물을 생성시키는 단계를 포함한다. 블록(206)을 참고하기 바란다. 다양한 서열분석 기술 및 디바이스가 하기에 추가로 기재되며, 이것은 작업(206)에 적용될 수 있다.
공정(200)은 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하는 단계를 추가로 포함한다. 일부 구현예에서, 정렬 기술을 사용하여 핵산 서열 판독물을 하나 이상의 다형성 유전자좌에 맵핑할 수 있다. 다른 구현예에서, 불편 맵핑 기술을 사용하여 핵산 서열 판독물을 다형성 유전자좌에 매칭할 수 있다. 블록(208)을 참고하기 바란다. 일부 구현예에서, 핵산 서열 판독물은 다형성 유전자좌에서의 특이적 대립유전자에 맵핑된다. 불편 맵핑 기술이 하기에 추가로 기재된다. 일부 구현예에서, 하나 이상의 다형성 유전자좌(또는 다형성 유전자좌)는 이대립인자성 유전자좌를 포함한다. 일부 구현예에서, 하나 이상의 다형성 유전자좌에서의 대립유전자는 단일 뉴클레오타이드 다형성(SNP) 대립유전자를 포함한다.
일부 구현예에서, 고유 분자 색인(unique molecular index: UMI)을 추출된 핵산 분자에 부착하는데, 이어서 이것은 증폭되고, 서열분석되고, 다형성 유전자좌 또는 대립유전자에 맵핑된다. 고유 분자 색인은 샘플 처리 및 분석 단계에서 일어날 수 있는 오류를 감소시키기 위한 메커니즘을 제공한다. 예를 들어, 동일한 고유 분자 색인(UMI)을 공유하는 상이한 판독물을 조합하거나 붕괴시켜 판독물이 유래된 서열을 결정하여, 증폭 및 서열분석 동안 일어난 오류를 효과적으로 제거할 수 있다.
공정(200)은 방법 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계를 추가로 포함한다. 블록(210)을 참고하기 바란다.
공정(200)은 또한 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 단계를 포함한다. 확률적 혼합 모델은 확률 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 상기 대립유전자 계수치를 모델링한다. 확률 분포는 핵산 서열 판독물에서의 오류 및 노이즈를 설명한다. 확률적 혼합 모델은 핵산 서열 판독물의 각각의 대립유전자 계수치를, 확률 분포로부터의 무작위 샘플로서 처리한다.
하기 식에서, 하기 기호가 사용된다.
d: 공여자에 대한 지표, d = 1, 2..., D, 여기서 D는 기여자의 총 수임. D는 임의의 자연수일 수 있다. 일부 구현예에서, D는 5 이하이다. 일부 구현예에서, D는 9 이하이다.
a: 대립유전자에 대한 지표. 일부 구현예에서, 대립유전자는 이대립인자성 SNP를 포함하고, a = 1 또는 2이다.
i: 마커 유전자좌에 대한 지표, i = 1 ... I, 여기서 I는 마커의 총 수, 예를 들어, 300이다.
g dai : 마커 i에 대한 기여자 d 대립유전자 유형 a의 유전자형. 그것은 이러한 기여자에서 이러한 유전자좌에 대해서 대립유전자 a의 카피의 수를 나타내는, 값 0, 1, 또는 2를 취한다.
n ai , n ai ', n ai ": 대립유전자 유형 a 및 마커 유전자좌 i의, 판독물, 증폭 후 DNA 분자, 및 증폭 전 DNA 분자의 카피.
n i , n i ', n i ": 마커 유전자좌 i에 대한, 판독물, 증폭 후 핵산 분자, 및 증폭 전 DNA 분자의 총 카피.
r ai : 대립유전자 유형 a 및 마커 유전자좌 i에 대한 판독물 계수치의 분율.
p ai : 주어진 마커 유전자좌 i에서의 대립유전자 유형 a의 판독물을 인지할 확률.
g dai , n ai , n ai ', n ai ", n i , n i ', n i ", r ai , 및 p ai 에 대해서, 구현예가 단일 유전자좌에 초점이 맞춰진 경우, 아래첨자 i는 때때로 생략됨을 주목하기 바란다.
β d : 혼합물 샘플에 기여한 기여자 d로 부터의 핵산의 분율.
λ: 서열분석 오류율.
볼드체 문자는 벡터 또는 행렬을 나타낸다:
g = [g d1i ] i = 1...I, d=1...D : 모든 기여자 및 모든 유전자좌에서 기준 대립유전자 계수치를 갖는 유전자형 행렬.
g i = [g d1i ] d=1...D : 모든 기여자 및 주어진 유전자좌 i에 대한 기준 대립유전자 계수치를 갖는 유전자형 벡터.
r = [r 1i ] i = 1...I : 모든 유전자좌에 대해서의 대립유전자 1 판독물의 분율을 갖는 대립유전자 분율 벡터
n = [n i ] i = 1...I : 모든 유전자좌에 대해서 판독물 계수치를 갖는 판독물 계수치 벡터.
p = [p 1i ] i = 1...I : 모든 유전자좌에 대해서 예측된 대립유전자 1 분율을 갖는 벡터.
β = d ] d = 1...D. : 핵산 샘플에 기여한 각각의 기여자의 상대적인 분율을 갖는 기여자 분율 벡터.
일부 구현예에서, 확률적 혼합 모델은 단일-유전자좌 우도 함수를 사용하여 단일 다형성 유전자좌에서 대립유전자 계수치를 모델링하고, 단일-유전자좌 우도 함수는 하기와 같이 표현될 수 있다:
M(n 1i , n 2i | p 1i , θ), 여기서 n 1i 는 유전자좌 i에서의 대립유전자 1의 대립유전자 계수치이고, n 2i 는 유전자좌 i에서의 대립유전자 2의 대립유전자 계수치이며, p 1i 는 유전자좌 i에서의 대립유전자 1의 예측된 분율이고, θ하나 이상의 모델 매개변수를 포함한다.
일부 구현예에서, p 1i 는, (i) 유전자좌 i에서의 기여자의 유전자형 또는 기여자 1...D에서 유전자좌 i에서의 대립유전자 1의 카피 수의 벡터인 g i = (g 11i , ..., g D1i ); (ii) 서열분석으로부터 초래한 판독물 계수치 오류, 또는 λ; 및 (iii) 핵산 샘플에서 기여자의 핵산의 분율, 또는 β = (β 1 , ..., β D )(여기서 D는 기여자의 수임)의 함수 p( g i , λ, β )로서 모델링된다.
일부 구현예에서, p 1i
Figure 112019132469795-pct00037
Figure 112019132469795-pct00038
로서 계산되고,
Figure 112019132469795-pct00039
는 벡터 내적 연산자이다.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, p 1i 는 하기에 기재된 표 3의 p 1 ' 값을 사용하여 획득된다.
일부 구현예(방법 S)에서, 단일-유전자좌 우도 함수는 제1 이항 분포를 포함하는 확률 분포이다. 일부 구현예에서, 제1 이항 분포는, 유전자좌에서의 총 대립유전자 계수치를 나타내는 양 모수 및 유전자좌에서의 제1 대립유전자의 확률을 나타내는 확률 모수를 포함한다. 일부 구현예에서, 제1 이항 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00040
식 중, n 1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 판독물의 대립유전자 계수치이고; n i 는 유전자좌 i에서의 총 판독물 계수치이고; p 1i 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 확률 모수 p는 기여자의 핵산의 분율, 또는 β의 함수이다. 확률 모수는 또한 1명 이상의 기여자의 유전자형 g의 함수이다. 확률 모수는 또한 (206)의 서열분석 작업으로부터 초래한 오류, 또는 λ의 함수이다. 일부 구현예에서, 기여자의 0, 1 또는 그 초과의 유전자형은 미지였다. 일부 구현예에서 확률적 혼합 모델은 도 2b에 도시된 바와 같은 다양한 확률 분포를 포함한다.
도 2a로 돌아와서, 공정(200)은 확률적 혼합 모델을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 것을 포함한다. 블록(214)을 참고하기 바란다. 일부 구현예에서, 정량은 유전자형의 복수의 가능한 조합에 걸쳐서 주변화시켜 확률 모수 p를 열거하는 단계를 포함한다. 일부 구현예에서, 정량은 확률적 혼합 모델의 모수에 대해서 조건화된 작업(210)에서 결정된 핵산 서열 판독물의 대립유전자 계수치의 다중-유전자좌 우도 함수를 사용하여 β, 기여자의 핵산의 분율을 결정하는 것을 포함한다.
일부 구현예에서, 정량은 핵산 서열 판독물의 대립유전자 계수치의 다중-유전자좌 우도 함수 및 복수의 잠재적인 분율 값을 사용하여 복수의 우도 값을 계산하는 단계를 포함한다. 정량은 또한 복수의 우도 값 중에서 최대 값인 우도 값과 연관된 잠재적인 분율 값을 식별하는 것을 포함한다. 일부 구현예에서, 복수의 우도 값은 다차원 그리드에서 복수의 모수 및 이의 값에 대해서 획득된다. 정량은 또한 최대 우도를 갖는 식별된 잠재적인 분율 값에서 핵산 샘플에서 기여자(들)의 핵산의 분율을 정량하는 것을 포함한다. 일부 구현예에서, 다중-유전자좌 우도 함수는 하나 이상의 다형성 유전자좌에 대한 복수의 주변 분포를 하기 식을 포함한다.
일부 구현예에서, 기지의, 미지의 또는 부분적으로 기지의 유전자형을 갖는 1명 이상의 기여자의 다중-유전자좌 우도 함수는 하기와 같이 계산된다:
Figure 112019132469795-pct00041
식 중, L( β , θ, λ, π ; n 1 , n 2 )은 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고; p(g i , λ, β )는 유전자좌 i에서의 기여자의 유전자형 g i 를 기초로 유전자좌 i에서의 대립유전자 1을 관찰할 예측된 분율 또는 확률이며; P(g i |π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 유전자형 g i 를 관찰할 선험적 확률이고; Σg i 는 일부 또는 모든 기여자에 대한 기지의 유전자형의 제약에 적용하는, 기여자의 유전자형의 복수의 가능한 조합에 걸친 총합을 나타낸다.
일부 구현예에서, 선험적 동시 확률은 하디-바인버그 평형(Hardy-Weinberg equilibrium)을 충족시키는 주변 분포P(g 1i |π) 및 P(g 2i |π)를 사용하여 계산된다.
일부 구현예에서, 모든 유전자형은 기지이며, 다중-유전자좌 우도 함수는 기여자에 대한 기지의 유전자형 조합을 나타내는 유전자형 벡터 g i 를 사용하여 계산된다:
Figure 112019132469795-pct00042
일부 구현예에서, 확률적 혼합 모델은 (202)에서 수행된 핵산 분자의 추출로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류를 설명한다.
일부 구현예에서, 확률적 혼합 모델은 제2 이항 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 추출된 핵산 분자의 대립유전자 계수치를 모델링한다. 일부 구현예에서, 제2 이항 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00043
식 중, n 1i "는 유전자좌 i에서의 대립유전자 1에 대한 추출된 핵산 분자의 대립유전자 계수치이고; n i "는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 총 핵산 분자 계수치이고; p 1i 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 제1 이항 분포는 대립유전자 분율 n 1i "/n i " 에 대해서 조건화된다. 일부 구현예에서, 제1 이항 분포는 하기와 같이 재모수화된다:
Figure 112019132469795-pct00044
식 중, n 1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 판독물의 대립유전자 계수치이다.
일부 구현예에서, 확률적 혼합 모델은 제1 베타 분포를 사용하여 n 1i "/n"의 분포의 근사치를 계산한다. 일부 구현예에서, 제1 베타 분포는 제2 이항 분포의 평균 및 분산에 매칭하는 평균 및 분산을 갖는다.
일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제1 베타 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00045
식 중, p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률을 나타내는 확률 모수이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 공정은 제1 이항 분포를 조합하고, 서열분석 판독물 계수치 및 제1 베타 분포를 모델링하고, 추출된 핵산 분자 수를 모델링하여 제1 베타-이항 분포를 따르는 n1i의 단일-유전자좌 우도 함수를 획득하는 단계를 포함한다.
일부 구현예에서, 제1 베타-이항 분포는 하기 형태:
Figure 112019132469795-pct00046
또는 하기 대안적인 근사치를 갖는다:
Figure 112019132469795-pct00047
일부 구현예에서, 다중-유전자좌 우도 함수는 하기와 같이 표현될 수 있다:
Figure 112019132469795-pct00048
식 중, L(β, n", λ, π ; n 1 ,n 2 )은 모든 유전자좌에서의 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고, p 1i = p (g i , λ, β ), p 2i = 1 - p 1i 이다.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 다중-유전자좌 우도 함수는 하기와 같이 표현된다:
Figure 112019132469795-pct00049
Figure 112019132469795-pct00050
식 중, L(β, n", λ, π ; n 1 , n 2 )은 모수 β, n", λ, π를 고려할 때 모든 유전자좌의 제1 대립유전자에 대한 대립유전자 계수치 벡터(n 1 ) 및 모든 유전자좌의 제2 대립유전자에 대한 대립유전자 계수치 벡터(n 2 )를 관찰할 우도이고; p 1i (g 1i , g 2i , λ, β)는 표 3으로부터 p 1 ' 로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며; p 2i (g 1i , g 2i , λ, β)는 표 3으로부터 p 2 '로서 취해되는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 2의 확률을 나타내며; P(g 1i ,g 2i |π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 제1 대립유전자에 대한 제1 기여자의 유전자형(g 1i ) 및 제1 대립유전자에 대한 제2 기여자의 유전자형(g 2i )을 관찰할 선험적 동시 확률이다.
일부 구현예에서, 작업(214)는 추출된 핵산 분자의 질량으로부터 총 추출된 게놈 카피 수 n" 를 추정하는 단계를 포함한다. 일부 구현예에서, 추정된 총 추출된 게놈 카피 수 n"는 하기에 추가로 기재된 바와 같이 추출된 핵산 분자의 단편 크기에 따라서 조정된다.
일부 구현예에서, 확률적 혼합 모델은 (204)에서 수행된 핵산 분자의 증폭로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류를 설명한다. 일부 구현예에서, 핵산 증폭 공정은 하기와 같이 모델링된다:
Figure 112019132469795-pct00051
식 중, x t+1 은 주기 t+1의 증폭 후 주어진 대립유전자의 핵산 카피이고; x t 는 주기 t의 증폭 후 주어진 대립유전자의 핵산 카피이며; y t+1 은 주기 t+1에서 생성된 새로운 카피이고, 이항 분포 y t+1 ~BN(x t , r t+1 )를 따르고; r t+1 은 주기 t+1에 대한 증폭 속도이다.
일부 구현예에서, 확률적 혼합 모델은 제2 베타 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 분율을 모델링한다. 일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제2 베타 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00052
식 중, n 1i '는 유전자좌 i에서의 제1 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n 2i '는 유전자좌 i에서의 제2 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n"는 임의의 유전자좌에서의 총 핵산 분자 계수치이며; ρ i 는 모든 증폭 주기에 걸친 평균 증폭 속도 ri에 관련된 상수이고; p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률이다. 일부 구현예에서, ρ i (1+r i )/(1-r i ) / [1-(1+r i ) -t ]이다. 일부 구현예에서, ρ i (1+r i )/(1-r i )로서 근사치로 계산된다.
일부 구현예에서, 작업(214)는 제1 이항 분포 및 상기 제2 베타 분포를 조합하여 제2 베타-이항 분포를 따르는 n1i에 대한 단일-유전자좌 우도 함수를 획득하는 단계를 포함한다. 일부 구현예에서, 제2 베타-이항 분포는 하기 형태를 갖는다:
Figure 112019132469795-pct00053
식 중, n 1i 는 유전자좌 i에서의 제1 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치이고; p 1i 는 유전자좌 i에서의 제1 대립유전자의 확률을 나타내는 확률 모수이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률을 나타내는 확률 모수이다.
일부 구현예에서, 작업(214)는, 하나 이상의 다형성 유전자좌가 동일한 증폭 속도를 갖는다고 가정함으로써, 제2 베타-이항 분포를 하기로서 재모수화시키는 단계를 포함한다:
Figure 112019132469795-pct00054
식 중, r은 증폭 속도이다.
일부 구현예에서, 작업(214)는 제2 베타-이항 분포를 사용하여 획득된 다중-유전자좌 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함하며, 다중-유전자좌 우도 함수는 하기와 같다:
Figure 112019132469795-pct00055
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 다중-유전자좌 우도 함수는 하기 식을 포함한다:
Figure 112019132469795-pct00056
Figure 112019132469795-pct00057
식 중, L(β, n", r, λ, π ; n 1 , n 2 )은 모수 β, n", r, λ, π를 고려할 때 모든 유전자좌의 상기 제1 대립유전자에 대한 대립유전자 계수치 벡터(n 1 ) 및 모든 유전자좌의 상기 제2 대립유전자에 대한 대립 유전자 계수치 벡터(n 2 )를 관찰할 우도이다.
일부 구현예에서, 작업(214)는, 유전자좌당 총 판독물에 비례할 각각의 다형성의 상대적인 증폭 속도를 정의함으로써, 제2 베타-이항 분포를 하기로서 재모수화시키는 단계를 포함한다:
Figure 112019132469795-pct00058
, 식 중, c'는 최적화될 모수이다.
일부 구현예에서, 작업(214)는 제2 베타-이항 분포를 사용하여 획득된 다중-유전자좌 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계를 포함하며, 다중-유전자좌 우도 함수는 하기와 같다:
Figure 112019132469795-pct00059
.
일부 구현예에서, 확률적 혼합 모델은 (202)에서 수행된 핵산 분자의 추출 및 (204)에서 수행된 핵산 분자의 증폭으로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 (206)에서의 서열분석 작업으로부터 초래한 판독물 계수치 오류를 설명한다.
일부 구현예에서, 확률적 혼합 모델은, 제3 베타 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 분율을 모델링하여, (202)에서 수행된 상기 핵산 분자의 추출 및 (204)에서 수행된 핵산 분자의 증폭으로부터 초래한 샘플링 오류를 설명한다. 일부 구현예에서, 유전자좌 i는 이대립인자성으로서 모델링되고, 제3 베타 분포는 하기의 형태를 갖는다:
Figure 112019132469795-pct00060
n 1i '는 유전자좌 i에서의 제1 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n 2i' 는 유전자좌 i에서의 제2 대립유전자에 대한 증폭된 핵산 분자의 대립유전자 계수치이고; n"는 총 핵산 분자 계수치이고; r i 는 유전자좌 i에 대한 평균 증폭 속도이며; p i1 은 유전자좌 i에서의 제1 대립유전자의 확률이고; p 2i 는 유전자좌 i에서의 제2 대립유전자의 확률이다.
일부 구현예에서, 작업(214)은 제1 이항 분포 및 상기 제3 베타 분포를 조합하여 제3 베타-이항 분포를 따르는 n1i의 상기 단일-유전자좌 우도 함수를 획득하는 단계를 포함한다. 일부 구현예에서, 제3 베타-이항 분포는 하기 형태를 갖는다:
Figure 112019132469795-pct00061
식 중, r i 는 증폭 속도이다.
일부 구현예에서, 다중-유전자좌 우도 함수는 하기이다:
Figure 112019132469795-pct00062
Figure 112019132469795-pct00063
식 중 r은 모든 유전자좌에 대해서 동일하다고 가정되는 증폭 속도이다.
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 다중-유전자좌 우도 함수는 하기이다:
Figure 112019132469795-pct00064
Figure 112019132469795-pct00065
식 중, L(n 1 , n 2 | β, n", r, λ, π)은 모수 β, n", r, λ π를 고려할 때 상기 제1 대립유전자 벡터에 대한 대립유전자 계수치 n 1 및 상기 제2 대립유전자 벡터에 대한 대립유전자 계수치 n 2 를 관찰할 우도이다.
일부 구현예에서, 공정(200)은 크래머-라오 부등식을 사용하여, 1명 이상의 기여자의 핵산의 하나 이상의 분율의 하나 이상의 신뢰 구간을 추정하는 단계를 추가로 포함한다.
일부 구현예에서, (208)의 맵핑 작업은, 복수의 불편 표적 서열의 임의의 서열에 매칭하는 핵산 서열 판독물 중에서 판독물을 식별하는 단계를 포함하고, 여기서 복수의 불편 표적 서열은 단일 뉴클레오타이드가 서열과 상이한 기준 서열 및 서열들의 하위서열을 포함한다.
일부 구현예에서, 복수의 불편 표적 서열은 복수의 다형성 부위의 각각의 다형성 부위를 포함하는 하기 5개의 서열 카테고리를 포함한다: (i) 기준 서열의 하위서열인 기준 표적 서열, 기준 표적 서열은 다형성 부위에서 기준 뉴클레오타이드를 갖는 기준 대립유전자를 가짐; (ii) 다형성 부위에서 대안적인 뉴클레오타이드를 갖는 대안적인 대립유전자를 각각 갖는 대안적인 표적 서열, 대안적인 뉴클레오타이드는 기준 뉴클레오타이드와 상이함; (iii) 각각 다형성 부위가 아닌 부위에서 단지 하나의 뉴클레오타이드가 기준 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 기준 표적 서열; (iv) 각각 다형성 부위가 아닌 부위에서 단지 하나의 뉴클레오타이드가 대안적인 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 대안적인 표적 서열; (v) 각각 기준 대립유전자 및 대안적인 대립유전자와 상이한 비예측된 대립유전자를 갖고, 각각 4개의 서열 카테고리와 상이한 서열을 갖는 하나 이상의 비예측된 대립유전자 표적 서열. 일부 구현예에서, 5개의 서열 카테고리는 동일한 길이를 갖고, 게놈의 동일한 영역에 위치된다.
일부 구현예에서, 작업(208)은 식별된 판독물 및 이의 매칭 불편 표적 서열을 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계를 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 핵산 서열 판독물과 동일한 길이를 갖도록 절두된 서열을 포함한다. 일부 구현예에서, 복수의 불편 표적 서열은 하나 이상의 해시 테이블에 저장된 서열을 포함하고, 그 다음 판독물은 해시 테이블을 사용하여 식별된다.
일부 구현예에서, 공정(200)은, 최대화된 다중-유전자좌 우도값의 2개의 버전((하나의 버전은 기여자에 대한 기지의 유전자형을 함유하는 유전자형 매트릭스를 사용하고, 또 다른 버전은 기여자에 대한 미지의 유전자형을 갖는 유전자형분석(genotyping) 매트릭스를 사용함)을 비교함으로써 기지의 유전자형의 기여자가 혼합물 샘플에 대한 진 기여자인지를 결정하기 위한 절차를 추가로 포함한다.
일부 구현예에서, 공정은 하나 이상의 다형성 유전자좌에서 1명 이상의 기여자의 하나 이상의 유전자형을 결정하는 단계를 추가로 포함한다. 일부 구현예에서, 공정은 1명 이상의 기여자의 핵산의 하나 이상의 분율을 사용하여, 또 다른 기여자(공여자)로부터 이식된 조직 또는 기관을 거부하는 하나의 기여자(수증자)의 위험을 결정하는 단계를 포함한다. 다수의 응용에서, 위험은 단지 추정된 기여자 분율을 기초로 하지 않거나 기초로 하지 않을 수 있다. 대신, 기여자 분율은 위험을 결정하기 위한 중간 모수 또는 중간 결과로서 사용된다. 각종 구현예에서, 다른 방법으로부터 획득된 다른 모수가 기여자 분율과 조합되어 위험을 결정한다. 이러한 다른 방법은 조직 생검, 혈청 크레아티닌 측정, HLA-DSA(공여자 특이적 항체) 분석을 포함하며, 이들로 제한되지 않는다.
도 3은 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 평가하기 위한 공정(300)을 나타내는 블록 다이어그램을 나타낸다. 공정(300)은 핵산 샘플로부터 획득된 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자의 핵산 서열 판독물을 제공받음으로써 시작된다. 블록(302)을 참고하기 바란다. 일부 구현예에서, 핵산 서열 판독물은 본 명세서에 기재된 다양한 기술을 사용하여 핵산 샘플 중의 핵산을 서열분석함으로써 획득되었다.
일부 구현예에서, 고유 분자 색인(UMI)을 추출된 핵산 분자에 부착하는데, 이어서 이것은 증폭되고, 서열분석되고, 다형성 유전자좌 또는 대립유전자에 맵핑된다. 고유 분자 색인은 샘플 처리 및 분석 단계에서 일어날 수 있는 오류를 감소시키기 위한 메커니즘을 제공한다. 예를 들어, 동일한 고유 분자 색인(UMI)을 공유하는 상이한 판독물을 조합 또는 붕괴시켜 판독물이 유래된 서열을 결정하여, 샘플 처리 동안 일어난 오류를 효과적으로 제거할 수 있다. 2016년 4월 16일자로 출원된 미국 특허 출원 제15/130,668호 및 2018년 1월 5일자로 출원된 미국 특허 출원 제15/863,737호에는 고유 분자 색인을 사용하여 핵산을 서열분석하기 위한 다양한 방법 및 시스템이 기재되어 있고, 이것은 모든 목적을 위해서 전문이 참고로 포함된다.
UMI가 검정에서 사용되는 경우, 주형 뉴클레오타이드 산의 PCR 증폭으로부터 초래한 쓸모 없는 DNA 분자는 단일 판독물로 붕괴된다. 이러한 실험 절차의 경우, 단일 유전자좌 판독물 계수치에 대한 바람직한 모델은 제1 베타-이항 분포인데, 이것은 제1 이항 분포를 조합하고, 서열분석 판독물 계수치, 및 제1 베타 분포를 모델링하고, 추출된 핵산 분자 수를 모델링한다.
UMI가 검정에서 사용되지 않는 경우, 핵산 추출, 증폭 및 서열분석 모두는 판독물 계수치에서 통계학적 변동성에 기여한다. 이러한 실험 절차의 경우, 단일 유전자좌 판독물 계수치에 대한 바람직한 모델은 제3 베타-이항 분포인데, 이것은 제1 이항 분포를 조합하고, 서열분석 판독물 계수치, 제3 베타 분포를 모델링하고, 증폭된 핵산 분자의 대립유전자좌 분율 및 제1 베타 분포를 모델링하고, 추출된 핵산 분자에서 대립유전자좌 분율을 모델링한다.
공정(300)은 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 대립유전자 계수치를 결정하는 단계를 추가로 포함한다.
공정(300)은 또한 확률적 혼합 모델을 대립유전자 계수치에 적용하는 단계를 포함한다. 확률적 모델은 확률적 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 대립유전자의 대립유전자 계수치를 모델링한다. 확률적 분포는 대립유전자 데이터에서의 오류를 계수한다. 오류는 핵산 추출, 샘플 처리 및 서열분석 작업으로부터 기인한 오류를 포함한다.
일부 구현예에서, 확률적 분포는 제1 이항 분포를 포함한다. 일부 구현예에서, 제1 이항 분포는, 유전자좌에서의 총 대립유전자 계수치를 나타내는 모수 및 유전자좌에서의 제1 대립유전자의 확률을 나타내는 확률 모수를 포함한다. 일부 구현예에서, 확률 모수는 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율의 함수이다. 확률 모수는 또한 1명 이상의 기여자의 유전자형 G의 함수이고, 핵산 서열 판독물 데이터에서의 오류 또는 θ의 함수이다. 일부 구현예에서, 판독물 데이터에서의 오류는 핵산 추출, 샘플 처리 및 서열분석 작업으로부터 기인한 오류를 포함한다.
공정(300)은 또한 모델 모수 및 잠재적인 핵산 분율 값을 고려하여 대립유전자 데이터를 발견할 우도 값을 획득하는 단계를 포함한다. 블록(308)을 참고하기 바란다.
일부 구현예에서, 공정(300)은 우도 값을 사용하여, 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다. 블록(310)을 참고하기 바란다.
일부 구현예에서, 공정(300)은 우도 값을 사용하여, 기여자 중 적어도 하나에 대한 적어도 하나의 유전자형을 결정하는 단계를 포함한다. 블록(312)을 참고하기 바란다.
일부 구현예에서, 기여자의 유전자형은 공정(300) 이전에 미지였다.
일부 구현예에서, 확률적 혼합 모델은 베타 분포를 사용하여 대립유전자 데이터에서 오류를 모델링한다. 일부 구현예에서, 베타 분포는 평균 모수 및 집중 모수(concentration parameter)에 의해서 정의된다. 일부 구현예에서, 집중 모수는 상이한 노이즈 조건을 나타내기 전에는 이산을 갖는다. 집중 모수는 유전자좌에 따라서 달라진다.
일부 구현예에서, 작업(310)의 정량은 제1 이항 분포 및 베타 분포를 조합하여 베타-이항 분포를 따르는 주변 분포를 획득하는 단계를 포함한다.
일부 구현예에서, (310)의 정량은 대립유전자 데이터의 다중-유전자좌 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다. 일부 구현예에서, 정량은 대립유전자 계수치의 다중-유전자좌 우도 함수 및 복수의 잠재적인 분율 값을 사용하여 복수의 우도 값을 계산하는 단계를 포함한다. 정량은 또한 최대 우도 값과 연관된 잠재적인 분율 벡터를 식별하는 단계, 및 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 식별된 잠재적인 분율 벡터를 사용하여 정량하는 단계를 포함한다.
일부 구현예에서, 다중-유전자좌 우도 함수는 집단 대립유전자 빈도(π)를 고려할 때 1명 이상의 기여자의 유전자형의 선험적 확률인 P(G|π)에 좌우된다. 일부 구현예에서, 선험적 확률은 기계론적 드롭-아웃(mechanistic drop-out)을 나타내는 고정된 선험적 확률과 함께 모조(dummy) 대립유전자를 고려하여 계산된다.
일부 구현예에서, 1명 이상의 기여자는 2명 이상의 기여자를 포함한다. 일부 구현예에서, 공정(300)은 1명 이상의 기여자에서 기여자의 총 수를 결정하는 작업을 포함한다. 일부 구현예에서, 1명 이상의 기여자의 하나 이상의 유전자형은 미지였고, 공정(300)은 하나 이상의 다형성 유전자좌 각각에서 대립유전자 구성을 결정하는 작업을 포함하며, 대립유전자 구성은 1명 이상의 기여자 각각에 대해서 대립유전자를 포함한다. 일부 구현예에서, 공정(300)은 대립유전자 구성에 대한 추정된 확률을 결정하는 작업을 포함한다.
일부 구현예에서, 공정(300)은 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 획득하는 단계를 추가로 포함한다. 일부 구현예에서, 공정(300)은 사후 확률에 기초하여, 핵산 샘플이 특정 기여자로부터의 핵산을 포함한다는 것을 콜링(calling)하는 단계를 추가로 포함한다. 일부 구현예에서, 1명 이상의 기여자 중에서 특정 기여자가 특정 유전자형을 가질 사후 확률을 획득하는 것은 하기를 포함한다: (i) 유전자형 구성의 선험적 확률과 유전자형 구성의 우도를 곱하고; (ii) (i)의 곱을 유전자형 공간에 걸친 총합에 의해서 정규화시키고; (iii) 특정 유전자형을 함유하는 유전자형 구성에 걸쳐서 총합하여 사후 확률을 획득함.
일부 구현예에서, 특정 유전자형은 다중-유전자좌 유전자형을 포함하고, 방법은 모든 기여자에 걸쳐서, 기여자가 모든 유전자좌에서 특정 유전자형을 가질 사후 확률을 총합하는 단계; 및 확률 총합에 기초하여, 명시된 다중-유전자좌 유전자형이 임의의 기여자에서 나타나는지를 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 핵산 샘플은 법의학적 샘플이고, 다중-유전자좌 유전자형의 데이터는 관심대상 사람으로부터 획득된다. 공정은 관심대상 사람이 핵산 샘플의 기여자임을 결정하는 단계를 추가로 포함한다.
일부 구현예에서, 확률적 혼합 모델은 제2 이항 분포를 사용하여 대립유전자 데이터에서 스터터 오류(stutter error)를 모델링한다. 일부 구현예에서, 제2 이항 분포는 하기와 같이 표현된다:
Figure 112019132469795-pct00066
식 중, s ik 는 대립유전자 k인 것으로 보이지만 실제로는 대립유전자 k+1의 스터터 오류로부터 초래한 스터터 대립유전자의 유전자좌 i에서의 스터터 대립유전자 계수치이고; n i(k+1) 은 유전자좌 i에서의 대립유전자 k+1의 본래 대립유전자 계수치이고; r i 는 유전자좌 i에 대한 스터터 비율(stutter rate)이다.
일부 구현예에서, 스터터 비율 r은 유전자좌에 전체에 걸쳐서 달라지며, 상이한 노이즈 조건을 나타내는 선험값을 갖고, 선험은 유전자좌에 전체에 걸쳐서 공유된다.
일부 구현예에서, 작업 (310)은 비-스터터 대립유전자 계수치의 우도와 스터터 대립유전자 계수치의 우도의 곱을 비롯한 다중-유전자좌 우도 함수를 사용하여 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 단계를 포함한다.
일부 구현예에서, 확률적 혼합 모델을 적용하는 것은, 스터터가 잠재적으로 유래할 수 있는 분자의 수를 결정할 때, 대립유전자 k+1에 배정된 대립유전자에 계수치에 분자의 고정된 수를 더하는 것을 포함한다.
일부 구현예에서, 확률적 혼합 모델은 모조 외샘플(out-of-sample) 대립유전자를 사용하여 자연적 드롭-아웃을 모델링한다. 일부 구현예에서, 모조 외샘플 대립유전자의 선험값은 관찰되지 않은 대립유전자의 수에 비례한다. 일부 구현예에서, 관찰되지 않은 대립유전자의 수는, 가장 짧은 관찰된 정수 값의 대립유전자와 가장 긴 관찰된 정수 값의 대립유전자 사이의 모든 정수를 보간(interpolating)하고, 임의의 관찰된 비-정수 값의 대립유전자를 더하고, 생성된 값의 최대치 및 기준 값으로 되돌아감으로써 추정된다.
일부 구현예에서, 확률적 혼합 모델을 적용하는 것은 핵산 샘플에서 1명 이상의 기여자의 핵산의 분율을 정량하는 데 사용된 데이터로부터 유전자형 구성을 가지치기(pruning)하는 것을 포함한다. 일부 구현예에서, 유전자형 구성의 가지치기는, 필요한 대립유전자의 목록을 구축하고, 모든 필요한 대립유전자를 설명하기에 충분하지 않은 기여자를 갖는 유전자좌를 배제함으로써 타당한 유전자형 구성을 제한하는 것을 포함한다. 일부 구현예에서, 필요한 대립유전자의 목록은 역치를 초과하고, 스터터 드롭-인으로 인해서 타당하다고 하기에는 너무 높은 대립유전자 계수치를 갖는 대립유전자로 본질적으로 이루어진다. 일부 구현예에서, 역치는 (i) 최대 비-스터터 대립유전자 계수치, 및 (ii) 잠재적인 스터터 공여자 대립유전자의 계수치를 곱한 값의 총합이다. 일부 구현예에서, 유전자형 구성의 가지치기는 대립유전자 데이터와 예측된 대립유전자 계수치 간에 불량한 매치를 갖는 유전자형 구성을 제거하는 것을 포함한다. 일부 구현예에서, 불량한 매치를 갖는 유전자형 구성은 하나 이상의 역치보다 더 큰 제곱평균 오차(root mean squared error: RMSE) 값을 갖는다.
일부 구현예에서, 하나 이상의 다형성 유전자좌에서의 대립유전자는 단일 뉴클레오타이드 다형성(SNP) 대립유전자 및/또는 짧은 탠덤 반복부(STR) 대립유전자를 포함한다.
마커 부위에 대한 판독물의 불편 맵핑 방법
핵산(예를 들어, DNA 또는 RNA) 서열분석 판독물을 게놈에 맵핑하는 종래의 컴퓨팅 방법은 사용되는 기준 게놈에 의해서 편향될 수 있다. 각각의 변이체 부위에 대해서 단지 하나의 대립유전자(기준 대립유전자)가 기준 게놈에 존재하기 때문에, 판독물과 기준물 사이의 미스매치는 기존의 판독물 맵핑 전략에서 서열분석 오류로서 처리된다. 이러한 문제는 비-기준 대립유전자를 함유하는 판독물이 서열분석 오류를 함유하는 것으로 처리되는 경우, 정렬 신뢰(점수)가 감소되고, 따라서 그것은 후속 필터링 단계에서 신뢰 있게 맵핑된 판독물로서 유지될 가능성이 적은 것이다. 이러한 맵핑 편향은 대립유전자 계수치를 왜곡하고(도 1B), 그 다음 기여자 DNA 분율의 추정치를 훼손시킨다.
맵핑 편향을 다루고, 최적의 CDQ를 가능하게 하기 위해서, 일부 구현예는 판독물을 변이체 부위에 맵핑하기 위한 신규 작업흐름을 제공한다. 새로운 판독물 맵핑 접근법은 변이체 부위 및 비-변이체 부위에 대한 서열분석 오류의 추정 및 대립유전자의 불편 계수를 가능하게 한다.
판독물 맵핑 작업흐름은 하기와 같다. 작업흐름은 먼저 1) 기준 서열 및 2) 변이체 부위의 공지된 대립유전자를 기초로 서열의 5가지 유형(표 1 참고)을 생성시킨다. 하나 초과의 단일 돌연변이가 서열당 허용되는 경우, 서열의 더 많은 유형이 생성될 것이다. 서열의 5가지 유형은 각각 ref, alt, ref.mut, alt.mut, 및 snp.mut라고 지칭된다. 예를 들어, 길이 L의 표적 서열에 의해서 포괄되는 각각의 이대립인자성 SNP 마커 부위의 경우, 하나의 ref, 하나의 alt, [L - 1] × 3개의 ref.mut, [L - 1] × 3개의 alt.mut 및 2개의 snp.mut 서열이 존재한다. 이어서 서열의 5가지 유형 모두는 "불편 표적 서열"의 데이터베이스에 포함된다(도 1B). 서열분석기로부터의 판독물의 길이에 따라서, 이어서 불편 표적 서열은 2개의 버전으로 절두된다. r은 판독물 길이이다. 절두된 표적 서열의 버전 1은 모든 불편 표적 서열의 r 5' 염기를 포함하는 반면, 절두된 표적 서열의 버전 2는 모든 불편 표적 서열의 r 3' 염기의 역 보체를 포함한다. 이어서, 절두된 표적 서열 내의 불필요한 서열이 제거된다. 이어서, 2개의 절두된 서열 데이터베이스 내의 고유한 서열이 2개의 해시 표로 기록된다. 다음으로, 서열분석 판독물은 해시 표를 사용하여 계수된다. 페어 엔드 서열분석 전략의 경우, R1 판독물 및 R2 판독물은 각각 제1 해시 표 및 제2 해시 표를 사용하여 계수된다. 논-페어 엔드 서열분석(non-pair end sequencing)의 경우, 서열분석 판독물은 제1 해시 표를 사용하여 계수된다. 마지막으로, 각각의 마커 부위에 대해서, 어느 유형의 절두된 불편 표적 서열이 표 1에 상응하는지에 따라서 계수치가 상기에 정의된 5가지 유형으로 합쳐진다.
맵핑을 위한 해시 표를 사용하는 것 대신에 서열 정렬 툴이 사용되는 경우 유사한 전략이 구현될 수 있다. 각각의 마커 부위에 대해서, 서열의 ref 및 alt 유형이 생성되어 불편 서열 데이터베이스를 형성한다. 이어서, 각각의 서열분석 판독물은 서열분석 오류의 미리 결정된 수 이하로 이러한 데이터베이스에 정렬된다. 이어서, 맵핑된 판독물은 표 1을 기초로 카테고리화된다. SNP 마커의 경우, 2-대립유전자 시나리오 만이 여기에 존재하지만, 그 방법은 다중-대립유전자 유전자좌로 확장된다.
Figure 112019132469795-pct00067
제안된 판독물 맵핑 작업흐름은 실제 데이터를 사용하여 시험되는 경우 판독물 맵핑 편향 문제를 다룬다. 이러한 작업흐름을 사용하면, 대안적인 오류에 대한 기준 오류의 관찰된 오류율 및 기준 오류에 대한 대안적인 오류의 관찰된 오류율은 동일하다. 기준 DNA 카피 상의 비-변이체 부위에 대한 서열분석 오류율 및 대안적인 DNA 카피 상의 비-변이체 부위에 대한 서열분석 오류율이 또한 동일하다.
기여자 DNA 분율과 대립유전자 분율의 관련
서열분석 무오류 시나리오(Sequencing Error-Free Scenario)
본 발명자들은 n1을, DNA를 샘플에 공급한 기여자 1(예를 들어, 기관 수용자) 세포의 수로서 나타내고, n2를 기여자 2(예를 들어 기관 공여자) 세포의 수로서 나타낸다. 이러한 세포를 기초로, 구현예는 기여자 2 분율을
Figure 112019132469795-pct00068
로서 정의한다. 2-기여자 시나리오의 경우, 본 발명자들은 β2를 줄여서 β로 나타낸다. 각각의 특정 유전자좌에서의 2명의 기여자의 유전자형에 따라서, 2개의 대립유전자는 상이한 분율(상세 사항에 대해서 표 2 참고)을 갖고, 이를 계산하기 위한 일반 수학식은 p1 =[g11(1-β) + g21·β] /2 및 p2 = [g12 (1-β) + g22·β] /2이다. g11 및 g12는 기여자 1(수용자) 유전자형, 즉, 수용자 게놈 내의 대립유전자 1 및 2의 카피이고; g21 및 g22는 기여자 2(공여자) 유전자형, 즉, 공여자 게놈 내의 대립유전자 1 및 2의 카피임을 주목하기 바란다.
행렬 표현에서, 다수의 기여자 경우에 대한 관계는 일반적으로
Figure 112019132469795-pct00069
로서 구현되며, 여기서 p 는 모든 유전자좌에 대한 예측된 대립유전자 1 분율의 벡터이고, g 는 모든 기여자에서 모든 유전자좌의 유전자형의 행렬이고, β = [β 1 , β 2 , ..., β D ]는 모든 기여자에 대한 핵산 분율의 벡터이다. 구현예는 일반적으로 단일-, 2-, 및 다중-기여자 시나리오에 적용된다.
Figure 112019132469795-pct00070
서열분석 오류를 갖는 일반적인 시나리오
변이체 부위에서 2개의 공지된 대립유전자가 존재하는 경우, 서열분석 오류는 이러한 유전자좌에서의 2개의 공지된 대립유전자를 2개의 남아있는 뉴클레오타이드로 전환시키는 것에 더하여, 하나의 대립유전자를 또 다른 것으로 전환시킬 것이다. 그 결과는, 서열분석된 판독물에서 대립유전자 분율은 NGS 입력 샘플에서 대립유전자 분율로부터 벗어날 것이다.
도 2c는 하나의 대립유전자를 또 다른 대립유전자로 그리고 진(true) 대립유전자를 비예측된 대립유전자로 전환시키는 서열분석 오류를 개략적으로 나타낸다. 패널 (A)는 뉴클레오타이드-의존적 서열분석 오류를 나타내고, 패널 (B)는 획일적 서열분석 오류를 나타낸다.
N1, N2를 대립유전자 1 및 대립유전자 2 뉴클레오타이드라고 한다. p1', p2'는, 그것이 실제인지 서열분석 오류로 인한 것인지에 관계없이, 각각 대립유전자 1 및 대립유전자 2 판독물을 관찰할 확률이고; p0' = 1 - p1' - p2'는 서열분석 오류로 인해서 2개의 비예측된 대립유전자를 관찰할 확률이라고 한다. λN1N2는 N1에서 N2까지의 돌연변이 비율(확률)이고, 여기서 N1 및 N2는 각각의 SNP 부위에 대해서 고유하고,
λN1#: N1에서 3개의 뉴클레오타이드 비-N1 뉴클레오타이드 중 임의의 것까지의 돌연변이 확률이라고 한다.
SNP 부위의 4개의 뉴클레오타이드 사이의 전이 다이어그램을 도 2c에 나타낸다. 이를 기초로, 구현예는 진 대립유전자 분율 p1, p2를 관찰된 대립유전자 분율 p1', p2', 및 p0'로 전환시키기 위해서 하기 식을 획득한다.
Figure 112019132469795-pct00071
이러한 구현예가 뉴클레오타이드 아이덴티티에 독립적인 획일적인 서열분석 오류율이라고 가정하면, 구현예는 하기를 갖는다:
Figure 112019132469795-pct00072
구현예가 비예측된 대립유전자를 무시하면, 다음과 같다:
Figure 112019132469795-pct00073
o(λ2) 근사치 오류를 가지면, 이것은 하기와 같이 다시 표현된다:
Figure 112019132469795-pct00074
또는 유전자좌 i p 대신 gβ 치환:
Figure 112019132469795-pct00075
Figure 112019132469795-pct00076
이것은 오류-조정-유전자형 가중 혼합 계수(error-adjusted-genotype weighted mixing coefficient)라고 지칭됨.
2명의 기여자 시나리오에서 기여자 2 분율 β를 관찰된 대립유전자 분율 p1'와 연결하는 식을 표 3에 열거한다.
Figure 112019132469795-pct00077
행렬 포맷에서, 서열분석 오류 λ를 고려한 대립유전자 1에 대한 오류-조정-유전자형은 하기와 같이 구현된다:
Figure 112019132469795-pct00078
2명 초과의 기여자를 갖는 일반적인 경우에 대해서, 대립유전자 1에 대한 예측된 혼합 분율 벡터는 하기와 같이 계산되며:
Figure 112019132469795-pct00079
, 이것은 단일, 2, 또는 다수의 기여자를 갖는 핵산 혼합물에 대해서 구현된다.
λ = 0인 경우, 구현예는 특별한 경우를 갖는다:
Figure 112019132469795-pct00080
DNA 추출, PCR(증폭) 및 서열분석 모델의 개요
3개의 확률적 모델(도 1C)를 제공하여 포괄적인 실험 파이프라인(도 1A)에서 3개의 주요 성분을 모델링한다: 1) DNA/RNA 추출; 2) 표적 DNA/RNA를 풍부화하기 위한 접근법으로서의 DNA/RNA 증폭(예를 들어, PCR); 3) 서열분석(예를 들어, NGS 서열분석). 이어서, 이러한 모델링 성분 및 다른 모델링 성분을 통합하여 단일-유전자좌 모델을 구현하고, 단일-유전자좌 우도 함수 M(n 1i , n 2i | p 1i , θ)을 계산한다.
하기 표현을 표 4 및 본 섹션의 나머지에 상세하게 기술된 수학 모델에서 사용한다.
B(): 베타 함수
베타(), BN(), Pois(), 감마(): 베타 분포, 이항 분포, 포아송 분포, 및 감마 분포
NB()는 음이항 분포를 나타내는데, 이것은 실패의 명시된(비-무작위) 수(r로 나타냄)가 일어나기 전에 일련의 독립적이고 동일하게 분포된 베르누이 시험에서의 성공의 수의 이산 확률 분포이다.
Figure 112019132469795-pct00081
DNA 추출 모델: 모델 E
cfDNA 또는 세포 DNA가 혈액 샘플로부터 추출되는 경우, 획득된 DNA는 DNA의 큰 풀로부터의 작은 샘플이고, 따라서, 구현예는 각각의 유전자좌에서의 2개의 대립유전자의 계수치를 2개의 포아송 분포로서 모델링한다. 따라서, 총 계수치 n"에 대해서 조건화된 유전자좌에서의 대립유전자 1에 대한 DNA 카피(n1")는 이항 분포를 따른다: n1" ~ BN(n", p1), 평균 μ0 = n"·p1 및 분산 δ0 2 = n"·pp2.
gDNA가 샘플로부터 추출된 경우, 각각의 유전자좌에 대한 생성된 gDNA 양은 추출 손실로 인해서 다시 변동될 수 있다. p1을 입력 샘플 중의 대립유전자 1의 분율로서 간주하면, 추출된 DNA 중의 대립유전자 1의 양은 이항 분포에 의해서 다시 모델링될 수 있다: n1" ~ BN(n", p1).
PCR 증폭 모델: 모델 P
본 발명자들은 PCR 생성물 중의 대립유전자 1 계수치의 확률적 분포를 획득하기 위해서 PCR 증폭 공정을 스토캐스틱(stochastic) 방법으로서 모델링한다. xt를 주기 t의 PCR 증폭 후 주어진 대립유전자의 DNA 카피라고 하고, rt를 주기 t에 대한 증폭 속도라고 하고, yt를 주기 t에서 생성된 새로운 카피라고 한다. DNA의 각각의 조각이 증폭되어 DNA 풀에 첨가될 확률 rt를 갖는다고 가정함으로써, 구현예는 증폭에 대한 하기 모델을 갖는다:
Figure 112019132469795-pct00082
여기서 yt+1 ~BN(xt, rt+1)는 모수로서 xt 및 rt+1을 갖는 이항 분포를 따른다.
이러한 모델을 기초로, 구현예는 PCR 생성물에서 유전자좌에 대한 DNA 카피 수는 대략적으로 감마 분포를 따른다고 가정한다. 하기는 정당성(justification)이다.
단계 1: 율 방법(Yule process)(연속 시간 스토캐스틱 방법)을 사용하여 PCR(이산 시간 스토캐스틱 방법) 근사치를 계산한다.
PCR 공정 xt+1 = xt + yt+1, 여기서 yt+1 ~BN(xt, rt+1)은 이산 시간 순수 출생 방법(discrete time pure-birth process)이고: 시간 t의 주어진 주기에서, DNA의 각각의 카피는 일부 비율 rt에서 독립적으로 "출생을 제공한다". 순수 출생 방법의 연속 시간 버전은 율-퍼리(Yule-Furry) 방법으로서 널리 공지되어 있다. 연속 시간 출생 방법의 경우, 주어진 시간 t에서 유전자좌에 대한 최종 카피 수는 음이항 분포를 따른다고 공지되어 있다. 구현예는, PCR 주기의 총 수가 1에 근접하지 않은 경우, 동일한 분포를 사용하여 이산 시간 출생 방법의 근사치를 계산한다.
단계 2: 감마 분포(연속 분포)를 사용하여 음이항 분포(이산 분포)의 근사치를 계산하다.
음이항 확률 변수는 독립적이고 동일하게 분포된(independent and identically distributed: i.i.d.) 기하 확률 변수의 총합으로서 표기될 수 있다. 지수 분포는 기하 분포의 연속 버전인 것으로 공지되어 있다. 따라서, 감마 분포를 따르는 i.i.d. 지수 확률 변수의 총합은 음이항인 이항 확률 변수의 총합의 연속 버전이다.
하기에서 구현예는 PCR 생성물에서 대립유전자 계수치의 감마 분포의 모수를 추정한다.
총 분산 법칙 var(xt+1)= var(E(xt+1|xt) + E(var(xt+1|xt))를 기초로, 구현예는 xt의 평균 및 분산을 하기와 같이 회귀적으로 유도할 수 있다:
Figure 112019132469795-pct00083
여기서 μt = E(xt), δt 2= var(xt)임.
PCR 주기당 평균 증폭 속도 rt+1 = r를 가정하면, 구현예는 하기를 갖는다:
Figure 112019132469795-pct00084
μ0 및 δ0 2은 PCR 증폭 입력값에서 DNA 대립유전자 계수치의 평균 및 분산이고, 이것은 상기에 기재된 DNA 추출 모델(모델 E)을 기초로 계산될 수 있다는 것을 인지하기 바란다. 대안적으로, 구현예가 cfDNA/세포 DNA 대립유전자 계수치를 확률 변수로서 처리하지 않는 경우, 구현예는 μ0 = n1" 또는 n2"이고, δ0 2 = 0이다.
이러한 평균 및 분산에 매칭하는 상응하는 감마 분포
Figure 112019132469795-pct00085
는 하기 모수를 갖는다:
Figure 112019132469795-pct00086
2개의 대립유전자 및 2개의 초기 카피(n1", n2")를 갖는 주어진 유전자좌의 경우, 각각의 유전자좌에 대한 2개의 대립유전자에 대해서 동일한 증폭 속도 r1 = r2 = r을 가정하면, 2개의 상응하는 감마 분포 G(n1' | k1, θ1) 및 G(n2' | k2, θ2)는 하기 모수를 갖는다:
Figure 112019132469795-pct00087
구현예가 PCR 모델을 DNA 추출 모델에 대해서 조건화하고, s.t. μ0 = n1" 또는 n2"이고, δ0 2 = 0인 경우, 구현예는 하기를 갖는다:
Figure 112019132469795-pct00088
따라서, PCR 생성물에서 대립유전자 카피 n1' 및 n2'는 PCR 공정(주기의 수 및 증폭 속도)에만 의존적인 동일한 척도 모수 θ1 및 θ2를 갖는 2개의 감마 분포를 따른다. 따라서,
Figure 112019132469795-pct00089
이고,
여기서 ρ는 PCR 공정에만 의존적인 증폭 속도 r에 관련된 상수: ρ = (1+r)/(1-r) / [1-(1+r)-t], 또는 주기의 수 t가 큰 경우 대략적으로 ρ = (1+r)/(1-r)이다. 특정 유전자좌의 경우, 이것은 n1i'/ (n1i' + n2i') ~ 베타(n1i"·ρi, n2i"·ρi)로서 기재되어, 유전자좌 특이적 PCR 증폭 속도를 캡처한다.
구현예가 DNA 샘플링을 무시하고, 모든 유전자좌가 동일한 총 DNA 카피 수 ni" = n"임을 갖는다고 가정하면, n1i" = n"·p1i이고, n2i" = n"·p2i이다. PCR 생성물에서 유전자좌에 대한 대립유전자 분율은 하기와 같다:
Figure 112019132469795-pct00090
감마 분포 근사치가 없으면, PCR 생성물의 대립유전자 계수치는 n1' ~ NB(r1, p) 및 n2' ~ NB(r2, p)를 갖고, 비 n1'/(n1' + n2')는 폐쇄형 분포를 갖지 않는다는 것을 주목하기 바란다. 감마 분포 근사치가 존재하는 경우, n1' ~ 감마(n1"·ρ, θ) 및 n2'~ 감마(n2"·ρ, θ) 및 n1'/(n1' + n2')는 베타 분포를 따른다.
서열분석 판독물 계수치 모델: 모델 S
NGS 서열분석은, DNA 분자의 풀로부터의 샘플을 서열분석기에 공급하고, 이러한 분자의 서열을 판독하는 과정이다. PCR 생성물에서 유전자좌 i에 대한 대립유전자 1의 분율은 n1i'/ (n1i' + n2i')이다. 이러한 분율은, 대립유전자 1 판독물이 서열분석 결과에서 발생할 확률을 결정한다. 유전자좌당 판독물의 총 수인 ni에 대한 조건화로 인해서, 유전자좌의 대립유전자 1 판독물 계수치인 n1i 분포는 이제 이항 분포 n1i ~ BN(ni, n1'/ (n1' + n2'))로서 모델링된다.
사전 분포로서의 기여자 간의 유전자 관계를 모델링함
기여자 유전자형이 완전히 기지인 경우, 그것은 상기에 기재된 성분 모델의 모수로서 (표 2 또는 표 3을 사용하여) 직접 혼입될 수 있다. 그러나, 유전자형이 미지인 경우, 구현예는 2-기여자 설정에서 공여자와 수용자 간의 유전적-관계 정보를 사용하여 정확한 혼합물 정량을 달성한다. 유전적 관계는 임상 응용, 예컨대, 기관 이식에서 일반적으로 입수 가능하다. 여기서 본 발명자들은 2-기여자 시나리오에 대한 구현예를 제공하지만, 이러한 "유전적 선험적" 접근법은 임의의 수의 기여자에 일반화될 수 있다.
본 발명자들은 공여자(기여자 2) 및 수용자(기여자 1)의 가능한 유전자형 조합의 공간에 대한 구별되는 사전 분포로서 상이한 유형의 공여자-수용자 관계를 공식화한다. 하디-바인버그 평형이라고 가정하면, 단일 개체의 경우 주어진 유전자좌에 대한 유전자형 분포는 P(g = [0,1,2]) = [(1-π)2, 2π(1-π), π2]이고, 여기서 π는 대립유전자 1의 집단 빈도이고, g는 대립유전자 1 카피 수이다. 모든 유전적 관계가 부모-자 관계의 결과라는 것을 인지하기 바란다. 주어진 이대립인자성 마커 부위에 대한 부모와 자 간의 유전적-관계를 기초로(표 5), 구현예는 2명 또는 다수의 기여자 사이에서 임의의 유전적 관계에 대한 결합 분포를 계산할 수 있다.
Figure 112019132469795-pct00091
2명의 기여자 간의 유전적-관계의 다양한 유형에 대한 사전 분포를 하기에 추가로 제공한다.
부 유전자형과 자 유전자형 간의 결합 분포
예로서, 부-자 공여자-수용자 유전자형(GT) 결합 분포를 하기 식을 사용하여 계산한다:
P(수용자 = 본인 GT, 공여자 = 부 GT) = Σ모 GT [P(본인 GT|부 GT, 모 GT)·P(부 GT, 모 GT)],
식 중, P(본인 GT|부 GT, 모 GT) 및 P(부 GT, 모 GT)의 값은 각각 표 5의 3열 및 4열로부터 취한다.
형제 유전자형 간의 결합 분포
예로서, 본인-형제 공여자-수용자 유전자형 결합 분포를, 부모 게놈을 고려하여 2명의 형제 유전자형의 조건부 독립성을 기초로, 하기 식을 사용하여 계산한다:
P(수용자 = 본인 GT, 공여자 = 형제 GT) = Σ모 GT Σ부 GT [P(본인 GT |부 GT, 모 GT)·P(형제 GT|부 GT, 모 GT)·P(부 GT, 모 GT)],
식 중, P(본인 GT|부 GT, 모 GT), P(형제 GT|부 GT, 모 GT) 및 P(부 GT, 모 GT)의 값은 각각 표 5의 3행, 3행, 및 4행으로부터 취한다.
삼촌-남조카 유전자형 간의 결합 분포
예로서, 삼촌/고모-남조카/여조카 공여자-수용자 유전자형 결합 분포를 하기 식을 사용하여 계산한다:
P(수용자 = 본인 GT, 공여자 = 삼촌 GT)
= Σ조모 GT Σ조부 GT Σ모 GT Σ부 GT [P(본인 GT|부 GT, 모 GT)·P(모 GT)·P(부 GT|조부 GT, 조모 GT)·P(삼촌 GT|조부, 조모 GT)·P(조부 GT, 조모 GT)]
= Σ모 GT Σ부 GT P(본인 GT|부 GT, 모 GT)·P(모 GT)·P(부 GT, 삼촌 GT),
식 중, P(본인 GT|부 GT, 모 GT)의 값은 표 5의 3열로부터 취하고, P(부 GT, 삼촌 GT)는 P(수용자 = 본인 GT, 공여자 = 형제 GT)와 동일하다.
행렬 표현에서, 이것은 부모/자 사전 행렬, 형제 사전 행렬, 및 단일 게놈 사전 벡터를 사용하여 계산될 수 있다:
= [P(본인 GT, 부 GT)]본인, ·diag(1 / [P(부 GT)])·[P(부 GT, 삼촌 GT)]부, 삼촌
사촌 유전자형 간의 결합 분포
사촌이 형제인 부계와 유전자적으로 관련된다고 가정하면, 모는 유전자적으로 관련되지 않고, 하기와 같다:
P(수용자 = 본인 GT, 공여자 = 사촌 GT)
= Σ고모 GT Σ삼촌 GT Σ GT Σ부 GT P(본인 GT|부 GT, 모 GT)·P(모 GT)·P(부 GT, 삼촌 GT)·P(고모 GT)·P(사촌 GT|삼촌 GT, 고모 GT)
= Σ고모 GT Σ삼촌 GT P(본인 GT, 삼촌 GT)·P(고모 GT)·P(사촌 GT|삼촌 GT, 고모 GT)
= Σ삼촌 GT P(본인 GT, 삼촌 GT)·P(사촌 GT, 삼촌 GT) / P(삼촌 GT)
행렬 표현에서, 이것은 삼촌/여조카 사전 행렬, 부모/자 사전 행렬, 및 단일 게놈 사전 벡터를 사용하여 계산될 수 있다:
= [P(본인 GT, 삼촌 GT)]본인, 삼촌 ·diag(1 / [P(삼촌 GT)]삼촌)·[P(사촌 GT, 삼촌 GT)]삼촌, 사촌
P(사촌 GT, 삼촌 GT) 은 부모-자 관계와 동일함을 인지하기 바란다.
절반 형제(half sibling) 유전자형 간의 결합 분포
절반 형제가 한 명의 모와 관련되고, 2명의 부는 관련이 없다고 가정하면, 하기와 같다:
P(수용자 = 본인 GT, 공여자 = 절반형제 GT)
= Σ부 GT Σ모 GT Σ계부 GT P(본인 GT|부 GT, 모 GT)·P(절반형제 GT|계부 GT, 모 GT)·P(모 GT)·P(부 GT)·P(계부 GT)
= Σ모 GT P(본인 GT, 모 GT)·P(절반형제 GT, 모 GT) / P(모 GT)
행렬 표현에서, 이것은 2 부모 자 사전 행렬, 및 단일 게놈 사전 벡터를 사용하여 계산될 수 있다:
= [P(본인 GT, 모 GT)]본인, 모 ·diag(1 / [P(모 GT)])·[P(절반형제 GT, 모 GT)]절반형제, 모
하디바인버그(HardyWeinburg) 평형 하에서, 절반 형제 관계는 삼촌/고모/남조카/여조카 관계와 동일한 분포를 따른다. 이것은 하디바인버그 평형이 없으면 사실이 아닐 수 있다.
요약
상기 도출로부터의 결과를 표 6에 요약하고, 집단 SNP 대립유전자 빈도 π = 0.5을 고려한 특정 예를 표 7에 제공한다. 추가 관계, 예컨대, 조부모-손자 관계 또는 다중-기여자 관계는 동일한 근본적인 원칙을 기초로 유래될 수 있다.
Figure 112019132469795-pct00092
Figure 112019132469795-pct00093
부모-자 및 형제 관계에 대한 분포는 비친족과 상당히 상이하지만, 삼촌/고모-남조카/여조카는 비친족과 유사하다. 그러한 경우, 공여자 유전자형이 미지인 경우, 구현예는 상기 유전적 관계 각각의 피팅된 모델의 우도 함수를 평가하기 위해서 유전적 관계를 추론할 수 있다. 대안적으로, 구현예는 유전적 선행 분포에서 다중 자유 모수(multiple free parameter)(주변 분포가 하디-바인버그 평형을 따라야 하는 추가 제약이 있음)를 허용할 수 있고, 공여자 분율의 추정과 함께 이러한 모수를 추정한다.
DNA 길이를 기초로 하는 DNA 카피 수의 조정
PCR DNA 증폭을 포함하는 앰플리콘-기반 검정의 경우, DNA 길이는 PCR 주형으로서의 DNA의 효과에 영향을 미친다. 극도로, DNA 단편이 의도된 앰플리콘 길이보다 더 짧은 경우, 이것은 PCR 주형으로서 0% 유효하다. 이러한 효과를 보정하기 위해서, 본 발명자들은 하기 절차를 사용하여 입력 DNA의 유형에 따라서 달라지는 평균 DNA 길이를 사용하여 DNA 카피 수를 조정하였다. 일부 구현예는 입력 DNA 주형의 평균 길이를 기초로 유효 입력 DNA 분자 수를 조정한다. 일부 구현예에서, 유효 입력 DNA 분자 수를 하기학식에 따라서 조정한다:
Figure 112019132469795-pct00094
식 중, n"는 유효 입력 DNA 분자 수(반수체)이고, w는 입력 DNA 양이고, w0(3.59 x 103 ng/카피)은 반수체 인간 게놈의 중량이고, L은 입력 DNA 주형의 평균 길이이고, La는 평균 앰플리콘 길이(본 발명자들의 앰플리콘 설계의 경우 110bp)이다.
DNA 주형 효율은 e = (L - La + 1)/L로서 정의되고, 이것은 L >= La로서 정의된다. 표 8은 예시적인 DNA 유형 및 PCR 주형으로서의 이의 효율을 나타낸다.
Figure 112019132469795-pct00095
모델링 성분의 통합
확률적 혼합 모델의 성분을 통합하여 기여자 DNA 정량(CDQ) 문제에 대한 해결책을 제공한다. 각각의 SNP 부위에 대한 집단 대립유전자 빈도 π는 공공 데이터베이스, 예컨대, dbSNP로부터 획득될 수 있다. 가장 유익한 SNP 마커, 즉 π = 0.5를 갖는 SNP를 선택하는 경우, 실험 설계에서, 모든 유전자좌에 대해서 π = 0.5를 설정할 수 있으며, P(g11,g21)를 상기 섹션에 기재된 바와 같은 유전적-관계 사전 분포라고 한다.
도식적인 수준에서, 도 2b는 확률적 혼합 모델(250)의 다양한 성분을 나타내는 블록 다이어그램을 도시한다. 일부 성분은 일부 구현예에서 선택적이다. 확률적 혼합 모델(250)은 서열분석 판독물의 대립유전자 계수치를 모델링하기 위해서 이항 분포(258)를 포함한다. 일부 구현예에서, 확률적 혼합 모델은 또한 유전적 관계 사전 분포(252)를 사용하여 공여자-수증자(또는 수용자) 관계를 모델링하기 위해서 성분을 포함한다. 일부 구현예에서, 확률적 혼합 모델은 또한 DNA 추출 대립유전자 계수치를 모델링하기 위해서 이항 분포(254)를 포함한다. 일부 구현예에서, 확률적 혼합 모델(250)은 또한 PCR 생성물 또는 증폭 생성물 대립유전자 분율을 모델링하기 위해서 베타 분포(256)를 포함한다. 블록(256)을 참고하기 바란다.
일부 구현예에서, 혼합 모델은 이항 분포(208)를 이항 분포(254)와 조합하여 DNA 추출 오류 및 서열분석 오류 둘 모두를 모델링한다. 이러한 구현예에서, 혼합 모델은 DNA 추출로 인한 대립유전자 계수치의 변동성을 캡처하면서, 베타-이항 분포(260)를 사용하여 서열분석 판독물의 대립유전자 계수치를 모델링한다.
일부 구현예에서, 확률적 혼합 모델(250)은 베타 분포(256) 및 이항 분포(258)를 조합하고, 베타-이항 분포(262)를 사용하여 PCR 또는 증폭 공정에서의 오류 및 서열분석 공정의 오류 둘 모두를 모델링한다.
일부 구현예에서, 확률적 혼합 모델(250)은 이항 분포(254), 베타 분포(256) 및 이항 분포(258)를 조합하여 각각 DNA 추출, 증폭 공정 및 서열분석 공정으로부터 초래한 분산을 설명한다. 이러한 구현예에서, 확률적 혼합 모델(200)은 먼저 베타 분포(264)를 사용하여 이항 분포(254) 및 베타 분포(256)의 효과의 근사치를 계산한다. 이어서 확률적 혼합 모델(250)은 베타-이항 분포(256)를 사용하여 베타 분포(264) 및 이항 분포(258)를 조합한다.
서열분석 모델: 모델 S
완전 모델의 기본 버전은 DNA 추출 모델 및 PCR 모델을 무시하고, 서열분석 모델 만을 고려한다. 각각의 유전자좌의 경우, 기준 대립유전자에 대한 서열분석 판독물 계수치는 이항 분포(도 1C), n1i ~ BN(ni, p1i)에 의해서 모델링되고, 여기서 모수 p1i(g1i, g2i , λ, β)의 값은 유전자좌에 대한 공여자-수용자 유전자형 조합에 대한 함수이다(표 2 및 표 3). 유전자형이 미지인 것을 고려할 때, 구현예는 사전 분포로서 P(g1i,g2i|π)를 갖는 각각의 유전자좌에 대해서 9개의 가능한 유전자형 조합에 걸쳐서 주변화된다(표 6 및 표 7). 모든 유전자좌에 걸친 완전한 우도 함수는 모든 유전자좌에 대한 주변 분포의 곱이다:
Figure 112019132469795-pct00096
식 중, L(β, θ, λ, π ; n 1 , n 2 )은 모수 β π를 고려할 때 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 내지 n 2 를 관찰할 우도이고; p 1i (g 1i , g 2i , λ, β)는 표 3으로부터 p 1 ' 로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며; P(g 1i ,g 2i |π)는 집단 대립유전자 빈도(π)를 고려할 때 2명의 기여자의 유전자형을 관찰할 선험적 동시 확률이다.
그것을 다수의 기여자에 확장시키면, 우도 함수는 하기와 같이 표현될 수 있다:
Figure 112022064402329-pct00211
.
추출-Seq 복합(compound) 모델: 모델 ES
보다 발전된 모델은 DNA 추출 모델뿐만 아니라 서열분석 모델을 조합한다. 이 구현예는 PCR 단계를 무시하고(즉, 각각의 유전자좌에 대해서, PCR 생성물 중의 대립유전자 분율이 DNA 샘플 중의 대립유전자 분율과 동일하다고 가정하고), 모델 DNA 샘플링 및 서열분석 단계 만을 고려한다. 각각의 유전자좌에 대해서, 입력 DNA 샘플에서 대립유전자 계수치에 대해서 이항 분포가 존재한다. 이것은 NGS 서열분석에 제공된 입력 DNA에서 대립유전자 분율의 유전자좌-대-유전자좌 변동성을 캡처한다.
DNA 추출 모델의 경우, 이러한 구현예는 DNA 추출 모델에 대해서 조건화하면서, n1i" ~ BN(n", p1i)을 갖고, 서열분석 모델은 n1i|n1i", n" ~ BN(ni, n1i"/n")이며, 여기서 ni" = n"는 입력 DNA가 상응하는 반수체 게놈의 카피이다. 불행하게도, n1i의 주변 분포는 폐쇄형 식을 갖지 않는다. 구현예는 베타 분포 베타(a, b)를 사용하여 n1i"/n"의 분포의 근사치를 계산하고, 최상의 베타 분포는 이항 모델 n1i" ~ BN(n", p1i)로부터 유래된 것을 사용하여 n1i"/n"의 평균 및 분산을 매칭시킴으로써 선택된다:
Figure 112019132469795-pct00098
방정식을 풀면 최상의 근사치로서 베타 분포 베타((n"-1)p1i, (n"-1)p2i)를 제공한다. DNA 추출 모델에 대한 이러한 근사치를 사용하여, n1i의 주변 분포는 이제 하기 형태의 베타-이항 분포를 따른다:
Figure 112019132469795-pct00099
또는 하기 대안적인 근사치이다:
Figure 112019132469795-pct00100
이제 유전적-관계 선험값을 고려하여 상응하는 완전 우도 함수는 하기와 같다:
Figure 112019132469795-pct00101
식 중, L(β, n", λ, π ; n 1 ,n 2 )은 모든 유전자좌에서의 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고, p 1i = p (g i , λ, β ), p 2i = 1 - p 1i 이다.
n" 및 π = 0.5 둘 모두는 공지된 모수이고, 최종 완전 우도 함수는 공여자 DNA 분율인 단지 단일의 미지의 모수 β를 가짐을 인지하기 바란다.
입력 DNA(반수체) 카피 수 n"은 입력 DNA 질량으로부터 유래될 수 있다. 입력 DNA 양이 8ng인 경우, n" = 8ng/[3.59×10-3 ng/카피] = 2228.412이다.
PCR-Seq 복합 모델: 모델 PS
DNA 추출 모델을 무시하고, 주어진 유전자좌에 대한 기지의 유전자형 조합하면, PCR 모델: n1i'/(n1i' + n2i') ~ 베타(n"·ρi·p1i, n"·ρi·p2i) 및 서열분석 모델 n1i ~ BN(ni, n1'/(n1' + n2'))은 베타-이항 분포로 조합될 수 있다: BB(ni, n"·ρi·p1i, n"·ρi·p2i). 근본적인 유전자좌 특이적 PCR 증폭 속도 ρi는 미지이다. 구현예가 모든 유전자좌가 동일한 내재하는 증폭 속도를 갖는다고 가정하면, 그 구현예는 BB(ni, c·p1i(g11, g21, β), c·p2i(g11, g21, β))를 갖는다.
이제 모든 유전자좌에 걸친 완전한 우도 모델은 하기와 같다:
Figure 112019132469795-pct00102
Figure 112019132469795-pct00103
, 식 중 c 및 β는 추정될 2개의 모수이다.
대안적으로, 구현예는 유전자좌당 총 판독물에 비례할 각각의 유전자좌의 상대적인 증폭 속도를 정의하고, 베타-이항을 n 1i ~ BB(n i , c'·n i ·p 1i , c'·n i ·p 2i )로서 재모수화할 수 있고, 여기서 c'는 최적화될 모수이고; n i 는 유전자좌 i에서의 총 판독물이다.
이제 모든 유전자좌에 걸친 완전한 우도 모델은 하기와 같다:
Figure 112019132469795-pct00104
Figure 112019132469795-pct00105
, 식 중 c 및 β는 추정될 2개의 모수이다.
추출-PCR-Seq 복합 모델: 모델 EPS
추출-PCR-서열분석 포괄적인 실험 파이프라인에서 모든 3개의 성분은, 구현예가 DNA 추출 및 PCR 모델을 하나의 모델로 조합하고, 단일 베타 분포에 의해서 그것의 근사치를 계산하는 경우, 베타-이항에 의해서 함께 모델링될 수 있다. 직감적으로, PCR 생성물 중의 대립유전자 1 분율의 예측된 값(n1'/n', 표 4 참고)은 p1을 유지하고, n1'/n'의 불확실성(분산)은 DNA 추출 및 PCR 단계 둘 모두로부터 기원한다. 베타 분포 베타(a,b)를 획득하여 DNA 추출 및 PCR을 함께 모델링하기 위해서, 구현예는 하기 법칙을 기초로 n1i'/n'의 무조건적 평균 및 분산을 계산한다: E(n1i'/n') = E(E(n1i'/ni' | n1i"/n"), 및 var(ni1'/n') = var(E(n1i'/ni' | n1i"/n")) + E(var(n1i'/ni' | n1i"/n")). 이것을 하기를 제공한다: E(n1i'/n') = p1i, 및 var(n1i'/n') = p1ip2i / n" + p1ip2i / (n"·ρi + 1) - p1p2 / [n"·(n"·ρi + 1)], 여기서 ρi = (1+ri)/(1-ri) > 1은 증폭 속도 ri에 관련된 상수이다. n"은 크기 때문에, 구현예는 하기 근사치 var(n1i'/n') = p1ip2i / [n"·(1+ ri)/2]를 갖는다. 이어서 DNA 추출 및 PCR을 모델링하는 최상의 베타 분포는 베타([n"·(1+ ri)/2 - 1]p1i, [n"·(1+ ri)/2 - 1]p2i)이다. 이것은 cfDNA/gDNA 추출 베타((n"-1)p1i, (n"-1)p2i)에 대한 베타 분포와 유사하지만, 분산이 이제 더 큼을 인지하기 바란다. ri = 0.8 내지 0.95를 갖는 전형적인 PCR 반응의 경우, 구현예는 n"·(1+ ri)/2 = 0.9·n" 내지 0.975·n"를 갖는다.
cfDNA-PCR-Seq 모델에 대한 완전 다중-유전자좌 우도 함수는 다음과 같다:
Figure 112019132469795-pct00106
기준선 방법: NaiveLM 또는 KGT.NaiveLM
기여자의 DNA 분율을 정량하는 종래의 방법은 기본 선형 회귀식을 사용하는데, 이것은 상기에 기재된 동일한 확률적 모델 또는 비용 함수(cost function)를 사용하지 않는다. 대신, 이의 비용 함수는 하기와 같이 표현된다:
Figure 112019132469795-pct00107
식 중 r 은 대립유전자 분율 벡터이고,
Figure 112019132469795-pct00108
는 예측된 대립유전자 분율 벡터이고, g 는 유전자형 행렬이고, β 는 기여자 DNA 분율 벡터이다. 미경험 방법은 모든 기준선이 기지인 경우에만 적용 가능하다.
기여자 핵산 분율 및 이의 신뢰 구간을 추정하는 방법
기여자 DNA 분율을 추정하기 위한 수치 최적화
기여자 DNA 분율 β는 완전 우도 함수 L(n1, n2| β)를 최대화시키는 값으로서 추정된다. 상기에 언급된 바와 같이, 이러한 예 및 다른 예에서 DNA가 언급되지만, RNA 및 다른 핵산 분자가 유사하게 가공 및 분석될 수 있다. 또한, 예가 핵산 혼합물 샘플을 지칭하지만, 샘플은 단일 기여자의 핵산 만을 포함할 수 있고, 이 경우 기여자 분율은 1로서 또는 1로부터의 오차 범위 이내인 것으로 추정될 것이다.
L(n1, n2| β)의 계산 동안, 다수의 작은 확률 값은 곱셈된다. 작은 확률을 곱할 때 수치 언더플로잉(underflowing)을 회피하기 위해서, log 규모로 모든 총합 및 곱셈을 수행한다. log 규모의 작은 확률의 총합은 하기와 같이 수행된다: 1) xmax로서의 log 확률의 최대치를 획득하고; 2) 최대치에 의해서 log 확률 모두를 뺄셈하고; 3) 생성된 값을 거듭제곱하고, 그 다음 총합하고; 4) 생성된 총합을 log 전환하고; 5) log 확률의 최대치를 다시 추가한다.
Figure 112019132469795-pct00109
0 내지 1 내의 양성 기여자 분율을 보장하기 위해서, 로짓 변환(logit transformation) β = 1/(1+e)를 사용한다.
브로이덴-플레처-골드파브-샤노(BFGS) 준뉴튼법을 사용한 반복적인 그리드 탐색을 균일하게 통합하는 신규 수치 최적화 컴퓨터 전략이 하기와 같이 구현된다.
단계 1: 그리드 초기화 방법은 N-1 차원 공간에서 짝수를 생성하고, 여기서 N은 기여자의 수이다. 단지 2명의 기여자를 사용한 응용에서, 전반적인 최적화를 보장하고, 국지적인 최적을 회피하기 위해서, 완전 우도 함수를 β0 = 1/(1+e 0)으로 초기화하고, 식 중 η0은 2명의 기여자 사건의 경우에 L(n1, n2| β0 =1/(1+e 0))을 최대화하는 -10, -9.9, -9.8, .... , -0.1, 0 사이의 값이다. 다중-기여자 경우를 갖는 응용에서, β는 소프트맥스(softmax)를 사용하여 전환되고, 이어서 높은 차수 그리드에 걸쳐서 초기화된다.
단계 2: 그리드 상에서의 완전 탐색(exhaustive search)을 -log2(L)를 최소화하는 식별된 혼합물 분율에 대해서 수행한다.
단계 3: 식별된 혼합물 분율을 사용하여 초기화하고, 이어서 브로이덴-플레처-골드파브-샤노(BFGS) 준뉴튼법을 사용하여 -log2(L)를 최소화하여 η의 수치 최적화를 수행한다. 최적화된 혼합물 분율뿐만 아니라 수렴을 기록한다.
단계 4: -log2(L)의 헤시안 행렬을 식별된 혼합물 분율에 대해서 수치 미분을 사용하여 계산한다.
단계 5: 계산된 혼합물 분율 주위의 오차 및 신뢰 구간은 헤시안 행렬의 역수를 기초로 결정된다. 그 동안, 헤시안 행렬이 양의 준정부호(positive semi-definite)이다.
단계 6: BFGS 최적화가 수렴하지 않거나 또는 헤시안 행렬이 양의 준정부호가 아닌 경우, 최적화의 다음 반복을 위해서 절차가 구성된다. 그렇지 않으면 최적화가 완결된다.
단계 7: 최적화의 다음 반복이 수행되려는 경우, 추정된 혼합물 분율에 상응하는, 이미 결정된 η 주변의 2N-1 본래 그리드를 포괄하는 더 좁은(finer) N-1 차원 그리드를 구축한다. 이어서 이러한 절차는 그리 탐색 BFGS 최적화의 다은 반복을 위해서 단계 2로 되돌아간다.
이러한 단계 전체는 인간 전문가에 의해서 수동으로 또는 그의 머리로 수행될 수 없다. 대신, 하나 이상의 컴퓨터가 이러한 단계를 수행하는 데 필요하다.
기지의 유전자형를 사용한 모델 S를 위한 반복적인 전략(KGT.IterLM)
일부 구현예에서, 단일-유전자좌 우도 함수는 이항 분포를 포함하고, 다중-유전자좌 우도 함수는 하기와 같다:
Figure 112019132469795-pct00110
Figure 112019132469795-pct00111
일부 구현예에서, 기여자는 2명의 기여자를 포함하고, 우도 함수는 하기이다:
Figure 112019132469795-pct00112
식 중, L(β, θ, λ, π ; n 1 , n 2 )은 모수 β π를 고려할 때 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 내지 n 2 를 관찰할 우도이고; p 1i (g 1i , g 2i , λ, β)는 표 3으로부터 p 1 ' 로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며; P(g 1i ,g 2i |π)는 집단 대립유전자 빈도(π)를 고려할 때 2명의 기여자의 유전자형을 관찰할 선험적 동시 확률이다.
일부 구현예에서, 모든 기여자의 유전자형은 기지이고, 우도 함수는
Figure 112019132469795-pct00113
로서 표현되고, 식 중
Figure 112019132469795-pct00114
Figure 112019132469795-pct00115
이다. 모든 마커가 체세포 염색체 상에 존재하는 경우,
Figure 112019132469795-pct00116
이다. 행렬 표현에서, 이것은
Figure 112019132469795-pct00117
이다.
반복적인 가중 선형 회귀 방법은 β = β 0 인 경우 각각의 반복에서 log[L(β; n 1 , n 2 )]의 것과 동일한 구배를 갖는 비용 함수를 구축함으로써 개발된다:
Figure 112019132469795-pct00118
행렬 표현에서, 이것은
Figure 112019132469795-pct00119
이며, 식 중
Figure 112019132469795-pct00120
Figure 112019132469795-pct00121
은 대각선 행렬이고,
Figure 112019132469795-pct00122
이다.
반복적인 가중 선형 회귀는 입력: r , n , g , λ를 고려하여 하기 단계를 실행함으로써 수행된다.
단계 1. β 를 획일적인 길이 D 확률 벡터
Figure 112019132469795-pct00123
로서 초기화한다
단계 2. 유전자형 행렬
Figure 112019132469795-pct00124
Figure 112019132469795-pct00125
의 오류 수정을 계산한다
단계 3: 하기 단계 a 내지 단계 e를 수렴 시까지 반복한다.
단계 a. 이전의 계산된 기여자 분율을 사용하여 예측된 대립유전자 1 분율
Figure 112019132469795-pct00126
을 업데이트한다
단계 b. 가중 회귀에 대한 가중:
Figure 112019132469795-pct00127
Figure 112019132469795-pct00128
을 계산한다:
단계 c. 가중 선형 회귀:
Figure 112019132469795-pct00129
를 푼다
단계 d. 각각의 기여자 i에 대한 비부조건(non-negativity):
Figure 112019132469795-pct00130
을 보장한다
단계 e. 확률 벡터로 정상화한다:
Figure 112019132469795-pct00131
정상화
신리 구간의 추정
추정치의 신뢰 구간의 하계(lower bound)는 크래머-라오 부등식을 기초로 결정된다: var(θML) ≥1/I(θML), 식 중θML은 모수 θ의 최대 우도 추정치이고, I(θML)는 θML에서의 피셔 정보(fisher's information)이다. 이를 기초로, 상기에 기재된 우도 함수에서 β 및 c의 분산을 추정할 수 있다. 표준 오차는 크래머 라오 경계 이후에 sqrt(1/H)로서 추정되며, 식 중 H는 근사될 수 있는 헤시안 행렬이고, BFGS - 준뉴튼법으로 추정된다.
본 발명자들은 수치 최적화 동안 하기 재모수화를 사용하여 β 및 c를 추정한다,
Figure 112019132469795-pct00132
I(η) 및 I(κ)를 모수화 η 및 κ 하의 피셔 정보라고 하고, 본래 모수의 피셔 정보는 하기이다:
Figure 112019132469795-pct00133
따라서 구현예는 표준 편차를 추정하기 위해서 수치 최적화 방법의 탑에 대해서 하기 변환을 갖는다:
Figure 112019132469795-pct00134
Figure 112019132469795-pct00135
샘플
본 명세서에서 사용된 샘플은 "세포-유리"(예를 들어, cfDNA) 또는 세포-결합(예를 들어, 세포 DNA)인 핵산을 함유한다. 세포-유리 DNA는 혈장, 혈청 및 소변을 포함하지만 이들로 제한되지 않는 생물학적 샘플로부터 관련 기술 분야에 공지된 다양한 방법에 의해 획득될 수 있다(예컨대, 문헌[Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004]] 참고). 샘플 중의 세포로부터 세포-유리 DNA를 분리하기 위해서, 분별증류, 원심분리(예를 들어, 밀도 구배 원심분리), DNA-특이적 침전 또는 고 처리율 세포 분류 및/또는 기타 방법을 포함하지만 이들로 제한되지 않는 다양한 방법이 사용될 수 있다. cfDNA의 수동 분리 및 자동화 분리를 위한 상업적으로 입수 가능한 키트가 입수 가능하다(로슈 다이어그노스틱스사(Roche Diagnostics), 미국 인디애나주 인디아나폴리스 소재, 퀴아젠사(Qiagen), 미국 캘리포니아주 발렌시아 소재), 매케레이-나젤사(Macherey-Nagel), 독일 듀렌 소재). cfDNA를 포함하는 생물학적 샘플은 염색체 이수성 및/또는 다양한 다형성을 검출할 수 있는 서열분석 검정에 의해서, 염색체 이상, 예를 들어, 삼중염색체(trisomy) 21의 존재 또는 부재를 결정하기 위해서 검정에서 사용되어 왔다.
각종 실시형태에서 샘플 중에 존재하는 DNA는 사용 전에(예컨대, 서열분석 라이브러리의 제조 전에) 특이적으로 또는 비-특이적으로 풍부화될 수 있다. 샘플 DNA의 비-특이적 풍부화는 DNA 서열분석 라이브러리를 제조하기 전에 샘플 DNA의 수준을 증가시키기 위해서 사용될 수 있는 샘플의 게놈 DNA 단편의 전체 게놈 증폭을 지칭한다. 비-특이적 풍부화는 하나를 초과하는 게놈을 포함하는 샘플에 존재하는 2개의 게놈 중 하나의 선택적인 풍부화일 수 있다. 예를 들어, 비-특이적 풍부화는 혈장 샘플에서 암 게놈에 선택적일 수 있는데, 이것은 공지된 방법에 의해서 획득되어 암의 상대적인 비율을 샘플 중의 정상 DNA까지 증가시킬 수 있다. 대안적으로, 비-특이적 풍부화는 샘플 중에 존재하는 게놈 둘 모두의 비-선택적인 증폭일 수 있다. 예를 들어, 비-특이적 증폭은 암 및 정상 게놈으로부터의 DNA의 혼합물을 포함하는 샘플 중의 암 및 정상 DNA에 대한 것일 수 있다. 전체 게놈 증폭은 당업계에 공지되어 있다. 축퇴성 올리고뉴클레오타이드-프라이밍된 PCR(DOP), 프라이머 연장 PCR 기술(PEP) 및 다중 대체 증폭(MDA)이 전체 게놈 증폭 방법의 예이다. 일부 실시형태에서, 상이한 게놈으로부터의 cfDNA의 혼합물을 포함하는 샘플은 혼합물 중에 존재하는 게놈의 cfDNA를 풍부화하지 않는다. 다른 실시형태에서, 상이한 게놈으로부터의 cfDNA의 혼합물을 포함하는 샘플은 샘플 중에 존재하는 게놈 중 임의의 것을 비-특이적으로 풍부화한다.
본 명세서에 기재된 방법이 적용되는 핵산(들)을 포함하는 샘플은 전형적으로 상기에 기재된 것과 같은 생물학적 샘플("시험 샘플")을 포함한다. 일부 실시형태에서, 서열분석될 핵산(들) 다수의 널리 공지된 방법 중 임의의 방법에 의해 정제되거나 분리된다.
따라서, 특정 실시형태에서 샘플은 정제 또는 분리된 폴리뉴클레오타이드를 포함하거나 이들로 본질적으로 이루어지거나, 또는 샘플, 예컨대, 조직 샘플, 생물학적 유체 샘플, 세포 샘플 등을 포함할 수 있다. 적합한 생물학적 유체 샘플은 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 림프액, 침, 뇌척수액, 래비지(ravage), 골수 현탁액, 질 유체, 자궁경부-통과 세척액, 뇌 유체, 복수, 모유, 호흡기 분비물, 장 및 비뇨생식관, 양수, 모유 및 류코포레시스(leukophoresis) 샘플을 포함하지만 이들로 제한되지 않는다. 일부 실시형태에서, 샘플은 비-침습성 절차에 의해 쉽게 얻을 수 있는 샘플, 예를 들어, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 타액 또는 대변이다. 특정 실시형태에서 샘플은 말초 혈액 샘플, 또는 말초 혈액 샘플의 혈장 및/또는 혈청 부분이다. 다른 실시형태에서, 생물학적 샘플은 면봉 또는 얼룩, 생검 시편 또는 세포 배양물이다. 또 다른 실시형태에서, 샘플은 2개 이상의 생물학적 샘플의 혼합물이고, 예컨대, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 둘 이상을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이 용어 "혈액", "혈장" 및 "혈청"은 명확하게 부분 또는 이의 가공된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 채취되는 경우, "샘플"은 명확하게 가공된 부분 또는 생검, 면봉, 얼룩 등으로부터 유래된 부분을 포함한다.
특정 실시형태에서, 샘플은 상이한 개체로부터의 샘플, 동일한 또는 상이한 개체의 상이한 발달 단계로부터의 샘플, 병에 걸린 상이한 개체(예를 들어, 유전적 장애를 가진 것으로 의심되는 개체)로부터의 샘플, 정상 개체로부터의 샘플, 개체의 상이한 질환 단계에서 얻어진 샘플, 질환에 대해 상이한 처리가 적용된 개체로부터 얻어진 샘플, 상이한 환경 인자에 적용된 개체로부터의 샘플, 병리학에 대한 소인을 지닌 개체로부터의 샘플, 감염성 질환 작용제(예를 들어, HIV)에 노출된 샘플 개체로부터의 샘플 등을 포함하지만 이들로 제한되지 않는 공급원으로부터 획득될 수 있다.
하나의 예시이지만 비제한적인 실시형태에서, 기관 이식의 샘플은 수증자로부터 얻은 수증자 샘플, 예컨대, 수증자로부터의 혈장 샘플인데, 이것은 수증자로부터 기원한 cfDNA 및 공여자로부터 이식된 조직 또는 기관 이식으로부터 기원한 cfDNA를 포함한다. 이러한 예에서, 샘플은 본 명세서에 기재된 방법을 사용하여 분석되어 수증자 및 공여자 DNA 부분을 정량한다. 수증자 샘플은 조직 샘플, 생물학적 유체 샘플, 또는 세포 샘플일 수 있다. 생물학적 유체는 비제한적인 예로서 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 가래, 귀 유체, 림프액, 침, 뇌척수액, 래비지, 골수 현탁액, 질 유체, 자궁경부-통과 세척액, 뇌 유체, 복수, 모유, 호흡기 분비물, 장 및 비뇨생식관 및 류코포레시스 샘플을 포함한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 수증자 샘플은 2개 이상의 생물학적 샘플의 혼합물이고, 예컨대, 생물학적 샘플은 생물학적 유체 샘플, 조직 샘플 및 세포 배양 샘플 중 둘 이상을 포함할 수 있다. 일부 실시형태에서, 샘플은 비-침습성 절차에 의해 쉽게 얻을 수 있는 샘플, 예를 들어, 혈액, 혈장, 혈청, 땀, 눈물, 가래, 소변, 모유, 가래, 귀 유체, 타액 및 대변이다. 일부 실시형태에서, 생물학적 샘플은 말초 혈액 샘플, 및/또는 혈장 및 이의 혈청 부분이다. 다른 실시형태에서, 생물학적 샘플은 면봉 또는 얼룩, 생검 시편 또는 세포 배양물의 샘플이다. 상기에 개시된 바와 같이, 용어 "혈액", "혈장" 및 "혈청"은 명확하게 부분 또는 이의 가공된 부분을 포함한다. 유사하게, 샘플이 생검, 면봉, 얼룩 등으로부터 채취되는 경우, "샘플"은 명확하게 가공된 부분 또는 생검, 면봉, 얼룩 등으로부터 유래된 부분을 포함한다.
특정 실시형태에서 샘플은 또한 시험관내에서 배양된 조직, 세포 또는 다른 폴리뉴클레오타이드-함유 공급원으로부터 획득될 수 있다. 배양된 샘플은 상이한 배지 및 조건(예컨대, pH, 압력 또는 온도)에서 유지된 배양물(예컨대, 조직 또는 세포), 상이한 기간 동안 유지된 배양물(예컨대, 조직 또는 세포), 상이한 인자 또는 시약(예컨대, 약물 후보물질 또는 조절제)로 처리된 배양물(예컨대, 조직 또는 세포) 또는 상이한 유형의 조직 및/또는 세포의 배양물을 포함하지만 이들로 제한되지 않는 공급원으로부터 취해질 수 있다.
생물학적 공급원으로부터 핵산을 분리시키는 방법은 널리 공지되어 있고 공급원의 특성에 따라서 다를 것이다. 당업자는 본 명세서에서 기술된 방법에 대해 필요한 대로 공급원으로부터 핵산을 쉽게 분리시킬 수 있다. 일부 경우에, 핵산 샘플에서 핵산 분자를 단편화시키는 것이 유익할 수 있다. 단편화는 무작위일 수 있거나, 또는 달성되는 바와 같이, 예를 들어, 제한 엔도뉴클레아제 소화를 사용하여 특이적일 수 있다. 무작위 단편화 방법은 당업계에 널리 공지되어 있고, 예를 들어, 제한 DNAse 소화, 알칼리 처리 및 물리적 전단을 포함한다. 일 실시형태에서, 샘플 핵산은 단편화에 적용되지 않은 cfDNA로부터 획득된다.
서열분석 라이브러리 제조
일 실시형태에서, 본 명세서에 기재된 방법은 다중 샘플이 게놈 분자로서(즉, 단일플렉스 서열분석) 또는 색인 처리된(indexed) 게놈 분자를 포함하는 풀링된 샘플로서(예컨대, 복합 서열분석) 단일 서열분석 작업 시 개별적으로 서열분석되는 것을 가능하게 하는 차세대 서열분석 기술(NGS)을 활용할 수 있다. 이들 방법은 DNA 서열의 최대 수 십억 개의 판독물을 생성시킬 수 있다. 다양한 실시형태에서 게놈 핵산 및/또는 색인 처리된 게놈 핵산의 서열은, 예를 들어, 본 명세서에 기재된 차세대 서열분석 기술(NGS)을 사용하여 결정될 수 있다. 다양한 실시형태에서 NGS를 사용하여 얻어진 다량의 서열 데이터의 분석은 본 명세서에 기재된 것과 같은 하나 이상의 프로세서를 사용하여 수행될 수 있다.
각종 실시형태에서 이러한 서열분석 기술의 사용은 서열분석 라이브러리의 제조를 포함하지 않는다.
그러나, 특정 실시형태에서 본 명세서에서 고려되는 서열분석 방법은 서열분석 라이브러리의 제조를 포함한다. 예시적인 일 접근법에서, 서열분석 라이브러리 제조는 서열분석될 준비가 되어 있는 어댑터-변형된 DNA 단편(예를 들어, 폴리뉴클레오타이드)의 무작위 집단의 생산을 포함한다. 폴리뉴클레오타이드의 서열분석 라이브러리는 DNA 또는 cDNA 중 어느 하나의 등가물, 유사체, 예를 들어, RNA 주형으로부터 생산된 DNA에 상보적이거나 카피인 DNA 또는 cDNA를 비롯한, DNA 또는 RNA로부터, 역전사효소의 작용에 의해 제조될 수 있다. 폴리뉴클레오타이드는 이중 가닥 형태(예를 들어, dsDNA, 예컨대, 게놈 DNA 단편, cDNA, PCR 증폭 생성물 등)에서 기원할 수 있거나 또는 특정 실시형태에서, 폴리뉴클레오타이드는 단일-가닥 형태(예를 들어, ssDNA, RNA 등)에서 기원할 수 있고, dsDNA 형태로 전환되었다. 예의 방식에 의해서, 특정 실시형태에서, 단일 가닥 mRNA 분자는 서열분석 라이브러리를 제조하는 데 사용하기에 적합한 이중-가닥 cDNA로 카피될 수 있다. 일차 폴리뉴클레오타이드 분자의 정확한 서열은 일반적으로 라이브러리 제조 방법에 대한 물질이 아니고, 공지되어 있거나 미지의 것일 수 있다. 일 실시형태에서, 폴리뉴클레오타이드 분자는 DNA 분자이다. 보다 특별하게는, 특정 실시형태에서, 폴리뉴클레오타이드 분자는 유기체의 전체 유전자 보체 또는 유기체의 실질적으로 전체 유전자 보체를 나타내고, 전형적으로 인트론 서열 및 엑손 서열(암호 서열) 둘 다, 뿐만 아니라 프로모터 및 인핸서 서열과 같은 비-암호 조절 서열을 포함하는 게놈 DNA 분자(예를 들어, 세포 DNA, 세포 유리 DNA(cfDNA) 등)이다. 특정 실시형태에서, 일차 폴리뉴클레오타이드 분자는 인간 게놈 DNA 분자, 예를 들어, 임신한 대상체의 말초 혈액 중에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 서열분석 플랫폼에 대한 서열분석 라이브러리의 제노는 특정 범위의 단편 크기를 포함하는 폴리뉴클레오타이드의 사용에 의해서 가능해진다. 이러한 라이브러리의 제조는 전형적으로 큰 폴리뉴클레오타이드(예를 들어, 세포 게놈 DNA)의 단편화를 포함하여 목적하는 크기 범위의 폴리뉴클레오타이드를 수득한다.
단편화는 당업자에게 공지된 다수의 방법 중 임의의 것에 의해 달성될 수 있다. 예를 들어, 단편화는 분무화, 초음파처리 및 수화전단(hydroshear)을 포함하지만 이들로 제한되지 않는 기계적 수단에 의해 달성될 수 있다. 그러나, 기계적 단편화는 전형적으로 DNA 골격을 C-O, P-O 및 C-C 결합에서 절단하여, 파괴된 C-O, P-O 및/ C-C 결합을 갖는, 뭉툭한 단부와 3'- 및 5'-오버행잉 단부의 이질성 믹스를 초래하고(예를 들어, 문헌[Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]] 참고), 그것은 서열분석을 위한 DNA를 제조하기 위해 필요한 후속 효소 반응, 예를 들어, 서열분석 어댑터의 결찰을 위해 필요한 5'-포스페이트가 결핍될 수 있기 때문에 수선될 필요가 있을 수 있다.
대조적으로, cfDNA는 전형적으로 약 300개 염기쌍보다 작은 단편으로서 존재하고, 그 결과, 단편화는 cfDNA 샘플을 사용하여 서열분석 라이브러리를 생성하기 위해서는 전형적으로 필요하지는 않다.
전형적으로, 폴리뉴클레오타이드가 강제로 단편화되든(예를 들어, 시험관 내에서 단편화됨) 또는 자연적으로 단편으로서 존재하든 간에, 이것은 5'-포스페이트 및 3'-하이드록실을 갖는 뭉툭한-단부의 DNA로 전환된다. 표준 프로토콜, 예컨대, 예를 들어, 본 명세서 다른 곳에 기재된 바와 같은 일루미나 플랫폼을 사용하는 서열분석을 위한 프로토콜은, 단부-수선 샘플 DNA의 사용자가 dA-테일링 이전에 단부-수선된 생성물을 정제하고, 라이브러리 제조의 어댑터-결찰 단계 전에 dA-테일링 생성물을 정제시키도록 한다.
본 명세서에 기재된 서열 라이브러리 제조 방법의 다양한 실시형태는 NGS에 의해 서열분석될 수 있는 변형된 DNA 산물을 획득하기 위해서 표준 프로토콜에 의해서 전형적으로 지시된 단계 중 하나 이상을 수행할 필요를 제거한다. 생략된 방법(ABB 방법), 1-단계 방법 및 2-단계 방법은 2012년 7월 20일자로 출원된 특허 출원 제13/555,037호(전체 내용은 본 명세서에 참고로 포함됨)에서 찾아볼 수 있는 서열분석 라이브러리의 제조를 위한 방법의 예다.
서열분석 방법
상기에 제시된 바와 같이, 제조된 샘플(예를 들어, 서열분석 라이브러리)은 DNA 혼합물 샘플을 정량 및 데콘볼빙하기 위한 절차의 부분으로서 서열분석된다. 다수의 서열분석 중 임의의 것이 사용될 수 있다.
일부 서열분석 기술은 상업적으로 입수 가능하고, 예컨대, 하기에 기재된 바와 같은 어피메트릭스사(Affymetrix Inc.)(미국 캘리포니아주 서니베일 소재)로부터의 혼성화에 의한 서열분석 플랫폼(sequencing-by-hybridization platform) 및 454 라이프 사이언시스사(Life Sciences)(미국 코네티컷주 브렌포드 소재), 일루미나/솔렉사사(Solexa)(미국 캘리포니아주 헤이워드 소재) 및 헬리코스 바이오사이언시스사(미국 매사추세츠주 케임브리지 소재)로부터의 합성에 의한 서열분석 플랫폼, 및 어플라이드 바이오시스템즈사(Applied Biosystems)(미국 캘리포니아주 포스터 시티 소재)로부터의 결찰에 의한 서열분석 플랫폼(sequencing-by-ligation platform)이다. 헬리코스 바이오사이언시스사(Helicos Biosciences)의 합성에 의한 서열분석을 사용하여 수행된 단일 분자 서열분석에 더하여, 다른 단일 분자 서열분석 기술은 퍼시픽 바이오사이언시스사(Pacific Biosciences)의 SMRTTM 기술, ION TORRENTTM 기술 및 예를 들어, 옥스포드 나노포어 테크놀로지스사(Oxford Nanopore Technologies)에 의해 개발된 나노포어 서열분석을 포함하지만 이들로 제한되지 않는다.
자동화 생어(Sanger) 방법은 '제1 세대' 기술로 여겨지는 한편, 자동화 생어 서열분석을 비롯한 생어 서열분석이 또한 본 명세서에 기재된 방법에서 사용될 수 있다. 추가의 적합한 서열분석 방법은, 핵산 영상화 기술, 예컨대, 원자력 현미경(AFM) 또는 투과 전자 현미경(TEM)을 포함하지만 이들로 제한되지 않는다. 예시적인 서열분석 기술은 하기에 더 상세하게 기재된다.
일 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 개시된 방법은 일루미나의 합성에 의한 서열분석 및 가역적 터미네이터-기반 서열분석 화학(예를 들어, 문헌[Bentley et al., Nature 6:53-59 [2009]]에 기재된 바와 같음)을 사용하여, 암 등에 대해서 스크리닝될 대상체에서 시험 샘플 중의 핵산, 예를 들어, 공여자 DNA 및 수증자 DNA, cfDNA 또는 세포 DNA를 포함하는 수증자 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. 주형 DNA는 게놈 DNA, 예를 들어, 세포 DNA 또는 cfDNA일 수 있다. 일부 실시형태에서, 단리된 세포로부터의 게놈 DNA는 주형으로서 사용되고, 그것은 수 백 개의 염기쌍의 길이로 단편화된다. 다른 실시형태에서, cfDNA가 주형으로서 사용되고, 단편화는 cfDNA로서 필요하지 않은데 그 이유는 ctDNA가 짧은 단편으로서 존재하기 때문이다. 예를 들어, 태아 cfDNA는 혈류에서 대략 170개 염기쌍(bp) 길이의 단편으로서 순환하고(Fan et al., ClinChem 56:1279-1286 [2010]), DNA의 단편화는 서열분석 전에는 필요하지 않다. 순환하는 종양 DNA는 또한 짧은 단편으로 존재하고, 크기 분포는 약 150 내지 170bp에서 최대이다. 일루미나의 서열분석 기술은 상부에 올리고뉴클레오타이드 앵커가 결합되는 평면의, 선택적으로 투명한 표면에 대한 단편화된 게놈 DNA의 부착에 좌우된다. 주형 DNA는 단부-수선되어 5'-포스포릴화된 뭉툭한 단부를 생성하고, 클레노우(Klenow) 단편의 폴리머라제 활성은 뭉툭한 포스포릴화된 DNA단편의 3' 단부에 단일 A 염기를 첨가하기 위해 사용된다. 이러한 첨가는 올리고뉴클레오타이드 어댑터에의 결찰을 위한 DNA 단편을 제조하는데, 그것은 결찰 효율을 증가시키기 위해 3' 단부에서 단일 T 염기의 오버행을 갖는다. 어댑터 올리고뉴클레오타이드는 플로우-셀 앵커 올리고(flow-cell anchor oligo)에 상보적이다(반복적인 확장의 분석에서 앵커/앵커링된 판독물과 혼동되지 않을 것임). 제한-희석 조건하에서, 어댑터-변형된, 단일-가닥의 주형 DNA가 플로우 셀(flow cell)에 첨가되고, 앵커 올리고에 대한 혼성화에 의해 고정된다. 부착된 DNA 단편은 연장되고, 브리지 증폭되어 수 백 내지 수 백만의 클러스터를 갖고, 각각 약 1,000개의 동일 주형 카피를 함유한, 초고밀도 서열분석 플루우 셀을 생성한다. 일 실시형태에서, 무작위로 단편화된 게놈 DNA는 클러스터 증폭에 적용되기 전에 PCR을 사용하여 증폭된다. 대안적으로, 무-증폭(amplification-free)(예를 들어, 무 PCR) 게놈 라이브러리 제조가 사용되고, 무작위로 단편화된 게놈 DNA가 클러스터 증폭을 단독으로 사용하여 풍부화된다(Kozarewa et al., Nature Methods 6:291-295 [2009]), 주형은 제거 가능한 형광 염료를 갖는 가역성 터미네이터를 사용하는, 강력한 4-색 DNA 합성에 의한 서열분석 기술을 사용하여 서열분석된다. 고-민감성 형광 검출은 레이저 여기 및 전(total) 내부 반사 광학 장치를 사용하여 달성된다. 약 10 내지 수 백개의 염기쌍의 짧은 서열 판독물이 기준 게놈에 대해 정렬되고, 짧은 서열 판독의 기준 게놈에 대한 고유한 맵핑은 특별히 개발된 데이터 분석 파이프라인 소프트웨어를 사용하여 식별된다. 제1 판독의 완결 후에, 주형은 동일계에서 재생되어 단편의 반대 단부로부터 제2 판독을 가능하게 한다. 따라서, DNA 단편의 단일-단부 또는 쌍을 이룬 단부 서열분석 모두가 사용될 수 있다.
본 개시내용의 다양한 실시형태는 페어드 엔드 서열분석을 허용하는 합성에 의한 서열분석을 사용할 수 있다. 일부 실시형태에서, 일루미나에 의한 합성 플랫폼에 의한 서열분석은 단편을 클러스터링하는 것을 포함한다. 클러스터링은 각 단편 분자가 등온적으로 증폭되는 공정다. 일부 실시형태에서, 본 명세서에 기재된 예로서, 단편은 단편의 양 단부에 부착된 2개의 상이한 어댑터를 갖고, 어댑터는 단편이 플로우 셀 레인의 표면의 2개의 상이한 올리고와 혼성화하는 것을 허용한다. 단편은 추가로 단편의 양 단부에서 2개의 색인 서열을 포함하거나 그에 연결되며, 색인 서열은 복합 서열분석에서 상이한 샘플을 식별하기 위한 표지를 제공한다. 일부 서열분석 플랫폼에서, 서열분석될 단편은 또한 삽입물로서 언급된다.
일부 구현예에서, 일루미나 플랫폼에서 클러스터링되기 위한 플로우 셀은 레인을 갖는 유리 슬라이드이다. 각각의 레인은 두 유형의 올리고의 론으로 코팅된 유리 채널이다. 혼성화는 표면 상의 두 유형의 올리고 중 제1 올리고에 의해 가능해진다. 이 올리고는 단편의 한 단부상의 제1 어댑터에 상보적이다. 폴리머라제는 혼성화된 단편의 보체 가닥을 생성한다. 이중 가닥 분자는 변성되고, 본래 주형 가닥은 세척된다. 많은 다른 남아있는 가닥과 평행한 나머지 가닥은 브리지 응용을 통해 클론적으로 증폭된다.
브리지 증폭에서, 가닥은 접히고, 가닥의 제2 단부 상의 제2 어댑터 영역은 플로우 셀 표면의 제2 유형의 올리고와 혼성화된다. 폴리머라제는 상보성 가닥을 생성하여 이중-가닥 브리지 분자를 형성한다. 이러한 이중 가닥 분자는 변성되어 2개의 상이한 올리고를 통해 플로우 셀에 테더링된 2개의 단일 가닥 분자를 초래한다. 이러한 공정은 이어서 여러 번 반복되고, 동시에 수 백만 개의 클러스터에 대해 일어나서 모든 단편의 클론적 증폭을 초래한다. 브리지 증폭 후에, 역 가닥은 절단되고, 세척되어 정방향 가닥 만이 남는다. 3' 단부는 차단되어 원하지 않는 프라이밍이 방지된다.
클러스터링 후에, 서열분석은 제1 서열분석 프라이머 연장으로 시작하여 제1 판독물을 생성시킨다. 각 사이클로, 형광 태그 처리된뉴클레오타이드가 성장하는 쇄에 첨가되기 위해서 경쟁한다. 단지 하나만이 주형의 서열을 기반으로 통합된다. 각 뉴클레오타이드가 첨가된 후에, 클러스터는 광원에 의해 여기되고, 특징적인 형광 신호가 방출된다. 주기의 수가 판독물의 길이를 결정한다. 방출 파장 및 신호 강도가 염기 콜링(base call)을 결정한다. 주어진 클러스터에 대해서, 모든 동일한 가닥이 동시에 판독된다. 수 백만 개의 클러스터 중 수 백 개가 대량 병렬 방식으로 서열분석된다. 제1 판독물이 완결되었을 때, 판독물 생성물이 세척된다.
2개의 색인 프라이머를 포함하는 프로토콜의 다음 단계에서, 색인 1 프라이머가 도입되고 주형 상의 색인 1 영역에 혼성화된다. 색인 영역은 단편의 식별을 제공하는데, 이것은 복합 서열분석 공정에서 샘플의 탈복합화에 유용하다. 색인 1 판독은 제1 판독물과 유사하게 생성된다. 색인 1 판독의 완결 후에, 판독물 생성물은 세척되고, 가닥의 3' 단부가 탈보호된다. 이어서 주형 가닥이 접히고, 플로우 셀 상의 제2 올리고에 결합한다. 색인 2 서열은 색인 1과 동일한 방식의 판독물이다. 이어서 색인 2 판독 생성물은 그 단계가 완료될 때 세척된다.
2개의 색인의 판독 후에, 판독 2는 폴리머라제를 사용함으로써 개시되어 제2 플로우 셀 올리고가 연장되어, 이중 가닥 브리지가 형성된다. 이러한 이중-가닥 DNA는 변성되고, 3' 단부가 차단된다. 본래의 정방향 가닥은 절단되고 세척되어, 역방향 가닥이 남겨진다. 판독 2는 판독 2 서열분석 프라이머의 도입으로 시작된다. 판독 1과 같이, 서열분석 단계는 원하는 길이가 달성될 때까지 반복된다. 판독 2 생성물이 세척된다. 이 전체 공정은 모든 단편을 나타내는 수 백만 개의 판독을 생성한다. 풀링된 샘플 라이브러리로부터 서열은 샘플 제조 중에 도입된 고유한 색인을 기반으로 분리된다. 각 샘플에 대해, 염기 콜링의 유사한 스트레치의 판독물이 국소적으로 클러스터링된다. 정방향 및 역방향 판독물은 쌍을 이루어 연속 서열을 생성한다. 이들 연속 서열은 변이체 식별을 위해 기준 게놈에 정렬된다.
상기 기재된 합성에 의한 서열분석 예는 페어드 엔드 판독물을 포함하며, 그것은 개시된 방법의 많은 실시형태에서 사용된다. 페어드 엔드 서열분석은 단편의 두 단부로부터의 2개의 판독물을 포함한다. 판독물 쌍이 기준 서열에 맵핑되는 경우, 2개의 판독물 사이의 염기 쌍 거리가 결정될 수 있는데, 이어서 그 거리를 사용하여 판독물이 획득된 단편의 길이를 결정할 수 있다. 일부 예에서, 2개의 빈을 스트래들링(straddling)하는 단편은 하나의 빈에 정렬된 이의 페어 엔드 판독물 중 하나 및 인접한 빈에 정렬된 나머지 것을 가질 것이다. 이것은, 빈이 더 길어지거나 판독물이 더 짧아짐에 따라서 더 희귀해 진다. 다양한 방법을 사용하여 이러한 단편의 빈-멤버십을 설명할 수 있다. 예를 들어, 이것은 빈의 단편 크기 빈도를 결정할 때 생략될 수 있고; 이것은 인접한 빈 둘 다에 대해서 의존될 수 있고; 이것은 2개의 빈의 더 많은 염기 쌍을 포함하는 빈에 배정될 수 있거나; 또는 이것은 각각의 빈 내의 염기 쌍의 부분에 관련된 중량을 갖는 빈 둘 다에 배정될 수 있다.
페어드 엔드 판독물은 상이한 길이(즉, 서열측정될 상이한 단편 크기)의 삽입물을 사용할 수 있다. 본 개시내용에서 디폴트 의미로서, 페어드 엔드 판독물은 다양한 삽입물 길이로부터 획득된 판독물을 지칭하기 위해서 사용된다. 일부 예에서, 긴-삽입물 페어드 엔드 판독물로부터 짧은-삽입물 페어드 엔드 판독물을 구별하기 위해서, 후자는 또한 메이트 쌍 판독물로서 지칭된다. 메이트 쌍 판독물을 포함하는 일부 실시형태에서, 2개의 바이오틴 접합 어댑터는 먼저 상대적으로 긴 삽입물(예를 들어, 수 kb)의 두 단부에 부착된다. 바이오틴 접합 어댑터는 이어서 삽입물의 두 단부를 연결시켜 원형화된 분자를 형성한다. 바이오틴 접합 어댑터를 포함하는 하위-단편은 이어서 원형화된 분자를 추가로 단편화함으로써 획득될 수 있다. 반대 서열 순서의 본래 단편의 두 단부를 포함하는 하위-단편은 이어서 상기 기재된 짧은-삽입물 페어드 엔드 서열분석과 동일한 과정에 의해 서열분석될 수 있다. 일루미나 플랫폼을 사용하는 메이트 쌍 서열분석의 추가의 상세한 설명은 전문이 참고로 포함되는 하기 URL에 온라인 공개로 제시된다: res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing. 페어드 엔드 서열분석에 대한 추가 정보는 페어드 엔드 서열분석 방법 및 장치에 대한 물질과 관련하여 참고로 포함된 미국 특허 제7601499호 및 미국 특허 공개 제2012/0,053,063호에서 찾아볼 수 있다.
DNA 단편의 서열분석 후, 미리 결정된 길이, 예를 들어, 100 bp의 서열 판독물은 공지된 기준 게놈에 맵핑되거거 정렬된다. 맵핑되거나 정렬된 판독물 및 기준 서열 상의 이의 상응하는 위치는 태그라고도 지칭된다. 일 실시형태에서, 기준 게놈 서열은 NCBI36/hg18 서열이고, 이것은 genome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)의 월드 와이드 웹 상에서 입수 가능하다. 대안적으로, 기준 게놈 서열은 GRCh37/hg19이고, 이것은 genome dot ucsc dot edu/cgi-bin/hgGateway의 월드 와이드 웹 상에서 입수 가능하다. 공공 서열 정보의 다른 공급원은 GenBank, dbEST, dbSTS, EMBL(더 유럽피안 몰레큘러 바이올로지 래보러토리사(the European Molecular Biology Laboratory)) 및 DDBJ(더 DNA 데이터뱅크 오브 재팬(the DNA Databank of Japan))을 포함한다. BLAST(Altschul et al., 1990), BLITZ(MPsrch)(Sturrock & Collins, 1993), FASTA(Person & Lipman, 1988), BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]) 또는 ELAND(일루미나사(Illumina, Inc.), 미국 캘리포니아주 샌디에고 소재)를 포함하지만 이들로 제한되지 않는 다수의 컴퓨터 프로그램이 서열을 정렬하기 위해서 사용 가능하다. 일 실시형태에서, 혈장 cfDNA 분자의 클론적으로 확장된 카피의 한 단부가 서열분석되고, 뉴클레오타이드 데이터베이스의 효율적인 대규모 정렬(Efficient Large-Scale Alignment of Nucleotide Databases: ELAND) 소프트웨어를 사용하는 일루미나 게놈 분석기에 대한 생체정보 정렬 분석에 의해 가공된다.
일 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 헬리코스 실제 단일 분자 서열분석(Helicos True Single Molecule Sequencing: tSMS) 기술(예를 들어, 문헌[Harris T.D. et al., Science 320:106-109 [2008]]에 기재됨)을 사용하여 암 등에 대해서 스크리닝될 대상체에서 시험 샘플 중의 핵산, 예를 들어, 수증자 및 공여자 DNA, cfDNA 또는 세포를 비롯한 수증자 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. tSMS 기술에서, DNA 샘플은 대략 100 내지 200개의 뉴클레오타이드의 가닥으로 절단되고, 폴리A 서열이 각각의 DNA 가닥의 3' 단부에 첨가된다. 각각의 가닥은 형광 표지된 아데노신 뉴클레오타이드의 첨가에 의해 표지된다. 이어서 DNA 가닥은 플로우 셀 표면에 고정된 수 백만 개의 올리고-T 캡처 부위를 함유하는 플로우 셀에 혼성화된다. 특정 실시형태에서, 주형은 약 1억개의 주형/cm2의 밀도일 수 있다. 이어서 플로우 셀은 기기, 예컨대, HeliScopeTM 서열분석기 내에 로딩되고, 레이저가 유동 셀의 표면을 조명하면, 각각의 주형의 위치가 드러난다. CCD 카메라가 플로우 셀 표면에서 주형의 위치를 맵핑할 수 있다. 이어서 주형 형광 표지가 절단되고 세척된다. 서열분석 반응은 DNA 폴리머라제 및 형광 표지된 뉴클레오타이드가 도입됨으로써 시작한다. 올리고-T 핵산은 프라이머로서 작용한다. 폴리머라제는 표지된 뉴클레오타이드를 주형 지시된 방식으로 프라이머에 혼입한다. 폴리머라제 및 비혼입된 뉴클레오타이드는 제거된다. 형광 표지된 뉴클레오타이드의 혼입을 지시한 주형은 플로우 셀 표면을 영상화함으로써 파악된다. 영상화 후에, 절단 단계가 형광 표지를 제거하고, 공정은 원하는 판독 길이가 달성될 때까지 다른 형광 표지된 뉴클레오타이드로 반복된다. 서열 정보는 각각의 뉴클레오타이드 첨가 단계로 수집된다. 단일 분자 서열분석 기술에 의한 전체 게놈 서열분석은 서열분석 라이브러리의 제조 시 PCR-기반 증폭을 배제하거나 전형적으로 제거하고, 방법은 그 샘플의 카피의 측정보다는 샘플의 직접적인 측정을 허용한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 454 서열분석(로슈사)(예를 들어, 문헌[Margulies, M. et al. Nature 437:376-380 [2005]]에 기재됨)을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 수증자 시험 샘플 중의 cfDNA, 예컨대, 수증자 및 공여자 DNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 454 서열분석은 전형적으로 2개의 단계를 포함한다. 제1 단계에서, DNA는 대략 300 내지 800개 염기쌍의 단편으로 전단되고, 단편은 뭉툭한-단부이다. 이어서 올리고뉴클레오타이드 어댑터가 단편의 단부에 결찰된다. 어댑터는 단편의 증폭 및 서열분석에 대한 프라이머로서 작용한다. 단편은 DNA 캡처 비드, 예를 들어, 스트렙타비딘-코팅된 비드에 5'-바이오틴 태그를 함유하는, 예를 들어, 어댑터 B를 사용하여 부착될 수 있다. 비드에 부착된 단편은 유수 에멀션의 방울 내에서 PCR 증폭된다. 그 결과는 각각의 비드 상의 클론적으로 증폭된 DNA 단편의 다중 카피이다. 제2 단계에서, 비드는 웰(예를 들어, 피코리터-크기의 웰)에 캡처된다. 열적 서열분석은 각각의 DNA 단편에 대해 병렬로 수행된다. 하나 이상의 뉴클레오타이드의 첨가는 서열분석 장비에서 CCD 카메라에 의해 기록되는 광신호를 생성한다. 신호 강도는 혼입된 뉴클레오타이드의 수에 비례한다. 열적 서열분석은 뉴클레오타이드 첨가 시 방출되는 파이로포스페이트(PPi)를 사용한다. PPi는 아데노신 5' 포스포설페이트의 존재 하에 ATP 설퍼릴라제에 의해서 ATP로 전환된다. 루시페라제는 루시페린을 옥시루시페린으로 전환시키기 위해 ATP를 사용하고, 이러한 반응은 광을 생성시키고, 이것은 측정되고 분석된다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 SOLiDTM 기술(어플라이드 바이오시스템즈사(Applied Biosystems))을 사용하여 암 등에 대해서 스크리닝될 대상체에서 시험 샘플 중의 핵산, 예를 들어, 수증자 시험 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. SOLiDTM 결찰에 의한 서열분석에서, 게놈 DNA는 단편으로 전단되고, 어댑터가 단편의 5' 및 3' 단부에 부착되어 단편 라이브러리를 생성시킨다. 대안적으로, 내부 어댑터는, 단편의 5' 및 3' 단부에 어댑터를 결찰시키고, 단편을 원형화시키고, 원형화된 단편을 소화시켜서 내부 어댑터를 생성시키고, 어댑터를 생성된 단편의 5' 및 3' 단부에 부착하여 메이트-쌍 라이브러리를 생성시킴으로써 도입될 수 있다. 다음으로, 클론성 비드 집단이 비드, 프라이머, 주형 및 PCR 성분을 함유하는 마이크로반응기에서 제조된다. PCR에 이어서, 주형은 변성되고 비드는 풍부화되어 연장된 주형을 갖는 비드를 분리한다. 선택된 비드 상의 주형은 유리 슬라이드에 대한 결합을 허용하는 3' 변형에 적용된다. 서열은 순차적인 혼성화 및 부분적으로 무작위한 올리고뉴클레오타이드와 특이적 형광단에 의해 식별되는 중심의 결정된 염기(또는 염기쌍)와의 결찰에 의해 결정될 수 있다. 색이 기록된 후에, 결찰된 올리고뉴클레오타이드가 절단 및 제거된 후 공정이 반복된다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 퍼시픽 바이오사이언시스사(Pacific Biosciences)의 단일 분자 실시간(single molecule, real-time: SMRTTM) 서열측정 기술을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 수증자 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. SMRT 서열분석에서, 염료-표지된 뉴클레오타이드의 연속적인 혼입은 DNA 합성 동안 영상화된다. 단일 DNA 폴리머라제 분자는 서열 정보를 얻는 개별적인 0-모드 파장 검출기(ZMW 검출기)의 하부 표면에 부착되는 반면, 포스포 연결된 뉴클레오타이드는 성장하는 프라이머 가닥에 혼입된다. ZMW 검출기는 ZMW 외부에서(예를 들어, 마이크로초 내에) 신속하게 확산되는 형광 뉴클레오타이드의 배경에 대해서 DNA 폴리머라제에 의한 단일 뉴클레오타이드의 혼입의 관찰을 가능하게 하는 가둠 구조(confinement structure)를 포함한다. 전형적으로 성장하는 가닥으로 뉴클레오타이드를 혼입시키는 데에 수 밀리초가 걸린다. 이 시간 동안에, 형광 표지가 여기되고 형광 신호를 생성하며, 형광 태그가 절단된다. 염료의 해당 형광의 측정은 어떤 염기가 혼입되었는지를 나타낸다. 공정은 반복되어 서열을 제공한다.
또 다른 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 나노포어 서열결정(예를 들어, 문헌[Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]]에 기술됨)을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 모계 또는 수증자 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 나노포어 서열분석 DNA 분석 기술은 예를 들어, 옥스포드 나노포어 테크놀로지스사(Oxford Nanopore Technologies)(영국 옥스포드 소재), Sequenom, NABsys 등을 비롯한 다수의 회사에 의해 개발되었다. 나노포어 서열분석은 DNA의 단일 분자가 나노포어를 통과함에 따라서 직접 서열분석되는 단일-분자 서열분석 기술이다. 나노포어는 작은 구멍, 전형적으로 직경이 1 나노미터 정도이다. 나노포어의 전도성 유체에의 담금 및 그것을 가로지르는 전위(전압)의 인가는 나노포어를 통한 이온의 전도로 인해서 약한 전류를 초래한다. 흐르는 전류의 양은 나노포어의 크기 및 형상에 민감하다. DNA 분자가 나노포어를 통해 통과함에 따라, DNA 분자 상의 각각의 뉴클레오타이드는 나노포어를 상이한 정도로 막아서, 나노포어를 통한 전류의 크기를 상이한 정도로 변화시킨다. 따라서, 나노포어를 통한 DNA 분자의 통과 따른 이러한 전류의 변화는 DNA 서열의 판독을 제공한다.
일 예시적이지만 비제한적인 실시형태에서, 본 명세서에 기재된 방법은 화학-감응성 전계 효과 트랜지스터(chemical-sensitive field effect transistor: chemFET) 어레이(예를 들어, 미국 특허 출원 공개 제2009/0026082호에 기술됨)를 사용하여 시험 샘플 중의 핵산, 예를 들어, 수증자 시험 샘플 중의 cfDNA, 암 등에 대해서 스크리닝될 대상체에서의 cfDNA 또는 세포 DNA에 대한 서열 정보를 획득하는 것을 포함한다. 이러한 기술의 일례에서, DNA 분자는 반응 챔버에 배치될 수 있고, 주형 분자는 폴리머라제에 결합된 서열분석 프라이머에 혼성화될 수 있다. 서열분석 프라이머의 3' 단부에서 하나 이상의 트라이포스페이트의 새로운 핵산 가닥 내의 혼입은 chemFET에 의한 전류의 변화로서 인지될 수 있다. 어레이는 다중 chemFET 센서를 가질 수 있다. 다른 예에서, 단일 핵산은 비드에 부착될 수 있고, 핵산은 비드 상에서 증폭될 수 있으며, 개별 비드는 각각의 챔버가 chemFET 센서를 갖는 chemFET 어레이 상의 개별 반응 챔버로 전달될 수 있고, 핵산이 서열분석될 수 있다.
또 다른 실시형태에서, 본 발명의 방법은 투과 전자 현미경(transmission electron microscopy: TEM)을 사용하여 시험 샘플 중의 핵산, 예를 들어, 수증자 시험 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. 개별 분자 배치 신속 나노 전달(Individual Molecule Placement Rapid Nano Transfer: IMPRNT)이라고 지칭되는 방법은 중원자 마커로 선택적으로 표지된 고분자량(150kb 이상) DNA의 단일 원자 해상도 투과 전자 현미경 영상화를 사용하고, 이러한 분자를 일관된 염기-대-염기 간격을 갖는 초고밀도(3nm 가닥-대-가닥) 병렬 어레이로 초고박막 상에 배열하는 것을 포함한다. 전자 현미경을 사용하여 필름 상의 분자를 영상화하여 중원자 마커의 위치를 결정하고, DNA로부터 염기 서열 정보를 추출한다. 방법은 PCT 특허 공개 제WO 2009/046445호에 추가로 기재되어 있다. 이 방법은 전체 인간 게놈을 10분 미만 이내에 서열분석하는 것을 가능하게 한다.
또 다른 실시형태에서, DNA 서열분석 기술은 Ion Torrent 단일 분자 서열분석이며, 그것은 반도체 칩 상에서 화학적으로 암호화된 정보(A, C, G, T)를 디지털 정보(0, 1)로 직접 번역하기 위해 반도체 기술과 단순한 서열분석 화학을 짝지운 것이다. 본래, 뉴클레오타이드가 폴리머라제에 의해서 DNA의 가닥에 혼입될 때, 수소 이온이 부산물로서 방출된다. Ion Torrent는 미세-기계화된 웰의 고밀도 어레이를 사용하여 이러한 생화학적 공정을 대량 병렬 방식으로 수행한다. 각각의 웰은 상이한 DNA 분자를 붙잡는다. 웰 아래에는 이온-감응성 층이 있고, 그 아래에는 이온 센서가 있다. 뉴클레오타이드, 예를 들어, C가 DNA 주형에 첨가된 후, DNA의 가닥에 혼입되면, 수소 이온이 방출될 것이다. 그 이온으로부터의 전하는 용액의 pH를 변화시킬 것이고, 그것은 Ion Torrent의 이온 센서에 의해 검출될 수 있다. 서열분석기-본질적으로 세계의 가장 작은 고체-상태 pH 측정기-는 염기를 콜링하고, 직접 화학적 정보로부터 디지털 정보로 이동한다. 이어서, 이온 퍼스널 게놈 기계(PGMTM) 서열분석기가 칩을 하나의 뉴클레오타이드에 이어서 또 다른 것으로 순차적으로 플러딩(flood)시킨다. 칩을 플러딩한 다음 뉴클레오타이드가 매치가 아니면, 전압 변화는 기록되지 않을 것이고, 어떠한 염기도 콜링되지 않을 것이다. DNA 가닥 상에 2개의 동일한 염기가 존재하면, 전압은 배가될 것이고, 칩은 콜링된 2개의 동일한 염기를 기록할 것이다. 직접 검출은 수 초 내에 뉴클레오타이드 혼입의 기록을 허용한다.
또 다른 실시형태에서, 본 발명의 방법은 혼성화에 의한 서열결정을 사용하여, 시험 샘플 중의 핵산, 예를 들어, 수증자 시험 샘플 중의 cfDNA에 대한 서열 정보를 획득하는 것을 포함한다. 혼성화에 의한 서열분석은 복수의 폴리뉴클레오타이드 서열을 복수의 폴리뉴클레오타이드 프로브와 접촉시키는 것을 포함하고, 여기서 복수의 폴리뉴클레오타이드 프로브 각각은 선택적으로 기질에 테더링될 수 있다. 기질은 공지된 뉴클레오타이드 서열의 어레이를 포함하는 평평한 표면일 수 있다. 어레이에 대한 혼성화 패턴을 사용하여 샘플에 존재하는 폴리뉴클레오타이드 서열을 결정할 수 있다. 다른 실시형태에서, 각각의 프로브는 비드, 예를 들어, 자성 비드 등에 테더링된다. 비드에 대한 혼성화는 결정될 수 있고, 이를 사용하여 샘플 내의 복수의 폴리뉴클레오타이드 서열을 식별할 수 있다.
본 명세서에 기재된 방법의 일부 실시형태에서, 맵핑된 서열 태그는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp의 서열 판독물을 포함한다. 기술적 진보는 500bp보다 큰 단일-단부 판독물을 가능하게 할 것이고 그것은 페어드 엔드 판독물이 생성될 때 약 1000bp보다 큰 판독물을 가능하게 할 것이라고 예상된다. 일 실시형태에서, 맵핑된 서열 태그는 36bp인 서열 판독물을 포함한다. 서열 태그의 맵핑은 태그의 서열을 기준 서열과 비교하여 서열측정된 핵산(예를 들어 cfDNA) 분자의 염색체 기원을 결정함으로써 달성되고, 특이적 유전적 서열 정보는 필요하지 않다. 작은 정도의 미스매치(서열 태그당 0 내지 2개의 미스매치)는 혼합된 샘플에서 기준 게놈과 게놈 사이에 존재할 수 있는 미미한 다형성을 설명하는 것을 가능하게 할 수 있다.
샘플당 복수의 서열 태그가 전형적으로 획득된다. 일부 실시형태에서, 75bp 사이의 판독물을 포함하는 적어도 약 1×105개의 서열 태그가 판독물을 샘플당 참조 게놈에 맵핑하여 획득된다.
DNA 혼합물 샘플을 정확하게 정량하는 데 필요한 정확도는, 서열분석 실시에서 샘플 중에서 기준 게놈에 맵핑하는 서열 태그의 수의 변동(실시 간(inter-run) 변동성) 및 상이한 서열측정 실시에서 기준 게놈에 맵핑하는 서열 태그의 수의 변동(실시 간 변동성)에 대해서 예측된다. 다른 변동은 핵산의 추출 및 정제를 위한 상이한 프로토콜의 사용, 서열분석 라이브러리의 제조 및 상이한 서열분석 플랫폼의 사용으로부터 초래할 수 있다.
다수의 공급원으로부터의 핵산의 혼합물을 데콘볼빙 및 정량하기 위한 장치 및 시스템
서열분석 데이터의 분석 및 그것으로부터 유래된 진단은 전형적으로 다양한 컴퓨터 프로그램을 사용하여 수행된다. 따라서, 특정 실시형태는 하나 이상의 컴퓨터 시스템 또는 다른 처리 시스템에 저장되거나 또는 그것을 통해 전달된 데이터를 포함하는 공정을 사용한다. 본 명세서에 개시된 실시형태는 또한 이러한 작업을 수행하기 위한 장치에 관련된다. 이 장치는 필요한 목적에 대해 특별하게 구축되거나, 또는 컴퓨터 프로그램 및/또는 그 컴퓨터에 저장된 데이터 구조에 의해 선택적으로 활성화되거나 또는 재구성된 일반적인 목적의 컴퓨터(또는 컴퓨터의 군)일 수 있다. 일부 실시형태에서, 프로세서의 군은 인용된 분석적 작업의 일부 또는 전부를 협동적으로(예를 들어, 네트워크 또는 클라우드 컴퓨팅을 통해) 그리고/또는 병렬로 수행한다. 본 명세서에 기재된 방법을 수행하기 위한 프로세서 또는 프로세서의 군은 마이크로콘트롤러 및 마이크로프로세서, 예컨대, 프로그래밍 가능한 디바이스(예를 들어, CPLD 및 FPGA) 및 프로그래밍 가능하지 않은 디바이스, 예컨대, 게이트 어레이 ASIC 또는 일반 목적의 마이크로프로세서를 비롯한 다양한 유형의 것일 수 있다.
또한, 특정 실시형태는 다양한 컴퓨터-구현된 작업을 수행하기 위한 프로그램 명령 및/또는 데이터(데이터 구조 포함)를 포함하는 가시적인 및/또는 비-일시적 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품에 관련된다. 컴퓨터-판독 가능 매체의 예는 반도체 메모리 디바이스, 자기 매체, 예컨대, 디스크 드라이브, 자기 테이프, 광학 매체, 예컨대, CD, 자기-광학 매체 및 프로그램 명령을 저장 및 수행하도록 특수하게 구성된 하드웨어 디바이스, 예컨대, 판독-전용 메모리 디바이스(ROM) 및 무작위 접근 메모리(RAM)를 포함한다. 컴퓨터 판독 가능 매체는 최종 사용자에 의해 직접 제어되거나 또는 매체는 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접 제어되는 매체의 예는 사용자 설비에 위치한 매체 및/또는 다른 기업체와 공유되지 않는 매체를 포함한다. 간접적으로 제어되는 매체의 예는 외부 네트워크를 통해서 그리고/또는 "클라우드"와 같은 공유된 자원을 제공하는 서비스를 통해서 사용자에게 간접적으로 접근할 수 있는 매체를 포함한다. 프로그램 명령의 예는, 예컨대, 컴파일러에 의해 생성된 기계 코드 및 번역기를 사용하여 컴퓨터에 의해 실행될 수 있는 고수준의 코드를 함유하고 있는 파일 둘 다를 포함한다.
각종 실시형태에서, 개시된 방법 및 장치에서 사용된 데이터 또는 정보는 전자 포맷으로 제공된다. 그러한 데이터 또는 정보는 핵산 샘플, (예를 들어, 염색체 또는 염색체 분절에 정렬된) 기준 서열의 특정 영역과 정렬된 이러한 태그의 계수치 또는 밀도, 기준 서열(단독으로 또는 주로 다형성을 제공하는 기준 서열 포함), 콜링, 예컨대, SNV 또는 이수성 콜링, 상담 권고, 진단 등으로부터 유래된 판독물 및 태그를 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, 전자 포맷으로 제공되는 데이터 또는 다른 정보는 기계 상의 저장 및 기계 사이의 전송에 이용될 수 있다. 통상적으로, 전자 포맷의 데이터는 디지털로 제공되고, 다양한 데이터 구조, 목록, 데이터베이스 등에서 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적으로, 광학적으로, 그 등등으로 내장될 수 있다.
일 실시형태는 시험 샘플 중의 암과 연관된 SNV 또는 이수성의 존재 또는 부재를 나타내는 출력을 생성시키기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 염색체를 변칙적으로 결정하기 위한 상기에 기재된 방법 중 임의의 하나 이상을 수행하기 위한 명령을 함유할 수 있다. 설명된 바와 같이, 컴퓨터 제품은 프로세서가 DNA 혼합물 샘플을 정량하는 것을 가능하게 하기 위해서 상부에 기록된 컴퓨터 실행 가능한 또는 편집 가능한 로직(예를 들어, 명령)을 갖는 비-일시적 및/또는 가시적인 컴퓨터 판독 가능 매체를 포함할 수 있다. 일례에서, 컴퓨터 제품은 프로세서가 DNA 혼합물 샘플을 정량하는 것을 가능하게 하기 위해서 상부에 기록된 컴퓨터 실행 가능한 또는 편집 가능한 로직(예를 들어, 명령)을 갖는 컴퓨터 판독 가능 매체를 포함한다.
고려 중인 샘플로부터의 서열 정보를 염색체 기준 서열에 맵핑하여 관심대상의 임의의 하나 이상의 염색체 각각에 대한 다수의 서열 태그를 식별할 수 있다. 각종 실시형태에서, 예를 들어, 기준 서열이 데이터베이스, 예컨대, 상관 관계가 있는 또는 목표 데이터베이스에 저장된다.
도움을 받지 않는 인간이 본 명세서에 개시된 방법의 컴퓨팅 작업을 수행하는 것이 실용적이 아니거나, 또는 심지어 대부분의 경우에 가능하지 않다는 것이 인지되어야 한다. 예를 들어, 샘플로부터의 단일 30bp 판독물을 인간 염색체 중 임의의 하나에 맵핑하는 것은 컴퓨팅 장치의 보조 없이는 수 년간의 노력을 필요할 것이다.
본 명세서에 개시된 방법은 DNA 혼합물 샘플을 정량하기 위한 시스템을 사용하여 수행될 수 있다. 시스템은 (a) 시험 샘플로부터 핵산을 제공받아서 샘플로부터의 핵산 서열 정보를 제공하기 위한 서열분석기, (b) 프로세서; 및 (c) DNA 혼합물 샘플을 정량하기 위한 방법을 수행하기 위해서 상기 프로세서 상에서의 실행을 위한 명령이 저장된 하나 이상의 컴퓨터-판독 가능 저장 매체를 포함한다.
일부 실시형태에서, 방법은 DNA 혼합물 샘플을 정량하기 위한 방법을 수행하기 위한 컴퓨터-판독 가능한 명령이 저장된 컴퓨터-판독 가능 매체에 의해서 명령된다. 따라서 일 실시형태는 컴퓨터 시스템의 하나 이상의 프로세서에 의해서 실행되는 경우, 컴퓨터 시스템이 DNA 혼합물 샘플을 정량하는 방법을 구현하도록 하는 컴퓨터-실행 가능한 명령이 저장된 하나 이상의 컴퓨터-판독 가능한 비-일시적인 저장 매체를 포함하는 컴퓨터 프로프램 제품을 제공한다. 방법은 (a) 핵산 샘플로부터 핵산 분자를 추출하는 단계; (b) 추출된 핵산 분자를 증폭시키는 단계; (c) 증폭된 핵산 분자를 핵산 서열분석기를 사용하여 서열분석하여 핵산 서열 판독물을 생성시키는 단계; (d) 하나 이상의 프로세서에 의해서, 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하는 단계; (e) 맵핑된 핵산 서열 판독물을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하는 단계; 및 (f) 확률적 혼합 모델을 사용하고, 그리고 상기 하나 이상의 프로세서에 의해서, 핵산 샘플 중의 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계로서, 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 판독물의 대립유전자 계수치에 적용하는 것을 포함하되, 상기 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 대립유전자 계수치를 모델링하고, 확률 분포는 핵산 서열 판독물 및 계수치에서의 오류를 설명하는, 상기 정량하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법을 포함한다.
일부 실시형태에서, 명령은 수증자 시험 샘플을 제공하는 인간 대상체에 대한 환자 의료 기록에서 방법에 적절한 정보를 자동방식으로 기록하는 것을 추가로 포함할 수 있다. 환자 의료 기록은 예를 들어, 실험실, 진료실, 병원, 건강 관리 기관, 보험 회사 또는 개인 의료 기록 웹사이트에 의해 유지될 수 있다. 추가로, 프로세서-구현된 분석의 결과를 기초로, 방법은 수증자 실험 샘플이 채취되는 인간 대상체의 처리를 처방, 개시 및/또는 변경시키는 것을 추가로 포함할 수 있다. 이것은 대상체로부터 취해진 추가의 샘플에 대해 하나 이상의 추가의 시험 또는 분석을 수행하는 것을 포함할 수 있다.
개시된 방법은 또한 DNA 혼합물 샘플을 정량하는 방법을 수행하도록 개작 또는 구성된 컴퓨터 처리 시스템을 사용하여 수행될 수 있다. 일 실시형태는 본 명세서에 기재된 방법을 수행하도록 개작 또는 구성된 컴퓨터 처리 시스템을 제공한다. 일 실시형태에서, 장치는 본 명세서의 다른 곳에서 기재된 서열 정보의 유형을 얻기 위해서 샘플 중의 적어도 일부의 핵산 분자를 서열분석하기 위해서 개작 또는 구성된 서열분석 디바이스를 포함한다. 장치는 또한 샘플을 처리하기 위한 성분을 포함할 수 있다. 이러한 성분은 본 명세서에 다른 곳에 기재되어 있다.
서열 또는 다른 데이터는 직접 또는 간접적으로 컴퓨터에 입력되거나 또는 컴퓨터 판독 가능 매체 상에 저장될 수 있다. 일 실시형태에서, 컴퓨터 시스템은 샘플로부터 핵산의 서열을 판독 및/또는 분석하는 서열분석 디바이스에 직접 커플링된다. 이러한 툴로부터의 서열 또는 다른 정보는 컴퓨터 시스템의 인터페이스를 통해 제공된다. 대안적으로, 시스템에 의해 처리된 서열은 데이터베이스 또는 다른 저장소와 같은 서열 저장 공급원으로부터 제공된다. 일단 처리 장치에 대해 이용 가능하면, 메모리 디바이스 또는 대량 저장 디바이스는 핵산의 서열을, 적어도 일시적으로, 완충시키거나 저장한다. 또한, 메모리 디바이스는 다양한 염색체 또는 게놈 등에 대한 태그 개수치를 저장할 수 있다. 메모리는 또한 선진(presenting) 서열 또는 맵핑된 데이터를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이러한 프로그램/루틴은 통계학적 분석을 수행하기 위한 프로그램 등을 포함할 수 있다.
일례에서, 사용자는 샘플을 서열분석 장치에 제공한다. 데이터는 컴퓨터에 연결된 서열분석 장치에 의해 수집 및/또는 분석된다. 컴퓨터 상의 소프트웨어는 데이터 수집 및/또는 분석을 허용한다. 데이터는 저장되고/되거나, (모니터 또는 다른 유사한 디바이스를 통해) 디스플레이되고/되거나 다른 위치로 보내진다. 컴퓨터는 원격 사용자(예를 들어, 의사, 과학자 또는 분석가)에 의해 활용된 헨드헬드 디바이스에 데이터를 전송하기 위해 사용되는 인터넷에 연결될 수 있다. 데이터는 전송 전에 저장 및/또는 분석될 수 있다고 이해된다. 일부 실시형태에서, 원시 데이터(raw data)가 수집되고, 데이터를 분석 및/또는 저장할 원격 사용자 또는 장치에 보내진다. 전송은 인터넷을 통해 일어날 수 있지만, 또한 위성 또는 다른 연결을 통해서도 일어날 수 있다. 대안적으로, 데이터는 컴퓨터-판독 가능 매체에 저장될 수 있고 그 매체는 최종 사용자에게(예를 들어, 메일을 통해) 발송될 수 있다. 원격 사용자는 빌딩, 도시, 주, 국가 또는 대륙을 포함하지만 이들로 제한되지 않는 동일한 또는 상이한 지리학적 위치에 있을 수 있다.
일부 실시형태에서, 방법은 또한 복수의 폴리뉴클레오타이드 서열(예를 들어, 판독물, 태그 및/또는 기준 염색체 서열)에 관련되는 데이터를 수집하고, 그 데이터를 컴퓨터 또는 다른 컴퓨팅 시스템에 보내는 것을 포함한다. 예를 들어, 컴퓨터는 실험실 장비, 예컨대, 샘플 수집 장치, 뉴클레오타이드 증폭 장치, 뉴클레오타이드 서열분석 장치 또는 혼성화 장치에 연결될 수 있다. 이어서 컴퓨터는 실험실 디바이스에 의해 수집된 적용 가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계에서, 예컨대, 실시간으로 수집되는 한편, 전송 전에, 전송 중에 또는 전송과 함께, 또는 전송 후에 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터-판독 가능 매체에 저장될 수 있다. 수집된 또는 저장된 데이터는 컴퓨터로부터 원격 위치로, 예컨대, 국지 네트워크 또는 인터넷과 같은 광역 네트워크를 통해 전송될 수 있다. 원격 위치에서 다양한 작업은 하기에서 기재되는 것과 같이 전송된 데이터에 대해 수행될 수 있다.
본 명세서에서 개시된 시스템, 장치 및 방법에서 저장, 전송, 분석 및/또는 조작될 수 있는, 전자적으로 포맷팅된 유형의 데이터 중에는 하기와 같은 것이 있다:
시험 샘플 중의 핵산을 서열분석함으로써 획득된 판독물
기준 게놈 또는 다른 기준 서열 또는 서열들에 대해서 판독물을 정렬함으로써 획득된 태그
기준 게놈 또는 서열
대립유전자 계수치 - 기준 게놈 또는 다른 기준 서열의 각각의 대립유전자 및 영역에 대한 태그의 계수치 또는 수
결정된 기여자 핵산 분율 및 연관된 신뢰 구간
진단(통보와 연관된 임상 병태)
통보 및/또는 진단으로부터 유래된 추가의 시험을 위한 권고
통보 및/또는 진단으로부터 유래된 치료 및/또는 모니터링 계획.
이들 다양한 유형의 데이터는 구별되는 장치를 사용하여 하나 이상의 위치에서 획득, 저장, 전송, 분석 및/또는 조작될 수 있다. 처리 옵션은 넓은 스펙트럼에 걸쳐 있다. 스펙트럼의 한 단부에서, 전부 또는 많은 이런 정보가 시험 샘플이 처리되는 위치, 예컨대, 진료실 또는 다른 임상 환경에서 저장되고 사용된다. 다른 극단에서, 샘플은 하나의 위치에서 획득되고, 상이한 위치에서 처리되고, 선택적으로 서열분석되고, 판독물이 정렬되고 콜링은 하나 이상의 상이한 위치에서 만들어지고, 진단, 권고 및/또는 계획은 여전히 다른 위치(샘플이 획득된 위치일 수 있음)에서 제조된다.
각종 실시형태에서, 판독은 서열분석 장치를 사용하여 생성되고, 이어서 판독물이 처리되어 콜링을 생성시키는 원격 부위로 전송된다. 이러한 원격 위치에서, 예로서, 판독물은 기준 서열에 정렬되어 태그를 생성시키고, 이것은 카운팅되고, 염색체 또는 관심 대상 분절에 정렬된다. 또한 원격 위치에서, 일정 양을 사용하여 콜링을 생성시킨다.
구별되는 위치에서 사용될 수 있는 처리 작업 중에는 하기가 있다:
샘플 수집
서열분석 전의 샘플 처리
서열분석
서열 데이터 분석 및 DNA 혼합물 샘플 정량
진단
환자 또는 건강 관리 제공자에게 대한 진단 및/또는 콜링의 기록
추가의 치료, 시험 및/또는 모니터링을 위한 계획의 개발
계획 실행
상담.
이들 작업 중 임의로 하나 이상이 본 명세서의 다른 곳에서 기재된 것과 같이 자동화될 수 있다. 전형적으로, 서열분석 및 서열 데이터의 분석 및 DNA 혼합물 샘플의 정량은 컴퓨터에 의해서 수행될 것이다. 다른 작업은 수동으로 또는 자동으로 수행될 수 있다.
샘플 수집이 수행될 수 있는 위치의 예는 의료 실무자 사무실, 병원, 환자의 집(여기서 샘플 수집 툴 또는 키트가 제공됨), 및 이동식 건강 케어 차량을 포함한다. 서열결정 이전에 샘플 처리가 수행될 수 있는 위치의 예는 의료 실무자 사무실, 병원, 환자의 집(여기서 샘플 처리 장치 또는 키트가 제공됨), 이동식 건강 케어 차량 및 DNA 분석 제공자의 설비를 포함한다. 서열결정이 수행될 수 있는 위치의 예는 의료 실무자 사무실, 병원, 의료 실무자 사무실, 병원, 환자의 집(여기서 샘플 서열분석 장치 및/또는 키트가 제공됨), 이동식 건강 케어 차량 및 DNA 분석 제공자의 설비를 포함한다. 서열분석이 일어나는 위치는 서열 데이터(전형적으로 판독물)를 전자 포맷으로 정송하기 위한 전용 네트워크 커넥션이 제공될 수 있다. 이러한 커넥션은 유선 또는 무선일 수 있고, 데이터가 처리되고/되거나 처리 부위로의 전달 이전에 집계될 수 있는 부위로 데이터를 보내도록 구성될 수 있다. 데이터 집계장치는 의료 기관, 예컨대, 건강 유지 기관(Health Maintenance Organization: HMO)에 의해서 유지 보수될 수 있다.
분석 및/또는 유도 작업은 이전 위치 중 임의의 위치에서 또는 대안적으로는 핵산 서열 데이터의 계산 및/또는 분석 서비스 전용의 추가 원격 부위에서 수행될 수 있다. 이러한 위치는 예를 들어, 클러스터, 예컨대, 범용 서버팜(general purpose server farm), DNA 분석 서비스 비즈니스 설비 등을 포함한다. 일부 실시형태에서, 분석을 수행하는 데 사용되는 컴퓨팅 장치는 임대 또는 대여된다. 컴퓨팅 리소스는 프로세서의 인터넷 접근 가능한 컬렉션의 부분, 예컨대, 클라우드로서 구어체로 공지된 처리 리소스일 수 있다. 일부 경우에, 계산은 또 다른 것과 연계되거나 비연계된 프로세서의 병렬 또는 대량 병렬 군에 의해서 수행된다. 이러한 처리는 분포된 처리, 예컨대, 클러스터 컴퓨팅, 그리드 컴퓨팅 등을 사용하여 달성될 수 있다. 이러한 실시형태에서, 컴퓨팅 리소스의 클러스터 또는 그리드는 본 명세서에 기재된 분석 및/또는 도출을 수행하기 위해서 함께 작용하는 다수의 프로세서 또는 컴퓨터로 구성된 슈퍼 가상 컴퓨터를 집합적으로 형성한다. 이러한 기술뿐만 아니라 보다 더 종래의 슈퍼컴퓨터를 사용하여 본 명세서에 기재된 바와 같이 서열 데이터를 처리할 수 있다. 각각은 프로세서 또는 컴퓨터에 좌우되는 병렬 계산의 형태이다. 이러한 그리드 계산의 경우에, 이러한 프로세서(보통 전체 컴퓨터)는 종래의 네트워크 프로토콜, 예컨대, 이더넷(Ethernet)에 의해서 네트워크(개인, 공공 또는 인터넷)에 의해서 연결된다. 이에 반해서, 슈퍼컴퓨터는 국지 고속 컴퓨터 버스에 의해서 연결된 다수의 프로세서를 갖는다.
특정 실시형태에서, 진단은 분석 작업과 동일한 위치에서 생성된다. 다른 실시형태에서, 그것은 상이한 위치에서 수행된다. 일부 실시예에서, 진단의 기록은 샘플이 취해진 위치에서 수행되지만, 이것은 필요하지 않다. 진단이 생성 또는 보고될 수 있는 위치 및/또는 계획 발달이 수행되는 위치의 예는 의료 실무자의 사무실, 병원 컴퓨터에 의해서 접근 가능한 인터넷 사이트 및 핸드헬드 디바이스, 예컨대, 네트워크에 유선 또는 무선 연결되는 휴대 전화, 태블릿, 스마트폰 등을 포함한다. 상담이 수행되는 위치의 예는 의료 실무자의 사무실, 병원 컴퓨터에 의해서 접근 가능한 인터넷 사이트, 핸드헬드 디바이스 등을 포함한다.
일부 실시형태에서, 샘플 수집, 샘플 처리 및 서열분석 작업은 제1 위치에서 수행되고, 분석 및 유도 작업은 제2 위치에서 수행된다. 그러나, 일부 경우에, 샘플 수집은 하나의 위치(예를 들어, 의료 실무자의 사무실 또는 병원)에서 수집되고, 샘플 처리 및 서열분석은 선택적으로 분석 및 유도가 일어나는 장소와 동일한 위치인 상이한 위치에서 수행된다.
각종 실시형태에서, 상기에 열거된 작업 순서는 사용자 또는 샘플 수집, 샘플 처리 및/또는 서열분석을 개시하는 엔티티에 의해서 촉발될 수 있다. 하나 이상의 이러한 작업이 실행을 시작한 후, 다른 작업이 자연적으로 이어질 수 있다. 예를 들어, 서열분석 작업은 판독물이 자동 방식으로 수집되고, 처리 장치로 보내질 수 있게 하고, 이어서 이것은 보통 자동 방식으로 그리고 가능하게는 추가 사용자 개입 없이 DNA 혼합물 샘플의 서열분석 및 정량을 수행한다. 일부 구현예에서, 이어서 이러한 처리 작업의 결과는 가능하게는 진단으로서 재포맷팅되면서, 자동 방식으로 의료 전문가 및/또는 환자에게 정보를 보고하는 시스템 성분 또는 엔티티에 전달된다. 설명된 바와 같이 이러한 정보는 또한 자동 방식으로 처리되어 가능하게는 상담 정보와 함께, 치료, 시험 및/또는 모니터링 계획을 생성할 수 있다. 따라서, 초기 단계 작업의 개시는 엔드 투 엔드(end to end) 서열을 촉발할 수 있고, 여기서 의료 전문가, 환자 또는 다른 관련 부서는 진단, 계획, 상담 및/또는 건상 상태에 작용하는 데 유용한 다른 정보를 제공한다. 이것은, 전체 시스템의 일부가 예를 들어, 샘플 또는 서열 장치의 위치와 물리적으로 이격되어 있고 가능하게는 이로부터 먼 경우에도 달성된다.
도 4는 적절하게 구성 또는 설계되는 경우, 특정 실시형태에 따른 컴퓨팅 장치로서 제공될 수 있는, 단순한 블록 포맷의 전형적인 컴퓨터 시스템을 도시한다. 컴퓨터 시스템(2000)은 주 저장장치(2006)(전형적으로 무작위 접근 메모리 또는 RAM), 주 저장장치(2004)(전형적으로 판독 전용 메모리 또는 ROM)를 비롯한, 저장 디바이스에 커플링된 임의의 수의 프로세서(2002)(주 처리 유닛 또는 CPU라고도 지칭됨)를 포함한다. CPU(2002)는 마이크로콘트롤러 및 마이크로프로세서, 예컨대, 프로그래밍 가능한 디바이스(예를 들어, CPLD 및 FPGA) 및 프로그래밍 가능하지 않은 디바이스, 예컨대, 게이트 어레이 ASIC 또는 일반 목적의 마이크로프로세서를 비롯한 다양한 유형의 것일 수 있다. 도시된 실시형태에서, 주 저장장치(2004)는 데이터 및 명령을 CPU에 단방향성으로 전달하는 작용을 하고, 주 저장장치(2006)는 전형적으로 데이터 및 명령을 이방향성 방식으로 전달하는 데 사용된다. 이러한 주 저장장치 디바이스 둘 다는 임의의 적합한 컴퓨터-판독 가능 매체, 예컨대, 상기에 기재된 것을 포함할 수 있다. 대량 저장 디바이스(2008)는 또한 주 저장장치(2006)에 이방향성으로 커플링되고, 추가적인 데이터 저장 능력을 제공하고, 상기에 기재된 컴퓨터-판독 가능 매체 중 임의의 것을 포함할 수 있다. 대량 저장 디바이스(2008)는 프로그램, 데이터 등을 저장하기 위해서 사용될 수 있고, 전형적으로 이차 저장 매체, 예컨대, 하드 디스크이다. 빈번하게, 이러한 프로그램, 데이터 등은 CPU(2002) 상에서의 실행을 위해서 주 메모리(2006)에 일시적으로 복사된다. 대량 저장 디바이스(2008)에 보유된 정보는 적절한 경우에 주 저장장치(2004)의 부분으로서 표준 방식으로 혼입될 수 있다는 것이 인지될 것이다. 특정 대량 저장 디바이스, 예컨대, CD-ROM(2014)은 또한 주 저장장치로 전달할 수 있다.
CPU(2002)는 또한 핵산 서열분석기(2020), 비디오 모니터, 트랙볼, 마우스, 키보드, 마이크, 터치 감지 디스플레이, 트랜스듀서 카드 리더, 자기 또는 종이 테이프 리더, 태블릿, 스타일러스, 음성 또는 필기 인식 주변 장치, USB 포트 또는 기타 다른 널리 공지된 입력 디바이스, 예컨대, 물론 컴퓨터와 같은 하나 이상의 입력/출력 디바이스에 연결되는 인터페이스(2010)에 커플링된다. 마지막으로, CPU(2002)는 2012년에 일반적으로 도시된 바와 같이 외부 연결을 사용하여 데이터베이스 또는 컴퓨터 또는 통신네트워크와 같은 외부 장치에 선택적으로 커플링될 수 있다. 이러한 연결에 의해, CPU는 네트워크로부터 정보를 수신할 수 있거나, 또는 본 명세서에 기재된 방법 단계를 수행하는 과정에서 정보를 네트워크에 출력할 수 있다고 생각된다. 일부 구현에서, 핵산 서열분석기(2020)는 인터페이스(2010) 대신 또는 이것에 더하여 또는 이를 통해서 네트워크 연결(2012)을 통해서 CPU(2002)에 통신 가능하게 연결될 수 있다.
일 실시형태에서, 시스템, 예컨대, 컴퓨터 시스템(2000)은 본 명세서에 기재된 태스크 중 일부 또는 전부를 수행할 수 있는 데이터 임포트, 데이터 상관 및 질의 시스템으로서 사용된다. 데이터 파일을 비롯한 정보 및 프로그램은 연구자에 의해서 접근 또는 다운로딩되기 위해서 네트워크 연결(2012)을 통해서 제공될 수 있다. 대안적으로, 이러한 정보, 프로그램 및 파일은 저장 디바이스 상의 연구자에게 제공될 수 있다.
특정 실시형태에서, 컴퓨터 시스템(2000)은 데이터 획득 시스템, 예컨대, 마이크로어레이, 고 처리율 스크리닝 시스템, 또는 샘플로부터 데이터를 캡처하는 핵산 서열분석기(2020)에 직접 커플링된다. 이러한 시스템으로부터의 데이터는 시스템(2000)에 의한 분석을 위해서 인터페이스(2010)를 통해서 제공된다. 대안적으로, 시스템(2000)에 의해 처 리된 데이터는 데이터 저장 소스, 예컨대, 데이터베이스 또는 관련 데이터의 다른 저장소로부터 제공된다. 장치(2000)에서, 메모리 디바이스, 예컨대, 주 저장장치(2006) 또는 대량 저장장치(2008)와 같은 메모리 장치는 적어도 일시적으로 관련 데이터를 버퍼링 또는 저장한다. 메모리는 또한 서열 판독물, UMI, 서열 판독을 결정하기 위한 코드, 서열 판독물을 붕괴시키고, 판독물에서의 오류의 수정 등을 비롯한, 데이터를 임포트, 분석 및 제공하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다.
특정 실시형태, 본 명세서에서 사용되는 컴퓨터는 임의의 유형의 사용자 터미널을 포함할 수 있는데, 이것은 컴퓨터(예를 들어, 테스크탑, 랩탑, 태블릿 등), 매체 컴퓨팅 플랫폼(예를 들어, 케이블, 위성 셋탑 박스, 디지털 비디오 레코더 등), 핸드헬드 컴퓨팅 디바이스(예를 들어, PDA, 이메일 클라이언트 등), 휴대 전화 또는 임의의 다른 유형의 컴퓨팅 또는 커뮤니케이션 플랫폼을 포함할 수 있다.
특정 실시형태에서, 본 명세서에서 사용되는 컴퓨터는 또한 사용자 터미널과 통신하는 서버 시스템을 또한 포함할 수 있는데, 여기서 서버 시스템은 서버 디바이스 또는 분산적(decentralized) 서버 디바이스를 포함할 수 있고, 메인프레임 컴퓨터, 미니 컴퓨터, 슈퍼 컴퓨터, 퍼스널 컴퓨터 또는 이들의 조합물을 포함할 수 있다. 본 발명의 범주를 벗어나지 않으면서 복수의 서버 시스템이 또한 사용될 수 있다. 사용자 터미널 및 서버 시스템은 네트워크를 통해서 서로와 통신할 수 있다. 네트워크는 본 발명의 범주를 벗어나지 않으면서 예를 들어, 유선 네트워크, 예컨대, LAN(국지 네트워크), WAN(광역 네트워크), MAN(도시권 네트워크), ISDN(종합 디지털 네트워크), 등뿐만 아니라 무선 네트워크, 예컨대, 무선 LAN, CDMA, 블루투스 및 위성 통신 네트워크 등을 포함할 수 있다.
도 5는 시험 샘플로부터 콜링 또는 진단을 생성시키기 위한 분산된 시스템의 일 구현예를 나타낸다. 환자, 예컨대, 임산부 또는 추정 암 환자로부터 시험 샘플을 획득하기 위해서 샘플 수집 위치(01)를 사용한다. 이어서 샘플이 시험 샘플이 상기에 기재된 바와 같이 처리 및 서열분석되는 처리 및 서열분석 위치(03)에 제공된다. 위치(03)는 샘플을 처리하기 위한 장치뿐만 처리된 샘플을 서열분석하기 위한 장치를 포함한다. 본 명세서 다른 곳에 기재된 바와 같은, 서열분석의 결과는 판독물의 집합인데, 이것은 전형적으로 전자 포맷으로 제공되며, 도 5에서 참조 번호 05에 의해서 표시된 네트워크, 예컨대, 인터넷에 제공된다.
서열 데이터는 분석 및 콜링 생성이 수행되는 원격 위치(07)에 제공된다. 이러한 위치는 하나 이상의 강력한 컴퓨팅 디바이스, 예컨대, 컴퓨터 또는 프로세서를 포함할 수 있다. 위치(07)에서의 컴퓨팅 리소스가 이의 분석을 완결하고, 수신된 서열 정보로부터 콜링을 생성한 후, 콜링은 네트워크(05)로 다시 전달된다. 일부 구현예에서, 위치(07)에서 콜링이 생성될 뿐만 아니라 연관 진단이 또한 생성된다. 이어서 콜링 및 또는 진단이 네트워크를 통해서 전달되고, 도 5에 도시된 바와 같이 샘플 수집 위치(01)로 다시 전달된다. 설명된 바와 같이, 콜링 또는 진단의 생성과 연관된 다양한 작업이 다양한 위치 사이에서 분할될 수 있는 방법에 대한 다수의 변화 중 단순한 하나가 존재한다. 하나의 일반적인 변화는 하나의 위치에서 샘플 수집 및 처리 및 서열분석을 제공하는 것을 포함한다. 또 다른 변화는 분석 및 콜링 생성과 동일한 위치에서 처리 및 서열분석을 제공하는 것을 포함한다.
도 6은 구별되는 위치에서 다양한 작업을 수행하기 위한 선택을 상술한다. 도 6에 도시된 가장 세분화된 방식에서, 하기 작업 각각은 별개의 위치에서 수행된다: 샘플 수집, 샘플 처리, 서열분석, 판독물 정렬, 콜링, 진단 및 보고 및/또는 계획 발전.
이러한 작업 중 일부를 합친 일 실시형태에서, 샘플 처리 및 서열분석이 하나의 위치에서 수행되고, 판독물 정렬, 콜링 및 진단이 별개의 위치에서 수행된다. 참조 문자 A로 표현된 도 6의 부분 참고. 도 6에서 문자 B로 표현된 또 다른 구현예에서, 샘플 처리 및 서열분석 모두는 동일한 위치에서 수행된다. 이러한 구현예에서, 판독물 정렬 및 콜링은 제2 위치에서 수행된다. 마지막으로, 진단 및 보고 및/또는 계획 개발은 제3 위치에서 수행된다. 도 6에 문자 C로 표현된 구현예에서, 샘플 수집은 제1 위치에서 수행되고, 샘플 처리, 서열분석, 판독물 정렬, 콜링 및 진단 모두는 함께 제2 위치에서 수행되고, 보고 및/또는 계획 개발은 제3 위치에서 수행된다. 마지막으로, 도 6에 D로 표시된 구현예에서, 샘플 수집은 제1 위치에서 수행되고, 샘플 처리, 서열분석, 판독물 정렬 및 콜링 모두는 함께 제2 위치에서 수행되고, 진단 및 보고 및/또는 계획 관리는 제3 위치에서 수행된다.
일 실시형태는 종양과 연관된 단순한 뉴클레오타이드 변이체에 대한 세포-유리 DNA(cfDNA)를 분석하기 위한 시스템을 제공하며, 시스템은 핵산 샘플을 제공받고, 핵산 샘플로부터의 핵산 서열 정보를 제공하기 위한 서열분석기; 프로세서; 및 상기 프로세서 상에서의 실행을 위한 명령을 포함하는 기기 판독 가능 저장 매체를 포함하고, 명령은 핵산 서열 판독물을 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하기 위한 코드; 맵핑된 핵산 서열 판독물을 사용하여, 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 판독물의 대립유전자 계수치를 결정하기 위한 코드; 및 확률적 혼합 모델을 사용하여, 핵산 샘플 중의 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 코드를 포함하며, 여기서 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 판독물의 상기 대립유전자 계수치에 적용하는 것을 포함하되, 확률적 혼합 모델은 확률 분포를 사용하여 하나 이상의 다형성 유전자좌에서의 핵산 서열 판독물의 대립유전자 계수치를 모델링하고, 확률 분포는 핵산 서열 판독물에서의 오류를 설명한다.
본 명세서에 제공된 시스템 중 임의의 것의 일부 실시형태에서, 차세대 서열분석(NGS)을 수행하도록 서열분석기가 구성된다. 일부 실시형태에서, 가역적인 염료 터미네이터(reversible dye terminator)와 함께 합성에 의한 서열분석을 사용한 대량 병렬 서열분석을 수행하도록 서열분석기가 구성된다. 다른 실시형태에서, 결찰에 의한 서열분석을 수행하도록 서열분석기가 구성된다. 다른 실시형태에서, 단일 분자 서열분석을 수행하도록 서열분석기가 구성된다.
실험
실시예 1
본 실시예는 실제 DNA 혼합물 샘플로부터 획득된 데이터를 사용하여, 일부 구현예가 본 명세서에 개시된 확률적 접근법을 사용하지 않은 종래의 기술보다, DNA 혼합물 샘플의 정량에서, 더 높은 정확도 및 신뢰도, 뿐만 아니라 더 낮은 경험적 편향(empirical bias)을 제공할 수 있다는 것을 입증한다.
DNA 혼합물 샘플은 게놈(기여자)으로부터의 2종의 DNA를 포함하였고, 낮은 분획은 상이한 샘플 중에서 0.1%, 0.2%, 0.4% 및 2%이다. 일부 샘플은 3ng의 입력 DNA를 포함하였고, 나머지는 10 ng을 포함하였다. 샘플을 Nack 또는 Nack2로 표지된 2가지 실험 절차로 가공하여 2개의 프라이머 설계를 제공하였는데, 여기서 표적 유전자좌의 수는 두 설계에 대해서 상이하다. 일부 샘플을 MiSeq 서열분석 플랫폼을 사용하여 가공하였고, 일부를 MiniSeq 플랫폼을 사용하여 가공하였다.
샘플 데이터를 3종의 상이한 방법을 사용하여 분석하였다. 표 8은 다양한 샘플 및 실험 절차를 사용하는 3가지의 상이한 방법에 대한 다수의 혼합물 분획에 걸친 분산 계수의 평균(standard_deviation_of_predictions / true_fraction로서 정의된, CV) 값 및 다수의 혼합물 분획에 걸친 변동 계수 + 편향의 평균(CVB, 일반적으로 CV(RMSD)라고 표현되고, RMSD/true_fraction로서 정의됨) 값을 나타낸다. 제1 방법은 서열분석 오류를 모델링하기 위해서 이항 분포를 포함하는 확률적 모델을 적용한다. 제1 방법은 상기 Seq Model로서 기술된 일부 구현예에 상응한다. 제1 방법(Seq)에 대한 데이터를 표 3의 제3 행에 나타낸다. 제2 방법을 DNA 추출 오류, PCR 증폭 오류 및 서열분석 오류를 설명하는 확률 분포를 포함하는 확률적 혼합 모델에 적용한다. 제2 방법은 상기 Extraction-PCR-Seq Model로서 기술된 일부 구현예에 상응한다. 제2 방법(EPS)에 대한 데이터를 표 3의 제4 행에 나타낸다.
제3 방법은 상기에 기재된 바와 같은 NaiveLM 또는 KGT.NaiveLM이라고 불리는 기준선 방법에 상응한다. 그것은 기본 선형 회귀식을 사용하여 기여자의 DNA 분율을 결정한다. 제3 방법(NaiveLM)에 대한 데이터를 표 8의 제5 행에 나타낸다.
기여자의 유전자형 정보는 Seq 또는 EPS 방법에서 기여자 분율을 정량하는 데 사용되지 않았지만 그것은 NaiveLM 방법에서 사용되었음을 주목할 필요가 있다. Seq 방법 및 EPS 방법은 기여자의 유전자형 정보를 사용할 필요가 없었다는 사실에도 불구하고, 이것은 NaiveLM 방법보다 더 작은 변동 계수 값에 의해서 나타나는 바와 같이 보다 신뢰할 만한 결과를 생성하였다. 더욱이, Seq 방법 및 EPS 방법은 NaiveLM 방법보다 더 작은 CVB 값에 의해서 나타나는 바와 같이 보다 낮은 편향을 가졌다. 3가지 방법 중 최상의 결과를 표 8에 볼드체로 나타낸다. 간략하면, 확률적 혼합 모델을 사용한 2가지 방법은 선형 회귀 방법보다 더 신뢰할 만하고, 정확하고, 덜 편향된 결과를 생성하였다.
[표 8]
Figure 112019132469795-pct00136
실시예 2
유효 입력 DNA 양 및 판독물 계수치를 추정하기 위해서 입력 DNA 양과 함께 사용되는 다중 자유 모수, 예컨대, DNA 주형의 평균 길이, 앰플리콘의 평균 길이, 인간 게놈 분자량이 존재한다. 이러한 모수의 정당한 조정은 더 적은 편향 및 강력한 예측 성능을 보장할 수 있다. 본 실시예는 DNA 주형의 평균 길이가 DNA 혼합물을 정량하기 위해서 상기에 기재된 다양한 방법의 성능에 어떻게 영향을 미치는지를 조사한다.
본 실시예는 모의 cfDNA(mcfDNA)를 사용하여 실제 cfDNA를 모방한다. 실제 cfDNA에 대한 적절한 보정 인자를 얻기 위해서, 본 발명자들은 1) 2명의 개체로부터 추출된 실제 cfDNA를 사용하는 유사한 표준 혼합물을 생성시키고; 2) 실제 cfDNA 혼합물에 걸쳐서 실험에서 gDNA 스파이크를 수행하는 것이 필요하다.
공급원 게놈
mcfDNA: 시험된 세포주 중 하나로부터의 mcfDNA, 이를 위해서 Nack4 표적 부위는 세포주에 대해서 CNV를 갖지 않음.
cfDNA: 건강한 사람으로부터의 cfDNA, 모계 cfDNA가 아님
gDNA: 시험된 세포주 중 하나 또는 정상 세포주로부터의 gDNA
혼합물 조성 설계
혼합물 1: 75% cfDNA 또는 mcfDNA, 25% gDNA
혼합물 2: 50% cfDNA 또는 mcfDNA, 50% gDNA
혼합물 3: 25% cfDNA 또는 mcfDNA, 75% gDNA
혼합물 4: 10% cfDNA 또는 mcfDNA, 90% gDNA
각각 3회 반복물을 가짐.
혼합 전략
1. cfDNA 및 gDNA 주형을 정량한다;
2. cfDNA 및 gDNA 주형을 3:1, 1:1, 1:3, 1:9비로 혼합한다;
3. 혼합된 주형에 대한 PCR.
생성된 혼합물 및 이의 조성을 하기 표 9에 나타낸다.
Figure 112019132469795-pct00137
도 7은 각각 cfDNA 길이 모수의 상이한 선택 하에서 다양한 방법의 CVB 성능을 나타낸다. 하기 길이: 120bp, 130bp, 140bp, 150bp, 160bp, 216bp, 300bp, 409bp 및 100kbp가 평가된다. 막대의 상이한 음영은 상이한 mcfDNA 길이를 나타낸다.
상이한 방법을 하기와 같이 표시한다.
S: 서열분석으로 인한 오류를 설명하는 확률적 모델. 입력물로서 기준선 게놈을 사용하지 않음(알고 있는 D 및 R 게놈 없음).
EPS: DNA 추출, PCR 및 서열분석으로 인한 오류를 설명하는 확률적 모델. 입력물로서 기준선 게놈을 사용하지 않음.
PUGT.EPS00: 기지의, 미지의 그리고 부분적으로 기지의 기준선 모두를 허용하는 EPS 모델의 포괄적인 구현예 입력물로서 기준선 게놈을 사용하지 않음.
PUGT.EPS: 기지의, 미지의 그리고 부분적으로 기지의 기준선 모두를 허용하는 EPS 모델의 포괄적인 구현예 입력물로서 기준선 게놈을 사용함.
KGT.IterLM: 반복적 선형 모델. 입력물로서 기준선 게놈을 사용함.
KGT.Seq: 서열분석으로 인한 오류를 설명하는 확률적 모델. 입력물로서 기준선 게놈을 사용함.
KGT.NaiveLM: 기준선 방법, 기지의 유전자형을 사용한 미경험(na
Figure 112019132469795-pct00138
ve) 선형 모델. 입력물로서 기준선 게놈을 사용함.
160bp의 디폴트 DNA 길이 모수, 기준선 게놈이 입수 가능한 경우 및 입수 가능하지 않은 경우 둘 다의 경우, EPS 모델은 최상의 성능을 갖는다(화살표로 나타냄).
더욱이, EPS 방법의 정량 성능은, 실무자가 160bp 내지 120bp 또는 216bp의 DNA 길이 모수를 교란시키는 경우에도, 이해된다. 이는 cfDNA 길이 모수에 대한 방법의 강건성(robustness)을 나타낸다. 이러한 범위는 상기에 기재된 구현예에서 사용되는 모수보다 편리하게 더 넓다: mcfDNA의 경우 160bp 및 cfDNA의 경우 165bp.
상이한 방법 중에서의 성능 순위는 다음과 같다:
PUGT.EPS(기준선 게놈 사용) > KGT.seq 또는 KGT.IterLM(기준선 게놈 사용) > PUGT.EPS 또는 EPS(기준선 게놈 사용하지 않음) > S(기준선 게놈 사용하지 않음) > KGT.NAIVE(기준선 게놈 사용).
특히, 3가지 EPS 방법은 기지의 유전자형을 갖는 미경험 선형 모델보다 현저하게 더 낮은 CVB를 갖는데, 이는 EPS 방법이 종래의 선형 모델 방법보다 개선된 정확도 및 감소된 편향을 갖는다는 것을 나타낸다. 종래의 방법은 기지의 기준선 게놈을 갖는 혼합물 샘플에 대해서만 적용 가능함을 주목하기 바란다.
추가로, 디폴트 DNA 길이 모수 하에서, 본 개시내용에 기재된 방법은 종래의 선형 모델을 사용한 방법보다 더 낮은 공란 한계(limit of blank: LOB) 및 더 높은 분석 감도를 갖는다. 표 10에 나타낸 바와 같이, 공란 한계(LOB)는 개시된 4가지 방법의 경우 0.1% 미만이지만, 종래의 미경험 선형 모델 방법의 LOB는 0.42%이다.
Figure 112019132469795-pct00139
실시예 3
본 실시예는 모의 cfDNA(mcfDNA) 및 실제 게놈 DNA(gDNA)로부터 획득된 데이터를 사용하여 개시된 방법 중 일부의 감도를 조사하고, 그것을 qPCR 기술을 사용하는 공지된 방법 KIMERDx와 비교한다.
표 11은 하기와 같이 표시된 2가지 확률적 모델의 LOQ를 나타낸다.
EPS: DNA 추출, PCR 및 서열분석으로 인한 오류를 설명하는 확률적 모델. 입력물로서 기준선 게놈을 사용하지 않음.
PUGT.EPS: 기지의, 미지의 그리고 부분적으로 기지의 기준선 모두를 허용하는 EPS 모델의 포괄적인 구현예 입력물로서 기준선 게놈을 사용함.
LOQ, 또는 정량 한계치는 정량 감도의 척도이다. 그것은 20% 이하의 변동 계수(CV)에서 결정될 수 있는 최소 공여자 분율로서 정의된다.
실질 기관 이식 환자로부터의 cfDNA 샘플을 모방하는 mcfDNA 조건(표 11의 데이터의 상단 2개의 행) 하에서, 두 기여자의 DNA 혼합물 샘플을 생성하였다. 각각의 샘플은 3ng의 DNA를 포함하였다. 확률적 방법 PUGT.EPS(기준선 유전자형 사용) 및 EPS(이식전 수용자 및 공여자로부터의 기준선 유전자형 사용하지 않음)를 5개의 샘플 × 3개의 반복물에 적용하였다. 두 확률적 방법 모두는, 단지 3ng의 입력 DNA를 사용하는 경우, 0.2% 이하의 LOQ를 달성하였는데, 이는 개시된 방법 둘 다에 대한 높은 감도를 나타낸다.
골수 이식 환자로부터의 혈액 gDNA 샘플을 모방하는 gDNA 조건(표 11의 데이터의 제3행) 하에서, 두 기여자의 DNA 혼합물 샘플을 생성하였다. 각각의 샘플은 10ng의 DNA를 포함한다. PUGT.EPS 방법을 사용하여 5개의 샘플 × 3개의 반복물을 분석하였다. PUGT.EPS 방법은, 10ng의 입력 DNA를 사용하는 경우 0.1% 이하의 LOQ를 달성하였는데, 이는 예상된 바와 같이 3ng의 입력 DNA를 사용한 mcfDNA에서의 LOQ보다 더 낮다.
또 다른 gDNA 조건(표 11의 데이터의 4행) 하에서, 5명의 기여자의 DNA 혼합물 샘플을 생성하였다. 각각의 샘플은 10ng의 총량의 DNA를 포함한다. PUGT.EPS 방법을 사용하여 5개의 샘플 × 3개의 반복물을 분석하였다. PUGT.EPS 방법은 0.35% 이하의 LOQ를 달성하였다. 5명의 기여자를 사용한 이러한 상이한 조건에 대해서 조차, 본 방법은 1%보다 상당히 더 낮은 큰 LOQ를 달성하였다.
Figure 112019132469795-pct00140
표 12는 단지 2명의 기여자의 혼합물 샘플에 대해서 qPCR 기술을 사용한 KIMERDx 방법의 감도(LOQ) 값을 나타낸다. KIMERDx 방법을 사용하여 입력 gDNA의 상이한 양을 분석하였다. 0.1%의 LOQ를 달성하기 위해서, 66ng의 입력 gDNA가 필요하다. 비교하면, PUGT.EPS 방법은 동일한 수준의 감도를 달성하기 위해서 단지 10ng 이하의 입력 DNA가 필요하다. 10ng의 입력 gDNA를 사용하면, KIMERDx는 0.7%의 LOQ를 달성할 것이며, 이에 비해서 PUGT.EPS의 경우 0.1% 미만이다.
Figure 112019132469795-pct00141
따라서, 본 실시예는, 개시된 확률적 방법이 최신 방법과 비교하여 동일한 수준의 감도를 달성하는 데 상당히 더 적은 입력 DNA를 필요로 한다는 것을 나타낸다. 이에 반해서, 개시된 방법은 적은 입력 DNA 양에서 상당히 더 높은 감도를 달성한다. 개선된 감도로 인해서, 방법은 더 신속한 샘플 처리를 허용하고, 더 적은 시약을 필요로 하며, DNA 혼합물 정량의 정확도를 개선시킬 수 있다.
기존의 키메리즘 검정은 본 발명자들의 방법이 설계한 실질 기관 이식 모니터링을 위해서 사용 가능하지 않다. 개시된 방법은 DNA 혼합물 정량의 감도를 개선시키는데, 이것은 모든 실질 기관 이식 사례를 포괄하는 입력 DNA 양이 제한된 응용에 특히 이로울 것이다. cfDNA를 사용한 실질 기관 이식 모니터링은 도전적인데, 그 이유는 전형적인 혈액 샘플로부터 추출된 cfDNA의 양이 전형적으로 추출 가능한 gDNA의 양보다 훨씬 더 적은 10ng이기 때문이다. 한편, cfDNA는 동일한 양의 gDNA에 비해서 PCR 주형으로서 훨씬 덜 효과적이다.
기존의 방법은 또한 1명을 초과하는 공여자를 사용한 이식에 대해서는 사용 가능하지 않으며, 이를 위해서 본 발명자들이 개시한 방법은 높은 감도를 여전히 달성하였다. 1명을 초과하는 공여자를 사용한 이식은 골수 이식의 경우에 빈번하게 일어나며, 혈액 수혈이 동반된 기관 이식 및 이전에 기관이 이식된 환자에서 또한 일반적으로 인지된다.
실시예 4
키메리즘 분석의 종래의 방법은 모세관 전기영동법(CE) 단편 분석 또는 짧은 텐덤 반복부(STR) 또는 작은 삽입부 또는 결실부(Indel)의 정량적 폴리머라제 연쇄 반응(qPCR) 분석을 사용한다. 정량의 한계치, 동적 범위, 표적의 수, 작업흐름, 분석 및 재현성을 비롯한 이러한 방법과 연관된 다수의 단점이 존재한다. 이러한 종래의 방법에 대한 대안적인 접근법은 수 백 개의 SNP를 표적으로 하는 차세대 서열분석(NGS)을 활용하여 낮은 정량 한계치, 넓은 동적 범위, 단순한 작업흐름, 자동화된 분석 및 강력한 재현성으로 키메리즘을 정량적으로 평가한다.
CE를 사용한 종래의 키메리즘 분석
표적: STR
STR은 게놈 전체에서 발견되는 유전자좌이다. 이것은 나란하게 반복되는(예를 들어, gatagatagatagatagata로서 나란하게 반복된 gata) 보통 2 내지 8개, 가장 일반적으로는 4개의 뉴클레오타이드의 짧은 서열로 구성된다. 반복부의 수는 4개 내지 40개의 반복부로 다양하여, 400개 미만의 총 뉴클레오타이드 길이의 전형적인 STR를 만든다. 반복부의 수는 인간 집단 내에서 매우 다양하다. STR의 이러한 2가지 특징, 즉, 비교적 짧은 총 길이 및 높은 변동성은, SRT를 법의학 과학에서 인간 식별에 대해서 매력적인 표적으로 만든다. 짧은 길이는 불량한 품질의 법의학 샘플에 중요한데, 그 이유는 이러한 샘플의 유형을 사용하면 더 큰 영역의 증폭이 어렵기 때문이다. 집단에서의 높은 변동성이 매력적인 특징인데, 그 이유는 긍정적인 식별을 위해서 비교적 작은 수가 필요하기 때문이다. 100개 초과의 STR가 인간 게놈에서 널리 특징 규명되어 있지만, 대부분의 응용은 30개 미만을 사용한다.
검정 설계
PCR 프라이머는 SRT 주변의 보존적인 측접 영역에서 설계된다. 프라이머는 다양한 길이의 4 내지 7개의 STR를 함유하는 4개의 형광단 각각과 함께 멀티플렉싱될 수 있다. 이것은, 멀티플렉스가 10 내지 21개의 고유한 STR을 지지한다는 것을 의미한다. CE 시스템은 상대 형광 단위 및 검출까지의 경과 시간을 측정하여 각각의 SRT에 대한 전기영동도를 생성한다. 대부분의 실험실은 수용자 및 공여자에 대한 이식전 기준선 유전자형을 생성시키기 위해서 완전 멀티플렉스를 활용한다. 이식전 유전자형을 서로 비교하여 유익한 마커, 즉 수용자 및 공여자가 고유한 대립유전자를 갖는 마커를 비교한다. 유익한 STR를 위해서 전체 멀티플렉스 또는 개별 싱글플렉스 검정으로 키메리즘 샘플을 시험할 수 있다. 싱글플렉스 검정은 일반적으로 최고 수준의 감도를 제공하지만, 다수의 실험실은 멀티플렉스 검정을 실시하는 것을 선호한다.
작업흐름
Figure 112019132469795-pct00142
DNA를 말초 혈액, 골수, 또는 세포 계통으로부터 추출하고, 자성 비드로 또는 유세포 분석법에 의해서 단리시킨다.
Figure 112019132469795-pct00143
형광 태그화를 포함하는 표적 STR의 PCR 증폭을 수행한다.
Figure 112019132469795-pct00144
STR-PCR 앰플리콘의 분리 및 검출은 전기영동법, 가장 빈번하게는 CE 기기를 사용하여 수행한다. CE 시스템은 상대 형광 단위 및 검출까지의 경과 시간을 측정하여 샘플 중에 존재하는 각각의 대립유전자에 대한 전기영동도를 생성한다.
Figure 112019132469795-pct00145
분석을 수행하는 사람은 각각의 유익한 마커에 대한 전기영동도를 검토하여 공여자 대 수용자의 상대적인 빈도를 결정한다. 다수의 유익한 마커를 사용하는 경우, 평균 빈도는 보통 상이한 마커의 가변적 성능을 고려한 후 키메리즘의 최종 측정치로서 취해진다.
추출된 DNA로부터 데이터 분석까지는 약 2시간의 실습 시간과 함께 약7시간이 걸린다. 데이터의 분석은 매우 가변적이고, 유익한 마커의 수, 마커 간의 변동성 및 스터터 피크 감법(peak subtraction)에 따라서 단일 키메리즘 샘플을 분석하는 데 15분 내지 2시간이 걸린다.
한계
키메리즘 분석을 위한 SRT 영역의 CE 분석에 대해서 3가지의 주요 한계가 있다.
첫 번째로, 전기영동도 피크 단독은 보통 분석하기 어렵고, 동일한 샘플 내에서의 다수의 피크로부터의 키메리즘 백분율은 빈번하게는 10 내지 15%로 달라진다. 이러한 변동성의 결과로서, 분석은 보통 단일 샘플의 경우 수 시간이 걸릴 수 있고, 그 결과는 여전히 반정량적(semiquantitative)이다.
두 번째로, 보통 검출 한계치(LOD) 또는 감도라고 지칭되는 정량 한계치(LOQ)는 이러한 방법을 사용하면 1 내지 5%이다. 이러한 넓은 범위가 존재하는데, 그 이유는 각각의 STR가 PCR 효소 스터터 또는 STR 상의 "슬리피지"(slippage) 및 형광단의 가변적 성능에 따라서 그 자신의 LOQ를 가질 것이기 때문이다.
세 번째로, 100개 초과의 STR 표적은 게놈에서 양호하게 특징 규명되어 있는 반면, 검정에 21개 초과의 STR를 포함시키는 것을 신뢰할 만하지 않았다. 이는, 다수의 특이적 프라이머를 단일 검정으로 풀링시키는 멀티플렉싱은 강력하고, 신뢰할 만하게 만들기가 매우 어렵기 때문이다. 따라서, 밀접하게 관련된 개체로부터의 키메리즘 혼합물에서는 유익한 마커의 식별이 어려울 수 있고, 다수의 공여자를 갖는 사례는 분석이 매우 어려울 수 있다.
이러한 한계는 임상 사용에서 중요할 수 있다. 예를 들어, 99%의 실제 키메리즘 결과가 100%로서 보고될 것이다.
qPCR를 사용한 종래의 키메리즘 분석
표적: Indel
indel은 1 내지 10,000개의 뉴클레오타이드 염기의 삽입 또는 결실이다. 수 백 만개의 indel이 인간 게놈에서 발견되어 있으며, 이는 indel을 SNP 이후에 인간 게놈 변동성에 대한 두 번째로 큰 원인인자로 만든다. STR와 유사하게, 다수의 indel은 짧고, 심지어는 고도로 절단된 DNA 및 소량의 DNA로부터 쉽게 증폭될 수 있다. 또한, 상이한 길이, 상이한 대립유전자 빈도의 사용 가능한 광범위한 indel이 존재하고, 이것은 게놈 전체에서 넓게 분포되어 있다. indel의 이러한 특징은 이것을 인간 식별 및 키메리즘 분석을 위한 매력적인 표적으로 만든다.
검정 설계
PCR 프라이머를 설계하여 indel을 증폭시키고, 싱글플렉스, 작은 멀티플렉스(약 3개의 표적), 또는 큰 멀티플렉스(30 내지 40개의 표적)로서 설계한다. 30 내지 40개의 적절하게 선택된 indel은 서로로부터 개체를 구별하는 것이 필요하다. 상업적으로 입수 가능한 키트를 사용하여, 이식전 공여자 및 수용자 기준선 샘플을 96웰 플레이트에 놓인 3-indel 멀티플렉스 또는 개별 indel 중 어느 하나에서 30 내지 40개의 indel 표적 통해서 통과시킨다. 이러한 단계는 공여자 및 수용자가 상이한 대립유전자를 갖는 유익한 표적을 식별한다. 이어서, 키메리즘 분석을 위해서 사용될 각각의 공여자-수용자 쌍에 대해서 최소 2개의 유익한 표적을 선택한다.
각각의 indel을 DNA 관심대상에 혼성화하는 형광 표지된 프라이머의 세트에 의해서 표적화한다. 앰플리콘이 PCR 사이클릭을 경험함에 따라서, 형광 증가는 존재하는 앰플리콘의 양에 비례한다. 역치 주기(Ct) 값에 도달하는 데 필요한 PCR 주기의 수에 의해서 정량을 결정한다. 유익한 마커를 보통 선택하여 부수적인 기여자, 보통 줄기세포 이식의 경우에 수용자의 게놈을 증폭시킨다. 이어서, 이식 후 샘플, 매칭된 이식 전 기준선, 기준 대조군 샘플의 Ct 값을 비교함으로써 양을 결정한다.
작업흐름
Figure 112019132469795-pct00146
DNA를 말초 혈액, 골수, 또는 세포 계통으로부터 추출하고, 자성 비드로 또는 유세포 분석법에 의해서 단리시킨다.
Figure 112019132469795-pct00147
정제된 DNA를 정량하고, 필요한 경우 희석시켜 표적 농도를 달성한다.
Figure 112019132469795-pct00148
공여자 및 수용자 이식 전 샘플 둘 모두를 시스템에서의 모든 표적 indel에 대해서 시험함으로써 기준선 유전자형 분석을 수행한다. 작은 멀티플렉스 시스템에서 이것은 반응당 2 내지 3개의 indel 표적의 10개의 개별 반응을 포함한다. 싱글플렉스 시스템에서, 이것은 각각의 반응에서 단일 indel 표적과의 46개의 개별 반응이 필요하다. 각각의 기준선 샘플 실시는 또한 양성 대조군을 포함해야 하고, 주형 대조군을 포함할 필요는 없다. 이는, 작은 멀티플렉스 시스템은 96웰 플레이트 상의 8개의 기준선 샘플에 피팅될 수 있고, 싱글플렉스 시스템은 플레이트당 2개에 피팅될 수 있다는 것을 의미한다.
Figure 112019132469795-pct00149
10ng의 기준선 DNA를 각각의 반응 웰에 첨가한다(작은 멀티플렉스의 경우 총 100ng 및 싱글플렉스의 경우 460ng).
Figure 112019132469795-pct00150
PCR 마스터믹스를 제조하고, 각각의 반응 웰에 첨가한다.
Figure 112019132469795-pct00151
증폭 프라이머를 적절한 웰에 첨가한다(작은 멀티플렉스의 경우 8x10 및 싱글플렉스의 경우 2×46)
Figure 112019132469795-pct00152
플레이트를 밀폐시키고, 보텍싱시키고, 원심분리시키고, qPCR 기기 상에 로딩한다.
Figure 112019132469795-pct00153
결과를 응용-특이적 소프트웨어에 로딩한다.
Figure 112019132469795-pct00154
수용자 및 공여자 기준선을 소프트웨어에서 비교하고, 유익한 마커를 키메리즘 분석을 위해서 선택한다. 보통 2개의 유익한 표적이 각각의 이식 수용자/공여자 쌍에 대해서 선택된다.
Figure 112019132469795-pct00155
증폭될 각각의 표적의 경우, 부수적인 기여자로부터의 이식 전 기준선 샘플은 3회 반복물로 시험되어야 하고, 각각의 이식 후 키메리즘 샘플은 3회 반복물로 시험되어야 하고, 2개의 시험 웰마다에 대한 양성 대조군 및 각각의 표적에 대한 비주형 대조군(no template control)이 존재한다. 다시 말해서, 단일 이식 후 키메리즘 분석을 수행하기 위해서는, 60ng(6개의 웰)의 기준 DNA가 시험되어야 하고, 60ng(6개의 웰)의 이식 전 기준선 DNA가 시험되어야 하고, 60ng(6개의 웰) 의 이식 후 키메리즘 DNA가 시험되어야 한다. 이것은 2개의 표적으로부터의 데이터를 생성시키기 위한 총 21개의 웰이다.
Figure 112019132469795-pct00156
PCR 마스터믹스를 제조하고, 각각의 반응 웰에 첨가한다.
Figure 112019132469795-pct00157
증폭 프라이머를 적절한 웰(샘플당 7개의 웰 - 이식 전 3개, 이식 후 3개, 그리고 1개의 무-주형 대조군)에 첨가한다.
Figure 112019132469795-pct00158
플레이트를 밀폐시키고, 보텍싱시키고, 원심분리시키고, qPCR 기기 상에 로딩한다.
Figure 112019132469795-pct00159
결과를 응용-특이적 소프트웨어에 로딩한다.
추출된 DNA로부터 유익한 마커 선택을 위한 유전자형분석 데이터까지는 1시간 30분의 실습 시간과 함께 총 약 3시간이 걸린다. 유익한 마커의 선택 및 키메리즘 샘플으로부터의 DNA 추출 후, 키메리즘 데이터의 생성을 위해서 추가 3시간 및 1시간 30분의 실습 시간이 필요하다.
한계
indel 표적의 qPCR-기반 키메리즘 분석의 3가지의 주요 한계가 있다.
첫 번째로, 각각의 키메리즘 분석은 60ng의 이식 전 수용자 기준선 샘플이 필요하다. 이것은 초기 유전자형분석에 필요한 100 내지 500ng의 기준선 DNA에 대한 추가이다. 키메리즘 분석을 빈번하게 수행하는 프로그램의 경우, 이식 전 기준선 샘플은 결핍될 수 있고, 이것은 장기간 동안 이러한 검정을 실시하는 능력을 제한한다.
두 번째로, 키메리즘 분석을 싱글플렉스 반응으로서 실시하기 위한 요건이 전체 시스템을 복잡하게 만들어서, 재고(inventory)로 보유될 수 십 개의 고유한 검정물이 필요하다. 또한, 각각의 반응의 비용이 보통 공여자-수용자 쌍당 단지 2개의 표적으로 분석을 제한하고, 이러한 표적은 각각의 공여자-수용자 쌍에 대해서 상이할 가능성이 있어서, 그러한 설정을 오류에 취약하게 만든다.
세 번째로, qPCR에 대한 LOQ가 너무 낮고, qPCR-기반 키메리즘의 동적 범위가 더 나빠지며, 부수적인 기여자가 30%를 초과하는 경우 키메리즘 예측은 실현 가능하지 않다.
NGS에 의한 신규 키메리즘 분석
표적: SNP
SNP는 변화가 인간 집단 내에서 또는 특정 집단 내에서 측정 가능한 정도로 존재하는 단일 뉴클레오타이드 위치이다. dbSNP는 국립 생명 공학 정보 센터(National Center for Biotechnology Information: NCBI)에 의해서 관리되는 SNP의 데이터베이스이고, 그것은 현재 1억 7천만 개 초과의 인간 SNP를 포함하며, 그것 중 거의 2천 5백 만개가 검증되어 잇다. 이는, SNP가 1,000개의 뉴클레오타이드 염기당 평균 하나의 SNP로 인간 집단 내에서 광범위한 변동성에 대한 책임이 있다는 것을 의미한다. SNP는 이대립인자성(2개의 관찰되는 대립유전자), 삼대립인자성(3개의 관찰되는 대립유전자), 또는 사대립인자성(4개의 관찰되는 대립유전자)일 수 있다. 부수적인 대립유전자가 집단 내의 개체의 무작위 세트에서 적어도 1% 미만의 빈도를 갖는 경우 단일 염기 변이체는 SNP라고 간주될 수 있다. SNP는 이의 낮은 돌연변이 비율, 작은 앰플리콘 크기 및 고처리율 서열분석 기술과의 호환성으로 인해서 키메리즘 분석에 대한 우수한 표적이다.
검정 설계
전세계의 다양한 집단 내에서 대략적으로 50/50 대립유전자 빈도로 이대립인자성이도록 SNP를 선택한다. 또한, 낮은 돌연변이 비율을 갖고, SNP 풀과의 연결 불균형이 없는 SNP를 선택한다. 마지막으로, PCR 증폭에서 그리고 서열분석 커버리지에서의 균일성 및 프라이머-프라이머 상호작용을 최소화하는 것 둘 다와 관련하여, SNP를 설계-능력에 대해서 평가하였다. 전세계의 모든 집단으로부터의 1차 친족을 구별하는 능력을 기초로 SNP의 총 수를 결정한다.
단일 PCR 단계는 DNA를 증폭시키고, 관심대상 앰플리콘을 단리시키고, 플로우셀 어댑터(샘플 앰플리콘이 플로우셀에 결합하는 것을 허용하는 일루미나 플로우셀 상의 것에 대한 역 올리고뉴클레오타이드 서열), 서열분석 프라이머(일루미나의 합성에 의한 서열분석(SBS) 공정을 위한 개시 부위로서 작용하는 올리고뉴클레오타이드 서열), 및 색인 바코드 서열(다수의 샘플이 동시에 시험되는 것을 허용하는 올리고뉴클레오타이드 서열)을 혼입시킨다.
NGS 시스템은 각각의 앰플리콘을 수 백 내지 수 천 회 서열분석한다. 이식 전 기준선 샘플에서, 이러한 정보를 사용하여 각각의 기여자에 대한 유전자형 분석을 수행한다. 이식 후 키메리즘 샘플에서, SNP 위치에서의 각각의 뉴클레오타이드에 대한 판독물 계수치를 기준선 유전자형과 함께 또는 그것 없이 사용하여 최대 5명의 총 기여자에서 각각의 기여자의 키메리즘 백분율을 추정할 수 있다.
작업흐름
Figure 112019132469795-pct00160
DNA를 말초 혈액, 골수, 또는 세포 계통으로부터 추출하고, 자성 비드로 또는 유세포 분석법에 의해서 단리시킨다.
Figure 112019132469795-pct00161
정제된 DNA를 정량하고, 필요한 경우 희석시켜 표적 농도를 달성한다.
Figure 112019132469795-pct00162
고유한 색인 바코드를 각각의 샘플 DNA에 첨가한다.
Figure 112019132469795-pct00163
마스터믹스를 모든 샘플에 첨가하고, 혼합하고, 밀폐시키고, 원심분리시킨다.
Figure 112019132469795-pct00164
PCR 증폭을 수행한다.
Figure 112019132469795-pct00165
모든 샘플을 단일 웰 중에서 풀링시키고, 이어서 PCR 세정을 수행한다.
Figure 112019132469795-pct00166
세정된 풀을 정량하고, 희석시키고, 변성시킨다.
Figure 112019132469795-pct00167
라이브러리라고도 불리는 최종 풀을 서열분석기 상에 로딩하고, 서열분석을 시작한다.
Figure 112019132469795-pct00168
서열분석 데이터를 자동화 품질 제어 및 키메리즘 분석을 위해서 키메리즘-특이적 분석 소프트웨어에 임포팅한다.
추출된 DNA로부터 서열분석기의 로딩까지는 2시간 미만의 실습 시간과 함께 3시간 미만이 걸린다. 서열분석 실시는 동시에 실시되는 샘플의 수에 따라서 9 내지 13시간이 필요하다. 서열분석 데이터가 수집되면, 데이터의 분석은 수동 중재가 필요 없어서, 분석의 자동화 및 인간 오류의 감소를 가능하게 한다.
한계
SNP를 사용한 NGS-기반 키메리즘 분석의 하나의 주요 제한이 존재한다: CE 및 qPCR-기반 키메리즘 분석과 비교할 때, NGS-기반 샘플 처리 및 서열분석은 더 긴 오랜 시간이 걸리지만, 실습 시간은 동일하다. NGS-기반 라이브러리 제조는 오후에 완결되고, 서열 분석은 밤새 완결된다. 이것은 아침에 제공받은 샘플의 경우 24시간의 턴어라운드를 허용한다. 그러나, 서열분석이 멀티플렉싱될 수 있기 때문에, 이 방법은 서열분석을 위한 다수의 샘플을 조합함으로써, 샘플 처리의 전체 효율을 개선시킬 수 있다.
요약
SNP 표적을 사용한 NGS-기반 키메리즘 분석은 키메리즘 분석의 종래의 방법과 연관된 한계 중 다수를 극복하기 위한 효율적이고, 정확하고, 신뢰할 만한 방법이다. 결과는 정확히 정량적이며, 전기영동도 및 스터터 감법(stutter subtraction)에 대한 힘든 인간 검토가 필요하지 않으면서 자동 방식으로 생성될 수 있다. NGS-기반 키메리즘 분석은 낮은 LOQ와 함께 넓은 동적 범위를 갖고, 혼합된 키메리즘의 높은 수준에서 성능 저하가 존재하지 않는다. 200개 초과의 SNP 표적이 NGS 시스템과 함께 사용되며, 이것은 단일 반응으로 멀티플렉싱된다. 이것은 매우 밀접하게 관련된 공여자-수용자 쌍 그리고 1명 초과의 공여자에서 활용될 수 있다. NGS 시스템의 색인 능력 및 처리율은 기준선 및 키메리즘 샘플이 동시에 시험되는 것을 가능하게 하고, 단지 하나의 검정물 및 키트가 재고로 저장되는 것을 가능하게 하고, 작업흐름에서 인간 오류에 대한 낮은 가능성을 가능하게 한다.
실시예 5
본 실시예는, 일부 구현예가 NGS 서열분석기의 처리율, 현저하게 높은 균일성을 갖는 검정 설계 및 표적으로서의 SNP의 사용으로 인해서 종래의 방법보다 개선된다는 것을 나타낸다. 개시된 방법은 30개 미만의 표적에 제한된 종래의 방법보다 훨씬 더 많은 표적을 분석할 수 있다. 이 공정은 다수의 샘플을 멀티플렉싱하는 것을 허용하여 효율을 증가시킨다. 이 방법은 정량적이고, 모두 비용 효율적으로 수행될 수 있다.
하나의 실험을 기지 또는 미지의 기준선 게놈을 갖는 일부 구현예에서 방법의 성능과 비교한다. 표 12는, 3개의 기준선 조건(기준선 둘 다 기지임, 기준선 둘 다 미지임, 수용자는 기지이고, 공여자는 미지임)에 대한 상이한 수용자 분획을 갖는 4개의 샘플에 대한 DNA 정량을 나타낸다. 결과는, 방법이 상이한 수용자 분획에서 기준선과 함께 또는 기준선 없이 유사한 성능으로 수행될 수 있다는 것을 나타낸다. 기준선이 기지인 경우, 방법은 더 좁은 신뢰 구간(및 더 높은 신뢰도)을 갖는 결과를 초래하는 경향이 있다.
[표 12]
Figure 112019132469795-pct00169
도 8은 일부 구현예에 의해서 결정된 DNA 분획(Y 축) 및 실제 DNA 분획(X 축)을 비교한다. 수평선은 실제 분획의 값을 나타낸다. 키메리즘 샘플은 호라이즌 디스커버리(Horizon Discovery)(카탈로그 번호 12498714289)에 의해서 제공된 모의 cfDNA인 cfDNA 혼합물을 포함한다. 도면이 나타내는 바와 같이, 예측된 마이너 기여자 분획은 0.1%, 0.2%, 0.4% 및 2%로 실제 부수적인 기여자 분획과 매우 유사하다.
도 9는 일부 구현예에 대한 정량 한계LOQ)를 결정하기 위한 16개의 조건의 분산 계수(CV)를 나타낸다. LOQ는 부정확성(CV) 20% 미만으로 분석물을 신뢰할 수 있게 검출할 수 있는 최저 농도로서 정의된다. 이러한 측정치는 분석 감도(즉, 검출 한계) 및 재현성(즉, 정확성) 둘 다를 고려한다. 4개의 상이한 막대의 군은 0.1%, 0.2%, 0.4% 및 2%의 부수적인 기여자 분율을 나타낸다. 군 내의 4개의 막대는 좌측에서 우측으로, 4개의 입력 DNA 조건을 나타낸다: 10ng의 gDNA, 3ng의 gDNA, 10ng의 cf DNA, 및 3ng의 cfDNA. 각각의 부수적인 기여자 분율에서, 예측된 바와 같이 일관된 패턴이 존재하고 - 더 적은 양의 샘플이 더 높은 CV로 이어지고, cfDNA가 더 높은 CV로 이어진다.
하나의 조건(0.1%의 부수적인 기여자 분율, 3ng의 cfDNA)을 제외한 모두는 20% 미만의 부정확성(CV)으로 분석물을 검출할 수 있다. 다시 말해서, 하나의 조건 (3ng의 cfDNA)는 0.2%의 LOQ를 갖는 반면, 나머지 조건은 0.1%의 LOQ를 갖는다.
표 13은 상기 데이터를 요약한다. 모든 4개의 입력 DNA 조건은 0.2%보다 더 작은 LOQ 값을 갖고, 가장 도전적인 입력 조건(3ng의 cfDNA)을 제외한 모두는 0.1%의 LOQ를 갖는다.
Figure 112019132469795-pct00170
논의
qPCR 또는 CE 기술을 사용한 종래의 키메리즘 방법은 사용 용이성, 표적의 수, 감도 또는 동적 범위를 희생시킨다.
구현되는 방법은 단일 검정으로 샘플을 멀티플렉싱한다. 이는 이식 전 기준선 샘플 및 이식 후 키메리즘 샘플이 동일한 검정을 사용하고, 그리고 동일한 서열분석 실시와 동시에 시험되는 것을 가능하게 한다. 방법은 기준선과 함께 또는 기준선 없이 거의 동일한 성능으로 수행될 수 있다.
qPCR 및 CE 키메리즘 방법은 이식 전 기준선 샘플에 대해서 일부 수준의 멀티플렉싱을 제공할 수 있지만, 이들 방법은 표적이 멀티플렉싱되는 경우 이식 후 키메리즘 정량에 대해서 성능 저하를 갖는다. 이는, 기준선 샘플 및 키메리즘 샘플이 별개로 시험되어야 하고, 전체 시스템이 적어도 수 십 개의 고유한 검정을 필요로 할 수 있다는 것을 의미한다.
qPCR은 마이크로키메리즘 검정에 대해서 민감성이지만, 그것은 혼합된 키메리즘에 대해서 신뢰할 만한 동적 범위가 부족하다. CE-기반 키메리즘 분석은 혼합된 키메리즘 검출에 대해서 넓은 동적 범위를 제공하지만, 마이크로키메리즘에 대한 감도가 부족하다. 개시된 방법은 신뢰할 만한 낮은 정량 한계(LOQ) 및 넓은 동적 범위를 제공하여, 모든 상이한 유형의 키메리즘을 포괄할 수 있는 하나의 해결을 가능하게 한다.

Claims (76)

  1. 2명 이상의 기여자(contributor)의 핵산을 포함하는 핵산 샘플을 정량하는, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현되는 방법으로서,
    상기 핵산 샘플로부터 핵산 분자를 추출하는 단계;
    상기 추출된 핵산 분자를 증폭시키는 단계;
    상기 핵산 샘플로부터 증폭된 핵산 분자를 핵산 서열분석기(nucleic acid sequencer)를 사용하여 서열분석(sequencing)하여 핵산 서열 리드(nucleic acid sequence read)를 생성시키는 단계;
    복수의 불편(unbiased) 표적 서열의 임의의 서열에 매칭하는 상기 핵산 서열 리드 중에서 리드를 식별하기 위해 컴퓨터 구현 해싱(hashing)을 사용하여 상기 핵산 서열 리드를 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑(mapping)하는 단계로서, 상기 복수의 불편 표적 서열은 상기 기준 서열의 하위서열 및 단일 뉴클레오타이드에 의해 상기 하위서열과 상이한 서열들을 포함하는, 맵핑하는 단계;
    상기 맵핑된 핵산 서열 리드를 사용하여, 상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 리드의 대립유전자 계수치를 결정하는 단계; 및
    확률적 혼합 모델(probabilistic mixture model)을 사용하여, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계로서, 상기 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 리드의 상기 대립유전자 계수치에 적용하는 것을 포함하되, 상기 확률적 혼합 모델은 확률 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 핵산 서열 리드의 상기 대립유전자 계수치를 모델링하고, 상기 확률 분포는 상기 핵산 서열 리드에서의 오류를 설명하는, 상기 정량하는 단계
    를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  2. 제1항에 있어서, 상기 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 상기 하나 이상의 다형성 유전자좌에서 상기 2명 이상의 기여자의 하나 이상의 유전자형을 결정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  3. 제1항에 있어서, 상기 2명 이상의 기여자의 핵산의 상기 하나 이상의 분율을 사용하여, 또 다른 기여자(공여자(donor))로부터 이식된 조직 또는 기관을 거부하는 하나의 기여자(수증자(donee))의 위험을 결정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 핵산 분자는 DNA 분자 또는 RNA 분자를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  6. 제1항에 있어서, 상기 핵산 샘플은 0종, 1종 또는 그 초과의 오염물 게놈 및 하나의 관심대상 게놈으로부터의 핵산을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  7. 제1항에 있어서, 상기 2명 이상의 기여자는 0명, 1명 또는 그 초과의 이식의 공여자 및 이식의 수증자를 포함하고, 상기 핵산 샘플은 상기 수증자로부터 획득된 샘플을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  8. 제7항에 있어서, 상기 이식은 동종이계(allogeneic) 또는 이종(xenogeneic) 이식을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  9. 제7항에 있어서, 상기 핵산 샘플은 상기 수증자로부터 획득된 생물학적 샘플을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  10. 제1항에 있어서, 상기 핵산 샘플은 세포 배양물로부터 획득된 생물학적 샘플을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  11. 제1항에 있어서, 상기 추출된 핵산 분자는 세포-유리(cell-free) 핵산을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  12. 제1항에 있어서, 상기 추출된 핵산 분자는 세포 DNA를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  13. 제1항에 있어서, 상기 하나 이상의 다형성 유전자좌는 하나 이상의 이대립인자성 다형성 유전자좌(biallelic polymorphism locus)를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  14. 제1항에 있어서, 상기 하나 이상의 다형성 유전자좌에서의 상기 하나 이상의 대립유전자는 하나 이상의 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP) 대립유전자를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  15. 제1항에 있어서, 상기 확률적 혼합 모델은 단일-유전자좌 우도 함수를 사용하여 단일 다형성 유전자좌에서 대립유전자 계수치를 모델링하되, 상기 단일-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00171

    식 중,
    n 1i 는 유전자좌 i에서의 대립유전자 1의 대립유전자 계수치이고,
    n 2i 는 유전자좌 i에서의 대립유전자 2의 대립유전자 계수치이며,
    p 1i 는 유전자좌 i에서의 대립유전자 1의 예측된 분율이고,
    θ는 하나 이상의 모델 모수를 포함한다.
  16. 제15항에 있어서, p1i 는,
    (i) 유전자좌 i에서의 상기 기여자의 유전자형 또는 기여자 1...D에서 유전자좌 i에서의 대립유전자 1의 카피 수의 벡터인 g i = (g11i, ..., gD1i );
    (ii) 서열분석 작업으로부터 초래한 리드 계수치 오류, 또는 λ; 및
    (iii) 상기 핵산 샘플에서 기여자의 핵산의 분율, 또는 β = (β1, ..., βD)(여기서 D는 기여자의 수임)의 함수로서 모델링되는, 컴퓨터 시스템에서 구현되는 방법.
  17. 제16항에 있어서,
    Figure 112022064402329-pct00172
    이되,
    Figure 112022064402329-pct00173
    는 벡터 내적 연산자인, 컴퓨터 시스템에서 구현되는 방법.
  18. 제17항에 있어서, 상기 기여자는 2명의 기여자를 포함하고, p 1i 는 표 3의 p 1 ' 값을 사용하여 획득되는, 컴퓨터 시스템에서 구현되는 방법.
  19. 제16항에 있어서, 상기 기여자의 0, 1 또는 그 초과의 유전자형은 미지인, 컴퓨터 시스템에서 구현되는 방법.
  20. 제19항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는 유전자형의 복수의 가능한 조합에 걸쳐서 주변화(marginalizing)시켜 상기 확률 모수 p1i 를 열거하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  21. 제19항에 있어서, 상기 하나 이상의 다형성 유전자좌 각각에서 유전자형 구성을 결정하는 단계를 더 포함하되, 상기 유전자형 구성은 상기 2명 이상의 기여자 각각에 대해서 2개의 대립유전자를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  22. 제16항에 있어서, 상기 단일-유전자좌 우도 함수는 제1 이항 분포를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  23. 제22항에 있어서, 상기 제1 이항 분포는 하기 식으로 표현되는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00174

    식 중,
    n1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 리드의 대립유전자 계수치이고;
    ni 는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 총 리드 계수치이다.
  24. 제23항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는 복수의 단일-유전자좌 우도 함수로부터 계산된 다중-유전자좌 우도 함수를 최대화시키는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  25. 제24항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는,
    상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 리드의 대립유전자 계수치를 결정하는 단계에서 결정된 핵산 서열 리드의 상기 대립유전자 계수치의 다중-유전자좌 우도 함수 및 복수의 잠재적인 분율 값(potential fraction value)을 사용하여 복수의 다중-유전자좌 우도 값을 계산하는 단계;
    최대 다중-유전자좌 우도 값과 연관된 하나 이상의 잠재적인 분율 값을 식별하는 단계; 및
    상기 핵산 샘플에서 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 상기 식별된 잠재적인 분율 값으로서 정량하는 단계
    를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  26. 제24항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00175

    식 중,
    L( β , θ, λ, π; n 1 , n 2 )은 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고;
    p(g i , λ, β )는 유전자좌 i에서의 기여자의 유전자형 g i 를 기초로 유전자좌 i에서의 대립유전자 1을 관찰할 예측된 분율 또는 확률이며;
    P(g i |π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 유전자형 g i 를 관찰할 선험적 확률이고;
    Σg i 는 기여자의 유전자형의 복수의 가능한 조합에 걸친 총합을 나타낸다.
  27. 제26항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00212
    .
  28. 제27항에 있어서, 상기 기여자는 2명의 기여자를 포함하고, 상기 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00177

    식 중,
    L(β, θ, λ, π ; n 1 , n 2 )은 모수 β π를 고려할 때 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 내지 n 2 를 관찰할 우도이고;
    p 1i (g 1i , g 2i , λ, β)는 표 3으로부터 p 1 ' 로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g 1i, g 2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며;
    P(g 1i ,g 2i |π)는 집단 대립유전자 빈도(π)를 고려할 때 2명의 기여자의 유전자형을 관찰할 선험적 동시 확률(prior joint probability)이다.
  29. 제28항에 있어서, 상기 선험적 동시 확률은 하디-바인버그 평형(Hardy-Weinberg equilibrium)을 충족시키는 주변 분포P(g 1i |π) P(g 2i |π)를 사용하여 계산되는, 컴퓨터 시스템에서 구현되는 방법.
  30. 제29항에 있어서, 상기 선험적 동시 확률은 2명의 기여자 사이의 유전적 관계를 사용하여 계산되는, 컴퓨터 시스템에서 구현되는 방법.
  31. 제26항에 있어서, 상기 확률적 혼합 모델은 상기 핵산 샘플로부터의 상기 핵산 분자의 추출로부터 초래한 핵산 분자 카피 수 오류, 뿐만 아니라 핵산 서열 리드를 생성하기 위해 상기 핵산 서열분석기를 사용하는 상기 서열분석 작업으로부터 초래한 리드 계수치 오류를 설명하는, 컴퓨터 시스템에서 구현되는 방법.
  32. 제31항에 있어서, 상기 확률적 혼합 모델은 제2 이항 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 상기 추출된 핵산 분자의 대립유전자 계수치를 모델링하는, 컴퓨터 시스템에서 구현되는 방법.
  33. 제32항에 있어서, 상기 제2 이항 분포는 하기 식으로 표현되는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00178

    식 중,
    n 1i "는 유전자좌 i에서의 대립유전자 1에 대한 추출된 핵산 분자의 대립유전자 계수치이고;
    n i "는 유전자좌 i에서의 총 핵산 분자 계수치이며;
    p iu 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이다.
  34. 제33항에 있어서, 상기 제1 이항 분포는 대립유전자 분율 n 1i "/n i " 에 대해서 조건화되는, 컴퓨터 시스템에서 구현되는 방법.
  35. 제34항에 있어서, 상기 제1 이항 분포는 하기 식과 같이 재모수화되는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00179

    식 중,
    n1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 리드의 대립유전자 계수치이고;
    ni"는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 핵산 분자의 총 수이고;
    ni 는 유전자좌 i에서의 총 리드 계수치이며;
    n1i"는 유전자좌 i에서의 대립유전자 1에 대한 추출된 핵산 분자의 수이다.
  36. 제35항에 있어서, 상기 확률적 혼합 모델은 제1 베타 분포를 사용하여 n 1i "/n"의 분포의 근사치를 계산하는, 컴퓨터 시스템에서 구현되는 방법.
  37. 제36항에 있어서, 상기 제1 베타 분포는 상기 제2 이항 분포의 평균 및 분산에 매칭하는 평균 및 분산을 갖는, 컴퓨터 시스템에서 구현되는 방법.
  38. 제36항에 있어서, 유전자좌 i는 이대립인자성으로서 모델링되고, 상기 제1 베타 분포는 하기 식과 같이 표현되는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00213

    식 중,
    p1i 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이고;
    p2i 는 유전자좌 i에서의 대립유전자 2의 확률을 나타내는 확률 모수이다.
  39. 제36항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는 상기 제1 이항 분포를 조합하고, 서열분석 리드 계수치 및 상기 제1 베타 분포를 모델링하고, 추출된 핵산 분자 수를 모델링하여 제1 베타-이항 분포를 따르는 n1i의 상기 단일-유전자좌 우도 함수를 획득하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  40. 제39항에 있어서, 상기 제1 베타-이항 분포는 하기 형태:
    Figure 112019132469795-pct00181

    또는 하기 대안적인 근사치를 갖는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00182
  41. 제40항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00183

    식 중, L(β, n", λ, π ; n 1 ,n 2 )은 모든 유전자좌에서의 대립유전자 1 및 2에 대한 대립유전자 계수치 벡터 n 1 n 2 를 관찰할 우도이고,
    Figure 112019132469795-pct00184
    이다.
  42. 제41항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00185

    식 중, L(β, n", λ, π ; n1, n2)은 모수 β, n", λ, π를 고려할 때 모든 유전자좌의 상기 대립유전자 1에 대한 대립유전자 계수치 벡터(n1 ) 및 모든 유전자좌의 상기 대립유전자 2에 대한 대립유전자 계수치 벡터(n2 )를 관찰할 우도이고;
    p1i(g1i, g2i, λ, β)는 표 3으로부터 p1' 로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g1i, g2i )을 기초로 유전자좌 i에서의 대립유전자 1의 확률을 나타내며;
    p2i(g1i, g2i, λ, β)는 표 3으로부터 p2'로서 취해지는 확률 모수이고, 이것은 2명의 기여자의 유전자형(g1i, g2i )을 기초로 유전자좌 i에서의 대립유전자 2의 확률을 나타내며;
    P(g1i,g2i|π)는 집단 대립유전자 빈도(π)를 고려할 때 유전자좌 i에서의 상기 대립유전자 1에 대한 제1 기여자의 유전자형(g1i ) 및 상기 대립유전자 1에 대한 제2 기여자의 유전자형(g2i )을 관찰할 선험적 동시 확률이며,
    상기 표 3은 하기와 같다.
    Figure 112022064402329-pct00214
  43. 제35항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는 상기 추출된 핵산 분자의 질량으로부터 상기 총 추출된 게놈 카피 수 n" 를 추정하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  44. 제43항에 있어서, 상기 추정된 총 추출된 게놈 카피 수 n"는 상기 추출된 핵산 분자의 단편 크기에 따라서 조정되는, 컴퓨터 시스템에서 구현되는 방법.
  45. 제26항에 있어서, 상기 확률적 혼합 모델은 상기 핵산 분자의 증폭으로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 상기 서열분석 작업으로부터 초래한 리드 계수치 오류를 설명하는, 컴퓨터 시스템에서 구현되는 방법.
  46. 제45항에 있어서, 상기 증폭 공정은 하기 식과 같이 모델링되는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00186

    식 중,
    xt+1 은 주기 t+1의 증폭 후 주어진 대립유전자의 핵산 카피이고;
    xt 는 주기 t의 증폭 후 주어진 대립유전자의 핵산 카피이며;
    yt+1 은 주기 t+1에서 생성된 새로운 카피이고, 이항 분포 yt+1 ~BN(xt, rt+1)를 따르고;
    rt+1 은 주기 t+1에 대한 증폭 속도이다.
  47. 제45항에 있어서, 상기 확률적 혼합 모델은 제2 베타 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 상기 증폭된 핵산 분자의 대립유전자 분율을 모델링하는, 컴퓨터 시스템에서 구현되는 방법.
  48. 제47항에 있어서, 유전자좌 i는 이대립인자성이고, 상기 제2 베타 분포는 하기 식과 같이 표현되는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00187

    식 중,
    n1i'는 유전자좌 i에서의 대립유전자 1에 대한 증폭된 핵산 분자의 대립유전자 계수치이고;
    n2i'는 유전자좌 i에서의 대립유전자 2에 대한 증폭된 핵산 분자의 대립유전자 계수치이고;
    n"는 임의의 유전자좌에서의 총 핵산 분자 계수치이며;
    ρi 는 평균 증폭 속도 r에 관련된 상수이고;
    p1i 는 유전자좌 i에서의 대립유전자 1의 확률이고;
    p2i 는 유전자좌 i에서의 대립유전자 2의 확률이다.
  49. 제48항에 있어서, ρ i
    Figure 112019132469795-pct00188
    이고, r은 주기당 평균 증폭 속도인, 컴퓨터 시스템에서 구현되는 방법.
  50. 제48항에 있어서, ρ i (1+r)/(1-r)로서 근사되는, 컴퓨터 시스템에서 구현되는 방법.
  51. 제48항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는 상기 제1 이항 분포 및 상기 제2 베타 분포를 조합하여 제2 베타-이항 분포를 따르는 n1i 에 대한 상기 단일-유전자좌 우도 함수를 획득하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  52. 제51항에 있어서, 상기 제2 베타-이항 분포는 하기 형태를 갖는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00189

    식 중,
    n1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 리드의 대립유전자 계수치이고;
    p1i 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이고;
    p2i 는 유전자좌 i에서의 대립유전자 2의 확률을 나타내는 확률 모수이다.
  53. 제52항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는, 상기 하나 이상의 다형성 유전자좌가 동일한 증폭 속도를 갖는다고 가정함으로써, 상기 제2 베타-이항 분포를 하기 식으로서 재모수화시키는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00190

    식 중, r은 증폭 속도이다.
  54. 제53항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00191
  55. 제53항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00192

    식 중, L(β, n", r, λ, π ; n1, n2)은 모수 β, n", r, λ, π를 고려할 때 모든 유전자좌의 상기 대립유전자 1에 대한 대립유전자 계수치 벡터(n1 ) 및 모든 유전자좌의 상기 대립유전자 2에 대한 대립 유전자 계수치 벡터(n2 )를 관찰할 우도이다.
  56. 제52항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는, 상기 유전자좌의 총 리드에 비례할 각각의 다형성의 상대적인 증폭 속도를 정의함으로써, 상기 제2 베타-이항 분포를 하기 식으로서 재모수화시키는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00193

    식 중,
    c'는 최적화될 모수이고;
    ni 는 유전자좌 i에서의 총 리드이다.
  57. 제56항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00194
  58. 제26항에 있어서, 상기 확률적 혼합 모델은 상기 핵산 분자의 추출 및 상기 핵산 분자의 증폭으로부터 초래한 핵산 분자 수 오류, 뿐만 아니라 상기 서열분석 작업으로부터 초래한 리드 계수치 오류를 설명하는, 컴퓨터 시스템에서 구현되는 방법.
  59. 제58항에 있어서, 상기 확률적 혼합 모델은, 제3 베타 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 대립유전자에 대한 상기 증폭된 핵산 분자의 대립유전자 분율을 모델링하여, 상기 핵산 분자의 추출 및 상기 핵산 분자의 증폭으로부터 초래한 샘플링 오류를 설명하는, 컴퓨터 시스템에서 구현되는 방법.
  60. 제59항에 있어서, 유전자좌 i는 이대립인자성이고, 상기 제3 베타 분포는 하기 식의 형태를 갖는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00195

    식 중,
    n1i'는 유전자좌 i에서의 대립유전자 1에 대한 증폭된 핵산 분자의 대립유전자 계수치이고;
    n2i'는 유전자좌 i에서의 대립유전자 2에 대한 증폭된 핵산 분자의 대립유전자 계수치이고;
    n"는 총 핵산 분자 계수치이고;
    ri 는 유전자좌 i에 대한 평균 증폭 속도이며;
    p1i 는 유전자좌 i에서의 대립유전자 1의 확률이고;
    p2i 는 유전자좌 i에서의 대립유전자 2의 확률이다.
  61. 제60항에 있어서, 상기 핵산 샘플 중의 상기 2명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하는 단계는 상기 제1 이항 분포 및 상기 제3 베타 분포를 조합하여 제3 베타-이항 분포를 따르는 n1i의 상기 단일-유전자좌 우도 함수를 획득하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  62. 제61항에 있어서, 상기 제3 베타-이항 분포는 하기 형태를 갖는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00196

    식 중, r i 는 증폭 속도이다.
  63. 제62항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112019132469795-pct00197

    식 중 r은 모든 유전자좌에 대해서 동일하다고 가정된 증폭 속도이다.
  64. 제62항에 있어서, 상기 다중-유전자좌 우도 함수는 하기 식을 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    Figure 112022064402329-pct00198

    식 중, L(n1, n2| β, n", r, λ, π)은 모수 β, n", r, λ 및 π를 고려할 때 상기 대립유전자 1의 벡터에 대한 대립유전자 계수치 n1 및 상기 대립유전자 2의 벡터에 대한 대립유전자 계수치 n2 를 관찰할 우도이다.
  65. 제1항에 있어서, 수치 미분을 사용하는 로그-우도의 헤시안 행렬(hessian matrix)을 사용하여 상기 2명 이상의 기여자의 핵산의 상기 하나 이상의 분율의 하나 이상의 신뢰 구간를 추정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  66. 삭제
  67. 제1항에 있어서, 상기 복수의 불편 표적 서열은 복수의 다형성 부위의 각각의 다형성 부위를 포함하는 하기 5개의 서열 카테고리를 포함하는, 컴퓨터 시스템에서 구현되는 방법:
    (i) 상기 기준 서열의 하위서열인 기준 표적 서열, 상기 기준 표적 서열은 상기 다형성 부위에서 기준 뉴클레오타이드를 갖는 기준 대립유전자를 가짐;
    (ii) 상기 다형성 부위에서 대안적인 뉴클레오타이드를 갖는 대안적인 대립유전자를 각각 갖는 대안적인 표적 서열, 상기 대안적인 뉴클레오타이드는 상기 기준 뉴클레오타이드와 상이함;
    (iii) 각각 상기 다형성 부위가 아닌 부위에서 단지 하나의 뉴클레오타이드가 상기 기준 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 기준 표적 서열;
    (iv) 각각 상기 다형성 부위가 아닌 부위에서 단지 하나의 뉴클레오타이드가 대안적인 표적 서열과 상이한 모든 가능한 서열을 포함하는 돌연변이된 대안적인 표적 서열; 및
    (v) 각각 상기 기준 대립유전자 및 상기 대안적인 대립유전자와 상이한 비예측된 대립유전자를 갖고, 각각 상기 4개의 서열 카테고리와 상이한 서열을 갖는 비예측된 대립유전자 표적 서열.
  68. 제67항에 있어서, (v)의 상기 비예측된 대립유전자 표적 서열을 관찰할 빈도에 기초하여 서열분석 오류율 λ를 추정하는 단계를 더 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  69. 제67항에 있어서, 상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 리드의 대립유전자 계수치를 결정하는 단계는 상기 식별된 리드 및 이의 매칭 불편 표적 서열을 사용하여 상기 하나 이상의 다형성 유전자좌에서 상기 대립유전자에 대한 상기 핵산 서열 리드의 대립유전자 계수치를 결정하는 단계를 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  70. 제67항에 있어서, 상기 복수의 불편 표적 서열은 상기 핵산 서열 리드와 동일한 길이를 갖도록 절두된 서열을 포함하는, 컴퓨터 시스템에서 구현되는 방법.
  71. 제67항에 있어서, 상기 복수의 불편 표적 서열은 하나 이상의 해시 테이블(hash table)에 저장된 서열을 포함하고, 상기 리드는 해시 테이블을 사용하여 식별되는, 컴퓨터 시스템에서 구현되는 방법.
  72. 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 시스템으로서,
    (a) (i) 상기 핵산 샘플로부터 추출된 핵산 분자를 제공받고, (ii) 상기 추출된 핵산 분자를 증폭시키고, (iii) 상기 증폭된 핵산 분자를 핵산 서열 리드를 생성시키는 조건 하에서 서열분석하도록 구성된 서열분석기; 및
    (b) 하나 이상의 프로세서를 포함하는 컴퓨터를 포함하되, 상기 하나 이상의 프로세서는,
    복수의 불편 표적 서열의 임의의 서열에 매칭하는 상기 핵산 서열 리드 중에서 리드를 식별하기 위해 컴퓨터 구현 해싱을 사용하여 상기 핵산 서열 리드를 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하되, 상기 복수의 불편 표적 서열은 상기 기준 서열의 하위서열 및 단일 뉴클레오타이드에 의해 상기 하위서열과 상이한 서열들을 포함하고;
    상기 맵핑된 핵산 서열 리드를 사용하여, 상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 리드의 대립유전자 계수치를 결정하고; 그리고
    확률적 혼합 모델을 사용하여, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하도록 구성되며,
    상기 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 리드의 상기 대립유전자 계수치에 적용하는 것을 포함하고,
    상기 확률적 혼합 모델은 확률 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 핵산 서열 리드의 상기 대립유전자 계수치를 모델링하고, 상기 확률 분포는 상기 핵산 서열 리드에서의 오류를 설명하는, 핵산 샘플을 정량하는 시스템.
  73. 제72항에 있어서, 상기 핵산 샘플로부터 핵산 분자를 추출하기 위한 툴(tool)을 더 포함하는, 핵산 샘플을 정량하는 시스템.
  74. 제72항에 있어서, 상기 확률 분포는 하기 식과 같은 제1 이항 분포를 포함하는, 핵산 샘플을 정량하는 시스템:
    Figure 112022064402329-pct00199

    식 중,
    n1i 는 유전자좌 i에서의 대립유전자 1에 대한 핵산 서열 리드의 대립유전자 계수치이고;
    ni 는 총 게놈 카피 수 n"에 동일한, 유전자좌 i에서의 총 리드 계수치이고;
    p1i 는 유전자좌 i에서의 대립유전자 1의 확률을 나타내는 확률 모수이다.
  75. 비-일시적인 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램으로서, 컴퓨터 시스템의 하나 이상의 프로세서에 의해서 실행되는 경우, 상기 컴퓨터 시스템이 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는 방법을 구현하도록 하는 프로그램 코드를 저장하되, 상기 프로그램 코드는,
    복수의 불편 표적 서열의 임의의 서열에 매칭하는 핵산 서열 리드 중에서 리드를 식별하기 위해 컴퓨터 구현 해싱을 사용하여 상기 핵산 서열 리드를 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하되, 상기 복수의 불편 표적 서열은 상기 기준 서열의 하위서열 및 단일 뉴클레오타이드에 의해 상기 하위서열과 상이한 서열들을 포함하는, 맵핑하기 위한 코드;
    상기 맵핑된 핵산 서열 리드를 사용하여, 상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 리드의 대립유전자 계수치를 결정하기 위한 코드; 및
    확률적 혼합 모델을 사용하여, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율을 정량하기 위한 코드를 포함하되,
    상기 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 리드의 상기 대립유전자 계수치에 적용하는 것을 포함하고,
    상기 확률적 혼합 모델은 확률 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 핵산 서열 리드의 상기 대립유전자 계수치를 모델링하고, 상기 확률 분포는 상기 핵산 서열 리드에서의 오류를 설명하는, 비-일시적인 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램.
  76. 1명 이상의 기여자의 핵산을 포함하는 핵산 샘플을 정량하는, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템에서 구현되는 방법으로서,
    (a) 상기 하나 이상의 프로세서에 의해서, 상기 핵산 샘플로부터 획득된 핵산 서열 리드를 제공받는 단계;
    (b) 상기 하나 이상의 프로세서에 의해서, 컴퓨터 구현 해싱을 사용하여, 상기 핵산 서열 리드를 기준 서열 상의 하나 이상의 다형성 유전자좌에 맵핑하는 단계로서, 복수의 불편 표적 서열은 상기 기준 서열의 하위서열 및 단일 뉴클레오타이드에 의해 상기 하위서열과 상이한 서열들을 포함하는, 맵핑하는 단계;
    (c) 상기 맵핑된 핵산 서열 리드를 사용하고, 그리고 상기 하나 이상의 프로세서에 의해서, 상기 하나 이상의 다형성 유전자좌에서의 하나 이상의 대립유전자에 대한 핵산 서열 리드의 대립유전자 계수치를 결정하는 단계; 및
    (d) 확률적 혼합 모델을 사용하고, 그리고 하나 이상의 프로세서에 의해서, 상기 핵산 샘플에서 상기 1명 이상의 기여자의 핵산의 하나 이상의 분율 및 상기 분율의 신뢰도를 정량하는 단계를 포함하되,
    상기 확률적 혼합 모델을 사용하는 것은 확률적 혼합 모델을 핵산 서열 리드의 상기 대립유전자 계수치에 적용하는 것을 포함하고,
    상기 확률적 혼합 모델은 확률 분포를 사용하여 상기 하나 이상의 다형성 유전자좌에서의 핵산 서열 리드의 상기 대립유전자 계수치를 모델링하고, 상기 확률 분포는 상기 맵핑된 핵산 서열 리드에서의 오류를 설명하며,
    상기 정량하는 단계는 (i) 다중-반복 그리드 탐색(multi-iteration grid searching) 및 BFGS(Broyden-Fletcher-Goldfarb-Shanno)-준뉴튼법(quasi-Newton method)을 사용하는, 컴퓨터 시스템에서 구현되는 방법.
KR1020197037927A 2017-06-20 2018-06-19 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템 KR102487135B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762522605P 2017-06-20 2017-06-20
US62/522,605 2017-06-20
PCT/US2018/038342 WO2018236911A1 (en) 2017-06-20 2018-06-19 METHODS AND SYSTEMS FOR DECOMPOSING AND QUANTIFYING DNA MIXTURES FROM MULTIPLE CONTRIBUTORS HAVING KNOWN OR UNKNOWN GENOTYPES

Publications (2)

Publication Number Publication Date
KR20200010464A KR20200010464A (ko) 2020-01-30
KR102487135B1 true KR102487135B1 (ko) 2023-01-10

Family

ID=62875324

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197037927A KR102487135B1 (ko) 2017-06-20 2018-06-19 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템

Country Status (10)

Country Link
US (1) US20210151125A1 (ko)
EP (1) EP3642747A1 (ko)
JP (1) JP7009518B2 (ko)
KR (1) KR102487135B1 (ko)
CN (1) CN110770840A (ko)
AU (1) AU2018288772B2 (ko)
CA (1) CA3067419A1 (ko)
IL (1) IL271155A (ko)
SG (1) SG11201911538YA (ko)
WO (1) WO2018236911A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113528645A (zh) 2014-03-14 2021-10-22 凯尔迪克斯公司 用于在移植受体中监测免疫抑制疗法的方法
CN109714364A (zh) * 2019-02-20 2019-05-03 湖南大学 一种基于贝叶斯改进模型的网络安全防御方法
CA3140066A1 (en) * 2019-05-20 2020-11-26 Foundation Medicine, Inc. Systems and methods for evaluating tumor fraction
CN112458162B (zh) * 2020-11-16 2023-04-18 北京迈基诺基因科技股份有限公司 器官移植ddcfDNA检测试剂和方法
JP7121440B1 (ja) 2020-12-16 2022-08-18 株式会社seeDNA 多型座位の信号の信頼性値の算出方法
US20220277808A1 (en) * 2021-02-19 2022-09-01 Twist Bioscience Corporation Libraries for identification of genomic variants
US20240117445A1 (en) * 2021-03-16 2024-04-11 University Of North Texas Health Science Center At Fort Worth Macrohaplotypes for Forensic DNA Mixture Deconvolution

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013130848A1 (en) * 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2505472A1 (en) * 2002-11-11 2004-05-27 Affymetrix, Inc. Methods for identifying dna copy number changes
WO2007145612A1 (en) 2005-06-06 2007-12-21 454 Life Sciences Corporation Paired end sequencing
EP3599609A1 (en) * 2005-11-26 2020-01-29 Natera, Inc. System and method for cleaning noisy genetic data and using data to make predictions
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
AU2008308457A1 (en) 2007-10-04 2009-04-09 Halcyon Molecular Sequencing nucleic acid polymers with electron microscopy
US9029103B2 (en) 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
SI3078752T1 (sl) * 2011-04-12 2018-12-31 Verinata Health, Inc Razreševanje frakcij genoma z uporabo števila polimorfizmov
CN107435070A (zh) * 2012-04-12 2017-12-05 维里纳塔健康公司 拷贝数变异的检测和分类
AU2013204615A1 (en) * 2012-07-20 2014-02-06 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
IL269097B2 (en) * 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US11952622B2 (en) * 2013-07-18 2024-04-09 The Johns Hopkins University Analysis of DNA-containing samples and resolution of mixed contributor DNA samples
JP6374532B2 (ja) * 2014-12-26 2018-08-15 国立大学法人東北大学 特定遺伝子座群又は個別の遺伝子座の遺伝型の判定方法、判定用コンピュータシステム及び判定用プログラム
KR101850437B1 (ko) * 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
EP3739061B1 (en) * 2015-07-20 2022-03-23 The Chinese University Of Hong Kong Methylation pattern analysis of haplotypes in tissues in dna mixture

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013130848A1 (en) * 2012-02-29 2013-09-06 Natera, Inc. Informatics enhanced analysis of fetal samples subject to maternal contamination

Also Published As

Publication number Publication date
WO2018236911A1 (en) 2018-12-27
US20210151125A1 (en) 2021-05-20
CN110770840A (zh) 2020-02-07
NZ759485A (en) 2021-10-29
CA3067419A1 (en) 2018-12-27
SG11201911538YA (en) 2020-01-30
EP3642747A1 (en) 2020-04-29
AU2018288772B2 (en) 2022-02-24
IL271155A (en) 2020-01-30
JP2020529648A (ja) 2020-10-08
JP7009518B2 (ja) 2022-01-25
AU2018288772A1 (en) 2019-12-12
KR20200010464A (ko) 2020-01-30

Similar Documents

Publication Publication Date Title
US20230295690A1 (en) Haplotype resolved genome sequencing
US20200172977A1 (en) System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
KR102487135B1 (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
CN106795558B (zh) 检测胎儿亚染色体非整倍性和拷贝数变异
KR102543270B1 (ko) 미지의 유전자형의 기여자로부터의 dna 혼합물의 정확한 컴퓨팅 분해를 위한 방법
US20070184467A1 (en) System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US20190172582A1 (en) Methods and systems for determining somatic mutation clonality
NZ759848B2 (en) Liquid sample loading
NZ759848A (en) Method and apparatuses for screening
NZ759784A (en) Liquid sample loading
NZ759784B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant