KR20210013061A - 핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용 - Google Patents

핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용 Download PDF

Info

Publication number
KR20210013061A
KR20210013061A KR1020207033828A KR20207033828A KR20210013061A KR 20210013061 A KR20210013061 A KR 20210013061A KR 1020207033828 A KR1020207033828 A KR 1020207033828A KR 20207033828 A KR20207033828 A KR 20207033828A KR 20210013061 A KR20210013061 A KR 20210013061A
Authority
KR
South Korea
Prior art keywords
nucleic acid
mixture
sequence
sample
strand
Prior art date
Application number
KR1020207033828A
Other languages
English (en)
Inventor
제시 제이. 솔크
찰스 클린턴 3세 발렌타인
패트릭 다나허
팡 인 로
Original Assignee
트윈스트랜드 바이오사이언시스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 트윈스트랜드 바이오사이언시스, 인코포레이티드 filed Critical 트윈스트랜드 바이오사이언시스, 인코포레이티드
Publication of KR20210013061A publication Critical patent/KR20210013061A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/143Multiplexing, i.e. use of multiple primers or probes in a single reaction, usually for simultaneously analyse of multiple analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

핵산 혼합물 및/또는 혼합된 세포 집단을 평가하고 해상하기 위한 방법 및 관련 시약이 본원에 개시된다. 본 기술내용의 일부 실시형태는 샘플에서 핵산 혼합물(예를 들어, 다중키메라 혼합물, 하나 초과의 소스로부터의 핵산 혼합물 등)을 평가하고 해상하기 위한 듀플렉스 시퀀싱의 이용 및 관련 분야에 관한 것이다. 다른 실시형태는 혼합물로부터의 핵산의 공여자 소스를 검출하고 정량화하는 것에 관한 것이다.

Description

핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용
관련 출원의 상호 참조
본원은 2018년 5월 16일자에 출원된 미국 가특허 출원 제62/672,573호 및 2019년 2월 27일자에 출원된 미국 가특허 출원 제62/811,517호의 우선권 및 이익을 주장하고, 이의 개시내용은 그 전문이 본원에 참조로 포함된다.
상이한 클론 또는 개체로부터 유래된 혼합된 세포 집단의 해상 또는 핵산 혼합물 내의 원래의 소스의 추적은 대개 혼합물이 기인한 클론 또는 개체 사이에 다른 특정 유전 마커의 추적을 요한다. 때때로 비유전 수단(즉, 세포 표면에서 발현된 단백질의 차이 등)에 의해 상이한 클론 또는 개체로부터 세포를 구별할 수는 있지만, 이것은 고속 사용에 항상 가능하지 않거나 실험적으로 실행될 수 있다. 유전적 다형은 세포 또는 DNA 분자의 기원을 정의하기 위한 편리하고 예측 가능하고 통계적으로 일반화 가능한 계통 마커로서 사용될 수 있다. 인간에서, 예를 들어, 대략 0.1%의 인간 게놈은 다형성이다(예를 들어, 모든 1000개의 뉴클레오타이드 염기 중 1개는 인간 집단 내에서 서열이 변함). 흔한 변이 형태는 무엇보다도 단일 뉴클레오타이드 다형성/단일 뉴클레오타이드 변이체(SNP/SNV: single nucleotide polymorphisms/single nucleotide variant), 멀티뉴클레오타이드 변이(MNV: multinucleotide variation), 짧은 삽입 및 결실(삽입-결실), 짧은 탠덤 반복부(STR: short tandem repeat)의 길이의 변이, 및 다른 더 큰 규모의 구조 변이, 예컨대 염색체간 또는 염색체내 재배열, 중복, 결실, 탠덤 중복 및 역위를 포함할 수 있다.
일반적으로, 개체가 유전자형분석되면, 각각의 개체의 각각의 정체성은 유전자형에서의 이 다형성 차이를 해상함으로써 구별될 수 있다. 유전자형분석을 위해 숏-리드 차세대 DNA 시퀀싱(short-read next generation DNA sequencing)(NGS) 플랫폼을 사용할 때, SNP는 상이한 개체를 구별하기 위한 다형성의 가장 풍부하고 편리한 형태 중에 있다. 소정의 다형성 부위에서의 전체 집단 변이의 정도는 (즉, dbSNP와 같은 기록된 변이의 데이터베이스로부터 결정된 바대로) 집단에서의 제2의 가장 흔한 변이체의 빈도인 소수 대립유전자 빈도(MAF)에 의해 흔히 기재된다. 일례로서, 0.5의 MAF는 일반적으로 집단에서 각각의 대립유전자의 50% 풍부도가 있다는 것을 의미하고, 0.05의 MAF는 일반적으로 하나의 대립유전자가 5% 풍부도로 있고 다른 대립유전자가 95% 풍부도가 있다는 것을 의미하지만, 더 낮은 빈도의 대립유전자가 또한 존재할수 있다(즉, 5%에서 하나의 변이체, 92%에서 다른 변이체 및 제3의 변이체에서 3%). 일반적으로, 질의된 다형성인 부위가 더 많을수록, 2개 이상의 개체가 서로 더 구별될 수 있을 것이다(도 1). 인접한 게놈 부분이 흔히 동시유전되므로(즉, 연관 비평형에서), 상이한 게놈 영역에서(즉, 상이한 염색체에서) 다수의 다형성 부위의 평가는 전형적으로 상이한 개체로부터의 세포의 혼합된 집단에 대한 2개 이상의 개별 기여자를 효과적으로 구별할 수 있는 기회를 최대화하기에 유리하다.
상이한 개체로부터 유래된 세포의 혼합물이 해상되고 정량화되는 하나의 방식은 단일-세포 분석 접근법(도 2)에 의하는데, 여기서 개별 세포가 유전자형분석된다(각각의 독립 세포로부터의 DNA 또는 RNA가 시퀀싱되고 각각의 고유한 유전자형이 계수됨). 이는 개별 시험 관, 플레이트 웰, 액적 등에서 명확한 집합체로서 각각의 세포를 가공하여 달성될 수 있어서, 각각의 세포로부터의 파생 서열 판독은 그 동일한 세포와 다시 연관될 수 있다(대개 단일 세포 바코딩 기법의 일부 형태, 즉 PMID 28091601, PMID 2954551, PMID 30087104를 사용). 이 접근법은 단일 세포 또는 큰 DNA 분자로부터의 많은 다형성 마커의 유전자형이 정보학적으로 함께 연관되는 한 유리하지만, 이 접근법은 대개 복잡하고 고가이고 온전한 세포 또는 재료의 다른 특별 제제를 흔히 요한다.
다른 접근법은 혼합되고 함께 성장한 세포가 핵산 벌크 추출되고 유전자형분석되고 개별 다형성 부위의 상대 풍부도가 계수되는 단일-분자 분석이다. 이 결과는 컴퓨터로 데콘볼루션되고 각각의 개별 소스로부터의 공지된 유전자형과 비교될 수 있다(도 3). 세포 내에 함유되지 않는 DNA 분자의 혼합물은 유사하게 유전자형분석되고 데콘볼루션될 수 있다. 이 접근법은 단일-세포 유전자형분석보다 단순하지만, 혼합물을 기술적으로 해상하기 위해 더 깊은 깊이로의 시퀀싱 및 더 많은 다형성 부위의 평가를 요할 수 있다. 이 접근법은 또한 특히 혼합물이 복잡함이 증가하면서 종래의 NGS 방법에 의해서 제한일 수 있는 훨씬 더 높은 시퀀싱 정확성을 요할 수 있다.
본 기술내용은 일반적으로 핵산 혼합물 및/또는 혼합된 세포 집단을 평가하고 해상하기 위한 방법 및 관련 시약에 관한 것이다. 특히, 본 기술내용의 일부 실시형태는 샘플에서 핵산 혼합물(예를 들어, 다중키메라 혼합물, 하나 초과의 소스로부터의 핵산 혼합물 등)을 평가하고 해상하기 위한 듀플렉스 시퀀싱의 이용 및 관련 분야에 관한 것이다. 예를 들어, 본 기술내용의 다양한 실시형태는 혼합물을 그 혼합물의 원래의 소스의 비율로 데콘볼루션하기 위해 개인 대립유전자, 및 대립유전자의 고유한 조합의 직접적인 확인 및 정량화를 허용하는 듀플렉스 시퀀싱 방법을 수행하는 것을 포함한다. 본 기술내용의 다양한 양태는 무엇보다도 전임상 및 임상 암(종양) 평가 둘 다, 법의학(확인 등), 세포 치료(예를 들어, 제대혈 치료)를 위한 혼합물 평가, 인간-유래 샘플로부터의 혼합물 평가, 미소키메리즘의 검출, 세포 제조에 의한 품질 관리, 식량 공급에서의 혼합물 확인(예를 들어, 주곡, 어류 등의 균주의 혼합물), 생물학적 산업 공정(예를 들어, 세포-기반 제조)에서의 오염 평가, 밀접히 관련된 균주, 종, 육종 또는 준종의 혼합물 데콘볼루션, 불법 밀거래 동물 또는 동물 생성물의 확인, 식물 또는 동물의 독점적 균주에 의한 오염 또는 이의 남용, 태아 DNA의 다태아 데콘볼루션, 장기-이식물 유래 DNA의 데콘볼루션에서의 많은 분야를 갖는다.
일부 실시형태에서, 본 개시내용은 하나 이상의 공여자 소스로부터 표적 이중-가닥 DNA 분자를 포함하는 혼합물을 제공하는 단계이되, 표적 이중-가닥 DNA 분자는 하나 이상의 유전적 다형을 함유하는 단계, 및 혼합물에서 복수의 표적 이중-가닥 DNA 분자의 각각에 대한 오류-정정된 서열 판독을 생성하는 단계를 포함하는, 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하는 방법을 제공한다. 소정의 실시형태에서, 오류-정정된 서열 판독을 생성하는 단계는 어댑터 분자를 복수의 표적 이중-가닥 DNA 단편에 결찰하여 복수의 어댑터-DNA 분자를 생성하는 단계, 어댑터-DNA 분자의 원래의 제1 가닥의 카피의 세트 및 어댑터-DNA 분자의 원래의 제2 가닥의 카피의 세트를 생성하는 단계, 원래의 제1 가닥 및 제2 가닥의 하나 이상의 카피를 시퀀싱하여 제1 가닥 서열 및 제2 가닥 서열을 제공하는 단계 및 제1 가닥 서열 및 제2 가닥 서열을 비교하여 제1 가닥 서열과 제2 가닥 서열 사이의 하나 이상의 관련성을 확인하는 단계를 포함한다. 상기 방법은 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하여 핵산 혼합물에 존재하는 핵산의 공여자 소스를 확인하는 단계를 추가로 포함한다.
일부 실시형태에서, 본 개시내용은 또한 원시 시퀀싱 데이터로부터 듀플렉스 시퀀싱 데이터를 생성하는 단계이되, 원시 시퀀싱 데이터는 하나 이상의 공여자 소스로부터 표적 이중-가닥 DNA 분자를 포함하는 혼합물로부터 생성되고, 표적 이중-가닥 DNA 분자는 하나 이상의 유전적 다형을 함유하는 단계; 및 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하여 핵산 혼합물에 존재하는 핵산의 공여자 소스를 확인하는 단계를 포함하는, 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하는 방법을 제공한다.
일부 실시형태에서, 혼합물은 하나 이상의 비공지된 개별 유전자형을 포함하고, 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하는 단계는 기준 서열에서 하나 이상의 유전자 유전좌위에 맵핑된 개별 표적 이중-가닥 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계, 하나 이상의 유전자 유전좌위 내의 각각의 유전자 유전좌위에 존재하는 모든 가능한 유전자형에 대해 모든 가능한 혼합 비율을 평가하는 단계; 및 확인된 미세일배체형 대립유전자 조합에 적절하게 일치하는 모든 가능한 개별 유전자형 및 평가된 모든 가능한 혼합 비율의 목록을 결정하는 단계를를 포함한다.
다른 실시형태에서, 혼합물은 하나 이상의 공지된 개별 유전자형을 포함하고, 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하는 단계는 혼합물에서 개별 표적 이중-가닥 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계, 각각의 공지된 개별 유전자형으로부터 공여된 각각의 대립유전자의 총 계수치를 합산하는 단계; 및 혼합물에 존재하는 각각의 공지된 유전자형의 혼합 비율을 결정하는 단계를 포함한다.
일부 실시형태에서, 혼합물은 하나 초과의 공여자 소스를 포함하고, 상기 방법은 각각의 유전적 다형의 비율 또는 오류-정정된 서열 판독에 존재하는 유전적 다형의 실질적으로 고유한 조합의 비율을 계산하여 혼합물에 존재하는 하나 초과의 공여자 소스로부터 각각의 공여자 소스의 비율을 결정하는 단계를 추가로 포함한다. 일부 실시형태에서, 표적 이중-가닥 DNA 분자는 하나 이상의 제대혈 샘플로부터 추출되었다. 다른 실시형태에서, 표적 이중-가닥 DNA 분자는 법의학적 샘플로부터 추출되었다. 추가의 실시형태에서, 표적 이중-가닥 DNA 분자는 줄기 세포 또는 장기 이식을 갖는 환자로부터 추출되었다. 더 추가의 실시형태에서, 표적 이중-가닥 DNA 분자는 환자로부터 추출되고, 혼합물에 존재하는 하나 이상의 공여자 소스를 확인하는 것은 환자에서 미소키메리즘의 수준을 측정하는 것을 포함한다. 또 다른 실시형태에서, 표적 이중-가닥 DNA 분자는 종양 샘플로부터 추출되었다.
일부 실시형태에서, 상기 방법은 혼합물에 존재하는 각각의 개별 유전자형의 상대 풍부도를 정량화하는 단계를 추가로 포함할 수 있다. 다른 실시형태에서, 하나 이상의 유전적 다형은 미세일배체형을 포함한다. 혼합물에서 복수의 표적 이중-가닥 DNA 분자의 각각에 대한 오류-정정된 서열 판독을 생성하는 단계를 포함하는 실시형태에서, 상기 방법은 시퀀싱 전에 하나 이상의 표적화된 게놈 영역을 선택적으로 농후화하는 단계를 추가로 포함할 수 있다. 듀플렉스 시퀀싱 데이터를 생성하는 단계를 포함하는 실시형태에서, 혼합물에서의 표적 이중-가닥 DNA 분자는 원시 시퀀싱 데이터를 생성하기 전에 하나 이상의 표적화된 게놈 영역에 대해 선택적으로 농후화될 수 있다. 일부 이러한 실시형태에서, 하나 이상의 표적화된 게놈 영역은 게놈에서 미세일배체형 부위를 포함한다.
일부 실시형태에서, 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하기 위한 방법이 제공되고, 여기서 공여자 소스 중 하나 이상은 공지된 유전자형을 갖는다. 다른 실시형태에서, 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하기 위한 방법을 제공하고, 여기서 공여자 소스 중 하나 이상은 비공지된 유전자형을 갖는다. 다양한 실시형태에서, 상기 방법은 하나 이상의 개별 유전자형을 복수의 공지된 유전자형을 포함하는 데이터베이스와 비교하여 하나 이상의 공여자 소스를 확인하는 단계를 포함할 수 있다.
일부 실시형태에서, 본 개시내용은 예를 들어 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하기 위한 시스템과 같은 시스템을 제공한다. 본 기술내용의 양태에 따른 시스템의 다양한 실시형태는 시퀀싱 데이터 및 유전자형 데이터에 관한 정보를 전송하기 위한 컴퓨터 네트워크로서, 정보는 원시 시퀀싱 데이터, 듀플렉스 시퀀싱 데이터, 샘플 정보 및 유전자형 정보 중 하나 이상을 포함하는 컴퓨터 네트워크; 하나 이상의 사용자 컴퓨팅 장치와 연관되고 컴퓨터 네트워크와 통신하는 클라이언트 컴퓨터; 복수의 유전자형 프로필 및 사용자 결과 기록을 저장하기 위한 컴퓨터 네트워크에 연결된 데이터베이스; 컴퓨터 네트워크와 통신하고, 듀플렉스 시퀀싱 데이터를 생성하기 위해서 듀플렉스 시퀀싱 데이터를 생성하기 위한 클라이언트 컴퓨터로부터의 원시 시퀀싱 데이터 및 요청을 수신하고, 원래의 이중-가닥 핵산 분자를 나타내는 패밀리로부터의 서열 판독을 그룹화하고, 개별 가닥으로부터의 대표적인 서열을 서로 비교하도록 구성된, 듀플렉스 시퀀싱 모듈; 및 컴퓨터 네트워크와 통신하고, 유전자형 데이터를 생성하기 위해서 미세일배체형 대립유전자를 확인하고, 공여자 소스의 상대 풍부도를 계산하도록 구성된, 유전자형 모듈을 포함한다. 일부 실시형태에서, 유전자형 프로필은 복수의 공지된 공여자 소스로부터 미세일배체형 및/또는 단일 드뉴클레오타이 다형성(SNP: single nucleotide polymorphism) 정보를 포함한다.
일부 실시형태에서, 본 개시내용은 본 기술내용의 양태에 따른 그리고 예를 들어 본원에 기재된 바와 같은 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하기 위한 방법을 수행하기 위한 컴퓨터 시스템을 제공한다. 상기 시스템은 프로세서, 메모리, 데이터베이스 및 프로세서(들)에 대한 명령을 포함하는 비일시적 컴퓨터 판독 가능한 저장 매체 중 적어도 하나를 포함하고, 상기 프로세서(들)는 상기 방법을 포함하는 연산을 수행하기 위해 상기 명령을 실행하도록 구성된다.
일부 실시형태에서, 본 개시내용은, 하나 이상의 프로세서에 의해 실행될 때, 본 기술내용에 따른 그리고 예를 들어 본원에 기재된 바와 같은 방법을 수행하는 명령을 포함하는 비일시적 컴퓨터-판독 가능한 저장 매체를 제공한다. 소정의 실시형태에서, 비일시적 컴퓨터-판독 가능한 저장 매체는 각각의 확인된 공여자 소스의 혼합 비율을 산출하기 위한 명령을 추가로 포함한다.
더 추가의 실시형태에서, 본 개시내용은 비일시적 컴퓨터-판독 가능한 매체를 제공하고, 이의 컨텐츠가 적어도 하나의 컴퓨터가 공여자 소스 재료의 혼합물을 포함하는 샘플에서 이중-가닥 핵산 분자에 대한 듀플렉스 시퀀싱 데이터를 제공하는 방법을 수행하게 한다. 예를 들어, 일부 방법은 사용자 컴퓨팅 장치로부터 원시 서열 데이터를 수신하는 단계; 샘플에서 복수의 핵산 분자로부터 도출된 복수의 원시 서열 판독을 포함하는 샘플-특정 데이터 세트를 생성하는 단계; 원래의 이중-가닥 핵산 분자를 나타내는 패밀리로부터의 서열 판독을 그룹화하는 단계이되, 그룹화는 공유된 단일 분자 식별자 서열에 기초하는 단계; 원래의 이중-가닥 핵산 분자로부터 제1 가닥 서열 판독 및 제2 가닥 서열 판독을 비교하여 제1 가닥 서열 판독과 제2 가닥 서열 판독 사이의 하나 이상의 관련성을 확인하는 단계; 샘플에서 이중-가닥 핵산 분자에 대한 듀플렉스 시퀀싱 데이터를 제공하는 단계; 및 샘플에서 개별 이중-가닥 핵산 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하여 혼합물에서의 하나 이상의 공여자 소스를 확인하는 단계; 및 선택적으로 각각의 확인된 공여자 소스의 혼합 비율을 산출하는 단계를 포함한다. 일부 실시형태에서, 이러한 방법은 또한 비교된 제1 서열 판독과 제2 서열 판독 사이의 비상보성의 뉴클레오타이드 위치를 확인하고, 비상보성의 위치에서 공정 오류를 확인하고 제거하거나 무시하는 단계를 포함한다.
다른 실시형태에서, 본 개시내용은 비일시적 컴퓨터-판독 가능한 매체를 제공하고, 이의 컨텐츠가 적어도 하나의 컴퓨터가 공지된 소스가 샘플을 유전자형분석하는지를 결정하기 위해 핵산 혼합물에 존재하는 미세일배체형을 검출하고 확인하고 정량화하는 방법을 수행하게 하고, 여기서 상기 방법은 혼합물에서 개별 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계; 각각의 공지된 소스 유전자형으로부터 공여된 각각의 대립유전자의 총 계수치를 합산하는 단계; 및 혼합물에 존재하는 각각의 유전자형의 혼합 비율을 결정하는 단계를 포함한다. 일부 실시형태에서, 상기 방법은 또한 회귀-기반 모델을 이용하는 것을 포함하는 혼합 비율을 계산하는 단계를 포함할 수 있다. 추가의 실시형태에서, 상기 방법은 또한 각각의 유전자형의 결정된 혼합 비율을 원래의 혼합 비율과 비교하는 단계를 포함할 수 있다.
더 추가의 실시형태에서, 본 개시내용은 비일시적 컴퓨터-판독 가능한 매체를 제공하고, 이의 컨텐츠가 적어도 하나의 컴퓨터가 샘플에서 비공지된 유전자형의 핵산 혼합물을 데콘볼루션하는 방법을 수행하게 하고, 여기서 상기 방법은 혼합물에서 개별 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계; 각각의 유전자 유전좌위에 존재하는 모든 가능한 유전자형에 대해 모든 가능한 혼합 비율을 평가하는 단계; 확인된 미세일배체형 대립유전자 조합에 적절하게 일치하는 모든 가능한 유전자형 및 평가된 모든 가능한 혼합 비율의 목록을 결정하는 단계를 포함한다. 일부 실시형태에서, 상기 방법은 또한 샘플에서의 비공지된 유전자형으로부터의 가능한 유전자형을 공지된 소스의 유전자형 프로필을 포함하는 데이터베이스와 비교하여 공여자 소스를 확인하는 단계를 포함할 수 있다.
본 기술내용의 다른 실시형태 및 양태는 하기 상세한 설명에 추가로 기재된다.
본 개시내용의 많은 양태는 도면을 함께 구성하는 하기 도면을 참조하여 더 잘 이해될 수 있다. 이 도면은 제한이 아니라 오직 예시 목적을 위한 것이다. 도면의 구성성분은 비율조정될 필요는 없다. 대신에, 본 개시내용의 원칙을 명확히 예시하는 데 강조가 이루어진다.
1, 도 2 및 도 3은 각각 선행 기술로부터의 SNP 시퀀싱의 양태를 예시한다.
4a는 본 기술내용의 일부 실시형태와 사용하기 위한 핵산 어댑터 분자 및 본 기술내용의 실시형태에 따라 이중-가닥 핵산 단편에 대한 어댑터 분자의 결찰로부터 생긴 이중 가닥 어댑터-핵산 복합체를 예시한다.
4b 및 도 4c는 본 기술내용의 실시형태에 따른 다양한 듀플렉스 시퀀싱 방법 단계의 개념적 카툰 예시이다.
5는 본 기술내용의 실시형태에 따른 혼합물에서의 핵산의 데콘볼루션을 위해 본원에 개시된 방법 및/또는 시약과 사용하기 위한 네트워크 컴퓨터 시스템의 도식적 다이어그램이다.
6은 본 기술내용의 실시형태에 따라 본 기술내용의 실시형태에 따른 듀플렉스 시퀀싱 공통 서열 데이터를 제공하기 위한 루틴을 예시하는 흐름 다이어그램이다.
7은 본 기술내용의 실시형태에 따라 공지된 소스가 샘플을 유전자형분석하는지를 결정하기 위해 핵산 혼합물에 존재하는 미세일배체형을 검출하고 확인하고 정량화하기 위한 루틴을 예시하는 흐름 다이어그램이다.
8은 본 기술내용의 실시형태에 따라 샘플에서의 비공지된 유전자형의 핵산 혼합물을 데콘볼루션하기 위한 루틴을 예시하는 흐름 다이어그램이다.
9는 본 기술내용의 양태에 따라 도 7의 루틴을 이용하여 결정될 수 있는 유전자형 데이터의 일례를 예시한다.
10은 본 기술내용의 양태에 따라 도 8의 루틴을 이용하여 결정될 수 있는 유전자형 데이터의 일례를 예시한다.
11은 본 기술내용의 양태에 따라 제대혈 팽창, 이어서 핵산 혼합물의 데콘볼루션을 분석하기 위한 방법에 대한 도식을 예시한다.
12는 본 기술내용의 양태에 따라 도 11에 기재된 방법에 사용된 SNP 패널의 예시적인 전체 분포를 제공한다.
13은 본 기술내용의 양태에 따라 각각의 샘플에 대한 예시적인 온-타깃 듀플렉스 시퀀싱 깊이를 보여주는 막대 그래프이다.
14는 본 기술내용의 양태에 따라 공여자 유전자형을 구별하기 위해 사용된 11개의 특이적 SNP 대립유전자를 확인하기 위한 패널을 보여준다.
15a 내지 도 15b 및 도 15c 내지 도 15d는 각각 Nanodrop 시퀀싱(각각의 샘플에 대해 왼쪽에 암회색의 막대)에 의해 그리고 본 기술내용의 양태에 따라(각각의 샘플에 대해 오른쪽에 연회색의 막대) 정량화된 혼합물에서의 각각의 제대혈 샘플의 상대 풍부도를 보여주는 막대 그래프이다.
15e는 Nanodrop(각각의 샘플에 대해 왼쪽에 암회색의 막대) 및 본 기술내용의 양태에 따른 Qubit 형광광도계(각각의 샘플에 대해 오른쪽에 연회색의 막대) 측정에 의한 각각의 샘플 내의 DNA 정량화를 보여주는 막대 그래프이다.
16은 본 기술내용의 양태에 따라 각각의 혼합물 내의 각각의 개별 제대혈 샘플에 대한 정량화의 배수-차이를 예시한다.
17은 본 기술내용의 양태에 따라 각각의 개별 제대혈 샘플에 대한 (듀플렉스 시퀀싱에 의해 결정된 바와 같은) 유세포분석법에 의해 결정된 팽창 전의 세포의 CD34+ 분획 및 팽창 후의 세포의 CD34+ 분획을 도시하는 막대 그래프이다.
18a는 본 기술내용의 양태에 따라 뉴클레오타이드 서열 길이의 함수로서 미세일배체형 영역의 빈도를 보여주는 막대 그래프이다.
18b는 본 기술내용의 양태에 따라 다양한 집단에서의 하나의 미세일배체형에 대한 대립유전자 빈도의 예이다.
19는 본 기술내용의 양태에 따라 혼합 비율의 추정치를 보여주기 위한 듀플렉스 시퀀싱 데이터의 모의된 데콘볼루션의 결과를 보여주는 선 그래프이다.
20은 본 기술내용의 양태에 따라 혼합물 내의 공여자 소스를 결정하기 위한 선형 회귀 모델의 일례를 예시한다.
21, 패널 A 내지 패널 D는 각각 본 기술내용의 양태에 따라 소스 1 내지 5의 진정한 혼합 비율을 도시하는 막대 그래프이다.
22, 패널 A 내지 패널 D는 본 기술내용의 양태에 따라 5개의 가능한 소스의 각각에 대한 유전자형이 미리 공지될 때 각각의 혼합물에서의 각각의 개별 소스에 대한 추산된 혼합 비율에 대해 작도된 진정한 혼합 비율을 보여준다.
23a, 도 23b, 도 23c 및 도 23d는 각각 본 기술내용의 양태에 따라 듀플렉스 시퀀싱을 이용하여 샘플에서 결정된 각각의 비공지된 유전자형 소스의 우도 및 풍부도를 나타내는 열 맵 그래프이다.
24, 패널 A 내지 패널 D는 본 기술내용의 양태에 따라 소스의 유전자형이 이전에 공지되지 않았을 때에도 다수의 소스에 대해 결정될 수 있는 미세일배체형 대립유전자의 결과를 보여준다.
25는 본 기술내용의 양태에 따라 혼합물에서의 샘플의 풍부도의 추정치에 대한 샘플의 실제 혼합 비율을 비교하는 산점도이다.
26은 본 기술내용의 양태에 따라 검출된 혼합물에 존재하는 유전자형의 비율(실선) 및 적어도 하나의 위양성을 갖는 판독의 비율(파선)을 작도하는 선 그래프이다.
27, 패널 A 내지 패널 C는 본 기술내용의 양태에 따라 50개의 유전자형의 3개의 상이한 모의된 혼합물에서의 추산된 혼합 비율 대 진정한 혼합 비율을 보여주는 선 도표이다.
본 기술내용의 여러 실시형태의 구체적인 상세내용이 도 1 내지 도 27과 관련하여 하기 기재되어 있다. 실시형태는 예를 들어 혼합물을 데콘볼루션하기 위한 방법 및 소스 확인 및 이러한 방법에 사용하기 위한 관련 시약, 키트 및 소프트웨어를 포함할 수 있다. 본 기술내용의 일부 실시형태는 혼합물(예를 들어, 세포 혼합물, 조직 혼합물, 다중키메라 유기체 또는 조직, 태아 DNA, 이식물 조직, 다중키메라 세포 배양, 법의학적 샘플, 핵산 혼합물 등)을 평가하고 해상하기 위한 듀플렉스 시퀀싱의 이용에 관한 것이다. 본 기술내용의 다른 실시형태는 개체 또는 개체의 그룹과 연관된 유전자형 서명(예를 들어, 고유한 다형성의 조합)을 결정하기 위한 듀플렉스 시퀀싱의 이용에 관한 것이다. 본 기술내용의 추가의 실시형태는 혼합물에 기여하는 유전 물질의 하나 초과의 소스 및 예를 들어 개체의 유전자형 서명에 기초하여 각각의 소스의 상대 비율을 확인하는 것에 관한 것이다.
많은 실시형태가 듀플렉스 시퀀싱과 관련하여 본원에 기재되어 있지만, 본원에 기재된 것 이외에 오류-보정된 시퀀싱 리드를 생성할 수 있는 다른 시퀀싱 양상은 본 기술내용의 범위 내에 있다. 추가적으로, 본 기술내용의 다른 실시형태는 본원에 기재된 것과 상이한 구성, 구성성분 또는 절차를 가질 수 있다. 그러므로, 당업자는 따라서 본 기술내용이 추가 요소를 갖는 다른 실시형태를 가질 수 있고, 본 기술내용이 도 1 내지 도 27과 관련하여 하기 도시되고 기재된 여러 특징이 없는 다른 실시형태를 가질 수 있다는 것을 이해할 것이다.
I. 특정 정의
본 개시내용이 보다 용이하게 이해되도록 하기 위해, 소정의 용어가 처음에 하기에 정의된다. 하기 용어 및 다른 용어에 대한 추가 정의가 본 명세서에 걸쳐 제시된다.
본원에서, 문맥에서 달리 명확하지 않는 한, 용어 "하나"는 "적어도 하나"를 의미하는 것으로 이해될 수 있다. 본원에 사용된 바와 같이, 용어 "또는"은 "및/또는"을 의미하는 것으로 이해될 수 있다. 본원에서, 용어 "포함하는" 및 "함유하는"은 홀로 제시되든 하나 이상의 추가 성분 또는 단계와 함께 제시되든 항목화된 성분 또는 단계를 포괄하는 것으로 이해될 수 있다. 범위가 본원에 제공되는 경우, 종점이 포함된다. 본원에 사용된 바와 같이, 용어 "포함한다" 및 이 용어의 파생어, 예컨대 "포함하는" 및 "포함"은 다른 첨가제, 성분, 정수 또는 단계를 배제하는 것으로 의도되지 않는다.
: 용어 "약"은, 값과 관련하여 본원에 사용될 때, 언급된 값의 맥락에서 유사한 값을 지칭한다. 일반적으로, 그 맥락에 친숙한 당업자는 그 맥락에서 "약"이 포괄하는 변화량의 관련 정도를 이해할 것이다. 예를 들어, 일부 실시형태에서, 용어 "약"은 언급된 값의 25%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1% 이하 내의 값의 범위를 포괄할 수 있다. 양 또는 음의 방향의 단일 숫자 값 단계가 그 값의 25%를 초과하는 단일 디지트 정수 값의 변화량에 대해, "약"이 양 또는 음의 방향의 적어도 1, 2, 3, 4 또는 5 정수 값을 포함하는 것으로 당업자에 의해 일반적으로 인정되고, 이는 상황에 따라 0을 가로지르거나 가로지르지 않을 수 있다. 이것의 비제한적인 예는 일부 상황에서 3 센트가 약 5 센트로 생각될 수 있다는 추정인데, 이는 당업자에게는 명확할 것이다.
유사체 : 본원에 사용된 바와 같이, 용어 "유사체"는 기준 물질과 하나 이상의 특정 구조 특징, 요소, 성분 또는 모이어티를 공유하는 물질을 지칭한다. 통상적으로, "유사체"는 예를 들어 코어 또는 공통 구조를 공유하는 기준 물질과 상당한 구조 유사성을 보여주지만, 또한 소정의 별개의 방식에서 다르다 일부 실시형태에서, 유사체는 예를 들어 기준 물질의 화학 조작에 의해 기준 물질로부터 생성될 수 있는 물질이다. 일부 실시형태에서, 유사체는 기준 물질을 생성하는 합성 공정과 실질적으로 유사한(예를 들어, 이 합성 공정과 복수의 단계를 공유하는) 합성 공정의 수행을 통해 생성될 수 있는 물질이다. 일부 실시형태에서, 유사체는 기준 물질을 생성하기 위해 사용되는 합성 공정과 상이한 합성 공정의 수행을 통해 생성되거나 생성될 수 있다.
생물학적 샘플 : 본원에 사용된 바와 같이, 용어 "생물학적 샘플" 또는 "샘플"은 통상적으로 본원에 기재된 바와 같은 하나 이상의 생물학적 관심 소스(예를 들어, 조직 또는 유기체 또는 세포 배양물)로부터 수득되거나 유래된 샘플을 지칭한다. 일부 실시형태에서, 관심 소스는 유기체, 예컨대 동물 또는 인간을 포함한다. 다른 실시형태에서, 관심 소스는 미생물, 예컨대 박테리아, 바이러스, 원생동물 또는 진균을 포함한다. 추가의 실시형태에서, 관심 소스는 합성 조직, 유기체, 세포 배양, 핵산 또는 다른 물질일 수 있다. 다른 추가의 실시형태에서, 관심 소스는 식물 기반 유기체일 수 있다. 또 다른 실시형태에서, 샘플은 예를 들어 물 샘플, 토양 샘플, 고고학적 샘플과 같은 환경 샘플, 또는 살아 있지 않은 소스로부터 수집된 다른 샘플일 수 있다. 다른 실시형태에서, 샘플은 다중-유기체 샘플(예를 들어, 혼합된 유기체 샘플)일 수 있다. 추가 실시형태에서, 샘플은 세포 혼합물 또는 조직 혼합물을 포함할 수 있다. 다른 실시형태에서, 샘플은 다중키메라 유기체 또는 조직, 이식 조직, 또는 다중키메라 세포 배양으로부터 유래될 수 있다. 추가 실시형태에서, 샘플은 태아 DNA를 포함할 수 있다. 또 다른 실시형태에서, 샘플은 범죄 현장 또는 기타 법 집행 수사 조사에서 수집될 수 있다 (예를 들어, 가해자, 피해자 또는 실종자 등을 식별하는 것과 같은 법의학 사례에서). 다른 실시형태에서, 샘플은 전쟁 또는 테러 수사 조사 또는 역사적 연구 (예를 들어, 피해자 또는 실종자를 식별하기 위해) 등으로부터 수집될 수 있다. 다른 실시형태에서, 샘플은 고고학 연구로부터 수집될 수 있다. 일부 실시형태에서, 생물학적 샘플은 생물학적 조직 또는 유체이거나 이를 포함한다. 일부 실시형태에서, 생물학적 샘플은 단리 된 DNA 또는 기타 핵산일 수 있거나 골수; 혈액; 혈액 세포; 줄기 세포; 복수; 조직 샘플, 생검 샘플 또는 또는 미세침 흡기 샘플; 세포-함유 체액; 자유 부유하는 핵산; 단백질-결합된 핵산, 리보단백질-결합된 핵산; 가래; 타액; 뇨; 뇌척수액, 복막액; 흉수; 대변; 림프; 부인과학적 유체; 피부 면봉; 질 면봉; 질세포진(pap smear), 구강 면봉; 코 면봉; 세척액 또는 세척물, 예컨대 젖관 세척물 또는 기관지폐포 세척물; 질액, 흡인물; 부스러기; 골수 시편; 조직 생검 시편; 태아 조직 또는 유체; 수술 시편; 대변, 다른 체액, 분비물 및/또는 배설물; 및/또는 이들로부터의 세포 등이거나 이를 포함할 수 있다. 일부 실시형태에서, 생물학적 샘플은 개체로부터 얻은 세포이거나 이를 포함한다. 일부 실시형태에서, 얻은 세포는 샘플이 얻어진 개체로부터의 세포이거나 이를 포함한다. 일부 실시형태에서, 세포-파생물, 예컨대 세포기관 또는 소낭 또는 엑소좀. 특정 실시형태에서, 생물학적 샘플은 대상체로부터 얻은 액체 생검이다. 일부 실시형태에서, 샘플은 임의의 적절한 수단에 의해 관심 소스로부터 직접 얻은 "1차 샘플"이다. 예를 들어, 일부 실시형태에서, 1차 생물학적 샘플은 생검(예를 들어, 미세침 흡기 또는 조직 생검), 수술, 체액(예를 들어, 혈액, (또는 그로부터 분리된 혈장 또는 혈청), 림프, 대변 등)의 수집 등으로 이루어진 군으로부터 선택된 방법에 의해 얻어진다. 일부 실시형태에서, 상황에서 명확한 것처럼, 용어 "샘플"은 1차 샘플을 처리하여(예를 들어, 이 샘플의 하나 이상의 성분을 제거함으로써 그리고/또는 하나 이상의 물질을 이 샘플에 첨가함으로써) 얻은 제제를 지칭한다. 예를 들어, 반투과성 막을 사용한 여과. 이러한 "처리된 샘플"은 샘플로부터 추출되거나 1차 샘플을 mRNA의 증폭 또는 역전사, 소정의 성분의 단리 및/또는 정제 등과 같은 기법으로 처리함으로써 얻은 예를 들어 핵산 또는 단백질을 포함할 수 있다.
암 질병 : 일 실시형태에서, 질병 또는 장애는 전이할 수 있는 비정상 세포의 이상조절된 성장을 일반적으로 특징으로 하는 것으로 당해 분야에서의 경험자에게 친숙한 "암 질병"이다. 본 기술내용의 하나 이상의 양태를 사용하여 검출 가능한 암 질병은 많은 것들 중에서, 비제한적인 예로서, 전립선암(즉, 선암, 소세포), 난소암(예를 들어, 난소 선암, 장액성 암종 또는 배아 암종, 난황 주머니 종양, 기형종), 간암(예를 들어, HCC 또는 간세포종, 혈관육종), 혈장 세포 종양(예를 들어, 다발성 골수종, 형질구성 백혈병, 형질세포종, 아밀로이드증, 발덴스트롬 마크로글로불린혈증), 결장직장암(예를 들어, 결장 선암, 결장 점액소 선암, 카르시노이드, 림프종 및 직장 선암, 직장 편평 암종), 백혈병(예를 들어, 급성 골수성 백혈병, 급성 림프구성 백혈병, 만성 골수성 백혈병, 만성 림프구성 백혈병, 급성 골수아구성 백혈병, 급성 전골수성 백혈병, 급성 골수단핵구성 백혈병, 급성 단핵구성 백혈병, 급성 적백혈병 및 만성 백혈병, T-세포 백혈병, 세자리 증후군(Sezary syndrome), 전신 비만세포증, 모발 세포 백혈병, 만성 골수성 백혈병성 아세포발증), 골수형성이상 증후군, 림프종(예를 들어, 미만성 거대 B-세포 림프종, 피부 T-세포 림프종, 말초 T-세포 림프종, 호지킨 림프종, 비호지킨 림프종, 소포성 림프종, 외투 세포 림프종, MALT 림프종, 변연 세포 림프종, 리히터 형질전환, 이중유전자이상 림프종(double hit lymphoma), 이식 연관된 림프종, CNS 림프종, 림프절외 림프종, HIV-연관된 림프종, 모세포 백혈병, 변이 모세포 백혈병, 풍토성 림프종, 버킷 림프종, 이식-연관된 림프증식성 신생물 및 림프구성 림프종 등), 자궁경부암(편평 자궁경부 암종, 투명 세포 암종, HPV 연관된 암종, 자궁경부 육종 등), 식도암(식도 편평 세포 암종, 선암, 소정의 등급의 바렛 식도, 식도 선암), 흑색종(진피 흑색종, 포도막 흑색종, 말단 흑색종, 무색소성 흑색종 등), CNS 종양(예를 들어, 핍지교종, 성상세포종, 교모세포종, 뇌수막종, 신경초종, 두개인두종 등), 췌장암(예를 들어, 선암, 선편평 암종, 반지 고리 세포 암종, 간모양선 암종, 콜로이드 암종, 도세포 암종, 췌장 신경내분비 암종 등), 위장 기질 종양, 육종(예를 들어, 섬유육종, 점액육종, 지방육종, 연골육종, 골원성 육종, 혈관육종, 내피종 육종, 림프관육종, 림프혈관내피종 육종, 평활근육종, 유잉 육종 및 횡문근육종, 방추 세포 종양 등), 유방암(예를 들어, 염증성 암종, 대엽성 암종, 유관 암종 등), ER-양성 암, HER-2 양성 암, 방광암(편평 방광암, 소세포 방광암, 요로상피암 등), 두경부암(예를 들어, 두경부의 편평 세포 암종, HPV-연관된 편평 세포 암종, 비인두 암종 등), 폐암(예를 들어, 비소세포 폐암종, 대세포 암종, 기관지성 암종, 편평 세포 암, 소세포 폐암 등), 전이성 암, 구강암, 자궁암(평활근육종, 평활근종 등), 고환암(예를 들어, 정상피종, 비정상피종 및 배아 암종 난황 주머니 종양 등), 피부암(예를 들어, 편평 세포 암종 및 기저 세포 암종, 머켈 세포 암종, 흑색종, 피부 t-세포 림프종 등), 갑상선암(예를 들어, 유두상 암종, 수질성 암종, 미분화 갑상선암 등), 위암, 상피내암, 골암, 담관암, 눈암, 후두암, 신장암(예를 들어, 신장 세포 암종, 윌름스 종양 등), 위암, 아세포종(예를 들어, 신아세포종, 수모세포종, 혈관모세포종, 신경모세포종, 망막아세포종 등), 골수증식성 신생물(진성 다혈구증, 본태성 고혈소판증, 골수섬유증 등), 척삭종, 활막종, 중피종, 선암, 땀샘 암종, 피지선 암종, 낭샘암종, 담도 암종, 융모암종, 상피 암종, 뇌실상의종, 송과체부종양, 속귀 신경집종, 신경초종, 뇌수막종, 뇌하수체 선종, 신경초 종양, 소장의 암, 크롬친화성세포종, 소세포 폐암, 복막 중피종, 부갑상선기능항진 샘종, 부신암, 불명 원발성 암, 내분비계의 암, 음경의 암, 요도의 암, 피부 또는 눈내 흑색종, 부인과학 종양, 소아의 고형 종양, 또는 중추 신경계의 신생물, 원발성 종격동 생식 세포 종양, 부정형 가능성의 클론성 조혈증, 무증상 골수종, 의미 불명 단일클론성 감마글로불린증, 단일클론성 B-세포 림프구증가증, 저등급 암, 클론성 시야 결손, 전신생물성 신생물, 요관암, 자가면역-연관된 암(즉, 궤양성 대장염, 원발성 경화성 담관염, 셀리악병), 유전 소인과 연관된 암(즉, 예컨대 BRCA1, BRCA2, TP53, PTEN, ATM 등에서 유전 결함을 보유하는 것) 및 다양한 유전자 증후군, 예컨대 MEN1, MEN2 삼염색체 21 등) 및 자궁에서 화학물질에 노출될 때 발생하는 것(즉, 디에틸스틸베스트롤[DES]에 노출된 여성의 여자 자손에서 투명 세포 암)을 포함한다.
결정한다 : 본원에 기재된 많은 방법론은 "결정"의 단계를 포함한다. 본 명세서를 읽는 당업자는 이러한 "결정"이 예를 들어 본원에 명쾌하게 언급된 특정 기법을 포함하여 당업자에게 이용 가능한 임의의 다양한 기법을 사용하거나 이의 사용을 통해 달성될 수 있음을 이해할 것이다. 일부 실시형태에서, 결정은 신체 샘플의 조작을 수반한다. 일부 실시형태에서, 결정은 예를 들어 관련 분석을 수행하도록 적응된 컴퓨터 또는 다른 프로세싱 유닛을 사용하는 데이터 또는 정보의 고려 및/또는 조작을 수반한다. 일부 실시형태에서, 결정은 소스로부터의 관련 정보 및/또는 자료를 수신하는 것을 수반한다. 일부 실시형태에서, 결정은 샘플 또는 집합체의 하나 이상의 특징을 필적하는 기준품과 비교하는 것을 수반한다.
듀플렉스 시퀀싱(DS) : 본원에 사용된 바와 같이, "듀플렉스 시퀀싱(DS)"은 이의 광의에서 개별 DNA 분자의 가닥 둘 다로부터의 서열을 비교함으로써 예의적 정확도를 달성하는 태그-기반 오류-보정 방법을 지칭한다.
발현 : 본원에 사용된 바와 같이, 핵산 서열의 "발현"은 하기 사건들 중 하나 이상을 지칭한다: (1) (예를 들어, 전사에 의한) DNA 서열로부터의 RNA 주형의 생산; (2) (예를 들어, 스플라이싱, 편집, 5' 캡 형성, 및/또는 3' 말단 형성에 의한) RNA 전사체의 처리; (3) 폴리펩타이드 또는 단백질로의 RNA의 번역; 및/또는 (4) 폴리펩타이드 또는 단백질의 번역후 변형.
돌연변이 : 본원에 사용된 바와 같이, 용어 "돌연변이"는 핵산 서열 또는 구조의 변경을 지칭한다. 폴리뉴클레오타이드 서열의 돌연변이는 복잡한 멀티뉴클레오타이드 변화 중에서 샘플에서의 DNA 서열의 점 돌연변이(예를 들어, 단일 염기 돌연변이), 멀티뉴클레오타이드 돌연변이, 뉴클레오타이드 결실, 서열 재배열, 뉴클레오타이드 삽입 및 중복을 포함할 수 있다. 상보성 염기 변화(즉, 진성 돌연변이)로서, 또는 복구, 파괴 또는 진정한 이중 가닥 돌연변이로 잘못 복구/전환될 가능성을 갖는 다른 가닥(즉, 헤테로듀플렉스)에서가 아니라 하나의 가닥에서의 돌연변이로서 듀플렉스 DNA 분자의 가닥 둘 다에서 돌연변이가 발생할 수 있다. 돌연변이는 동일하거나 관련된 소스 및/또는 개인의 대조군 샘플과 관련된 변경을 나타낼 수 있다. 돌연변이는 참조 서열과 관련된 변경을 나타낼 수 있다.
비암성 질병 : 다른 실시형태에서, 질병 또는 장애는 비암성 질병이고; 이것은 게놈 돌연변이 또는 손상에 의해 생기거나 이로 기인한 것이다. 비제한적인 예로서, 본 기술내용의 하나 이상의 양태를 사용하여 검출 가능한 이러한 비암성 유형의 질병 또는 장애는 당뇨병; 자가면역 질병 또는 장애, 불임, 신경퇴행, 조로증, 심혈관 질병, 다른 유전자-매개된 질병의 치료와 연관된 임의의 질병(즉, 화학요법-매개된 신경병증 및 시스플라틴과 같은 화학요법과 연관된 신부전), 알츠하이머병/치매, 비만, 심장 질병, 고혈압, 관절염, 정신병, 다른 신경학적 장애(신경섬유종증) 및 다인자 유전 장애(예를 들어, 환경 인자에 의해 촉발된 소인)를 포함한다.
핵산 : 본원에 사용된 바와 같이, 이의 광의에서 올리고뉴클레오타이드 사슬로 혼입되거나 혼입될 수 있는 임의의 화합물 및/또는 물질을 지칭한다. 일부 실시형태에서, 핵산은 포스포디에스테르 연결을 통해 올리고뉴클레오타이드 사슬로 혼입되거나 혼입될 수 있는 화합물 및/또는 물질이다. 문맥에서 명확한 것처럼, 일부 실시형태에서, "핵산"은 개별 핵산 잔기(예를 들어, 뉴클레오타이드 및/또는 뉴클레오사이드)를 지칭하고; 일부 실시형태에서, "핵산"은 개별 핵산 잔기를 포함하는 올리고뉴클레오타이드 사슬을 지칭한다. 일부 실시형태에서, "핵산"은 RNA이거나 이를 포함하고; 일부 실시형태에서, "핵산"은 DNA이거나 이를 포함한다. 일부 실시형태에서, 핵산은 하나 이상의 자연 핵산 잔기이거나 이를 포함하거나 이것으로 이루어진다. 일부 실시형태에서, 핵산은 하나 이상의 핵산 유사체이거나 이를 포함하거나 이것으로 이루어진다. 일부 실시형태에서, 핵산 유사체는 포스포디에스테르 골격을 사용하지 않는다는 점에서 핵산과 다르다. 예를 들어, 일부 실시형태에서, 핵산은 당해 분야에 알려지고 골격에서 포스포디에스테르 결합 대신에 펩타이드 결합을 갖는 하나 이상의 "펩타이드 핵산"이거나 이를 포함하거나 이것으로 이루어지고, 본 기술내용의 범위 내에 고려된다. 대안적으로, 또는 추가적으로, 일부 실시형태에서, 핵산은 포스포디에스테르 결합보다 하나 이상의 포스포로티오에이트 및/또는 5'-N-포스포르아미디트 연결을 갖는다. 일부 실시형태에서, 핵산은 하나 이상의 자연 뉴클레오사이드(예를 들어, 아데노신, 티미딘, 구아노신, 사이티딘, 우리딘, 데옥시아데노신, 데옥시티미딘, 데옥시 구아노신 및 데옥시사이티딘)이거나 이를 포함하거나 이것으로 이루어진다. 일부 실시형태에서, 핵산은 하나 이상의 뉴클레오사이드 유사체(예를 들어, 2-아미노아데노신, 2-티오티미딘, 이노신, 피롤로-피리미딘, 3-메틸 아데노신, 5-메틸사이티딘, C-5 프로피닐-사이티딘, C-5 프로피닐-우리딘, 2-아미노아데노신, C5-브로모우리딘, C5-플루오로우리딘, C5-요오도우리딘, C5-프로피닐-우리딘, C5-프로피닐-사이티딘, C5-메틸사이티딘, 2-아미노아데노신, 7-데아자아데노신, 7-데아자구아노신, 8-옥소아데노신, 8-옥소구아노신, 0(6)-메틸구아닌, 2-티오사이티딘, 메틸화 염기, 인터칼레이팅 염기, 및 이들의 조합)이거나 이를 포함하거나 이것으로 이루어진다. 일부 실시형태에서, 핵산은 자연 핵산에서의 것과 비교하여 하나 이상의 변형된 당(예를 들어, 2'-플루오로리보스, 리보스, 2'-데옥시리보스, 아라비노스 및 헥소스)을 포함한다. 일부 실시형태에서, 핵산은 RNA 또는 단백질과 같은 기능적 유전자 산물을 암호화하는 뉴클레오타이드 서열을 갖는다. 일부 실시형태에서, 핵산은 하나 이상의 인트론을 포함한다. 일부 실시형태에서, 핵산은 자연 소스로부터의 단리, 상보성 주형에 기초한 중합에 의한 효소 합성(생체내 또는 시험관내), 재조합 세포 또는 시스템에서의 생식 및 화학 합성 중 하나 이상에 의해 제조된다. 일부 실시형태에서, 핵산은 적어도 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 15개, 20개, 25개, 30개, 35개, 40개, 45개, 50개, 55개, 60개, 65개, 70개, 75개, 80개, 85개, 90개, 95개, 100개, 110개, 120개, 130개, 140개, 150개, 160개, 170개, 180개, 190개, 200개, 225개, 250개, 275개, 300개, 325개, 350개, 375개, 400개, 425개, 450개, 475개, 500개, 600개, 700개, 800개, 900개, 1000개, 1500개, 2000개, 2500개, 3000개, 3500개, 4000개, 4500개, 5000개 이상의 길이의 잔기이다. 일부 실시형태에서, 핵산은 부분적으로 또는 완전히 단일 가닥이고; 일부 실시형태에서, 핵산은 부분적으로 또는 완전히 이중-가닥이다. 일부 실시형태에서, 핵산은 2차 구조를 가지며 분지될 수 있다. 일부 실시형태에서, 핵산은 폴리펩타이드를 암화하거나 이를 암화하는 서열의 보체인 적어도 하나의 요소를 포함하는 뉴클레오타이드 서열을 갖는다. 일부 실시형태에서, 핵산은 효소 활성을 갖는다. 일부 실시형태에서, 핵산은 예를 들어 리보핵단백질 복합체 또는 운반 RNA에서 기계적 기능을 한다.
폴리뉴클레오타이드 손상 : 본원에 사용된 바와 같이, 용어 "폴리뉴클레오타이드 손상" 또는 "핵산 손상"은 작용제 또는 프로세스에 의해 직접적으로 또는 간접적으로(예를 들어, 대사물질, 또는 손상을 주거나 돌연변이성인 과정의 유도) 생긴 대상체의 데옥시리보핵산(DNA) 서열("DNA 손상") 또는 리보핵산(RNA) 서열에 대한 손상("RNA 손상")을 지칭한다. 손상된 핵산은 대상체에서 질병 또는 장애의 발생으로 이어질 수 있다. 폴리뉴클레오타이드 손상은 세포에서 화학적 및/또는 물리적 DNA 변형을 추가로 포함할 수 있다. 일부 실시형태에서, 그 손상은 비제한적인 예로서 산화, 알킬화, 탈아미노화, 메틸화, 가수분해, 하이드록실화, 닉킹, 가닥내 가교, 가닥간 가교, 무딘 말단 가닥 절단, 엇갈린 말단 이중 가닥 절단, 포스포릴화, 탈포스포릴화, 수모일화, 글라이코실화, 탈글라이코실화, 푸트레시닐화, 카복실화, 할로겐화, 포밀화, 단일-가닥 갭, 열에 의한 손상, 건조에 의한 손상, UV 노출에 의한 손상, X-방사선으로부터의 감마 방사선 손상에 의한 손상, 이온화 방사선에 의한 손상, 비이온화 방사선에 의한 손상, 중입자 방사선에 의한 손상, 핵 붕괴에 의한 손상, 베타-방사선에 의한 손상, 알파 방사선에 의한 손상, 중성자 방사선에 의한 손상, 양성자 방사선에 의한 손상, 반물질에 의한 손상 은하 방사선에 의한 손상, 높은 pH에 의한 손상, 낮은 pH에 의한 손상, 반응성 산화성 종에 의한 손상, 자유 라디칼에 의한 손상, 퍼옥사이드에 의한 손상, 차아염소산염에 의한 손상, 포르말린 또는 폼알데하이드와 같은 조직 고정에 의한 손상, 반응성 철에 의한 손상, 낮은 이온성 조건에 의한 손상, 높은 이온성 조건에 의한 손상, 비완충 조건에 의한 손상, 뉴클레아제에 의한 손상, 환경 노출에 의한 손상, 화재에 의한 손상, 기계적 스트레스에 의한 손상, 효소 분해에 의한 손상, 미생물에 의한 손상, 예비적 기계적 전단에 의한 손상, 예비적 효소 단편화에 의한 손상, 생체내 자연적으로 생긴 손상, 핵산 추출 동안 생긴 손상, 시퀀싱 라이브러리 제조 동안 생긴 손상, 중합효소에 의해 도입된 손상, 핵산 복구 동안 도입된 손상, 핵산 말단-꼬리화 동안 생긴 손상, 핵산 결찰 동안 생긴 손상, 시퀀싱 동안 생긴 손상, DNA의 기계적 취급에서 생긴 손상, 나노기공을 통한 통과 동안 생긴 손상, 유기체에서의 노화의 일부로 생긴 손상, 개체의 화학적 노출의 결과로서 생긴 손상, 돌연변이원에 의해 생긴 손상, 발암물질에 의해 생긴 손상, 클라스토젠(clastogen)에 의해 생긴 손상, 산소 노출로 인해 생체내 염증 손상에 의해 생긴 손상, 하나 이상의 가닥 파괴로 인한 손상, 및 임의의 이들의 조합 중 적어도 하나이거나 이를 포함한다.
기준품 : 본원에 사용된 바와 같이 용어 "기준품"은 비교가 수행되는 표준품 또는 대조군을 기술한다. 예를 들어, 일부 실시형태에서, 관심이 있는 물질, 동물, 개체, 집단, 샘플, 서열 또는 값은 한 위치에 존재하거나 전자 수단을 통해 원격으로 접근될 수 있는 물리적 또는 컴퓨터 데이터베이스에서 기준품 또는 대조군 물질, 동물, 개체, 집단, 샘플, 서열 또는 값 또는 이의 표시와 비교된다. 한 실시형태에서, 기준품은 기준품 게놈 또는 기준품 게놈 어셈블리이다. 일부 실시형태에서, 기준품 또는 대조군은 관심이 있는 시험 또는 결정과 실질적으로 동시에 시험되고/되거나 결정된다. 일부 실시형태에서, 기준품 또는 대조군은 선택적으로 실감형 매체에서 구현되는 계층적 기준품 또는 대조군이다. 통상적으로, 당업자가 이해하는 것처럼, 기준품 또는 대조군은 평가되는 것과 필적하는 조건 또는 상황 하에 결정되거나 규명된다. 당업자는 특정한 가능한 기준품 또는 대조군에 대한 의존 및/또는 비교를 정당화하기 위해 충분한 유사성이 존재할 때를 이해할 것이다. "기준품 샘플"은 시험 대상체와는 다르고, 이 샘플이 비교된 샘플과 동일한 방식으로 단리되는 대상체로부터의 샘플을 지칭한다. 기준품 샘플의 대상체는 시험 대상체와 유전적으로 동일할 수 있거나 상이할 수 있다.
단일 분자 식별자(SMI) : 본원에 사용된 바와 같이, 용어 "단일 분자 식별자" 또는 "SMI"(single molecule identifier)(다른 명칭들 중에서 "태그", "바코드", "분자 바코드", "고유 분자 식별자" 또는 "UMI"라 칭해질 수 있음)는 더 큰 불균질한 분자 집단 중에서 개별 분자를 실질적으로 구별할 수 있는 임의의 물질(예를 들어, 뉴클레오타이드 서열, 핵산 분자 특징)를 지칭한다. 일부 실시형태에서, SMI는 외인성으로 적용된 SMI이거나 이를 포함할 수 있다. 일부 실시형태에서, 외인성으로 적용된 SMI는 축퇴성 서열 또는 반축퇴성 서열이거나 이를 포함할 수 있다. 일부 실시형태에서, 실질적으로 축퇴성인 SMI는 랜덤 고유 분자 식별자(R-UMI: Random Unique Molecular Identifier)로 알려질 수 있다. 일부 실시형태에서, SMI는 알려진 코드의 풀 내로부터 코드(예를 들어, 핵산 서열)를 포함할 수 있다. 일부 실시형태에서, 미리규정된 SMI 코드는 한정 고유 분자 식별자(D-UMI: Defined Unique Molecular Identifier)로 알려져 있다. 일부 실시형태에서, SMI는 내인성 SMI이거나 이를 포함할 수 있다. 일부 실시형태에서, 내인성 SMI는 표적 서열의 특정 전단점, 표적 서열을 포함하는 개별 분자의 말단 끝에 관한 특징, 또는 개별 분자의 말단으로부터 알려진 거리에서의 또는 이것에 인접한 또는 이것 내의 특정 서열에 관한 정보이거나 이를 포함할 수 있다. 일부 실시형태에서, SMI는 랜덤 또는 반랜덤 손상, 화학 변형, 효소 변형 또는 핵산 분자에 대한 다른 변형에 의해 생긴 핵산 분자의 서열 변이와 관련될 수 있다. 일부 실시형태에서, 그 변형은 메틸사이토신의 탈아미노화일 수 있다. 일부 실시형태에서, 그 변형은 핵산 닉의 부위를 포함할 수 있다. 일부 실시형태에서, SMI는 외인성 요소 및 내인성 요소 둘 다를 포함할 수 있다. 일부 실시형태에서, SMI는 물리적으로 인접한 SMI 요소를 포함할 수 있다. 일부 실시형태에서, SMI 요소는 분자에서 공간상 구별될 수 있다. 일부 실시형태에서 SMI는 비핵산일 수 있다. 일부 실시형태에서, SMI는 2개 이상의 상이한 유형의 SMI 정보를 포함할 수 있다. SMI의 다양한 실시형태는 본원에 그 전문이 참조로 포함된 국제 특허 공보 WO 제2017/100441호에 추가로 개시된다.
가닥 한정 요소(SDE) : 본원에 사용된 바와 같이, 용어 "가닥 한정 요소" 또는 "SDE"는 이중-가닥 핵산 물질의 특정 가닥의 확인 및 이에 따라 다른/상보성 가닥으로부터의 구별이 가능하게 하는 임의의 물질(예를 들어, 표적 이중-가닥 핵산으로부터 생긴 2개의 단일 가닥 핵산의 각각의 증폭 산물이 시퀀싱 또는 다른 핵산 정보획득 후 실질적으로 서로 구별 가능하게 하는 임의의 물질)를 지칭한다. 일부 실시형태에서, SDE는 어댑터 서열 내의 실질적으로 비상보성인 서열의 하나 이상의 분절을 포함할 수 있다. 특정 실시형태에서, 어댑터 서열 내의 실질적으로 비상보성인 서열의 분절은 Y-형상 또는 "루프" 형상을 포함하는 어댑터 분자에 의해 제공될 수 있다. 다른 실시형태에서, 어댑터 서열 내의 실질적으로 비상보성인 서열의 분절은 어댑터 서열 내의 인접한 상보성 서열의 중간에서 쌍을 짓지 않는 "버블"을 형성할 수 있다. 다른 실시형태에서, SDE는 핵산 변형을 포괄할 수 있다. 일부 실시형태에서, SDE는 쌍 지은 가닥이 물리적으로 분리된 반응 구획으로 물리적으로 분리되는 것을 포함할 수 있다. 일부 실시형태에서, SDE는 화학 변형을 포함할 수 있다. 일부 실시형태에서, SDE는 변형된 핵산을 포함할 수 있다. 일부 실시형태에서, SDE는 핵산 분자에 대한 랜덤 또는 반랜덤 손상, 화학 변형, 효소 변형 또는 다른 변형에 의해 생긴 핵산 분자의 서열 변이와 관련될 수 있다. 일부 실시형태에서, 그 변형은 메틸사이토신의 탈아미노화일 수 있다. 일부 실시형태에서, 그 변형은 핵산 닉의 부위를 수반할 수 있다. SDE의 다양한 실시형태는 본원에 그 전문이 참조로 포함된 국제 특허 공보 WO 제2017/100441호에 추가로 개시되어 있다.
대상체 : 본원에 사용된 바와 같이, 용어 "대상체"는 유기체, 통상적으로 포유류, 예컨대 인간(일부 실시형태에서, 태아기 인간 형태를 포함), 비인간 동물(예를 들어, 비제한적인 예로서 비인간 영장류, 생쥐, 래트, 햄스터, 수달, 영양, 말, 양, 개, 고양이, 돼지, 닭, 양서류, 파충류, 해양-생물, 다른 모델 유기체, 예컨대 벌레, 파리, 제브라피시 등을 포함하는 포유류 및 비포유류), 및 형질전환 동물(예를 들어, 형질전환 설치류) 등을 지칭한다. 일부 실시형태에서, 대상체는 관련 질병, 장애 또는 질환을 겪는다. 일부 실시형태에서, 대상체는 유전독성 연관된 질병 또는 장애를 겪는다. 일부 실시형태에서, 대상체는 질병, 장애 또는 질환에 걸리기 쉽다. 일부 실시형태에서, 대상체는 질병, 장애 또는 질환의 하나 이상의 증상 또는 특징을 나타낸다. 일부 실시형태에서, 대상체는 질병, 장애 또는 질환의 임의의 증상 또는 특징을 나타내지 않는다. 일부 실시형태에서, 대상체는 질병, 장애 또는 질환의 감수성 또는 위험에 특징적인 하나 이상의 특징을 갖는다. 일부 실시형태에서, 대상체는 진단 및/또는 치료가 주어지는 개체이다. 또 다른 실시형태에서, 대상체는 예컨대 생체내 연구를 위해 예를 들어 유기체, 세포, 및/또는 조직, 예를 들어 진균, 원생동물, 박테리아, 고세균, 바이러스, 배양에서 단리된 세포, 의도적으로(예를 들어, 줄기 세포 이식물, 장기 이식물) 또는 의도하지 않고(즉, 태아 또는 모체 마이크로키메리즘) 있는 세포 또는 단리된 핵산 또는 세포기관(즉, 미토콘드리아, 엽록체, 자유 바이러스 게놈, 자유 플라스미드, 압타머, 리보자임 또는 핵산의 유도체 또는 전구체(즉, 올리고뉴클레오타이드, 디뉴클레오타이드 트리포스페이트 등)를 포함할 수 있는 임의의 살아 있는 생물학적 소스 또는 다른 핵산 물질을 지칭한다. 추가 실시형태에서, 대상체는 법의학 조사 또는 적용에서 얻은 임의의 살아있는, 또는 한 번 살아있는 생물학적 소스 또는 기타 핵산 물질을 의미한다.
실질적으로 : 본원에 사용된 바와 같이, 용어 "실질적으로"는 관심이 있는 특징 또는 특성의 전체 또는 거의 전체의 규모 또는 정도를 나타내는 정성적 조건을 지칭한다. 생물학적 분야의 당업자는 생물학적 현상 및 화학적 현상이, 설사 그렇더라도, 완전해 지고/지거나 완전성으로 진행하거나 절대 결과를 달성하거나 회피하지 않음을 이해할 것이다. 용어 "실질적으로"는 따라서 본원에서 많은 생물학적 현상 및 화학적 현상에 고유한 완정성의 잠재적인 결여를 포착하도록 사용된다.
II. 듀플렉스 시퀀싱 방법 및 연관된 어댑터 및 시약의 선택된 실시형태
듀플렉스 시퀀싱은 이중 가닥 핵산 분자로부터의 오류-보정된 DNA 서열을 제조하는 방법이고, 이것은 원래 국제 특허 공보 WO 제2013/142389호 및 미국 특허 제9,752,188호에 기재되어 있고 상기 두 건은 모두 그 전문이 본원에 참조로 포함된다. 도 4a 내지 도 4c, 및 본 기술내용의 소정의 양태에 예시된 것처럼, 듀플렉스 시퀀싱은 파생 서열 리드가 대량 병렬 시퀀싱(massively parallel sequencing) 동안 동일한 이중-가닥 핵산 모 분자로부터 기원한 것으로 인식되지만, 또한 시퀀싱 이후 구별 가능한 집합체로서 서로 구별될 수 있는 방식으로 개별 DNA 분자의 가닥 둘 다를 독립적으로 시퀀싱하도록 사용될 수 있다. 이후, 각각의 가닥으로부터의 생성된 서열 리드는 원래의 이중-가닥 핵산 분자의 오류-보정된 서열을 얻을 목적을 위해 비교된다.
소정의 실시형태에서, 듀플렉스 시퀀싱을 도입하는 방법은 이중-가닥 표적 핵산 복합체를 제조하기 위해 제1 가닥 표적 핵산 서열 및 제2 가닥 표적 핵산 서열을 포함하는 표적 이중-가닥 핵산 분자에 대한 하나 이상의 시퀀싱 어댑터의 결찰을 포함할 수 있다(예를 들어, 도 4a).
다양한 실시형태에서, 생성된 표적 핵산 복합체는 외인성으로 적용된 축퇴성 서열 또는 반축퇴성 서열(예를 들어, 도 4a에 도시된 무작위화된 듀플렉스 태그, 도 4a에서 α 및 β로 확인된 서열), 표적 이중-가닥 핵산 분자의 특정 전단점과 관련된 내인성 정보, 또는 이들의 조합을 포함할 수 있는 적어도 하나의 SMI 서열을 포함할 수 있다. SMI는 시퀀싱되는 집단에서 표적-핵산 분자가 복수의 다른 분자로부터 단독으로 또는 이것이 결찰된 핵산 단편의 구별 가능한 요소와 조합되어 실질적으로 구별 가능하게 할 수 있다. SMI 요소의 실질적으로 구별 가능한 특징은 이중-가닥 핵산 분자를 형성하는 각각의 단일 가닥에 의해 독립적으로 보유될 수 있어서, 각각의 가닥의 파생 증폭 산물은 시퀀싱 후 동일한 원래의 실질적으로 고유한 이중-가닥 핵산 분자로부터 나온 것으로 인식될 수 있다. 다른 실시형태에서, SMI는 추가 정보를 포함할 수 있고/있거나, 이러한 분자 구별 기능성이 유용한 다른 방법, 예컨대 상기 언급된 공보에 기재된 것에 사용될 수 있다. 다른 실시형태에서, SMI 요소는 어댑터 결찰 후 도입될 수 있다. 일부 실시형태에서, SMI는 이중-가닥이고, 다른 실시형태에서, SMI는 단일-가닥이다(예를 들어, SMI는 어댑터의 단일-가닥 부분(들)에 있을 수 있음). 다른 실시형태에서, SMI는 단일-가닥 및 이중-가닥의 조합이다.
일부 실시형태에서, 각각의 이중-가닥 표적 핵산 서열 복합체는 표적 이중-가닥 핵산 분자를 형성하는 2개의 단일-가닥 핵산의 증폭 산물이 시퀀싱 후 서로 실질적으로 구별 가능하게 하는 요소(예를 들어, SDE)를 추가로 포함할 수 있다. 일 실시형태에서, SDE는 시퀀싱 어댑터 내에 포함된 비대칭적 프라이머 부위를 포함할 수 있거나, 다른 배열에서 서열 비대칭은 프라이머 서열 내가 아닌 어댑터 분자로 도입될 수 있어서, 표적 핵산 서열 복합체의 제1 가닥 및 표적 핵산 서열 복합체의 제2 가닥의 뉴클레오타이드 서열에서의 적어도 하나의 위치는 증폭 및 시퀀싱 후에 서로 상이하다. 다른 실시형태에서, SMI는 정규 뉴클레오타이드 서열 A, T, C, G 또는 U와 상이하지만, 2개의 증폭되고 시퀀싱된 분자에서 적어도 하나의 정규 뉴클레오타이드 서열 차이로 전환되는 2개의 가닥 사이에 다른 생화학적 비대칭을 포함할 수 있다. 또 다른 실시형태에서, SDE는 증폭 전에 2개의 가닥을 물리적으로 분리시키는 수단일 수 있어서, 제1 가닥 표적 핵산 서열 및 제2 가닥 표적 핵산 서열로부터의 파생 증폭 산물은 2개 사이의 구별을 유지시킬 목적을 위해 하나와 다른 것으로부터 실질적인 물리적 이격에서 유지된다. 제1 가닥 및 제2 가닥의 구별을 허용하는 SDE 기능을 제공하기 위한 다른 이러한 배열 또는 방법론, 예컨대 상기 언급된 공보에 기재된 것 또는 기재된 기능 목적을 제공하는 다른 방법을 사용할 수 있다.
적어도 하나의 SMI 및 적어도 하나의 SDE를 포함하는 이중-가닥 표적 핵산 복합체를 생성한 후에, 또는 이들 요소들 중 하나 또는 둘 다가 후속하여 도입되는 경우, 이 복합체는 예컨대 PCR과 같은 DNA 증폭, 또는 DNA 증폭의 임의의 다른 생화학적 방법으로 처리될 수 있어서, 제1 가닥 표적 핵산 서열의 하나 이상의 카피 및 제2 가닥 표적 핵산 서열의 하나 이상의 카피가 제조된다(예를 들어, 도 4b). 이후, 제1 가닥 표적 핵산 분자의 하나 이상의 증폭 카피 및 제2 표적 핵산 분자의 하나 이상의 증폭 카피는 바람직하게는 "차세대" 대량 병렬 DNA 시퀀싱 플랫폼을 사용하여 DNA 시퀀싱으로 처리될 수 있다(예를 들어, 도 4b).
원래의 이중-가닥 표적 핵산 분자로부터 유래된 제1 가닥 표적 핵산 분자 및 제2 가닥 표적 핵산 분자 중 어느 하나로부터 제조된 서열 리드는 관련된 실질적으로 고유한 SMI를 공유함에 기초하여 확인되고, SDE에 의해 반대의 가닥 표적 핵산 분자로부터 구별될 수 있다. 일부 실시형태에서, SMI는 수확적으로-기초한 오류 보정 코드(예를 들어, 해밍 코드(Hamming code))에 기초한 서열일 수 있고, 이로써 소정의 증폭 오류, 시퀀싱 오류 또는 SMI 합성 오류는 원래의 듀플렉스(예를 들어, 이중-가닥 핵산 분자)의 상보성 가닥에서 SMI 서열의 서열을 관련시킬 목적을 위해 관용될 수 있다. 예를 들어, SMI가 정규 DNA 염기의 완전히 축퇴성인 서열의 15개의 염기 쌍을 포함하는 이중 가닥 외인성 SMI에 의해, 추정된 4^15 = 1,073,741,824 SMI 변이체는 완전히 축퇴성인 SMI의 집단에 존재할 것이다. 2개의 SMI가 10,000개의 샘플링된 SMI의 집단 중에서 SMI 서열 내에 1개의 뉴클레오타이드가 다른 시퀀싱 데이터의 판독치로부터 회수되면, 이것은 수확적으로 계산될 수 있고, 이의 확률은 랜덤 선택으로 발생하고, 단일 염기 쌍 차이가 상술된 오류 유형 중 하나를 더욱 반영할 것 같은지 및 SMI 서열이 사실 동일한 원래의 듀플렉스 분자로부터 유래되는 것으로 결정될 수 있는지에 대한 결정이 이루어진다. 일부 실시형태에서, SMI가 적어도 부분적으로 서열 변이체가 서로 완전히 축퇴성이 아닌 외인성으로 적용된 서열이고 적어도 부분적으로 알려진 서열인 경우, 알려진 서열의 정체는 일부 실시형태에서 상술된 유형의 하나 이상의 오류가 하나의 알려진 SMI 서열의 정체를 다른 SMI 서열의 정체로 전환시키지 않는 방식으로 설계될 수 있어서, 하나의 SMI가 다른 SMI의 정체로 잘못 해석될 가능성이 감소한다. 일부 실시형태에서, 이 SMI 설계 전략은 해밍 코드 접근법 또는 이의 도함수를 포함한다. 제1 가닥 표적 핵산 분자로부터 제조된 하나 이상의 서열 리드는 확인되면 제2 가닥 표적 핵산 분자로부터 제조된 하나 이상의 서열 리드와 비교되어 오류-보정된 표적 핵산 분자 서열을 제조한다(예를 들어, 도 4c). 예를 들어, 제1 가닥 및 제2 가닥 표적 핵산 서열 둘 다로부터의 염기가 동의하는 뉴클레오타이드 위치는 진정한 서열인 것으로 간주되는 한편, 2개의 가닥 사이에 비동의하는 뉴클레오타이드 위치는 무시되거나 제거되거나 보정되거나 그렇지 않으면 확인될 수 있는 기술적 오류의 잠재적인 부위로 인식된다. 원래의 이중-가닥 표적 핵산 분자의 오류-보정된 서열이 따라서 제조될 수 있다(도 4c에 도시됨). 일부 실시형태에서, 제1 가닥 표적 핵산 분자 및 제2 가닥 표적 핵산 분자로부터 제조된 각각의 시퀀싱 리드의 별개의 그룹화 후에, 단일-가닥 공통 서열은 각각의 제1 가닥 및 제2 가닥에 생성될 수 있다. 이후, 제1 가닥 표적 핵산 분자 및 제2 가닥 표적 핵산 분자로부터의 단일-가닥 공통 서열은 오류-보정된 표적 핵산 분자 서열을 제조하도록 비교될 수 있다(예를 들어, 도 4c).
대안적으로, 일부 실시형태에서, 2개의 가닥 사이의 서열 비동의의 부위는 원래의 이중 가닥 표적 핵산 분자의 생물학적으로-유래된 미스매치의 잠재적인 부위로 인식될 수 있다. 대안적으로, 일부 실시형태에서, 2개의 가닥 사이의 서열 비동의의 부위는 원래의 이중 가닥 표적 핵산 분자에서의 DNA 합성-유래된 미스매치의 잠재적인 부위로 인식될 수 있다. 대안적으로, 일부 실시형태에서, 2개의 가닥 사이의 서열 비동의의 부위는 손상된 뉴클레오타이드 염기 또는 변형된 뉴클레오타이드 염기가 하나의 가닥 또는 둘 다의 가닥에 존재하고, 효소 과정(예를 들어, DNA 중합효소, DNA 글라이코실라제 또는 다른 핵산 변형 효소 또는 화학 공정)에 의해 미스매치로 전환되는 잠재적인 부위로 인식될 수 있다. 일부 실시형태에서, 이 후자의 발견은 효소 과정 또는 화학 처리 전에 핵산 손상 또는 뉴클레오타이드 변형의 존재를 추론하기 위해 사용될 수 있다.
일부 실시형태에서, 본 기술내용의 양태에 따르면, 본원에 기술된 듀플렉스 시퀀싱 단계로부터 생성된 시퀀싱 리드는 DNA-손상된 분자(예를 들어, 저장 동안, 선적 동안, 조직 또는 혈액 추출 동안 또는 후에, 라이브러리 제조 동안 또는 후에 기타 등등에서 손상된)로부터 시퀀싱 리드를 제거하기 위해 추가로 여과될 수 있다. 예를 들어, DNA 복구 또는 변형 효소, 예컨대 우라실-DNA 글라이코실라제(UDG), 포름아미도피리미딘 DNA 글라이코실라제(FPG) 및 8-옥소구아닌 DNA 글라이코실라제(OGG1)는 DNA 손상(예를 들어, 시험관내 DNA 손상 또는 생체내 손상)을 제거하거나 보정하기 위해 사용될 수 있다. 이 DNA 복구 효소는 예를 들어 DNA로부터 손상된 염기를 제거하는 글라이코실라제이다. 예를 들어, UDG는 (사이토신의 자발적 가수분해에 의해 초래된) 사이토신 탈아미노화로부터 생긴 우라실을 제거하고, FPG는 8-옥소-구아닌(예를 들어, 반응성 산소 종으로부터 생긴 흔한 DNA 병변)을 제거한다. FPG는 또한 비염기성 부위에서 1개 염기 갭을 생성할 수 있는 리가제 활성을 갖는다. 예를 들어, 중합효소가 주형을 카피하지 못하므로, 이러한 비염기성 부위는 일반적으로 후속하여 PCR에 의해 증폭하지 못할 것이다. 따라서, 이러한 DNA 손상 복구/제거 효소의 사용은 진성 돌연변이를 갖지 않는 손상된 DNA를 효과적으로 제거할 수 있고, 그렇지 않으면 시퀀싱 및 듀플렉스 서열 분석 후에 오류로서 검출되지 않을 것이다. 상보성 오류가 가닥 둘 다에서 동일한 위치에서 이론적으로 발생하는 드문 경우에 손상된 염기로 인한 오류는 대개 듀플렉스 시퀀싱에 의해 보정될 수 있지만, 이에 따라 오류-증가 손상의 감소는 인공산물의 개연성을 감소시킬 수 있다. 더욱이, 라이브러리 제조 동안, 시퀀싱되는 DNA의 소정의 단편은 이의 소스 또는 프로세싱 단계(예를 들어, 기계적 DNA 전단)로부터의 단일-가닥일 수 있다. 이 영역은 통상적으로 당해 분야에 알려진 "말단 복구" 단계 동안 이중 가닥 DNA로 전환되고, 이로써 DNA 중합효소 및 뉴클레오사이드 기질은 DNA 샘플에 첨가되어 5' 오목한 말단을 연장시킨다. 카피되는 DNA의 단일-가닥 부분에서의 DNA 손상의 돌연변이성 부위(즉, DNA 듀플렉스 또는 내부 단일-가닥 닉 또는 갭의 하나의 말단 또는 둘 다의 말단에서의 단일-가닥 5' 오버행)는 필인(fill-in) 반응 동안 오류를 야기할 수 있는데, 이 반응은 단일-가닥 돌연변이, 합성 오류 또는 핵산 손상의 부위가 진성 돌연변이로서 최종 듀플렉스 공통 서열에서 잘못 해석되는 이중-가닥 형태가 되게 하여서, 진성 돌연변이는 사실 원래의 이중 가닥 핵산 분자에 존재하지 않을 때 이 핵산 분자에 존재한다. "슈도-듀플렉스"라 불리는 이 시나리오는 이러한 손상 파괴/복구 효소의 사용에 의해 감소되거나 방지될 수 있다. 다른 실시형태에서, 이 발생은 원래의 듀플렉스 분자의 단일-가닥 부분을 파괴하거나 이의 형성을 방지하는 전략의 사용(예를 들어, 기계적 전단보다는 원래의 이중 가닥 핵산 물질을 단편화하기 위해 사용되는 소정의 효소 또는 닉 또는 갭을 남길 수 있는 소정의 다른 효소의 사용)을 통해 감소되거나 제거될 수 있다. 다른 실시형태에서, 원래의 이중-가닥 핵산(예를 들어, 단일-가닥 특이적 뉴클레아제, 예컨대 S1 뉴클레아제 또는 녹두 뉴클레아제)의 단일-가닥 부분을 제거하는 과정의 사용은 유사한 목적에 사용될 수 있다.
추가의 실시형태에서, 본원에 기술된 듀플렉스 시퀀싱 단계로부터 생성된 시퀀싱 리드는 슈도듀플렉스 인공산물에 가장 경향이 있는 리드의 말단을 손질함으로써 거짓 돌연변이를 제거하도록 추가로 여과될 수 있다. 예를 들어, DNA 단편화는 이중-가닥 분자의 말단 단부에서 단일 가닥 부분을 생성할 수 있다. 이 단일-가닥 부분은 말단 복구 동안 (예를 들어, Klenow 또는 T4 중합효소에 의해) 충전될 수 있다. 일부 경우에, 중합효소는 "슈도듀플렉스 분자"를 생성시키는 이 말단 복구된 영역에서 카피 실수를 만든다. 라이브러리 제조의 이 인공산물은 시퀀싱되면 진성 돌연변이인 것으로 부정확하게 나타날 수 있다. 이 오류는 말단 복구 기전의 결과로서 더 높은 위험 영역에서 발생할 수 있는 임의의 돌연변이를 배제하도록 시퀀싱 리드의 말단을 손질하여서 거짓 돌연변이의 수를 감소시킴으로써 시퀀싱 후 분석으로부터 제거되거나 감소될 수 있다. 일 실시형태에서, 시퀀싱 리드의 이러한 손질은 자동적으로 달성될 수 있다(예를 들어, 일반 공정 단계). 다른 실시형태에서, 돌연변이체 빈도는 단편 말단 영역에 대해 평가될 수 있고, 돌연변이의 역치 수준이 단편 말단 영역에서 관찰되면, 시퀀싱 리드 손질은 DNA 단편의 이중-가닥 공통 서열 리드를 생성하기 전에 수행될 수 있다.
특정 예로서, 일부 실시형태에서, 이중-가닥 표적 핵산 물질을 적어도 하나의 어댑터 서열에 결찰하여, 어댑터-표적 핵산 물질 복합체를 형성하는 단계를 포함하는 이중-가닥 표적 핵산 물질의 오류-보정된 서열 리드를 생성하는 방법이 본원에 제공되고, 여기서 적어도 하나의 어댑터 서열은 (a) 이중-가닥 표적 핵산 물질의 각각의 분자를 고유하게 표지하는 축퇴성 또는 반축퇴성 단일 분자 식별자(SMI) 서열, 및 (b) 어댑터-표적 핵산 물질 복합체의 각각의 가닥이 이의 상보성 가닥에 대해 명확하게 확인 가능한 뉴클레오타이드 서열을 갖도록 어댑터-표적 핵산 물질 복합체의 제1 가닥을 태그화하는 제1 뉴클레오타이드 어댑터 서열, 및 어댑터-표적 핵산 물질 복합체의 제2 가닥을 태그화하는 제1 뉴클레오타이드 서열에 적어도 부분적으로 비상보성인 제2 뉴클레오타이드 어댑터 서열을 포함한다. 상기 방법은 다음에 어댑터-표적 핵산 물질 복합체의 각각의 가닥을 증폭시켜 복수의 제1 가닥 어댑터-표적 핵산 복합체 앰플리콘 및 복수의 제2 가닥 어댑터-표적 핵산 복합체 앰플리콘을 제조하는 단계를 포함할 수 있다. 상기 방법은 제1 및 가닥 둘 다를 증폭시켜 제1 핵산 산물 및 제2 핵산 산물을 제공하는 단계를 추가로 포함할 수 있다. 상기 방법은 또한 각각의 제1 핵산 산물 및 제2 핵산 산물을 시퀀싱하여 복수의 제1 가닥 서열 리드 및 복수의 제2 가닥 서열 리드를 제조하는 단계, 및 적어도 하나의 제1 가닥 서열 리드 및 적어도 하나의 제2 가닥 서열 리드의 존재를 확증하는 단계를 포함할 수 있다. 상기 방법은 적어도 하나의 제1 가닥 서열 리드를 적어도 하나의 제2 가닥 서열 리드와 비교하는 단계, 및 동의하지 않는 뉴클레오타이드 위치를 무시함으로써 이중-가닥 표적 핵산 물질의 오류-보정된 서열 리드를 생성하거나, 대안적으로 비교된 제1 가닥 서열 리드 및 제2 가닥 서열 리드가 비상보성인 하나 이상의 뉴클레오타이드 위치를 갖는 비교된 제1 가닥 서열 리드 및 제2 가닥 서열 리드를 제거하는 단계를 추가로 포함할 수 있다.
추가 특정 예로서, 일부 실시형태에서, 핵산 물질(예를 들어, 이중-가닥 표적 DNA 분자)의 가닥 둘 다를 적어도 하나의 비대칭적 어댑터 분자에 결찰하여, 이중-가닥 표적 DNA 분자의 제1 가닥과 연관된 제1 뉴클레오타이드 서열(예를 들어, 상부 가닥) 및 이중-가닥 표적 DNA 분자의 제2 가닥과 연관된 제1 뉴클레오타이드 서열에 적어도 부분적으로 비상보성인 제2 뉴클레오타이드 서열(예를 들어, 하부 가닥)을 갖는 어댑터-표적 핵산 물질 복합체를 형성하는 단계, 및 어댑터-표적 핵산 물질의 각각의 가닥을 증폭시켜, 증폭된 어댑터-표적 핵산 산물의 구별되지만 관련된 세트를 생성하는 각각의 가닥을 생성하는 단계를 포함하는, 샘플로부터 DNA 변이체를 확인하는 방법이 본원에 제공된다. 상기 방법은 복수의 제1 가닥 어댑터-표적 핵산 산물 및 복수의 제2 가닥 어댑터-표적 핵산 산물의 각각을 시퀀싱하는 단계, 어댑터-표적 핵산 물질 복합체의 각각의 가닥으로부터 적어도 하나의 증폭된 서열 리드의 존재를 확증하는 단계 및 제1 가닥으로부터 얻은 적어도 하나의 증폭된 서열 리드를 제2 가닥으로부터 얻은 적어도 하나의 증폭된 서열 리드와 비교하여 (예를 들어, 기준 서열과 비교된) 공통 서열 리드에서 특정 위치에서 생긴 변이체가 진정한 DNA 변이체로서 확인되도록 핵산 물질(예를 들어, 이중-가닥 표적 DNA 분자)의 가닥 둘 다의 서열이 동의하는 뉴클레오타이드 염기만을 갖는 핵산 물질의 공통 서열 리드(예를 들어, 이중-가닥 표적 DNA 분자)를 형성하는 단계를 추가로 포함할 수 있다.
일부 실시형태에서, 이중-가닥 핵산 물질로부터 고정확성 공통 서열을 생성하는 방법이 본원에 제공되고, 상기 방법은 개별 듀플렉스 DNA 분자를 어댑터 분자로 태그화하여 태그화된 DNA 물질을 형성하는 단계이되, 각각의 어댑터 분자는 (a) 듀플렉스 DNA 분자를 고유하게 표지하는 축퇴성 또는 반축퇴성 단일 분자 식별자(SMI), 및 (b) 각각의 태그화된 DNA 분자에 대해 표지화된 DNA 물질 내에 각각의 개별 DNA 분자의 원래의 하부 가닥으로부터 원래의 상부 가닥을 구별하는 제1 비상보성 뉴클레오타이드 어댑터 서열 및 제2 비상보성 뉴클레오타이드 어댑터 서열을 포함하는 단계 및 태그화된 DNA 분자의 원래의 상부 가닥의 듀플레케이트의 세트 및 태그화된 DNA 분자의 원래의 하부 가닥의 듀플레케이트의 세트를 생성하여 증폭된 DNA 물질을 형성하는 단계를 포함한다. 상기 방법은 원래의 상부 가닥의 듀플레케이트로부터의 제1 단일 가닥 공통 서열(SSCS: single strand consensus sequence) 및 원래의 하부 가닥의 듀플레케이트로부터의 제2 단일 가닥 공통 서열(SSCS)을 생성하는 단계, 원래의 상부 가닥의 제1 SSCS를 원래의 하부 가닥의 제2 SSCS와 비교하는 단계 및 원래의 상부 가닥의 제1 SSCS 및 원래의 하부 가닥의 제2 SSCS 둘 다의 서열이 상보성인 뉴클레오타이드 염기만을 갖는 고정확성 공통 서열을 생성하는 단계를 추가로 포함할 수 있다.
추가의 실시형태에서, 혼합물로부터 핵산의 공여자 소스를 검출하고/하거나 정량화하는 방법이 본원에 제공되고, 상기 방법은 혼합물에서 각각의 이중-가닥 표적 DNA 분자의 가닥 둘 다를 적어도 하나의 비대칭적 어댑터 분자에 결찰시켜 복수의 어댑터-표적 DNA 복합체를 형성하는 단계이되, 각각의 어댑터-표적 DNA 복합체는 이중-가닥 표적 DNA 분자의 제1 가닥과 연관된 제1 뉴클레오타이드 서열 및 이중-가닥 표적 DNA 분자의 제2 가닥과 연관된 제1 뉴클레오타이드 서열에 적어도 부분적으로 비상보성인 제2 뉴클레오타이드 서열을 갖는 단계 및 각각의 어댑터 표적 DNA 복합체에 대해 어댑터-표적 DNA 복합체의 각각의 가닥을 증폭시켜, 증폭된 어댑터-표적 DNA 앰플리콘의 구별되지만 관련된 세트를 생성하는 각각의 가닥을 생성시키는 단계를 포함한다. 상기 방법은 복수의 제1 가닥 어댑터-표적 DNA 앰플리콘 및 복수의 제2 가닥 어댑터-표적 DNA 앰플리콘의 각각을 시퀀싱하는 단계, 어댑터-표적 DNA 복합체의 각각의 가닥으로부터 적어도 하나의 서열 리드의 존재를 확증하는 단계 및 제1 가닥으로부터 얻은 적어도 하나의 서열 리드를 제2 가닥으로부터 얻은 적어도 하나의 서열 리드와 비교하여 DNA 손상 부위(들)가 검출되고/되거나 정량화될 수 있도록 이중-가닥 DNA 분자의 하나의 가닥의 서열 리드가 이중-가닥 DNA 분자의 다른 가닥의 서열 리드와 비동의하는(예를 들어, 비상보성인) 뉴클레오타이드 염기를 검출하고/하거나 정량화하는 단계를 추가로 포함할 수 있다. 일부 실시형태에서, 상기 방법은 제1 가닥 어댑터-표적 DNA 앰플리콘으로부터의 제1 단일 가닥 공통 서열(SSCS) 및 제2 가닥 어댑터-표적 DNA 앰플리콘으로부터의 제2 단일 가닥 공통 서열(SSCS)을 생성하는 단계, 원래의 제1 가닥의 제1 SSCS를 원래의 제2 가닥의 제2 SSCS와 비교하는 단계 및 제1 SSCS 및 제2 SSCS의 서열이 비상보성인 뉴클레오타이드 염기를 확인하여 혼합물로부터 핵산의 공여자 소스를 검출하고/하거나 정량화하는 단계를 추가로 포함할 수 있다.
단일 분자 식별자 서열(SMI)
다양한 실시형태에 따르면, 제공된 방법 및 조성물은 핵산 물질의 각각의 가닥에서 하나 이상의 SMI 서열을 포함한다. SMI는 독립적으로 이중-가닥 핵산 분자로부터 생긴 각각의 단일 가닥에 의해 보유될 수 있어서, 각각의 가닥의 파생 증폭 산물은 시퀀싱 후 동일한 원래의 실질적으로 고유한 이중-가닥 핵산 분자로부터 나온 것으로 인식될 수 있다. 일부 실시형태에서, SMI는 추가 정보를 포함할 수 있고/있거나, 당업자에 의해 인식되는 것처럼 이러한 분자 구별 기능성이 유용한 다른 방법에 사용될 수 있다. 일부 실시형태에서, SMI 요소는 핵산 물질에 대한 어댑터 서열 결찰 전에, 실질적으로 이것과 동시에 또는 이것 후에 혼입될 수 있다.
일부 실시형태에서, SMI 서열은 적어도 하나의 축퇴성 핵산 또는 반축퇴성 핵산을 포함할 수 있다. 다른 실시형태에서, SMI 서열은 비축퇴성일 수 있다. 일부 실시형태에서, SMI는 핵산 분자의 단편 말단(예를 들어, 결찰된 핵산 물질의 무작위로 또는 반무작위로 전단된 말단)과 연관되거나 그 근처인 서열일 수 있다. 일부 실시형태에서, 외인성 서열은 예를 들어 단일 DNA 분자를 서로 구별할 수 있는 SMI 서열을 얻기 위해 결찰된 핵산 물질(예를 들어, DNA)의 무작위로 또는 반무작위로 절단된 말단에 상응하는 서열과 함께 생각될 수 있다. 일부 실시형태에서, SMI 서열은 이중-가닥 핵산 분자에 결찰된 어댑터 서열의 일부이다. 소정의 실시형태에서, SMI 서열을 포함하는 어댑터 서열은 이중-가닥이어서, 이중-가닥 핵산 분자의 각각의 가닥은 어댑터 서열에 대한 결찰 후에 SMI를 포함한다. 다른 실시형태에서, SMI 서열은 이중-가닥 핵산 분자에 대한 결찰 전에 또는 후에 단일-가닥이고, 상보성 SMI 서열은 DNA 중합효소로 반대의 가닥을 연장하여 상보성 이중-가닥 SMI 서열을 생성시킴으로써 생성될 수 있다. 다른 실시형태에서, SMI 서열은 어댑터의 단일-가닥 부분(예를 들어, Y-형상을 갖는 어댑터의 아암)에 있다. 이러한 실시형태에서, SMI는 이중-가닥 핵산 분자의 원래의 가닥으로부터 유래된 서열 리드의 패밀리의 그룹화를 용이하게 할 수 있고, 일부 경우에 이중-가닥 핵산 분자의 원래의 제1 가닥과 제2 가닥 사이에 관계(예를 들어, SMI의 전부 또는 일부는 순람표와 관련될 수 있음)를 부여할 수 있다. 실시형태에서, 제1 가닥 및 제2 가닥이 상이한 SMI로 표지되는 경우, 2개의 원래의 가닥으로부터의 서열 리드는 하나 이상의 내인성 SMI(예를 들어, 단편-특이적 특성, 예컨대 핵산 분자의 단편 단편과 연관되거나 그 근처의 서열)를 사용하여, 또는 2개의 원래의 가닥이 공유하는 추가 분자 태그(예를 들어, 어댑터의 이중-가닥 부분에서의 바코드, 또는 이의 조합)의 사용에 의해 관련될 수 있다. 일부 실시형태에서, 각각의 SMI 서열은 약 1개 내지 약 30개의 핵산(예를 들어, 1개, 2개, 3개, 4개, 5개, 8개, 10개, 12개, 14개, 16개, 18개, 20개 이상의 축퇴성 핵산 또는 반축퇴성 핵산)을 포함할 수 있다.
일부 실시형태에서, SMI는 핵산 물질 및 어댑터 서열의 하나 또는 둘 다에 결찰될 수 있다. 일부 실시형태에서, SMI는 핵산 물질의 T-오버행, A-오버행, CG-오버행, 탈하이드록실화 염기 및 무딘 말단 중 적어도 하나에 결찰될 수 있다.
일부 실시형태에서, SMI의 서열은 단일 핵산 분자를 서로 구별할 수 있는 SMI 서열을 얻기 위해 예를 들어 핵산 물질(예를 들어, 결찰된 핵산 물질)의 무작위로 또는 반무작위로 전단된 말단에 상응하는 서열과 함께 고려(또는 이에 따라 설계)될 수 있다.
일부 실시형태에서, 적어도 하나의 SMI는 내인성 SMI(예를 들어, 전단점 자체를 사용하여 또는 전단점에 바로 인접한 핵산 물질에서의 한정된 수의 뉴클레오타이드[예를 들어, 전단점으로부터의 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개의 뉴클레오타이드]를 사용하여 예를 들어 전단점(예를 들어, 단편 말단)과 관련된 SMI)일 수 있다. 일부 실시형태에서, 적어도 하나의 SMI는 외인성 SMI(예를 들어, 표적 핵산 물질에서 발견되지 않는 서열을 포함하는 SMI)일 수 있다.
일부 실시형태에서, SMI는 영상화 모이어티(예를 들어, 형광 또는 달리 광학적으로 검출 가능한 모이어티)이거나 이를 포함할 수 있다. 일부 실시형태에서, 이러한 SMI는 증폭 단계의 필요 없이 검출 및/또는 정량화를 허용한다.
일부 실시형태에서, SMI 요소는 어댑터-표적 핵산 복합체에서 상이한 위치에 위치한 2개 이상의 별개의 SMI 요소를 포함할 수 있다.
SMI의 다양한 실시형태는 본원에 그 전문이 참조로 포함된 국제 특허 공보 WO 제2017/100441호에 추가로 개시된다.
가닥-한정 요소(SDE)
일부 실시형태에서, 이중-가닥 핵산 물질의 각각의 가닥은 표적 이중-가닥 핵산 물질을 형성하는 2개의 단일-가닥 핵산의 증폭 산물이 시퀀싱 후 서로 실질적으로 구별 가능하게 하는 요소를 추가로 포함할 수 있다. 일부 실시형태에서, SDE는 시퀀싱 어댑터 내에 포함된 비대칭적 프라이머 부위이거나 이를 포함할 수 있거나, 다른 배열에서 서열 비대칭은 어댑터 서열로 도입되고 프라이머 서열 내에 없을 수 있어서, 표적 핵산 서열 복합체의 제1 가닥 및 표적 핵산 서열 복합체의 제2 가닥의 뉴클레오타이드 서열에서의 적어도 하나의 위치는 증폭 및 시퀀싱 후에 서로 다르다. 다른 실시형태에서, SDE는 정규 뉴클레오타이드 서열 A, T, C, G 또는 U와 다르지만, 2개의 증폭되고 시퀀싱된 분자에서 적어도 하나의 정규 뉴클레오타이드 서열 차이로 전환되는 2개의 가닥 사이에 다른 생화학적 비대칭을 포함할 수 있다. 또 다른 실시형태에서, SDE는 증폭 전에 2개의 가닥을 물리적으로 분리시키는 수단이거나 이를 포함할 수 있어서, 제1 가닥 표적 핵산 서열 및 제2 가닥 표적 핵산 서열로부터의 파생 증폭 산물은 2개의 파생 증폭 산물 사이에 구별을 유지시킬 목적을 위해 서로로부터 실질적인 물리적 이격에서 유지된다. 제1 가닥 및 제2 가닥의 구별을 허용하는 SDE 기능을 제공하기 위한 다른 이러한 배열 또는 방법론을 사용할 수 있다.
일부 실시형태에서, SDE는 루프(예를 들어, 헤어핀 루프)를 형성할 수 있다. 일부 실시형태에서, 루프는 적어도 하나의 엔도뉴클레아제 인식 부위를 포함할 수 있다. 일부 실시형태에서, 표적 핵산 복합체는 루프 내에 절단 사건을 용이하게 하는 엔도뉴클레아제 인식 부위를 함유할 수 있다. 일부 실시형태에서, 루프는 비정규 뉴클레오타이드 서열을 포함할 수 있다. 일부 실시형태에서, 함유된 비정규 뉴클레오타이드는 가닥 절단을 용이하게 하는 하나 이상의 효소에 의해 인식 가능할 수 있다. 일부 실시형태에서, 함유된 비정규 뉴클레오타이드는 루프에서 가닥 절단을 용이하게 하는 하나 이상의 화학 공정에 의해 표적화될 수 있다. 일부 실시형태에서, 루프는 루프에서 가닥 절단을 용이하게 하는 하나 이상의 효소적, 화학적 또는 물리적 공정에 의해 표적화될 수 있는 변형된 핵산 링커를 함유할 수 있다. 일부 실시형태에서, 이 변형된 링커는 광 분해 가능한 링커이다.
다양한 다른 분자 도구는 SMI 및 SDE로 작용할 수 있다. 전단점 및 DNA-기반 태그 이외에, 쌍 지은 가닥을 물리적으로 근접하게 유지시키는 단일-분자 구획화 방법 또는 다른 비핵산 태그화 방법은 가닥-관련 기능을 제공할 수 있었다. 유사하게, 물리적으로 분리될 수 있는 방식의 어댑터 가닥의 비대칭적 화학 표지화는 SDE 역할을 제공할 수 있다. 듀플렉스 시퀀싱의 최근에 기재된 변형은 사이토신 메틸화의 형태의 자연 발생 가닥 비대칭을 2개의 가닥을 구별하는 서열 차이로 전환시키도록 바이설파이트 전환을 사용한다. 이 실행이 검출될 수 있는 돌연변이의 유형을 제한하지만, 자연 비대칭에서 자본화의 개념은 변형된 뉴클레오타이드를 직접적으로 검출할 수 있는 떠오르는 시퀀싱의 상황에서 주목할 만하다. SDE의 다양한 실시형태는 그 전문이 참조로 포함된 국제 특허 공보 WO 제2017/100441호에 추가로 개시된다.
어댑터 및 어댑터 서열
다양한 배열에서, SMI(예를 들어, 분자 바코드), SDE, 프라이머 부위, 유세포 서열 및/또는 다른 특징을 포함하는 어댑터 분자는 본원에 개시된 많은 실시형태와 사용하기 위해 고려된다. 일부 실시형태에서, 제공된 어댑터는 하기 특성 중 적어도 하나를 갖는 PCR 프라이머(예를 들어, 프라이머 부위)에 상보성 또는 적어도 부분적으로 상보성인 하나 이상의 서열이거나 이를 포함할 수 있다: 1) 높은 표적 특이성; 2) 다중화 가능함; 및 3) 튼튼하고 최소로 바이어스된 증폭을 나타냄.
일부 실시형태에서, 어댑터 분자는 "Y"-형상, "U"-형상, "헤어핀" 형상이거나, 버블(예를 들어, 비상보성인 서열의 부분), 또는 다른 특징을 가질 수 있다. 다른 실시형태에서, 어댑터 분자는 "Y"-형상, "U"-형상, "헤어핀" 형상 또는 버블을 포함할 수 있다. 소정의 어댑터는 변형된 뉴클레오타이드 또는 비표준 뉴클레오타이드, 제한 부위, 또는 시험관내 구조 또는 기능의 조작을 위한 다른 특징을 포함할 수 있다. 어댑터 분자는 말단 단부를 갖는 다양한 핵산 물질에 결찰할 수 있다. 예를 들어, 어댑터 분자는 T-오버행, A-오버행, CG-오버행, 다중 뉴클레오타이드 오버행, 탈하이드록실화 염기, 핵산 물질의 무딘 말단 및 분자의 말단에 결찰하기에 적합할 수 있고, 표적의 5'는 탈인산화되거나 달리 전통적인 결찰로부터 차단된다. 다른 실시형태에서, 어댑터 분자는 결찰 부위에서 5' 가닥에서 탈인산화되거나 그렇지 않으면 결찰-방지 변형을 함유할 수 있다. 후자의 2개의 실시형태에서, 이러한 전략은 라이브러리 단편 또는 어댑터 분자의 이합체화를 방지하기에 유용할 수 있다.
어댑터 서열은 단일-가닥 서열, 이중-가닥 서열, 상보성 서열, 비상보성 서열, 부분 상보성 서열, 비대칭 서열, 프라이머 결합 서열, 유세포 서열, 결찰 서열 또는 어댑터 분자에 의해 제공된 다른 서열을 의미할 수 있다. 특정 실시형태에서, 어댑터 서열은 올리고뉴클레오타이드에 보체의 방식에 의해 증폭에 사용된 서열을 의미할 수 있다.
일부 실시형태에서, 제공된 방법 및 조성물은 적어도 하나의 어댑터 서열을 포함한다(예를 들어, 2개의 어댑터 서열, 하나는 핵산 물질의 5' 말단 및 3' 말단의 각각에 있음). 일부 실시형태에서, 제공된 방법 및 조성물은 2개 이상(예를 들어, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상)의 어댑터 서열을 포함할 수 있다. 일부 실시형태에서, 적어도 2개의 어댑터 서열은 (예를 들어, 서열이) 서로 다르다. 일부 실시형태에서, 각각의 어댑터 서열은 (예를 들어, 서열이) 각각의 다른 어댑터 서열과 다르다. 일부 실시형태에서, 적어도 하나의 어댑터 서열은 적어도 하나의 다른 어댑터 서열의 적어도 일부에 적어도 부분적으로 비상보성이다(예를 들어, 적어도 하나의 뉴클레오타이드에 의해 비상보성임).
일부 실시형태에서, 어댑터 서열은 적어도 하나의 비표준 뉴클레오타이드를 포함한다. 일부 실시형태에서, 비표준 뉴클레오타이드는 비염기성 부위, 우라실, 테트라하이드로퓨란, 8-옥소-7,8-디하이드로-2'데옥시아데노신(8-옥소-A), 8-옥소-7,8-디하이드로-2'-데옥시구아노신(8-옥소-G), 데옥시이노신, 5'니트로인돌, 5-하이드록시메틸-2'-데옥시사이티딘, 이소-사이토신, 5'-메틸-이소사이토신 또는 이소구아노신, 메틸화 뉴클레오타이드, RNA 뉴클레오타이드, 리보스 뉴클레오타이드, 8-옥소-구아닌, 광 분해 가능한 링커, 바이오티닐화 뉴클레오타이드, 데스티오바이오틴 뉴클레오타이드, 티올 변형된 뉴클레오타이드, 아크리다이트 변형된 뉴클레오타이드 이소-dC, 이소 dG, 2'-O-메틸 뉴클레오타이드, 이노신 뉴클레오타이드 잠김 핵산, 펩타이드 핵산, 5 메틸 dC, 5-브로모 데옥시우리딘, 2,6-디아미노퓨린, 2-아미노퓨린 뉴클레오타이드, 비염기성 뉴클레오타이드, 5-니트로인돌 뉴클레오타이드, 아데닐화 뉴클레오타이드, 아지드 뉴클레오타이드, 디곡시게닌 뉴클레오타이드, I-링커, 5' 헥시닐 변형된 뉴클레오타이드, 5-옥타디닐 dU, 광 절단 가능한 스페이서, 광 절단 불가능한 스페이서, 클릭 화학 적합 변형된 뉴클레오타이드, 및 임의의 이들의 조합으로부터 선택된다.
일부 실시형태에서, 어댑터 서열은 자기 특성을 갖는 모이어티(즉, 자기 모이어티)를 포함한다. 일부 실시형태에서, 이 자기 특성은 상자성이다. 일부 실시형태에서, 어댑터 서열이 자기 모이어티를 포함하는 경우(예를 들어, 자기 모이어티를 포함하는 어댑터 서열에 결찰된 핵산 물질), 자기장이 인가될 때, 자기 모이어티를 포함하는 어댑터 서열은 자기 모이어티를 포함하지 않는 어댑터 서열(예를 들어, 자기 모이어티를 포함하지 않는 어댑터 서열에 결찰된 핵산 물질)로부터 실질적으로 분리된다.
일부 실시형태에서, 적어도 하나의 어댑터 서열은 SMI의 5'에 위치한다. 일부 실시형태에서, 적어도 하나의 어댑터 서열은 SMI의 3'에 위치한다.
일부 실시형태에서, 어댑터 서열은 하나 이상의 링커 도메인을 통해 SMI 및 핵산 물질 중 적어도 하나에 연결될 수 있다. 일부 실시형태에서, 링커 도메인은 뉴클레오타이드로 이루어질 수 있다. 일부 실시형태에서, 링커 도메인은 (예를 들어, 본 개시내용에서 그외 기재된 바대로) 적어도 하나의 변형된 뉴클레오타이드 또는 비뉴클레오타이드 분자를 포함할 수 있다. 일부 실시형태에서, 링커 도메인은 루프이거나 이를 포함할 수 있다.
일부 실시형태에서, 이중-가닥 핵산 물질의 각각의 가닥의 말단 중 어느 하나 또는 말단 둘 다에서의 어댑터 서열은 SDE를 제공하는 하나 이상의 요소를 추가로 포함할 수 있다. 일부 실시형태에서, SDE는 어댑터 서열 내에 포함된 비대칭적 프라이머 부위이거나 이를 포함할 수 있다.
일부 실시형태에서, 어댑터 서열은 적어도 하나의 SDE 및 적어도 하나의 결찰 도메인(즉, 적어도 하나의 리가제의 활성에 수정 가능한 도메인, 예를 들어 리가제의 활성을 통해 핵산 물질에 결찰하기에 적합한 도메인)이거나 이를 포함할 수 있다. 일부 실시형태에서, 5'에서 3'로, 어댑터 서열은 프라이머 결합 부위, SDE 및 결찰 도메인이거나 이를 포함할 수 있다.
듀플렉스 시퀀싱 어댑터를 합성하기 위한 다양한 방법은 이전에 예를 들어 본원에 그 전문이 참조로 포함된 미국 특허 제9,752,188호, 국제 특허 공보 WO 제2017/100441호 및 국제 특허 공보 제PCT/US18/59908호(2018년 11월 8일 제출)에 기재되어 있다.
프라이머
일부 실시형태에서, 1) 높은 표적 특이성; 2) 다중화 가능함; 및 3) 튼튼하고 최소로 바이어스된 증폭을 나타냄의 특성 중 적어도 하나를 갖는 하나 이상의 PCR 프라이머는 본 기술내용의 양태에 따라 다양한 실시형태에 사용하기에 고려된다. 다수의 이전의 연구 및 상업 제품은 종래의 PCR-CE에 대해 소정의 이들 기준을 만족시키는 설계된 프라이머 혼합물을 갖는다. 그러나, 이 프라이머 혼합물이 MPS와 사용하기에 항상 최적이 아님에 주의한다. 실제로, 고도로 다중화된 프라이머 혼합물의 개발은 도전적이고 시간 소모적인 공정일 수 있다. 편리하게는, Illumina 및 Promega 둘 다는 최근에 다양한 표준 및 비표준 STR 및 SNP 유전좌위의 튼튼하고 효율적인 증폭을 나타낸 Illumina 플랫폼에 대한 다중화 적합 프라이머 혼합물을 개발하였다. 이 키트가 시퀀싱 전에 이의 표적 영역을 증폭시키기 위해 PCR을 사용하므로, 쌍 지은-말단 시퀀싱 데이터에서의 각각의 리드의 5'-말단은 DNA를 증폭시키기 위해 사용된 PCR 프라이머의 5'-말단에 상응한다. 일부 실시형태에서, 제공된 방법 및 조성물은 변하는 반응 농도, 융점 및 2차 구조 및 프라이머내/프라이머간 상호작용의 최소화를 수반할 수 있는 균일한 증폭을 보장하기 위해 설계된 프라이머를 포함한다. 많은 기법은 MPS 분야에 대해 고도로 다중화된 프라이머 최적화에 대해 기술되어 있으며, 예컨대, 예를 들어, 기법은 당해 분야에 잘 기재된 앰플리세크(ampliseq) 방법으로 대개 알려져 있다.
증폭
제공된 방법 및 조성물은 다양한 실시형태에서 적어도 하나의 증폭 단계를 사용하거나 이의 사용에 있고, 여기서 핵산 물질(또는 이의 부분, 예를 들어 특이적 표적 영역 또는 유전좌위)은 증폭된 핵산 물질(예를 들어, 약간의 수의 앰플리콘 산물)을 형성하도록 증폭된다.
일부 실시형태에서, 핵산 물질의 증폭은 SMI 서열이 적어도 부분적으로 유지되도록 제1 어댑터 서열에 존재하는 서열에 적어도 부분적으로 상보성인 적어도 하나의 단일-가닥 올리고뉴클레오타이드를 사용하여 원래의 이중-가닥 핵산 물질로부터 각각의 제1 핵산 가닥 및 제2 핵산 가닥으로부터 유래된 핵산 물질을 증폭시키는 단계를 포함한다. 증폭 단계는 각각의 관심 가닥을 증폭시키기 위해 제2 단일-가닥 올리고뉴클레오타이드를 추가로 포함하고, 이러한 제2 단일-가닥 올리고뉴클레오타이드는 적어도 하나의 단일-가닥 올리고뉴클레오타이드 및 제2 단일-가닥 올리고뉴클레오타이드가 핵산 물질을 효과적으로 증폭시키는 방식으로 배향되도록 (a) 관심 표적 서열에 적어도 부분적으로 상보성이거나, (b) 제2 어댑터 서열에 존재하는 서열에 적어도 부분적으로 상보성일 수 있다.
일부 실시형태에서, 샘플에서의 핵산 물질의 증폭은 "관"(예를 들어, PCR 관), 에멀션 액적, 마이크로챔버 및 상기에 기재된 다른 예 또는 다른 알려진 용기에서 핵산 물질의 증폭을 포함할 수 있다.
일부 실시형태에서, 적어도 하나의 증폭 단계는 적어도 하나의 비표준 뉴클레오타이드이거나 이를 포함하는 적어도 하나의 프라이머를 포함한다. 일부 실시형태에서, 비표준 뉴클레오타이드는 우라실, 메틸화 뉴클레오타이드, RNA 뉴클레오타이드, 리보스 뉴클레오타이드, 8-옥소-구아닌, 바이오티닐화 뉴클레오타이드, 잠김 핵산, 펩타이드 핵산, 높은-Tm 핵산 변이체, 대립유전자 구별 핵산 변이체, 본원에 그외 기재된 임의의 다른 뉴클레오타이드 또는 링커 변이체 및 임의의 이들의 조합으로부터 선택된다.
임의의 분야-적절한 증폭 반응이 일부 실시형태와 적합한 것으로 고려되지만, 특정 예로서, 일부 실시형태에서, 증폭 단계는 중합효소 연쇄 반응(PCR: polymerase chain reaction), 회전 환 증폭(RCA: rolling circle amplification), 다중 변위 증폭(MDA: multiple displacement amplification), 등온 증폭, 에멀션 내의 폴로니 증폭, 비드의 또는 하이드로겔 내의 표면인 표면에서의 브리지 증폭, 및 임의의 이들의 조합이거나 이를 포함할 수 있다.
일부 실시형태에서, 핵산 물질의 증폭은 핵산 물질의 각각의 가닥의 5' 말단 및 3' 말단에서 어댑터 서열의 영역에 적어도 부분적으로 상보성인 단일-가닥 올리고뉴클레오타이드의 사용을 포함한다. 일부 실시형태에서, 핵산 물질의 증폭은 관심 표적 영역 또는 표적 서열(예를 들어, 게놈 서열, 미토콘드리아 서열, 플라스미드 서열, 합성으로 제조된 표적 핵산 등)에 적어도 부분적으로 상보성인 적어도 하나의 단일-가닥 올리고뉴클레오타이드 및 어댑터 서열(예를 들어, 프라이머 부위)의 영역에 적어도 부분적으로 상보성인 단일-가닥 올리고뉴클레오타이드의 사용을 포함한다.
일반적으로, 튼튼한 증폭, 예를 들어 PCR 증폭은 반응 조건에 고도로 의존적일 수 있다. 다중 PCR은 예를 들어 완충액 조성물, 1가 또는 2가 양이온 농도, 세제 농도, 크라우딩제(즉, PEG, 글리세롤 등) 농도, 프라이머 농도, 프라이머 Tm, 프라이머 설계, 프라이머 GC 함량, 프라이머 변형된 뉴클레오타이드 특성 및 사이클링 조건(즉, 온도 및 연장 시간 및 온도 변화 속도)에 민감할 수 있다. 완충액 조건의 최적화는 어렵고 시간 소모적인 공정일 수 있다. 일부 실시형태에서, 증폭 반응은 이전에 알려진 증폭 프로토콜에 따라 완충액, 프라이머 풀 농도 및 PCR 조건 중 적어도 하나를 사용할 수 있다. 일부 실시형태에서, 새로운 증폭 프로토콜이 생성될 수 있고/있거나 증폭 반응 최적화가 사용될 수 있다. 특정 예로서, 일부 실시형태에서, PCR 최적화 키트, 예컨대 다중, 실시간, GC-농후, 및 억제제-내성 증폭과 같은 다양한 PCR 분야에 부분적으로 최적화된 다수의 미리 제제화된 완충액을 함유하는 Promega®로부터의 PCR Optimization Kit를 사용할 수 있다. 이 미리 제제화된 완충액은 상이한 Mg2+ 및 프라이머 농도, 및 프라이머 풀 비율로 신속히 보충될 수 있다. 또한, 일부 실시형태에서, 다양한 사이클링 조건(예를 들어, 열 사이클링)이 평가되고/되거나 사용될 수 있다. 특정 실시형태가 원하는 특정 분야에 적절한지를 평가하는 데 있어서, 다른 양태들 중에서 특이성, 이형접합성 유전좌위에 대한 대립유전자 커버리지 비율, 유전좌위간 균형 및 깊이 중 하나 이상이 평가될 수 있다. 증폭 성공의 측정은 산물의 DNA 시퀀싱, 겔 또는 모세관 전기영동에 의한 산물의 평가 또는 HPLC 또는 다른 크기 분리 방법, 이어서 단편 시각화, 이중-가닥 핵산 결합 염료 또는 형광 프로브를 사용한 용융 곡선 분석, 질량 분석법 또는 당해 분야에 알려진 다른 방법을 포함할 수 있다.
다양한 실시형태에 따르면, 임의의 다양한 인자는 특정 증폭 단계의 길이(예를 들어, PCR 반응에서의 사이클의 수 등)에 영향을 미칠 수 있다. 예를 들어, 일부 실시형태에서, 제공된 핵산 물질은 손상되거나 그렇지 않으면 준최적(예를 들어, 분해된 및/또는 오염된)일 수 있다. 이러한 경우에, 원하는 산물이 허용 가능한 정도로 증폭되게 보장하기 위해 보다 긴 증폭 단계가 도움이 될 수 있다. 일부 실시형태에서, 증폭 단계는 각각의 출발 DNA 분자로부터 평균 3개 내지 10개의 시퀀싱된 PCR 카피를 제공할 수 있지만, 다른 실시형태에서, 각각의 제1 가닥 및 제2 가닥의 오직 단일 카피가 필요하다. 특정 이론에 구속되고자 바라지 않으면서, 너무 많거나 너무 적은 PCR 카피가 검정 효율을 감소시키고 궁극적으로 깊이를 감소시킬 수 있다. 일반적으로, 증폭(예를 들어, PCR) 반응에 사용된 핵산(예를 들어, DNA) 단편의 수는 동일한 SMI/바코드 서열을 공유하는 리드의 수를 기술할 수 있는 1차의 조정 가능한 변수이다.
핵산 물질
유형
다양한 실시형태에 따르면, 임의의 다양한 핵산 물질을 사용할 수 있다. 일부 실시형태에서, 핵산 물질은 정규 당-포스페이트 골격 내에 폴리뉴클레오타이드에 대한 적어도 하나의 변형을 포함할 수 있다. 일부 실시형태에서, 핵산 물질은 핵산 물질에서 임의의 염기 내에 적어도 하나의 변형을 포함할 수 있다. 예를 들어, 비제한적인 예로서, 일부 실시형태에서, 핵산 물질은 이중-가닥 DNA, 단일-가닥 DNA, 이중-가닥 RNA, 단일-가닥 RNA, 펩타이드 핵산(PNA: peptide nucleic acid), 잠금 핵산(LNA: locked nucleic acid) 중 적어도 하나이거나 이를 포함한다.
변형
다양한 실시형태에 따르면, 핵산 물질은 특정한 제공된 방법 또는 조성물이 사용되는 분야에 따라 임의의 특정 단계 전에, 이외 실질적으로 동시에 또는 이에 후속하여 하나 이상의 변형을 수용할 수 있다.
일부 실시형태에서, 변형은 핵산 물질의 적어도 일부의 복구이거나 이를 포함할 수 있다. 임의의 분야-적절한 핵산 복구 방식이 일부 실시형태와 적합한 것으로 고려되지만, 소정의 예시적인 방법 및 조성물은 따라서 하기에 및 실시예에 기재되어 있다.
비제한적인 예로서, 일부 실시형태에서, DNA 복구 효소, 예컨대 우라실-DNA 글라이코실라제(UDG), 포름아미도피리미딘 DNA 글라이코실라제(FPG) 및 8-옥소구아닌 DNA 글라이코실라제(OGG1)는 DNA 손상(예를 들어, 시험관내 DNA 손상)을 보정하기 위해 사용될 수 있다. 상기에 기술된 것처럼, 이 DNA 복구 효소는 예를 들어 DNA로부터 손상된 염기를 제거하는 글라이코실라제이다. 예를 들어, UDG는 (사이토신의 자발적 가수분해에 의해 생긴) 사이토신 탈아미노화로부터 생긴 우라실을 제거하고, FPG는 8-옥소-구아닌(예를 들어, 반응성 산소 종으로부터 생긴 가장 흔한 DNA 병변)을 제거한다. FPG는 또한 비염기성 부위에서 1개 염기 갭을 생성할 수 있는 리가제 활성을 갖는다. 예를 들어, 중합효소가 주형을 카피하지 못하므로, 이러한 비염기성 부위는 후속하여 PCR에 의해 증폭하지 못할 것이다. 따라서, 이러한 DNA 손상 복구 효소의 사용은 진성 돌연변이를 갖지 않는 손상된 DNA를 효과적으로 제거할 수 있고, 그렇지 않으면 시퀀싱 및 듀플렉스 서열 분석 후에 오류로서 검출되지 않을 것이다.
상기에 기술된 것처럼, 추가의 실시형태에서, 본원에 기술된 프로세싱 단계로부터 생성된 시퀀싱 리드는 인공산물에 가장 경향이 있는 리드의 말단을 손질함으로써 거짓 돌연변이를 제거하도록 추가로 여과될 수 있다. 예를 들어, DNA 단편화는 이중-가닥 분자의 말단 단부에서 단일-가닥 부분을 생성할 수 있다. 이 단일-가닥 부분은 말단 복구 동안 (예를 들어, Klenow에 의해) 충전될 수 있다. 일부 경우에, 중합효소는 "슈도듀플렉스 분자"를 생성시키는 이 말단-복구된 영역에서 카피 실수를 만든다. 이 인공산물은 시퀀싱되면 진성 돌연변이인 것으로 나타날 수 있다. 이 오류는 말단 복구 기전의 결과로서 발생할 수 있는 임의의 돌연변이를 배제하도록 시퀀싱 리드의 말단을 손질하여서 거짓 돌연변이의 수를 감소시킴으로써 시퀀싱 후 분석으로부터 제거될 수 있다. 일부 실시형태에서, 시퀀싱 리드의 이러한 손질은 자동적으로 달성될 수 있다(예를 들어, 일반 공정 단계). 일부 실시형태에서, 돌연변이체 빈도는 단편 말단 영역에 대해 평가될 수 있고, 돌연변이의 역치 수준이 단편 말단 영역에서 관찰되면, 시퀀싱 리드 손질은 DNA 단편의 이중-가닥 공통 서열 리드를 생성하기 전에 수행될 수 있다.
듀플렉스 시퀀싱의 가닥-비교 기술에 의해 제공된 높은 정도의 오류 보정은 표준 차세대 시퀀싱 방법과 비교하여 여러 차수의 규모로 이중-가닥 핵산 분자의 시퀀싱 오류를 감소시킨다. 이 오류 감소는 거의 모든 유형의 서열에서 시퀀싱의 정확도를 개선하지만, 특히 오류 유발인 것으로 당해 분야에서 잘 알려진 생화학적으로 도전하는 서열에 특히 잘 맞을 수 있다. 이러한 유형의 서열의 하나의 비제한적인 예는 동종중합체 또는 다른 미세부수체/짧은-탠덤 반복부이다. 듀플렉스 시퀀싱 오류 보정으로부터 이익인 오류 유발 서열의 다른 비제한적인 예는 예를 들어 가열, 방사선, 기계적 스트레스, 또는 하나 이상의 뉴클레오타이드 중합효소에 의한 카피 동안 오류 유발인 화학 부가물을 생성하는 다양한 화학적 노출에 의해 손상된 분자이다. 추가의 실시형태에서, 듀플렉스 시퀀싱은 또한 이중-가닥 핵산 분자의 집단 중에서 소수의 서열 변이체의 정확한 검출에 사용될 수 있다. 본원의 하나의 비제한적인 예는 대상체 내의 비암성 조직으로부터의 더 많은 수의 돌연변이되지 않은 분자들 중에서 암으로부터 유래된 적은 수의 DNA 분자의 검출이다. 듀플렉스 시퀀싱에 의한 희귀 변이체 검출에 대한 다른 비제한적인 분야는 다른 유전자형을 가진 다른 개체의 DNA와 낮은 수준으로 혼합된 한 개체의 DNA에 대한 법의학적 탐지이다.
III. 핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법의 선택된 실시형태
혼합 샘플에서 유전자형을 확인하고 측정하는 것의 문제점은 법의학적 및 세포-기반 치료(예를 들어, 줄기 세포 이식)를 포함하는 다양한 분야에서 생긴다. 본 기술내용의 양태에 따르면, 듀플렉스 시퀀싱은 핵산 혼합물에 존재하는 소스-특이적 유전자형을 사용하고 데콘볼루션하고 확인하기 위해 사용될 수 있다. 특정 실시형태에서, 듀플렉스 시퀀싱은 생물학적 샘플 혼합물에 존재하는 개별 핵산 분자에 존재하는 미세일배체형을 확인하기 위해 사용된다. 일부 실시형태에서, 미세일배체형은 다수의 유전자형의 복잡한 혼합물을 데콘볼루션하기 위해 사용된다.
미세일배체형은, 동일한 판독 또는 판독 쌍 또는 시퀀싱 판독 내에 포함될 수 있는 다형성 유전좌위의 그룹으로서 일반적으로 정의되는, 서로 비교적 짧은 거리 내의 2개 이상의 비중복 게놈 DNA SNP를 포함하는 작은 게놈 유전좌위이다(예를 들어, 200개 미만의 뉴클레오타이드, 250개 미만의 뉴클레오타이드, 300개 미만의 뉴클레오타이드, 350개 미만의 뉴클레오타이드 또는 초과). 유전자형분석은 차세대 DNA 시퀀싱(NGS), 생어(sanger) 시퀀싱, 대량 병렬 시퀀싱, 나노기공 시퀀싱, 단일 분자 시퀀싱, 혼성화에 의한 시퀀싱 또는 다른 관련 방법을 이용하여 달성될 수 있다. 영역의 길이는 전적으로 뉴클레오타이드의 길이에 의해 정의되지 않고, 오히려 어떤 유전자형분석 플랫폼이 사용되든 "페이징된" 단위로서 유전자형분석될 수 있는 서열에 의해 정의된다. 예를 들어, Illumina, Inc.(미국 캘리포니아주 샌 디에고) 또는 Thermo Fisher Scientific, Inc.(미국 메사추세츠주 왈탐)에 의해 제조된 것과 같은 많은 현대의 NGS 플랫폼에 의해, 판독 길이/쌍별 판독 길이는 수십 내지 수백개의 뉴클레오타이드의 차수이다. 이러한 길이는 이 플랫폼에 의해 미세일배체형에 대한 실제적인 크기이다. 예를 들어, Pacific Bioscience of California, Inc.(미국 캘리포니아주 멘로 파크) 및 Oxford Nanopore Technologies, Ltd.(영국 옥스포드)에 의해 제조된 서열분석기와 같은 더 긴 서열 판독 기술에 대해, 미세일배체형의 실질적으로 사용 가능한 길이는 상당히 더 길다. 하기 예에 대해, 수십 내지 수백개의 뉴클레오타이드 길이의 차수에서의 미세일배체형은 명확성 및 실현가능성을 위해 기재되어 있지만, 이것은 일반적인 제한으로 해석되지 않아야 한다. 미세일배체형은 3개 내지 14개 또는 초과의 구별되는 대립유전자 또는 대립유전자 조합을 가질 수 있다. 이러한 멀티-대립유전자 유전좌위는 많은-성분 혼합물의 맥락에서 특히 정보제공일 수 있다. 듀플렉스 시퀀싱은 특정 유전자형이 생물학적 혼합물 내에 매우 낮은 수준으로 존재할 때에도 미세일배체형의 검출을 허용하는 방식으로 표준 차세대 시퀀싱(NGS) 및 단일-가닥 공통 시퀀싱 방법의 오류율에 의해 숨겨지는 희귀 변이체를 해상할 수 있다. 소정의 미세일배체형은 소정의 혼합물에 대해 겨우 0뿐인 "정보제공" 개별 다형성(즉, 상이한 개체로부터의 혼합물에서의 DNA 분자 사이의 미세일배체형 사이의 차이가 없음), 또는 여러 개별 다형성(예를 들어, 적어도 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 11. 12, 15, 20, 24, 또는 초과)을 가질 수 있다. 복합 미세일배체형 유전자형의 수는 수개(예를 들어, 10 초과, 20 초과, 30 초과 등)일 수 있지만, 혼합물에서의 구성 대상체가 충분히 유전적으로 상이하지 않다면 유사하게 소정의 혼합물에 정보제공일 수 있거나 아닐 수 있다.
일부 실시형태에서, 본 기술내용의 양태는 혼합물에서 약 1/100,000 부분의 수준에서 생물학적 샘플 내에 존재하는 유전자형을 검출하고 정량화하기 위해 사용된다. 본 기술내용의 다른 양태는 다수의 공지된 유전자형(예를 들어, 약 5, 약 10, 약 12, 약 15, 약 20, 약 25, 약 30, 약 35, 약 40, 약 45, 약 50 등)으로부터 혼합 비율을 정확하게 정량화할 수 있다. 다른 실시형태에서, 본 기술내용의 양태는 적어도 약 5개(예를 들어, 약 2개, 약 3개, 약 4개, 약 5개, 약 6개 등)의 비공지된 유전자형(예를 들어, 수 또는 어떤 유전자 소스가 생물학적 샘플에 존재하는지의 경험적 또는 선험적 지식이 없음)의 혼합물을 데콘볼루션하도록 사용될 수 있다. 본 기술내용의 다른 추가의 양태는 혼합물에서 초저-풍부도 소스의 유전자형을 부분적으로 회수하도록 사용될 수 있다. 예를 들어, 이러한 실시형태는 법의학적 분야, 미소키메리즘 분석(예를 들어, 태아 미소키메리즘), 숙주에서의 생착된 세포의 측정(예를 들어, 줄기 세포 이식 후), 및 기타에서 유용한다. 추가의 실시형태는 복잡한 혼합물(예를 들어, 적어도 약 8개 이하의 개별 유전자형)에서 데이터베이스로부터의 대상체의 확인에 관한 것이다.
IV. 유전자형의 복잡한 혼합물의 데콘볼루션을 위한 시스템 및 컴퓨팅 환경의 실시형태
적합한 컴퓨팅 환경
하기 논의는 적합한 컴퓨팅 환경의 일반 설명을 제공하고, 여기서 본 개시내용의 양태가 실행될 수 있다. 본 개시내용의 양태 및 실시형태는 컴퓨터-실행 가능한 명령, 예컨대 범용 컴퓨터, 예를 들어 서버 또는 개인용 컴퓨터에 의해 실행되는 루틴의 일반적인 상황에서 기재될 필요는 없지만 기재될 것이다. 당업자는 본 개시내용이 인터넷 어플라이언스, 휴대용 장치, 착용식 컴퓨터, 휴대폰 또는 이동 전화, 멀티-프로세서 시스템, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 전자용품, 셋톱 박스, 네트워크 PC, 미니-컴퓨터, 메인프레임 컴퓨터 등을 포함하는 다른 컴퓨터 시스템 구성과 실행될 수 있다는 것을 이해할 것이다. 본 개시내용은 하기 자세히 설명되는 하나 이상의 컴퓨터-실행 가능한 명령을 수행하도록 특별히 프로그래밍되거나 구성되거나 구축된 특수 목적 컴퓨터 또는 데이터 프로세서에서 구현될 수 있다. 실제로, 본원에서 일반적으로 사용된 바와 같은 용어 "컴퓨터"는 임의의 상기 장치, 및 임의의 데이터 프로세서를 지칭한다.
본 개시내용은 근거리 통신망("LAN")(Local Area Network), 광역 통신망("WAN")(Wide Area Network) 또는 인터넷과 같은 통신 네트워크를 통해 연결된 원격 프로세싱 장치에 의해 작업 또는 모듈이 수행되는 분산 컴퓨팅 환경에서 또한 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈 또는 하위루틴은 근거리 및 원격 기억 저장 장치 둘 다에 위치할 수 있다. 하기에 기술된 본 개시내용의 양태는 자기 및 광학 판독 가능하고 제거 가능한 컴퓨터 디스크를 포함하는 컴퓨터 판독 가능한 매체에 저장되거나 분산되고, 칩(예를 들어, EEPROM 칩)에서 펌웨어로 저장될 뿐만 아니라, 인터넷 또는 다른 네트워크(무선 네트워크를 포함)에 전자로 분산될 수 있다. 당업자는 본 개시내용의 부분이 서버 컴퓨터에 있을 수 있지만, 상응하는 부분이 클라이언트 컴퓨터에 있다는 것을 인식할 것이다. 본 개시내용의 양태에 특정한 데이터 구조 및 데이터의 전송은 또한 본 개시내용의 범위 내에 포괄된다.
개인용 컴퓨터 또는 워크스테이션과 같은 컴퓨터의 실시형태는 하나 이상의 사용자 입력 장치 및 데이터 저장 장치에 연결된 하나 이상의 프로세서를 포함할 수 있다. 컴퓨터는 또한 적어도 하나의 출력 장치, 예컨대 디스플레이 장치 및 하나 이상의 선택적인 추가 출력 장치(예를 들어, 프린터, 플로터, 스피커, 촉각 또는 후각 출력 장치 등)에 연결될 수 있다. 컴퓨터는 예컨대 선택적인 네트워크 연결, 무선 트랜시버 또는 둘 다를 통해 외부 컴퓨터에 연결될 수 있다.
다양한 입력 장치는 키보드 및/또는 포인팅 장치, 예컨대 마우스를 포함할 수 있다. 다른 입력 장치, 예컨대 마이크로폰, 조이스틱, 펜, 터치 스크린, 스캐너, 디지털 카메라, 비디오 카메라 등이 가능하다. 추가의 입력 장치는 시퀀싱 기계(들)(예를 들어, 대량 병렬 시퀀서), 형광투시경 및 다른 실험실 설비 등을 포함할 수 있다. 적합한 데이터 저장 장치는 컴퓨터에 의해 접근 가능한 데이터를 저장할 수 있는 임의의 유형의 컴퓨터 판독 가능한 매체, 예컨대 자기 하드 및 플로피 디스크 드라이브, 광학 디스크 드라이브, 자기 카세트, 테이프 드라이브, 플래시 메모리 카드, 디지털 비디오 디스크(DVD: digital video disk), 베르누이 카트리지(Bernoulli cartridge), RAM, ROM, 스마트 카드 등을 포함할 수 있다. 실제로, 근거리 통신망(LAN), 광역 통신망(WAN) 또는 인터넷과 같은 네트워크에 대한 연결 포트 또는 이것 위의 노드를 포함하는 컴퓨터 판독 가능한 명령 및 데이터를 저장하거나 전송하기 위한 임의의 매체를 사용할 수 있다.
본 개시내용의 양태는 다양한 다른 컴퓨팅 환경에서 실행될 수 있다. 예를 들어, 네트워크 인터페이스를 갖는 분산된 컴퓨팅 환경은 시스템에서 하나 이상의 사용자 컴퓨터를 포함할 수 있고, 이 시스템에서 이들은 컴퓨터가 인터넷의 월드 와이드 웹(World Wide Web) 부분 내의 웹 사이트를 포함하는 인터넷에 접근하고 인터넷과 데이터를 교환하게 하는 브라우저 프로그램 모듈을 포함할 수 있다. 사용자 컴퓨터는 운영 시스템, 하나 이상의 어플리케이션 프로그램(예를 들어, 워드 프로세싱 또는 스프레드 시트 어플리케이션) 등과 같은 다른 프로그램 모듈을 포함할 수 있다. 컴퓨터는 다양한 유형의 어플리케이션을 실행하도록 프로그래밍될 수 있는 범용 장치일 수 있거나, 특정 기능 또는 기능 종류로 최적화되거나 제한된 단일 목적 장치일 수 있다. 보다 중요하게는, 네트워크 브라우저와 기재되어 있지만, 사용자에게 그래픽 사용자 인터페이스를 제공하기 위한 임의의 어플리케이션 프로그램을 하기 자세히 기재된 것처럼 사용할 수 있고; 웹 브라우저 및 웹 인터페이스의 사용은 여기서 친숙한 예로서 오직 사용된다.
인터넷 또는 월드 와이드 웹("웹(Web)")에 연결된 적어도 하나의 서버 컴퓨터는 본원에 기재된 웹 페이지, 데이터 스트림, 오디오 신호 및 전자 영상과 같은 전자 메시지를 수신하고 라우팅하고 저장하기 위한 더 많은 또는 모든 기능을 수행할 수 있다. 인터넷이 기재되어 있지만, 인터넷과 같은 전용 네트워크가 일부 어플리케이션에서 사실 바람직할 수 있다. 네트워크는 클라이언트-서버 구성을 가질 수 있고, 여기서 컴퓨터는 다른 클라이언트 컴퓨터의 서빙에 전용이거나, 피어투피어식(peer-to-peer)과 같은 다른 구성을 가질 수 있고, 여기서 하나 이상의 컴퓨터는 서버 및 클라이언트로서 동시에 작용한다. 서버 컴퓨터(들)에 연결된 데이터베이스 또는 데이터베이스들은 더 많은 웹 페이지를 저장하고, 사용자 컴퓨터 사이에 컨텐츠 교환될 수 있다. 데이터베이스(들)를 포함하는 서버 컴퓨터(들)는 시스템에서 악성 공격을 저해하고 여기에 저장된 메시지 및 데이터의 통합성을 보존하기 위한 보안 조치(예를 들어, 방화벽 시스템, 보안 소켓 계층(SSL: secure socket layer), 패스워드 보호 체계, 부호 매김 등)를 사용할 수 있다.
적합한 서버 컴퓨터는 다른 특징들 중에서 서버 엔진, 웹 페이지 관리 구성성분, 컨텐츠 관리 구성성분 및 데이터베이스 관리 구성성분을 포함할 수 있다. 서버 엔진은 기본 프로세싱 및 운영 시스템 수준 작업을 수행한다. 웹 페이지 관리 구성성분은 웹 페이지의 생성 및 디스플레이 또는 라우팅을 다룬다. 사용자는 서버 컴퓨터와 연관된 URL에 의해 서버 컴퓨터에 접근할 수 있다. 컨텐츠 관리 구성성분은 본원에 기재된 실시형태에서 대부분의 기능을 다룬다. 데이터베이스 관리 구성성분은 데이터베이스와 관련한 저장 및 검색 작업, 데이터베이스에 대한 쿼리, 데이터베이스에 대한 리드 및 라이트 기능 및 비디오, 그래픽 및 오디오 신호와 같은 데이터의 저장을 포함한다.
본원에 기재된 많은 기능적 유닛은 보다 구체적으로 이의 실행 독립성을 강조하기 위해 모듈로서 표지되었다. 예를 들어, 모듈은 다양한 유형의 프로세서에 의한 실행을 위해 소프트웨어에서 실행될 수 있다. 실행 가능한 코드의 확인된 모듈은 예를 들어 객체, 절차 또는 함수로 체계화될 수 있는 예를 들어 컴퓨터 명령의 하나 이상의 물리적 블록 또는 논리적 블록을 포함할 수 있다. 컴퓨터 명령의 확인된 블록은 물리적으로 함께 배치될 필요는 없고, 논리적으로 함께 연결될 때 모듈을 포함하고 모듈에 대한 기술된 목적을 달성하는, 상이한 위치에 저장된 별개의 명령을 포함할 수 있다.
모듈은 또한 커스텀 VLSI 회로 또는 게이트 어레이, 재고품 반도체, 예컨대 로직 칩, 트랜지스터 또는 다른 별개의 성분을 포함하는 하드웨어 회로로서 실행될 수 있다. 모듈은 또한 필드 프로그래밍 가능한 게이트 어레이, 프로그래밍 가능한 어레이 로직, 프로그래밍 가능한 로직 장치 등과 같은 프로그래밍 가능한 하드웨어 장치에서 실행될 수 있다.
실행 가능한 코드의 모듈은 단일 명령 또는 많은 명령일 수 있고, 몇몇 메모리 장치에 걸쳐 상이한 프로그램들 중에서 몇몇 상이한 코드 세그먼트 위로 심지어 분포될 수 있다. 유사하게, 운영 데이터는 모듈 내에서 본원에서 확인되고 예시될 수 있고, 임의의 적합한 형태로 구현되고 임의의 적합한 유형의 데이터 구조 내에 체계화될 수 있다. 운영 데이터는 단일 데이터세트로서 수집될 수 있거나, 상이한 저장 장치를 포함하여 상이한 위치 위로 분포될 수 있고, 적어도 부분적으로 시스템 또는 네트워크에서 단순히 전자 신호로 존재할 수 있다.
핵산 혼합물의 데콘볼루션을 위한 시스템
본 발명은 핵산 혼합물을 포함하는 생물학적 샘플을 가공하고, 샘플의 오류-정정된 서열 판독(예를 들어, 듀플렉스 서열 판독, 듀플렉스 공통 서열 등), 유전자형 확인, 개별/기여 유전자형의 정량화 등을 결정하기 위해 유선 또는 무선 네트워크를 통해 시퀀싱 데이터를 서버에 전송하기 위한 시스템(예를 들어, 네트워킹 컴퓨터 시스템, 고속 자동화 시스템 등)을 추가로 포함한다.
하기 추가로 자세히 기재된 것처럼, 도 5에 예시된 실시형태와 관련하여, 혼합물에서의 핵산의 데콘볼루션을 위한 컴퓨터화 시스템은 (1) 서버(예를 들어, 원격 서버 또는 국소 저장 서버); (2) 시퀀싱 데이터를 생성하고/하거나 전송할 수 있는 복수의 사용자 전자 컴퓨팅 장치; (3) 선택적으로, 공지된 유전자형 및 연관 정보(선택적)를 갖는 데이터베이스; 및 (4) 전자 컴퓨팅 장치, 데이터베이스와 서버 간의 전자 통신을 전송하기 위한 유선 또는 무선 네트워크를 포함한다. 서버는 (a) 데콘볼루션 기록 결과, 및 유전자형 프로필(예를 들어, 미세일배체형 프로필 등)의 기록을 저장하기 위한 데이터베이스; (b) 메모리에 통신으로 연결된 하나 이상의 프로세서; 및 프로세서(들)에 대한 명령을 포함하는 하나 이상의 비일시적 컴퓨터-판독 가능한 저장 장치 또는 매체를 추가로 포함하고, 여기서 상기 프로세서는 도 6 내지 도 8에 기재된 단계 중 하나 이상을 포함하는 연산을 수행하기 위해 상기 명령을 실행하도록 구성된다.
일 실시형태에서, 본 기술내용은, 하나 이상의 프로세서에 의해 실행될 때, 혼합물에서의 하나 이상의 유전자형의 존재, 혼합물에서의 각각의 확인된 유전자형의 정량화, 누구의 유전 물질이 혼합물에 존재하는가의 데이터베이스로부터의 대상체/개체의 식별을 결정하기 위한 방법을 수행하고, 다수의 공지된 유전자형으로부터의 혼합 비율을 정량화하고, 다수의 비공지된 유전자형의 혼합물을 데콘볼루션하고, 기타를 하는 명령을 포함하는 비일시적 컴퓨터-판독 가능한 저장 매체를 추가로 포함한다. 특정 실시형태에서, 상기 방법은 도 6 내지 도 8에 기재된 단계 중 하나 이상을 포함할 수 있다.
본 기술내용의 추가의 양태는 혼합물에서의 하나 이상의 유전자형의 존재, 혼합물에서의 각각의 확인된 유전자형의 정량화, 누구의 유전 물질이 혼합물에 존재하는가의 데이터베이스로부터의 대상체/개체의 식별을 결정하고, 다수의 공지된 유전자형으로부터의 혼합 비율을 정량화하고, 다수의 비공지된 유전자형의 혼합물을 데콘볼루션하고, 기타를 하기 위한 컴퓨터화 방법에 관한 것이다. 특정 실시형태에서, 상기 방법은 도 6 내지 도 8에 기재된 단계 중 하나 이상을 포함할 수 있다.
5는 생물학적 샘플로부터 핵산 혼합물을 데콘볼루션하기 위해 본원에 개시된 방법과 사용하기 위한 컴퓨터 프로그램 제품(550)이 설치된 컴퓨터 시스템(500)의 블록 다이어그램이다. 도 5가 다양한 컴퓨팅 시스템 구성성분을 예시하지만, 상기 기재된 것과 같은 당업자에게 공지된 다른 또는 상이한 구성성분이 본 개시내용의 양태가 실행될 수 있는 적합한 컴퓨팅 환경을 제공할 수 있다고 고려된다. 도 6은 본 기술내용의 실시형태에 따라 듀플렉스 시퀀싱 공통 서열 데이터를 제공하기 위한 루틴을 예시하는 흐름 다이어그램이다. 도 7 내지 도 8은 핵산 혼합물로부터 유전자형을 확인하고/하거나 정량화하기 위한 다양한 루틴을 예시하는 흐름 다이어그램이다. 본 기술내용의 양태에 따르면, 도 7 내지 도 8과 관련하여 기재된 방법은 예를 들어 샘플 내에 표시된 독립적 생물학적 소스의 수, 및 생물학적 혼합물에 존재하는 각각의 생물학적 소스의 정량화, 및 샘플 데이터와 공지된 유전자형의 데이터 세트(개별 대상체의 유전자형을 포함하는 데이터베이스를 포함)의 비교로부터 도출된 정보를 포함하는 샘플에 존재하는 유전자형을 포함하는 샘플 데이터를 제공할 수 있다.
5에 예시된 것처럼, 컴퓨터 시스템(500)은 복수의 사용자 컴퓨팅 장치(502, 504); 유선 또는 무선 네트워크(510) 및 미세일배체형을 분석하고 핵산 혼합물을 개별 유전자형으로 데콘볼루션하기 위한 프로세서를 포함하는 서버("DupSeq™" 서버)(540)를 포함할 수 있다. 실시형태에서, 사용자 컴퓨팅 장치(502, 504)는 시퀀싱 데이터를 생성하고/하거나 전송하도록 사용될 수 있다. 일 실시형태에서, 컴퓨팅 장치(502, 504)의 사용자는 유전 물질의 하나 초과의 생물학적 소스를 포함하는 핵산 혼합물의 데콘볼루션을 위한 생물학적 샘플의 듀플렉스 시퀀싱 방법 단계와 같은 본 기술내용의 다른 양태를 수행하기 위한 것일 수 있다. 일례에서, 컴퓨팅 장치(502, 504)의 사용자는 생물학적 샘플을 질의하기 위해, 본 기술내용의 실시형태에 따른, 시약 및/또는 어댑터를 포함하는 키트(1, 2)에 의한 소정의 듀플렉스 시퀀싱 방법 단계를 함유한다.
예시된 것처럼, 각각의 사용자 컴퓨팅 장치(502, 504)는 적어도 하나의 중앙 처리 장치(506), 메모리(507) 및 사용자 및 네트워크 인터페이스(508)를 포함한다. 일 실시형태에서, 사용자 장치(502, 504)는 데스크탑, 랩탑 또는 태블릿 컴퓨터를 포함한다.
2개의 사용자 컴퓨팅 장치(502, 504)가 도시되어 도시되어 있지만, 임의의 수의 사용자 컴퓨팅 장치가 시스템(500)의 다른 구성성분에 포함되거나 연결될 수 있음이 고려된다. 추가로, 컴퓨팅 장치(502, 504)는 또한 샘플을 증폭시키고 시퀀싱하기 위해 사용자(1) 및 사용자(2)에 의해 사용되는 복수의 장치 및 소프트웨어을 대표할 수 있다. 예를 들어, 컴퓨팅 장치는 시퀀싱 기계(예를 들어, Illumina HiSeq™, Ion Torrent™ PGM, ABI SOLiD™ 서열분석기, PacBio RS, Helico Heliscope™ 등), 실시간 PCR 기계(예를 들어, ABI 7900, Fluidigm BioMark™ 등), 마이크로어레이 기구 등일 수 있다.
상기 기재된 구성성분 이외에, 시스템(500)은 유전자형 프로필 및 관련 정보를 저장하기 위한 데이터베이스(530)를 추가로 포함할 수 있다. 예를 들어, 서버(540)에 의해 접근 가능할 수 있는 데이터베이스(530)는 미세일배체형, 공지된 대상체의 유전자형 및 출발 재료(예를 들어, 세포의 혼합물)의 혼합 비율의 기록 또는 수집을 포함할 수 있다. 특정 예에서, 데이터베이스(530)는 유전자형 프로필(532)을 포함하는 제3자 데이터베이스일 수 있다. 예를 들어, 공지된 개체의 유전자형을 포함하는 다양한 법의학적 데이터베이스는 특정 분야에 대해 질의될 수 있다. 다른 실시형태에서, 데이터베이스는 서버(540)로부터 별개로 호스팅된 자립형 데이터베이스(530)(개인용 또는 비개인용)일 수 있거나, 경험적으로-도출된 유전자형 프로필(572)을 포함하는 데이터베이스(570)와 같은 데이터베이스는 서버(540)에 호스팅될 수 있다. 일부 실시형태에서, 시스템(500)이 새로운 유전자형 프로필을 생성하도록 사용되면서, 시스템(500)의 사용으로부터 생성된 데이터 및 관련 방법(예를 들어, 본원에서 그리고 예를 들어 도 6 내지 도 8에 기재된 방법)은 추가의 유전자형 프로필(532, 572)이 미래의 비교 활동에 생성될 수 있도록 데이터베이스(530 및/또는 570)에 업데이트될 수 있다.
서버(540)는 네트워크(510)를 통해 사용자 컴퓨팅 장치(502, 504)로부터 시퀀싱 데이터(예를 들어, 원시 시퀀싱 파일) 및 관련된 정보를 수신하고 컴퓨팅하고 분석하도록 구성될 수 있다. 샘플-특이적 원시 시퀀싱 데이터는 장치(502, 504)에 설치되거나 네트워크(510)를 통해 원격 서버(540)로부터 접근 가능한 컴퓨터 프로그램 제품/모듈(서열 모듈(505))을 사용하여, 또는 당해 분야에서 잘 알려진 다른 시퀀싱 소프트웨어를 사용하여 근거리에서 컴퓨팅될 수 있다. 이후, 원시 서열 데이터는 네트워크(510)를 통해 원격 서버(540)로 전송될 수 있고, 사용자 결과(574)는 데이터베이스(570)에 저장될 수 있다. 서버(540)는 또한 데이터베이스(570)로부터 원시 시퀀싱 데이터를 수신하도록 구성되고, 예를 들어 본원에 개시된 듀플렉스 시퀀싱 기법을 사용하여 오류 보정된 이중-가닥 서열 리드를 컴퓨터 사용하여 생성하도록 구성된 프로그램 제품/모듈 "DS 모듈"(512)을 포함한다. 서버(540)에 DS 모듈(512)이 도시되어 있지만, 당업자는 DS 모듈(512)이 대안적으로 장치(502, 504)에서 조작되어 호스팅되거나 다른 원격 서버(비도시)에서 호스팅될 수 있다는 것을 인식할 것이다.
원격 서버(540)는 적어도 하나의 중앙 처리 장치(CPU: central processing unit)(560), 사용자 및 네트워크 인터페이스(562)(또는 인터페이스가 서버에 연결된 서버-전용 컴퓨팅 장치), 상기에 기재된 것과 같은 데이터베이스(570)와 알려지거나 알려지지 않은 생물학적 소스의 유전자형 프로파일(572)을 저장하기 위한 복수의 컴퓨터 파일/기록, 및 시험된 샘플에 대한 결과(예를 들어, 원시 시퀀싱 데이터, 듀플렉스 시퀀싱 데이터, 미세일배체형 분석, 유전자형 분석 등)(574)를 저장하기 위한 파일/기록을 포함할 수 있다. 서버(540)는 본 기술내용의 양태에 따라 유전자형 컴퓨터 프로그램 제품(Genotype Computer Program Product)(유전자형 모듈)(550)이 저장되는 저장된 컴퓨터 메모리(511)를 추가로 포함한다.
컴퓨터 프로그램 제품/모듈(550)은, 컴퓨터(예를 들어, 서버(540))에서 실행될 때, 미세일배체형을 검출하고 식별하고, 혼합물을 개별 유전자형으로 분해하하고/하거나 이를 정량화하기 위한 본원에 개시된 방법의 단계를 수행하는 비일시적 컴퓨터 판독 가능한 매체에서 구현된다. 본 개시내용의 다른 양태는 프로세서가 유전자형 분석(예 : 미세일배체형을 계산, 식별된 미세일배체형을 정량화, 혼합물을 기여하는 생물학적 소스로 분해, 유전자형 비교 보고서 등)을 수행하게 하기 위한 컴퓨터 판독 가능한 프로그램 코드 또는 명령이 구현되는 비일시적 컴퓨터 사용 가능 매체를 포함하는 컴퓨터 프로그램 제품/모듈(550)을 포함한다. 이 컴퓨터 프로그램 명령은 기계를 제조하기 위해 컴퓨터 또는 다른 프로그래밍 가능한 장치에 로딩될 수 있어서, 컴퓨터 또는 다른 프로그래밍 가능한 장치에서 실행하는 명령은 본원에 기재된 기능 또는 단계를 실행하기 위한 수단을 생성한다. 이 컴퓨터 프로그램 명령은 또한 컴퓨터 또는 다른 프로그래밍 가능한 장치가 특정 방식으로 작용하도록 지시할 수 있는 컴퓨터 판독 가능한 메모리 또는 매체에 저장될 수 있어서, 컴퓨터 판독 가능한 메모리 또는 매체에 저장된 명령은 분석을 실행하는 지시 수단을 포함하는 제조 물품을 제조한다. 컴퓨터 프로그램 명령은 또한 일련의 연산 단계가 컴퓨터 또는 다른 프로그래밍 가능한 장치에서 수행되게 하여 컴퓨터 실행된 프로세스를 생성시키는 컴퓨터 또는 다른 프로그래밍 가능한 장치에 로딩될 수 있어서, 컴퓨터 또는 다른 프로그래밍 가능한 장치에서 실행하는 명령은 상기에 기재된 기능 또는 단계를 실행하기 위한 단계를 제공한다.
더욱이, 컴퓨터 프로그램 제품/모듈(550)은 임의의 적합한 언어 및/또는 브라우저에서 실행될 수 있다. 예를 들어, 이것은 바람직하게는 Visual Basic, SmallTalk, C++ 등과 같은 객체-지향 고수준 프로그래밍 언어를 사용하여 Python, Java, Scala, C 언어로 실행될 수 있다. 어플리케이션은 Windows™ 98, Windows™ 2000, Windows™ NT 등을 포함하는 Microsoft Windows™ 환경과 같은 환경에 맞도록 쓰여질 수 있다. 또한, 어플리케이션은 Macintosh™, SUN™, UNIX 또는 LINUX 환경에 대해 또한 쓰여질 수 있다. 또한, 기능적 단계는 범용 또는 플랫폼-독립적 프로그래밍 언어를 사용하여 또한 실행될 수 있다. 이러한 멀티-플랫폼 프로그래밍 언어의 예는 하이퍼텍스트 마크업 언어(HTML: hypertext markup language), JAVA™, JavaScript™, 플래시 프로그래밍 언어, 공통 게이트웨이 인터페이스/구조화 질의 언어(CGI/SQL: common gateway interface/structured query language), 실용적인 추출 및 보고 언어(PERL: practical extraction report language), AppleScript™ 및 다른 시스템 스크립트 언어, 프로그래밍 언어/구조화 질의 언어(PL/SQL: programming language/structured query language) 등을 포함하지만, 이들로 제한되지는 않는다. HotJava™, Microsoft™ Explorer™ 또는 Firefox™과 같은 Java™- 또는 JavaScript™-지원 브라우저를 사용할 수 있다. 액티브 컨텐츠 웹 페이지가 사용될 때, 이것은 Java™ 애플릿 또는 ActiveX™ 컨트롤 또는 다른 액티브 컨텐츠 기술을 포함할 수 있다.
이 시스템은 다수의 루틴을 호출한다. 일부 루틴이 본원에 기재되어 있지만, 당업자는 이 시스템이 수행하는 다른 루틴을 확인할 수 있다. 게다가, 본원에 기재된 루틴은 다양한 방식으로 변경될 수 있다. 일례로서, 예시된 로직의 순서가 재배열될 수 있고, 하위단계는 병렬로 수행될 수 있고, 예시된 로직은 생략될 수 있고, 다른 로직이 포함될 수 있고, 기타 등등이다.
6은 샘플(예를 들어, 생물학적 혼합물로부터의 샘플)에서 이중-가닥 핵산 분자에 대한 듀플렉스 시퀀싱 데이터를 제공하기 위한 루틴(600)을 예시하는 흐름 다이어그램이다. 루틴 (600)은 컴퓨터 네트워크에 연결된 클라이언트 컴퓨터 또는 서버 컴퓨터와 같은 컴퓨팅 장치에 의해 호출될 수 있다. 일 실시형태에서, 컴퓨팅 장치는 서열 데이터 생성장치 및/또는 서열 모듈을 포함한다. 일례로서, 컴퓨팅 장치는 운영자가 컴퓨팅 장치와 통신하는 사용자 인터페이스를 연동시킨 후 루틴 (600)을 호출할 수 있다.
루틴(600)은 블록 (602)에서 시작하고, 서열 모듈은 사용자 컴퓨팅 장치로부터 원시 서열 데이터를 수신(블록 604)하고, 샘플에서 복수의 핵산 분자로부터 도출된 복수의 원시 서열 리드를 포함하는 샘플-특정 데이터세트를 생성(블록 606)한다. 일부 실시형태에서, 서버는 차후의 프로세싱을 위해 데이터베이스에서 샘플-특정 데이터세트를 저장할 수 있다. 다음에, DS 모듈은 샘플-특정 데이터세트에서 원시 서열 데이터로부터 듀플렉스 공통 시퀀싱(Duplex Consensus Sequencing) 데이터를 생성하기 위한 요청을 수신(블록 608)한다. DS 모듈은 (예를 들어, SMI 서열에 기초하여) 원래의 이중-가닥 핵산 분자를 나타내는 패밀로부터 서열 리드를 그룹화하고, 개별 가닥으로부터의 대표적인 서열을 서로 비교(블록 610)한다. 일 실시형태에서, 대표적인 서열은 각각의 원래의 핵산 분자로부터의 하나 또는 하나 초과의 서열 리드일 수 있다. 다른 실시형태에서, 대표적인 서열은 대표적인 가닥 내의 정렬 및 오류-보정으로부터 생성된 단일-가닥 공통 서열(SSCS)일 수 있다. 이러한 실시형태에서, 제1 가닥으로부터의 SSCS는 제2 가닥으로부터의 SSCS와 비교될 수 있다.
블록 (612)에서, DS 모듈은 비교된 대표적인 가닥들 사이에 상보성의 뉴클레오타이드 위치를 확인한다. 예를 들어, DS 모듈은 뉴클레오타이드 염기 콜이 동의하는 비교된(예를 들어, 정렬된) 서열 리드를 따라 뉴클레오타이드 위치를 확인한다. 추가적으로, DS 모듈은 비교된 대표적인 가닥들 사이에 비상보성의 위치를 확인(블록 614)한다. 따라서, DS 모듈은 뉴클레오타이드 염기 콜이 동의하지 않는 비교된(예를 들어, 정렬된) 서열 리드를 따라 뉴클레오타이드 위치를 확인할 수 있다.
다음에, DS 모듈은 샘플에서 이중-가닥 핵산 분자에 대한 듀플렉스 시퀀싱 데이터를 제공(블록 616)할 수 있다. 이러한 데이터는 각각의 처리된 서열 리드에 대한 듀플렉스 공통 서열의 형태일 수 있다. 듀플렉스 공통 서열은 일 실시형태에서 원래의 핵산 분자의 각각의 가닥으로부터 대표적인 서열이 동의하는 뉴클레오타이드 위치만을 포함할 수 있다. 따라서, 일 실시형태에서, 비동의의 위치는 제거되거나 그렇지 않으면 무시될 수 있어서, 듀플렉스 공통 서열은 오류-보정된 고정확성 서열 리드이다. 다른 실시형태에서, 듀플렉스 시퀀싱 데이터는 (예를 들어, DNA 손상이 평가될 수 있는 경우에) 비동의의 뉴클레오타이드 위치가 추가로 분석될 수 있도록 이러한 위치에서 리포팅 정보를 포함할 수 있다. 이후, 루틴 (600)은 블록 (618)에 계속 이어질 수 있고, 여기서 이것은 종료한다.
7은 공지된 소스 유전자형 샘플을 결정하기 위해 핵산 혼합물에 존재하는 미세일배체형을 검출하고 확인하고 정량화하기 위한 루틴(700)을 예시하는 흐름 다이어그램이다. 이 루틴은 도 5의 컴퓨팅 장치에 의해 호출될 수 있다. 루틴 (700)은 블록 (702)에서 시작하고, 유전자형 모듈은 개별 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인(블록 704)하고, 각각의 공지된 소스 유전자형으로부터 공여된 각각의 대립유전자의 총 계수치를 합산(블록 706)하기 위해 (예를 들어, 블록 616 후에) 도 6으로부터의 듀플렉스 시퀀싱 데이터를 분석한다. 다음에, 유전자형 모듈은 예를 들어 회귀-기반 모델을 이용하여 혼합물에 존재하는 각각의 유전자형의 혼합 비율을 계산(블록 708)한다. 그러므로, 미세일배체형 분석은 원래의 생물학적 소스에 관한 정보 및 핵산 혼합물에 기여하는 각각의 소스의 상대 비율을 제공할 수 있다.
유전자형 모듈은 또한 선택적으로 생물학적 소스 혼합물(예를 들어, 배양물에서 세포의 혼합물)에 대한 선택적 압박을 평가하기 위해 (예를 들어, 함께 성장한 상이한 생물학적 소스로부터의 세포의 경우에) 각각의 유전자형의 혼합 비율을 원래의 혼합 비율과 비교(블록 710)할 수 있다. 다음에, 유전자형 모듈은 데이터베이스에서 샘플-특정 데이터세트에 저장될 수 있는 유전자형 데이터를 제공(블록 712)할 수 있다. 이후, 루틴(700)은 블록 (714)에서 계속 이어질 수 있고, 여기서 이것은 종료한다. 도 9는 루틴(2100)을 이용하여 결정될 수 있고, 데이터베이스에 저장될 수 있는 유전자형 데이터(예를 들어, 모든 미세일배체형, 공지된 소스 유전자형, 혼합 비율에 대한 계수치)의 일례를 예시한다.
8은 샘플에서의 비공지된 유전자형의 핵산 혼합물을 데콘볼루션하기 위한 루틴(800)을 예시하는 흐름 다이어그램이다. 이 루틴은 도 5의 컴퓨팅 장치에 의해 호출될 수 있다. 루틴(800)은 블록(802)에서 시작하고, 유전자형 모듈은 개별 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인(블록 804)하기 위해 (예를 들어, 블록 616 후에) 도 6으로부터의 듀플렉스 시퀀싱 데이터를 분석한다. 일부 실시형태에서, SNP 대립유전자 조합은 예를 들어 롱-리드 시퀀싱 기술이 이용될 때 확인될 수 있다. 다음에, 유전자형 모듈은 각각의 유전자 유전좌위에 존재하는 모든 가능한 유전자형에 대해 모든 가능한 혼합 비율을 평가(블록 806)한다. 이후, 유전자형 모듈은, 각각의 유전자 유전좌위에 대해, 서열 데이터(예를 들어, SNP 데이터, 미세일배체형 데이터)에 적절하게 일치하는 모든 가능한 유전자형 및 평가된 모든 가능한 혼합 비율의 목록을 계산(블록 808)한다. 그러므로, 미세일배체형/SNP 분석은 원래의 생물학적 소스에 관한 유전 정보, 존재하는 원래의 생물학적 소스의 수에 관한 정보 및 핵산 혼합물에 기여하는 각각의 소스의 상대 비율을 제공할 수 있다.
유전자형 모듈은 또한 선택적으로 (예를 들어, 가해자, 희생자 또는 실종자를 확인하기 위한 것과 같은 법의학적 사례에서) 복잡한 핵산 혼합물에 대한 특정 생물학적 소스 기여자를 확인하기 위해 비공지된 소스로부터의 유전자형 프로필을 공지된 소스의 유전자형 프로필을 포함하는 데이터베이스와 비교(블록 810)할 수 있다. 일부 실시형태에서, 유전자형 모듈은 또한 선택적으로 하나 이상의 공지된 유전자형이 혼합물에 포함되면 혼합물 데이터가 적절히 일치될 수 있는지를 평가함으로써 혼합된 샘플 내의 데이터베이스로부터 유전자형의 존재를 결정할 수 있다.
다음에, 유전자형 모듈은 데이터베이스에서 샘플-특정 데이터세트에 저장될 수 있는 유전자형 데이터를 제공(블록 812)할 수 있다. 이후, 루틴(800)은 블록(814)에서 계속 이어질 수 있고, 여기서 이것은 종료한다. 도 10은 루틴(2100)을 이용하여 결정될 수 있고 데이터베이스에 저장될 수 잇는 유전자형 데이터(예를 들어, 미세일배체형, 가능한 유전자형 프로필, 가능한 혼합 비율의 그리드로부터의 계수치)의 일례를 예시한다.
V. 실험 실시예
하기 부문은 듀플렉스 시퀀싱 및 관련 시약을 사용하여 핵산 혼합물을 해상하기 위한 방법의 여러 예시적인 예를 제공한다.
실시예 1
제대혈 팽창: 동종이계 이식에 사용하기 위한 CD34+ 제대혈 줄기 세포의 팽창. 다수의 공여자(예를 들어, 8명의 공여자)로부터의 제대혈 샘플은 풀링되고, 배양물에서 함께 노치 리간드-팽창되었다. 이 실시예에서, 듀플렉스 시퀀싱은 각각의 공여자로부터의 유입된 CD34+ 줄기 세포의 상대 비율이 팽창 과정 동안 유지되는지 평가하기 위해 사용되었다.
이 실시예에서, 8명의 개별 공여자로부터의 제대혈은 CD34+ 농후화되고 유동 정량화되었다. 도 11에 예시된 것처럼, 각각의 제대혈 샘플의 분취액은 DNA-추출되고, 개별적으로 시퀀싱되었다. 4가지 맹검 시험 혼합물은 준비되고(도 11의 왼쪽 측), 본원 및 미국 특허 9,752,188호에 이전에 기재된 바와 같은 듀플렉스 시퀀싱 프로토콜을 시용하여 시퀀싱되었다. 시퀀싱 후에, 혼합물은 분석되고 데콘볼루션되었다.
11의 오른쪽 측에 도시된 이 실시예의 제2 양태에서, 원래의 제대혈 샘플로부터의 생존가능 세포는 풀링되고(각각 가변적인 CD34+ 계수치), 노치 리간드-팽창되었다. 팽창 후에, DNA는 풀링된 세포로부터 추출되고 시퀀싱되었다.
시퀀싱 결과는 시퀀싱된 혼합물이 4가지 맹검 시험 혼합물의 예상된 혼합물을 재현하는지를 결정하기 위해(도 11의 왼쪽 측), 그리고 팽창 후 각각의 제대혈 샘플의 (각각의 고유한 유전자형의 대표적인 DNA 분량에 기초한) 상대 백분율이 원래의 유입 CD34+ 계수치를 반영하는지를 결정하기 위해 후속하여 분석되었다.
듀플렉스 시퀀싱은 전체 인간 게놈에 걸쳐 산재된 45개의 고 MAF SNP 부위 및 16개의 저 MAF SNP 부위를 유전자형분석하기 위해 프로브의 패널을 이용하여 수행되었다. 도 12에 예시된 것처럼, 이 실시예에 사용된 SNP 패널의 전체 분포를 예시한다.
이 실시예에서 생성된 혼합물 내에, 가장 낮은 변이체 대립유전자 빈도(VAF) SNP가 0.6%라는 것이 공지되어 있다. 그러므로, 시퀀싱은 0.6% VAF에서 동형접합성 개체로부터 대략 18건의 SNP 사건 또는 이형접합성 개체로부터 대략 9건의 SNP 사건을 결정할 가능성이 있도록 대략 3,000x 깊이로 수행되었다. 시퀀싱은 듀플렉스 시퀀싱 방법을 이용하여 대략 3000x 고유 분자 깊이로 4개의 제대혈 혼합물, 제대혈 팽창 혼합물 및 각각의 8명의 개별 공여자로부터 제대혈 샘플의 각각으로부터의 250 ng의 DNA에서 수행되었다. 모든 시퀀싱 및 유전자형 결정은 맹검으로 수행되었다. 도 13은 각각의 샘플에 대한 온-타깃 듀플렉스 시퀀싱 깊이를 보여주는 막대 그래프이다.
분석은 실험 샘플과 동시에 준비된 DNA 표준에서 교차-오염의 표시를 위해 59개의 SNP 부위의 검사를 포함하였다. (시퀀싱된 222,025개의 다형성 부위 염기 쌍 중에서) 오염 분자가 발견되지 않았다. 59개의 SNP 부위는 8개의 제대혈 샘플에서 검사되었고, 제대혈 샘플에서 인간 DNA 교차-오염의 증거가 관찰되지 않았다.
14는 공여자 유전자형을 구별하기 위새 하용된 11개의 특이적 SNP 대립유전자를 확인하는 패널을 보여준다. 이들 SNP의 10개는 도 12에 도시된 저-MAF 하위집단 내에 있었다. 도 14에 도시된 개별 공여자 샘플의 분석은 9개의 SNP 변이체가 개별 샘플에 고유하고, 2개의 추가의 SNP 부위가 공여자 샘플의 오직 2개에 존재한다는 것을 보여준다. 공여자로부터의 원래의 제대혈 샘플의 5개는 하나 이상의 특이적 대립유전자에 의해 고유하게 확인되었고, 3개의 남은 제대혈 샘플은 공유된 더 높은 빈도의 SNP의 간섭에 의해 확인될 수 있었다.
15a 내지 도 15d를 참조하면, 듀플렉스 시퀀싱 방법은 각각의 혼합물에서 각각의 개별 제대혈 소스를 검출하기 위한 완전한 민감도 및 특이성을 생성시켰다. 예를 들어, 도 15d를 참조하면, 제대혈 혼합물(즉, 제대혈 혼합물 #6) 중 하나는 2개의 개별 제대혈 샘플(#2, #7)을 함유하여서, 전체 혼합물의 각각 1%를 나타낸다. 이 제대혈 샘플은 듀플렉스 시퀀싱 방법론을 이용하여 전체 표시의 1%에서 검출되고 정확히 정량화되었다.
15a 내지 도 15d를 참조하면, 예상된 백분율로부터 상당한 양의 변이가 있음에 주목한다(예를 들어, Nanodrop 분광기는 혼합물을 제조하기 위해 사용된 각각의 샘플의 양의 정량화를 측정하였다). 이론에 의해 구속되지 않으면서, 듀플렉스 시퀀싱 접근법과 Nanodrop 정량화 접근법 사이에 도 15a 내지 도 15b에 도시된 DNA 정량화의 도시된 불일치가 Nanodrop 접근법(예를 들어, 비파괴된 RNA의 존재 등)에 기인한 혼재하는 요인으로 인한다고 생각된다. 이것은 Nanodrop 및 Qubit 형광광도계 측정(도 15e 참조) 둘 다에 의해 모든 샘플(예를 들어, 개별 제대혈 샘플, 팽창된 세포로부터 및 시험 혼합물로부터 추출된 DNA)의 정량화를 살펴볼 때 입증되었다. 도시된 것처럼, Nanodrop 측정(암회색 막대)은 Qubit(연회색 막대)와 비교된 것처럼 샘플 정량화 측정을 과표현하는 것으로 나타났다. 듀플렉스 시퀀싱 정량화 접근법과 Nanodrop 정량화 접근법 사이의 정량화 측정 불일치의 추가의 증거로서, 도 16은 각각의 혼합물 내의 각각의 개별 제대혈 샘플에 대한 정량화의 배수 차이를 예시한다. 도시된 것처럼, 이들 샘플의 각각에 대한 배수 차이는 유사하여서, 혼합물의 생성 전의 정량화 오차가 도 15a 내지 도 15d에서의 불일치 결과를 설명한다는 것을 추가로 제시한다. 무관하게, 혼합물을 생성하기 위해 사용된 제대혈 샘플의 개별 소스, 및 혼합물에 대한 이들의 대표적인 기여가 정확히 확인되었다(도 15a 내지 도 15d).
17은 각각의 개별 제대혈 샘플에 대해 (듀플렉스 시퀀싱에 의해 결정된 바와 같은) 유세포분석법에 의해 결정된 팽창 전의 세포의 CD34+ 분획 및 팽창 후의 세포의 CD34+ 분획을 도시하는 막대 그래프이다. 도시된 것처럼, 팽창전 CD34+ 세포 계수치와 팽창후 세포 계수치 사이에 강한 상관관계가 있다. 이 결과는 이 팽창에 존재하는 각각의 제대혈 샘플로부터의 세포가 비례하여 증식한다는 것을 제시한다. 추가로, 이 데이터는 증식하는 세포가 CD34+ 세포이고 또한 노치 팽창을 겪는 다른 분화된 세포가 아니라는 것을 보여준다.
이 실시예에서, 다형성 마커를 사용하여 생물학적 혼합물(예를 들어, 8명의 개체로부터의 제대혈 샘플의 혼합물)을 데콘볼루션하기 위해 듀플렉스 시퀀싱 방법론이 이용될 수 있는 것으로 입증되었다. 상당히 보통의 시퀀싱 깊이(예를 들어, 3000x)를 이용하여, 듀플렉스 시퀀싱 방법론은 시험된 각각의 합성 혼합물에서 전체 민감도 및 특이성으로 각각의 제대혈 샘플을 신뢰성 있게 검출할 수 있었다. 이론에 의해 구속되지 않으면서, 시험된 합성 혼합물에서의 각각의 제대혈 샘플의 상대 풍부도의 불일치가 혼합물을 제조할 때 DNA 정량화의 오류의 결과이고, 듀플렉스 시퀀싱 과정의 결핍이 아니라고 생각된다.
이 실시예에서, 팽창후 제대혈 혼합물을 분석하기 위해 사용된 듀플렉스 시퀀싱 방법론이 노치-팽창 전에 각각의 제대혈 샘플로부터 CD34+ 세포의 상대 백분율과 매우 유사한 결과를 생성시켰다는 것이 추가로 입증되었는데, 이는 적어도 본 실험에서 각각의 제대혈 샘플로부터의 CD34+ 세포가 서로에 비교적 비례하여 증식하고, 각각의 상대 분획이 원래의 혼합물과 전체의 동일한 분획에서 나타난다는 것을 제시한다.
이 실시예에서, 듀플렉스 시퀀싱은 핵산 재료의 혼합물을 데콘볼루션하고 원래의 DNA 소스의 존재 및 풍부도를 확인하기 위한 성공적인 방법인 것으로 나타난다. 따라서, 듀플렉스 시퀀싱 방법론은 치료학적 인간 세포의 다중-개별 배양의 풍부도를 비용 효과적으로 평가하는 신속하고 정량적이고 자동화 가능한 방식을 제공한다.
각각의 제대혈에 결정된 SNP 유전자형의 패턴에 기초하여, 이 접근법은 SNP 단상형으로부터 예상된 HLA 단상형의 범위에서 좁힐 수 있다. 예를 들어, 가계 확률의 예측(예를 들어, 마오리인 대 이뉴잇족 대 북유럽 가계)이 평가될 수 있다.
일반적으로, 이 실시예는 8개의 소스의 해상을 나타내지만, 패널은 어떤 사양이 필요하든지 허용하도록 설계될 수 있다. 사전에 공지된 유전자형이 있으면 듀플렉스 시퀀싱이 비용 효과적인 패널로 수십개의 성분에 다가갈 수 있다고 예상된다. 다른 실시형태에서, 선험적 지식 없는 다수의 소스의 데콘볼루션이 본원에 기재된 바와 같은 듀플렉스 시퀀싱 접근법에 의해 또한 가능하다.
이 실시예에서, 특별히 희귀 사건이 없으므로 3000x 고유 분자 깊이의 표적화된 깊이가 선택되었다. 희귀 사건이 공지되거나 의심되는 실시예에서, 시퀀싱 깊이는 증가할 수 있다(예를 들어, 약 10,000배, 15,000배, 20,000배, 25,000배, 30,000배, 35,000배, 40,000배, 45,000배, 50,000배, 75,000배, 100,000배, 200,000배, 500,000배, 1,000,000배 또는 초과). 변이체는 비율(서열분석된 전체 SNP BP마다 변이체 SNP)로서 검출될 수 있고, 충분히 긴 깊이는 특정한 통계 신뢰도를 달성하도록 표적화된 최소를 넘어 달성한다.
상이한 세포 구획으로 분류하고, 제대혈 혼합물에서 키메라현상을 정량화하는 능력은 다른 제대혈에 대한 하나의 제대혈이 다른 계통에 대한 하나의 계통으로 다르게 분화하는지에 대한 정보를 제공할 수 있다. 혈장에서 무세포 DNA의 상대 키메라현상을 평가하는 능력은 듀플렉스 시퀀싱 방법이 짧은 시간 규모(cfDNA의 반감기는 혈장에서 약 2.5시간임)에서 다른 제대혈에 대해 하나의 제대혈의 상대 다이-오프(die-off)를 추적하게 한다. 유사하게, 무세포-DNA에 적용된 이러한 방법은, 이식 거부에 의해 발생할 수 있는 것처럼, 신장, 심장 또는 폐와 같은 고형 장기 이식에 의한 것과 같과 같이, 이식된 게놈으로부터 상대 DNA 비율을 평가할 수 있다.
실시예 2
혼합물 데콘볼루션을 위한 미세일배체형 게놈 부위의 듀플렉스 시퀀싱. 미세일배체형은 3개 이상의 대립유전자 조합(예를 들어, 약 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 또는 초과의 구별되는 대립유전자)으로 서로 비교적 짧은 거리 내에 2개 이상의 게놈 DNA SNP의 유전좌위(예를 들어, 200개 미만의 뉴클레오타이드, 250개 미만의 뉴클레오타이드, 300개 미만의 뉴클레오타이드, 350개 미만의 뉴클레오타이드 또는 초과)이다. 소정의 미세일배체형은 소정의 혼합물에 대해 겨우 0뿐인 "정보제공" 개별 다형성(즉, 상이한 개체로부터의 혼합물에서의 DNA 분자 사이의 미세일배체형 사이의 차이가 없음), 또는 여러 개별 다형성(예를 들어, 적어도 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 11. 12, 15, 20, 24, 또는 초과)을 가질 수 있다. 도 18a에 도시된 것처럼, 확인된 유용한 미세일배체형의 특정 패널에서의 대부분의 미세일배체형은 200개 미만의 뉴클레오타이드 길이이다. 도 18b는 세계 주위의 다양한 집단에서의 하나의 미세일배체형에 대한 대립유전자 빈도의 예이다.
이 실시예에서, DNA 혼합물은 예를 들어 확인의 목적을 위해 하나 이상의 원래의 DNA 소스로 혼합물을 데콘볼루션하기 위해 그리고 각각의 소스의 풍부도를 결정하기 위해 미세일배체형 영역에 대해 프로빙되고 시퀀싱되었다. 미세일배체형 마커를 평가하기 위한 프로브 패널을 사용함으로써, 소스 확인을 위해 시퀀싱 데이터에서 더 높은 검증력을 생성하는 프로브/시퀀싱 판독마다 더 많은 대립유전자가 평가될 수 있다. 특정 예에서, 미세일배체형을 함유하는 약 100개의 게놈 영역을 바라보는 프로브 패널은 소스(들)를 확인하기 위해 약 300개의 대립유전자의 고유한 조합을 이용할 수 있다. 프로브 패널은 듀플렉스 시퀀싱을 이용하여 쌍별 말단 시퀀싱 또는 단일 말단 시퀀싱을 수행하도록 이용될 수 있다.
공여자 유전자형이 공지된 경우의 실시예에서, 개인 대립유전자는 특정 공여자를 확인하기 위해 사용될 수 있다. 예를 들어, 대립유전자가 특정 공여자에 고유하면, 공여자의 비율은 소수 대립유전자를 함유하는 그 유전좌위에서 시퀀싱 판독의 비율이다. 개인 대립유전자의 오직 하나의 판독이 공여자를 확인하는 데 필요하므로, 이 방법론은 저풍부도 샘플을 평가하기 위해 이용될 수 있다.
다른 예에서, 듀플렉스 시퀀싱 및 후속하는 시퀀싱 데이터의 데콘볼루션은 유전자형(예를 들어, 소스) 공여자를 확인하기 위해 이용될 수 있다. 예를 들어, 프로빙된 충분한 대립유전자를 고려하여, 대립유전자의 조합은 공여자(들)를 확인하고 정량화하기 위해 고유한 유전자형 지문(예를 들어, 유전자 서명)을 생성하도록 이용될 수 있다.
모의된 실시예에서, 9개의 유전자형은 여러 풍부한 유전자형과 혼합된 여러 희귀 유전자형과의 혼합물로 있다. 266개의 구별되는 대립유전자를 나타내는 100개의 미세일배체형을 시퀀싱하기 위한 프로브 패널은 대략 3000배의 깊이에서 DNA 혼합물을 시퀀싱하도록 이용될 것이다. 이 가설적 실시예에서, 혼합물 예측을 이용하여, 모의된 미세일배체형으로부터 생긴 개인 대립유전자는 각각의 공여자를 검출하였다. 이 모의에서, 개인 대립유전자의 사용을 제거한 후에, 데이터는 여전히 모든 그러나 3개의 최저-풍부도 공여자(모의된 혼합물의 0.03%, 0.3% 및 1.3%)를 결정적으로 검출하도록 이용될 수 있다. 듀플렉스 시퀀싱 데이터의 모의된 데콘볼루션의 결과는 도 19에 도시되어 있다.
실시예 3
이 실시예는 혼합물 데콘볼루션을 위한 미세일배체형 게놈 부위의 듀플렉스 시퀀싱의 실시형태를 기재한다. 이 실시예에서, 4개의 유전좌위에서 소수 대립유전자를 갖는 환자 샘플은 5%, 10%, 20% 및 40%에서 관찰되었다. 이 실시예에서, 이 대립유전자 빈도는 바로 환자의 DNA에 의해 설명될 수 없다. 적어도 3개의 게놈이 존재한다. 이 시나리오에 대한 우수 적합도는 10%에서의 공여자 1, 40%에서의 공여자 2 및 50%에서의 환자 3일 것이다. 데콘볼루션에서, 어떤 공여자 유전자형이 최고의 적합도로 이어짐을 고려하여 이 전략은 관찰된 대립유전자 빈도를 가장 잘 설명하는 혼합 비율을 확인하도록 추구한다. 일부 실시예에서, 기계 학습 방법은 이 분석을 용이하게 할 수 있다.
듀플렉스 시퀀싱 데이터를 해상하기 위한 데콘볼루션 모델의 일례는 선형 회귀, 일반화된 선형 모델, 또는 이의 연장을 이용할 수 있다. 도 20은 각각 공여자에서 공지된 유전자형을 갖는 7개의 SNP를 사용하여 혼합물 내의 공여자 소스를 결정하기 위한 선형 회귀 모델의 일례를 예시한다. 각각의 공여자의 혼합 비율(β)이 결정된다.
실시예 4
이 실시예는 혼합물 데콘볼루션을 위한 미세일배체형 게놈 부위의 듀플렉스 시퀀싱의 다른 실시형태를 기재한다. 이 실시예에서, 공지된 생물학적 소스로부터 핵산 분자의 혼합물을 갖는 샘플로부터 도출된 듀플렉스 시퀀싱 데이터는 혼합된 소스의 혼합 비율을 추산하기 위해 사용된다. 분석의 양태는 (예를 들어, 도 5를 참조하여) 본원에 기재된 바와 같은 컴퓨팅 시스템의 다양한 실시형태를 이용하여 수행될 수 있다.
제1 단계에서, 루틴은 컴퓨팅 장치에 의해 호출될 수 있고, 유전자형 모듈을 갖는 이러한 컴퓨팅 장치 및 이러한 루틴은 각각의 분석된 유전좌위의 각각의 대립유전자의 계수치(Y)의 벡터를 호출할 수 있다. 벡터 Y의 예는 표 1에 도시되어 있다. 이 특정 예에서, 각각의 유전좌위는 2개의 대립유전자 및 무호출, 또는 "N" 값을 갖지만, 이 루틴은 임의의 소정의 유전자위에서의 임의의 수의 대립유전자를 수용할 수 있다. 따라서, 이 예에서, 미세일배체형 데이터가 사용될 때, 각각의 유전자위는 적어도 3개의 대립유전자와 함께 미세일배체형에서의 하나 이상의 SNP가 유전자형 모듈(예를 들어, 루틴)에 의해 호출이 주어지지 않은 다양한 무호출 대립유전자를 가질 것이다.
Figure pct00001
예시적인 대립유전자 계수치 데이터. 벡터 Y가 강조된다(회색의 열); 동반한 데이터 및 ID는 다른 열에 있다.
제2 단계에서, 루틴은 Y의 요소에 대응하는 행 및 열을 갖는 대각선 행렬 λ를 정의한다. λ의 대각선 요소는 이들이 대응하는 유전좌위에서의 모든 대립유전자의 총 계수치이다. 예를 들어, 요소 [1,1]에서의 λ의 값은 Y의 제1 위치에서의 유전좌위에서의 전체 계수치이어야 한다. 행렬 λ의 예는 표 2에 기재되어 있다.
Figure pct00002
행렬 λ의 예. 행렬은 회색으로 강조되고; 행 및 열 명칭은 다른 데이터 벡터 및 행렬과의 정렬을 위해 도시되어 있다.
제3 단계에서, 루틴은 Y의 요소에 정렬하는 행 및 개별 소스에 대응하는 열을 갖는 행렬 G0로서 소스 유전자형을 쓴다. 루틴은, 소스 j가 대립유전자의 0, 1개 또는 2개의 카피를 갖는지에 따라 이것을 0, 0.5 또는 1로 기입하면서, G0의 [i,j] 요소가 j번째 소스에서의 Y에서 i번째 대립유전자의 유전자형에 대응하도록 G0을 한정한다. 행렬 G0의 예는 표 3에 기재되어 있다.
Figure pct00003
소스 유전자형의 행렬인 G0의 예. G0는 회색으로 강조되고; 다른 열은 다른 데이터 벡터 및 행렬과의 정렬을 위한 ID를 보여준다.
제4 단계에서, 루틴은 데이터에서 무호출 또는 "N" 판독을 처리한다. 유전좌위에서의 "N" 판독은 다양한 원인으로 생기고, N의 확률은 유전좌위 및 대립유전자 둘 다에 따라 변할 수 있다. 공지된 유전자형에 의한 샘플에서의 보정 실험은 유전좌위-및-대립유전자-특정 확률을 추산할 수 있고, N이 기록된다.
사실상, 무호출 현상은 환자 유전자형 데이터를 왜곡시킨다. 환자가 유전좌위에서의 대립유전자 A에 동형접합성이면, 그 환자는 대립유전자 A의 100% 계수치에 기여할 것으로 진실로 기대되지 않고, 그 환자는 또한 값 "N"으로 약간의 계수치에 기여할 것이다.
무호출 또는 "N" 판독을 처리하기 위해, 루틴은 서열분석기 및/또는 유전자형 모듈(예를 들어, 루틴)에 의해 무호출 또는 "N"으로서의 판독인 대립유전자의 대립유전자-특정 확률을 처리하는 변형된 유전자형 행렬을 생성한다. 표 4는 이 G 행렬이 G0로부터 그리고 무호출/N 판독의 유전좌위-및-대립유전자-특정 비율로부터 어떻게 계산될 수 있는지를 보여준다.
Figure pct00004
무호출 또는 "N" 판독을 처리한 후에 소스 유전자형의 행렬인 G의 예. G는 회색으로 강조되고; 다른 열은 다른 데이터 벡터 및 행렬과의 정렬을 위한 ID를 보여준다. G는 G0로부터 및 열 "N으로의 변화의 비율"로부터 계산될 수 있다.
다른 실시형태에서, 루틴은 데이터 벡터 Y로부터 모든 비호출된 또는 "N", 대립유전자를 폐기하고, λ의 계산을 위해 이 부분 Y를 사용하고, 하기 단계에서 G 대신에 G0를 사용하도록 구성될 수 있다
데이터 행렬이 결정되면, 루틴은 소스 혼합 비율을 추산할 수 있다.
이 실시예에서, 루틴은 혼합된 샘플에서 소스의 혼합 비율의 벡터인 β를 호출한다. β의 예는 표 5에 기재되어 있다. 루틴은 첫 번째로 β의 요소를 추산하고 두 번째로 이 추정치 주위에 신뢰 간격을 배치할 수 있다.
Figure pct00005
비공지된 혼합 비율의 벡터인 β의 예. β 자체는 회색으로 강조되고; 다른 값은 다른 벡터 및 행렬과의 정렬을 위한 ID를 보여준다.
다음에, 루틴은 하기와 같이 데이터를 모델링할 수 있다.
E(Y) = λGβ,
상기에서, Y, λ, G 및 β는 정의된 바와 같고, 2개의 벡터 또는 행렬의 병치는 선형 대수학 표기법에서 표준이면서 내적 연산자를 나타낸다. 이 공식은 소정의 유전좌위의 소정의 대립유전자에 대한 단순 해석을 갖고, 예상된 수의 판독은 그 유전좌위에서의 시퀀싱 깊이와 샘플에서의 그 대립유전자의 혼합 비율의 곱이다. (샘플에서의 대립유전자의 혼합 비율, 또는 보다 정확하게는, 그 유전좌위에서의 판독의 대립유전자의 예상된 비율은 벡터 Gβ에서의 이의 요소와 동일하다.)
이 모델은 β를 추산하고 이의 요소에 대해 신뢰 간격을 계산하기 위한 일반화된 선형 회귀(GLM) 접근법을 포함한다. 하기를 정의하고:
X = λGβ,
GLM 설정은 자연히 생긴다. GLM의 평균 모델은 E(Y) = Xβ(즉, GLM은 항등 연결을 가짐)에 의해 주어진다. GLM의 패밀리는 여러 선택 중 하나일 수 있다.
1. 포아송 패밀리(즉, X에서 Y의 포아송 회귀를 사용).
2. 음이항 패밀리(즉, X에서 Y의 음이항 회귀를 사용)는 일부 실시형태에서 포아송 패밀리보다 노이즈 데이터에 더 유연할 수 있다.
3. 가우시안 패밀리(즉, X에서 Y의 보통의 선형 회귀를 사용)는 또한 일부 분야에 사용될 수 있다.
모든 상기 설정에서, GLM 접근법은 β의 요소에 대해 추정치 및 신뢰 간격 둘 다를 화답한다.
본원에 기재된 바와 같은 실시예 4는 공지된 유전자형의 핵산 혼합물을 해상하기 위한 하나의 접근법을 포함한다. 당업자는 다른 접근법이 또한 사용될 수 있다는 것을 인식할 것이다. 다른 접근법의 비제한적인 예는 다항 또는 이항 회귀를 포함할 수 있다. 다른 실시형태에서, GLM의 회귀는 유전자형 행렬로부터 (유전좌위에서 총 계수치로 나눈 대립유전자의 계수치에 의해 계산된) 각각의 대립유전자의 빈도를 예측하도록 사용될 수 있다. 또 다른 실시형태에서, 베타의 요소(β)에 제약이 배치될 수 있다. 예를 들어, 하기 제약의 임의의 조합은 회귀 또는 GLM 접근법의 임의의 실시형태와 함께 적용될 수 있다.
1. 베타(β)는 비음성이도록 제약되어야 한다.
2. 베타(β)는 이의 요소가 모두 1 이하이도록 제약되어야 한다.
3. 베타(β)는 이의 요소의 합이 정확히 1이도록 제약되어야 한다.
포아송, 이항 및 다항 회귀와 같은 회귀 방법이 모두 점근선 이론에 기초한 근사 표준 오차(예를 들어, 왈드(wald), 점수 또는 공산비 기반 표준 오차를 사용)로부터 도출되므로, 이 방법은 가끔 혼합물에서의 초저-풍부도 소스에 대해 통계 유의도로 0 초과 풍부도를 시사할 수 없다. 이 오차를 보정하기 위해, 소스가 임의의 다른 소스가 공유하지 않은 "개인" 대립유전자를 가지고, 개인 대립유전자가 혼합된 샘플에서 관찰될 때, 소스는 높은 통계 신뢰도로 비-0 풍부도로 존재하는 것으로 시사될 수 있다. 소스의 풍부도에 대한 신뢰 간격은 이항 비율에서 신뢰 간격을 계산하기 위한 임의의 다양한 방법을 이용하여 계산될 수 있다. 예를 들어, 윌슨(Wilson)-방법 신뢰 간격이 이용될 수 있다.
실시예 5
이 실시예는 혼합물 데콘볼루션을 위한 미세일배체형 게놈 부위의 듀플렉스 시퀀싱의 다른 실시형태를 기재한다. 이 실시예에서, 비공지된 생물학적 소스로부터의 핵산 분자의 혼합물을 갖는 샘플로부터 도출된 듀플렉스 시퀀싱 데이터는 소스 유전자형을 확인하고 혼합된 소스의 혼합 비율을 추산하기 위해 사용된다. 분석의 양태는 (예를 들어, 도 5와 관련하여) 본원에 기재된 바와 같은 컴퓨팅 시스템의 다양한 실시형태를 이용하여 수행될 수 있다.
이 실시예에 대한 데이터는 상기 실시예 4에서처럼 형식화될 수 있고, Y, λ, G0, G 및 β는 상기에 그리고 표 1 내지 표 5에 기재된 것처럼 정의된다. 그러나, 본 실시예에서, 본 발명자들이 관찰한 유일한 데이터는 Y 및 Y로부터 직접 계산된 λ이다. 따라서, 비공지된 유전자형 문제는 본 발명자들이 β의 임의의 선택이 데이터와 얼마나 잘 일치하는지를 평가하기 위해 β와 함께 G0을 추산해야 한다는 점에서 공지된 유전자형 문제와 다르다.
공지된 유전자형 문제(실시예 4)에서, 루틴은 β를 추정하고, 그 추정치 주위에 신뢰 간격을 두어, 데이터와 적절히 일치할 수 있는 모든 가능한 β 벡터의 부분공간을 효과적으로 기술한다. 비공지된 유전자형 문제를 해결하는 본 실시예에서, 루틴은 데이터를 그럴싸하게 설명할 수 있는 β 벡터의 특징을 기술하도록 구성된다. 예를 들어, 루틴은 관찰된 데이터가 β의 오직 하나의 비-0 요소(즉, 단일 소스)를 갖는 샘플로부터 생기는지, 또는 소스의 혼합물만이 관찰된 데이터를 생성시키는지를 결정한다. 다른 실시형태에서, 루틴은 관찰된 데이터가 비교적 균일한 소스 혼합물로부터 생기는지 또는 하나의 소스가 우세하거나 하나 이상의 소스가 매우 낮은 풍부도를 갖는 경우 데이터가 오직 설명될 수 있는 지를 결정한다.
따라서, 이 방법은 데이터를 적절히 설명할 수 있는 β 벡터의 종류의 요약을 화답하기 위한 목표로 고려되는 모든 β 벡터를 평가한다.
이 실시예에서, 접근법이 기재되어 있다:
1. 하기와 같이 데이터를 설정한다:
1a. 당신이 혼합물에서 가능하게 발생한다고 생각하는 소스의 최대 수인 K를 선택한다. K는 β의 길이를 제공한다. K 미만의 소스에 대응하는 β 벡터는 일부 위치에서 0을 가질 것이다.
1b. 길이 K의 β 벡터의 목록의 형성을 취하는, 고려할 β'의 그리드를 한정한다. 일 실시형태에서, 루틴은 {0, 0.001, 0.01, 0.02, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99, 0.999, 1}로서 β 요소 값의 세트를 한정하도록 구성된다. 이후, 루틴은 예를 들어 K = 3이면 감소하는 값으로 이 목록으로부터 모든 가능한 K-길이 샘플을 취하여 β 목록을 생성할 수 있고, 루틴은 {1,1,1}, {1,1,.999}, {1,1,.99) 등을 취한다(소스 유전자형이 비공지되어 있으므로, 상이한 순서로 동일한 값을 갖는 β의 2가지 선택은 매우 동일하게 데이터를 설명한다). 정규 β(즉, 합계가 1인 β)의 목록을 달성하기 위해, 루틴은 합계가 1인 목록에서 각각의 β를 재크기변환하도록 구성된다. 생성된 목록은 가능한 β의 공간 위의 상세한 그리드를 달성한다.
1c. 각각의 유전좌위에 대해, 실시예 4에 설명된 G0 행렬에서처럼 형식화된 가능한 유전자형의 목록을 한정한다. 가능한 유전자형은 하기 기준을 충족하는 모든 행렬이다:
ⅰ. K 열 및 J 행, 여기서 J는 유전좌위에 관찰된 고유한 대립유전자의 수임.
ⅱ. 각각의 요소는 0, 0.5 또는 1 중 어느 하나임.
ⅲ. 행렬의 각각의 열은 합계가 1이다(각각의 소스가 유전좌위에서 이배체임을 암시함).
ⅳ. 원하는 경우, 루틴은 실시예 4에 기재된 동일한 접근법을 이용하여 무호출 / "N" 값에 대해 처리하기 위해 목록에서 각각의 G0 행렬을 변형시키도록 구성된다. 이후로 이 행렬 목록에서의 행렬은 초기 표기법과 일치하게 "G" 행렬이라 칭해진다.
2. 데이터 Y에 대한 β의 일치를 평가한다. 루틴은 하기 알고리즘을 이용하여 로그 우도를 갖는 목록에서 각각의 β를 연관시키도록 구성된다.
2a. 각각의 β 및 각각의 유전좌위에 대해, 그 유전좌위로부터의 Y의 값에 대해 최대 로그 우도를 생성시키는 행렬 G에 대한 유전자형 행렬의 목록을 검색한다. 로그 우도는 임의의 하기 모델을 이용하여 계산될 수 있다: 1. 평균 벡터 λGβ를 갖는 포아송 랜덤 벡터인 Y에 의해, 2. 평균 벡터 λGβ 및 데이터에 일치한 값의 미리 규정된 값인 크기 매개변수를 갖는 음이항 랜덤 벡터인 Y에 의해, 또는 3. 평균 벡터 log (λGβ) 및 데이터에 일치한 값의 미리 규정된 값인 분산 매개변수를 갖는 로그-정규 랜덤 벡터인 Y에 의해. 다른 실시형태에서, 다른 매개변수 분포가 이용할 수 있다.
목록에서의 각각의 β에 대해, 단계 2a의 산출은 각각의 유전좌위에서의 최고-일치 G 및 이 최고-일치 G에 의해 β에 의해 달성된 동반한 로그 우도 세트의 선택이다.
2b. 유전좌위에 걸쳐 이의 로그 우도의 합계로서 각각의 β의 로그 우도를 계산한다.
2c. 허용 가능하게 높은 로그 우도에 대해 역치를 선택한다. 일 실시형태에서, 역치의 선택은 사용자의 재량에 따른 판단 호출이다. 하기 접근법은 모두 역치가 자연적 해석을 갖는 규모에서 β를 점수화하는 합당한 방식을 제공한다; 이들 모두는 로그 우도로부터 계산된다: 1. 베이지안 정보 기준(BIC)을 이용할 수 있다. 2. 아카이케 정보 기준(AIC)을 이용할 수 있다. 3. 2가지 경쟁하는 적합도 사이의 로그 우도비의 -2배인 제곱 자승 통계를 이용할 수 있다.
3. 로그 우도가 선택된 역치를 초과하는 목록으로부터 모든 β를 기록한다.
비공지된 유전자형의 혼합물로부터의 소스 유전자형의 회수.
비공지된 유전자형의 샘플에서 혼합 비율을 추산하는 것 이외에, 루틴은 혼합물에서 소스의 유전자형을 회수하도록 구성될 수 있다. 하기 알고리즘(예를 들어, 본원에 기재된 하나 이상의 컴퓨팅 시스템에 의해 호출될 수 있는 것)은 이렇게 하기 위한 하나의 방법을 기재한다:
1. 상기 알고리즘/루틴을 이용하여 유효 β의 세트를 도출한다.
2. 각각의 유전좌위에 대해:
2a. 상기 알고리즘/루틴의 단계 1c에서처럼 모든 가능한 유전자형 행렬을 계산한다.
2b. 모든 유효 β에 대해 각각의 가능한 유전자형 행렬을 평가하여, 모든 유효 β에 대해 달성된 유전자형의 최고 로그 우도를 기록한다.
2c. 로그 우도 역치를 선택하고, 적어도 하나의 유효 β와 함께 평가될 때 그 역치를 초과하는 모든 유전자형 행렬을 기록한다.
2d. 일부 경우에, 가능한 유전자형 행렬의 세트는 특정 소스의 대립유전자(들)에 대해 비완전합의에 있다(예를 들어, 모든 가능한 유전자형 행렬은 가장 풍부한 소스에 대한 동형접합성 대립유전자 A를 포함한다). 이 경우에, 소스의 유전자형은 그 대립유전자에서 호출될 수 있다.
다른 경우에, 가능한 유전자형 행렬은 대립유전자에서의 소스의 유전자형의 거의 절반을 한정할 수 있다. 예를 들어, 모든 가능한 유전자형 행렬은 대립유전자 A의 카피를 갖는 것으로서 소스 1을 나타내지만, 이 행렬은 그 유전자위에서의 소스 이배체 유전자형의 다른 절반에 비일치한다. 이 경우에, 루틴은 대립유전자 A의 적어도 하나의 카피를 갖는 것으로서 소스를 호출하도록 구성될 수 있다.
일 실시형태에서, 그리고 컴퓨터 효율을 개선하기 위해, 단일 유전좌위에서 매우 불량한 로그 우도를 갖는 β는 추가의 고려로부터 폐기될 수 있어서, 추가의 유전좌위에 걸쳐 이것을 평가할 필요성을 생략한다.
공지된 유전자형을 갖는 하나 이상의 소스가 달리 비공지된 유전자형의 혼합물에서 생기면, 이 방법은 또한 다음과 같이 조정될 수 있다: 1. 공지된 유전자형을 갖는 M 소스가 있으면, 각각의 β의 제1 M 요소 및 각각의 G의 제1 M 열과 이들을 연관시킨다. 2. 상기 기재된 바와 동일한 방식으로 후보 β의 목록을 생성하지만, 마지막 K-M 열이 감소하는 값을 가질 것만을 요한다. 3. 소정의 유전좌위에서 소정의 β의 로그 우도를 최대화하기 위해 최고 G 행렬을 발견할 때, 제1 M 열을 M 공지된 유전자형으로 채운다. 4. 변하지 않은 알고리즘의 나머지를 실행한다.
일부 실시형태에서, 이 방법은 단리된 SNP 데이터에서 실행될 수 있다. 다른 실시형태에서, 이 방법은 다수(2개 이상)의 SNP를 함유하고 이로써 3개 이상의 대립유전자 조합을 제시하는 게놈의 짧은 영역인 미세일배체형으로부터의 데이터에서 실행될 수 있다. 또 추가의 실시형태에서, 다양한 루틴은 >1 SNP에 걸친 판독을 화답하는 롱-리드 시퀀싱 기술로부터의 데이터를 이용하여 실행될 수 있다.
컴퓨터 효율을 개선하기 위해, 일 실시형태에서, 상기 방법은 처음에 후보 β의 큰 하위집단을 신속히 제거하기 위해 SNP-수준 데이터에서 실행될 수 있다. 이후, 알고리즘은 이 제1 단계를 통과하는 β만을 이용하여 미세일배체형-수준 데이터에서 재실행될 수 있다.
많은 수의 소스 유전자형 및 더 많은 수의 대립유전자가 있는 일부 경우에, 가능한 유전자형의 행렬은 너쿠 커서 특정 분야에 대해 컴퓨터상 다루기 어렵거나 비효과적이거나 불필요할 수 있다. 이러한 경우에, 고려 중인 각각의 가능한 혼합 비율 벡터 β에 대해, 최대-일치 유전자형 행렬 G는 최적화 알고리즘을 통해 추구될 수 있다.
실시예 6
하나 초과의 소스로부터 유래된 핵산 분자의 합성 혼합물에서의 성과 평가: 다른 생물학적 소스로부터의 정제된 DNA는 4개의 독립 샘플(예를 들어, 각각의 소스 재료의 상이한 혼합 비율을 갖는 각각의 샘플)에서 규정된 혼합 비율에서 예비혼합되고, 이러한 혼합 비율은 이후 맹검되었다. 도 21, 패널 A 내지 패널 D는 소스 1 내지 5의 진정한 혼합 비율을 도시하는 막대 그래프이다.
시퀀싱 결과는 시퀀싱된 혼합물이 4개의 맹검 시험 혼합물의 예상된 혼합물을 재현하는지(도 21, 패널 A 내지 패널 D에 도시됨)를 결정하기 위해, 그리고 저빈도/희귀 대립유전자의 검출의 민감도가 혼합된 샘플에 존재하는지를 결정하기 위해 후속하여 분석되었다. 듀플렉스 시퀀싱은 전체 인간 게놈에 걸쳐 산재된 17개의 미세일배체형 부위를 유전자형분석하기 위해 프로브의 패널을 이용하여 수행되었다.
22, 패널 A 내지 패널 D(각각 도 21, 패널 A 내지 패널 D에 대응)를 참조하면, 듀플렉스 시퀀싱 방법은 5개의 가능한 소스의 각각에 대한 유전자형이 미리 공지될 때 각각의 혼합물에서 각각의 개별 소스를 검출하기 위한 완전한 민감도 및 특이성을 생성시켰다. 예를 들어, 도 21, 패널 D 및 도 22, 패널 D를 참조하면, 맹검 혼합물(즉, 모든 5개의 소스의 혼합물을 포함) 중 하나는 전체 혼합물의 0.5%를 나타내는 소스(소스 1) 및 0.05%를 나타내는 소스(소스 4)를 함유하였다. 이 소스는 듀플렉스 시퀀싱 방법론을 이용하여 검출되고 정확히 정량화되었다(도 22, 패널 D).
23a 내지 도 23d(각각 도 21, 패널 A 내지 패널 D에 대응)를 참조하면, 듀플렉스 시퀀싱 방법은 각각의 샘플에 대한 소스의 유전자형 및 가능한 수가 미리 비공지될 때 혼합 비율을 추산하는 능력을 나타낸다. 예를 들어, 도 23a 내지 도 23d는 듀플렉스 시퀀싱을 이용하여 샘플에서 결정된 각각의 소스의 우도 및 풍부도를 나타내는 열 지도 그래프이다. 도 24, 패널 A 내지 패널 D(각각 도 23a 내지 도 23d에 대응)에서 입증된 것처럼, 미세일배체형 대립유전자는 소스의 유전자형이 미리 공지되지 않을 때에도 다수의 소스에 대해 결정될 수 있다(예를 들어, 도 21, 패널 B의 혼합물로부터의 3개의 소스의 유전자형의 신뢰성 있는 예측을 나타내는 도 24, 패널 B를 참조).
이 실시예에서, 듀플렉스 시퀀싱 방법론이 미세일배체형을 사용하여 생물학적 혼합물(예를 들어, 5개의 개체/소스로부터의 핵산 샘플의 혼합물)을 데콘볼루션하기 위해 사용될 수 있다는 것이 입증되었다. 듀플렉스 시퀀싱 방법이 초저빈도 대립유전자 아래의 민감도를 제공하고, 복잡한 혼합물에서 희귀 변이체를 검출할 수 있다는 것이 입증되었다.
이 실시예에서, 듀플렉스 시퀀싱은 핵산 재료의 혼합물을 데콘볼루션하고 원래의 DNA 소스의 존재 및 풍부도를 확인하기 위한 성공적인 방법인 것으로 나타난다. 따라서, 듀플렉스 시퀀싱 방법론은 다중-개별 샘플을 비용 효과적으로 확인하고 이의 풍부도를 평가하기 위한 신속하고 정량적이고 자동화 가능한 방식을 제공한다.
실시예 7
1/100,000 풍부도로 존재하는 유전자형을 검출하는 민감도를 결정하기 위한 성과 평가. 이 실시예에서, 8-샘플 혼합물은 혼합 비율을 추산하기 위해 듀플렉스 시퀀싱 방법을 이용하여 그리고 적은 SNV 패널을 이용하여 서열분석되었다. 도 25는 혼합물에서의 샘플의 풍부도의 추정치에 대한 샘플의 실제 혼합 비율을 비교하는 산점도이다. 점은 모든 8개의 샘플에 대해 각각의 샘플의 추산된 혼합 비율 대 예상된 혼합 비율을 보여주고, 선은 95% 신뢰 간격을 보여준다. 점선은 동일성을 보여준다. 도시된 바대로, 듀플렉스 시퀀싱은 1/100,000 풍부도 아래의 민감도 및 정확도를 나타낸다.
실시예 8
데이터베이스에 존재하는 유전자형을 검출하는 능력을 측정하기 위한 성능 평가. 이 실시예에서, 샘플 혼합물은 원래의 소스의 혼합 비율 및 유전자형을 추산하기 위해 듀플렉스 시퀀싱 방법을 이용하여 서열분석되었다. 도 26은 검출된 혼합물에 존재하는 유전자형의 비율(실선) 및 적어도 하나의 위양성을 생성하는 모의된 혼합물의 비율(파선)을 도시하는 선 그래프이다. 이 실시예에서, 2-10 소스의 1000개의 모의된 혼합물로부터의 미세일배체형 데이터는 각각 4개 대립유전자를 갖는 1000개의 소스 및 100개의 미세일배체형의 유전자형 데이터베이스에 대해 질의되었다. 2개 내지 10개의 상이한 소스의 각각은 질의된 데이터베이스로부터 얻었다. 이 실시예의 결과는 1% 내지 5%의 위양성률로 8개 이하의 소스의 혼합물에서 대부분의 대상체의 확인을 생성시켰다.
실시예 9
다수의 유전자형을 포함하는 혼합물에서 정확한 정량화를 결정하기 위한 성능 평가. 이 실시예에서, 50개의 상이한 유전자형을 포함하는 샘플 혼합물은 상이한 유전자형의 혼합 비율을 추산하기 위해 듀플렉스 시퀀싱 방법을 이용하여 시퀀싱되었다. 도 27, 패널 A 내지 패널 C는 50개의 유전자형의 3개의 상이한 모의된 혼합물에서 추산된 혼합 비율 대 진정한 혼합 비율을 보여주는 선 도표이다. 검은 점은 진정한 비율이고; 회색의 박스/휘스커 및 점은 1000회 모의에서의 추정치의 내부 사분위수 및 극이상점이다. 도 27, 패널 A 내지 패널 C는 복잡한 혼합물에서의 적어도 50개의 상이한 유전자형이 듀플렉스 시퀀싱을 이용하여 정확히 구별되고 정량화될 수 있다는 것을 입증한다.
VI. 결론
본 기술내용의 실시형태의 상기 상세한 설명은 배타적이거나 본 기술내용을 상기 개시된 정확한 형태로 제한하도록 의도되지 않는다. 본 기술내용의 특정 실시형태 및 본 기술내용에 대한 예가 예시적인 목적을 위해 상기에 기재되어 있지만, 당업자가 인식하는 것처럼 본 기술내용의 범위 내에 다양한 동등한 변형이 가능하다. 예를 들어, 단계가 소정의 순서로 제시되지만, 대안적인 실시형태는 상이한 순서로 단계를 수행할 수 있다. 본원에 기재된 다양한 실시형태는 또한 추가의 실시형태를 제공하도록 조합될 수 있다. 본원에서 인용된 모든 참고문헌은 본원에 완전히 기재된 것처럼 참조로 포함된다.
상기로부터, 본 기술내용의 특정 실시형태가 예시의 목적을 위해 본원에 기재되어 있지만, 잘 알려진 구조 및 기능이 본 기술내용의 실시형태의 설명을 불필요하게 모호하게 하는 것을 피하도록 자세히 도시되거나 기재되지 않는다고 이해될 것이다. 상황이 허용하는 경우, 단수 용어 또는 복수 용어는 또한 각각 복수 용어 또는 단수 용어를 포함할 수 있다.
더구나, 단어 "또는"이 2개 이상의 항목의 목록과 관련하여 다른 항목을 배제한 단일 항목을 오직 의미하는 것으로 명확히 제한되지 않는 한, 이러한 목록에서의 "또는"의 사용은 (a) 목록에서의 임의의 단일 항목, (b) 목록에서의 모든 항목 또는 (c) 목록에서의 항목의 임의의 조합을 포함하는 것으로 해석되어야 한다. 추가적으로, 용어 "포함하는"은 임의의 더 많은 수의 동일한 특징 및/또는 추가 유형의 다른 특징이 불가능하지 않도록 적어도 인용된 특징(들)을 포함함을 의미하는 것으로 도처에 사용된다. 특정 실시형태가 예시의 목적을 위해 본원에 기재되어 있지만, 본 기술내용으로부터 벗어나지 않으면서 다양한 변형이 이루어질 수 있는 것으로 또한 이해될 것이다. 추가로, 본 기술내용의 소정의 실시형태와 연관된 이점이 이 실시형태의 상황에서 기재되어 있지만, 다른 실시형태가 또한 이러한 이점을 나타낼 수 있고, 모든 실시형태는 본 기술내용의 범위 내에 해당하는 이러한 이점을 반드시 나타낼 필요는 없다. 따라서, 본 개시내용 및 연관된 기술내용은 본원에 명확히 도시되거나 기재되지 않은 다른 실시형태를 포괄할 수 있다.

Claims (32)

  1. 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하는 방법으로서,
    하나 이상의 공여자 소스로부터 표적 이중-가닥 DNA 분자를 포함하는 혼합물을 제공하는 단계이되, 표적 이중-가닥 DNA 분자는 하나 이상의 유전적 다형을 함유하는 단계;
    상기 혼합물에서 복수의 표적 이중-가닥 DNA 분자의 각각에 대한 오류-정정된 서열 판독을 생성하는 단계이되,
    어댑터 분자를 복수의 표적 이중-가닥 DNA 단편에 결찰하여 복수의 어댑터-DNA 분자를 생성하는 단계;
    상기 어댑터-DNA 분자의 원래의 제1 가닥의 카피의 세트 및 어댑터-DNA 분자의 원래의 제2 가닥의 카피의 세트를 생성하는 단계;
    상기 원래의 제1 가닥 및 제2 가닥의 하나 이상의 카피를 시퀀싱하여 제1 가닥 서열 및 제2 가닥 서열을 제공하는 단계; 및
    상기 제1 가닥 서열 및 제2 가닥 서열을 비교하여 제1 가닥 서열과 제2 가닥 서열 사이의 하나 이상의 관련성을 확인하는 단계를 포함하는 단계; 및
    상기 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하여 핵산 혼합물에 존재하는 핵산의 공여자 소스를 확인하는 단계를 포함하는, 방법.
  2. 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하는 방법으로서,
    원시 시퀀싱 데이터로부터 듀플렉스 시퀀싱 데이터를 생성하는 단계이되, 상기 원시 시퀀싱 데이터는 하나 이상의 공여자 소스로부터 표적 이중-가닥 DNA 분자를 포함하는 혼합물로부터 생성되고, 상기 표적 이중-가닥 DNA 분자는 하나 이상의 유전적 다형을 함유하는 단계; 및
    상기 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하여 핵산 혼합물에 존재하는 핵산의 공여자 소스를 확인하는 단계를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서, 상기 공여자 소스 중 하나 이상은 공지된 유전자형을 갖는, 방법.
  4. 제1항 또는 제2항에 있어서, 상기 공여자 소스 중 하나 이상은 비공지된 유전자형을 갖는, 방법.
  5. 제1항 또는 제2항에 있어서, 상기 혼합물은 하나 이상의 비공지된 개별 유전자형을 포함하고, 상기 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하는 단계는,
    기준 서열에서 하나 이상의 유전자 유전좌위에 맵핑된 개별 표적 이중-가닥 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계;
    상기 하나 이상의 유전자 유전좌위 내의 각각의 유전자 유전좌위에 존재하는 모든 가능한 유전자형에 대해 모든 가능한 혼합 비율을 평가하는 단계; 및
    상기 확인된 미세일배체형 대립유전자 조합에 적절하게 일치하는 모든 가능한 개별 유전자형 및 평가된 모든 가능한 혼합 비율의 목록을 결정하는 단계를 포함하는, 방법.
  6. 제1항 또는 제2항에 있어서, 상기 혼합물은 하나 이상의 공지된 개별 유전자형을 포함하고, 상기 오류-정정된 서열 판독을 개별 유전자형으로 데콘볼루션하는 단계는,
    상기 혼합물에서 개별 표적 이중-가닥 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계;
    각각의 공지된 개별 유전자형으로부터 공여된 각각의 대립유전자의 총 계수치를 합산하는 단계; 및
    상기 혼합물에 존재하는 각각의 공지된 유전자형의 혼합 비율을 결정하는 단계를 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 하나 이상의 개별 유전자형을 복수의 공지된 유전자형을 포함하는 데이터베이스와 비교하여 하나 이상의 공여자 소스를 확인하는 단계를 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 혼합물은 하나 초과의 공여자 소스를 포함하고, 상기 방법은 각각의 유전적 다형의 비율 또는 오류-정정된 서열 판독에 존재하는 유전적 다형의 실질적으로 고유한 조합의 비율을 계산하여 혼합물에 존재하는 하나 초과의 공여자 소스로부터 각각의 공여자 소스의 비율을 결정하는 단계를 추가로 포함하는, 방법.
  9. 제1항 내지 제3항 및 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 표적 이중-가닥 DNA 분자는 하나 이상의 제대혈 샘플로부터 추출되는, 방법.
  10. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 표적 이중-가닥 DNA 분자는 법의학적 샘플로부터 추출되는, 방법.
  11. 제1항 내지 제3항 및 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 표적 이중-가닥 DNA 분자는 줄기 세포 또는 장기 이식을 갖는 환자로부터 추출되는, 방법.
  12. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 표적 이중-가닥 DNA 분자는 환자로부터 추출되고, 상기 혼합물에 존재하는 하나 이상의 공여자 소스를 확인하는 것은 환자에서 미소키메리즘의 수준을 측정하는 것을 포함하는, 방법.
  13. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 표적 이중-가닥 DNA 분자는 종양 샘플로부터 추출되는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 혼합물에 존재하는 각각의 개별 유전자형의 상대 풍부도를 정량화하는 단계를 추가로 포함하는, 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 하나 이상의 유전적 다형은 미세일배체형을 포함하는, 방법.
  16. 제1항 및 제3항 내지 제15항 중 어느 한 항에 있어서, 상기 혼합물에서 복수의 표적 이중-가닥 DNA 분자의 각각에 대한 오류-정정된 서열 판독을 생성하는 단계는 시퀀싱 전에 하나 이상의 표적화된 게놈 영역을 선택적으로 농후화하는 단계를 추가로 포함하는, 방법.
  17. 제16항에 있어서, 상기 하나 이상의 표적화된 게놈 영역은 게놈에서 미세일배체형 부위를 포함하는, 방법.
  18. 제2항 내지 제15항 중 어느 한 항에 있어서, 상기 혼합물에서의 표적 이중-가닥 DNA 분자는 원시 시퀀싱 데이터를 생성하기 전에 하나 이상의 표적화된 게놈 영역에 대해 선택적으로 농후화되는, 방법.
  19. 제18항에 있어서, 상기 하나 이상의 표적화된 게놈 영역은 게놈에서 미세일배체형 부위를 포함하는, 방법.
  20. 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하기 위한 시스템으로서,
    시퀀싱 데이터 및 유전자형 데이터에 관한 정보를 전송하기 위한 컴퓨터 네트워크로서, 상기 정보는 원시 시퀀싱 데이터, 듀플렉스 시퀀싱 데이터, 샘플 정보 및 유전자형 정보 중 하나 이상을 포함하는 컴퓨터 네트워크;
    하나 이상의 사용자 컴퓨팅 장치와 연관되고 컴퓨터 네트워크와 통신하는 클라이언트 컴퓨터;
    복수의 유전자형 프로필 및 사용자 결과 기록을 저장하기 위한 컴퓨터 네트워크에 연결된 데이터베이스;
    상기 컴퓨터 네트워크와 통신하고, 듀플렉스 시퀀싱 데이터를 생성하기 위한 클라이언트 컴퓨터로부터의 원시 시퀀싱 데이터 및 요청을 수신하고, 원래의 이중-가닥 핵산 분자를 나타내는 패밀리로부터의 서열 판독을 그룹화하고, 듀플렉스 시퀀싱 데이터를 생성하기 위해서 개별 가닥으로부터의 대표적인 서열을 서로 비교하도록 구성된, 듀플렉스 시퀀싱 모듈; 및
    상기 컴퓨터 네트워크와 통신하고, 유전자형 데이터를 생성하기 위해서 미세일배체형 대립유전자를 확인하고, 공여자 소스의 상대 풍부도를 계산하도록 구성된, 유전자형 모듈을 포함하는, 시스템.
  21. 제20항에 있어서, 상기 유전자형 프로필은 복수의 공지된 공여자 소스로부터 미세일배체형 및/또는 단일 뉴클레오타이드 다형성(SNP: single nucleotide polymorphism) 정보를 포함하는, 시스템.
  22. 비일시적 컴퓨터-판독 가능한 저장 매체로서,
    하나 이상의 프로세서에 의해 실행될 때, 제2항 내지 제15항, 제18항 및 제19항 중 어느 한 항의 방법을 수행하는 명령을 포함하는, 비일시적 컴퓨터-판독 가능한 저장 매체.
  23. 제22항에 있어서, 각각의 확인된 공여자 소스의 혼합 비율을 산출하기 위한 명령을 추가로 포함하는, 비일시적 컴퓨터-판독 가능한 저장 매체.
  24. 혼합물로부터의 핵산의 공여자 소스를 검출하고/하거나 정량화하기 위한 제2항 내지 제15항, 제18항 및 제19항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 시스템으로서,
    상기 시스템은 프로세서, 메모리, 데이터베이스 및 프로세서(들)에 대한 명령을 포함하는 비일시적 컴퓨터 판독 가능한 저장 매체 중 적어도 하나를 포함하고, 상기 프로세서(들)는 제2항 내지 제15항, 제18항 및 제19항 중 어느 한 항의 방법을 포함하는 연산을 수행하기 위해 상기 명령을 실행하도록 구성된, 컴퓨터 시스템.
  25. 비일시적 컴퓨터-판독 가능한 매체로서,
    이의 컨텐츠가 적어도 하나의 컴퓨터가 공여자 소스 재료의 혼합물을 포함하는 샘플에서 이중-가닥 핵산 분자에 대한 듀플렉스 시퀀싱 데이터를 제공하는 방법을 수행하게 하고, 상기 방법은,
    사용자 컴퓨팅 장치로부터 원시 서열 데이터를 수신하는 단계;
    샘플에서 복수의 핵산 분자로부터 도출된 복수의 원시 서열 판독을 포함하는 샘플-특정 데이터 세트를 생성하는 단계;
    원래의 이중-가닥 핵산 분자를 나타내는 패밀리로부터의 서열 판독을 그룹화하는 단계이되, 그룹화는 공유된 단일 분자 식별자 서열에 기초하는 단계;
    원래의 이중-가닥 핵산 분자로부터 제1 가닥 서열 판독 및 제2 가닥 서열 판독을 비교하여 제1 가닥 서열 판독과 제2 가닥 서열 판독 사이의 하나 이상의 관련성을 확인하는 단계;
    샘플에서 이중-가닥 핵산 분자에 대한 듀플렉스 시퀀싱 데이터를 제공하는 단계; 및
    샘플에서 개별 이중-가닥 핵산 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하여 혼합물에서의 하나 이상의 공여자 소스를 확인하는 단계를 포함하는, 비일시적 컴퓨터-판독 가능한 매체.
  26. 제25항에 있어서, 각각의 확인된 공여자 소스의 혼합 비율을 산출하는 단계를 추가로 포함하는, 컴퓨터-판독 가능한 매체.
  27. 제25항 또는 제26항에 있어서, 비교된 제1 서열 판독과 제2 서열 판독 사이의 비상보성의 뉴클레오타이드 위치를 확인하는 단계를 추가로 포함하고, 상기 방법은 비상보성의 위치에서 공정 오류를 확인하고 제거하거나 무시하는 단계를 추가로 포함하는, 컴퓨터-판독 가능한 매체.
  28. 비일시적 컴퓨터-판독 가능한 매체로서,
    이의 컨텐츠가 적어도 하나의 컴퓨터가 공지된 소스가 샘플을 유전자형분석하는지를 결정하기 위해 핵산 혼합물에 존재하는 미세일배체형을 검출하고 확인하고 정량화하는 방법을 수행하게 하고, 상기 방법은,
    혼합물에서 개별 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계;
    각각의 공지된 소스 유전자형으로부터 공여된 각각의 대립유전자의 총 계수치를 합산하는 단계; 및
    혼합물에 존재하는 각각의 유전자형의 혼합 비율을 결정하는 단계를 포함하는, 비일시적 컴퓨터-판독 가능한 매체.
  29. 제28항에 있어서, 혼합 비율의 계산은 회귀-기반 모델을 이용하는 것을 포함하는, 컴퓨터-판독 가능한 매체.
  30. 제28항 또는 제29항에 있어서, 각각의 유전자형의 결정된 혼합 비율을 원래의 혼합 비율과 비교하는 단계를 추가로 포함하는, 컴퓨터-판독 가능한 매체.
  31. 비일시적 컴퓨터-판독 가능한 매체로서,
    이의 컨텐츠가 적어도 하나의 컴퓨터가 샘플에서 비공지된 유전자형의 핵산 혼합물을 데콘볼루션하는 방법을 수행하게 하고, 상기 방법은,
    혼합물에서 개별 DNA 분자 내에 존재하는 미세일배체형 대립유전자 조합을 확인하는 단계;
    각각의 유전자 유전좌위에 존재하는 모든 가능한 유전자형에 대해 모든 가능한 혼합 비율을 평가하는 단계;
    상기 확인된 미세일배체형 대립유전자 조합에 적절하게 일치하는 모든 가능한 유전자형 및 평가된 모든 가능한 혼합 비율의 목록을 결정하는 단계를 포함하는, 비일시적 컴퓨터-판독 가능한 매체.
  32. 제31항에 있어서, 상기 샘플에서의 비공지된 유전자형으로부터의 가능한 유전자형을 공지된 소스의 유전자형 프로필을 포함하는 데이터베이스와 비교하여 공여자 소스를 확인하는 단계를 추가로 포함하는, 컴퓨터-판독 가능한 매체.
KR1020207033828A 2018-05-16 2019-05-16 핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용 KR20210013061A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862672573P 2018-05-16 2018-05-16
US62/672,573 2018-05-16
US201962811517P 2019-02-27 2019-02-27
US62/811,517 2019-02-27
PCT/US2019/032755 WO2019222560A1 (en) 2018-05-16 2019-05-16 Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications

Publications (1)

Publication Number Publication Date
KR20210013061A true KR20210013061A (ko) 2021-02-03

Family

ID=68540783

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207033828A KR20210013061A (ko) 2018-05-16 2019-05-16 핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용

Country Status (10)

Country Link
US (1) US20210292836A1 (ko)
EP (1) EP3794120A4 (ko)
JP (1) JP2021524736A (ko)
KR (1) KR20210013061A (ko)
CN (1) CN112218956A (ko)
AU (1) AU2019269635A1 (ko)
BR (1) BR112020023296A2 (ko)
CA (1) CA3099819A1 (ko)
SG (1) SG11202011050TA (ko)
WO (1) WO2019222560A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
WO2017100441A1 (en) 2015-12-08 2017-06-15 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
US10844429B2 (en) 2017-01-18 2020-11-24 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
CN110799653A (zh) 2017-05-01 2020-02-14 伊鲁米那股份有限公司 用于多重大规模平行测序的最佳索引序列
AU2018266377A1 (en) 2017-05-08 2019-11-14 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
WO2019094651A1 (en) 2017-11-08 2019-05-16 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
US20210269873A1 (en) 2018-07-12 2021-09-02 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120034603A1 (en) * 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
US20130040375A1 (en) * 2011-08-08 2013-02-14 Tandem Diagnotics, Inc. Assay systems for genetic analysis
ES2828661T3 (es) * 2012-03-20 2021-05-27 Univ Washington Through Its Center For Commercialization Métodos para reducir la tasa de error de la secuenciación de ADN masiva en paralelo mediante el uso de la secuenciación de secuencia consenso bicatenaria
CN115287348A (zh) * 2015-07-20 2022-11-04 香港中文大学 Dna混合物中组织的单倍型的甲基化模式分析
WO2017100441A1 (en) * 2015-12-08 2017-06-15 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
JP2019511070A (ja) * 2016-02-09 2019-04-18 トマ・バイオサイエンシズ,インコーポレーテッド 核酸を解析するシステムおよび方法
EP4134444A1 (en) * 2017-03-23 2023-02-15 University of Washington Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
CN111868255A (zh) * 2018-03-15 2020-10-30 特温斯特兰德生物科学有限公司 用于富集用于测序应用和其他核酸材料询问的核酸材料的方法和试剂
US20210269873A1 (en) * 2018-07-12 2021-09-02 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications

Also Published As

Publication number Publication date
SG11202011050TA (en) 2020-12-30
AU2019269635A1 (en) 2020-11-26
CN112218956A (zh) 2021-01-12
EP3794120A4 (en) 2022-03-23
CA3099819A1 (en) 2019-11-21
BR112020023296A2 (pt) 2021-05-04
WO2019222560A1 (en) 2019-11-21
EP3794120A1 (en) 2021-03-24
JP2021524736A (ja) 2021-09-16
US20210292836A1 (en) 2021-09-23

Similar Documents

Publication Publication Date Title
US20230295686A1 (en) Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
KR20210013061A (ko) 핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용
US11845985B2 (en) Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20220119876A1 (en) Methods and reagents for efficient genotyping of large numbers of samples via pooling
JP7242644B2 (ja) 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
KR20160022374A (ko) 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
JP2020530261A (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
US20200071754A1 (en) Methods and systems for detecting contamination between samples
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
EP3409788B1 (en) Method and system for nucleic acid sequencing
WO2024054517A1 (en) Methods and compositions for analyzing nucleic acid