KR20210052501A - 샘플 사이의 오염을 검출하기 위한 방법 및 시스템 - Google Patents

샘플 사이의 오염을 검출하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20210052501A
KR20210052501A KR1020217009214A KR20217009214A KR20210052501A KR 20210052501 A KR20210052501 A KR 20210052501A KR 1020217009214 A KR1020217009214 A KR 1020217009214A KR 20217009214 A KR20217009214 A KR 20217009214A KR 20210052501 A KR20210052501 A KR 20210052501A
Authority
KR
South Korea
Prior art keywords
sample
family
families
shared
sequencing
Prior art date
Application number
KR1020217009214A
Other languages
English (en)
Inventor
다르야 추도바
헬마이 엘토키
스테펜 페어클로지
나시 라자고팔란
마신 시코라
Original Assignee
가던트 헬쓰, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가던트 헬쓰, 인크. filed Critical 가던트 헬쓰, 인크.
Publication of KR20210052501A publication Critical patent/KR20210052501A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

제2 샘플로의 제1 샘플의 오염의 존재/부재를 검출하기 위한 다양한 방법 및 관련된 시스템이 본원에서 제공된다. 일부 실시양태에서, 예를 들어, 방법은 (a) 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, (b) 복수의 시퀀싱 판독물을 기준 서열에 대해 정렬하고, (c) 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고, (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고, (g) 공유된 패밀리 식별자의 정량적 측정치에 기초하여 제1 샘플을 제2 샘플로 오염되거나 오염되지 않은 것으로 분류하는 것을 포함한다.

Description

샘플 사이의 오염을 검출하기 위한 방법 및 시스템
상호-참조
본 출원은 2018년 8월 30일에 출원된 미국 가출원 번호 62/724,622의 이익, 및 그에 대한 우선권을 주장하며, 이 출원은 그 전문이 본원에 참조로 포함된다.
암은 개체의 정상 세포 내의 돌연변이의 축적에 의해 통상적으로 유발되며, 이의 적어도 일부는 부적절하게 조절된 세포 분열을 초래한다. 이같은 돌연변이는 단일 뉴클레오티드 변이 (SNV), 유전자 융합, 삽입 및 결실 (인델), 전환, 전위, 및 전도를 통상적으로 포함한다.
암은 종양의 조직 생검, 이어서 세포 병리학, 바이오마커 또는 세포로부터 추출된 DNA의 분석에 의해 대개 검출된다. 그러나 최근, 암은 체액, 예컨대 혈액 또는 소변 내의 무세포 핵산 (예를 들어, 순환 핵산, 순환 종양 핵산, 엑소좀, 아팝토시스 세포로부터의 핵산 및/또는 괴사성 세포)으로부터 또한 검출될 수 있음이 제안되었다 (예를 들어, 문헌 [Siravegna et al., Nature Reviews, 14:531-548 (2017)]을 참조한다). 이같은 테스트는 이들이 비-침습적이라는 이점을 갖고, 생검할 의심되는 암 세포 및 암의 모든 부분으로부터의 샘플 핵산을 확인하지 않고 수행될 수 있다. 그러나, 이같은 테스트는 체액 내로 방출되는 핵산의 양이, 분석가능한 형태로의 이같은 체액으로부터의 핵산의 회수와 같이 적고 가변적이라는 사실에 의해 복잡해진다. 이러한 테스트는 이들이 주어진 유전자좌에서 1000개의 분자 중 1개만큼 적은 것에 의해 제시된, 매우 낮은 빈도 서열을 검출할 수 있도록 디자인된다. 따라서, 이같은 테스트는 다른 샘플로부터의 분자의 오염의 낮은 수준에 기초한 가양성 결과에 민감할 수 있다.
샘플은 다양한 공급원, 예컨대 샘플 사이의 액체의 물리적 이월 (예를 들어 피펫팅, 샘플 제조 또는 서열분석기를 통한 자동화 액체 취급, 증폭된 물질의 조작); 인공물의 역다중화 (예를 들어 제한된 쌍별 해밍(Hamming) 거리를 갖는 샘플 색인을 혼동하는 염기 콜 오류; 제한된 쌍별 편집물 거리를 갖는 샘플 색인을 혼동하는 삽입/결실) 및 시약 불순물 (예를 들어 동일한 배치에서 합성된 올리고의 상실의 일부 수준을 갖는 샘플 색인 올리고; 또 다른 샘플 색인을 함유하는 올리고로 오염된 샘플 색인 올리고 (합성 오류의 어느 하나의 이월을 통해)) (그러나 이에 제한되지 않음)에 의해 오염될 수 있다.
요약
본 출원은 2개의 샘플 사이의 오염을 검출하기 위한 방법 및 시스템을 개시한다. 샘플 내의 오염 검출의 이전의 방법은 비오염된 샘플에서 단지 높은 풍부도로 존재하거나 또는 전혀 존재하지 않을 수 있지만, 낮은 풍부도로 관찰되는 경우 오염을 지시하는 특정 분자의 검출에 기초한다. 2가지 이같은 유형의 분자는 통상적인 생식세포계열 단일 뉴클레오티드 다형성 (SNP) 또는 Y 염색체 분자를 보유하는 분자이다. 이러한 방법은 상기 분자가 전형적으로 전체 오염 분자의 단지 작은 분율이고, 이들의 양이 시퀀싱 오류 및 샘플링 오류의 존재 하에 검출에 불충분할 수 있다는 사실에 의해 제한된다. 더욱이, 높은 오염률에서, 오염-기반 생식세포계열 SNV는 오염된 샘플에 대해 천연인 생식세포계열 SNV로부터 구별불가능할 수 있다. 검출의 메커니즘으로서 Y 염색체 분자를 사용하는 것은, Y 염색체 분자가 단지 남성 환자에 천연적으로 존재하기 때문에, 남성 환자 샘플에 의한 여성 환자 샘플의 오염에 추가로 제한된다. 물리적 오염에 추가적으로, 디지털 교차-오염은 샘플 색인이 또 다른 색인으로 쉽게 전환되고, 그 후 알고리즘적으로 오류-할당되는 경우 발생할 수 있다. 이 문제는 이중 색인에 의해 완화될 수 있지만, 그 방법은 그 자신의 단점을 갖는다.
본 개시내용은 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하기 위한 방법, 조성물, 및 시스템을 제공한다.
한 측면에서, 본 개시내용은 통신 네트워크 상에서, 핵산 서열분석기에 의해 생성된 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트의 복수의 시퀀싱 판독물을 수신하고, 여기서 시퀀싱 판독물은 태그 서열 및 폴리뉴클레오티드로부터 유래된 서열을 포함하는 것인 통신 인터페이스; 및 통신 인터페이스와 통신하는 컴퓨터를 포함하는, 제2 샘플로의 제1 샘플의 오염의 오염 존재 또는 부재를 검출하기 위한 시스템이고, 여기서 컴퓨터는 하나 이상의 컴퓨터 프로세서, 및 하나 이상의 컴퓨터 프로세서에 의한 실행 시, (a) 통신 네트워크 상에서, 핵산 서열분석기에 의해 생성된 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트의 복수의 시퀀싱 판독물을 수신하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나로부터 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 실행하는 기계-실행가능 코드를 포함하는 컴퓨터 판독가능 매체를 포함하는 것인 시스템을 제공한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 제1 샘플 및 제2 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 또는 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 함께 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 또는 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 또는 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제2 샘플의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 제1 샘플의 패밀리이고; (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 또는 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
일부 실시양태에서, 시퀀싱 판독물은 (i) 태그 서열, 및 (ii) 폴리뉴클레오티드로부터 유래된 서열을 포함한다. 일부 실시양태에서 시스템은 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나로부터의 정보에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하는 것을 추가로 포함하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제2 샘플의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 제1 샘플의 패밀리이고; (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 또는 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 태그를 포함하는 그룹화 특색에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 함께 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고, 여기서 주어진 공유된 패밀리는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 비-일시적 컴퓨터-실행가능 명령을 포함하는 컴퓨터 판독가능 매체를 포함하거나 또는 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
일부 실시양태에서, 시스템은 제1 샘플의 공유된 패밀리의 시퀀싱 판독물을 제외함으로써 제1 샘플의 폴리뉴클레오티드의 체세포 유전자 변이를 검출하는 것을 추가로 포함하고, 여기서 제1 샘플은 제2 샘플로 오염된 것으로 분류된다.
일부 실시양태에서, 시스템은 샘플의 오염 상태에 대한 정보, 및/또는 그로부터 유래된 정보를 임의적으로 포함하는 보고서를 생성시키는 것을 추가로 포함한다.
일부 실시양태에서, 시스템은 제3자, 예컨대 샘플이 유래된 대상체 또는 건강 관리 실무자에게 보고서를 통신하는 것을 추가로 포함한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 컴퓨터 시스템에 의해, 제1 및 제2 샘플로부터의 복수의 시퀀싱 판독물을 포함하는 서열 정보에 접근하고; (b) 컴퓨터 시스템에 의해, 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 컴퓨터 시스템에 의해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 컴퓨터 시스템에 의해, 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 컴퓨터 시스템에 의해, 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 컴퓨터 시스템에 의해, 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 컴퓨터 시스템에 의해, 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 제1 및 제2 샘플로부터의 복수의 시퀀싱 판독물을 포함하는 서열 정보를 수득하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
일부 실시양태에서, 방법은 a) 전에, 폴리뉴클레오티드의 세트를 태그부착시켜, 태그부착된 폴리뉴클레오티드를 생성시키는 것을 추가로 포함하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함한다. 일부 실시양태에서, 방법은 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하는 것을 추가로 포함하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 태그부착된 폴리뉴클레오티드 또는 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
일부 실시양태에서, 여기서 공유된 패밀리 식별자의 세트의 정량적 측정치는 제1 샘플 내의 공유된 패밀리 식별자의 수이다. 일부 실시양태에서, 공유된 패밀리 식별자의 세트의 정량적 측정치는 제1 샘플 내의 공유된 패밀리 식별자의 수 대 제1 샘플 내의 패밀리 식별자의 총 수의 비를 포함한다. 일부 실시양태에서, 공유된 패밀리 식별자의 세트의 정량적 측정치는, 제1 샘플의 패밀리 내의 시퀀싱 판독물의 수가 제2 샘플의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 제1 샘플 내의 공유된 패밀리 식별자를 제외한다. 일부 실시양태에서, 제1 샘플 내의 공유된 패밀리 식별자의 세트의 정량적 측정치는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 공유된 패밀리 식별자를 제외한다. 일부 실시양태에서, 제1 샘플 내의 패밀리 식별자의 총 수는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 패밀리 식별자를 제외한다.
일부 실시양태에서, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍은 (a) 복수의 샘플을 제공하고, 여기서 복수의 샘플은 제1 샘플 및/또는 제2 샘플과 동일하거나 실질적으로 동일한 게놈 출발 위치 및 게놈 정지 위치의 분포를 포함하고; (b) 복수의 샘플 내의 패밀리 식별자를 결정하고; (c) 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리 식별자의 수를 정량하고; (d) 패밀리 식별자의 수가 세트 임계치를 초과하는 경우 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 것으로 범주화하는 것에 의해 결정된다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 또는 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 및 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플과 동일한 유동 셀(flow cell)에서 프로세싱된 샘플을 포함한다. 일부 실시양태에서, 복수의 샘플은 트레이닝 샘플을 포함한다. 일부 실시양태에서, 세트 임계치는 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개 또는 적어도 60개의 패밀리이다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고, 여기서 주어진 공유된 패밀리는 제2 샘플의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 제1 샘플의 패밀리이고; (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 함께 복수의 패밀리로 그룹화하고, 여기서 각각의 패밀리는 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 공유된 패밀리는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
일부 실시양태에서, 방법은 시퀀싱 전에, 폴리뉴클레오티드의 세트를 태그부착시켜, 태그부착된 폴리뉴클레오티드를 생성시키는 것을 추가로 포함하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함한다.
일부 실시양태에서, 방법은 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하는 것을 포함하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제2 샘플의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 제1 샘플의 패밀리이고; (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 태그를 포함하는 그룹화 특색에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 함께 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
일부 실시양태에서, 정량적 측정치는 제1 샘플 내의 공유된 패밀리의 수를 포함한다. 일부 실시양태에서, 정량적 측정치는 제1 샘플의 시퀀싱 판독물의 수 대 공유된 패밀리 내의 제2 샘플의 시퀀싱 판독물의 수의 비를 포함한다. 일부 실시양태에서, 정량적 측정치는 제1 샘플 내의 공유된 패밀리의 수 대 제1 샘플 내의 패밀리의 총 수의 비를 포함한다. 일부 실시양태에서, 공유된 패밀리의 세트의 정량적 측정치는, 제1 샘플의 패밀리 내의 시퀀싱 판독물의 수가 제2 샘플의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 제1 샘플 내의 공유된 패밀리를 제외한다. 일부 실시양태에서, 제1 샘플 내의 공유된 패밀리의 세트의 정량적 측정치는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 공유된 패밀리를 제외한다. 일부 실시양태에서, 제1 샘플 내의 패밀리의 총 수는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 패밀리를 제외한다. 일부 실시양태에서, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍은 (a) 복수의 샘플을 제공하고, 여기서 복수의 샘플은 제1 샘플 및/또는 제2 샘플과 동일하거나 실질적으로 동일한 게놈 출발 위치 및 게놈 정지 위치의 분포를 포함하고; (b) 복수의 샘플 내의 패밀리를 결정하고; (c) 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리의 수를 정량하고; (d) 패밀리의 수가 세트 임계치를 초과하는 경우 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 것으로 범주화하는 것에 의해 결정된다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 또는 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 및 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플과 동일한 유동 셀에서 프로세싱된 샘플을 포함한다. 일부 실시양태에서, 복수의 샘플은 트레이닝 샘플을 포함한다. 일부 실시양태에서, 세트 임계치는 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개 또는 적어도 60개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 5개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 10개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 15개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 20개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 30개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 40개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 50개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰되는 총 패밀리의 적어도 10-3개, 적어도 10-4개, 적어도 10-5개, 적어도 10-6개, 적어도 10-7개, 적어도 10-8개 또는 적어도 10-9개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰되는 총 패밀리의 약 10-4개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰되는 총 패밀리의 약 10-5개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰되는 총 패밀리의 약 10-6개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰되는 총 패밀리의 약 10-7개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰되는 총 패밀리의 약 10-8개일 수 있다.
일부 실시양태에서, 시작 영역은 시퀀싱 판독물의 5' 단부가 기준 서열에 대해 정렬하기를 시작하도록 결정된 시퀀싱 판독물의 게놈 출발 위치를 포함하고, 종료 영역이 시퀀싱 판독물의 3' 단부가 기준 서열에 대해 정렬하기를 정지하도록 결정된 시퀀싱 판독물의 게놈 정지 위치를 포함한다. 일부 실시양태에서, 시작 영역은 기준 서열에 대해 정렬하는 시퀀싱 판독물의 5' 단부에 처음 1개, 처음 2개, 처음 5개, 처음 10개, 처음 15개, 처음 20개, 처음 25개, 처음 30개 또는 적어도 처음 30개의 염기 위치를 포함한다. 일부 실시양태에서, 종료 영역은 기준 서열에 대해 정렬하는 시퀀싱 판독물의 3' 단부에 마지막 1개, 마지막 2개, 마지막 5개, 마지막 10개, 마지막 15개, 마지막 20개, 마지막 25개, 마지막 30개 또는 적어도 마지막 30개의 염기 위치를 포함한다.
일부 실시양태에서, 태그는 폴리뉴클레오티드의 단부에 부착된 하나 이상의 분자 바코드를 포함한다. 일부 실시양태에서, 하나 이상의 분자 바코드는 적어도 2개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 8개, 적어도 10개, 적어도 15개 또는 적어도 20개의 뉴클레오티드의 길이이다. 일부 실시양태에서, 제1 샘플의 폴리뉴클레오티드에 부착된 하나 이상의 분자 바코드는 제2 샘플의 폴리뉴클레오티드에 부착된 하나 이상의 분자 바코드와는 상이하다. 일부 실시양태에서, 샘플의 폴리뉴클레오티드는 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 50개, 적어도 100개, 적어도 500개, 적어도 1000개, 적어도 5000개, 적어도 10,000개, 적어도 50,000개 또는 적어도 100,000개의 상이한 분자 바코드로 태그부착된다.
일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 유동 셀에서 시퀀싱된다. 일부 실시양태에서, 제2 샘플은 제1 샘플과는 상이한 유동 셀에서 시퀀싱된다. 일부 실시양태에서, 제2 샘플은 제1 샘플의 것과 동일한 날에, 그러나 제1 샘플과는 상이한 시간에 프로세싱된다. 일부 실시양태에서, 제2 샘플은 제1 샘플이 프로세싱된 후 적어도 1분, 적어도 30분, 적어도 1시간, 적어도 2시간, 적어도 3시간 또는 적어도 4시간에 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 상이한 날에 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 샘플의 배치 내에 있다. 일부 실시양태에서, 제2 샘플은 제1 샘플과 동일한 시약의 배치로 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 상이한 지리적 위치에서 프로세싱된다.
일부 실시양태에서, 샘플의 태그부착된 폴리뉴클레오티드의 세트는 고유하게 태그부착된다. 일부 실시양태에서, 샘플의 태그부착된 폴리뉴클레오티드의 세트는 고유하지 않게 태그부착된다. 일부 실시양태에서, 제1 샘플은 대상체의 체액으로부터 수득되고, 제2 샘플은 또 다른 대상체의 체액으로부터 수득된다.
일부 실시양태에서, 폴리뉴클레오티드는 무세포 폴리뉴클레오티드이다. 일부 실시양태에서, 무세포 폴리뉴클레오티드는 무세포 DNA이다. 일부 실시양태에서, 대상체 중 적어도 하나는 질환을 갖는다. 일부 실시양태에서, 질환은 암이다.
일부 실시양태에서, 샘플의 폴리뉴클레오티드의 세트는 시퀀싱 전에 증폭되고, 이에 의해 증폭된 자손 폴리뉴클레오티드를 생산한다. 일부 실시양태에서, 방법은 시퀀싱 전에 대상체의 게놈 또는 트랜스크립톰으로부터의 영역에 대해 증폭된 자손 폴리뉴클레오티드의 적어도 부분을 선택적으로 풍부화하는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 시퀀싱 전에 하나 이상의 샘플 색인을 증폭된 자손 폴리뉴클레오티드의 한쪽 또는 양쪽 단부에 부착시키는 것을 추가로 포함하고, 여기서 샘플 색인은 제1 샘플 및 제2 샘플을 구별한다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 적어도 0.001%, 적어도 0.005%, 적어도 0.01%, 적어도 0.05%, 적어도 0.1%, 적어도 0.5%, 적어도 1%, 적어도 2%, 적어도 5%, 또는 적어도 10%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.01%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.05%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.1%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.5%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 1%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 2%이다.
일부 실시양태에서, 방법은 제1 샘플의 공유된 패밀리 식별자의 시퀀싱 판독물을 제외함으로써 제1 샘플의 폴리뉴클레오티드의 체세포 유전자 변이를 검출하는 것을 추가로 포함하고, 여기서 제1 샘플은 제2 샘플로 오염된 것으로 분류된다. 일부 실시양태에서, 방법은 제1 샘플의 공유된 패밀리의 시퀀싱 판독물을 제외함으로써 제1 샘플의 폴리뉴클레오티드의 체세포 유전자 변이를 검출하는 것을 추가로 포함하고, 여기서 제1 샘플은 제2 샘플로 오염된 것으로 분류된다.
일부 실시양태에서, 방법은 샘플의 오염 상태에 대한 정보, 및/또는 그로부터 유래된 정보를 임의적으로 포함하는 보고서를 생성시키는 것을 추가로 포함한다. 일부 실시양태에서, 방법은 제3자, 예컨대 샘플이 유래된 대상체 또는 건강 관리 실무자에게 보고서를 통신하는 것을 포함한다.
본원에 기술된 바와 같은 실시양태는 본원에 기술된 방법 및 시스템 양쪽 모두에 사용되거나 또는 적용될 수 있다.
일부 실시양태에서, 본원에 개시된 시스템 및/또는 방법의 결과는 보고서를 생성시키는 입력물로서 사용된다. 보고서는 종이 또는 전자 형식일 수 있다. 예를 들어, 본원에 개시된 방법 또는 시스템에 의해 결정된 바와 같은, 제1 샘플의 오염 상태에 대한 정보, 및/또는 그로부터 유래된 정보는 이같은 보고서에 제시될 수 있다. 본원에 개시된 방법 또는 시스템은 제3자, 예컨대 샘플이 유래된 대상체 또는 건강 관리 실무자에게 보고서를 통신하는 단계를 추가로 포함할 수 있다.
본원에 개시된 방법의 다양한 단계, 또는 본원에 개시된 시스템에 의해 수행되는 단계는 동일한 시간에 또는 상이한 시간에, 및/또는 동일한 지리적 위치 또는 상이한 지리적 위치, 예를 들어, 국가에서 수행될 수 있다. 본원에 개시된 방법의 다양한 단계는 동일한 사람 또는 상이한 사람에 의해 수행될 수 있다.
특정 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, 본원에 기술된 하나 이상의 단계 또는 방법을 수행할 수 있는 비-일시적 컴퓨터-실행가능 명령을 포함하는 비-일시적 컴퓨터 판독가능 매체를 제공한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, 적어도: (a) 핵산 서열분석기에 의해 생성된 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트의 복수의 시퀀싱 판독물을 수득하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것을 수행할 수 있는 비-일시적 컴퓨터-실행가능 명령을 포함하는 비-일시적 컴퓨터 판독가능 매체를 제공한다.
특정 측면에서, 본원에 기술된 방법, 시스템 및/또는 컴퓨터 판독가능 매체는 검정법 성능에 대한 품질 제어 계량법으로서 및/또는 샘플 내의 체세포 변이의 신뢰성 있는 검출을 보장하기 위해 수득되는 시퀀싱 데이터의 품질을 평가하기 위해 사용될 수 있다.
본 개시내용의 추가적인 측면 및 장점이 본 개시내용의 예시적인 실시양태만이 제시되고 기술된 하기의 상세한 설명으로부터 관련 기술 분야의 통상의 기술자에게 쉽게 명백해질 것이다. 실현될 바와 같이, 본 개시내용은 다른 실시양태 및 상이한 실시양태가 가능하고, 이의 몇몇 세부사항은 모두 본 개시내용을 벗어나지 않으면서 다양한 명백한 측면에서 변형될 수 있다. 따라서, 도면 및 상세한 설명은 제한적인 것이 아니라 사실상 예시적인 것으로 간주되어야 한다.
본 명세서에 포함되어 이의 일부를 구성하는 첨부 도면은 특정 실시양태를 예시하고, 서면 설명과 함께, 본원에 개시된 방법, 컴퓨터 판독가능 매체, 및 시스템의 특정 원리를 설명하는 역할을 한다. 제한하는 방식이 아니라 예로서 포함된 첨부 도면과 함께 읽을 때 본원에서 제공된 설명이 더 잘 이해된다. 맥락적으로 달리 지시되지 않는 한, 도면 전체에 걸쳐 같은 참조 번호로 같은 성분이 확인되는 것이 이해될 것이다. 도면 중 일부 또는 전체가 예시 목적을 위한 개략적인 제시일 수 있고, 반드시 제시된 요소의 실제 상대적 크기 또는 위치를 도시하지는 않는다는 것이 또한 이해될 것이다.
도 1은 본 개시내용의 실시양태에 따라 2개의 샘플 사이의 오염의 존재 또는 부재를 검출하는 방법의 흐름도 제시이다.
도 2는 본 개시내용의 실시양태에 따라 2개의 샘플 사이의 오염의 존재 또는 부재를 검출하는 방법의 흐름도 제시이다.
도 3은 본 개시내용의 실시양태에 따라 시퀀싱 판독물을 패밀리로 그룹화하고, 이에 의해 2개의 샘플 사이의 오염의 존재 또는 부재를 검출하는 것을 예시하는 개략도이다.
도 4는 본 개시내용의 일부 실시양태와 함께 사용하기에 적합한 예시적인 시스템의 개략도이다.
용어의 정의
본 개시내용의 다양한 실시양태가 본원에 제시되고 기술되었지만, 관련 기술 분야의 통상의 기술자는 이같은 실시양태가 단지 예로서 제공됨을 이해할 것이다. 다수의 변이, 변화, 및 치환이 본 개시내용으로부터 벗어나지 않으면서 관련 기술 분야의 통상의 기술자에게 일어날 수 있다. 본원에 기술된 본 개시내용의 실시양태에 대한 다양한 대안이 채용될 수 있음을 이해해야 한다.
본 개시내용이 더욱 쉽게 이해되기 위하여, 특정 용어가 먼저 하기에서 정의된다. 하기 용어 및 기타 용어의 추가적인 정의가 명세서를 통해 기재될 수 있다. 하기에 기재된 용어의 정의가 참조로 포함된 출원 또는 특허에서의 정의와 일치하지 않는 경우, 본 출원에 기재된 정의를 사용하여 용어의 의미를 이해하여야 한다.
본 명세서 및 첨부된 청구범위에서 사용된 바와 같이, 단수형 형태는 맥락적으로 명백하게 달리 지시되지 않는 한 복수의 지시대상을 포함한다. 따라서, 예를 들어, "방법"에 대한 언급은 본원에 기술되고/거나 본 개시내용의 판독 시 관련 기술 분야의 통상의 기술자에게 명백해질 유형의 하나 이상의 방법 및/또는 단계 등을 포함한다.
본원에서 사용된 용어법은 특정 실시양태를 기술하려는 목적일 뿐이고, 제한적인 것으로 의도되지 않는다는 것을 또한 이해하여야 한다. 추가로, 달리 정의되지 않는 한, 본원에서 사용된 모든 기술 및 과학 용어는 본 개시내용이 속하는 기술 분야의 통상의 기술자가 통상적으로 이해하는 바와 동일한 의미를 갖는다. 방법, 컴퓨터 판독가능 매체, 및 시스템을 기술하고 청구하는 것에서, 하기의 용어 및 그의 문법적 변형이 하기에 기재된 정의에 따라 사용될 것이다.
약. 본원에서 사용된 바와 같이, 하나 이상의 관심 값 또는 요소에 적용된 바와 같은 "약" 또는 "대략적으로"는 언급된 기준 값 또는 요소와 유사한 값 또는 요소를 지칭한다. 특정 실시양태에서, 용어 "약" 또는 "대략적으로"는 달리 언급되거나 또는 맥락으로부터 달리 명백하지 않는 한 언급된 기준 값 또는 요소 어느 한 쪽 방향 (초과 또는 미만)으로의 25%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1% 이하에 속하는 범위의 값 또는 요소를 지칭한다 (이같은 숫자가 가능한 값 또는 요소의 100%를 초과할 경우는 제외함).
어댑터. 본원에서 사용된 바와 같이, "어댑터"는 전형적으로 적어도 부분적으로 이중-가닥이고, 주어진 샘플 핵산 분자의 한쪽 또는 양쪽 단부에 연결되도록 사용되는 짧은 핵산 (예를 들어, 약 500개 미만의 뉴클레오티드, 약 100개 미만의 뉴클레오티드, 또는 약 50개 미만의 뉴클레오티드의 길이)을 지칭한다. 어댑터는 양쪽 단부에 어댑터가 플랭킹된 핵산 분자의 증폭을 허용하는 핵산 프라이머 결합 부위, 및/또는 시퀀싱 용도, 예컨대 다양한 차세대 시퀀싱 (NGS) 용도를 위한 프라이머 결합 부위를 포함하는 시퀀싱 프라이머 결합 부위를 포함할 수 있다. 어댑터는 포획 프로브, 예컨대 유동 셀 지지체 등에 부착된 올리고뉴클레오티드에 대한 결합 부위를 또한 포함할 수 있다. 어댑터는 본원에 기술된 바와 같은 핵산 태그를 또한 포함할 수 있다. 핵산 태그가 주어진 핵산 분자의 앰플리콘 및 서열 판독물 내에 포함되도록, 핵산 태그는 전형적으로 증폭 프라이머 및 시퀀싱 프라이머 결합 부위에 대해 상대적으로 위치한다. 핵산 분자의 각각의 단부에 동일하거나 상이한 어댑터가 연결될 수 있다. 일부 실시양태에서, 핵산 태그가 상이한 것을 제외하고는 핵산 분자의 각각의 단부에 동일한 서열의 어댑터가 연결된다. 일부 실시양태에서, 어댑터는 1개의 단부가 핵산 분자 (또한 평활 단부이거나 하나 이상의 상보적인 뉴클레오티드 꼬리가 있음)에 연결하기 위해 본원에 기술된 바와 같이 평활 단부이거나 또는 꼬리가 있는 Y형 어댑터이다. 또 다른 예시적인 실시양태에서, 어댑터는 분석될 핵산 분자에 연결하기 위한 평활 또는 꼬리 단부를 포함하는 벨 형상의 어댑터이다. 어댑터의 다른 예는 T-꼬리 및 C-꼬리 어댑터를 포함한다.
증폭시키다: 본원에서 사용된 바와 같이, 핵산의 맥락에서의 "증폭시키다" 또는 "증폭"은 전형적으로 소량의 폴리뉴클레오티드 (예를 들어, 단일 폴리뉴클레오티드 분자)에서 시작되는, 폴리뉴클레오티드 또는 폴리뉴클레오티드의 부분의 다중 카피의 생산을 지칭하고, 여기서 증폭 생성물 또는 앰플리콘은 일반적으로 검출가능하다. 폴리뉴클레오티드의 증폭은 다양한 화학적 및 효소적 프로세스를 포함한다.
바코드. 본원에서 사용된 바와 같이, 핵산의 맥락에서의 "바코드" 또는 "분자 바코드"는 분자 식별자로서의 역할을 할 수 있는 서열을 포함하는 핵산 분자를 지칭한다. 예를 들어, 최종 데이터 분석 전에 각각의 판독물이 확인 및 분류될 수 있도록 개별적인 "바코드" 서열이 차세대 시퀀싱 (NGS) 라이브러리 제조 동안 각각의 DNA 단편에 전형적으로 부가된다.
암 유형. 본원에서 사용된 바와 같이, "암 유형"은 예를 들어, 조직병리학에 의해 정의되는 암의 유형 또는 하위유형을 지칭한다. 암 유형은 임의의 통상적인 기준에 의해, 예컨대 주어진 조직에서의 발생 (예를 들어, 혈액암, 중추신경계 (CNS), 뇌암, 폐암 (소세포 및 비-소세포), 피부암, 비암, 인후암, 간암, 골암, 림프종, 췌장암, 장암, 직장암, 갑상선암, 방광암, 신장암, 구강암, 위암, 유방암, 전립선암, 난소암, 폐암, 장암, 연질조직암, 신경내분비암, 위식도암, 두경부암, 부인과 암, 결장직장암, 요로상피암, 고형 상태 암, 이질성 암, 동질성 암), 미지의 원발성 기원 등, 및/또는 동일한 세포 계통 (예를 들어, 암종, 육종, 림프종, 담관암종, 백혈병, 중피종, 흑색종, 또는 교모세포종) 및/또는 암 마커, 예컨대 Her2, CA15-3, CA19-9, CA-125, CEA, AFP, PSA, HCG, 호르몬 수용체 및 NMP-22를 나타내는 암에 기초하여 정의될 수 있다. 암은 병기 (예를 들어, 1기, 2기, 3기 또는 4기) 및 원발성인지 또는 속발성인지 여부에 의해서 분류될 수도 있다.
무세포 핵산. 본원에서 사용된 바와 같이, "무세포 핵산"은 세포 내에 함유되거나 또는 다른 방식으로 세포에 결합되지 않은 핵산을 지칭하거나, 또는 일부 실시양태에서는 무손상 세포의 제거 후에 샘플 내에 남아 있는 핵산을 지칭한다. 무세포 핵산은, 예를 들어, 출처가 대상체로부터의 체액 (예를 들어, 혈액, 혈장, 혈청, 소변, 뇌척수액 (CSF) 등)인 모든 비-캡슐화 핵산을 포함할 수 있다. 무세포 핵산은 게놈 DNA, 미토콘드리아 DNA, 순환 DNA, siRNA, miRNA, 순환 RNA (cRNA), tRNA, rRNA, 소형 핵소체 RNA (snoRNA), 피위(Piwi)-상호작용 RNA (piRNA), 긴 비-코딩 RNA (긴 ncRNA), 및/또는 이들 중 임의의 것의 단편을 포함하여, DNA (cfDNA), RNA (cfRNA), 및 이의 하이브리드를 포함한다. 무세포 핵산은 이중-가닥, 단일-가닥, 또는 이의 하이브리드일 수 있다. 무세포 핵산은 분비 또는 세포 사망 프로세스, 예를 들어, 세포 괴사, 아팝토시스 등을 통해 체액 내로 방출될 수 있다. 일부 무세포 핵산, 예를 들어, 순환 종양 DNA (ctDNA)는 암 세포로부터 체액 내로 방출된다. 다른 것들은 건강한 세포로부터 방출된다. ctDNA는 캡슐화되지 않은, 종양에서 유래된 단편화 DNA일 수 있다. 무세포 핵산의 또 다른 예는 무세포 태아 DNA (cffDNA)로도 지칭되는, 모체 혈류에서 자유롭게 순환하는 태아 DNA이다. 무세포 핵산은 하나 이상의 후성유전학적 변형이 있을 수 있고, 예를 들어, 무세포 핵산은 아세틸화, 5-메틸화, 유비퀴틸화, 인산화, 수모일화, 리보실화 및/또는 시트룰린화될 수 있다.
세포 핵산. 본원에서 사용된 바와 같이, "세포 핵산"은 그들 핵산이 주어진 분석 프로세스의 일부로서 이어서 제거되는 (예를 들어, 세포 용해를 통해) 경우에도, 적어도 샘플이 대상체로부터 취해지거나 수집되는 시점에서, 핵산이 기원한 하나 이상의 세포 내에 배치된 핵산을 의미한다.
샘플의 오염: 본원에서 사용된 바와 같이, 용어 "오염" 또는 "샘플의 오염"은 한 샘플의 또 다른 샘플로의 임의의 화학적 또는 디지털 오염을 지칭한다. 오염은 다양한 공급원, 예컨대 샘플 사이의 액체의 물리적 이월 (예를 들어 피펫팅, 샘플 제조 또는 서열분석기 시스템을 통한 자동화 액체 취급, 증폭된 물질의 조작); 인공물의 역다중화 (예를 들어 제한된 쌍별 해밍 거리를 갖는 샘플 색인을 혼동하는 염기 콜 오류; 제한된 쌍별 편집물 거리를 갖는 샘플 색인을 혼동하는 삽입/결실) 및 시약 불순물 (예를 들어 또 다른 샘플 색인을 함유하는 올리고로 오염된 샘플 색인 올리고 (합성 오류의 어느 하나의 이월을 통해)) (그러나 이에 제한되지 않음)에 기인할 수 있다.
데옥시리보핵산 또는 리보핵산. 본원에서 사용된 바와 같이, "데옥시리보핵산" 또는 "DNA"는 당 모이어티의 2'-위치에 수소 기를 갖는 천연 또는 변형 뉴클레오티드를 지칭한다. 전형적으로 DNA는 4가지 유형의 뉴클레오티드 염기를 포함하는 뉴클레오티드 쇄를 포함한다; 아데닌 (A), 티민 (T), 시토신 (C), 및 구아닌 (G). 본원에서 사용된 바와 같이, "리보핵산" 또는 "RNA"는 당 모이어티의 2'-위치에 히드록실 기를 갖는 천연 또는 변형 뉴클레오티드를 지칭한다. 전형적으로 RNA는 4가지 유형의 뉴클레오티드 염기를 포함하는 뉴클레오티드 쇄를 포함한다; A, 우라실 (U), G, 및 C. 본원에서 사용된 바와 같이, 용어 "뉴클레오티드"는 천연 뉴클레오티드 또는 변형 뉴클레오티드를 지칭한다. 특정한 뉴클레오티드 쌍은 상보적인 방식으로 서로 특이적으로 결합한다 (상보적 염기 쌍 형성으로 지칭됨). DNA에서는, 아데닌 (A)이 티민 (T)과 쌍을 형성하고, 시토신 (C)이 구아닌 (G)과 쌍을 형성한다. RNA에서, 아데닌 (A)이 우라실 (U)과 쌍을 형성하고, 시토신 (C)이 구아닌 (G)과 쌍을 형성한다. 제1 핵산 가닥이 제1 가닥 내의 것과 상보적인 뉴클레오티드로 구성된 제2 핵산 가닥에 결합하는 경우, 2개의 가닥이 결합하여 이중 가닥을 형성한다. 본원에서 사용된 바와 같이, "핵산 시퀀싱 데이터", "핵산 시퀀싱 정보", "서열 정보", "핵산 서열", "뉴클레오티드 서열", "게놈 서열", "유전자 서열", 또는 "단편 서열", 또는 "핵산 시퀀싱 판독물"은 핵산, 예컨대 DNA 또는 RNA의 분자 (예를 들어, 전체 게놈, 전체 트랜스크립톰, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 또는 단편) 내의 뉴클레오티드 염기 (예를 들어, 아데닌, 구아닌, 시토신, 및 티민 또는 우라실)의 순서 및 신원을 지시하는 임의의 정보 또는 데이터를 나타낸다. 본 교시내용이 모세관 전기영동, 마이크로어레이, 라이게이션-기반 시스템, 중합효소-기반 시스템, 혼성화-기반 시스템, 직접적 또는 간접적 뉴클레오티드 확인 시스템, 파이로시퀀싱, 이온- 또는 pH-기반 검출 시스템, 및 전자 서명-기반 시스템을 포함하지만 이에 제한되지 않는, 모든 이용가능한 종류의 기법, 플랫폼 또는 기술을 사용하여 수득된 서열 정보를 구상한다는 것을 이해하여야 한다.
패밀리. 본원에서 사용된 바와 같이, 용어 "패밀리"는 단일 폴리뉴클레오티드 분자로부터 유래된 하나 이상의 시퀀싱 판독물을 지칭한다. 생물정보학적으로, 단일 폴리뉴클레오티드 분자로부터 유래된 하나 이상의 시퀀싱 판독물은 동일하거나 실질적으로 동일한 그룹화 특색을 가질 것이고, 여기서 그룹화 특색은 하기 중 적어도 하나를 포함한다: 폴리뉴클레오티드의 (i) 태그 (즉, 분자 바코드), (ii) 정렬의 시작 영역, (iii) 정렬의 종료 영역 및 (iv) 길이. 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 시퀀싱 판독물은 함께 패밀리로 그룹화될 수 있다. 일부 실시양태에서, 확률은 낮지만, 적어도 2개의 분자는 동일한 그룹화 특색을 가질 수 있고, 따라서 적어도 2개의 분자로부터 유래된 시퀀싱 판독물은 단일 패밀리로 그룹화될 수 있다.
일부 실시양태에서, 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 단지 단일 샘플에서 검출된다. 일부 실시양태에서, 적어도 2개의 샘플의 오염이 있는 경우, (단일 샘플의) 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 적어도 2개의 샘플에서 검출될 수 있다. 이러한 실시양태에서, 시퀀싱 판독물의 그룹화가 각각의 샘플에 대해 독립적으로 수행되는 경우, 각각의 샘플 내에서 검출된 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 그 샘플에서 별개의 패밀리로서 그룹화될 것이다. 다른 실시양태에서, 시퀀싱 판독물의 그룹화가 적어도 2개의 샘플 전부에 대해 함께 수행되는 경우, 적어도 2개의 샘플에서 검출된 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 단일 패밀리로 그룹화될 것이다.
패밀리의 그룹화 특색은 패밀리 내의 시퀀싱 판독물의 그룹화 특색을 나타낸다. 일부 실시양태에서, 패밀리가 동일한 그룹화 특색을 갖는 시퀀싱 판독물을 포함하는 경우, 시퀀싱 판독물 중 임의의 것의 그룹화 특색은 패밀리의 그룹화 특색이다. 다른 실시양태에서, 패밀리가 동일한 및 실질적으로 동일한 그룹화 특색을 갖는 시퀀싱 판독물을 포함하는 경우, 패밀리의 그룹화 특색은 하기 중 하나 또는 그의 조합일 수 있지만, 이에 제한되지 않는다: (i) 시퀀싱 판독물의 가장 빈번히 제시된 그룹화 특색; (ii) 시퀀싱 판독물의 그룹화 특색의 평균; (iii) 분자 바코드 내의 가장 빈번히 제시된 뉴클레오티드 염기; (iv) 분자 바코드의 최대 가능도 값 및/또는 시퀀싱 판독물의 시작 영역 및/또는 종료 영역.
일부 실시양태에서, 패밀리는 단일 폴리뉴클레오티드 분자로부터 유래된 적어도 2개의 시퀀싱 판독물을 포함한다. 일부 실시양태에서, 패밀리는 이중-가닥 폴리뉴클레오티드 분자의 단일 가닥으로부터 유래된 서열 판독물을 포함할 수 있다. 일부 실시양태에서, 패밀리는 이중-가닥 폴리뉴클레오티드 분자의 양쪽 가닥 (센스 및 안티-센스 가닥)으로부터 유래된 서열 판독물을 포함한다. 한 예에서, 분자 바코드, 게놈 출발 위치 및 게놈 정지 위치는 패밀리의 그룹화 특색으로 간주된다. 이 예에서, 패밀리가 10개의 서열 판독물을 갖고, 모든 서열 판독물이 동일한 분자 바코드 및 게놈 출발 위치를 갖지만, 게놈 정지 위치가 동일하지 않은 경우, 그 분자 바코드 및 게놈 출발 위치는 패밀리의 그룹화 특색이 되고, 게놈 정지 위치에 대해 - 그 패밀리 내의 대다수의 시퀀싱 판독물에 의해 제시된 게놈 정지 위치는 패밀리의 게놈 정지 위치 (패밀리의 그룹화 특색의 일부임)로 간주될 것이다.
패밀리 식별자. 본원에서 사용된 바와 같이, 용어 "패밀리 식별자"는 각각의 패밀리를 고유하게 확인하는 식별자를 지칭하고, 이는 그룹화 특색 및/또는 패밀리의 그룹화 특색으로부터 유래된 정보를 포함한다. 일부 실시양태에서, 패밀리 식별자는 정수, 알파벳 또는 양쪽 모두의 조합을 포함할 수 있다. 일부 실시양태에서, 패밀리 식별자는 패밀리 내의 시퀀싱 판독물에 할당된다.
생식세포계열 돌연변이. 본원에서 사용된 바와 같이, 용어 "생식세포계열 돌연변이" 또는 "생식세포계열 변이"는 상호교환가능하게 사용되고, 유전된 돌연변이 (즉, 임신 후 발생한 것이 아님)를 지칭한다. 생식세포계열 돌연변이는 후손에게 계대될 수 있는 유일한 돌연변이일 수 있으며, 후손에서 모든 체세포 및 생식세포계열 세포에 존재할 수 있다.
인델. 본원에서 사용된 바와 같이, "인델"은 대상체의 게놈 내의 뉴클레오티드의 삽입 또는 결실을 수반하는 돌연변이를 지칭한다.
돌연변이체 대립유전자 분율: 본원에서 사용된 바와 같이, "돌연변이체 대립유전자 분율", "돌연변이 용량", 또는 "MAF"는 주어진 샘플 내의 주어진 게놈 위치/ 유전자좌에 대립유전자 변경 또는 돌연변이를 보유하는 핵산 분자의 분율을 지칭한다. MAF는 일반적으로 분율 또는 백분율로서 표현된다. 예를 들어, 체세포 변이체의 MAF는 0.15 미만일 수 있다.
돌연변이. 본원에서 사용된 바와 같이, "돌연변이"는 공지된 기준 서열로부터의 변이를 지칭하고, 예를 들어, 단일 뉴클레오티드 변이체 (SNV), 삽입 또는 결실 (인델)과 같은 돌연변이를 포함한다. 돌연변이는 생식세포계열 또는 체세포 돌연변이일 수 있다. 일부 실시양태에서, 비교 목적을 위한 기준 서열은 테스트 샘플을 제공하는 대상체의 종의 야생형 게놈 서열, 전형적으로 인간 게놈이다.
신생물. 본원에서 사용된 바와 같이, 용어 "신생물" 및 "종양"은 상호교환가능하게 사용된다. 이들은 대상체에서의 비정상적인 세포 성장을 지칭한다. 신생물 또는 종양은 양성이거나, 잠재적으로 악성이거나, 또는 악성일 수 있다. 악성 종양은 암 또는 암성 종양으로 지칭된다.
차세대 시퀀싱. 본원에서 사용된 바와 같이, "차세대 시퀀싱" 또는 "NGS"는, 예를 들어, 한번에 수백개 내지 수천개의 비교적 작은 서열 판독물을 생성시키는 능력이 있는, 전통적인 생어- 및 모세관 전기영동-기반 접근법에 비교하여 처리량이 증가된 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기법의 일부 예는 합성에 의한 시퀀싱, 라이게이션에 의한 시퀀싱, 및 혼성화에 의한 시퀀싱을 포함하지만, 이에 제한되지 않는다.
핵산 태그. 본원에서 사용된 바와 같이, "핵산 태그"는 상이한 유형이거나 또는 상이한 프로세싱이 진행된, 상이한 샘플들로부터의 핵산 (예를 들어, 샘플 색인을 나타냄), 또는 동일한 샘플 내의 상이한 핵산 분자들 (예를 들어, 분자 바코드를 나타냄)을 구별하기 위해 사용되는 짧은 핵산 (예를 들어, 약 500개의 뉴클레오티드, 약 100개의 뉴클레오티드, 약 50개의 뉴클레오티드 또는 약 10개의 뉴클레오티드 미만의 길이)을 지칭한다. 핵산 태그는 미리 결정되었거나, 고정되었거나, 비-무작위이거나, 무작위이거나, 또는 반-무작위인 올리고뉴클레오티드 서열을 포함한다. 이같은 핵산 태그는 상이한 핵산 분자들 또는 상이한 핵산 샘플들 또는 하위-샘플들을 표지하는데 사용될 수 있다. 핵산 태그는 단일-가닥이거나, 이중-가닥이거나, 또는 적어도 부분적으로 이중-가닥일 수 있다. 핵산 태그는 임의적으로 동일한 길이 또는 다양한 길이를 갖는다. 또한 핵산 태그는 하나 이상의 평활-단부를 갖는 이중-가닥 분자를 포함할 수 있고/거나, 5' 또는 3' 단일-가닥 영역 (예를 들어, 오버행)을 포함할 수 있고/거나, 주어진 분자 내의 다른 위치에 하나 이상의 다른 단일-가닥 영역을 포함할 수 있다. 핵산 태그는 다른 핵산 (예를 들어, 증폭 및/또는 시퀀싱될 샘플 핵산)의 한쪽 단부 또는 양쪽 단부에 부착될 수 있다. 핵산 태그를 해독하여, 주어진 핵산의 기원, 형태 또는 프로세싱의 샘플과 같은 정보를 밝힐 수 있다. 예를 들어, 핵산 태그는 상이한 분자 바코드 및/또는 샘플 색인을 보유하는 핵산을 포함하는 다중 샘플의 풀링 및/또는 병렬 프로세싱을 가능하게 하는데 사용될 수도 있고, 여기서 핵산 태그를 검출 (예를 들어, 판독)하는 것에 의해 핵산이 후속적으로 디컨볼루션된다. 핵산 태그는 식별자 (예를 들어, 분자 식별자, 샘플 식별자)로 또한 지칭될 수 있다. 추가적으로, 또는 대안적으로, 핵산 태그는 분자 바코드로서 사용될 수 있다 (예를 들어, 동일한 샘플 또는 하위-샘플 내의 상이한 분자들 또는 상이한 양친 분자들의 앰플리콘들을 구별하기 위해). 이는, 예를 들어, 주어진 샘플 내의 상이한 핵산 분자들에 고유하게 태그를 부착하는 것, 또는 이같은 분자에 고유하지 않게 태그를 부착하는 것을 포함한다. 고유하지 않은 태그부착 용도의 경우, 제한된 수의 태그 (즉, 분자 바코드)를 사용하여, 상이한 분자들이 적어도 1개의 분자 바코드와 조합된 이들의 내인성 서열 정보 (예를 들어, 선택된 기준 게놈에 맵핑되는 출발 및/또는 정지 위치, 서열의 한쪽 또는 양쪽 단부의 하위서열, 및/또는 서열 길이)에 기초하여 구별될 수 있도록 핵산 분자에 태그를 부착할 수 있다. 전형적으로, 임의의 2개의 분자가 동일한 내인성 서열 정보 (예를 들어, 출발 및/또는 정지 위치, 서열의 한쪽 또는 양쪽 단부의 하위서열, 및/또는 길이)를 가질 수 있고 또한 동일한 분자 바코드를 가질 수 있는 확률이 낮도록 (예를 들어, 약 10% 미만, 약 5% 미만, 약 1% 미만, 또는 약 0.1%의 가능도), 충분한 수의 상이한 분자 바코드가 사용된다.
게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍. 본원에서 사용된 바와 같이, 용어 "게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍" 또는 "과다-제시된 쌍"은 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리의 수 또는 빈도가 세트 임계치를 초과하는 게놈 출발 위치 및 게놈 정지 위치의 쌍을 지칭한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 및 제2 샘플이 실행된 유동 셀 내의 샘플 실행을 포함한다. 예를 들어, 복수의 샘플은 트레이닝 샘플 또는 분석되고 있는 제1 샘플 및/또는 제2 샘플과 관련된 핵산 서열분석기의 특정한 유동 셀에서 프로세싱된 샘플일 수 있다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 및/또는 제2 샘플을 제외한다. 일부 실시양태에서, 세트 임계치는 2 내지 100의 임의의 값일 수 있다. 일부 실시양태에서, 세트 임계치는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 적어도 21, 적어도 25, 적어도 30, 적어도 35, 적어도 40 또는 적어도 50일 수 있다. 일부 실시양태에서, 세트 임계치는 5일 수 있다. 일부 실시양태에서, 세트 임계치는 10일 수 있다. 일부 실시양태에서, 세트 임계치는 15일 수 있다. 일부 실시양태에서, 세트 임계치는 20일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 적어도 10-3개, 적어도 10-4개, 적어도 10-5개, 적어도 10-6개, 적어도 10-7개, 적어도 10-8개, 또는 적어도 10-9개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 10-4개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 10-5개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 10-6개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 10-7개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 10-8개일 수 있다.
폴리뉴클레오티드. 본원에서 사용된 바와 같이, "폴리뉴클레오티드", "핵산", "핵산 분자", 또는 "올리고뉴클레오티드"는 뉴클레오시드간 연결에 의해 연결된 뉴클레오시드 (데옥시리보뉴클레오시드, 리보뉴클레오시드 또는 그의 유사체를 포함함)의 선형 중합체를 지칭한다. 전형적으로, 폴리뉴클레오티드는 적어도 3개의 뉴클레오시드를 포함한다. 올리고뉴클레오티드는 종종 크기 면에서 수개의 단량체 단위, 예를 들어, 3-4개 내지 수백개의 단량체 단위의 범위이다. 폴리뉴클레오티드가 문자 서열, 예컨대 "ATGCCTG"로 표현되면, 뉴클레오티드가 왼쪽에서 오른쪽으로 5' → 3' 순서이고, DNA의 경우에, 달리 언급되지 않는 한, "A"는 데옥시아데노신을 표시하고, "C"는 데옥시시티딘을 표시하고, "G"는 데옥시구아노신을 표시하고, "T"는 데옥시티미딘을 표시한다는 것이 이해될 것이다. 관련 기술 분야에서 표준인 바와 같이, 문자 A, C, G, 및 T는 염기 자체, 뉴클레오시드, 또는 염기를 포함하는 뉴클레오티드를 지칭하는 데 사용될 수 있다.
기준 서열. 본원에서 사용된 바와 같이, "기준 서열"은 실험적으로 결정된 서열과 비교하기 위한 목적에 사용되는 공지된 서열을 지칭한다. 예를 들어, 공지된 서열은 전체 게놈, 염색체, 또는 그의 임의의 분절일 수 있다. 기준 서열은 전형적으로 적어도 약 20개, 적어도 약 50개, 적어도 약 100개, 적어도 약 200개, 적어도 약 250개, 적어도 약 300개, 적어도 약 350개, 적어도 약 400개, 적어도 약 450개, 적어도 약 500개, 적어도 약 1000개, 또는 1000개 초과의 뉴클레오티드를 포함한다. 기준 서열은 게놈 또는 염색체의 단일한 연속 서열과 정렬될 수 있거나, 또는 게놈 또는 염색체의 상이한 영역들과 정렬되는 비-연속 분절을 포함할 수 있다. 예시적인 기준 서열은, 예를 들어, 인간 게놈, 예컨대 hG19 및 hG38을 포함한다.
샘플. 본원에서 사용된 바와 같이, "샘플"은 본원에 개시된 방법 및/또는 시스템에 의해 분석될 수 있는 임의의 것을 의미한다.
시퀀싱. 본원에서 사용된 바와 같이, "시퀀싱"은 생체분자, 예를 들어, 핵산, 예컨대 DNA 또는 RNA의 서열 (예를 들어, 단량체 단위의 신원 및 순서)을 결정하는데 사용되는 다수의 기술 중 임의의 것을 지칭한다. 시퀀싱 방법의 예는 표적화된 시퀀싱, 단일 분자 실시간 시퀀싱, 엑손 또는 엑솜 시퀀싱, 인트론 시퀀싱, 전자 현미경-기반 시퀀싱, 패널 시퀀싱, 트랜지스터-매개 시퀀싱, 직접 시퀀싱, 무작위 샷건 시퀀싱, 생어 디데옥시 종결 시퀀싱, 전체-게놈 시퀀싱, 혼성화에 의한 시퀀싱, 파이로시퀀싱, 모세관 전기영동, 듀플렉스 시퀀싱, 사이클 시퀀싱, 단일-염기 확장 시퀀싱, 고체-상 시퀀싱, 고-처리량 시퀀싱, 대규모 병렬 서명 시퀀싱, 에멀션 PCR, 더 낮은 변성 온도에서의 공동-증폭-PCR (COLD-PCR), 멀티플렉스 PCR, 가역적인 염료 종결인자에 의한 시퀀싱, 쌍을 이룬 단부 시퀀싱, 단기 시퀀싱, 엑소뉴클레아제 시퀀싱, 라이게이션에 의한 시퀀싱, 짧은 판독물 시퀀싱, 단일-분자 시퀀싱, 합성에 의한 시퀀싱, 실시간 시퀀싱, 역-종결인자 시퀀싱, 나노포어 시퀀싱, 454 시퀀싱, 솔렉사 게놈 애널라이저(Solexa Genome Analyzer) 시퀀싱, SOLiD™ 시퀀싱, MS-PET 시퀀싱, 및 이들의 조합을 포함하지만, 이에 제한되지 않는다. 일부 실시양태에서, 시퀀싱은 유전자 분석기, 예를 들어, 많은 것들 중에서도, 일루미나, 인크.(Illumina, Inc.), 퍼시픽 바이오사이언시즈, 인크.(Pacific Biosciences, Inc.), 또는 어플라이드 바이오시스템즈/써모 피셔 사이언티픽(Applied Biosystems/Thermo Fisher Scientific)으로부터 시판되는 유전자 분석기에 의해 수행될 수 있다.
서열 정보 : 본원에서 사용된 바와 같이, 핵산 중합체의 맥락에서의 "서열 정보"는 그 중합체 내의 단량체 단위 (예를 들어, 뉴클레오티드 등)의 순서 및 신원을 의미한다.
공유된 패밀리. 시퀀싱 판독물의 패밀리로의 그룹화가 제1 샘플 및 제2 샘플에 대해 독립적으로 수행되는 경우, 용어 "공유된 패밀리"는 그의 그룹화 특색이 제2 샘플 내의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 제1 샘플 내의 패밀리를 지칭한다. 대안적으로, 시퀀싱 판독물의 패밀리로의 그룹화가 제1 샘플 및 제2 샘플 양쪽 모두에 대해 함께 수행되는 경우, 용어 "공유된 패밀리"는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하는 패밀리를 지칭한다.
일부 실시양태에서, 적어도 2개의 샘플의 오염이 있는 경우, (단일 샘플의) 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 적어도 2개의 샘플에서 검출될 수 있다. 이러한 실시양태에서, 시퀀싱 판독물의 그룹화가 각각의 샘플에 대해 독립적으로 수행되는 경우, 각각의 샘플 내에서 검출된 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 그 샘플에서 별개의 패밀리로서 그룹화될 것이다. 이러한 실시양태에서, 공유된 패밀리는 그의 그룹화 특색이 제2 샘플 내의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 제1 샘플 내의 패밀리를 지칭한다.
대안적으로, 다른 실시양태에서, 시퀀싱 판독물의 그룹화가 적어도 2개의 샘플 전부에 대해 함께 수행되는 경우, 적어도 2개의 샘플에서 검출된 단일 폴리뉴클레오티드 분자로부터 유래된 시퀀싱 판독물은 단일 패밀리로 그룹화될 것이다. 이러한 실시양태에서, 공유된 패밀리는 적어도 2개의 샘플로부터의 적어도 하나의 시퀀싱 판독물을 갖는 패밀리를 지칭한다.
일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 유동 셀 또는 상이한 유동 셀 내에 있을 수 있다.
공유된 패밀리 식별자. 본원에서 사용된 바와 같이, 용어 "공유된 패밀리 식별자"는 제2 샘플 내의 패밀리의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플 내의 패밀리의 패밀리 식별자를 지칭하며 - 즉, 제1 샘플 내의 패밀리의 그룹화 특색은 제2 샘플 내의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일하다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 유동 셀 내에 또는 상이한 유동 셀 내에 있을 수 있다.
단일 뉴클레오티드 다형성. 본원에서 사용된 바와 같이, 용어 "단일 뉴클레오티드 다형성" 또는 "SNP"는 상호교환가능하게 사용된다. 이들은 게놈 내의 특이적 위치에서 발생하는 단일 뉴클레오티드 내의 변이를 지칭하고, 여기서 각각의 변이는 집단 내에서 일부 인식가능한 정도로 (예를 들어, 약 1% 초과) 존재한다.
단일 뉴클레오티드 변이체. 본원에서 사용된 바와 같이, "단일 뉴클레오티드 변이체" 또는 "SNV"는 게놈 내의 특이적 위치에서 발생하는 단일 뉴클레오티드 내의 돌연변이 또는 변이를 의미한다.
체세포 돌연변이. 본원에서 사용된 바와 같이, 용어 "체세포 돌연변이" 또는 "체세포 변이"는 상호교환가능하게 사용된다. 이들은 임신 후에 발생하는 게놈 내의 돌연변이를 지칭한다. 체세포 돌연변이는 생식 세포를 제외한 신체의 임의의 세포에서 발생할 수 있고, 따라서, 자손에게 계대되지 않는다.
대상체. 본원에서 사용된 바와 같이, "대상체"는 동물, 예컨대 포유동물 종 (예를 들어, 인간) 또는 조류 (예를 들어, 새) 종, 또는 기타 유기체, 예컨대 식물을 지칭한다. 보다 구체적으로, 대상체는 척추동물, 예를 들어, 포유동물, 예컨대 마우스, 영장류, 유인원 또는 인간일 수 있다. 동물은 농장 동물 (예를 들어, 육우, 젖소, 가금류, 말, 돼지 등), 스포츠 동물, 및 반려 동물 (예를 들어, 애완동물 또는 지원 동물)을 포함한다. 대상체는 건강한 개체, 질환 또는 질환 소인이 있거나 질환 또는 질환 소인이 있는 것으로 추정되는 개체, 또는 요법을 필요로 하거나 요법을 필요로 하는 것으로 추정되는 개체일 수 있다. 용어 "개체" 또는 "환자"는 "대상체"와 상호교환가능하도록 의도된다.
예를 들어, 대상체는 암에 걸린 것으로 진단되었고/거나, 암 요법을 받을 예정이고/거나, 적어도 하나의 암 요법을 받은 개체일 수 있다. 대상체는 암이 완화 중일 수 있다. 또 다른 예로서, 대상체는 자가면역 질환에 걸린 것으로 진단된 개체일 수 있다. 또 다른 예에서, 대상체는 질환, 예를 들어, 암, 자가면역 질환에 걸린 것으로 진단되었을 수 있거나 이에 걸렸을 것으로 추정될 수 있는, 임신 중이거나 또는 임신 계획이 있는 여성 개체일 수 있다.
실질적으로 동일한. 본원에서 사용된 바와 같이, 용어 "실질적으로 동일한"은 99.9% 동일하거나, 적어도 95% 동일하거나, 적어도 90% 동일하거나, 적어도 85% 동일하거나, 적어도 80% 동일하거나, 적어도 75% 동일하거나, 적어도 70% 동일하거나, 적어도 60% 동일하거나 또는 적어도 50% 동일한 2개의 상이한 실체를 지칭한다. 예를 들어, 제1 샘플 내의 패밀리가 제2 샘플 내의 패밀리와 실질적으로 동일한 경우, 제1 샘플 내의 패밀리의 그룹화 특색은 제2 샘플 내의 패밀리의 그룹화 특색과 99.9% 동일하거나, 적어도 95% 동일하거나, 적어도 90% 동일하거나, 적어도 85% 동일하거나, 적어도 80% 동일하거나, 적어도 75% 동일하거나, 적어도 70% 동일하거나, 적어도 60% 동일하거나 또는 적어도 50% 동일하다. 실체가 분자 바코드인 경우, 용어 "실질적으로 동일한"은 1 미만, 2 미만, 3 미만, 4 미만, 5 미만, 6 미만, 7 미만 또는 8 미만의 해밍 거리 또는 편집물 거리를 갖는 2개의 상이한 분자 바코드를 지칭한다. 실체가 시작 영역 또는 종료 영역인 경우, 용어 "실질적으로 동일한"은 1 bp 내, 2 bp 내, 3 bp 내, 4 bp 내, 5 bp 내, 6 bp 내, 7 bp 내, 8 bp 내, 9 bp 내, 10 bp 내, 11 bp 내, 15 bp 내, 20 bp 내 또는 25 bp 내인 2개의 상이한 영역을 지칭한다. 실체가 폴리뉴클레오티드의 길이인 경우, 용어 "실질적으로 동일한"은 1 bp 내, 2 bp 내, 3 bp 내, 4 bp 내, 5 bp 내, 6 bp 내, 7 bp 내, 8 bp 내, 9 bp 내, 10 bp 내, 11 bp 내, 15 bp 내, 20 bp 내, 25 bp 내, 30 bp 내, 40 bp 내 또는 50 bp 내인 2개의 상이한 길이를 지칭한다.
임계치. 본원에서 사용된 바와 같이, "임계치"는 임계치에 대한 그들의 관련에 따라 상이한 샘플에 대한 동일한 파라미터의 실험적으로 결정된 값을 특성화하는데 사용되는 미리 결정된 값을 지칭한다. 예를 들어, p-값에 대한 임계치는 0 내지 1의 임의의 미리 결정된 값을 지칭할 수 있고, 핵산 변이체의 기원을 확인하는데 사용된다.
트레이닝 샘플. 본원에서 사용된 바와 같이, "트레이닝 샘플"은 오염의 존재 또는 부재에 대해 분석되는 제1 샘플 및/또는 제2 샘플과 유사한 특성, 파라미터 및/또는 조성을 갖는 샘플의 세트를 지칭한다.
변이체. 본원에서 사용된 바와 같이, "변이체"는 대립유전자로 지칭될 수 있다. 변이체는 대립유전자가 이형접합성인지 동형접합성인지 여부에 따라, 통상적으로 50% (0.5) 또는 100% (1)의 빈도로 존재한다. 예를 들어, 생식세포계열 변이체는 유전되며, 통상적으로 0.5 또는 1의 빈도를 갖는다. 그러나, 체세포 변이체는 획득된 변이체이며, 통상적으로 약 0.5 미만의 빈도를 갖는다. 유전자 유전자좌의 메이저 및 마이너 대립유전자는 각각 유전자좌가 기준 서열의 뉴클레오티드에 의해 점유되는 유전자좌, 및 기준 서열과는 상이한 변이체 뉴클레오티드를 보유하는 핵산을 지칭한다. 유전자좌에서의 측정은 대립유전자가 샘플에서 관찰되는 빈도를 측정하는 대립유전자 분율 (AF)의 형태를 취할 수 있다.
상세한 설명
I. 일반적 개관
분석용 샘플을 프로세싱하는데 있어서, 샘플에 존재하는 분자의 또 다른 샘플에의 전파를 통해 동일한 배치에서 또는 가까운 시간에 및 특별한 근접으로 프로세싱되고 있는 샘플의 화학적 또는 디지털 교차-오염에 의한 가양성 결과를 도입하는 것이 가능하다. 오염 또는 제2 게놈 (즉, 대상체의 게놈 이외 및 예를 들어, 이식물, 수혈, 또는 태아로부터 발생함)을 함유하는 샘플로부터의 무세포 핵산이 검정되는 경우, 샘플은 추가적인 수동 검토 또는 심지어 추가적인 시퀀싱 실행이 수행될 필요가 있을 수 있다.
본 개시내용은 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하기 위한 방법 및 시스템을 제공한다.
한 측면에서, 본 개시내용은 (a) 컴퓨터 시스템에 의해, 제1 및 제2 샘플로부터의 복수의 시퀀싱 판독물을 포함하는 서열 정보에 접근하고; (b) 컴퓨터 시스템에 의해, 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 컴퓨터 시스템에 의해, 서열 판독물의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 컴퓨터 시스템에 의해, 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 컴퓨터 시스템에 의해, 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 컴퓨터 시스템에 의해, 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 컴퓨터 시스템에 의해, 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 제1 및 제2 샘플로부터의 복수의 시퀀싱 판독물을 포함하는 서열 정보를 수득하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 서열 판독물의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (iv) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (v) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (vi) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (vii) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
일부 실시양태에서, 시퀀싱 전에 또는 서열 정보에 접근하기/서열 정보를 수득하기 전에, 폴리뉴클레오티드의 세트는 태그부착되어 태그부착된 폴리뉴클레오티드를 생성시키고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함한다. 이러한 실시양태에서, 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물은 복수의 패밀리로 그룹화되고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 태그부착된 폴리뉴클레오티드 또는 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
도 1은 본 개시내용의 실시양태에 따라 2개의 상이한 대상체로부터 수득된 2개의 샘플 사이의 오염의 존재 또는 부재를 검출하는 방법의 흐름도 제시이다. 시퀀싱 판독물의 그룹화 특색, 이에 의해 패밀리의 그룹화 특색은 2개의 샘플 사이의 오염의 존재 또는 부재를 결정하는데 사용된다. 시퀀싱 판독물의 그룹화 특색은 하기 중 적어도 하나를 전형적으로 포함한다: 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이. 101에서, 샘플 (즉, 제1 샘플 및 제2 샘플)로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여 복수의 시퀀싱 판독물을 생산한다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 유동 셀에서 시퀀싱된다. 일부 실시양태에서, 제2 샘플은 제1 샘플과는 상이한 유동 셀에서 시퀀싱된다. 일부 실시양태에서, 제1 샘플은 제2 샘플과는 상이한 시간에 프로세싱된다. 예를 들어, 제2 샘플은 제1 샘플이 프로세싱된 후 적어도 1분, 적어도 30분, 적어도 1시간, 적어도 2시간, 적어도 3시간 또는 적어도 4시간에 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 상이한 날에 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 샘플의 배치 내에 있다. 일부 실시양태에서, 제2 샘플은 제1 샘플과 동일한 시약의 배치로 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 액체 취급 로봇에 의해 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 실험실 인원에 의해 프로세싱된다.
일부 실시양태에서, 제1 샘플 및 제2 샘플은 상이한 지리적 위치에서 프로세싱된다. 일부 실시양태에서, 제1 샘플은 대상체의 체액으로부터 수득되고, 제2 샘플은 또 다른 대상체의 체액으로부터 수득된다. 일부 실시양태에서, 샘플은 혈액이다. 일부 실시양태에서, 샘플은 혈장이다. 일부 실시양태에서, 샘플은 혈청이다. 일부 실시양태에서, 폴리뉴클레오티드는 무세포 폴리뉴클레오티드이다. 일부 실시양태에서, 무세포 폴리뉴클레오티드는 무세포 DNA이다. 일부 실시양태에서, 대상체 중 적어도 하나는 질환, 예컨대 암을 갖는다.
일부 실시양태에서, 폴리뉴클레오티드의 세트는 시퀀싱 전에 일련의 라이브러리 제조 단계를 거친다. 라이브러리 제조 단계는 말단 복구, 어댑터 (태그 - 즉, 분자 바코드를 포함함)의 라이게이션, 태그부착된 폴리뉴클레오티드의 증폭 및/또는 대상체의 게놈 또는 트랜스크립톰으로부터의 영역에 대한 증폭된 자손 폴리뉴클레오티드의 적어도 부분의 선택적 풍부화를 포함한다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 분자 바코드를 포함하는 태그로 태그부착되어, 태그부착된 폴리뉴클레오티드의 세트를 생성시킨다. 일부 실시양태에서, 샘플의 태그부착된 폴리뉴클레오티드의 세트는 고유하게 태그부착된다. 일부 실시양태에서, 샘플의 태그부착된 폴리뉴클레오티드의 세트는 고유하지 않게 태그부착된다. 일부 실시양태에서, 방법은 시퀀싱 전에 하나 이상의 샘플 색인을 증폭된 자손 폴리뉴클레오티드의 한쪽 또는 양쪽 단부에 부착시키는 것을 추가로 포함하고, 여기서 샘플 색인은 제1 샘플 및 제2 샘플을 구별한다.
폴리뉴클레오티드의 시작 영역, 종료 영역 및/또는 길이를 결정하기 위해, 102에서, 복수의 시퀀싱 판독물은 일반적으로 기준 서열에 대해 정렬된다. 기준 서열은 인간 게놈일 수 있다. 103에서, 폴리뉴클레오티드의 (i) 태그 (폴리뉴클레오티드가 태그부착되는 경우), (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 각각의 샘플 내의 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드 또는 태그부착된 자손 폴리뉴클레오티드 (폴리뉴클레오티드가 분자 바코드로 태그부착되는 경우)의 시퀀싱 판독물을 포함한다. 일부 실시양태에서, 시작 영역은 시퀀싱 판독물의 5' 단부가 기준 서열에 대해 정렬하기를 시작하도록 결정된 시퀀싱 판독물의 게놈 출발 위치를 포함하고, 종료 영역은 시퀀싱 판독물의 3' 단부가 기준 서열에 대해 정렬하기를 정지하도록 결정된 시퀀싱 판독물의 게놈 정지 위치를 포함한다. 일부 실시양태에서, 시작 영역은 기준 서열에 대해 정렬하는 시퀀싱 판독물의 5' 단부에 처음 1개, 처음 2개, 처음 5개, 처음 10개, 처음 15개, 처음 20개, 처음 25개, 처음 30개 또는 적어도 처음 30개의 염기 위치를 포함한다. 일부 실시양태에서, 종료 영역은 기준 서열에 대해 정렬하는 시퀀싱 판독물의 3' 단부에 마지막 1개, 마지막 2개, 마지막 5개, 마지막 10개, 마지막 15개, 마지막 20개, 마지막 25개, 마지막 30개 또는 적어도 마지막 30개의 염기 위치를 포함한다. 일부 실시양태에서, 태그는 폴리뉴클레오티드 분자의 양쪽 단부에 부착된 하나 이상의 분자 바코드를 포함한다. 일부 실시양태에서, 하나 이상의 분자 바코드는 적어도 2개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 8개, 적어도 10개, 적어도 15개 또는 적어도 20개의 뉴클레오티드의 길이이다. 일부 실시양태에서, 샘플의 폴리뉴클레오티드는 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 50개, 적어도 100개, 적어도 500개, 적어도 1000개, 적어도 5000개, 적어도 10,000개, 적어도 50,000개 또는 적어도 100,000개의 상이한 태그/분자 바코드로 태그부착된다.
104에서, 패밀리 식별자는 그룹화 특색에 기초하여 복수의 패밀리에 대해 생성된다. 105에서, 패밀리 식별자는 공유된 패밀리 식별자의 세트에 대해 스크리닝되고, 여기서 공유된 패밀리 식별자는 제2 샘플 내의 패밀리의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플 내의 패밀리의 패밀리 식별자이다 - 즉, 제1 샘플 내의 패밀리의 그룹화 특색은 제2 샘플 내의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일하다.
106에서, 샘플을 또 다른 샘플로 오염된 것으로 또는 그렇지 않은 것으로 분류하기 위해 공유된 패밀리 식별자의 세트의 정량적 측정치가 결정된다. 일부 실시양태에서, 공유된 패밀리 식별자의 세트의 정량적 측정치는 제1 샘플 내의 공유된 패밀리 식별자의 수이다. 일부 실시양태에서, 공유된 패밀리 식별자의 세트의 정량적 측정치는 제1 샘플 내의 공유된 패밀리 식별자의 수 대 제1 샘플 내의 패밀리 식별자의 총 수의 비를 포함한다. 일부 실시양태에서, 공유된 패밀리 식별자의 세트의 정량적 측정치는, 제1 샘플의 패밀리 내의 시퀀싱 판독물의 수가 제2 샘플의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 제1 샘플 내의 공유된 패밀리 식별자를 제외한다. 일부 실시양태에서, 제1 샘플 내의 공유된 패밀리 식별자의 세트의 정량적 측정치는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 공유된 패밀리 식별자를 제외한다. 일부 실시양태에서, 제1 샘플 내의 패밀리 식별자의 총 수는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 패밀리 식별자를 제외한다. 일부 실시양태에서, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍은 (a) 복수의 샘플을 제공하고, 여기서 복수의 샘플은 제1 샘플 및/또는 제2 샘플과 동일하거나 실질적으로 동일한 게놈 출발 위치 및 게놈 정지 위치의 분포를 포함하고; (b) 복수의 샘플 내의 패밀리 식별자를 결정하고; (c) 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리 식별자의 수를 정량하고; (d) 패밀리 식별자의 수가 세트 임계치를 초과하는 경우 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 것으로 범주화하는 것에 의해 결정된다. 일부 실시양태에서, 여기서 복수의 샘플은 제1 샘플 또는 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 및 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플과 동일한 유동 셀에서 프로세싱된 샘플을 포함한다. 일부 실시양태에서, 복수의 샘플은 트레이닝 샘플을 포함한다. 일부 실시양태에서, 세트 임계치는 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개 또는 적어도 60개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 5개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 10개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 15개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 20개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 30개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 40개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 50개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 적어도 10-3개, 적어도 10-4개, 적어도 10-5개, 적어도 10-6개, 적어도 10-7개, 적어도 10-8개, 또는 적어도 10-9개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-4개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-5개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-6개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-7개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-8개일 수 있다.
107에서, 제1 샘플은, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류되거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류된다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 적어도 0.001%, 적어도 0.005%, 적어도 0.01%, 적어도 0.05%, 적어도 0.1%, 적어도 0.5%, 적어도 1%, 적어도 2%, 적어도 5%, 또는 적어도 10%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.01%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.05%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.1%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.5%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 1%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 2%이다.
일부 실시양태에서, 제1 샘플이 제2 샘플로 오염된 것으로 분류되는 경우라도, 방법은 체세포 변이의 검출 전에 제1 샘플의 공유된 패밀리 식별자의 시퀀싱 판독물을 제외함으로써 제1 샘플의 폴리뉴클레오티드의 적어도 하나의 체세포 변이의 신뢰성 있는 검출을 추가로 허용할 수 있다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나로부터의 정보에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 공유된 패밀리는 제2 샘플의 패밀리와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리이고; (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여, 2개의 샘플의 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 공유된 패밀리는 제1 샘플 및 제2 샘플로부터의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고; 제1 샘플을, 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
일부 실시양태에서, 시퀀싱 전에, 폴리뉴클레오티드의 세트는 태그부착되어 태그부착된 폴리뉴클레오티드를 생성시킬 수 있고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함한다. 이러한 실시양태에서, 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물은 복수의 패밀리로 그룹화되고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 공유된 패밀리는 제2 샘플의 패밀리와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리이고; (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
또 다른 측면에서, 본 개시내용은 (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 태그로부터의 정보에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 공유된 패밀리는 제1 샘플 및 제2 샘플로부터의 시퀀싱 판독물을 포함하고; (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고; (f) 제1 샘플을, 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법을 제공한다.
도 2는 본 개시내용의 실시양태에 따라 2개의 상이한 대상체로부터 수득된 2개의 샘플 사이의 오염의 존재 또는 부재를 검출하는 방법의 흐름도 제시이다. 시퀀싱 판독물의 그룹화 특색, 이에 의해 패밀리의 그룹화 특색은 2개의 샘플 사이의 오염의 존재 또는 부재를 결정하는데 사용된다. 시퀀싱 판독물의 그룹화 특색은 하기 중 적어도 하나를 전형적으로 포함한다: 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이. 201에서, 샘플 (즉, 제1 샘플 및 제2 샘플)로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산한다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 유동 셀에서 시퀀싱된다. 일부 실시양태에서, 제2 샘플은 제1 샘플과는 상이한 유동 셀에서 시퀀싱된다. 일부 실시양태에서, 제1 샘플은 제2 샘플과는 상이한 시간에 프로세싱된다. 예를 들어, 제2 샘플은 제1 샘플이 프로세싱된 후 적어도 1분, 적어도 30분, 적어도 1시간, 적어도 2시간, 적어도 3시간 또는 적어도 4시간에 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 상이한 날에 프로세싱된다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 동일한 샘플의 배치 내에 있다. 일부 실시양태에서, 제2 샘플은 제1 샘플과 동일한 시약의 배치로 프로세싱된다.
일부 실시양태에서, 제1 샘플 및 제2 샘플은 상이한 지리적 위치에서 프로세싱된다. 일부 실시양태에서, 제1 샘플은 대상체의 체액으로부터 수득되고, 제2 샘플은 또 다른 대상체의 체액으로부터 수득된다. 일부 실시양태에서, 샘플은 혈액이다. 일부 실시양태에서, 샘플은 혈장이다. 일부 실시양태에서, 샘플은 혈청이다. 일부 실시양태에서, 폴리뉴클레오티드는 무세포 폴리뉴클레오티드이다. 일부 실시양태에서, 무세포 폴리뉴클레오티드는 무세포 DNA이다. 일부 실시양태에서, 대상체 중 적어도 하나는 질환, 예컨대 암을 갖는다.
일부 실시양태에서, 폴리뉴클레오티드의 세트는 시퀀싱 전에 일련의 라이브러리 제조 단계를 거친다. 라이브러리 제조 단계는 말단 복구, 어댑터 (태그 - 즉, 분자 바코드를 포함함)의 라이게이션, 태그부착된 폴리뉴클레오티드의 증폭 및/또는 대상체의 게놈 또는 트랜스크립톰으로부터의 영역에 대한 증폭된 자손 폴리뉴클레오티드의 적어도 부분의 선택적 풍부화를 포함한다. 일부 실시양태에서, 제1 샘플 및 제2 샘플은 분자 바코드를 포함하는 태그로 태그부착되어, 태그부착된 폴리뉴클레오티드의 세트를 생성시킨다. 일부 실시양태에서, 샘플의 태그부착된 폴리뉴클레오티드의 세트는 고유하게 태그부착된다. 일부 실시양태에서, 샘플의 태그부착된 폴리뉴클레오티드의 세트는 고유하지 않게 태그부착된다. 일부 실시양태에서, 방법은 시퀀싱 전에 하나 이상의 샘플 색인을 증폭된 자손 폴리뉴클레오티드의 한쪽 또는 양쪽 단부에 부착시키는 것을 추가로 포함하고, 여기서 샘플 색인은 제1 샘플 및 제2 샘플을 구별한다.
폴리뉴클레오티드의 시작 영역, 종료 영역 및/또는 길이를 결정하기 위해, 202에서, 복수의 시퀀싱 판독물은 기준 서열에 대해 정렬된다. 기준 서열은 인간 게놈 (예를 들어, hg18, hg19)일 수 있다. 203에서, 폴리뉴클레오티드의 (i) 태그 (폴리뉴클레오티드가 태그부착되는 경우), (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 각각의 샘플 내의 복수의 시퀀싱 판독물은 복수의 패밀리로 그룹화되고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드 또는 태그부착된 자손 폴리뉴클레오티드 (폴리뉴클레오티드가 분자 바코드로 태그부착되는 경우)의 시퀀싱 판독물을 포함한다. 일부 실시양태에서, 시작 영역은 시퀀싱 판독물의 5' 단부가 기준 서열에 대해 정렬하기를 시작하도록 결정된 시퀀싱 판독물의 게놈 출발 위치를 포함하고, 종료 영역은 시퀀싱 판독물의 3' 단부가 기준 서열에 대해 정렬하기를 정지하도록 결정된 시퀀싱 판독물의 게놈 정지 위치를 포함한다. 일부 실시양태에서, 시작 영역은 기준 서열에 대해 정렬하는 시퀀싱 판독물의 5' 단부에 처음 1개, 처음 2개, 처음 5개, 처음 10개, 처음 15개, 처음 20개, 처음 25개, 처음 30개 또는 적어도 처음 30개의 염기 위치를 포함한다. 일부 실시양태에서, 종료 영역은 기준 서열에 대해 정렬하는 시퀀싱 판독물의 3' 단부에 마지막 1개, 마지막 2개, 마지막 5개, 마지막 10개, 마지막 15개, 마지막 20개, 마지막 25개, 마지막 30개 또는 적어도 마지막 30개의 염기 위치를 포함한다. 일부 실시양태에서, 태그는 폴리뉴클레오티드 분자의 양쪽 단부에 부착된 하나 이상의 분자 바코드를 포함한다. 일부 실시양태에서, 하나 이상의 분자 바코드는 적어도 2개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 8개, 적어도 10개, 적어도 15개 또는 적어도 20개의 뉴클레오티드의 길이이다. 일부 실시양태에서, 샘플의 폴리뉴클레오티드는 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 50개, 적어도 100개, 적어도 500개, 적어도 1000개, 적어도 5000개, 적어도 10,000개, 적어도 50,000개 또는 적어도 100,000개의 상이한 태그/분자 바코드로 태그부착된다.
204에서, 복수의 패밀리는 공유된 패밀리의 세트에 대한 그룹화 특색에 기초하여 스크리닝되고, 여기서 공유된 패밀리는 제2 샘플 내의 패밀리와 동일하거나 실질적으로 동일한 제1 샘플 내의 패밀리이다 - 즉, 제1 샘플 내의 패밀리의 그룹화 특색은 제2 샘플 내의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일하다.
205에서, 샘플을 또 다른 샘플로 오염된 것으로 또는 그렇지 않은 것으로 분류하기 위해 공유된 패밀리의 세트의 정량적 측정치가 결정된다. 일부 실시양태에서, 공유된 패밀리의 세트의 정량적 측정치는 제1 샘플 내의 공유된 패밀리의 수이다. 일부 실시양태에서, 공유된 패밀리의 세트의 정량적 측정치는 제1 샘플 내의 공유된 패밀리의 수 대 제1 샘플 내의 패밀리의 총 수의 비를 포함한다. 일부 실시양태에서, 공유된 패밀리의 세트의 정량적 측정치는, 제1 샘플의 패밀리 내의 시퀀싱 판독물의 수가 제2 샘플의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 제1 샘플 내의 공유된 패밀리를 제외한다. 일부 실시양태에서, 제1 샘플 내의 공유된 패밀리의 세트의 정량적 측정치는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 공유된 패밀리를 제외한다. 일부 실시양태에서, 제1 샘플 내의 패밀리의 총 수는 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 패밀리를 제외한다. 일부 실시양태에서, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍은 (a) 복수의 샘플을 제공하고, 여기서 복수의 샘플은 제1 샘플 및/또는 제2 샘플과 동일하거나 실질적으로 동일한 게놈 출발 위치 및 게놈 정지 위치의 분포를 포함하고; (b) 복수의 샘플 내의 패밀리를 결정하고; (c) 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리의 수를 정량하고; (d) 패밀리의 수가 세트 임계치를 초과하는 경우 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 것으로 범주화하는 것에 의해 결정된다. 일부 실시양태에서, 여기서 복수의 샘플은 제1 샘플 또는 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플 및 제2 샘플을 제외한다. 일부 실시양태에서, 복수의 샘플은 제1 샘플과 동일한 유동 셀에서 프로세싱된 샘플을 포함한다. 일부 실시양태에서, 복수의 샘플은 트레이닝 샘플을 포함한다. 일부 실시양태에서, 세트 임계치는 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개 또는 적어도 60개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 5개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 10개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 15개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 20개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 30개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 40개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 약 50개의 패밀리이다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 적어도 10-3개, 적어도 10-4개, 적어도 10-5개, 적어도 10-6개, 적어도 10-7개, 적어도 10-8개, 또는 적어도 10-9개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-4개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-5개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-6개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-7개일 수 있다. 일부 실시양태에서, 세트 임계치는 복수의 샘플에서 관찰된 총 패밀리의 약 10-8개일 수 있다.
206에서, 제1 샘플은, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류되거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류된다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 적어도 0.001%, 적어도 0.005%, 적어도 0.01%, 적어도 0.05%, 적어도 0.1%, 적어도 0.5%, 적어도 1%, 적어도 2%, 적어도 5%, 또는 적어도 10%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.01%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.05%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.1%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 0.5%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 1%이다. 일부 실시양태에서, 미리 결정된 임계치는 제1 샘플 내의 패밀리의 총 수의 약 2%이다.
일부 실시양태에서, 제1 샘플이 제2 샘플로 오염된 것으로 분류되는 경우라도, 방법은 제1 샘플의 공유된 패밀리의 시퀀싱 판독물을 제외함으로써 제1 샘플의 폴리뉴클레오티드의 적어도 하나의 체세포 유전자 변이를 추가로 검출할 수 있고, 여기서 제1 샘플은 제2 샘플로 오염된 것으로 분류된다.
도 3은 본 개시내용의 실시양태에 따라 시퀀싱 판독물을 패밀리로 그룹화하고, 이에 의해 2개의 샘플 (샘플 1 및 샘플 2) 사이의 오염의 존재 또는 부재를 검출하는 것을 예시하는 개략도이다. 301은 샘플 1 및 샘플 2의 시퀀싱 판독물이 정렬되는 기준 서열 (예를 들어, hG18 또는 hG19)을 나타낸다. 쉽게 예시하기 위해, 서열분석기로부터의 쌍을 이룬 단부 시퀀싱에 의해 생성된 시퀀싱 판독물의 판독물 1 및 판독물 2는 단일 쌍을 이룬 단부 시퀀싱 판독물로서 제시되고, 여기서 판독물 1 및 판독물 2 서열 판독물은 함께 병합된다. 선의 양쪽 단부 상의 패턴-채워진 박스를 갖는 선은 쌍을 이룬 단부 시퀀싱 판독물 (판독물 1 + 판독물 2)을 나타낸다. 패턴으로 채워진 박스는 폴리뉴클레오티드의 양쪽 단부에 부착된 분자 바코드를 나타낸다. 각각의 상이한 패턴은 상이한 분자 바코드 서열을 나타낸다. 쌍을 이룬 단부 시퀀싱 판독물은 그룹화 특색에 기초하여 패밀리로 그룹화된다. 이 실시양태에서, 그룹화 특색은 폴리뉴클레오티드의 (i) 태그 (즉 분자 바코드); (ii) 출발 위치 및 (iii) 정지 위치이다.
302A, 303A, 304A 및 305A는 그러한 패밀리의 그룹화 특색이 각각 샘플 2의 패밀리 302B, 303B, 304B 및 305B의 그룹화 특색과 동일하거나 실질적으로 동일하기 때문에 샘플 1의 공유된 패밀리이다. 유사하게, 302B, 303B, 304B 및 305B는 그러한 패밀리의 그룹화 특색이 각각 샘플 1의 패밀리 302A, 303A, 304A 및 305A의 그룹화 특색과 동일하거나 실질적으로 동일하기 때문에 샘플 2의 공유된 패밀리이다. 306은 게놈 출발 및 정지 위치의 쌍을 나타낸다. 306에서, 샘플 1은 3개의 패밀리를 갖고, 샘플 2는 4개의 패밀리를 가지며, 따라서 306에서 패밀리의 총 수는 7개이다. 이 실시양태에서, 게놈 출발 및 게놈 정지 위치의 특정한 쌍이 과다-제시된 쌍인지를 결정하기 위해, 세트 임계치 값은 6이다. 306에서 패밀리의 총 수 (즉, 7개)는 세트 임계치 초과이기 때문에, 306은 게놈 출발 및 정지 위치의 과다-제시된 쌍이다.
시나리오 I: 샘플 1이 샘플 2로 오염되는지의 결정.
샘플 1 내의 공유된 패밀리의 수는 4개이며 (302A, 303A, 304A 및 305A), 이들 중 2개의 패밀리 (302A 및 303A)는 게놈 출발 및 게놈 정지 위치의 과다-제시된 쌍 내에 있다. 이 실시양태에서, 샘플 1 내의 공유된 패밀리의 정량적 측정치를 결정하기 위해, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 샘플 1의 공유된 패밀리는 제외된다. 306은 과다-제시된 쌍이기 때문에, 2개의 패밀리 (302A 및 303A)는 공유된 패밀리의 정량적 측정치를 계산하는데 있어서 제외된다. 따라서, 샘플 1에 대한 공유된 패밀리의 정량적 측정치는 2이다. 이 실시양태에서, 정량적 측정치는 또한 샘플 1의 패밀리 내의 시퀀싱 판독물의 수가 샘플 2의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 샘플 1 내의 공유된 패밀리를 제외한다. 이 실시양태에서, 샘플 1의 공유된 패밀리 (304A 및 305A)는 각각 3개의 쌍을 이룬 단부 시퀀싱 판독물 (즉, 6개의 시퀀싱 판독물)을 갖는 반면, 샘플 2의 상응하는 패밀리 (304B 및 305B)는 각각 1개의 쌍을 이룬 단부 시퀀싱 판독물 (즉, 2개의 시퀀싱 판독물)을 갖는다. 따라서, 공유된 패밀리 (304A 및 305A)는 정량적 측정치를 계산하는 것으로부터 제외된다. 따라서, 샘플 1 내의 공유된 패밀리의 정량적 측정치는 0이다. 샘플 1을 샘플 2로 오염된 것으로 분류하기 위해, 공유된 패밀리의 정량적 측정치는 미리 결정된 임계치 초과여야 한다. 이 실시양태에서, 미리 결정된 임계치는 총 패밀리의 0.5%이다. 정량적 측정치 (즉, 제1 샘플에 대해 0)는 미리 결정된 임계치 미만이기 때문에, 샘플 1은 샘플 2로 오염되지 않은 것으로 결정된다.
시나리오 II: 샘플 2가 샘플 1로 오염되는지의 결정
샘플 2 내의 공유된 패밀리의 수는 4개이며 (302B, 303B, 304B 및 305B), 이들 중 2개의 패밀리 (302B 및 303B)는 게놈 출발 및 게놈 정지 위치의 과다-제시된 쌍 내에 있다. 이 실시양태에서, 샘플 2 내의 공유된 패밀리의 정량적 측정치를 결정하기 위해, 게놈 출발 및 게놈 정지 위치의 과다-제시된 쌍에서의 샘플 2의 공유된 패밀리는 제외된다. 306은 과다-제시된 쌍이기 때문에, 2개의 패밀리 (302B 및 303B)는 공유된 패밀리의 정량적 측정치를 결정하는데 있어서 제외된다. 따라서, 샘플 2에 대한 공유된 패밀리의 정량적 측정치는 2이다. 이 실시양태에서, 정량적 측정치는 또한 샘플 2의 패밀리 내의 시퀀싱 판독물의 수가 샘플 1의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 샘플 2의 공유된 패밀리를 제외한다. 이 실시양태에서, 샘플 2의 공유된 패밀리 (304B 및 305B)는 각각 1개의 쌍을 이룬 단부 시퀀싱 판독물 (즉, 2개의 시퀀싱 판독물)을 갖는 반면, 샘플 1 내의 상응하는 패밀리 (304A 및 305A)는 각각 3개의 쌍을 이룬 단부 시퀀싱 판독물 (즉, 6개의 시퀀싱 판독물)을 갖는다. 따라서, 공유된 패밀리 (304A 및 305A)는 정량적 측정치를 계산하는 것으로부터 제외된다. 따라서, 샘플 2 내의 공유된 패밀리의 정량적 측정치는 2이다. 샘플 2를 샘플 1로 오염된 것으로 분류하기 위해, 샘플 2의 공유된 패밀리의 정량적 측정치는 미리 결정된 임계치 초과여야 한다. 이 실시양태에서, 미리 결정된 임계치는 총 패밀리의 0.5%이다. 샘플 2에 대해, 패밀리의 총 수는 21개이다. 이 실시양태에서, 게놈 출발 위치 및 게놈 출발 위치의 과다-제시된 쌍에서의 패밀리는 패밀리의 총 수로부터 제외된다. 게놈 출발 및 게놈 정지 위치 (306)의 과다-제시된 쌍에서의 패밀리의 수는 4개이다. 따라서, 과다-제시된 쌍에서의 패밀리를 제외한 후의 샘플 2 내의 패밀리의 총 수는 17개이다. 또한, 이 실시양태에서, 공유된 패밀리의 정량적 측정치는 공유된 패밀리인 샘플 2 내의 총 패밀리의 백분율이고, 이는 11.765% (100 *2/17)와 같으며, 이는 미리 결정된 임계치 초과이다. 따라서, 샘플 2는 샘플 1로 오염된 것으로 결정된다.
방법의 다양한 단계는 동일하거나 상이한 시간에, 동일하거나 상이한 지리적 위치, 예를 들어 국가에서, 및 동일하거나 상이한 사람 또는 실체에 의해 수행될 수 있다.
II. 방법의 일반적 특색
A. 샘플
샘플은 대상체로부터 단리된 임의의 생물학적 샘플일 수 있다. 샘플은 신체 조직, 전혈, 혈소판, 혈청, 혈장, 대변, 적혈구, 백혈구, 내피 세포, 조직 생검 (예를 들어, 공지되어 있거나 추정되는 고형 종양으로부터의 생검), 뇌척수액, 윤활액, 림프액, 복수액, 간질 또는 세포외 체액 (예를 들어, 세포간 공간으로부터의 체액), 치은액, 열구액, 골수, 흉막 삼출액, 뇌척수액, 타액, 점액, 객담, 정액, 땀, 소변을 포함할 수 있다. 샘플은 바람직하게는 체액, 특히 혈액 및 이의 분획, 및 소변이다. 이같은 샘플은 종양으로부터 쉐딩된 핵산을 포함한다. 핵산은 DNA 및 RNA를 포함할 수 있고, 이중 및 단일-가닥 형태일 수 있다. 샘플은 대상체로부터 최초로 단리된 형태일 수 있거나, 또는 성분, 예컨대 세포를 제거하거나 부가하도록, 한 성분을 또 다른 성분에 비해 풍부화하도록, 또는 핵산의 한 형태를 또 다른 형태로, 예컨대 RNA를 DNA로 또는 단일-가닥 핵산을 이중-가닥으로 전환시키도록 추가 프로세싱에 적용되었을 수 있다. 따라서, 예를 들어, 분석용 체액은 무세포 핵산, 예를 들어, 무세포 DNA (cfDNA)를 함유하는 혈장 또는 혈청이다. 일부 실시양태에서, 방법은 대상체로부터 샘플을 수득하는 것을 포함한다. 본질적으로 임의의 샘플 유형이 임의적으로 이용된다. 특정 실시양태에서, 예를 들어, 샘플은 조직, 혈액, 혈장, 혈청, 객담, 소변, 정액, 질액, 대변, 윤활액, 척수액, 타액 등이다. 전형적으로, 대상체는 포유동물 대상체 (예를 들어, 인간 대상체)이다. 일부 실시양태에서, 샘플은 혈액이다. 일부 실시양태에서, 샘플은 혈장이다. 일부 실시양태에서, 샘플은 혈청이다.
일부 실시양태에서, 대상체로부터 취한 체액의 샘플 부피는 시퀀싱 영역의 원하는 판독 깊이에 좌우된다. 예시적인 부피는 약 0.4-40 ml, 약 5-20 ml, 약 10-20 ml이다. 예를 들어, 부피는 약 0.5 ml, 약 1 ml, 약 5 ml, 약 10 ml, 약 20 ml, 약 30 ml, 약 40 ml, 또는 이를 초과하는 밀리리터일 수 있다. 샘플링된 혈장의 부피는 전형적으로 약 5 ml 내지 약 20 ml이다.
샘플은 다양한 양의 핵산을 포함할 수 있다. 전형적으로, 주어진 샘플 내의 핵산의 양은 다중 게놈 등가물과 동일시된다. 예를 들어, 약 30 ng DNA의 샘플은 약 10,000 (104)개의 일배체 인간 게놈 등가물을 함유할 수 있고, cfDNA의 경우에는, 약 2000억 (2×1011)개의 개별적인 폴리뉴클레오티드 분자를 함유할 수 있다. 유사하게, 약 100 ng의 DNA의 샘플은 약 30,000개의 일배체 인간 게놈 등가물을 함유할 수 있고, cfDNA의 경우에는 약 6000억개의 개별적인 분자를 함유할 수 있다.
일부 실시양태에서, 샘플은 상이한 공급원들, 예를 들어, 세포 및 무세포 공급원 (예를 들어, 혈액 샘플 등)으로부터의 핵산을 포함한다. 전형적으로, 샘플은 돌연변이를 보유하는 핵산을 포함한다. 예를 들어, 샘플은 생식세포계열 돌연변이 및/또는 체세포 돌연변이를 보유하는 DNA를 임의적으로 포함한다. 전형적으로, 샘플은 암-연관 돌연변이 (예를 들어, 암-연관 체세포 돌연변이)를 보유하는 DNA를 포함한다. 일부 실시양태에서, 샘플은 무세포 DNA (즉, cfDNA 샘플)를 포함한다. 일부 실시양태에서, cfDNA 샘플은 순환 종양 핵산을 포함한다.
증폭 전의 샘플 내의 무세포 핵산의 예시적인 양은 전형적으로 약 1 펨토그램 (fg) 내지 약 1 마이크로그램 (㎍), 예를 들어, 약 1 피코그램 (pg) 내지 약 200 나노그램 (ng), 약 1 ng 내지 약 100 ng, 약 10 ng 내지 약 1000 ng의 범위이다. 일부 실시양태에서, 샘플은 최대 약 600 ng, 최대 약 500 ng, 최대 약 400 ng, 최대 약 300 ng, 최대 약 200 ng, 최대 약 100 ng, 최대 약 50 ng, 또는 최대 약 20 ng의 무세포 핵산 분자를 포함한다. 임의적으로, 양은 적어도 약 1 fg, 적어도 약 10 fg, 적어도 약 100 fg, 적어도 약 1 pg, 적어도 약 10 pg, 적어도 약 100 pg, 적어도 약 1 ng, 적어도 약 10 ng, 적어도 약 100 ng, 적어도 약 150 ng, 또는 적어도 약 200 ng의 무세포 핵산 분자이다. 특정 실시양태에서, 양은 최대 약 1 fg, 약 10 fg, 약 100 fg, 약 1 pg, 약 10 pg, 약 100 pg, 약 1 ng, 약 10 ng, 약 100 ng, 약 150 ng, 또는 약 200 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 방법은 샘플로부터 약 1 fg 내지 약 200 ng의 무세포 핵산 분자를 수득하는 것을 포함한다. 특정 실시양태에서, 방법은 샘플로부터 약 5 ng 내지 약 30 ng의 무세포 핵산 분자를 수득하는 것을 포함한다. 특정 실시양태에서, 방법은 샘플로부터 약 5 ng 내지 약 100 ng의 무세포 핵산 분자를 수득하는 것을 포함한다. 특정 실시양태에서, 방법은 샘플로부터 약 5 ng 내지 약 150 ng의 무세포 핵산 분자를 수득하는 것을 포함한다. 특정 실시양태에서, 방법은 샘플로부터 약 5 ng 내지 약 200 ng의 무세포 핵산 분자를 수득하는 것을 포함한다. 일부 실시양태에서, 양은 샘플로부터의 최대 약 100 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 양은 샘플로부터의 최대 약 150 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 양은 샘플로부터의 최대 약 200 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 양은 샘플로부터의 최대 약 250 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 양은 샘플로부터의 최대 약 300 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 방법은 샘플로부터 약 1 fg 내지 약 200 ng의 무세포 핵산 분자를 수득하는 것을 포함한다.
무세포 핵산은 전형적으로 약 100개의 뉴클레오티드의 길이 내지 약 500개의 뉴클레오티드의 길이의 크기 분포를 갖고, 약 110개의 뉴클레오티드의 길이 내지 약 230개의 뉴클레오티드의 길이의 분자가 샘플 내의 분자의 약 90%를 나타내며, 약 168개의 뉴클레오티드의 길이가 최빈수이고, 약 240개 내지 약 440개 범위의 뉴클레오티드의 길이에 제2 마이너 피크가 있다. 특정 실시양태에서, 무세포 핵산은 약 160개 내지 약 180개의 뉴클레오티드의 길이, 또는 약 320개 내지 약 360개의 뉴클레오티드의 길이, 또는 약 440개 내지 약 480개의 뉴클레오티드의 길이이다.
일부 실시양태에서, 무세포 핵산은 용액에서 발견된 바와 같은 무세포 핵산이 체액의 무손상 세포 및 다른 비-가용성 성분으로부터 분리되는 분할 단계를 통해 체액으로부터 단리된다. 일부 이러한 실시양태에서, 분할은 원심분리 또는 여과와 같은 기법을 포함한다. 대안적으로, 체액 내의 세포가 용해되고, 무세포 및 세포 핵산이 함께 프로세싱된다. 일반적으로, 완충제 첨가 및 세정 단계 후, 예를 들어 알콜로 무세포 핵산이 침전된다. 특정 실시양태에서, 추가적인 정화 단계, 예컨대 오염물 또는 염을 제거하기 위한 실리카-기반 컬럼이 사용된다. 예를 들어, 비-특이적 벌크 담체 핵산이 예시적인 절차의 특정 측면, 예컨대 수율을 최적화하기 위해 반응 전반에 걸쳐 임의적으로 첨가된다. 이같은 프로세싱 후, 샘플은 이중-가닥 DNA, 단일-가닥 DNA 및/또는 단일-가닥 RNA를 포함하는 다양한 형태의 핵산을 전형적으로 포함한다. 임의적으로, 단일 가닥 DNA 및/또는 단일 가닥 RNA는 후속 프로세싱 및 분석 단계에 포함되도록 이중 가닥 형태로 전환된다.
B. 핵산 태그
일부 실시양태에서, (폴리뉴클레오티드의 샘플로부터의) 핵산 분자에 샘플 색인 및/또는 분자 바코드 (일반적으로 "태그"로 지칭됨)로 태그부착될 수 있다. 태그는 다른 방법들 중에서도 화학적 합성, 라이게이션 (예를 들어, 평활-단부 라이게이션 또는 점착성-단부 라이게이션), 또는 중첩 확장 중합효소 연쇄 반응 (PCR)에 의해 어댑터 내로 혼입되거나 또는 다른 방식으로 어댑터에 연결될 수 있다. 이같은 어댑터는 궁극적으로 표적 핵산 분자에 연결될 수 있다. 다른 실시양태에서, 통상적인 핵산 증폭 방법을 사용하여 샘플 색인을 핵산 분자에 도입하기 위해 1회 이상의 라운드의 증폭 사이클 (예를 들어, PCR 증폭)이 일반적으로 적용된다. 증폭은 1개 이상의 반응 혼합물 (예를 들어, 어레이 내의 복수의 마이크로웰)에서 수행될 수 있다. 분자 바코드 및/또는 샘플 색인은 동시에 또는 임의의 순차적인 순서로 도입될 수 있다. 일부 실시양태에서, 분자 바코드 및/또는 샘플 색인은 서열 포획 단계가 수행되기 전 및/또는 후에 도입된다. 일부 실시양태에서, 분자 바코드만 프로브 포획 전에 도입되고, 샘플 색인은 서열 포획 단계가 수행된 후에 도입된다. 일부 실시양태에서, 분자 바코드 및 샘플 색인 양쪽 모두가 프로브-기반 포획 단계를 수행하기 전에 도입된다. 일부 실시양태에서, 샘플 색인은 서열 포획 단계가 수행된 후에 도입된다. 일부 실시양태에서, 분자 바코드는 라이게이션 (예를 들어, 평활-단부 라이게이션 또는 점착성-단부 라이게이션)에 의해 어댑터를 통해 샘플 내의 핵산 분자 (예를 들어 cfDNA 분자)에 혼입된다. 일부 실시양태에서, 샘플 색인은 중첩 확장 중합효소 연쇄 반응 (PCR)을 통해 샘플 내의 핵산 분자 (예를 들어 cfDNA 분자)에 혼입된다. 전형적으로, 서열 포획 프로토콜은 표적화된 핵산 서열, 예를 들어, 게놈 영역의 코딩 서열에 대해 상보적인 단일-가닥 핵산 분자를 도입하는 것을 수반하고, 이같은 영역의 돌연변이가 암 유형과 연관된다.
일부 실시양태에서, 태그는 샘플 핵산 분자의 한쪽 단부 또는 양쪽 단부에 위치할 수 있다. 일부 실시양태에서, 태그는 미리 결정되었거나 또는 무작위이거나 또는 반-무작위인 서열의 올리고뉴클레오티드이다. 일부 실시양태에서, 태그는 약 500, 200, 100, 50, 20, 10, 9, 8, 7, 6, 5, 4, 3, 2, 또는 1개 미만의 뉴클레오티드의 길이일 수 있다. 태그는 무작위로 또는 비-무작위로 샘플 핵산에 연결될 수 있다.
일부 실시양태에서, 각각의 샘플은 샘플 색인 또는 샘플 색인 조합물로 고유하게 태그부착된다. 일부 실시양태에서, 샘플 또는 하위-샘플의 각각의 핵산 분자가 분자 바코드 또는 분자 바코드 조합물로 고유하게 태그부착된다. 다른 실시양태에서, 복수의 분자 바코드가 복수 내의 서로에 대해 반드시 고유하지는 않도록 사용될 수 있다 (예를 들어, 고유하지 않은 분자 바코드). 이러한 실시양태에서, 일반적으로 분자 바코드는 분자 바코드 및 이것이 부착될 수 있는 서열의 조합이 개별적으로 추적될 수 있는 고유한 서열을 생성하도록 개별적인 분자에 (예를 들어, 라이게이션에 의해) 부착된다. 내인성 서열 정보 (예를 들어, 샘플 내의 원래의 핵산 분자의 서열에 상응하는 시작 (출발) 및/또는 종료 (정지) 부분, 한쪽 또는 양쪽 단부에서의 서열 판독물의 하위-서열, 서열 판독물의 길이, 및/또는 샘플 내의 원래의 핵산 분자의 길이)와 조합된 고유하지 않게 태그부착된 분자 바코드의 검출은 전형적으로 특정한 분자에 고유한 신원을 할당하는 것을 허용한다. 개별적인 서열 판독물의 길이 또는 염기 쌍의 수 또한 주어진 분자에 고유한 신원을 할당하는데 임의적으로 사용된다. 본원에 기술된 바와 같이, 고유한 신원이 할당된 핵산의 단일 가닥으로부터의 단편이 이에 의해 양친 가닥 및/또는 상보적 가닥으로부터의 단편의 후속 확인을 허용할 수 있다.
일부 실시양태에서, 분자 바코드는 예상된 비의 식별자의 세트 (예를 들어, 고유한 또는 고유하지 않은 분자 바코드의 조합)로 샘플 내의 분자에 도입된다. 한 예시적인 형식은 표적 분자의 양쪽 단부에 라이게이션된 약 2개 내지 약 1,000,000개의 상이한 분자 바코드, 또는 약 5개 내지 약 150개의 상이한 분자 바코드, 또는 약 20개 내지 약 50개의 상이한 분자 바코드를 사용한다. 대안적으로, 약 25개 내지 약 1,000,000개의 상이한 분자 바코드가 사용될 수 있다. 예를 들어, 20-50 × 20-50개의 분자 바코드가 사용될 수 있다. 일부 실시양태에서, 20-50개의 상이한 분자 바코드가 사용될 수 있다. 일부 실시양태에서, 5-100개의 상이한 분자 바코드가 사용될 수 있다. 일부 실시양태에서, 5-150개의 분자 바코드가 사용될 수 있다. 일부 실시양태에서, 5-200개의 상이한 분자 바코드가 사용될 수 있다. 이같은 식별자의 수가 동일한 출발 및 정지 지점을 갖는 상이한 분자들이 상이한 조합의 식별자를 받을 높은 확률 (예를 들어, 적어도 94%, 99.5%, 99.99%, 또는 99.999%)을 갖기에 전형적으로 충분하다. 일부 실시양태에서, 약 80%, 약 90%, 약 95%, 또는 약 99%의 분자가 동일한 조합의 분자 바코드를 갖는다.
일부 실시양태에서, 반응에서의 고유한 또는 고유하지 않은 분자 바코드의 할당은 예를 들어 미국 특허 출원 번호 20010053519, 20030152490, 및 20110160078, 및 미국 특허 번호 6,582,908, 7,537,898, 9,598,731, 및 9,902,992에 기술된 방법 및 시스템을 사용하여 수행되고, 이들 각각은 이에 의해 그 전문이 참조로 포함된다. 대안적으로, 일부 실시양태에서, 샘플의 상이한 핵산 분자들이 내인성 서열 정보 (예를 들어, 출발 및/또는 정지 위치, 서열의 한쪽 또는 양쪽 단부의 하위-서열, 및/또는 길이)만 사용하여 확인될 수 있다.
C. 증폭
어댑터가 플랭킹된 샘플 핵산이 전형적으로 증폭될 DNA 분자에 플랭킹된 어댑터 내의 프라이머 결합 부위에 결합하는 핵산 프라이머를 사용하여 PCR 및 다른 증폭 방법에 의해 증폭된다. 일부 실시양태에서, 증폭 방법은 써모사이클링으로부터 초래되는 확장, 변성 및 어닐링의 사이클을 수반하거나, 또는 예를 들어 전사 매개 증폭에서와 같이, 등온성일 수 있다. 임의적으로 이용되는 다른 증폭 예시적인 방법은 다른 접근법들 중에서도 리가제 연쇄 반응, 가닥 교체 증폭, 핵산 서열-기반 증폭, 및 자가-지속 서열-기반 복제를 포함한다.
통상적인 핵산 증폭 방법을 사용하여 분자 바코드 및/또는 샘플 색인을 핵산 분자에 도입하기 위해 1회 이상의 라운드의 증폭 사이클이 일반적으로 적용된다. 증폭은 전형적으로 1개 이상의 반응 혼합물에서 수행된다. 분자 바코드 및 샘플 색인은 임의적으로 동시에 또는 임의의 순차적인 순서로 도입된다. 일부 실시양태에서, 분자 바코드 및 샘플 색인은 서열 포획 단계가 수행되기 전 및/또는 후에 도입된다. 일부 실시양태에서, 분자 바코드만 프로브 포획 전에 도입되고, 샘플 색인은 서열 포획 단계가 수행된 후에 도입된다. 특정 실시양태에서, 분자 바코드 및 샘플 색인 양쪽 모두가 프로브-기반 포획 단계를 수행하기 전에 도입된다. 일부 실시양태에서, 샘플 색인은 서열 포획 단계가 수행된 후에 도입된다. 전형적으로, 서열 포획 프로토콜은 표적화된 핵산 서열, 예를 들어, 게놈 영역의 코딩 서열에 대해 상보적인 단일-가닥 핵산 분자를 도입하는 것을 수반하고, 이같은 영역의 돌연변이가 암 유형과 연관된다. 전형적으로, 증폭 반응은 약 200개의 뉴클레오티드 (nt) 내지 약 700개의 nt, 250개의 nt 내지 약 350개의 nt, 또는 약 320개의 nt 내지 약 550개의 nt 범위의 크기의 분자 바코드 및 샘플 색인이 있는 복수의 고유하지 않게 또는 고유하게 태그부착된 핵산 앰플리콘을 생성시킨다. 일부 실시양태에서, 앰플리콘은 크기가 약 300개의 nt이다. 일부 실시양태에서, 앰플리콘은 크기가 약 500개의 nt이다.
D. 풍부화
서열은 시퀀싱 전에 풍부화될 수 있다. 풍부화는 특이적 표적 영역에 대해 또는 비특이적으로 수행될 수 있다 ("표적 서열"). 일부 실시양태에서, 표적화된 관심 영역이 차등 타일링 및 포획 체계를 사용하여 하나 이상의 미끼 세트 패널에 대해 선택된 포획 프로브 ("미끼")로 풍부화될 수 있다. 차등 타일링 및 포획 체계는 제약 세트 (예를 들어, 서열분석기 제약, 예컨대 시퀀싱 로드, 각각의 미끼의 유용성 등)에 적용된, 미끼와 연관된 게놈 영역에 걸쳐 (예를 들어, 상이한 "해상도"에서) 차등적으로 타일링하기 위한 상이한 상대 농도의 미끼 세트를 사용하고, 하류 시퀀싱을 위해 원하는 수준에서 그들을 포획한다. 이러한 표적화된 관심 게놈 영역은 핵산 구축물의 천연 또는 합성 뉴클레오티드 서열을 포함할 수 있다. 일부 실시양태에서, 하나 이상의 관심 영역에 대한 프로브가 있는 비오틴-표지 비드를 사용하여 표적 서열을 포획한 후, 임의적으로 이러한 영역을 증폭시켜, 관심 영역에 대해 풍부화할 수 있다.
서열 포획은 표적 서열에 혼성화하는 올리고뉴클레오티드 프로브를 사용하는 것을 포함할 수 있다. 프로브 세트 전략은 관심 영역에 걸쳐 프로브를 타일링하는 것을 포함할 수 있다. 이같은 프로브는, 예를 들어, 약 60개 내지 120개의 염기 길이일 수 있다. 세트는 약 2×, 3×, 4×, 5×, 6×, 8×, 9×, 10×, 15×, 20×, 50× 또는 50× 초과의 깊이를 가질 수 있다. 서열 포획의 유효성은, 부분적으로, 프로브의 서열에 대해 상보적인 (또는 거의 상보적인) 표적 분자 내의 서열의 길이에 좌우된다.
일부 실시양태에서, 복수의 게놈 영역은 COSMIC, 더 캔서 게놈 아틀라스(The Cancer Genome Atlas) (TCGA), 또는 엑솜 어그리게인션 컨소시움(Exome Aggregation Consortium) (ExAC)에서 발견되는 유전자 변이체를 포함한다. 일부의 경우, 유전자 변이체는 임상적으로 작용가능한 변이체의 미리-정의된 세트에 속할 수 있다. 예를 들어, 이같은 변이체는 대상체의 샘플 내에서의 그의 존재가 대상체에서의 질환 또는 장애 (예를 들어, 암)와 상관되거나 이를 지시하는 것으로 나타난 변이체의 다양한 데이터베이스에서 발견될 수 있다. 이같은 변이체의 데이터베이스는 예를 들어, 암에서의 체세포 돌연변이의 카탈로그(Catalogue of Somatic Mutations in Cancer) (COSMIC), 더 캔서 게놈 아틀라스 (TCGA), 및 엑솜 어그리게인션 컨소시움 (ExAC)을 포함할 수 있다. 이같은 목록화된 변이체의 미리-정의된 세트는 임상적 결정 (예를 들어, 진단, 예측, 치료 선택, 표적화된 치료, 치료 모니터링, 재발에 대한 모니터링 등)에 대한 그들의 관련성으로 인해 추가의 생물적보학 분석을 위해 지정될 수 있다. 이같은 미리-정의된 세트는 예를 들어, 임상 샘플의 (예를 들어, 질환 또는 장애의 공지된 존재 또는 부재를 갖는 환자 코호트의) 분석 뿐만 아니라 공개된 데이터베이스 및 임상적 문헌으로부터의 주석 정보에 기초하여 결정될 수 있다.
E. 시퀀싱
어댑터가 플랭킹된 샘플 핵산은, 사전 증폭의 존재 또는 부재 하에 시퀀싱에 적용될 수 있다. 시퀀싱 방법은, 예를 들어, 생어 시퀀싱, 고-처리량 시퀀싱, 파이로시퀀싱, 합성에 의한 시퀀싱, 단일-분자 시퀀싱, 나노포어 시퀀싱, 반도체 시퀀싱, 라이게이션에 의한 시퀀싱, 혼성화에 의한 시퀀싱, RNA-Seq (일루미나(Illumina)), 디지털 유전자 발현 (헬리코스(Helicos)), 차세대 시퀀싱, 합성에 의한 단일 분자 시퀀싱 (SMSS) (헬리코스), 대규모-병렬 시퀀싱, 클론형 단일 분자 어레이 (솔렉사(Solexa)), 샷건 시퀀싱, 이온 토렌트(Ion Torrent), 옥스포드 나노포어(Oxford Nanopore), 로슈 제니아(Roche Genia), 맥심-길버트(Maxim-Gilbert) 시퀀싱, 프라이머 워킹, PacBio, SOLiD, 이온 토렌트, 또는 나노포어 플랫폼을 사용하는 시퀀싱을 포함한다. 시퀀싱 반응은 다양한 샘플 프로세싱 유닛에서 수행될 수 있고, 이는 다중 레인, 다중 채널, 다중 웰, 또는 실질적으로 동시에 다중 샘플 세트를 프로세싱하는 다른 수단을 포함할 수 있다. 샘플 프로세싱 유닛은 다중 실행의 프로세싱을 동시에 가능하게 하도록 다중 샘플 챔버를 또한 포함할 수 있다.
시퀀싱 반응은 암 또는 다른 질환의 마커를 함유하는 것으로 공지된 하나 이상의 핵산 단편 유형 또는 영역에 대해 수행될 수 있다. 시퀀싱 반응은 샘플 내에 존재하는 임의의 핵산 단편에 대해 또한 수행될 수 있다. 서열 반응은 게놈의 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 또는 100%의 게놈에 대해 수행될 수 있다. 다른 경우에, 서열 반응은 게놈의 약 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 또는 100% 미만에 대해 수행될 수 있다.
동시 시퀀싱 반응이 멀티플렉스 시퀀싱 기법을 사용하여 수행될 수 있다. 일부의 경우, 무세포 폴리뉴클레오티드가 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000회의 시퀀싱 반응으로 시퀀싱될 수 있다. 다른 경우에, 무세포 폴리뉴클레오티드가 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000회 미만의 시퀀싱 반응으로 시퀀싱될 수 있다. 시퀀싱 반응은 순차적으로 또는 동시에 수행될 수 있다. 후속 데이터 분석이 시퀀싱 반응 전부 또는 이의 일부에 대해 수행될 수 있다. 일부의 경우, 데이터 분석이 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000회의 시퀀싱 반응에서 수행될 수 있다. 다른 경우에, 데이터 분석이 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000회 미만의 시퀀싱 반응에 대해 수행될 수 있다. 예시적인 판독 깊이는 유전자좌 (염기) 당 1000-50000개의 판독물이다. 일부 실시양태에서, 판독 깊이는 유전자좌 (염기) 당 50000개 초과의 판독물일 수 있다.
F. 분석
본 발명의 실시양태에 따른 시퀀싱은 복수의 시퀀싱 판독물 또는 판독물을 생성시킨다. 본 발명에 따른 시퀀싱 판독물 또는 판독물은 일반적으로 약 150개 미만의 염기의 길이, 또는 약 90개 미만의 염기의 길이의 뉴클레오티드 데이터의 서열을 포함한다. 특정 실시양태에서, 판독물은 약 80개 내지 약 90개의 염기, 예를 들어, 약 85개의 염기의 길이이다. 일부 실시양태에서, 본 발명의 방법은 매우 짧은 판독물, 즉, 약 50개 또는 약 30개 미만의 염기의 길이에 적용된다. 시퀀싱 판독물 데이터는 서열 데이터 뿐만 아니라 메타 정보를 포함할 수 있다. 서열 판독물 데이터는 예를 들어, VCF 파일, FASTA 파일 또는 FASTQ 파일을 포함하는 임의의 적합한 파일 형식으로 저장될 수 있다.
FASTA는 원래 서열 데이터베이스를 검색하기 위한 컴퓨터 프로그램이고, 명칭 FASTA는 또한 표준 파일 형식을 지칭할 수 있다. 예를 들어, 문헌 [Pearson & Lipman, 1988, Improved tools for biological sequence comparison, PNAS 85:2444-2448]을 참조한다. FASTA 형식에서의 서열은 단일-라인 설명으로 시작하여, 서열 데이터의 라인이 이어진다. 설명 라인은 제1 컬럼에서 초과 (">") 기호에 의해 서열 데이터로부터 구별된다. ">" 기호 뒤의 단어는 서열의 식별자이며, 라인의 나머지는 설명 (둘 다 임의적)이다. ">" 및 식별자의 제1 문자 사이에 공간이 없어야 한다. 텍스트의 모든 라인은 80 문자보다 짧을 것이 권고된다. 서열은 ">"로 시작하는 또 다른 라인이 나타날 경우 종료하며; 이는 또 다른 서열의 시작을 지시한다.
FASTQ 형식은 생물학적 서열 (통상적으로 뉴클레오티드 서열) 및 그의 상응하는 품질 점수 양쪽 모두를 저장하기 위한 텍스트-기반 형식이다. 이는 FASTA 형식과 유사하지만, 서열 데이터 뒤에 품질 점수를 갖는다. 서열 문자 및 품질 점수 양쪽 모두는 간결성을 위해 단일 ASCII 문자로 코딩된다. FASTQ 형식은 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Cock et al. ("The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants," Nucleic Acids Res 38(6):1767-1771, 2009)]에 의해 기술된 바와 같이, 고 처리량 시퀀싱 기기, 예컨대 일루미나 게놈 애널라이저(Illumina Genome Analyzer)의 출력을 저장하기 위한 사실상 표준이다.
FASTA 및 FASTQ 파일에 대해, 메타 정보는 설명 라인을 포함하며, 서열 데이터의 라인은 그렇지 않다. 일부 실시양태에서, FASTQ 파일에 대해, 메타 정보는 품질 점수를 포함한다. FASTA 및 FASTQ 파일에 대해, 서열 데이터는 설명 라인 뒤에 시작하며, 전형적으로 임의적으로 "-"를 갖는 IUPAC 모호성 코드의 일부 하위세트를 사용하여 존재한다. 바람직한 실시양태에서, 서열 데이터는 임의적으로 필요에 따라 "-" 또는 U (예를 들어, 갭 또는 우라실을 나타내기 위해)를 포함하는 A, T, C, G, 및 N 문자를 사용할 것이다.
일부 실시양태에서, 적어도 하나의 마스터 서열 판독물 파일 및 출력 파일은 플레인 텍스트 파일로서 저장된다 (예를 들어, 코딩, 예컨대 ASCII; ISO/IEC 646; EBCDIC; UTF-8; 또는 UTF-16을 사용함). 본 발명에 의해 제공되는 컴퓨터 시스템은 플레인 텍스트 파일을 오픈할 수 있는 텍스트 에디터 프로그램을 포함할 수 있다. 텍스트 에디터 프로그램은 인간이 텍스트를 편집하는 것을 허용하는 (예를 들어, 모니터, 키보드, 및 마우스를 사용하여), 컴퓨터 스크린 상에 텍스트 파일 (예컨대 플레인 텍스트 파일)의 콘텐츠를 제시할 수 있는 컴퓨터 프로그램을 지칭할 수 있다. 예시적인 텍스트 에디터는 제한 없이, 마이크로소프트 워드(Microsoft Word), emacs, pico, vi, BBEdit, 및 텍스트랭글러(TextWrangler)를 포함한다. 바람직하게는, 텍스트 에디터 프로그램은 인간-판독가능 형식으로 메타 정보 및 서열 판독물을 보여주는 컴퓨터 스크린 상에 플레인 텍스트 파일을 제시할 수 있다 (예를 들어, 바이너리 코딩되지 않지만, 대신 이들이 프린트 또는 인간 기록에서 사용될 수 있는 바와 같은 영숫자 문자를 사용하여).
방법은 FASTA 또는 FASTQ 파일에 관하여 논의되었지만, 본 발명의 방법 및 시스템은 예를 들어, 배리언트 콜 형식(Variant Call Format) (VCF) 형식의 파일을 포함하는 임의의 적합한 서열 파일 형식을 압축하는데 사용될 수 있다. 전형적인 VCF 파일은 헤더 섹션 및 데이터 섹션을 포함할 것이다. 헤더는 임의적 수의 메타-정보 라인을 함유하며, 각각은 문자 '##'로 시작하고, TAB 한계화된 필드 정의 라인은 단일 '#' 문자로 시작한다. 필드 정의 라인은 8개의 의무적인 컬럼을 명명하며, 바디 섹션은 필드 정의 라인에 의해 정의되는 컬럼을 덧붙이는 데이터의 라인을 함유한다. VCF 형식은 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Danecek et al. ("The variant call format and VCFtools," Bioinformatics 27(15):2156-2158, 2011)]에 의해 기술되어 있다. 헤더 섹션은 압축된 파일에 기록하는 메타 정보로서 처리될 수 있고, 데이터 섹션은 라인으로서 처리될 수 있으며, 이들의 각각은 단지 고유한 경우 마스터 파일에 저장될 것이다.
본 발명의 특정 실시양태는 시퀀싱 판독물의 어셈블리를 제공한다. 정렬에 의한 어셈블리에서, 예를 들어, 시퀀싱 판독물은 서로에 대해 정렬되거나, 기준 서열에 대해 정렬된다. 각각의 판독물을 다시 기준 게놈에 대해 정렬함으로써, 모든 판독물은 서로에 관하여 위치되어 어셈블리를 생성한다. 또한, 시퀀싱 판독물을 기준 서열에 대해 정렬하거나 맵핑하는 것은 또한 시퀀싱 판독물 내의 변이체 서열을 확인하는데 사용될 수 있다. 변이체 서열을 확인하는 것은 질환 또는 컨디션의 진단 또는 예측을 추가로 보조하기 위해, 또는 치료 결정을 가이드하기 위해 본원에 기술된 방법 및 시스템과 조합으로 사용될 수 있다.
일부 실시양태에서, 임의의 또는 모든 단계는 자동화된다. 대안적으로, 본 발명의 방법은 예를 들어, 각각 임의적으로 컴파일링된 언어, 예컨대 C++로 기록된 하나 이상의 전용 프로그램에서 전체적으로 또는 부분적으로 구현되고, 그 후, 컴파일링되고, 바이너리로서 분포될 수 있다. 본 발명의 방법은 기존의 서열 분석 플랫폼 내의 모듈로서, 또는 그 내의 기능성을 적용함으로써 전체적으로 또는 부분적으로 실행될 수 있다. 특정 실시양태에서, 본 발명의 방법은 단일 시작 큐 (예를 들어, 인간 활동, 또 다른 컴퓨터 프로그램, 또는 기계로부터 공급된 사건을 촉발시키는 하나 또는 조합)에 대해 모든 적용된 자동적으로 반응성인 다수의 단계를 포함한다. 따라서, 본 발명은 임의의 또는 단계 또는 단계의 임의의 조합이 큐에 자동적으로 반응하여 발생할 수 있는 방법을 제공한다. 자동적으로는 일반적으로 인간 입력, 영향, 또는 상호작용을 개입하지 않음 (즉, 단지 원래 또는 사전-큐 인간 활동에 반응하여)을 의미한다.
시스템은 또한 대상 핵산의 정확하고 민감한 해석을 포함하는 다양한 형태의 출력을 포함한다. 검색의 출력은 컴퓨터 파일의 형식으로 제공될 수 있다. 특정 실시양태에서, 출력은 FASTA 파일, FASTQ 파일, 또는 VCF 파일이다. 출력은 서열 데이터, 예컨대 기준 게놈의 서열에 대해 정렬된 핵산의 서열을 함유하는 텍스트 파일, 또는 XML 파일을 생성하기 위해 프로세싱될 수 있다. 다른 실시양태에서, 프로세싱은 기준 게놈에 비해 대상 핵산에서 하나 이상의 돌연변이를 기술하는 좌표 또는 스트링을 함유하는 출력을 생성한다. 정렬 스트링은 단순 비갭화된 정렬 리포트(Simple UnGapped Alignment Report) (SUGAR), 장황한 유용한 표지된 갭화된 정렬 리포트(Verbose Useful Labeled Gapped Alignment Report) (VULGAR), 및 콤팩트 특질적 갭화된 정렬 리포트(Compact Idiosyncratic Gapped Alignment Report) (CIGAR) (그 전문이 본원에 참조로 포함되는 문헌 [Ning et al, Genome Research 11(10):1725-9, 2001])를 포함할 수 있다. 이러한 스트링은 예를 들어, 유러피안 바이오인포매틱스 인스티튜트(European Bioinformatics Institute) (영국 힝스톤)로부터의 엑소너레이트(Exonerate) 서열 정렬 소프트웨어에서 실행된다.
일부 실시양태에서, CIGAR 스트링을 포함하는 서열 정렬이 생성된다-예컨대, 예를 들어, 서열 정렬 지도 (SAM) 또는 바이너리 정렬 지도 (BAM) 파일- (SAM 형식은 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Li et al, "The Sequence Alignment/Map format and SAMtools," Bioinformatics, 25(16):2078-9, 2009]에 기술되어 있음). 일부 실시양태에서, CIGAR은 라인-당-하나의 갭화된 정렬을 나타내거나 포함한다. CIGAR은 CIGAR 스트링으로서 보고된 압축된 쌍별 정렬 형식이다. CIGAR 스트링은 긴 (예를 들어, 게놈) 쌍별 정렬을 나타내는데 유용하다. CIGAR 스트링은 기준 게놈 서열에 대한 판독물의 정렬을 나타내는 SAM 형식에 사용된다.
CIGAR 스트링은 확립된 모티프를 따른다. 각각의 문자는 사건의 염기 카운트를 제공하는 수에 의해 선행된다. 사용된 문자는 M, I, D, N, 및 S (M=매치; I=삽입; D=결실; N=갭; S=치환)를 포함할 수 있다. CIGAR 스트링은 매치/미스매치 및 결실 (또는 갭)의 서열을 정의한다. 예를 들어, CIGAR 스트링 2MD3M2D2M은 정렬이 2개의 매치, 1개의 결실 (수 1은 일부 공간을 절약하기 위해 생략됨), 3개의 매치, 2개의 결실, 및 2개의 매치를 함유함을 의미할 것이다.
일부 실시양태에서, 한쪽 또는 양쪽 단부에 단일-가닥 오버행이 있는 이중-가닥 핵산 상에 효소에 의해 평활-단부를 형성시키는 것에 의해 시퀀싱용으로 핵산 집단이 제조된다. 이러한 실시양태에서, 집단은 전형적으로 dNTP의 형태의 뉴클레오티드 (예를 들어, A, C, G 및 T 또는 U)의 존재 하에 5'-3' DNA 중합효소 활성 및 3'-5' 엑소뉴클레아제 활성을 갖는 효소로 처리된다. 임의적으로 사용되는 예시적인 효소 또는 그의 촉매적 단편은 클레나우(Klenow) 대형 단편 및 T4 중합효소를 포함한다. 5' 오버행에서, 전형적으로 효소는 반대쪽 가닥 상의 오목한 3' 단부를 이것이 5' 단부와 가지런해질 때까지 연장하여, 평활 단부를 생산한다. 3' 오버행에서, 일반적으로 효소는 3' 단부를 반대쪽 가닥의 5' 단부까지, 때로는 이를 넘어서 소화시킨다. 이러한 소화가 반대쪽 가닥의 5' 단부를 넘어서 진행되면, 5' 오버행에 사용된 것과 동일한 중합효소 활성을 갖는 효소에 의해 갭이 채워질 수 있다. 이중-가닥 핵산 상에서의 평활-단부의 형성은, 예를 들어, 어댑터 부착 및 후속 증폭을 용이하게 한다.
일부 실시양태에서, 핵산 집단은 추가적인 프로세싱, 예컨대 단일-가닥 핵산의 이중-가닥으로의 전환 및/또는 RNA의 DNA로의 전환에 적용된다. 이러한 형태의 핵산은 또한 임의적으로 어댑터에 연결되고, 증폭된다.
사전 증폭의 존재 또는 부재 하에, 상기 기술된 평활-단부를 형성시키는 프로세스에 적용된 핵산, 및 임의적으로 샘플 내의 다른 핵산을 시퀀싱하여, 시퀀싱된 핵산이 생산될 수 있다. 시퀀싱된 핵산은 핵산의 서열 (즉, 서열 정보) 또는 서열이 결정된 핵산을 지칭할 수 있다. 샘플 내의 개별적인 핵산 분자의 증폭 생성물의 컨센서스 서열로부터 직접적으로 또는 간접적으로 샘플 내의 개별적인 핵산 분자의 서열 데이터를 제공하도록 시퀀싱이 수행될 수 있다.
일부 실시양태에서, 평활-단부 형성 후의 샘플 내의 단일-가닥 오버행이 있는 이중-가닥 핵산이 분자 바코드를 포함하는 어댑터에 양쪽 단부에서 연결되고, 시퀀싱이 핵산 서열, 뿐만 아니라 어댑터에 의해 도입된 분자 바코드를 결정한다. 평활-단부 DNA 분자는 임의적으로 적어도 부분적으로 이중-가닥인 어댑터 (예를 들어, Y형 또는 벨-형상 어댑터)의 평활 단부에 라이게이션된다. 대안적으로, 샘플 핵산의 평활 단부 및 어댑터에 상보적인 뉴클레오티드가 꼬리붙어서, 라이게이션을 용이하게 할 수 있다 (예를 들어, 점착성 단부 라이게이션에 대해).
동일한 핵산의 임의의 2개 카피가 양쪽 단부에 연결된 어댑터로부터 동일한 조합의 어댑터 바코드 (즉, 분자 바코드)를 수신할 확률이 낮도록 (예를 들어, < 1 또는 < 0.1 %), 핵산 샘플은 전형적으로 충분한 수의 어댑터와 접촉된다. 이러한 방식으로 어댑터를 사용하는 것은 기준 핵산 상의 동일한 출발 및 정지 지점을 갖고 동일한 조합의 분자 바코드에 연결된 핵산 서열의 패밀리의 확인을 허용한다. 이같은 패밀리는 증폭 전의 샘플 내의 핵산의 증폭 생성물의 서열을 나타낸다. 패밀리 구성원의 서열을 컴파일링하여, 평활 단부 형성 및 어댑터 부착에 의해 변형된 바와 같은 원래의 샘플 내의 핵산 분자에 대한 컨센서스 뉴클레오티드(들) 또는 완전한 컨센서스 서열을 유도할 수 있다. 달리 말하면, 샘플 내의 핵산의 특정 위치를 차지하는 뉴클레오티드가 패밀리 구성원 서열에서 이러한 상응하는 위치를 차지하는 뉴클레오티드의 컨센서스인 것으로 결정된다. 패밀리는 이중-가닥 핵산의 한쪽 또는 양쪽 가닥의 서열을 포함할 수 있다. 패밀리의 구성원이 이중-가닥 핵산으로부터의 양쪽 가닥의 서열을 포함하는 경우, 모든 서열을 컴파일링하여 컨센서스 뉴클레오티드(들) 또는 서열을 유도하기 위한 목적으로 한쪽 가닥의 서열이 그의 상보물로 전환된다. 일부 패밀리는 단일 구성원 서열만 포함한다. 이러한 경우, 이러한 서열을 증폭 전의 샘플 내의 핵산의 서열로서 취할 수 있다. 대안적으로, 단일 구성원 서열만 있는 패밀리를 후속 분석에서 제거할 수 있다.
시퀀싱된 핵산에서의 뉴클레오티드 변이를 시퀀싱된 핵산과 기준 서열을 비교하는 것에 의해 결정할 수 있다. 기준 서열은 종종 공지된 서열, 예를 들어, 대상체로부터의 공지된 전체 또는 부분적 게놈 서열 (예를 들어, 인간 대상체의 전체 게놈 서열)이다. 기준 서열은, 예를 들어, hG19 또는 hG38일 수 있다. 시퀀싱된 핵산은, 상기 기술된 바와 같이, 샘플 내의 핵산에 대해 직접적으로 결정된 서열, 또는 이같은 핵산의 증폭 생성물의 서열의 컨센서스를 나타낼 수 있다. 비교는 기준 서열 상의 하나 이상의 지정된 위치에서 수행될 수 있다. 각각의 서열이 최대로 정렬되었을 때 기준 서열의 지정된 위치에 상응하는 위치를 포함하여, 시퀀싱된 핵산의 하위세트가 확인될 수 있다. 이같은 하위세트 내에서, 존재하는 경우 어떤 시퀀싱된 핵산이 지정된 위치에 뉴클레오티드 변이를 포함하는지, 및 임의적으로 존재하는 경우 어느 것이 기준 뉴클레오티드를 포함하는지 (즉, 기준 서열에서와 동일함)를 결정할 수 있다. 뉴클레오티드 변이체를 포함하는 하위세트 내의 시퀀싱된 핵산의 수가 선택된 임계치를 초과하면, 변이체 뉴클레오티드가 지정된 위치에서 콜링될 수 있다. 임계치는 단순한 숫자, 예컨대 뉴클레오티드 변이체를 포함하는 하위세트 내의 적어도 1, 2, 3, 4, 5, 6, 7, 9, 또는 10개의 시퀀싱된 핵산일 수 있거나, 또는 비, 예컨대 다른 가능성 중에서도 뉴클레오티드 변이체를 포함하는 하위세트 내의 시퀀싱된 핵산 중 적어도 0.5, 1, 2, 3, 4, 5, 10, 15, 또는 20일 수 있다. 기준 서열 내의 임의의 지정된 관심 위치에 대해 비교가 반복될 수 있다. 때때로, 비교는 기준 서열 상의 적어도 약 20, 100, 200, 또는 300개의 인접 위치, 예를 들어, 약 20-500개, 또는 약 50-300개의 인접 위치를 차지하는 지정된 위치에 대해 수행될 수 있다.
본원에 기술된 형식 및 용도를 포함하여, 핵산 시퀀싱에 관한 추가적인 세부사항이, 예를 들어, 문헌 [Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)], [Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)], [Voelkerding et al., Clinical Chem., 55: 641-658 (2009)], [MacLean et al., Nature Rev. Microbiol., 7: 287-296 (2009)], [Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)], 미국 특허 번호 6,210,891, 미국 특허 번호 6,258,568, 미국 특허 번호 6,833,246, 미국 특허 번호 7,115,400, 미국 특허 번호 6,969,488, 미국 특허 번호 5,912,148, 미국 특허 번호 6,130,073, 미국 특허 번호 7,169,560, 미국 특허 번호 7,282,337, 미국 특허 번호 7,482,120, 미국 특허 번호 7,501,245, 미국 특허 번호 6,818,395, 미국 특허 번호 6,911,345, 미국 특허 번호 7,501,245, 미국 특허 번호 7,329,492, 미국 특허 번호 7,170,050, 미국 특허 번호 7,302,146, 미국 특허 번호 7,313,308, 및 미국 특허 번호 7,476,503에서 또한 제공되고, 이들은 각각 그 전문이 참조로 포함된다.
III. 컴퓨터 시스템
본 개시내용의 방법은 컴퓨터 시스템을 사용하여, 또는 그의 보조로 실행될 수 있다. 예를 들어, 이같은 방법은 (a) 핵산 서열분석기에 의해 생성된 제1 샘플 및 제2 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트의 복수의 시퀀싱 판독물을 수득하고, 여기서 시퀀싱 판독물은 태그 서열 및 폴리뉴클레오티드로부터 유래된 서열을 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함할 수 있고, 컴퓨터 프로세서로 수행될 수 있다.
도 4는 본 개시내용의 방법을 실행하도록 프로그래밍되거나 또는 다른 방식으로 구성된 컴퓨터 시스템 (401)을 나타낸다. 컴퓨터 시스템 (401)은 다양한 측면 샘플 제조, 시퀀싱, 및/또는 분석을 조절할 수 있다. 일부 예에서, 컴퓨터 시스템 (401)은 샘플 제조, 및 핵산 시퀀싱을 포함하는 샘플 분석을 수행하도록 구성된다.
컴퓨터 시스템 (401)은 중앙 처리 유닛 (CPU, 또한 본원에서 "프로세서" 및 "컴퓨터 프로세서") (405)를 포함하며, 이는 단일 코어 또는 다중 코어 프로세서, 또는 병렬 프로세싱을 위한 복수의 프로세서일 수 있다. 컴퓨터 시스템 (401)은 또한 메모리 또는 메모리 장소 (410) (예를 들어, 랜덤-액세스 메모리, 읽기-전용 메모리, 플래쉬 메모리), 전자 저장 유닛 (415) (예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스 (420) (예를 들어, 네트워크 어댑터), 및 주변 장치 (425), 예컨대 캐시, 다른 메모리, 데이터 저장소, 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리 (410), 저장 유닛 (415), 인터페이스 (420), 및 주변 장치 (425)는 통신 네트워크 또는 버스 (실선), 예컨대 마더보드를 통해 CPU (405)와 통신한다. 저장 유닛 (415)은 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템 (401)은 통신 인터페이스 (420)의 보조로 컴퓨터 네트워크 (430)에 작동적으로 결합될 수 있다. 컴퓨터 네트워크 (430)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 컴퓨터 네트워크 (430)는 일부의 경우 전기통신 및/또는 데이터 네트워크이다. 컴퓨터 네트워크 (430)는 분산 컴퓨팅, 예컨대 클라우드 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 컴퓨터 네트워크 (430)는 일부의 경우 컴퓨터 시스템 (401)의 보조로 피어-투-피어 네트워크를 실행할 수 있으며, 이는 컴퓨터 시스템 (401)에 결합된 장치가 클라이언트 또는 서버로서 거동하는 것을 가능하게 할 수 있다.
CPU (405)는 프로그램 또는 소프트웨어에서 구현될 수 있는 기계-판독가능 명령의 순서를 실행할 수 있다. 명령은 메모리 장소, 예컨대 메모리 (410)에 저장될 수 있다. CPU (405)에 의해 수행되는 작업의 예는 인출, 디코드, 실행, 및 답장을 포함할 수 있다.
저장 유닛 (415)은 파일, 예컨대 드라이버, 라이브러리, 및 저장된 프로그램을 저장할 수 있다. 저장 유닛 (415)은 사용자에 의해 생성된 프로그램 및 기록된 세션, 뿐만 아니라 프로그램과 연관된 출력(들)을 저장할 수 있다. 저장 유닛 (415)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 컴퓨터 시스템 (401)은 일부의 경우 컴퓨터 시스템 (401)에 대해 외부인, 예컨대 인트라넷 또는 인터넷을 통해 컴퓨터 시스템 (401)과 통신하는 원격 서버 상에 위치한 하나 이상의 추가의 데이터 저장 유닛을 포함할 수 있다. 데이터는 예를 들어, 통신 네트워크 또는 물리적 데이터 전달 (예를 들어, 하드 드라이브, 텀브 드라이브, 또는 다른 데이터 저장 메커니즘을 사용함)을 사용하여 한 장소로부터 또 다른 장소로 전달될 수 있다.
컴퓨터 시스템 (401)은 네트워크 (430)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템 (401)은 사용자 (예를 들어, 작동자)의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 퍼스널 컴퓨터 (예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC (예를 들어, 애플(Apple)® 아이패드(iPad), 삼성(Samsung)® 갤럭시 탭(Galaxy Tab)), 전화, 스마트 폰 (예를 들어, 애플® 아이폰(iPhone), 안드로이드(Android)-가능한 장치, 블랙베리(Blackberry)®), 또는 개인 디지털 단말기를 포함한다. 사용자는 네트워크 (430)를 통해 컴퓨터 시스템 (401)에 접근할 수 있다.
본원에 기술된 바와 같은 방법은 컴퓨터 시스템 (401)의 전자 저장 장소 상에, 예컨대, 예를 들어, 메모리 (410) 또는 전자 저장 유닛 (415) 상에 저장된 기계 (예를 들어, 컴퓨터 프로세서) 실행가능 코드에 의해 실행될 수 있다. 기계 실행가능 또는 기계-판독가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 프로세서 (405)에 의해 실행될 수 있다. 일부의 경우, 코드는 저장 유닛 (415)으로부터 검색되고, 프로세서 (405)에 의한 용이한 접근을 위해 메모리 (410)에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛 (415)은 불가능할 수 있으며, 기계-실행가능 명령은 메모리 (410) 상에 저장된다.
한 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 핵산 서열분석기에 의해 생성된 제1 샘플 및 제2 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트의 복수의 시퀀싱 판독물을 수득하고, 여기서 시퀀싱 판독물은 태그 서열 및 폴리뉴클레오티드로부터 유래된 서열을 포함하고; (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고; (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고; (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고; (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고; (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고; (g) 제1 샘플을, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 이하인 경우 오염되지 않은 것으로 분류하는 것을 포함하는 방법을 수행하는 컴퓨터-실행가능 명령을 포함하는 비-일시적 컴퓨터-판독가능 매체를 제공한다.
코드는 기계로의 사용이 코드를 실행하도록 적응된 프로세서를 갖도록 사전-컴파일링되고, 구성될 수 있거나, 또는 런타임 동안 컴파일링될 수 있다. 코드는 코드가 사전-컴파일링되거나 또는 컴파일링된 바와 같은 방식으로 실행되는 것을 가능하게 하도록 선택될 수 있는 프로그래밍 언어에서 공급될 수 있다.
본원에서 제공된 시스템 및 방법, 예컨대 컴퓨터 시스템 (401)의 측면은 프로그래밍에서 구현될 수 있다. 기술의 다양한 측면은 전형적으로 기계 판독가능 매체의 유형으로 수행되거나 구현되는 기계 (또는 프로세서) 실행가능 코드 및/또는 연관된 데이터의 형태로 "제품" 또는 "제조품"으로서 생각될 수 있다. 기계-실행가능 코드는 전자 저장 유닛, 이같은 메모리 (예를 들어, 읽기-전용 메모리, 랜덤-액세스 메모리, 플래쉬 메모리) 또는 하드 디스크 상에 저장될 수 있다. "저장" 유형 매체는 소프트웨어 프로그래밍을 위한 임의의 시간에 비-일시적 저장을 제공할 수 있는, 컴퓨터, 프로세서 등의 임의의 또는 모든 실감형 메모리, 또는 그의 연관된 모듈, 예컨대 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등을 포함할 수 있다.
소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 다른 전기통신 네트워크를 통해 통신될 수 있다. 이같은 통신은 예를 들어, 한 컴퓨터 또는 프로세서로부터 또 다른 것 내로의, 예를 들어 관리 서버 또는 호스트 컴퓨터로부터 애플리케이션 서버의 컴퓨터 플랫폼 내로의 소프트웨어의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 가질 수 있는 또 다른 유형의 매체는 유선 및 광학 지상통신 네트워크를 통한, 및 다양한 에어-링크 상에서의, 광학, 전자, 및 전자기 파, 예컨대 국소 장치 사이에 물리적 인터페이스를 거쳐 사용되는 것들을 포함한다. 이같은 파를 반송하는 물리적 요소, 예컨대 유선 또는 무선 링크, 광학 링크 등은 또한 소프트웨어를 갖는 매체로서 간주될 수 있다. 본원에 사용된 바와 같이, 비-일시적, 실감형 "저장" 매체에 제한되지 않는다면, 컴퓨터 또는 기계 "판독가능 매체"와 같은 용어는 실행을 위해 프로세서에게 명령을 제공하는데 참여하는 임의의 매체를 지칭한다.
따라서, 기계-판독가능 매체, 예컨대 컴퓨터-실행가능 코드는 실감형 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하지만 이에 제한되지 않는 많은 형태를 취할 수 있다. 비-휘발성 저장 매체는 예를 들어, 광학 또는 자기 디스크, 예컨대 임의의 컴퓨터(들) 등에서의 저장 장치 중 임의의 것, 예컨대 도면에 나타내어진 데이터베이스를 실행하는 데 사용될 수 있는 것들 등을 포함한다. 휘발성 저장 매체는 다이나믹 메모리, 예컨대 이같은 컴퓨터 플랫폼의 메인 메모리를 포함한다. 실감형 전송 매체는 동축 케이블; 컴퓨터 시스템 내의 버스를 포함하는 와이어를 포함하는 구리 와이어 및 섬유 광학을 포함한다. 반송파 전송 매체는 전자 또는 전자기 신호, 또는 음향 또는 광 파, 예컨대 라디오 주파수 (RF) 및 적외선 (IR) 데이터 통신 동안 생성된 것들의 형태를 취할 수 있다. 따라서, 컴퓨터-판독가능 매체의 통상적인 형태는 예를 들어 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드, 페이퍼 테이프, 홀의 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 반송파, 이같은 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 이러한 형태의 컴퓨터 판독가능한 매체 중 많은 것은 하나 이상의 명령의 하나 이상의 순서를 실행을 위한 프로세서에 반송하는 데 관여할 수 있다.
컴퓨터 시스템 (401)은 예를 들어, 샘플 분석의 하나 이상의 결과를 제공하기 위한 사용자 인터페이스 (UI)를 포함하는 전자 디스플레이를 포함하거나, 또는 이와 통신할 수 있다. UI의 예는 제한 없이, 그래픽 사용자 인터페이스 (GUI) 및 웹-기반 사용자 인터페이스를 포함한다.
컴퓨터 시스템 및 네트워크, 데이터베이스, 및 컴퓨터 프로그램 제품에 관한 추가적인 세부사항은 예를 들어, 문헌 [Peterson, Computer Networks: A Systems Approach, Morgan Kaufmann, 5th Ed. (2011)], [Kurose, Computer Networking: A Top-Down Approach, Pearson, 7th Ed. (2016)], [Elmasri, Fundamentals of Database Systems, Addison Wesley, 6th Ed. (2010)], [Coronel, Database Systems: Design, Implementation, & Management, Cengage Learning, 11th Ed. (2014)], [Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2nd Ed. (2006)], 및 [Rhoton, Cloud Computing Architected: Solution Design Handbook, Recursive Press (2011)]에서 또한 제공되며, 이들의 각각은 그 전문이 본원에 참조로 포함된다.
용도
암 및 다른 질환
전형적으로, 고려 중인 질환은 암 유형이다. 이같은 암의 비-제한적인 예는 담도암, 방광암, 이행세포 암종, 요로상피 암종, 뇌암, 신경교종, 성상세포종, 유방 암종, 화생 암종, 자궁경부암, 자궁경부 편평세포 암종, 직장암, 결장직장 암종, 결장암, 유전성 비폴립증 결장직장암, 결장직장 선암종, 위장 기질 종양 (GIST), 자궁내막 암종, 자궁내막 기질 육종, 식도암, 식도 편평세포 암종, 식도 선암종, 안구 흑색종, 포도막 흑색종, 담낭 암종, 담낭 선암종, 신세포 암종, 투명세포 신세포 암종, 이행세포 암종, 요로상피 암종, 윌름스 종양, 백혈병, 급성 림프구성 백혈병 (ALL), 급성 골수성 백혈병 (AML), 만성 림프구성 백혈병 (CLL), 만성 골수성 백혈병 (CML), 만성 골수단핵구성 백혈병 (CMML), 간암, 간 암종, 간세포암, 간세포성 암종, 담관암종, 간모세포종, 폐암, 비-소세포 폐암 (NSCLC), 중피종, B-세포 림프종, 비-호지킨 림프종, 미만성 거대 B-세포 림프종, 외투세포 림프종, T 세포 림프종, 비-호지킨 림프종, 전구체 T-림프모구성 림프종/백혈병, 말초 T 세포 림프종, 다발성 골수종, 비인두 암종 (NPC), 신경모세포종, 구인두암, 구강 편평세포 암종, 골육종, 난소 암종, 췌장암, 췌장관 선암종, 가유두상 신생물, 샘꽈리세포 암종, 전립선암, 전립선 선암종, 피부암, 흑색종, 악성 흑색종, 피부 흑색종, 소장 암종, 위암, 위 암종, 위장 기질 종양 (GIST), 자궁암, 또는 자궁 육종을 포함한다.
본원에 개시된 방법 및 시스템을 사용하여 임의적으로 평가되는 다른 유전-기반 질환, 장애, 또는 컨디션의 비-제한적인 예는 연골무형성증, 알파-1 항트립신 결핍증, 항인지질 증후군, 자폐증, 상염색체 우성 다낭성 신장 질환, 샤르코-마리-투스병 (CMT), 묘성증, 크론병, 낭성 섬유증, 더컴병, 다운 증후군, 듀안 증후군, 듀시엔느 근이영양증, 인자 V 라이덴 혈전성향증, 가족성 고콜레스테롤혈증, 가족성 지중해열, 취약 X 증후군, 고쉐병, 혈색소침착증, 혈우병, 완전전뇌증, 헌팅톤병, 클라인펠터 증후군, 마르팡 증후군, 근긴장성 이영양증, 신경섬유종증, 누난 증후군, 불완전 골생성증, 파킨슨병, 페닐케톤뇨증, 폴란드 기형, 포르피린증, 조로증, 색소성 망막염, 중증 복합 면역결핍증 (scid), 겸상 적혈구 질환, 척수 근위축증, 테이-삭스병, 지중해빈혈증, 트리메틸아민뇨증, 터너 증후군, 구개심장안면 증후군, WAGR 증후군, 윌슨병 등을 포함한다.
상세한 설명이 그의 특정한 실시양태에 관하여 기술되었지만, 이러한 특정한 실시양태는 단지 예시적이고, 제한적이지 않다. 실시예에 예시된 개념은 다른 실시예 및 실행에 적용될 수 있다.
액상 생검 검정법은 변화되기 때문에 (예를 들어, 통상적인 SNP의 시퀀싱 깊이 및 패널에 있어서), 본 개시내용의 방법 및 시스템은 적용가능한 임계치 값 (예를 들어, 샘플 내의 오염의 존재 또는 부재를 검출하기 위한 하나 이상의 기준/ 임계치)의 세트를 수득하기 위해 필요에 따라 재트레이닝될 수 있다.
실시예
실시예 1: 본 개시내용의 실시양태에 따라 샘플의 오염을 결정하기
환자 샘플의 세트를 가던트 헬스(Guardant Health) (미국 캘리포니아주 레드우드 시티)에서의 혈액-기반 cfDNA 검정법을 사용하여 분석하였다. 검정법 성능의 품질을 점검하고, 샘플의 임의의 오염이 있는지를 결정하기 위해, 샘플의 세트를 본 개시내용의 실시양태에 따라 분석하였다. 샘플의 세트 중에서, 2개의 샘플 (샘플 1 및 샘플 2)의 분석이 이 실시예에 기술된다. 샘플 1 및 샘플 2 내의 패밀리의 총 수는 각각 7,811,148개 및 7,141,008개이다. 이 실시양태에서, 게놈 출발 및 게놈 정지 위치의 과다-제시된 쌍에서의 패밀리를 분석으로부터 제외하였고, 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 쌍으로서 범주화하는데 사용된 세트 임계치는 10개의 패밀리이다. 따라서, 샘플 1 및 샘플 2 내의 패밀리의 총 수는 각각 6,452,057개 및 6,039,099개였다.
I: 샘플 1이 샘플 2로 오염되었는지를 결정하기
샘플 1 내의 6,452,057개의 패밀리 중에서, 54,212개의 패밀리는 (샘플 2와) 공유된 패밀리였다. 54,212개의 공유된 패밀리 중에서: (i) 9362개의 공유된 패밀리는 샘플 1 및 샘플 2 양쪽 모두 내의 패밀리 내에서 동일한 수의 시퀀싱 판독물을 가졌고; (ii) 1647개의 공유된 패밀리는 샘플 2의 상응하는 패밀리 내의 시퀀싱 판독물의 수보다 더 큰 수의 샘플 1의 패밀리 내의 시퀀싱 판독물을 가졌다. 이 실시양태에서, 샘플 2의 상응하는 패밀리 내의 시퀀싱 판독물의 수보다 더 큰 수의 샘플 1의 패밀리 내의 시퀀싱 판독물을 갖는 공유된 패밀리를 공유된 패밀리의 정량적 측정치를 결정하는데 있어서 제외하였다. 또한, 이 실시양태에서, 공유된 패밀리의 정량적 측정치는 공유된 패밀리인 샘플 1 내의 총 패밀리의 백분율이었으며, 이는 0.815% (100 * (54212-1647)/6452057)과 같았다. 이 실시양태에서, 샘플을 오염된 것으로 분류하기 위한 미리 결정된 임계치는 0.5%였다. 샘플 1의 공유된 패밀리의 정량적 측정치는 0.5% 초과였기 때문에, 샘플 1은 샘플 2로 오염된 것으로 결정되었다.
II: 샘플 2가 샘플 1로 오염되었는지를 결정하기
샘플 2 내의 6,039,099개의 패밀리 중에서, 54,212개의 패밀리는 (샘플 1과) 공유된 패밀리였다. 54,212개의 공유된 패밀리 중에서: (i) 9362개의 공유된 패밀리는 샘플 1 및 샘플 2 양쪽 모두 내의 패밀리 내에서 동일한 수의 시퀀싱 판독물을 가졌고; (ii) 43,203개의 공유된 패밀리는 샘플 1의 상응하는 패밀리 내의 시퀀싱 판독물의 수보다 더 큰 수의 샘플 2의 패밀리 내의 시퀀싱 판독물을 가졌다. 샘플 1의 상응하는 패밀리 내의 시퀀싱 판독물의 수보다 더 큰 수의 샘플 2의 패밀리 내의 시퀀싱 판독물을 갖는 공유된 패밀리를 제외하면, 샘플 2의 공유된 패밀리의 정량적 측정치는 0.182% (100 * (54212-43203)/6039099)와 같았다. 샘플 2의 공유된 패밀리의 정량적 측정치는 미리 결정된 임계치 (0.5%) 미만이었기 때문에, 샘플 2는 샘플 1로 오염되지 않은 것으로 결정되었다.
본 발명의 바람직한 실시양태가 본원에 제시되고 기술되었지만, 이같은 실시양태는 단지 예로서 제공됨이 관련 기술 분야의 통상의 기술자에게 자명할 것이다. 본 발명은 본 명세서 내에 제공된 구체적인 예에 의해 제한되는 것으로 의도되지 않는다. 본 발명은 상기 언급된 명세서를 참조로 기술되었지만, 본원에서 실시양태의 설명 및 예시는 제한적 의미로 해석되는 것으로 의미되지 않는다. 다수의 변이, 변화, 및 치환이 이제 본 발명으로부터 벗어나지 않으면서 관련 기술 분야의 통상의 기술자에게 일어날 것이다. 더욱이, 본 발명의 모든 측면은 다양한 조건 및 변수에 좌우되는 본원에 기재된 구체적인 설명, 구성 또는 상대적 비율에 제한되지 않음이 이해될 것이다. 본원에 기술된 본 발명의 실시양태에 대한 다양한 대안이 본 발명을 실시하는데 있어서 채용될 수 있음을 이해해야 한다. 따라서, 본 발명은 또한 임의의 이같은 대안, 변형, 변이 또는 등가물을 커버할 것임이 고려된다. 하기 청구범위는 본 발명의 범위를 한정하며, 이들 청구범위 및 이들의 등가물의 범주 내의 방법 및 구조는 그에 의해 커버되는 것으로 의도된다.
상기 개시내용이 명확성 및 이해를 목적으로 설명 및 예의 방식으로 일부 상세하게 기술되었지만, 형태 및 세부사항에서의 다양한 변화가 본 개시내용의 진정한 범주를 벗어나지 않으면서 이루어질 수 있고, 첨부된 청구범위의 범주 내에서 실행될 수 있다는 것이 본 개시내용을 읽는 것으로부터 관련 기술 분야의 통상의 기술자에게 명백할 것이다. 예를 들어, 모든 방법, 시스템, 컴퓨터 판독가능 매체, 및/또는 성분 특색, 단계, 요소, 또는 그의 기타 측면이 다양한 조합으로 사용될 수 있다.
본원에서 인용된 모든 특허, 특허 출원, 웹사이트, 기타 간행물 또는 문서, 수탁 번호 등은 각각의 개별적인 항목이 참조로 포함된 것으로 구체적 및 개별적으로 지시된 것과 동일한 정도로 모든 목적을 위해 그의 전문이 참조로 포함된다. 상이한 서열 버전들이 상이한 시간의 수탁 번호와 연관되는 경우, 본 출원의 유효 출원일의 수탁 번호와 연관된 버전을 의미한다. 유효 출원일은 실제 출원일 또는 수탁 번호를 언급하는 우선권 출원의 출원일 (적용가능한 경우) 중 더 앞서는 것을 의미한다. 마찬가지로, 간행물, 웹사이트 등의 상이한 버전들이 상이한 시간에 공개된 경우, 달리 명시되지 않는 한, 본 출원의 유효 출원일에 가장 최근에 공개된 버전을 의미한다.

Claims (62)

  1. (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고;
    (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고;
    (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고;
    (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  2. (a) 컴퓨터 시스템에 의해, 제1 및 제2 샘플로부터의 복수의 시퀀싱 판독물을 포함하는 서열 정보에 접근하고;
    (b) 컴퓨터 시스템에 의해, 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 각각의 샘플에 대해, 컴퓨터 시스템에 의해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 컴퓨터 시스템에 의해, 복수의 패밀리에 대한 패밀리 식별자를 생성시키고;
    (e) 컴퓨터 시스템에 의해, 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고;
    (f) 컴퓨터 시스템에 의해, 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고;
    (g) 컴퓨터 시스템에 의해, 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  3. (a) 제1 및 제2 샘플로부터의 복수의 시퀀싱 판독물을 포함하는 서열 정보를 수득하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고;
    (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고;
    (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고;
    (g) 제1 샘플을, 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, a) 전에, 폴리뉴클레오티드의 세트를 태그부착시켜, 태그부착된 폴리뉴클레오티드를 생성시키는 것을 추가로 포함하고, 여기서 각각의 태그부착된 폴리뉴클레오티드가 태그 및 폴리뉴클레오티드를 포함하는 것인 방법.
  5. 제4항에 있어서, 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리가 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하는 것인 방법.
  6. (a) 샘플로부터의 태그부착된 폴리뉴클레오티드 또는 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대한 패밀리 식별자를 생성시키고;
    (e) 공유된 패밀리 식별자의 세트에 대해 스크리닝하고, 여기서 주어진 공유된 패밀리 식별자는 제2 샘플의 패밀리 식별자와 동일하거나 실질적으로 동일한 제1 샘플의 패밀리 식별자이고;
    (f) 공유된 패밀리 식별자의 세트의 정량적 측정치를 결정하고;
    (g) 제1 샘플을, 공유된 패밀리 식별자의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리 식별자의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 공유된 패밀리 식별자의 세트의 정량적 측정치가 제1 샘플 내의 공유된 패밀리 식별자의 수인 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 공유된 패밀리 식별자의 세트의 정량적 측정치가 제1 샘플 내의 공유된 패밀리 식별자의 수 대 제1 샘플 내의 패밀리 식별자의 총 수의 비를 포함하는 것인 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 공유된 패밀리 식별자의 세트의 정량적 측정치가, 제1 샘플의 패밀리 내의 시퀀싱 판독물의 수가 제2 샘플의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 제1 샘플 내의 공유된 패밀리 식별자를 제외하는 것인 방법.
  10. 제4항 또는 제6항에 있어서, 제1 샘플 내의 공유된 패밀리 식별자의 세트의 정량적 측정치가 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 공유된 패밀리 식별자를 제외하는 것인 방법.
  11. 제10항에 있어서, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍이
    (a) 복수의 샘플을 제공하고, 여기서 복수의 샘플은 제1 샘플 및/또는 제2 샘플과 동일하거나 실질적으로 동일한 게놈 출발 위치 및 게놈 정지 위치의 분포를 포함하고;
    (b) 복수의 샘플 내의 패밀리 식별자를 결정하고;
    (c) 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리 식별자의 수를 정량하고;
    (d) 패밀리 식별자의 수가 세트 임계치를 초과하는 경우 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 것으로 범주화하는 것
    에 의해 결정되는 것인 방법.
  12. 제11항에 있어서, 복수의 샘플이 제1 샘플 또는 제2 샘플을 제외하는 것인 방법.
  13. 제11항에 있어서, 복수의 샘플이 제1 샘플 및 제2 샘플을 제외하는 것인 방법.
  14. 제11항에 있어서, 복수의 샘플이 제1 샘플과 동일한 유동 셀에서 프로세싱된 샘플을 포함하는 것인 방법.
  15. 제11항에 있어서, 복수의 샘플이 트레이닝 샘플을 포함하는 것인 방법.
  16. 제11항에 있어서, 세트 임계치가 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개 또는 적어도 60개의 패밀리인 방법.
  17. (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고, 여기서 주어진 공유된 패밀리는 제2 샘플의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 제1 샘플의 패밀리이고;
    (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고;
    (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  18. (a) 샘플로부터의 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 폴리뉴클레오티드의 (i) 시작 영역, (ii) 종료 영역 및 (iii) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 함께 복수의 패밀리로 그룹화하고, 여기서 각각의 패밀리는 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 공유된 패밀리는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하고;
    (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고;
    (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  19. 제17항 또는 제18항에 있어서, 시퀀싱 전에, 폴리뉴클레오티드의 세트를 태그부착시켜, 태그부착된 폴리뉴클레오티드를 생성시키는 것을 추가로 포함하고, 여기서 각각의 태그부착된 폴리뉴클레오티드가 태그 및 폴리뉴클레오티드를 포함하는 것인 방법.
  20. 제19항에 있어서, 각각의 샘플에 대해, 폴리뉴클레오티드의 (i) 태그, (ii) 시작 영역, (iii) 종료 영역 및 (iv) 길이 중 적어도 하나를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리가 샘플 내의 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하는 것인 방법.
  21. (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 각각의 샘플에 대해, 태그를 포함하는 그룹화 특색에 기초하여 복수의 시퀀싱 판독물을 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제2 샘플의 패밀리의 그룹화 특색과 동일하거나 실질적으로 동일한 그룹화 특색을 갖는 제1 샘플의 패밀리이고;
    (e) 제1 샘플에 대한 공유된 패밀리의 세트의 정량적 측정치를 결정하고;
    (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  22. (a) 샘플로부터의 태그부착된 폴리뉴클레오티드의 세트를 시퀀싱하여, 복수의 시퀀싱 판독물을 생산하고, 여기서 각각의 태그부착된 폴리뉴클레오티드는 태그 및 폴리뉴클레오티드를 포함하고;
    (b) 복수의 시퀀싱 판독물을 정렬의 시작 영역 및 종료 영역이 결정되는 기준 서열에 대해 정렬하고;
    (c) 태그를 포함하는 그룹화 특색에 기초하여 2개의 샘플의 복수의 시퀀싱 판독물을 함께 복수의 패밀리로 그룹화하고, 여기서 샘플 내의 각각의 패밀리는 샘플 내의 태그부착된 폴리뉴클레오티드의 세트 중에서 고유한 폴리뉴클레오티드로부터 증폭된 태그부착된 자손 폴리뉴클레오티드의 시퀀싱 판독물을 포함하고;
    (d) 복수의 패밀리에 대해 스크리닝하여, 공유된 패밀리의 세트를 확인하고; 여기서 주어진 공유된 패밀리는 제1 샘플로부터의 적어도 하나의 시퀀싱 판독물 및 제2 샘플로부터의 적어도 하나의 시퀀싱 판독물을 포함하고;
    (e) 공유된 패밀리의 세트로부터 유래된 정량적 측정치를 결정하고;
    (f) 제1 샘플을, 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 초과인 경우 제2 샘플로 오염된 것으로 분류하거나, 또는 공유된 패밀리의 세트의 정량적 측정치가 미리 결정된 임계치 이하인 경우 제2 샘플로 오염되지 않은 것으로 분류하는 것
    을 포함하는, 제2 샘플로의 제1 샘플의 오염의 존재 또는 부재를 검출하는 방법.
  23. 제17항 내지 제22항 중 어느 한 항에 있어서, 정량적 측정치가 제1 샘플 내의 공유된 패밀리의 수를 포함하는 것인 방법.
  24. 제18항 또는 제22항에 있어서, 정량적 측정치가 제1 샘플의 시퀀싱 판독물의 수 대 공유된 패밀리 내의 제2 샘플의 시퀀싱 판독물의 수의 비를 포함하는 것인 방법.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서, 정량적 측정치가 제1 샘플 내의 공유된 패밀리의 수 대 제1 샘플 내의 패밀리의 총 수의 비를 포함하는 것인 방법.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, 공유된 패밀리의 세트의 정량적 측정치가, 제1 샘플의 패밀리 내의 시퀀싱 판독물의 수가 제2 샘플의 상응하는 패밀리 내의 시퀀싱 판독물의 수 초과인 제1 샘플 내의 공유된 패밀리를 제외하는 것인 방법.
  27. 제19항 내지 제22항 중 어느 한 항에 있어서, 제1 샘플 내의 공유된 패밀리의 세트의 정량적 측정치가 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍에서의 공유된 패밀리를 제외하는 것인 방법.
  28. 제27항에 있어서, 게놈 출발 위치 및 게놈 정지 위치의 과다-제시된 쌍이
    (a) 복수의 샘플을 제공하고, 여기서 복수의 샘플은 제1 샘플 및/또는 제2 샘플과 동일하거나 실질적으로 동일한 게놈 출발 위치 및 게놈 정지 위치의 분포를 포함하고;
    (b) 복수의 샘플 내의 패밀리를 결정하고;
    (c) 게놈 출발 위치 및 게놈 정지 위치의 쌍을 공유하는 복수의 샘플 내의 패밀리의 수를 정량하고;
    (d) 패밀리의 수가 세트 임계치를 초과하는 경우 게놈 출발 위치 및 게놈 정지 위치의 쌍을 과다-제시된 것으로 범주화하는 것
    에 의해 결정되는 것인 방법.
  29. 제28항에 있어서, 복수의 샘플이 제1 샘플 또는 제2 샘플을 제외하는 것인 방법.
  30. 제28항에 있어서, 복수의 샘플이 제1 샘플 및 제2 샘플을 제외하는 것인 방법.
  31. 제28항에 있어서, 복수의 샘플이 제1 샘플과 동일한 유동 셀에서 프로세싱된 샘플을 포함하는 것인 방법.
  32. 제28항에 있어서, 복수의 샘플이 트레이닝 샘플을 포함하는 것인 방법.
  33. 제28항에 있어서, 세트 임계치가 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 25개, 적어도 30개, 적어도 35개, 적어도 40개, 적어도 45개, 적어도 50개, 적어도 55개 또는 적어도 60개의 패밀리인 방법.
  34. 제1항 내지 제33항 중 어느 한 항에 있어서, 시작 영역이 시퀀싱 판독물의 5' 단부가 기준 서열에 대해 정렬하기를 시작하도록 결정된 시퀀싱 판독물의 게놈 출발 위치를 포함하고, 종료 영역이 시퀀싱 판독물의 3' 단부가 기준 서열에 대해 정렬하기를 정지하도록 결정된 시퀀싱 판독물의 게놈 정지 위치를 포함하는 것인 방법.
  35. 제34항에 있어서, 시작 영역이 기준 서열에 대해 정렬하는 시퀀싱 판독물의 5' 단부에 처음 1개, 처음 2개, 처음 5개, 처음 10개, 처음 15개, 처음 20개, 처음 25개, 처음 30개 또는 적어도 처음 30개의 염기 위치를 포함하는 것인 방법.
  36. 제34항에 있어서, 종료 영역이 기준 서열에 대해 정렬하는 시퀀싱 판독물의 3' 단부에 마지막 1개, 마지막 2개, 마지막 5개, 마지막 10개, 마지막 15개, 마지막 20개, 마지막 25개, 마지막 30개 또는 적어도 마지막 30개의 염기 위치를 포함하는 것인 방법.
  37. 제1항 내지 제36항 중 어느 한 항에 있어서, 태그가 폴리뉴클레오티드의 단부에 부착된 하나 이상의 분자 바코드를 포함하는 것인 방법.
  38. 제37항에 있어서, 하나 이상의 분자 바코드가 적어도 2개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 8개, 적어도 10개, 적어도 15개 또는 적어도 20개의 뉴클레오티드의 길이인 방법.
  39. 제37항에 있어서, 제1 샘플의 폴리뉴클레오티드에 부착된 하나 이상의 분자 바코드가 제2 샘플의 폴리뉴클레오티드에 부착된 하나 이상의 분자 바코드와는 상이한 것인 방법.
  40. 제1항 내지 제39항 중 어느 한 항에 있어서, 샘플의 폴리뉴클레오티드가 적어도 5개, 적어도 10개, 적어도 15개, 적어도 20개, 적어도 50개, 적어도 100개, 적어도 500개, 적어도 1000개, 적어도 5000개, 적어도 10,000개, 적어도 50,000개 또는 적어도 100,000개의 상이한 분자 바코드로 태그부착된 것인 방법.
  41. 제1항 내지 제40항 중 어느 한 항에 있어서, 제1 샘플 및 제2 샘플이 동일한 유동 셀에서 시퀀싱되는 것인 방법.
  42. 제1항 내지 제41항 중 어느 한 항에 있어서, 제2 샘플이 제1 샘플과는 상이한 유동 셀에서 시퀀싱되는 것인 방법.
  43. 제1항 내지 제42항 중 어느 한 항에 있어서, 제2 샘플이 제1 샘플의 것과 동일한 날에, 그러나 제1 샘플과는 상이한 시간에 프로세싱되는 것인 방법.
  44. 제43항에 있어서, 제2 샘플이 제1 샘플이 프로세싱된 후 적어도 1분, 적어도 30분, 적어도 1시간, 적어도 2시간, 적어도 3시간 또는 적어도 4시간에 프로세싱되는 것인 방법.
  45. 제1항 내지 제44항 중 어느 한 항에 있어서, 제1 샘플 및 제2 샘플이 상이한 날에 프로세싱되는 것인 방법.
  46. 제1항 내지 제45항 중 어느 한 항에 있어서, 제1 샘플 및 제2 샘플이 동일한 샘플의 배치 내에 있는 것인 방법.
  47. 제1항 내지 제46항 중 어느 한 항에 있어서, 제2 샘플이 제1 샘플과 동일한 시약의 배치로 프로세싱되는 것인 방법.
  48. 제47항에 있어서, 제1 샘플 및 제2 샘플이 상이한 지리적 위치에서 프로세싱되는 것인 방법.
  49. 제1항 내지 제48항 중 어느 한 항에 있어서, 샘플의 태그부착된 폴리뉴클레오티드의 세트가 고유하게 태그부착된 것인 방법.
  50. 제1항 내지 제49항 중 어느 한 항에 있어서, 샘플의 태그부착된 폴리뉴클레오티드의 세트가 고유하지 않게 태그부착된 것인 방법.
  51. 제1항 내지 제50항 중 어느 한 항에 있어서, 제1 샘플이 대상체의 체액으로부터 수득되고, 제2 샘플이 또 다른 대상체의 체액으로부터 수득되는 것인 방법.
  52. 제1항 내지 제51항 중 어느 한 항에 있어서, 폴리뉴클레오티드가 무세포 폴리뉴클레오티드인 방법.
  53. 제52항에 있어서, 무세포 폴리뉴클레오티드가 무세포 DNA인 방법.
  54. 제51항에 있어서, 대상체 중 적어도 하나가 질환을 갖는 것인 방법.
  55. 제54항에 있어서, 질환이 암인 방법.
  56. 제1항 내지 제55항 중 어느 한 항에 있어서, 샘플의 폴리뉴클레오티드의 세트가 시퀀싱 전에 증폭되고, 이에 의해 증폭된 자손 폴리뉴클레오티드를 생산하는 것인 방법.
  57. 제56항에 있어서, 시퀀싱 전에 대상체의 게놈 또는 트랜스크립톰으로부터의 영역에 대해 증폭된 자손 폴리뉴클레오티드의 적어도 부분을 선택적으로 풍부화하는 것을 추가로 포함하는 방법.
  58. 제57항에 있어서, 시퀀싱 전에 하나 이상의 샘플 색인을 증폭된 자손 폴리뉴클레오티드의 한쪽 또는 양쪽 단부에 부착시키는 것을 추가로 포함하고, 여기서 샘플 색인이 제1 샘플 및 제2 샘플을 구별하는 것인 방법.
  59. 제1항 내지 제58항 중 어느 한 항에 있어서, 미리 결정된 임계치가 제1 샘플 내의 패밀리의 총 수의 적어도 0.001%, 적어도 0.005%, 적어도 0.01%, 적어도 0.05%, 적어도 0.1%, 적어도 0.5%, 적어도 1%, 적어도 2%, 적어도 5%, 또는 적어도 10%인 방법.
  60. 제1항 내지 제59항 중 어느 한 항에 있어서, 제1 샘플의 공유된 패밀리의 시퀀싱 판독물을 제외함으로써 제1 샘플의 폴리뉴클레오티드의 체세포 유전자 변이를 검출하는 것을 추가로 포함하고, 여기서 제1 샘플이 제2 샘플로 오염된 것으로 분류되는 것인 방법.
  61. 제1항 내지 제60항 중 어느 한 항에 있어서, 샘플의 오염 상태에 대한 정보, 및/또는 그로부터 유래된 정보를 임의적으로 포함하는 보고서를 생성시키는 것을 추가로 포함하는 방법.
  62. 제61항에 있어서, 제3자, 예컨대 샘플이 유래된 대상체 또는 건강 관리 실무자에게 보고서를 통신하는 것을 추가로 포함하는 방법.
KR1020217009214A 2018-08-30 2019-08-30 샘플 사이의 오염을 검출하기 위한 방법 및 시스템 KR20210052501A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862724622P 2018-08-30 2018-08-30
US62/724,622 2018-08-30
PCT/US2019/049228 WO2020047513A1 (en) 2018-08-30 2019-08-30 Methods and systems for detecting contamination between samples

Publications (1)

Publication Number Publication Date
KR20210052501A true KR20210052501A (ko) 2021-05-10

Family

ID=67957435

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217009214A KR20210052501A (ko) 2018-08-30 2019-08-30 샘플 사이의 오염을 검출하기 위한 방법 및 시스템

Country Status (9)

Country Link
US (1) US20200071754A1 (ko)
EP (1) EP3844759A1 (ko)
JP (1) JP2021536232A (ko)
KR (1) KR20210052501A (ko)
CN (1) CN112970068A (ko)
AU (1) AU2019331907A1 (ko)
CA (1) CA3109646A1 (ko)
SG (1) SG11202101403YA (ko)
WO (1) WO2020047513A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445956B (zh) * 2020-04-23 2021-06-22 北京吉因加医学检验实验室有限公司 一种二代测序平台的基因组数据高效利用方法和装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
WO1996006190A2 (en) 1994-08-19 1996-02-29 Perkin-Elmer Corporation Coupled amplification and ligation method
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
EP2100971A3 (en) 2000-07-07 2009-11-25 Visigen Biotechnologies, Inc. Real-time sequence determination
US7208271B2 (en) 2001-11-28 2007-04-24 Applera Corporation Compositions and methods of selective nucleic acid isolation
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20060073506A1 (en) * 2004-09-17 2006-04-06 Affymetrix, Inc. Methods for identifying biological samples
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US9394567B2 (en) * 2008-11-07 2016-07-19 Adaptive Biotechnologies Corporation Detection and quantification of sample contamination in immune repertoire analysis
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US20160040229A1 (en) * 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP4036247B1 (en) 2012-09-04 2024-04-10 Guardant Health, Inc. Methods to detect rare mutations and copy number variation
WO2018150378A1 (en) * 2017-02-17 2018-08-23 Grail, Inc. Detecting cross-contamination in sequencing data using regression techniques

Also Published As

Publication number Publication date
CA3109646A1 (en) 2020-03-05
AU2019331907A1 (en) 2021-04-08
CN112970068A (zh) 2021-06-15
WO2020047513A1 (en) 2020-03-05
SG11202101403YA (en) 2021-03-30
EP3844759A1 (en) 2021-07-07
US20200071754A1 (en) 2020-03-05
JP2021536232A (ja) 2021-12-27

Similar Documents

Publication Publication Date Title
US20200327954A1 (en) Methods and systems for differentiating somatic and germline variants
JP2024015059A (ja) セルフリー核酸の細胞起源を決定するための方法およびシステム
CA3049455C (en) Sequencing adapter manufacture and use
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
KR20210052501A (ko) 샘플 사이의 오염을 검출하기 위한 방법 및 시스템
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
CN114746560A (zh) 改进甲基化多核苷酸结合的方法、组合物和系统
US20240062848A1 (en) Determining a dynamic quality metric of a biopsy sample
WO2024054517A1 (en) Methods and compositions for analyzing nucleic acid
EP4267757A1 (en) Methods and systems for analyzing methylated polynucleotides

Legal Events

Date Code Title Description
A201 Request for examination