KR20200057024A - 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템 - Google Patents

체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20200057024A
KR20200057024A KR1020207010774A KR20207010774A KR20200057024A KR 20200057024 A KR20200057024 A KR 20200057024A KR 1020207010774 A KR1020207010774 A KR 1020207010774A KR 20207010774 A KR20207010774 A KR 20207010774A KR 20200057024 A KR20200057024 A KR 20200057024A
Authority
KR
South Korea
Prior art keywords
nucleic acid
acid variant
germline
variant
value
Prior art date
Application number
KR1020207010774A
Other languages
English (en)
Inventor
트레이시 낸스
엘레나 헬먼
다르야 추도바
Original Assignee
가던트 헬쓰, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가던트 헬쓰, 인크. filed Critical 가던트 헬쓰, 인크.
Publication of KR20200057024A publication Critical patent/KR20200057024A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Biochemistry (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Microbiology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Operations Research (AREA)

Abstract

한 측면에서, 핵산 분자의 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법은 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함하는 핵산 변이체에 대한 정량적 측정치를 측정하고; 핵산 변이체의 연관된 변수를 확인하고; 연관된 변수에 대한 정량적 값을 측정하고; 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; 통계적 모델, 정량적 값, 및 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; 핵산 변이체를 (i) p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함한다.

Description

체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템
상호-참조
이 출원은 2017년 9월 20일에 출원된 미국 가출원 제62/561,048호의 우선권을 주장하며, 이 출원은 그 전문이 본원에 참조로 포함된다.
암 유전체학의 중요한 측면은 환자의 적절한 치료를 위한 유전적 변경의 기원을 정확하게 확인하는 것이다. 최근의 연구는 진행된 암 환자의 2% 초과가 표적화가능한 체세포 변경을 위한 차세대 시퀀싱 (NGS) 동안 부수적으로 발견된 비확인된 생식세포계열 변경을 가질 수 있음을 밝혀내었다. 그러나, 조직-기재 NGS는 정상 조직과 비교하지 않고 생식세포계열 돌연변이를 체세포 돌연변이로부터 정확하게 구별할 수 없을 수 있다. 혈장에서, 체세포 변이체는 전형적으로 생식세포계열 변이체의 그것보다 1 내지 2 자릿수 더 낮을 수 있는 돌연변이체 대립유전자 분율 (MAF)에서 발생하며, 따라서 액상 생검은 생식세포계열/체세포 기원을 정확하게 할당할 수 있다. 그러나, 특정 인자, 예컨대 카피 수 변이 (CNV)로부터의 대립유전자 불균형 또는 이형접합성의 소실 (LOH)은 생식세포계열 MAF에 대한 예상된 범위로부터 생식세포계열 MAF를 왜곡할 수 있다. 따라서, 변이체의 기원을 측정하는 데 있어서 이들 인자를 고려할 수 있는 방법에 대한 필요가 있다.
요약
본 개시내용은 핵산 분자, 예컨대 무세포 데옥시리보핵산 (cfDNA)의 샘플에서 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템을 제공한다. 이러한 방법은 국소 생식세포계열 대립유전자 카운트 거동을 모델링하기 위해 통상적인 단일 뉴클레오티드 다형성 (SNP)을 사용할 수 있으며, MAF 편차에 기초하여 체세포 변이체를 관찰된 생식세포계열 MAF로부터 구별할 수 있다.
한 측면에서, 본 개시내용은 핵산 분자의 샘플 (예를 들어, 조직 샘플, 무세포 DNA의 샘플 등)로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법을 제공한다. 방법은 (a) 핵산 샘플로부터 핵산 변이체에 대한 1개 이상의 정량적 측정치를 측정하는 것을 포함한다. 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함한다. 방법은 또한 (b) 핵산 샘플로부터 핵산 변이체의 적어도 1개의 연관된 변수를 확인하고, (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하는 것을 포함한다. 방법은 (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고, (e) 예상된 생식세포계열 대립유전자 카운트에 대한 통계적 모델, 및 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 정량적 측정치 중 적어도 하나에 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하는 것을 더 포함한다. 또한, 방법은 또한 (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체의 p-값이 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함한다.
한 측면에서, 본 개시내용은 (a) 무세포 핵산 분자의 샘플로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) 무세포 핵산 분자의 샘플로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는, 무세포 핵산 분자 (예를 들어, 무세포 데옥시리보핵산 (cfDNA) 분자)의 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법을 제공한다.
일부 실시양태에서, 방법은 대상체로부터 무세포 핵산 분자의 샘플을 얻는 것을 더 포함한다. 일부 실시양태에서, 방법은 무세포 핵산 분자의 샘플로부터 생성된 시퀀싱 정보를 받는 것을 더 포함하며, 시퀀싱 정보는 핵산 변이체를 포함하는 무세포 핵산 시퀀싱 리드 및 핵산 변이체의 연관된 변수를 포함하고, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함한다. 일부 실시양태에서, 방법은 무세포 핵산 분자의 샘플로부터 핵산을 시퀀싱하여 시퀀싱 정보를 생성하는 것을 더 포함하며, 핵산 변이체에 대한 복수의 정량적 측정치 및 연관된 변수에 대한 정량적 값은 시퀀싱 정보로부터 측정된다.
일부 실시양태에서, 방법은 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고, 핵산 변이체의 연관된 변수를 확인하고, 무세포 핵산 분자의 샘플로부터 생성된 시퀀싱 정보로부터 연관된 변수에 대한 정량적 값을 측정하는 것을 더 포함한다. 일부 실시양태에서, 방법은 무세포 핵산 분자의 샘플의 핵산에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 미리 결정된 역치 값을 생성하는 것을 더 포함한다. 일부 실시양태에서, 방법은 무세포 핵산 분자의 샘플에서 복수의 게놈 좌위로부터 복수의 핵산 변이체의 체세포 또는 생식세포계열 기원을 분류하는 것을 더 포함한다.
일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 2개의 het SNP를 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함한다.
일부 실시양태에서, 방법은 핵산 변이체의 연관된 변수에 대한 1개 이상의 돌연변이체 대립유전자 카운트의 평균 및/또는 분산 값을 측정하는 것을 더 포함한다. 일부 실시양태에서, 방법은 핵산 변이체의 연관된 변수에 대한 평균 정량적 값을 측정하는 것을 더 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 이형접합성 단일 뉴클레오티드 다형성 (het SNP), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 및 대상체에 대한 임상 데이터 중 1종 이상을 포함한다. 일부 실시양태에서, 방법은 핵산 변이체의 연관된 변수의 평균 및/또는 분산 값을 측정하는 것을 더 포함한다.
일부 실시양태에서, 방법은 핵산 변이체에 대한 국소 생식세포계열 폴딩된 돌연변이체 대립유전자 분율 (MAF), μ을 측정하는 것을 더 포함하며, 여기서 은 핵산 변이체를 포함하는 유전자 또는 또 다른 특정된 게놈 영역이고, 폴딩된 MAF는 min(MAF, 1 - MAF)이다. 일부 실시양태에서, 특정된 게놈 영역은 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 또는 1010 염기 쌍 내의 영역이다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 약 0.001 초과의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 비-종양형성 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 약 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다.
일부 실시양태에서, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 포함하고, 방법은
Figure pct00001
를 사용하여 베타 이항 분포 파라미터를 추정하는 것을 포함한다: 상기 식에서, y = 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 이형접합성 SNP의 평균 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ = 분산 파라미터의 추정치. 일부 실시양태에서, 방법은 p-값에 대한 상한 및 하한을 계산하는 것을 더 포함한다. 일부 실시양태에서, 방법은
Figure pct00002
를 사용하여 핵산 변이체에 대한 양측 p-값을 계산하는 것을 더 포함한다: 상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항으로 분포된 무작위 변수; A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및 B = 핵산 변이체의 총 분자 카운트. 일부 실시양태에서, ρ는 히스토릭 샘플 세트로부터의 ρ 값의 적어도 1개의 세트의 중위 값을 포함한다. 일부 실시양태에서, 방법은 중위 ρ 파라미터를 핵산 변이체의 GC 함량의 함수로 대체하는 것을 더 포함한다. 일부 실시양태에서, 방법은 μ의 최대 가능성 추정치를 측정하는 것을 더 포함한다. 일부 실시양태에서, 방법은 μ의 평균 추정치를 측정하는 것을 더 포함한다. 일부 실시양태에서, 방법은 ρ의 최대 가능성 추정치를 측정하는 것을 더 포함한다. 일부 실시양태에서, 방법은 ρ의 분산 추정치를 측정하는 것을 더 포함한다. 일부 실시양태에서, 방법은 체세포 또는 생식세포계열 기원 중 어느 하나의 것인 것으로서의 핵산 변이체의 분류의 지시를 제공하는 전자 및/또는 페이퍼 형식의 리포트를 생성하는 것을 더 포함한다.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 무세포 핵산 분자 (예를 들어, 무세포 데옥시리보핵산 (cfDNA) 분자)의 샘플로부터 생성된 시퀀싱 정보로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) 시퀀싱 정보로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는 방법을 수행하는 컴퓨터-실행가능한 명령을 포함하는 비-일시적 컴퓨터-판독가능한 매체를 제공한다.
일부 실시양태에서, 미리 결정된 역치 값은 무세포 핵산 분자 (예를 들어, cfDNA 분자)의 샘플에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 생성된다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 2개의 het SNP를 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함한다. 일부 실시양태에서, 1개 이상의 돌연변이체 대립유전자 카운트의 평균 및/또는 분산 값은 핵산 변이체의 연관된 변수에 대해 측정된다. 일부 실시양태에서, 복수의 정량적 측정치 중 적어도 하나는 핵산 변이체를 포함하는 무세포 핵산 분자의 샘플의 다수의 핵산 분자를 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 이형접합성 단일 뉴클레오티드 다형성 (het SNP), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 및 대상체에 대한 임상 데이터 중 1종 이상을 포함한다.
일부 실시양태에서, 국소 생식세포계열 폴딩된 돌연변이체 대립유전자 분율 (MAF), μ은 핵산 변이체에 대해 측정되며, 여기서 은 핵산 변이체를 포함하는 유전자 또는 또 다른 특정된 게놈 영역이고, 폴딩된 MAF는 min(MAF, 1 - MAF)이다. 일부 실시양태에서, 특정된 게놈 영역은 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 또는 1010 염기 쌍 내의 영역이다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 약 0.001 초과의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 연관된 변수는 적어도 1개의 비-종양형성 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 약 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다.
일부 실시양태에서, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 포함하고, 베타 이항 분포 파라미터는
Figure pct00003
를 사용하여 추정된다: 상기 식에서, y = 적어도 1개의 생식세포계열 이형접합성 SNP의 각각에 대한 1개의 엔트리를 갖는, 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 적어도 1개의 생식세포계열 이형접합성 SNP의 각각에 대한 1개의 엔트리를 갖는, min (적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ = 분산 파라미터의 추정치. 일부 실시양태에서, p-값에 대한 상한 및 하한이 계산된다. 일부 실시양태에서, 핵산 변이체에 대한 양측 p-값은
Figure pct00004
를 사용하여 계산된다: 상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항으로 분포된 무작위 변수; A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및 B = 핵산 변이체의 총 분자 카운트.
또 다른 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) 핵산 분자의 샘플 (예를 들어, 무세포 데옥시리보핵산 (cfDNA) 분자의 샘플)로부터 생성된 시퀀싱 정보로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) 시퀀싱 정보로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는 방법을 수행하는 컴퓨터-실행가능한 명령을 포함하는 비-일시적 컴퓨터-판독가능한 매체를 포함하거나, 이에 접근할 수 있는 컨트롤러를 포함하는 시스템을 제공한다.
일부 실시양태에서, 시스템은 컨트롤러에 작동적으로 연결된 핵산 시퀀서를 포함하며, 핵산 시퀀서는 핵산 분자 (예를 들어, 무세포 핵산 분자)의 샘플의 핵산으로부터의 시퀀싱 정보를 제공하도록 구성된다. 일부 실시양태에서, 시스템은 컨트롤러에 작동적으로 연결된 샘플 제조 구성요소를 포함하며, 샘플 제조 구성요소는 핵산 시퀀서에 의해 시퀀싱되는 샘플의 핵산을 제조하도록 구성된다. 일부 실시양태에서, 시스템은 컨트롤러에 작동적으로 연결된 핵산 증폭 구성요소를 포함하며, 핵산 증폭 구성요소는 샘플의 핵산을 증폭시키도록 구성된다. 일부 실시양태에서, 시스템은 컨트롤러에 작동적으로 연결된 물질 전달 구성요소를 포함하며, 물질 전달 구성요소는 핵산 시퀀서 및 샘플 제조 구성요소 사이에 1종 이상의 물질을 전달하도록 구성된다.
일부 실시양태에서, 미리 결정된 역치 값은 샘플의 핵산 (예를 들어, cfDNA 분자)에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 생성된다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 2개의 het SNP를 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함한다.
일부 실시양태에서, 1개 이상의 돌연변이체 대립유전자 카운트의 평균 및/또는 분산 값은 핵산 변이체의 연관된 변수에 대해 측정된다. 일부 실시양태에서, p-값은 핵산 변이체를 분류하는 데 사용된다. 일부 실시양태에서, 복수의 정량적 측정치 중 적어도 하나는 핵산 변이체를 포함하는 무세포 핵산 분자의 샘플의 다수의 핵산 분자를 포함한다. 일부 실시양태에서, 연관된 변수는 이형접합성 단일 뉴클레오티드 다형성 (het SNP), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 및 대상체에 대한 임상 데이터 중 1종 이상을 포함한다.
일부 실시양태에서, 국소 생식세포계열 폴딩된 돌연변이체 대립유전자 분율 (MAF), μ은 핵산 변이체에 대해 측정되며, 여기서 은 핵산 변이체를 포함하는 유전자 또는 또 다른 특정된 게놈 영역이고, 폴딩된 MAF는 min(MAF, 1 - MAF)이다. 일부 실시양태에서, 특정된 게놈 영역은 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 또는 1010 염기 쌍 내의 영역이다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 약 0.001 초과의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 비-종양형성 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 약 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다.
일부 실시양태에서, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 SNP를 포함하고, 베타 이항 분포 파라미터는
Figure pct00005
를 사용하여 추정된다: 상기 식에서, y = 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ = 분산 파라미터의 추정치. 일부 실시양태에서, p-값에 대한 상한 및 하한이 계산된다. 일부 실시양태에서, 핵산 변이체에 대한 양측 p-값은
Figure pct00006
를 사용하여 계산된다: 상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항으로 분포된 무작위 변수; A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및 B = 핵산 변이체의 총 분자 카운트.
또 다른 측면에서, 본 개시내용은 (a) 무세포 데옥시리보핵산 (cfDNA) 분자의 샘플로부터 핵산 변이체의 돌연변이체 대립유전자 카운트 (A) 및 총 분자 카운트 (B)를 측정하고; (b) 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 생식세포계열 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 확인하고; (c) 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트 (y) 및 돌연변이체 대립유전자 카운트를 측정하고; (d) 핵산 변이체에 대한 확률 값 (p-값)을 (i) 베타 이항 분포
Figure pct00007
(상기 식에서, y = 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ = 분산 파라미터의 추정치)로부터 μ 및 ρ의 추정치를 측정하고;
(ii) 하기 방정식
Figure pct00008
(상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항 분포로 분포된 무작위 변수; A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및 B = 핵산 변이체의 총 분자 카운트)으로부터 양측 p-값을 계산함으로써 계산하고; (e) 핵산 변이체를 (i) p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는, cfDNA 분자의 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법을 제공한다.
일부 실시양태에서, ρ는 히스토릭 샘플 세트로부터의 ρ 값의 적어도 1개의 세트의 중위 값을 포함한다. 일부 실시양태에서, 방법은 μ의 최대 가능성 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 μ의 평균 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 ρ의 최대 가능성 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 ρ의 분산 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 체세포 또는 생식세포계열 기원 중 어느 하나의 것인 것으로서의 핵산 변이체의 분류의 지시를 제공하는 전자 및/또는 페이퍼 형식의 리포트를 생성하는 것을 더 포함한다.
또 다른 측면에서, 본 개시내용은 통신 네트워크 상에서, 핵산 분자의 샘플 (예를 들어, 무세포 데옥시리보핵산 (cfDNA) 분자의 샘플)의 핵산으로부터 생성된 시퀀싱 정보를 얻는 통신 인터페이스; 및 통신 인터페이스와 통신하는 컴퓨터를 포함하며, 컴퓨터가 적어도 하나의 컴퓨터 프로세서 및 적어도 하나의 컴퓨터 프로세서에 의한 실행 시, (a) 시퀀싱 정보로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) 시퀀싱 정보로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는 방법을 실행하는 기계-실행가능한 코드를 포함하는 비-일시적 컴퓨터-판독가능한 매체를 포함하는 것인 시스템을 제공한다.
일부 실시양태에서, 시퀀싱 정보는 핵산 시퀀서에 의해 제공된다. 일부 실시양태에서, 핵산 시퀀서는 핵산의 피로시퀀싱, 단일-분자 시퀀싱, 나노포어 시퀀싱, 반도체 시퀀싱, 합성에 의한 시퀀싱, 라이게이션에 의한 시퀀싱, 또는 혼성화에 의한 시퀀싱을 수행하여 시퀀싱 정보를 생성한다. 일부 실시양태에서, 핵산 시퀀서는 시퀀싱 라이브러리로부터 유래된 클론성 단일 분자 어레이를 사용하여 시퀀싱 정보를 생성한다. 일부 실시양태에서, 핵산 시퀀서는 시퀀싱 라이브러리를 시퀀싱하여 시퀀싱 정보를 생성하기 위한 마이크로웰의 어레이를 갖는 칩을 포함한다. 일부 실시양태에서, 비-일시적 컴퓨터-판독가능한 매체는 메모리, 하드 드라이브, 또는 컴퓨터 서버의 메모리 또는 하드 드라이브를 포함한다. 일부 실시양태에서, 통신 네트워크는 분산 컴퓨팅이 가능한 1개 이상의 컴퓨터 서버를 포함한다. 일부 실시양태에서, 분산 컴퓨팅은 클라우드 컴퓨팅이다. 일부 실시양태에서, 컴퓨터는 핵산 시퀀서로부터 원격의 위치에 위치하는 컴퓨터 서버의 일부이다. 일부 실시양태에서, 시스템은 네트워크 상에서 컴퓨터와 통신하는 전자 디스플레이를 더 포함하며, 전자 디스플레이는 (a) 내지 (f)의 적어도 일부를 실행할 때 결과를 디스플레이하기 위한 사용자 인터페이스를 포함한다. 일부 실시양태에서, 사용자 인터페이스는 그래픽 사용자 인터페이스 (GUI) 또는 웹-기재 사용자 인터페이스이다. 일부 실시양태에서, 전자 디스플레이는 퍼스널 컴퓨터의 일부이다. 일부 실시양태에서, 전자 디스플레이는 인터넷-가능한 컴퓨터의 일부이다. 일부 실시양태에서, 인터넷-가능한 컴퓨터는 컴퓨터로부터 원격의 위치에 위치한다. 일부 실시양태에서, 비-일시적 컴퓨터-판독가능한 매체는 메모리, 하드 드라이브 또는 컴퓨터 서버의 메모리 또는 하드 드라이브를 포함한다. 일부 실시양태에서, 통신 네트워크는 전기통신 네트워크, 인터넷, 엑스트라넷, 또는 인트라넷을 포함한다.
또 다른 측면에서, 본 개시내용은 1종 이상의 맞춤형 요법을 대상체에게 투여함으로써, 대상체에서 질환을 치료하는 것을 포함하며, 맞춤형 요법이 (a) 핵산 분자의 샘플 (예를 들어, 무세포 DNA의 샘플)로부터 핵산 변이체에 대한 1개 이상의 정량적 측정치를 측정하고 (여기서, 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) 핵산 분자의 샘플로부터 핵산 변이체의 적어도 1개의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 및 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 정량적 측정치 중 적어도 하나에 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체의 p-값이 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하고; (g) 분류된 핵산 변이체를 1종 이상의 요법으로 인덱싱된 1개 이상의 비교자 결과와 비교하고; (h) 분류된 핵산 변이체 및 비교자 결과 사이에 실질적 매치가 있는 경우, 대상체에서 질환을 치료하기 위한 1종 이상의 맞춤형 요법을 확인함으로써 확인된 것인, 대상체에서 질환을 치료하는 방법을 제공한다.
본 개시내용의 추가의 측면 및 이점은 단지 본 개시내용의 예시적인 실시양태가 나타내어지고 기재되는 하기 상세한 설명으로부터 이 기술분야의 통상의 기술자에게 용이하게 명백하게 될 것이다. 실현될 것인 바와 같이, 본 개시내용은 다른 및 상이한 실시양태가 가능하며, 그의 몇몇 상세사항은 모두 본 개시내용으로부터 벗어나지 않고, 다양한 자명한 면에서 변형이 가능하다. 따라서, 도면 및 설명은 성질상 예시적인 것으로서 간주되어야 하며, 제한적인 것으로서가 아니다.
본 개시내용의 추가의 측면 및 이점은 단지 본 개시내용의 예시적인 실시양태가 나타내어지고 기재되는 하기 상세한 설명으로부터 이 기술분야의 통상의 기술자에게 용이하게 명백하게 될 것이다. 실현될 것인 바와 같이, 본 개시내용은 다른 및 상이한 실시양태가 가능하며, 그의 몇몇 상세사항은 모두 본 개시내용으로부터 벗어나지 않고, 다양한 자명한 면에서 변형이 가능하다. 따라서, 도면 및 설명은 성질상 예시적인 것으로서 간주되어야 하며, 제한적인 것으로서가 아니다.
이 명세서에 포함되고 그의 일부를 구성하는 첨부된 도면은 특정 실시양태를 예시하며, 기록된 설명과 함께, 본원에 개시된 방법, 컴퓨터 판독가능한 매체, 및 시스템의 특정 원리를 설명하는 기능을 한다. 본원에서 제공된 설명은 예로서 포함되며, 제한으로서가 아닌 첨부된 도면과 함께 읽을 경우 보다 잘 이해된다. 맥락이 달리 지시하지 않는다면, 도면 전반에 걸쳐 유사한 참조 부호는 유사한 구성요소를 확인함이 이해될 것이다. 또한, 도면의 일부 또는 전부는 예시의 목적을 위한 개략적 도시일 수 있으며, 나타내어진 요소의 실제적인 상대적 크기 또는 위치를 반드시 나타내지는 않음이 이해될 것이다.
도 1은 본 개시내용의 실시양태에 따른 핵산 분자의 샘플에서 체세포 및 생식세포계열 변이체를 구별하는 방법의 흐름도 도시이다.
도 2는 본 개시내용의 실시양태에 따른 베타 이항 분포를 사용하여 핵산 분자의 샘플에서 체세포 및 생식세포계열 변이체를 구별하는 방법의 흐름도 도시이다.
도 3은 베타 이항 분포를 사용하여 생식세포계열/체세포 변이체를 구별하기 위한 결정 경계의 그래프적 도시이다.
도 4는 본 개시내용의 일부 실시양태와 함께 사용하기에 적합한 예시적인 시스템의 개략도이다.
도 5a는 EGFR 유전자에서 T790M 변이체 및 6개의 통상적인 생식세포계열 이형접합성 SNP에 대한 게놈 위치에 대한 돌연변이체 대립유전자 분율 (MAF)의 그래프적 도시이다.
도 5b는 EGFR 유전자에서 T790M 변이체 및 6개의 통상적인 생식세포계열 이형접합성 SNP에 대한 게놈 위치에 대한 min(MAF, 1-MAF)의 그래프적 도시이다.
정의
본 개시내용이 보다 용이하게 이해되기 위해, 특정 용어가 먼저 하기에 정의된다. 하기 용어 및 다른 용어에 대한 추가의 정의는 명세서를 통해 제시될 수 있다. 하기 제시된 용어의 정의가 참조로 포함되는 출원 또는 특허에서의 정의와 불일치하는 경우, 이 출원에 제시된 정의가 용어의 의미를 이해하는 데 사용되어야 한다.
이 명세서 및 첨부된 청구항에 사용된 바와 같은 "단수 형태"는 맥락이 명백하게 달리 나타내지 않는다면 복수 언급대상을 포함한다. 따라서, 예를 들어, "방법"에 대한 언급은 본원에 기재된 및/또는 이 개시내용을 읽을 때 관련 기술분야의 통상의 기술자에게 명백하게 될 유형의 1개 이상의 방법, 및/또는 단계 등을 포함한다.
또한, 본원에 사용된 용어는 단지 특정 실시양태를 설명하는 목적을 위한 것이며, 제한인 것으로 의도되지 않음이 이해되어야 한다. 또한, 달리 정의되지 않는다면, 본원에 사용된 모든 기술 및 과학 용어는 이 개시내용이 속하는 관련 기술분야의 통상의 기술자에 의해 통상적으로 이해되는 것과 동이한 의미를 갖는다. 방법, 컴퓨터 판독가능한 매체, 및 시스템을 설명하고 청구하는 데 있어서, 하기 용어, 및 그의 문법적 변형은 하기 제시된 정의에 따라 사용될 것이다.
: 관심의 1개 이상의 값 또는 요소에 적용되는 바와 같은 본원에 사용된 바와 같은 "약" 또는 "대략"은 언급된 참조 값 또는 요소와 유사한 값 또는 요소를 지칭한다. 특정 실시양태에서, 용어 "약" 또는 "대략"은 달리 언급되거나 맥락으로부터 달리 명백하지 않다면 (이러한 수가 가능한 값 또는 요소의 100%를 초과할 경우를 제외하고) 언급된 참조 값 또는 요소의 양쪽 방향에서 (초과 또는 미만) 25%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 또는 그 미만 내에 해당하는 값 또는 요소의 범위를 지칭한다.
어댑터 : 본원에 사용된 바와 같은 "어댑터"는 전형적으로 적어도 부분적으로 이중-가닥이고, 주어진 샘플 핵산 분자의 어느 하나 또는 둘 다의 말단에 연결하는 데 사용되는 짧은 핵산 (예를 들어, 길이로 약 500 뉴클레오티드 미만, 약 100 뉴클레오티드 미만, 또는 약 50 뉴클레오티드 미만)을 지칭한다. 어댑터는 둘 다의 말단에서 어댑터에 의해 플랭킹된 핵산 분자의 증폭을 허용하는 핵산 프라이머 결합 부위, 및/또는 시퀀싱 적용, 예컨대 다양한 차세대 시퀀싱 (NGS) 적용을 위한 프라이머 결합 부위를 비롯한 시퀀싱 프라이머 결합 부위를 포함할 수 있다. 어댑터는 또한 포획 프로브, 예컨대 유동 세포 지지체에 부착된 올리고뉴클레오티드 등에 대한 결합 부위를 포함할 수 있다. 어댑터는 또한 본원에 기재된 바와 같은 핵산 태그를 포함할 수 있다. 핵산 태그는 핵산 태그가 주어진 핵산 분자의 앰플리콘 및 시퀀싱 리드에 포함되도록, 전형적으로 증폭 프라이머 및 시퀀싱 프라이머 결합 부위에 관해 위치된다. 동일하거나 상이한 어댑터는 핵산 분자의 각각의 말단에 연결될 수 있다. 일부 실시양태에서, 동일한 어댑터는 핵산 태그가 상이한 것을 제외하고는 핵산 분자의 각각의 말단에 연결된다. 일부 실시양태에서, 어댑터는 한 말단이 또한 블런트 말단화되거나 1개 이상의 상보적 뉴클레오티드로 꼬리화된 핵산 분자에 연결하기 위한, 블런트 말단화되거나 본원에 기재된 바와 같이 꼬리화된 Y-형상 어댑터이다. 추가의 다른 예시적인 실시양태에서, 어댑터는 분석되는 핵산 분자에 연결하기 위한 블런트 또는 꼬리화된 말단을 포함하는 벨-형상 어댑터이다. 어댑터의 다른 예로는 T-꼬리화된 및 C-꼬리화된 어댑터를 들 수 있다.
증폭시키다 : 핵산의 맥락에서 본원에 사용된 바와 같은 "증폭시키다" 또는 "증폭"은 전형적으로 소량의 폴리뉴클레오티드 (예를 들어, 단일 폴리뉴클레오티드 분자)에서 출발한, 폴리뉴클레오티드, 또는 폴리뉴클레오티드의 부분의 다수의 카피의 생성을 지칭하며, 여기서 증폭 생성물 또는 앰플리콘은 일반적으로 검출가능하다. 폴리뉴클레오티드의 증폭은 다양한 화학적 및 효소적 프로세스를 포괄한다.
연관된 변수 : 본원에 사용된 바와 같은 용어 "연관된 변수"는 핵산 변이체에 관한 것이며, 이는 예상된 생식세포계열 돌연변이체 대립유전자 카운트를 추정하는 데 사용되는 변수를 지칭한다. 이러한 변수로는 생식세포계열 이형접합성 SNP(들), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 대상체로부터의 임상 데이터 또는 이들의 임의의 조합을 들 수 있으나, 이에 제한되지는 않는다.
암 유형 : 본원에 사용된 바와 같은 "암 유형"은 예를 들어, 조직병리학에 의해 정의된 암의 유형 또는 하위유형을 지칭한다. 암 유형은 임의의 통상적인 기준에 의해, 예컨대 주어진 조직에서의 발생 (예를 들어, 혈액암, 중추 신경계 (CNS), 뇌암, 폐암 (소세포 및 비-소세포), 피부암, 비암, 인후암, 간암, 골암, 림프종, 췌장암, 장암 (bowel cancer), 직장암, 갑상선암, 방광암, 신장암, 구강암, 위암, 유방암, 전립선암, 난소암, 폐암, 장암 (intestinal cancer), 연조직암, 신경내분비암, 위식도암, 두경부암, 부인과암, 결장직장암, 요로상피암, 고상암, 이종암, 동종암), 미공지된 일차적 기원 등, 및/또는 동일한 세포 계통의 (예를 들어, 암종, 육종, 림프종, 담관암종, 백혈병, 중피종, 흑색종, 또는 교모세포종) 및/또는 암 마커, 예컨대 Her2, CA15-3, CA19-9, CA-125, CEA, AFP, PSA, HCG, 호르몬 수용체 및 NMP-22를 나타내는 암에 기초하여 정의될 수 있다. 암은 또한 단계 (예를 들어, 단계 1, 2, 3, 또는 4) 및 1차 또는 2차 기원의 여부에 의해 분류될 수 있다.
무세포 핵산 : 본원에 사용된 바와 같은 "무세포 핵산"은 세포 내에 함유되거나 다르게는 그에 결합되지 않은 핵산, 또는 일부 실시양태에서, 무손상 세포의 제거 후의 샘플에 잔류하는 핵산을 지칭한다. 무세포 핵산은 예를 들어, 대상체로부터의 체액 (예를 들어, 혈액, 혈장, 혈청, 소변, 뇌척수액 (CSF) 등)으로부터 공급된 모든 비-캡슐화된 핵산을 포함할 수 있다. 무세포 핵산은 게놈 DNA, 미토콘드리아 DNA, 순환 DNA, siRNA, miRNA, 순환 RNA (cRNA), tRNA, rRNA, 소핵소체 RNA (snoRNA), 피위 (Piwi)-상호작용 RNA (piRNA), 긴 비-코딩 RNA (긴 ncRNA), 및/또는 이들 중 임의의 것의 단편을 비롯한 DNA (cfDNA), RNA (cfRNA), 및 이들의 혼성체를 포함한다. 무세포 핵산은 이중-가닥, 단일-가닥, 또는 이들의 혼성체일 수 있다. 무세포 핵산은 분비 또는 세포 사멸 프로세스, 예를 들어 세포 괴사, 세포자멸사 등을 통해 체액 내로 방출될 수 있다. 무세포 핵산은 에페로솜 또는 엑소솜은 다른 세포로부터 방출된 무세포 핵산을 흡수한 경우, 에페로솜 또는 엑소솜 내에서 발견될 수 있다. 일부 무세포 핵산은 암 세포, 예를 들어, 순환 종양 DNA (ctDNA)로부터 체액 내로 방출된다. 다른 것들은 건강한 세포로부터 방출된다. CtDNA는 비-캡슐화된 종양-유래된 단편화된 DNA일 수 있다. 무세포 핵산의 또 다른 예는 무세포 태아 DNA (cffDNA)로도 지칭되는, 모체 혈류에서 자유롭게 순환하는 태아 DNA이다. 무세포 핵산은 1종 이상의 유전외적 변형을 가질 수 있으며, 예를 들어, 무세포 핵산은 아세틸화, 5-메틸화, 유비퀴틸화, 인산화, 수모화, 리보실화, 및/또는 시트룰린화될 수 있다.
세포 핵산 : 본원에 사용된 바와 같은 "세포 핵산"은 그들 핵산이 주어진 분석 프로세스의 일부로서 이어서 제거되는 (예를 들어, 세포 용해를 통해) 경우에도, 적어도 샘플이 대상체로부터 취해지거나 수집되는 시점에서, 핵산이 기원한 1종 이상의 세포 내에 배치된 핵산을 의미한다.
통상적인 생식세포계열 이형접합성 SNP : 본원에 사용된 바와 같은 용어 "통상적인 생식세포계열 이형접합성 SNP는 이형접합성 SNP가 적어도 특정 집단 대립유전자 빈도 (AF)를 갖도록 (여기서, 특정 집단 AF는 0 내지 1의 임의의 값일 수 있음), 외부 집단 데이터베이스 (예를 들어, ExAC)로부터 및/또는 임의의 히스토릭 샘플 세트로부터 얻어진 생식세포계열 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 지칭한다.
비교자 결과 : 본원에 사용된 바와 같은 "비교자 결과"는 주어진 시험 샘플 또는 시험 결과가 시험 샘플 또는 결과의 하나 이상의 가능성 있는 특성, 및/또는 시험 샘플이 취해지거나 다르게는 유래된 대상체에 대한 하나 이상의 가능한 예측적 결과 및/또는 하나 이상의 맞춤형 요법을 확인하기 위해 비교될 수 있는 결과 또는 결과의 세트를 의미한다. 비교자 결과는 전형적으로 참조 샘플의 세트로부터 (예를 들어, 시험 대상체와 동일한 질환 또는 암 유형을 갖는 대상체로부터) 얻어진다.
카피 수 중단점 : 본원에 사용된 바와 같은 용어 "카피 수 중단점"은 그 게놈 좌위의 어느 한 측 상의 (동일한 염색체 내의) 2개의 이웃하는 게놈 영역의 카피 수 (CN)가 상이한 게놈 좌위를 지칭한다.
카피 수 변이체 : 본원에 사용된 바와 같은 "카피 수 변이체", "CNV", 또는 "카피 수 변이"는 게놈의 섹션이 반복되고, 게놈에서의 반복부의 수가 고려 하의 집단에서 개체 사이에 달라지고, 개체의 2가지 조건 또는 상태 사이에 달라지는 현상을 지칭한다 (예를 들어, CNV는 요법을 받기 전 및 후에 개체에서 달라질 수 있음).
커버리지 : 본원에 사용된 바와 같은 용어 "커버리지", "총 분자 카운트" 또는 "총 대립유전자 카운트"는 상호교환가능하게 사용된다. 이들은 주어진 샘플에서 특정 게놈 위치에서의 DNA 분자의 총 수를 지칭한다.
맞춤형 요법 : 본원에 사용된 바와 같은 "맞춤형 요법"은 주어진 분류된 핵산 변이체를 갖는 대상체 또는 대상체의 집단에 대한 바람직한 치료 결과와 연관된 요법을 지칭한다.
데옥시리보핵산 또는 리보핵산 : 본원에 사용된 바와 같은 "데옥시리보핵산" 또는 "DNA"는 당 모이어티의 2'-위치에 수소 기를 갖는 천연 또는 변형된 뉴클레오티드를 지칭한다. DNA는 전형적으로 4가지 유형의 뉴클레오티드를 포함하는 뉴클레오티드의 쇄를 포함한다; 아데닌 (A), 티민 (T), 시토신 (C), 및 구아닌 (G). 본원에 사용된 바와 같은 "리보핵산" 또는 "RNA"는 당 모이어티의 2'-위치에 히드록실 기를 갖는 천연 또는 변형된 뉴클레오티드를 지칭한다. RNA는 전형적으로 4가지 유형의 뉴클레오티드를 포함하는 뉴클레오티드의 쇄를 포함한다; A, 우라실 (U), G, 및 C. 본원에 사용된 바와 같은 용어 "뉴클레오티드"는 천연 뉴클레오티드 또는 변형된 뉴클레오티드를 지칭한다. 뉴클레오티드의 특정 쌍은 상보적 방식으로 서로에 특이적으로 결합한다 (상보적 염기 쌍형성으로 지칭됨). DNA에서, 아데닌 (A)은 티민 (T)과 쌍형성하고, 시토신 (C)은 구아닌 (G)과 쌍형성한다. RNA에서, 아데닌 (A)은 우라실 (U)과 쌍형성하고, 시토신 (C)은 구아닌 (G)과 쌍형성한다. 제1 핵산 가닥이 제1 가닥에서의 그것과 상보적인 뉴클레오티드로 구성된 제2 핵산 가닥에 결합하는 경우, 2개의 가닥은 결합하여 이중 가닥을 형성한다. 본원에 사용된 바와 같은 "핵산 시퀀싱 데이터", "핵산 시퀀싱 정보", "서열 정보", "핵산 서열", "뉴클레오티드 서열", "게놈 서열", "유전자 서열", 또는 "단편 서열", 또는 "핵산 시퀀싱 리드"는 핵산, 예컨대 DNA 또는 RNA의 분자 (예를 들어, 전체 게놈, 전체 전사체, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 또는 단편)에서의 뉴클레오티드 염기 (예를 들어, 아데닌, 구아닌, 시토신, 및 티민 또는 우라실)의 순서 및 정체성을 지시하는 임의의 정보 또는 데이터를 나타낸다. 본 교시내용은 모세관 전기영동, 마이크로어레이, 라이게이션-기재 시스템, 폴리머라제-기재 시스템, 혼성화-기재 시스템, 직접적 또는 간접적 뉴클레오티드 확인 시스템, 피로시퀀싱, 이온- 또는 pH-기재 검출 시스템, 및 전자 서명-기재 시스템을 포함하나 이에 제한되지는 않는 모든 이용가능한 다양한 기법, 플랫폼 또는 기술을 사용하여 얻어진 서열 정보를 고려함이 이해되어야 한다.
예상된 생식세포계열 돌연변이체 대립유전자 카운트 : 본원에 사용된 바와 같은 용어 "예상된 생식세포계열 돌연변이체 대립유전자 카운트"는 핵산 변이체의 게놈 좌위에서의 생식세포계열 SNP의 예상된 돌연변이체 대립유전자 카운트를 지칭한다. 예를 들어, 예상된 생식세포계열 돌연변이체 대립유전자 카운트는 통계적 분포에 의해 추정될 수 있다. 통계적 분포는 베타 이항 분포일 수 있으나, 이에 제한되지는 않는다. 분포는 본 발명자들이 그 좌위에서의 생식세포계열 이형접합성 SNP에서 예상하는 돌연변이체 대립유전자 카운트를 측정하는 데 사용된다. 예를 들어, 베타 이항 분포가 특정 게놈 좌위에서의 예상된 생식세포계열 돌연변이체 대립유전자 카운트를 측정하는 데 사용되는 경우, 예상된 돌연변이체 대립유전자 카운트의 분포는 그 게놈 좌위에서의 평균 추정치 (μ), 분산 추정치 (ρ) 및 커버리지에 의해 파라미터화된다.
생식세포계열 돌연변이 : 본원에 사용된 바와 같은 용어 "생식세포계열 돌연변이" 또는 "생식세포계열 변이"는 상호교환가능하게 사용되며, 유전된 돌연변이 (즉, 수정후에 발생한 것이 아님)를 지칭한다. 생식세포계열 돌연변이는 단지 후손에게 전달될 수 있는 돌연변이일 수 있으며, 후손에서 모든 체세포 세포 및 생식세포계열 세포에 존재할 수 있다.
히스토릭 샘플 세트 : 본원에 사용된 바와 같은 용어 "히스토릭 샘플 세트"는 정상 대상체 (질환/암을 갖지 않음), 임의의 질환 또는 암을 갖는 대상체, 특정 암 유형을 갖는 대상체 및/또는 특정 요법을 받고 있거나 받은 대상체로부터 얻어진 샘플의 세트를 지칭한다.
Indel : 본원에 사용된 바와 같은 "indel"은 대상체의 게놈에서 뉴클레오티드의 삽입 또는 결실을 포함하는 돌연변이를 지칭한다.
돌연변이체 대립유전자 카운트 : 본원에 사용된 바와 같은 용어 "돌연변이체 대립유전자 카운트"는 특정 게놈 좌위에 돌연변이체 대립유전자를 갖는 DNA 분자의 수를 지칭한다.
마이너 대립유전자 카운트 : 본원에 사용된 바와 같은 "마이너 대립유전자 카운트"는 핵산의 주어진 집단, 예컨대 대상체로부터 얻어진 샘플에서 발생하는 마이너 대립유전자 (예를 들어, 가장 통상적인 대립유전자가 아님)의 수를 지칭한다. 낮은 마이너 대립유전자 카운트에서의 유전적 변이체는 전형적으로 샘플에 존재하는 상대적으로 낮은 수를 갖는다.
돌연변이체 대립유전자 분율 : 본원에 사용된 바와 같은 "돌연변이체 대립유전자 분율", "돌연변이 용량", 또는 "MAF"는 주어진 게놈 위치/주어진 샘플에서의 좌위에서 대립유전자 변경 또는 돌연변이를 갖는 핵산 분자의 분율을 지칭한다. MAF는 일반적으로 분율 또는 백분율로서 표현된다. 예를 들어, 체세포 변이체의 MAF는 0.15 미만일 수 있다.
돌연변이 : 본원에 사용된 바와 같은 "돌연변이"는 공지된 참조 서열로부터의 변이를 지칭하며, 예를 들어, 단일 뉴클레오티드 변이체 (SNV), 및 삽입 또는 결실 (indel)과 같은 돌연변이를 포함한다. 돌연변이는 생식세포계열 또는 체세포 돌연변이일 수 있다. 일부 실시양태에서, 비교의 목적을 위한 참조 서열은 시험 샘플, 전형적으로 인간 게놈을 제공하는 대상체의 종의 야생형 게놈 서열이다.
돌연변이 콜러 : 본원에 사용된 바와 같은 "돌연변이 콜러"는 시험 샘플 데이터 (예를 들어, 대상체로부터 얻어진 서열 정보)에서 돌연변이를 확인하는 데 사용되는 알고리듬 (전형적으로, 소프트웨어에서 구현되거나, 다르게는 컴퓨터 실행됨)을 의미한다.
신생물 : 본원에 사용된 바와 같은 용어 "신생물" 및 "종양"은 상호교환가능하게 사용된다. 이들은 대상체에서의 세포의 비정상적 성장을 지칭한다. 신생물 또는 종양은 양성, 잠재적으로 악성, 또는 악성일 수 있다. 악성 종양은 암 또는 암성 종양으로 지칭된다.
차세대 시퀀싱 : 본원에 사용된 바와 같은 "차세대 시퀀싱" 또는 "NGS"는 예를 들어, 한 번에 수십만의 상대적으로 작은 서열 리드를 생성하는 능력을 갖는, 전통적인 생거 (Sanger)- 및 모세관 전기영동-기재 접근법에 비해 증가된 처리량을 갖는 시퀀싱 기술을 지칭한다. 차세대 시퀀싱 기법의 일부 예로는 합성에 의한 시퀀싱, 라이게이션에 의한 시퀀싱, 및 혼성화에 의한 시퀀싱을 들 수 있으나, 이에 제한되지는 않는다.
핵산 태그 : 본원에 사용된 바와 같은 "핵산 태그"는 상이한 유형의, 또는 상이한 프로세싱을 겪은 상이한 샘플로부터 핵산 (예를 들어, 샘플 인덱스를 나타냄), 또는 동일한 샘플에서 상이한 핵산 분자 (예를 들어, 분자 바코드를 나타냄)를 구별하는 데 사용되는 짧은 핵산 (예를 들어, 길이로 약 500 뉴클레오티드, 약 100 뉴클레오티드, 약 50 뉴클레오티드, 또는 약 10 뉴클레오티드 미만)을 지칭한다. 이러한 핵산 태그는 상이한 핵산 분자 또는 상이한 핵산 샘플 또는 하위-샘플을 표지하는 데 사용될 수 있다. 핵산 태그는 단일 가닥, 이중 가닥 또는 적어도 부분적으로 이중-가닥일 수 있다. 핵산 태그는 임의로 동일한 길이 또는 다양한 길이를 갖는다. 핵산 태그는 또한 1개 이상의 블런트-말단을 갖는 이중-가닥 분자를 포함하고/거나, 5' 또는 3' 단일-가닥 영역 (예를 들어, 오버행)을 포함하고/거나, 주어진 분자 내의 다른 위치에 1개 이상의 다른 단일-가닥 영역을 포함할 수 있다. 핵산 태그는 다른 핵산 (예를 들어, 증폭되고/거나 시퀀싱되는 샘플 핵산)의 한 말단에 또는 둘 다의 말단에 부착될 수 있다. 핵산 태그는 정보, 예컨대 주어진 핵산의 기원, 형태 또는 프로세싱의 샘플을 밝혀내기 위해 디코딩될 수 있다. 예를 들어, 핵산 태그는 또한 핵산 태그를 검출함 (예를 들어, 판독함)으로써 핵산이 이어서 디콘볼류션되고 있는 상이한 분자 바코드 및/또는 샘플 인덱스를 갖는 핵산을 포함하는 다수의 샘플의 풀링 및/또는 평행 프로세싱을 가능하게 하는 데 사용될 수 있다. 핵산 태그는 또한 식별자 또는 인덱스로 지칭될 수 있다. 이러한 핵산 태그, 식별자, 또는 인덱스는 1개 이상의 바코드를 포함할 수 있다. 추가적으로, 또는 대안적으로, 핵산 태그는 분자 식별자 또는 인덱스로서 사용될 수 있다 (예를 들어, 동일한 샘플 또는 하위-샘플에서 상이한 분자 또는 상이한 모 분자의 앰플리콘 사이를 구별하기 위해). 이는 예를 들어, 주어진 샘플에서 각각의 상이한 핵산 분자를 고유하게 태그부착하거나, 이러한 분자를 비-고유하게 태그부착하는 것을 포함한다. 비-고유한 태그부착 적용의 경우, 제한된 수의 태그 (예를 들어, 바코드)는 상이한 분자가 적어도 하나의 바코드와 조합으로 그들의 내인성 서열 정보 (예를 들어, 이들이 선택된 참조 게놈에 지도화하는 시작 및/또는 정지 위치, 서열의 하나 또는 둘 다의 말단의 하위-서열, 및/또는 서열의 길이)에 기초하여 구별될 수 있도록, 각각의 핵산 분자를 태그부착하는 데 사용될 수 있다. 전형적으로, 충분한 수의 상이한 핵산 태그는 임의의 2개의 분자가 동일한 내인성 서열 정보 (예를 들어, 시작 및/또는 정지 위치, 서열의 하나 또는 둘 다의 말단의 하위서열, 및/또는 길이)를 갖고, 또한 동일한 핵산 태그 (예를 들어, 바코드)를 가질 수 있는 낮은 확률 (예를 들어, 약 10% 미만, 약 5% 미만, 약 1% 미만, 또는 약 0.1% 미만의 기회)이 있도록 사용된다. 대안적으로, 핵산 태그는 단지 내인성 서열 정보 (예를 들어, 시작 및/또는 정지 위치, 서열의 하나 또는 둘 다의 말단의 하위-서열, 및/또는 길이)를 포함할 수 있다. 일부 핵산 태그는 샘플, 샘플 내의 핵산 분자의 형태, 및 동일한 내인성 서열 정보 (예를 들어, 시작 및/또는 정지 위치, 서열의 하나 또는 둘 다의 말단의 하위-서열, 및/또는 길이)를 갖는 형태 내의 핵산 분자를 표지하는 다수의 분자 식별자를 포함한다. 이러한 핵산 태그는 대문자가 샘플 유형을 지시하고, 아라비아 숫자가 샘플 내의 분자의 형태를 지시하고, 소문자 로마 숫자가 형태 내의 분자를 지시하는 예시적인 형태 "A1i"을 사용하여 언급될 수 있다.
폴리뉴클레오티드 : 본원에 사용된 바와 같은 "폴리뉴클레오티드", "핵산", "핵산 분자", 또는 "올리고뉴클레오티드"는 뉴클레오시드간 연결에 의해 연결된 뉴클레오시드 (데옥시리보뉴클레오시드, 리보뉴클레오시드, 또는 그의 유사체를 포함함)의 선형 중합체를 지칭한다. 전형적으로, 폴리뉴클레오티드는 적어도 3개의 뉴클레오시드를 포함한다. 올리고뉴클레오티드는 대개 크기로 소수의 단량체성 단위, 예를 들어, 3 내지 4개 내지 수백 개의 단량체성 단위의 범위이다. 폴리뉴클레오티드가 문자의 서열, 예컨대 "ATGCCTG"에 의해 나타내어질 때마다, 달리 언급되지 않는다면, 뉴클레오티드는 좌측에서 우측으로 5' → 3' 순서이며, DNA의 경우, "A"는 데옥시아데노신을 나타내고, "C"는 데옥시시티딘을 나타내고, "G"는 데옥시구아노신을 나타내고, "T"는 데옥시티미딘을 나타냄이 이해될 것이다. 문자 A, C, G, 및 T는 관련 기술분야에서 표준인 바와 같이, 염기 그들 자신을, 뉴클레오시드를, 또는 염기를 포함하는 뉴클레오티드를 지칭하는 데 사용될 수 있다.
참조 서열 : 본원에 사용된 바와 같은 "참조 서열"은 실험적으로 측정된 서열과의 비교의 목적으로 사용되는 공지된 서열을 지칭한다. 예를 들어, 공지된 서열은 전체 게놈, 염색체, 또는 그의 임의의 절편일 수 있다. 참조는 전형적으로 적어도 약 20개, 적어도 약 50개, 적어도 약 100개, 적어도 약 200개, 적어도 약 250개, 적어도 약 300개, 적어도 약 350개, 적어도 약 400개, 적어도 약 450개, 적어도 약 500개, 적어도 약 1000개, 또는 1000개 초과의 뉴클레오티드를 포함한다. 참조 서열은 게놈 또는 염색체의 단일 인접한 서열과 함께 정렬될 수 있거나, 게놈 또는 염색체의 상이한 영역과 함께 정렬되는 비-인접한 절편을 포함할 수 있다. 참조 서열의 예로는 예를 들어, 인간 게놈, 예컨대, hG19 및 hG38을 들 수 있다.
샘플 : 본원에 사용된 바와 같은 "샘플"은 본원에 개시된 방법 및/또는 시스템에 의해 분석될 수 있는 임의의 것을 의미한다.
시퀀싱 : 본원에 사용된 바와 같은 "시퀀싱"은 생체분자, 예를 들어, 핵산, 예컨대 DNA 또는 RNA의 서열 (예를 들어, 단량체 단위의 정체성 및 순서)을 측정하는 데 사용되는 다수의 기술 중 임의의 것을 지칭한다. 시퀀싱 방법의 예로는 표적화된 시퀀싱, 단일 분자 실시간 시퀀싱, 엑손 또는 엑솜 시퀀싱, 인트론 시퀀싱, 전자 현미경검사-기재 시퀀싱, 패널 시퀀싱, 트랜지스터-매개 시퀀싱, 직접적 시퀀싱, 무작위 숏건 시퀀싱, 생거 디데옥시 종결화 시퀀싱, 전체-게놈 시퀀싱, 혼성화에 의한 시퀀싱, 피로시퀀싱, 모세관 전기영동, 겔 전기영동, 두가닥 시퀀싱, 사이클 시퀀싱, 단일-염기 연장 시퀀싱, 고상 시퀀싱, 고-처리량 시퀀싱, 대규모 평행 시그니처 시퀀싱, 에멀젼 PCR, 보다 낮은 변성 온도에서의 공동-증폭-PCR (COLD-PCR), 다중화 PCR, 가역적 염료 종결자에 의한 시퀀싱, 쌍형성한-말단 시퀀싱, 니어-텀 시퀀싱, 엑소뉴클레아제 시퀀싱, 라이게이션에 의한 시퀀싱, 쇼트-리드 시퀀싱, 단일-분자 시퀀싱, 합성에 의한 시퀀싱, 실시간 시퀀싱, 역-종결자 시퀀싱, 나노포어 시퀀싱, 454 시퀀싱, 솔렉사 게놈 애널라이저 (Solexa Genome Analyzer) 시퀀싱, 솔리드 (SOLiD)™ 시퀀싱, MS-PET 시퀀싱, 및 이들의 조합을 들 수 있으나, 이에 제한되지는 않는다. 일부 실시양태에서, 시퀀싱은 유전자 분석기, 예컨대, 예를 들어, 많은 다른 것들 중에서도, 일루미나, 인크. (Illumina, Inc.), 퍼시픽 바이오사이언시즈, 인크. (Pacific Biosciences, Inc.), 또는 어플라이드 바이오시스템즈 (Applied Biosystems)/써모 피셔 사이언티픽 (Thermo Fisher Scientific)으로부터 시판되는 유전자 분석기에 의해 수행될 수 있다.
서열 정보 : 핵산 중합체의 맥락에서 본원에 사용된 바와 같은 "서열 정보"는 그 중합체에서 단량체 단위 (예를 들어, 뉴클레오티드 등)의 순서 및 정체성을 의미한다.
단일 뉴클레오티드 다형성 : 본원에 사용된 바와 같은 용어 "단일 뉴클레오티드 다형성" 또는 "SNP"는 상호교환가능하게 사용된다. 이들은 각각의 변이가 집단 내에 일부 인지가능한 정도 (예를 들어, 약 1% 초과)로 존재하는, 게놈에서의 특이적 위치에 발생하는 단일 뉴클레오티드에서의 변이를 지칭한다.
단일 뉴클레오티드 변이체 : 본원에 사용된 바와 같은 "단일 뉴클레오티드 변이체" 또는 "SNV"는 게놈에서의 특이적 위치에 발생하는 단일 뉴클레오티드에서의 돌연변이 또는 변이를 의미한다.
체세포 돌연변이 : 본원에 사용된 바와 같은 용어 "체세포 돌연변이" 또는 "체세포 변이"는 상호교환가능하게 사용된다. 이들은 수정 후에 발생하는 게놈에서의 돌연변이를 지칭한다. 체세포 돌연변이는 생식 세포를 제외한 신체의 임의의 세포에서 발생할 수 있으며, 따라서, 자손에게 전달되지 않는다.
대상체 : 본원에 사용된 바와 같은 "대상체"는 동물, 예컨대 포유동물 종 (예를 들어, 인간) 또는 조류 (예를 들어, 새) 종, 또는 다른 유기체, 예컨대 식물을 지칭한다. 보다 구체적으로, 대상체는 척추동물, 예를 들어, 포유동물, 예컨대 마우스, 영장류, 원숭이 또는 인간일 수 있다. 동물은 농장 동물 (예를 들어, 생산용 소, 젖소, 가금류, 말, 돼지 등), 경기 동물, 및 반려 동물 (예를 들어, 애완동물 또는 지지 동물)을 포함한다. 대상체는 건강한 개체, 질환 또는 질환에 대한 성향을 갖거나 갖는 것으로 의심되는 개체, 또는 요법을 필요로 하거나 요법을 필요로 할 것으로 의심되는 개체일 수 있다. 용어 "개체" 또는 "환자"는 "대상체"와 상호교환가능한 것으로 의도된다.
예를 들어, 대상체는 암을 갖는 것으로 진단되었고/거나, 암 요법을 받을 예정이고/거나, 적어도 1종의 암 요법을 받은 개체일 수 있다. 대상체는 암의 완화 중에 있을 수 있다. 또 다른 예로서, 대상체는 자가면역 질환을 갖는 것으로 진단된 개체일 수 있다. 또 다른 예로서, 대상체는 질환, 예를 들어, 암, 자가-면역 질환을 갖는 것으로 진단되었거나 의심될 수 있는 임신하거나 임신할 계획이 있는 여성 개체일 수 있다.
실질적 매치 : 본원에 사용된 바와 같은 "실질적 매치"는 제1 값 또는 요소가 적어도 제2 값 또는 요소와 적어도 대략 동등한 것을 의미한다. 특정 실시양태에서, 예를 들어, 맞춤형 요법은 분류된 핵산 변이체 및 비교자 결과 사이에 적어도 실질적 또는 대략적 매치가 있는 경우 확인된다.
역치 : 본원에 사용된 바와 같은 "역치"는 역치에 대한 그들의 관련에 따라 상이한 샘플에 대한 동일한 파라미터의 실험적으로 측정된 값을 특징규명하는 데 사용되는 미리 결정된 값을 지칭한다. 예를 들어, p-값에 대한 역치는 0 내지 1의 임의의 미리 결정된 값을 지칭할 수 있으며, 핵산 변이체의 기원을 확인하는 데 사용된다.
변이체 : 본원에 사용된 바와 같은 "변이체"는 대립유전자로 지칭될 수 있다. 변이체는 대립유전자가 이형접합성인지 동형접합성인지 여부에 따라, 통상적으로 50% (0.5) 또는 100% (1)의 빈도로 존재한다. 예를 들어, 생식세포계열 변이체는 유전되며, 통상적으로 0.5 또는 1의 빈도를 갖는다. 그러나, 체세포 변이체는 획득된 변이체이며, 통상적으로 약 0.5 미만의 빈도를 갖는다. 유전자 좌위의 메이저 및 마이너 대립유전자는 각각 좌위가 참조 서열의 뉴클레오티드에 의해 점유되는 좌위, 및 참조 서열과는 상이한 변이체 뉴클레오티드를 갖는 핵산을 지칭한다. 좌위에서의 측정은 대립유전자가 샘플에서 관찰되는 빈도를 측정하는 대립유전자 분율 (AF)의 형태를 취할 수 있다.
상세한 설명
I. 개관
본 개시내용은 핵산 분자의 샘플에서 핵산 변이체를 체세포 또는 생식세포계열 기원의 것인 것으로서 분류하거나 확인하기 위한, 통계적 모델, 예컨대 베타 이항 모델을 사용하는 방법 및 시스템을 제공한다. 일부 실시양태에서, 본 개시내용의 방법 및 시스템은 무세포 핵산, 예컨대 무세포 DNA (cfDNA)를 분석하는 데 적합하다. 종양 조직으로부터의 시퀀싱 데이터를 사용하여 체세포 변이체 및 생식세포계열 변이체를 구별하기 위해 이용가능한 많은 해법은 종양 및 정상 조직의 매칭된 쌍의 이용가능성에 의존할 수 있으며, 따라서 무세포 핵산으로부터 얻어진 데이터에 적용되지 않을 수 있다. cfDNA 샘플을 분석하기 위한 해법은 돌연변이체 대립유전자 분율 (MAF)에 대해 역치화하거나, 포이즌 (Poisson) 통계적 모델을 적용하여 생식세포계열 또는 체세포 상태를 측정하는 것을 포함할 수 있다. 그러나, 이러한 접근법은 cfDNA 분자 카운트에서 보여지는 분산을 정확하게 모델링하지 않을 수 있으며, 따라서 이들 접근법에 기초한 체세포/생식세포계열 구별은 최적으로 정확하지 않을 수 있다. 본원에 개시된 방법 및 시스템은 핵산 분자 카운트에서 (예컨대 cfDNA에서) 보여지는 분산을 정확하게 모델링할 수 있으며, 체세포 및 생식세포계열 변이체를 높은 정확도로 구별할 수 있다. 본원에 개시된 방법 및 시스템은 국소 생식세포계열 돌연변이체 대립유전자 카운트 거동 (예를 들어, 핵산 변이체에 비해 게놈 영역에서의 생식세포계열 돌연변이체 대립유전자 카운트 거동)을 통계적으로 모델링하는 파라미터, 예컨대 통상적인 생식세포계열 단일 뉴클레오티드 다형성 (SNP)을 사용하고, 관찰된 생식세포계열 MAF로부터의 MAF 편차에 기초하여 체세포 변이체를 구별할 수 있다.
한 측면에서, 본 개시내용은 (a) 무세포 데옥시리보핵산 (cfDNA) 샘플로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) cfDNA 샘플로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는, cfDNA 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법을 제공한다.
도 1은 핵산 분자의 샘플에서 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 (100)의 예시적인 실시양태를 예시한다. 핵산 변이체가 샘플에서 핵산 분자로부터 확인되면, 핵산 변이체와 관련된 정량적 값 및 연관된 변수가 확립되어 통계적 모델을 실행하기 위한 입력 값을 제공할 수 있다. 핵산 변이체는 이들의 각각이 그 전문이 본원에 참조로 포함되는 미국 특허 제9,598,731호, 제9,834,822호, 제9,840,743호, 및 제9,902,992호에 기재된 방법을 포함하나 이에 제한되지는 않는 임의의 공지된 방법에 의해 확인되거나 검출될 수 있다.
작동 (102)에서, 핵산 변이체에 대한 정량적 값이 측정되고, 측정될 수 있다. 이들 값은 핵산 변이체의 돌연변이체 대립유전자 카운트 및/또는 총 분자 카운트를 포함할 수 있으나, 이에 제한되지는 않는다.
모델에 요구되는 또 다른 입력 값은 연관된 변수(들)에 대한 정량적 값(들)일 수 있다. 작동 (104)에서, 적어도 1개의 연관된 변수가 확인될 수 있다. 연관된 변수는 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트를 추정하는 데 사용될 수 있다. 이러한 연관된 변수는 생식세포계열 이형접합성 SNP(들), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 대상체로부터의 임상 데이터, 또는 이들의 임의의 조합을 포함할 수 있으나, 이에 제한되지는 않는다.
일부 실시양태에서, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 (또한 "빈 (bin)"으로 지칭됨) 내에 있을 수 있다. 일부 실시양태에서, 빈은 핵산 변이체를 포함하는 유전자일 수 있다. 일부 실시양태에서, 빈은 핵산 변이체에 비해 특정된 게놈 영역일 수 있다. 일부 실시양태에서, 빈 (특정된 게놈 영역)은 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 1010, 또는 1010 염기 초과 내에 있다. 일부 실시양태에서, 빈은 핵산 변이체의 'N' 염기 내에 있으며, 여기서 N은 약 1, 약 5, 약 10, 약 25, 약 50, 약 100, 약 250, 약 500, 약 1000, 약 5000, 약 10000, 약 50000, 약 100000, 약 500000, 약 1000000, 또는 약 1000000 염기 초과이다. 일부 실시양태에서, N은 300000000 염기 이하일 수 있다. 예를 들어, 빈은 핵산 변이체의 105 염기 내에 있을 수 있다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함한다. 일부 실시양태에서, 연관된 변수는 적어도 1개, 적어도 2개, 적어도 5개, 적어도 10개, 또는 10개 초과의 이형접합성 SNP를 포함할 수 있다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 0.00001, 적어도 0.0001, 적어도 0.001, 적어도 0.002, 적어도 0.005, 적어도 0.01, 적어도 0.02, 적어도 0.05, 적어도 0.1, 적어도 0.2, 적어도 0.5, 적어도 0.75, 또는 적어도 0.99의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 SNP를 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 0 내지 1의 집단 대립유전자 빈도 (AF) 값을 포함하는 적어도 1개의 SNP를 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 0 내지 약 1의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 이형접합성 SNP를 포함하며, 여기서 이형접합성 SNP는 통상적인 생식세포계열 이형접합성 SNP일 수 있다.
일부 실시양태에서, 연관된 변수는 카피 수 중단점 내에 있다. 고정된-폭 빈 또는 유전자 주석에 의해 정의된 빈을 갖는 것 대신, 연관된 변수는 각각의 핵산 변이체의 빈이 임의의 카피 수 중단점을 중첩하지 않고 가능한 한 넓도록, 카피 수 중단점에 의해 기술된 빈에서 확인될 수 있다. 일부 실시양태에서, 연관된 변수는 카피 수 중단점 내의 이형접합성 SNP를 포함한다.
작동 (106)에서, 핵산 변이체의 연관된 변수(들)에 대한 정량적 값(들)이 측정될 수 있다. 연관된 변수의 정량적 값은 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트를 추정하기 위해 통계적 모델을 적용하는 데 있어서 입력으로서 사용될 수 있다. 일부 실시양태에서, 연관된 변수에 대한 정량적 값은 연관된 변수의 돌연변이체 대립유전자 카운트 및/또는 총 분자 카운트를 포함한다. 일부 실시양태에서, 방법은 MAF를 측정하는 것을 더 포함한다. 일부 실시양태에서, MAF는 본원에서 연관된 변수의 "폴딩된 MAF"로 지칭되는, 감소된 규모로 조정되며, 여기서 폴딩된 MAF = min (MAF, 1 - MAF). 일부 실시양태에서, 방법은 연관된 변수의 폴딩된 돌연변이체 대립유전자 카운트를 측정하는 것을 포함하며, 여기서 폴딩된 돌연변이체 대립유전자 카운트 = min (돌연변이체 대립유전자 카운트, 총 분자 카운트 - 돌연변이체 대립유전자 카운트). 일부 실시양태에서, 정량적 값은 핵산 변이체의 연관된 변수에서 확인된 1개 이상의 대립유전자 카운트를 포함할 수 있다. 일부 실시양태에서, 방법은 핵산 변이체의 연관된 변수에서 확인된 1개 이상의 대립유전자 카운트의 평균 및/또는 분산 값을 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 핵산 변이체의 연관된 변수에 대한 평균 정량적 값을 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 핵산 변이체의 연관된 변수의 평균 및/또는 분산 값을 측정하는 것을 포함한다. 일부 실시양태에서, 핵산 변이체의 연관된 변수는 적어도 1개의 비-종양형성 SNP를 포함한다.
작동 (108)에서, 측정된 정량적 값은 통계적 모델, 예컨대 베타 이항 모델을 사용하여 프로세싱될 수 있다. 통계적 모델로부터 생성된 분포는 그 좌위에서 생식세포계열 이형접합성 SNP에서 예상될 수 있는 돌연변이체 대립유전자 카운트를 측정하는 데 사용될 수 있다. 예를 들어, 베타 이항 분포가 특정 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트를 측정하는 데 사용되는 경우, 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 분포는 베타 이항 분포에 상응하는 통계적 파라미터, 예를 들어, 그 게놈 좌위에서의 평균 추정치 (μ), 분산 추정치 (ρ), 및 커버리지의 세트에 의해 파라미터화될 수 있다. 일부 실시양태에서, 방법은 핵산 변이체에 대한 μ을 측정하는 것을 포함하며, 여기서 μ은 빈에서의 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트의 추정치이다.
일부 실시양태에서, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 포함하며, 방법은
Figure pct00009
를 사용하여 베타 이항 분포 파라미터를 추정하는 것을 포함한다:
상기 식에서, y = 고려되는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 고려되는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min(생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ= 분산 파라미터의 추정치.
특정 실시양태에서, x 및 y는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는 벡터로서 나타내어질 수 있다. 이는 2개 이상의 생식세포계열 이형접합성 SNP가 모델에서 고려되는 경우일 수 있다. 예를 들어, 2개의 생식세포계열 이형접합성 SNP가 고려되는 경우, y는 y1 (het SNP1에 대한 총 분자 카운트) 및 y2 (het SNP2에 대한 총 분자 카운트)의 벡터로서 나타내어질 수 있다. 마찬가지로, x는 x1 (het SNP1에 대해) 및 x2 (het SNP2에 대해)의 벡터로서 나타내어질 것이다. 일부 실시양태에서, 단지 1개의 생식세포계열 이형접합성 SNP가 고려될 수 있다. 이들의 경우, x 및 y에 대한 값은 단지 1개의 엔트리를 갖는 벡터로서, 또는 대안적으로, y = 이형접합성 SNP의 총 분자 카운트 및 x = min (이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 이형접합성 SNP의 돌연변이체 대립유전자 카운트)로서 나타내어질 수 있다.
일부 실시양태에서, ρ는 히스토릭 샘플 세트로부터의 ρ 값의 적어도 1개의 세트의 중위 값을 포함한다. 일부 실시양태에서, 방법은 중위 ρ 파라미터를 핵산 변이체의 GC 함량의 함수로 대체하는 것을 포함한다. 일부 실시양태에서, 방법은 μ의 최대 가능성 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 μ의 평균 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 ρ의 최대 가능성 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 ρ의 분산 추정치를 측정하는 것을 포함한다.
일부 실시양태에서, 고정된 수로서 모델링되기 보다는, 분산 파라미터 (ρ)는 국소 게놈 맥락 (예를 들어, 빈의 게놈 맥락)의 GC 함량의 함수로서 모델링될 수 있다. 함수는 히스토릭 샘플 세트로부터 추정될 수 있으며, 상기 방정식에서 ρ의 중위 값은 변이체의 GC 함량 수준에서 이 함수의 값에 의해 대체될 수 있다.
작동 (110)에서, 핵산 변이체에 대한 확률 값 (p-값)은 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 측정될 수 있다. 일부 실시양태에서, 방법은
Figure pct00010
를 사용하여 핵산 변이체에 대한 양측 p-값을 계산하는 것을 포함한다:
상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항으로 분포된 무작위 변수; A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및 B = 핵산 변이체의 총 분자 카운트.
작동 (112)에서, 핵산 변이체는 (i) 핵산 변이체의 p-값이 역치 값 미만인 경우 체세포 기원의 것인, 또는 (ii) 핵산 변이체의 p-값이 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류될 수 있다. 역치 값은 생식세포계열 변이체 및 체세포 변이체를 구별할 수 있는 임의의 값일 수 있다. 역치 값은 경험적 데이터로부터 측정될 수 있다. 예를 들어, 역치 값은 0 내지 1의 임의의 값일 수 있다. 일부 실시양태에서, 역치 값은 적어도 10-50, 적어도 10-40, 적어도 10-30, 적어도 10-20, 적어도 10-10, 적어도 10-5, 적어도 0.01, 적어도 0.01, 적어도 0.1, 적어도 0.2, 적어도 0.5, 적어도 0.75, 또는 적어도 0.99일 수 있다. 일부 실시양태에서, 방법은 샘플에서 핵산에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 역치 값을 생성하는 것을 포함한다.
일부 실시양태에서, 방법은 핵산 샘플에서 복수의 게놈 좌위로부터 다수의 핵산 변이체의 체세포 또는 생식세포계열 기원을 분류하는 것을 포함한다.
본원에 개시된 방법 및 시스템은 일반적으로 대상체로부터 취해진 샘플에서의 핵산으로부터 서열 정보를 얻는 것을 포함한다. 일부 실시양태에서, 방법은 핵산 샘플로부터 생성된 시퀀싱 정보를 받는 것을 더 포함하며, 시퀀싱 정보는 핵산 변이체의 연관된 변수를 포함하는 핵산 변이체 및 핵산으로부터의 시퀀싱 리드를 포함하고, 연관된 변수는 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 포함한다. 일부 실시양태에서, 방법은 샘플로부터의 핵산을 시퀀싱하여 시퀀싱 정보를 생성하는 것을 더 포함하며, 정량적 측정치는 시퀀싱 정보로부터 측정된다. 일부 실시양태에서, 방법은 핵산 변이체에 대한 정량적 측정치를 측정하고, 핵산 변이체의 연관된 변수를 확인하고, 샘플로부터 생성된 시퀀싱 정보로부터 정량적 값을 측정하는 것을 포함한다.
또 다른 측면에서, 본 개시내용은 (a) cfDNA 샘플로부터 핵산 변이체의 돌연변이체 대립유전자 카운트 (A) 및 총 분자 카운트 (B)를 측정하고; (b) 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 생식세포계열 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 확인하고; (c) 생식세포계열 이형접합성 SNP의 총 분자 카운트 (y) 및 돌연변이체 대립유전자 카운트를 측정하고; (d) (i)
Figure pct00011
에 의해 주어지는 베타 이항 분포 (상기 식에서, y = 고려되는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 고려되는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ = 분산 파라미터의 추정치)로부터 μ 및 ρ의 추정치를 측정하고; (ii)
Figure pct00012
(상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항 분포로 분포된 무작위 변수; B = 핵산 변이체의 총 분자 카운트; 및 A = 핵산 변이체의 돌연변이체 대립유전자 카운트)를 사용하여 양측 p-값을 계산하는 것을 포함하는 확률 값 (p-값)을 계산하고; (e) 핵산 변이체를 (i) p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는, 무세포 핵산, 예컨대 cfDNA의 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법을 제공한다.
일부 실시양태에서, ρ는 히스토릭 샘플 세트로부터의 ρ 값의 적어도 1개의 세트의 중위 값을 포함한다. 일부 실시양태에서, 방법은 μ의 최대 가능성 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 μ의 평균 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 ρ의 최대 가능성 추정치를 측정하는 것을 포함한다. 일부 실시양태에서, 방법은 ρ의 분산 추정치를 측정하는 것을 포함한다.
도 2는 베타 이항 모델을 사용하여 cfDNA의 샘플에서 체세포 및 생식세포계열 변이체를 구별하는 방법의 실시양태를 예시한다. 작동 (202)에서, cfDNA 샘플로부터의 핵산 변이체의 돌연변이체 대립유전자 카운트 (A) 및 총 분자 카운트 (B)가 측정된다. 작동 (204)에서, 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 생식세포계열 이형접합성 단일 뉴클레오티드 다형성 (SNP)이 확인될 수 있다. 작동 (206)에서, 생식세포계열 이형접합성 SNP(들)의 총 분자 카운트 (y) 및 돌연변이체 대립유전자 카운트가 측정될 수 있다. 작동 (208)에서, 베타 이항 분포로부터의 μ 및 ρ는
Figure pct00013
를 사용하여 추정될 수 있다:
상기 식에서, y = 고려되는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트의 벡터; x = 고려되는 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, y - 적어도 1개의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트)의 벡터; μ = 빈에서의 생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및 ρ = 분산 파라미터의 추정치. 작동 (210)에서, 양측 p-값은
Figure pct00014
를 사용하여 계산될 수 있다:
상기 식에서, Prbb = 베타 이항의 확률; x' = 베타 이항 분포로 분포된 무작위 변수; B = 핵산 변이체의 총 분자 카운트; 및 A = 핵산 변이체의 돌연변이체 대립유전자 카운트.
cfDNA에서 변이체의 체세포 또는 생식세포계열 기원을 확인하기 위한 현재의 해법은 돌연변이체 대립유전자 분율 (MAF)에 대해 역치화하거나, 포이즌 통계적 모델을 적용하여 생식세포계열 또는 체세포 상태를 측정하는 것을 포함할 수 있다. 그러나, 이러한 접근법은 cfDNA 시퀀싱 분자 카운트에서 보여지는 분산을 정확하게 모델링하는 데 있어서 도전을 경험할 수 있으며, 따라서 부정확한 생식세포계열/체세포 구별을 초래한다. 또한, 이들 방법은 핵산 변이체에 비해 인근의 변이체 또는 다른 공변량으로부터의 증거에 반응하여 그들의 체세포-콜 역치를 조정하지 않을 수 있다. 베타 이항 모델은 핵산 변이체의 게놈 좌위에서의 평균 및 분산 추정치 및 커버리지를 사용하여 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 분포를 모델링함으로써 이들 문제를 극복할 수 있다. 예상된 생식세포계열 이형접합성 SNP의 평균 추정치 및 분산 추정치는 핵산 변이체의 p-값을 계산하는 데 사용될 수 있으며, 이는 다시 변이체를 체세포 또는 생식세포계열 기원의 것인 것으로서 분류하는 데 사용될 수 있다.
작동 (212)에서, 핵산 변이체는 (i) p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류될 수 있다.
도 3은 베타 이항 분포를 사용하여 생식세포계열/체세포 변이체를 구별하기 위한 결정 경계의 예를 나타낸다. 핵산 변이체 MAF에 대한 베타 이항 결정 경계는 생식세포계열 이형접합성 SNP의 MAF, 변이체 위치에서 관찰된 분자의 총 카운트, 및 조정가능한 p-값 역치의 함수일 수 있다. 예로서, 카피 수 변이 (CNV) 또는 이형접합성의 소실 (LOH)로 인한 대립유전자 불균형을 갖는 유전자는 10 내지 30% 및 70 내지 90% 범위 둘 다에서 생식세포계열 MAF를 가질 수 있다. 도 3을 다시 언급하면, 302 (외부 실선), 304 (중간 실선), 및 306 (내부 실선)은 p-값에 대해 10-16의 역치 및 각각 700, 1500, 및 3000의 변이체 총 분자 카운트 (B)를 갖는 베타 이항 모델을 사용한 생식세포계열/체세포 구별에 대한 결정 경계를 나타낸다. 또한, 308 (외부 파선), 310 (중간 파선) 및 312 (내부 파선)는 p-값에 대해 0.01의 역치 및 각각 700, 1500, 및 3000의 변이체 총 분자 카운트 (B)를 갖는 베타 이항 모델을 사용한 생식세포계열/체세포 구별에 대한 결정 경계를 나타낸다.
일부 실시양태에서, 서열 정보는 핵산의 표적화된 절편으로부터 얻어진다. 본질적으로 임의의 수의 게놈 영역이 임의로 표적화될 수 있다. 표적화된 절편은 적어도 10, 적어도 50, 적어도 100, 적어도 500, 적어도 1000, 적어도 2000, 적어도 5000, 적어도 10,000, 적어도 20,000, 적어도 50,000, 또는 적어도 100,000 (예를 들어, 25, 50, 75, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 2,000, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, 10,000, 15,000, 25,000, 30,000, 35,000, 40,000, 45,000, 50,000, 또는 100,000)개의 상이한 및/또는 중첩하는 게놈 영역을 포함할 수 있다.
일부 실시양태에서, 확인된 생식세포계열 및/또는 체세포 변이체는 체세포 또는 생식세포계열 기원 중 어느 하나의 것인 것으로서 폴리뉴클레오티드에서의 이들 유전적 변이체의 분류의 지시를 제공하는 전자 및/또는 페이퍼 형식의 리포트를 생성하기 위한 입력으로서 사용된다.
방법의 다양한 단계는 동일하거나 상이한 시간에, 동일하거나 상이한 지리학적 위치, 예를 들어 국가에서, 및 동일하거나 상이한 사람 또는 실체에 의해 수행될 수 있다.
II. 방법의 일반적 특색
A. 샘플
샘플은 대상체로부터 단리된 임의의 생물학적 샘플일 수 있다. 샘플은 신체 조직, 전혈, 혈소판, 혈청, 혈장, 분변, 적혈구, 백혈구 (white blood cell) 또는 백혈구 (leucocyte), 내피 세포, 조직 생검 (예를 들어, 공지되거나 의심되는 고형 종양으로부터의 생검), 뇌척수액, 윤활액, 림프액, 복수, 간질액 또는 세포외액 (예를 들어, 세포간 공간으로부터의 액), 잇몸액, 치은구액, 골수, 흉막 삼출액, 뇌척수액, 타액, 점액, 객담, 정액, 땀, 및 소변을 포함할 수 있다. 샘플은 체액, 예컨대 혈액 및 그의 분획, 및 소변일 수 있다. 이러한 샘플은 종양으로부터 흘려진 핵산을 포함할 수 있다. 핵산은 DNA 및 RNA를 포함할 수 있으며, 이중 및 단일-가닥 형태일 수 있다. 샘플은 대상체로부터 원래 단리된 형태일 수 있거나, 성분, 예컨대 세포를 제거하거나 첨가하도록, 또 다른 것에 비해 한 성분에 대해 풍부화하도록, 또는 핵산의 한 형태를 또 다른 것으로, 예컨대 RNA를 DNA로 또는 단일-가닥 핵산을 이중-가닥으로 전환시키도록 추가로 프로세싱되었을 수 있다. 따라서, 예를 들어, 분석을 위한 체액은 무세포 핵산, 예를 들어, 무세포 DNA (cfDNA)를 함유하는 혈장 또는 혈청일 수 있다.
일부 실시양태에서, 대상체로부터 취해진 체액의 샘플 부피는 시퀀싱되는 영역에 대한 바람직한 리드 깊이에 의존한다. 부피의 예는 약 0.4 내지 40 밀리리터 (mL), 약 5 내지 20 mL, 약 10 내지 20 mL이다. 예를 들어, 부피는 약 0.5 mL, 약 1 mL, 약 5 mL, 약 10 mL, 약 20 mL, 약 30 mL, 약 40 mL, 또는 그 초과의 밀리리터일 수 있다. 샘플링된 혈장의 부피는 전형적으로 약 5 mL 내지 약 20 mL이다.
샘플은 다양한 양의 핵산을 포함할 수 있다. 전형적으로, 주어진 샘플에서 핵산의 양은 다수의 게놈 등가물과 동일하다. 예를 들어, 약 30 나노그램 (ng) DNA의 샘플은 약 10,000 (104)개의 반수체 인간 게놈 등가물, 및 cfDNA의 경우, 약 200000000000 (2 x 1011)개의 개별적 폴리뉴클레오티드 분자를 함유할 수 있다. 유사하게, 약 100 ng의 DNA의 샘플은 약 30,000개의 반수체 인간 게놈 등가물, 및 cfDNA의 경우, 약 600000000000개의 개별적 분자를 함유할 수 있다.
일부 실시양태에서, 샘플은 상이한 공급원으로부터의, 예를 들어 세포로부터의 및 무세포 공급원 (예를 들어, 혈액 샘플 등)으로부터의 핵산을 포함한다. 전형적으로, 샘플은 돌연변이를 운반하는 핵산을 포함한다. 예를 들어, 샘플은 임의로 생식세포계열 돌연변이 및/또는 체세포 돌연변이를 운반하는 DNA를 포함한다. 전형적으로, 샘플은 암-연관된 돌연변이 (예를 들어, 암-연관된 체세포 돌연변이)를 운반하는 DNA를 포함한다.
증폭 전의 샘플에서의 무세포 핵산의 예시적인 양은 전형적으로 약 1 펨토그램 (fg) 내지 약 1 마이크로그램 (μg), 예를 들어, 약 1 피코그램 (pg) 내지 약 200 나노그램 (ng), 약 1 ng 내지 약 100 ng, 약 10 ng 내지 약 1000 ng의 범위이다. 일부 실시양태에서, 샘플은 약 600 ng 이하, 약 500 ng 이하, 약 400 ng 이하, 약 300 ng 이하, 약 200 ng 이하, 약 100 ng 이하, 약 50 ng 이하, 또는 약 20 ng 이하의 무세포 핵산 분자를 포함한다. 임의로, 양은 적어도 약 1 fg, 적어도 약 10 fg, 적어도 약 100 fg, 적어도 약 1 pg, 적어도 약 10 pg, 적어도 약 100 pg, 적어도 약 1 ng, 적어도 약 10 ng, 적어도 약 100 ng, 적어도 약 150 ng, 또는 적어도 약 200 ng의 무세포 핵산 분자이다. 일부 실시양태에서, 양은 약 1 fg, 약 10 fg, 약 100 fg, 약 1 pg, 약 10 pg, 약 100 pg, 약 1 ng, 약 10 ng, 약 100 ng, 약 150 ng, 또는 약 200 ng 이하의 무세포 핵산 분자이다. 일부 실시양태에서, 방법은 샘플로부터 약 1 fg 내지 약 200 ng 무세포 핵산 분자를 얻는 것을 포함한다.
무세포 핵산은 전형적으로 샘플에서의 분자의 약 90%를 나타내는 길이로 약 110 뉴클레오티드 내지 길이로 약 230 뉴클레오티드의 분자를 갖는, 약 168 뉴클레오티드 길이의 모드 (인간 대상체로부터의 샘플에서) 및 길이로 약 240 뉴클레오티드 내지 약 440 뉴클레오티드의 범위에서 제2 마이너 피크를 갖는, 길이로 약 100 뉴클레오티드 내지 길이로 약 500 뉴클레오티드의 크기 분포를 갖는다. 일부 실시양태에서, 무세포 핵산은 길이로 약 160 뉴클레오티드 내지 약 180 뉴클레오티드, 또는 길이로 약 320 뉴클레오티드 내지 약 360 뉴클레오티드, 또는 길이로 약 440 뉴클레오티드 내지 약 480 뉴클레오티드이다.
일부 실시양태에서, 무세포 핵산은 무세포 핵산이 용액에서 발견되는 바와 같이 무손상 세포 및 체액의 다른 비-가용성 성분으로부터 분리되는 분할 단계를 통해 체액으로부터 단리된다. 일부 실시양태에서, 분할은 원심분리 또는 여과와 같은 기법을 포함한다. 대안적으로, 체액에서의 세포는 용해될 수 있으며, 무세포 및 세포 핵산은 함께 프로세싱될 수 있다. 일반적으로, 완충제의 첨가 및 세척 단계 후, 무세포 핵산은 예를 들어, 알콜로 침전될 수 있다. 일부 실시양태에서, 추가의 세정 단계, 예컨대 오염물 또는 염을 제거하기 위한 실리카-기재 컬럼이 사용된다. 비-특이적 벌크 운반체 핵산은 예를 들어 예시적인 절차의 측면, 예컨대 수율을 최적화하기 위해 반응 전반에 걸쳐 임의로 첨가된다. 이러한 프로세싱 후, 샘플은 전형적으로 이중-가닥 DNA, 단일-가닥 DNA 및/또는 단일-가닥 RNA를 비롯한 다양한 형태의 핵산을 포함한다. 임의로, 단일-가닥 DNA 및/또는 단일-가닥 RNA는 이들이 후속의 프로세싱 및 분석 단계에 포함되도록 이중-가닥 형태로 전환된다.
B. 태그부착
일부 실시양태에서, 핵산 분자는 샘플 인덱스 및/또는 분자 바코드 (일반적으로 "태그"로 지칭됨)로 태그부착될 수 있다. 태그는 다른 방법 중에서도, 화학적 합성, 라이게이션 (예를 들어, 블런트-말단 라이게이션 또는 점착성-말단 라이게이션), 또는 중첩 연장 폴리머라제 연쇄 반응 (PCR)에 의해 어댑터 내로 혼입되거나, 다르게는 그에 연결될 수 있다. 이러한 어댑터는 궁극적으로 표적 핵산 분자에 연결될 수 있다. 다른 실시양태에서, 증폭 사이클 (예를 들어, PCR 증폭)의 하나 이상의 라운드는 일반적으로 통상적인 핵산 증폭 방법을 사용하여 분자 바코드 및/또는 샘플 인덱스를 핵산 분자에 도입하기 위해 적용된다. 증폭은 1종 이상의 반응 혼합물 (예를 들어, 어레이에서의 복수의 마이크로웰)에서 수행된다. 분자 바코드 및/또는 샘플 인덱스는 동시에, 또는 임의의 순차적 순서로 도입될 수 있다. 일부 실시양태에서, 분자 바코드 및/또는 샘플 인덱스는 서열 포획 단계가 수행되기 전에 및/또는 후에 도입된다. 일부 실시양태에서, 단지 분자 바코드는 프로프 포획 전에 도입되고, 샘플 인덱스는 서열 포획 단계가 수행된 후에 도입된다. 일부 실시양태에서, 분자 바코드 및 샘플 인덱스 둘 다는 프로브-기재 포획 단계를 수행하기 전에 도입된다. 일부 실시양태에서, 샘플 인덱스는 서열 포획 단계가 수행된 후에 도입된다. 전형적으로, 서열 포획 프로토콜은 표적화된 핵산 서열, 예를 들어 암 유형과 연관된 게놈 영역 및 이러한 영역의 돌연변이의 코딩 서열에 상보적인 단일-가닥 핵산 분자를 도입하는 것을 포함한다.
일부 실시양태에서, 태그는 샘플 핵산 분자의 한 말단에 또는 둘 다의 말단에 위치할 수 있다. 일부 실시양태에서, 태그는 미리 결정된 또는 무작위 또는 반-무작위 서열 올리고뉴클레오티드이다. 일부 실시양태에서, 태그는 길이로 약 500, 200, 100, 50, 20, 10, 9, 8, 7, 6, 5, 4, 3, 2, 또는 1 뉴클레오티드 미만일 수 있다. 태그는 샘플 핵산에 무작위로 또는 비-무작위로 연결될 수 있다.
일부 실시양태에서, 샘플 또는 하위-샘플의 각각의 핵산 분자는 분자 바코드 또는 분자 바코드의 조합으로 고유하게 태그부착된다. 다른 실시양태에서, 복수의 바코드는 바코드가 복수로 서로에게 반드시 고유하지는 않도록 사용될 수 있다 (예를 들어, 비-고유한 분자 바코드). 이들 실시양태에서, 바코드는 일반적으로 바코드 및 서열의 조합이 개별적으로 추적될 수 있는 고유한 서열을 생성하기 위해 부착될 수 있도록 (예를 들어, 라이게이션 또는 PCR 증폭에 의해) 개별적 분자에 부착된다. 내인성 서열 정보 (예를 들어, 샘플에서의 원래 핵산 분자의 서열에 상응하는 시작 (출발) 및/또는 종료 (정지) 부분, 하나 또는 둘 다의 말단에서의 서열 리드의 하위-서열, 서열 리드의 길이, 및/또는 샘플에서의 원래 핵산 분자의 길이)와 조합으로 비-고유하게 태그부착된 바코드의 검출은 전형적으로 특정 분자에 대한 고유한 정체성의 할당을 허용한다. 개별적 서열 리드의 길이, 또는 염기 쌍의 수는 또한 임의로 주어진 분자에 대한 고유한 정체성을 할당하는 데 사용된다. 본원에 기재된 바와 같이, 고유한 정체성이 할당된 핵산의 단일 가닥으로부터의 단편은 그에 의해 모 가닥, 및/또는 상보적 가닥으로부터의 단편의 후속의 확인을 허용할 수 있다.
일부 실시양태에서, 분자 바코드는 식별자 (예를 들어, 고유한 또는 비-고유한 바코드의 조합)의 예상된 비로 샘플에서의 분자에 도입된다. 한 예시적인 형식은 표적 분자의 둘 다의 말단에 라이게이션된 약 2개 내지 약 1,000,000개의 상이한 분자 바코드, 또는 약 5개 내지 약 150개의 상이한 분자 바코드, 또는 약 20개 내지 약 50개의 상이한 분자 바코드를 사용한다. 대안적으로, 약 25개 내지 약 1,000,000개의 상이한 바코드가 사용될 수 있다. 예를 들어, 20 내지 50개 x 20 내지 50개의 태그에 대해, 총 400 내지 2500개의 식별자가 생성된다. 식별자의 이러한 수는 전형적으로 동일한 출발 및 정지 점을 갖는 상이한 분자가 식별자의 상이한 조합을 받을 높은 확률 (예를 들어, 적어도 94%, 99.5%, 99.99%, 또는 99.999%)을 갖는 데 충분하다. 일부 실시양태에서, 약 80%, 약 90%, 약 95% 또는 약 99%의 분자는 분자 바코드의 동일한 조합을 갖는다.
일부 실시양태에서, 반응에서 고유한 또는 비-고유한 분자 바코드의 할당은 예를 들어, 이들의 각각이 그 전문이 본원에 참조로 포함되는 미국 특허 출원 제20010053519호, 제20030152490호, 및 제20110160078호, 및 미국 특허 제6,582,908호, 제7,537,898호, 제9,598,731호, 및 제9,902,992호에 기재된 방법 및 시스템을 사용하여 수행된다.
C. 증폭
샘플 핵산은 어댑터에 의해 플랭킹되며, 증폭되는 DNA 분자에 플랭킹된 어댑터에서의 프라이머 결합 부위에 결합하는 핵산 프라이머를 사용한 PCR 및 다른 증폭 방법에 의해 증폭될 수 있다. 일부 실시양태에서, 증폭 방법은 연장, 변성, 및 열사이클링으로부터 초래되는 어닐링의 사이클을 포함하거나, 예를 들어, 전사 매개 증폭에서와 같이 등온선적일 수 있다. 임의로 이용될 수 있는 증폭 방법의 다른 예로는 리가제 연쇄 반응, 가닥 치환 증폭, 핵산 서열-기재 증폭, 및 자기-지속된 서열-기재 복제를 들 수 있다.
전형적으로, 증폭 반응은 약 150 뉴클레오티드 (nt) 내지 약 700 nt, 250 nt 내지 약 350 nt, 또는 약 320 nt 내지 약 550 nt의 범위의 크기에서 분자 바코드 및 샘플 인덱스를 갖는 복수의 비-고유하게 또는 고유하게 태그부착된 핵산 앰플리콘을 생성한다. 일부 실시양태에서, 앰플리콘은 약 180 nt의 크기를 갖는다. 일부 실시양태에서, 앰플리콘은 약 200 nt의 크기를 갖는다.
D. 풍부화
일부 실시양태에서, 서열은 핵산을 시퀀싱하기 전에 풍부화된다. 풍부화는 임의로 특이적 표적 영역에 대해 또는 비특이적으로 ("표적 서열") 수행된다. 일부 실시양태에서, 관심의 표적화된 영역은 차등적 타일링 및 포획 책략을 사용하여 1개 이상의 미끼 세트 패널에 대해 선택된 핵산 포획 프로브 ("미끼")로 풍부화될 수 있다. 차등적 타일링 및 포획 책략은 일반적으로 미끼와 연관된 게놈 영역에 걸쳐 차등적으로 타일링하는 (예를 들어, 상이한 "해상도"에서) 상이한 상대 농도의 미끼 세트를 사용하고, 제약 (예를 들어, 시퀀서 제약, 예컨대 시퀀싱 로드, 각각의 미끼의 유용성 등)의 세트로 처리하고, 표적화된 핵산을 하류 시퀀싱을 위한 바람직한 수준에서 포획한다. 관심의 이들 표적화된 게놈 영역은 임의로 핵산 구축물의 천연 또는 합성 뉴클레오티드 서열을 포함한다. 일부 실시양태에서, 관심의 1개 이상의 영역에 대한 프로브를 갖는 비오틴-표지된 비드는 표적 서열을 포획하는 데 사용될 수 있으며, 임의로 관심의 영역에 대해 풍부화하기 위해 그들 영역의 증폭이 이어진다.
서열 포획은 전형적으로 표적 핵산 서열에 혼성화하는 올리고뉴클레오티드 프로브의 사용을 포함한다. 일부 실시양태에서, 프로브 세트 전략은 관심의 영역에 걸쳐 프로브를 타일링하는 것을 포함한다. 이러한 프로브는 예를 들어, 길이로 약 60 내지 약 120 뉴클레오티드일 수 있다. 세트는 약 2X, 3X, 4X, 5X, 6X, 7X, 8X, 9X, 10X, 15X, 20X, 50X, 또는 50X 초과의 깊이 (예를 들어, 커버리지의 깊이)를 가질 수 있다. 서열 포획의 유효성은 일반적으로 부분적으로 프로브의 서열에 상보적인 (또는 거의 상보적인) 표적 분자에서의 서열의 길이에 의존한다.
E. 시퀀싱
사전 증폭이 있거나 없는 임의로 어댑터에 의해 플랭킹된 샘플 핵산은 일반적으로 시퀀싱으로 처리된다. 임의로 이용되는 시퀀싱 방법 및 시판되는 형식으로는 예를 들어, 생거 시퀀싱, 고-처리량 시퀀싱, 피로시퀀싱, 합성에 의한 시퀀싱, 단일-분자 시퀀싱, 나노포어-기재 시퀀싱, 반도체 시퀀싱, 라이게이션에 의한 시퀀싱, 혼성화에 의한 시퀀싱, RNA-Seq (일루미나), 디지털 유전자 발현 (Digital Gene Expression) (헬리코스 (Helicos)), 차세대 시퀀싱 (NGS), 합성에 의한 단일 분자 시퀀싱 (Single Molecule Sequencing by Synthesis) (SMSS) (헬리코스), 대량-평행 시퀀싱, 클론성 단일 분자 어레이 (Clonal Single Molecule Array) (솔렉사), 숏건 시퀀싱, 이온 토렌트 (Ion Torrent), 옥스포드 나노포어 (Oxford Nanopore), 로슈 제니아 (Roche Genia), 맥심-길버트 (Maxim-Gilbert) 시퀀싱, 프라이머 워킹, 팩바이오 (PacBio), 솔리드 (SOLiD), 이온 토렌트, 또는 나노포어 플랫폼을 사용한 시퀀싱을 들 수 있다. 시퀀싱 반응은 다수의 레인, 다수의 채널, 다수의 웰, 또는 다수의 샘플 세트를 실질적으로 동시에 프로세싱하는 다른 수단을 포함할 수 있는 다양한 샘플 프로세싱 유닛에서 수행될 수 있다. 샘플 프로세싱 유닛은 또한 다수의 실행을 동시에 프로세싱하는 것을 가능하게 하는 다수의 샘플 챔버를 포함할 수 있다.
시퀀싱 반응은 암의 또는 다른 질환의 마커를 함유하는 것으로 공지된 1개 이상의 핵산 단편 유형 또는 영역에 대해 수행될 수 있다. 시퀀싱 반응은 또한 샘플에 존재하는 임의의 핵산 단편에 대해 수행될 수 있다. 서열 반응은 적어도 약 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9%, 또는 100%의 게놈에 대해 수행될 수 있다. 다른 경우, 서열 반응은 약 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 미만, 또는 100%의 게놈에 대해 수행될 수 있다.
동시 시퀀싱 반응은 다중화 시퀀싱 기법을 사용하여 수행될 수 있다. 일부 실시양태에서, 무세포 폴리뉴클레오티드는 적어도 약 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000개의 시퀀싱 반응으로 시퀀싱된다. 다른 실시양태에서, 무세포 폴리뉴클레오티드는 약 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000개 미만의 시퀀싱 반응으로 시퀀싱된다. 시퀀싱 반응은 전형적으로 순차적으로 또는 동시에 수행된다. 후속 데이터 분석은 일반적으로 시퀀싱 반응의 전부 또는 일부에 대해 수행된다. 일부 실시양태에서, 데이터 분석은 적어도 약 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000개의 시퀀싱 반응에 대해 수행된다. 다른 실시양태에서, 데이터 분석은 약 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 또는 100,000개 미만의 시퀀싱 반응에 대해 수행된다. 리드 깊이의 예는 좌위 (예를 들어, 염기 위치) 당 약 1000개 내지 약 50000개의 리드이다.
F. 분석
시퀀싱은 복수의 시퀀싱 리드 또는 리드를 생성할 수 있다. 시퀀싱 리드 또는 리드는 길이로 약 150 염기 미만, 또는 길이로 약 90 염기 미만의 뉴클레오티드 데이터의 서열을 포함할 수 있다. 일부 실시양태에서, 리드는 길이로 약 80 염기 내지 약 90 염기, 예를 들어, 약 85 염기이다. 일부 실시양태에서, 본 개시내용의 방법은 예를 들어, 길이로 약 50 염기 또는 약 30 염기 미만의 매우 짧은 리드에 적용된다. 시퀀싱 리드 데이터는 서열 데이터 뿐만 아니라 메타 정보를 포함할 수 있다. 서열 리드 데이터는 예를 들어, VCF 파일, FASTA 파일, 또는 FASTQ 파일을 비롯한 임의의 적합한 파일 형식으로 저장될 수 있다.
FASTA는 서열 데이터베이스를 검색하기 위한 컴퓨터 프로그램을 지칭할 수 있으며, 명칭 FASTA는 또한 표준 파일 형식을 지칭할 수 있다. 예를 들어, FASTA는 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Pearson & Lipman, 1988, Improved tools for biological sequence comparison, PNAS 85:2444-2448]에 의해 기재되어 있다. FASTA 형식에서의 서열은 단일-라인 설명으로 시작하여, 서열 데이터의 라인이 이어진다. 설명 라인은 제1 컬럼에서 초과 (">") 기호에 의해 서열 데이터로부터 구별된다. ">" 기호 뒤의 단어는 서열의 식별자이며, 라인의 나머지는 설명 (둘 다 임의적)이다. ">" 및 식별자의 제1 문자 사이에 공간이 없어야 한다. 텍스트의 모든 라인은 80 문자보다 짧을 것이 권고된다. 서열은 ">"로 시작하는 또 다른 라인이 나타날 경우 종료하며; 이는 또 다른 서열의 시작을 지시한다.
FASTQ 형식은 생물학적 서열 (통상적으로 뉴클레오티드 서열) 및 그의 상응하는 품질 점수 둘 다를 저장하기 위한 텍스트-기재 형식이다. 이는 FASTA 형식과 유사하지만, 서열 데이터 뒤에 품질 점수를 갖는다. 서열 문자 및 품질 점수 둘 다는 간결성을 위해 단일 ASCII 문자로 코딩된다. FASTQ 형식은 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Cock et al. ("The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants," Nucleic Acids Res 38(6):1767-1771, 2009)]에 의해 기재된 바와 같이, 고 처리량 시퀀싱 기기, 예컨대 일루미나 게놈 애널라이저 (Illumina Genome Analyzer)의 출력을 저장하기 위한 사실상 표준이다.
FASTA 및 FASTQ 파일에 대해, 메타 정보는 설명 라인을 포함하며, 서열 데이터의 라인은 그렇지 않다. 일부 실시양태에서, FASTQ 파일에 대해, 메타 정보는 품질 점수를 포함한다. FASTA 및 FASTQ 파일에 대해, 서열 데이터는 설명 라인 뒤에 시작하며, 전형적으로 임의로 "-"를 갖는 IUPAC 모호성 코드의 일부 하위세트를 사용하여 존재한다. 한 실시양태에서, 서열 데이터는 임의로 필요에 따라 "-" 또는 U (예를 들어, 갭 또는 우라실을 나타내기 위해)를 비롯하여 A, T, C, G, 및 N 문자를 사용할 수 있다.
일부 실시양태에서, 적어도 하나의 마스터 서열 리드 파일 및 출력 파일은 플레인 텍스트 파일로서 저장된다 (예를 들어, 코딩, 예컨대 ASCII; ISO/IEC 646; EBCDIC; UTF-8; 또는 UTF-16을 사용함). 본 개시내용에 의해 제공되는 컴퓨터 시스템은 플레인 텍스트 파일을 오픈할 수 있는 텍스트 에디터 프로그램을 포함할 수 있다. 텍스트 에디터 프로그램은 인간이 텍스트를 편집하는 것을 허용하는 (예를 들어, 모니터, 키보드, 및 마우스를 사용하여), 컴퓨터 스크린 상에 텍스트 파일 (예컨대 플레인 텍스트 파일)의 콘텐츠를 제시할 수 있는 컴퓨터 프로그램을 지칭할 수 있다. 텍스트 에디터의 예로는 제한 없이, 마이크로소프트 워드 (Microsoft Word), emacs, pico, vi, BBEdit, 및 텍스트랭글러 (TextWrangler)를 들 수 있다. 텍스트 에디터 프로그램은 인간-판독가능한 형식으로 메타 정보 및 서열 리드를 보여주는 컴퓨터 스크린 상에 플레인 텍스트 파일을 제시할 수 있다 (예를 들어, 바이너리 코딩되지 않지만, 대신 이들이 프린트 또는 인간 기록에서 사용될 수 있는 바와 같은 영숫자 문자를 사용하여).
방법은 FASTA 또는 FASTQ 파일에 관하여 논의되었지만, 본 개시내용의 방법 및 시스템은 예를 들어, 배리언트 콜 형식 (Variant Call Format) (VCF) 형식의 파일을 비롯한 임의의 적합한 서열 파일 형식을 압축하는 데 사용될 수 있다. 전형적인 VCF 파일은 헤더 섹션 및 데이터 섹션을 포함할 수 있다. 헤더는 임의적 수의 메타-정보 라인을 함유하며, 각각은 문자 '##'로 시작하고, TAB 한계화된 필드 정의 라인은 단일 '#' 문자로 시작한다. 필드 정의 라인은 8개의 의무적인 컬럼을 명명하며, 바디 섹션은 필드 정의 라인에 의해 정의되는 컬럼을 덧붙이는 데이터의 라인을 함유한다. VCF 형식은 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Danecek et al. ("The variant call format and VCFtools," Bioinformatics 27(15):2156-2158, 2011)]에 의해 기재되어 있다. 헤더 섹션은 압축된 파일에 기록하는 메타 정보로서 처리될 수 있고, 데이터 섹션은 라인으로서 처리될 수 있으며, 이들의 각각은 단지 고유한 경우 마스터 파일에 저장될 것이다.
일부 실시양태는 시퀀싱 리드의 어셈블리를 제공한다. 정렬에 의한 어셈블리에서, 예를 들어, 시퀀싱 리드는 서로에 대해 정렬되거나, 참조 서열에 대해 정렬된다. 각각의 리드를 다시 참조 게놈에 대해 정렬함으로써, 모든 리드는 서로에 관하여 위치되어 어셈블리를 생성한다. 또한, 시퀀싱 리드를 참조 서열에 대해 정렬하거나 지도화하는 것은 또한 시퀀싱 리드 내의 변이체 서열을 확인하는 데 사용될 수 있다. 변이체 서열을 확인하는 것은 질환 또는 상태의 진단 또는 예측을 추가로 보조하기 위해, 또는 치료 결정을 가이드하기 위해 본원에 기재된 방법 및 시스템과 조합으로 사용될 수 있다.
일부 실시양태에서, 임의의 또는 모든 단계는 자동화된다. 대안적으로, 본 개시내용의 방법은 예를 들어, 각각 임의로 컴파일링된 언어, 예컨대 C++로 기록된 1개 이상의 전용 프로그램에서 전체적으로 또는 부분적으로 구현되고, 그 후, 컴파일링되고, 바이너리로서 분포될 수 있다. 본 개시내용의 방법은 기존의 서열 분석 플랫폼 내의 모듈로서, 또는 그 내의 기능성을 적용함으로써 전체적으로 또는 부분적으로 실행될 수 있다. 일부 실시양태에서, 본 개시내용의 방법은 단일 시작 큐 (예를 들어, 인간 활동, 또 다른 컴퓨터 프로그램, 또는 기계로부터 공급된 사건을 촉발시키는 하나 또는 조합)에 대해 모든 적용된 자동적으로 반응성인 다수의 단계를 포함한다. 따라서, 본 개시내용은 임의의 또는 단계 또는 단계의 임의의 조합이 큐에 자동적으로 반응하여 발생할 수 있는 방법을 제공한다. "자동적으로"는 일반적으로 인간 입력, 영향, 또는 상호작용을 개입하지 않음 (예를 들어, 단지 원래 또는 사전-큐 인간 활동에 반응하여)을 의미한다.
본 개시내용의 방법은 대상체의 핵산 샘플의 정확하고 민감한 해석을 포함하는 다양한 형태의 출력을 포괄할 수 있다. 검색의 출력은 컴퓨터 파일의 형식으로 제공될 수 있다. 일부 실시양태에서, 출력은 FASTA 파일, FASTQ 파일, 또는 VCF 파일이다. 출력은 서열 데이터, 예컨대 참조 게놈의 서열에 대해 정렬된 핵산의 서열을 함유하는 텍스트 파일, 또는 XML 파일을 생성하기 위해 프로세싱될 수 있다. 다른 실시양태에서, 프로세싱은 참조 게놈에 비해 대상 핵산에서 1개 이상의 돌연변이를 기재하는 좌표 또는 스트링을 함유하는 출력을 생성한다. 정렬 스트링은 단순 비갭화된 정렬 리포트 (Simple UnGapped Alignment Report) (SUGAR), 장황한 유용한 표지된 갭화된 정렬 리포트 (Verbose Useful Labeled Gapped Alignment Report) (VULGAR), 및 콤팩트 특질적 갭화된 정렬 리포트 (Compact Idiosyncratic Gapped Alignment Report) (CIGAR) (예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Ning et al., Genome Research 11(10):1725-9, 2001]에 의해 기재된 바와 같음)를 포함할 수 있다. 이들 스트링은 예를 들어, 유러피안 바이오인포매틱스 인스티튜트 (European Bioinformatics Institute) (영국 힝스톤)로부터의 엑소너레이트 (Exonerate) 서열 정렬 소프트웨어에서 실행될 수 있다.
일부 실시양태에서, CIGAR 스트링을 포함하는 서열 정렬이 생성된다-예컨대, 예를 들어, 서열 정렬 지도 (SAM) 또는 바이너리 정렬 지도 (BAM) 파일- (SAM 형식은 예를 들어, 그 전문이 본원에 참조로 포함되는 문헌 [Li et al., "The Sequence Alignment/Map format and SAMtools," Bioinformatics, 25(16):2078-9, 2009]에 기재되어 있음). 일부 실시양태에서, CIGAR은 라인-당-하나의 갭화된 정렬을 나타내거나 포함한다. CIGAR은 CIGAR 스트링으로서 보고된 압축된 쌍별 정렬 형식이다. CIGAR 스트링은 긴 (예를 들어, 게놈) 쌍별 정렬을 나타내는 데 유용할 수 있다. CIGAR 스트링은 참조 게놈 서열에 대한 리드의 정렬을 나타내는 SAM 형식에 사용될 수 있다.
CIGAR 스트링은 확립된 모티프를 따를 수 있다. 각각의 문자는 사건의 염기 카운트를 제공하는 수에 의해 선행된다. 사용된 문자는 M, I, D, N, 및 S (M=매치; I=삽입; D=결실; N=갭; S=치환)를 포함할 수 있다. CIGAR 스트링은 매치/미스매치 및 결실 (또는 갭)의 서열을 정의한다. 예를 들어, CIGAR 스트링 2MD3M2D2M은 정렬이 2개의 매치, 1개의 결실 (수 1은 일부 공간을 절약하기 위해 생략됨), 3개의 매치, 2개의 결실, 및 2개의 매치를 함유함을 지시할 수 있다.
일부 실시양태에서, 핵산 집단은 하나 또는 둘 다의 말단에서 단일-가닥 오버행을 갖는 이중-가닥 핵산 상에 블런트-말단을 효소적으로 형성함으로써 시퀀싱을 위해 제조된다. 이들 실시양태에서, 집단은 전형적으로 뉴클레오티드 (예를 들어, A, C, G, 및 T 또는 U)의 존재 하에서 5'-3' DNA 폴리머라제 활성 및 3'-5' 엑소뉴클레아제 활성을 갖는 효소로 처리된다. 임의로 사용될 수 있는 효소 또는 그의 촉매 단편의 예로는 클레노브 (Klenow) 거대 단편 및 T4 폴리머라제를 들 수 있다. 5' 오버행에서, 효소는 전형적으로 그것이 블런트 말단을 생성하는 5' 말단으로 플러싱될 때까지 반대 가닥 상의 함입된 3' 말단을 연장한다. 3' 오버행에서, 효소는 일반적으로 3' 말단으로부터 반대 가닥의 5' 말단까지 및 때때로 넘어서 소화한다. 이 소화가 반대 가닥의 5' 말단 넘어서 진행되는 경우, 갭은 5' 오버행에 대해 사용되는 동일한 폴리머라제 활성을 갖는 효소에 의해 충전될 수 있다. 이중-가닥 핵산 상의 블런트 말단의 형성은 예를 들어, 어댑터의 부착 및 후속의 증폭을 용이하게 한다.
일부 실시양태에서, 핵산 집단은 추가의 프로세싱, 예컨대 단일-가닥 핵산의 이중-가닥 핵산으로의 전환 및/또는 RNA의 DNA (예를 들어, 상보적 DNA 또는 cDNA)로의 전환으로 처리된다. 이들 형태의 핵산은 또한 임의로 어댑터에 연결되고, 증폭된다.
사전 증폭이 있거나 없이, 핵산은 상기 기재된 블런트-말단을 형성하는 프로세스로 처리되며, 임의로 샘플에서의 다른 핵산은 시퀀싱되어 시퀀싱된 핵산을 생성할 수 있다. 시퀀싱된 핵산은 핵산의 서열 (예를 들어, 서열 정보) 또는 그의 서열이 결정된 핵산 중 어느 하나로 지칭될 수 있다. 시퀀싱은 샘플에서의 개별적 핵산 분자의 증폭 생성물의 컨센서스 서열로부터 직접적으로 또는 간접적으로 샘플에서의 개별적 핵산 분자의 서열 데이터를 제공하기 위해 수행될 수 있다.
일부 실시양태에서, 블런트-말단 형성 후에 샘플에서 단일-가닥 오버행을 갖는 이중-가닥 핵산은 둘 다의 말단에서 바코드를 포함하는 어댑터에 연결되며, 시퀀싱은 핵산 서열 뿐만 아니라 어댑터에 의해 도입된 인-라인 바코드를 결정한다. 블런트-말단 DNA 분자는 임의로 적어도 부분적으로 이중-가닥 어댑터 (예를 들어, Y-형상 또는 벨-형상 어댑터)의 블런트 말단에 라이게이션된다. 대안적으로, 샘플 핵산의 블런트 말단 및 어댑터는 상보적 뉴클레오티드로 꼬리화되어 라이게이션 (예를 들어, 점착성-말단 라이게이션에 대해)을 용이하게 할 수 있다.
핵산 샘플은 전형적으로 동일한 핵산의 임의의 2개의 카피가 둘 다의 말단에 연결된 어댑터로부터 어댑터 바코드의 동일한 조합을 받을 낮은 확률 (예를 들어, 약 1 또는 0.1% 미만)이 있는 충분한 수의 어댑터와 접촉된다. 이 방식에서 어댑터의 사용은 참조 핵산 상의 동일한 시작 및 정지 점을 갖고, 바코드의 동일한 조합에 연결된 핵산 서열의 족의 확인을 허용할 수 있다. 이러한 족은 증폭 전에 샘플에서의 핵산의 증폭 생성물의 서열을 나타낼 수 있다. 족 구성원의 서열은 블런트-말단 형성 및 어댑터 부착에 의해 변형된 바와 같이, 원래 샘플에서의 핵산 분자에 대한 컨센서스 뉴클레오티드(들) 또는 완전한 컨센서스 서열을 유도하도록 컴파일링될 수 있다. 다시 말해서, 샘플에서 핵산의 특정된 위치를 점유하는 뉴클레오티드는 족 구성원 서열에서 그 상응하는 위치를 점유하는 뉴클레오티드의 컨센서스인 것으로 측정될 수 있다. 족은 이중-가닥 핵산의 하나 또는 둘 다의 가닥의 서열을 포함할 수 있다. 족의 구성원이 이중-가닥 핵산으로부터의 둘 다의 가닥의 서열을 포함하는 경우, 한 가닥의 서열은 컨센서스 뉴클레오티드(들) 또는 서열을 유도하는 서열을 컴파일링하는 목적으로 그들의 상보체로 전환될 수 있다. 일부 족은 단지 단일 구성원 서열을 포함한다. 이 경우, 이 서열은 증폭 전에 샘플에서의 핵산의 서열로서 취해질 수 있다. 대안적으로, 단지 단일 구성원 서열을 갖는 족은 후속 분석으로부터 제거될 수 있다.
시퀀싱된 핵산에서 뉴클레오티드 변이 (예를 들어, SNV 또는 indel)는 시퀀싱된 핵산을 참조 서열과 비교함으로써 측정될 수 있다. 참조 서열은 대개 공지된 서열, 예를 들어, 대상체로부터의 공지된 전체 또는 부분적 게놈 서열 (예를 들어, 인간 대상체의 전체 게놈 서열)이다. 참조 서열은 예를 들어, hG19 또는 hG38일 수 있다. 시퀀싱된 핵산은 상기 기재된 바와 같이, 샘플에서 핵산에 대해 직접적으로 측정된 서열, 또는 이러한 핵산의 증폭 생성물의 서열의 컨센서스를 나타낼 수 있다. 비교는 참조 서열 상의 1개 이상의 지정된 위치에서 수행될 수 있다. 각각의 서열이 최대로 정렬되는 경우, 참조 서열의 지정된 위치와 상응하는 위치를 포함하는 시퀀싱된 핵산의 하위세트가 확인될 수 있다. 이러한 하위세트 내에서, 존재하는 경우, 시퀀싱된 핵산이 지정된 위치에 뉴클레오티드 변이를 포함하는지, 및 임의로 존재하는 경우, 참조 뉴클레오티드 (예를 들어, 참조 서열에서와 동일함)를 포함하는지가 측정될 수 있다. 뉴클레오티드 변이체를 포함하는 하위세트에서 시퀀싱된 핵산의 수가 선택된 역치를 초과하는 경우, 변이체 뉴클레오티드는 지정된 위치에서 지칭될 수 있다. 역치는 간단한 수, 예컨대 뉴클레오티드 변이체를 포함하는 하위세트 내의 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개의 시퀀싱된 핵산일 수 있거나, 이는 비, 예컨대 다른 확률 중에서도, 뉴클레오티드 변이체를 포함하는 하위세트 내의 시퀀싱된 핵산의 적어도 0.5, 1, 2, 3, 4, 5, 10, 15, 또는 20일 수 있다. 비교는 참조 서열에서의 관심의 임의의 지정된 위치에 대해 반복될 수 있다. 때때로, 비교는 참조 서열 상의 적어도 약 20, 100, 200, 또는 300개의 인접한 위치, 예를 들어, 약 20 내지 500개, 또는 약 50 내지 300개의 인접한 위치를 점유하는 지정된 위치에 대해 수행될 수 있다.
본원에 기재된 형식 및 적용을 비롯한 핵산 시퀀싱에 관한 추가의 상세사항은 또한 예를 들어, 문헌 [Levy et al., Annual Review of Genomics and Human Genetics, 17: 95-115 (2016)], [Liu et al., J. of Biomedicine and Biotechnology, Volume 2012, Article ID 251364:1-11 (2012)], [Voelkerding et al., Clinical Chem., 55: 641-658 (2009)], [MacLean et al., Nature Rev. Microbiol., 7: 287-296 (2009)], [Astier et al., J Am Chem Soc., 128(5):1705-10 (2006)], 미국 특허 제6,210,891호, 미국 특허 제6,258,568호, 미국 특허 제6,833,246호, 미국 특허 제7,115,400호, 미국 특허 제6,969,488호, 미국 특허 제5,912,148호, 미국 특허 제6,130,073호, 미국 특허 제7,169,560호, 미국 특허 제7,282,337호, 미국 특허 제7,482,120호, 미국 특허 제7,501,245호, 미국 특허 제6,818,395호, 미국 특허 제6,911,345호, 미국 특허 제7,501,245호, 미국 특허 제7,329,492호, 미국 특허 제7,170,050호, 미국 특허 제7,302,146호, 미국 특허 제7,313,308호, 및 미국 특허 제7,476,503호에서 제공되며, 이들의 각각은 그 전문이 본원에 참조로 포함된다.
III. 컴퓨터 시스템
본 개시내용의 방법은 컴퓨터 시스템을 사용하여, 또는 그의 보조로 실행될 수 있다. 예를 들어, 이러한 방법은 (a) 핵산 분자의 샘플 (예를 들어, cfDNA의 샘플)로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) 샘플로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함할 수 있으며, 이는 컴퓨터 프로세서로 수행될 수 있다.
도 4는 본 개시내용의 방법을 실행하도록 프로그래밍되거나 다르게는 구성된 컴퓨터 시스템 (401)을 나타낸다. 컴퓨터 시스템 (401)은 다양한 측면 샘플 제조, 시퀀싱, 및/또는 분석을 조절할 수 있다. 일부 예에서, 컴퓨터 시스템 (401)은 샘플 제조, 및 핵산 시퀀싱을 비롯한 샘플 분석을 수행하도록 구성된다.
컴퓨터 시스템 (401)은 중앙 처리 유닛 (CPU, 또한 본원에서 "프로세서" 및 "컴퓨터 프로세서") (405)를 포함하며, 이는 단일 코어 또는 다중 코어 프로세서, 또는 평행 프로세싱을 위한 복수의 프로세서일 수 있다. 컴퓨터 시스템 (401)은 또한 메모리 또는 메모리 장소 (410) (예를 들어, 랜덤-액세스 메모리, 읽기-전용 메모리, 플래쉬 메모리), 전자 저장 유닛 (415) (예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스 (420) (예를 들어, 네트워크 어댑터), 및 주변 장치 (425), 예컨대 캐시, 다른 메모리, 데이터 저장소, 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리 (410), 저장 유닛 (415), 인터페이스 (420), 및 주변 장치 (425)는 통신 네트워크 또는 버스 (실선), 예컨대 마더보드를 통해 CPU (405)와 통신한다. 저장 유닛 (415)은 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템 (401)은 통신 인터페이스 (420)의 보조로 컴퓨터 네트워크 (430)에 작동적으로 결합될 수 있다. 컴퓨터 네트워크 (430)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 컴퓨터 네트워크 (430)는 일부의 경우 전기통신 및/또는 데이터 네트워크이다. 컴퓨터 네트워크 (430)는 분산 컴퓨팅, 예컨대 클라우드 컴퓨팅을 가능하게 할 수 있는 1개 이상의 컴퓨터 서버를 포함할 수 있다. 컴퓨터 네트워크 (430)는 일부의 경우 컴퓨터 시스템 (401)의 보조로 피어-투-피어 네트워크를 실행할 수 있으며, 이는 컴퓨터 시스템 (401)에 결합된 장치가 클라이언트 또는 서버로서 거동하는 것을 가능하게 할 수 있다.
CPU (405)는 프로그램 또는 소프트웨어에서 구현될 수 있는 기계-판독가능한 명령의 순서를 실행할 수 있다. 명령은 메모리 장소, 예컨대 메모리 (410)에 저장될 수 있다. CPU (405)에 의해 수행되는 작업의 예로는 인출, 디코드, 실행, 및 답장을 들 수 있다.
저장 유닛 (415)은 파일, 예컨대 드라이버, 라이브러리, 및 저장된 프로그램을 저장할 수 있다. 저장 유닛 (415)은 사용자에 의해 생성된 프로그램 및 기록된 세션, 뿐만 아니라 프로그램과 연관된 출력(들)을 저장할 수 있다. 저장 유닛 (415)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 컴퓨터 시스템 (401)은 일부의 경우 컴퓨터 시스템 (401)에 대해 외부인, 예컨대 인트라넷 또는 인터넷을 통해 컴퓨터 시스템 (401)과 통신하는 원격 서버 상에 위치한 1개 이상의 추가의 데이터 저장 유닛을 포함할 수 있다. 데이터는 예를 들어, 통신 네트워크 또는 물리적 데이터 전달 (예를 들어, 하드 드라이브, 텀브 드라이브, 또는 다른 데이터 저장 메커니즘을 사용함)을 사용하여 한 장소로부터 또 다른 장소로 전달될 수 있다.
컴퓨터 시스템 (401)은 네트워크 (430)를 통해 1개 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템 (401)은 사용자 (예를 들어, 작동자)의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 퍼스널 컴퓨터 (예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC (예를 들어, 애플 (Apple)® 아이패드 (iPad), 삼성 (Samsung)® 갤럭시 탭 (Galaxy Tab)), 전화, 스마트 폰 (예를 들어, 애플® 아이폰 (iPhone), 안드로이드 (Android)-가능한 장치, 블랙베리 (Blackberry)®), 또는 개인 디지털 단말기를 들 수 있다. 사용자는 네트워크 (430)를 통해 컴퓨터 시스템 (401)에 접근할 수 있다.
본원에 기재된 바와 같은 방법은 컴퓨터 시스템 (401)의 전자 저장 장소 상에, 예컨대, 예를 들어, 메모리 (410) 또는 전자 저장 유닛 (415) 상에 저장된 기계 (예를 들어, 컴퓨터 프로세서) 실행가능한 코드에 의해 실행될 수 있다. 기계 실행가능한 또는 기계-판독가능한 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 동안, 코드는 프로세서 (405)에 의해 실행될 수 있다. 일부의 경우, 코드는 저장 유닛 (415)으로부터 검색되고, 프로세서 (405)에 의한 용이한 접근을 위해 메모리 (410)에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛 (415)은 불가능할 수 있으며, 기계-실행가능한 명령은 메모리 (410) 상에 저장된다.
한 측면에서, 본 개시내용은 적어도 하나의 전자 프로세서에 의해 실행되는 경우, (a) cfDNA 샘플로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함); (b) cfDNA 샘플로부터 핵산 변이체의 연관된 변수를 확인하고; (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고; (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고; (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고; (f) 핵산 변이체를 (i) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것을 포함하는 방법을 수행하는 컴퓨터-실행가능한 명령을 포함하는 비-일시적 컴퓨터-판독가능한 매체를 제공한다.
코드는 기계로의 사용이 코드를 실행하도록 적응된 프로세서를 갖도록 사전-컴파일링되고, 구성될 수 있거나, 런타임 동안 컴파일링될 수 있다. 코드는 코드가 사전-컴파일링되거나 컴파일링된 바와 같은 방식으로 실행되는 것을 가능하게 하도록 선택될 수 있는 프로그래밍 언어에서 공급될 수 있다.
본원에서 제공된 시스템 및 방법, 예컨대 컴퓨터 시스템 (401)의 측면은 프로그래밍에서 구현될 수 있다. 기술의 다양한 측면은 전형적으로 기계 판독가능한 매체의 유형으로 수행되거나 구현되는 기계 (또는 프로세서) 실행가능한 코드 및/또는 연관된 데이터의 형태로 "제품" 또는 "제조품"으로서 생각될 수 있다. 기계-실행가능한 코드는 전자 저장 유닛, 이러한 메모리 (예를 들어, 읽기-전용 메모리, 랜덤-액세스 메모리, 플래쉬 메모리) 또는 하드 디스크 상에 저장될 수 있다. "저장" 유형 매체는 소프트웨어 프로그래밍을 위한 임의의 시간에 비-일시적 저장을 제공할 수 있는, 컴퓨터, 프로세서 등의 임의의 또는 모든 실감형 메모리, 또는 그의 연관된 모듈, 예컨대 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등을 포함할 수 있다.
소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 다른 전기통신 네트워크를 통해 통신될 수 있다. 이러한 통신은 예를 들어, 한 컴퓨터 또는 프로세서로부터 또 다른 것 내로의, 예를 들어 관리 서버 또는 호스트 컴퓨터로부터 애플리케이션 서버의 컴퓨터 플랫폼 내로의 로딩을 가능하게 할 수 있다. 따라서, 소프트웨어 요소를 가질 수 있는 또 다른 유형의 매체로는 유선 및 광학 지상통신 네트워크를 통한, 및 다양한 에어-링크 상에서의, 광학, 전자, 및 전자기 파, 예컨대 국소 장치 사이에 물리적 인터페이스를 거쳐 사용되는 것들을 들 수 있다. 이러한 파를 반송하는 물리적 요소, 예컨대 유선 또는 무선 링크, 광학 링크 등은 또한 소프트웨어를 갖는 매체로서 간주될 수 있다. 비-일시적, 실감형 "저장" 매체에 제한되지 않는다면, 본원에 사용된 바와 같은 컴퓨터 또는 기계 "판독가능한 매체"와 같은 용어는 실행을 위해 프로세서에게 명령을 제공하는 데 참여하는 임의의 매체를 지칭한다.
따라서, 기계-판독가능한 매체, 예컨대 컴퓨터-실행가능한 코드는 실감형 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하나 이에 제한되지는 않는 많은 형태를 취할 수 있다. 비-휘발성 저장 매체로는 예를 들어, 광학 또는 자기 디스크, 예컨대 임의의 컴퓨터(들) 등에서의 저장 장치 중 임의의 것, 예컨대 도면에 나타내어진 데이터베이스를 실행하는 데 사용될 수 있는 것들 등을 들 수 있다. 휘발성 저장 매체는 다이나믹 메모리, 예컨대 이러한 컴퓨터 플랫폼의 메인 메모리를 포함한다. 실감형 전송 매체는 동축 케이블; 컴퓨터 시스템 내의 버스를 포함하는 와이어를 비롯한 구리 와이어 및 섬유 광학을 포함한다. 반송파 전송 매체는 전자 또는 전자기 신호, 또는 음향 또는 광 파, 예컨대 라디오 주파수 (RF) 및 적외선 (IR) 데이터 통신 동안 생성된 것들의 형태를 취할 수 있다. 따라서, 컴퓨터-판독가능한 매체의 통상적인 형태는 예를 들어 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드, 페이퍼 테이프, 홀의 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령을 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체를 포함한다. 이들 형태의 컴퓨터 판독가능한 매체 중 많은 것은 하나 이상의 명령의 하나 이상의 순서를 실행을 위한 프로세서에 반송하는 데 관여할 수 있다.
컴퓨터 시스템 (401)은 예를 들어, 샘플 분석의 하나 이상의 결과를 제공하기 위한 사용자 인터페이스 (UI)를 포함하는 전자 디스플레이를 포함하거나, 이와 통신할 수 있다. UI의 예로는 제한 없이, 그래픽 사용자 인터페이스 (GUI) 및 웹-기재 사용자 인터페이스를 들 수 있다.
컴퓨터 시스템 및 네트워크, 데이터베이스, 및 컴퓨터 프로그램 제품에 관한 추가의 상세사항은 또한 예를 들어, 문헌 [Peterson, Computer Networks: A Systems Approach, Morgan Kaufmann, 5th Ed. (2011)], [Kurose, Computer Networking: A Top-Down Approach, Pearson, 7th Ed. (2016)], [Elmasri, Fundamentals of Database Systems, Addison Wesley, 6th Ed. (2010)], [Coronel, Database Systems: Design, Implementation, & Management, Cengage Learning, 11th Ed. (2014)], [Tucker, Programming Languages, McGraw-Hill Science/Engineering/Math, 2nd Ed. (2006)], 및 [Rhoton, Cloud Computing Architected: Solution Design Handbook, Recursive Press (2011)]에서 제공되며, 이들의 각각은 그 전문이 본원에 참조로 포함된다.
IV. 적용
A. 암 및 다른 질환
일부 실시양태에서, 본원에 개시된 방법 및 시스템은 체세포 또는 생식세포계열 기원의 것인 것으로서의 핵산 변이체의 분류에 기초하여 환자에서의 주어진 질환 또는 상태를 치료하는 맞춤형 또는 표적화된 요법을 확인하는 데 사용될 수 있다. 전형적으로, 고려 하의 질환은 암의 유형이다. 이러한 암의 비-제한적 예로는 담도암, 방광암, 이행 세포 암종, 요로상피 암종, 뇌암, 신경아교종, 별아교세포종, 유방 암종, 화생 암종, 자궁경부암, 자궁경부 편평 세포 암종, 직장암, 결장직장 암종, 결장암, 유전성 비폴립증 결장직장암, 결장직장 선암종, 위장관 기질 종양 (GIST), 자궁내막 암종, 자궁내막 기질 육종, 식도암, 식도 편평 세포 암종, 식도 선암종, 안구 흑색종, 포도막 흑색종, 담낭 암종, 담낭 선암종, 신세포 암종, 투명 세포 신세포 암종, 이행 세포 암종, 요로상피 암종, 윌름스 종양, 백혈병, 급성 림프구성 백혈병 (ALL), 급성 골수성 백혈병 (AML), 만성 림프구성 백혈병 (CLL), 만성 골수성 백혈병 (CML), 만성 골수단핵구성 백혈병 (CMML), 간암, 간 암종, 간세포암, 간세포 암종, 담관암종, 간모세포종, 폐암, 비-소세포 폐암 (NSCLC), 중피종, B-세포 림프종, 비-호지킨 림프종, 광범위 거대 B-세포 림프종, 외투 세포 림프종, T 세포 림프종, 비-호지킨 림프종, 전구체 T-림프모구성 림프종/백혈병, 말초 T 세포 림프종, 다발 골수종, 비인두 암종 (NPC), 신경모세포종, 구인두암, 구강 편평 세포 암종, 골육종, 난소 암종, 췌장암, 췌장관 선암종, 가유두상 신생물, 세엽 세포 암종, 전립선암, 전립선 선암종, 피부암, 흑색종, 악성 흑색종, 피부 흑색종, 소장 암종, 위암, 위 암종, 위장관 기질 종양 (GIST), 자궁암, 또는 자궁 육종을 들 수 있다.
본원에 개시된 방법 및 시스템을 사용하여 임의로 평가되는 다른 유전적-기재 질환, 장애, 또는 상태의 비-제한적 예로는 연골무형성증, 알파-1 안티트립신 결핍증, 항인지질 증후군, 자폐증, 상염색체 우성 다낭성 신장 질환, 샤르코-마리-투스 (CMT), 고양이울음, 크론병, 낭성 섬유증, 더컴병, 다운 증후군, 듀안 증후군, 뒤시엔느 근이영양증, 인자 V 라이덴 혈전성향증, 가족성 고콜레스테롤혈증, 가족성 지중해열, 취약 X 증후군, 고쉐병, 혈색소침착증, 혈우병, 완전전뇌증, 헌팅톤병, 클라인펠터 증후군, 마르팡 증후군, 근긴장성 이영양증, 신경섬유종증, 누난 증후군, 불완전 골형성증, 파킨슨병, 페닐케톤뇨증, 폴란드 기형, 포르피린증, 조로증, 색소성 망막염, 중증 복합 면역결핍증 (scid), 겸상 적혈구 질환, 척수 근위축증, 테이-삭스, 지중해빈혈, 트리메틸아민뇨증, 터너 증후군, 구개심장안면 증후군, WAGR 증후군, 윌슨병 등을 들 수 있다.
B. 요법 및 관련된 투여
특정 실시양태에서, 본원에 개시된 방법은 체세포 또는 생식세포계열 기원의 것인 것으로서의 핵산 변이체의 상태를 고려하여 환자에게 맞춤형 요법을 확인하고 투여하는 것에 관한 것이다. 일부 실시양태에서, 본질적으로 임의의 암 요법 (예를 들어, 외과적 요법, 방사선 요법, 화학요법 등)은 이들 방법의 일부로서 포함될 수 있다. 전형적으로, 맞춤형 요법은 적어도 1종의 면역요법 (또는 면역치료제)을 포함한다. 면역요법은 일반적으로 주어진 암 유형에 대해 면역 반응을 향상시키는 방법을 지칭한다. 특정 실시양태에서, 면역요법은 종양 또는 암에 대해 T 세포 반응을 향상시키는 방법을 지칭한다.
특정 실시양태에서, 체세포 또는 생식세포계열 기원의 것인 것으로서의 대상체로부터의 샘플로부터의 핵산 변이체의 상태를 참조 집단으로부터의 비교자 결과의 데이터베이스와 비교하여 그 대상체에 대한 맞춤형 또는 표적화된 요법을 확인할 수 있다. 전형적으로, 참조 집단은 시험 대상체와 동일한 요법을 받고 있거나, 받은 시험 대상체 및/또는 환자와 동일한 암 또는 질환 유형을 갖는 환자를 포함한다. 맞춤형 또는 표적화된 요법 (또는 요법들)은 핵산 변이체 및 비교자 결과가 특정 분류 기준을 충족시키는 (예를 들어, 실질적 또는 대략적 매치인) 경우 확인될 수 있다.
특정 실시양태에서, 본원에 기재된 맞춤형 요법은 전형적으로 비경구적으로 (예를 들어, 정맥내로 또는 피하로) 투여된다. 면역치료제를 함유하는 제약 조성물은 전형적으로 정맥내로 투여된다. 특정 치료제는 경구로 투여된다. 그러나, 맞춤형 요법 (예를 들어, 면역치료제 등)은 또한 예를 들어, 협측, 설하, 직장, 질, 요도내, 국소, 안구내, 비내, 및/또는 이내를 비롯한 관련 기술분야에 공지된 임의의 방법에 의해 투여될 수 있으며, 투여는 정제, 캡슐, 과립, 수성 현탁액, 겔, 스프레이, 좌제, 연고 (salve), 연고 (ointment) 등을 포함할 수 있다.
실시예
실시예 1: 베타 이항 모델 대 역치 접근법을 사용하여 EGFR T790M 돌연변이가 생식세포계열 또는 체세포 기원의 것인지 여부를 측정하기
샘플의 세트를 프로세싱하고, 가던트 헬스, 인크. (Guardant Health, Inc.) (미국 캘리포니아주 레드우드 시티)에 의해 개발된 혈액-기재 DNA 검정을 사용하여 분석하였다. 분석된 샘플 중 하나는 염색체 7 상의 게놈 위치 55249071에서 EGFR 유전자에 T790M 돌연변이 (단일-뉴클레오티드 변이체)를 가졌다. 변이체의 돌연변이체 대립유전자 카운트 (A) 및 총 대립유전자 카운트 (B)는 생물정보학 분석을 사용하여 각각 1,855 및 10,806인 것으로 추정되었다. 변이체의 돌연변이체 대립유전자 분율 (MAF)은 0.177 (MAF = A/B)인 것으로 추정되었다.
변이체의 기원을 측정하기 위해, EGFR 유전자를 베타 이항 모델에서 빈으로서 사용하였다. 6개의 통상적인 생식세포계열 이형접합성 SNP가 (i) 0.001 초과의 집단 대립유전자 빈도를 갖는 ExAC 데이터베이스에 열거되거나, (ii) 0.9 미만의 MAF를 갖는 히스토릭 샘플 세트의 데이터베이스에서 공지된 생식세포계열 이형접합성 SNP로서 열거된 EGFR 유전자에서 발견되었다. 이들 6개의 통상적인 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트, 및 총 대립유전자 카운트를 베타 이항 모델에 사용하고, μEGFR 파라미터의 최대 가능성 추정치 (MLE)를 베타 이항 모델을 사용하여 0.3971인 것으로 추정하였다. 도 5a는 T790M (●) 변이체 및 6개의 통상적인 생식세포계열 이형접합성 SNP (▲)에 대한 게놈 위치에 대한 MAF의 플롯을 나타낸다. 도 5b는 T790M (●) 변이체 및 6개의 통상적인 생식세포계열 이형접합성 SNP (▲)에 대한 게놈 위치에 대한 min(MAF, 1-MAF)의 플롯을 나타낸다. 베타 이항 모델에 의해 추정된 0.3971의 μEGFR은 도 5a 및 도 5b 둘 다에서 실선으로 나타내어진다. ρ 파라미터는 히스토릭 샘플 세트에서의 생식세포계열 SNP에 대한 ρ 값의 중위로서 추정되었고, 9.2 x 10-5인 것으로 계산되었다. μEGFR 및 ρ 값의 이들 값을 사용하여, T790M 변이체에 대한 양측 p-값은 2.8 x 10-302인 것으로 계산되었다. p-값에 대한 10-16의 미리 결정된 역치를 사용하여 변이체의 기원 (예를 들어, 생식세포계열 또는 체세포)을 확인하였다. T790M 변이체에 대한 p-값은 미리 결정된 역치 미만이기 때문에, T790M 변이체는 체세포 기원의 것인 것으로 측정된다.
베타 이항 모델을 사용하는 것에 대한 비교로서, 임의의 변이체의 기원은 MAF 역치 방법에 기초하여, 예컨대 역치로서 0.15의 MAF를 사용함 (예를 들어, 0.15 미만의 MAF를 갖는 변이체를 체세포 변이체로서 또는 0.15 이상의 MAF를 갖는 변이체를 생식세포계열 변이체로서 분류함)으로써 측정될 수 있다. 여기에 기재된 T790M 변이체는 0.15의 MAF 역치 초과인 0.177의 측정된 MAF를 가졌다. 따라서, T790M 변이체는 MAF 역치 방법을 사용하여 생식세포계열 기원의 것인 것으로 잘못되게 확인되었을 것이다. 대조적으로, 베타 이항 모델은 EGFR 유전자에서 관찰된 임의의 대립유전자 불균형을 고려함으로써 EGFR 유전자의 국소 게놈 맥락을 정확하게 모델링하였으며, 따라서 변이체를 체세포 기원의 것인 것으로 올바르게 확인하였다.
본 발명의 바람직한 실시양태가 본원에 나타내어지고 기재되었지만, 이러한 실시양태는 단지 예로서 제공됨이 관련 기술분야의 통상의 기술자에게 자명할 것이다. 본 발명은 본 명세서 내에 제공된 구체적인 예에 의해 제한되는 것으로 의도되지 않는다. 본 발명은 상기 언급된 명세서를 참조로 기재되었지만, 본원에서 실시양태의 설명 및 예시는 제한적 의미로 해석되는 것으로 의미되지 않는다. 다수의 변이, 변화, 및 치환이 이제 본 발명으로부터 벗어나지 않고 관련 기술분야의 통상의 기술자에게 일어날 것이다. 더욱이, 본 발명의 모든 측면은 다양한 조건 및 변수에 의존하는 본원에 제시된 구체적인 설명, 구성 또는 상대적 비율에 제한되지 않음이 이해될 것이다. 본원에 기재된 본 발명의 실시양태에 대한 다양한 대안이 본 발명을 실시하는 데 있어서 채용될 수 있음이 이해되어야 한다. 따라서, 본 발명은 또한 임의의 이러한 대안, 변형, 변이 또는 등가물을 커버할 것임이 고려된다. 하기 청구항은 본 발명의 범위를 한정하며, 이들 청구항 및 이들의 등가물의 범위 내의 방법 및 구조는 그에 의해 커버되는 것으로 의도된다.
상기 개시내용은 명확성 및 이해의 목적으로 예시 및 예에 의해 일부 상세하게 기재되었지만, 이 개시내용을 읽음으로부터 형태 및 상세사항의 다양한 변화가 본 개시내용의 진정한 범위로부터 벗어나지 않고 이루어질 수 있으며, 첨부된 청구항의 범위 내에서 실시될 수 있음이 관련 기술분야의 통상의 기술자에게 명백할 것이다. 예를 들어, 모든 방법, 시스템, 컴퓨터 판독가능한 매체, 및/또는 구성요소 특색, 단계, 요소, 또는 그의 다른 측면은 다양한 조합으로 사용될 수 있다.
본원에 인용된 모든 특허, 특허 출원, 웹사이트, 다른 간행물 또는 문서, 수탁 번호 등은 각각의 개별적 항목이 참조로 그렇게 포함되는 것으로 구체적으로 및 개별적으로 지시되는 것과 동일한 정도로 모든 목적을 위해 그 전문이 참조로 포함된다. 서열의 상이한 버전이 상이한 시간에서의 수탁 번호와 연관되는 경우, 이 출원의 유효한 출원일에서의 수탁 번호와 연관된 버전이 의미된다. 유효한 출원일은 적용가능한 경우, 실제 출원일 또는 수탁 번호를 언급하는 우선권 출원의 출원일 중 보다 빠른 것을 의미한다. 마찬가지로, 간행물, 웹사이트 등의 상이한 버전이 상이한 시간에서 공개되는 경우, 달리 지시되지 않는다면, 본 출원의 유효 출원일에 가장 최근 공개된 버전이 의미된다.

Claims (90)

  1. (a) 무세포 데옥시리보핵산 (cfDNA) 샘플로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함);
    (b) cfDNA 분자의 샘플로부터 핵산 변이체의 연관된 변수를 확인하고;
    (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고;
    (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고;
    (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고;
    (f) 핵산 변이체를 (i) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것
    을 포함하는, cfDNA 분자의 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법.
  2. 제1항에 있어서, 대상체로부터 cfDNA 분자의 샘플을 얻는 것을 더 포함하는 방법.
  3. 제1항 또는 제2항에 있어서, cfDNA 샘플로부터 생성된 시퀀싱 정보를 받는 것을 더 포함하며, 시퀀싱 정보가 핵산 변이체를 포함하는 cfDNA 시퀀싱 리드 및 핵산 변이체의 연관된 변수를 포함하고, 연관된 변수가 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함하는 것인 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, cfDNA 샘플로부터의 핵산을 시퀀싱하여 시퀀싱 정보를 생성하는 것을 더 포함하며, 핵산 변이체에 대한 복수의 정량적 측정치 및 연관된 변수에 대한 정량적 값이 시퀀싱 정보로부터 측정되는 것인 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고, 핵산 변이체의 연관된 변수를 확인하고, cfDNA 분자의 샘플로부터 생성된 시퀀싱 정보로부터 연관된 변수에 대한 정량적 값을 측정하는 것을 더 포함하는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, cfDNA 분자의 샘플의 핵산에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 미리 결정된 역치 값을 생성하는 것을 더 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, cfDNA 분자의 샘플에서의 복수의 게놈 좌위로부터 복수의 핵산 변이체의 체세포 또는 생식세포계열 기원을 분류하는 것을 더 포함하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함하는 것인 방법.
  9. 제8항에 있어서, 핵산 변이체의 연관된 변수가 적어도 2개의 het SNP를 포함하는 것인 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함하는 것인 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수에 대한 1개 이상의 돌연변이체 대립유전자 카운트의 평균 및/또는 분산 값을 측정하는 것을 더 포함하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수에 대한 평균 정량적 값을 측정하는 것을 더 포함하는 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 이형접합성 단일 뉴클레오티드 다형성 (het SNP), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 및 대상체에 대한 임상 데이터 중 1종 이상을 포함하는 것인 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수의 평균 및/또는 분산 값을 측정하는 것을 더 포함하는 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 핵산 변이체에 대한 국소 생식세포계열 폴딩된 돌연변이체 대립유전자 분율 (MAF), μ을 측정하는 것을 더 포함하며, 여기서 이 핵산 변이체를 포함하는 유전자 또는 또 다른 특정된 게놈 영역이고, 폴딩된 MAF가 min(MAF, 1 - MAF)인 방법.
  16. 제15항에 있어서, 특정된 게놈 영역이 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 또는 1010 염기 쌍 내의 영역인 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 약 0.001 초과의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 적어도 1개의 비-종양형성 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 약 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 연관된 변수가 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 포함하고, 방법이
    Figure pct00015

    를 사용하여 베타 이항 분포 파라미터를 추정하는 것을 더 포함하며,
    상기 식에서,
    y = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 생식세포계열 이형접합성 SNP(들)의 총 분자 카운트의 벡터;
    x = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트, y - 생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트)의 벡터;
    μ = 빈에서의 이형접합성 SNP의 평균 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및
    ρ = 분산 파라미터의 추정치
    인 방법.
  21. 제20항에 있어서,
    Figure pct00016

    를 사용하여 핵산 변이체에 대한 양측 p-값을 계산하는 것을 더 포함하며,
    상기 식에서,
    Prbb = 베타 이항의 확률;
    x' = 베타 이항으로 분포된 무작위 변수;
    A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및
    B = 핵산 변이체의 총 분자 카운트
    인 방법.
  22. 제20항에 있어서, ρ가 히스토릭 샘플 세트로부터의 ρ 값의 적어도 1개의 세트의 중위 값을 포함하는 것인 방법.
  23. 제22항에 있어서, 중위 ρ 파라미터를 핵산 변이체의 GC 함량의 함수로 대체하는 것을 더 포함하는 방법.
  24. 제20항에 있어서, μ의 최대 가능성 추정치를 측정하는 것을 더 포함하는 방법.
  25. 제20항에 있어서, μ의 평균 추정치를 측정하는 것을 더 포함하는 방법.
  26. 제20항에 있어서, ρ의 최대 가능성 추정치를 측정하는 것을 더 포함하는 방법.
  27. 제20항에 있어서, ρ의 분산 추정치를 측정하는 것을 더 포함하는 방법.
  28. 제1항 내지 제27항 중 어느 한 항에 있어서, p-값에 대한 상한 및 하한을 계산하는 것을 더 포함하는 방법.
  29. 적어도 하나의 전자 프로세서에 의해 실행되는 경우,
    (a) 무세포 데옥시리보핵산 (cfDNA) 샘플로부터 생성된 시퀀싱 정보로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함);
    (b) 시퀀싱 정보로부터 핵산 변이체의 연관된 변수를 확인하고;
    (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고;
    (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고;
    (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고;
    (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것
    을 포함하는 방법을 수행하는 컴퓨터-실행가능한 명령을 포함하는 비-일시적 컴퓨터-판독가능한 매체.
  30. 제29항에 있어서, 미리 결정된 역치 값이 cfDNA 샘플의 핵산에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 생성되는 것인 비-일시적 컴퓨터-판독가능한 매체.
  31. 제29항 또는 제30항에 있어서, 핵산 변이체의 연관된 변수가 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  32. 제31항에 있어서, 핵산 변이체의 연관된 변수가 적어도 2개의 het SNP를 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  33. 제29항 내지 제32항 중 어느 한 항에 있어서, 핵산 변이체이 연관된 변수가 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  34. 제29항 내지 제33항 중 어느 한 항에 있어서, 1개 이상의 돌연변이체 대립유전자 카운트의 평균 및/또는 분산 값이 핵산 변이체의 연관된 변수에 대해 측정되는 것인 비-일시적 컴퓨터-판독가능한 매체.
  35. 제29항 내지 제34항 중 어느 한 항에 있어서, 복수의 정량적 측정치 중 적어도 하나가 핵산 변이체를 포함하는 cfDNA 샘플의 다수의 핵산 분자를 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  36. 제29항 내지 제35항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 이형접합성 단일 뉴클레오티드 다형성 (het SNP), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 및 대상체에 대한 임상 데이터 중 1종 이상을 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  37. 제29항 내지 제36항 중 어느 한 항에 있어서, 국소 생식세포계열 폴딩된 돌연변이체 대립유전자 분율 (MAF), μ이 핵산 변이체에 대해 측정되며, 여기서 이 핵산 변이체를 포함하는 유전자 또는 또 다른 특정된 게놈 영역이고, 폴딩된 MAF가 min(MAF, 1 - MAF)인 비-일시적 컴퓨터-판독가능한 매체.
  38. 제37항에 있어서, 특정된 게놈 영역이 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 또는 1010 염기 쌍 내의 영역인 비-일시적 컴퓨터-판독가능한 매체.
  39. 제29항 내지 제38항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 약 0.001 초과의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  40. 제29항 내지 제39항 중 어느 한 항에 있어서, 연관된 변수가 적어도 1개의 비-종양형성 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  41. 제29항 내지 제40항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 약 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 비-일시적 컴퓨터-판독가능한 매체.
  42. 제29항 내지 제41항 중 어느 한 항에 있어서, 연관된 변수가 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 포함하고, 베타 이항 분포 파라미터가
    Figure pct00017

    를 사용하여 추정되며,
    상기 식에서,
    y = (b)에서 확인된 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 생식세포계열 이형접합성 SNP(들)의 총 분자 카운트의 벡터;
    x = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트, y - 생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트)의 벡터;
    μ = 빈에서의 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및
    ρ = 분산 파라미터의 추정치
    인 비-일시적 컴퓨터-판독가능한 매체.
  43. 제29항 내지 제42항 중 어느 한 항에 있어서, p-값에 대한 상한 및 하한이 계산되는 것인 비-일시적 컴퓨터-판독가능한 매체.
  44. 제43항에 있어서, 핵산 변이체에 대한 양측 p-값이
    Figure pct00018

    를 사용하여 계산되며,
    상기 식에서,
    Prbb = 베타 이항의 확률;
    x' = 베타 이항으로 분포된 무작위 변수;
    A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및
    B = 핵산 변이체의 총 분자 카운트
    인 비-일시적 컴퓨터-판독가능한 매체.
  45. 적어도 하나의 전자 프로세서에 의해 실행되는 경우,
    (a) 무세포 데옥시리보핵산 (cfDNA) 샘플로부터 생성된 시퀀싱 정보로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함);
    (b) 시퀀싱 정보로부터 핵산 변이체의 연관된 변수를 확인하고;
    (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고;
    (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고;
    (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고;
    (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것
    을 포함하는 방법을 수행하는 컴퓨터-실행가능한 명령을 포함하는 비-일시적 컴퓨터-판독가능한 매체를 포함하거나, 이에 접근할 수 있는 컨트롤러를 포함하는 시스템.
  46. 제45항에 있어서, 컨트롤러에 작동적으로 연결된 핵산 시퀀서를 포함하며, 핵산 시퀀서가 cfDNA 샘플의 핵산으로부터의 시퀀싱 정보를 제공하도록 구성되는 것인 시스템.
  47. 제45항 또는 제46항에 있어서, 컨트롤러에 작동적으로 연결된 샘플 제조 구성요소를 포함하며, 샘플 제조 구성요소가 핵산 시퀀서에 의해 시퀀싱되는 cfDNA 샘플의 핵산을 제조하도록 구성되는 것인 시스템.
  48. 제45항 내지 제47항 중 어느 한 항에 있어서, 컨트롤러에 작동적으로 연결된 핵산 증폭 구성요소를 포함하며, 핵산 증폭 구성요소가 cfDNA 샘플의 핵산을 증폭시키도록 구성되는 것인 시스템.
  49. 제45항 내지 제48항 중 어느 한 항에 있어서, 컨트롤러에 작동적으로 연결된 물질 전달 구성요소를 포함하며, 물질 전달 구성요소가 핵산 시퀀서 및 샘플 제조 구성요소 사이에 1종 이상의 물질을 전달하도록 구성되는 것인 시스템.
  50. 제45항 내지 제49항 중 어느 한 항에 있어서, 미리 결정된 역치 값이 cfDNA 샘플의 핵산에 대한 예상된 생식세포계열 돌연변이체 대립유전자 카운트의 베타-이항 모델을 사용하여 생성되는 것인 시스템.
  51. 제45항 내지 제50항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 적어도 1개의 이형접합성 단일 뉴클레오티드 다형성 (het SNP)을 포함하는 것인 시스템.
  52. 제51항에 있어서, 핵산 변이체의 연관된 변수가 적어도 2개의 het SNP를 포함하는 것인 시스템.
  53. 제45항 내지 제52항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 핵산 변이체를 포함하는 게놈 좌위에 연결된 게놈 좌위를 포함하는 것인 시스템.
  54. 제45항 내지 제53항 중 어느 한 항에 있어서, 1개 이상의 돌연변이체 대립유전자 카운트의 평균 및/또는 분산 값이 핵산 변이체의 연관된 변수에 대해 측정되는 것인 시스템.
  55. 제45항 내지 제54항 중 어느 한 항에 있어서, p-값이 핵산 변이체를 분류하는 데 사용되는 것인 시스템.
  56. 제45항 내지 제55항 중 어느 한 항에 있어서, 복수의 정량적 측정치 중 적어도 하나가 핵산 변이체를 포함하는 cfDNA 샘플의 다수의 핵산 분자를 포함하는 것인 시스템.
  57. 제45항 내지 제56항 중 어느 한 항에 있어서, 연관된 변수가 이형접합성 단일 뉴클레오티드 다형성 (het SNP), GC 함량 측정치, 프로브-특이적 편향 측정치, 단편 길이 값, 시퀀싱 통계 측정치, 카피 수 중단점, 및 대상체에 대한 임상 데이터 중 1종 이상을 포함하는 것인 시스템.
  58. 제45항 내지 제57항 중 어느 한 항에 있어서, 국소 생식세포계열 폴딩된 돌연변이체 대립유전자 분율 (MAF), μ이 핵산 변이체에 대해 측정되며, 여기서 이 핵산 변이체를 포함하는 유전자 또는 또 다른 특정된 게놈 영역이고, 폴딩된 MAF가 min(MAF, 1 - MAF)인 시스템.
  59. 제45항 내지 제58항 중 어느 한 항에 있어서, 특정된 게놈 영역이 핵산 변이체의 약 101, 102, 103, 104, 105, 106, 107, 108, 109, 또는 1010 염기 쌍 내의 영역인 시스템.
  60. 제45항 내지 제59항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 약 0.001 초과의 집단 대립유전자 빈도 (AF)를 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 시스템.
  61. 제45항 내지 제60항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 적어도 1개의 비-종양형성 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 시스템.
  62. 제45항 내지 제61항 중 어느 한 항에 있어서, 핵산 변이체의 연관된 변수가 약 0.9 미만의 돌연변이체 대립유전자 분율 (MAF)을 포함하는 적어도 1개의 단일 뉴클레오티드 다형성 (SNP)을 포함하는 것인 시스템.
  63. 제45항 내지 제62항 중 어느 한 항에 있어서, 연관된 변수가 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 이형접합성 SNP를 포함하고, 베타 이항 분포 파라미터가
    Figure pct00019

    를 사용하여 추정되며,
    상기 식에서,
    y = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 생식세포계열 이형접합성 SNP(들)의 총 분자 카운트의 벡터;
    x = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트, y - 생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트)의 벡터;
    μ = 빈에서의 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및
    ρ = 분산 파라미터의 추정치
    인 시스템.
  64. 제63항에 있어서, 핵산 변이체에 대한 양측 p-값이
    Figure pct00020

    를 사용하여 계산되며,
    상기 식에서,
    Prbb = 베타 이항의 확률;
    x' = 베타 이항으로 분포된 무작위 변수;
    A = 핵산 변이체의 돌연변이체 대립유전자 카운트; 및
    B = 핵산 변이체의 총 분자 카운트
    인 시스템.
  65. 제45항 내지 제64항 중 어느 한 항에 있어서, p-값에 대한 상한 및 하한이 계산되는 것인 시스템.
  66. (a) 무세포 데옥시리보핵산 (cfDNA) 분자의 샘플로부터 핵산 변이체의 돌연변이체 대립유전자 카운트 (A) 및 총 분자 카운트 (B)를 측정하고;
    (b) 핵산 변이체에 비해 특정된 게놈 영역 내에 적어도 1개의 생식세포계열 이형접합성 단일 뉴클레오티드 다형성 (SNP)을 확인하고;
    (c) 적어도 1개의 생식세포계열 이형접합성 SNP의 총 분자 카운트 (y) 및 돌연변이체 대립유전자 카운트를 측정하고;
    (d) 핵산 변이체에 대한 확률 값 (p-값)을
    (i) 베타 이항 분포
    Figure pct00021

    (상기 식에서,
    y = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, 생식세포계열 이형접합성 SNP(들)의 총 분자 카운트의 벡터;
    x = (b)에서 확인된 각각의 생식세포계열 이형접합성 SNP에 대한 1개의 엔트리를 갖는, min (생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트, y - 생식세포계열 이형접합성 SNP(들)의 돌연변이체 대립유전자 카운트)의 벡터;
    μ = 빈에서의 생식세포계열 이형접합성 SNP의 돌연변이체 대립유전자 카운트의 추정치 (여기서, 빈은 핵산 변이체에 비해 특정된 게놈 영역임); 및
    ρ = 분산 파라미터의 추정치)
    로부터 μ 및 ρ의 추정치를 측정하고;
    (ii) 하기 방정식
    Figure pct00022

    (상기 식에서,
    Prbb = 베타 이항의 확률;
    x' = 베타 이항 분포로 분포된 무작위 변수;
    A = 핵산 변이체의 돌연변이체 대립유전자 카운트;
    B = 핵산 변이체의 총 분자 카운트)
    으로부터 양측 p-값을 계산함으로써 계산하고;
    (e) 핵산 변이체를 (i) p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것
    을 포함하는, cfDNA 분자의 샘플로부터 핵산 변이체의 체세포 또는 생식세포계열 기원을 확인하는 방법.
  67. 제66항에 있어서, ρ가 히스토릭 샘플 세트로부터의 ρ 값의 적어도 1개의 세트의 중위 값을 포함하는 것인 방법.
  68. 제66항 또는 제67항에 있어서, μ의 최대 가능성 추정치를 측정하는 것을 포함하는 방법.
  69. 제66항 내지 제68항 중 어느 한 항에 있어서, μ의 평균 추정치를 측정하는 것을 포함하는 방법.
  70. 제66항 내지 제69항 중 어느 한 항에 있어서, ρ의 최대 가능성 추정치를 측정하는 것을 포함하는 방법.
  71. 제66항 내지 제70항 중 어느 한 항에 있어서, ρ의 분산 추정치를 측정하는 것을 포함하는 방법.
  72. 통신 네트워크 상에서, 무세포 데옥시리보핵산 (cfDNA) 샘플의 핵산으로부터 생성된 시퀀싱 정보를 얻는 통신 인터페이스; 및
    통신 인터페이스와 통신하는 컴퓨터
    를 포함하며,
    컴퓨터가 적어도 하나의 컴퓨터 프로세서 및 적어도 하나의 컴퓨터 프로세서에 의한 실행 시,
    (a) 시퀀싱 정보로부터 핵산 변이체에 대한 복수의 정량적 측정치를 측정하고 (여기서, 복수의 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함);
    (b) 시퀀싱 정보로부터 핵산 변이체의 연관된 변수를 확인하고;
    (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고;
    (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고;
    (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 복수의 정량적 측정치 중 적어도 하나에 적어도 부분적으로 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고;
    (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 미리 결정된 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체에 대한 p-값이 미리 결정된 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하는 것
    을 포함하는 방법을 실행하는 기계-실행가능한 코드를 포함하는 비-일시적 컴퓨터-판독가능한 매체를 포함하는 것인
    시스템.
  73. 제72항에 있어서, 시퀀싱 정보가 핵산 시퀀서에 의해 제공되는 것인 시스템.
  74. 제73항에 있어서, 핵산 시퀀서가 핵산의 피로시퀀싱, 단일-분자 시퀀싱, 나노포어 시퀀싱, 반도체 시퀀싱, 합성에 의한 시퀀싱, 라이게이션에 의한 시퀀싱, 또는 혼성화에 의한 시퀀싱을 수행하여 시퀀싱 정보를 생성하는 것인 시스템.
  75. 제73항에 있어서, 핵산 시퀀서가 시퀀싱 라이브러리로부터 유래된 클론성 단일 분자 어레이를 사용하여 시퀀싱 정보를 생성하는 것인 시스템.
  76. 제73항에 있어서, 핵산 시퀀서가 시퀀싱 라이브러리를 시퀀싱하여 시퀀싱 정보를 생성하기 위한 마이크로웰의 어레이를 갖는 칩을 포함하는 것인 시스템.
  77. 제72항 내지 제76항 중 어느 한 항에 있어서, 비-일시적 컴퓨터-판독가능한 매체가 메모리, 하드 드라이브, 또는 컴퓨터 서버의 메모리 또는 하드 드라이브를 포함하는 것인 시스템.
  78. 제72항 내지 제76항 중 어느 한 항에 있어서, 통신 네트워크가 분산 컴퓨팅이 가능한 1개 이상의 컴퓨터 서버를 포함하는 것인 시스템.
  79. 제78항에 있어서, 분산 컴퓨팅이 클라우드 컴퓨팅인 시스템.
  80. 제72항 내지 제79항 중 어느 한 항에 있어서, 컴퓨터가 핵산 시퀀서로부터 원격의 위치에 위치한 컴퓨터 서버의 일부인 시스템.
  81. 제72항 내지 제80항 중 어느 한 항에 있어서, 네트워크 상에서 컴퓨터와 통신하는 전자 디스플레이를 더 포함하며, 전자 디스플레이가 (a) 내지 (f)의 적어도 일부를 실행할 때 결과를 디스플레이하기 위한 사용자 인터페이스를 포함하는 것인 시스템.
  82. 제81항에 있어서, 사용자 인터페이스가 그래픽 사용자 인터페이스 (GUI) 또는 웹-기재 사용자 인터페이스인 시스템.
  83. 제81항에 있어서, 전자 디스플레이가 퍼스널 컴퓨터의 일부인 시스템.
  84. 제81항에 있어서, 전자 디스플레이가 인터넷-가능한 컴퓨터의 일부인 시스템.
  85. 제84항에 있어서, 인터넷-가능한 컴퓨터가 컴퓨터로부터 원격의 위치에 위치한 것인 시스템.
  86. 제72항 내지 제85항 중 어느 한 항에 있어서, 비-일시적 컴퓨터-판독가능한 매체가 메모리, 하드 드라이브 또는 컴퓨터 서버의 메모리 또는 하드 드라이브를 포함하는 것인 시스템.
  87. 제72항 내지 제86항 중 어느 한 항에 있어서, 통신 네트워크가 전기통신 네트워크, 인터넷, 엑스트라넷, 또는 인트라넷을 포함하는 것인 시스템.
  88. 제1항 또는 제66항에 있어서, 방법이 체세포 또는 생식세포계열 기원 중 어느 하나의 것인 것으로서의 핵산 변이체의 분류의 지시를 제공하는 전자 및/또는 페이퍼 형식의 리포트를 생성하는 것을 더 포함하는 방법.
  89. 1종 이상의 맞춤형 요법을 대상체에게 투여함으로써, 대상체에서 질환을 치료하는 것을 포함하며, 맞춤형 요법이
    (a) 무세포 데옥시리보핵산 (cfDNA) 분자의 샘플로부터 핵산 변이체에 대한 1개 이상의 정량적 측정치를 측정하고 (여기서, 정량적 측정치는 핵산 변이체에 대한 총 대립유전자 카운트 및 마이너 대립유전자 카운트를 포함함);
    (b) cfDNA 분자의 샘플로부터 핵산 변이체의 적어도 1개의 연관된 변수를 확인하고;
    (c) 핵산 변이체의 연관된 변수에 대한 정량적 값을 측정하고;
    (d) 핵산 변이체의 게놈 좌위에서 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델을 생성하고;
    (e) 예상된 생식세포계열 돌연변이체 대립유전자 카운트에 대한 통계적 모델, 및 핵산 변이체의 연관된 변수에 대한 정량적 값, 및 핵산 변이체에 대한 정량적 측정치 중 적어도 하나에 기초하여 핵산 변이체에 대한 확률 값 (p-값)을 생성하고;
    (f) 핵산 변이체를 (i) 핵산 변이체의 p-값이 역치 값 미만인 경우 체세포 기원의 것인 것으로서, 또는 (ii) 핵산 변이체의 p-값이 역치 값 이상인 경우 생식세포계열 기원의 것인 것으로서 분류하고;
    (g) 분류된 핵산 변이체를 1종 이상의 요법으로 인덱싱된 1개 이상의 비교자 결과와 비교하고;
    (h) 분류된 핵산 변이체 및 비교자 결과 사이에 실질적 매치가 있는 경우, 대상체에서 질환을 치료하기 위한 1종 이상의 맞춤형 요법을 확인함으로써 확인된 것인, 대상체에서 질환을 치료하는 방법.
  90. 제89항에 있어서, 질환이 암인 방법.
KR1020207010774A 2017-09-20 2018-09-20 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템 KR20200057024A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762561048P 2017-09-20 2017-09-20
US62/561,048 2017-09-20
PCT/US2018/052087 WO2019060640A1 (en) 2017-09-20 2018-09-20 METHODS AND SYSTEMS FOR DIFFERENTIATING SOMATIC VARIANTS AND GERMINAL LINE VARIANTS

Publications (1)

Publication Number Publication Date
KR20200057024A true KR20200057024A (ko) 2020-05-25

Family

ID=63858071

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207010774A KR20200057024A (ko) 2017-09-20 2018-09-20 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템

Country Status (9)

Country Link
US (1) US20200327954A1 (ko)
EP (1) EP3685386A1 (ko)
JP (2) JP7242644B2 (ko)
KR (1) KR20200057024A (ko)
CN (1) CN111357054A (ko)
AU (1) AU2018335405A1 (ko)
CA (1) CA3075932A1 (ko)
SG (1) SG11202002381TA (ko)
WO (1) WO2019060640A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102544002B1 (ko) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111566225A (zh) 2017-11-03 2020-08-21 夸登特健康公司 归一化肿瘤突变负荷
US11961589B2 (en) * 2017-11-28 2024-04-16 Grail, Llc Models for targeted sequencing
CN112752854A (zh) 2018-07-23 2021-05-04 夸登特健康公司 用于通过肿瘤分数和覆盖率调整肿瘤突变负荷的方法和系统
US20220277808A1 (en) * 2021-02-19 2022-09-01 Twist Bioscience Corporation Libraries for identification of genomic variants
CN117594124A (zh) * 2021-06-15 2024-02-23 南京医科大学 一种基于单核细胞预测胶质瘤的试剂盒、系统和应用
CN115497556A (zh) * 2021-06-18 2022-12-20 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
CN113278706B (zh) * 2021-07-23 2021-11-12 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
DE69528706T2 (de) 1994-08-19 2003-06-12 Pe Corp Ny Foster City Gekoppeltes ampflikation- und ligationverfahren
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
WO2002004680A2 (en) 2000-07-07 2002-01-17 Visigen Biotechnologies, Inc. Real-time sequence determination
DE60234464D1 (de) 2001-11-28 2009-12-31 Applied Biosystems Llc Zusammensetzungen und Verfahren zur selektiven Nukleinsäureisolierung
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
IL269097B2 (en) 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
CA2934822A1 (en) * 2013-12-28 2015-07-02 Guardant Health, Inc. Methods and systems for detecting genetic variants
EP3240911B1 (en) * 2014-12-31 2020-08-26 Guardant Health, Inc. Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
US20170058332A1 (en) * 2015-09-02 2017-03-02 Guardant Health, Inc. Identification of somatic mutations versus germline variants for cell-free dna variant calling applications
JP2019511070A (ja) 2016-02-09 2019-04-18 トマ・バイオサイエンシズ,インコーポレーテッド 核酸を解析するシステムおよび方法
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102544002B1 (ko) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법
WO2023171859A1 (ko) * 2022-03-10 2023-09-14 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법

Also Published As

Publication number Publication date
WO2019060640A1 (en) 2019-03-28
AU2018335405A1 (en) 2020-04-09
CN111357054A (zh) 2020-06-30
EP3685386A1 (en) 2020-07-29
JP2020536509A (ja) 2020-12-17
SG11202002381TA (en) 2020-04-29
US20200327954A1 (en) 2020-10-15
JP2023052512A (ja) 2023-04-11
CA3075932A1 (en) 2019-03-28
JP7242644B2 (ja) 2023-03-20

Similar Documents

Publication Publication Date Title
US20200327954A1 (en) Methods and systems for differentiating somatic and germline variants
US11193175B2 (en) Normalizing tumor mutation burden
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
JP2023060046A (ja) 脱アミノ化に誘導される配列エラーの補正
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
US20200071754A1 (en) Methods and systems for detecting contamination between samples
US20240062848A1 (en) Determining a dynamic quality metric of a biopsy sample
US20230360725A1 (en) Detecting degradation based on strand bias
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples

Legal Events

Date Code Title Description
A201 Request for examination