KR20210132139A - 대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링 - Google Patents

대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링 Download PDF

Info

Publication number
KR20210132139A
KR20210132139A KR1020217030628A KR20217030628A KR20210132139A KR 20210132139 A KR20210132139 A KR 20210132139A KR 1020217030628 A KR1020217030628 A KR 1020217030628A KR 20217030628 A KR20217030628 A KR 20217030628A KR 20210132139 A KR20210132139 A KR 20210132139A
Authority
KR
South Korea
Prior art keywords
sample
somatic
processor
probability
model
Prior art date
Application number
KR1020217030628A
Other languages
English (en)
Inventor
카탈린 바바시오루
마신 시코라
다르야 추도바
Original Assignee
가던트 헬쓰, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가던트 헬쓰, 인크. filed Critical 가던트 헬쓰, 인크.
Publication of KR20210132139A publication Critical patent/KR20210132139A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Public Health (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Physiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)

Abstract

본 개시내용은 샘플 내 무세포 DNA로부터 서열분석된 유전자와 같은 유전 물질의 다양한 상태의 정밀 진단을 위한 컴퓨터 기술에 관한 것이다. 상태는 체세포 동형접합 결실, 체세포 이형접합 결실, 카피 수 변이, 또는 다른 상태를 포함할 수 있다. 컴퓨터 시스템은 유전 물질이 특정 상태에 있을 확률을 각각 출력하는 경쟁 확률론적 모델을 생성할 수 있다. 각 모델은 유전 물질이 각 상태에 있을 확률을 출력하도록 트레이닝 샘플 세트에 대해 트레이닝될 수 있다. 일부 실시양태에서, 컴퓨터 시스템은 모델을 생성하기 위해 다양한 확률 분포를 사용할 수 있다. 예를 들어, 컴퓨터 시스템은 베타-이항 분포, 이항 분포, 정규 (또한 "가우시안"으로 지칭됨) 분포, 또는 다른 유형의 확률론적 모델링 기술을 사용할 수 있다.

Description

대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링
관련 출원에 대한 상호 참조
본 출원은 2019년 2월 27일에 출원된 미국 가출원 번호 62/811,159 및 2019년 3월 25에 출원된 미국 가출원 번호 62/823,585의 우선권을 주장하며, 이들은 모든 목적을 위해 본원에 참조로 포함된다.
종양은 세포의 비정상적인 성장이다. 단편화된 DNA는 세포, 예컨대 종양 세포가 사멸할 때 종종 체액으로 방출된다. 그러므로, 체액 내 무세포 DNA 중 일부는 종양 DNA이다. 종양은 양성 또는 악성일 수 있다. 악성 종양은 종종 암으로 지칭된다.
암은 전세계적으로 질환의 주요 원인이다. 매년, 전세계적으로 수천만 명의 사람들이 암으로 진단되고, 절반 넘게 결국 암으로 사망한다. 많은 국가에서, 암은 심혈관 질환에 이어 두 번째로 흔한 사망 원인으로 순위매겨진다. 조기 검출은 많은 암에 대한 개선된 결과와 연관된다.
암은 개체의 정상 세포 내 돌연변이 및/또는 후성적 변이의 축적에 의해 유발되며, 그 중 적어도 일부는 부적절하게 조절되는 세포 분열을 초래한다. 이러한 돌연변이 또는 유전 물질의 상태는 일반적으로 카피 수 변이 (CNV), 카피 수 이상 (CNA), 단일 뉴클레오티드 변이 (SNV), 유전자 융합 및 indel을 포함하고, 후성적 변이는 시토신의 6-원자 고리의 5번째 원자에 대한 변형 및 염색질 및 전사 인자와 DNA의 회합을 포함한다.
특정 예에서, 이형접합성 손실 (LOH) 및 상동성 재조합 복구 (HRR) 유전자 (BRCA1/2)의 이중대립유전자 카피 수 손실은 암을 유발하는 종양 억압 기능 손실과 연관된다. 많은 경우에, 관심 유전자의 특정 상태는 치료 유형을 알려줄 수 있다. 예를 들어, 유전자의 한 상태는 약물 세트에 반응할 수 있는 반면, 유전자의 또 다른 상태는 그렇지 않을 수 있다. 그러므로, 암 및 다른 질환을 진단할 수 있을 뿐만 아니라 질환의 근본 원인을 특징화할 수 있는 것이 점점 더 중요해지고 있다.
암은 종종 종양의 생검 후 세포, 마커 또는 세포로부터 추출된 DNA의 분석에 의해 검출된다. 체액 분석에 기초하여 암을 검출하는 연구가 진행 중이다. 성공적인 경우, 이들 시험은 비침습적이며 생검을 통해 의심되는 암 세포를 식별하지 않고 수행될 수 있다는 장점을 갖는다. 그러나, 이들 유형의 시험을 성공적으로 완료하는 것은 체액 내 핵산의 양이 매우 적다는 사실로 인해 복잡화된다. 또한, 체액 내 검출가능한 종양-관련 무세포 핵산의 양이 무세포 DNA에서 암의 분석 및 검출을 더욱 어렵게 할 수 있다. 즉, 체액 내 종양 DNA가 정상적인 DNA로 오염되어 무세포 DNA의 샘플에서 종양의 특정 원인의 컴퓨터 분석 및 검출을 어렵게 만들 수 있다.
요약
본 개시내용은 샘플 내 무세포 DNA로부터 서열분석된 유전자와 같은 유전 물질의 다양한 상태의 정밀 진단을 제공하는 컴퓨터 기술에 관한 것이다. 상태는 유전자의 돌연변이 상태, 예컨대 제한 없이, 체세포 동형접합 결실, 체세포 이형접합 결실, 카피 수 변이 ("CNV") (특정 카피 수 야생형, 증폭 또는 손실 포함), 및/또는 다른 상태를 포함할 수 있다. 정밀 진단은 상태의 하나 이상의 확률론적 모델에 기초할 수 있다. 예를 들어, 컴퓨터 시스템은 유전 물질이 특정 상태에 있을 확률을 각각 출력하는 경쟁 모델을 생성할 수 있다.
각 모델은 유전 물질이 각 상태에 있을 확률을 출력하도록 트레이닝 샘플 세트에 대해 트레이닝될 수 있다. 예를 들어, 제1 모델은 유전 물질이 특정 유전자의 대립유전자의 체세포 동형접합 결실을 포함할 제1 확률과 관련되고 이를 출력할 수 있다. 제2 모델은 유전 물질이 특정 유전자의 대립유전자의 체세포 이형접합 결실을 포함할 제2 확률과 관련되고 이를 출력할 수 있다. 다른 모델은 유전 물질의 CNV와 같은 다른 유형의 상태의 확률과 관련되고 이를 출력할 수 있다. 컴퓨터 시스템은 각 경쟁 모델의 출력을 비교하여 어느 것이 더 가능성이 높은지 결정할 수 있다. 예를 들어, 컴퓨터 시스템은 유전 물질이 체세포 동형접합 결실 또는 체세포 이형접합 결실을 포함하는지를 결정하기 위해 경쟁 제1 및 제2 확률의 로그 가능도 비를 사용할 수 있다.
일부 실시양태에서, 컴퓨터 시스템은 모델을 생성하기 위해 다양한 확률 분포를 사용할 수 있다. 예를 들어, 컴퓨터 시스템은 베타-이항 분포, 이항 분포, 정규 (또한 "가우시안"으로 지칭됨) 분포, 및/또는 다른 유형의 확률론적 모델링 기술을 사용할 수 있다. 컴퓨터 시스템은 비정상 또는 종양 상태의 기준선 기대치를 설정하기 위해 트레이닝 데이터세트에 기초하여 상태 (예컨대 특정 상태를 지원하는 대립유전자 계수)를 모델링할 수 있다. 예를 들어, 컴퓨터 시스템은 "정상" 또는 비-종양 샘플, 예를 들어 체세포 변이체가 관찰되지 않는 샘플에서 관찰된 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치를 식별할 수 있다. 이들 샘플은 또한 종양 미검출 (TND) 샘플로 지칭될 것이다.
TND 샘플이 정상이기 때문에, 컴퓨터 시스템은 생식계열 SNP 위치가 비정상 상태에 기여하지 않는다고 가정할 수 있다. 이와 같이, 컴퓨터 시스템은 이들 SNP 부위를 활용하여 상태의 확률론적 결정을 위한 대립유전자 계수를 모델링하기 위한 참조 기대치로서 역할을 할 수 있다. 예를 들어, 각 SNP 위치에서 관찰된 뉴클레오티드 호출로부터의 편차는 이러한 편차가 특정 상태, 예컨대 종양 또는 다른 비정상 상태에 기여할 확률을 나타낼 수 있다. 따라서, 컴퓨터 시스템은 TND 샘플의 생식계열 SNP로부터의 데이터에 대한 산출로부터 파생된 기대치에 기초하여 모델을 트레이닝할 수 있다. 이러한 산출된 데이터는 각 SNP 부위에 대해: 이형접합성의 유병률, MAF의 표준 편차, 유전자형, 생식계열 유병률 (사전), 및/또는 개체의 샘플의 분석을 알려줄 수 있는 다른 데이터를 포함할 수 있다.
산출된 기대치와 함께, 컴퓨터 시스템은 관심 영역, 예컨대 상류, 하류, 및 관심 유전자를 포함하는 영역에 정렬되는 시험 중인 개체의 샘플의 서열 리드(read)에 기초하여 상태를 모델링할 수 있다. 일부 실시양태에서, 개체의 샘플로부터 생성된 분자의 서열 리드는 기본 분자가 지지하는 대립유전자 (돌연변이체 또는 야생형)를 식별하기 위해 참조 게놈에 대해 정렬될 수 있다. 개체의 샘플로부터 생성된 서열 리드의 정렬에 기초하여, 컴퓨터 시스템은 대안 대립유전자를 지지하는 분자의 수를 식별하고 총 분자 수를 계산할 수 있다. 컴퓨터 시스템은 관심 영역 내 생식계열 SNP 각각으로부터 산출된 기대치 데이터를 사용하여 개체의 샘플로부터 이들 및/또는 다른 데이터를 모델링할 수 있다. 일부 예에서, 서열분석은 형질 무세포 DNA (cfDNA)의 표적화 서열분석에 기초할 수 있다.
한 측면에서, 본 개시내용은 유전자의 생식계열 결실을 나타내지 않는 샘플에서 유전자의 체세포 동형접합 결실과 체세포 이형접합 결실을 구별하도록 개선된 컴퓨터 시스템에 관한 것이다. 컴퓨터 시스템은 제1 확률 분포를 통해, 유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 기초하여 대립유전자 계수의 제1 모델을 생성하도록 프로그래밍된 프로세서를 포함할 수 있으며, 제1 모델은 체세포 동형접합 결실을 나타낸다. 프로세서는 제2 확률 분포를 통해, 하나 이상의 생식계열 SNP 위치에 기초하여 샘플 내 대립유전자 계수의 제2 모델을 추가로 생성할 수 있으며, 제2 모델은 체세포 이형접합 결실을 나타낸다. 프로세서는 제1 모델의 제1 출력과 제2 모델의 제2 출력을 비교할 수 있다. 프로세서는 비교에 기초하여 유전자에 대한 체세포 동형접합 결실이 샘플에 존재한다는 예측을 생성할 수 있다.
일부 실시양태에서, 제1 모델은 샘플이 체세포 동형접합 결실을 포함할 제1 확률을 나타내고, 제2 모델은 샘플이 체세포 이형접합 결실을 포함할 제2 확률을 나타낼 수 있다.
일부 실시양태에서, 제1 확률 분포는 제2 확률 분포와 동일한 유형의 확률 분포이다.
일부 실시양태에서, 제1 모델을 생성하기 위해, 프로세서는 제1 확률 분포에 대한 입력을 위한 하나 이상의 파라미터를 결정하도록 프로그래밍된다.
일부 실시양태에서, 제1 확률 분포는 베타-이항 분포, 이항 분포, 또는 정규 분포를 포함한다.
일부 실시양태에서, 대립유전자 계수의 제1 모델을 생성하기 위해, 프로세서는 제1 확률 분포에 대한 입력을 위해, 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP의 이형접합성의 유병률을 추가로 결정할 수 있다.
일부 실시양태에서, 트레이닝 샘플 세트는 종양이 검출되지 않은 (TND) 복수의 샘플을 포함할 수 있다.
일부 실시양태에서, 대립유전자 계수의 제1 모델을 생성하기 위해, 프로세서는 제1 확률 분포에 대한 입력을 위해, 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP 각각과 연관된 소수 대립유전자 빈도 (MAF)의 표준 편차를 추가로 결정할 수 있다.
일부 실시양태에서, 제1 모델을 생성하기 위해, 프로세서는 제1 확률 분포에 대한 입력을 위해, 돌연변이체 대립유전자를 지지하는 샘플 내 분자 수를 추가로 결정할 수 있다.
일부 실시양태에서, 제1 모델을 생성하기 위해, 프로세서는 제1 확률 분포에 대한 입력을 위해, 샘플 내 총 분자 수를 추가로 결정할 수 있다.
일부 실시양태에서, 제1 모델을 생성하기 위해, 프로세서는 체세포 동형접합 결실과 연관된 서열 리드 커버리지에 기초하여 체세포 동형접합 결실을 가정하는 샘플에서 하나 이상의 생식계열 SNP 위치의 대립유전자 계수의 제1 가능도를 추가로 계산할 수 있다.
일부 실시양태에서, 제2 모델을 생성하기 위해, 프로세서는 체세포 이형접합 결실과 연관된 서열 리드 커버리지에 기초하여 체세포 이형접합 결실을 가정하는 샘플에서 하나 이상의 생식계열 SNP 위치의 대립유전자 계수의 제2 가능도를 추가로 계산할 수 있다.
일부 실시양태에서, 제2 모델을 생성하기 위해, 프로세서는 제2 모델에 대한 제2 확률 분포에 대한 입력을 위해, 샘플로부터 추정된 종양 분획의 평균을 추가로 결정할 수 있다.
일부 실시양태에서, 종양 분획은 서열 커버리지 정보에 기초하여 추정될 수 있다.
일부 실시양태에서, 제2 모델을 생성하기 위해, 프로세서는 제2 모델에 대한 제2 확률 분포에 대한 입력을 위해, 샘플로부터 추정된 종양 분획의 표준 편차를 추가로 결정할 수 있다.
일부 실시양태에서, 프로세서는 추가로 복수의 샘플에 액세스하고, 생식계열 결실을 포함하는 복수의 샘플 중에서 샘플 세트를 식별하고, 복수의 샘플로부터 샘플 세트를 여과하고, 여과된 복수의 샘플 중에서 체세포 동형접합 결실 또는 체세포 이형접합 결실의 존재를 식별할 수 있다.
일부 실시양태에서, 제1 출력은 체세포 동형접합 결실의 존재의 제1 확률을 포함할 수 있고, 제2 출력은 체세포 이형접합 결실의 존재의 제2 확률을 포함할 수 있다.
일부 실시양태에서, 제1 모델의 제1 출력과 제2 모델의 제2 출력을 비교하기 위해, 프로세서는 제1 출력 및 제2 출력에 기초하여 로그 가능도 함수를 추가로 실행할 수 있다.
일부 실시양태에서, 유전자는 BRCA1, BRCA2 또는 ATM을 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 시스템에 관한 것이다. 시스템은 샘플 내 유전자가 체세포 동형접합 결실을 포함할 제1 확률을 생성하고, 샘플 내 유전자가 체세포 이형접합 결실을 포함할 제2 확률을 생성하고, 제1 확률과 제2 확률을 비교하고, 샘플이 체세포 동형접합 결실 또는 체세포 이형접합 결실을 포함하는지에 대한 예측을 생성하도록 프로그래밍된 프로세서를 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 시스템에 관한 것이다. 시스템은 샘플 내 유전 물질이 제1 상태를 포함할 제1 확률을 생성하고, 샘플 내 유전 물질이 제2 상태를 포함할 제2 확률을 생성하고, 제1 확률과 제2 확률을 비교하고, 샘플이 제1 상태 또는 제2 상태를 포함하는지에 대한 예측을 생성하도록 프로그래밍된 프로세서를 포함할 수 있다.
일부 실시양태에서, 제1 상태는 체세포 동형접합 결실을 포함하고, 제2 상태는 체세포 이형접합 결실을 포함한다.
일부 실시양태에서, 제1 상태는 제1 카피 수 변이체 (CNV)를 포함할 수 있고, 제2 상태는 제1 CNV와 상이한 제2 CNV를 포함할 수 있다.
일부 실시양태에서, 제1 CNV 및/또는 제2 CNV는 해로운 상태와 연관될 수 있다.
일부 실시양태에서, 제1 확률을 생성하기 위해, 프로세서는 추가로 유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 액세스하고, 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP 각각과 연관된 소수 대립유전자 빈도 (MAF)의 표준 편차를 결정할 수 있다.
일부 실시양태에서, 제1 확률을 생성하기 위해, 프로세서는 확률 분포에 대한 입력을 위해, 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP 각각과 연관된 소수 대립유전자 빈도 (MAF)의 표준 편차를 추가로 결정할 수 있다.
또 다른 측면에서, 본 개시내용은 프로세서에 의해 구현되는 방법에 관한 것이다. 방법은 프로세서에 의해, 제1 확률 분포를 통해, 유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 기초하여 대립유전자 계수의 제1 모델을 생성하는 단계이며, 제1 모델은 체세포 동형접합 결실을 나타내는 것인 단계를 포함할 수 있다. 방법은 프로세서에 의해, 제2 확률 분포를 통해, 하나 이상의 생식계열 SNP 위치에 기초하여 샘플 내 대립유전자 계수의 제2 모델을 생성하는 단계이며, 제2 모델은 체세포 이형접합 결실을 나타내는 것인 단계를 추가로 포함할 수 있다. 방법은 프로세서에 의해, 제1 모델의 제1 출력과 제2 모델의 제2 출력을 비교하는 단계를 포함할 수 있다. 방법은 프로세서에 의해, 비교에 기초하여 유전자에 대한 체세포 동형접합 결실이 샘플에 존재한다는 예측을 생성하는 단계를 추가로 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 프로세서에 의해 구현되는 또 다른 방법에 관한 것이다. 방법은 프로세서에 의해, 샘플 내 유전자가 체세포 동형접합 결실을 포함할 제1 확률을 생성하는 단계를 포함할 수 있다. 방법은 프로세서에 의해, 샘플 내 유전자가 체세포 이형접합 결실을 포함할 제2 확률을 생성하는 단계를 추가로 포함할 수 있다. 방법은 프로세서에 의해, 제1 확률과 제2 확률을 비교하는 단계를 추가로 포함할 수 있다. 방법은 프로세서에 의해, 샘플이 체세포 동형접합 결실 또는 체세포 이형접합 결실을 포함하는지에 대한 예측을 생성하는 단계를 추가로 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 프로세서에 의해 구현되는 또 다른 방법에 관한 것이다.
방법은 프로세서에 의해, 샘플 내 유전 물질이 제1 상태를 포함할 제1 확률을 생성하는 단계를 포함할 수 있다. 방법은 프로세서에 의해, 샘플 내 유전 물질이 제2 상태를 포함할 제2 확률을 생성하는 단계를 추가로 포함할 수 있다. 방법은 프로세서에 의해, 제1 확률과 제2 확률을 비교하는 단계를 추가로 포함할 수 있다. 방법은 프로세서에 의해, 샘플이 제1 상태 또는 제2 상태를 포함하는지에 대한 예측을 생성하는 단계를 추가로 포함할 수 있다.
또 다른 측면에서, 본 개시내용은 본원의 개시내용에 기초하여 체세포 동형접합 결실을 갖는 것으로 결정된 대상체에게 체세포 동형접합 결실과 연관된 암을 치료하는데 효과적인 치료적 개입을 투여하는 방법에 관한 것이다.
일부 실시양태에서, 치료적 개입은 폴리 ADP 리보스 중합효소 (PARP) 억제제를 포함할 수 있다. PARP 억제제의 예는 그 중에서도 올라파립, 탈라조파립, 루카파립, 니라파립 (상품명 제줄라)을 포함한다.
일부 실시양태에서, 치료적 개입은 염기 절제 복구 (BER) 억제제를 포함할 수 있다. 예를 들어, 올라파립은 BER을 억제할 수 있다.
또 다른 측면에서, 본 개시내용은 본원의 개시내용에 기초하여 유전 물질의 특정 상태를 갖는 것으로 결정된 대상체에게 유전 물질의 상태와 연관된 질환을 치료하는데 효과적인 치료적 개입을 투여하는 방법에 관한 것이다.
또 다른 측면에서, 본 개시내용은 본원의 개시내용에 기초하여 체세포 동형접합 결실을 갖지 않는 것으로 결정된 대상체에게 PARP 억제제를 배제하기 위한 치료적 개입을 투여하는 방법에 관한 것이다.
본 개시내용의 각각 및 모든 측면의 일부 실시양태에서, 본원에 개시된 시스템 및/또는 방법의 결과는 보고서를 생성하기 위한 입력으로 사용된다. 보고서는 종이 또는 전자 형식일 수 있다. 예를 들어, 본원에 개시된 방법 또는 시스템에 의해 결정된 바와 같은 유전자 및/또는 유전 물질의 결실 또는 다른 상태에 대한 정보 및/또는 이로부터 파생된 정보는 이러한 보고서에 표시될 수 있다. 본원에 개시된 방법 또는 시스템은 보고서를 제3자, 예컨대 샘플이 유래된 대상체 또는 건강 관리 진료의에게 통신하는 단계를 추가로 포함할 수 있다.
본원에 개시된 방법의 다양한 작동, 또는 본원에 개시된 시스템에 의해 수행되는 작동은 동일한 시간에 또는 상이한 시간에, 및/또는 동일한 지리적 위치 또는 상이한 지리적 위치, 예를 들어 국가에서 수행될 수 있다. 본원에 개시된 방법의 다양한 단계는 동일한 사람 또는 상이한 사람에 의해 수행될 수 있다.
도 1은 본 개시내용의 한 실시양태에 따른, 각 상태의 확률에 기초하여 유전 물질의 상태를 예측하기 위해 모델을 트레이닝하기 위한 시스템의 예를 도시한다.
도 2는 본 개시내용의 한 실시양태에 따른, 유전자의 상태를 예측하기 위해 생식계열 SNP에 대한 대립유전자 계수를 결정하는 개략도를 도시한다.
도 3은 본 개시내용의 한 실시양태에 따른, 트레이닝된 모델에 기초하여 체세포 동형접합 또는 이형접합 결실을 예측하는 프로세스를 도시한다.
도 4는 본 개시내용의 한 실시양태에 따른, 트레이닝된 모델에 기초하여 유전 물질의 상태를 예측하는 프로세스를 도시한다.
도 5는 본 개시내용의 한 실시양태에 따른 체세포 결실의 유형을 도시한다.
도 6a는 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 예시적인 플롯을 도시한다.
도 6b는 본 개시내용의 한 실시양태에 따른 BRCA2 이형접합 결실의 예시적인 플롯을 도시한다.
도 7a는 본 개시내용의 한 실시양태에 따른, TND 샘플에서의 het 유병률의 예시적인 플롯을 도시한다.
도 7b는 본 개시내용의 한 실시양태에 따른, TND 샘플에 걸친 MAF의 예시적인 플롯을 도시한다.
도 8a는 본 개시내용의 한 실시양태에 따른 BRCA1에 대한 MAF 값의 예시적인 플롯을 도시한다.
도 8b는 본 개시내용의 한 실시양태에 따른 BRCA2에 대한 MAF 값의 예시적인 플롯을 도시한다.
도 9a는 본 개시내용의 한 실시양태에 따른 BRCA2 패널에 대한 베타-이항 모델 및 이항 모델 간의 스코어 비교의 예시적인 플롯을 도시한다.
도 9b는 본 개시내용의 한 실시양태에 따른 BRCA2 패널에 대한 베타-이항 모델 및 가우시안 모델 간의 스코어 비교의 예시적인 플롯을 도시한다.
도 10a는 본 개시내용의 한 실시양태에 따른 BRCA1 음성 샘플에 대한 LLR 스코어 분포의 예시적인 플롯을 도시한다.
도 10b는 본 개시내용의 한 실시양태에 따른 BRCA2 음성 샘플에 대한 LLR 스코어 분포의 예시적인 플롯을 도시한다.
도 11a는 본 개시내용의 한 실시양태에 따른 BRCA1에 대한 검출 한계 (LoD) 결실의 예시적인 플롯을 도시한다.
도 11b는 본 개시내용의 한 실시양태에 따른 BRCA1에 대한 LoD HRR 동형접합 결실의 예시적인 플롯을 도시한다.
도 12a는 본 개시내용의 한 실시양태에 따른 BRCA2에 대한 LoD 결실의 예시적인 플롯을 도시한다.
도 12b는 본 개시내용의 한 실시양태에 따른 BRCA2에 대한 LoD HRR 동형접합 결실의 예시적인 플롯을 도시한다.
도 13은 본 개시내용의 한 실시양태에 따른 TF vs 암 유형의 유병률의 예시적인 플롯을 도시한다.
도 14는 본 개시내용의 한 실시양태에 따른 BRCA1 및 BRCA2에 대한 LLR 스코어의 밀도의 예시적인 플롯을 도시한다.
도 15는 본 개시내용의 한 실시양태에 따른 BRCA2 동형접합 결실의 유병률의 예시적인 차트를 도시한다.
도 16은 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 유병률의 예시적인 차트를 도시한다.
도 17은 본 개시내용의 한 실시양태에 따른 BRCA2의 동형접합 결실 및 잠재적인 임상적 실행가능성의 예를 도시한다.
도 18a는 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 예시적인 플롯을 도시한다.
도 18b는 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 예시적인 플롯을 도시한다.
도 19a는 본 개시내용의 한 실시양태에 따른 BRCA2 동형접합 결실의 예시적인 플롯을 도시한다.
도 19b는 본 개시내용의 한 실시양태에 따른 BRCA2 동형접합 결실의 예시적인 플롯을 도시한다.
도 20a는 본 개시내용의 한 실시양태에 따른 BRCA1 이중대립유전자 체세포 카피 수 손실의 예시적인 플롯을 도시한다.
도 20b는 본 개시내용의 한 실시양태에 따른 BRCA1 LOH의 예시적인 플롯을 도시한다.
도 21a는 본 개시내용의 한 실시양태에 따른 BRCA2 이중대립유전자 체세포 카피 수 손실의 예시적인 플롯을 도시한다.
도 21b는 본 개시내용의 한 실시양태에 따른 BRCA2 LOH의 예시적인 플롯을 도시한다.
도 22는 본 개시내용의 한 실시양태에 따른 BRCA1 및 BRCA2 체세포 결실의 유병률의 플롯을 도시한다.
정의
대상체는 동물, 예컨대 포유동물 종 (바람직하게는 인간) 또는 조류 (예를 들어, 새) 종, 또는 다른 유기체, 예컨대 식물을 지칭한다. 보다 구체적으로, 대상체는 척추동물, 예를 들어 포유동물, 예컨대 마우스, 영장류, 유인원 또는 인간일 수 있다. 동물은 농장 동물, 스포츠 동물 및 애완 동물을 포함한다. 대상체는 건강한 개체, 증상 또는 징후를 갖거나 질환 또는 질환에 대한 소인을 갖는 것으로 의심되는 개체, 또는 요법을 필요로 하거나 요법을 필요로 하는 것으로 의심되는 개체일 수 있다.
유전자 변이체는 대상체의 핵산 샘플 또는 게놈의 변경, 변이체 또는 다형성을 지칭한다. 이러한 변경, 변이체 또는 다형성은 참조 게놈에 관한 것일 수 있으며, 이는 종 (예를 들어, 인간의 경우, hG19 또는 hG38), 대상체 또는 다른 개체의 참조 게놈일 수 있다. 변이는 하나 이상의 단일 뉴클레오티드 변이 (SNV), 삽입, 결실, 반복, 작은 삽입, 작은 결실, 작은 반복, 구조적 변이체 접합점, 가변 길이 탄뎀 반복부, 및/또는 플랭킹 서열, 카피 수 변이체 (CNV), 전환, 유전자 융합 및 다른 재배열을 포함하며, 또한 유전자 변이의 형태이다. 변이는 염기 변화, 삽입, 결실, 반복, 카피 수 변이, 전환, 또는 이들의 조합일 수 있다.
암 마커는 암 발병의 존재 또는 위험과 연관된 유전자 변이체이다. 암 마커는 대상체가 암을 갖고 있거나 암 마커를 갖지 않는 동일한 종의 연령 및 성별 매치된 대상체보다 더 높은 암 발병 위험을 갖는다는 표시를 제공할 수 있다. 암 마커는 암의 원인일 수 있거나 아닐 수 있다.
본원에 사용된 바와 같은 "핵산 태그"는 핵산을 상이한 샘플 (예를 들어, 샘플 인덱스를 나타냄), 또는 상이한 유형의 또는 상이한 프로세싱을 거친 동일한 샘플 내의 상이한 핵산 분자 (예를 들어, 분자 바코드를 나타냄)와 구별하는데 사용되는, 짧은 핵산 (예를 들어, 길이가 약 500개 미만의 뉴클레오티드, 약 100개 미만의 뉴클레오티드, 약 50개 미만의 뉴클레오티드, 또는 약 10개 미만의 뉴클레오티드)을 지칭한다. 핵산 태그는 미리 결정된, 고정된, 비무작위, 무작위 또는 반무작위 올리고뉴클레오티드 서열을 포함한다. 이러한 핵산 태그는 상이한 핵산 분자 또는 상이한 핵산 샘플 또는 서브-샘플을 표지하는데 사용될 수 있다. 핵산 태그는 단일-가닥, 이중-가닥, 또는 적어도 부분적으로 이중-가닥일 수 있다. 핵산 태그는 임의로 동일한 길이 또는 다양한 길이를 갖는다. 핵산 태그는 또한 하나 이상의 평활-말단을 갖는 이중-가닥 분자를 포함할 수 있고, 5' 또는 3' 단일-가닥 영역 (예를 들어, 오버행)을 포함하고/거나, 주어진 분자 내에서 다른 위치에 하나 이상의 다른 단일-가닥 영역을 포함한다. 핵산 태그는 다른 핵산 (예를 들어, 증폭 및/또는 서열분석될 샘플 핵산)의 한쪽 말단 또는 양쪽 말단에 부착될 수 있다. 핵산 태그는 주어진 핵산의 기원, 형태 또는 프로세싱의 샘플과 같은 정보를 밝히기 위해 디코딩될 수 있다. 예를 들어, 핵산 태그는 또한 상이한 분자 바코드 및/또는 샘플 인덱스를 보유하는 핵산을 포함하는 다중 샘플의 풀링 및/또는 병렬 프로세싱을 가능하게 하는데 사용될 수 있으며, 여기서 핵산은 후속적으로 핵산 태그를 검출 (예를 들어, 판독)함으로써 디컨볼루션된다. 핵산 태그는 또한 식별자 (예를 들어 분자 식별자, 샘플 식별자)로 지칭될 수 있다. 추가적으로 또는 대안적으로, 핵산 태그는 분자 식별자로서 사용될 수 있다 (예를 들어, 동일한 샘플 또는 서브-샘플에서 상이한 분자 또는 상이한 모 분자의 앰플리콘을 구별하기 위해). 이는 예를 들어, 주어진 샘플에서 상이한 핵산 분자를 고유하게 태그부착함, 또는 이러한 분자를 고유하지 않게 태그부착함을 포함한다. 비고유 태그부착 적용의 경우, 제한된 수의 태그 (즉, 분자 바코드)는 상이한 분자가 적어도 하나의 분자 바코드와 조합하여 내인성 서열 정보 (예를 들어, 선택된 참조 게놈, 서열의 한쪽 또는 양쪽 말단의 하위-서열, 및/또는 서열의 길이에 맵핑되는 시작 및/또는 정지 위치)에 기초하여 구별될 수 있도록 각 핵산 분자를 태그부착하는데 사용될 수 있다. 전형적으로, 임의의 2개의 분자가 동일한 내인성 서열 정보 (예를 들어, 시작 및/또는 정지 위치, 서열의 한쪽 또는 양쪽 말단의 하위서열, 및/또는 길이)를 가질 수 있고, 또한 동일한 분자 바코드를 가질 수 있는 낮은 확률 (예를 들어, 약 10% 미만, 약 5% 미만, 약 1% 미만, 또는 약 0.1% 미만의 우연)이 존재하도록 충분한 수의 상이한 분자 바코드가 사용된다.
어댑터는 일반적으로 샘플 핵산 분자의 한쪽 또는 양쪽 말단 (각 말단에 하나의 어댑터)에 연결하기 위해 적어도 부분적으로 이중-가닥인 짧은 핵산 (예를 들어, 500, 100 또는 50개 미만의 뉴클레오티드 길이)이다. 어댑터는 양쪽 말단에서 어댑터에 의해 플랭킹된 핵산 분자의 증폭을 허용하는 프라이머 결합 부위, 및/또는 차세대 서열분석 (NGS)을 위한 프라이머 결합 부위를 포함하는 서열분석 프라이머 결합 부위를 포함할 수 있다. 어댑터는 또한 유동 세포 지지체에 부착된 올리고뉴클레오티드와 같은 포획 프로브에 대한 결합 부위를 포함할 수 있다. 어댑터는 또한 상기 기재된 바와 같은 바코드를 포함할 수 있다. 바코드는 바람직하게는 프라이머 및 서열분석 프라이머 결합 부위에 상대적인 위치에 있어, 바코드가 핵산 분자의 앰플리콘 및 서열분석 리드에 포함되도록 한다. 동일하거나 상이한 서열의 어댑터는 핵산 분자의 각 말단에 연결될 수 있다. 때로는 바코드가 상이한 것을 제외하고 동일한 어댑터가 각 말단에 연결된다. 바람직한 어댑터는 핵산 분자에 연결하기 위해 한쪽 말단이 본원에 기재된 바와 같이 평활 말단 또는 꼬리가 있는 Y-형상 어댑터이며, 이는 또한 하나 이상의 상보적 뉴클레오티드로 평활 말단 또는 꼬리가 있고, Y-형상 어댑터의 다른 하나의 말단은 이중-가닥을 형성하기 위해 혼성화하지 않는 비-상보적 서열을 포함한다. 또 다른 바람직한 어댑터는 마찬가지로 분석될 핵산에 결합하기 위한 평활 또는 꼬리가 있는 말단이 있는 종-형상 어댑터이다.
본원에 사용된 바와 같은 용어 "서열분석"은 생체분자, 예를 들어 핵산, 예컨대 DNA 또는 RNA의 서열을 결정하는데 사용되는 수많은 기술 중 임의의 것을 지칭한다. 예시적인 서열분석 방법은 표적화 서열분석, 단일 분자 실시간 서열분석, 엑손 서열분석, 전자 현미경검사법-기반 서열분석, 패널 서열분석, 트랜지스터-매개 서열분석, 직접 서열분석, 무작위 샷건 서열분석, 생어(Sanger) 디데옥시 종결 서열분석, 전체-게놈 서열분석, 혼성화에 의한 서열분석, 피로서열분석, 모세관 전기영동, 이중 서열분석, 사이클 서열분석, 단일-염기 연장 서열분석, 고체상 서열분석, 고처리량 서열분석, 대규모 병렬 서명 서열분석, 에멀젼 PCR, 더 낮은 변성 온도에서의 공동-증폭-PCR (COLD-PCR), 멀티플렉스 PCR, 가역적 염료 종결자에 의한 서열분석, 쌍형성-말단 서열분석, 단기 서열분석, 엑소뉴클레아제 서열분석, 라이게이션에 의한 서열분석, 짧은-리드 서열분석, 단일-분자 서열분석, 합성에 의한 서열분석, 실시간 서열분석, 역종결자 서열분석, 나노포어 서열분석, 454 서열분석, 솔렉사(Solexa) 게놈 분석기 서열분석, SOLiD™ 서열분석, MS-PET 서열분석, 및 이들의 조합을 포함하나 이에 제한되지는 않는다. 일부 실시양태에서, 서열분석은 예를 들어, 일루미나(Illumina) 또는 어플라이드 바이오시스템스(Applied Biosystems)로부터 상업적으로 입수가능한 유전자 분석기와 같은 유전자 분석기에 의해 수행될 수 있다.
문구 "차세대 서열분석" 또는 NGS는 예를 들어, 한 번에 수십만 개의 상대적으로 작은 서열 리드를 생성할 수 있는 능력와 함께 전통적인 생어- 및 모세관 전기영동-기반 접근법과 비교하여 증가된 처리량을 갖는 서열분석 기술을 지칭한다. 차세대 서열분석 기술의 일부 예는 합성에 의한 서열분석, 라이게이션에 의한 서열분석, 및 혼성화에 의한 서열분석을 포함하나 이에 제한되지는 않는다.
DNA (데옥시리보핵산)는 아데닌 (A), 티민 (T), 시토신 (C) 및 구아닌 (G)에 기초한 4개 유형의 뉴클레오티드를 포함하는 뉴클레오티드 쇄이다. RNA (리보핵산)는 A, 우라실 (U), G 및 C에 기초한 4개 유형의 뉴클레오티드를 포함하는 뉴클레오티드의 쇄이다. 특정 뉴클레오티드 쌍은 상보적 방식으로 서로 특이적으로 결합한다 (상보적 염기 쌍형성이라고 함). DNA에서, 아데닌 (A)은 티민 (T)과 쌍형성하고, 시토신 (C)은 구아닌 (G)과 쌍형성한다. RNA에서, 아데닌 (A)은 우라실 (U)과 쌍형성하고, 시토신 (C)은 구아닌 (G)과 쌍형성한다. 제1 핵산 가닥이 제1 가닥에 있는 것과 상보적인 뉴클레오티드로 구성된 제2 핵산 가닥에 결합하는 경우, 두 가닥이 결합하여 이중 가닥을 형성한다. 본원에 사용된 바와 같은 "핵산 서열분석 데이터", "핵산 서열분석 정보", "핵산 서열", "뉴클레오티드 서열", "게놈 서열", "유전자 서열", 또는 "단편 서열", 또는 "핵산 서열분석 리드"는 핵산, 예컨대 DNA 또는 RNA의 분자 (예를 들어, 전체 게놈, 전체 트랜스크립톰, 엑솜, 올리고뉴클레오티드, 폴리뉴클레오티드, 또는 단편)에서 뉴클레오티드 염기 (예를 들어, 아데닌, 구아닌, 시토신, 및 티민 또는 우라실)의 순서를 나타내는 임의의 정보 또는 데이터를 나타낸다. 본 교시내용은 모세관 전기영동, 마이크로어레이, 라이게이션-기반 시스템, 중합효소-기반 시스템, 혼성화-기반 시스템, 직접 또는 간접 뉴클레오티드 식별 시스템, 피로서열분석, 이온- 또는 pH-기반 검출 시스템, 및 전자 서명-기반 시스템을 포함하나 이에 제한되지는 않는 모든 이용가능한 각종 기술, 플랫폼 또는 기술을 사용하여 수득되는 서열 정보를 고려한다는 것을 이해해야 한다.
"폴리뉴클레오티드", "핵산", "핵산 분자", 또는 "올리고뉴클레오티드"는 뉴클레오시드간 연결에 의해 연결된 뉴클레오시드 (데옥시리보뉴클레오시드, 리보뉴클레오시드, 또는 이의 유사체 포함)의 선형 중합체를 지칭한다. 전형적으로, 폴리뉴클레오티드는 적어도 3개의 뉴클레오시드를 포함한다. 올리고뉴클레오티드는 종종 몇 개의 단위체 단위, 예를 들어 3-4개 내지 수백개의 단위체 단위의 크기의 범위이다. 폴리뉴클레오티드가 "ATGCCTG"와 같은 문자 서열로 표시될 때마다, 달리 명시되지 않는 한, 뉴클레오티드는 왼쪽에서 오른쪽으로 5' → 3' 순서이고, "A"는 데옥시아데노신을 나타내고, "C"는 데옥시시티딘을 나타내고, "G"는 데옥시구아노신을 나타내고, "T"는 티미딘을 나타낸다는 것이 이해될 것이다. 문자 A, C, G 및 T는 관련 기술분야의 표준으로 염기 자체, 염기를 포함하는 뉴클레오시드 또는 뉴클레오티드를 지칭하는데 사용될 수 있다.
문구 "서열 리드 커버리지"는 참조 서열의 유전자좌에 정렬되는 서열 리드의 수를 지칭한다. "서열 커버리지 정보"는 참조 서열의 주어진 유전자좌의 서열 리드 커버리지를 전달하는 정보를 지칭한다. 서열 커버리지 정보는 유전자좌에 정렬되는 서열 리드의 수 또는 동일성 및/또는 유전자좌에서 서열 리드 커버리지를 나타내는 다른 정보를 포함할 수 있다.
문구 "분자 커버리지"는 참조 서열의 유전자좌를 커버하는 다수의 분자를 지칭한다. 분자는 본원에 기재된 서열 리드 및 분자 바코드에 기초하여 식별될 수 있다. 이와 같이, 분자는 유전자좌에 정렬되는 분자로부터 생성된 서열 리드에 기초하여 참조 서열의 유전자좌를 커버하도록 결정될 수 있다.
참조 서열은 실험적으로 결정된 서열과 비교하기 위해 사용되는 공지된 서열이다. 예를 들어, 공지된 서열은 전체 게놈, 염색체 또는 이의 임의의 세그먼트일 수 있다. 참조는 전형적으로 적어도 20; 50; 100; 200; 250; 300; 350; 400; 450; 500; 1,000; 10,000; 100,000; 1,000,000; 10,000,000; 100,000,000; 1,000,000,000개 또는 그 이상의 뉴클레오티드를 포함한다. 참조 서열은 게놈 또는 염색체의 단일 인접 서열과 정렬될 수 있거나, 게놈 또는 염색체의 상이한 영역과 정렬되는 비-인접 세그먼트를 포함할 수 있다. 참조 인간 게놈은 예를 들어, hG19 및 hG38을 포함한다.
참조 서열에서 용어 "지정된 위치"는 참조 서열에서 게놈 좌표를 지칭한다.
제1 핵산 서열 또는 그의 상보체 및 제2 핵산 서열 또는 그의 상보체가 인접 참조 서열의 중첩되지만 동일하지 않은 세그먼트, 예컨대 인간 염색체의 서열과 정렬되는 경우, 제1 단일 가닥 핵산 서열은 제2 단일 가닥 서열과 중첩된다. 전체적으로 또는 부분적으로 이중-가닥인 핵산은 그의 가닥 중 하나가 다른 핵산의 가닥과 중첩되는 경우 또 다른 전체적으로 또는 부분적으로 이중-가닥인 핵산과 중첩된다.
"C"에서 "T"로의 변이체 또는 전환은 염기 "C"에 의해 참조 서열에서 점유되는 좌표 위치에서 서열분석된 폴리뉴클레오티드의 염기 "T"의 존재를 지칭한다. "G"에서 "A"로의 변이체 또는 전환은 염기 "G"에 의해 참조 서열에서 점유되는 좌표 위치에서 서열분석된 폴리뉴클레오티드의 염기 "A"의 존재를 지칭한다.
핵산 분자는 개념적으로 5' 말단 종결부, 내부 부분 및 3' 말단 종결부로 나눌 수 있다. 말단 종결부는 말단으로부터 미리 결정된 수의 뉴클레오티드에 기초하여 지정될 수 있다. 예를 들어, 5' 말단 종결부는 예를 들어, 5' 말단에 대한 20개 말단 뉴클레오티드로 표시될 수 있다. 3' 말단 종결부는 예를 들어, 3' 말단에 대한 20개 말단 뉴클레오티드로 표시될 수 있다. 대안적으로, 핵산 분자는 기재된 바와 같이 말단 부분 및 나머지로 나눌 수 있다.
용어 "소수 대립유전자 빈도" ("MAF")는 샘플과 같은 주어진 핵산 집단에서 소수 대립유전자 (예를 들어, 가장 흔한 대립유전자가 아님)가 발생하는 빈도를 지칭한다.
"종양 분획" (TF)은 주어진 샘플에서 종양과 연관된 DNA 분자의 분획을 지칭한다. TF는 종양 세포에서 변이체 대립유전자의 커버리지의 감소를 검출하는 것에 기초하여 파생될 수 있다. 주어진 샘플에서 더 낮은 TF는 주어진 샘플에서 주어진 변이체 대립유전자의 MAF에 영향을 미칠 수 있으며, 따라서 주어진 변이체 대립유전자의 검출가능성에 영향을 미칠 수 있다.
용어 "종양 미검출" 또는 "TND"는 체세포 단일 뉴클레오티드 변이체, 삽입-결실, 카피 수 변이체, 또는 융합체가 검출되지 않은 샘플을 지칭한다.
용어 "프로세싱", "계산" 및 "비교"는 상호교환적으로 사용될 수 있다. 상기 용어는 차이, 예를 들어 수 또는 서열의 차이를 결정하는 것을 지칭할 수 있다. 예를 들어, 유전자 발현, 카피 수 변이 (CNV), indel, 및/또는 단일 뉴클레오티드 변이체 (SNV) 값 또는 서열이 프로세싱될 수 있다.
어댑터는 라이게이션, 혼성화 및/또는 증폭을 포함하는 임의의 접근법에 의해 핵산 분자 또는 폴리뉴클레오티드 서열에 커플링될 수 있는 인공적으로 합성된 서열이다. 어댑터는 일반적으로 샘플 핵산 분자의 한쪽 또는 양쪽 말단에 연결하기 위해 적어도 부분적으로 이중-가닥인 짧은 핵산 (예를 들어, 500, 100 또는 50개 미만의 뉴클레오티드 길이)이다. 어댑터는 양쪽 말단에서 어댑터에 의해 플랭킹된 핵산 분자의 증폭을 허용하는 프라이머 결합 부위, 및/또는 차세대 서열분석 (NGS)을 위한 프라이머 결합 부위를 포함하는 서열분석 프라이머 결합 부위를 포함할 수 있다. 어댑터는 또한 유동 세포 지지체에 부착된 올리고뉴클레오티드와 같은 포획 프로브에 대한 결합 부위를 포함할 수 있다. 어댑터는 또한 상기 기재된 바와 같은 바코드를 포함할 수 있다. 태그는 바람직하게는 프라이머 및 서열분석 프라이머 결합 부위에 상대적인 위치에 있어, 태그가 핵산 분자의 앰플리콘 및 서열분석 리드에 포함되도록 한다. 동일하거나 상이한 어댑터는 핵산 분자의 각 말단에 연결될 수 있다. 때로는 태그가 상이한 것을 제외하고 동일한 어댑터가 각 말단에 연결된다. 바람직한 어댑터는 핵산 분자에 연결하기 위해 한쪽 말단이 본원에 기재된 바와 같이 평활 말단 또는 꼬리가 있는 Y-형상 어댑터이며, 이는 또한 하나 이상의 상보적 뉴클레오티드로 평활 말단 또는 꼬리가 있다. 또 다른 바람직한 어댑터는 마찬가지로 분석될 핵산에 결합하기 위한 평활 또는 꼬리가 있는 말단이 있는 종-형상 어댑터이다.
상세한 설명
도 1은 본 개시내용의 한 실시양태에 따른, 각 상태의 확률에 기초하여 유전 물질의 상태를 예측하기 위해 컴퓨터 모델을 트레이닝하고 사용하기 위한 시스템 (100)의 예를 도시한다. 시스템은 하나 이상의 모델 (140) (모델 (140a…n)로 예시됨)을 트레이닝하기 위해 샘플 (101)을 프로세싱할 수 있으며, 각각은 시험 중인 개체 (IUT) (111)로부터의 샘플과 같은 유전 물질이 특정 상태에 있을 확률을 출력한다. 일부 예에서, 샘플 (101)은 연구되고 있는 다양한 관심 유전자의 패널을 포함할 수 있다.
예를 들어, 시스템은 IUT (111)로부터의 샘플이 유전자와 연관된 체세포 동형접합 결실을 포함할 확률을 결정하기 위해 모델 (140a)을 사용할 수 있다. 시스템은 IUT (111)로부터의 샘플이 유전자와 연관된 체세포 이형접합 결실을 포함할 확률을 결정하기 위해 또 다른 모델 (140b)을 사용할 수 있다. 그 후, 시스템은 체세포 동형접합 결실 또는 체세포 이형접합 결실 중 어느 하나가 더 가능성이 높은지를 결정하기 위해 확률을 서로 비교할 수 있다. 시스템은 또한 경쟁 확률에 기초하여 다른 유형의 정밀 진단을 제공할 수 있다. 예를 들어, 시스템은 상이한 카피 수의 확률을 모델링함으로써 CNV를 모델링할 수 있다. 각 모델의 출력 확률의 비교 (각각 상이한 카피 수 예측에 상응할 수 있음)에 기초하여, 시스템은 IUT (111)의 샘플에서 CNV를 결정할 수 있다.
시스템 (100)은 서열분석 시스템 (102), 컴퓨터 시스템 (110), 및/또는 다른 구성성분을 포함할 수 있다. 서열분석 시스템 (102) 및 컴퓨터 시스템 (110)은 서로 원격일 수 있고, 컴퓨터 네트워크 (도시되지 않음)를 통해 서로 연결될 수 있음을 주목해야 한다. 서열분석 시스템 (102)은 샘플 수집 및 제조 파이프라인 (103), 서열분석 파이프라인 (105), 및 서열 리드 데이터스토어 (109), 및/또는 다른 구성성분을 포함할 수 있다. 서열분석 파이프라인 (105)은 하나 이상의 서열분석 장치 (107) (도 1에서 서열분석 장치 (107a…n)로서 도시됨)를 포함할 수 있다.
컴퓨터 시스템 (110)은 서열 분석 파이프라인 (112), 프로세서 (120), 저장 장치 (122), 데이터 사전-프로세싱 서브시스템 (124), 분류기 (130), 모델 검증기 (132), 및/또는 다른 구성성분을 포함할 수 있다.
서열 분석 파이프라인 (112)은 서열 품질 컨트롤 (QC) 구성성분 (113), 정렬 구성성분 (114), 다른 분석 구성성분 (115), 및 분석 QC 구성성분 (116)을 포함할 수 있다. 서열 분석 파이프라인 (112)으로부터의 출력은 분석 데이터스토어 (117)에 저장될 수 있다. 데이터 사전-프로세싱 서브시스템 (124)은 서열 분석 파이프라인 (112)으로부터의 데이터를 사전-프로세싱하여 트레이닝 데이터세트 (125)를 생성할 수 있다. 예를 들어, 트레이닝 데이터세트 (125)는 샘플 (101) 중에서 종양이 검출되지 않은 데이터 ("TND") (암이 진단되는 경우) 또는 달리 정상 샘플 (다른 유형의 질환 또는 상태가 진단되는 경우)을 포함할 수 있다. 전체에 걸쳐 개시된 예는 도시를 위해 TND 샘플을 나타낼 수 있다.
일부 실시양태에서, 트레이닝 데이터세트 (125)는 트레이닝 데이터스토어 (126)에 저장될 수 있다. 프로세서 (120)의 예시적인 작동을 도시하기 위한 도 2를 참조할 것이다. 도 2는 본 개시내용의 한 실시양태에 따른, 유전자 (201)의 상태를 예측하기 위해 생식계열 SNP에 대한 대립유전자 계수를 결정하는 개략도 (200)를 도시한다. 일부 예에서, 프로세서 (120)는 유전자 (201) 주변의 관심 영역 (201)에 대한 TND 샘플의 생식계열 SNP를 식별할 수 있다. 한 트레이닝 예에서, 생식계열 SNP는 28,199개 샘플로부터 선택되었다. 이들 샘플 중에서, 5105개 샘플 (18%)이 TND를 갖는 것으로 식별되었고, 집단 대립유전자/유전자형 빈도에 사용되었다. 생식계열 SNP는 하기 조건을 충족시키도록 선택되었다: (1) 선택된 유전자 (예컨대 BRCA1, BRCA2, ATM)로부터의 3Mb 이내에 있고, (2) 5105개 TND 샘플에 걸쳐 이형접합 호출의 빈도 (MAF > 25% 및 MAF < 75%)는 5% 내지 95%이고, (3) 변이체는 모든 28,199개 샘플에서 체세포라고 하지 않는다. 관심 영역 (203)은 유전자 (201)의 시작으로부터 상류의 N개 염기 및 유전자 (201)의 말단으로부터 하류의 M개 염기를 포함할 수 있다. N 및 M 값은 동일하거나 상이할 수 있다. 일부 예에서, N 및 M은 각각 3,000,000개 뉴클레오티드 (3Mb)일 수 있다.
도 2의 도시된 예에서, SNP 부위 (i)의 참조 야생형 뉴클레오티드 (SNP(i)로서 도시됨)는 "G"일 수 있다. TND 샘플에 걸쳐, 해당 위치의 호출된 뉴클레오티드는 서로 상이할 수 있다. TND 샘플이 정상이기 때문에, 프로세서 (120)는 SNP(i) 및 TND 샘플의 다른 SNP 부위가 종양 또는 비정상 상태에 기여하지 않는다고 가정할 수 있다. 이와 같이, 이들 SNP 부위는 각각 유전자의 상태의 확률론적 결정을 위한 대립유전자 계수를 모델링하기 위한 참조 기대치로서 작용할 수 있다. 예를 들어, 각 SNP 위치에서 관찰된 뉴클레오티드 호출로부터의 편차는 이러한 편차가 특정 상태, 예컨대 종양 또는 유전자 (201)의 다른 비정상 상태에 기여할 확률을 나타낼 수 있다. 따라서, 프로세서 (120)는 TND 샘플의 생식계열 SNP로부터의 데이터에 대한 산출로부터 파생된 기대치에 기초하여 모델 (140)을 트레이닝할 수 있다. 이러한 산출된 데이터는 각 SNP 부위에 대해: 이형접합성의 유병률, 소수 대립유전자 빈도 (MAF)의 표준 편차, 유전자형, 생식계열 유병률 (사전), 및/또는 다른 데이터를 포함할 수 있다.
산출된 기대치와 함께, 프로세서 (120)는 관심 영역 (203)에 정렬되는 IUT (111)의 샘플의 서열 리드에 기초하여 유전자 (201)의 상태를 모델링할 수 있다. 예를 들어, 프로세서 (120)는 각각 유전자 (201)가 특정 상태에 있을 확률을 나타내는 각각의 스코어를 출력하는 경쟁 모델 (140)을 생성할 수 있다. 프로세서 (120)는 예측 스코어를 산출하기 위해 각각의 스코어를 비교할 수 있으며, 이는 유전자 (201)의 상태를 결정하기 위해 역치 스코어와 비교될 수 있다. 프로세서 (120)는 아래 추가로 기재된 바와 같이 트레이닝 샘플로부터 관찰된 데이터에 기초하여 역치 스코어를 산출할 수 있다.
일부 실시양태에서, IUT (111)의 샘플로부터 생성된 분자의 서열 리드는 기본 분자가 지지하는 대립유전자 (돌연변이체 또는 야생형)를 식별하기 위해 참조 게놈에 대해 정렬될 수 있다. IUT (111)의 샘플은 샘플 수집 및 제조 파이프라인 (103)에서 제조되고, 서열분석 파이프라인 (105)에서 서열분석될 수 있다. 각각의 분자는 서열 리드와 연관될 수 있다. IUT (111)로부터의 샘플의 다수의 분자로부터의 다수의 서열분석 리드는 주어진 생식계열 SNP 부위를 커버할 수 있다.
IUT (111)의 샘플로부터 생성된 서열 리드의 정렬에 기초하여, 프로세서 (120)는 SNP 대립유전자를 지지하는 분자의 수를 식별하고 총 분자 수를 계산할 수 있다. 프로세서 (120)는 관심 영역 (203)의 생식계열 SNP 각각으로부터 산출된 기대치 데이터로 IUT (111)의 샘플로부터 이들 및/또는 다른 데이터를 모델링할 수 있다. 예를 들어, 프로세서 (120)는 유전자 (201)의 제1 상태의 확률을 나타내는 대립유전자 계수의 모델 (140a)의 제1 출력 및 유전자 (201)의 제2 상태의 확률을 나타내는 대립유전자 계수의 모델 (140b)의 제2 출력을 생성할 수 있다.
프로세서 (120)는 모델 (140)을 생성하기 위해 상이한 유형 확률 분포를 구현할 수 있다. 또한, 모델 (140)은 유전자 (201)의 다양한 유형의 상태, 또는 더 일반적으로 유전 물질의 다양한 유형의 상태를 모델링할 수 있다. 이제 모델링 및 프로세서 (120)에 의해 모델링되는 상태의 유형의 예에 주의를 기울일 것이다.
일반적으로 말해서, 프로세서 (120)는 분류기 (130)를 구현 (이에 의해 프로그래밍)할 수 있다. 대안적으로, 분류기 (130)는 하드웨어 모듈을 포함할 수 있음에 주목해야 한다. 여하튼, 분류기 (130) (프로세서 (120)를 프로그램할 수 있음)는 유전자와 연관된 관심 영역에서 검출된 대립유전자에 기초하여 유전자 (예컨대 도 2에 도시된 유전자 (201))의 상태를 모델링할 수 있다. 보다 구체적으로, 트레이닝 데이터세트 (125)에 기초하여, 분류기 (130)는 관심 영역 (예컨대 도 2에 도시된 관심 영역 (203))의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 기초하여 유전자의 특정 상태의 하나 이상의 확률론적 모델 (140) (모델 (140a, 140b, …, 140n)로서 도시됨)을 결정할 수 있다. 각 모델 (140)은 유전자의 상태의 각각의 확률에 상응할 수 있다. SNP 위치는 다양한 샘플 (101)로부터 서열분석 시스템 (102)에 의해 생성된 서열분석 리드에 기초할 수 있다. 상태는 유전자의 돌연변이 상태, 예컨대, 제한 없이, 체세포 동형접합 결실, 체세포 이형접합 결실, 카피 수 변이 ("CNV") (특정 카피 수 야생형, 획득, 또는 손실 포함), 및/또는 유전자의 다른 상태를 포함할 수 있다.
다양한 실시양태에서, 분류기 (130)는 트레이닝 데이터세트 (125)에 기초하여 생성될 수 있는 모델을 적용하여 개체의 샘플 내 유전자의 상태를 결정할 수 있다. 예를 들어, 분류기 (130)는 개체로부터의 cfDNA 분자의 샘플 내 유전자가 체세포 동형접합 결실, 체세포 이형접합 결실, 및/또는 질환, 예컨대 암 또는 다른 건강 상태와 상관관계가 있을 수 있는 다른 상태를 포함할 확률을 결정할 수 있다. 예측에 기초하여, 정밀 치료를 개체에 맞출 수 있다. 이와 같이, 컴퓨터 시스템 (110)은 유전 물질, 예컨대 cfDNA의 비침습적 분석에 기초한 고급 진단 능력을 제공하도록 개선될 수 있다.
본원에 기재된 예가 유전자 상태를 결정하는 것과 관련될 수 있지만, 다른 유전 물질, 예컨대 염색체, 엑솜, 및/또는 다른 유전 물질의 상태가 또한 결정될 수 있음에 주목한다. 예를 들어, CNV는 염색체, 엑솜, 및/또는 다른 유전 물질에 대해 결정될 수 있다. 분류기 (130)의 기능성의 기재를 제공하였으므로, 이제 다양한 모델 (140)을 트레이닝하고 모델 (140)을 사용하여 시험 중인 특정 샘플이 특정 유전자 상태를 나타낼 확률을 예측함으로써 유전자 상태를 결정하는 더 상세한 예에 주의를 기울일 것이다.
TND 샘플에 기초한 모델 트레이닝
일부 실시양태에서, 분류기 (130)는 샘플 (101)로부터의 데이터를 사용한다. 데이터는 종양이 검출되지 않은 샘플 세트 ("TND" 샘플)를 포함할 수 있다. 분류기 (130)는 TND 샘플에서 각 생식계열 SNP의 이형접합성의 유병률 및 TND 샘플에서 각 생식계열 SNP의 소수 대립유전자 빈도 (MAF)의 표준 편차를 결정하기 위해 TND 샘플을 사용할 수 있다. 표준 편차 대신 분산을 사용하도록 이러한 계산에 대해 적절한 조정이 이루어지는 한, 본 개시내용 전체에 걸쳐 기재된 공식 및 계산에서 표준 편차 대신 분산이 사용될 수 있다는 점에 주목해야 한다. 이형접합성의 유병률 및 표준 편차는 "정상" 샘플, 즉, 질환 상태를 나타내지 않는 샘플의 기준선 기대치를 제공할 수 있다. 분류기 (130)는 또한 각 부위 i에 대한 생식계열 유병률 (사전) gi를 추정할 수 있다. 각 생식계열 SNP의 이형접합성의 유병률의 계산의 예는 방정식 (1)에 의해 제공될 수 있다:
Figure pct00001
,
여기서:
pa(gi)는 각 생식계열 SNP의 이형접합성의 유병률을 나타내고,
bij는 SNP 부위 i에서 관찰된 염기 세트를 나타내고,
gi는 SNP 부위 i에서의 유전자형 (AA/Aa/aa)을 나타낸다.
체세포 동형접합 결실의 모델링
분류기 (130)는 확률 분포를 통해 유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 기초하여 대립유전자 계수의 제1 모델 (140a)을 생성할 수 있다. 제1 모델은 (예컨대 모델) 유전자의 체세포 동형접합 결실을 나타낼 수 있다. 예를 들어, TND 샘플에서 각 생식계열 SNP의 이형접합성의 유병률 (방정식 (1)) 및 TND 샘플에서 각 생식계열 SNP의 MAF의 표준 편차가 주어지면, 분류기 (130)는 개체로부터의 특정 샘플의 유전자가 체세포 동형접합 결실과 연관될 확률을 모델링할 수 있다. 이를 위해, 분류기 (130)는 IUT (111)의 샘플의 유전자에 체세포 동형접합 결실의 존재를 지지하는 분자의 수 및 IUT (111)의 샘플 내 총 분자 수에 액세스할 수 있다. 예를 들어, 분류기 (130)는 샘플 내 유전자가 체세포 동형접합 결실을 가질 확률을 나타내는 모델 (140a)과 같은 모델을 생성할 수 있다. 일부 실시양태에서, 분류기 (130)는 모델 (140a)을 생성하기 위해 베타-이항 확률 분포를 사용할 수 있지만, 다른 확률 분포, 예컨대 이항 확률 분포, 정규 (가우시안) 분포, 및/또는 다른 확률론적 모델링이 사용될 수 있다.
베타-이항 분포는 각 시행의 성공 확률이 고정되어 있지만 베타 분포로부터 무작위로 추출되는 n개의 베르누이 시행의 이항 분포이다. 베타-이항 분포는 2개의 파라미터: α 및 β (분포의 평균/표준 편차에 의해 고유하게 결정됨)를 사용할 수 있다. n = 1일 때, 분포는 베르누이 분포로 감소된다. α = β = 1의 경우, 이는 0에서 n까지의 이산 균일 분포이다.
이항 분포는 이항 확률 변수의 확률 분포이다. 이항 확률 변수는 이항 실험의 N번 반복된 시행에서의 성공 횟수이다. 이항 분포는 하기 특성을 갖는다: 분포의 평균 (μx)은 n * P와 동일하고; 분산은 n*P*(1 - P)에 의해 제공되고; 표준 편차 (σx)는 방정식 (2)에 의해 제공된다:
Figure pct00002
.
정규 분포는 정규 방정식에 의해 정의될 수 있다:
Figure pct00003
,
여기서:
X는 정규 확률 변수이고,
μ는 평균이고,
σ는 표준 편차이고,
π는 대략 3.14159이고,
e는 대략 2.71828이다.
베타-이항 확률 분포를 적용하는 예는 이제 예시를 위해 설명될 것이다. 관련 기술분야의 통상의 기술자는 이항, 정규 및/또는 다른 확률 분포가 또한 본원의 개시내용에 기초하여 사용될 수 있음을 이해할 것이다. 베타-이항 확률 분포의 경우, 분류기 (130)는 방정식 (4)에 따라 R 프로젝트의 VGAM 패키지에서 dbetabinom 함수를 사용할 수 있다:
Figure pct00004
,
여기서:
mi는 SNP 부위 i에서 SNP 대립유전자를 지지하는 분자의 수를 나타내고,
Ri는 총 분자 수를 나타내고,
Pa(gi)는 SNP 부위 i에서의 이형접합성의 유병률을 나타내고,
sd(gi)는 MAF의 표준 편차를 나타낸다.
분류기 (130)는 방정식 (5)에 따라 제1 모델 (140a)의 제1 확률론적 출력 (Li)을 생성할 수 있다:
Figure pct00005
.
체세포 이형접합 결실의 모델링
분류기 (130)는 확률 분포를 통해, 하나 이상의 생식계열 SNP 위치에 기초하여 샘플에서 대립유전자 계수의 제2 모델 (140b)을 생성할 수 있다. 제2 모델 (140b)은 (예컨대 모델) 유전자의 체세포 이형접합 결실을 나타낼 수 있다. 이형접합 결실의 검출이 TF에 의해 영향을 받을 수 있기 때문에, 분류기 (130)는 IUT (111)의 샘플에서 리드의 커버리지 (서열 리드 커버리지)에 기초하여 TF의 평균, mu.tf (이는 또한 p.tf로 표기될 수 있음), 및 표준 편차, sd.tf (이는 또한 o.tf로 표기될 수 있음)를 결정할 수 있다.
일부 실시양태에서, 분류기 (130)는 모델 (140b)을 생성하기 위해 베타-이항 확률 분포를 사용할 수 있지만, 다른 확률 분포, 예컨대 이항 확률 분포, 가우시안 분포, 및/또는 다른 확률론적 모델링이 사용될 수 있다.
베타-이항 확률 분포의 경우, 분류기 (130)는 방정식 (6)에 따라 R 프로젝트의 VGAM 패키지에서 dbetabinom 함수를 사용할 수 있다:
Figure pct00006
,
여기서:
mi는 SNP 부위 i에서 SNP 대립유전자를 지지하는 분자의 수를 나타내고,
Ri는 총 분자 수를 나타내고,
mui는 IUT (111)의 샘플에 대해 계산된 TF의 평균을 나타내고,
sdi는 IUT (111)의 샘플에 대해 계산된 TF의 표준 편차를 나타낸다.
분류기 (130)는 방정식 (5)에 따라 제2 모델 (140b)의 제2 확률론적 출력 L0을 생성할 수 있다:
Figure pct00007
,
여기서:
rrii(gi) = pa(gi) (gi = AA 또는 aa인 경우);
1-m.tf * pa(gi - Aa) + m.tf* max(pa(gi = aa), pa(gi = AA)),
sdi(gi) = sd(gi) (gi = AA 또는 aa인 경우)
var_prod(sd.tf, 1-mf.tf, sd (gi = Aa), pa(gi = Aa)) +
var_prof(sd.tf, m.tf, sd (gi = aa), pa(gi = aa))
여기서, var_prod(va, ma, vb, mb) = va * vb + va * mb2 + vb * ma2
제1 모델 (140a) 및 제2 모델 (140b)이 각각 확률을 출력하는 한, 제1 모델 (140a) 및 제2 모델 (140b)이 동일한 확률 분포를 사용할 필요는 없다는 점에 주목해야 한다.
분류기 (130)는 확률론적 출력이 더 가능성이 높은지를 결정하기 위해 제1 모델 (140a)의 제1 확률론적 출력 및 제2 모델 (140b)의 제2 확률론적 출력을 비교할 수 있다. 예를 들어, 분류기 (130)는 체세포 동형접합 결실 또는 체세포 이형접합 결실이 가능성이 더 높은지를 결정할 수 있다. 특정 예에서, 분류기 (130)는 제1 확률론적 출력 (체세포 동형접합 결실의 확률) 및 제2 확률론적 출력 (체세포 이형접합 결실의 확률)에 기초하여 LLR 스코어를 생성하기 위해 로그 가능도 비 ("LLR")를 사용할 수 있다. 일부 실시양태에서, 제1 또는 제2 확률 출력 중 하나는 LLR 스코어가 역치 컷오프 스코어를 초과하지 않는 경우, 무효 확률이 기각되도록 무효 확률로서 사용될 수 있다. 예를 들어, 분류기 (130)는 제2 확률 출력이 기각되어야 하는지를 결정하기 위해 LLR 스코어를 역치 컷오프 스코어와 비교할 수 있다. 즉, LLR 스코어가 역치 컷오프 스코어를 초과하면, 분류기 (130)는 제1 확률 출력이 선택되어야 한다고 결정할 수 있다. 이 예에서, 분류기 (130)는 비교에 기초하여 IUT (111)의 샘플에 유전자에 대한 체세포 동형접합 결실이 존재한다는 예측을 생성할 수 있다.
일부 예에서, 오류를 경감하기 위해, 모델 (140A 또는 140B)은 주어진 유전자와 중첩하는 각 SNP에 대한 샘플 유전자형을 결정하기 위해 사용될 수 있다. 생식계열 SNP 중 어느 것도 이형접합으로 결정되지 않는 경우, 주어진 유전자는 '호출 없음'으로 표지될 수 있고, 체세포 동형접합 또는 이형접합 결실은 주어진 유전자와 연관되지 않는다.
역치 스코어 컷오프의 학습
일부 실시양태에서, 역치 컷오프 스코어는 검정되는 상이한 유전자 또는 다른 유전 물질에 대해 맞춤화될 수 있다. 예를 들어, BRCA1 유전자는 BRCA2 유전자와 상이한 역치 컷오프 스코어와 연관될 수 있다. 다른 유전자는 맞춤 역치 컷오프 스코어와 유사하게 연관될 수 있다. 이들 실시양태에서, 분류기 (130)는 역치 컷오프 스코어를 결정하도록 트레이닝될 수 있다. 이들 실시양태 중 일부에서, 분류기 (130)는 특정 유전자에 대한 역치 컷오프 스코어를 결정하도록 트레이닝될 수 있다. 예를 들어, 분류기 (130)는 TND 샘플로부터 시작하는 체세포 이형접합 결실의 시뮬레이션을 사용하여 트레이닝될 수 있다. 도 10a 및 10b를 참조하면, 예를 들어 공란 한계 (LoB), 또는 최고 LLR 스코어는 BRCA1 및 BRCA2 음성 샘플에 대해 동형접합 결실이 존재하지 않을 때 발견될 것으로 예상된다. 도 10a 및 10b를 참조하면, TND 샘플로부터 시작하는 체세포 이형접합 결실의 100,000개 사례가 시뮬레이션되었다. 28,000개 샘플에서 관찰된 TF 분포는 BRCA1 및 BRCA2에 대한 LoB를 결정하기 위한 TF로서 사용되었다. 도시된 바와 같이, LLR 스코어와 비교하기 위한 역치 컷오프 스코어는 BRCA1 및 BRCA2에 대해 각각 20.1 및 0이다. 그러므로, IUT (111)의 샘플에서 BRCA1의 체세포 결실이 관찰되고, IUT (111)의 샘플에서 BRCA1에 대한 LLR 스코어가 > 20.1이면, 분류기 (130)는 체세포 결실이 체세포 동형접합 결실임을 예측할 수 있다. 유사하게, IUT (111)의 샘플에서 BRCA1의 체세포 결실이 관찰되고, IUT (111)의 샘플에서 BRCA2에 대한 LLR 스코어가 > 0이면, 분류기 (130)는 체세포 결실이 체세포 동형접합 결실임을 예측할 수 있다. 역치 컷오프 스코어를 결정하기 위해 다른 유전자가 유사하게 시뮬레이션될 수 있다는 점에 주목해야 한다.
일부 실시양태에서, 모델 검증기 (132)는 모델 (140)의 결과를 검증하기 위해 시뮬레이션된 및/또는 임상적 데이터를 사용할 수 있다. 예를 들어, 모델 검증기 (132)는 예측을 검증하기 위해 진단적 결과 데이터스토어 (150) 및/또는 임상적 결과 데이터스토어 (160)를 참조할 수 있다. 시뮬레이션된 결과의 경우, 공지된 샘플의 패널은 이들 샘플의 유전 물질의 상태의 예측을 생성하도록 모델링될 수 있다. 이들 결과는 이전 예측 및/또는 미래 예측의 결과를 검증하는데 사용될 수 있다.
도 3은 본 개시내용의 한 실시양태에 따른, 트레이닝된 모델에 기초하여 체세포 동형접합 또는 이형접합 결실을 예측하는 프로세스 (300)를 도시한다. 프로세스 (300)는 본원에 기재된 방법을 수행하는 다양한 방법이 있을 수 있기 때문에 예로서 제공된다. 프로세스 (300)가 도 1에 도시된 컴퓨터 시스템 (110) (프로세서 (120)를 통해)에 의해 수행되는 것으로 주로 설명되어 있지만, 프로세스 (300)는 다른 시스템 또는 시스템의 조합에 의해 실행되거나 달리 수행될 수 있다. 도 3에 표시된 각 블록은 하나 이상의 프로세스, 방법 또는 서브루틴을 추가로 나타낼 수 있고, 하나 이상의 블록은 본원에 기재된 하나 이상의 작동을 수행하기 위해 비일시적인 컴퓨터 판독가능 매체에 저장되고 프로세서 또는 다른 유형의 프로세싱 회로에 의해 실행되는 기계-판독가능한 명령어를 포함할 수 있다. 본원에 개시된 프로세스 (300)의 다양한 작동, 또는 본원에 개시된 시스템에 의해 수행되는 블록은 동일한 시간에 또는 상이한 시간에, 동일한 또는 상이한 지리적 위치, 예를 들어 국가에서, 및/또는 동일한 또는 상이한 사람에 의해 수행될 수 있다.
작동 (302)에서, 프로세서 (120)는 TND 샘플을 포함하는 샘플 세트로부터 생식계열 SNP 데이터에 액세스할 수 있다. 작동 (304)에서, 프로세서 (120)는 생식계열 SNP 데이터에 기초하여 이형접합성의 유병률 및 MAF의 SD를 결정할 수 있다. 작동 (306)에서, 프로세서 (120)는 개체로부터의 샘플이 유전자에 체세포 동형접합 결실을 포함한다는 결정을 지지하는 각 생식계열 SNP 부위에 대한 제1 리드 수를 결정할 수 있다.
작동 (308)에서, 프로세서 (120)는 이형접합성의 유병률, MAF의 표준 편차 (sd), 생식계열 SNP 데이터, 및 리드 수에 기초하여 유전자가 체세포 동형접합 결실과 연관될 확률의 제1 모델의 제1 출력을 생성할 수 있다. 작동 (310)에서, 프로세서 (120)는 개체로부터의 샘플에 기초하여 TF의 평균 및 표준 편차를 결정할 수 있다. 작동 (312)에서, 프로세서 (120)는 개체로부터의 샘플이 유전자에 체세포 이형접합 결실을 포함한다는 결정을 지지하는 각 생식계열 SNP 부위에 대한 제2 리드 수를 결정할 수 있다. 작동 (314)에서, 프로세서 (120)는 TF의 평균 및 SD, 생식계열 SNP 데이터, 및 제2 리드 수에 기초하여 유전자가 체세포 이형접합 결실과 연관될 확률의 제2 모델의 제2 출력을 생성할 수 있다. 작동 (316)에서, 프로세서 (120)는 제1 출력과 제2 출력을 비교할 수 있다. 작동 (318)에서, 프로세서 (120)는 비교에 기초하여 제1 출력이 선택되어야 하는지를 결정할 수 있다. 작동 (320)에서, 프로세서 (120)는 제1 출력이 선택되어야 하는지의 결정에 기초하여 유전자가 체세포 동형접합 결실을 포함한다는 예측을 생성할 수 있다.
분류기 (130)는 유전자의 상태를 예측하기 위해 다양한 모델링 기술을 적용할 수 있다. 분류기 (130)는 또한 다른 모델링 기술을 사용할 수 있다. 예를 들어, 도 9a 및 9b는 상이한 모델링 기술의 결과의 비교를 도시한다. 다른 확률론적 기술이 또한 사용될 수 있다.
유전 물질의 다른 유형의 상태의 모델링
분류기 (130)는 유전 물질의 다른 유형의 상태를 모델링할 수 있다. 예를 들어, 분류기 (130)는 유전 물질의 다양한 유형의 상태, 예컨대 CNV를 예측할 수 있다. 이제, 유전 물질의 상태를 예측하는 프로세스 (400)를 도시하는 도 4를 참조한다. 본원에 기재된 방법을 수행하는 다양한 방법이 있을 수 있기 때문에 프로세스 (400)가 예로서 제공된다. 방법 (400)이 도 1에 도시된 컴퓨터 시스템 (110) (프로세서 (120)를 통해)에 의해 수행되는 것으로 주로 설명되어 있지만, 프로세스 (400)는 다른 시스템 또는 시스템의 조합에 의해 실행되거나 달리 수행될 수 있다. 도 4에 표시된 각 블록은 하나 이상의 프로세스, 방법 또는 서브루틴을 추가로 나타낼 수 있고, 하나 이상의 블록은 본원에 기재된 하나 이상의 작동을 수행하기 위해 비일시적인 컴퓨터 판독가능 매체에 저장되고 프로세서 또는 다른 유형의 프로세싱 회로에 의해 실행되는 기계-판독가능한 명령어를 포함할 수 있다. 본원에 개시된 프로세스 (400)의 다양한 작동, 또는 본원에 개시된 시스템에 의해 수행되는 블록은 동일한 시간에 또는 상이한 시간에, 동일한 또는 상이한 지리적 위치, 예를 들어 국가에서, 및/또는 동일한 또는 상이한 사람에 의해 수행될 수 있다.
도 4와 관련하여 설명된 예는 IUT (111)의 샘플에서 CNV를 결정하는 것을 포함한다. 보다 구체적으로, 예는 IUT (111)의 샘플로부터 유전 물질에서의 카피 수 분산 (예컨대 증폭)을 결정하는데 사용될 수 있다. 그러나, 유전 물질의 다른 유형의 상태는 상이한 상태의 대안 (경쟁) 확률을 사용하고 가능성이 가장 높은 확률을 선택하여 유사한 방식으로 결정될 수 있다.
작동 (402)에서, 프로세서 (120)는 유전 물질의 제1 상태를 모델링하는 제1 모델을 생성할 수 있다. 제1 상태는 제1 CNV 또는 다른 상태를 포함할 수 있다. 작동 (404)에서, 프로세서 (120)는 유전 물질의 제2 상태를 모델링하는 제2 모델을 생성할 수 있다. 제2 상태는 제2 CNV 또는 다른 상태를 포함할 수 있다. 작동 (406)에서, 프로세서 (120)는 제1 모델에 기초하여 제1 스코어를 생성할 수 있다. 제1 스코어는 유전 물질이 제1 상태에 있을 확률을 나타낼 수 있다.
작동 (408)에서, 프로세서 (120)는 제2 모델에 기초하여 제2 스코어를 생성할 수 있다. 제2 스코어는 유전 물질이 제2 상태에 있을 확률을 나타낼 수 있다. 작동 (410)에서, 프로세서 (120)는 제1 스코어와 제2 스코어를 비교할 수 있다. 작동 (412)에서, 프로세서 (120)는 비교에 기초하여 유전 물질이 제1 상태 또는 제2 상태에 있다는 예측을 생성할 수 있다.
생식계열 SNP와 관련된 MAF가 분류기 (130)에 의해 사용되어 체세포 이형접합 및 체세포 동형접합 결실의 확률을 생성하는 방식과 유사하게, MAF는 CNV의 확률을 분해하는데 사용될 수 있다. 예를 들어, CNV가 검출되지 않은 샘플 내 생식계열 SNP의 MAF는 샘플 내 리드가 특이적 증폭을 지지하는지를 결정하는데 사용될 수 있다.
도 5는 본 개시내용의 한 실시양태에 따른 체세포 결실의 유형을 도시한다. 체세포 동형접합 결실은 두 가지 방식으로 생성될 수 있다: (1) 생식계열 세포는 유전자의 단일 카피를 갖고, 체세포는 제2 결실을 획득한다 (단일 카피 증폭 검출과 유사한 LoD). 이들은 커버리지 + 이형접합 SNP가 중첩되지 않음에 기초하여 검출될 수 있다. 일부 경우에, 이들이 관찰되지는 않았지만, 생식계열 세포는 유전자의 카피를 갖지 않을 수 있다. (2) 체세포 동형접합 결실이 생성될 수 있는 제2 방식은 생식계열 세포가 유전자의 2개의 카피를 갖고, 체세포가 두 카피를 손실하는 것이다 (이 시나리오는 더 높은 유병률에서 관찰되었다). 일부 실시양태에서, 이중대립유전자 체세포 카피 수 손실의 경우, 생식계열 및 체세포의 혼합물에서, 생식계열 이형접합 SNP의 참조 대립유전자 빈도는 0.5이다. 체세포 LOH의 경우, 참조 대립유전자 빈도는 참조 대립유전자가 암 세포에서 손실되거나 유지되는지에 따라 0.5-0.5 * TF (종양 분획) 또는 0.5+0.5 * TF이다. 일부 실시양태에서, LOH의 경우, 예상된 대립유전자 빈도는 종양 세포의 분획에 의존할 수 있다. 그러므로, 시스템은 0.5의 예상된 대립유전자 빈도와 비교하여 계산된 대립유전자 빈도에 기초하여 LOH 및 이중대립유전자 카피 수 손실을 구별할 수 있다.
도 6a는 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 예시적인 플롯 600(A)(1) 및 600(A)(2)를 도시한다. 도 6b는 본 개시내용의 한 실시양태에 따른 BRCA2 이형접합 결실의 예시적인 플롯 600(A)(1) 및 600(A)(2)를 도시한다. 플롯 600(A)(1) 및 600(B)(1)를 참조하면, 주어진 cfDNA 샘플에 대해, 정규화된 분자 커버리지 (y-축)는 게놈 위치별로 정렬된 표적화 프로브 (x-축)에 걸쳐 표시된다. 염색체 분리는 수직 라인으로 표시되고, 식별자는 플롯의 하단 라인에 표시된다. 체세포 카피 수 변화가 없는 영역은 2에 가까운 분자 커버리지를 나타내는 반면, 체세포 결실은 2 미만의 분자 커버리지 수준에 의해 식별될 수 있다. 플롯 600(B)(1) 및 600(B)(2)를 참조하면, 동일한 샘플에 대해, 공지된 생식계열 SNP의 MAF (y-축)는 이들의 게놈 위치 (x-축)에 대해 표시된다. 상단 행의 커버리지 플롯에서 관찰된 바와 같이 체세포 결실은 50%에 가까운 생식계열 변이체 MAF에서 나타나는 반면 (도 6a에 도시된 플롯 참조), 이형접합 결실은 불균형 생식계열 변이체 MAF를 생성한다 (도 6b에 도시된 플롯 참조).
도 7a는 본 개시내용의 한 실시양태에 따른, TND 샘플에서 관찰된, ATM, BRCA1 및 BRCA2 유전자와 중첩하는 공지된 생식계열 SNP에 대한 이형접합 유전자형 유병률의 예시적인 플롯을 도시한다. 도 7b는 본 개시내용의 한 실시양태에 따른, TND 샘플에 걸친 MAF의 예시적인 플롯을 도시한다.
도 8a는 본 개시내용의 한 실시양태에 따른 BRCA1에 대한 MAF 값의 예시적인 플롯을 도시한다. 도 8b는 본 개시내용의 한 실시양태에 따른 BRCA2에 대한 MAF 값의 예시적인 플롯을 도시한다. 도 8a 및 8b는 각 SNP의 3개의 가능한 유전자형 (동형접합 대안 대립유전자 / 이형접합 / 동형접합 참조 대립유전자) (x-축)에 대한 9개의 공지된 생식계열 SNV의 MAF (y-축)의 예를 나타낸다. 도 9a는 본 개시내용의 한 실시양태에 따른 BRCA2 패널에 대한 베타-이항 모델 및 이항 모델 간의 스코어 비교의 예시적인 플롯을 도시한다. 도 9b는 본 개시내용의 한 실시양태에 따른 BRCA2 패널에 대한 베타-이항 모델 및 가우시안 모델 간의 스코어 비교의 예시적인 플롯을 도시한다. 도 10a는 본 개시내용의 한 실시양태에 따른 BRCA1 음성 샘플에 대한 LLR 스코어 분포의 예시적인 플롯을 도시한다. 도 10b는 본 개시내용의 한 실시양태에 따른 BRCA2 음성 샘플에 대한 LLR 스코어 분포의 예시적인 플롯을 도시한다.
도 11a는 본 개시내용의 한 실시양태에 따른 BRCA1에 대한 결실의 LoD의 예시적인 플롯을 도시한다. 도 11b는 본 개시내용의 한 실시양태에 따른 BRCA1에 대한 이형접합성 손실 (LOH) (본원에서 상호교환적으로 "이형접합 결실"로 지칭됨)의 LoD의 예시적인 플롯을 도시한다. 시뮬레이션: TND 샘플로부터 시작하는 동형접합 체세포 결실의 100k 사례.
사용된 TF = 28,199개 샘플에서 관찰된 TF 분포. LoD는 두 가지 인자 (2-단계 알고리즘)에 의존한다: (1) 결실 검출 민감도 (커버리지 기반만): BRCA1 증폭/결실 평균 컷오프 = 0.05; 및 (2) 동형접합과 이형접합 체세포 결실을 구별하는 능력 (LLR 시험).
도 12a는 본 개시내용의 한 실시양태에 따른 BRCA2에 대한 결실의 LoD의 예시적인 플롯을 도시한다. 도 12b는 본 개시내용의 한 실시양태에 따른 BRCA2에 대한 LOH의 LoD의 예시적인 플롯을 도시한다. 시뮬레이션: TND 샘플로부터 시작하는 동형접합 체세포 결실의 100k 사례.
사용된 TF = 28,199개 샘플에서 관찰된 TF 분포.
LoD는 두 가지 인자 (2-단계 알고리즘)에 의존한다: (1) 결실 검출 민감도 (커버리지 기반만): BRCA2 증폭/결실 평균 컷오프 = 0.09; 및 (2) 동형접합과 이형접합 체세포 결실을 구별하는 능력 (LLR 시험).
도 13은 본 개시내용의 한 실시양태에 따른 TF vs 암 유형의 유병률의 예시적인 플롯을 도시한다.
도 14는 본 개시내용의 한 실시양태에 따른 BRCA1 및 BRCA2에 대한 LLR 스코어의 밀도의 예시적인 플롯을 도시한다. 28,000개 트레이닝 샘플 세트가 BRCA1/2 동형접합 결실을 갖는 샘플을 호출하기 위해 2.5 및 0의 컷오프 (LoB 부분에서 결정됨)로 무작위로 선택되었다. 387 및 994개 샘플은 각각 BRCA1 및 BRCA2에 대한 체세포 결실을 나타내었다. 이들 샘플 중에서, 49 및 60개는 각각 BRCA1 및 BRCA2의 동형접합 결실을 갖는 것으로 호출되었다.
도 15는 본 개시내용의 한 실시양태에 따른, 다중 암 유형 집단에서 관찰된 BRCA2 동형접합 결실의 유병률의 예시적인 차트를 도시한다. 도 16은 본 개시내용의 한 실시양태에 따른, 다중 암 유형 집단에서 관찰된 BRCA1 동형접합 결실의 유병률의 예시적인 차트를 도시한다. 도 17은 본 개시내용의 한 실시양태에 따른 BRCA2의 동형접합 결실 및 잠재적인 임상적 실행가능성의 예를 도시한다. 도 17에 도시된 플롯은 문헌 ["Integrative clinical genomics of advanced prostate cancer," Cell 161: 1215-1228 (2015), by Robinson D, Van Allen EM, Wu YM, Schultz N, Lonigro RJ, Mosquera JM, Montgomery B, Taplin ME, Pritchard CC, Attard G, et al. ("Robinson")]에서 발췌한 것이며, 이는 그 전문이 본원에 참조로 포함된다. 로빈슨(Robinson)은 하기를 보여준다: BRCA2의 체세포 및 병원성 생식계열 변경의 통합 분석은 BRCA2의 손실을 갖는 사례의 19/150 (12.7%)을 식별하였으며, 그 중 대략 90%는 이중대립유전자 손실을 나타내었다. 이는 일반적으로 체세포 점 돌연변이 및 이형접합성 손실, 뿐만 아니라 동형접합 결실의 결과였다. 선택되지 않은 mCRPC 영향받은 개체에서 폴리(ADP-리보스) 중합효소 (PARP) 억제를 평가하는 임상 시험은 임상적 이점을 경험한 이 시험에서 다중 영향받은 개체가 이중대립유전자 BRCA2 손실을 보유하여 임상적 실행가능성의 추가 증거를 제공함을 보여준다.
도 18a는 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 예시적인 플롯을 도시한다. 도 18b는 본 개시내용의 한 실시양태에 따른 BRCA1 동형접합 결실의 예시적인 플롯을 도시한다. 도 19a는 본 개시내용의 한 실시양태에 따른 BRCA2 동형접합 결실의 예시적인 플롯을 도시한다. 도 19b는 본 개시내용의 한 실시양태에 따른 BRCA2 동형접합 결실의 예시적인 플롯을 도시한다. 도 18a, 18b, 19a 및 19b는 인간 게놈에 기초한 플롯이다.
도 20a는 본 개시내용의 한 실시양태에 따른 BRCA1 이중대립유전자 체세포 카피 수 손실의 예시적인 플롯을 도시한다. 본 개시내용의 목적을 위해, 용어 "이중대립유전자 체세포 카피 수 손실"은 "동형접합 결실"과 상호교환적으로 사용될 것이다. 도 20b는 본 개시내용의 한 실시양태에 따른 BRCA1 LOH의 예시적인 플롯을 도시한다. 본 개시내용의 목적을 위해, 용어 "LOH"는 "이형접합 결실"과 상호교환적으로 사용될 것이다. 도 21a는 본 개시내용의 한 실시양태에 따른 BRCA2 이중대립유전자 체세포 카피 수 손실의 예시적인 플롯을 도시한다. 도 21b는 본 개시내용의 한 실시양태에 따른 BRCA2 LOH의 예시적인 플롯을 도시한다. 도 20a, 20b, 21a 및 21b는 3개의 (인간) 염색체에 기초한 플롯이다. 도 22는 본 개시내용의 한 실시양태에 따른 BRCA1 및 BRCA2 체세포 결실의 유병률의 플롯을 도시한다.
컴퓨터 구현
본 방법은 습식 화학 단계 이외의 명세서 또는 첨부된 청구범위에 기재된 단계 중 임의의 또는 전부가 적합한 프로그래밍된 컴퓨터에서 수행될 수 있도록 컴퓨터-구현될 수 있다. 컴퓨터는 메인프레임, 개인용 컴퓨터, 태블릿, 스마트폰, 클라우드, 온라인 데이터 저장소, 원격 데이터 저장소 등일 수 있다. 컴퓨터는 하나 이상의 위치에서 작동될 수 있다.
본 방법의 다양한 작동은 정보 및/또는 프로그램을 활용하고, 컴퓨터-판독가능 매체 (예를 들어, 하드 드라이브, 보조 메모리, 외부 메모리, 서버; 데이터베이스, 휴대용 메모리 장치 (예를 들어, CD-R, DVD, ZIP 디스크, 플래시 메모리 카드) 등에 저장된 결과를 생성할 수 있다.
본 개시내용은 또한 실행될 때 본 방법의 단계를 구현하는 하나 이상의 프로그램을 함유하는 기계-판독가능 매체를 포함하는 핵산 집단을 분석하기 위한 제조 물품을 포함한다.
본 개시내용은 하드웨어 및/또는 소프트웨어로 구현될 수 있다. 예를 들어, 본 개시내용의 상이한 측면은 클라이언트-측 로직 또는 서버-측 로직에서 구현될 수 있다. 본 개시내용 또는 이의 구성성분은 적절하게 구성된 산출 장치로 로딩될 때 장치가 본 개시내용에 따라 수행하게 하는 로직 명령어 및/또는 데이터를 함유하는 고정 매체 프로그램 구성성분에서 구현될 수 있다. 로직 명령어를 함유하는 고정 매체는 시청자의 컴퓨터에 물리적으로 로딩하기 위해 고정 매체로 시청자에게 전달될 수 있거나, 로직 명령어를 함유하는 고정 매체는 시청자가 프로그램 구성성분을 다운로드하기 위해 통신 매체를 통해 액세스하는 원격 서버에 주재할 수 있다.
본 개시내용은 본 개시내용의 방법을 구현하도록 프로그래밍된 컴퓨터 제어 시스템을 제공한다. 프로세서 (120)는 단일 코어 또는 멀티 코어 프로세서, 또는 병렬 프로세싱을 위한 복수의 프로세서를 포함할 수 있다. 저장 장치 (122)는 랜덤-액세스 메모리, 읽기 전용 메모리, 플래시 메모리, 하드 디스크, 및/또는 다른 유형의 저장소를 포함할 수 있다. 컴퓨터 시스템 (110)은 주변 장치, 예컨대 캐시, 다른 메모리, 데이터 저장소 및/또는 전자 디스플레이 어댑터, 및 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스 (예를 들어, 네트워크 어댑터)를 포함할 수 있다. 컴퓨터 시스템 (110)의 구성성분은 내부 통신 버스, 예컨대 마더보드를 통해 서로 통신할 수 있다. 저장 장치 (122)는 데이터를 저장하기 위한 데이터 저장 단위 (또는 데이터 저장소)일 수 있다. 컴퓨터 시스템 (110)은 통신 인터페이스의 도움으로 컴퓨터 네트워크 ("네트워크")에 작동가능하게 커플링될 수 있다. 네트워크는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 네트워크는 일부 경우에 텔레커뮤니케이션 및/또는 데이터 네트워크이다. 네트워크는 근거리 네트워크를 포함할 수 있다. 네트워크는 분산 컴퓨팅, 예컨대 클라우드 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 네트워크는 일부 경우에 컴퓨터 시스템 (110)의 도움으로 피어-투-피어 네트워크를 구현할 수 있으며, 이는 컴퓨터 시스템 (120)에 커플링된 장치가 클라이언트 또는 서버로서 동작하도록 할 수 있다.
프로세서 (120)는 프로그램 또는 소프트웨어로 구현될 수 있는 일련의 기계-판독가능한 명령어를 실행할 수 있다. 명령어는 메모리 위치, 예컨대 저장 장치 (122)에 저장될 수 있다. 명령어는 프로세서 (120)로 보내질 수 있으며, 이는 본 개시내용의 방법을 구현하기 위해 프로세서 (120)를 후속적으로 프로그래밍하거나 달리 구성할 수 있다. 프로세서 (120)에 의해 수행되는 작동의 예는 페치(fetch), 디코딩(decode), 실행(execute) 및 라이트백(writeback)을 포함할 수 있다.
프로세서 (120)는 회로, 예컨대 집적 회로의 일부일 수 있다. 시스템 (100)의 하나 이상의 다른 구성성분이 회로에 포함될 수 있다. 일부 경우에, 회로는 주문형 집적 회로 (ASIC)를 포함할 수 있다.
저장 장치 (122)는 파일, 예컨대 드라이버, 라이브러리 및 저장된 프로그램을 저장할 수 있다. 저장 장치 (122)는 사용자 데이터, 예를 들어 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 컴퓨터 시스템 (110)은 일부 경우에 인트라넷 또는 인터넷을 통해 컴퓨터 시스템 (110)과 통신하는 원격 서버에 위치하는 것과 같이 컴퓨터 시스템 (110) 외부에 있는 하나 이상의 추가 데이터 저장 단위를 포함할 수 있다.
컴퓨터 시스템 (110)은 네트워크를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템 (110)은 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인용 컴퓨터 (예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC (예를 들어, 애플® 아이패드, 삼성® 갤럭시탭), 전화기, 스마트폰 (예를 들어, 애플® 아이폰, 안드로이드-지원 장치, 블랙베리®), 또는 개인용 정보 단말기를 포함한다. 사용자는 네트워크를 통해 컴퓨터 시스템 (110)에 액세스할 수 있다.
본원에 기재된 바와 같은 방법은 예를 들어 저장 장치 (122)와 같은 컴퓨터 시스템 (110)의 전자 저장 위치에 저장된 기계 (예를 들어, 컴퓨터 프로세서) 실행가능한 코드에 의해 구현될 수 있다. 기계 실행가능한 또는 기계 판독가능한 코드는 소프트웨어 형태로 제공될 수 있다. 사용하는 동안, 코드는 프로세서 (905)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 단위 (915)로부터 검색될 수 있고, 프로세서 (120)에 의한 준비된 액세스를 위해 저장 장치 (122)에 저장될 수 있다.
코드는 코드를 실행하도록 채택된 프로세서를 갖는 기계와 함께 사용하기 위해 사전-컴파일 및 구성될 수 있거나, 런타임 동안 컴파일될 수 있다. 코드는 코드가 사전-컴파일되거나 컴파일된 대로 실행할 수 있도록 선택될 수 있는 프로그래밍 언어로 공급될 수 있다.
본원에 제공된 시스템 및 방법의 측면, 예컨대 컴퓨터 시스템 (110)은 프로그래밍으로 구현될 수 있다. 기술의 다양한 측면은 전형적으로 일종의 기계 판독가능 매체에 전달되거나 구현되는 기계 (또는 프로세서) 실행가능한 코드 및/또는 연관 데이터의 형태로 "제품" 또는 "제조 물품"으로 간주될 수 있다. 기계-실행가능한 코드는 전자 저장 단위, 예컨대 메모리 (예를 들어, 읽기 전용 메모리, 랜덤-액세스 메모리, 플래시 메모리) 또는 하드 디스크에 저장될 수 있다.
"저장" 유형 매체는 컴퓨터, 프로세서 등의 유형 메모리 중 임의의 또는 전부 또는 이의 연관 모듈, 예컨대 다양한 반도체 메모리, 테이프 드라이브, 디스크 드라이브 등을 포함할 수 있으며, 이는 소프트웨어 프로그래밍을 위해 임의의 시간에 비일시적인 저장을 제공할 수 있다. 소프트웨어의 전부 또는 일부는 때때로 인터넷 또는 다양한 다른 텔레커뮤니케이션 네트워크를 통해 통신될 수 있다. 예를 들어, 이러한 통신은 하나의 컴퓨터 또는 프로세서로부터 또 다른 컴퓨터 또는 프로세서로, 예를 들어 관리 서버 또는 호스트 컴퓨터로부터 애플리케이션 서버의 컴퓨터 플랫폼으로 소프트웨어의 로딩을 가능하게 할 수 있다. 그러므로, 소프트웨어 요소를 보유할 수 있는 또 다른 유형의 매체는 유선 및 광학 지상통신선 네트워크 및 다양한 에어-링크를 통해 로컬 장치 간의 물리적 인터페이스에 걸쳐 사용되는 것과 같은 광학, 전기 및 전자기파를 포함한다. 유선 또는 무선 링크, 광학 링크 등과 같은 이러한 전파를 전달하는 물리적 요소는 또한 소프트웨어를 보유하는 매체로 간주될 수 있다.
본원에 사용된 바와 같이, 비일시적 유형의 "저장" 매체로 제한되지 않는 한, 컴퓨터 또는 기계 "판독가능 매체"와 같은 용어는 실행을 위해 프로세서에 명령어를 제공하는데 참여하는 임의의 매체를 지칭한다.
따라서, 기계 판독가능 매체, 예컨대 컴퓨터-실행가능한 코드는 유형 저장 매체, 반송파 매체 또는 물리적 전송 매체를 포함하나 이에 제한되지는 않는 많은 형태를 취할 수 있다. 비휘발성 저장 매체는 예를 들어 도면에 표시된 데이터베이스 등을 구현하는데 사용될 수 있는 것과 같은 임의의 컴퓨터(들) 등의 임의의 저장 장치와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 저장 매체는 이러한 컴퓨터 플랫폼의 메인 메모리와 같은 동적 메모리를 포함한다. 유형 전송 매체는 동축 케이블; 컴퓨터 시스템 내에서 버스를 구성하는 전선을 포함한 구리선 및 광섬유를 포함한다. 반송파 전송 매체는 전기 또는 전자기 신호, 또는 무선 주파수 (RF) 및 적외선 (IR) 데이터 통신 동안 생성되는 것과 같은 음향파 또는 광파의 형태를 취할 수 있다. 따라서, 일반적인 형태의 컴퓨터-판독가능 매체는 예를 들어 하기를 포함한다: 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD 또는 DVD-ROM, 임의의 다른 광학 매체, 펀치 카드 종이 테이프, 구멍 패턴을 갖는 임의의 다른 물리적 저장 매체, RAM, ROM, PROM 및 EPROM, 플래시-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 데이터 또는 명령어를 전송하는 반송파, 이러한 반송파를 전송하는 케이블 또는 링크, 또는 컴퓨터가 프로그래밍 코드 및/또는 데이터를 판독할 수 있는 임의의 다른 매체. 이들 형태의 컴퓨터 판독가능 매체 중 다수는 실행을 위해 프로세서에 하나 이상의 명령어의 하나 이상의 서열을 전달하는데 관여할 수 있다.
컴퓨터 시스템 (110)은 예를 들어 보고서를 제공하기 위한 사용자 인터페이스 (UI)를 포함하는 전자 디스플레이 (935)를 포함하거나 이와 통신할 수 있다. UI의 예는 제한 없이, 그래픽 사용자 인터페이스 (GUI) 및 웹-기반 사용자 인터페이스를 포함한다.
본 개시내용의 방법 및 시스템은 하나 이상의 알고리즘에 의해 구현될 수 있다. 알고리즘은 프로세서 (120)에 의해 실행될 때 소프트웨어에 의해 구현될 수 있다.
샘플 수집 및 분석 파이프라인
샘플 (101)은 대상체로부터 단리된 임의의 생물학적 샘플일 수 있다. 샘플은 신체 조직, 예컨대 공지되거나 의심되는 고형 종양, 전혈, 혈소판, 혈청, 혈장, 대변, 적혈구, 백혈구(white blood cell) 또는 백혈구(leucocyte), 내피 세포, 조직 생검, 뇌척수액 윤활액, 림프액, 복수액, 간질액 또는 세포외액, 치은 틈새액을 포함한 세포 사이 공간의 유체, 골수, 흉막 삼출액, 뇌척수액, 타액, 점액, 가래, 정액, 땀, 소변을 포함할 수 있다. 샘플은 바람직하게는 체액, 특히 혈액 및 이의 분획, 및 소변이다. 이러한 샘플은 핵산을 포함할 수 있다. 이러한 샘플은 핵산 샘플로 지칭될 수 있다. 이들 샘플 중 일부에서, 핵산은 종양으로부터 분리될 수 있다. 핵산은 DNA 및 RNA를 포함할 수 있고, 이중- 및/또는 단일-가닥 형태일 수 있다. 핵산이 RNA를 포함하는 예에서, 본원에 기재된 시스템 및 방법은 참조 유전자 (예컨대 GAPDH와 같은 내인성 제어 유전자)에 비한 관심 유전자의 유전자 발현을 정상 샘플로부터 계산된 트레이닝된 역치 값과 비교함으로써 RNA에 의해 코딩된 관심 유전자에서 체세포 결실을 결정할 수 있다. 샘플은 대상체로부터 원래 단리된 형태일 수 있거나, 구성성분, 예컨대 세포를 제거 또는 첨가하거나, 또 다른 구성성분에 비해 한 구성성분을 풍부화하거나, 핵산의 한 형태를 또 다른 형태로, 예컨대 RNA를 DNA로 또는 단일-가닥 핵산을 이중-가닥 핵산으로 전환시키기 위해 추가 프로세싱을 받을 수 있다. 그러므로, 예를 들어 분석을 위한 체액은 무세포 핵산, 예를 들어 무세포 DNA (cfDNA)를 함유하는 혈장 또는 혈청이다.
혈장의 부피는 서열분석된 영역에 대한 원하는 리드 깊이에 따라 달라질 수 있다. 예시적인 부피는 0.4-40 ml, 5-20 ml, 10-20 ml이다. 예를 들어, 부피는 0.5 ml, 1 ml, 5 ml, 10 ml, 20 ml, 30 ml, 또는 40 ml일 수 있다. 샘플링된 혈장의 부피는 5 내지 20 ml일 수 있다.
샘플은 게놈 등가물을 함유하는 다양한 양의 핵산을 포함할 수 있다. 예를 들어, 약 30 ng DNA의 샘플은 약 10,000 (104)개의 반수체 인간 게놈 등가물 및, cfDNA의 경우, 약 2000억 (2x1011)개의 개별 폴리뉴클레오티드 분자를 함유할 수 있다. 유사하게, 약 100 ng의 DNA의 샘플은 약 30,000개의 반수체 인간 게놈 등가물 및, cfDNA의 경우, 약 6000억 개의 개별 분자를 함유할 수 있다.
샘플은 상이한 공급원, 예를 들어 세포 및 무세포로부터의 핵산을 포함할 수 있다. 샘플은 돌연변이를 보유한 핵산을 포함할 수 있다. 예를 들어, 샘플은 생식계열 돌연변이 및/또는 체세포 돌연변이를 보유한 DNA를 포함할 수 있다. 샘플은 암-연관 돌연변이 (예를 들어, 암-연관 체세포 돌연변이)를 보유한 DNA를 포함할 수 있다.
증폭 전 샘플 내 무세포 핵산의 예시적인 양은 약 1 fg 내지 약 1 μg, 예를 들어 1 pg 내지 200 ng, 1 ng 내지 100 ng, 10 ng 내지 1000 ng의 범위이다. 예를 들어, 양은 최대 약 600 ng, 최대 약 500 ng, 최대 약 400 ng, 최대 약 300 ng, 최대 약 200 ng, 최대 약 100 ng, 최대 약 50 ng, 또는 최대 약 20 ng의 무세포 핵산 분자일 수 있다. 양은 적어도 1 fg, 적어도 10 fg, 적어도 100 fg, 적어도 1 pg, 적어도 10 pg, 적어도 100 pg, 적어도 1 ng, 적어도 10 ng, 적어도 100 ng, 적어도 150 ng, 또는 적어도 200 ng의 무세포 핵산 분자일 수 있다. 양은 최대 1 펨토그램 (fg), 10 fg, 100 fg, 1 피코그램 (pg), 10 pg, 100 pg, 1 ng, 10 ng, 100 ng, 150 ng, 또는 200 ng의 무세포 핵산 분자일 수 있다. 방법은 1 펨토그램 (fg) 내지 200 ng을 수득하는 것을 포함할 수 있다.
무세포 핵산 샘플은 무세포 핵산을 함유하는 대상체로부터의 샘플을 지칭한다. 무세포 핵산은 세포 내에 함유되지 않거나 달리 세포에 결합되지 않은 핵산이다. 예를 들어, 무세포 핵산 샘플은 무손상 세포를 제거한 후 샘플에 남아있는 핵산을 포함할 수 있다. 무세포 핵산은 대상체로부터의 체액 (예를 들어, 혈액, 소변, CSF 등)으로부터 공급되는 모든 비-캡슐화된 핵산을 지칭할 수 있다. 무세포 핵산은 게놈 DNA, 미토콘드리아 DNA, 순환 DNA, siRNA, miRNA, 순환 RNA (cRNA), tRNA, rRNA, 소핵소체 RNA (snoRNA), 피위-상호작용 RNA (piRNA), 긴 비-코딩 RNA (긴 ncRNA), 또는 이들의 임의의 단편을 포함한 DNA (cfDNA), RNA (cfRNA), 및 이의 하이브리드를 포함한다. 무세포 핵산은 이중-가닥, 단일-가닥, 또는 이의 하이브리드일 수 있다. 무세포 핵산은 분비 또는 세포 사멸 프로세스, 예를 들어 세포 괴사 및 세포자멸(apoptosis)을 통해 체액으로 방출될 수 있다. 일부 무세포 핵산은 암 세포로부터 체액으로 방출된다 (예를 들어, 순환 종양 DNA (ctDNA)). 다른 것들은 건강한 세포로부터 방출된다. ctDNA는 비-캡슐화된 종양-유래 단편화된 DNA일 수 있다. 무세포 태아 DNA (cffDNA)는 모체 혈류에서 자유롭게 순환하는 태아 DNA이다.
무세포 핵산 또는 이와 연관된 단백질은 하나 이상의 후성적 변형을 가질 수 있으며, 예를 들어 무세포 핵산은 아세틸화, 5-메틸화, 유비퀴틴화, 인산화, 수모일화, 리보실화 및/또는 시트룰린화될 수 있다.
무세포 핵산은 약 100-500개 뉴클레오티드의 예시적인 크기 분포를 갖고, 110 내지 약 230개 뉴클레오티드의 분자는 분자의 약 90%를 나타내며, 인간에서 약 168개 뉴클레오티드의 모드이고, 제2 부차 피크는 240 내지 440개 뉴클레오티드의 범위이다. 무세포 핵산은 약 160 내지 약 180개 뉴클레오티드, 또는 약 320 내지 약 360개 뉴클레오티드, 또는 약 440 내지 약 480개 뉴클레오티드일 수 있다.
무세포 핵산은 용액에서 발견되는 바와 같이 무세포 핵산이 무손상 세포 및 체액의 다른 불용성 구성성분으로부터 분리되는 분배 단계를 통해 체액으로부터 단리될 수 있다. 분배는 기술, 예컨대 원심분리 또는 여과를 포함할 수 있다. 대안적으로, 체액 내 세포를 용해하고, 무세포 및 세포 핵산을 함께 프로세싱할 수 있다. 일반적으로, 완충액의 첨가 및 세척 단계 후, 무세포 핵산은 알코올로 침전될 수 있다. 오염물질 또는 염을 제거하기 위해 실리카 기반 컬럼과 같은 추가 세정 단계를 사용할 수 있다. 예를 들어, 비특이적 벌크 담체 핵산은 수율과 같은 절차의 특정 측면을 최적화하기 위해 반응 전반에 걸쳐 첨가될 수 있다.
이러한 프로세싱 후, 샘플은 이중-가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA를 포함한 다양한 형태의 핵산을 포함할 수 있다. 임의로, 단일 가닥 DNA 및 RNA는 이중-가닥 형태로 전환되어 후속 프로세싱 및 분석 단계에 포함될 수 있다.
태그
일부 실시양태에서, (폴리뉴클레오티드의 샘플로부터의) 핵산 분자는 샘플 인덱스 및/또는 분자 바코드 (일반적으로 "태그"로 지칭됨)로 태그부착될 수 있다. 태그는 다른 방법 중에서 화학적 합성, 라이게이션 (예를 들어, 평활-말단 라이게이션 또는 점착성-말단 라이게이션), 또는 중첩 연장 중합효소 연쇄 반응 (PCR)에 의해 어댑터에 혼입되거나 달리 연결될 수 있다. 이러한 어댑터는 궁극적으로 표적 핵산 분자에 연결될 수 있다. 다른 실시양태에서, 통상적인 핵산 증폭 방법을 사용하여 샘플 인덱스를 핵산 분자에 도입하기 위해 하나 이상의 라운드의 증폭 사이클 (예를 들어, PCR 증폭)이 일반적으로 적용된다. 증폭은 하나 이상의 반응 혼합물 (예를 들어, 어레이의 복수의 마이크로웰)에서 수행될 수 있다. 분자 바코드 및/또는 샘플 인덱스는 동시에 또는 임의의 순차적인 순서로 도입될 수 있다. 일부 실시양태에서, 분자 바코드 및/또는 샘플 인덱스는 서열 포획 단계가 수행되기 전 및/또는 후에 도입된다. 일부 실시양태에서, 프로브 포획 전에 분자 바코드만이 도입되고, 서열 포획 단계가 수행된 후에 샘플 인덱스가 도입된다. 일부 실시양태에서, 분자 바코드 및 샘플 인덱스 둘 모두는 프로브-기반 포획 단계를 수행하기 전에 도입된다. 일부 실시양태에서, 샘플 인덱스는 서열 포획 단계가 수행된 후에 도입된다. 일부 실시양태에서, 분자 바코드는 라이게이션 (예를 들어, 평활-말단 라이게이션 또는 점착성-말단 라이게이션)을 통해 어댑터를 통해 샘플 내의 핵산 분자 (예를 들어 cfDNA 분자)에 혼입된다. 일부 실시양태에서, 샘플 인덱스는 중첩 연장 중합효소 연쇄 반응 (PCR)을 통해 샘플 내의 핵산 분자 (예를 들어 cfDNA 분자)에 혼입된다. 전형적으로, 서열 포획 프로토콜은 표적화된 핵산 서열, 예를 들어 게놈 영역의 코딩 서열에 상보적인 단일-가닥 핵산 분자를 도입하는 것을 포함하고, 이러한 영역의 돌연변이는 암 유형과 연관된다.
일부 실시양태에서, 태그는 샘플 핵산 분자의 한쪽 말단 또는 양쪽 말단에 위치될 수 있다. 일부 실시양태에서, 태그는 미리 결정된 또는 무작위 또는 반무작위 서열 올리고뉴클레오티드이다. 일부 실시양태에서, 태그는 길이가 약 500, 200, 100, 50, 20, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1개 뉴클레오티드 미만일 수 있다. 태그는 무작위로 또는 비무작위로 샘플 핵산에 연결될 수 있다.
일부 실시양태에서, 각 샘플은 샘플 인덱스 또는 샘플 인덱스의 조합으로 고유하게 태그부착된다. 일부 실시양태에서, 샘플 또는 서브-샘플의 각 핵산 분자는 분자 바코드 또는 분자 바코드의 조합으로 고유하게 태그부착된다. 다른 실시양태에서, 분자 바코드가 복수의 분자 바코드 (예를 들어, 비고유 분자 바코드)에서 서로에 대해 반드시 고유하지 않도록 복수의 분자 바코드가 사용될 수 있다. 이들 실시양태에서, 분자 바코드는 일반적으로 개별 분자에 부착되어 (예를 들어, 라이게이션에 의해), 분자 바코드 및 이것이 부착될 수 있는 서열의 조합이 개별적으로 추적될 수 있는 고유한 서열을 생성하도록 한다. 내인성 서열 정보 (예를 들어, 샘플 내의 원래 핵산 분자의 서열에 상응하는 개시 (시작) 및/또는 말단 (정지) 부분, 한쪽 또는 양쪽 말단에서 서열 리드의 하위-서열, 서열 리드의 길이, 및/또는 샘플 내의 원래 핵산 분자의 길이)와 조합하여 고유하지 않게 태그부착된 분자 바코드의 검출은 전형적으로 특정 분자에 고유한 동일성의 할당을 허용한다. 개별 서열 리드의 길이 또는 염기쌍의 수는 또한 주어진 분자에 고유한 동일성을 할당하기 위해 임의로 사용된다. 본원에 기재된 바와 같이, 고유한 동일성이 할당된 단일 가닥의 핵산으로부터의 단편은 이에 의해 모 가닥 및/또는 상보적 가닥으로부터의 단편의 후속 식별을 허용할 수 있다.
일부 실시양태에서, 분자 바코드는 샘플 내의 분자에 대한 식별자 세트 (예를 들어, 고유 또는 비고유 분자 바코드의 조합)의 예상된 비율로 도입된다. 하나의 예시적인 형식은 표적 분자의 양쪽 말단에 라이게이션된 약 2 내지 약 1,000,000개 상이한 분자 바코드, 또는 약 5 내지 약 150개 상이한 분자 바코드, 또는 약 20 내지 약 50개 상이한 분자 바코드를 사용한다. 대안적으로, 약 25 내지 약 1,000,000개 상이한 분자 바코드가 사용될 수 있다. 예를 들어, 20-50 x 20-50 분자 바코드가 사용될 수 있다. 이러한 식별자의 수는 전형적으로 동일한 시작 및 정지 지점을 갖는 상이한 분자가 식별자의 상이한 조합을 수신할 높은 확률 (예를 들어, 적어도 94%, 99.5%, 99.99%, 또는 99.999%)을 갖기에 충분하다. 일부 실시양태에서, 분자의 약 80%, 약 90%, 약 95%, 또는 약 99%가 분자 바코드의 동일한 조합을 갖는다.
일부 실시양태에서, 반응에서 고유 또는 비고유 분자 바코드의 할당은 예를 들어 미국 특허 출원 번호 20010053519, 20030152490 및 20110160078, 및 미국 특허 번호 6,582,908, 7,537,898, 9,598,731 및 9,902,992에 기재된 방법 및 시스템을 사용하여 수행되며, 이들 각각은 그 전문이 본원에 참조로 포함된다. 대안적으로, 일부 실시양태에서, 샘플의 상이한 핵산 분자는 내인성 서열 정보 (예를 들어, 시작 및/또는 정지 위치, 서열의 한쪽 또는 양쪽 말단의 하위-서열, 및/또는 길이)만을 사용하여 식별될 수 있다.
증폭
어댑터에 의해 플랭킹된 샘플 핵산은 증폭될 DNA 분자에 플랭킹된 어댑터에서 프라이머 결합 부위에 결합하는 프라이머로부터 전형적으로 프라이밍되는 다른 증폭 방법 및 PCR에 의해 증폭될 수 있다. 증폭 방법은 열순환으로 인한 연장, 변성 및 어닐링의 사이클을 포함할 수 있거나, 전사 매개된 증폭에서와 같이 등온일 수 있다. 다른 증폭 방법은 리가제 연쇄 반응, 가닥 대체 증폭, 핵산 서열 기반 증폭, 및 자기-지속 서열 기반 복제를 포함한다.
통상적인 핵산 증폭 방법을 사용하여 핵산 분자에 바코드를 도입하기 위해 하나 이상의 증폭이 적용될 수 있다. 증폭은 하나 이상의 반응 혼합물에서 수행될 수 있다. 분자 태그 및 샘플 인덱스/태그는 동시에 또는 임의의 순차적인 순서로 도입될 수 있다. 분자 태그 및 샘플 인덱스/태그는 서열 포획 전 및/또는 후에 도입될 수 있다. 일부 경우에, 분자 태그만이 프로브 포획 전에 도입되는 반면, 샘플 인덱스/태그는 서열 포획 후에 도입된다. 일부 경우에, 분자 태그 및 샘플 인덱스/태그 모두가 프로브 포획 전에 도입된다. 일부 경우에, 샘플 인덱스/태그가 서열 포획 후에 도입된다. 일반적으로, 서열 포획은 표적화된 서열, 예를 들어 게놈 영역의 코딩 서열에 상보적인 단일-가닥 핵산 분자를 도입하는 것을 포함하고, 이러한 영역의 돌연변이는 암 유형과 연관된다. 전형적으로, 증폭은 200 nt 내지 700 nt, 250 nt 내지 350 nt, 또는 320 nt 내지 550 nt 범위의 크기에서 분자 태그 및 샘플 인덱스/태그로 복수의 고유하지 않게 또는 고유하게 태그부착된 핵산 앰플리콘을 생성한다. 일부 실시양태에서, 앰플리콘은 약 300 nt의 크기를 갖는다. 일부 실시양태에서, 앰플리콘은 약 500 nt의 크기를 갖는다.
풍부화
일부 실시양태에서, 서열은 핵산을 서열분석하기 전에 풍부화된다. 풍부화는 임의로 특이적 표적 영역에 대해 또는 비특이적으로 ("표적 서열") 수행된다. 일부 실시양태에서, 관심 표적화된 영역은 차등 타일링 및 포획 계획을 사용하여 하나 이상의 베이트 세트 패널에 대해 선택된 핵산 포획 프로브 ("베이트")로 풍부화될 수 있다. 차등 타일링 및 포획 계획은 일반적으로 제약조건 세트 (예를 들어, 서열분석기 제약조건, 예컨대 서열분석 로드, 각 베이트의 유용성 등)에 따라 베이트와 연관된 게놈 영역에 걸쳐 차등적으로 타일링하고 (예를 들어, 상이한 "해상도"에서), 하류 서열분석을 위해 원하는 수준에서 표적화된 핵산을 포획하기 위해 상이한 상대 농도의 베이트 세트를 사용한다. 이들 표적화된 관심 게놈 영역은 임의로 핵산 구축물의 천연 또는 합성 뉴클레오티드 서열을 포함한다. 일부 실시양태에서, 하나 이상의 관심 영역에 대한 프로브를 갖는 비오틴-표지 비드를 사용하여 표적 서열을 포획할 수 있고, 임의로 이어서 관심 영역을 풍부화하기 위해 상기 영역을 증폭할 수 있다.
서열 포획은 전형적으로 표적 핵산 서열에 혼성화하는 올리고뉴클레오티드 프로브의 사용을 포함한다. 특정 실시양태에서, 프로브 세트 전략은 관심 영역에 걸쳐 프로브를 타일링하는 것을 포함한다. 이러한 프로브는 예를 들어 길이가 약 60 내지 약 120개 뉴클레오티드일 수 있다. 세트는 약 2x, 3x, 4x, 5x, 6x, 8x, 9x, l0x, 15x, 20x, 50x 또는 그 초과의 깊이를 가질 수 있다. 서열 포획의 효과는 일반적으로 부분적으로 프로브의 서열에 상보적인 (또는 거의 상보적인) 표적 분자 내의 서열의 길이에 의존한다. 일부 실시양태에서, 풍부화된 집단은 서열분석 전에 증폭될 수 있다.
서열분석 파이프라인
사전 증폭이 있거나 없는 어댑터에 의해 플랭킹된 샘플 핵산은 하나 이상의 서열분석 장치 (107)에 의한 것과 같은 서열분석의 대상일 수 있다. 서열분석 방법은 예를 들어 생어 서열분석, 고처리량 서열분석, 피로서열분석, 합성에 의한 서열분석, 단일-분자 서열분석, 나노포어 서열분석, 반도체 서열분석, 라이게이션에 의한 서열분석, 혼성화에 의한 서열분석, RNA-Seq (일루미나), 디지털 유전자 발현 (헬리코스(Helicos)), 차세대 서열분석, 합성에 의한 단일 분자 서열분석 (SMSS) (헬리코스), 대규모-병렬 서열분석, 클로날 단일 분자 어레이 (솔렉사), 샷건 서열분석, 이온 토렌트(Ion Torrent), 옥스퍼드 나노포어, 로슈 제니아(Genia), 맥심-길버트(Maxim-Gilbert) 서열분석, 프라이머 워킹, PacBio를 사용한 서열분석, SOLiD, 이온 토렌트, 또는 나노포어 플랫폼을 포함한다. 서열분석 반응은 다양한 샘플 프로세싱 단위에서 수행될 수 있으며, 이는 다중 레인, 다중 채널, 다중 웰, 또는 다중 샘플 세트를 실질적으로 동시에 프로세싱하는 다른 수단일 수 있다. 샘플 프로세싱 단위는 또한 다중 실행을 동시에 프로세싱할 수 있도록 다중 샘플 챔버를 포함할 수 있다.
서열분석 반응은 다른 질환의 암 마커를 함유하는 것으로 공지된 하나 이상의 단편 유형에 대해 수행될 수 있다. 서열분석 반응은 또한 샘플에 존재하는 임의의 핵산 단편에 대해 수행될 수 있다. 서열 반응은 적어도 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 또는 100%의 게놈의 서열 커버리지를 제공할 수 있다. 다른 경우에, 게놈의 서열 커버리지는 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 또는 100% 미만일 수 있다.
동시 서열분석 반응은 멀티플렉스 서열분석을 사용하여 수행될 수 있다. 일부 경우에, 무세포 폴리뉴클레오티드는 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개 서열분석 반응으로 서열분석될 수 있다. 다른 경우에, 무세포 폴리뉴클레오티드는 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개 미만의 서열분석 반응으로 서열분석될 수 있다. 서열분석 반응은 순차적으로 또는 동시에 수행될 수 있다. 후속 데이터 분석은 서열분석 반응의 전체 또는 일부에 대해 수행될 수 있다. 일부 경우에, 데이터 분석은 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개 서열분석 반응에 대해 수행될 수 있다. 다른 경우에, 데이터 분석은 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개 미만의 서열분석 반응에 대해 수행될 수 있다. 예시적인 리드 깊이는 유전자좌 (염기) 당 1000-80000개 리드이다.
서열 분석 파이프라인
일부 실시양태에서, 샘플 내의 핵산은 분자 바코드를 포함하는 충분한 수의 어댑터와 접촉될 수 있으므로, 동일한 핵산 분자의 임의의 2개의 카피가 양쪽 말단에 연결된 어댑터로부터 분자 바코드의 동일한 조합을 수신할 확률이 낮다 (예를 들어, < 1 또는 0.1 %). 이러한 방식으로 어댑터를 사용하는 것은 주어진 핵산 분자로부터 생성된 핵산 서열 패밀리 (서열 리드)의 식별을 허용한다. 예를 들어, 참조 서열에서 동일한 시작 및 정지 지점을 갖고 분자 바코드의 동일한 조합에 연결된 핵산 서열은 패밀리의 일부로 간주될 수 있다. 이와 같이, 패밀리는 샘플 내의 주어진 핵산 분자의 증폭 생성물의 서열을 나타내며, 여기서 패밀리 구성원은 증폭 생성물로부터 생성된 서열 리드이다. 패밀리 구성원의 서열은 평활 말단 형성 및 어댑터 부착에 의해 변형된 바와 같이 원래 샘플 내의 핵산 분자에 대한 컨센서스 뉴클레오티드(들) 또는 완전한 컨센서스 서열을 유도하도록 컴파일될 수 있다. 즉, 샘플 내의 핵산의 특정된 위치를 점유하는 뉴클레오티드는 패밀리 구성원 서열에서 상응하는 위치를 점유하는 뉴클레오티드의 컨센서스로 결정된다. 패밀리는 이중-가닥 핵산의 한쪽 또는 양쪽 가닥의 서열을 포함할 수 있다. 패밀리의 구성원이 이중-가닥 핵산으로부터의 두 가닥의 서열을 포함하는 경우, 한 가닥의 서열은 컨센서스 뉴클레오티드(들) 또는 서열을 유도하기 위해 모든 서열을 컴파일하기 위해 이의 상보체로 전환된다. 일부 패밀리는 단일 구성원 서열만을 포함한다. 이 경우에, 이 서열은 증폭 전에 샘플 내의 핵산의 서열로 취해질 수 있다. 대안적으로, 단일 구성원 서열만을 갖는 패밀리는 후속 분석으로부터 제거될 수 있다.
서열분석된 핵산의 뉴클레오티드 변이는 서열분석된 핵산을 참조 서열과 비교함으로써 결정될 수 있다. 참조 서열은 종종 공지된 서열, 예를 들어 대상체로부터의 공지된 전체 또는 부분 게놈 서열 (예를 들어, 인간 대상체의 전체 게놈 서열)이다. 참조 서열은 예를 들어 hG19 또는 hG38일 수 있다. 서열분석된 핵산은 샘플 내의 핵산에 대해 직접적으로 결정된 서열, 또는 상기 기재된 바와 같은 이러한 핵산의 증폭 생성물의 서열의 컨센서스를 나타낼 수 있다. 참조 서열 상의 하나 이상의 지정된 위치에서 비교를 수행할 수 있다. 서열분석된 핵산의 서브세트는 각 서열이 최대로 정렬될 때 참조 서열의 지정된 위치에 상응하는 위치를 포함하여 식별될 수 있다. 이러한 서브세트 내에서, 서열분석된 핵산이 존재하는 경우 지정된 위치에 뉴클레오티드 변이를 포함하고, 임의로 존재하는 경우 참조 뉴클레오티드를 포함하는 것 (즉, 참조 서열에서와 동일함)이 결정될 수 있다. 뉴클레오티드 변이체를 포함하는 서브세트 내의 서열분석된 핵산의 수가 선택된 역치를 초과하는 경우, 변이체 뉴클레오티드가 지정된 위치에서 호출될 수 있다. 역치는 뉴클레오티드 변이체를 포함하는 서브세트 내의 단순한 숫자, 예컨대 적어도 1, 2, 3, 4, 5, 6, 7, 9 또는 10개의 서열분석된 핵산일 수 있거나, 다른 가능성 중에서 뉴클레오티드 변이체를 포함하는 서브세트 내의 비율, 예컨대 적어도 0.5, 1, 2, 3, 4, 5, 10, 15 또는 20개의 서열분석된 핵산일 수 있다. 참조 서열에서 임의의 지정된 관심 위치에 대해 비교를 반복할 수 있다. 때로는, 참조 서열 상의 적어도 약 20, 100, 200 또는 300개의 인접 위치, 예를 들어 약 20-500 또는 약 50-300개의 인접 위치를 점유하는 지정된 위치에 대해 비교를 수행할 수 있다.
본 방법은 대상체에서 상태, 특히 암을 유발할 수 있는 유전적 사건의 존재 또는 부재를 식별하고, 상태를 특징화하고 (예를 들어, 암의 병기 결정 또는 암의 이질성의 결정), 상태의 치료에 대한 반응을 모니터링하고, 상태 또는 상태의 후속 과정을 발병할 예후 위험에 영향을 미치는데 사용될 수 있다.
다양한 암은 본 방법을 사용하여 검출될 수 있다. 대부분의 세포와 마찬가지로 암 세포는 오래된 세포가 사멸하고 새로운 세포로 대체되는 턴오버 비율에 의해 특징화될 수 있다. 일반적으로 주어진 대상체에서 맥관구조와 접촉하는 죽은 세포는 DNA 또는 DNA의 단편을 혈류로 방출할 수 있다. 이는 질환의 다양한 단계 동안 암 세포에서도 마찬가지이다. 암 세포는 또한 질환의 단계에 따라 다양한 유전자 이상, 예컨대 카피 수 변이 뿐만 아니라 희귀 돌연변이에 의해 특징화될 수 있다. 이 현상은 본원에 기재된 방법 및 시스템을 사용하여 개체에서 암의 존재 또는 부재를 검출하는데 사용될 수 있다.
검출될 수 있는 암의 종류 및 수는 혈액암, 뇌암, 폐암, 피부암, 코암, 인후암, 간암, 골암, 림프종, 췌장암, 피부암, 대장암, 직장암, 갑상선암, 방광암, 신장암, 구강암, 위암, 고형 상태 종양, 이종 종양, 동종 종양 등을 포함할 수 있다.
암은 돌연변이, 희귀 돌연변이, indel, 카피 수 변이, 전환, 전위, 역위, 결실, 이수성, 부분 이수성, 배수성, 염색체 불안정성, 염색체 구조 변경, 유전자 융합, 염색체 융합, 유전자 말단절단, 유전자 증폭, 유전자 중복, 염색체 병변, DNA 병변, 핵산 화학적 변형의 비정상적인 변화, 후성적 패턴의 비정상적인 변화를 포함하는 유전자 변이로부터 검출될 수 있다.
유전자 데이터는 또한 특정 형태의 암을 특징화하는데 사용될 수 있다. 암은 종종 조성 및 병기 모두에서 이종이다. 유전자 프로파일 데이터는 특정 하위-유형의 진단 또는 치료에 중요할 수 있는 특정 하위-유형의 암의 특징화를 허용할 수 있다. 이 정보는 또한 특정 유형의 암의 예후에 관한 단서를 대상체 또는 진료의에게 제공할 수 있고, 대상체 또는 진료의가 질환의 진행에 따라 치료 옵션을 채택하도록 할 수 있다. 일부 암은 진행되어 더욱 공격적이고 유전적으로 불안정하게 된다. 다른 암은 양성, 비활성 또는 휴면 상태로 남아있을 수 있다. 본 개시내용의 시스템 및 방법은 질환 진행을 결정하는데 유용할 수 있다.
본 분석은 또한 특정 치료 옵션의 효능을 결정하는데 유용하다. 성공적인 치료 옵션은 더 많은 암이 사망하고 DNA를 흘리게 할 수 있으므로 치료가 성공적인 경우 대상체의 혈액에서 검출되는 카피 수 변이 또는 희귀 돌연변이의 양을 증가시킬 수 있다. 다른 예에서, 이것이 발생하지 않을 수 있다. 또 다른 예에서, 아마도 특정 치료 옵션은 시간 경과에 따라 암의 유전자 프로파일과 상관관계가 있을 수 있다. 이 상관관계는 요법을 선택하는데 유용할 수 있다. 추가적으로, 암이 치료 후 관해 상태인 것으로 관찰되는 경우, 본 방법은 잔류 질환 또는 질환의 재발을 모니터링하는데 사용될 수 있다.
본 방법은 또한 암 이외의 상태에서 유전자 변이를 검출하기 위해 사용될 수 있다. 면역 세포, 예컨대 B 세포는 특정 질환이 있는 경우 빠른 클론 확장을 겪을 수 있다. 카피 수 변이 검출을 사용하여 클론 확장을 모니터링할 수 있고, 특정 면역 상태를 모니터링할 수 있다. 이 예에서, 특정 질환이 어떻게 진행될 수 있는지에 대한 프로파일을 생성하기 위해 시간 경과에 따라 카피 수 변이 분석을 수행할 수 있다. 감염 과정 동안 병원체 집단이 어떻게 변화하는지를 결정하기 위해 카피 수 변이 또는 심지어 희귀 돌연변이 검출이 사용될 수 있다. 이는 만성 감염, 예컨대 HIV/AIDs 또는 간염 감염 동안 특히 중요할 수 있으며, 이에 의해 바이러스는 감염 과정 동안 수명 주기 상태를 변경하고/거나 더 병독성인 형태로 돌연변이될 수 있다. 면역 세포가 이식된 조직의 상태를 모니터링하고 거부반응의 치료 또는 예방 과정을 변경하기 위해 이식된 조직을 파괴하려고 시도하기 때문에, 본 방법은 숙주 신체의 거부반응 활성을 결정하거나 프로파일링하는데 사용될 수 있다.
또한, 본 개시내용의 방법은 대상체에서 비정상적인 상태의 이질성을 특징화하는데 사용될 수 있으며, 상기 방법은 대상체에서 세포외 폴리뉴클레오티드의 유전자 프로파일을 생성하는 것을 포함하고, 여기서 유전자 프로파일은 카피 수 변이 및 희귀 돌연변이 분석으로부터 기인된 복수의 데이터를 포함한다. 일부 경우에, 암을 포함하나 이에 제한되지는 않는 질환이 이종일 수 있다. 질환 세포는 동일하지 않을 수 있다. 암의 예에서, 일부 종양은 상이한 유형의 종양 세포를 포함하는 것으로 공지되어 있으며, 일부 세포는 암의 상이한 단계에 있다. 다른 예에서, 이질성은 질환의 다중 병소를 포함할 수 있다. 다시 말하면, 암의 예에서, 다중 종양 병소가 있을 수 있으며, 아마도 하나 이상의 병소는 원발성 부위로부터 퍼진 전이의 결과일 것이다.
본 방법은 이종 질환의 상이한 세포로부터 파생된 유전자 정보의 합계인 데이터의 지문 또는 세트를 생성하거나 프로파일링하는데 사용될 수 있다. 이 데이터 세트는 카피 수 변이 및 희귀 돌연변이 분석을 단독으로 또는 조합하여 포함할 수 있다.
본 방법은 암 또는 태아 기원의 다른 질환을 진단, 예후, 모니터링 또는 관찰하는데 사용될 수 있다. 즉, 이들 방법론은 DNA 및 다른 폴리뉴클레오티드가 모체 분자와 함께 공동-순환할 수 있는 태중 대상체에서 암 또는 다른 질환을 진단, 예후, 모니터링 또는 관찰하기 위해 임신한 대상체에서 사용될 수 있다.
정밀 치료 예
개선된 컴퓨터 시스템 (110)에 의해 제공되는 정밀 진단은 컴퓨터 시스템 (110)에 의해 식별될 수 있는 (및/또는 건강 전문가에 의해 큐레이팅됨) 정밀 치료 계획을 초래할 수 있다. 예를 들어, 한 유형의 정밀 진단 및 치료는 상동성 재조합 복구 (HRR) 경로의 유전자와 관련될 수 있다.
상동성 재조합은 뉴클레오티드 서열이 2개의 유사한 또는 동일한 DNA 분자 사이에서 교환되는 유전자 재조합의 한 유형이다. 이중-가닥 파단 (DSB)으로 공지된 DNA의 두 가닥 모두에서 발생하는 유해한 파단을 정확하게 복구하기 위해 세포에 의해 가장 널리 사용된다. HRR은 세포 분열이 일어나기 전에 염색체 파단을 제거하기 위해 복제된 DNA (S 및 G2 기)에 존재하는 손상의 오류 없는 제거를 위한 메커니즘을 제공한다. 상동성 재조합이 DNA의 이중-가닥 파단을 복구하는 방법에 대한 일차 모델은 이중-가닥 파단 복구 (DSBR) 경로 및 합성-의존적 가닥 어닐링 (SDSA) 경로를 매개하는 상동성 재조합 복구 경로이다. 상동성 재조합 유전자의 생식계열 및 체세포 결핍은 유방암, 난소암 및 전립선암과 강하게 연결되어 있다.
샘플 내의 변이체 뉴클레오티드의 수 및 유형은 샘플을 치료, 즉 치료적 개입에 제공하는 대상체의 순응도의 표시를 제공할 수 있다. 예를 들어, 다양한 폴리 ADP 리보스 중합효소 (PARP) 억제제는 BRCA1 또는 BRCA2 유전자의 유전자 돌연변이로 인한 유방암, 난소암 및 전립선암으로부터의 종양의 성장을 정지시키는 것으로 나타났다. 이들 치료제 중 일부는 HRR 결핍을 보상할 수 있는 염기 절제 복구 (BER)를 억제할 수 있다.
한편, 특정 BRCA 및 HRR 야생형 환자는 PARP 억제제를 사용한 치료로부터 임상적 이점을 달성하지 못할 수 있다. 또한, BRCA 돌연변이를 갖는 모든 난소암 환자가 PARP 억제제에 반응하는 것은 아니다. 더욱이, 돌연변이의 상이한 유형은 상이한 요법을 나타낼 수 있다. 예를 들어, HRR 유전자의 체세포 이형접합 결실은 체세포 동형접합 결실과 상이한 요법을 나타낼 수 있다. 그러므로, 유전 물질의 상태가 요법에 영향을 미칠 수 있다. 한 예에서, PARP 억제제는 HRR 유전자에 체세포 동형접합 결실을 보유한 개체에게 투여될 수 있지만, HRR 유전자에 야생형 대립유전자 또는 체세포 이형접합 결실을 보유한 개체에게는 투여되지 않을 수 있다.
서열분석된 핵산의 뉴클레오티드 변이는 서열분석된 핵산을 참조 서열과 비교함으로써 결정될 수 있다. 참조 서열은 종종 공지된 서열, 예를 들어 대상으로부터의 공지된 전체 또는 부분 게놈 서열, 인간 대상의 전체 게놈 서열이다. 참조 서열은 hG19일 수 있다. 서열분석된 핵산은 샘플 내의 핵산에 대해 직접적으로 결정된 서열, 또는 상기 기재된 바와 같은 이러한 핵산의 증폭 생성물의 서열의 컨센서스를 나타낼 수 있다. 참조 서열 상의 하나 이상의 지정된 위치에서 비교를 수행할 수 있다. 서열분석된 핵산의 서브세트는 각 서열이 최대로 정렬될 때 참조 서열의 지정된 위치에 상응하는 위치를 포함하여 식별될 수 있다. 이러한 서브세트 내에서, 서열분석된 핵산이 존재하는 경우 지정된 위치에 뉴클레오티드 변이를 포함하고, 임의로 존재하는 경우 참조 뉴클레오티드를 포함하는 것 (즉, 참조 서열에서와 동일함)이 결정될 수 있다. 뉴클레오티드 변이체를 포함하는 서브세트 내의 서열분석된 핵산의 수가 역치를 초과하는 경우, 변이체 뉴클레오티드가 지정된 위치에서 호출될 수 있다. 역치는 뉴클레오티드 변이체를 포함하는 서브세트 내의 단순한 숫자, 예컨대 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 서열분석된 핵산일 수 있거나, 다른 가능성 중에서 뉴클레오티드 변이체를 포함하는 서브세트 내의 비율, 예컨대 적어도 0.5, 1, 2, 3, 4, 5, 10, 15 또는 20개의 서열분석된 핵산일 수 있다. 참조 서열에서 임의의 지정된 관심 위치에 대해 비교를 반복할 수 있다. 때로는, 참조 서열 상의 적어도 20, 100, 200 또는 300개의 인접 위치, 예를 들어 20-500 또는 50-300개의 인접 위치를 점유하는 지정된 위치에 대해 비교를 수행할 수 있다.
실시예
가던트 헬스, 인크.(Guardant Health, Inc.)로부터의 73-유전자 차세대 서열분석 ctDNA 패널을 사용하여 서열분석된 진행성 고형 종양을 갖는 28,199명의 환자로부터의 혈장 샘플에 본원에 기재된 모델링을 적용하였다.
결과의 예는 9%-11%의 종양 분획을 나타내는 샘플에 대해 BRCA1/2 유전자 결실을 검출하는데 있어서 95% 민감도를 나타내었다. LOH 및 이중대립유전자 카피 수 손실에 대한 검출 한계는 11%-13%이다. BRCA1 체세포 결실의 관찰된 유병률은 유방암, 결장직장암, 전립선암 및 자궁내막암에서 3% 초과이다. BRCA2 체세포 결실의 관찰된 유병률은 유방, 폐, 전립선, 두경부 (HNSCC) 및 간세포 암종에서 6% 초과이다.
고전적 HRD 연관 암을 갖는 5,568명의 환자 코호트에서, 체세포 LOH 및 이중대립유전자 체세포 카피 수 손실이 샘플의 2.7%에서 BRCA1에서 및 샘플의 8.0%에서 BRCA2에서 검출되었으며, 이는 이전에 보고된 조직 유병률과 정렬된다. BRCA1 및 BRCA2 LOH는 유방암, 난소암, 전립선암 및 췌장암을 포함한 고전적 상동성 재조합 결핍 (HRD) 암의 2.4% (134/5568) 및 7.4% (415/5568)에서 관찰되었다. BRCA1 및 BRCA2 이중대립유전자 체세포 카피 수 손실은 이 동일한 그룹의 HRD 암의 0.3% (19/5568) 및 0.5% (31/5568)에서 관찰되었다. BRCA1/2 체세포 LOH 및 이중대립유전자 체세포 카피 수 손실은 본원에 기재된 모델의 적용에 기초하여 ctDNA에서 정확하게 검출될 수 있다. 비침습적 ctDNA 평가를 통해 이 치료적으로 표적화가능한 게놈 변경을 식별하는 능력은 특히 깊은 내장 위치로 인해 조직 검사에 문제가 있는 질환, 주로 뼈 및 뇌 전이, 예컨대 유방암 및 전립선암을 갖는 환자에서 유의한 임상적 암시를 갖는다.
상기 또는 하기 인용된 모든 특허 출원, 웹사이트, 기타 간행물, 수탁 번호 등은 마치 각 개별 항목이 참조로 포함되도록 구체적이고 개별적으로 표시된 것처럼 동일한 정도로 모든 목적을 위해 그 전문이 참조로 포함된다. 서열의 상이한 버전이 상이한 시간에 수탁 번호와 연관되어 있는 경우, 본 출원의 유효 출원일에 수탁 번호와 연관된 버전을 의미한다. 유효 출원일은 실제 출원일 또는 적용가능한 경우 수탁 번호를 참조하는 우선권 출원의 출원일 중 빠른 날짜를 의미한다. 마찬가지로, 간행물, 웹사이트 등의 상이한 버전이 상이한 시간에 공개된 경우, 달리 명시되지 않는 한 출원의 유효 출원일에 가장 최근에 공개된 버전을 의미한다. 본 개시내용의 임의의 특징, 단계, 요소, 실시양태 또는 측면은 달리 구체적으로 명시되지 않는 한 임의의 다른 것과 조합하여 사용될 수 있다. 본 개시내용은 명확성 및 이해를 위해 예시 및 예를 통해 일부 상세하게 설명되었지만, 특정 변경 및 변형이 첨부된 청구범위의 범위 내에서 실시될 수 있음이 명백할 것이다.

Claims (39)

  1. 유전자의 생식계열 결실을 나타내지 않는 샘플에서 유전자의 체세포 동형접합 결실과 체세포 이형접합 결실을 구별하기 위한 컴퓨터 시스템이며,
    제1 확률 분포를 통해, 유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 기초하여 대립유전자 계수의 제1 모델을 생성하며, 제1 모델은 체세포 동형접합 결실을 나타내고;
    제2 확률 분포를 통해, 하나 이상의 생식계열 SNP 위치에 기초하여 샘플 내 대립유전자 계수의 제2 모델을 생성하며, 제2 모델은 체세포 이형접합 결실을 나타내고;
    제1 모델의 제1 출력과 제2 모델의 제2 출력을 비교하고;
    비교에 기초하여 유전자에 대한 체세포 동형접합 결실이 샘플에 존재한다는 예측을 생성하도록
    프로그래밍된 프로세서를 포함하는 컴퓨터 시스템.
  2. 제1항에 있어서, 제1 모델이 샘플이 체세포 동형접합 결실을 포함할 제1 확률을 나타내고, 제2 모델이 샘플이 체세포 이형접합 결실을 포함할 제2 확률을 나타내는 것인 컴퓨터 시스템.
  3. 제1항에 있어서, 제1 확률 분포가 제2 확률 분포와 동일한 유형의 확률 분포인 컴퓨터 시스템.
  4. 제1항에 있어서, 제1 모델을 생성하기 위해, 프로세서가 제1 확률 분포에 대한 입력을 위한 하나 이상의 파라미터를 결정하도록 프로그래밍되는 것인 컴퓨터 시스템.
  5. 제4항에 있어서, 제1 확률 분포가 베타-이항 분포, 이항 분포 또는 정규 분포 중 하나를 포함하는 확률 분포 유형을 포함하는 것인 컴퓨터 시스템.
  6. 제4항에 있어서, 대립유전자 계수의 제1 모델을 생성하기 위해, 프로세서가 제1 확률 분포에 대한 입력을 위해, 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP의 이형접합성의 유병률을 결정하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  7. 제6항에 있어서, 트레이닝 샘플 세트가 종양이 검출되지 않은 (TND) 복수의 샘플을 포함하는 것인 컴퓨터 시스템.
  8. 제6항에 있어서, 대립유전자 계수의 제1 모델을 생성하기 위해, 프로세서가 제1 확률 분포에 대한 입력을 위해, 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP와 연관된 소수 대립유전자 빈도 (MAF)의 표준 편차를 결정하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  9. 제8항에 있어서, 제1 모델을 생성하기 위해, 프로세서가 제1 확률 분포에 대한 입력을 위해, 돌연변이체 대립유전자를 지지하는 샘플 내 분자 수를 결정하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  10. 제9항에 있어서, 제1 모델을 생성하기 위해, 프로세서가 제1 확률 분포에 대한 입력을 위해, 샘플 내 총 분자 수를 결정하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  11. 제10항에 있어서, 제1 모델을 생성하기 위해, 프로세서가 체세포 동형접합 결실과 연관된 분자 커버리지에 기초하여 체세포 동형접합 결실을 가정하는 샘플에서 하나 이상의 생식계열 SNP 위치의 대립유전자 계수의 제1 가능도를 계산하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  12. 제11항에 있어서, 제2 모델을 생성하기 위해, 프로세서가 체세포 이형접합 결실과 연관된 분자 커버리지에 기초하여 체세포 이형접합 결실을 가정하는 샘플에서 하나 이상의 생식계열 SNP 위치의 대립유전자 계수의 제2 가능도를 계산하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  13. 제4항에 있어서, 제2 모델을 생성하기 위해, 프로세서가 제2 모델에 대한 제2 확률 분포에 대한 입력을 위해, 샘플로부터 추정된 종양 분획의 평균을 결정하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  14. 제13항에 있어서, 종양 분획이 서열 커버리지 정보에 기초하여 추정되는 것인 컴퓨터 시스템.
  15. 제13항에 있어서, 제2 모델을 생성하기 위해, 프로세서가 제2 모델에 대한 제2 확률 분포에 대한 입력을 위해, 샘플로부터 추정된 종양 분획의 표준 편차를 결정하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  16. 제1항에 있어서, 프로세서가
    복수의 샘플에 액세스하고;
    생식계열 결실을 포함하는 복수의 샘플 중에서 샘플 세트를 식별하고;
    복수의 샘플로부터 샘플 세트를 여과하고;
    여과된 복수의 샘플 중에서 체세포 동형접합 결실 또는 체세포 이형접합 결실의 존재를 식별하도록
    추가로 프로그래밍되는 것인 컴퓨터 시스템.
  17. 제1항에 있어서, 제1 출력이 체세포 동형접합 결실의 존재의 제1 확률을 포함하고, 제2 출력이 체세포 이형접합 결실의 존재의 제2 확률을 포함하는 것인 컴퓨터 시스템.
  18. 제14항에 있어서, 제1 모델의 제1 출력과 제2 모델의 제2 출력을 비교하기 위해, 프로세서가 제1 출력 및 제2 출력에 기초하여 로그 가능도 함수를 실행하도록 추가로 프로그래밍되는 것인 컴퓨터 시스템.
  19. 제1항에 있어서, 유전자가 BRCA1, BRCA2 및 ATM 중 하나를 포함하는 것인 컴퓨터 시스템.
  20. 샘플 내 유전자가 체세포 동형접합 결실을 포함할 제1 확률을 생성하고;
    샘플 내 유전자가 체세포 이형접합 결실을 포함할 제2 확률을 생성하고;
    제1 확률과 제2 확률을 비교하고;
    샘플이 체세포 동형접합 결실 또는 체세포 이형접합 결실을 포함하는지에 대한 예측을 생성하도록
    프로그래밍된 프로세서를 포함하는 시스템.
  21. 샘플 내 유전 물질이 제1 상태를 포함할 제1 확률을 생성하고;
    샘플 내 유전 물질이 제2 상태를 포함할 제2 확률을 생성하고;
    제1 확률과 제2 확률을 비교하고;
    샘플이 제1 상태 또는 제2 상태를 포함하는지에 대한 예측을 생성하도록
    프로그래밍된 프로세서를 포함하는 시스템.
  22. 제21항에 있어서, 제1 상태가 제1 모델에 기초하여 결정된 바와 같은 체세포 동형접합 결실을 포함하고, 제2 상태가 제2 모델에 기초하여 결정된 바와 같은 체세포 이형접합 결실을 포함하는 것인 시스템.
  23. 제21항에 있어서, 제1 상태가 제1 카피 수 변이체 (CNV)를 포함하고, 제2 상태가 제1 CNV와 상이한 제2 CNV를 포함하는 것인 시스템.
  24. 제23항에 있어서, 제1 CNV 및/또는 제2 CNV가 해로운 상태와 연관되는 것인 시스템.
  25. 제23항에 있어서, 제1 확률을 생성하기 위해, 프로세서가
    유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 액세스하고;
    트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP와 연관된 소수 대립유전자 빈도 (MAF)의 표준 편차를 결정하도록
    프로그래밍되는 것인 시스템.
  26. 제23항에 있어서, 제1 확률을 생성하기 위해, 프로세서가 트레이닝 샘플 세트에서 하나 이상의 생식계열 SNP와 연관된 소수 대립유전자 빈도 (MAF)의 표준 편차를 결정하도록 프로그래밍되는 것인 시스템.
  27. 프로세서에 의해, 제1 확률 분포를 통해, 유전자와 연관된 하나 이상의 생식계열 단일 뉴클레오티드 다형성 (SNP) 위치에 기초하여 대립유전자 계수의 제1 모델을 생성하는 단계이며, 제1 모델은 체세포 동형접합 결실을 나타내는 것인 단계;
    프로세서에 의해, 제2 확률 분포를 통해, 하나 이상의 생식계열 SNP 위치에 기초하여 샘플 내 대립유전자 계수의 제2 모델을 생성하는 단계이며, 제2 모델은 체세포 이형접합 결실을 나타내는 것인 단계;
    프로세서에 의해, 제1 모델의 제1 출력과 제2 모델의 제2 출력을 비교하는 단계; 및
    프로세서에 의해, 비교에 기초하여 유전자에 대한 체세포 동형접합 결실이 샘플에 존재한다는 예측을 생성하는 단계
    를 포함하는, 프로세서에 의해 구현되는 방법.
  28. 프로세서에 의해, 샘플 내 유전자가 체세포 동형접합 결실을 포함할 제1 확률을 생성하는 단계;
    프로세서에 의해, 샘플 내 유전자가 체세포 이형접합 결실을 포함할 제2 확률을 생성하는 단계;
    프로세서에 의해, 제1 확률과 제2 확률을 비교하는 단계; 및
    프로세서에 의해, 비교에 기초하여 샘플이 체세포 동형접합 결실 또는 체세포 이형접합 결실을 포함하는지에 대한 예측을 생성하는 단계
    를 포함하는, 프로세서에 의해 구현되는 방법.
  29. 프로세서에 의해, 샘플 내 유전 물질이 제1 상태를 포함할 제1 확률을 생성하는 단계;
    프로세서에 의해, 샘플 내 유전 물질이 제2 상태를 포함할 제2 확률을 생성하는 단계;
    프로세서에 의해, 제1 확률과 제2 확률을 비교하는 단계; 및
    프로세서에 의해, 비교에 기초하여 샘플이 제1 상태 또는 제2 상태를 포함하는지에 대한 예측을 생성하는 단계
    를 포함하는, 프로세서에 의해 구현되는 방법.
  30. 제1항 내지 제29항 중 어느 한 항에 기초하여 체세포 동형접합 결실을 갖는 것으로 결정된 대상체에게 체세포 동형접합 결실과 연관된 암을 치료하는데 효과적인 치료적 개입을 투여하는 방법.
  31. 제30항에 있어서, 치료적 개입이 폴리 ADP 리보스 중합효소 (PARP) 억제제를 포함하는 것인 방법.
  32. 제30항에 있어서, 치료적 개입이 염기 절제 복구 (BER) 억제제를 포함하는 것인 방법.
  33. 제1항 내지 제32항 중 어느 한 항에 기초하여 유전 물질의 특정 상태를 갖는 것으로 결정된 대상체에게 유전 물질의 상태와 연관된 질환을 치료하는데 효과적인 치료적 개입을 투여하는 방법.
  34. 제1항 내지 제33항 중 어느 한 항에 기초하여 체세포 동형접합 결실을 갖지 않는 것으로 결정된 대상체에게 폴리 ADP 리보스 중합효소 (PARP) 억제제를 배제하기 위한 치료적 개입을 투여하는 방법.
  35. 제1항 내지 제29항 중 어느 한 항에 있어서, 샘플 내 유전자 및/또는 유전 물질의 상태에 대한 정보 및/또는 이로부터 파생된 정보를 임의로 포함하는 보고서를 생성하는 것을 추가로 포함하는 방법 또는 시스템.
  36. 제35항에 있어서, 보고서를 제3자, 예컨대 샘플이 유래된 대상체 또는 건강 관리 진료의에게 통신하는 것을 추가로 포함하는 방법 또는 시스템.
  37. 샘플 내 유전자의 체세포 결실이 체세포 동형접합 결실 또는 체세포 이형접합 결실인지를 결정하는 방법이며, 여기서 샘플은 유전자의 생식계열 결실을 나타내지 않으며, 방법은 하기 단계를 포함하는 것인 방법:
    a) 샘플 내 유전자에서 생식계열 단일 뉴클레오티드 다형성 (SNP)의 참조 대립유전자 빈도를 결정하는 단계; 및
    b) 체세포 결실을 하기와 같이 분류하는 단계:
    (i) 샘플 내 생식계열 SNP의 참조 대립유전자 빈도가 SNP 유전자형에 따라 종양 미검출 (TND) 샘플에서 관찰된 미리 결정된 범위 내에 있는 경우 체세포 동형접합 결실; 또는
    (ii) 샘플 내 생식계열 SNP의 참조 대립유전자 빈도가 미리 결정된 범위로부터 규정된 양만큼 벗어나는 경우 체세포 이형접합 결실.
  38. 제37항에 있어서, 미리 결정된 범위가 0-0.01, 0.45-0.55 또는 0.99-1인 방법.
  39. 제37항에 있어서,
    샘플에서 추정된 종양 분획을 결정하는 단계; 및
    추정된 종양 분획에 기초하여 규정된 양을 계산하는 단계
    를 추가로 포함하는 방법.
KR1020217030628A 2019-02-27 2020-02-27 대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링 KR20210132139A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962811159P 2019-02-27 2019-02-27
US62/811,159 2019-02-27
US201962823585P 2019-03-25 2019-03-25
US62/823,585 2019-03-25
PCT/US2020/020174 WO2020176775A1 (en) 2019-02-27 2020-02-27 Computational modeling of loss of function based on allelic frequency

Publications (1)

Publication Number Publication Date
KR20210132139A true KR20210132139A (ko) 2021-11-03

Family

ID=70009412

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217030628A KR20210132139A (ko) 2019-02-27 2020-02-27 대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링

Country Status (7)

Country Link
US (3) US20200273538A1 (ko)
EP (1) EP3931831A1 (ko)
JP (2) JP2022521777A (ko)
KR (1) KR20210132139A (ko)
CN (1) CN113748467A (ko)
AU (1) AU2020228058A1 (ko)
WO (1) WO2020176775A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273966B (zh) * 2022-08-29 2023-03-31 西安交通大学 谱系树中可变剪接模式和染色质状态动态变化的分析方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
DE60234464D1 (de) 2001-11-28 2009-12-31 Applied Biosystems Llc Zusammensetzungen und Verfahren zur selektiven Nukleinsäureisolierung
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
IL269097B2 (en) 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP2994847A4 (en) * 2013-05-10 2017-04-19 Foundation Medicine, Inc. Analysis of genetic variants
US20170342477A1 (en) * 2016-05-27 2017-11-30 Sequenom, Inc. Methods for Detecting Genetic Variations
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors
EP3658687A1 (en) * 2017-07-25 2020-06-03 Sophia Genetics S.A. Methods for detecting biallelic loss of function in next-generation sequencing genomic data

Also Published As

Publication number Publication date
JP2024057050A (ja) 2024-04-23
AU2020228058A1 (en) 2021-09-23
CN113748467A (zh) 2021-12-03
WO2020176775A1 (en) 2020-09-03
US20230360727A1 (en) 2023-11-09
US20240029890A1 (en) 2024-01-25
EP3931831A1 (en) 2022-01-05
JP2022521777A (ja) 2022-04-12
US20200273538A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
US11193175B2 (en) Normalizing tumor mutation burden
JP2020536509A (ja) 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
US20190371432A1 (en) Methods and systems for detecting insertions and deletions
JP2023526252A (ja) 相同組換え修復欠損の検出
JP2024057050A (ja) 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング
US20240141425A1 (en) Correcting for deamination-induced sequence errors
JP2023517029A (ja) 無細胞核酸において検出された遺伝的突然変異を、腫瘍起源または非腫瘍起源として分類するための方法
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
JP2021536232A (ja) 試料間の汚染を検出するための方法およびシステム
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples