KR20200093438A - 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템 - Google Patents

체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20200093438A
KR20200093438A KR1020197037314A KR20197037314A KR20200093438A KR 20200093438 A KR20200093438 A KR 20200093438A KR 1020197037314 A KR1020197037314 A KR 1020197037314A KR 20197037314 A KR20197037314 A KR 20197037314A KR 20200093438 A KR20200093438 A KR 20200093438A
Authority
KR
South Korea
Prior art keywords
somatic
iccf
sample
sequencing
mutations
Prior art date
Application number
KR1020197037314A
Other languages
English (en)
Inventor
빅토르 페레이라 오누치크
크리스티나 엠. 크루글리아크
Original Assignee
일루미나, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드 filed Critical 일루미나, 인코포레이티드
Publication of KR20200093438A publication Critical patent/KR20200093438A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/153Multidimensional correlation or convolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Primary Health Care (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)

Abstract

개체로부터 하나 또는 그 이상의 핵산 표본을 이용하여 관심되는 하나 또는 그 이상의 돌연변이를 보유하는 암 세포의 비율을 지시하는 암 세포 분율을 추정하기 위한 컴퓨터 실행된 방법 및 컴퓨터 시스템이 제공된다. 본원에서 제공된 방법 및 시스템은 변분 베이지안 혼합 모형을 이용하여 초기 암 세포 분율을 군집화하고 하나 또는 그 이상의 최종 암 세포 분율을 획득하는 과정을 실행하는데, 상기 초기 암 세포 분율은 암 순도 및 사본수를 설명한다. 개시된 방법 및 시스템은 암 클론형성능에 대한 검사의 정확도, 타당성 및 신뢰도를 향상시키고, 그리고 이들 검사에 필요한 시간, 재료, 비용 및 컴퓨터 자원을 절약하는데, 이것은 더욱 효과적인 암 치료법을 설계하는데 도움을 줄 수 있다.

Description

체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템
관련된 출원에 대한 교차 참조
본 출원은 35 U.S.C. § 119(e) 하에, 2017년 12월 1일자 제출된 하기 제목: CLONSCORE: FAST AND ACCURATE INFERENCE OF CLONALITY OF SOMATIC MUTATIONS의 U.S. 특허가출원 번호 62/593,810에 우선권을 주장하고, 이것은 본원에서 전체적으로 모든 점에서 참조로서 편입된다.
배경
암은 다른 신체 부위로 침입하거나 또는 확산하는 잠재력을 갖는 비정상적인 세포 성장을 수반한다. 암은 체성 돌연변이에 의해 주로 주동된다. 암 세포는 돌연변이를 통해, 억제되지 않은 방식으로 성장하여 생물체를 강탈하는 능력을 획득한다. 체성 돌연변이 중에서 다수는 클론 돌연변이이고, 그리고 시조 세포에서 일어나면 질환이 개시된다. 이들 클론 돌연변이는 클론 확장 동안 돌연변이를 세포의 자손에게 전달함으로써 종양내에 균일하게 존재하게 된다. 시조 세포의 클론인 세포 개체군 역시 본 발명에서 클론으로서 지칭된다. 다른 체성 돌연변이는 하위클론성인데, 이들은 기존의 신생물 세포에서 일어나고 이것으로부터 유래된 세포의 아개체군에게만 전달된다. 세포의 아개체군 역시 본원에서 하위클론으로서 지칭된다. 하위클론에서 세포는 시조 돌연변이 및 하위클론 돌연변이를 갖는다. 클론 및 하위클론 돌연변이의 축적의 결과는 세포의 이질성 혼합물로 구성되는 종양이다. 다양한 고형암 및 혈액암에 걸쳐 최근 연구로부터 급부상하는 모습은 암이 공간적으로 및 시간적으로 이질성이고, 그리고 단일 시조 클론 및 여러 하위클론으로 빈번하게 구성된다는 것이다.
종양내 이질성 및 클론 구조는 임상적 의의를 갖고, 그리고 치료 내성의 원인이 된다. Ma et al., (2012), Curr Opin Genet Dev 22: 3-9. Yap TA, Gerlinger M, Futreal PA, Pusztai L, Swanton C (2012), Sci Transl Med 4: 127ps10. 하위클론의 존재는 만성 림프성 백혈병에서 불량한 임상적 결과에 연결되거나, 또는 악성종양, 예를 들면, 바렛 식도 및 다발성 골수종으로 진행의 증가된 위험에 연결되었다. 하위클론 돌연변이는 침묵 비소세포 폐암에서 EGF에서 보여 지는 바와 같이 내성을 주동할 수 있다. Merlo LM, Shah NA, Li X, Blount PL, Vaughan TL, et al. (2010), Cancer Prev Res (Phila) 3: 1388-97.
효과적인 암 요법을 개발하는 것은 암에서 근원적인 돌연변이 및 이의 클론 구조 둘 모두에 관한 이해를 필요로 한다. 종양의 클론 구조의 다수의 특징은 이러한 문맥에서 임상적 유의성을 갖는다. 가령, 암 세포에서 하위클론의 숫자는 약제 내성 또는 악성에 관계할 수 있다. 게다가, 관심되는 돌연변이를 보유하는 암 세포의 분율을 계측하는 암 세포 분율 (CCF)은 돌연변이 또는 이의 상관물을 표적으로 하는 요법의 효력에 영향을 줄 수 있다. 가령, 체성 돌연변이는 새로운 항원의 창출을 야기할 수 있다. 신항원은 종양 세포에서 단백질 변화 DNA 돌연변이에 의해 산출된 항원이다. 신항원은 면역계에 의해 잠재적으로 비자기로서 인식될 수 있다. 신항원 부하는 면역 관문 저해제에 대한 반응의 마커이다. 신항원 수준은 비소세포 폐암에서 항-PD1 요법의 효력과 긍정적으로 상관하는 것으로 밝혀졌다. Rizvi et al. (2015), Science, 348(6230): 124-128. 면역요법에 의해 표적화된 돌연변이의 CCF는 이런 이유로, 치료 효력에 영향을 줄 수 있다.
이런 이유로, 암 클론 구조 및 성질을 계측하기 위한 방법 및 시스템은 효과적인 암 치료제를 개발하는데 중요한 함의를 갖는다.
요약
본원에서 제시된 일부 실행은 개체로부터 하나 또는 그 이상의 표본에서 한 가지 또는 그 이상의 변이체에 대한 CCF를 추정하기 위한 컴퓨터-실행 방법 및 시스템을 제공한다. 일부 실행에서, 핵산 암 표본은 아래에 설명된 바와 같이, 생물학적 조직, 세포, 말초혈, 타액, 소변, 그리고 다른 생물학적 유체를 포함한다.
본원에서 제공된 다양한 방법 및 시스템이 단순한 뉴클레오티드 변이체 (SNVs)와 중첩될 수 있는 사본수 변이 (CNVs)를 고려하여 CCF를 추정하는 변분 베이지안 혼합 모형을 이용하는 전략 및 과정을 실행하기 때문에, 이들 구체예는 암 표본에 대한 CCF를 추정하는데 있어서 전통적인 방법에 비하여 다양한 기술적인 향상을 제공한다. 일부 실행은 향상된 분석적 민감도 및 특이성을 제공하여, 더욱 적은 컴퓨터 메모리 및 자원을 이용하면서 더욱 정확한 추정치 및 더욱 빠른 결과를 달성한다.
본 발명의 양상은 개체의 하나 또는 그 이상의 암 표본에서 CCF를 추정하기 위한 컴퓨터 실행된 방법을 제공한다. 상기 방법은 하기를 수반한다: (a) 하나 또는 그 이상의 프로세서에 의해, 개체로부터 최소한 하나의 검사 표본에서 핵산을 염기서열결정함으로써 획득된 유전체 서열 데이터를 받아들이고, 여기서 핵산은 암 세포의 하나 또는 그 이상의 하위클론으로부터 유래되고; (b) 유전체 서열 데이터에서 복수의 체성 돌연변이 변이체를 결정하고; (c) 각 체성 돌연변이 변이체에 대해, 그리고 하나 또는 그 이상의 프로세서에 의해, VAF를 이용하여 초기 암 세포 분율 (iCCF)을 계산하고, 여기서 암 세포 분율은 모든 암 세포 사이에서 체성 돌연변이 변이체를 갖는 암 세포의 분율이고, 그리고 여기서 VAF는 체성 돌연변이 변이체의 대립유전자 빈도이고, 따라서 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 획득하고; (d) 하나 또는 그 이상의 프로세서에 의해, 복수의 좌위에 대해 복수의 iCCFs를 군집화하고, 따라서 iCCFs의 하나 또는 그 이상의 클러스터를 획득하고, 각 클러스터는 하나 또는 그 이상의 종양 하위클론의 동일한 하위클론 내에 존재하는 변이체에 상응하고; 그리고 (e) 하나 또는 그 이상의 프로세서에 의해, 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정함.
일부 실행에서, 상기 방법은 하기를 더욱 포함한다: 유전체 서열 데이터의 서열 리드를 참조 유전체에 맞춰 정렬하여 서열 태그를 제공하고, 여기서 참조 유전체는 복수의 좌위를 포함하고, 복수의 좌위의 각 좌위는 복수의 체성 돌연변이 중에서 하나의 체성 돌연변이를 품고; 그리고 복수의 좌위의 각 좌위에 대해, 상기 좌위의 커버리지 및 상기 좌위의 변이체 대립유전자 빈도 (VAF)를 결정함.
일부 실행에서, 상기 방법은 유전체 서열 데이터를 이용하여 검사 표본에서 모든 세포 사이에서 종양 세포의 분율인 종양 순도 값 (p)을 추정하는 것을 더욱 포함한다.
일부 실행에서, 상기 방법은 복수의 좌위의 각 좌위에 대해, 유전체 서열 데이터를 이용하여 검사 표본에서 모든 세포에 대한 상기 좌위에서 모든 대립유전자의 평균 사본수 (N)를 추정하는 것을 더욱 포함한다. 일부 실행에서, 초기 암 세포 분율 (iCCF)은 VAF, p N을 이용하여 계산된다.
일부 실행에서, 상기 방법은 개체로부터 최소한 하나의 검사 표본을 획득하고; 최소한 하나의 검사 표본으로부터 세포 DNA 또는 무세포 DNA (cfDNA)를 획득하고; 그리고 세포 DNA 또는 cfDNA를 염기서열결정하여 서열 리드를 산출하는 것을 더욱 포함한다.
일부 실행에서, 상기 방법은 하나 또는 그 이상의 fCCFs에 최소한 부분적으로 기초하여 치료 섭생을 적용하는 것을 더욱 포함한다.
일부 실행에서, 치료 섭생을 적용하는 것은 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 fCCFs를 하나 또는 그 이상의 기준 또는 역치값과 비교하고; 그리고 상기 비교에 근거하여 치료 섭생을 처방하고, 개시하고 및/또는 변경하는 것을 포함한다. 일부 실행에서, 치료 섭생은 하나 또는 그 이상의 체성 돌연변이와 연관된 생물학적 경로에 영향을 준다. 일부 실행에서, 치료 섭생은 면역요법을 포함한다. 일부 실행에서, 최소한 하나의 검사 표본에서 핵산은 cfDNA를 포함한다.
일부 실행에서, 최소한 하나의 검사 표본은 개체로부터 2개 또는 그 이상의 검사 표본을 포함한다.
일부 실행에서, iCCF(VAF * N)/p에 근거하여 계산된다.
일부 실행에서, iCCF는 체성 돌연변이의 변이체 대립유전자의 사본수 (n)뿐만 아니라 VAF, pN을 이용하여 계산된다. 일부 실행에서, iCCF(VAF * N)/(p*n)에 근거하여 계산된다. 일부 실행에서, iCCFn이 1이라는 가정 하에 계산된다. 일부 실행에서, iCCF는 (i) (VAF * N)/p가 1보다 크지 않을 때 (VAF * N)/p, 그리고 (ii) (VAF * N)/p가 1보다 클 때 1에 근거하여 계산된다.
일부 실행에서, 군집화는 하나 또는 그 이상의 클러스터에 속하는 돌연변이의 하나 또는 그 이상의 사후 확률을 결정하는 것을 포함한다. 일부 실행에서, 하나 또는 그 이상의 fCCFs는 하나 또는 그 이상의 사후 확률 및 복수의 iCCFs를 이용하여 계산된다. 일부 실행에서, 돌연변이에 대한 fCCF는 각 클러스터에서 체성 돌연변이의 평균 iCCF 및 각 클러스터에 속하는 돌연변이의 사후 확률의 선형 결합으로서 계산된다. 일부 실행에서, 돌연변이 m에 대한 fCCF m 은 하기 공식을 이용하여 계산되고:
Figure pct00001
여기서
Figure pct00002
는 클러스터 k의 평균 iCCF이고; 그리고 pr m,k는 돌연변이 m이 클러스터 k에 속할 확률이다.
일부 실행에서, 클러스터 k는 돌연변이에 대한 가장 높은 확률의 클러스터를 포함한다.
일부 실행에서, 군집화는 하나 또는 그 이상의 클러스터를 결정하기 위해 혼합 모형을 이용하는 것을 포함한다. 일부 실행에서, 혼합 모형은 변분 베이지안 혼합 모형을 포함한다. 일부 실행에서, 군집화는 iCCFs의 하나 또는 그 이상의 클러스터를 발생시키는 하위클론의 숫자를 결정하는 것을 포함한다. 일부 실행에서, 다수의 하위클론 중에서 하나의 하위클론을 결정하는 것은 미리 결정된 범위 내에 있는 모든 부분집합의 추정된 분율에 근거하여, 함께 군집을 이루는 복수의 체성 서열 변이체 중에서 하나의 부분집합을 확인하는 것을 포함한다. 일부 실행에서, 혼합 모형은 2개 또는 그 이상의 클러스터에 대한 변이체 대립유전자 수의 2개 또는 그 이상의 확률 분포의 혼합물을 포함한다. 일부 실행에서, 변이체 대립유전자 수의 각 확률 분포는 이항 분포, 베타 분포, 가우스 분포, 그리고 이들의 임의의 조합으로 구성된 군에서 선택된다. 일부 실행에서, 변이체 대립유전자 수의 각 확률 분포는 이항 분포이다. 일부 실행에서, 변이체 대립유전자 수는 염기서열결정 깊이 및 iCCF에 근거하여 계산된다. 일부 실행에서, 변이체 대립유전자 수는 변이체 대립유전자 수 = 깊이 x iCCF로서 계산된다.
일부 실행에서, 돌연변이의 iCCF는 클러스터에 대한 베타 분포를 갖는 베타 확률 변수로서 모형화된다. 일부 실행에서, 최소한 하나의 검사 표본은 하나의 표본을 포함하고, 그리고 클러스터에 속하는 돌연변이의 확률은 하기와 같이 모형화되고:
Figure pct00003
여기서 pr m,k는 돌연변이 m이 클러스터 k에 속할 확률이고;
Beta( ; )는 클러스터 k에 대한 베타 분포의 확률 밀도 함수이고; f는 돌연변이 m에 대한 iCCF이고;
Figure pct00004
는 감마 함수이고; 그리고 u k v k 는 클러스터 k에 대한 베타 분포의 모양 파라미터이다.
일부 실행에서, 최소한 하나의 검사 표본은 2개 또는 그 이상의 검사 표본을 포함하고, 그리고 클러스터에 속하는 돌연변이의 확률은 하기와 같이 모형화되고:
Figure pct00005
여기서 u k u v s번째 성분이 각각 u ks v ks 인 S-벡터이다.
일부 실행에서, 복수의 좌위는 하나 또는 그 이상의 이중대립유전자 좌위를 포함한다.
일부 실행에서, 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 돌연변이는 하나 또는 그 이상의 사본수 변이 (CNVs)와 중첩된다.
일부 실행에서, 상기 방법은 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는다. 일부 실행에서, 상기 방법은 체성 돌연변이를 보유하는 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는다.
일부 실행에서, 군집화는 마르코프 연쇄 몬테카를로 (MCMC) 방법을 이용하지 않는다.
일부 실행에서, 복수의 체성 돌연변이는 단일 뉴클레오티드 변이체 (SNV), 삽입-결실, 또는 이들의 조합으로 구성된 군에서 선택되는 돌연변이를 포함한다.
본 발명의 추가 양상은 개체로부터 하나 또는 그 이상의 검사 표본에서 하나 또는 그 이상의 돌연변이 변이체에 대한 하나 또는 그 이상의 CCFs를 추정하기 위한 시스템을 제공한다. 상기 시스템은 표본으로부터 핵산 서열 정보를 제공하는 검사 표본으로부터 핵산을 받아들이기 위한 서열분석기, 프로세서; 그리고 본원에서 설명된 방법을 이용하여 하나 또는 그 이상의 돌연변이 변이체에 대한 하나 또는 그 이상의 CCFs를 추정하기 위해, 프로세서 상에서 실행을 위한 명령이 그 안에 저장된 하나 또는 그 이상의 컴퓨터-판독가능 저장 매체를 포함한다.
일부 실행에서, 상기 시스템은 핵산 표본으로부터 핵산 분자를 추출하기 위한 도구를 포함한다.
본 발명의 추가 양상은 컴퓨터 시스템의 하나 또는 그 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 본원에서 설명된 방법을 이용하여 하나 또는 그 이상의 돌연변이 변이체에 대한 하나 또는 그 이상의 CCFs를 추정하도록 유발하는 비일시적인 기계 판독가능 매체 저장 프로그램 코드를 포함하는 컴퓨터 프로그램 제품을 제공한다.
비록 본원의 실시예가 인간에 관계하고, 그리고 언어가 인간의 관심사에 일차적으로 관계하긴 하지만, 본원에서 설명된 개념은 임의의 식물 또는 동물로부터 유전체에 적용가능하다. 본 발명의 이런 저런 목적 및 특질은 하기 설명 및 첨부된 청구항으로부터 더욱 완전히 명백해지거나, 또는 아래에 진술된 바와 같은 개시의 실시에 의해 학습될 수 있다.
참조로서 편입
본원에서 인용된 모든 특허, 특허 출원 및 다른 간행물뿐만 아니라 이들 참고문헌 내에 개시된 모든 서열은 마치 각 개별 간행물, 특허 또는 특허 출원이 참조로서 편입되는 것으로 특정적으로 및 개별적으로 지시되는 것과 동일한 정도로 본원에서 명시적으로 참조로서 편입된다. 인용된 모든 문서는 유관한 부분에서, 본원에서 그들의 인용의 맥락에 의해 지시된 목적으로 본원에서 전체적으로 참조로서 편입된다. 하지만, 임의의 문서의 인용은 이것이 본 발명에 대하여 선행 기술이라는 것을 시인하는 것으로 해석되지 않는다.
도면의 간단한 설명
도 1은 암 진행 동안 발생할 수 있는 체성 돌연변이에 의해 유발된 실례 돌연변이된 펩티드의 계통도이다.
도 2는 하위클론 신항원 발현을 갖는 종양에 적용될 때 관문 저해제 요법의 개략적 도해이다.
도 3은 정상 세포, 그리고 특정 체성 돌연변이를 갖는 종양 세포 및 특정 체성 돌연변이를 갖지 않는 종양 세포의 이질성 혼합물을 포함하는 종양의 개략적 도해이다.
도 4는 모든 정상 세포와 종양 세포가 체성 돌연변이의 1개 사본을 포함하는 계통도 실례를 보여준다.
도 5는 종양 표본이 종양 세포뿐만 아니라 정상 세포로 구성되는 계통도 실례를 보여준다.
도 6은 5개의 비종양 세포 및 10개의 종양 세포를 갖는 종양에 대한 계통도 실례를 보여준다.
도 7은 종양 세포 중에서 단지 일부에서만 체성 돌연변이를 포함하는 좌위가 정상 세포에 비하여 비변이체 대립유전자에서 사본수에서 증가를 갖는 계통도 실례를 보여준다.
도 8은 CNVs가 하위클론성이고, 그리고 이들이 체성 돌연변이와 동일하거나 또는 상이한 세트의 종양 하위클론에 영향을 주는 예시적인 실례를 보여준다.
도 9는 일부 실행에 따라서 암 세포 분율을 결정하기 위한 과정을 도해하는 흐름도를 보여준다.
도 10은 서열 리드를 이용하여 종양 순도 및 사본수를 추정하기 위한 과정을 도해한다.
도 11은 iCCF 값을 군집화하기 위한 과정을 보여준다.
도 12는 일정한 구체예에 따라서 연산 기구로서 역할을 할 수 있는 전형적인 컴퓨터 시스템의 블록 다이어그램을 보여준다.
도 13은 검사 표본으로부터 호출 또는 진단을 산출하기 위한 분산된 시스템의 한 가지 실행을 보여준다.
도 14는 상이한 위치에서 일부 실행의 다양한 작업을 수행하기 위한 옵션을 보여준다.
도 15는 정상 세포 및 2개의 종양 하위클론으로부터 상이한 조성을 갖는 20개 종양 표본의 시뮬레이션 데이터를 산출하는 방법을 도해한다.
도 16은 PyClone에 대한 참 CCFs로부터 추정된 CCFs 편차를 보여준다.
도 17은 ClonScore에 대한 참 CCFs로부터 추정된 CCFs 편차를 보여준다.
도 18은 다중표본 분석에 대한 ClonScore 및 Hao et al. 사이에 CCFs의 차이를 보여준다.
도 19는 다중표본 분석에 대한 PyClone 및 Hao et al. 사이에 CCFs의 차이를 보여준다.
도 20-22는 Hao (도 20), PyClone (도 21) 및 ClonScore (도 22)에 의한 방법의 다중표본 분석의 추정치와 비교하여 ClonScore의 단일 표본 분석의 추정치를 보여준다.
도 23-25는 Hao (도 23), PyClone (도 24) 및 ClonScore (도 25)에 의한 방법의 다중표본 분석의 추정치와 비교하여 PyClone의 단일 표본 분석의 추정치를 보여준다.
상세한 설명
정의
수치 범위는 상기 범위를 규정하는 숫자를 포괄한다. 명세서 전반에서 제공된 모든 최대 수치 한정은 마치 더욱 낮은 수치 한정이 본원에서 명시적으로 기재되는 것처럼 모든 더욱 낮은 수치 한정을 포함하는 하는 것으로 의도된다. 명세서 전반에서 제공된 모든 최소 수치 한정은 마치 더욱 높은 수치 한정이 본원에서 명시적으로 기재되는 것처럼 모든 더욱 높은 수치 한정을 포함할 것이다. 명세서 전반에서 제공된 모든 수치 범위는 마치 더욱 좁은 수치 범위가 모두 본원에서 명시적으로 기재되는 것처럼, 이런 더욱 넓은 수치 범위 내에 들어가는 모든 더욱 좁은 수치 범위를 포함할 것이다.
용어 "약"이 양을 수식하는데 이용될 때, 이것은 상기 양 마이너스 10 내지 상기 양 플러스 10%의 범위를 지칭한다.
본원에서 제공된 표제는 본 발명을 한정하는 것으로 의도되지 않는다.
본원에서 달리 규정되지 않으면, 본원에서 이용된 모든 기술 용어 및 과학 용어는 당업자에 의해 통상적으로 이해된 바와 동일한 의미를 갖는다. 본원에서 포함된 용어를 포함하는 다양한 과학 사전은 널리 알려져 있고 당업자에 가용하다. 비록 본원에서 설명된 것들과 유사하거나 또는 동등한 임의의 방법과 재료가 본원에서 개시된 구체예의 실시 또는 검사에서 용도를 발견하긴 하지만, 일부 방법과 재료가 설명된다.
바로 아래 규정된 용어는 전체적으로 본 명세서를 참조하여 더욱 완전히 설명된다. 본 발명은 설명된 특정 방법론, 프로토콜 및 시약에 한정되지 않는 것으로 이해되는데, 그 이유는 이들이 당업자에 의해 이용되는 맥락에 따라서 변할 수 있기 때문이다. 본원에서 이용된 바와 같이, 단수 용어 "a," "an," 및 "the"는 문맥에서 명백하게 달리 지시되지 않으면 복수 지시대상을 포함한다.
용어 "돌연변이"는 DNA에서 염기 단위의 변경, 또는 유전자 또는 염색체의 더욱 큰 섹션의 결실, 삽입 또는 재배열에 의해 유발된, 차세대에게 전파될 수 있는 변이체 형태를 발생시키는 유전자의 구조의 변화를 지칭한다.
돌연변이는 단일 뉴클레오티드 다형성 (SNP), 단일 뉴클레오티드 변이체 (SNV)로서 알려져 있는 이의 돌연변이된 변이체; 삽입-결실; 그리고 사본수 변이 (CNV)를 포함하지만 이들에 한정되지 않는다. 하지만, 용어 "돌연변이"는 또한, 일부 경우에 SNV 및 삽입-결실을 포함하지만 CNV를 배제하는 더욱 좁은 의미에서 이용되는데, 맥락으로부터 전자를 후자로부터 식별하는 것이 명백할 때 그러하다. 일부 돌연변이는 암과 연관되는 것으로 알려져 있다. 이런 돌연변이는 암 돌연변이로 지칭되고, 그리고 상응하는 변이체는 암 변이체로서 지칭된다.
단일 뉴클레오티드 다형성 (SNP)은 유전체 내에 특정한 위치에서 일어나는 단일 뉴클레오티드에서 변이인데, 여기서 각 변이는 개체군 내에서 다소간 감지가능한 정도로 존재한다 (가령 > 1%).
다형성 및 유전적 다형성은 각각 감지가능한 빈도를 갖는, 하나의 유전체 좌위에서 2개 또는 그 이상 대립유전자의 동일한 개체군에서 발생을 지칭하기 위해 본원에서 교체가능하게 이용된다.
다형성 부위 및 다형성 부위는 2개 또는 그 이상 대립유전자가 상주하는 유전체 상에서 좌위를 지칭하기 위해 본원에서 교체가능하게 이용된다. 일부 실행에서, 이것은 상이한 염기의 2개의 대립유전자를 갖는 단일 뉴클레오티드 변이를 지칭하는데 이용된다.
용어 "대립유전자"는 유전자의 2가지 또는 그 이상의 대안적 형태 중에서 한 가지를 지칭하고 유전체 상에서 동일한 좌위에서 발견된다.
용어 "대립유전자 수"는 특정 대립유전자를 포함하는 서열 리드의 숫자를 지칭한다. 일부 실행에서, 이것은 리드를 참조 유전체 내에 위치에 지도화하고, 그리고 대립유전자 서열을 포함하고 참조 유전체에 지도화되는 리드를 계수함으로써 결정될 수 있다.
대립유전자 빈도는 유전자 (또는 유전자의 변이체)의 모든 대립유전자에 비하여 상기 유전자의 한 대립유전자의 빈도인데, 이것은 분율 또는 백분율로서 표현될 수 있다. 대립유전자 빈도는 특정 유전체 좌위와 종종 연관되는데, 그 이유는 유전자가 종종 하나 또는 그 이상의 좌위에서 위치되기 때문이다.
용어 "변이체 대립유전자"는 관심되는 변이체의 대립유전자, 또는 더욱 구체적으로, 암 관련된 변이체의 대립유전자를 지칭하기 위해 본원에서 이용된다.
용어 "변이체 대립유전자 빈도"는 모든 대립유전자에 비하여 변이체 대립유전자의 빈도를 지칭한다.
용어 "암 세포 분율" (CCF) 또는 "암 세포 돌연변이 분율"은 모든 암 세포 사이에서 체성 돌연변이의 변이체 대립유전자를 갖는 암 세포의 분율을 지칭한다. CCF는 개체의 하나 또는 그 이상의 표본에 대해 계산될 수 있다. 복수 표본이 이용될 때, CCF는 단일 표본을 이용하는 것보다 일부 실행에 따라서 더욱 유효하고 및/또는 신뢰할 수 있다.
암 순도는 표본 내에 모든 세포에 비하여 암 세포의 비율을 지칭한다.
일정한 체성 돌연변이는 시조 세포에서 일어나고 상기 세포의 자손 세포 모두에게 전달된다. 이들 돌연변이는 클론 돌연변이로서 지칭된다. 자손 세포의 성장은 클론 확장으로서 지칭된다. 자손 세포의 개체군은 본원에서 세포의 "클론" 또는 클론 품종으로서 지칭된다. 하지만, 다른 이용에서, 용어 "클론"은 자손 세포의 개체군 내에 세포를 지칭하는데 또한 이용된다.
일부 체성 돌연변이는 하위클론성인데, 이것은 암 클론에서 기존의 신생물 세포에서 일어나고, 그리고 이것으로부터 유래된 세포의 아개체군에게만 전달된다. 세포의 아개체군은 세포의 "하위클론" 또는 하위클론 품종으로서 지칭된다.
"군집화" 또는 클러스터 분석은 동일한 군 (클러스터로 불림) 내에 항목이 일정한 기준에 따라서 다른 군 (클러스터) 내에 것들보다 서로 더욱 유사한 그와 같은 방식으로 한 세트의 항목을 군화하는 과정을 지칭한다. 군집화는 무엇이 클러스터를 구성하고 이들을 어떻게 효율적으로 발견할 지에 관한 이해에서 유의미하게 다른 다양한 기술에 의해 달성될 수 있다. 클러스터를 형성하기 위한 대중적인 기준은 클러스터 구성원 사이에 작은 거리, 데이터 공간의 조밀한 구역, 간격 또는 특정 통계학적 분포를 갖는 군을 포함한다. 군집화는 이런 이유로, 다목적 최적화 문제로서 공식화될 수 있다. 온당한 군집화 알고리즘 및 파라미터 설정 (이용하기 위한 거리 함수, 밀도 역치 또는 예상된 클러스터의 숫자와 같은 파라미터 포함)은 개별 데이터 세트 및 결과의 의도된 용도에 의존한다. 군집화 기술은 하기를 포함하지만 이들에 한정되지 않는다: 연결성-기초된 군집화 (가령, 계층적 군집화), 중심-기초된 군집화 (가령, k-수단 군집화), 분포-기초된 군집화 및 밀도-기초된 군집화.
이항 실험은 하기의 성질을 갖는 통계학적 실험이다: 상기 실험은 n 반복 시험으로 구성된다; 각 시험은 단지 2가지의 가능한 결과 (성공/실패)만을 유발할 수 있다; p에 의해 표시되는 성공 확률은 모든 시험에서 동일하다; 그리고 이들 시험은 독립적이다. 이항 실험의 n 반복 시험에서 성공 횟수 X는 이항 확률 변수이다.
이항 확률 변수는 X ~ B(n, p) 또는 X ~ BN(n, p)으로서 표시될 수 있다.
이항 확률 변수의 확률 분포는 이항 분포로 불린다. 단일 실험, 다시 말하면, n = 1의 경우에, 이항 분포는 베르누이 분포이다. 이항 분포는 하기의 성질을 갖는다: 분포의 평균은 μ=n*p이고; 분산은 σ 2 =n*p*(1- p )이고; 그리고 표준 편차는 σ=sqrt[n*P* (1-P)]이다.
이항 확률은 이항 실험이 정확하게 x 성공을 유발할 확률을 지칭한다. 이항 확률은 하기와 같이 계산될 수 있다.
Figure pct00006
베타 분포는 확률 변수의 지수로서 나타나고 분포의 모양을 제어하는, 예로서, α 및 β (또는 uv)에 의해 표시된 2개의 양성 모양 파라미터에 의해 파라미터화된 간격 [0, 1]에서 규정된 연속 확률 분포의 패밀리이다. 베타 분포는 매우 다양한 규율에서 한정된 길이의 간격에 제한된 확률 변수의 행태를 모형화하는데 적용되었다. 베이지안 추론에서, 베타 분포는 베르누이, 이항, 음이항 및 기하학적 분포에 대한 집합적 사전 확률 분포이다. 가령, 베타 분포는 성공 확률에 관련된 초기 지식을 설명하기 위한 베이지안 분석에서 이용될 수 있다.
만약 확률 변수 X의 확률 분포가 베타 분포이면, 확률 변수 X는 베타 확률 변수로서 지칭된다. 베타 확률 변수는 X ~ Beta(α, β) 또는 X ~ β (α, β)로서 표시될 수 있다.
베타 확률은 베타 확률 변수가 x의 값을 가질 확률을 지칭한다. 베타 확률은 하기와 같이 계산될 수 있다.
Figure pct00007
여기서
Figure pct00008
는 베타 분포의 확률 밀도 함수이고, 그리고
Figure pct00009
는 감마 함수이다.
순환하는 무세포 DNA 또는 단순히 무세포 DNA (cfDNA)는 세포 내에 국한되지 않고 혈류 또는 다른 체액에서 자유롭게 순환하는 DNA 단편이다. cfDNA는 일부 경우에 종양 세포 또는 종양 영향을 받은 세포로부터, 다른 경우에 모체 혈액에서 순환하는 태아 DNA로부터 상이한 기원을 갖는 것으로 알려져 있다. 일반적으로, cfDNA는 단편화되고 유전체의 극히 작은 부분을 포함하는데, 이것은 상기 cfDNA가 획득되는 개체의 유전체와 상이할 수 있다.
용어 비-순환하는 유전체 DNA (gDNA) 또는 세포 DNA는 세포 내에 국한되고 종종 완전한 유전체를 포함하는 DNA 분자를 지칭하는데 이용된다.
용어 "리드"는 핵산 표본의 일부로부터 획득된 서열을 지칭한다. 전형적으로, 비록 반드시 그러한 것은 아니지만, 리드는 표본 내에 연속 염기쌍의 짧은 서열을 나타낸다. 리드는 표본 일부의 염기쌍 서열 (A, T, C, 또는 G에서)에 의해 상징적으로 나타내질 수 있다. 이것은 기억 장치에서 저장되고, 그리고 이것이 참조 서열에 정합하거나 또는 다른 기준에 부합하는 지를 결정하기 위해 적절하게 처리될 수 있다. 리드는 염기서열결정 기구로부터 직접적으로 또는 표본에 관한 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우에, 리드는 더욱 큰 서열 또는 영역을 확인하는데 이용될 수 있는, 예를 들면, 염색체 또는 유전체 영역 또는 유전자에 맞춰 정렬되고 특이적으로 배정될 수 있는 충분한 길이 (가령, 최소한 약 25 bp)의 DNA 서열이다.
본원에서 용어 "파라미터"는 값 또는 다른 특징이 유관한 조건에 영향을 주는 물리적 특질, 예를 들면, 사본수 변이를 나타내는데 이용된다. 일부 경우에, 용어 파라미터는 수학적 관계식 또는 모형의 출력에 영향을 주는 변수와 관련하여 이용되는데, 이들 변수는 독립 변수 (다시 말하면, 모형에 대한 입력) 또는 하나 또는 그 이상의 독립된 변수에 근거된 중간 변수일 수 있다. 모형의 범위에 따라서, 한 가지 모형의 출력은 다른 모형의 입력이 될 수 있고, 따라서 다른 모형에 대한 파라미터가 될 수 있다.
본원에서 용어 "사본수 변이"는 참조 표본 내에 존재하는 핵산 서열의 사본수와 비교하여 검사 표본 내에 존재하는 핵산 서열의 사본수에서 변이를 지칭한다. 일정한 구체예에서, 핵산 서열은 1 kb 또는 더욱 크다. 일부 경우에, 핵산 서열은 전체 염색체 또는 이들의 유의미한 부분이다. "사본수 변이체"는 검사 표본에서 관심되는 핵산 서열 및 예상된 수준의 관심되는 핵산 서열의 비교에 의해 사본수 차이가 발견되는 핵산의 서열을 지칭한다. 가령, 검사 표본에서 관심되는 핵산 서열의 수준은 유자격 표본 내에 존재하는 것과 비교된다. 사본수 변이체/변이는 미세결실을 비롯한 결실, 미세삽입을 비롯한 삽입, 중복, 증식 및 전위를 포함한다. CNVs는 염색체 이수성 및 부분적인 이수성을 포괄한다.
본원에서 용어 "이수성"은 전체 염색체, 또는 염색체 일부의 상실 또는 획득에 의해 유발된 유전 물질의 불균형을 지칭한다.
본원에서 용어 "염색체 이수성" 및 "완전한 염색체 이수성"은 전체 염색체의 상실 또는 획득에 의해 유발된 유전 물질의 불균형을 지칭하고, 그리고 생식계열 이수성 및 모자이크 이수성을 포함한다.
용어 "복수"는 하나 이상의 요소를 지칭한다. 가령, 상기 용어는 본원에서 개시된 방법을 이용하여 검사 표본 및 유자격 표본에서 사본수 변이에서 유의미한 차이를 확인하는데 충분한 핵산 분자 또는 서열 태그의 숫자에 관하여 본원에서 이용된다. 일부 구체예에서, 약 20 및 40bp 사이의 최소한 약 3 x 106개 서열 태그가 각 검사 표본에 대해 획득된다. 일부 구체예에서, 각 검사 표본은 최소한 약 5 x 106, 8 x 106, 10 x 106, 15 x 106, 20 x 106, 30 x 106, 40 x 106, 또는 50 x 106 서열 태그에 대한 데이터를 제공하고, 각 서열 태그는 약 20 내지 40bp를 포함한다.
용어 "폴리뉴클레오티드," "핵산" 및 "핵산 분자"는 교체가능하게 이용되고, 그리고 뉴클레오티드 (다시 말하면, RNA의 경우에 리보뉴클레오티드 및 DNA의 경우에 데옥시리보뉴클레오티드)의 공유 연결된 서열을 지칭하는데, 여기서 한 뉴클레오티드의 펜토오스의 3' 위치가 그 다음 뉴클레오티드의 펜토오스의 5' 위치에 포스포디에스테르 기에 의해 연결된다. 뉴클레오티드는 RNA 및 DNA 분자, 예를 들면, cfDNA 분자를 포함하지만 이들에 한정되지 않는 임의의 형태의 핵산의 서열을 포함한다. 용어 "폴리뉴클레오티드"는 제한 없이, 단일 가닥 및 이중 가닥 폴리뉴클레오티드를 포함한다.
본원에서 용어 "검사 표본"은 검사에서 분석되는 최소한 하나의 핵산 서열을 포함하는 핵산 또는 핵산의 혼합물을 포함하는, 전형적으로 생물학적 유체, 세포, 조직, 장기, 또는 생물체로부터 유래된 표본을 지칭한다. 일정한 구체예에서 표본은 최소한 하나의 핵산 서열을 포함한다. 이런 표본은 경성 및 연성 조직, 객담/경구 유체, 양수, 혈액, 혈액 분획물, 또는 미세바늘 생검 표본 (가령, 외과적 생검, 미세바늘 생검 등), 소변, 복막액, 흉수, 기타 등등을 포함하지만 이들에 한정되지 않는다. 비록 표본이 종종 인간 개체 (가령, 환자)로부터 채취되긴 하지만, 검정은 개, 고양이, 말, 염소, 양, 소, 돼지 등을 포함하지만 이들에 한정되지 않는 임의의 포유동물로부터 표본을 검사하는데 이용될 수 있다. 표본은 생물학적 공급원으로부터 획득된 그대로 직접적으로, 또는 표본의 특징을 변경하기 위한 선처리 이후에 이용될 수 있다. 가령, 이런 선처리는 혈액으로부터 혈장을 준비하고, 점성 유체를 희석하고, 기타 등등을 포함할 수 있다. 선처리의 방법은 또한, 여과, 침전, 희석, 증류, 혼합, 원심분리, 동결, 동결건조, 농축, 증폭, 핵산 단편화, 간섭 성분의 비활성화, 시약의 첨가, 용해 등을 수반할 수 있지만 이들에 한정되지 않는다. 만약 선처리의 이런 방법이 표본에 관하여 이용되면, 이런 선처리 방법은 전형적으로, 관심되는 핵산(들)이 때때로, 처리되지 않은 검사 표본 (가령, 다시 말하면, 임의의 이런 선처리 방법(들)에 종속되지 않는 표본)에서 농도에 비례하는 농도로 검사 표본에서 남아있도록 하는 정도이다. 이런 "처리된" 또는 "가공된" 표본은 본원에서 설명된 방법에 관하여 여전히 생물학적 "검사" 표본인 것으로 고려된다.
본원에서 용어 "훈련 세트"는 영향을 받은 및/또는 영향을 받지 않은 표본을 포함할 수 있고, 그리고 검사 표본을 분석하기 위한 모형을 개발하는데 이용되는 한 세트의 훈련 표본을 지칭한다. 일부 구체예에서, 훈련 세트는 영향을 받지 않은 표본을 포함한다. 이들 구체예에서, CNV를 결정하기 위한 역치는 관심되는 사본수 변이에 대해 영향을 받지 않는 표본의 훈련 세트를 이용하여 확립된다. 훈련 세트에서 영향을 받지 않은 표본은 정규화 서열, 예를 들면, 정규화 염색체를 확인하기 위한 유자격 표본으로서 이용될 수 있고, 그리고 영향을 받지 않은 표본의 염색체 도스는 관심되는 각각의 서열, 예를 들면, 염색체에 대한 역치를 설정하는데 이용된다. 일부 구체예에서, 훈련 세트는 영향을 받은 표본을 포함한다. 훈련 세트에서 영향을 받은 표본은 영향을 받은 검사 표본이 영향을 받지 않은 표본과 쉽게 구별될 수 있다는 것을 실증하는데 이용될 수 있다.
훈련 세트는 또한, 관심되는 개체군 내에 통계학적 표본인데, 이러한 통계학적 표본은 생물학적 표본과 혼동되지 않아야 한다. 통계학적 표본은 종종 복수 개체를 포함하는데, 이들 개체의 데이터는 개체군에 대해 일반화가능한 관심되는 하나 또는 그 이상의 정량적 값을 결정하는데 이용된다. 통계학적 표본은 관심되는 개체군 내에 개체의 부분집합이다. 개체는 인간, 동물, 조직, 세포, 다른 생물학적 표본 (다시 말하면, 통계학적 표본은 복수의 생물학적 표본을 포함할 수 있다), 그리고 통계학적 분석을 위한 데이터 포인트를 제공하는 다른 개별 실체일 수 있다.
통상적으로, 훈련 세트는 검증 세트와 함께 이용된다. 용어 "검증 세트"는 통계학적 표본에서 한 세트의 개체를 지칭하는데 이용된다; 이들 개체의 데이터는 훈련 세트를 이용하여 결정된 관심되는 정량적 값을 검증하거나 또는 평가하는데 이용된다. 일부 구체예에서, 예로서, 훈련 세트는 참조 서열에 대한 마스크를 계산하기 위한 데이터를 제공하고, 반면 검증 세트는 마스크의 타당성 또는 유용성을 평가하기 위한 데이터를 제공한다.
본원에서 "사본수의 평가"는 서열의 사본수에 관련된 유전자 서열의 상태의 통계학적 평가에 관하여 이용된다. 가령 일부 구체예에서, 상기 평가는 유전자 서열의 존재 또는 부재의 결정을 포함한다. 일부 구체예에서 상기 평가는 유전자 서열의 부분적인 또는 완전한 이수성의 결정을 포함한다. 다른 구체예에서 상기 평가는 유전자 서열의 사본수에 근거된, 2개 또는 그 이상의 표본 사이에 구별을 포함한다. 일부 구체예에서, 상기 평가는 유전자 서열의 사본수에 근거된 통계학적 분석, 예를 들면, 정규화 및 비교를 포함한다.
용어 "커버리지"는 규정된 서열에 지도화된 서열 태그의 존재비를 지칭한다. 커버리지는 서열 태그 밀도 (또는 서열 태그의 수치), 서열 태그 밀도 비율, 정규화된 커버리지 양, 조정된 커버리지 값 등에 의해 정량적으로 표시될 수 있다.
본원에서 용어 "차세대 염기서열결정 (NGS)"은 클론 증폭된 분자 및 단일 핵산 분자의 대량 병렬 염기서열결정을 허용하는 염기서열결정 방법을 지칭한다. NGS의 무제한적 실례는 가역성 염료 종결인자를 이용한 합성에 의한 염기서열결정, 그리고 결찰에 의한 염기서열결정을 포함한다.
본원에서 용어 "파라미터"는 시스템의 성질을 특징짓는 수치 값을 지칭한다. 빈번하게, 파라미터는 정량적 데이터 세트 및/또는 정량적 데이터 세트 사이에 수치 관계를 수치적으로 특징짓는다. 가령, 염색체에 지도화된 서열 태그의 숫자 및 태그가 지도화되는 염색체의 길이 사이에 비율 (또는 비율의 함수)이 파라미터이다.
본원에서 용어 "역치값" 및 "유자격 역치값"은 표본, 예를 들면, 의학적 상태를 갖는 것으로 의심되는 생물체로부터 핵산을 내포하는 검사 표본을 특징짓기 위한 컷오프로서 이용되는 임의의 숫자를 지칭한다. 역치는 파라미터 값을 발생시키는 표본이 생물체가 의학적 상태를 갖는다는 것을 암시하는 지를 결정하기 위해, 이런 파라미터 값과 비교될 수 있다. 일정한 구체예에서, 유자격 역치값은 유자격 데이터 세트를 이용하여 계산되고, 그리고 생물체에서 사본수 변이, 예를 들면, 이수성의 진단 한계로서 역할을 한다. 만약 역치가 본원에서 개시된 방법으로부터 획득된 결과보다 하회하면, 개체는 사본수 변이, 예를 들면, 삼염색체성 21로 진단될 수 있다. 본원에서 설명된 방법을 위한 온당한 역치값은 표본의 훈련 세트에 대해 계산된 정규화된 값 (가령 염색체 도스, NCVs 또는 NSVs)을 분석함으로써 확인될 수 있다. 역치값은 유자격 (다시 말하면, 영향을 받지 않은) 표본 및 영향을 받은 표본 둘 모두를 포함하는 훈련 세트에서 유자격 (다시 말하면, 영향을 받지 않은) 표본을 이용하여 확인될 수 있다. 염색체 이수성을 갖는 것으로 알려진 훈련 세트에서 표본 (다시 말하면, 영향을 받은 표본)은 선택된 역치가 검사 세트에서 영향을 받은 표본을 영향을 받지 않은 표본으로부터 구별하는데 유용하다는 것을 확증하는데 이용될 수 있다 (본원의 실시예 참조). 역치의 선택은 분류를 하기 위해 사용자가 확보하기 원하는 신뢰 수준에 의존한다. 일부 구체예에서, 온당한 역치값을 확인하는데 이용되는 훈련 세트는 최소한 10, 최소한 20, 최소한 30, 최소한 40, 최소한 50, 최소한 60, 최소한 70, 최소한 80, 최소한 90, 최소한 100, 최소한 200, 최소한 300, 최소한 400, 최소한 500, 최소한 600, 최소한 700, 최소한 800, 최소한 900, 최소한 1000, 최소한 2000 , 최소한 3000, 최소한 4000개, 또는 그 이상의 유자격 표본을 포함한다. 역치값의 진단적 유용성을 향상시키기 위해 유자격 표본의 더욱 큰 세트를 이용하는 것이 유리할 수 있다.
용어 "빈"은 서열의 분절 또는 유전체의 분절을 지칭한다. 일부 구체예에서, 빈은 유전체 또는 염색체 내에서 서로 인접한다. 각 빈은 참조 서열, 예를 들면, 참조 유전체에서 뉴클레오티드의 서열을 규정할 수 있다. 빈의 크기는 특정 적용 및 서열 태그 밀도에 의해 요구되는 분석에 따라서, 1 kb, 100 kb, 1Mb 등일 수 있다. 참조 서열 내에서 그들의 위치에 더하여, 빈은 다른 특징, 예를 들면, 표본 커버리지 및 서열 구조 특징, 예를 들면, G-C 분율을 가질 수 있다.
용어 "리드"는 핵산 표본의 일부로부터 획득된 서열을 지칭한다. 전형적으로, 비록 반드시 그러한 것은 아니지만, 리드는 표본 내에 연속 염기쌍의 짧은 서열을 나타낸다. 리드는 표본 일부의 염기쌍 서열 (A, T, C, 또는 G에서)에 의해 상징적으로 나타내질 수 있다. 이것은 기억 장치에서 저장되고, 그리고 이것이 참조 서열에 정합하거나 또는 다른 기준에 부합하는 지를 결정하기 위해 적절하게 처리될 수 있다. 리드는 염기서열결정 기구로부터 직접적으로 또는 표본에 관한 저장된 서열 정보로부터 간접적으로 획득될 수 있다. 일부 경우에, 리드는 더욱 큰 서열 또는 영역을 확인하는데 이용될 수 있는, 예를 들면, 염색체 또는 유전체 영역 또는 유전자에 맞춰 정렬되고 특이적으로 배정될 수 있는 충분한 길이 (가령, 최소한 약 25 bp)의 DNA 서열이다.
본원에서 용어 "서열 태그"는 정렬에 의해 더욱 큰 서열, 예를 들면, 참조 유전체에 특이적으로 배정된, 다시 말하면, 지도화된 서열 리드를 지칭하기 위해 용어 "지도화된 서열 태그"와 교체가능하게 이용된다. 지도화된 서열 태그는 참조 유전체에 독특하게 지도화된다, 다시 말하면, 이들은 참조 유전체에서 단일 위치에 배정된다. 달리 명시되지 않으면, 참조 서열상에서 동일한 서열에 지도화되는 태그는 1회 계수된다. 태그는 데이터 구조 또는 데이터의 다른 기계조립으로서 제공될 수 있다. 일정한 구체예에서, 태그는 리드 서열 및 리드에 대한 연관된 정보, 예를 들면, 유전체 내에서 서열의 위치, 예를 들면, 염색체 상에서 위치를 내포한다. 일정한 구체예에서, 위치는 양성 가닥 배향정위에 대해 특정된다. 태그는 참조 유전체에 맞춰 정렬할 때 한정된 양의 부정합을 허용하도록 규정될 수 있다. 일부 구체예에서, 참조 유전체 상에서 하나 이상의 위치에 지도화될 수 있는 태그, 다시 말하면, 독특하게 지도화되지 않는 태그는 분석에 포함될 수 없다.
용어 "좌위" 또는 "부위"는 참조 유전체 상에서 독특한 위치 (다시 말하면, 염색체 ID, 염색체 위치 및 배향정위)를 지칭한다. 일부 구체예에서, 부위는 서열상에서 잔기, 서열 태그, 또는 분절에 대한 위치를 제공할 수 있다.
본원에서 이용된 바와 같이, 용어 "정렬된," "정렬," 또는 "정렬하는"은 리드 또는 태그를 참조 서열에 비교하고, 그리고 따라서, 참조 서열이 리드 서열을 내포하는 지를 결정하는 과정을 지칭한다. 만약 참조 서열이 리드를 내포하면, 상기 리드는 참조 서열에, 또는 일정한 구체예에서, 참조 서열 내에 특정 위치에 지도화될 수 있다. 일부 경우에, 정렬은 리드가 특정 참조 서열의 구성원인지 아닌 지 (다시 말하면, 리드가 참조 서열에서 존재하거나 또는 부재하는지)를 단순히 판단한다. 가령, 인간 염색체 13에 대한 참조 서열에 리드의 정렬은 리드가 염색체 13에 대한 참조 서열 내에 존재하는 지를 판단할 것이다. 이러한 정보를 제공하는 도구는 세트 멤버십 검사기로 불릴 수 있다. 일부 경우에, 정렬은 리드 또는 태그가 지도화되는 참조 서열 내에 위치를 부가적으로 지시한다. 가령, 만약 참조 서열이 전체 인간 유전체 서열이면, 정렬은 리드가 염색체 13 상에 존재한다는 것을 지시할 수 있고, 그리고 리드가 염색체 13의 특정 가닥 및/또는 부위 상에 있다는 것을 더욱 지시할 수 있다.
정렬된 리드 또는 태그는 참조 유전체로부터 공지된 서열에 대한 이들의 핵산 분자의 순서의 면에서 정합으로서 확인되는 하나 또는 그 이상의 서열이다. 정렬은 비록 전형적으로는 컴퓨터 알고리즘에 의해 실행되긴 하지만, 수동으로 행위될 수 있는데, 그 이유는 본원에서 개시된 방법을 실행하기 위한 합리적인 기간 내에 리드를 정렬하는 것이 불가능할 것이기 때문이다. 서열을 정렬하는 것으로부터 알고리즘의 한 가지 실례는 Illumina Genomics Analysis 파이프라인의 일부로서 배포된 뉴클레오티드 데이터의 효율적인 국부 정렬 (ELAND) 컴퓨터 프로그램이다. 대안으로, 블룸 필터 또는 유사한 세트 멤버십 검사기가 리드를 참조 유전체에 맞춰 정렬하는데 이용될 수 있다. 2011년 10월 27일자 제출된 US 특허 출원 번호 61/552,374를 참조하는데, 이것은 본원에서 전체적으로 참조로서 편입된다. 정렬할 때 서열 리드의 정합은 100% 서열 정합이거나 또는 100%보다 적은 (비-완벽한 정합)일 수 있다.
본원에서 이용된 용어 "지도화"는 정렬에 의해 서열 리드를 더욱 큰 서열, 예를 들면, 참조 유전체에 특이적으로 배정하는 것을 지칭한다.
본원에서 용어 "유래된"은 핵산 또는 핵산의 혼합물의 맥락에서 이용될 때, 상기 핵산(들)이 이들이 기원하는 공급원으로부터 획득되는 수단을 지칭한다. 가령, 한 구체예에서, 2개의 상이한 유전체로부터 유래되는 핵산의 혼합물은 이들 핵산, 예를 들면, cfDNA가 자연발생 과정, 예를 들면, 괴사 또는 아폽토시스를 통해 세포에 의해 자연적으로 방출되었다는 것을 의미한다. 다른 구체예에서, 2개의 상이한 유전체로부터 유래되는 핵산의 혼합물은 이들 핵산이 개체로부터 2가지 상이한 유형의 세포로부터 추출되었다는 것을 의미한다.
본원에서 용어 "에 근거된"은 특정한 정량적 값을 획득하는 맥락에서 이용될 때, 특정한 정량적 값을 출력으로서 계산하기 위해 다른 양을 입력으로서 이용하는 것을 지칭한다.
본원에서 용어 "생물학적 유체"는 생물학적 공급원으로부터 채취된 액체를 지칭하고, 그리고 예로서, 혈액, 혈청, 혈장, 객담, 세척액, 뇌척수액, 소변, 정액, 땀, 눈물, 타액 등을 포함한다. 본원에서 이용된 바와 같이, 용어 "혈액," "혈장" 및 "혈청"은 이들의 분획물 또는 처리된 일부를 명시적으로 포괄한다. 유사하게, 표본이 생검, 면봉, 도말표본 등으로부터 채취되는 경우에, "표본"은 생검, 면봉, 도말표본 등으로부터 유래된 처리된 분획물 또는 일부를 명시적으로 포괄한다.
본원에서 이용된 바와 같이 용어 "염색체"는 생존 세포의 유전-보유 유전자 전달체를 지칭하는데, 이것은 DNA 및 단백질 성분 (특히, 히스톤)을 포함하는 염색질 가닥으로부터 유래된다. 전통적인 국제적으로 인정된 개별 인간 유전체 염색체 넘버링 시스템이 본원에서 이용된다.
본원에서 이용된 바와 같이 용어 "민감도"는 관심되는 조건이 존재할 때 검사 결과가 양성일 확률을 지칭한다. 이것은 진양성 및 가음성의 합계에 의해 나눗셈된 진양성의 숫자로서 계산될 수 있다.
본원에서 이용된 바와 같이 용어 "특이성"은 관심되는 조건이 부재할 때 검사 결과가 음성일 확률을 지칭한다. 이것은 진음성 및 가양성의 합계에 의해 나눗셈된 진음성의 숫자로서 계산될 수 있다.
도입 및 맥락
본 발명의 기술은 염기서열결정 데이터로부터 체성 돌연변이의 클론형성능의 추론을 위한 신규한 접근법을 제공한다. 수백 개의 체성 돌연변이의 세트를 분석하는데 여러 시간이 소요되는 다른 기술과 대조적으로, 개시된 기술은 1 분 이내에 수백 개 내지 수천 개의 체성 돌연변이의 클론형성능을 추론하여 실제적인 컴퓨터 자원을 절약한다. 게다가, 개시된 기술은 기존의 방법과 유사한 정확도를 전시한다. 개시된 기술의 추가 이점은 동일한 종양으로부터 다중부위 표본추출과는 대조적으로, 단일 종양 표본으로부터 체성 돌연변이의 클론형성능을 추론할 때 정확도에서 상실이 기존의 방법에 비하여 감소된다는 것이다.
본 발명의 기술은 신항원 예측 및 우선순위 결정 파이프라인의 일부로서 실행될 수 있다. 도 1은 암 진행 동안 발생할 수 있는 체성 돌연변이에 의해 유발되는 실례 돌연변이된 펩티드의 계통도이다. 돌연변이된 펩티드는 돌연변이된 펩티드 신항원에 대한 면역 반응을 산출할 수 있는데, 이것은 신항원을 발현하는 세포를 표적으로 하는 면역 요법에 의해 활용된다. 이런 요법은 관문 저해제 요법뿐만 아니라 환자에 의해 발현된 신항원의 세트에 맞춤되는 백신-기초된 요법을 포함할 수 있다. 이런 요법은 값비싸고 집행하는 것이 복잡할 수 있기 때문에, 어떤 환자가 면역-기초된 요법을 받는 것으로부터 향상을 경험할 가능성이 높은 지를 결정하는 것이 유익할 것이다. 신항원 표적화에 의존하는 면역 요법의 성공은 종양 세포의 개체군 내에서 신항원의 우세에 의존할 수 있고, 그리고 신항원의 클론형성능은 관문 저해제 요법에 대한 무반응자로부터 반응자를 분리하는데 있어서 유의미한 인자인 것으로 증명되었다. 도 2는 하위클론 신항원 발현을 갖는 종양에 적용될 때 관문 저해제 요법의 개략적 도해이다. 신항원 12를 표적으로 하는 억제된 T-세포는 관문 저해제 요법에 대응하여 활성화된다. 하지만, 신항원 12가 종양 내에 모든 종양 세포에서 발현되는 것은 아니기 때문에, 상기 요법은 단지 종양 세포의 부분집합만을 표적으로 하고, 이들은 차례로, 불완전 종양 표적화 및 성공적이지 않은 요법을 유발하는데, 그 이유는 신항원 12를 발현하지 않는 종양 세포는 T-세포에 의해 영향을 받지 않기 때문이다.
본 발명의 기술은 작업 흐름의 전체 실행 시간에서 유의미한 증가에 대한 필요 없이 신항원 발현을 전시하는 종양 세포의 개체군의 예측에서, 그리고 소정의 종양 표본과 연관된 특정 신항원의 특징화에서 향상을 제공한다. 이런 예측은 이런 요법에 반응할 것 같지 않은 종양을 앓는 환자에게 면역-기초된 요법의 투여를 예방할 수 있다. 이에 더하여, 암이 시간의 추이에서 진행하기 때문에, 이전에는 면역-기초된 요법에 대한 후보로서 고려되지 않았던 환자가 종양 상태에서 변화를 갖고, 이로 인해 상기 환자가 면역-기초된 요법에 반응할 개연성이 더욱 높아지게 되는 지를 결정하기 위해 개별 환자의 종양이 모니터링될 수 있다. 이전 기술은 체성 돌연변이의 클론형성능을 추론하기 위해 자원-집중 계산을 필요로 하는 반면, 개시된 신규한 접근법은 몇 시간보다는 겨우 몇 분 내에 클론형성능의 정확한 추론을 허용하고, 이런 결정을 임상적으로 더욱 접근가능하게 만든다.
도 3은 정상 세포, 그리고 특정 체성 돌연변이를 갖는 종양 세포 및 특정 체성 돌연변이를 갖지 않는 종양 세포의 이질성 혼합물을 포함하는 종양의 개략적 도해이다. 도해된 실례는 단일 체성 돌연변이에 적용되고, 그리고 다른 체성 돌연변이는 표본 내에서 상이한 분포를 가질 수 있는 것으로 이해되어야 한다. 게다가, 표본 내에서 정상 세포 및 종양 세포의 혼합물은 종양에서 상이한 부위로부터 채취된 표본에 대해 상이할 수 있다. 도해된 실례에서 체성 돌연변이의 암 세포 분율은 70%이고, 그리고 체성 돌연변이를 포함하는 종양 세포 및 정상적이지 않은 세포의 백분율에 근거된다.
체성 돌연변이에 의해 영향을 받는 세포의 분율이 증가함에 따라서, 돌연변이된 좌위에 지도화되고 상기 돌연변이를 전시하는 서열 리드의 예상된 분율, 변이체 대립유전자 빈도 (VAF) 역시 증가할 것이다. 표본이 단지 종양 세포로만 구성되고, 그리고 체성 돌연변이가 2개의 대립유전자 중에서 단지 한 가지에만 영향을 주는 경우에, CCF는 정상 세포 14 및 종양 세포 16 모두 변이체 대립유전자 20으로서 표시된, 체성 돌연변이의 1개 사본을 포함하는 도 4의 실례에서 도시된 바와 같이, 예상된 변이체 대립유전자 빈도의 단순히 2배이다. 다시 말하면, 변이체 대립유전자 빈도가 0.5 (서열 변이체를 포함하는 서열 리드 중에서 50%를 지시함)일 때, CCF는 1 (변이체 대립유전자가 표본 내에 세포의 100%에서 존재한다는 것을 지시함)이다.
하지만, 종양 표본은 도 5의 실례에서 도시된 바와 같이, 종양 세포뿐만 아니라 정상 세포 22로 구성된다. 게다가, 종양 표본 내에 종양 세포는 서로로부터 갈라지고 상이한 특징적인 체성 돌연변이를 갖는 세포를 비롯하여, 이질성일 수 있다. 따라서, 종양은 특정 체성 돌연변이를 포함하지 않는 세포 24 및 특정 체성 돌연변이를 포함하는 세포 26의 혼합물을 포함한다. 게다가, 두 번째 (또는 상이한) 체성 돌연변이가 고려될 때, 혼합물은 두 번째 돌연변이를 갖는 세포 24 및 두 번째 돌연변이를 포함하지 않는 세포 26으로 교체될 수 있다. 클론 개체군의 경우에, 일정한 체성 돌연변이는 유사한 분율의 종양 세포에서 발견되는 체성 돌연변이의 확인이 본원에서 제시된 바와 같은 동일한 하위클론의 일부인 것으로 고려될 수 만큼 함께 유전될 것이다. 한 구체예에서, 다른 체성 돌연변이의 다른 암 세포 분율에 비하여 플러스 또는 마이너스 5% 이내에 암 세포 분율을 갖는 개별 체성 돌연변이는 동일한 하위클론의 일부일 가능성이 높은 것으로 고려될 수 있다. 다시 말하면, 만약 체성 돌연변이가 x%의 암 세포 분율을 가지면, x-5% 내지 x+5%의 범위에서 암 세포 분율을 갖는 다른 체성 돌연변이는 동일한 하위클론의 일부일 가능성이 높은 것으로 고려될 수 있다. 다른 구체예에서, 동일한 하위클론의 일부인 체성 돌연변이는 본원에서 제시된 바와 같은 군집화 분석을 통해 확인될 수 있다.
도 5는 70%의 CCF를 갖는 실례 체성 돌연변이에 대한 VAF가 20%이라는 것을 보여주는데, 이것은 비종양 세포뿐만 아니라 체성 돌연변이를 갖지 않는 종양 세포를 포함하는 표본을 반영한다. 이런 경우에, 변이체 대립유전자 빈도는 종양 순도 (p) 및 암 세포 분율의 함수이다. 도 6에서 도시된 바와 같이, 5개의 비종양 세포 28 및 10개의 종양 세포를 갖는 종양 (여기서 종양 세포는 체성 돌연변이를 갖는 세포 30 및 체성 돌연변이를 갖지 않는 세포 32의 혼합물을 포함하고, 체성 돌연변이는 변이체 대립유전자 34로서 표시됨)의 경우에, 종양 순도 (p)는 33%로서 표현된다.
하지만, 이것은 예상된 VAF 및 암 세포 분율 사이의 관계에 또한 영향을 줄 수 있는 종양 세포에서 사본수 변이를 설명하지 못한다. 도 7은 종양 세포 중에서 단지 일부에서만 체성 돌연변이를 포함하는 좌위가 정상 세포에 비하여 비변이체 대립유전자에서 사본수에서 증가를 갖는 실례를 보여준다. 다시 말하면, 체성 돌연변이는 종양 세포 34에서 도시된 바와 같이 하위클론성이고, 반면 비변이체 대립유전자에서 사본수 증가는 정상 세포 38에 비하여, 체성 돌연변이를 포함하지 않는 종양 세포 36을 비롯한 종양 세포의 개체군의 전역에서 일어난다. 게다가, CNVs가 하위클론성일 수 있고, 그리고 이들은 도 8의 실례에서 도시된 바와 같이, 체성 돌연변이와 동일하거나 또는 상이한 세트의 종양 하위클론에 영향을 줄 수 있다. 일정한 CNVs는 돌연변이를 보유하는 대립유전자에 영향을 주고, 반면 다른 CNVs는 다른 대립유전자에 영향을 준다. 예시된 실례에서 도시된 바와 같이, 종양 세포의 한 개체군 42는 CNV 및 체성 돌연변이에 대하여 정상 세포 44와 유사한 표현형을 전시한다. 종양 세포의 다른 개체군 46은 체성 돌연변이를 포함하지만 CNV를 포함하지 않고, 반면 종양 세포의 또 다른 개체군 48은 CNV 및 체성 돌연변이 둘 모두를 포함한다. 이 모든 것들과 함께, 예상된 VAF 및 CCF 사이에 일반적인 관계는 하기와 같이 기재될 수 있고:
Figure pct00010
여기서 p는 종양 순도이고, n은 돌연변이를 보유하는 세포에서 상기 유전체 좌위의 돌연변이된 사본의 평균 숫자이고, 그리고 N은 표본 내에 모든 세포의 전역에서 유전체 좌위의 평균 사본수이고, 그리고 p, n, N 및 CCF는 모두 미지수이다.
관찰된 VAF는 예상된 VAF의 추정치 (이것에 대해 CCF에 대한 관계가 유효하다)이다. 염기서열결정 깊이가 증가함에 따라서, 관찰된 VAF는 예상된 VAF에 근접한다. 이런 이유로, 더욱 높은 깊이는 통상적으로 더욱 우수한 CCF 추정치를 야기할 것이다. 하지만, 일정한 구체예에서, 관찰된 VAF에서 가변성은 동일한 종양 하위클론에서 존재하는 모든 체성 돌연변이의 전역에서 정보를 이용하여 접근될 수 있다. 만약 복수 체성 돌연변이가 동일한 종양 하위클론에서 존재하면, 이들은 정의에 의해 동일한 CCF (및 만약 이들이 CNVs와 중첩되지 않는다면 동일한 예상된 VAF)를 가질 것이다.
어떤 체성 돌연변이가 동일한 종양 하위클론에 속하는 지 또는 얼마나 많은 하위클론이 특정 종양에서 발견될 수 있는 지는 알려져 있지 않다. 하지만, VAF 또는 CCF에 근거하여 체성 돌연변이를 군집화함으로써, 종양 하위클론의 숫자가 추정될 수 있고, 그리고 각 클러스터 내에 모든 돌연변이에 대한 최종 CCF 추정치가 상기 클러스터에 대한 평균 (또는 다른 통계) CCF로서 배정될 수 있다.
체성 돌연변이는 단일 표본에 근거하여 군집화될 수 있다. 하지만, 군집화는 만약 동일한 종양으로부터 복수 표본이 가용하면 더욱 신뢰할 수 있다. 복수 표본이 가용할 때, 동일한 하위클론으로부터 돌연변이는 모든 표본의 전역에서 동일한 암 세포 분율을 일관되게 가질 것으로 예상된다 (공변이). 이런 이유로, 공변이의 이런 패턴이 관찰될 때, 변이체는 더욱 확실하게 함께 군집화될 수 있다.
본 발명의 기술은 VAF로부터 CCF를 추정하기 위해 일종의 단순화 가정을 하는 기존의 방법에 비하여 이점을 제공한다. 이들 방법의 결점은 CNVs 및 종양 순도에서 가변성의 다양한 시나리오의 효과를 무시하는 것에 기인한 부정확을 포함한다. 게다가, 일정한 기술은 CNVs와 중첩되는 체성 돌연변이에 의해 유발된 추정치에서 부정확을 설명하지 못한다. 그 이유는 종종 종양 내에서 매우 큰 분율의 체성 돌연변이가 CNVs와 중첩되기 때문이다.
다른 통상적인 가정은 CNVs가 클론성이라는 것이다. 이러한 가정을 하는 방법은 또한, 종양 세포에서 CNV-영향을 받은 좌위의 사본수 및 종양 순도가 이전에 실행된 CNV 호출 도구에 의해 정확하게 추정되었다고 가정한다. 이런 가정이 충족될 때, N은 하기와 같이 추정될 것이고:
Figure pct00011
여기서 C는 모든 종양 세포 상에서 상기 좌위의 사본수이다. 이 경우에 있어서, n은 또한, 단지 한정된 숫자의 1 및 C 사이에 정수 값, 또는 대립유전자 사본수 값이 가용할 때 훨씬 작은 숫자의 가능한 값만을 가정할 수 있다. 이런 방법은 n 및 CCF의 어떤 값이 아마도, 관찰된 VAF를 야기하는 지를 결정하려고 시도할 것이다. 일정한 방법에 의해 만들어진 클론 CNV 가정에서 변이는 CNVs가 반드시 클론성인 것은 아니고, 체성 돌연변이를 보유하는 모든 세포가 CNV에 의해 영향을 받거나 또는 영향을 받지 않는다는 것이다 (CNV는 돌연변이를 보유하는 세포 중에서 단지 일부에만 영향을 줄 수는 없다). 비록 이것이 다른 방법의 결점을 해소할 수 있긴 하지만, 대부분의 CNV 호출 도구는 또한, CNV 영역의 사본수를 추정할 때 CNVs가 클론성이고, 따라서 더욱 복잡한 모형으로부터 비롯될 수 있었던 유익성이 그다지 확연하지 않을 수도 있다고 가정한다. 종양 하위클론의 숫자, 그리고 어떤 돌연변이가 동일한 하위클론에 속하는 지의 추론은 때때로 마르코프 연쇄 몬테카를로 분석 또는 관련된 방법을 이용하여 다른 파라미터의 추론과 동시에 행위되고, 그리고 체성 돌연변이의 전체 세트의 전역에서 아마도 CCF 및 n 값을 결정하는데 잠재적으로 보조할 수 있다. 이런 접근법의 부정적인 면은 분석을 완결하는데 필요한 시간이다.
본 발명의 기술은 복잡한 연산 부담을 동시에 부가하지 않으면서, 종양 표본에서 CNV 복잡성을 정확하게 해소하지 못하는 다른 방법의 결함을 해소한다. 따라서, 본 발명의 기술을 이용하는 장치가 더욱 효율적으로 작동하도록 더욱 빠르게, 그리고 더욱 낮은 연산 부하를 이용하여 실행되는 체성 돌연변이의 클론형성능의 효율적인 추론이 제공된다.
본 발명의 기술은 돌연변이된 대립유전자의 단지 하나의 사본만 돌연변이를 보유하는 각 세포에서 존재한다고 가정함으로써 (n = 1), CNV 복잡성의 문제를 해소한다. 상기 가정은 CNVs와 중첩되지 않거나, 사본수 감소와 중첩되거나, 또는 돌연변이된 대립유전자에 특이적으로 영향을 주지 않았던 사본수 증가와 중첩되는 모든 체성 변이체에 대해 유효할 것이다. 그것과 함께, CCF 및 예상된 VAF 사이의 관계는 아래와 같다:
Figure pct00012
여기서 p는 종양 순도이고, 그리고 N은 표본 내에 모든 세포의 전역에서 상기 유전체 좌위의 평균 사본수이다. p 및 N의 추정치는 종양-정상-농축 방식에서 CNV 호출자, 예를 들면, Canvas 호출자 (Illumina, Inc.)에 의해 만들어진다. Canvas는 (a) 주로 이배수체 생식계열 표본, 또는 (b) 동일한 개체로부터 종양 표본과 함께 생식계열 표본으로부터 사본수 변이체를 호출하기 위한 알고리즘이다. 극대다수의 정상적인 생식계열 표본은 이배수체일 것이다, 다시 말하면, 2개의 사본을 가질 것이다. 하지만, 종양 표본은 훨씬 광범위하게 재배열될 수 있다. Canvas는 유전체 내에서 0배, 1배, 또는 2배 이상으로 존재하는 표본의 유전체의 영역을 확인한다. 간단히 말하면, 이것은 예상치 못한 숫자의 짧은 리드 정렬을 갖는 영역에 대해 유전체를 스캐닝함으로써 달성된다. 예상된 숫자보다 적은 정렬을 갖는 영역은 감소로서 분류된다. 예상된 숫자보다 많은 정렬을 갖는 영역은 증가로서 분류된다. 이러한 분석은 이후, 개별 좌위에서 사본수 변이를 추정하는데 이용된다. 정수 사본수 추정치를 이용하기 보다는, 본 발명의 기술은 정규화된 커버리지 추정치를 이용하는데, 이들은 표본 내에 모든 세포의 전역에서 상기 유전체 좌위의 평균 사본수 (N)를 추정한다. 실가 정규화된 커버리지를 이용하는 이점은 이것이 CNV의 클론형성능을 가정하는 다른 기술에서 결함을 해소한다는 것이다. 그것과 함께, 초기 가정이 유효하기만 하면, 본 발명의 기술에 의해 산출된 CCF 추정치는 클론 및 하위클론 CNVs 둘 모두와 중첩되는 변이체에 대해 유효할 것이다.
n > 1일 때, 본 발명의 기술에 의해 만들어진 CCF 추정치는 잠재적으로 1보다 클 것이다. 이런 무의미한 CCF 추정치를 방지하기 위해, CCF 추정치는 1에서 캡핑된다. 이런 이유로, 초기 CCF 추정치는 하기 공식을 이용하여 만들어진다:
Figure pct00013
Figure pct00014
일단 초기 CCF 값이 추정되면, SciClone R 패키지가 그들의 CCF에 근거하여 체성 돌연변이를 군집화하는데 이용되었다. SciClone는 그들의 VAF에 근거하여 CNV 영역의 외부에 놓인 체성 변이체를 군집화한다. 군집화를 위한 변분 베이지안 혼합 모형의 이의 이용은 동시적 군집화 및 클러스터의 숫자의 추론을 허용하고, 그리고 다른 방법에 의해 이용되는 확률적 마르코프 연쇄 몬테카를로 기술보다 훨씬 효율적이다. 하지만, 본 발명의 기술은 VAF 대신에 CCF (사본수에 대해 정규화됨)에 근거하여 체성 변이체를 군집화하였는데, 이것은 CNV-중첩 체성 변이체의 군집화를 허용한다. SciClone는 또한, 단일 표본 내에서, 그리고 동일한 종양의 복수 표본의 전역에서 둘 모두를 군집화하는 것을 허용한다. 본원에서 제시된 바와 같이, 군집화는 이항, 베타 또는 가우스 혼합 모형을 비롯한 다양한 상이한 혼합 모형을 이용하여 실행될 수 있다. 이런 확률적 군집화는 각각의 상이한 클러스터에 속하는 개별 서열 변이체 (체성 돌연변이를 나타냄)의 확률 추정치의 산출된 출력을 야기한다. 일정한 구체예에서, 본 발명의 기술은 군집화후 CCF 추정치를 각 클러스터에서 체성 돌연변이의 평균 CCF의 선형 결합 및 각 클러스터에 속하는 돌연변이의 사후 확률로 갱신한다. 실제 염기서열결정 깊이 및 대안적 대립유전자의 수치에 의존하는, 군집화를 위한 이항 혼합 방식을 이용할 때, 대안 대립유전자 수는 이들이 VAF 대신에 CCF와 일치하도록 만드는 방식으로 조정된다 (대안적 수치 = 깊이 x ccf).
기술적인 문제 및 기술적인 향상
암을 효과적으로 치료하기 위해, 암의 근원이 되는 돌연변이뿐만 아니라 이들 돌연변이의 클론 구조를 이해하는 것이 중요하다. 암의 클론 구조에 관련된 다수의 파라미터가 요법을 설계하는데 유용하다. 가령, 암 세포 분율 및 하위클론의 숫자는 암 클론형성능의 중요한 척도이다. 이들 파라미터를 결정하는 한 가지 방식은 암 표본에서 개별 세포의 돌연변이를 결정하기 위해 단일 세포 염기서열결정 방법을 이용하는 것이다. 개별 세포의 유전 정보에 기초하여, 암 세포의 클론 구조가 결정될 수 있다. 하지만, 단일 세포 염기서열결정 방법은 다양한 한계를 갖는다. 현재 시점에서, 단일 세포 염기서열결정은 값비싸고, 그리고 다수의 암 세포를 조사하는데 효율적으로 수행될 수 없다. 그리고 단일 세포 염기서열결정 방법을 이용할 때, 대립유전자 탈락과 같은 기술적인 과제가 여전히 남아있다.
복수 세포의 염기서열결정 데이터를 이용하여, 암 변이체의 변이체 대립유전자 빈도를 직접적으로 계측할 수 있다. 하지만, 변이체 대립유전자 빈도의 직접적인 계측은 돌연변이의 일정한 클론 구조에 관한 정보를 제공하지 못한다. 암 세포 분율 (CCF)은 변이체 대립유전자 빈도에 관계할 뿐만 아니라 사본수 변이 및 종양 순도를 고려하여, 암 돌연변이의 특징에 관한 더욱 많은 정보를 제공한다. 하지만, 개별 돌연변이의 암 세포 분율은 한정된 염기서열결정 깊이를 갖는데, 이것은 관찰된 또는 계측된 암 세포 분율을 잡음이 있고 신뢰할 수 없게 만든다.
관찰된 VAF 또는 CCF는 예상된 VAF 또는 예상된 CCF의 추정치이다. 염기서열결정 깊이가 증가함에 따라서, 관찰된 값은 예상된 값에 근접한다. 따라서 염기서열결정 깊이를 증가시킴으로써, 관찰된 값의 신뢰도를 증가시킬 수 있다. 하지만, 이런 접근법은 증가된 염기서열결정 깊이를 인식하기 위해 더욱 많은 시간, 재료 및 비용을 필요로 한다. 일부 기존 방법은 하위클론에서 존재하는 돌연변이의 치수를 집계함으로써 결과의 신뢰도를 향상시키려고 시도한다. 하위클론의 세포는 동일한 돌연변이, 그리고 따라서, 동일한 CCF를 갖는 것으로 추측된다. 하지만, 이들 방법은 다양한 기술적인 한계를 포함한다. 가령, 폭넓게 이용되는 방법 PyClone는 마르코프 연쇄 몬테카를로 (MCMC) 시뮬레이션 기술을 이용한다. 하지만, MCMC 기술은 연산적으로 부담이 크고, 그리고 불확실성을 도입하는 연쇄 수렴에 관한 가정에 의존한다. 게다가, 상기 방법은 돌연변이와 부분적으로 중첩되는 사본수 변이를 합당하게 설명하지 못한다.
사본수를 이용하여 클론형성능을 추론하는 다른 방법은 종양 표본이 하위클론 사본수 사건을 품지 않는다는 단순화 가정을 함으로써, 연산 오버헤드를 방지한다. 이런 가정은 종종 거짓이다. 일부 방법은 CNV 및 종양 순도의 효과를 단순하게 완전히 무시해 버리거나, 또는 CNVs와 중첩되는 체성 돌연변이를 다루지 않는다. 이들은 그 대신에, 어떤 체성 돌연변이가 동일한 하위클론에 속하는 지를 결정하는 문제, 다시 말하면, 군집화에 집중한다. 이들 기존의 방법은 바람직하지 않은데, 그 이유는 종양 내에서 매우 큰 분율의 체성 돌연변이가 CNVs와 중첩되기 때문이다. 많은 방법은 CNVs가 클론성이라고 가정한다. 하지만, 전술된 바와 같이, CNVs가 항상 클론성인 것은 아니다.
폭넓게 이용되는 도구인 PyClone에 의해 만들어진, 클론 CNV 가정에서 변이는 CNVs가 반드시 클론성인 것은 아니고, 체성 돌연변이를 보유하는 모든 세포가 CNV에 의해 영향을 받거나 또는 영향을 받지 않는다는 것이다. Roth et al., (2014), Nat Meth 11: 396-398. 다시 말하면, 이것은 CNV가 돌연변이를 보유하는 세포 중에서 일부에만 영향을 줄 수 없다고 가정한다. 이러한 가정은 여전히 항상 참인 것은 아니고, 그리고 CCF 또는 변이체 대립유전자 빈도 (VAF) 추정에서 부정확을 야기할 수 있다.
한 가지 기존의 방법, SciClone는 변분 혼합 모형을 이용하여, VAFs를 군집화하고 하나 또는 그 이상의 클러스터에 속하는 변이체의 확률을 결정함으로써 변이체 대립유전자 빈도를 결정한다. 하지만, SciClone의 군집화는 돌연변이 좌위에서 평균 사본수, 변이체 대립유전자의 사본수, 또는 종양 순도 수준을 설명하지 못한다. Miller, et al. (2014), PLoS Comput Biol 10(8): e1003665.
돌연변이에 의해 영향을 받는 암 세포의 분율 (CCF)이 증가함에 따라서, 돌연변이 좌위에 지도화되고 돌연변이를 전시하는 리드의 예상된 분율 (VAF) 역시 증가한다. 표본이 단지 종양 세포로만 구성되고, 그리고 체성 돌연변이가 2개의 대립유전자 중에서 단지 하나에만 영향을 주는 경우에, CCF는 예상된 변이체 대립유전자 빈도의 단순히 2배이다. 하지만, 종양 표본은 종양 세포뿐만 아니라 정상 세포를 포함한다. 또한, 사본수 변이는 예상된 VAF 및 CCF 사이의 관계에 영향을 줄 수 있다. 게다가, CNVs는 체성 돌연변이와 동일하거나 또는 상이한 세트의 종양 또는 클론에 영향을 줄 수 있다. 이들은 때때로, 돌연변이를 보유하는 대립유전자 및 때때로, 다른 대립유전자에 영향을 준다. 이 모든 것들과 함께, 예상된 VAF 및 CCF 사이에 일반적인 관계는 하기와 같이 기재될 수 있고:
Figure pct00015
여기서 p는 종양 순도이고, n은 돌연변이를 보유하는 세포에서 상기 유전체 좌위의 돌연변이된 사본의 평균 숫자이고, 그리고 N은 표본 내에 모든 세포의 전역에서 상기 유전체 좌위의 평균 사본수이다. VAF를 계측하고 군집화하는 방법, 예를 들면, SciClone는 종양 순도 또는 사본수 변이를 적절하게 설명한다.
본 발명의 일부 실행은 기존의 방법의 다양한 단점을 해소하면서, CCF를 추정하고 암 세포의 클론형성능을 평가하기 위한 방법 및 시스템을 제공한다. 본 발명의 실행은 추정된 CCF의 신뢰도를 증가시키기 위해 하위클론에서 복수 돌연변이로부터 정보를 종합한다. 본 발명의 실행은 동일한 하위클론에서 체성 돌연변이로부터 데이터를 종합함으로써 염기서열결정 깊이를 증가시키지 않으면서, 계측의 정확도를 증가시킬 수 있다. 어떤 체성 돌연변이가 동일한 종양 하위클론에 속하는 지 또는 얼마나 많은 하위클론이 상기 종양에서 발견될 수 있는 지는 선험적으로 인식되지 않는다. 본 발명의 실행은 군집화 방법을 이용하여, 체성 돌연변이를 그들의 CCFs에 근거하여 군집화한다. 개시된 실행은 돌연변이 변이체 및 돌연변이 좌위의 종양 순도 및 사본수를 고려하여, VAFs 대신에 CCFs를 군집화한다. 개시된 실행은 이후, 돌연변이가 속하는 클러스터에 대한 CCF 값의 평균 (또는 다른 통계학적 평균)에 근거하여 상기 돌연변이에 대한 최종 CCF를 결정한다.
PyClone과 달리, 개시된 실행은 MCMC에 의존하지 않고, 따라서 불확실성을 감소시키고 연산 속도를 증가시킨다. 일부 실행에서, 상기 방법은 몇 초 내에 결과를 달성하고 획득하는 반면, MCMC 기술을 이용하는 기존의 방법은 7 시간 내에 결과를 획득한다.
MCMC는 수행을 위해 대량의 컴퓨터 메모리를 필요로 하는 것으로 널리 알려져 있다. MCMC을 이용하지 않는 개시된 방법은 과제를 수행하기 위해 필요한 컴퓨터 메모리를 크게 감소시킬 수 있다.
온라인 공개에서, Guilhoto는 MCMC를 이용하여 분석된 2차원 실례의 경우에, 만약 각 치수를 500개의 부문으로 분할하면, 이것은 크기 5002 = 250000의 상태 공간, 그리고 총 12500000000개 엔트리를 갖는 전이 행렬을 유발할 것이라고 설명한다. 각 엔트리가 4 바이트의 메모리 (파흥 추정치)를 이용하여 저장된다고 가정하면, 이것은 전체 행렬이 250 GB의 메모리를 필요로 할 것이라는 것을 의미할 것이다. n 치수의 경우에, 각각이 m 파티션으로 나눠지면, 필요한 메모리의 양은 O(m2n)일 것이다. 이런 컴퓨터 메모리 요건은 자원 부담이 크다. 필요한 컴퓨터 메모리를 감소시키기 위한 제2의 해결책은 모든 값을 메모리에 저장하기 보다는, 필요할 때마다 임의의 특정한 전이 확률을 계산하는 것이다. 이것은 하지만, 프로그램의 속도를 더욱 늦춘다. math dot uchicago dot edu/~may/REU2017/REUPapers/Guilhoto.pdf를 참조한다.
이런 이유로, MCMC에 의존하지 않는 개시된 방법은 MCMC 기술을 적용하는 기존의 방법, 예를 들면, PyClone와 비교하여 컴퓨터 메모리 이용율을 감소시키고 연산 속도를 향상시킬 수 있다.
게다가, 본 발명의 다양한 실행은 클론성이 아닌 CNVs를 설명할 수 있다. 다시 말하면, 이들은 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는다. 또한, 이들은 체성 돌연변이를 보유하는 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는다.
상기 기술적인 성격 때문에, 개시된 실행은 암의 CCF 및 클론형성능의 더욱 정확하고 더욱 유효한 추정을 달성할 수 있다. 이들은 다양한 표본의 전역에서 더욱 일관된 결과를 제공한다. 일부 실행에서, 복수 표본이 이용될 때, CCF 및 클론형성능의 추정이 더욱 향상된다. 이들 실행이 MCMC을 필요로 하지 않기 때문에, 이들은 MCMC 기술을 이용하는 기존의 방법보다 5 크기 자릿수 빨리 결과를 획득할 수 있다. 또한, 이들은 MCMC을 이용하는 기존의 방법보다 훨씬 적은 컴퓨터 메모리를 필요로 한다.
암 세포의 CCFs 및 클론형성능 추정
작업 흐름의 개요
(i) 표본 채취
작업 흐름은 종양의 단일 표본을 채취함으로써 시작된다. 종양은 체성 돌연변이를 포함하거나 포함하지 않을 수 있는 비암 세포를 포함할지도 모른다. 종양 표본은 또한, 첫 번째 하위클론 품종, 또는 단순히 하위클론의 암 세포를 포함하는데, 이들은 하위클론에 독특한 하나 또는 그 이상의 체성 돌연변이, 그리고 다른 하위클론 또는 시조 클론에서 나타나는 하나 또는 그 이상의 돌연변이를 포함할 수 있다. 이에 더하여, 표본은 첫 번째 하위클론 이외에 하나 또는 그 이상의 하위클론의 암 세포를 포함할 수 있다. 이들 추가 하위클론 각각은 이의 자체 하위클론에 독특한 하나 또는 그 이상의 돌연변이 및 또는 이것이 하나 또는 그 이상의 다른 하위클론 (가령, 시조 클론의 클론 돌연변이)과 공유하는 하나 또는 그 이상의 돌연변이를 가질 지도 모른다. 일정한 돌연변이는 모든 하위클론에서 발견될 수 있다. 이런 돌연변이는 클론 돌연변이 또는 생식계열 돌연변이이다. 하위클론에서만 발견되는 돌연변이는 하위클론성인 것으로 고려된다. 종양 내에 모든 암 세포 (다시 말하면, 모든 하위클론) 사이에서 체성 돌연변이를 포함하는 암 세포의 분율은 종양의 중요한 성질이다.
일부 실행에서, 표본은 개체의 조직으로부터 획득된 세포 DNA를 포함한다. 일부 실행에서, 종양 표본은 체액에서 순환하고 암 세포로부터 유래하는 무세포 DNA (cfDNA)를 포함한다.
주목할 것은 개시된 방법을 적용하기 위해, 소정의 종양 세포에서 최소한 2개의 체성 돌연변이가 있다고 상정된다는 점이다. 하지만, 단일 표본은 하나 또는 그 이상의 하위클론을 포함할 수 있다. 정의에 의한 단일 변이체는 상기 변이체가 클론성이고, 그리고 표본 내에 모든 다른 세포가 비암성이라는 것을 의미한다.
본원에서 개시된 방법은 검사 개체로부터 하나 또는 그 이상의 암 표본을 분석할 수 있다. 일부 실행에서, 복수 표본을 분석하는 것은 결과의 정확도 및 타당성을 향상시킨다.
개시된 과정에 이용되는 검사 표본은 종양 세포로부터 유래하는 DNA를 포함한다. 이들은 다양한 종양 표본일 수 있다 (참조: 가령, 조직 및 유체 표본). 유관한 검사 표본에 관한 추가 설명을 위해 표본 섹션을 참조한다.
(ii) 표본으로부터 서열 리드 획득
작업 흐름은 검사 표본을 염기서열결정하여, 체성 돌연변이를 품는 복수 좌위의 각 좌위에 대한 커버리지 (리드 수치 또는 리드 존재비)를 제공하는 것을 수반한다. 염기서열결정 방법 섹션에서 설명된 다양한 염기서열결정 기술이 이용될 수 있다. 이들 좌위에 대한 암 연관된 대립유전자 및 야생형 대립유전자가 확인된다. 이들 좌위는 변이체를 확인하기 위한 공지된 변이 호출 기술, 예를 들면, 암과 연관되는 SNPs를 이용하여 확인될 수 있다. 가령, 변이체를 호출하기 위한 방법은 Ding, et al. (2012), Nature 481: 506-10에서 설명된 바와 같이 이용될 수 있다. Strelka2는 관심되는 변이체를 보고하는 변이체 호출 도구의 다른 실례이다.
일부 실행에서, SNP 돌연변이가 확인된다. 다른 실행에서, 삽입-결실 돌연변이가 확인된다. 암 변이체 대립유전자 및 참조 대립유전자에 대한 서열 리드 수치를 이용하여, 암 변이체 대립유전자에 대한 변이체 대립유전자 빈도 (VAF)를 계측할 수 있다. 하지만, 이러한 시기에서, 변이체가 암 세포의 클론 또는 하위클론으로부터 유래되는 지의 여부는 선험적으로 알려져 있지 않다.
(iii) 서열 리드로부터 초기 암 세포 분율 (iCCF) 결정
염기서열결정되고 VAF가 계측되는 복수 좌위 각각의 경우에, 초기 암 세포 분율 (iCCF)은 하기와 같이 계산되고:
iCCF= (VAF * N)/(p*n)
여기서 N은 좌위에서 평균 사본수이고, p는 표본의 종양 순도이고, 그리고 n은 돌연변이 변이체 대립유전자의 사본수이다.
이러한 시기에서, iCCF는 분석에서 고려되는 체성 돌연변이의 변이체 대립유전자 각각에 대해 근사된다. 일부 실행에서, 암 세포 분율을 근사하기 위해, 일정한 가정이 만들어진다. 일부 실행에서, 돌연변이체 대립유전자의 평균 사본수 (n)는 1인 것으로 가정된다. 상기 가정은 CNVs와 중첩되지 않거나, 참조 대립유전자 (체성 돌연변이를 갖지 않는 대립유전자)의 사본수 감소와 중첩되거나, 또는 참조 대립유전자의 사본수 증가와 중첩되는 모든 체성 변이체에 대해 유효할 것이다. 이것은 합리적으로 허용되는 가정인데, 그 이유는 작은 변이체에 비하여 사본수 변화가 희귀할 것으로 예상되기 때문이다.
일부 실행에서, 종양 순도 값 p는 종양 순도를 직접적으로 계측하는 경험적 방법에 의해 결정될 수 있다. 다른 실행에서, p 및/또는 N은 CNV 호출 도구, 예를 들면, Canvas를 이용하여 서열 리드에 근거하여 결정될 수 있다. Roller, et al., (2016), Bioinformatics, 32(15), pp. 2375-2377을 참조하는데, 이것은 모든 점에서 전체적으로 참조로서 편입된다.
이들 실행은 N에 대한 정수 사본수 추정치를 필요로 하지 않고, 표본 내에 모든 세포의 전역에서 상기 유전체 좌위의 평균 사본수를 추정하는 정규화된 커버리지 추정치를 필요로 한다. 커버리지에 대해 정규화된 실가를 이용하는 이점은 상기 방법이 CNV의 클론형성능의 가정을 방지한다는 것이다. 그것과 함께, 상기 초기 가정이 유효하기만 하면, CCF 추정치는 클론 및 하위클론 CNVs 둘 모두와 중첩되는 변이체에 대해 유효할 것이다.
일부 실행에서, N>1일 때, 개시된 방법에 의해 만들어진 iCCF 추정치는 잠재적으로, 1보다 클 수 있었다. 이런 결과를 방지하기 위해, iCCF 추정치는 1에서 캡핑된다. 이런 이유로, iCCF 추정치는 하기 화학식을 이용하여 만들어진다.
Figure pct00016
Figure pct00017
(iv) iCCFs에 근거된 클러스터 체성 돌연변이
군집화는 복수의 상이한 체성 돌연변이가 그들의 iCCFs에 근거하여 하나 또는 그 이상의 클러스터로 군화되는 과정이다. 클러스터 내에 iCCFs는 이후, 돌연변이에 대한 최종 CCFs를 결정하는데 이용된다. iCCFs에 한 가지 문제점은 이들이 다양한 오차 원인에 기인한 참 CCF의 잡음 추정치이라는 점이다. 만약 한 세트의 변이체의 iCCFs가 클러스터를 형성하면, 상기 세트의 변이체가 동일한 하위클론 또는 동일한 세트의 하위클론에서 존재하는 것으로 추론된다. 이러한 추론에서, 클러스터 내에 상기 세트의 변이체의 참 CCFs (iCCF와는 대조적으로)는 동일해야 한다. 클러스터 내에 iCCFs의 평균 또는 다른 중심 추정치는 클러스터 내에 임의의 변이체의 iCCF보다 상기 변이체의 참 CCF의 더욱 신리할 수 있는 추정치일 것이다. 따라서, 군집화를 이용하여, 관심되는 변이체에 대한 암 세포 분율의 더욱 우수한 추정을 획득할 수 있다. 일부 실행에서, iCCFs의 클러스터를 일으키는 하위클론의 숫자가 또한 추정될 수 있다.
개시된 실행은 군집화하기 위해 변분 베이지안 혼합 모형을 이용한다. 이들 방법은 동시적 군집화 및 클러스터의 숫자의 추론을 허용한다. 개시된 실행은 전통적인 방법, 예를 들면, PyClone에 의해 이용되는 확률적 MCMC 기술보다 훨씬 효율적이다. 개시된 실행은 VAF 대신에 CCF에 근거하여 체성 변이체를 군집화한다. 이것은 이들 실행이 CNV-중첩 체성 변이체를 군집화하도록 허용한다. 개시된 실행은 또한, 단일 표본 내에서뿐만 아니라 복수 표본의 전역에서 군집화를 허용한다. 군집화는 이항, 베타, 또는 가우스 혼합 모형을 비롯한 다양한 상이한 혼합 모형을 이용하여 행위될 수 있다. 이런 확률적 군집화는 각각의 상이한 클러스터에 속하는 하나 또는 그 이상의 변이체의 사후 확률 추정치를 제공한다. 이들 확률은 돌연변이에 대한 전체 CCF를 계산하는데 이용될 수 있다.
일부 모방에서, 군집화 iCCFs는 암의 임상적으로 유관한 특징인, 암 세포 내에 하위클론의 숫자를 결정할 수 있다. 가령, 다수의 하위클론을 갖는 일부 암은 더욱 약제 내성이거나 또는 더욱 악성이다.
(v) 각 돌연변이에 대한 최종 CCFs (fCCFs)를 결정한다
fCCF는 표본 또는 개체 내에 돌연변이에 대한 합계 점수이다. 돌연변이에 대한 최종 CCF는 상기 돌연변이가 하나 또는 그 이상의 클러스터 및 이들 클러스터에서 평균 CCFs에 속할 확률로부터 계산된다.
최종 CCF를 결정하는 한 가지 목적은 표본 또는 개체 내에 모든 암 세포 사이에서, 관심되는 특정 체성 돌연변이가 얼마나 유력한 지를 결정하는 것이다. 가령, 특정 체성 돌연변이는 암 형성 및/또는 발달의 특정 기전과 연관되는 것으로 알려져 있다. 만약 체성 돌연변이가 높은 fCCF를 가지면, 특정 기전을 표적으로 하는 암 요법은 암 세포의 큰 부분에 영향을 줄 수 있고, 따라서 암의 효과적인 치료를 제공할 수 있다. 따라서, 암 요법이 처방되거나 또는 시작되어야 한다. 반대로, 만약 체성 돌연변이가 낮은 fCCF를 가지면, 특정 기전을 표적으로 하는 암 요법은 그것만으로는 효과적일 수 없다. 따라서, 암 요법은 변경되거나, 종료되거나, 또는 다른 요법과 조합되어야 한다.
가령, 체성 돌연변이는 신항원의 창출을 야기할 수 있다. 신항원 부하는 면역 관문 저해제 저해제에 대한 반응의 마커이다. 신항원 수준은 비소세포 폐암에서 항-P1 요법의 효력과 긍정적으로 상관하는 것으로 밝혀졌다. Rizvi et al., Science, 2015, 348(6230): 124-128을 참조한다. 또한, McGranahan et al., Science, 2016, 351(6280): 1463-1469를 참조한다. 암 요법, 예를 들면, 연구에서 이용된 것들은 특정 돌연변이와 연관된 신항원을 표적으로 하는 면역요법을 포함한다. 만약 돌연변이의 CCF가 낮고 신항원이 하위클론성이면, 하위클론 신항원에 대항하는 요법의 면역 반응은 암 세포의 더욱 적은 부분에 영향을 주고 불량한 치료 효력을 야기할 수 있다.
(vi) CCFs 또는 하위클론 대립유전자 분포를 이용하여 암 치료 결정
일부 실행은 하위클론 개체군의 항원성 보체를 결정하기 위해 변이체 CCFs 및/또는 하위클론 대립유전자 분포를 이용하고 및/또는 모든 하위클론 개체군을 다루기 위해 치료 옵션을 이용한다. 일부 실행에서, 치료 옵션은 돌연변이의 fCCF, 하위클론의 평균 CCF, 또는 하위클론의 숫자에 근거될 수 있다.
암 세포 분율을 결정하기 위한 실시예 과정
도 9는 일부 실행에 따라서 암 세포 분율을 결정하기 위한 과정 100을 도해하는 흐름도를 보여준다. 과정 100은 하나 또는 그 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템을 이용하여 실행된다. 과정 100은 개체로부터 최소한 하나의 검사 표본을 획득하는 것을 수반한다. 최소한 하나의 검사 표본은 암 세포의 하나 또는 그 이상의 하위클론으로부터 핵산을 포함한다. 블록 102를 참조한다. 일부 실행에서, 최소한 하나의 검사 표본은 2개 또는 그 이상의 검사 표본을 포함한다. 다양한 표본 및 표본 처리 기술이 표본 섹션 하에 더욱 설명된 바와 같이 이용될 수 있다.
일부 실행에서, 상기 과정은 개체로부터 최소한 하나의 검사 표본을 획득하고; 최소한 하나의 검사 표본으로부터 세포 DNA 또는 무세포 DNA (cfDNA)를 획득하고; 그리고 세포 DNA 또는 cfDNA를 염기서열결정하여 서열 리드를 생산하는 것을 수반한다. 블록 104를 참조한다. 일부 실행에서, 핵산을 염기서열결정하는 것은 핵산을 단리하고 및/또는 증폭하는 것을 수반한다. 일부 실행에서, 핵산을 염기서열결정하는 것은 전체 유전체 염기서열결정을 수반한다. 다른 실행에서, 핵산을 염기서열결정하는 것은 표적화된 염기서열결정을 포함한다. 다양한 염기서열결정 방법이 염기서열결정 방법 섹션에서 설명된 바와 같이 이용될 수 있다.
과정 100은 서열 리드를 참조 유전체에 맞춰 정렬하여 서열 태그를 제공하는 것을 더욱 수반한다. 참조 유전체는 복수의 체성 돌연변이를 품는 복수의 좌위를 포함한다. 서열 태그는 참조 유전체에 맞춰 정렬되고 서열 위치가 배정된 서열 리드이다. 일부 실행에서, 복수의 체성 돌연변이는 단일 뉴클레오티드 변이체 (SNV), 삽입-결실, 또는 이들의 조합으로 구성된 군에서 선택되는 돌연변이를 포함한다. 블록 106을 참조한다.
과정 100은 복수의 좌위의 각 좌위에 대해, 상기 좌위의 커버리지 및 상기 좌위의 변이체 대립유전자 빈도 (VAF)를 결정하는 것을 더욱 수반한다. 좌위의 커버리지는 좌위에 맞춰 정렬된 리드의 양 (가령, 수치 또는 정규화된 수치)이다. VAF는 체성 돌연변이의 변이체 대립유전자의 빈도이다. 블록 108을 참조한다.
과정 100은 검사 표본에서 모든 세포 사이에서 종양 세포의 분율인 종양 순도 값 (p)을 제공하는 것을 더욱 수반한다. 블록 110을 참조한다. 과정 100은 또한, 복수의 좌위의 각 좌위에 대해, 검사 표본 내에 모든 세포에 대한 상기 좌위에서 모든 대립유전자의 평균 사본수 (N)를 제공하는 것을 수반한다. 블록 112를 참조한다. 상이한 세포에 대한 사본수는 상이할 수 있다. 따라서 평균 사본수는 정수가 아닐 수도 있다. 상기 과정에서 평균 사본수는 복수 좌위를 포함하는 영역에 대해 결정될 수 있다. 이런 경우에, 상기 영역에 대한 사본수는 영역 내에 좌위에 대한 사본수로서 이용된다. 일부 실행에서, 종양 순도 값 (p)은 서열 리드를 이용하여 추정된다. 일부 실행에서, 대립유전자의 평균 사본수 (N)는 서열 리드를 이용하여 추정된다. 다양한 기술이 서열 리드를 이용하여 종양 순도 및 사본수를 추정하는데 이용될 수 있다.
도 9는 서열 리드를 이용하여 종양 순도 및 사본수를 추정하기 위한 과정을 도해한다. 과정 200은 복수의 좌위의 각 좌위에 대해, 검사 표본의 커버리지 및 소수 대립유전자 빈도 (MAF)를 계측하는 것을 수반한다. 블록 202를 참조한다.
과정 200은 파라미터 값의 새로운 세트: 후보 이배수체 커버리지, 후보 종양 순도 (p) 및 후보 사본수 상태를 갖는 모형을 제공하는 것을 더욱 수반한다. 이배수체 커버리지는 표본의 이배수체 세포에 대한 리드 수치 또는 존재비 척도이다. 후보 사본수 상태는 유전체 좌위에서 대립유전자 및 이들의 사본수를 설명한다. 이들 파라미터 값이 제공되면, 하기의 관계에 따라서 예상된 커버리지 및 예상된 MAF가 결정될 수 있다.
ㆍ배수성 A: MAF 0
ㆍ배수성 AB (정상): MAF 0.5
ㆍ배수성 AA (사본-중성 LOH): MAF 0
ㆍ배수성 AAB: MAF 0.33333
ㆍ배수성 AAA: MAF 0
ㆍ배수성 AABB: MAF 0.5
ㆍ배수성 AAAB: MAF 0.25
ㆍ배수성 AAAA: MAF 0
ㆍ(기타 등등)
과정 200은 상기 관계에 따른 후보 이배수체 커버리지, 종양 순도 및 사본수 상태에 근거하여, 예상된 커버리지 및 예상된 MAF를 연산하는 것을 수반한다. 블록 206을 참조한다.
과정 200은 이후, (a) 블록 206에서 획득된 예상된 커버리지 및 예상된 MAF, 그리고 (b) 블록 202에서 획득된 계측된 커버리지 및 계측된 MAF 사이에 모형 편차를 결정한다. 블록 208을 참조한다.
과정 200은 또한, 훈련 데이터를 이용하여 페널티 항 값을 추정하는 것을 수반한다. 블록 210을 참조한다. 모형 페널티 항에 관한 추가 상세는 Roller, et al., (2016), Bioinformatics, 32(15), pp. 2375-2377에서 설명되는데, 이것은 모든 점에서 전체적으로 참조로서 편입된다.
과정 200은 또한, 다클론성 오차를 추정하는 것을 수반하는데, 이것은 데이터가 암 세포의 근원적인 하위클론에 상응하는 클러스터로부터 얼마나 일탈하는 지에 관계한다. 블록 212를 참조한다. 다클론성 오차에 관한 추가 상세는 Roller, et al.에서 설명된다.
과정 200은 이후, 더욱 많은 모형이 고려되어야 하는 지를 평가한다. 결정 블록 214를 참조한다. 만약 그렇다면, 상기 과정은 파라미터 값의 새로운 세트를 갖는 그 다음 모형을 제공하기 위해 블록 204로 되돌아간다. 상기 과정은 이후, 그 다음 모형에 대한 모형 편차, 모형 페널티 항 및 다클론성 오차를 결정하기 위해 반복된다. 만약 고려할 더 이상의 모형이 없으면, 과정 200은 208의 모형 편차, 210의 모형 페널티 항 값, 그리고 블록 212의 다중클론 유추 오차를 설명하는 가장 작은 전체 편차를 갖는 모형을 선별하는 것으로 진행한다. 블록 216을 참조한다.
그 후, 과정 200은 이후, 검사 표본에 대한 종양 순도 (p) 및 사본수를 선택된 모형의 종양 순도 및 사본수로서 결정하는 것을 수반한다. 블록 218을 참조한다.
도 1로 되돌아가서, 변이체 대립유전자 빈도 (VAF), 종양 순도 값 (p) 및 대립유전자의 평균 사본수 (N)가 제공되면, 과정 100은 복수의 좌위의 각 좌위에 대해, VAF, p 및 N을 이용하여 초기 암 세포 분율 (iCCF)을 계산한다. 블록 114를 참조한다. 암 세포 분율은 좌위에서 체성 돌연변이를 갖는 암 세포의 분율이다. 이러한 작업은 복수의 좌위/돌연변이에 대한 복수의 iCCFs를 제공한다. 일부 실행에서, iCCF는 (VAF * N)/p에 근거하여 계산된다.
일부 환자에서, iCCF의 계산은 변이체 대립유전자의 사본수 (n)뿐만 아니라 VAF, p 및 N을 이용하여 iCCF를 계산하는 것을 포함한다. 일부 실행에서, iCCF는 (VAF * N)/(p*n)에 근거하여 계산된다.
일부 실행에서, iCCF는 n이 1이라는 가정 하에 계산된다. 일부 실행에서, iCCF는 하기 공식을 이용하여 계산되는데, 이것은 iCCF 값을 1에서 캡핑한다.
Figure pct00018
Figure pct00019
일부 실행에서, 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 돌연변이는 하나 또는 그 이상의 사본수 변이 (CNVs)와 중첩된다. 일부 실행에서, 상기 과정은 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는다. 다시 말하면, CNV는 반드시, 클론성인 것은 아니다. 이런 실행에서, 파라미터 N은 항상 정수인 것은 아니다. 일부 실행에서, 상기 과정은 체성 돌연변이를 보유하는 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는다. 이런 실행에서, 파라미터 n의 값은 상이한 돌연변이에 대해 상이할 수 있다.
과정 100은 복수의 좌위에 대해 복수의 iCCFs를 군집화하고, 따라서 iCCs의 하나 또는 그 이상의 클러스터를 획득하는 것을 더욱 수반한다. 블록 116을 참조한다. 일부 실행에서, 군집화는 하나 또는 그 이상의 클러스터에 속하는 각 돌연변이의 하나 또는 그 이상의 사후 확률을 결정하는 것을 포함한다. 일부 실행에서, 군집화는 하나 또는 그 이상의 클러스터를 결정하기 위해 혼합 모형을 이용하는 것을 수반한다. 일부 실행에서, 혼합 모형은 변분 베이지안 혼합 모형을 포함한다. 일부 실행에서, 군집화는 iCCFs의 복수의 클러스터를 발생시키는 변이체의 하위클론의 숫자를 결정하는 것을 포함한다.
일부 실행에서, 혼합 모형은 2개 또는 그 이상 하위클론의 변이체 대립유전자 수의 2개 또는 그 이상 확률 분포의 혼합물을 포함하는데, 상기 변이체 대립유전자는 돌연변이 변이체의 대립유전자이다. 일부 실행에서, 변이체 대립유전자 수의 각 확률 분포는 이항 분포, 베타 분포, 가우스 분포, 또는 이들의 임의의 조합이다. 일부 실행에서, 변이체 대립유전자 수의 각 확률 분포는 이항 분포이다. 일부 실행에서, 변이체 대립유전자 수는 염기서열결정 깊이 및 iCCF에 근거하여 계산된다. 일부 실행에서, 변이체 대립유전자 수는 하기와 같이 계산된다: 변이체 대립유전자 수 = 깊이 x iCCF.
일부 실행에서, 변이체의 iCCF는 베타 분포로부터 확률 변수로서 모형화된다. 일부 실행에서, 군집화는 마르코프 연쇄 몬테카를로 (MCMC) 방법을 이용하지 않는다. 일부 실행에서, 블록 116의 군집화는 도 11에서 묘사된 과정을 이용하여 실행될 수 있다.
도 11은 iCCF 값을 군집화하기 위한 과정 300을 보여준다. 과정 300은 군집화 기술, 예를 들면, K-수단 군집화를 이용하여 iCCFs의 초기 클러스터를 형성함으로써 시작된다. 블록 302를 참조한다.
과정 300은 이후, 파라미터 값의 새로운 세트를 갖는 혼합 모형을 제공하는 것을 수반한다. 혼합 모형은 변분 베이지안 혼합 모형이다. 블록 304를 참조한다. 혼합 모형은 돌연변이 m에 대한 대립유전자 수를 클러스터 k에 대한 이항 분포로부터 이항 확률 변수로서 하기와 같이 모형화하고:
count m ~ BN(x,q k )
여기서 BN ( , )은 이항 분포를 나타내고, x는 총 대립유전자 수이고, 그리고 q k 는 클러스터 k에 대한 모든 대립유전자 사이에서 변이체 대립유전자의 분율이다. 블록 306을 참조한다.
혼합 모형은 또한, 돌연변이 m에 대한 iCCF를 클러스터 k에 대한 베타 분포로부터 베타 확률 변수로서 하기와 같이 모형화하고:
iCCF m ~ Beta(u k ,v k )
여기서 Beta는 베타 분포를 나타내고, 그리고 u k v k 는 클러스터 k에 대한 베타 분포의 모양 파라미터이다. 블록 308을 참조한다.
과정 300은 클러스터 k에 속하는 돌연변이 m에 대한 iCCF의 확률을 하기와 같이 계산하는 것을 수반하고:
Figure pct00020
여기서 pr m,k는 돌연변이 m이 클러스터 k에 속할 확률이고; Beta( ; )는 클러스터 k에 대한 베타 분포의 확률 밀도 함수이고; f는 돌연변이 m에 대한 iCCF이고;
Figure pct00021
는 감마 함수이다. 블록 310을 참조한다. 이러한 실행에서, 최소한 하나의 검사 표본은 하나의 표본이다.
다른 실행에서, 최소한 하나의 검사 표본은 2개 또는 그 이상 검사 표본을 포함하고, 그리고 클러스터에 속하는 돌연변이의 확률은 하기와 같이 모형화되고:
Figure pct00022
여기서 u k u v s번째 성분이 각각 u ks v ks 인 S-벡터이다.
K (다차원) 베타 성분의 혼합물을 고려하여, 이들 실행은 iCCF f n 이 성분 k에 속하는 지 (z nk =1) 또는 속하지 않는 지 (z nk =0)를 지시하고, 그리고
Figure pct00023
인 1-of-K 표현을 충족시키는 K차원 잠재 이진 확률 변수 z n 을 이용한다.
iCCF가 성분 k에 속할 주변 확률 p(z nk =1)은 확률적 제약
Figure pct00024
에 종속되는 이의 혼합 계수 πk,
Figure pct00025
에 의해 제공된다.
zn의 1-of-K 표현을 고려하여, 이것은
Figure pct00026
로서 기재될 수 있다.
유사하게, iCCF f n이 혼합물로부터 발생하는 조건부 분포 p( f n | z n , U , V )는 총계 파라미터
Figure pct00027
Figure pct00028
와 함께, k번째 베타 성분의 모양 파라미터 벡터 u k v k 의 면에서,
Figure pct00029
로서 기재될 수 있다.
군집화 모형에 관한 추가 상세를 위해 Miller, et al. (2014), PLoS Comput Biol 10(8): e1003665를 참조하는데, 이것은 모든 점에서 전체적으로 참조로서 편입된다.
과정 300은 예상된 데이터 및 관찰된 데이터를 비교함으로써, 현재의 혼합 모형이 수렴하는 지를 결정하는 것을 더욱 수반한다. 블록 312를 참조한다. 모형 수렴을 결정하기 위한 방법은 Miller, et al. (2014)에서 더욱 설명된다. 블록 312를 참조한다. 만약 모형이 수렴하지 않으면, 상기 과정은 파라미터 값의 새로운 세트를 갖는 그 다음 혼합 모형을 제공하고 iCCF의 사후 확률의 새로운 세트를 계산하기 위해 블록 304로 되돌아간다. 만약 모형이 수렴하면, 과정 300은 클러스터 및 최고 모형에 근거하여 각 돌연변이가 이들 클러스터에 속할 확률을 획득하는 것으로 진행한다. 블록 314를 참조한다.
도 1로 되돌아가서, 일부 실행에서, 블록 116의 군집화는 세포의 클러스터 또는 클론에 대한 평균화된 iCCF의 결정을 허용한다. 일부 실행에서, 군집화는 iCCFs의 클러스터를 발생시키는 하위클론의 숫자의 결정을 허용한다. 일부 실행에서, 이들 값은 암 세포의 클론 구조를 설명하고, 그리고 이들은 본원의 다른 곳에서 설명된 바와 같은 암 요법을 설계하는데 도움을 주는데 이용될 수 있다.
클러스터 및 사후 확률이 획득된 후, 과정 100은 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정하는 것으로 진행한다. 블록 118을 참조한다. 일부 실행에서, 각 fCCFs는 복수 클러스터에 속하는 돌연변이의 사후 확률 및 이들 클러스터의 평균 iCCFs를 이용하여 계산된다. 일부 실행에서, 돌연변이에 대한 fCCF는 각 클러스터에서 체성 돌연변이의 평균 iCCF 및 각 클러스터에 속하는 돌연변이의 사후 확률의 선형 결합으로서 계산된다. 일부 실행에서, 돌연변이 m에 대한 fCCF는 하기와 같이 계산되고:
Figure pct00030
여기서
Figure pct00031
는 클러스터 k의 평균 iCCF이고; 그리고 pr m,k는 돌연변이 m이 클러스터 k에 속할 확률이다.
일부 실행에서, 상기 과정은 임의선택적으로, 하나 또는 그 이상의 fCCFs에 최소한 부분적으로 근거하여 치료 섭생을 적용하는 것을 더욱 포함할 수 있다. 일부 실행에서, 치료 섭생을 적용하는 것은 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 fCCFs를 하나 또는 그 이상의 기준 또는 역치값과 비교하고; 그리고 상기 비교에 근거하여 치료 섭생을 처방하고, 개시하고 및/또는 변경하는 것을 포함한다. 일부 실행에서, 치료 섭생은 하나 또는 그 이상의 체성 돌연변이와 연관된 생물학적 경로에 영향을 준다. 일부 실행에서, 치료 섭생은 면역요법을 포함한다.
표본
본원에서 이용된 표본은 세포-결합된 (가령, 세포 DNA) 또는 "무세포" (가령, cfDNA)인 핵산을 내포한다. 세포 DNA는 고형 조직 (가령, 뼈 및 골수), 연조직 (가령, 장기, 근육, 지방 및 피부), 또는 체액 (가령, 혈액, 혈장, 혈청, 소변, 복막액, 뇌척수액, 흉수 및 양수)으로부터 획득될 수 있다. 무세포 DNA를 비롯한 무세포 핵산은 혈장, 혈청 및 소변을 포함하지만 이들에 한정되지 않는 생물학적 표본으로부터 당해 분야에서 공지된 다양한 방법에 의해 획득될 수 있다 (참조: 가령, Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]; Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000; 및 Su et al., J Mol. Diagn. 6: 101-107 [2004]). 표본 내에 세포로부터 무세포 DNA를 분리하기 위해, 분별, 원심분리 (가령, 밀도 기울기 원심분리), DNA-특이적 침전, 또는 고처리량 세포 분류 및/또는 다른 분리 방법을 포함하지만 이들에 한정되지 않는 다양한 방법이 이용될 수 있다. cfDNA의 수동 및 자동화된 분리를 위한 상업적으로 가용한 키트가 가용하다 (Roche Diagnostics, Indianapolis, IN, Qiagen, Valencia, CA, Macherey-Nagel, Duren, DE). cfDNA를 포함하는 생물학적 표본이 염색체 이수성 및/또는 다양한 다형성을 검출할 수 있는 염기서열결정 검정에 의해, 염색체 이상, 예를 들면, 삼염색체성 21의 존재 또는 부재를 결정하기 위한 검정에서 이용되었다.
다양한 구체예에서 표본 내에 존재하는 DNA는 이용에 앞서 (가령, 염기서열결정 라이브러리를 제조하기에 앞서) 특이적으로 또는 비특이적으로 농축될 수 있다. 표본 DNA의 비특이적 농축은 DNA 염기서열결정 라이브러리를 제조하기에 앞서 표본 DNA의 수준을 증가시키는데 이용될 수 있는 표본의 유전체 DNA 단편의 전체 유전체 증폭을 지칭한다. 비특이적 농축은 하나 이상의 유전체를 포함하는 표본 내에 존재하는 2개 유전체 중에서 한 가지의 선별적 농축일 수 있다. 가령, 비특이적 농축은 혈장 표본 내에 암 유전체에 선별적일 수 있는데, 이것은 표본 내에서 암 대 정상적인 DNA의 상대적 비율을 증가시키기 위한 공지된 방법에 의해 획득될 수 있다. 대안으로, 비특이적 농축은 표본 내에 존재하는 양쪽 유전체의 비선별적인 증폭일 수 있다. 가령, 비특이적 증폭은 암 및 정상적인 유전체로부터 DNA의 혼합물을 포함하는 표본 내에 암 및 정상적인 DNA의 증폭일 수 있다. 전체 유전체 증폭을 위한 방법은 당해 분야에서 공지된다. 축중성 올리고뉴클레오티드-시동된 PCR (DOP), 프라이머 연장 PCR 기술 (PEP) 및 다중 변위 증폭 (MDA)은 전체 유전체 증폭 방법의 실례이다. 일부 구체예에서, 상이한 유전체로부터 cfDNA의 혼합물을 포함하는 표본은 상기 혼합물 내에 존재하는 유전체의 cfDNA에 대해 농축되지 않는다. 다른 구체예에서, 상이한 유전체로부터 cfDNA의 혼합물을 포함하는 표본은 표본 내에 존재하는 유전체 중에서 한 가지에 대해 비특이적으로 농축된다.
본원에서 설명된 방법이 적용되는 핵산(들)을 포함하는 표본은 전형적으로, 예로서 전술된 바와 같은 최소한 하나의 생물학적 표본 ("검사 표본")을 포함한다. 일부 구체예에서, 분석되는 핵산(들)은 다수의 널리 알려진 방법 중에서 어느 것에 의해 정제되거나 또는 단리된다.
따라서, 일정한 구체예에서 표본은 정제되거나 또는 단리된 폴리뉴클레오티드를 포함하거나 또는 이것으로 구성되고, 또는 이것은 표본, 예를 들면, 조직 표본, 생물학적 유체 표본, 세포 표본 등을 포함할 수 있다. 적합한 생물학적 유체 표본은 혈액, 혈장, 혈청, 땀, 눈물, 객담, 소변, 객담, 귀 유출액, 림프, 타액, 뇌척수액, 세척액, 골수 현탁액, 질 유출액, 경경부 세척액, 뇌액, 복수, 우유, 호흡기, 장관 및 비뇨생식관의 분비물, 양수, 우유, 그리고 류코포레시스 표본을 포함하지만 이들에 한정되지 않는다. 일부 구체예에서, 표본은 비침습성 절차에 의해 쉽게 획득가능한 표본, 예를 들면, 혈액, 혈장, 혈청, 땀, 눈물, 객담, 소변, 객담, 귀 유출액, 타액 또는 대변이다. 일정한 구체예에서 표본은 말초혈 표본, 또는 말초혈 표본의 혈장 및/또는 혈청 분획물이다. 다른 구체예에서, 생물학적 표본은 면봉 또는 도말표본, 생검 검체, 또는 세포 배양액이다. 다른 구체예에서, 표본은 2개 또는 그 이상의 생물학적 표본의 혼합물이다, 예를 들면, 생물학적 표본은 생물학적 유체 표본, 조직 표본, 그리고 세포 배양 표본 중에서 2개 또는 그 이상을 포함할 수 있다. 본원에서 이용된 바와 같이, 용어 "혈액," "혈장" 및 "혈청"은 이들의 분획물 또는 처리된 일부를 명시적으로 포괄한다. 유사하게, 표본이 생검, 면봉, 도말표본 등으로부터 채취되는 경우에, "표본"은 상기 생검, 면봉, 도말표본 등으로부터 유래된 처리된 분획물 또는 일부를 명시적으로 포괄한다.
일정한 구체예에서, 표본은 상이한 개체로부터 표본, 상이한 발달 시기의 동일하거나 또는 상이한 개체로부터 표본, 상이한 병든 개체 (가령, 암을 앓거나 또는 유전 질환을 앓는 것으로 의심되는 개체)로부터 표본, 정상적인 개체, 한 개체에서 상이한 질환 시기에서 획득된 표본, 질환에 대한 상이한 치료에 종속된 개체로부터 획득된 표본, 상이한 환경 인자에 종속된 개체로부터 표본, 병리에 대한 소인을 갖는 개체로부터 표본, 감염성 병원체 (가령, HIV)에 노출된 개체로부터 표본, 기타 등등을 포함하지만 이들에 한정되지 않는 공급원으로부터 획득될 수 있다.
일정한 구체예에서 표본은 또한, 시험관내 배양된 조직, 세포, 또는 다른 폴리뉴클레오티드-내포 공급원으로부터 획득될 수 있다. 배양된 표본은 상이한 배지 및 조건 (가령, pH, 압력, 또는 온도)에서 유지된 배양액 (가령, 조직 또는 세포), 상이한 길이의 기간 동안 유지된 배양액 (가령, 조직 또는 세포), 상이한 인자 또는 시약 (가령, 약물 후보, 또는 조절인자)으로 처리된 배양액 (가령, 조직 또는 세포), 또는 상이한 유형의 조직 및/또는 세포의 배양액을 포함하지만 이들에 한정되지 않는 공급원으로부터 채취될 수 있다.
생물학적 공급원으로부터 핵산을 단리하는 방법은 널리 알려져 있고, 그리고 공급원의 성격에 따라서 달라질 것이다. 당업자는 본원에서 설명된 방법을 위해 필요에 따라 공급원으로부터 핵산(들)을 쉽게 단리할 수 있다. 일부 경우에, 핵산 표본 내에 핵산 분자를 단편화하는 것이 유리할 수 있다. 단편화는 무작위일 수 있거나, 또는 이것은 예로서, 제한 엔도뉴클레아제 절단을 이용하여 달성되는 바와 같이 특이적일 수 있다. 무작위 단편화를 위한 방법은 당해 분야에서 널리 공지되고, 그리고 예로서, 제한된 DNA분해효소 절단, 알칼리 처리 및 물리적 전단을 포함한다. 한 구체예에서, 표본 핵산은 cfDNA로서 획득되는데, 이것은 단편화에 종속되지 않는다.
염기서열결정 라이브러리 제조
한 구체예에서, 본원에서 설명된 방법은 차세대 염기서열결정 기술 (NGS)을 활용할 수 있는데, 이것은 복수 표본이 단일 염기서열결정 실행에서 유전체학 분자 (다시 말하면, 단일플렉스 염기서열결정)로서, 또는 색인된 유전체학 분자를 포함하는 모아진 표본 (가령, 다중 염기서열결정)으로서 개별적으로 염기서열결정되도록 허용한다. 이들 방법은 DNA 서열의 수억 개까지의 리드를 산출할 수 있다. 다양한 구체예에서 유전체학 핵산 및/또는 색인된 유전체학 핵산의 서열은 예로서, 본원에서 설명된 차세대 염기서열결정 기술 (NGS)을 이용하여 결정될 수 있다. 다양한 구체예에서 NGS를 이용하여 획득된 대량의 서열 데이터의 분석은 본원에서 설명된 바와 같은 하나 또는 그 이상의 프로세서를 이용하여 수행될 수 있다.
다양한 구체예에서 이런 염기서열결정 기술의 이용은 염기서열결정 라이브러리의 제조를 수반하지 않는다.
하지만, 일정한 구체예에서 본원에서 예기된 염기서열결정 방법은 염기서열결정 라이브러리의 제조를 수반한다. 한 예시적인 접근법에서, 염기서열결정 라이브러리 제조는 염기서열결정될 준비가 된 어댑터-변형된 DNA 단편 (가령, 폴리뉴클레오티드)의 무작위 집합물의 생산을 수반한다. 폴리뉴클레오티드의 염기서열결정 라이브러리는 DNA 또는 RNA뿐만 아니라 DNA 또는 cDNA의 등가물, 유사체, 예를 들면, 상보적인 DNA 또는 cDNA, 또는 역전사효소의 작용에 의해 RNA 주형으로부터 생산된 사본 DNA로부터 제조될 수 있다. 폴리뉴클레오티드는 이중 가닥 형태 (가령, dsDNA, 예를 들면, 유전체 DNA 단편, cDNA, PCR 증폭 산물 등)에서 유래할 수 있거나, 또는 일정한 구체예에서, 폴리뉴클레오티드는 단일 가닥 형태 (가령, ssDNA, RNA 등)에서 유래하고 dsDNA 형태로 전환될 수 있었다. 실례로서, 일정한 구체예에서, 단일 가닥 mRNA 분자는 염기서열결정 라이브러리를 제조하는데 이용하기 적합한 이중 가닥 cDNAs로 복제될 수 있다. 일차성 폴리뉴클레오티드 분자의 정밀한 서열은 일반적으로, 라이브러리 제조의 방법에 중요하지 않고, 그리고 알려져 있거나 또는 알려지지 않을 수 있다. 한 구체예에서, 폴리뉴클레오티드 분자는 DNA 분자이다. 더욱 구체적으로, 일정한 구체예에서, 폴리뉴클레오티드 분자는 생물체의 전체 유전자 보체 또는 생물체의 실제적으로 전체 유전자 보체를 나타내고, 그리고 인트론 서열 및 엑손 서열 (코딩 서열) 둘 모두뿐만 아니라 비코딩 조절 서열, 예를 들면, 프로모터 및 인핸서 서열을 전형적으로 포함하는 유전체 DNA 분자 (가령, 세포 DNA, 무세포 DNA (cfDNA) 등)이다. 일정한 구체예에서, 일차성 폴리뉴클레오티드 분자는 인간 유전체 DNA 분자, 예를 들면, 임신 개체의 말초혈 내에 존재하는 cfDNA 분자를 포함한다.
일부 NGS 염기서열결정 플랫폼에 대한 염기서열결정 라이브러리의 제조는 특정한 범위의 단편 크기를 포함하는 폴리뉴클레오티드의 이용에 의해 용이해진다. 이런 라이브러리의 제조는 전형적으로, 원하는 크기 범위에서 폴리뉴클레오티드를 획득하기 위한, 큰 폴리뉴클레오티드 (가령, 세포 유전체 DNA)의 단편화를 수반한다.
단편화는 당업자에게 공지된 다수의 방법 중에서 어느 것에 의해 달성될 수 있다. 가령, 단편화는 분무, 초음파처리 및 수리전단을 포함하지만 이들에 한정되지 않는 기계적 수단에 의해 달성될 수 있다. 하지만 기계적 단편화는 전형적으로, C-O, P-O 및 C-C 결합에서 DNA 중추를 개열하여, 파괴된 C-O, P-O 및/ C-C 결합을 갖는 평활 말단 및 3'-와 5'-돌출 말단의 이질성 혼합물을 유발하는데 (참조: 가령, Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]), 이들 결합은 염기서열결정을 위한 DNA를 준비하기 위해 필요한 차후 효소 반응, 예를 들면, 염기서열결정 어댑터의 결찰에 필수적인 5'-인산염을 결여할 수 있기 때문에, 수복될 필요가 있을 수 있다.
대조적으로, cfDNA는 전형적으로, 약 300개보다 적은 염기쌍의 단편으로서 존재하고, 그리고 결과적으로, 단편화는 cfDNA 표본을 이용하여 염기서열결정 라이브러리를 산출하는데 전형적으로 필요하지 않다.
전형적으로, 폴리뉴클레오티드가 강제적으로 단편화 (가령, 시험관내에서 단편화)되거나, 또는 자연적으로 단편으로서 존재하는 지에 상관없이, 이들은 5'-인산염 및 3'-히드록실을 갖는 평활 말단 DNA로 전환된다. 표준 프로토콜, 예를 들면, 예로서 본원의 다른 곳에서 설명된 바와 같은 Illumina 플랫폼을 이용한 염기서열결정을 위한 프로토콜은 사용자에게 표본 DNA를 말단 수복하고, dA-테일링에 앞서 말단 수복된 산물을 정제하고, 그리고 라이브러리 제조의 어댑터-결찰 단계에 앞서 dA-테일링 산물을 정제하도록 지시한다.
본원에서 설명된 서열 라이브러리 제조의 방법의 다양한 구체예는 NGS에 의해 염기서열결정될 수 있는 변형된 DNA 산물을 획득하기 위해, 전형적으로 표준 프로토콜에 의해 지시되는 단계 중에서 하나 또는 그 이상을 수행해야 하는 필요성을 배제시킨다. 약칭된 방법 (ABB 방법), 1-단계 방법, 그리고 2-단계 방법은 염기서열결정 라이브러리의 제조를 위한 방법의 실례인데, 이들은 2012년 7월 20일자 제출된 특허 출원 13/555,037에서 발견될 수 있고, 상기 문헌은 전체적으로 참조로서 편입된다.
염기서열결정 방법
앞서 지시된 바와 같이, 제조된 표본 (가령, 염기서열결정 라이브러리)은 암 표본의 CCF를 추정하기 위한 절차의 일부로서 염기서열결정된다. 다수의 염기서열결정 기술 중에서 어느 것이 활용될 수 있다.
일부 염기서열결정 기술, 예를 들면, 아래에 설명된 바와 같은 Affymetrix Inc. (Sunnyvale, CA)로부터 혼성화에 의한 염기서열결정 플랫폼, 그리고 454 Life Sciences (Bradford, CT), Illumina/Solexa (Hayward, CA) 및 Helicos Biosciences (Cambridge, MA)로부터 합성에 의한 염기서열결정 플랫폼, 그리고 Applied Biosystems (Foster City, CA)로부터 결찰에 의한 염기서열결정 플랫폼은 상업적으로 가용하다. Helicos Biosciences의 합성에 의한 염기서열결정을 이용하여 수행된 단일 분자 염기서열결정에 더하여, 다른 단일 분자 염기서열결정 기술은 Pacific Biosciences의 SMRT™ 기술, ION TORRENTTM 기술, 그리고 예로서, Oxford Nanopore Technologies에 의해 개발된 나노구멍 염기서열결정을 포함하지만 이들에 한정되지 않는다.
자동화된 생어 방법이 '1세대' 기술로서 고려되긴 하지만, 자동화된 생어 염기서열결정을 비롯한 생어 염기서열결정 또한, 본원에서 설명된 방법에서 이용될 수 있다. 추가의 적합한 염기서열결정 방법은 핵산 영상화 기술, 예를 들면, 원자력 현미경검사 (AFM) 또는 투과 전자 현미경검사 (TEM)를 포함하지만 이들에 한정되지 않는다. 예시적인 염기서열결정 기술은 아래에서 더욱 상세하게 설명된다.
한 가지 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 Illumina의 합성에 의한 염기서열결정 및 가역성 종결인자-기초된 염기서열결정 화학을 이용하여, 검사 표본에서 핵산, 예를 들면, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다 (가령, Bentley et al., Nature 6:53-59 [2009]에서 설명된 바와 같이). 주형 DNA는 유전체 DNA, 예를 들면, 세포 DNA 또는 cfDNA일 수 있다. 일부 구체예에서, 단리된 세포로부터 유전체 DNA가 주형으로서 이용되고, 그리고 이것은 수백 개 염기쌍의 길이로 단편화된다. 다른 구체예에서, cfDNA가 주형으로서 이용되고, 그리고 단편화가 필요하지 않은데, 그 이유는 cfDNA가 짧은 단편으로서 존재하기 때문이다. 순환하는 종양 DNA는 짧은 단편으로 존재하는데, 크기 분포가 약 150-170bp에서 정점에 이른다. Illumina의 염기서열결정 기술은 올리고뉴클레오티드 앵커가 결합되는 평면의 광학적으로 투명한 표면에, 단편화된 유전체 DNA의 부착에 의존한다. 주형 DNA는 말단 수복되어 5'-인산화된 평활 말단이 산출되고, 그리고 클레노브 단편의 중합효소 활성이 평활 인산화된 DNA 단편의 3' 말단에 단일 A 염기를 부가하는데 이용된다. 이러한 부가는 올리고뉴클레오티드 어댑터에 결찰을 위한 DNA 단편을 제조하는데, 이들은 결찰 효율을 증가시키기 위해 그들의 3' 말단에서 단일 T 염기의 오버행을 갖는다. 어댑터 올리고뉴클레오티드는 흐름 셀 앵커 올리고 (반복 확장의 분석에서 앵커/고정된 리드와 혼동되지 않아야 한다)에 상보적이다. 제한 희석 조건 하에, 어댑터-변형된, 단일 가닥 주형 DNA가 흐름 셀에 추가되고, 그리고 앵커 올리고에 혼성화에 의해 고정된다. 부착된 DNA 단편은 확장되고 가교 증폭되어 동일한 주형의 약 1,000개 사본을 각각 내포하는 수억 개의 클러스터를 갖는 초고밀도 염기서열결정 흐름 셀이 창출된다. 한 구체예에서, 무작위로 단편화된 유전체 DNA는 PCR을 이용하여 증폭되고, 이후 이것은 클러스터 증폭에 종속된다. 대안으로, 증폭-없는 (가령, PCR 없는) 유전체학 라이브러리 제조가 이용되고, 그리고 무작위로 단편화된 유전체 DNA는 클러스터 증폭 단독을 이용하여 농축된다 (Kozarewa et al., Nature Methods 6:291-295 [2009]). 주형은 제거가능한 형광 염료를 갖는 가역성 종결인자를 이용하는 견실한 4-컬러 DNA 합성에 의한 염기서열결정 기술을 이용하여 염기서열결정된다. 높은-민감도 형광 검출이 레이저 여기 및 전체 내부 반사 광학을 이용하여 달성된다. 약 수십 개 내지 수백 개 염기쌍의 짧은 서열 리드가 참조 유전체에 대해 정렬되고, 그리고 참조 유전체에 짧은 서열 리드의 독특한 지도화가 특수하게 개발된 데이터 분석 파이프라인 소프트웨어를 이용하여 확인된다. 첫 번째 리드의 완결 후, 주형은 단편의 반대쪽으로부터 두 번째 리드를 가능하게 하기 위해 원지에서 재생될 수 있다. 따라서, DNA 단편의 단일 말단 또는 쌍 말단 염기서열결정이 이용될 수 있다.
본 발명의 다양한 구체예는 쌍 말단 염기서열결정을 허용하는 합성에 의한 염기서열결정을 이용할 수 있다. 일부 구체예에서, Illumina에 의한 합성에 의한 염기서열결정 플랫폼은 단편을 군집화하는 것을 수반한다. 군집화는 각 단편 분자가 등온으로 증폭되는 과정이다. 일부 구체예에서, 본원에서 설명된 실례로서, 단편은 이러한 단편의 2개 말단에 부착된 2개의 상이한 어댑터를 갖고, 이들 어댑터는 상기 단편이 흐름 셀 레인의 표면상에서 2개의 상이한 올리고와 혼성화하도록 허용한다. 단편은 이러한 단편의 2개 말단에서 2개의 인덱스 서열을 더욱 포함하거나 또는 이들에 연결되고, 이들 인덱스 서열은 다중 염기서열결정에서 상이한 표본을 확인하기 위한 표지를 제공한다. 일부 염기서열결정 플랫폼에서, 염기서열결정되는 단편은 삽입물로서 또한 지칭된다.
일부 실행에서, Illumina 플랫폼에서 군집화를 위한 흐름 셀은 레인을 갖는 유리 슬라이드이다. 각 레인은 2가지 유형의 올리고의 잔디로 코팅된 유리 통로이다. 혼성화는 표면상에서 이들 2가지 유형의 올리고 중에서 첫 번째 것에 의해 가능해진다. 이러한 올리고는 단편의 한쪽 말단에서 첫 번째 어댑터에 상보적이다. 중합효소는 혼성화된 단편의 보체 가닥을 창출한다. 이중 가닥 분자는 변성되고, 그리고 본래 주형 가닥은 씻겨 나간다. 남아있는 가닥은 많은 다른 남아있는 가닥과 병렬적으로, 가교 적용을 통해 클론 증폭된다.
가교 증폭 동안, 하나의 가닥이 끝까지 접혀지고, 그리고 상기 가닥의 두 번째 말단에서 두 번째 어댑터 영역이 흐름 셀 표면상에서 두 번째 유형의 올리고와 혼성화한다. 중합효소는 상보성 가닥을 산출하고 이중 가닥 가교 분자를 형성한다. 이러한 이중 가닥 분자는 변성되어, 2개의 상이한 올리고를 통해 흐름 셀에 묶인 2개의 단일 가닥 분자를 유발한다. 상기 과정은 이후, 거듭거듭 반복되고, 그리고 수백만 개의 클러스터에 대해 동시에 발생하여 모든 단편의 클론 증폭을 유발한다. 가교 증폭 후, 역방향 가닥은 개열되어 씻겨 나가고, 단지 정방향 가닥만 남는다. 3' 말단은 원치 않는 시동을 예방하기 위해 차단된다.
군집화 후, 염기서열결정은 첫 번째 염기서열결정 프라이머를 연장하여 첫 번째 리드를 산출하는 것으로 시작된다. 각 주기에서, 형광으로 태깅된 뉴클레오티드는 성장 사슬에 부가에 대해 경쟁한다. 단지 하나만 주형의 서열에 기초하여 통합된다. 각 뉴클레오티드의 부가 후, 클러스터는 광원에 의해 여기되고, 그리고 특징적인 형광 신호가 방출된다. 주기의 횟수는 리드의 길이를 결정한다. 방출 파장 및 신호 강도는 염기 호출을 결정한다. 소정의 클러스터에 대해 모든 동일한 가닥은 동시에 판독 (reading)된다. 수억 개의 클러스터가 대량의 병렬 방식으로 염기서열결정된다. 첫 번째 리드의 완결 시점에서, 리드 산물은 씻겨 나간다.
2개의 인덱스 프라이머를 수반하는 프로토콜의 다음 단계에서, 인덱스 1 프라이머가 도입되고 주형 상에서 인덱스 1 영역에 혼성화된다. 인덱스 영역은 다중 염기서열결정 과정에서 표본을 역다중화하는데 유용한 단편의 확인을 제공한다. 인덱스 1 리드는 첫 번째 리드와 유사하게 산출된다. 인덱스 1 리드의 완결 후, 리드 산물은 씻겨 나가고, 그리고 가닥의 3' 말단이 탈보호된다. 주형 가닥은 이후, 끝까지 접혀지고 흐름 셀 상에서 두 번째 올리고에 결합한다. 인덱스 2 서열은 인덱스 1과 동일한 방식으로 판독된다. 이후, 인덱스 2 리드 산물은 상기 단계의 완결 시점에서 씻겨 나간다.
2개의 인덱스를 판독한 후, 리드 2는 중합효소를 이용하여 두 번째 흐름 셀 올리고를 연장하고 이중 가닥 가교를 형성함으로써 개시된다. 이러한 이중 가닥 DNA는 변성되고, 그리고 3' 말단이 차단된다. 본래 정방향 가닥은 쪼개지고 씻겨 나가고, 역방향 가닥만 남는다. 리드 2는 리드 2 염기서열결정 프라이머의 도입으로 시작된다. 리드 1에서처럼, 염기서열결정 단계는 원하는 길이가 달성될 때까지 반복된다. 리드 2 산물은 씻겨 나간다. 이러한 전체 과정은 모든 단편을 나타내는 수백만 개의 리드를 산출한다. 모아진 표본 라이브러리로부터 서열은 표본 준비 동안 도입된 독특한 인덱스에 기초하여 분리된다. 각 표본에 대해, 염기 호출의 유사한 스트레치의 리드가 국부 군집화된다. 정방향 및 역방향 리드는 대합되어 인접한 서열이 창출된다. 이들 인접한 서열은 변이체 확인을 위해 참조 유전체에 맞춰 정렬된다.
전술된 합성에 의한 염기서열결정 실례는 쌍 말단 리드를 필요로 하는데, 이들은 개시된 방법의 구체예 중에서 대부분에서 이용된다. 쌍 말단 염기서열결정은 단편의 2개 말단으로부터 2개의 리드를 필요로 한다. 한 쌍의 리드가 참조 서열에 지도화될 때, 이들 2개의 리드 사이에 염기쌍 거리가 결정될 수 있는데, 상기 거리는 이후, 이들 리드가 획득되었던 단편의 길이를 결정하는데 이용될 수 있다. 일부 경우에, 2개 빈의 양쪽에 걸치는 단편은 하나의 빈에 맞춰 정렬된 쌍 말단 리드 중에서 하나, 그리고 인접한 빈에 맞춰 정렬된 다른 하나를 가질 것이다. 빈이 더욱 길어질수록 또는 리드가 더욱 짧아질수록 이것은 더욱 희귀해진다. 다양한 방법이 이들 단편의 빈-멤버십을 설명하는데 이용될 수 있다. 가령, 이들은 빈의 단편 크기 빈도를 결정함에 있어서 제외될 수 있거나; 이들은 인접한 빈 중에서 둘 모두에 대해 계수될 수 있거나; 이들은 2개 빈의 더욱 많은 숫자의 염기쌍을 포괄하는 빈에 배정될 수 있거나; 또는 이들은 각 빈에서 염기쌍의 비율에 관련된 가중치로 양쪽 빈에 배정될 수 있다.
쌍 말단 리드는 상이한 길이 (다시 말하면, 염기서열결정되는 상이한 단편 크기)의 삽입물을 이용할 수 있다. 본 개시에서 디폴트 의미로서, 쌍 말단 리드는 다양한 삽입물 길이로부터 획득된 리드를 지칭하는데 이용된다. 일부 경우에, 짧은-삽입물 쌍 말단 리드를 긴-삽입물 쌍 말단 리드로부터 식별하기 위해, 후자는 메이트 쌍 리드로서 또한 지칭된다. 메이트 쌍 리드를 필요로 하는 일부 구체예에서, 2개 비오틴 접합부 어댑터가 먼저 상대적으로 긴 삽입물 (가령, 수 kb)의 2개 말단에 부착된다. 비오틴 접합부 어댑터는 이후, 삽입물의 2개 말단을 연결하여 원형화된 분자를 형성한다. 비오틴 접합부 어댑터를 포괄하는 하위단편은 이후, 원형화된 분자를 더욱 단편화함으로써 획득될 수 있다. 반대의 서열 순서에서 본래 단편의 2개 말단을 포함하는 하위단편은 이후, 전술된 짧은-삽입물 쌍 말단 염기서열결정에서와 동일한 절차에 의해 염기서열결정될 수 있다. Illumina 플랫폼을 이용한 메이트 쌍 염기서열결정에 관한 추가 상세는 하기의 URL에서 온라인 공개에서 예시되는데, 이것은 전체적으로 참조로서 편입된다: res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing. 쌍 말단 염기서열결정에 관한 추가 정보는 US 특허 번호 7601499 및 US 특허 공개 번호 2012/0,053,063에서 발견될 수 있는데, 이들은 쌍 말단 염기서열결정 방법 및 기구에 관한 자료에 대하여 참조로서 편입된다.
DNA 단편의 염기서열결정 후, 미리 결정된 길이, 예를 들면, 100 bp의 서열 리드가 공지된 참조 유전체에 지도화되거나 또는 이것에 맞춰 정렬된다. 지도화된 또는 정렬된 리드 및 참조 서열상에서 이들의 상응하는 위치는 태그로서 또한 지칭된다. 한 구체예에서, 참조 유전체 서열은 NCBI36/hg18 서열인데, 이것은 월드와이드웹 상에서 genome dot ucsc dot edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)에서 가용하다. 대안으로, 참조 유전체 서열은 GRCh37/hg19인데, 이것은 월드와이드웹 상에서 genome dot ucsc dot edu/cgi-bin/hgGateway에서 가용하다. 공개 서열 정보의 다른 공급원은 GenBank, dbEST, dbSTS, EMBL (the European Molecular Biology Laboratory), 그리고 DDBJ (the DNA Databank of Japan)를 포함한다. BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10:R25.1-R25.10 [2009]), 또는 ELAND (Illumina, Inc., San Diego, CA, USA)를 포함하지만 이들에 한정되지 않는 다수의 컴퓨터 프로그램이 서열을 정렬하는데 가용하다. 한 구체예에서, 혈장 cfDNA 분자의 클론 확대된 사본의 한쪽 말단은 뉴클레오티드 데이터베이스의 효율적인 대규모 정렬 (ELAND) 소프트웨어를 이용하는, Illumina 유전체 분석기에 대한 생물정보학 정렬 분석에 의해 염기서열결정되고 처리된다.
한 가지 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 Helicos 진정한 단일 분자 염기서열결정 (tSMS) 기술의 단일 분자 염기서열결정 기술을 이용하여, 검사 표본에서 핵산, 예를 들면, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다 (가령, Harris T.D. et al., Science 320:106-109 [2008]에서 설명된 바와 같이). tSMS 기술에서, DNA 표본은 대략 100 내지 200개 뉴클레오티드의 가닥으로 개열되고, 그리고 폴리A 서열이 각 DNA 가닥의 3' 말단에 부가된다. 각 가닥은 형광 표지화된 아데노신 뉴클레오티드의 부가에 의해 표지화된다. DNA 가닥은 이후, 흐름 셀에 혼성화되는데, 이것은 흐름 셀 표면에 고정되는 수백만 개의 올리고-T 포획 부위를 내포한다. 일정한 구체예에서 주형은 약 100 백만 주형/cm2의 밀도로 있을 수 있다. 흐름 셀은 이후, 기기, 예를 들면, HeliScope™ 서열분석기 내로 부하되고, 그리고 레이저가 흐름 셀의 표면을 조명하여, 각 주형의 위치를 드러낸다. CCD 카메라는 흐름 셀 표면상에서 주형의 위치를 지도화할 수 있다. 주형 형광 표지는 이후, 개열되어 씻겨 나간다. 염기서열결정 반응은 DNA 중합효소 및 형광 표지화된 뉴클레오티드를 도입함으로써 시작된다. 올리고-T 핵산은 프라이머로서 역할을 한다. 중합효소는 표지화된 뉴클레오티드를 주형 지향된 방식으로 프라이머에 통합한다. 중합효소 및 통합되지 않은 뉴클레오티드는 제거된다. 형광 표지화된 뉴클레오티드의 지향된 통합을 갖는 주형은 흐름 셀 표면을 영상화함으로써 식별된다. 영상화한 후, 개열 단계는 형광 표지를 제거하고, 그리고 상기 과정은 원하는 리드 길이가 달성될 때까지 다른 형광 표지화된 뉴클레오티드로 반복된다. 서열 정보는 각 뉴클레오티드 부가 단계로 수집된다. 단일 분자 염기서열결정 기술에 의한 전체 유전체 염기서열결정은 염기서열결정 라이브러리의 제조에서 PCR-기초된 증폭을 배제하거나 또는 전형적으로 회피하고, 그리고 상기 방법은 표본의 사본의 계측보다는 상기 표본의 직접적인 계측을 허용한다.
다른 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 454 염기서열결정 (Roche)을 이용하여, 검사 표본에서 핵산, 예를 들면, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다 (가령, Margulies, M. et al. Nature 437:376-380 [2005]에서 설명된 바와 같이). 454 염기서열결정은 전형적으로, 2 단계를 수반한다. 첫 번째 단계에서, DNA가 대략 300-800개 염기쌍의 단편으로 전단되고, 그리고 이들 단편은 평활 말단이다. 올리고뉴클레오티드 어댑터가 이후, 이들 단편의 말단에 결찰된다. 이들 어댑터는 단편의 증폭 및 염기서열결정을 위한 프라이머로서 역할을 한다. 이들 단편은 예로서, 5'-비오틴 태그를 내포하는 어댑터 B를 이용하여 DNA 포획 비드, 예를 들면, 스트렙타비딘-코팅된 비드에 부착될 수 있다. 이들 비드에 부착된 단편은 오일-물 유제의 비말 내에서 PCR 증폭된다. 결과는 각 비드 상에서 클론 증폭된 DNA 단편의 복수 사본이다. 두 번째 단계에서, 이들 비드는 웰 (가령, 피코리터-크기 웰)에서 포획된다. 파이로염기서열결정이 각 DNA 단편에서 병렬적으로 수행된다. 하나 또는 그 이상의 뉴클레오티드의 부가는 염기서열결정 기기에서 CCD 카메라에 의해 기록되는 광 신호를 산출한다. 신호 강도는 통합된 뉴클레오티드의 숫자에 비례한다. 파이로염기서열결정은 파이로인산염 (PPi)을 이용하는데, 이것은 뉴클레오티드 부가 시에 방출된다. PPi는 아데노신 5' 포스포황산염의 존재에서 ATP 술푸릴라아제에 의해 ATP로 전환된다. 루시페라아제는 ATP를 이용하여 루시페린을 옥시루시페린으로 전환하고, 그리고 이러한 반응은 계측되고 분석되는 광을 산출한다.
다른 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 SOLiD™ 기술 (Applied Biosystems)을 이용하여, 검사 표본에서 핵산, 예를 들면, 검사 표본에서 cfDNA, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다. SOLiD™ 결찰에 의한 염기서열결정에서, 유전체 DNA는 단편으로 전단되고, 그리고 어댑터가 이들 단편의 5'와 3' 말단에 부착되어 단편 라이브러리가 산출된다. 대안으로, 어댑터를 이들 단편의 5'와 3' 말단에 결찰하고, 이들 단편을 원형화하고, 원형화된 단편을 절단하여 내부 어댑터를 산출하고, 그리고 어댑터를 결과의 단편의 5'와 3' 말단에 부착하여 메이트-대합된 라이브러리를 산출함으로써 내부 어댑터가 도입될 수 있다. 그 다음, 클론 비드 개체군이 비드, 프라이머, 주형 및 PCR 성분을 내포하는 마이크로반응기에서 제조된다. PCR 이후에, 주형은 변성되고, 그리고 비드는 연장된 주형을 갖는 비드를 분리하기 위해 농축된다. 선별된 비드 상에서 주형은 유리 슬라이드에 결합을 허용하는 3' 변형에 종속된다. 서열은 특정한 형광단에 의해 확인되는 중심 결정된 염기 (또는 염기의 쌍)로 부분적으로 무작위 올리고뉴클레오티드의 순차적 혼성화 및 결찰에 의해 결정될 수 있다. 컬러가 기록된 후, 결찰된 올리고뉴클레오티드는 개열되고 제거되고, 그리고 상기 과정은 이후 반복된다.
다른 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 Pacific Biosciences의 단일 분자, 실시간 (SMRT™) 염기서열결정 기술을 이용하여, 검사 표본에서 핵산, 예를 들면, 검사 표본에서 cfDNA, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다. SMRT 염기서열결정에서, 염료-표지화된 뉴클레오티드의 연속적 통합이 DNA 합성 동안 영상화된다. 인산기에 의해 연결된 뉴클레오티드가 성장 프라이머 가닥 내로 통합되는 동안 서열 정보를 획득하는 개별 제로-방식 파장 검출기 (ZMW 검출기)의 아래쪽 표면에 단일 DNA 중합효소 분자가 부착된다. ZMW 검출기는 ZMW의 외부에서 신속하게 확산하는 (가령, 마이크로초 내에) 형광 뉴클레오티드의 배경에 대비하여 DNA 중합효소에 의한 단일 뉴클레오티드의 통합의 관찰을 가능하게 하는 밀폐 구조를 포함한다. 뉴클레오티드를 성장 가닥 내로 통합하는 것은 전형적으로 수 밀리초가 소요된다. 이러한 시간 동안, 형광 표지는 여기되어 형광 신호를 생산하고, 그리고 형광 태그는 쪼개진다. 염료의 상응하는 형광의 계측은 어떤 염기가 통합되었는지를 지시한다. 상기 과정은 서열을 제공하기 위해 반복된다.
다른 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 나노구멍 염기서열결정을 이용하여, 검사 표본에서 핵산, 예를 들면, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다 (가령, Soni GV and Meller A. Clin Chem 53: 1996-2001 [2007]에서 설명된 바와 같이). 나노구멍 염기서열결정 DNA 분석 기술은 예로서, Oxford Nanopore Technologies (Oxford, United Kingdom), Sequenom, NABsys 등을 비롯한 다수의 기업에 의해 개발된다. 나노구멍 염기서열결정은 단일-분자 염기서열결정 기술인데, 여기서 DNA의 단일 분자가 나노구멍을 통과하는 동안 직접적으로 염기서열결정된다. 나노구멍은 직경에서 전형적으로 대략 1 나노미터의 작은 홀이다. 전도성 유체에 나노구멍의 담금 및 이의 전역에서 전위 (전압)의 적용은 나노구멍을 통한 이온의 전도로 인해 약간의 전류를 유발한다. 흐르는 전류의 양은 나노구멍의 크기와 모양에 민감하다. DNA 분자가 나노구멍을 통과할 때, DNA 분자 상에서 각 뉴클레오티드는 나노구멍을 상이한 정도로 가로막고, 나노구멍을 통과하는 전류의 크기를 상이한 정도로 변화시킨다. 따라서, DNA 분자가 나노구멍을 통과할 때 전류에서 이러한 변화는 DNA 서열의 리드를 제공한다.
다른 예시적인, 하지만 무제한적 구체예에서, 본원에서 설명된 방법은 화학적-민감성 전계 효과 트랜지스터 (chemFET) 어레이를 이용하여, 검사 표본에서 핵산, 예를 들면, 암에 대해 선별검사되는 개체에서 cfDNA 또는 세포 DNA 등에 대한 서열 정보를 획득하는 것을 포함한다 (가령, U.S. 특허 출원 공개 번호 2009/0026082에서 설명된 바와 같이). 이러한 기술의 한 가지 실례에서, DNA 분자는 반응 챔버 내로 배치될 수 있고, 그리고 주형 분자는 중합효소에 결합된 염기서열결정 프라이머에 혼성화될 수 있다. 염기서열결정 프라이머의 3' 말단에서 새로운 핵산 가닥 내로 하나 또는 그 이상의 삼인산염의 통합은 chemFET에 의해 전류에서 변화로서 식별될 수 있다. 어레이는 복수의 chemFET 센서를 가질 수 있다. 다른 실례에서, 단일 핵산은 비드에 부착될 수 있고, 그리고 이들 핵산은 비드에서 증폭될 수 있고, 그리고 개별 비드는 chemFET 어레이 상에서 개별 반응 챔버로 이전될 수 있고, 각 챔버는 chemFET 센서를 갖고, 그리고 이들 핵산은 염기서열결정될 수 있다.
다른 구체예에서, 본 발명 방법은 투과 전자 현미경검사 (TEM)를 이용하여 검사 표본에서 핵산에 대한 서열 정보를 획득하는 것을 포함한다. 개별 분자 배치 신속 나노 전달 (IMPRNT)로 명명된 상기 방법은 중원자 마커로 선별적으로 표지화된 높은-분자량 (150kb 또는 그 이상) DNA의 단일 원자 분해능 투과 전자 현미경 영상화를 활용하고, 그리고 일관된 염기간 간격을 갖는 초밀집 (가닥간 3nm) 병렬 어레이에서 초박 필름 상에 이들 분자를 배열하는 것을 포함한다. 전자 현미경이 중원자 마커의 위치를 결정하고 DNA로부터 염기 서열 정보를 도출하기 위해 필름 상에서 이들 분자를 영상화하는데 이용된다. 상기 방법은 PCT 특허 공개 WO 2009/046445에서 더욱 설명된다. 상기 방법은 완전한 인간 유전체를 10 분 이내에 염기서열결정하는 것을 허용하다.
다른 구체예에서, DNA 염기서열결정 기술은 Ion Torrent 단일 분자 염기서열결정인데, 이것은 반도체 기술을 단순한 염기서열결정 화학과 대합하여, 화학적으로 인코딩된 정보 (A, C, G, T)를 반도체 칩 상에서 디지털 정보 (0, 1)로 직접적으로 번역한다. 자연에서, 뉴클레오티드가 중합효소에 의해 DNA의 가닥 내로 통합될 때, 수소 이온이 부산물로서 방출된다. Ion Torrent는 마이크로-절삭된 웰의 고밀도 어레이를 이용하여 이러한 생화학적 과정을 대량의 병렬 방식으로 수행한다. 각 웰은 상이한 DNA 분자를 유지한다. 웰 아래에는 이온-민감성 층이 있고, 그리고 그 아래에는 이온 센서가 있다. 뉴클레오티드, 예를 들면, C가 DNA 주형에 부가되고, 그리고 이후 DNA의 가닥 내로 통합될 때, 수소 이온이 방출될 것이다. 상기 이온으로부터 전하는 용액의 pH를 변화시킬 것이고, 이것은 Ion Torrent의 이온 센서에 의해 검출될 수 있다. 상기 서열분석기 - 본질적으로는 세계에서 가장 작은 고체-상태 pH 측정기 -는 염기를 호출하고, 화학적 정보로부터 디지털 정보로 직접적으로 나아간다. Ion 개인 유전체 기계 (PGM™) 서열분석기는 이후, 뉴클레오티드를 차례대로 연속적으로 칩에 쏟아 붇는다. 만약 칩에 쏟아 부어지는 그 다음 뉴클레오티드가 정합이 아니면, 어떤 전압 변화도 기록되지 않을 것이고, 그리고 어떤 염기도 호출되지 않을 것이다. 만약 DNA 가닥 상에서 2개의 동일한 염기가 있으면, 전압은 이중일 것이고, 그리고 칩은 호출된 2개의 동일한 염기를 기록할 것이다. 직접적인 검출은 몇 초 내에 뉴클레오티드 통합의 기록을 허용한다.
다른 구체예에서, 본 발명 방법은 혼성화에 의한 염기서열결정을 이용하여 검사 표본에서 핵산에 대한 서열 정보를 획득하는 것을 포함한다. 혼성화에 의한 염기서열결정은 복수의 폴리뉴클레오티드 서열을 복수의 폴리뉴클레오티드 프로브와 접촉시키는 것을 포함하고, 여기서 각각의 복수의 폴리뉴클레오티드 프로브는 임의선택적으로 기질에 묶일 수 있다. 기질은 공지된 뉴클레오티드 서열의 어레이를 포함하는 편평한 표면일지도 모른다. 어레이에 혼성화의 패턴은 표본 내에 존재하는 폴리뉴클레오티드 서열을 결정하는데 이용될 수 있다. 다른 구체예에서, 각 프로브는 비드, 예를 들면, 자성 비드 또는 기타 유사한 것에 묶인다. 이들 비드에 혼성화는 결정될 수 있고, 그리고 표본 내에서 복수의 폴리뉴클레오티드 서열을 확인하는데 이용될 수 있다.
본원에서 설명된 방법의 일부 구체예에서, 지도화된 서열 태그는 약 20bp, 약 25bp, 약 30bp, 약 35bp, 약 40bp, 약 45bp, 약 50bp, 약 55bp, 약 60bp, 약 65bp, 약 70bp, 약 75bp, 약 80bp, 약 85bp, 약 90bp, 약 95bp, 약 100bp, 약 110bp, 약 120bp, 약 130bp, 약 140bp, 약 150bp, 약 200bp, 약 250bp, 약 300bp, 약 350bp, 약 400bp, 약 450bp, 또는 약 500bp의 서열 리드를 포함한다. 기술적인 진전은 쌍 말단 리드가 산출될 때 약 1000bp보다 큰 리드를 가능하게 하는 500bp보다 큰 단일 말단 리드를 가능하게 할 것으로 예상된다. 한 구체예에서, 지도화된 서열 태그는 36bp인 서열 리드를 포함한다. 서열 태그의 지도화는 태그의 서열을 참조의 서열과 비교하여 염기서열결정된 핵산 (가령, cfDNA) 분자의 염색체 기원을 결정함으로써 달성되고, 그리고 특정한 유전자 서열 정보는 필요하지 않다. 참조 유전체 및 혼합된 표본 내에 유전체 사이에 존재할 수 있는 소수 다형성을 설명하기 위해, 작은 정도의 부정합 (서열 태그마다 0-2개 부정합)은 허용될 수 있다.
복수의 서열 태그는 전형적으로 표본마다 획득된다. 일부 구체예에서, 75bp 사이의 리드를 포함하는 최소한 약 1 x 105 서열 태그가 이들 리드를 표본마다 참조 유전체에 지도화하는 것으로부터 획득된다.
암 표본의 CCFs를 정확하게 추정하는데 필요한 정확도는 염기서열결정 실행 내에 표본 사이에서 참조 유전체에 지도화되는 서열 태그의 숫자의 변이 (실행간 가변성), 그리고 상이한 염기서열결정 실행에서 참조 유전체에 지도화되는 서열 태그의 숫자의 변이 (실행간 가변성)에 입각된다. 다른 변이는 핵산의 추출 및 정제, 염기서열결정 라이브러리의 제조, 그리고 상이한 염기서열결정 플랫폼의 이용을 위해 상이한 프로토콜을 이용하는 것으로부터 발생할 수 있다.
암 세포 분율 (CCF)을 추정하기 위한 기구 및 시스템
염기서열결정 데이터의 분석 및 그것으로부터 유래된 진단은 전형적으로, 다양한 컴퓨터 프로그램을 이용하여 수행된다. 이런 이유로, 일정한 구체예는 하나 또는 그 이상의 컴퓨터 시스템 또는 다른 처리 시스템에서 저장되거나 또는 이들을 통해 이전된 데이터를 수반하는 과정을 이용한다. 본원에서 개시된 구체예는 이들 작업을 수행하기 위한 기구에 또한 관계한다. 이러한 기구는 필요한 목적을 위해 특수하게 구축될 수 있거나, 또는 이것은 컴퓨터에서 저장된 컴퓨터 프로그램 및/또는 데이터 구조에 의해 선별적으로 활성화되거나 또는 재구성된 일반용 컴퓨터 (또는 컴퓨터의 군)일 수 있다. 일부 구체예에서, 프로세서의 군은 언급된 분석 작업 중에서 일부 또는 전부를 협력적으로 (가령, 네트워크 또는 클라우드 컴퓨팅을 통해) 및/또는 병렬적으로 수행한다. 본원에서 설명된 방법을 수행하기 위한 프로세서 또는 프로세서의 군은 마이크로컨트롤러 및 마이크로프로세서, 예를 들면, 프로그램가능 장치 (가령, CPLDs 및 FPGAs) 및 비-프로그램가능 장치, 예를 들면, 게이트 어레이 ASICs 또는 일반용 마이크로프로세서를 비롯한 다양한 유형일 수 있다.
이에 더하여, 일정한 구체예는 다양한 컴퓨터-실행 작업을 수행하기 위한 프로그램 명령 및/또는 데이터 (데이터 구조 포함)를 포함하는 실재적인 및/또는 비일시적인 컴퓨터 판독가능 매체 또는 컴퓨터 프로그램 제품에 관계한다. 컴퓨터-판독가능 매체의 실례는 반도체 기억 장치, 자성 매체, 예를 들면, 디스크 드라이브, 자기 테이프, 광학 매체, 예를 들면, CDs, 광자기 매체, 그리고 프로그램 명령을 저장하고 수행하도록 특수하게 설정된 하드웨어 장치, 예를 들면, 판독 전용 기억 장치 (ROM) 및 무작위 접근 메모리 (RAM)를 포함하지만 이들에 한정되지 않는다. 컴퓨터 판독가능 매체는 최종 사용자에 의해 직접적으로 제어될 수 있거나, 또는 상기 매체는 최종 사용자에 의해 간접적으로 제어될 수 있다. 직접적으로 제어되는 매체의 실례는 사용자 시설에서 위치된 매체 및/또는 다른 실체와 공유되지 않는 매체를 포함한다. 간접적으로 제어되는 매체의 실례는 외부 네트워크를 통해 및/또는 공유된 자원을 제공하는 서비스, 예를 들면, "클라우드"를 통해 사용자에게 간접적으로 접근이 허용되는 매체를 포함한다. 프로그램 명령의 실례는 예로서, 컴파일러에 의해 생산된 기계 코드, 그리고 해석기를 이용하여 컴퓨터에 의해 실행될 수 있는 더욱 높은 수준 코드를 내포하는 파일 둘 모두를 포함한다.
다양한 구체예에서, 개시된 방법 및 기구에서 이용되는 데이터 또는 정보는 전자 형식으로 제공된다. 이런 데이터 또는 정보는 핵산 표본으로부터 유래된 리드 및 태그, 참조 서열의 특정 영역과 함께 정렬하는 (가령, 염색체 또는 염색체 분절에 맞춰 정렬하는) 이런 태그의 수치 또는 밀도, 참조 서열 (오로지 또는 일차적으로 다형성을 제공하는 참조 서열 포함), 호출, 예를 들면, SNV 또는 이수성 호출, CCF 추정치, 카운슬링 권고, 진단, 기타 등등을 포함할 수 있다. 본원에서 이용된 바와 같이, 전자 형식으로 제공되는 데이터 또는 다른 정보는 기계 상에 저장 및 기계 사이에 전송이 가능하다. 전통적으로, 전자 형식의 데이터는 디지털 방식으로 제공되고, 그리고 다양한 데이터 구조, 목록, 데이터베이스 등에서 비트 및/또는 바이트로서 저장될 수 있다. 데이터는 전자적으로, 광학적으로, 기타 등등으로 구현될 수 있다.
한 구체예는 검사 표본에서 변이체, 예를 들면, 암과 연관된 변이체의 CCFs를 지시하는 출력을 산출하기 위한 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 제품은 염색체 이상을 결정하기 위한 전술한 방법 중에서 한 가지 또는 그 이상을 수행하기 위한 명령을 내포할 수 있다. 설명된 바와 같이, 컴퓨터 제품은 프로세서가 하나 또는 그 이상의 암 표본에서 하나 또는 그 이상의 변이체의 CCFs를 추정하는 것을 실시가능하게 하기 위해, 컴퓨터 실행가능한 또는 편집가능한 논리 (가령, 명령)가 그 안에 기록된 비일시적인 및/또는 실재적인 컴퓨터 판독가능 매체를 포함할 수 있다. 한 가지 실례에서, 컴퓨터 제품은 프로세서가 하나 또는 그 이상의 암 표본에서 하나 또는 그 이상의 변이체의 CCFs를 결정하는 것을 실시가능하게 하기 위해, 컴퓨터 실행가능한 또는 편집가능한 논리 (가령, 명령)가 그 안에 기록된 컴퓨터 판독가능 매체를 포함한다.
고려 중인 표본으로부터 서열 정보는 관심되는 하나 또는 그 이상의 염색체 각각에 대한 서열 태그의 숫자를 확인하기 위해 염색체 참조 서열에 지도화될 수 있다. 다양한 구체예에서, 참조 서열은 예로서, 데이터베이스, 예를 들면, 관계 또는 목적 데이터베이스에서 저장된다.
도움을 받지 못한 인간이 본원에서 개시된 방법의 연산 작업을 수행하는 것은 실질적이지 않거나, 또는 많은 경우에 심지어 가능하지 않은 것으로 이해되어야 한다. 가령, 표본으로부터 단일 30 bp 리드를 인간 염색체 중에서 한 가지에 지도화하는 것은 연산 기구의 도움이 없다면 수년의 노력을 필요로 할지도 모른다. 혼합 모형 최적화 또는 컴퓨터 시뮬레이션은 인간이 수행하기에는 어렵거나 또는 불가능할 것이다.
본원에서 개시된 방법은 암 표본의 CCFs를 추정하기 위한 시스템을 이용하여 수행될 수 있다. 하기를 포함하는 시스템: (a) 표본으로부터 핵산 서열 정보를 제공하는 검사 표본으로부터 핵산을 받아들이기 위한 서열분석기; (b) 프로세서; 그리고 (c) 하나 또는 그 이상의 암 표본에서 하나 또는 그 이상의 변이체의 CCFs를 결정하기 위해, 상기 프로세서에서 실행을 위한 명령이 그 안에 저장된 하나 또는 그 이상의 컴퓨터-판독가능 저장 매체.
일부 구체예에서, 이들 방법은 암 표본의 CCFs를 추정하기 위한 방법을 실행하기 위한 컴퓨터-판독가능 명령이 그 안에 저장된 컴퓨터-판독가능 매체의 지시를 받는다. 따라서 한 구체예는 컴퓨터 시스템의 하나 또는 그 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 암 표본의 CCFs를 추정하기 위한 방법을 실행하도록 유발하는 컴퓨터-실행가능 명령이 그 안에 저장된 하나 또는 그 이상의 컴퓨터-판독가능 비일시적인 저장 매체를 포함하는 컴퓨터 프로그램 제품을 제공한다. 상기 방법은 하기 단계를 포함한다: (a) 개체로부터 최소한 하나의 검사 표본에서 핵산을 염기서열결정함으로써 획득된 서열 리드를 받아들이는 단계, 여기서 이들 핵산은 암 세포의 하나 또는 그 이상의 하위클론으로부터 유래되고; (b) 서열 리드를 참조 유전체에 맞춰 정렬하여 서열 태그를 제공하는 단계, 여기서 참조 유전체는 복수의 좌위를 포함하고, 복수의 좌위의 각 좌위는 복수의 체성 돌연변이 중에서 한 가지 체성 돌연변이를 품고; (c) 복수의 좌위의 각 좌위에 대해, 상기 좌위의 커버리지 및 상기 좌위의 변이체 대립유전자 빈도 (VAF)를 결정하는 단계, 여기서 VAF는 체성 돌연변이의 변이체 대립유전자의 빈도이고; (d) 검사 표본 내에 모든 세포 사이에서 종양 세포의 분율인 종양 순도 값 (p)을 제공하는 단계; (e) 복수의 좌위의 각 좌위에 대해, 검사 표본 내에 모든 세포에 대한 상기 좌위에서 모든 대립유전자의 평균 사본수 (N)를 제공하는 단계; (f) 복수의 좌위의 각 좌위에 대해, VAF, pN을 이용하여 초기 암 세포 분율 (iCCF)을 계산하고, 여기서 암 세포 분율은 상기 좌위에서 체성 돌연변이를 갖는 암 세포의 분율이고, 따라서 복수의 좌위에 대한 복수의 iCCFs를 획득하는 단계; (g) 복수의 좌위에 대한 복수의 iCCFs를 군집화하고, 따라서 iCCFs의 하나 또는 그 이상의 클러스터를 획득하는 단계; 그리고 (h) 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정하는 단계.
일부 구체예에서, 명령은 검사 표본을 제공하는 인간 개체에 대한 환자 진료 기록에서 상기 방법에 유관한 자동 기록 정보를 더욱 포함할 수 있다. 환자 진료 기록은 예로서, 실험실, 의원, 병원, 건강 관리 기관, 보험 회사, 또는 개인 진료 기록 웹사이트에 의해 유지될 수 있다. 게다가, 프로세서-실행 분석의 결과에 근거하여, 상기 방법은 검사 표본이 채취된 인간 개체의 치료를 처방하고, 개시하고 및/또는 변경하는 것을 더욱 수반할 수 있다. 이것은 개체로부터 채취된 추가 표본에서 한 가지 또는 그 이상의 추가 검사 또는 분석을 수행하는 것을 수반할 수 있다.
개시된 방법은 또한, 암 표본의 CCFs를 추정하기 위한 방법을 수행하도록 적합되거나 또는 설정된 컴퓨터 처리 시스템을 이용하여 수행될 수 있다. 한 구체예는 본원에서 설명된 바와 같은 방법을 수행하도록 적합되거나 또는 설정된 컴퓨터 처리 시스템을 제공한다. 한 구체예에서, 기구는 본원의 다른 곳에서 설명된 유형의 서열 정보를 획득하기 위해, 표본 내에서 핵산 분자의 최소한 일부를 염기서열결정하도록 적합되거나 또는 설정된 염기서열결정 장치를 포함한다. 이들 기구는 또한, 표본을 처리하기 위한 성분을 포함할 수 있다. 이런 성분은 본원의 다른 곳에서 설명된다.
서열 또는 다른 데이터는 컴퓨터 내로 입력되거나, 또는 컴퓨터 판독가능 매체 상에 직접적으로 또는 간접적으로 저장될 수 있다. 한 구체예에서, 컴퓨터 시스템은 표본으로부터 핵산의 서열을 판독하고 및/또는 분석하는 염기서열결정 장치에 직접적으로 연계된다. 이런 도구로부터 서열 또는 다른 정보는 컴퓨터 시스템 내에 인터페이스를 통해 제공된다. 대안으로, 시스템에 의해 처리되는 서열은 서열 저장 공급원, 예를 들면, 데이터베이스 또는 다른 저장소로부터 제공된다. 일단 처리 기구에 가용하면, 기억 장치 또는 대량 저장 장치가 핵산의 서열을 최소한 일시적으로 완충하거나 또는 저장한다. 이에 더하여, 기억 장치는 다양한 염색체 또는 유전체 등에 대한 태그 수치를 저장할 수 있다. 메모리는 또한, 제시된 서열 또는 지도화된 데이터를 분석하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다. 이런 프로그램/루틴은 통계학적 분석 등을 수행하기 위한 프로그램을 포함할 수 있다.
한 가지 실례에서, 사용자는 표본을 염기서열결정 기구 내로 제공한다. 데이터는 염기서열결정 기구에 의해 수집되고 및/또는 분석되는데, 상기 기구는 컴퓨터에 연결된다. 컴퓨터 상에서 소프트웨어가 데이터 수집 및/또는 분석을 허용한다. 데이터는 저장되고, 전시되고 (모니터 또는 다른 유사한 장치를 통해) 및/또는 다른 위치로 보내질 수 있다. 컴퓨터는 인터넷에 연결될 수 있는데, 인터넷은 데이터를, 원격 사용자 (가령, 의사, 과학자 또는 분석가)에 의해 활용되는 손바닥크기 장치에 전송하는데 이용된다. 데이터는 전송에 앞서 저장되고 및/또는 분석될 수 있는 것으로 이해된다. 일부 구체예에서, 미가공 데이터가 수집되고, 그리고 상기 데이터를 분석하고 및/또는 저장할 원격 사용자 또는 기구에게 보내진다. 전송은 인터넷을 통해 일어날 수 있지만, 위성 또는 다른 연결을 통해 일어날 수도 있다. 대안으로, 데이터는 컴퓨터-판독가능 매체에서 저장될 수 있고, 그리고 상기 매체가 최종 사용자에게 발송될 수 있다 (가령, 메일을 통해). 원격 사용자는 빌딩, 도시, 주, 국가 또는 대륙을 포함하지만 이들에 한정되지 않는 동일한 또는 상이한 지리학적 위치에 있을 수 있다.
일부 구체예에서, 상기 방법은 또한, 복수의 폴리뉴클레오티드 서열에 관한 데이터 (가령, 리드, 태그 및/또는 참조 염색체 서열)를 수집하고, 그리고 상기 데이터를 컴퓨터 또는 다른 연산 시스템으로 보내는 것을 포함한다. 가령, 컴퓨터는 실험실 설비, 예를 들면, 표본 수집 기구, 뉴클레오티드 증폭 기구, 뉴클레오티드 염기서열결정 기구, 또는 혼성화 기구에 연결될 수 있다. 컴퓨터는 이후, 실험실 장치에 의해 모아진 적용가능한 데이터를 수집할 수 있다. 데이터는 임의의 단계에서, 예를 들면, 실시간으로 수집되는 동안, 전송에 앞서, 전송 동안 또는 전송과 함께, 또는 전송 이후에 컴퓨터에 저장될 수 있다. 데이터는 컴퓨터로부터 추출될 수 있는 컴퓨터-판독가능 매체에서 저장될 수 있다. 수집되거나 또는 저장된 데이터는 예로서, 국부 네트워크 또는 광역 통신망, 예를 들면, 인터넷을 통해 컴퓨터로부터 원격 위치로 전송될 수 있다. 원격 위치에서, 전송된 데이터에 대한 다양한 작업이 아래에 설명된 바와 같이 수행될 수 있다.
본원에서 개시된 시스템, 기구 및 방법에서 저장되고, 전송되고, 분석되고 및/또는 조작될 수 있는 전자적으로 형식화된 데이터의 유형 중에는 하기와 같은 유형이 있다:
검사 표본에서 핵산을 염기서열결정함으로써 획득된 리드
리드를 참조 유전체 또는 다른 참조 서열 또는 서열에 맞춰 정렬함으로써 획득된 태그
참조 유전체 또는 서열
대립유전자 수 - 참조 유전체 또는 다른 참조 서열의 각 대립유전자 및 영역에 대한 태그의 수치 또는 숫자
결정된 CCF 값, 암 세포 클론형성능, 또는 암 세포 하위클론의 숫자
진단 (호출과 연관된 임상적 상태)
호출 및/또는 진단으로부터 유래된 추가 검사에 대한 권고
호출 및/또는 진단으로부터 유래된 치료 및/또는 모니터링 계획
이들 다양한 유형의 데이터는 상이한 기구를 이용하여 하나 또는 그 이상의 위치에서 획득되고, 저장되고, 전송되고, 분석되고 및/또는 조작될 수 있다. 처리 옵션은 넓은 스펙트럼에 걸쳐 있다. 상기 스펙트럼의 한쪽 말단에서, 이러한 정보 중에서 모든 또는 많은 정보가 검사 표본이 처리되는 위치, 예를 들면, 의원 또는 다른 임상적 세팅에서 저장되고 이용된다. 다른 말단에서, 표본이 한 위치에서 획득되고, 이것은 상이한 위치에서 처리되고 임의선택적으로 염기서열결정되고, 리드가 정렬되고, 호출이 하나 또는 그 이상의 상이한 위치에서 만들어지고, 그리고 진단, 권고 및/또는 계획이 또 다른 위치 (이것은 표본이 획득되었던 위치일 수 있다)에서 이루어진다.
다양한 구체예에서, 리드가 염기서열결정 기구로 산출되고, 그리고 이후, 원격 부위로 전송되는데, 여기서 이들은 호출을 생산하도록 처리된다. 이러한 원격 위치에서, 실례로서, 리드는 태그를 생산하기 위해 참조 서열에 맞춰 정렬되고, 이들 태그는 계수되고 관심되는 염색체 또는 분절에 배정된다. 또한 원격 위치에서, 도스가 호출을 산출하는데 이용된다.
상이한 위치에서 이용될 수 있는 처리 작업 중에는 하기와 같은 처리 작업이 있다:
표본 수집
염기서열결정에 예비적인 표본 처리
염기서열결정
서열 데이터 분석 및 검사 표본 정량
진단
환자 또는 건강 관리 제공자에게 진단 및/또는 호출 보고
추가 치료, 검사 및/또는 모니터링에 대한 계획 개발
계획 실행
카운슬링
이들 작업 중에서 한 가지 또는 그 이상은 본원의 다른 곳에서 설명된 바와 같이 자동화될 수 있다. 전형적으로, 서열 데이터의 염기서열결정 및 분석, 그리고 CCFs 추정은 연산적으로 수행될 것이다. 다른 작업은 수동으로 또는 자동적으로 수행될 수 있다.
표본 수집이 수행될 수 있는 위치의 실례는 건강 의원, 진료소, 환자의 집 (여기서 표본 수집 도구 또는 키트가 제공된다), 그리고 이동 건강 관리 차량을 포함한다. 염기서열결정에 앞서 표본 처리가 수행될 수 있는 위치의 실례는 건강 의원, 진료소, 환자의 집 (여기서 표본 처리 기구 또는 키트가 제공된다), 이동 건강 관리 차량, 그리고 DNA 분석 제공자의 시설을 포함한다. 염기서열결정이 수행될 수 있는 위치의 실례는 건강 의원, 진료소, 건강 의원, 진료소, 환자의 집 (여기서 표본 염기서열결정 기구 및/또는 키트기 제공된다), 이동 건강 관리 차량, 그리고 DNA 분석 제공자의 시설을 포함한다. 염기서열결정이 발생하는 위치는 서열 데이터 (전형적으로 리드)를 전자 형식으로 전송하기 위한 전용 네트워크 연결이 제공될 수 있다. 이런 연결은 유선 또는 무선일 수 있고, 데이터를 보유하고, 그리고 처리 장소로 전송에 앞서 데이터가 처리되고 및/또는 집합될 수 있는 장소로 데이터를 보내도록 설정될 수 있다. 데이터 집합기는 의료 기관, 예를 들면, 건강 관리 기관 (HMOs)에 의해 유지될 수 있다.
분석 및/또는 도출 작업은 임의의 전술한 위치에서 또는 대안으로, 연산 및/또는 핵산 서열 데이터를 분석하는 서비스에 전념하는 더욱 먼 장소에서 수행될 수 있다. 이런 위치는 예로서, 클러스터, 예를 들면, 일반용 서버 팜, DNA 분석 서비스 사업의 시설 등을 포함한다. 일부 구체예에서, 분석을 수행하는데 이용되는 연산 기구는 임차되거나 또는 임대된다. 연산 자원은 프로세서의 인터넷 접근가능한 집합물, 예를 들면, 클라우드로서 구어적으로 알려져 있는 처리 자원의 일부일 수 있다. 일부 경우에, 연산은 서로 연계되거나 또는 연계되지 않는 프로세서의 병렬 또는 대량의 병렬 군에 의해 수행된다. 처리는 분산 처리, 예를 들면, 클러스터 컴퓨팅, 그리드 컴퓨팅 등을 이용하여 달성될 수 있다. 이런 구체예에서, 연산 자원의 클러스터 또는 그리드는 본원에서 설명된 분석 및/또는 도출을 수행하기 위해 함께 작용하는 복수의 프로세서 또는 컴퓨터로 구성되는 초가상 컴퓨터를 집합적으로 형성한다. 이들 기술뿐만 아니라 더욱 전통적인 슈퍼컴퓨터가 본원에서 설명된 바와 같은 서열 데이터를 처리하는데 이용될 수 있다. 각각은 프로세서 또는 컴퓨터에 의존하는 병렬 컴퓨팅의 형태이다. 그리드 컴퓨팅의 경우에, 이들 프로세서 (종종 전체 컴퓨터)는 전통적인 네트워크 프로토콜, 예를 들면, 이더넷에 의한 네트워크 (민간, 공공, 또는 인터넷)에 의해 연결된다. 대조적으로, 슈퍼컴퓨터는 많은 프로세서가 국부 고속 컴퓨터 버스에 의해 연결된다.
일정한 구체예에서, 진단은 분석 작업과 동일한 위치에서 산출된다. 다른 구체예에서, 이것은 상이한 위치에서 수행된다. 일부 실례에서, 기정된 사실인 것은 아니지만, 진단을 보고하는 것은 표본이 채취되었던 위치에서 수행된다. 진단이 산출되거나 또는 보고될 수 있고 및/또는 계획을 개발하는 것이 수행되는 위치의 실례는 네트워크에 유선 또는 무선 연결을 갖는 건강 의원, 진료소, 컴퓨터에 의해 접근가능한 인터넷 사이트, 그리고 손바닥크기 장치, 예를 들면, 휴대폰, 태블릿, 스마트폰 등을 포함한다. 카운슬링이 수행되는 위치의 실례는 건강 의원, 진료소, 컴퓨터에 의해 접근가능한 인터넷 사이트, 손바닥크기 장치 등을 포함한다.
일부 구체예에서, 표본 수집, 표본 처리 및 염기서열결정 작업은 첫 번째 위치에서 수행되고, 그리고 분석 및 도출 작업은 두 번째 위치에서 수행된다. 하지만, 일부 경우에, 표본 집합물은 한 위치 (가령, 건강 의원 또는 클리닉)에서 수집되고, 그리고 표본 처리 및 염기서열결정은 분석 및 도출이 발생하는 위치와 임의선택적으로 동일한 위치인 상이한 위치에서 수행된다.
다양한 구체예에서, 상기-열거된 작업의 순서는 표본 수집, 표본 처리 및/또는 염기서열결정을 개시하는 사용자 또는 실체에 의해 촉발될 수 있다. 하나 또는 그 이상의 이들 작업이 실행을 시작한 후, 다른 작업이 자연적으로 뒤따를 수 있다. 가령, 염기서열결정 작업은 리드가 자동적으로 수집되고 처리 기구로 보내지도록 유발할 수 있는데, 상기 기구는 이후, 종종 자동적으로 및 아마도, 추가 사용자 개입 없이, 암 표본의 서열 분석 및 CCFs 추정을 수행한다. 일부 실행에서, 이러한 처리 작업의 결과는 이후, 아마도 진단으로서 재포맷되어, 정보를 처리하고 이를 건강 전문가 및/또는 환자에게 보고하는 시스템 성분 또는 실체로 자동적으로 전달된다. 설명된 바와 같이, 이런 정보는 또한, 아마도 카운슬링 정보와 함께 치료, 검사 및/또는 모니터링 계획을 생산하기 위해 자동적으로 처리될 수 있다. 따라서, 초기 단계 작업을 개시하는 것은 끝과 끝 순서를 촉발할 수 있는데, 여기서 건강 전문가, 환자 또는 다른 당사자는 진단, 계획, 카운슬링 및/또는 신체 상태에 작용하는데 유용한 다른 정보가 제공된다. 비록 전체 시스템 중에서 일부가 물리적으로 분리되고, 그리고 아마도, 예로서 표본 및 서열 기구의 위치로부터 멀리 떨어져 있을 지라도, 이것은 달성된다.
도 12는 온당하게 설정되거나 또는 설계될 때, 일정한 구체예에 따라서 연산 기구로서 역할을 할 수 있는 전형적인 컴퓨터 시스템을 단순한 블록 형식으로 도해한다. 컴퓨터 시스템 2000은 일차 저장 장치 2006 (전형적으로, 무작위 접근 메모리, 또는 RAM), 일차 저장 장치 2004 (전형적으로, 판독 전용 메모리, 또는 ROM)를 포함하는 저장 장치에 연계되는 수많은 프로세서 2002 (중앙 처리 장치, 또는 CPUs로서 또한 지칭됨)를 포함한다. CPU 2002는 마이크로컨트롤러 및 마이크로프로세서, 예를 들면, 프로그램가능 장치 (가령, CPLDs 및 FPGAs) 및 비-프로그램가능 장치, 예를 들면, 게이트 어레이 ASICs 또는 일반용 마이크로프로세서를 비롯한 다양한 유형일 수 있다. 묘사된 구체예에서, 일차 저장 장치 2004는 데이터 및 명령을 CPU에 일방향으로 전달하는 행동을 하고, 그리고 일차 저장 장치 2006은 데이터 및 명령을 양방향 방식으로 전달하는데 전형적으로 이용된다. 이들 일차 저장 장치 양쪽 모두 임의의 적합한 컴퓨터-판독가능 매체, 예를 들면, 앞서 설명된 것들을 포함할 수 있다. 대량 저장 장치 2008 역시 일차 저장 장치 2006에 양방향으로 연계되고 추가 데이터 저장 능력을 제공하고, 그리고 전술된 컴퓨터-판독가능 매체 중에서 어느 것을 포함할 수 있다. 대량 저장 장치 2008은 프로그램, 데이터 등을 저장하는데 이용될 수 있고, 그리고 전형적으로, 이차 저장 매체, 예를 들면, 하드 디스크이다. 빈번하게는, 이런 프로그램, 데이터 등은 CPU 2002에서 실행을 위해 일차 기억 2006에 일시적으로 복사된다. 대량 저장 장치 2008 내에 유지된 정보는 온당한 경우에, 일차 저장 장치 2004의 일부로서 표준 방식으로 통합될 수 있는 것으로 인지될 것이다. 특정한 대량 저장 장치, 예를 들면, CD-ROM 2014 또한, 데이터를 CPU 또는 일차 저장 장치에 일방향으로 전달할 수 있다.
CPU 2002는 또한, 하나 또는 그 이상의 입력/출력 장치, 예를 들면, 예로서 핵산 서열분석기 (2020), 비디오 모니터, 트랙볼, 마우스, 자판, 마이크로폰, 터치-민감성 디스플레이, 변환기 카드 판독기, 자성 또는 종이 테이프 판독기, 태블릿, 스타일러스, 목소리 또는 필체 인식 주변장치, USB 포트, 또는 다른 널리 알려진 입력 장치, 예를 들면, 당연히, 다른 컴퓨터에 연결하는 인터페이스 2010에 연계된다. 최종적으로, CPU 2002는 임의선택적으로, 2012에서 전반적으로 보여 지는 바와 같이 외부 연결을 이용하여 외부 장치, 예를 들면, 데이터베이스 또는 컴퓨터 또는 전기통신 네트워크에 연계될 수 있다. 이런 연결을 통해, CPU는 네트워크로부터 정보를 제공받을 지도 모르거나, 또는 본원에서 설명된 방법 단계를 수행하는 코스에서 정보를 네트워크에 출력할지도 모르는 것으로 예기된다. 일부 실행에서, 핵산 서열분석기 (2020)는 인터페이스 2010 대신에 또는 이것을 통하는 것에 더하여 네트워크 연결 2012을 통해 CPU 2002에 통신가능하게 연결될 수 있다.
한 구체예에서, 시스템, 예를 들면, 컴퓨터 시스템 2000은 본원에서 설명된 과제 중에서 일부 또는 전부를 수행할 수 있는 데이터 이입, 데이터 상관 및 조회 시스템으로서 이용된다. 데이터 파일을 포함하는 정보 및 프로그램은 연구자에 의한 접근 또는 다운로딩을 위해 네트워크 연결 2012을 통해 제공될 수 있다. 대안으로, 이런 정보, 프로그램 및 파일은 저장 장치 상에서 연구자에게 제공될 수 있다.
특정한 구체예에서, 컴퓨터 시스템 2000은 표본으로부터 데이터를 포획하는 데이터 획득 시스템, 예를 들면, 마이크로어레이, 고처리량 선별검사 시스템, 또는 핵산 서열분석기 (2020)에 직접적으로 연계된다. 이런 시스템으로부터 데이터는 시스템 2000에 의한 분석을 위해 인터페이스 2010을 통해 제공된다. 대안으로, 시스템 2000에 의해 처리된 데이터는 데이터 저장 공급원, 예를 들면, 유관한 데이터의 데이터베이스 또는 다른 저장소로부터 제공된다. 일단 기구 2000 내에 있으면, 기억 장치, 예를 들면, 일차 저장 장치 2006 또는 대량 저장 장치 2008은 유관한 데이터를 최소한 일시적으로 완충하거나 또는 저장한다. 메모리는 또한, 서열 리드, UMIs, 서열 리드를 결정하기 위한 코드, 서열 리드를 붕괴시키기 위한 코드, 리드 내에 오차를 교정하기 위한 코드 등을 비롯한 데이터를 이입하고, 분석하고, 제시하기 위한 다양한 루틴 및/또는 프로그램을 저장할 수 있다.
일정한 구체예에서, 본원에서 이용된 컴퓨터는 사용자 단말기를 포함할 수 있는데, 이것은 임의의 유형의 컴퓨터 (가령, 데스크톱, 랩톱, 태블릿 등), 매체 연산 플랫폼 (가령, 케이블, 위성 셋톱 박스, 디지털 비디오 녹화기 등), 손바닥크기 컴퓨팅 장치 (가령, PDAs, 이메일 클라이언트 등), 휴대폰, 또는 임의의 다른 유형의 연산 또는 통신 플랫폼일 수 있다.
일정한 구체예에서, 본원에서 이용된 컴퓨터는 또한, 사용자 단말기와 통신하는 서버 시스템을 포함할 수 있는데, 상기 서버 시스템은 서버 장치 또는 분산 서버 장치를 포함할 수 있고, 그리고 메인프레임 컴퓨터, 미니 컴퓨터, 슈퍼 컴퓨터, 개인용 컴퓨터, 또는 이들의 조합을 포함할 수 있다. 복수의 서버 시스템이 또한 본 발명의 범위로부터 벗어나지 않으면서 이용될 수 있다. 사용자 단말기 및 서버 시스템은 네트워크를 통해 서로 통신할 수 있다. 네트워크는 예로서, 본 발명의 범위를 제한하지 않으면서, 유선 네트워크, 예를 들면, LANs (근거리 통신망), WANs (광역 통신망), MANs (대도시 통신망), ISDNs (종합 정보 통신망) 등뿐만 아니라 무선 네트워크, 예를 들면, 무선 LANs, CDMA, 블루투스 및 위성 통신 네트워크 등을 포함할 수 있다.
도 13은 검사 표본으로부터 호출 또는 진단을 생산하기 위한 분산된 시스템의 한 가지 실행을 보여준다. 표본 수집 위치 01이 환자, 예를 들면, 임산부 또는 추정 암 환자로부터 검사 표본을 획득하는데 이용된다. 표본은 이후, 처리 및 염기서열결정 위치 03에 제공되는데, 여기서 검사 표본은 전술된 바와 같이 처리되고 염기서열결정될 수 있다. 위치 03은 표본을 처리하기 위한 기구뿐만 아니라 처리된 표본을 염기서열결정하기 위한 기구를 포함한다. 염기서열결정의 결과는 본원의 다른 곳에서 설명된 바와 같이, 리드의 집합물인데, 이것은 전형적으로 전자 형식으로 제공되고 네트워크, 예를 들면, 인터넷에 제공되고, 인터넷은 도 13에서 참조 번호 05에 의해 지시된다.
서열 데이터는 원격 위치 07에 제공되는데, 여기서 분석 및 호출 산출이 수행된다. 이러한 위치는 하나 또는 그 이상의 유력한 연산 장치, 예를 들면, 컴퓨터 또는 프로세서를 포함할 수 있다. 위치 07에서 연산 자원이 그들의 분석을 완결하고 제공받은 서열 정보로부터 호출을 산출한 후, 상기 호출은 네트워크 05로 되돌려 중계된다. 일부 실행에서, 위치 07에서 호출이 산출될 뿐만 아니라 연관된 진단이 산출된다. 호출 및 또는 진단은 이후, 도 5에서 예시된 바와 같이 네트워크를 교차하여 및 표본 수집 위치 01로 되돌려 전송된다. 설명된 바와 같이, 이것은 단순히, 호출 또는 진단을 산출하는 것과 연관된 다양한 작업이 다양한 위치 사이에서 어떻게 분할될 수 있는 지에 관한 많은 변이 중에서 한 가지일 뿐이다. 한 가지 통상적인 변이체는 단일 위치에서 표본 수집 및 처리 및 염기서열결정을 제공하는 것을 수반한다. 다른 변이는 동일한 위치에서 처리 및 염기서열결정을 분석 및 호출 산출로서 제공하는 것을 수반한다.
도 14는 상이한 위치에서 다양한 작업을 수행하기 위한 옵션을 상세히 말한다. 도 14에서 묘사된 가장 세분화된 의미에서, 각각의 후속 작업은 별개의 위치에서 수행된다: 표본 수집, 표본 처리, 염기서열결정, 리드 정렬, 호출, 진단, 그리고 보고 및/또는 계획 개발.
이들 작업 중에서 일부를 종합하는 한 구체예에서, 표본 처리 및 염기서열결정은 한 위치에서 수행되고, 그리고 리드 정렬, 호출 및 진단은 별개의 위치에서 수행된다. 참조 문자 A에 의해 확인되는 도 14의 부분을 참조한다. 도 14에서 문자 B에 의해 확인되는 다른 실행에서, 표본 수집, 표본 처리 및 염기서열결정은 모두 동일한 위치에서 수행된다. 이러한 실행에서, 리드 정렬 및 호출은 두 번째 위치에서 수행된다. 최종적으로, 진단 및 보고 및/또는 계획 개발은 세 번째 위치에서 수행된다. 도 14에서 문자 C에 의해 묘사된 실행에서, 표본 수집은 첫 번째 위치에서 수행되고, 표본 처리, 염기서열결정, 리드 정렬, 호출 및 진단은 모두 두 번째 위치에서 함께 수행되고, 그리고 보고 및/또는 계획 개발은 세 번째 위치에서 수행된다. 최종적으로, 도 14에서 D로 표지화된 실행에서, 표본 수집은 첫 번째 위치에서 수행되고, 표본 처리, 염기서열결정, 리드 정렬 및 호출은 모두 두 번째 위치에서 수행되고, 그리고 진단 및 보고 및/또는 계획 관리는 세 번째 위치에서 수행된다.
한 구체예는 종양과 연관된 단순한 뉴클레오티드 변이체에 대한 무세포 DNA (cfDNA)를 분석하기 위한 시스템을 제공하는데, 상기 시스템은 핵산 표본을 받아들이고 핵산 표본으로부터 핵산 서열 정보를 제공하기 위한 서열분석기; 프로세서; 그리고 상기 프로세서에서 실행을 위한 명령을 포함하는 기계 판독가능한 저장 매체를 포함하고, 상기 명령은 하기를 포함한다: (a) 개체로부터 최소한 하나의 검사 표본에서 핵산을 염기서열결정함으로써 획득된 유전체 서열 데이터를 받아들이고, 여기서 핵산은 암 세포의 하나 또는 그 이상의 하위클론으로부터 유래되고; (b) 유전체 서열 데이터에서 복수의 체성 돌연변이 변이체를 결정하고; (c) 각 체성 돌연변이 변이체에 대해, VAF를 이용하여 초기 암 세포 분율 (iCCF)을 계산하고, 여기서 암 세포 분율은 모든 암 세포 사이에서 체성 돌연변이 변이체를 갖는 암 세포의 분율이고, 그리고 여기서 VAF는 체성 돌연변이 변이체의 대립유전자 빈도이고, 따라서 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 획득하고; (d) 복수의 좌위에 대해 복수의 iCCFs를 군집화하고, 따라서 iCCFs의 하나 또는 그 이상의 클러스터를 획득하고, 각 클러스터는 하나 또는 그 이상의 종양 하위클론의 동일한 하위클론 내에 존재하는 변이체에 상응하고; 그리고 (e) 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정함.
본원에서 제공된 임의의 시스템의 일부 구체예에서, 서열분석기는 차세대 염기서열결정 (NGS)을 수행하도록 설정된다. 일부 구체예에서, 서열분석기는 가역성 염료 종결인자로 합성에 의한 염기서열결정을 이용하여 대량의 병렬 염기서열결정을 수행하도록 설정된다. 다른 구체예에서, 서열분석기는 결찰에 의한 염기서열결정을 수행하도록 설정된다. 또 다른 구체예에서, 서열분석기는 단일 분자 염기서열결정을 수행하도록 설정된다.
실험
실시예 1: 시뮬레이션 데이터
본 실시예에서는 일부 실행에 따른, 그리고 ClonScore 및 이전 방법 PyClone으로서 지칭되는 방법을 비교하기 위해 시뮬레이션 데이터를 이용한다. 도 15는 정상 세포 및 2개의 종양 하위클론으로부터 상이한 조성을 갖는 20개 종양 표본의 시뮬레이션 데이터를 산출하기 위해 본 실시예에서 이용된 방법을 도해한다. 정상 세포 개체군은 원 704로서 도해된다. 종양 시조 클론은 원 708로서 도해된다. 2개의 종양 하위클론은 원 714 및 716으로서 도해된다. 정상 세포는 생식계열 돌연변이 "G" (702)를 포함한다. 종양 시조 클론 (708)은 클론 체성 돌연변이 "C" (706)를 포함한다. 종양 하위클론 1 (714)은 하위클론 체성 돌연변이 1 "SC1" (710)을 포함한다. 종양 하위클론 2 (716)는 하위클론 체성 돌연변이 2 "SC2" (712)를 포함한다. 2개의 종양 하위클론은 또한, 클론 체성 돌연변이 "C" (706)를 포함한다. 종양 표본 718a, 718b 및 718c는 상이한 세포 및 돌연변이 조성을 갖는다. 표본의 종양 순도 (p)는 20-80%의 범위에서 변한다. 2개의 시뮬레이션된 전체 진유전체 서열 (WES) 데이터 세트가 본 실시예에 대해 산출되었다. 각 데이터 세트는 변하는 비율의 2개의 상이한 종양 하위클론 및 정상 세포를 갖는 20개의 표본을 포함한다.
데이터 세트에서 표적화된 영역은 TruSeq 진유전체 검정 (약 ~45Mb를 커버한다)에서 특정된 것들로서 규정되었는데, 150bp가 각 표적의 상류 및 하류에 덧대어진다. 생식계열 SNPs (90,000) 및 INDELs (12,000)는 dbsnp에서 무작위로 선택되었고, 그리고 모든 종양 하위클론 및 정상 세포 내에 포함되었다. 생식계열 CNVs에 의해 영향을 받는 영역은 DGV에서 무작위로 선택되었고, 그리고 이런 영역에 걸쳐 사본수에서 변이는 무작위로 선택되고 양쪽 사본의 상실에서부터 양쪽 대립유전자의 중복까지의 범위에서 변하였다. 이들 생식계열 돌연변이는 "G" 파 돌연변이 (702)로서 도해된다. 2개의 상이한 종양 하위클론 "SC1" (710) 및 "SC2" (712) 역시 창출되었다. 최소한 하나의 표적화된 영역과 중첩되는 500개 체성 SNVs, 200개 INDELs 및 75개 CNVs (5개 LOH, 한 대립유전자의 5개 사본의 30개 증가, 20개 단일 사본 결실, 그리고 한 대립유전자의 8개 사본의 20개 증가)의 세트가 COSMIC에서 무작위로 선택되고 양쪽 종양 하위클론 (클론 변이체) 내에 포함되었다. 이들은 "C" 파 돌연변이 (706)로서 도해된다. COSMIC로부터 500개 체성 SNVs, 200개 INDELs 및 75개 CNVs (상기와 동일한 분포의 사본수)의 상이한 세트가 하위클론 "SC1" (710) 내에 포함되었고, 그리고 동일한 크기의 돌연변이의 상이한 세트가 하위클론 "SC2" (712) 내에 포함되었다. 주목할 것은 CNVs가 SNVs와 중첩될 때, 이들이 돌연변이를 보유하는 대립유전자 또는 다른 대립유전자에 영향을 주는 동등한 기회를 가졌다는 점이다. 이런 이유로, 많은 이런 CNVs는 돌연변이된 대립유전자의 사본수에서 증가 (ClonScore가 어려움을 겪을 것으로 예상되는 환경)를 야기한다. 각 하위클론으로부터 및 정상 세포로부터 리드는 시뮬레이션되고, 그리고 20개의 상이한 종양 표본을 창출하기 위해 상이한 비율에서 함께 혼합되었다. Enrichment and TumorNormal 작업 흐름을 이용하여 이러한 데이터세트를 처리한 후, 우리는 호출되는 각 체성 SNV에 대한 fCCF를 추정하였다. fCCF 추정은 단일 표본 방식에서 PyClone 및 ClonScore 둘 모두를 이용하여 행위되었다. PyClone의 경우에, CNV 호출과 중첩되는 임의의 체성 SNV에 대해 Canvas의 대립유전자 사본수 호출이 이용되었다. ClonScore의 경우에, Canvas의 정규화된 커버리지가 [1.9,2.1] 간격 밖에 있을 때는 언제든지 상기 정규화된 커버리지는 N의 추정치로서 이용되었고, 만약 그렇지 않으면 N이 2인 것으로 가정되었다. Canvas에 의해 만들어진 종양 순도 추정치는 PyClone 및 ClonScore 추정치 둘 모두에서 이용되었다.
도 16은 PyClone에 대한 참 CCFs로부터 추정된 CCFs 편차를 보여준다. 도 17은 ClonScore에 대한 결과를 보여준다. 이들 결과는 2개의 시뮬레이션된 WES 데이터세트의 전역에서 40개 표본 모두에서 모든 SNVs에 대한 추정치를 포함한다. 주목할 것은 ClonScore 추정치가 PyClone의 추정치보다 참 CCF에 더욱 가깝다는 점이다. 게다가, PyClone는 각 종양 WES 실험에서 실행하는데 대략 7 시간이 소요되는 반면, ClonScore는 단지 몇 초만 소요되었다.
실시예 1: 실제 암 데이터
종양내 이질성을 연구하기 위한 가장 흔히 이용되는 방법은 현재, 종양 표본의 다중부위 염기서열결정이다. 동일한 종양의 복수 표본을 동시에 분석할 때 클론형성능 추정 도구의 정확도는 달성될 수 있는 체성 돌연변이의 더욱 확실한 군집화로 인해 증가된다. Hao et al.에 의한 최근 연구에서, 다중부위 WES가 11개의 식도 편평상피 세포 암종에서 수행되었다. 이들 11개 종양 각각은 4개의 공간적으로 분리된 표본뿐만 아니라 WES로 프로파일링된 정합된 정상적인 표본을 가졌다.
우리는 상기 데이터세트를 다운로드하고, 그리고 이것을 Enrichment + TumorNormal 작업 흐름으로 처리하였다. 이후, PyClone 및 ClonScore가 단일 표본 방식에서뿐만 아니라 각 종양의 4개 표본 모두를 동시에 분석함으로써 상기 데이터세트에 적용되었다. 우리는 먼저, 다중표본 ClonScore, 다중표본 PyClone 및 공개된 CCF 추정치의 결과를 비교하였다. 도 18은 ClonScore 및 Hao et al. 사이에 CCFs의 차이를 보여준다. 도 19는 PyClone 및 Hao et al. 사이에 CCFs의 차이를 보여준다. 이들 도면은 모든 다중표본 추정치의 결과는 상대적으로 일관되지만, PyClone의 추정치는 다른 2가지 방법의 것들로부터 더욱 일탈한다는 것을 보여준다.
우리는 이후, 단일 종양 표본에서 ClonScore 및 PyClone에 의해 만들어진 CCF 추정치를 복수 표본의 전역에서 만들어진 추정치에 대하여 비교하였다. 우리는 단일 표본에서 ClonScore의 추정치가 Hao (도 20), PyClone (도 21) 및 ClonScore (도 22)에 의해 전체 표본에 걸쳐 만들어진 추정치와 고도로 일치한다는 것을 관찰하였다. 단일 표본 방식에서 PyClone의 성과는 놀랍게도, Hao (도 23), PyClone (도 24) 및 ClonScore (도 25)에 의해 전체 표본에 걸쳐 만들어진 추정치와 불일치하였다.
단일 표본에서 ClonScore 결과 및 전체 표본에 걸친 CCF 추정치 사이에 고무적인 일관성에도 불구하고, 교차 표본 결과가 반드시 참 CCF 값인 것은 아니다. 이런 이유로, 우리는 ClonScore가 아마도 클론성인 SNVs를 아마도 하위클론성인 것들로부터 식별할 수 있는 지를 검사함으로써 이의 성과를 평가하였다. 우리가 SNV의 "참" 클론 상태를 규정하는 방식은 이것이 4개의 공간적으로 분리된 종양 표본 모두에서 호출되고, 그리고 4개의 종양 표본 모두에서 90%보다 큰 교차 표본 CCF 추정치 (교차 표본 ClonScore에 의한)를 갖는다는 것이었다. 예측된 클론 SNVs가 단일 표본 ClonScore가 CCF > 95%를 배정한 것들임을 결정함으로써, 우리는 단일 종양 표본으로부터 클론 상태 예측에서 0.91 민감도 및 0.89 특이성을 관찰하였다. 전체 데이터세트의 전역에서 결과에 대해 표 1을 참조한다.
표 1. 진정한 및 예측된 클론 및 하위클론 SNVs
진정한 클론 진정한 하위클론
예측된 클론 1,252 3,755
예측된 하위클론 124 29,742
본 발명은 이의 사상 또는 필수적인 특징으로부터 벗어나지 않으면서, 다른 특정한 형태에서 구현될 수 있다. 설명된 구체예는 모든 양상에서 제한하는 것이 아닌 단지 예시적인 것으로 고려된다. 발명의 범위는 이런 이유로, 전술한 설명에 의하기 보다는 첨부된 청구항에 의해 지시된다. 청구항의 등가의 의미 및 범위 안에 있는 모든 변화는 이들의 범위 내에 포함된다.

Claims (43)

  1. 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템을 이용하여 수행되는 방법에 있어서, 하기 단계를 포함하는 것을 특징으로 하는 방법
    (a) 하나 또는 그 이상의 프로세서에 의해, 개체로부터 최소한 하나의 검사 표본에서 핵산을 염기서열결정함으로써 획득된 유전체 서열 데이터를 받아들이는 단계, 여기서 핵산은 암 세포의 하나 또는 그 이상의 하위클론으로부터 유래되고;
    (b) 유전체 서열 데이터에서 복수의 체성 돌연변이 변이체를 결정하는 단계;
    (c) 각 체성 돌연변이 변이체에 대해, 그리고 하나 또는 그 이상의 프로세서에 의해, VAF를 이용하여 초기 암 세포 분율 (iCCF)을 계산하고, 여기서 암 세포 분율은 모든 암 세포 사이에서 체성 돌연변이 변이체를 갖는 암 세포의 분율이고, 그리고 여기서 VAF는 체성 돌연변이 변이체의 대립유전자 빈도이고, 따라서 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 획득하는 단계;
    (d) 하나 또는 그 이상의 프로세서에 의해, 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 군집화하고, 따라서 iCCFs의 하나 또는 그 이상의 클러스터를 획득하는 단계, 여기서 각 클러스터는 하나 또는 그 이상의 하위클론의 동일한 하위클론 내에 존재하는 변이체에 상응하고; 그리고
    (e) 하나 또는 그 이상의 프로세서에 의해, 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정하는 단계.
  2. 청구항 1에 있어서, 하기 단계를 더욱 포함하는 것을 특징으로 하는 방법.
    유전체 서열 데이터의 서열 리드를 참조 유전체에 맞춰 정렬하여 서열 태그를 제공하는 단계, 여기서 참조 유전체는 복수의 좌위를 포함하고, 복수의 좌위의 각 좌위는 복수의 체성 돌연변이 중에서 하나의 체성 돌연변이를 품고; 그리고
    복수의 좌위의 각 좌위에 대해, 상기 좌위의 커버리지 및 상기 좌위의 변이체 대립유전자 빈도 (VAF)를 결정하는 단계.
  3. 전술한 청구항 중에서 어느 한 항에 있어서, 유전체 서열 데이터를 이용하여 검사 표본에서 모든 세포 사이에서 종양 세포의 분율인 종양 순도 값 (p)을 추정하는 단계를 더욱 포함하는 것을 특징으로 하는 방법.
  4. 전술한 청구항 중에서 어느 한 항에 있어서, 복수의 좌위의 각 좌위에 대해, 유전체 서열 데이터를 이용하여 검사 표본에서 모든 세포에 대한 상기 좌위에서 모든 대립유전자의 평균 사본수 (N)를 추정하는 단계를 더욱 포함하는 것을 특징으로 하는 방법.
  5. 청구항 4에 있어서, 초기 암 세포 분율 (iCCF)은 VAF, p N을 이용하여 계산되는 것을 특징으로 하는 방법.
  6. 전술한 청구항 중에서 어느 한 항에 있어서, 하기 단계를 더욱 포함하는 것을 특징으로 하는 방법:
    개체로부터 최소한 하나의 검사 표본을 획득하는 단계;
    최소한 하나의 검사 표본으로부터 세포 DNA 또는 무세포 DNA (cfDNA)를 획득하는 단계; 그리고
    세포 DNA 또는 cfDNA를 염기서열결정하여 서열 리드를 산출하는 단계.
  7. 전술한 청구항 중에서 어느 한 항에 있어서, 하나 또는 그 이상의 fCCFs에 최소한 부분적으로 기초하여 치료 섭생을 적용하는 단계를 더욱 포함하는 것을 특징으로 하는 방법.
  8. 청구항 7에 있어서, 치료 섭생을 적용하는 것은 하기 단계를 포함하는 것을 특징으로 하는 방법:
    하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 fCCFs를 하나 또는 그 이상의 기준 또는 역치값과 비교하는 단계; 그리고
    상기 비교에 근거하여 치료 섭생을 처방하고, 개시하고 및/또는 변경하는 단계.
  9. 청구항 8에 있어서, 치료 섭생은 하나 또는 그 이상의 체성 돌연변이와 연관된 생물학적 경로에 영향을 주는 것을 특징으로 하는 방법.
  10. 청구항 9에 있어서, 치료 섭생은 면역요법을 포함하는 것을 특징으로 하는 방법.
  11. 전술한 청구항 중에서 어느 한 항에 있어서, 최소한 하나의 검사 표본에서 핵산은 cfDNA를 포함하는 것을 특징으로 하는 방법.
  12. 전술한 청구항 중에서 어느 한 항에 있어서, 최소한 하나의 검사 표본은 개체로부터 2개 또는 그 이상의 검사 표본을 포함하는 것을 특징으로 하는 방법.
  13. 청구항 5에 있어서, iCCF(VAF * N)/p에 근거하여 계산되는 것을 특징으로 하는 방법.
  14. 청구항 5에 있어서, iCCF는 체성 돌연변이의 변이체 대립유전자의 사본수 (n)뿐만 아니라 VAF, pN을 이용하여 계산되는 것을 특징으로 하는 방법.
  15. 청구항 14에 있어서, iCCF(VAF * N)/(p*n)에 근거하여 계산되는 것을 특징으로 하는 방법.
  16. 청구항 15에 있어서, iCCFn이 1이라는 가정 하에 계산되는 것을 특징으로 하는 방법.
  17. 청구항 16에 있어서, iCCF는 (i) (VAF * N)/p가 1보다 크지 않을 때 (VAF * N)/p, 그리고 (ii) (VAF * N)/p가 1보다 클 때 1에 근거하여 계산되는 것을 특징으로 하는 방법.
  18. 전술한 청구항 중에서 어느 한 항에 있어서, 군집화는 하나 또는 그 이상의 클러스터에 속하는 돌연변이의 하나 또는 그 이상의 사후 확률을 결정하는 것을 포함하는 것을 특징으로 하는 방법.
  19. 청구항 18에 있어서, 하나 또는 그 이상의 fCCFs는 하나 또는 그 이상의 사후 확률 및 복수의 iCCFs를 이용하여 계산되는 것을 특징으로 하는 방법.
  20. 청구항 19에 있어서, 돌연변이에 대한 fCCF는 각 클러스터에서 체성 돌연변이의 평균 iCCF 및 각 클러스터에 속하는 돌연변이의 사후 확률의 선형 결합으로서 계산되는 것을 특징으로 하는 방법.
  21. 청구항 20에 있어서, 돌연변이 m에 대한 fCCF m 은 하기 공식을 이용하여 계산되고:
    Figure pct00032

    여기서
    Figure pct00033
    는 클러스터 k의 평균 iCCF이고; 그리고
    pr m,k는 돌연변이 m이 클러스터 k에 속할 확률인 것을 특징으로 하는 방법.
  22. 청구항 21에 있어서, 클러스터 k는 돌연변이에 대한 가장 높은 확률의 클러스터를 포함하는 것을 특징으로 하는 방법.
  23. 전술한 청구항 중에서 어느 한 항에 있어서, 군집화는 하나 또는 그 이상의 클러스터를 결정하기 위해 혼합 모형을 이용하는 것을 포함하는 것을 특징으로 하는 방법.
  24. 청구항 23에 있어서, 혼합 모형은 변분 베이지안 혼합 모형을 포함하는 것을 특징으로 하는 방법.
  25. 청구항 23에 있어서, 군집화는 iCCFs의 하나 또는 그 이상의 클러스터를 발생시키는 하위클론의 숫자를 결정하는 것을 포함하는 것을 특징으로 하는 방법.
  26. 청구항 25에 있어서, 다수의 하위클론 중에서 하나의 하위클론을 결정하는 것은 미리 결정된 범위 내에 있는 모든 부분집합의 추정된 분율에 근거하여, 함께 군집을 이루는 복수의 체성 서열 변이체 중에서 하나의 부분집합을 확인하는 것을 포함하는 것을 특징으로 하는 방법.
  27. 청구항 23에 있어서, 혼합 모형은 2개 또는 그 이상의 클러스터에 대한 변이체 대립유전자 수의 2개 또는 그 이상의 확률 분포의 혼합물을 포함하는 것을 특징으로 하는 방법.
  28. 청구항 27에 있어서, 변이체 대립유전자 수의 각 확률 분포는 이항 분포, 베타 분포, 가우스 분포, 그리고 이들의 임의의 조합으로 구성된 군에서 선택되는 것을 특징으로 하는 방법.
  29. 청구항 28에 있어서, 변이체 대립유전자 수의 각 확률 분포는 이항 분포인 것을 특징으로 하는 방법.
  30. 청구항 29에 있어서, 변이체 대립유전자 수는 염기서열결정 깊이 및 iCCF에 근거하여 계산되는 것을 특징으로 하는 방법.
  31. 청구항 30에 있어서, 변이체 대립유전자 수는 변이체 대립유전자 수 = 깊이 x iCCF로서 계산되는 것을 특징으로 하는 방법.
  32. 청구항 28에 있어서, 돌연변이의 iCCF는 클러스터에 대한 베타 분포를 갖는 베타 확률 변수로서 모형화되는 것을 특징으로 하는 방법.
  33. 청구항 32에 있어서, 최소한 하나의 검사 표본은 하나의 표본을 포함하고, 그리고 클러스터에 속하는 돌연변이의 확률은 하기와 같이 모형화되고:
    Figure pct00034

    여기서
    pr m,k는 돌연변이 m이 클러스터 k에 속할 확률이고;
    Beta( ; )는 클러스터 k에 대한 베타 분포의 확률 밀도 함수이고;
    f는 돌연변이 m에 대한 iCCF이고;
    Figure pct00035
    는 감마 함수이고; 그리고
    u k v k 는 클러스터 k에 대한 베타 분포의 모양 파라미터인 것을 특징으로 하는 방법.
  34. 청구항 32에 있어서, 최소한 하나의 검사 표본은 2개 또는 그 이상의 검사 표본을 포함하고, 그리고 클러스터에 속하는 돌연변이의 확률은 하기와 같이 모형화되고:
    Figure pct00036

    여기서 u k u v s번째 성분이 각각 u ks v ks 인 S-벡터인 것을 특징으로 하는 방법.
  35. 전술한 청구항 중에서 어느 한 항에 있어서, 복수의 좌위는 하나 또는 그 이상의 이중대립유전자 좌위를 포함하는 것을 특징으로 하는 방법.
  36. 전술한 청구항 중에서 어느 한 항에 있어서, 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 돌연변이는 하나 또는 그 이상의 사본수 변이 (CNVs)와 중첩되는 것을 특징으로 하는 방법.
  37. 전술한 청구항 중에서 어느 한 항에 있어서, 상기 방법은 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는 것을 특징으로 하는 방법.
  38. 청구항 37에 있어서, 상기 방법은 체성 돌연변이를 보유하는 모든 암 세포가 CNV에 의해 영향을 받거나, 또는 CNV에 의해 영향을 받지 않는다고 가정하지 않는 것을 특징으로 하는 방법.
  39. 전술한 청구항 중에서 어느 한 항에 있어서, 군집화는 마르코프 연쇄 몬테카를로 (MCMC) 방법을 이용하지 않는 것을 특징으로 하는 방법.
  40. 전술한 청구항 중에서 어느 한 항에 있어서, 복수의 체성 돌연변이는 단일 뉴클레오티드 변이체 (SNV), 삽입-결실, 또는 이들의 조합으로 구성된 군에서 선택되는 돌연변이를 포함하는 것을 특징으로 하는 방법.
  41. 핵산을 포함하는 최소한 하나의 검사 표본에서 암 세포를 특징짓기 위한 시스템에 있어서, 하기를 포함하는 것을 특징으로 하는 시스템:
    검사 표본으로부터 핵산을 받아들이고 검사 표본의 핵산 서열 정보를 제공하기 위한 서열분석기;
    프로세서; 및
    상기 프로세서에서 하기를 위한 실행 명령이 그 안에 저장된 하나 또는 그 이상의 컴퓨터-판독가능 저장 매체:
    (a) 개체로부터 최소한 하나의 검사 표본에서 핵산을 염기서열결정함으로써 획득된 유전체 서열 데이터를 받아들이고, 여기서 핵산은 암 세포의 하나 또는 그 이상의 하위클론으로부터 유래되고;
    (b) 유전체 서열 데이터에서 복수의 체성 돌연변이 변이체를 결정하고;
    (c) 각 체성 돌연변이 변이체에 대해, VAF를 이용하여 초기 암 세포 분율 (iCCF)을 계산하고, 여기서 암 세포 분율은 모든 암 세포 사이에서 체성 돌연변이 변이체를 갖는 암 세포의 분율이고, 그리고 여기서 VAF는 체성 돌연변이 변이체의 대립유전자 빈도이고, 따라서 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 획득하고;
    (d) 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 군집화하고, 따라서 iCCFs의 하나 또는 그 이상의 클러스터를 획득하고, 여기서 각 클러스터는 하나 또는 그 이상의 하위클론의 동일한 하위클론 내에 존재하는 변이체에 상응하고; 그리고
    (e) 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정함.
  42. 청구항 41에 있어서, 핵산 표본으로부터 핵산 분자를 추출하기 위한 도구를 더욱 포함하는 것을 특징으로 하는 시스템.
  43. 컴퓨터 시스템의 하나 또는 그 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 핵산을 포함하는 최소한 하나의 검사 표본에서 암 세포를 특징짓는 방법을 실행하도록 유발하는 비일시적인 기계 판독가능 매체 저장 프로그램 코드를 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 프로그램 코드는 하기를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
    (a) 개체로부터 최소한 하나의 검사 표본에서 핵산을 염기서열결정함으로써 획득된 유전체 서열 데이터를 받아들이기 위한 코드, 여기서 핵산은 암 세포의 하나 또는 그 이상의 하위클론으로부터 유래되고;
    (b) 유전체 서열 데이터에서 복수의 체성 돌연변이 변이체를 결정하기 위한 코드;
    (c) 각 체성 돌연변이 변이체에 대해, VAF를 이용하여 초기 암 세포 분율 (iCCF)을 계산하고, 여기서 암 세포 분율은 모든 암 세포 사이에서 체성 돌연변이 변이체를 갖는 암 세포의 분율이고, 그리고 여기서 VAF는 체성 돌연변이 변이체의 대립유전자 빈도이고, 따라서 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 획득하기 위한 코드;
    (d) 복수의 체성 돌연변이 변이체에 대해 복수의 iCCFs를 군집화하고, 따라서 iCCFs의 하나 또는 그 이상의 클러스터를 획득하기 위한 코드, 여기서 각 클러스터는 하나 또는 그 이상의 하위클론의 동일한 하위클론 내에 존재하는 변이체에 상응하고; 그리고
    (e) 하나 또는 그 이상의 클러스터의 iCCFs를 이용하여 복수의 체성 돌연변이 중에서 하나 또는 그 이상의 체성 돌연변이에 대한 하나 또는 그 이상의 최종 암 세포 분율 (fCCFs)을 결정하기 위한 코드.
KR1020197037314A 2017-12-01 2018-12-03 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템 KR20200093438A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762593810P 2017-12-01 2017-12-01
US62/593,810 2017-12-01
PCT/US2018/063647 WO2019109086A1 (en) 2017-12-01 2018-12-03 Methods and systems for determining somatic mutation clonality

Publications (1)

Publication Number Publication Date
KR20200093438A true KR20200093438A (ko) 2020-08-05

Family

ID=64734245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197037314A KR20200093438A (ko) 2017-12-01 2018-12-03 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템

Country Status (9)

Country Link
US (1) US20190172582A1 (ko)
EP (1) EP3622522A1 (ko)
JP (1) JP7299169B2 (ko)
KR (1) KR20200093438A (ko)
CN (1) CN110770838B (ko)
AU (1) AU2018375008A1 (ko)
CA (1) CA3067229A1 (ko)
IL (1) IL271301A (ko)
WO (1) WO2019109086A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020237222A1 (en) 2019-05-22 2020-11-26 Mission Bio, Inc. Method and apparatus for simultaneous targeted sequencing of dna, rna and protein
CN114555827A (zh) * 2019-08-12 2022-05-27 使命生物公司 用于对相同单细胞中的蛋白质表达、单核苷酸变异和拷贝数变异进行多组学同时检测的方法、系统和设备
CN111100909A (zh) * 2020-01-10 2020-05-05 信华生物药业(广州)有限公司 一种肿瘤内遗传异质性的计算方法
CN111402952A (zh) * 2020-03-27 2020-07-10 深圳裕策生物科技有限公司 一种检测肿瘤异质性程度的方法及系统
US20230178183A1 (en) * 2020-04-30 2023-06-08 Genemind Biosciences Co., Ltd. Sequencing method, analysis method therefor and analysis system thereof, computer-readable storage medium, and electronic device
CN111798919B (zh) * 2020-06-24 2022-11-25 上海交通大学 一种肿瘤新抗原预测方法、预测装置及存储介质
WO2022054086A1 (en) * 2020-09-08 2022-03-17 Indx Technology (India) Private Limited A system and a method for identifying genomic abnormalities associated with cancer and implications thereof
GB202104715D0 (en) * 2021-04-01 2021-05-19 Achilles Therapeutics Uk Ltd Identification of clonal neoantigens and uses thereof
GB202111194D0 (en) * 2021-08-03 2021-09-15 Cergentis B V Method
GB202114434D0 (en) * 2021-10-08 2021-11-24 Francis Crick Institute Ltd Methods and systems for tumour monitoring
CN114023384B (zh) * 2022-01-06 2022-04-05 天津金域医学检验实验室有限公司 一种全外显子组测序注释表自动生成标准化报告方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0610440A2 (pt) * 2005-04-14 2010-06-22 Merck Patent Gmbh terapia com anticorpo anti-egfr baseada em um maior número de cópias do gene egfr em tecidos de tumores
US7601499B2 (en) 2005-06-06 2009-10-13 454 Life Sciences Corporation Paired end sequencing
JP2009528825A (ja) * 2006-03-03 2009-08-13 ベリデックス・エルエルシー デュークスb大腸がんの再発を予測するための分子的解析
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
CA2701726A1 (en) 2007-10-04 2009-04-09 Halcyon Molecular Sequencing nucleic acid polymers with electron microscopy
US9029103B2 (en) * 2010-08-27 2015-05-12 Illumina Cambridge Limited Methods for sequencing polynucleotides
ES2575980T3 (es) * 2011-03-24 2016-07-04 Institut National De La Santé Et De La Recherche Médicale (Inserm) Mutante de HSP110 dominante negativo y su uso en el pronóstico y el tratamiento de cánceres
US20150197785A1 (en) * 2012-08-10 2015-07-16 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
CN104781421B (zh) * 2012-09-04 2020-06-05 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
GB201318369D0 (en) * 2013-10-17 2013-12-04 Univ Leuven Kath Methods using BAF
US10262755B2 (en) * 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
SG11201605432RA (en) * 2014-01-02 2016-07-28 Sloan Kettering Inst Cancer Determinants of cancer response to immunotherapy
MY191608A (en) * 2014-04-07 2022-07-01 Novartis Ag Treatment of cancer using anti-cd19 chimeric antigen receptor
WO2015164432A1 (en) * 2014-04-21 2015-10-29 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
CN106460070B (zh) * 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
GB201418242D0 (en) * 2014-10-15 2014-11-26 Univ Cape Town Genetic biomarkers and method for evaluating cancers
MA40737A (fr) * 2014-11-21 2017-07-04 Memorial Sloan Kettering Cancer Center Déterminants de la réponse d'un cancer à une immunothérapie par blocage de pd-1
CN107406876B (zh) * 2014-12-31 2021-09-07 夸登特健康公司 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法
ES2908347T3 (es) * 2015-02-10 2022-04-28 Univ Hong Kong Chinese Detección de mutaciones para cribado de cáncer y análisis fetal
GB201516047D0 (en) * 2015-09-10 2015-10-28 Cancer Rec Tech Ltd Method

Also Published As

Publication number Publication date
IL271301A (en) 2020-01-30
WO2019109086A1 (en) 2019-06-06
JP2021505977A (ja) 2021-02-18
US20190172582A1 (en) 2019-06-06
EP3622522A1 (en) 2020-03-18
AU2018375008A1 (en) 2019-12-05
CN110770838B (zh) 2023-12-19
CN110770838A (zh) 2020-02-07
JP7299169B2 (ja) 2023-06-27
CA3067229A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
CN110770838B (zh) 用于确定体细胞突变克隆性的方法和系统
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
KR102184868B1 (ko) 카피수 변이를 판정하기 위한 dna 단편 크기의 사용
JP6161607B2 (ja) サンプルにおける異なる異数性の有無を決定する方法
DK3078752T3 (en) SOLUTION OF REFRACTIONS USING POLYMORPHISM COUNTIES
JP7009518B2 (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
JP7009516B2 (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
KR20220013349A (ko) 검출 한계 기반 품질 제어 메트릭
US20220170010A1 (en) System and method for detection of genetic alterations
NZ759784A (en) Liquid sample loading
NZ759784B2 (en) Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes