KR20230165259A - 클론성 신항원의 동정 및 이의 용도 - Google Patents

클론성 신항원의 동정 및 이의 용도 Download PDF

Info

Publication number
KR20230165259A
KR20230165259A KR1020237035334A KR20237035334A KR20230165259A KR 20230165259 A KR20230165259 A KR 20230165259A KR 1020237035334 A KR1020237035334 A KR 1020237035334A KR 20237035334 A KR20237035334 A KR 20237035334A KR 20230165259 A KR20230165259 A KR 20230165259A
Authority
KR
South Korea
Prior art keywords
tumor
clonal
mutation
probability
cells
Prior art date
Application number
KR1020237035334A
Other languages
English (en)
Inventor
앤드류 로스
막시밀리안 프린즈 주 살름-호스트마
퐁 춘 찬
Original Assignee
아킬레스 테라퓨틱스 유케이 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아킬레스 테라퓨틱스 유케이 리미티드 filed Critical 아킬레스 테라퓨틱스 유케이 리미티드
Publication of KR20230165259A publication Critical patent/KR20230165259A/ko

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K35/00Medicinal preparations containing materials or reaction products thereof with undetermined constitution
    • A61K35/12Materials from mammals; Compositions comprising non-specified tissues or cells; Compositions comprising non-embryonic stem cells; Genetically modified cells
    • A61K35/14Blood; Artificial blood
    • A61K35/17Lymphocytes; B-cells; T-cells; Natural killer cells; Interferon-activated or cytokine-activated lymphocytes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/0005Vertebrate antigens
    • A61K39/0011Cancer antigens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Medicinal Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Veterinary Medicine (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mycology (AREA)
  • Virology (AREA)
  • Developmental Biology & Embryology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지를 결정하는 방법이 제공된다. 이 방법은 종양 유전 물질을 포함하는 대상체로부터 하나 이상의 샘플로부터의 서열 데이터를 제공하는 단계로서, 상기 서열 데이터는 하나 이상의 샘플 각각에 대한 것을 포함하는 단계 및 돌연변이가 클론성일 사전 확률 및 하나 이상의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 종양-특이적 돌연변이가 (i) 클론성 및 (ii) 비-클론성인 경우에 서열 데이터를 관찰하는 확률에 의존하여, 종양-특이적 돌연변이가 클론성인 가능성을 사후 확률로서 결정하는 단계를 포함한다. 관련 방법, 시스템, 및 제품이 또한 기재되어 있다.

Description

클론성 신항원의 동정 및 이의 용도
본 개시는 종양-특이적 돌연변이(tumour-specific mutation)가 클론성(clonal)일 가능성이 있는지를 결정하고 종양에 존재하는 종양-특이적 돌연변이로부터 유래된 클론성 신항원(neoantigen)을 동정(identifying)하는 방법에 관한 것이다. 본 개시는 또한 동정된 클론성 신항원을 사용하거나 표적화하는 암 치료를 위한 방법 및 조성물에 관한 것이다. 
암 세포는 돌연변이를 획득하는 것으로 공지되어 있으며, 그 중 일부는 진화적 이점을 제공할 수 있다. 그 결과, 종양은 종종 복수의 유전자형적으로 상이한, 관련 집단(또는 클론)을 포함한다. 종양의 클론 조성을 특성화하는 것은 치료적 맥락에서 특히 중요하다. 실제로, 종양 세포 집단의 서브세트에만 존재하는 돌연변이("서브클론" 돌연변이라고도 함)의 표적화는 일부 집단만을 표적화하기 때문에 제한된 임상적 이점과 관련되고, 영향을 받지 않은 클론이 계속 증식할 수 있기 때문에 높은 재발 또는 전이 가능성과 관련될 수 있다. 대신, 종양을 효과적으로 제어하기 위해서는 클론 신항원(모든 종양 세포에 존재하는 돌연변이 존재의 결과로서 발현되는 항원)을 표적화하거나 복수의 표적화된 요법을 조합하는 것이 필요할 수 있다고 점점 더 많이 믿어지고 있다[참조: McGranahan et al., 2015]. 추가로, 클론 신항원 부담은 적어도 일부 암의 예후 및 체크포인트 억제제에 의한 치료에 대한 감수성과 관련되어 있는 것으로 공지되어 있다[참조: McGranahan et al., 2016; Litchfield et al., 2021].
본 발명자들은 종양 세포 또는 이로부터 유래된 유전 물질을 포함하는 하나 이상의 샘플로부터의 서열 데이터를 사용하여 종양-특이적 돌연변이가 클론성일 가능성이 있는지를 결정하는 신규 방법을 개발하여 종래 기술 접근법의 과제 중 하나 이상을 해결했다. 이 방법은, 예를 들면, 암 요법 또는 예후를 목적으로 클론성 신항원의 동정에 특히 유용하다. 이 방법은 엄격한 통계적 프레임워크를 사용하여 개별 돌연변이를 클론으로서 분류하고 할당에 대한 신뢰를 반영하는 확률을 제공한다. 이 방법은 신속하고 유연하며 강력하고 복제 가능하며, 해석 가능한 추정에 의존하고, 체세포 카피 수 이상 데이터를 유연하게 도입할 수 있고, 이의 예측을 제공할 때에 복수의 배수성/순도 솔루션으로 인한 카피 수 호출의 불확실성을 고려할 수 있다. 
따라서, 일 측면에 따르면, 대상체(subject)에서 종양-특이적 돌연변이가 클론성일 가능성이 있는지를 결정하는 방법이 제공되고, 상기 방법은 종양 유전 물질(tumour genetic material)을 포함하는 대상체로부터 하나 이상의 샘플로부터의 서열 데이터를 제공하거나 수득하는 단계로서, 상기 서열 데이터는, 하나 이상의 샘플 각각에 대해, 종양-특이적 돌연변이를 나타내는 샘플의 판독 수(db), 대응하는 생식세포계 대립유전자(germline allele)를 나타내는 샘플 중의 판독 수, 및 종양-특이적 돌연변이의 위치에서의 총 판독 수(d) 중 적어도 2개를 포함하는 단계 및, 종양-특이적 돌연변이가 클론성인 가능성을, 돌연변이가 클론성일 사전 확률, 및 정상 집단(normal population), 종양-특이적 돌연변이를 포함하지 않는 참조 종양 집단 및 종양-특이적 돌연변이를 포함하는 변이체 종양 세포 집단에 대해 종양-특이적 돌연변이의 위치에서 유전자형을 각각 포함하는, 하나 이상의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서, 종양-특이적 돌연변이가 (i) 클론성 및 (ii) 비-클론성인 경우에 서열 데이터를 관찰하는 확률에 의존하여, 사후 확률로서 결정하는 단계를 포함한다.
이 방법은, 돌연변이가 클론성일 사전 확률(ρ) 및 서열 데이터를 관찰하는 확률(서열 데이터를 관찰하는 "가능성" 또는 단순히 서열 데이터의 "가능성"이라고 함)에 의존하는 사후 확률(Pr(Z=1|db, d, π, t, ρ))로서 돌연변이가 클론성일 확률(P(Z=1))을 수득한다. 따라서, 조사 중의 돌연변이와 관련된 서열 데이터를 단순히 사용하여 임의의 돌연변이에 대해 개별적으로 수득할 수 있고, 명시적 추정(즉, 돌연변이가 클론성일 사전 확률, 및 명시적 집단 구조 모델의 관점에서 서열 데이터를 관찰하는 가능성)에 의존하는 용이하게 해석 가능한 결과를 생성한다. 즉, 이러한 확률은 종양 유전 물질을 포함하는 하나 이상의 샘플로부터 이용할 수 있는 데이터, 및 확인 가능한 엄격한 일련의 추정에 기초하는 베이지안(Bayesian) 프레임워크를 통해 임의의 이용 가능한 사전 지식에 따라 의존한다. 이 결과는, 전체 게놈을 커버할 필요 없이, 임의 수의 돌연변이를 비교하고, 예를 들면, 우선순위를 정하기 위해 사용될 수 있다. 또한, 종양 유전 물질을 포함하는 복수의 샘플로부터의 증거를 조합하는 능력을 갖지만, 종양 유전 물질을 포함하는 단일 샘플을 사용하여 동일하게 결정할 수도 있다. 
본 측면의 방법은 하나 이상의 하기 특징을 가질 수 있다.
이 방법은 컴퓨터로 구현될 수 있다. 따라서, 서열 데이터를 수득하는 단계는 프로세서(processor)에 의해 수행될 수 있고, 종양-특이적 돌연변이가 클론성인 가능성을 결정하는 단계는 상기 프로세서에 의해 수행될 수 있다. 서열 데이터를 수득하는 단계는, 대상체로부터 하나 이상의 샘플로부터 서열 판독치를 포함하는 서열 데이터를 수신하는 단계, 및 상기 서열 판독으로부터 종양-특이적 돌연변이를 나타내는 샘플의 판독 수(db), 대응하는 생식세포계 대립유전자를 나타내는 샘플의 판독 수 및 종양-특이적 돌연변이 위치에서의 총 판독 수(d) 중 적어도 2개를 결정하는 단계를 추가로 포함할 수 있다. 적어도 종양-특이적 돌연변이가 클론성인 가능성을 결정하는 단계는 컴퓨터로 구현될 수 있다. 종양-특이적 돌연변이가 클론성인 가능성을 결정하는 단계는, 사후 확률을 수득하기 위한 수치 적분(integral) 단계를 포함할 수 있다. 특히, 이 단계는, 0과 1 사이의 모든 가능한 암 세포 분획에 대해 관찰된 서열 데이터의 확률을 통합하는 복수의 1차원 적분(예를 들면, 돌연변이가 클론성 및 비-클론성이라는 추정을 각각 나타내는 각 샘플에 대한 한 쌍의 적분)을 해결함으로써 돌연변이가 클론성일 사전 확률의 관점에서 돌연변이가 클론성인 사후 확률, 및 종양-특이적 돌연변이가 (i) 클론성 및 (ii) 비-클론성인 경우에 서열 데이터를 관찰하는 확률을 결정하는 것을 포함할 수 있다. 이들 수치 적분은 각 샘플 및 각 돌연변이에 대해 독립적으로(예를 들면, 병렬로) 해결할 수 있다. 제공 단계는 하나 이상의 단계를 포함할 수 있으며, 그 중 전부 또는 일부는 컴퓨터로 구현된다. 
종양-특이적 돌연변이가 클론성일 확률은 돌연변이가 클론성일 사전 확률을 고려하여 돌연변이가 클론성 카테고리에 할당되는 사전 확률(P(Z=1|ρ)=ρ); 및 돌연변이가 클론성일 사전 확률을 고려하여 비-클론 카테고리에 할당되는 돌연변이의 사전 확률(P(Z=0|ρ)=(1-ρ))을 통해 돌연변이가 클론성일 사전 확률(ρ)에 따라 달라질 수 있다. 종양-특이적 돌연변이가 클론성인 경우에 서열 데이터를 관찰하는 확률(하나 이상의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서)은 암 세포 분획에 비해 무시될 수 있다. 유사하게는, 하나 이상의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 종양-특이적 돌연변이가 비-클론성인 경우에 서열 데이터를 관찰하는 확률은 암 세포 분획에 비해 무시될 수 있다. 
종양-특이적 돌연변이가 클론성일 확률은 하기에 따라 달라질 수 있다: 돌연변이가 클론성일 사전 확률을 고려하여 클론성 카테고리에 할당되는 돌연변이의 사전 확률(P(Z=1|ρ)=ρ)에, 종양 분획의 관점에서 서열 데이터를 관찰하는 각 샘플의 확률을 곱하고, 돌연변이가 클론성인 경우에 하나 이상의 후보 공동 유전자형(이는 Ψ1, 암 세포 분획에 비해 무시된 각 샘플의 서열 데이터의 가능성으로 계산될 수 있다)을 곱한 값; 및 돌연변이가 서브클론성일 사전 확률을 고려하여 비-클론성 카테고리에 할당되는 돌연변이의 사전 확률(P(Z=0|ρ)=1-ρ)에 종양 분획의 관점에서 서열 데이터를 관찰하는 각 샘플의 확률을 곱하고, 돌연변이가 비-클론성인 경우에 하나 이상의 후보 공동 유전자형(이는 Ψ0, 각 샘플의 서열 데이터의 가능성으로 계산될 수 있다)을 곱한 값. 
종양-특이적 돌연변이가 클론성일 확률은, (i) 돌연변이가 클론성인 경우에 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 각 샘플에서 서열 데이터를 관찰하는 확률을 곱한 돌연변이가 클론성일 사전 확률을 고려하여 클론성 카테고리에 할당되는 돌연변이의 사전 확률(p(db, d, Z=1|π, t, ρ), 이는 ρΨ1로 표시될 수 있음)에, (ii) (i)(즉, (p(db, d, Z=1|π, t, ρ)) 및 돌연변이가 비-클론성인 경우에 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 각 샘플에서 서열 데이터를 관찰하는 확률을 곱한 돌연변이가 서브클론성일 사전 확률을 고려하여 비-클론성 카테고리로 할당되는 돌연변이의 사전 확률(p(db, d, Z=0|π,t, ρ), 이는 (1-ρ)ψ0로서 표시될 수 있음)의 합계로 나눈 값의 비율로서 수득될 수 있다.
돌연변이가 클론성일 확률은 방정식(11a)를 사용하여 수득할 수 있다. 방정식 (11a)에서, 항 Pr(db,d│π,φ,t)는 임의의 방정식 (3), (4), (3a), (4a), (3b) 또는 (4b)에 의해 제공될 수 있다. 방정식 (11)에서, 항 p(φ|Z=0) 및 p(φ|z=1)은 방정식 (6)에 의해 제공될 수 있다. 
클론성 돌연변이는 종양 유전 물질을 포함하는 대상체의 하나 이상의 샘플 중의 모든 또는 본질적으로 모든 종양 세포에 존재하는 돌연변이일 수 있다(또는 하나 이상의 샘플 중의 모든 종양 유전 물질에 존재하는 돌연변이). 이러한 돌연변이는, 대상체의 모든 종양 세포에 존재하거나 존재한다고 추정될 수 있다(이에 대한 완전한 확신은 대상체의 모든 종양 세포의 서열분석과 관련될 수 있지만, 하나 이상의 샘플 중의 본질적으로 모든 세포에 존재하는 것이 이의 지표로서 사용될 수 있음). 
각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률(Pr(d,db|π,φ,t))에 의존할 수 있다. 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형 각각의 관점에서 서열 데이터를 관찰하는 확률의 가중치 합계(weighted sum)일 수 있다. 
유리하게는, 서열 데이터를 관찰하는 확률(서열 데이터의 가능성)은 복수의 후보 유전자형에 대해 계산될 수 있고(예를 들면, 각 후보 유전자형에 대한 항을 포함하는 확률의 합계로서, 예를 들면, 방정식 (3a), (3b) 참조), 그 기여도는, 예를 들면, 후보 유전자형의 상대적 확률에 대한 사전 지식(예를 들면, 일부 유전자형이 다른 것보다 발생할 가능성이 높은지에 대한 임의의 사전 지식)을 반영하도록 가중치를 부여할 수 있다. 이러한 사전 지식이 없거나 바람직하지 않은 경우, 각 후보 유전자형에 대한 확률은 동일하게 가중치를 부여할 수 있다. 고려되는 각 후보 유전자형의 가중치는 적절하게 합산되어 1이 되고, 따라서 총 확률은 고려되는 상이한 후보 공동 유전자형의 상대적 기여도를 반영한다. 단일 후보 공동 유전자형을 사용하는 경우, 이는 1의 가중치를 할당할 수 있다(즉, 합계를 수득할 수 없음). 
종양 분획, 암 세포 분획 및 특정 후보 공동 유전자형(Gi)의 관점에서 서열 데이터를 관찰하는 확률(G1)(이는 Ψz, 각 샘플 중의 서열 데이터의 가능성으로 표시될 수 있고, 암 세포 분획에 비해 무시될 수 있음)은 파라미터 db 및 ξ(G i ,φ,t)를 갖는 이항(Binomial) 분포를 사용하여 수득할 수 있다. 또는, 종양 분획, 암 세포 분획 및 특정 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 파라미터 db, ξ(G i ,φ,t) 및 γ를 갖는 베타이항(BetaBinomial) 분포를 사용하여 수득할 수 있다. 두 경우 모두(즉, 이항 분포 또는 베타이항 분포가 사용하든지) ξ(G i ,φ,t)는 특정 유전자형 Gi, 암 세포 분획 φ 및 종양 순도 t를 추정하여 변이체 대립유전자를 사용한 판독을 샘플링하는 확률을 나타낼 수 있다. 확률 ξ(G i ,φ,t)는 정상, 변이체 및 참조 유전자형 각각에 대한 총 카피 수, 유전자형에서 변이체인 유전자좌의 대립유전자 비율 및 서열분석 오류율, 샘플 중의 종양 분획 및 돌연변이에 대한 암 세포 분획의 관점에서 유전자형 Gi를 갖는 집단으로부터 변이체를 사용한 판독을 샘플링하는 확률의 함수로서 수득될 수 있다. 
각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 각 샘플 중의 암 세포 분획의 모든 가능한 값에 대한 적분으로서 수득될 수 있으며, 여기서 암 세포 분획은 종양-특이적 돌연변이를 포함하는 종양 세포의 비율이다. 따라서, 종양-특이적 돌연변이가 클론성일 가능성을 결정하는 단계는 프로세서를 사용하여 상기 적분을 수치적으로 통합하는 것을 포함할 수 있다.
암 세포 분획(φ)은 0과 1 사이의 값을 취할 수 있다. 즉, 돌연변이가 클론성 또는 비-클론성인 경우에 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 암 세포 분획의 모든 가능한 값에 대해 암 세포 분획에 의존하는 값을 통합함으로써(즉, 암 세포 분획에 대해 무시하여) 수득할 수 있다. 암 세포 분획에 의존하는 값은 Pr(db,d|π,φ,t)(여기서, 제1 항은 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률이고, 제2 항은 돌연변이가 클론성 또는 비-클론성으로 분류되는 경우에 암 세포 분획의 사전 확률(즉, 암 세포 분획이 클론성/비-클론성 돌연변이에 대해 어떻게 거동해야 하는지에 대한 추정에 기반한 확률)이다(각각 Z=1 또는 Z=0). 따라서, 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 로서 수득할 수 있다.
돌연변이가 클론성으로 분류되는 경우에 특정 암 세포 분획의 사전 확률은 파라미터 α(예를 들면, 99와 같이 1 초과 값으로 설정되지만, 임의의 다른 값을 사용할 수 있음) 및 β=1(베타(φ|α,1))을 갖는 베타 분포로서 정의될 수 있다. 돌연변이가 비클론성으로 분류되는 경우에 특정 암 세포 분획의 사전 확률은 파라미터 α=1 및 β=1(베타(φ|1,1)을 갖는 베타 분포로서 정의될 수 있다.
복수의 샘플로부터 서열 데이터를 수득할 수 있고, 복수의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률은 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 각 샘플의 서열 데이터를 관찰하는 확률의 곱으로서 수득될 수 있다. 
유리하게는, 본 발명은, 이들이 이용 가능한 경우, 복수의 샘플에서 수득된 돌연변이의 클론성에 대한 증거를 흔적 없이 통합할 수 있다. 이는 다중-영역 서열분석 데이터를 활용할 수 있는 종양 세포 집단의 클론성 구조를 추론하는 방법이 벤치마킹 연구에서 특히 양호하게 수행되는 것으로 밝혀졌기 때문에 특히 유리하다[참조: Farahani et al., 2017].
이 방법은, 각 샘플에 대해, 종양 분획의 적어도 하나의 추정치, 및 하나 이상의 후보 공동 유전자형의 적어도 하나의 대응하는 세트를 수득하거나 제공하는 것을 추가로 포함할 수 있다. 종양 분획 추정치는 종양 및 정상 세포의 혼합물을 포함하는 샘플에서 대립유전자-특이적 카피 수 프로파일을 결정하는 방법을 사용하여 수득할 수 있다. 서열분석 또는 정렬 데이터를 사용하여 이를 수행하는 방법은 당업자에게 공지되어 있으며, 예를 들면, 대립유전자 특이적 데이터를 대립유전자-특이적 카피 수, 종양 이수성 및 종양 세포 분획을 포함하는 파라미터의 함수로서 표시하고 모든 데이터에 가장 적합하는 이들 파라미터의 값을 특정하는 것으로 공지되어 있다. 이러한 방법의 예로는, 예를 들면, ASCAT[참조: Van Loo et al., 2010] 등이 포함된다. 또는, 종양 분획 추정치를 실험적으로 결정할 수도 있다. 따라서, 이 방법은 하나 이상의 샘플 각각에 대한 종양 분획 추정치를 수득하는 것을 추가로 포함할 수 있다. 특히, 이 방법은, 프로세서에 의해, 각 샘플에 대해, 종양 분획의 적어도 하나의 추정치를 수득하는 것을 포함할 수 있고, 상기 프로세서는 서열 데이터를 사용하여 종양 분획 및 대립유전자 특이적 카피 수의 추정치를 결정하고, 상기 프로세서에 의해 상기 대립유전자 특이적 카피 수와 관련된 하나 이상의 후보 공동 유전자형의 세트를 결정하는 것을 포함할 수 있다.
하나 이상의 후보 유전자형의 세트는 혼합 샘플 중의 종양 세포에 대한 대립유전자-특이적 카피 수 또는 이로부터 유래된 변수(또는 반대로, 이러한 대립유전자-특이적 카피 수가 유래될 수 있는 변수, 예를 들면, B 대립유전자 분획 및 로그 R)를 사용하여 수득할 수 있다. 혼합 샘플 중의 종양 세포에 대한 대립유전자-특이적 카피 수는 종양 세포와 정상 세포의 혼합물을 포함하는 샘플에서 대립유전자-특이적 카피 수 프로파일을 결정하는 방법, 예를 들면, ASCAT[참조: Van Loo et al., 2010] 또는 ascatNgs[참조: Raine et al., 2016] 등을 사용하여 수득할 수 있다. 
따라서, 이 방법은, 하나 이상의 샘플 각각에 대해, 샘플 중의 종양 세포 중의 주요 대립유전자의 카피 수, 샘플 중의 종양 세포 중의 마이너 대립유전자의 카피 수 및 샘플 중의 종양 세포 중의 종양-특이적 돌연변이의 위치에서 총 카피 수 중 적어도 2개에 대한 추정치를 수득하는 것을 추가로 포함할 수 있다. 샘플 중의 종양 세포의 카피 수의 추정치는 샘플 중의 종양 세포의 전체 집단에 대한 요약된(예: 평균) 추정치를 나타낼 수 있다.
하나 이상의 후보 공동 유전자형의 세트는 하기와 같은 추정과 상용성이 있는 후보 공동 유전자형으로서 수득할 수 있다: 정상 집단은 정상 대립유전자 A만을 포함하고(즉, GH = AA 또는 A, 예를 들면, 유전자좌가 성 염색체 상에 있는 경우); 참조 집단은 변이체 대립유전자 B를 포함하지 않으며(즉, GR =(A)*n); 변이체 집단은 변이체 대립유전자 B의 적어도 하나의 카피를 포함한다(즉, GV =(A)*m(B)*l). 
유리하게는, 후보 유전자형의 세트는 (i) 참조 집단 유전자형이 정상 집단 유전자형과 일치하고 변이체 집단이 당해 위치의 총 카피 수와 동일한 카피 수를 갖고 변이체 대립유전자의 최대 주요 카피 수를 갖거나, (ii) 참조 집단이 당해 위치의 총 카피 수와 동일한 카피 수를 갖고 변이체 집단이 당해 위치에서 1개 변이체 대립유전자 및 총 카피 수와 동일한 카피 수("주요 카피 수 사전")를 갖는 추정에 추가로 상용성이 있는 후보 공동 유전자형을 포함할 수 있다. 이 접근법은 과도하게 많은 상태를 고려하지 않으면서 집단의 유전자형에 대한 불확실성을 고려하는 양호한 밸런스를 유리하게 취한다.
대신 또는 이에 추가하여, 하나 이상의 후보 공동 유전자형의 세트는 각 돌연변이가 이배체 및 헤테로접합성(예: GV=AB, GR=AA)이라는 추정과 상용성이 있는 임의의 후보 공동 유전자형을 포함할 수 있다("AB 이전"). 대신 또는 이에 추가하여, 하나 이상의 후보 공동 유전자형의 세트는 각 돌연변이가 이배체이고 호모접합성(예: GV=BB, GR=AA)이라는 추정과 상용성이 있는 임의의 후보 공동 유전자형을 포함할 수 있다("BB 이전"). 대신 또는 이에 추가하여, 하나 이상의 후보 공동 유전자형의 세트는 하기와 같은 추정과 상용성이 있는 임의의 후보 공동 유전자형을 포함할 수 있다: 변이체 집단의 유전자형은 정확히 하나의 돌연변이 대립유전자를 갖는 돌연변이의 영역에서 예측된 총 카피 수를 갖는다(즉, GV=(A)*mB, m=총 카피 수-1)("접합성 이전 없음"). 대신 또는 이에 추가하여, 하나 이상의 후보 공동 유전자형의 세트는 하기와 같은 추정과 상용성이 있는 임의의 후보 공동 유전자형을 포함할 수 있다: 변이체 집단 유전자형은 적어도 하나의 돌연변이 대립유전자를 갖는 돌연변이의 영역에서 예측된 총 카피 수를 갖고, 참조 집단은 AA, 또는 예측된 총 카피 수와 동일한 카피 수를 갖고 변이체 대립유전자를 갖지 않는 유전자형이다(즉, GR=(A)*n, 여기서 n은 총 카피 수, GV=(A)*m(B)*l, 여기서 m+l=n 및 l>1)("총 카피 수 사전"). 대신 또는 이에 추가하여, 하나 이상의 후보 공동 유전자형의 세트는 하기와 추정과 상용성이 있는 임의의 후보 공동 유전자형을 포함할 수 있다: 변이체 집단의 유전자형은 주요 카피 수 또는 마이너 카피 수에 대응하는 다수의 돌연변이 대립유전자를 갖는다("부모 모드").
서열 데이터를 관찰하는 확률은 각각의 종양 분획 및 하나 이상의 샘플의 적어도 하나에 대한 하나 이상의 후보 공동 유전자형의 대응하는 세트의 관점에서 서열 데이터를 관찰하는 복수의 확률을 조합할 수 있고, 임의로, 이 방법은 적어도 하나 또는 하나 이상의 샘플에 대해 종양 분획의 복수의 추정치, 및 하나 이상의 후보 공동 유전자형의 복수의 대응하는 세트를 수득하는 것을 포함할 수 있다. 따라서, 이 방법은, 적어도 하나의 샘플에 대해, 종양 분획의 복수의 추정치를 수득하는 것을 포함할 수 있다. 이는, 프로세서에 의해 종양 분획의 복수의 추정치, 및 서열 데이터와 상용성이 있는 대응하는 복수의 대립유전자 특이적 카피 수를 결정하는 단계, 및 프로세서에 의해 상기 복수의 대립유전자 특이적 카피 수와 관련된 하나 이상의 후보 공동 유전자형의 복수의 세트를 결정하는 단계를 포함할 수 있다.
본 방법은 복수의 가능한 종양 분획 및 대응하는 후보 공동 유전자형의 세트를 고려하는 클론성의 돌연변이의 확률을 유리하게 결정할 수 있다. 즉, 본 방법은 종양 분획 및 후보 공동 유전자형이 수득될 수 있는 복수의 카피 수 솔루션에 대해 통합하는 클론성의 돌연변이의 확률을 수득할 수 있다. 이와 대조적으로, 종래의 접근법은 통상 종양 순도 및 대립유전자-특이적 카피 수(후보 공동 유전자형이 수득될 수 있는)에 대한 단일 추정치에 의존하고, 이는 종종 전문가의 정의된 최적성 기준에 따라 수동으로 선택된다. 최적이라고 간주되는 카피 수 솔루션을 선택하는 단계는 오류가 발생하기 쉽고, 단일 솔루션에 의존하는 방법의 결과는 솔루션에 따라 현저히 변화할 수 있다.
따라서, 유리하게는, 서열 데이터를 관찰하는 확률(서열 데이터의 가능성)은 복수의 후보 유전자형의 세트 및 대응하는 종양 분획 추정치(예를 들면, 각 카피 수 솔루션에 대한 항을 포함하는 확률의 합계로서, 방정식 (3b), (4b) 참조)에 대해 계산될 수 있고, 그 기여도는, 예를 들면, 종양 분획 추정치, 및 후보 유전자형의 세트가 수득되는 카피 수 솔루션에 대한 신뢰를 반영하도록 가중치를 부여할 수 있다. 고려되는 카피 수 솔루션의 기여도에 대한 가중치는 적절하게 합계하여 1이 되고, 따라서 총 확률은 고려되는 상이한 카피 수 솔루션의 상대적 기여도를 반영한다. 단일 카피 번호 솔루션을 사용하는 경우, 가중치가 1로 할당될 수 있다(즉, 합계를 수득할 수 없음).  
돌연변이가 클론성일 사전 확률은 중립 사전(neutral prior), 또는 사전 데이터 및/또는 전문가 지식으로부터 유래된 값으로 설정될 수 있다. 유리하게는, 본 명세서에 기재된 방법은, 이러한 지식이 이용 가능한 경우, 클론성의 돌연변이의 확률을 결정하기 위해 사용되는 베이지안 프레임워크에서 돌연변이에 대한 사전 지식을 고려할 수 있다. 그러나, 이러한 지식이 없는 경우에도, 클론성의 돌연변이의 가능성을 제공할 수 있다. 
돌연변이가 클론성일 사전 확률에 대한 값은 대상체, 종양, 돌연변이 또는 이들의 조합에 의존할 수 있다. 예를 들면, 값은 동일한 유형 또는 서브유형의 암을 앓고 있는 환자 등의 관련 환자 코호트에서 사전에 취득한 데이터를 사용하여 결정할 수 있다. 예를 들면, 이러한 코호트에서 클론성 돌연변이 대 서브클론성 돌연변이의 비율에 대한 지식은 본 명세서에서 사용되는 사전 확률을 설정하기 위해 사용될 수 있다. 또는, 암 유형 또는 돌연변이에 대한 사전 지식을 기반으로 값을 임의로 설정할 수도 있다. 예를 들면, 복수의 암 샘플에서 발견되고 이러한 샘플에서 종종 클론성인 것으로 동정된 특정 돌연변이는 0.5 초과의 확률을 할당할 수 있다. 
본 방법은 대상체에서 동정된 복수의 종양-특이적 돌연변이에 대해 본 방법을 반복하는 것을 추가로 포함할 수 있다. 이 방법은, 적어도 부분적으로, 대상체에서 클론성일 이들의 결정된 가능성에 기초하여, 복수의 종양-특이적 돌연변이들의 순위를 부여하거나 다른 방식으로는 우선순위를 부여하는 것을 추가로 포함할 수 있다. 
이 방법은 대상체에서 하나 이상의 종양-특이적 돌연변이를 동정하는 것을 추가로 포함할 수 있다. 대상체에서 하나 이상의 종양-특이적 돌연변이를 동정하는 것은 종양 유전 물질을 포함하는 대상체로부터의 하나 이상의 샘플로부터의 서열 데이터 및 대상체로부터의 하나 이상의 생식세포계 샘플로부터의 서열 데이터를 사용하여, 예컨대, 상기 서열 데이터를 비교함으로써 수행될 수 있다. 대상체에서 하나 이상의 종양-특이적 돌연변이를 동정하는 것은 종양 유전 물질을 포함하는 적어도 하나의 샘플로부터의 서열 데이터를 참조 서열에 정렬하고, 샘플의 서열이 참조 서열과 상이한 위치를 식별하는 것을 포함할 수 있다. 이 방법은 적어도 하나의 생식세포계 샘플로부터의 서열 데이터를 참조 서열에 정렬하고, 종양 유전 물질을 포함하는 샘플의 서열이 생식세포계 샘플과 상이한 위치를 식별하는 것을 추가로 포함할 수 있다.  
대상체로부터 하나 이상의 샘플로부터 서열 데이터를 제공하는 단계는 사용자로부터(예를 들면, 사용자 인터페이스(user interface)를 통해), 하나 이상의 컴퓨팅 장치로부터, 또는 하나 이상의 데이터 저장소 또는 데이터베이스로부터 서열 데이터를 수신하는 것을 포함하거나 이들로 이루어질 수 있다. 
서열 데이터를 제공하는 단계는 종양 유전 물질을 포함하는 대상체로부터 하나 이상의 샘플을 서열분석(또는 샘플에 존재하는 게놈 물질의 서열 조성을 결정)하는 단계를 추가로 포함할 수 있다.
이 방법은 대상체로부터 하나 이상의 생식세포계 샘플을 서열분석(또는 샘플에 존재하는 게놈 물질의 서열 구성을 결정)하는 단계를 추가로 포함할 수 있다.
이 방법은 대상체로부터 종양 유전 물질을 포함하는 하나 이상의 샘플 및 임의로 하나 이상의 생식세포계 샘플을 수득하는 것을 추가로 포함할 수 있다.
이 방법은, 예를 들면, 사용자 인터페이스를 통해, 클론성의 종양-특이적 돌연변이의 결정된 확률 및/또는 이로부터 유도되거나 이와 연관된 값을 사용자에게 제공하는 것을 추가로 포함할 수 있다. 예를 들면, 이 방법은 클론성의 종양-특이적 돌연변이의 결정된 확률에 기초하여 "클론 상태" 플래그 또는 값을 제공하는 것을 포함할 수 있다. 또 다른 예로서, 이 방법은 돌연변이를 식별하는 정보(예컨대, 돌연변이의 서열 및 이의 게놈 위치)를 제공하는 것을 포함할 수 있다. 
또 다른 측면에 따르면, 대상체에서 하나 이상의 클론성 신항원을 동정하는 방법이 제공되고, 상기 방법은 대상체에서 복수의 종양-특이적 돌연변이를 동정하는 단계; 하나 이상의 상기 종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지를 전술한 측면의 임의의 실시양태의 방법을 사용하여 결정하는 단계; 및 하나 이상의 상기 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지를 결정하는 단계를 포함하고; 여기서 클론성 신항원은 종양-특이적 돌연변이가 클론성일 가능성이 있는지에 대한 하나 이상의 소정 기준 및 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지에 대한 하나 이상의 기준을 충족하는 종양-특이적 돌연변이이다. 또한, 본 측면에 따라 기재되는 것은 대상체에서 하나 이상의 클론성 신항원을 동정하는 방법이고, 이 방법은 상기 대상체로부터의 하나 이상의 샘플로부터의 서열 데이터를 사용하는 프로세서에 의해, 대상체에서 복수의 종양-특이적 돌연변이를 동정하는 단계; 상기 프로세서에 의해, 임의의 전술한 청구항의 방법을 사용하여 하나 이상의 종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지를 결정하는 단계; 및 상기 프로세서에 의해, 하나 이상의 상기 종양-특이적 돌연변이를 후보 클론성 신항원으로서 선택하는 단계를 포함하고; 여기서 후보 클론 신항원은 종양-특이적 돌연변이가 클론성일 가능성이 있는지에 대한 적어도 하나 이상의 소정 기준 및 임의로 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지에 대한 하나 이상의 기준을 충족하는 종양-특이적 돌연변이이다.
본 발명의 방법은 임의의 하나 이상의 하기 특징을 가질 수 있다. 
클론성 신항원은 하기로부터 선택된 적어도 하나의 기준을 충족하는 종양-특이적 돌연변이일 수 있다: 소정 역치(predetermined threshold) 초과로 클론성의 확률을 갖는 것, 확률이 결정된 종양-특이적 돌연변이 중에서 클론성의 최고 확률을 갖는 소정 수의 종양-특이적 돌연변이를 선택하도록 적응적으로 설정된 역치 초과인 클론성의 확률을 갖는 것, 및 확률이 결정된 종양-특이적 돌연변이 중에서 소정 상위 백분위수(percentile)를 선택하도록 적응적으로 설정된 역치 초과인 클론성의 확률을 갖는 것. 따라서, 종양-특이적 돌연변이가 클론성일 가능성이 있는지에 대한 하나 이상의 소정 기준은 하기 중에서 선택될 수 있다: 소정 역치 초과의 클론성일 가능성을 갖는 돌연변이, 가능성이 결정된 종양-특이적 돌연변이 중에서 클론성의 최고 가능성을 갖는 소정 수의 종양-특이적 돌연변이를 선택하도록 적응적으로 설정된 역치 초과인 클론성일 가능성을 갖는 돌연변이, 및 가능성이 결정된 종양-특이적 돌연변이 중에서 소정 상위 백분위수의 종양-특이적 돌연변이를 선택하도록 적응적으로 설정된 역치 초과인 클론성일 가능성을 갖는 돌연변이.
클론 신항원은 하기 중에서 선택된 기준을 적어도 충족하는 종양-특이적 돌연변이일 수 있다: 종양 세포에서 발현되는 발현 산물과 연관되는 것, 대상체의 정상 세포에서 발현되지 않는 단백질 또는 펩티드를 초래할 것으로 예측되는 것, MHC 분자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래할 것으로 예측되는 것, 대상체에서 존재하는 것으로 공지된 MHC 대립유전자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래할 것으로 예측되는 것, 및 면역원성인 단백질 또는 펩티드를 초래할 것으로 예측되는 것. 예를 들면, 클론성 신항원은 단백질 서열의 변화를 초래할 것으로 예측되는 기준을 충족하는 종양-특이적 돌연변이(예: 코딩되어 있기 때문에, 스플라이스 부위에 영향을 미치기 때문에, 절단된 펩티드를 초래하기 때문에 등)일 수 있고, 따라서 대상체의 정상 세포에서 발현되지 않을 수 있는 단백질 또는 펩티드를 초래할 수 있다. 이러한 경우인지 여부는, 예를 들면, 대상체의 예측된 정상 프로테옴과의 비교에 의해 추가로 확인될 수 있다. 따라서, 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지에 대한 하나 이상의 기준은 하기로부터 선택될 수 있다: 종양 세포에서 발현되는 발현 산물과 연관되는 돌연변이, 대상체의 정상 세포에서 발현되지 않는 단백질 또는 펩티드를 초래할 것으로 예측되는 돌연변이, MHC 분자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래할 것으로 예측되는 돌연변이, 대상체에서 존재하는 것으로 공지된 MHC 대립유전자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래할 것으로 예측되는 돌연변이, 및 면역원성인 단백질 또는 펩티드를 초래할 것으로 예측되는 돌연변이.
이 방법은 하나 이상의 클론성 신항원과 관련된 하나 이상의 펩티드(즉, 종양-특이적 돌연변이의 존재의 결과로서 종양 세포에 존재할 것으로 예측되는 하나 이상의 펩티드 서열)을 동정하는 것을 추가로 포함하고, 여기서 종양-특이적 돌연변이는 전술한 바와 같이 하나 이상의 기준(클론성의 가능성 및 클론성 신항원을 생성할 가능성과 관련됨)을 충족한다.
당업자가 이해할 수 있는 바와 같이, 본 명세서에 기재된 조작의 복잡성(적어도 본 명세서에 기재된 바와 같이 수치 적분을 필요로 하는 사후 확률 수득의 복잡성 및 게놈 DNA의 서열분석에 의해 통상 생성되는 데이터의 양으로 인해)은 이들이 정신 활동의 범위를 벗어날 정도이다. 따라서, 문맥상 달리 명시되지 않는 한(예: 샘플 준비 또는 취득 단계가 기재된 경우), 본 명세서에 기재된 방법의 모든 단계는 컴퓨터로 구현된다.
추가의 측면에 따르면, 암을 갖는 것으로 진단된 대상체에 대한 예후를 제공하는 방법이 제공되고, 상기 방법은 대상체로부터 하나 이상의 샘플 중의 복수의 종양-특이적 돌연변이를 동정하고, 제1 측면의 임의의 실시양태의 방법을 사용하여 각각의 종양-특이적 돌연변이가 클론성일 가능성을 결정하는 것을 포함한다.
이 방법은 적어도 부분적으로 소정 역치 초과로 클론성일 확률을 갖는 종양-특이적 돌연변이의 비율에 따라 대상체를 높은 클론성 신항원 부담 대 낮은 클론성 신항원 부담으로 분류하는 것을 추가로 포함할 수 있고, 여기서 높은 클론성 신항원 부담을 갖는 대상체는 낮은 클론성 신항원 부담을 갖는 대상체와 비교하여 개선된 예후를 갖는다.
추가의 측면에 따르면, 암을 갖는 것으로 진단된 대상체에 대한 면역요법을 제공하는 방법이 제공되고, 상기 방법은 제2 측면의 임의의 실시양태에 따른 방법과 같이 본 명세서에 기재된 방법을 사용하여 하나 이상의 클론성 신항원을 동정하는 단계; 및 동정된 하나 이상의 클론성 신항원을 표적화하는 면역요법을 설계하는 단계를 포함한다. 
이 방법에는 임의의 하나 이상의 하기 특징을 가질 수 있다. 
하나 이상의 클론성 신항원을 표적화하는 면역요법은 면역원성 조성물, 면역 세포를 포함하는 조성물 또는 치료용 항체일 수 있다. 면역원원 조성물은 동정된 클론성 신항원 중 하나 이상의 클론성 신항원(예를 들면, 신항원 펩티드 또는 단백질 또는 신항원을 표시하는 세포), 또는 동정된 하나 이상의 클론성 신항원의 발현에 충분한 물질(예를 들면, 신항원을 코딩하는 DNA 또는 RNA 분자)을 포함할 수 있다. 면역 세포를 포함하는 조성물은 T 세포, B 세포 및/또는 수지상 세포를 포함할 수 있다. 치료용 항체를 포함하는 조성물은 동정된 하나 이상의 클론성 신항원의 적어도 하나를 인식하는 하나 이상의 항체를 포함할 수 있다. 항체는 모노클로날 항체일 수 있다. 
임의의 측면의 임의의 실시양태에서, 암은 방광암(bladder cancer), 위암(gastric cancer), 식도암(oesophageal cancer), 유방암(breast cancer), 대장암(colorectal cancer), 자궁 경부암(cervical cancer), 난소암(ovarian cancer), 자궁 내막암(endometrial cancer), 신장암(kidney cancer)(신장 세포), 폐암(lung cancer)(소세포, 비소세포 및 중피종(mesothelioma)), 뇌암(brain cancer)(신경교종(gliomas), 성상세포종(astrocytomas), 교모세포종(glioblastomas)), 흑색종(melanoma), 림프종(lymphoma), 소장암(small bowel cancers)(십이지장(duodenal) 및 공장암(jejunal)), 백혈병(leukemia), 췌장암(pancreatic cancer), 간담도 종양(hepatobiliary tumours), 생식세포암(germ cell cancers), 전립선암(prostate cancer), 두경부암(head and neck cancers), 갑상선암(thyroid cancer) 및 육종(sarcomas)으로부터 선택될 수 있다. 암은 폐암(lung cancer)일 수 있다. 암은 흑색종(melanoma)일 수 있다. 암은 방광암(bladder cancer)일 수 있다. 암은 두경부암(head and neck cancer)일 수 있다. 
임의의 측면의 임의의 실시양태에서, 대상체는 인간일 수 있다.
동정된 하나 이상의 클론성 신항원을 표적화하는 면역요법을 설계하는 것은 표적화된 하나 이상의 클론성 신항원 각각에 대해 하나 이상의 후보 펩티드를 설계하는 것을 포함할 수 있고, 각 펩티드는 표적화된 클론성 신항원의 적어도 일부를 포함한다. 
이 방법은 하나 이상의 후보 펩티드를 수득하는 단계를 추가로 포함할 수 있다. 이 방법은 하나 이상의 후보 펩티드에 대해 하나 이상의 특성을 시험하는 것을 추가로 포함할 수 있다. 시험은 시험관내 또는 실리코(in silico)내에서 수행될 수 있다. 예를 들면, 하나 이상의 펩티드는 면역원성, MHC 분자에 의해 표시되는 성향(임의로 특이적 MHC 분자 대립유전자에 의해, 여기서 대립유전자는 대상체에 의해 발현된 MHC 대립유전자에 따라 선택될 수 있음), 면역 세포의 집단의 증식을 유도하는 능력 등에 대해 시험될 수 있다.
이 방법은 면역요법을 생산하는 단계를 추가로 포함할 수 있다. 이 방법은 하나 이상의 후보 펩티드로 펄스 처리된 수지상 세포의 집단을 수득하는 단계를 추가로 포함할 수 있다. 면역요법은 동정된 하나 이상의 클론성 신항원 중 적어도 하나를 인식하는 T 세포를 포함하는 조성물일 수 있다. 상기 조성물은 동정된 하나 이상의 클론성 신항원 중 적어도 하나를 표적화하는 T 세포가 풍부화(enriching)될 수 있다. 이 방법은, 동정된 하나 이상의 클론성 신항원 중 적어도 하나를 표적화하는 T 세포의 수 또는 상대적 비율을 증가시키기 위해 T 세포의 집단을 수득하고, T 세포의 집단을 확장하는 단계를 포함할 수 있다.
이 방법은 T 세포 집단을 수득하는 단계를 추가로 포함할 수 있다. T 세포 집단은 대상체로부터, 예를 들면, 대상체로부터 수득된 하나 이상의 종양 샘플 또는 말초 혈액 샘플 또는 대상체의 다른 조직으로부터의 샘플로부터 단리될 수 있다. T 세포 집단은 종양 침윤 림프구를 포함할 수 있다. T 세포는 당업자에게 널리 공지된 방법을 사용하여 단리될 수 있다. 예를 들면, T 세포는 CD3, CD4 또는 CD8의 발현에 기초하여 샘플로부터 생성된 단일 세포 현탁액으로부터 정제될 수 있다. T 세포는 피콜-패크(Ficoll-paque) 구배를 통과시킴으로써 샘플로부터 풍부화될 수 있다.
이 방법은 T 세포 집단을 확장하는 것을 추가로 포함할 수 있다. 예를 들면, T 세포는 T 세포에 대한 유사분열성 자극을 제공하는 것으로 공지된 조건에서 생체외 배양에 의해 확장될 수 있다. 예를 들면, T 세포는 IL-2와 같은 사이토카인 또는 항-CD3 및/또는 CD28과 같은 유사분열성 항체와 함께 배양될 수 있다. T 세포는 조사되었을 수 있는 항원-제시 세포(APC)와 공-배양될 수 있다. APC는 수지상 세포 또는 B 세포일 수 있다. 수지상 세포는 단일 자극제 또는 자극성 신항원 펩티드의 풀로서 하나 이상의 동정된 신항원을 함유하는 펩티드로 펄스 처리될 수 있다. T 세포의 확장은, 예를 들면, 추가적인 공-자극 신호를 제공하는 인공 항원 제시 세포(aAPC) 및 적절한 펩티드를 제시하는 자가 PBMC의 사용을 포함하여 당업자에게 공지된 방법을 사용하여 수행될 수 있다. 자가 PBMC는 단일 자극제로서 또는 자극성 신항원의 풀로서 본 명세서에 설명된 바와 같이 신항원을 함유하는 펩티드로 펄스 처리할 수 있다.
또 다른 측면에 따르면, 대상체의 암 치료에 사용하기 위한 T 세포 집단을 확장하는 방법이 제공되고, 상기 방법은 제2 측면의 임의의 실시양태에 따른 방법과 같이 본 명세서에 기재된 방법을 사용하여 하나 이상의 클론성 신항원을 동정하는 단계; 동정된 클론성 신항원 중 하나를 특이적으로 인식할 수 있는 T 세포를 포함하는 T 세포 집단을 수득하는 단계; 및 동정된 클론성 신항원을 포함하는 조성물과 T 세포 집단을 공-배양하는 단계를 포함한다.
이 방법에는 하나 이상의 하기 특징을 가질 수 있다. 
수득된 T 세포 집단은 동정된 클론성 신항원 중 하나를 특이적으로 인식할 수 있는 T 세포를 포함하는 것으로 추정할 수 있다. 이 방법은 바람직하게는 복수의 클론성 신항원을 동정하는 것을 포함한다. T 세포 집단은, 각각 동정된 복수의 클론성 신항원 중 하나를 특이적으로 인식할 수 있는 복수의 T 세포를 포함할 수 있고, 동정된 복수의 클론성 신항원을 포함하는 조성물과 T 세포 집단을 공-배양하는 것을 포함할 수 있다. 공-배양은 하나 이상의 신항원을 특이적으로 인식하는 T 세포 집단의 확장을 초래할 수 있다. 이러한 확장은 신항원과 항원 제시 세포를 갖는 T 세포의 공-배양에 의해 수행될 수 있다. 항원 제시 세포는 수지상 세포일 수 있다. 따라서, 확장은 신항원에 특이적인 T 세포의 선택적 확장일 수 있다. 확장은 하나 이상의 비선택적 확장 단계를 추가로 포함할 수 있다.
또 다른 측면에 따르면, 전술한 측면의 임의의 실시양태에 따른 방법에 의해 수득되거나 수득가능한 T 세포의 집단을 포함하는 조성물이 제공된다. 
또 다른 측면에 따르면, 대상체의 암 치료 또는 예방에 사용하기 위한 신항원, 신항원 특이적 면역 세포 또는 신항원을 인식하는 항체를 포함하는 조성물이 제공되고, 여기서 상기 신항원은 본 명세서에 기재된 방법을 사용하여 클론성 신항원으로 동정되었다. 
추가의 측면에 따르면, 신항원, 신항원 특이적 면역 세포 또는 신항원을 인식하는 항체를 포함하는 조성물이 제공되고, 여기서 상기 신항원은 본 명세서에 기재된 방법을 사용하여 클론성 신항원으로 동정되었다.
추가의 측면에 따르면, 신항원을 이의 표면에 발현하는 세포 또는 세포의 집단이 제공되고, 여기서 상기 신항원은 본 명세서에 기재된 방법을 사용하여 클론성 신항원으로 동정되었다. 
추가의 측면에 따르면, 대상체의 암 치료 또는 예방에 사용하기 위한 신항원, 신항원을 인식하는 면역 세포 또는 신항원을 인식하는 항체가 제공되고, 여기서 상기 신항원은 본 명세서에 기재된 방법을 사용하여 클론성 신항원으로 동정되었다. 
추가의 측면에 따르면, 대상체의 암 치료 또는 예방에 사용하기 위한 의약의 제조에서 신항원, 신항원을 인식하는 면역 세포 또는 신항원을 인식하는 항체의 용도가 제공되고, 여기서 상기 신항원은 본 명세서에 기재된 방법을 사용하여 클론성 신항원으로 동정되었다.
추가의 측면에 따르면, 암을 갖는 것으로 진단된 대상체를 치료하는 방법이 제공되고, 상기 방법은 본 명세서에 기재된 방법을 사용하여 제공된 면역요법 또는 본 명세서에 기재된 조성물을 투여하는 것을 포함한다. 
추가의 측면에 따르면, 프로세서; 및 프로세서에 의해 실행될 때에, 프로세서가 상기 제1, 제2, 제3 또는 제4 측면의 임의의 실시양태에 따른 방법과 같이 본 명세서에 기재된 임의의 방법의 단계를 수행하도록 하는 명령을 포함하는 컴퓨터 판독 가능한 매체(non-transitory computer readable media)를 포함하는 시스템이 제공된다. 
추가의 측면에 따르면, 하나 이상의 프로세서에 의해 실행될 때에, 하나 이상의 프로세서가 상기 제1, 제2, 제3 또는 제4 측면의 임의의 실시양태에 따른 방법과 같이 본 명세서에 기재된 임의의 방법의 단계를 수행하도록 하는 명령을 포함하는 하나 이상의 비-일시적 컴퓨터 판독 가능 매체가 제공된다.
추가의 측면에 따르면, 컴퓨터에서 코드가 실행될 때에, 컴퓨터가 상기 제1, 제2, 제3 또는 제4 측면의 임의의 실시양태에 따른 방법과 같이 본 명세서에 기재된 임의의 방법의 단계를 수행하도록 하는 코드를 포함하는 컴퓨터 프로그램이 제공된다.
도 1은 종양-특이적 돌연변이가 클론성일 가능성 여부를 결정하는 방법 및 클론성 신항원의 동정에서 이의 용도를 개략적으로 나타내는 순서도이다.
도 2는 면역요법을 제공하는 방법을 개략적으로 나타내는 순서도이다.
도 3 종양-특이적 돌연변이가 클론성일 가능성 여부를 결정하고/하거나 클론성 신항원을 동정하고/하거나 면역요법을 제공하기 위한 시스템의 실시양태를 나타낸다.
도 4 본 명세서에 개시된 방법에 의해 추정한 집단 구조를 개략적으로 나타낸다. 
도 5 합성 데이터를 사용하여 본 명세서에 기재된 클론성 돌연변이를 동정하는 방법의 결과를 나타낸다. 각 플롯은 상이한 최대 카피 수 및 샘플 수에 대한 ROC 곡선(수신기 작동 특성, 진 양성률(TPR=TP/(TP+FN), 여기서 TP=진 양성의 수, FN=진 음성의 수, 감수성)을 위 양성률(FPR=FP/(FP+TN), 여기서 FP=위 양성의 수, TN=진 음성의 수, 1 특이성)의 함수로서 나타내고, 3개의 개별 곡선은 각각 상이한 시뮬레이션된 판독 깊이를 나타낸다. A. 시뮬레이션 및 동정에 사용된 이항 방출 모델. B. 시뮬레이션에 사용된 베타-이항 방출 모델, 동정에 사용된 이항 모델. C. 시뮬레이션 및 동정에 사용된 베타-이항 방출 모델.  
도 6은 이배체 세포주(A) 및 이수체 세포주(B)를 사용한 세포주 혼합 실험으로부터의 데이터를 사용하여 본 명세서에 기재된 클론성 돌연변이를 동정하는 방법의 결과를 나타낸다. 각 플롯의 타이틀은 분석에 포함된 샘플을 나타낸다. 각 플롯은 본 명세서에 기재된 방법을 사용한 ROC 곡선(표지된 "ACE")을 나타내고, 단일 점을 동일한 데이터에 대해 PyClone[참조: Roth et al., 2014]을 실행했을 때에 수득된 TPR 및 FPR을 나타낸다. 
도 7 TRACERx 프로젝트의 데이터를 사용하여 본 명세서에 기재된 클론성 돌연변이를 동정하는 방법의 결과를 나타낸다. A. 분석된 데이터의 개요. 각 샘플에 대해, TRACERx 파이프라인(수동으로 큐레이팅된 PyClone 결과)을 사용하여 동정된 클론성 및 서브클론성 SNV의 수가 제시되어 있다. B. 본 명세서에 기재된 방법으로부터 예측된 유비쿼터스 확률의 분포. (좌측) 모든 ASCAT[참조: Van Loo et al., 2010] 배수체/순도 솔루션을 확률에 따라 가중치 부여로 고려했을 때의 결과. (우측) ASCAT로부터 가장 가능성이 높은 솔루션이 선택되었을 때의 결과. C. 수동으로 큐레이팅된 PyClone[참조: Roth et al., 2014] 호출을 기준 진실로서 사용하여 본 명세서에 기재된 방법의 예측 성능(확률에 따라 가중치 부여된 ASCAT로부터의 모든 가능한 솔루션을 고려하거나 고려하지 않은 경우)을 나타내는 ROC 곡선. 
도 8 본 명세서에 기재된 방법과 비교 방법 사이의 런타임 비교의 결과를 나타낸다. 비교 방법(PyClone-VI)은 계산 효율성을 위해 대폭 최적화되었지만, 병렬화될 수 없다. 본 명세서에 기재된 방법(ACE)은 광범위한 계산 효율성 최적화의 대상이 아니었지만, 설계상 더 효율적이고 병렬화가 가능하다(제시된 것은 CPU 2개, 3개 또는 4개로 구현됨).
암 치료 및 예후에서 이들의 중요성을 고려할 때, 암 환자의 클론성 돌연변이 및 신항원을 동정하는 방법에 대한 임상적 적용은 명확하다. 종양 샘플의 클론성 구조를 재구성하기 위해 다수의 방법이 제안되었다[참조: Schwartz and Schaeffer, 2017]. 그러나, 이러한 모든 접근법에는 이들의 임상적 유용성을 제한하는 다양한 단점이 있다. 따라서, 본 발명자들은 종양-특이적 돌연변이가 클론성일 가능성이 있는지를 결정하기 위한 개선된 방법이 여전히 필요하다는 것을 확인했다. 암에서 클론성 돌연변이(암의 모든 세포에 존재하는 돌연변이)를 동정하는 이 문제는 결코 사소한 문제가 아니다. 실제로, 1차 샘플은 세포(정상 세포와 암 세포를 포함)의 혼합물을 함유하고, 암 게놈은 종종 광범위하고 불균일한 카피 수 변이를 함유한다. 따라서, 돌연변이의 대립유전자 유병률은 정상 세포의 비율, 돌연변이를 갖는 종양 세포의 비율, 및 각 종양 세포에서 돌연변이의 대립유전자 카피 수를 포함하는 인자의 조합의 결과이다. 이는 임의의 실험 프로토콜과 관련된 기술적 노이즈(예: 서열분석 오류), 이들 프로토콜의 제한(예: 짧은 판독 정렬 불확실성), 및 1차 샘플이 암 상태의 부분적 스냅샷을 나타낸다는 고유한 제한에 의해 추가로 악화된다. 로쓰 등(Roth et al. (2014))은 이 문제를 해결하기 위해 베이지안(Bayesian) 클러스터링 방법("PyClone"이라고 함)을 제안하여 심도 있게 서열분석된 체세포 돌연변이의 세트를 동일한 진화 역사를 공유하는 클러스터로 그룹화하려고 시도했다. 이는 세포 유병률을 추정하고 세그먼트별 카피 수 변화 및 정상 세포 오염에 의해 도입된 대립유전자 불균형을 고려함으로써 수행된다.  
이 접근법은 명확한 통계적 프레임워크에 의해 유리하게 강조되지만, 본 발명자들은 복수의 이유로 비-연구 환경에서 사용하기에는 적합하지 않다는 것을 확인했다. 첫째, 이 접근법은 비교적 느리고 개별 돌연변이가 아닌 돌연변이의 세트(예: 심층적으로 서열분석된 돌연변이의 대규모 세트 또는 보다 최근에는 완전한 게놈)의 수준에서 작동한다. 이들 단점 모두는 이 방법이 전체 돌연변이 세트에 대한 클러스터링 구조를 추론한다는 사실의 결과이다. 따라서, 이 접근법은 암의 복수의 샘플에서 동정된 모든 돌연변이의 세트에서 각 돌연변이에 대한 세포 유병률 및 이 돌연변이 세트에 대한 클러스터링 구조를 포함하는 모델 파라미터에 대한 사후 밀도의 계산을 필요로 하는 복잡한 문제를 해결한다. 본 발명자들은 이러한 접근법이 적어도 2개 이유로 바람직하지 않다는 것을 확인했다: 전체 돌연변이 세트에 대한 클러스터링 구조가 관심이 없는 경우, 이 접근법이 불필요하게 느려지고, 이 접근법이 동시에 분석된 다른 돌연변이와 독립적으로 임상 파이프라인을 통해 임의 돌연변이의 추적을 방해한다는 것이다. 실제로, 클론성일 가능성이 있는 돌연변이를 동정하는 것은 함께 분석된 다른 돌연변이와 본질적으로 연결되어 있다. 따라서, 분석되는 돌연변이 세트에서 임의의 변경은 파이프라인을 재-실행해야 하고 잠재적으로 상이한 결과를 생성한다. 반면, 본 발명자들에 의해 제안된 접근법은 각 돌연변이를 독립적으로 분석하고, 돌연변이의 집단에 의존하는 임의 구조를 추론하지 않는다. 따라서, 본 발명자들에 의해 개발된 알고리즘의 계산 복잡성이 종래 기술(PyClone)보다 낮고, 따라서 필요한 계산 리소스(프로세서, 메모리 및/또는 네트워크 리소스)가 전체적으로 및 각 돌연변이에 대해 더 낮기 때문에 컴퓨터 기술에 명백한 개선을 제공한다. 추가로, 돌연변이 세트에 대한 처리는 돌연변이 사이의 의존성이 없기 때문에 완전히 병렬화될 수 있다. 이는 단일 돌연변이에 대한 실행에서 임의의 문제가 다른 돌연변이에 대한 실행에 영향을 미치지 않기 때문에 복잡성이 추가로 감소하고 처리 속도가 증가하며 추적성이 향상된다.  
추가로, 종래 기술의 접근법은 클러스터링 구조를 분석하고 클론성인 것으로 추정되는 돌연변이의 클러스터를 선택하고 선택한 클러스터 내에서 돌연변이의 우선순위를 부여함으로써 결과를 클론성의 지표로 변환하기 위해 전문가의 수동 개입을 필요로 한다. 마지막으로, 이 접근법은 잘못된 카피 수 솔루션이 클러스터링 결과에 크게 영향을 미치기 때문에 적절한 카피 수 추정치를 선택하기 위해 전문가의 수동 개입을 필요로 하며, 필요한 수준의 신뢰도로 카피 수를 자동으로 설정하는 접근법은 부족하다. 이러한 복수 수준의 수동 개입은 기계에 의해 더 효율적으로 수행될 수 있는 작업에 (인간) 전문가의 존재를 필요로 한다는 점에서 문제가 된다. 실제로, 카피 수 솔루션을 선택하고, 클론성인 것으로 추정되는 돌연변이의 클러스터를 선택하고, 이 클러스터 내에서 돌연변이의 우선순위를 부여하는 전문가에 의해 적용되는 프로세스는 확실하게 자동화할 수 없다. 이 프로세스는 전문 지식을 필요로 하며, 전문가의 판단에 의존하여 궁극적으로 적어도 어느 정도는 주관적인 선택을 수행해야 한다. 이는 자동화할 수 없고, 또한 프로세스에 주관성이 개입되기 때문에 확실하게 재현할 수도 없다. 반면, 본 발명의 방법에 따르면, 이러한 수동 개입이 필요하지 않다. 복수의 카피 수 솔루션 및 이들의 신뢰도를 원활하게 통합할 수 있고(수동 또는 자동으로 선택할 필요가 없음), 각 돌연변이에 대해 개별적으로 클론성의 가능성을 예측할 수 있다(따라서 돌연변이의 클러스터 또는 이 클러스터 내의 우선순위의 선택이 필요하지 않고, 예측된 가능성을 기반으로 자연적이고 예측 가능하며 재현 가능한 우선순위를 정의할 수 있음). 따라서, 클론성 돌연변이는 이전보다 확실하게 동정할 수 있고, 순수 연구를 초과하여 치료제 개발의 분야에도 활용될 수 있다. 개별 돌연변이에 대한 클론성의 가능성에 대한 신뢰할 수 있는 추정치의 이용 가능성은 암 치료제의 분야 및 암 모니터링 및 관리 분야에서 명확한 개선을 나타내고, 이는, 이들 분야에서 이러한 클론성 돌연변이의 잠재적 사용이 추정되었지만, 임상 파이프라인에 통합하기 위해 이들 돌연변이를 확실하게 동정하기 위한 도구가 부족하여 실제로 이들의 실제 사용을 방해했다.  
본 개시에서, 하기 용어가 사용되며, 하기에 명시된 바와 같이 정의하는 것으로 의도된다. 
본 명세서에서 사용되는 "샘플"은 게놈 서열분석(예: 전체 게놈 서열분석, 전체 엑솜 서열분석)과 같은 게놈 분석을 위해 게놈 물질을 수득할 수 있는 세포 또는 조직 샘플, 생물학적 체액, 추출물(예: 대상체로부터 수득된 DNA 추출물)일 수 있다. 샘플은 대상체로부터 수득된 세포, 조직 또는 생체액 샘플일 수 있다(예: 생검). 이러한 샘플은 "대상체 샘플"이라고 지칭할 수 있다. 특히, 샘플은 혈액 샘플, 또는 종양 샘플, 또는 이로부터 유래된 샘플일 수 있다. 샘플은 대상체로부터 신선하게 수득된 샘플일 수도 있고, 게놈 분석 전에 처리 및/또는 저장된 샘플일 수도 있다(예: 동결, 고정 또는 하나 이상의 정제, 풍부화 또는 추출 단계에 적용된 샘플). 샘플은 세포 또는 조직 배양 샘플일 수 있다. 따라서, 본 명세서에 기재된 샘플은 대상체로부터 수득한 생물학적 샘플 또는, 예를 들면, 세포주로부터 수득한 샘플로부터 세포 또는 이로부터 유래한 게놈 물질을 포함하는 임의 유형의 샘플을 지칭할 수 있다. 실시양태에서, 샘플은 인간 대상체와 같은 대상체로부터 수득된 샘플이다. 샘플은 바람직하게는 포유동물(예를 들면, 포유동물 세포 샘플 또는 고양이, 개, 말, 당나귀, 양, 돼지, 염소, 소, 마우스, 랫트, 래빗 또는 기니 피그와 같은 포유동물 대상체로부터의 샘플)로부터, 바람직하게는 인간(예를 들면, 인간 세포 샘플 또는 인간 대상체로부터의 샘플)으로부터의 샘플이다. 추가로, 샘플은 수송 및/또는 저장될 수 있고, 수집은 게놈 서열 데이터 획득(예를 들면, 서열분석) 위치로부터 원격 위치에서 수행될 수 있고/있거나, 본 명세서에 기재된 컴퓨터-구현 방법 단계는 샘플 수집 위치로부터 원격 위치 및/또는 게놈 데이터 획득(예를 들면, 서열분석) 위치로부터 원격 위치에서 수행될 수 있다(예를 들면, 컴퓨터-구현 방법 단계는 "클라우드" 제공자와 같은 네트워크화된 컴퓨터를 통해 수행될 수 있다).
"혼합 샘플"은 복수의 세포 유형 또는 복수 세포 유형에서 유래한 유전 물질을 포함하는 것으로 추정되는 샘플을 지칭한다. 본 개시의 문맥에서, 혼합 샘플은 통상 종양 세포를 포함하거나, 종양 세포 또는 종양 세포로부터 유래한 유전 물질을 포함하는 것으로 추정(예상)되는 샘플이다. 예를 들면, 종양 샘플과 같이 대상체로부터 수득된 샘플은 통상 혼합 샘플이다(하나 이상의 정제 및/또는 분리 단계에 적용되지 않는 한). 통상, 샘플은 종양 세포 및 적어도 하나의 다른 세포 유형(및/또는 이로부터 유래한 유전 물질)을 포함한다. 예를 들면, 혼합 샘플은 종양 샘플일 수 있다. "종양 샘플"은 종양으로부터 유래하거나 종양으로부터 수득된 샘플을 지칭한다. 이러한 샘플은 종양 세포 및 정상(비-종양) 세포를 포함할 수 있다. 정상 세포는 면역 세포(예: 림프구) 및/또는 기타 정상(비-종양) 세포를 포함할 수 있다. 이러한 혼합 샘플 중의 림프구는 "종양-침윤 림프구"(TIL)로 지칭될 수 있다. 종양은 고형 종양 또는 비-고형 또는 혈액 종양일 수 있다. 종양 샘플은 원발성 종양 샘플, 종양-관련 림프절 샘플 또는 대상체로부터 전이된 부위로부터의 샘플일 수 있다. 종양 세포 또는 종양 세포로부터 유래한 유전 물질을 포함하는 샘플은 체액 샘플일 수 있다. 따라서, 종양 세포로부터 유래한 유전 물질은 순환하는 종양 DNA 또는 엑소좀 내의 종양 DNA일 수 있다. 대신 또는 이에 추가하여, 샘플은 순환 종양 세포를 포함할 수 있다. 혼합 샘플은 유전 물질을 추출하기 위해 처리된 세포, 조직 또는 체액의 샘플일 수 있다. 생물학적 샘플로부터 유전 물질을 추출하는 방법은 당해 기술분야에 공지되어 있다. 혼합 샘플은 샘플의 복수 세포 유형 또는 샘플의 복수 세포 유형으로부터 유래한 유전 물질의 비율을 변형할 수 있는 하나 이상의 처리 단계에 적용될 수 있다. 예를 들면, 종양 세포를 포함하는 혼합 샘플은 종양 세포에서 샘플을 풍부화하기 위해 처리되었을 수 있다. 따라서, 정제된 종양 세포의 샘플은 특정 목적을 위해 샘플이 순수한 것으로 추정하더라도(즉, 종양 분율이 1 또는 100%를 갖도록), 소량의 기타 유형의 세포가 존재할 수 있다는 점을 근거로 "혼합 샘플"이라고 지칭할 수 있다.  
"종양 분획"("종양 순도" 또는 단순히 "순도" 또는 비정상 세포 분획(ACF)이라고도 함)이라는 용어는 종양 세포인 혼합 샘플 내에서 세포를 함유하는 DNA의 비율, 또는 샘플 중의 종양 및 비종양 세포로부터의 유전 물질의 특정 혼합물을 초래하는 것으로 추정되는 동등한 비율을 지칭한다. 샘플 중의 종양 분획을 결정하는 방법은 당해 기술분야에 공지되어 있다. 예를 들면, 세포 또는 조직 샘플의 문맥에서, 병리학적 슬라이드(예: 헤마톡실린 및 에오신(H&E)-염색 슬라이드 또는 기타 조직화학 또는 면역조직화학 슬라이드, 샘플의 하나 이상의 대표 영역에서 종양 세포를 계수함으로써)를 분석하거나, 유세포 분석과 같은 고처리량 분석을 사용함으로써 종양 분획을 추정할 수 있다. 유전 물질을 포함하는 샘플의 문맥에서, 종양 및 생식세포계 게놈을 분해하는 서열 분석 프로세스, 예를 들면, ASCAT(Van Loo et al., 2010), ABSOLUTE(Carter et al., 2012), 또는 ichorCNA(Adalsteinsson et al., 2017))를 사용하여 종양 분획을 추정할 수 있다. 
"정상 샘플" 또는 "생식세포계 샘플"은 종양 세포 또는 종양 세포로부터 유래한 유전 물질을 포함하지 않는 것으로 추정되는 샘플을 지칭한다. 생식세포계 샘플은 혈액 샘플, 조직 샘플 또는 대상체의 말초혈액 단핵 세포의 샘플과 같은 정제된 샘플일 수 있다. 유사하게는, 서열 또는 유전자형을 언급할 때에 "정상", "생식세포계" 또는 "야생형"이라는 용어는 종양 세포 이외의 세포의 서열/유전자형을 지칭한다. 생식세포계 샘플은 작은 비율의 종양 세포 또는 이로부터 유래한 유전 물질을 포함할 수 있으며, 그럼에도 불구하고 실제 목적상 상기 세포 또는 유전 물질을 포함하지 않는 것으로 간주될 수 있다. 즉, 모든 세포 또는 유전 물질은 정상으로 추정하고/하거나, 추정과 상용성이 없는 서열 데이터는 무시할 수 있다. 
"서열 데이터"라는 용어는 특정 서열을 갖는 샘플 중의 게놈 물질의 존재, 및 바람직하게는 게놈 물질의 양을 나타내는 정보를 지칭한다. 이러한 정보는 차세대 서열분석(NGS), 예를 들면, 전체 엑솜 서열분석(WES), 전체 게놈 서열분석(WGS) 또는 캡쳐된 게놈 유전자좌의 서열분석(표적 또는 패널 서열분석)과 같은 서열분석 기술을 사용하거나 카피 수 변동 정렬 또는 기타 분자 계수 검정과 같은 정렬 기술을 사용하여 수득할 수 있다. NGS 기술을 사용하는 경우, 서열 데이터는 특정 서열을 갖는 서열분석 판독 수의 카운트를 포함할 수 있다. 정렬 기술과 같은 비-디지털 기술을 사용하는 경우, 서열 데이터는, 예를 들면, 적절한 대조군과의 비교에 의해 특정 서열을 갖는 샘플 중의 서열의 수를 나타내는 신호(예: 강도 값)를 포함할 수 있다. 서열 데이터는 당해 기술분야에 공지된 방법(예: Bowtie(Langmead et al., 2009))을 사용하여 참조 서열(예: 참조 게놈)에 맵핑될 수 있다. 따라서, 서열분석 판독 또는 동등의 비-디지털 신호의 카운트는 특정 게놈 위치("게놈 위치"는 서열 데이터가 맵핑된 참조 게놈의 위치를 지칭함)와 연관될 수 있다. 추가로, 게놈 위치는 돌연변이를 함유할 수 있으며, 이 경우 특정 게놈 위치에서 서열분석 판독 또는 동등의 비-디지털 신호의 카운트는 가능한 각 변이체("대립유전자"라고도 함)와 연관될 수 있다. 샘플 중의 특정 위치에서 돌연변이의 존재를 동정하는 프로세스는 "변이체 호출"이라고 하며, 당해 기술분야에 공지된 방법(예: GATK HaplotypeCaller, https://gatk.broadinstitute.org/hc/en-us/articles/360037225632-HaplotypeCaller)을 사용하여 수행할 수 있다. 예를 들면, 서열 데이터는 특정 게놈 위치에서 생식세포계(종종 "참조"라고도 함) 대립유전자와 일치하는 판독 수(또는 동등의 비-디지털 신호)의 카운트 및 게놈 위치에서 돌연변이된(종종 "대체"라고도 함) 대립유전자와 일치하는 판독 수(또는 동등의 비-디지털 신호)의 카운트를 포함할 수 있다. 
추가로, 서열 데이터는 당해 기술분야에 공지된 방법을 사용하여 게놈을 따라 카피 수 프로파일을 추론하기 위해 사용될 수 있다. 카피 수 프로파일은 대립유전자 특이적일 수 있다. 본 개시의 문맥에서, 카피 수 프로파일은 바람직하게는 대립유전자 특이적이고 종양/정상 샘플 특이적이다. 즉, 본 개시에서 사용되는 카피 수 프로파일은 바람직하게는, 종양 세포와 정상 세포의 혼합물을 포함하는 샘플을 분석하고, 샘플 중의 종양 세포 및 정상 세포에 대한 대립유전자-특이적 카피 수 프로파일을 생성하도록 설계된 방법을 사용하여 수득된다. 혼합 샘플에 대한 대립유전자 특이적 카피 수 프로파일은 서열 데이터(예: 상기 기재된 판독 카운트 사용)로부터, 예를 들면, ASCAT[참조: Van Loo et al., 2010]를 사용하여 수득할 수 있다. 다른 방법도 공지되어 있으며, 동일하게 적합하다. 바람직하게는, 본 개시의 문맥에서, 대립유전자-특이적 카피 수 프로파일을 수득하기 위해 사용되는 방법은 복수의 가능한 카피 수 솔루션 및 관련 품질/신뢰도 지표를 보고하는 방법이다. 예를 들면, ASCAT은 대응하는 대립유전자-특이적 카피 수 프로파일이 평가된 배수성(세그먼트-특이적이 아닌 전체 종양 샘플에 대한 배수성) 및 순도 값의 각 조합에 대해 적합도 메트릭을 산출한다. 이러한 방법에 의해 생성된 종양-특이적 카피 수 프로파일은 전체 종양 세포 집단의 평균 또는 요약을 나타낸다(즉, 본 명세서에 기재된 신규 개발의 대상인 종양 집단 내의 불균일성을 설명하지 않음). 
"총 카피 수"라는 용어는 샘플 중의 게놈 영역의 총 카피 수를 지칭한다. "주요 카피 수"라는 용어는 샘플 중의 가장 우세한 대립유전자의 카피 수를 지칭한다. 반대로, "마이너 카피 수"라는 용어는 샘플 중의 가장 우세한 대립유전자를 제외한 대립유전자의 카피 수를 지칭한다. 달리 명시되지 않는 한, 이러한 용어는 추론된 종양 카피 수 프로파일에 대해 추론된 주요 카피 수 및 주요 카피 수(및 총 카피 수)를 지칭한다. "정상 카피 수" 또는 "정상 총 카피 수"라는 용어는 샘플 중의 정상 세포 내의 게놈 영역의 카피 수를 지칭한다. 정상 세포는 통상 각 염색체의 2개 카피를 갖고(세포가 유전적으로 남성이고 염색체가 성 염색체인 경우를 제외), 따라서 정상 카피 수는 실시양태에서 2와 동등한 것으로 추정될 수 있다(게놈 영역이 X 또는 Y 염색체 상에 존재하고, 분석 중의 샘플이 남성 대상체로부터 유래하지 않는 경우, 정상 카피 수는 1과 동등한 것으로 추정될 수 있음). 또는, 특정 게놈 영역의 정상 카피 수는 정상 샘플을 사용하여 결정할 수 있다. 
"로그 R 값"(종종 "logR", "logRR", "LLR"이라고도 함)이라는 용어는 정규화된 총 신호 강도의 척도를 지칭하며, 게놈 유전자좌에서 총 카피 수를 정량화한다. 본 개시의 문맥에서, 이 용어는 통상 종양 유전 물질을 포함하는 샘플에 대한 로그 R 값을 지칭하며, 정규화는 통상 정상 샘플(바람직하게는 일치하는 정상 샘플이지만, 또한 프로세스-일치 정상 샘플 또는 기타 적절한 정상 참조 샘플일 수도 있음)을 참조하여 수행된다. 예를 들면, NGS가 사용되는 경우, logR은 판독 심도의 정규화된 로그 변환(log(판독 심도 종양/판독 심도 정상))으로서 수득할 수 있다. "평균 B 대립유전자 빈도"(MBAF, "B 대립유전자 빈도"(BAF)라고도 함)라는 용어는 게놈 위치에서 정규화된 대립유전자 강도 비율의 척도이다. 본 개시의 문맥에서, 이 용어는 통상 종양 유전 물질을 포함하는 샘플에 대한 BAF 값을 지칭하며, 정규화는 통상 정상 샘플(바람직하게는 일치하는 정상 샘플이지만, 프로세스-일치 정상 샘플 또는 다른 적절한 정상 참조 샘플일 수도 있음)을 참조하여 수행된다. 예를 들면, BAF는 종양 대립유전자 대 정상 대립유전자에 대한 대립유전자 빈도의 비율로서 수득할 수 있다. 카피 수 프로파일은 통상 "세그먼트"라고 하는 게놈 영역에 대한 카피 수 추정치를 포함한다. 따라서, 게놈 위치와 관련된 BAF 및 logR은 특정 게놈 위치(예: 돌연변이의 게놈 위치)와 중첩하는 세그먼트의 BAF 및 logR을 지칭할 수 있다. 추가로, BAF 및 logR은 대응하는 주요 및 마이너 카피 수를 수득하기 위해 사용될 수 있다. 실시양태에서, 카피 수 메트릭 값은 종양 카피 수 프로파일 추정치 및 정상 카피 수 프로파일 추정치 모두에 대해 제공될 수 있으며, 종양 카피 수 프로파일 값만이 사용될 수도 있다.  
"종양-특이적 돌연변이", "체세포 돌연변이" 또는 단순히 "돌연변이"라는 용어는 호환적으로 사용되고, 동일한 대상체의 건강한 세포와 비교하여 종양 세포에서 뉴클레오티드 서열(예: DNA 또는 RNA)의 차이를 지칭한다. 뉴클레오티드 서열의 차이는 동일한 대상체의 건강한 세포에서는 발현되지 않는 단백질의 발현을 초래할 수 있다. 예를 들면, 돌연변이는 단일 뉴클레오티드 변이체(SNV), 다중 뉴클레오티드 변이체(MNV), 결실 돌연변이, 삽입 돌연변이, 전위, 미스센스 돌연변이, 전좌, 융합, 스플라이스 부위 돌연변이 또는 종양 세포의 유전 물질에서 임의의 기타 변화일 수 있다. 돌연변이는 동일한 대상체의 건강한 세포에는 존재하지 않는 단백질 또는 펩티드의 발현을 초래할 수 있다. 돌연변이는 엑솜 서열분석, RNA-서열분석, 전체 게놈 서열분석 및/또는 표적화된 유전자 패널 서열분석 및/또는 단일 유전자의 일상적 생어(Sanger) 서열분석에 의해 동정될 수 있으며, 이어서 서열 정렬 및 종양 샘플의 DNA 및/또는 RNA 서열을 참조 샘플 또는 참조 서열(예: 생식세포계 DNA 및/또는 RNA 서열 또는 데이터베이스의 참조 서열)의 DNA 및/또는 RNA와 비교하여 동정될 수 있다. 적절한 방법은 당해 기술분야에 공지되어 있다. 
"인델 돌연변이"는 생물의 뉴클레오티드 서열(예: DNA 또는 RNA)에서 염기의 삽입 및/또는 결실을 지칭한다. 통상, 인델 돌연변이는 생물의 DNA, 바람직하게는 게놈 DNA에서 발생한다. 실시양태에서, 인델은 1 내지 100개 염기, 예를 들면, 1 내지 90개, 1 내지 50개, 1 내지 23개 또는 1 내지 10개 염기일 수 있다. 인델 돌연변이는 프레임시프트 인델 돌연변이일 수 있다. 프레임시프트 인델 돌연변이는 하나 이상의 뉴클레오티드의 삽입 또는 결실에 의해 유발된 뉴클레오티드 서열의 판독 프레임의 변화이다. 이러한 프레임시프트 인델 돌연변이는 대상체의 대응하는 건강한 세포에서 비-돌연변이 DNA/RNA에 의해 코딩된 폴리펩티드와 통상 매우 상이한 신규 개방-판독 프레임을 생성할 수 있다.
"신항원"(또는 "신-항원")은 암 세포 내의 돌연변이의 결과로 발생하는 항원이다. 따라서, 신항원은 정상(즉, 비-종양) 세포에서는 발현되지 않는다(또는 현저히 낮은 수준으로 발현된다). 신항원은 MHC 분자의 문맥에서 제시될 때에 T 세포에 의해 인식될 수 있는 별개의 펩티드를 생성하도록 처리될 수 있다. 본 명세서에 기재된 바와 같이, 신항원은 암 면역요법의 기초로서 사용될 수 있다. 본 명세서에서 "신항원"에 대한 언급은 신항원으로부터 유래한 펩티드도 포함하도록 의도된다. 본 명세서에서 사용되는 "신항원"이라는 용어는 면역원성인 신항원의 임의 부분을 포괄하는 것으로 의도된다. 본 명세서에서 언급된 "항원성" 분자는 그 자체 또는 이의 일부가 면역계 또는 면역 세포에 적절한 방식으로 제시될 때에 면역 반응을 자극할 수 있는 분자이다. 특정 MHC 분자(특정 HLA 대립유전자에 의해 코딩됨)에 대한 신항원의 결합은 당해 기술분야에 공지된 방법을 사용하여 예측할 수 있다. MHC 결합을 예측하는 방법의 예로는 문헌[참조: Lundegaard et al., O’Donnel et al., and Bullik-Sullivan et al.]에 의해 기재된 것들이 포함된다. 예를 들면, 신항원의 MHC 결합은 netMHC-3(Lundegaard et al.) 및 netMHCpan4(Jurtz et al.) 알고리즘을 사용하여 예측할 수 있다. 특정 MHC 분자에 결합하는 것으로 예측된 신항원은 세포 표면에서 상기 MHC 분자에 의해 제시될 것으로 예측된다. 
"클론성 신항원"("트런칼 신항원"이라고도 함)은 대상체로부터 수득된 하나 이상의 샘플에서 본질적으로 모든 종양 세포에 존재하는 돌연변이(또는 샘플 중의 종양 유전 물질이 유래하는 모든 종양 세포에 본질적으로 존재하는 것으로 추정할 수 있음)로부터 발생하는 신항원이다. 유사하게는, "클론성 돌연변이"("트런칼 돌연변이"라고도 함)는 대상체로부터 하나 이상의 샘플에서 본질적으로 모든 종양 세포에 존재하는 돌연변이(또는 샘플 중의 종양 유전 물질이 유래하는 모든 종양 세포에 본질적으로 존재하는 것으로 추정할 수 있음)를 지칭한다. 따라서, 클론성 돌연변이는 대상체로부터 하나 이상의 샘플 중의 모든 종양 세포에 존재하는 돌연변이일 수 있다. "서브-클론성" 신항원은 대상체로부터 하나 이상의 종양 샘플에서 세포의 서브세트 또는 일부에 존재하는 돌연변이(또는 샘플 중의 종양 유전 물질이 유래하는 종양 세포의 서브세트에 존재하는 것으로 추정할 수 있음)로부터 발생하는 신항원이다. 유사하게는, "서브-클론성" 돌연변이는 대상체로부터 하나 이상의 종양 샘플에서 세포의 서브세트 또는 일부에 존재하는 돌연변이(또는 샘플 중의 종양 유전 물질이 유래하는 종양 세포의 서브세트에 존재하는 것으로 추정할 수 있음)이다. 신항원 또는 돌연변이는 대상체로부터 하나 이상의 샘플의 문맥에서는 클론성일 수 있지만, 대상체에 존재할 수 있는 종양 세포의 집단 전체(예: 일차 종양 및 전이의 모든 영역을 포함)의 문맥에서는 진정한 클론성이 아닐 수 있다. 따라서, 클론성 돌연변이는 대상체의 모든 종양 세포(즉, 모든 종양 세포)에 본질적으로 존재하는 돌연변이라는 의미에서 "진정한 클론성"일 수 있다. 이는 하나 이상의 샘플이 대상체에 존재하는 세포의 각각 및 모든 서브세트를 대표하지 않을 수 있기 때문이다. 따라서, 본 개시의 문맥에서, "클론성 신항원" 또는 "클론성 돌연변이"는 "유비쿼터스 신항원" 또는 "유비쿼터스 돌연변이"로도 지칭될 수 있으며, 이는 신항원이 본질적으로 분석된 모든 종양 세포에 존재하지만, 대상체에 존재할 수 있는 모든 종양 세포에는 존재하지 않을 수 있음을 나타낸다. "클론성" 및 "유비쿼터스"라는 용어는 문맥상 "진정한 클론성"에 대한 언급이 의도되었음을 나타내지 않는 한 호환적으로 사용된다. 하나 이상의 샘플 또는 대상체와 관련하여 "본질적으로 모든 종양 세포"라는 표현은 하나 이상의 샘플 또는 대상체에서 종양 세포의 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98% 또는 적어도 99%를 지칭할 수 있다. 
그럼에도 불구하고, 본 명세서에 기재된 바와 같이 클론성일 가능성(또는 "유비쿼터스")이 있는 것으로 동정된 신항원/돌연변이는 진정한 클론성일 가능성이 있거나, 적어도 클론성일 가능성이 없는 것으로 동정된 신항원/돌연변이보다 진정한 클론성일 가능성이 더 높다. 추가로, 본 명세서에서 동정된 클론성 신항원/돌연변이가 진정한 클론성일 가능성에 대한 신뢰도는 클론성 신항원/돌연변이를 동정하기 위해 사용된 샘플이 종양의 유전적 다양성에 대한 보다 완전한 그림을 캡쳐할 때에 증가한다(예: 종양의 상이한 영역으로부터의 샘플과 같은 대상체로부터의 복수의 샘플을 포함시키고/하거나, ctDNA 샘플과 같은 종양 세포의 다양성을 본질적으로 캡쳐하는 샘플을 포함시킴으로써). 반대로, 본 명세서에 기재된 바와 같이 클론성일 가능성이 낮은 것으로 동정된 신항원/돌연변이는 진정한 클론성일 가능성이 낮을 수 있는데, 이는 신항원/돌연변이가 클론성일 가능성이 낮다는 동정이 샘플링 프로세스에 의해 제공되는 제한된 관점에서도 신항원/돌연변이가 모든 종양 세포에 존재하지 않는다는 증거가 있음을 나타내기 때문이다. 따라서, 클론성 신항원/돌연변이를 동정하는 프로세스는 하나 이상의 샘플로부터 이용 가능한 대상체 종양의 클론 구조에 대한 제한된 관점에 기초하여 클론성일 가능성이 가장 높은 후보 신항원/돌연변이의 우선순위를 부여하는 것으로 볼 수 있다.  
"암 세포 분획"(또는 "CCF")이라는 용어는 돌연변이(예: 특정 신항원을 초래하는 돌연변이)를 함유하는 종양 세포의 비율을 지칭한다. 본 개시의 문맥에서, 암 세포 분획은 하나 이상의 샘플에 기초하여 추정될 수 있으며, 따라서 (상기에서 설명한 바와 같이) 대상체에서 실제 암 세포 분획과 동등하지 않을 수 있다. 그럼에도 불구하고, 하나 이상의 샘플에 기초하여 추정된 암 세포 분획은 진정한 암 세포 분획에 대한 유용한 지표를 제공할 수 있다. 추가로, 상기에서 설명한 바와 같이, 암 세포 분획을 추정하기 위해 사용된 샘플이 종양의 유전적 다양성에 대한 보다 완전한 그림을 캡쳐할 때에 이러한 추정치의 정확도가 증가할 수 있다. 게놈 데이터에서 노이즈 및 혼란 요인의 추가 공급원은 하나 이상의 샘플로부터 결정된 암 세포 분획이 추정치를 나타내는 것을 의미한다. 따라서, 진정한 클론성 돌연변이/신항원은 CCF=1이어야 하지만, 실제로는 클론성일 가능성이 높은 돌연변이/신항원은 클론성일 가능성이 낮은 돌연변이보다 더 높은 CCF 추정치(1과 동등하지 않을 수 있음)와 연관될 것으로 예상되며, 이는 더 낮은 CCF 추정치와 연관될 것으로 예상된다. 
예를 들면, 문헌[참조: Landau et al. (2013)]에 기재된 바와 같이 돌연변이 대립유전자 빈도를 카피 수 및 순도 추정치와 통합함으로써 암 세포 분획 추정치를 수득할 수 있다. 이러한 CCF 추정치는 클론성일 가능성이 있는 돌연변이를 동정하기 위해 사용될 수 있다. 예를 들면, 클론성 돌연변이는 추정된 암 세포 분획(CCF)이 ≥0.75인 돌연변이로서 정의할 수 있다(예: CCF≥0.80, 0.85. 0.90, 0.95 또는 1.0). 서브클론성 돌연변이는 CCF<0.95, 0.90, 0.85, 0.80 또는 0.75를 갖는 돌연변이로서 정의될 수 있다. 추가로, CCF 추정치는 확률을 0과 1 사이의 복수의 가능한 CCF 값 각각과 연관시키는 분포와 연관(예를 들면, 이로부터 유래)될 수 있으며, 이로부터 신뢰도에 대한 통계적 추정치가 수득될 수 있다. 예를 들면, 95% CCF 신뢰 구간이 ≥0.75인 경우, 즉 추정된 CCF의 95% 신뢰 구간의 상한이 0.75 이상인 경우, 돌연변이는 클론성 돌연변이일 가능성이 있는 것으로 정의될 수 있다. 즉, 하한치 L 및 상한치 H를 갖는 CCF의 간격이 P(L<CCF<H)=95%, H≥0.75인 경우, 돌연변이는 클론성 돌연변이일 가능성이 있는 것으로 정의할 수 있다. 또는, 암 세포 분획(CCF)이 상기 정의된 필수 값(예: 0.75 또는 0.95)에 도달하거나 이를 초과하는 기회 또는 확률이 50% 이상(예: 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 이상의 기회 또는 확률)인 경우, 돌연변이는 클론성으로서 동정될 수 있다. 즉, P(CCF>0.75)≥0.5인 경우, 돌연변이는 클론성으로 동정될 수 있다. 예를 들면, 돌연변이는 CCF가 0.95(또는 0.75 또는 기타 선택된 역치)를 초과할 사후 확률이 각각 0.5보다 크거나 작은지 여부에 따라 클론성 또는 서브클론성 가능성으로 분류될 수 있다.  
본 개시의 방법에 따르면, 하기에서 추가로 설명되는 바와 같이, 돌연변이가 클론성일 가능성이 수득된다. 이는 P(CCF=1)에 상당한다. 이러한 문맥에서, 하기에서 추가로 설명되는 바와 같이, P(CCF=1)이 역치를 초과하는 경우, 돌연변이는 클론성일 가능성이 있는 것으로 동정될 수 있다. 역치는 고정될 수 있다. 예를 들면, P(CCF=1) > 0.05인 경우, 돌연변이는 클론성일 가능성이 있는 것으로 동정될 수 있다. 또는, 역치는 조사되는 특정 돌연변이 세트에 대해 결정될 수 있다. 실시양태에서, 역치는 공지된 클론성/비-클론성 상태를 갖는 벤치마킹 데이터 세트에 기초하여 설정하여 소정 정밀도 및/또는 리콜에 도달할 수 있다. 벤치마킹 데이터 세트는 합성 데이터 및/또는 공지된 클론성 구조를 갖는 집단으로부터 수득된 데이터 세트(예: 세포주 혼합 데이터)를 사용하여 수득할 수 있다. 예를 들면, P(CCF=1) > t(여기서, t는 벤치마킹 데이터 세트에서 진정한 클론성 돌연변이의 95%(또는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%와 같은 임의의 다른 값)가 동정되는 최대치이다)(즉, 최대 5%의 위 음성률)인 경우, 돌연변이는 클론성일 가능성이 있는 것으로 동정될 수 있다. 다른 예로서, P(CCF=1) > t(여기서, t는 벤치마킹 데이터 세트에서 역치를 초과하는 돌연변이 중 최소 50%(또는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%와 같은 임의의 다른 값)가 진정한 클론성 돌연변이(즉, 적어도 50%의 진 양성률)인 최소치이다)인 경우, 돌연변이는 클론성일 가능성이 있는 것으로 동정될 수 있다. 또는, 역치는 상기 기재된 기준을 충족하는 신뢰 구간을 갖는 추정된 CCF와 연관된 임의의 돌연변이(또는 돌연변이의 특정 %)가 클론성일 가능성이 있는 것으로 선택되도록 설정될 수 있다(예: 추정된 CCF의 95% 신뢰 구간의 상한치가 0.75 이상인 것). 또는, 역치는 상기 기재된 기준을 충족하는 사후 확률 분포(예: CCF가 0.95(또는 0.75 또는 기타 선택된 역치)를 초과하는 사후 확률이 0.5초과임)를 갖는 추정된 CCF와 관련된 임의의 돌연변이(또는 돌연변이의 특정 %)가 클론성일 가능성이 있는 것으로 선택되도록 설정할 수 있다. 
암 면역요법(또는 간단히 "면역요법")은 면역원성 조성물(예: 백신), 면역 세포를 포함하는 조성물 또는 면역활성 약물(예: 치료 항체)을 대상체에게 투여하는 것을 포함하는 치료 접근법을 지칭한다. "면역요법"이라는 용어는 또한 치료 조성물 자체를 지칭할 수도 있다. 본 개시의 문맥에서, 면역요법은 통상 신항원을 표적화한다. 예를 들면, 면역원성 조성물 또는 백신은 신항원, 신항원 제시 세포 또는 신항원의 발현에 필요한 물질을 포함할 수 있다. 또 다른 예로서, 면역 세포를 포함하는 조성물은 신항원을 인식하는 T 세포 및/또는 B 세포를 포함할 수 있다. 면역 세포는 종양 또는 기타 조직(림프절, 혈액 또는 복수를 포함하지만 이들로 한정되지 않음)으로부터 단리되고, 생체외 또는 시험관내에서 확장되고, 대상체에게 재-투여될 수 있다("양자 세포 요법"이라고 하는 프로세스). 대신 또는 이에 추가하여, T 세포를 대상체로부터 단리하고, 신항원을 표적화하도록 조작하고(예: 신항원에 결합하는 키메라 항원 수용체를 삽입하여), 대상체에게 재-투여할 수 있다. 다른 예로서, 치료용 항체는 신항원을 인식하는 항체일 수 있다. 당업자는, 신항원이 세포 표면 항원인 경우, 본 명세서에 언급된 항체가 신항원을 인식한다는 것을 인지할 것이다. 신항원이 세포내 항원인 경우, 항체는 신항원 펩티드-MHC 복합체를 인식할 것이다. 본 명세서에서 언급된 바와 같이, 신항원을 "인식"하는 항체는 이들 가능성 둘 다를 포함한다. 추가로, 면역요법은 복수의 신항원을 표적화할 수 있다. 예를 들면, 면역원성 조성물은 복수의 신항원, 복수의 신항원을 제시하는 세포 또는 복수의 신항원의 발현에 필요한 물질을 포함할 수 있다. 또 다른 예로서, 조성물은 복수의 신항원을 인식하는 면역 세포를 포함할 수 있다. 유사하게는, 조성물은 동일한 신항원을 인식하는 복수의 면역 세포를 포함할 수 있다. 또 다른 예로서, 조성물은 복수의 신항원을 인식하는 복수의 치료용 항체를 포함할 수 있다. 유사하게는, 조성물은 동일한 신항원을 인식하는 복수의 치료용 항체를 포함할 수 있다. 
본 명세서에 기재된 조성물은 약제학적으로 허용되는 담체, 희석제 또는 부형제를 추가로 포함하는 약제학적 조성물일 수 있다. 약제학적 조성물은 임의로 하나 이상의 추가 약제학적 활성 폴리펩티드 및/또는 화합물을 포함할 수 있다. 이러한 제형은, 예를 들면, 정맥 주입에 적합한 형태일 수 있다.
"면역 세포"에 대한 언급은 면역계의 세포, 예를 들면, T 세포, NK 세포, NKT 세포, B 세포 및 수지상 세포를 포함하도록 의도된다. 바람직한 실시양태에서, 면역 세포는 T 세포이다. 신항원을 인식하는 면역 세포는 조작된 T 세포일 수 있다. 신항원 특이적 T 세포는 키메라 항원 수용체(CAR) 또는 신항원 또는 신항원 펩티드에 특이적으로 결합하는 T 세포 수용체(TCR), 또는 신항원 또는 신항원 펩티드에 특이적으로 결합하는 친화성-증강 T 세포 수용체(TCR)를 발현할 수 있다(이하에서 추가로 설명한다). 예를 들면, T 세포는 키메라 항원 수용체(CAR) 또는 신항원 또는 신항원 펩티드에 특이적으로 결합하는 T 세포 수용체(TCR)를 발현할 수 있다(예를 들면, 신항원 또는 신항원 펩티드에 특이적으로 결합하는 친화성 증강 T 세포 수용체(TCR)). 또는, 신항원을 인식하는 면역 세포의 집단은 종양을 갖는 대상체로부터 단리된 T 세포의 집단일 수 있다. 예를 들면, T 세포 집단은 종양 샘플, 말초 혈액 샘플 또는 대상체의 다른 조직으로부터의 샘플과 같이 대상체로부터 단리된 샘플 중의 T 세포로부터 생성될 수 있다. T 세포 집단은 신항원이 동정된 종양의 샘플로부터 생성될 수 있다. 즉, T 세포 집단은 치료되는 환자의 종양으로부터 유래하는 샘플로부터 단리될 수 있으며, 여기서 신항원은 상기 종양의 샘플로부터도 동정될 수 있다. T 세포 집단은 종양 침윤 림프구(TIL)를 포함할 수 있다. 
"항체"(Ab)라는 용어는 모노클로날 항체, 폴리클로날 항체, 다중특이적 항체(예: 이중특이적 항체) 및 원하는 생물학적 활성을 나타내는 항체 단편을 포함한다. "면역글로불린"(Ig)이라는 용어는 "항체"와 호환적으로 사용될 수 있다. 예를 들면, 본 개시에 따른 방법에 의해 적합한 신항원이 동정되면, 당해 기술분야에 공지된 방법을 사용하여 항체를 생성할 수 있다.
"면역원성 조성물"은 대상체에서 면역 반응을 유도할 수 있는 조성물이다. 이 용어는 "백신"이라는 용어와 호환적으로 사용된다. 본 명세서에 기재된 면역원성 조성물 또는 백신은 대상체에서 면역 반응의 생성을 유도할 수 있다. 생성될 수 있는 "면역 반응"은 체액성 및/또는 세포-매개 면역성, 예를 들면, 항체 생산의 자극 또는 세포독성 또는 킬러 세포의 자극일 수 있으며, 이는 이들의 표면에서 백신의 항원에 대응하는 항원을 발현하는 세포를 인식하고 파괴(또는 다르게는 제거)할 수 있다. 면역원성 조성물은 하나 이상의 신항원 또는 하나 이상의 신항원의 발현에 필요한 물질을 포함할 수 있다. 또한, 신항원은 항원 제시 세포, 예를 들면, 수지상 세포와 같은 세포의 형태로 전달될 수 있다. 수지상 세포와 같은 항원 제시 세포는 신항원 또는 신항원 펩티드로 펄스 처리 또는 로딩되거나, 1, 2 또는 그 이상의 신항원 또는 신항원 펩티드, 예를 들면, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개의 신항원 또는 신항원 펩티드를 발현하도록 유전적으로 변형(DNA 또는 RNA 전달을 통해)될 수 있다. 수지상 세포 면역원성 조성물 또는 백신을 제조하는 방법은 당해 기술분야에 공지되어 있다.
신항원 펩티드는 당해 기술분야에 공지된 방법을 사용하여 합성될 수 있다. "펩티드"라는 용어는 통상의 의미에서 인접한 아미노산의 α-아미노 그룹과 카복실 그룹 사이의 펩티드 결합에 의해 서로 연결된 일련의 잔기, 통상 L-아미노산을 의미하는 것으로 사용된다. 이 용어에는 변형 펩티드 및 합성 펩티드 유사체가 포함된다. 신항원 펩티드는 펩티드 내의 임의의 잔기 위치에서 암 세포 특이적 돌연변이(예: 단일 뉴클레오티드 변이체(SNV)에 의해 코딩된 비침묵성 아미노산 치환)를 포함할 수 있다. 예를 들면, MHC 클래스 I 분자에 결합할 수 있는 펩티드의 길이는 통상 7 내지 13개 아미노산이다. 따라서, 아미노산 치환은 13개 아미노산을 포함하는 펩티드에서 위치 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 또는 13에 존재할 수 있다. 실시양태에서, 더 긴 펩티드, 예를 들면, 21-31-머가 사용될 수 있고, 돌연변이는 임의의 위치, 예를 들면, 펩티드의 중심, 예를 들면, 위치 10, 11, 12, 13, 14, 15 또는 16에 존재할 수 있다. 이러한 펩티드는 또한 CD4 및 CD8 세포를 자극하여 신항원을 인식하는 데 사용될 수 있다.
본 명세서에서 사용되는 바와 같이, "치료"는 치료 전의 증상과 비교하여 치료되는 질환의 하나 이상의 증상을 감소, 완화 또는 제거하는 것을 지칭한다. "예방(prevention)"(또는 예방(prophylaxis))은 질환의 증상 발증을 지연시키거나 예방하는 것을 지칭한다. 예방은 절대적일 수도 있고(질환이 발생하지 않도록), 일부 개인에게만 또는 제한된 기간 동안만 효과적일 수도 있다.
본 명세서에서 사용되는 바와 같이, "컴퓨터 시스템"이라는 용어는 시스템을 구현하거나 상술한 실시양태에 따른 방법을 수행하기 위한 하드웨어, 소프트웨어 및 데이터 저장 장치를 포함한다. 예를 들면, 컴퓨터 시스템은 중앙 처리 장치(CPU), 입력 수단, 출력 수단 및 데이터 저장소를 포함할 수 있으며, 이는 하나 이상의 접속된 컴퓨팅 장치로서 구현될 수 있다. 바람직하게는, 컴퓨터 시스템은 디스플레이를 포함하거나, 시각적 출력 디스플레이를 제공하기 위해 디스플레이를 갖는 컴퓨팅 장치를 포함한다(예: 비즈니스 프로세스의 설계에서). 데이터 저장소는 RAM, 디스크 드라이브 또는 기타 비일시적 컴퓨터 판독 가능 미디어를 포함할 수 있다. 컴퓨터 시스템은 네트워크에 의해 연결되고 해당 네트워크를 통해 서로 통신할 수 있는 복수의 컴퓨팅 장치를 포함할 수 있다. 컴퓨터 시스템은 클라우드 컴퓨터로 구성되거나 이를 포함할 수 있다는 것이 명시적으로 예상된다. 
본 명세서에서 사용되는 "컴퓨터 판독 가능 미디어"라는 용어는 컴퓨터 또는 컴퓨터 시스템에서 직접 읽고 액세스할 수 있는 임의의 비일시적 매체 또는 미디어를 포함하지만 이들로 한정되지 않는다. 이러한 매체에는 플로피 디스크, 하드 디스크 저장 매체 및 자기 테이프와 같은 자기 저장 매체; 광 디스크 또는 CD-ROM과 같은 광 저장 매체; RAM, ROM 및 플래시 메모리를 포함한 메모리와 같은 전기 저장 매체; 및 자기/광 저장 매체와 같은 상기 매체들의 하이브리드 및 조합이 포함될 수 있지만 이들로 한정되지 않는다.
클론성 돌연변이의 동정
본 개시는 종양 세포 또는 이로부터 유래된 유전 물질을 포함하는 하나 이상의 샘플로부터의 서열 데이터를 사용하여 종양-특이적 돌연변이가 클론성일 가능성이 있는지를 결정하는 방법을 제공한다. 또한, 본 개시는 하나 이상의 종양-특이적 돌연변이가 클론성일 가능성이 있는지를 결정하는 것을 포함하는 클론성 신항원을 동정하는 방법을 제공한다. 예시적 방법은 도 1 참조하여 설명될 것이다. 임의 단계(10)에서, 종양으로부터 게놈 물질을 포함하는 샘플을 대상체로부터 수득할 수 있다. 샘플은 통상 종양 세포를 포함하는 복수의 세포 유형으로부터의 게놈 물질을 포함하는 혼합 샘플이다. 바람직하게는, 종양 세포의 게놈 물질을 포함하지 않거나 정상 세포로부터의 게놈 물질을 추출할 수 있는 일치하는 샘플을 수득하거나 이전에 수득했을 수 있다. 일치 샘플은 종양 샘플과 동일한 대상체로부터 수득된 샘플이다. 일치하는 정상 샘플의 사용은 종양 샘플에서 동정된 임의의 변이체 위치가 일치하는 정상 샘플의 변이체 위치와 비교하여 생식세포계 변이체를 배제할 수 있기 때문에 체세포(종양-특이적) 돌연변이 호출의 정확성을 향상시킬 수 있다. 동일한 일치 정상 샘플을 사용하여 대상체로부터 복수의 종양 샘플을 분석할 수 있다. 추가로, 일치하는 샘플 및 하나 이상의 종양 샘플은 상이한 시간에 수득되었을 수 있다. 예를 들면, 제1 종양 샘플 및 일치하는 샘플은 종양의 진단 또는 절제 시점에 수득되었을 수 있으며, 추가 종양 샘플은 이후 시점에 수득되어 초기 일치하는 샘플과 함께 분석될 수 있다. 일치하는 샘플을 이용할 수 없는 경우, 일반적 체세포 변이체를 포함한 참조 샘플 또는 게놈을 사용할 수 있다. 또는, 동일한 대상체로부터 수득되지 않았거나 대상체의 풀로부터 수득되었을 수 있는 처리된 일치 정상 샘플을 사용할 수도 있다. 
임의 단계(12)에서, 하나 이상의 혼합 샘플 및 임의로 일치된 샘플의 서열 함량은, 예를 들면, 전체 엑솜 서열분석 또는 전체 게놈 서열분석 중 하나를 사용하여 샘플 중의 게놈 물질을 서열분석함으로써 결정될 수 있다. 예를 들면, 대립유전자-특이적 카피 수 정렬과 같은 대체 방법이 사용될 수 있지만, 서열분석 방법은 샘플 중의 각 특정 서열의 수를 나타내는 디지털 출력을 생성하기 때문에 선호된다. 임의 단계(14)에서, 서열 데이터를 분석하여, 종양 세포에는 존재하지만 비-암 세포에는 존재하지 않을 가능성이 있는 하나 이상의 돌연변이를 동정할 수 있다. 이러한 돌연변이는 종양-특이적 돌연변이를 나타내고, 후보 신항원으로 사용될 수 있다. 이는 하나 이상의 샘플(즉, 혼합 샘플 및 생식세포계 샘플(가능한 경우))로부터의 서열을 정렬하고, 종양의 서열이 생식세포계 서열과 상이하거나 생식세포계 서열과 상이할 것으로 추정할 수 있는 게놈 위치를 동정하는 단계를 포함할 수 있다(예: 대상체의 생식세포계 서열을 사용할 수 없는 경우). 
단계(16)에서, 후보 종양-특이적 돌연변이의 게놈 위치에서 혼합 샘플에 대한 서열 데이터가 수득되며, 이는 돌연변이 대립유전자("비-참조 대립유전자"라고도 함)를 서포트하는 판독 카운트, 게놈 위치에서 생식세포계 대립유전자(들)를 서포트하는 판독 카운트(A, 총칭하여 "생식세포계 대립유전자"라고 함, 생식세포계 집단에서 당해 위치가 헤테로접합성인 경우, "참조", "야생형" 또는 "정상" 대립유전자라고도 함), 및/또는 후보 종양-특이적 돌연변이의 게놈 위치에서 총 판독 카운트를 포함한다. 제3 메트릭은 이 중 2개 메트릭에서 추론할 수 있기 때문에, 이들 메트릭 중 2개 메트릭만 수득할 필요가 있다. 서열 데이터는, 대신 또는 이에 추가하여, 카운트가 수득될 수 있는 판독 데이터 또는 강도 데이터를 포함할 수 있다. 임의 단계(18)에서, 종양-유전 물질을 포함하는 각 샘플과 상용성이 있는 적어도 하나의 카피 수 솔루션에 대한 정보가 수득될 수 있다. 이 정보는 주요 카피 수, 마이너 카피 수, 총 카피 수, 평균 B 대립유전자 빈도, 로그 R 값 및 종양 배수성 및 정상 카피 수로부터 선택된 샘플의 종양 분획에 대한 대립유전자-특이적 카피 수 메트릭 또는 이러한 대립유전자-특이적 카피 수 메트릭과 상용성이 있는 후보 공동 유전자형 세트와 같은 이러한 메트릭으로부터 유래하는 정보를 포함할 수 있다. 이러한 대립유전자-특이적 카피 수 메트릭 중 일부는 중복 정보를 포함하거나 적절한 디폴트 값과 연관될 수 있기 때문에, 이러한 모든 대립유전자-특이적 카피 수 메트릭이 필요한 것은 아니다. 예를 들면, 정상 카피 수는 상기 설명한 바와 같이 적절한 디폴트 값과 연관될 수 있다. 추가로, 제3 카피 수를 추론하기 위해서는 주요 카피 수, 총 카피 수, 및 마이너 카피 수 중 2개만이 필요하다. 유사하게는, 이들 3개 값은 MBAF 및 logR 값으로부터 추론할 수 있으며, 그 반대의 경우도 마찬가지이다. 임의로, 카피 수 솔루션은 대응하는 신뢰도 메트릭과 연관될 수 있다. 이러한 메트릭을 이용할 수 없는 경우, 각 카피 수 솔루션은 동등한 가능성이 있다고 추정할 수 있다. 각 후보 공동 유전자형은 정상 집단에 대한 종양-특이적 돌연변이 위치에서의 유전자형, 종양-특이적 돌연변이를 포함하지 않는 참조 종양 집단 및 종양-특이적 돌연변이를 포함하는 변이체 종양 세포 집단을 포함한다. 
단계(20)에서, 종양-특이적 돌연변이가 클론성일 확률은, 하나 이상의 샘플 및 하나 이상의 후보 공동 유전자형 각각에 대한 종양 분획의 관점에서, 돌연변이가 클론성일 사전 확률 및 종양-특이적 돌연변이가 (i) 클론성 및 (ii) 비-클론성인 경우에 서열 데이터를 관찰하는 확률에 의존하여 사후 확률로서 결정된다. 사전 확률은 일부 증거가 고려되기 전에 양에 관한 신념을 나타내는 확률이다. 본 문맥에서, 돌연변이가 클론성일 사전 확률은 종양에서 돌연변이가 클론성일 확률을 나타낼 수 있으며, 이는 사전 지식 또는 가정을 기반으로 하며, 혼합 샘플로부터의 서열 데이터를 고려하지 않는다. 단계(22)에서, 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지를 결정한다. 예를 들면, 돌연변이가 생식세포계 세포(게놈에 돌연변이가 포함되지 않은 세포)에 의해 발현되지 않는 펩티드 또는 단백질을 초래할 가능성이 있는지 여부가 결정될 수 있다. 이 단계는 단계(14) 이후의 임의 시점에서 수행될 수 있으며, 특히 단계(16 내지 20) 이후에 수행할 필요는 없다. 예를 들면, 후보 종양-특이적 돌연변이는 종양-특이적 돌연변이가 클론성일 가능성이 있는지 여부를 결정하기 전에 신항원을 생성할 가능성이 있는지 여부에 따라 필터링될 수 있다. 단계(24)에서, 단계(20)의 결과에 적용되는 하나 이상의 기준 및 단계(22)의 결과에 적용되는 하나 이상의 기준을 충족하는 종양-특이적 돌연변이가 동정될 수 있다. 이들은 후보 클론성 신항원을 나타내는 것으로 간주될 수 있다. 임의 단계(26)에서, 이전 단계들(특히 단계(20) 내지 (24))의 결과는, 예를 들면, 사용자 인터페이스를 통해 사용자에게 제공될 수 있다. 이러한 결과는, 예를 들면, 하기 추가로 설명되는 바와 같이, 대상체에 대한 면역요법 또는 예후를 제공하기 위해 사용될 수 있다.
 
적용
상기 방법은 암 진단, 예후 및 치료용 접근법의 문맥에서 응용할 수 있다. 특히, 상기 방법은 클론성 신항원을 표적화하는 면역요법을 제공하기 위해 사용될 수 있다. 따라서, 본 명세서에는 대상체에 대한 면역 요법을 제공하는 방법도 기재되는데, 이 방법은 대상체로부터 하나 이상의 샘플로부터 하나 이상의 클론성 신항원을 동정하는 것을 포함한다.
도 2 면역요법을 제공하는 예시적 방법을 개략적으로 도시하고 있다. 임의 단계(210)에서, 종양 유전 물질 및 하나 이상의 생식세포계 샘플을 포함하는 하나 이상의 샘플이 대상체로부터 수득된다. 대상체는 암을 갖는 것으로 진단된 대상체일 수 있으며, 면역요법이 제공되는 대상체와 동일할 수 있다(반드시 그럴 필요는 없음). 단계(212)에서, 후보 클론 신항원의 리스트는, 예를 들면, 도 1을 참조하여, 본 명세서에 기재된 방법을 사용하여 수득된다. 이 목록은 단일 신항원 또는 복수의 신항원을 포함할 수 있다. 바람직하게는, 리스트는 복수의 신항원을 포함한다. 단계(214)에서, 후보 신항원 중 적어도 하나(및 임의로 복수의 신항원)를 표적화하는 면역요법이 설계된다. 이러한 면역요법의 설계는 후보 클론 신항원 각각에 대해 하나 이상의 후보 펩티드를 동정하는 것을 포함할 수 있다(단계(214A)). 예를 들면, 복수의 펩티드는 후보 클론성 신항원 중 적어도 하나에 대해 설계될 수 있으며, 이는 이들의 길이 및/또는 대응하는 생식세포계 펩티드와 비교하여 신항원을 특성화하는 서열 변이의 위치가 상이할 수 있다. 단계(214B)에서, 동정된 하나 이상의 펩티드는 시험관내 및/또는 실리코에서 시험되어, 이들의 면역원성, MHC 분자에 의해 표시될 가능성 등과 같은 하나 이상의 특성을 평가할 수 있다. 임의 단계(214C)에서, 예를 들면, 단계(214B)의 결과에 기초하여 하나 이상의 펩티드가 선택될 수 있다. 
단계(216)에서, 선택된 펩티드가 수득될 수 있다. 선택된 서열을 갖는 펩티드는, 예를 들면, 발현 시스템을 사용하거나 직접 합성과 같은 당해 기술분야에 공지된 임의의 방법을 사용하여 수득할 수 있다. 단계(218)에서, 면역요법은 하나 이상의 후보 펩티드를 사용하여 생성될 수 있다. 면역요법은 하나 이상의 후보 펩티드 또는 이들의 발현에 충분한 물질(예를 들면, 면역원성 조성물 또는 백신의 경우)을 포함하거나, 후보 펩티드를 사용하여 수득된 분자 또는 세포(예를 들면, 후보 펩티드에 선택적으로 결합하는 치료 항체 또는 후보 펩티드를 특이적으로 인식하는 면역 세포의 경우)를 포함할 수 있다. 임의 단계(220)에서, 면역요법은 대상체(바람직하게는 클론성 신항원을 동정하기 위해 사용된 샘플이 수득되는 대상체)에게 투여될 수 있다. 하나 이상의 클론성 신항원을 인식하는 T 세포가 선택적으로 풍부화된 T 세포 집단을 포함하는 면역요법을 생성하는 예가 기재될 것이다. 단계(218A)에서, T 세포의 집단이 수득될 수 있다. T 세포는 치료되는 대상체로부터 수득할 수 있지만, 반드시 그럴 필요는 없다. T 세포는 종양 샘플, 혈액 샘플 또는 임의의 다른 조직 샘플로부터 수득될 수 있다. 단계(218B)에서, 수지상 세포의 집단이 수득될 수 있다. 예를 들면, 수지상 세포의 집단은 치료되는 대상체로부터 단핵 세포(예를 들면, 말초 혈액 단핵 세포, PBMC)로부터 유래될 수 있다. 단계(218C)에서, 수지상 세포의 집단은 후보 펩티드로 펄스 처리될 수 있다. 단계(218D)에서, 펄스 처리된 수지상 세포의 집단을 사용하여 T 세포 집단을 선택적으로 확장할 수 있다. 예를 들면, 사이토카인 또는 자극 항체와 같은 추가 확장 인자가 사용될 수 있다. 
따라서, 본 개시는 또한 하나 이상의 클론성 신항원을 인식하는 T 세포가 선택적으로 풍부화된 T 세포 집단을 포함하는 T 세포 조성물을 제공하고, 여기서 하나 이상의 클론성 신항원은 본 명세서에 기재된 임의의 방법을 사용하여 동정되었다. 
본 명세서에 기재된 바와 같은 T 세포 조성물에서, 신항원-반응성 T 세포의 확장된 집단은, 신항원 펩티드에 의한 재자극에 대한 T 세포 집단의 반응에 의해 측정되는 바와 같이, 확장되지 않은 T 세포의 집단보다 더 높은 활성을 가질 수 있다. 활성은 사이토카인 생성에 의해 측정될 수 있으며, 여기서 높은 활성은 5 내지 10배 이상의 활성의 증가이다.
복수의 클론성 신항원에 대한 언급은, 신항원을 생성시키는 상이한 종양-특이적 돌연변이를 각각 포함하는 복수의 펩티드 또는 단백질을 지칭할 수 있다. 상기 복수는 2 내지 250개, 3 내지 200개, 4 내지 150개, 또는 5 내지 100개의 종양-특이적 돌연변이, 예를 들면, 5 내지 75개 또는 10 내지 50개의 종양-특이적 돌연변이일 수 있다. 각각의 종양-특이적 돌연변이는 하나 이상의 클론성 신항원 펩티드에 의해 표시될 수 있다. 즉, 복수의 클론성 신항원은 복수의 상이한 펩티드를 포함할 수 있으며, 그 중 일부는 동일한 종양-특이적 돌연변이를 포함하는 서열(예를 들면, 펩티드의 서열 내의 상이한 위치 또는 상이한 길이의 펩티드 내)을 포함할 수 있다.
본 개시에 따라 생성되는 T 세포 집단은 클론성일 것으로 예측되는 하나 이상의 신항원을 표적화하는 T 세포의 수 또는 비율을 증가시킬 것이다. 즉, 클론성일 것으로 예측되는 신항원을 표적화하는 T 세포의 증가된 비율 또는 비율을 갖는다는 점에서, T 세포 집단의 조성은 "네이티브" T 세포 집단(즉, 본 명세서에서 논의되는 확장 단계를 겪지 않은 집단)의 조성과 상이할 것이다. 본 개시에 따른 T 세포 집단은 클론성일 것으로 예측되는 신항원을 표적화하는 적어도 약 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 또는 100% T 세포를 가질 수 있다.
본 명세서에 기재된 면역요법은 암 치료에 사용될 수 있다. 따라서, 본 개시는 또한 대상체에게 본 명세서에 기재된 면역요법 조성물을 투여하는 것을 포함하는 대상체에서 암을 치료하는 방법을 제공한다.  
또한, 클론성 신항원의 존재는 암의 예후 개선과 관련되는 것으로 밝혀졌다. 따라서, 본 명세서에는 암을 갖는 것으로 진단된 대상체에 대한 예후를 제공하는 방법도 기재되어 있으며, 이 방법은 대상체로부터 하나 이상의 종양 샘플 중의 클론성 신항원의 분획 및/또는 수를 결정하는 것을 포함한다.
적절하게는, 본 명세서에 기재된 임의의 측면의 임의의 실시양태에서, 암은 난소암(ovarian cancer), 유방암(breast cancer), 자궁내막암(endometrial cancer), 신장암(kidney cancer)(신장 세포), 폐암(lung cancer)(소세포, 비소세포 및 중피종(mesothelioma)), 뇌암(brain cancer)(신경교종(brain cancer), 성상세포종(astrocytomas), 교모세포종(glioblastomas)), 흑색종(melanoma), 메르켈 세포 암종(merkel cell carcinoma), 투명 세포 신세포 암종(clear cell renal cell carcinoma; ccRCC), 림프종(lymphoma), 소장암(small bowel cancers)(십이지장암(duodenal) 및 공장암(jejunal)), 백혈병(leukemia), 췌장암(pancreatic cancer), 간담도 종양(hepatobiliary tumours), 생식 세포 암(germ cell cancers), 전립선암(prostate cancer), 두경부암(head and neck cancers), 갑상선암(thyroid cancer) 및 육종(sarcomas)일 수 있다. 예를 들면, 암은 폐 선암(lung adenocarcinoma) 또는 폐 편평상피-세포암(lung squamous-cell carcinoma)과 같은 폐암(lung cancer)일 수 있다. 다른 예로서, 암은 흑색종(melanoma)일 수 있다. 실시양태에서, 암은 흑색종(melanoma), 메르켈 세포 암종(merkel cell carcinoma), 신장암(renal cancer), 비소세포 폐암(non-small cell lung cancer; NSCLC), 방광의 요로상피암종(urothelial carcinoma of the bladder; BLAC) 및 두경부 편평 세포 암종(head and neck squamous cell carcinoma; HNSC) 및 미세위성 불안정성(microsatellite instability; MSI)-높은 암으로부터 선택될 수 있다. 일부 실시양태에서, 암은 비-소세포 폐암(NSCLC)이다. 다른 실시양태에서, 암은 흑색종이다.
본 개시의 조성물 및 방법을 이용한 치료는 또한 순환 종양 세포 및/또는 종양으로부터 유래된 전이를 표적화하는 것을 포함할 수 있다. 하나 이상의 신항원을 표적화하는 본 개시에 따른 치료는 화학요법, 방사선요법 또는 비-특이적 면역요법과 같은 표준 접근법에서 발생할 수 있는 치료 내성 종양 세포의 진화를 방지하는 데 도움이 될 수 있다. 본 명세서에 기재된 암의 치료 방법 및 용도는 추가 암 요법과 조합하여 실시할 수 있다. 특히, 본 명세서에 기재된 T 세포 조성물은 면역 체크포인트 개입, 공-자극 항체, 화학요법 및/또는 방사선요법, 표적화 요법 또는 모노클로날 항체 요법과 조합하여 투여될 수 있다. "조합하여"는 본 명세서에 기재된 바와 같이 T 세포 조성물의 투여 전, 투여와 동시에 또는 투여 후에 추가 요법의 투여를 지칭할 수 있다.
본 개시는 또한 면역요법 조성물을 제조하는 방법을 제공하며, 이 방법은 클론성일 가능성이 있는 신항원을 동정하고 신항원을 표적화하는 면역요법 조성물을 생성하는 것을 포함한다.  
또한, 본 명세서에는 암을 갖는 것으로 진단된 대상체를 치료하는 방법이 기재되어 있으며, 이 방법은 대상체에서 복수의 종양-특이적 돌연변이를 동정함으로써 하나 이상의 클론성 신항원을 동정하는 단계; 하나 이상의 상기 종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지 여부를 결정하는 단계; 하나 이상의 상기 종양-특이적 돌연변이를 후보 클론성 신항원으로서 선택하는 단계(여기서, 후보 클론성 신항원은 종양-특이적 돌연변이가 클론성일 가능성이 있는지에 대한 적어도 하나 이상의 소정 기준을 충족하는 종양-특이적 돌연변이이다); 및 하나 이상의 선택된 후보 클론성 신항원을 표적화하는 면역요법으로 대상체를 치료하는 단계를 포함하고; 여기서, 종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지를 결정하는 것은 본 명세서에 기재된 방법을 사용하여 수행된다. 특히, 종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지 여부를 결정하는 것은, 프로세서에 의해, 종양 유전 물질을 포함하는 대상체로부터 하나 이상의 샘플로부터 서열 데이터를 수득하는 단계(여기서, 상기 서열 데이터는, 하나 이상의 샘플 각각에 대해, 종양-특이적 돌연변이를 나타내는 샘플의 판독 수(db), 대응하는 생식세포계 대립유전자를 나타내는 샘플의 판독 수 및 종양-특이적 돌연변이의 위치에서의 총 판독 수(d) 중 적어도 2개를 포함한다), 및 프로세서에 의해, 종양-특이적 돌연변이가 클론성일 가능성을, 돌연변이가 클론성일 사전 확률, 및 하나 이상의 샘플 각각에 대한 종양 분획, 및 정상 집단, 종양-특이적 돌연변이를 포함하지 않는 참조 종양 집단 및 종양-특이적 돌연변이를 포함하는 변이체 종양 세포 집단에 대한 종양-특이적 돌연변이의 위치에서 각각 유전자형을 포함하는 하나 이상의 후보 공동 유전자형의 관점에서 종양-특이적 돌연변이가 (i) 클론성 및 (ii) 비-클론성인 경우에 서열 데이터를 관찰하는 확률에 의존하여 사후 확률로서 결정하는 단계를 포함한다. 
후보 클론 신항원은 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지에 대한 적어도 하나 이상의 소정 기준을 추가로 충족시키는 종양-특이적 돌연변이로서 선택될 수 있다. 상기 프로세서에 의해, 하나 이상의 종양-특이적 돌연변이를 후보 클론성 신항원으로 선택하는 단계는 하나 이상의 종양-특이적 돌연변이가, 종양 세포에서 발현되는 발현 산물과 연관되는 돌연변이, 대상체의 정상 세포에서 발현되지 않는 단백질 또는 펩티드를 초래할 것으로 예측되는 돌연변이, MHC 분자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래할 것으로 예측되는 돌연변이, 대상체에 존재하는 것으로 공지된 MHC 대립유전자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래할 것으로 예측되는 돌연변이, 및 면역원성인 단백질 또는 펩티드를 초래할 것으로 예측되는 돌연변이로부터 선택된 신항원을 생성할 가능성이 있는지 여부에 대한 하나 이상의 기준을 충족하는지를 결정하는 것을 포함할 수 있다. 상기 프로세서에 의해, 하나 이상의 종양-특이적 돌연변이를 후보 클론성 신항원으로 선택하는 단계는, 상기 프로세서에 의해, 하나 이상의 종양-특이적 돌연변이가, 소정 역치 초과로 클론성일 가능성이 있는 돌연변이, 상기 가능성이 결정된 종양-특이적 돌연변이들 중에서 클론성일 가능성이 가장 높은 소정 수의 종양-특이적 돌연변이를 선택하도록 적응적으로 설정된 역치 초과로 클론성일 가능성이 있는 돌연변이, 및 상기 가능성이 결정된 종양-특이적 돌연변이 중에서 소정 상위 백분위수의 종양-특이적 돌연변이를 선택하도록 적응적으로 설정된 역치 초과인 클론성일 가능성이 있는 돌연변이로부터 선택된, 종양-특이적 돌연변이가 클론성일 가능성이 있는지에 대한 하나 이상의 소정 기준을 충족시키는지 여부를 결정하는 단계를 포함할 수 있다.
하나 이상의 선택된 클론성 신항원을 표적화하는 면역요법은 면역원성 조성물, 면역 세포를 포함하는 조성물 또는 치료용 항체일 수 있다. 면역요법은 동정된 하나 이상의 선택된 클론성 신항원 중 적어도 하나를 인식하는 T 세포를 포함하는 조성물일 수 있다. 상기 조성물은 동정된 하나 이상의 선택된 클론성 신항원 중 적어도 하나를 표적화하는 T 세포를 위해 풍부화될 수 있다. 이 방법은, 동정된 하나 이상의 선택된 클론성 신항원 중 적어도 하나를 표적화하는 T 세포의 수 또는 상대적 비율을 증가시키기 위해, T 세포의 집단을 수득하고, T 세포의 집단을 확장하는 단계를 포함할 수 있다. 
시스템
도 3 본 개시에 따라 종양-특이적 돌연변이가 클론성일 가능성이 있는지 여부를 결정하고/하거나, 클론성 신항원을 동정하고/하거나, 적어도 부분적으로 동정된 클론성 신항원에 기초하여 예후를 제공하거나 면역요법을 제공하기 위한 시스템의 실시양태를 나타낸다. 시스템은 프로세서(101) 및 컴퓨터 판독 가능 메모리(102)를 포함하는 컴퓨팅 장치(1)를 포함한다. 도시된 실시양태에서, 컴퓨팅 장치(1)는 또한 사용자 인터페이스(103)를 포함하며, 이는 스크린으로 도시되어 있지만, 예를 들면, 청각 또는 시각 신호를 통해 사용자에게 정보를 전달하는 임의의 기타 수단을 포함할 수 있다. 컴퓨팅 장치(1)는, 예를 들면, 네트워크(6)를 통해 서열분석 머신과 같은 서열 데이터 획득 수단(3) 및/또는 서열 데이터를 저장하는 하나 이상의 데이터베이스(2)에 통신 가능하게 접속된다. 하나 이상의 데이터베이스는 컴퓨팅 장치(1)에 의해 사용될 수 있는 다른 유형의 정보, 예를 들면, 참조 서열, 파라미터 등을 추가로 저장할 수 있다. 컴퓨팅 장치는 스마트폰, 태블릿, 개인용 컴퓨터 또는 기타 컴퓨팅 장치일 수 있다. 컴퓨팅 장치는 본 명세서에 기재된 바와 같이, 종양-특이적 돌연변이가 클론성일 가능성이 있는지 여부를 결정하기 위한 방법을 구현하도록 구성된다. 다른 실시양태에서, 컴퓨팅 장치(1)는 원격 컴퓨팅 장치(도시되지 않음)와 통신하도록 구성되며, 이는 그 자체가 본 명세서에 기재된 바와 같이 종양-특이적 돌연변이가 클론성일 가능성이 있는지 여부를 결정하기 위한 방법을 구현하도록 구성된다. 이러한 경우, 원격 컴퓨팅 장치는 또한 당해 방법의 결과를 컴퓨팅 장치로 전송하도록 구성될 수 있다. 컴퓨팅 장치(1) 및 원격 컴퓨팅 장치 사이의 통신은 유선 또는 무선 접속을 통해 이루어질 수 있고, 예를 들면, 공용 인터넷 또는 와이파이와 같은 로컬 또는 공용 네트워크를 통해 이루어질 수 있다. 
서열 데이터 획득 수단(3)은 컴퓨팅 장치(1)와 유선 접속될 수도 있고, 도시된 바와 같이 무선 연결(예컨대, 네트워크(6)를 통해)을 통해 통신할 수도 있다. 컴퓨팅 장치(1)와 서열 데이터 획득 수단(3) 사이의 접속은 직접 또는 간접적일 수 있다(예를 들면, 원격 컴퓨터를 통해). 서열 데이터 획득 수단(3)은 핵산 샘플, 예를 들면, 세포 및/또는 조직 샘플로부터 추출된 게놈 DNA 샘플로부터 서열 데이터를 획득하도록 구성된다. 일부 실시양태에서, 샘플은 DNA 정제, 단편화, 라이브러리 준비, 표적 서열 캡쳐(예를 들면, 엑손 캡쳐 및/또는 패널 서열 캡쳐)와 같은 하나 이상의 전처리 단계에 적용되었을 수 있다. 바람직하게는, 샘플은 증폭에 적용되지 않았거나, 증폭에 적용된 경우, 고유 분자 식별자의 사용과 같은 증폭 바이어스 제어 수단의 존재하에 수행되었다. 게놈 카피 수 프로파일(전체 게놈 또는 서열 특이적)의 결정에 사용하기에 적합한 임의의 샘플 준비 프로세스는 본 개시의 문맥 내에서 사용될 수 있다. 서열 데이터 획득 수단은 바람직하게는 차세대 서열분석기이다. 서열 데이터 획득 수단(3)은 서열 데이터(생 또는 부분적으로 처리된)가 저장될 수 있는 하나 이상의 데이터베이스(2)와 직접 또는 간접적으로 접속될 수 있다. 
하기는 예시로 제시된 것이며, 청구 범위의 제한으로 해석되어서는 안 된다.
실시예
이들 실시예는 본 개시에 따른 클론성 돌연변이를 동정하는 방법을 설명하고, 시뮬레이션된 데이터 및 복수 유형의 실험 데이터를 사용하여 이의 용도를 입증한다. 
방법
돌연변이 유전자형 모델
이 모델의 데이터는 S개의 샘플(s=1,..,S)에서 N개의 돌연변이(n=1,...N)의 대립유전자 카운트이다. 단순화를 위해 및 이 방법은 단일 샘플과 돌연변이를 분석할 수 있기 때문에, 이 섹션에서 사용되는 표기법에는 돌연변이에 대한 인덱스 n과 샘플에 대한 인덱스 s가 명시적으로 포함되지 않는다. 도 4에서 볼 수 있는 바와 같이, 이 모델은 각 돌연변이가 서열분석된 세포 세트를 3개의 서브-집단으로 분할하는 것을 가정한다: (i) 건강한 생식세포계 게놈을 갖는 세포로 이루어진 정상 세포 집단(당해 돌연변이 영역에서 이배체일 가능성); (ii) 당해 돌연변이를 갖지 않는 암 세포로 이루어진 참조 세포 집단(당해 돌연변이 영역에서 이수체일 수 있음); (iii) 당해 돌연변이를 갖는 암 세포로 이루어진 변이체 세포 집단(당해 돌연변이 영역에서 이배체일 수 있고, 참조 집단과 동일한 영역의 동일한 카피 수를 갖지 않을 수 있음). "돌연변이"라는 용어는 본 명세서에서 서열 데이터, 및 특히 게놈 서열 데이터에서 검출할 수 있는 임의의 유전적 변이를 지칭하는 가장 넓은 의미로 의도된다. 이는 특히 단일 뉴클레오티드 변이체(SNV), 다중 뉴클레오티드 변이체(MNV), 인델 등을 포함한다. 
G = (A, B, AA, AB, AAA, AABB,...)를 모든 유전자형의 세트로 하고, 여기서 A와 B는 각각 참조 및 변이체 대립유전자를 나타낸다. 예를 들면, AB는 총 카피 수가 2인 헤테로접합성 변이체(참조/정상 대립유전자 A 1개 및 변이체 대립유전자 B 1개를 포함)를 나타낸다. 이 표기법에 따라, 도 4에서, 정상 집단은 유전자형 AA(여기서, 양쪽 A는 동일하거나 상이할 수 있음, 즉 정상 집단은 호모접합성 또는 헤테로접합성일 수 있지만, 양쪽 대립유전자는 모두 정상임)를 갖고, 참조 집단은 유전자형 AAA(여기서, A 대립유전자는 정상 집단의 A 대립유전자로부터 선택됨)를 갖고, 변이체 집단은 유전자형 AABB(여기서, A 대립유전자는 정상 집단의 A 대립유전자로부터 선택되고, B 대립유전자는 임의의 비-참조 대립유전자임)를 갖는다. 각 서브-집단 내의 모든 세포의 유전자형은 일정하다고 가정한다(즉, 도 4를 참조하여, 정상 집단의 모든 세포는 유전자형 AA를 갖고, 참조 집단의 모든 세포는 유전자형 AAA를 갖고, 변이체 집단의 모든 세포는 유전자형 AABB를 가짐). G = (GH;GR;GV)εG3은 속성이 각각 정상(건강한), 참조 및 변이체 집단의 유전자형인 벡터이다(하기에서는 이들 각 개별 유전자형은 통칭하여 "G"라고 함). 샘플 중의 암 세포의 비율을 t라고 한다. 이는 종종 샘플의 종양 함량, 종양 순도 또는 세포성이라고도 한다. φ는 샘플 중의 돌연변이를 보유한 암 세포의 비율, 즉 변이체 집단에서 암 세포의 상대적 비율이다. 이를 종종 암 세포 분획(CCF) 또는 돌연변이의 세포 유병률이라고 한다. ε는 가정된 서열분석 오류율이다. 하기 함수가 정의된다:
a(G): G→N은 유전자형을 A 대립유전자의 수에 맵핑하는 함수이다(예: G가 AA인 경우, a(G)=2).
b(G): G→N은 유전자형을 B 대립유전자의 수에 맵핑하는 함수이다(예: G가 AA인 경우, b(G)=0).
c(G): G→N은 유전자형을 유전자좌의 총 카피 수에 맵핑하는 함수이다(즉, c(G)= a(G)+ b(G), 예: G가 AA인 경우, c(G)=2).
μ(G): G→N은 유전자형을 값 μ(G)=min{최대{(b(G)/c(G)), ε}, (1-ε)}에 맵핑하는 함수이고, 이는 유전자형 G를 갖는 집단으로부터 돌연변이를 갖는 판독치를 샘플링할 확률로서 해석할 수 있다. 
ξ(G,φ,t)를 변이체 대립유전자에 의한 판독을 샘플링할 확률이라고 한다. 서열분석시 샘플링되는 세포의 무한대 초기 집단을 가정하면, 변이체 대립유전자에 의한 판독을 샘플링할 확률은 입력 DNA 풀 중의 변이체 대립유전자의 카피 수에 대략 비례한다. 보다 공식적으로, 서열분석 오류를 고려하면, 변이체 대립유전자(유전자형 G, 종양 함량 t, 암 세포 분획 φ를 제공하면)를 샘플링하는 확률은 하기 방정식(방정식 (1))에 의해 제공된다:
여기서,
변수 ξ(G,φ,t)는 각 유전자형으로부터 유래하는 변이체 대립유전자의 카피 수의 합계에 유전자형으로부터 돌연변이를 갖는 판독을 샘플링하는 확률을 곱한 값이고, 각 유전자형으로부터 유래하는 양쪽 대립유전자의 총 카피 수의 합계로 정규화된다.
변수 d는 샘플 중의 돌연변이를 커버하는 총 판독 수이고, 이 중 db에는 돌연변이 대립유전자가 함유된다. 따라서, 이러한 판독 수 d, db를 관찰하는 확률(P(d,db |G,φ,t))은 파라미터 db 및 ξ(G,φ,t)를 사용하여 이항 모델로 표현할 수 있다(방정식 (3)). 이는 파라미터 p를 갖는 m 베르누이(Barnouilli) 랜덤 변수의 합계가 파라미터 m, p2를 갖는 이항 분포를 따르기 때문이다. 예를 들면, 데이터가 이항 모델에 의해 설명할 수 있는 것보다 더 많은 분산을 갖는 경우, 평균 ξ(G,φ,t) 및 정밀도(분산의 역수) γ(방정식 (4))를 갖는 베타-이항 모델이 대신 사용될 수 있다:
파라미터 γ는 하기 실시예에서 200으로 설정되어 있지만, 다른 값도 가능하다. 지금까지, 서브-집단의 유전자형이 공지되어 있다고 가정했다. 일반적으로, 이는 건강한 집단(예: 일치하는 생식세포계 샘플)에서는 사실일 수 있지만, 참조 및 변이체 집단에서는 그렇지 않다. 대신, 돌연변이와 중첩하는 영역에 대한 대립유전자 특이적 카피 수 추정치를 관찰하는 것이 일반적이다. 이 정보를 사용하여, 그럴듯한 유전자형의 세트에 대한 사전 예측을 도출할 수 있다. 하기 섹션에서 이 작업을 수행하는 방법을 설명한다. 지금은 사전 확률의 벡터 π가 있다고 가정하고, 여기서 π i 는 집단의 i th 위 공동 유전자형인 G i 의 사전 확률이라고 가정한다. 관찰된 데이터가 모든 그럴듯한 유전자형에 비해 무시되는 확률은 하기와 같이 기재할 수 있다(방정식 (3a), (4a)):
이후 섹션에서, 방정식 (3a)와 방정식 (4a)의 표현을 동일하게 지칭하기 위해 표기 Pr(d, db|π,φ,t)을 사용한다. φ 및 t는 개별 샘플과 연관되어 있고, 따라서 상기 표기는 각각 φs 및 ts의 축약어이다.
돌연변이 유전자형 사전 유발
상기 모델은 공지된 공동 유전자형 또는 사전 확률 π를 사용하고, 여기서 πi는 집단의 i th 그럴듯한 공동 유전자형 G i의 사전 확률이다(즉, G i는 건강한, 변이체 및 참조 집단에 대해 가능한 유전자형의 조합 중 하나임). 다양한 방법을 사용하여 잠재적 유전자형 사전 확률을 설정할 수 있다. 
예를 들면, 한 가지 가능한 방법은 "주요 카피 수" 방법이라고 지칭할 수 있다. cmajor 및 cminor는 종양 샘플 중의 돌연변이와 중첩하는 영역의 주요 대립유전자 및 마이너 대립유전자 카피 수를 나타낸다. "주요 카피 수 방법"은 2개 경우를 고려한다: 
(a) 제1의 경우, 돌연변이는 카피 수 이벤트 이전에 발생한다. 이 경우, 참조 집단 유전자형은 정상 집단과 일치한다. 변이체를 함유하는 최대 c major 염색체를 갖는 변이체 집단에 대해 가능한 모든 돌연변이 유전자형을 고려한다. 
(b) 제2의 경우, 돌연변이는 카피 수 이벤트 이후에 발생한다. 이 경우, 참조 집단은 c major + c minor 참조 대립유전자를 갖는다. 변이체 집단은 1개 변이체 대립유전자 및 c major + c minor - 1개 참조 대립유전자를 갖는다. 
가능한 모든 돌연변이 유전자형에 대해 사전 가중치를 동일하게 설정한다. 예를 들면, c major = 2, c minor = 1이고 정상 카피 수가 2라고 가정한다. 다음과 같은 가능한 유전자형이 있다:
G1 =(AA, AA, AAB)
G2 =(AA, AA, ABB)
G3 =(AA, AAA, AAB)
각각 1/3의 사전 확률을 갖는다. 대립유전자 특이적 카피 수를 사용할 수 없는 경우, c major 는 총 카피 수로 설정하고, c minor 는 0으로 설정할 수 있다. 이 접근법에서는 돌연변이가 1회만 발생한다고 가정하고, 따라서 변이체 집단에 돌연변이 대립유전자의 카피가 2개 이상 존재하는 경우, 이는 돌연변이가 당해 유전자좌의 카피 수 변화를 선행하고, 후속적으로 증폭되었기 때문에 발생한 것으로 간주한다. 이 접근법은 너무 많은 상태를 고려하지 않으면서도 집단의 유전자형에서 불확실성을 고려하는 것 사이에서 양호한 밸런스를 취한다. 
돌연변이 유전자형 사전 확률을 설정하기 위해 다른 접근법을 사용할 수도 있다. 또 다른 가능한 접근법은 단순히 각 돌연변이가 이배체 및 헤테로접합성이라고 가정하는 것이다(즉, 변이체 집단에서 변이체는 2개 염색체 중 하나에서만 발생하고, G=(GH =AA, GR =AA, GV =AB)). 이를 "AB 사전"이라고 할 수 있다. 또 다른 간단한 접근법은 각 돌연변이가 이배체이고 호모접합성이라고 가정하는 것이다(즉, 변이체 집단에서 변이체는 2개 염색체 모두에서 발생하며, G=(GH =AA, GR =AA, GV =BB)). 이를 "BB 사전"이라고 할 수 있다. 또 다른 가능한 간단한 접근법은 변이체 집단의 유전자형이 정확히 1개의 변이체 대립유전자를 갖는 변이체 영역에서 예측된 총 카피 수를 갖는다고 가정하는 것이다(즉, 총 카피 수가 3이라고 가정하면, G=(GH =AA, GR =AA, GV =AAB). 즉, 이는 상기 "주요 카피 수" 방법에서 G1만을 고려한다). 이를 "사전 접합성 없음"이라고 할 수 있다. 이러한 접근법은 본질적으로 가능한 단일 유전자형을 고려하기 때문에 다수의 경우에 너무 단순할 수 있다. 
또 다른 가능한 접근법은 변이체 집단의 유전자형이 적어도 하나의 돌연변이 대립유전자를 갖는 돌연변이 영역에서 예측된 총 카피 수를 갖고, 참조 집단이 AA 또는 예측된 총 카피 수와 동일한 카피 수를 가지며 변이체 대립유전자가 없는 유전자형(동일한 확률로)이라고 가정하는 것이다. 이는 "총 카피 수 사전"이라고 할 수 있고, 직관적으로 당해 유전자좌에서 변이체 집단의 유전자형이 예측된 총 카피 수를 갖고 돌연변이 대립유전자의 임의의 카피 수(>0)를 가질 수 있음을 의미한다(즉, 총 카피 수가 3이라고 가정하면, 가능한 유전자형은 동일한 확률로 G1 =(GH =AA, GR =AA, GV =AAB), G2 =(G =AA, GHR =AA, GV =ABB), G3 =(G =AA, GHR =AA, GV =BBB), G4 =(GH =AA, GR =AAA, GV =AAB)이다. 즉, 이는 본질적으로 주요 카피 수 및 마이너 카피 수 값을 무시하고, n개 카피를 갖는 모든 가능한 유전자형을 고려하여, 상기 "주요 카피 수" 방법과 비교하여 추가 유전자형을 고려하게 된다). 사용될 수 있는 또 다른 접근법은 카피 수 호출자로부터 예측된 주요 및 마이너 대립유전자 수를 "신뢰"하여, 주요 카피 수 또는 마이너 카피 수에 대응하는 다수의 돌연변이 대립유전자를 갖는 유전자형만을 고려하는 것이다. 이는 "부모" 모드라고 할 수 있다. 예를 들면, 주요 카피 수=3, 마이너 카피 수=1인 경우, 이 접근법은 다음과 같은 가능한 유전자형을 동일한 확률로 고려한다: G1 =(AA, AA, AAAB), G2 =(AA, AA, ABBB), G3 =(AA, AAAA, AAAB)(즉, 변이체 집단에서 돌연변이 대립유전자 1개 또는 3개 중 하나). 이와 대조적으로, "주요 카피 수" 접근법은 1과 예측된 주요 카피 수 사이의 모든 값을 고려함으로써 가능한 주요 카피의 범위를 "신뢰"하지만 이의 절대값을 신뢰하지 않는다. 상기 예에서 주요 카피 수=3, 마이너 카피 수=1의 경우, 니는 "부모" 모드와 비교하여 하나 이상의 유전자형을 고려하게 된다. 즉, G1 =(AA, AA, AAAB), G2 =(AA, AA, AABB), G3 =(AA, AA, ABBB), G4 =(AA, AAAA, AAAB)가 된다. 따라서, "주요 카피 수" 접근법은 ("총 카피 수" 접근법과 비교하여) 너무 많은 불확실성을 고려하지 않으면서도 카피 수 호출로부터 추가 불확실성("부모" 접근법과 비교하여)을 고려하는 것 사이에서 양호한 밸런스를 취한다. 
클론성 추정 모델
이 섹션에서는 유비쿼터스 돌연변이를 동정하기 위한 계층적 베이지안 모델의 개요를 설명한다. Z는 돌연변이가 유비쿼터스인 경우(클론성인 것으로 가정)에 1이고 그렇지 않은 경우에 0인 베르누이(Bernoulli) 변수라고 한다. ρ는 돌연변이가 유비쿼터스인 사전 확률이라고 한다. 하기 예에서는 0.5로 설정되어 있다. 상기와 같이, φ는 샘플에 돌연변이를 보유한 암 세포의 비율이다. 따라서, 모델은 다음과 같이 표현할 수 있다:
여기서, α는 φ|Z=1의 분포에서 파라미터 >1이다. 이는 하기 예에서 α=99로 설정되어 있다. 파라미터 α=99 및 β=1을 갖는 베타 분포는 1을 향해 경사져 있고, 이는 암 세포 분획 φ가 높을수록 클론성 돌연변이가 풍부화되어야 한다는 가정을 캡쳐한다. 파라미터 α의 다른 값도 가능하지만, 이 가정을 캡쳐하는 값이 바람직하다. 상기 언급한 바와 같이, 방정식 (7)의 확률은 방정식 (3)/(3a) 또는 (4)/(4a)에 의해 제공된다.
공동 분포는 다음 방정식으로 표현할 수 있다(방정식 (8)):
하나의 샘플 또는 복수의 샘플에 대해:
돌연변이를 보유한 암 세포의 비율(φ)은 불명이다. 그러나, 다음과 같이 표현할 수는 있다:
하나의 샘플 또는 복수의 샘플에 대해:
은 Ψz(즉, Ψ0 및 Ψ1은 각각 돌연변이가 비-클론성인 경우 및 클론성인 경우의 데이터의 가능성을 나타낸다)라고 할 수 있다. z=0인 경우 (Z=0의 사전 확률, 즉 돌연변이가 클론성일 사전 확률 ρ가 제공될 때에 돌연변이가 비클론성으로 분류되는 것은 돌연변이가 비-클론성일 사전 확률과 동등함), 및 z=1인 경우 (Z=1의 사전 확률, 즉 돌연변이가 클론성일 사전 확률 ρ가 제공될 때에 돌연변이가 클론성으로 분류되는 것은 돌연변이가 클론성일 사전 확률과 동등함)로서, 이는 다음과 같다:
복수 샘플의 경우(단일 샘플의 경우 샘플 상에 생성물 없이).
궁극적으로, 추정하고자 하는 양은 관찰된 판독치(db,d), 유전자형 사전 추정치(π), 종양 분획 추정치(t), 돌연변이가 클론성일 사전(ρ, 즉 P(Z=1|db,d,π,t,ρ)를 추정할 필요가 있음)의 관점에서 돌연변이가 클론성일 확률(Z=1일 확률)이다. 상기 내용을 고려하면, 이는 다음과 같이 표현될 수 있다:
여기서, p(db,d|π,t,ρ)는 방정식 (10)으로 제공되고, p(db,d Z=z|π,t,ρ)는 방정식 (9)/(9a)로 제공된다. 따라서, 방정식 (11)은 Z=1에 대해 하기 방정식 (11a)로 기재될 수 있다:
여기서, ρ는 파라미터이고(하기 예에서는 0.5로 설정됨), p(φ|Z=z)는 방정식 (6)의 베타 분포에 의해 제공되고, Pr(db,d|π,φ,t)는 방정식 (3)/(4)(1개의 공동 유전자형) 또는 (3a)/(4a)(사전 확률 π를 갖는 복수의 후보 공동 유전자형)에 의해 제공된다.
따라서, z=1에 대해 방정식 (11)을 추정하면(즉, 방정식 (11a)), 돌연변이가 유비쿼터스일 확률을 알 수 있다(즉, 사용 가능한 하나 이상의 샘플의 관점에서 클론성일 것으로 가정). 이는 S의 1차원 적분(방정식 (9), (10)에서 각 샘플에 대해 1개)을 평가할 필요가 있고, 이는 공지된 수치 적분을 사용하여 효율적으로 수행할 수 있다. 당해 기술분야에 공지된 임의의 수치 적분 알고리즘이 이러한 목적으로 사용될 수 있다. 예를 들면, 그리드 근사법이 사용될 수 있다. 이는 통합할 단일 파라미터(φ)가 있다는 점을 고려할 때 유리하게 간단하고 충분하다. 
이는 이용 가능한 데이터의 관점에서 돌연변이가 클론성인 확률의 추정을 제공하고, 이는 효율적으로 계산할 수 있고, 용이하게 해석할 수 있으며(명시적 명확한 가정을 사용하는 엄격한 통계학적 모델을 고려할 때), 수동 입력 없이 임의의 돌연변이에 대해 수득될 수 있고, 분석된 임의의 다른 돌연변이와 독립적이며, 돌연변이에 대한 사전 지식을 엄격하게 포함하고, 시험 및/또는 사용을 위해 객관적으로 및 자동적으로 돌연변이 리스트의 우선순위를 부여(확률 수반)하기 위해 사용될 수 있다. 
카피 수 예측의 불확실성 고려
상기 기재된 모델은 이미 다수의 이점을 갖고 있지만, 모델에 사용된 카피 수 추정의 예측의 불확실성을 고려함으로써 추가로 향상될 수 있다. 실제로, 상기 모델에서는 카피 수(예: 유전자형 사전을 도출하기 위해 사용된 주요/마이너/총/카피 수)가 정확하게 예측되었다고 가정한다. 실제로, 이러한 값에 약간의 불확실성이 있을 수 있다. 실제로, 종양의 대립유전자-특이적 카피 수 분석의 문제는 복잡하며, 이를 수행하기 위해 다수의 솔루션이 제안되었다. 일반적으로 사용되는 한 가지 접근법은 벌크 카피 수 프로파일의 해석에서 종양 세포의 이수성 및 비이수성 세포 침윤을 모두 고려하고 추정된 대립유전자-특이적 카피 수 프로파일 및 그에 수반되는 종양 순도 추정치를 산출하는 ASCAT(종양의 대립유전자-특이적 카피 수 분석, Van Loo et al., 2010)이다. 간단히 말해, ASCAT은 관련 대립유전자-특이적 카피 수 호출이 생식세포계 헤테로접합성 단일 뉴클레오티드 다형성(SNP)에 대해 가능한 한 음수가 아닌 정수에 근접해야 한다는 가정에 기초하여 종양 배수성 및 종양 분획의 가능한 복수의 조합을 평가한다. 이어서, 최적이라고 간주되는 솔루션이 이의 양호한 적합도(상기 가정을 기반으로)와 함께 보고된다(샘플의 종양 및 정상 부분에 대한 추정 종양 배수성, 종양 순도 및 대립유전자-특이적 카피 수 호출). 
상기 제공된 모델은 π를 변형하여 각 예측된 카피 수 상태(예: 주요 카피 수 상태와 마이너 카피 수 상태를 포함하는 각 제안된 솔루션)의 유전자형에 대한 항목을 함유하고 이 상태와 관련된 확률에 의해 가중치를 부여함으로써 복수 카피 수 솔루션 및 이의 불확실성을 수용하도록 조정할 수 있다. 추가로, 종양 순도 추정치는 이러한 카피 수 상태와 함께 추정될 수 있기 때문에(예: ASCAT과 같은 접근법이 사용되는 경우), 관련 종양 순도 추정치도 고려할 수 있다. 예를 들면, 종양 순도가 별도로 추정되거나 측정되고 카피 수 상태 추정치와 본질적으로 연관되어 있지 않은 경우, 이는 필요하지 않을 수 있다는 점에 유의한다. 그럼에도 불구하고, 일반성을 위해, C 가능한 카피 수/종양 함량 상태의 세트가 있다고 가정해 본다(예: C 가능한 추정치 세트 cmajor, cminor, 및 t). πC는 각 엔트리가 이러한 추정치 세트의 가능한 각 상태에 대한 확률인 벡터라고 한다. 각 상태 C에 대해, 상기 설명된 바와 같이 가능한 유전자형의 벡터 πCG를 계산할 수 있다. 따라서, 최종 유전자형 벡터는 πCG에 πC의 상태 C에 대한 엔트리를 곱하여 수득할 수 있다. 이는 하기 약간 변형된 방정식을 생성한다:
여기서, 종양 함량 ti는 이제 특정 상태에 따라 달라질 수 있다(및 πi πCG에 πC의 상태 C 엔트리를 곱하여 수득된 벡터 π의 요소이다). 이러한 신규 밀도는 상기 관련 방정식에 대입할 수 있다. 특히, 해결된 문제는 방정식 (11a)의 풀이로 표현할 수 있고, 여기서, Pr(db,d|π,φ,t)는 방정식 (3b) 또는 방정식 (4b)에 의해 제공된다. ti, cmajor, cminor(따라서, 사용된 모델에 따라 호환성 πCG) 및 πC의 값은 상기 설명한 바와 같이 ASCAT을 포함하지만 이들로 한정되지 않는 종양의 대립유전자-특이적 카피 수 분석을 수행하는 다수 방법의 산출로서 제공된다. 임의의 의심의 여지를 없애기 위해, 서로에 대해 복수 솔루션에 가중치를 부여하기 위해 사용될 수 있는 신뢰도 또는 기타 메트릭을 사용하여 대립유전자-특이적 카피 수 상태 추정치(통상 종양 순도 추정치와 연관됨)를 생성하는 임의의 접근법이 이 목적에 사용될 수 있다. 
구현
본 명세서에 기재된 방법은 당해 기술분야에 공지된 임의의 프로그래밍 언어를 사용하여 구현할 수 있다. 하기 예에서, 상기 방법을 구현하는 파이썬(Python) 스크립트가 사용되었다. 이는, 각 돌연변이에 대해: 돌연변이 식별자, 샘플 식별자, 돌연변이 위치에서 참조 대립유전자와 일치하는 판독 수의 카운트, 돌연변이 위치에서 대체 대립유전자와 일치하는 판독 수의 카운트, 및 하나 이상의 카피 수 솔루션 각각에 대해: 지정된 카피 수 솔루션에 대해 돌연변이와 중첩하는 (종양의) 주요 카피 수, 지정된 카피 수 솔루션에 대해 돌연변이와 중첩하는 (종양의) 마이너 카피 수, 돌연변이 위치의 정상 세포에 대한 카피 수(상염색체 염색체의 경우 디폴트=2, 남성 대상체의 성 염색체의 경우 1로 설정될 수 있음) 및 지정된 카피 수 솔루션에 대한 종양 순도 값(이는 ASCAT의 출력으로 수득되거나 별도로 수득될 수도 있음)을 입력으로서 취했다. 지정된 카피 수 솔루션을 위해, 종양 집단에 대한 돌연변이와 중첩하는 주요 및 마이너 카피 수는 ASCAT으로부터 직접 수득하거나(예: ascatNgs 사용, Raine et al., 2016), 또는 돌연변이와 중첩하는 카피 수 세그먼트의 평균 B 대립유전자 빈도, 돌연변이와 중첩하는 카피 수 세그먼트의 로그 R 값 및 솔루션의 배수성을 사용하는 등 ASCAT의 출력으로부터 도출할 수 있다. 예를 들면, 위치 i에서 종양에 대한 대립유전자 특이적 카피 수 추정치()는 을 사용하여 위치 i에서의 로그 R 값 r, 위치 i의 B 대립유전자 분획 값 b, 배수성 추정치 Ψ, 종양 세포 분획 추정치 ρ, 및 플랫폼-의존적 "기술" 파라미터 t(WES와 같은 차세대 서열분석 데이터의 경우 t=1로 설정될 수 있음)의 함수로서 표현될 수 있다. 대상체의 성별에 따라 처리될 수 있는 성 염색체의 돌연변이를 제외하고, 정상 집단의 주요 및 마이너 카피 수는 1과 1로 가정할 수 있다. 복수 카피 수 솔루션이 제공되는 경우, 각 솔루션의 확률을 임의로 제공할 수 있다(이는 솔루션에 대해 음의 로그 가능성을 입증하는 ASCAT 등의 출력으로부터 또한 수득할 수 있음). 이것이 제공되지 않으면, 복수의 솔루션이 모두 동일한 가능성으로 처리되고 동일한 가중치를 받을 수 있다. 스크립트는 돌연변이 식별자 및 돌연변이가 유비쿼터스일 확률을 출력으로서 생성한다. 
하기 예에서, 카피 수 솔루션을 추정할 때마다, 이는 ASCAT을 사용하여 수행했다[참조: Van Loo et al., 2010].
 
결과
합성 데이터
상기 기재된 접근법은 먼저 방정식 (3)(이항 모델) 및 (4)(베타이항 모델)에 의해 캡쳐된 도 4를 참조하여 상기 기재된 설명한 집단 모델을 사용하여 시뮬레이션된 합성 데이터를 사용하여 시험했다. 모든 합성 데이터 세트에 대해 총 1000개의 돌연변이를 시뮬레이션했다. 커버리지의 심도는 실제 커버리지 영역에 대응하는 평균 값이 50, 100, 1000인 푸아송(Poisson) 분포에서 시뮬레이션되었다. 카피 수 프로파일은 2 또는 6의 최대 총 카피 수로 랜덤으로 시뮬레이션되었다. 이러한 설정은 유전적으로 안정한 게놈(최대 총 카피 수 2개) 및 고도의 이수성 게놈(최대 총 카피 수 6개)에 대응한다. 1개, 2개 또는 4개 샘플을 포함하는 데이터 세트가 시뮬레이션되었다. 모든 예에서 종양 함량은 1.0으로 고정되었다.
도 5A는 이항 모델로부터 데이터를 시뮬레이션하고 이항 모델을 사용하여 상기 방법을 실행했을 때의 결과를 나타낸다. 카피 수 2의 실행의 경우, 심도 또는 샘플 수에 관계없이 성능이 거의 완벽하다(곡선하 면적, AUC=0.997-1.0, 하기 표 1 참조). 카피 수 6의 실행의 경우, 심도 및 샘플 수가 증가함에 따라 성능이 상당히 향상된다(AUC=0.853-1.0, 하기 표 1 참조).
[표 1]
시뮬레이션을 위해 이항 분포 모델을 사용한 합성 데이터 결과. BB-200=베타이항, γ=200. 
도 5B 정밀도 100의 베타이항 분포로부터 시뮬레이션하고 이항 방출 모델을 사용하여 상기 모델 실행으로 수행된 동일한 분석을 나타낸다. 이는 관찰된 데이터가 예상보다 현저히 가변적인 경우를 시뮬레이션한다. 결과는 카피 수 2 시뮬레이션에서 거의 완벽하게 유지된다(AUC 0.997-1.0, 표 2). 그러나, 결과는 (여전히 양호하지만) 카피 수 6 시뮬레이션에 대한 이전 분석(AUC 0.846-0.996, 표 2)만큼 양호하지는 않다. 커버리지의 심도를 증가시켜도, 이전만큼 성능이 현저히 향상되지 않는다. 반면, 샘플 수의 증가는 실질적 효과가 있다.
도 5C 정밀도 100의 베타이항 분포를 사용하여 데이터를 시뮬레이션하고, 정밀도 200의 베타-이항 방출 모델을 사용하여 상기 방법으로 분석했을 때의 결과를 나타낸다. 성능은 이항 방출로 상기 방법을 사용한 이전 분석과 유사하다(표 2). 과잉-분산된 데이터에 베타이항 모델을 사용하면, 동일한 과잉-분산된 데이터에 이항 모델의 사용과 비교하여 특히 낮은 서열분석 심도 및/또는 높은 카피 수에서 성능이 약간 더 우수했다. 그러나, 이 예에서, 성능의 향상이 크지 않았으며, 따라서 더 간단한 이항 모델(이는 정밀도 파라미터화를 설정할 필요가 없기 때문에 파라미터화가 간단하다)을 두 경우 모두에서 유리하게 사용할 수 있다. 
[표 2]
시뮬레이션을 위해 정밀도 100으로 베타-이항 방출 분포를 사용한 합성 데이터 결과. BB=베타이항
세포주 혼합 데이터
이어서, 세포주를 혼합하여 생성된 데이터를 사용하여 이 방법을 시험했다[참조: Farahani et al., 2017]. 데이터는 2개 실험에서 수득되었다: 1) 이배체 세포주를 혼합하고, 2) 이수체 세포주를 혼합했다. 표 3에 기재된 바와 같이 다양한 비율로 복수의 혼합물이 형성되었다. 각 실험에는 3개 종류의 돌연변이가 존재한다: 1) 세포주 A에 고유한 돌연변이, 2) 세포주 B에 고유한 돌연변이, 3) 양쪽 세포주 모두에 공유되는 돌연변이. 본 명세서에 기재된 방법을 시험하기 위해, 공유된 돌연변이는 유비쿼터스 돌연변이로 취급되었고, 세포주 특이적 돌연변이는 서브클론성 돌연변이로 취급되었다. 대립유전자 카운트 데이터 및 카피 수 정보는 출판사 웹사이트에서 다운로드한 라파하니(Farahani) 등의 부록 표 S1A 및 S1B로부터 추출했다. 각 돌연변이에 대해 예측된 주요/마이너 카피만이 제공되기 때문에, 이 데이터로 카피 수의 불확실성을 설명할 수 없었음에 유의한다.
이항 방출 모델로 실행한 상기 기재된 방법은, 10,000회 반복하고 1,000회 반복은 소각으로 폐기한 PyClone(Roth et al., 2014) 버전 0.13.1과 비교했다. PyClone으로 유비쿼터스 돌연변이를 동정하기 위해, 먼저 모든 샘플에서 최고 CCF를 갖는 클러스터를 동정했다. 이 클러스터의 모든 돌연변이는 유비쿼터스 돌연변이로 취급되고, 다른 모든 돌연변이는 서브클론으로 취급되었다. 이 전략은 유비쿼터스 예측에 신뢰 값을 할당하지 않고, 따라서 PyClone 결과는 ROC 곡선에 단일 점으로 플롯되는 것에 유의한다. 이와 대조적으로, 본 명세서에 기재된 방법은 각 돌연변이에 유비쿼터스의 확률을 할당하고, 따라서 곡선을 플롯할 수 있다. 따라서, 원하는 정밀도 및 호출의 밸런스에 따라 클론/서브클론으로 돌연변이를 고려하기 위해 사용된 역치를 조정할 수도 있다. 
[표 3]
세포주 혼합 비율
도 6A는 이배체 세포주 혼합물에 대한 결과를 나타낸다. 도 6A 좌측의 플롯은 단일 샘플만을 사용한 실행으로부터의 것이다. 이들은 세포주 A가 90%, 세포주 B가 10%인 혼합물 S3을 사용하는 양쪽 접근법 모두에서 최악이다. 이는 세포주 A의 돌연변이가 공유 돌연변이에 근접한 CCF를 갖기 때문에 이해가 된다. 혼합물의 밸런스가 잡히고 세포주의 돌연변이의 CCF가 1에서 멀어질수록 성능이 증가된다. 도 6A의 우측은 복수 샘플을 사용하여 실행으로부터의 결과를 나타낸다. 도 6B는 이수성 세포주의 혼합물로부터의 결과를 나타낸다. 결과는 일반적으로 이배체의 경우와 일치하지만, 예상된 바와 같이 양쪽 접근법 모두에서 성능이 균일하게 악화한다.
이 데이터는, 예상된 바와 같이, 더 많은 샘플이 추가될수록 성능이 증가될 가능성이 높다는 것을 나타낸다. 여기서 분석한 시뮬레이션 데이터 및 인공 샘플의 특정 설정에서, 본 명세서에 기재된 방법 및 PyClone의 성능은 일부 샘플의 경우에 유사했지만, 일부 복수-샘플 예에서는 본 명세서에 기재된 방법이 PyClone보다 성능이 더 우수했다.
각 방법에 대한 비공식적 시간 연구는 본 명세서에 기재된 방법이 분석당 약 10초가 소요되는 것을 나타냈다(여기서, 분석은 환자에서 동정된 모든 돌연변이의 클론성의 가능성을 결정하는 것을 포함함). PyClone은, 동일한 분석에 대해, 수행된 MCMC 반복의 수에 따라 300 내지 3000초 정도로 현저 더 오래 걸렸다. 따라서, 환자에서 동정된 모든 돌연변이가 동일한 분석에서 평가되는 경우에도(이들 평가는 완전히 독립적이기 때문에, 본 방법의 요건은 아님), 본 방법은 종래 기술의 방법보다 최소 30배 더 신속하다. 돌연변이의 평가를 직렬이 아닌 병렬로 수행하면, 그 차이는 훨씬 더 커질 수 있는데, 이는 종래 기술의 방법으로는 불가능하다. 
따라서, 이 데이터는 본 명세서에 기재된 접근법이 복수-샘플 사례에서 최소한 비교 최신 접근법과 일치하거나 더 우수한 성능을 나타낼 수 있음을 입증한다. 본 명세서에 기재된 방법과 같이, 이의 이점을 취할 수 있는 방법을 사용할 때에 가능한 한 복수 샘플을 획득하는 것이 진정한 클론성 변이체를 동정할 가능성을 증가시킬 수 있는 것으로 여겨지기 때문에, 이는 임상적 및 실용적 관련성이 매우 크다. 본 명세서에 기재된 방법과 달리, PyClone은 돌연변이-특이적 예측을 제공하거나, 각 예측에 대한 신뢰도 추정치를 제공하거나, 카피 수 솔루션의 불확실성을 고려하는 능력이 없으며, 동일한 데이터를 분석하는 데 수동 입력은 물론 현저히 더 많은 계산 시간을 필요로 한다. 
따라서, 본 명세서에 기재된 방법은 종래 기술의 방법과 비교하여 몇몇 이점을 갖고, 이는 종래 기술의 방법이 유사한 성능으로 사용될 수 있는 특정 사례(예: 상기 시뮬레이션된 및 인공 샘플) 외에도 실제 임상 문맥에서 특히 관련되어 있다. 예를 들면, 적어도 단일 카피 수 솔루션을 큐레이팅하고 선택할 때에 광범위한 수동 입력이 필요하다는 것은, 이러한 전문가 입력이 없으면, 단일 샘플 상황에서도 본 명세서에 기재된 방법이 종래 기술의 방법보다 현저히 우수한 성능을 나타낼 수 있음을 의미한다. 추가로, 전문가의 수동 입력이 가능하더라도, 본 명세서에 기재된 방법은 상기 조사된 인공적이고 통제된 상황보다 정확한 카피 수 솔루션의 동정이 현저히 더 많은 오류-발생하기 쉬운 실제 상황(즉, 환자로부터의 실제 종양 샘플을 사용)에서 종래 기술의 방법보다 현저히 더 우수한 성능을 나타낼 것이다. 
TRACERx 데이터
본 명세서에 기재된 방법은 CRUK TRACERx 연구(http://tracerx.co.uk/)로부터의 데이터에 대해 추가로 시험되었다. 이 데이터는 이전에 TRACERx 파이프라인을 사용하여 분석되었고[참조: McGranahan et al., 2016], PyClone 방법을 기반으로 한 클론 호출이 이용 가능했다. 또한, 모든 샘플에 대해 배수성/순도 솔루션에 대한 ASCAT 데이터를 사용할 수 있었다. 데이터의 개요는 도 7A에 제시되어 있다(이용 가능한 클론 호출에 기반하여, PyClone을 사용하여 수득됨). 따라서, 주요/마이너 카피 수를 도출하기 위해 사용된 선택된 배수체/순도 용액에 대한 불확실성을 고려하여 본 방법을 실행할 수 있었다.
도 7B 1) 모든 ASCAT 순도/배수성 솔루션을 고려할 때 및 2) 최대 가능성 ASCAT 솔루션을 고려할 때에 본 명세서에 기재된 방법으로부터 예측된 유비쿼터스 확률의 분포를 나타낸다. 본 방법은 순도/배수성 불확실성을 고려할 때에 유비쿼터스 돌연변이에 더 높은 확률을 체계적으로 할당하는 것을 알 수 있다. 도 7C 2개 접근법을 비교한 ROC 곡선을 나타낸다. 배수성 및 순도의 불확실성을 고려하면, AUC가 0.76에서 0.91로 증가하여 본 방법의 성능이 현저히 향상되었다. 이 분석에서 한 가지 주의할 점은 (상기 분석한 시뮬레이션된 데이터 및 인공 샘플과는 달리, 실측 데이터는 수득될 수 없기 때문에) 큐레이팅된 PyClone 결과는 진정한 것으로 가정했다는 것이다. 이전 섹션은 실제 종양 샘플 및 복수-샘플 상황에서 본 명세서에 기재된 방법이 PyClone보다 성능이 우수하다는 것을 시사했고, 따라서 본 명세서에 기재된 방법의 실제 성능은 본 명세서에 보고된 것보다 더 우수할 수 있다.
선행 기술 방법과의 런타임 비교
본 명세서에 기재된 방법은 최신 버전의 PyClone(PyClone-VI, Gills & Roth, BMC Bioinformatics volume 21, Article number: 571 (2020))에 따라 공식적으로 시간을 측정했다. 이 분석 결과는 도 8에 제시되어 있다(여기서, "ACE"는 본 명세서에 기재된 방법을 의미함). 이 버전의 PyClone은 현저히 최적화되었고, 따라서 상기 비공식 타이밍 연구에 사용된 원래 버전보다 신속하다. 그러나, 암에서 동정된 모든 종양-특이적 돌연변이를 함께 분석해야 하기 때문에, 돌연변이 수가 증가함에 따라 런타임이 현저히 증가하며, 이는 병렬화에 의해 해결할 수 없다. 반면, 본 개시의 방법은 각 돌연변이를 독립적으로 분석하기 때문에, 완전히 병렬화가 가능하다. 그 결과, 단일 암에 대한 분석을 복수 CPU에서 실행할 수 있는 모든 경우에서 본 방법과 관련된 런타임이 현저히 감소한다(2, 3 또는 4개 CPU에 대한 결과를 나타내는 도 8 참조). 예를 들면, 임상적으로 현실적 범위인 200 내지 1000개 돌연변이를 갖는 단일 환자의 경우, 본 방법을 사용하여 각 돌연변이에 대한 확률 또는 클론성 가능성을 동정하는 시간은 12.8초 내지 36.5초(각각 200개 및 1000개 돌연변이의 경우)로 낮을 수 있다. 이에 비해, PyClone-VI를 실행하는 시간은 16.8초 내지 99.1초이다(각각 200개 및 1000개 돌연변이의 경우). 추가로, 이 시간 추정치는, 클론성일 것으로 가정되는 돌연변이의 클러스터를 선택하고 선택된 클러스터 내에서 돌연변이의 우선순위를 부여하기 위해 PyClone에 의해 생성된 클러스터링 구조를 수동으로 분석하는 시간을 포함하지 않는다. 반면, 본 명세서에 기재된 방법은 각 돌연변이가 클론성일 가능성에 대해 직접 해석 가능하고 독립적인 확률을 생성하고, 돌연변이의 우선순위를 부여하기 위해 직접 사용할 수 있다(즉, 클론성에 대한 추가 평가 단계가 필요 없음). 이는 리소스의 현저한 절약뿐만 아니라 프로세스 추적성의 증가를 나타낸다.
논의
이 실시예는 환자의 암 세포 집단에 유비쿼터스 존재하는 돌연변이, 즉 클론성 돌연변이를 동정하는 신규 모델의 개발 및 평가를 입증한다. 이 작업은 이전 솔루션에 비해 성능을 현저히 향상시키는 몇몇 혁신을 갖는다. 특히, 문제를 분류 문제로서 재구성하고 예측에 대한 확률을 제공한다. 이는 이진 응답을 반환했던 이전 접근법 대신에 돌연변이의 순위를 부여하는 능력을 제공한다. 추가로, 중첩되는 카피 수에 대한 불확실성을 어떻게 설명할 수 있는지 나타낸다. 실제 데이터에서, 이는 클론성 돌연변이 동정의 정밀도 측면에서 현저한 성능 증가를 유도한다. 이는 실제로 본 명세서에 기재된 방법에 의해 동정된 클론성 돌연변이가 종래 기술의 방법을 사용하여 동정된 돌연변이보다 진정한 클론성일 가능성이 더 높다는 것을 의미하고, 이는 더 높은 검증률 및 궁극적으로 더 높은 임상 성공률을 유도한다. 본 명세서에 기재된 방법의 다른 이점에는 다른 돌연변이의 스코어를 변경하지 않고서 신규 돌연변이를 추가하는 능력이 포함된다. 추가로, 본 방법은 PyClone 및 다른 클러스터링-기반 접근법보다 훨씬 신속하다.
참조문헌
본 문서에 인용된 모든 참고 문헌은 각 개별 출판물 또는 특허 또는 특허 출원이 전체 내용을 구체적으로 개별적으로 참조에 의해 도입한 것과 동일한 범위에서 모든 목적을 위해 전체 내용이 참조에 의해 본 명세서에 도입된다.
본 명세서에 기재된 특정 실시양태는 예시적인 것으로서 제공된 것이지, 제한하는 것이 아니다. 기재된 조성물, 방법 및 기술의 사용에 대한 다양한 수정 및 변형은 기재된 기술의 범위 및 정신을 벗어나지 않고 당업자에게 명백할 것이다. 본 명세서의 임의의 부제목은 편의를 위해서만 포함되며, 어떤 방식으로든 본 개시를 제한하는 것으로 해석되어서는 안 된다.
본 명세서에 기재된 임의의 실시양태의 방법은 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품, 또는 컴퓨터에서 실행될 때에 상기 기재된 방법을 수행하도록 정렬된 컴퓨터 프로그램을 포함하는 컴퓨터 판독 가능한 매체로 제공될 수 있다.
문맥에 달리 명시되지 않는 한, 상기 기재된 특징의 설명 및 정의는 본 발명의 특정 측면 또는 실시양태로 한정되지 않으며, 기재된 모든 측면 및 실시양태에 동일하게 적용된다. 
명세서 및 청구범위 전체에서, 하기 용어는, 문맥에서 달리 명시되지 않는 한, 본 명세서에서 명시적으로 연관된 의미를 갖는다. 본 명세서에서 사용된 "일 실시양태에서"라는 문구는 반드시 동일한 실시양태를 지칭하는 것은 아니지만, 동일한 실시양태를 지칭할 수도 있다. 추가로, 본 명세서에서 사용된 "또 다른 실시양태에서"라는 문구는 반드시 상이한 실시양태를 지칭하는 것은 아니지만, 상이한 실시양태를 지칭할 수도 있다. 따라서, 이하에서 기재되는 바와 같이, 본 발명의 범위 또는 정신을 벗어나지 않으면서 본 발명의 다양한 실시양태가 용이하게 조합될 수 있다.
본 명세서 및 첨부된 청구범위에 사용된 바와 같이, 문맥에서 명확하게 달리 지시하지 않는 한, 단수 형태 "a", "an" 및 "the"는 복수의 지시대상을 포함한다는 점에 유의해야 한다. 범위는 본 명세서에서 하나의 특정 값에 대한 "약" 및/또는 다른 특정 값에 대한 "약"으로 표현될 수 있다. 이러한 범위가 표현될 때, 또 다른 실시양태는 하나의 특정 값으로부터 및/또는 다른 특정 값까지를 포함한다. 유사하게는, 값이 근사치로 표현될 때, 전치사 "약"의 사용에 의해, 특정 값이 다른 실시양태를 형성하는 것으로 이해될 것이다. 수치와 관련하여 "약"이라는 용어는 임의 사항이며, 예를 들면, +/- 10%를 의미한다.
후속하는 청구항을 포함하여, 본 명세서 전체에서, 문맥에서 달리 요구되지 않는 한, "포함하다(comprises)" 및 "포함한다(include)"라는 단어와 "포함한다(comprises)", "포함하는(comprising)" 및 "포함하는(including)"과 같은 변형은 명시된 정수 또는 단계 또는 정수 또는 단계의 그룹을 포함하지만, 다른 정수 또는 단계 또는 정수 또는 단계의 그룹을 제외하지 않는 것을 의미하는 것으로 이해될 것이다.
본 발명의 다른 측면 및 실시양태는, 문맥에서 달리 명시되지 않는 한, "포함하는(comprising)"이라는 용어를 "이루어진(consisting of)" 또는 "본질적으로 이루어진(consisting essentially of)"이라는 용어로 치환하여 상술한 측면 및 실시양태를 제공한다.
본 명세서에서 사용되는 "및/또는"은 서로 포함되거나 포함되지 않은 2개의 명시된 기능 또는 구성요소 각각에 대한 구체적 개시로 간주되어야 한다. 예를 들면, "A 및/또는 B"는 본 명세서에 각각 개별적으로 명시된 것과 같이 (i) A, (ii) B 및 (iii) A와 B 각각에 대한 구체적 개시로 간주되어야 한다.
전술한 기재 또는 하기의 청구범위 또는 첨부된 도면에 개시된 특징들은 특정 형태로 또는 개시된 기능을 수행하기 위한 수단 또는 개시된 결과를 수득하기 위한 방법 또는 프로세스의 관점에서 표현되며, 적절한 경우, 개별적으로 또는 이러한 특징들의 임의의 조합으로 다양한 형태로 본 발명을 실현하기 위해 활용될 수 있다.

Claims (22)

  1. 대상체(subject)에서 종양-특이적 돌연변이(tumour-specific mutation)가 클론성(clonal)일 가능성이 있는지를 결정하는 방법으로서, 상기 방법은
    종양 유전 물질(tumour genetic material)을 포함하는 대상체로부터 하나 이상의 샘플로부터의 서열 데이터를 프로세서(processor)에 제공하는 단계로서, 상기 서열 데이터는, 하나 이상의 샘플 각각에 대해, 종양-특이적 돌연변이를 나타내는 샘플의 판독 수(db), 대응하는 생식세포계 대립유전자(germline allele)를 나타내는 샘플 중의 판독 수, 및 종양-특이적 돌연변이의 위치에서의 총 판독 수(d) 중 적어도 2개를 포함하는 단계 및
    프로세서에 의해, 종양-특이적 돌연변이가 클론성인 가능성을,
    돌연변이가 클론성일 사전 확률 및
    정상 집단(normal population), 종양-특이적 돌연변이를 포함하지 않는 참조 종양 집단 및 종양-특이적 돌연변이를 포함하는 변이체 종양 세포 집단에 대해 종양-특이적 돌연변이의 위치에서 유전자형을 각각 포함하는, 하나 이상의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서, 종양-특이적 돌연변이가 (i) 클론성 및 (ii) 비-클론성인 경우에 서열 데이터를 관찰하는 확률에 의존하여,
    사후 확률로서 결정하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서, 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률이 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률(Pr(d, db|π, φ, t))에 의존하고, 임의로, 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률이 종양 분획, 암 세포 분획 및 하나 이상의 후보 공동 유전자형 각각의 관점에서 서열 데이터를 관찰하는 확률의 가중치 합계(weighted sum)인, 방법.
  3. 제1항 또는 제2항에 있어서, 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 서열 데이터를 관찰하는 확률이 각 샘플에서 암 세포 분획의 모든 가능한 값에 대한 적분(integral)으로서 수득되고, 상기 암 세포 분획이 종양-특이적 돌연변이를 포함하는 종양 세포의 비율인, 방법. 
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 복수의 샘플로부터의 서열 데이터가 수득되고, 상기 복수의 샘플 각각에 대한 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 상기 서열 데이터를 관찰하는 확률이 각 샘플 중의 종양 분획 및 하나 이상의 후보 공동 유전자형의 관점에서 각 샘플의 서열 데이터를 관찰하는 확률의 곱으로서 수득되는, 방법. 
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 프로세서에 의해, 각 샘플에 대해, 종양 분획의 적어도 하나의 추정치, 및 하나 이상의 후보 공동 유전자형의 적어도 하나의 대응하는 세트를 수득하는 것을 추가로 포함하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 서열 데이터를 관찰하는 확률이 각각의 종양 분획 및 적어도 하나 또는 하나 이상의 샘플에 대한 하나 이상의 후보 공동 유전자형의 대응하는 세트의 관점에서 상기 서열 데이터를 관찰하는 복수의 확률을 조합하고, 임의로, 상기 방법이, 프로세스에 의해, 적어도 하나 또는 하나 이상의 샘플에 대해, 종양 분획의 복수의 추정치, 및 하나 이상의 후보 공동 유전자형의 복수의 대응하는 세트를 수득하는 것을 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 돌연변이가 클론성일 사전 확률이 중립 사전(neutral prior), 또는 사전 데이터 및/또는 전문가 지식으로부터 유래하는 값으로 설정되는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 대상체에서 동정된 복수의 종양-특이적 돌연변이에 대해 상기 방법을 반복하는 것을 추가로 포함하고, 임의로 대상체에서 클론성일 이들의 결정된 가능성에 적어도 부분적으로 기초하여 복수의 종양-특이적 돌연변이를 순위 부여하거나 또는 다르게는 우선순위 부여하는 것을 추가로 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 종양 유전자 물질을 포함하는 대상체로부터의 하나 이상의 샘플 및 대상체로부터의 하나 이상의 생식세포계 샘플로부터의 서열 데이터를 임의로 사용하여, 프로세서에 의해, 대상체에서 하나 이상의 종양-특이적 돌연변이를 동정(identifying)하는 것을 추가로 포함하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 종양-특이적 돌연변이가 클론성일 결정된 확률 및/또는 이로부터 유래되거나 이와 연관된 값을, 예를 들면, 사용자 인터페이스(user interface)를 통해 사용자에게 제공하는 것을 추가로 포함하는, 방법.
  11. 대상체에서 하나 이상의 클론성 신항원(neoantigen)을 동정하는 방법으로서, 상기 방법은
    대상체에서 복수의 종양-특이적 돌연변이를 동정하는 단계;
    제1항 내지 제10항 중 어느 한 항의 방법을 사용하여, 하나 이상의 종양-특이적 돌연변이가 대상체에서 클론성일 가능성이 있는지를 결정하는 단계; 및
    하나 이상의 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지를 결정하는 단계를 포함하고,
    여기서, 클론성 신항원은, 종양-특이적 돌연변이가 클론성일 가능성이 있는지에 관한 하나 이상의 소정 기준, 및 종양-특이적 돌연변이가 신항원을 생성할 가능성이 있는지에 관한 하나 이상의 기준을 충족하는 종양-특이적 돌연변이인, 방법.
  12. 제11항에 있어서, 클론성 신항원이,
    소정 역치(predetermined threshold) 초과의 클론성일 확률을 갖는 것, 확률이 결정된 종양-특이적 돌연변이 중에서 클론성일 최고 확률을 갖는 소정 수의 종양-특이적 돌연변이를 선택하도록 적절하게 설정된 역치 초과인 클론성일 확률을 갖는 것, 및 확률이 결정된 종양-특이적 돌연변이 중에서 소정 상위 백분위수(percentile)의 종양-특이적 돌연변이를 선택하도록 적절하게 설정된 역치 초과인 클론성일 확률을 갖는 것으로부터 선택되는 기준을 적어도 충족하는 종양-특이적 돌연변이인, 방법.
  13. 제11항 또는 제12항에 있어서, 클론성 신항원이, 종양 세포에서 발현되는 발현 산물과 연관되는 것, 대상체의 정상 세포에서는 발현되지 않는 단백질 또는 펩티드를 초래하는 것으로 예측되는 것, MHC 분자, 바람직하게는 대상체에 존재하는 것으로 공지되어 있는 MHC 대립유전자에 의해 제시될 가능성이 있는 적어도 하나의 펩티드를 초래하는 것으로 예측되는 것, 및 면역원성인 단백질 또는 펩티드를 초래하는 것으로 예측되는 것으로부터 선택되는 기준을 적어도 충족시키는 종양-특이적 돌연변이인, 방법.
  14. 암을 갖는 것으로 진단된 대상체에 대한 예후를 제공하는 방법으로서,
    상기 방법은
    대상체로부터의 하나 이상의 샘플에서 복수의 종양-특이적 돌연변이를 동정하는 단계 및 제1항 내지 제9항 중 어느 한 항의 방법을 사용하여 종양-특이적 돌연변이 각각이 클론성일 가능성을 결정하는 단계를 포함하는 방법.
  15. 암을 갖는 것으로 진단된 대상체를 위해 면역요법을 제공하는 방법으로서, 상기 방법은
    제11항 내지 제13항 중 어느 한 항의 방법을 사용하여 하나 이상의 클론성 신항원을 동정하는 단계; 및
    동정된 하나 이상의 클론성 신항원을 표적화하는 면역요법을 설계하는 단계
    를 포함하는, 방법.
  16. 제15항에 있어서, 하나 이상의 클론성 신항원을 표적화하는 상기 면역요법이 면역원성 조성물, 면역 세포를 포함하는 조성물, 또는 치료용 항체인, 방법.
  17. 제16항에 있어서, 상기 면역요법이 동정된 하나 이상의 클론성 신항원 중 적어도 하나를 인식하는 T 세포를 포함하는 조성물인, 방법. 
  18. 제17항에 있어서, 상기 조성물은 동정된 하나 이상의 클론성 신항원 중 적어도 하나를 표적화하는 T 세포가 풍부화(enriching)되고, 임의로, 상기 방법은 T 세포의 집단을 수득하는 단계 및 동정된 하나 이상의 클론성 신항원 중 적어도 하나를 표적화하는 T 세포의 수 및 상대적 비율을 증가시키기 위해 T 세포의 집단을 확장하는 단계를 포함하는 방법.
  19. 제18항에 따른 방법에 의해 수득된 또는 수득가능한 T 세포의 집단을 포함하는 조성물.
  20. 암을 갖는 것으로 진단된 대상체를 치료하는 방법으로서, 상기 방법은
    제15항 내지 제18항 중 어느 한 항의 방법 또는 제19항의 조성물을 사용하여 제공된 면역요법을 투여하는 것을 포함하는, 방법.
  21. 프로세서; 및
    프로세서에 의해 실행되면, 상기 프로세서가 제1항 내지 제18항 중 어느 한 항의 방법의 단계를 실행시키는 명령을 포함하는 컴퓨터 판독가능한 매체
    를 포함하는, 시스템.
  22. 하나 이상의 프로세서에 의해 실행되면, 하나 이상의 프로세서가 제1항 내지 제18항 중 어느 한 항의 방법의 단계를 실행시키는 명령을 포함하는, 하나 이상의 비-일시적 컴퓨터 판독가능한 매체(non-transitory computer readable medium).
KR1020237035334A 2021-04-01 2022-04-01 클론성 신항원의 동정 및 이의 용도 KR20230165259A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2104715.4 2021-04-01
GBGB2104715.4A GB202104715D0 (en) 2021-04-01 2021-04-01 Identification of clonal neoantigens and uses thereof
PCT/EP2022/058793 WO2022207925A1 (en) 2021-04-01 2022-04-01 Identification of clonal neoantigens and uses thereof

Publications (1)

Publication Number Publication Date
KR20230165259A true KR20230165259A (ko) 2023-12-05

Family

ID=75883641

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237035334A KR20230165259A (ko) 2021-04-01 2022-04-01 클론성 신항원의 동정 및 이의 용도

Country Status (10)

Country Link
US (2) US11504398B2 (ko)
EP (1) EP4313125A1 (ko)
JP (1) JP2024513781A (ko)
KR (1) KR20230165259A (ko)
CN (1) CN117120080A (ko)
AU (1) AU2022251011A1 (ko)
CA (1) CA3213222A1 (ko)
GB (1) GB202104715D0 (ko)
IL (1) IL306136A (ko)
WO (1) WO2022207925A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB202202880D0 (en) 2022-03-02 2022-04-13 Achilles Therapeutics Uk Ltd Methods for peptide synthesis
GB202205147D0 (en) 2022-04-07 2022-05-25 Achilles Therapeutics Uk Ltd Identification of clonal neoantigens and uses thereof
GB202307096D0 (en) 2023-05-12 2023-06-28 Achilles Therapeutics Uk Ltd Method

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150197785A1 (en) 2012-08-10 2015-07-16 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
KR102341899B1 (ko) * 2013-04-07 2021-12-21 더 브로드 인스티튜트, 인코퍼레이티드 개인맞춤화 신생물 백신을 위한 조성물 및 방법
BR112016012862A2 (pt) 2013-12-06 2017-09-26 Broad Inst Inc formulações para vacinas para neoplasia
WO2015095811A2 (en) 2013-12-20 2015-06-25 The Board Institute Inc. Combination therapy with neoantigen vaccine
ES2836273T3 (es) 2015-04-27 2021-06-24 Cancer Research Tech Ltd Método para el tratamiento del cáncer
TWI750122B (zh) 2015-06-09 2021-12-21 美商博德研究所有限公司 用於贅瘤疫苗之調配物及其製備方法
GB201516047D0 (en) * 2015-09-10 2015-10-28 Cancer Rec Tech Ltd Method
WO2018170578A1 (en) * 2017-03-20 2018-09-27 Ontario Institute For Cancer Research (Oicr) Cancer risk based on tumour clonality
CA3068203A1 (en) 2017-07-14 2019-01-17 The Francis Crick Institute Limited Analysis of hla alleles in tumours and the uses thereof
US20190172582A1 (en) * 2017-12-01 2019-06-06 Illumina, Inc. Methods and systems for determining somatic mutation clonality
IL259392A (en) * 2018-05-15 2018-08-01 Yeda Res & Dev Vaccination with cancer neo-antigens
US11189361B2 (en) * 2018-06-28 2021-11-30 International Business Machines Corporation Functional analysis of time-series phylogenetic tumor evolution tree
CN111785322A (zh) * 2019-12-30 2020-10-16 杭州慕谷基因科技有限公司 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法

Also Published As

Publication number Publication date
WO2022207925A1 (en) 2022-10-06
CA3213222A1 (en) 2022-10-06
IL306136A (en) 2023-11-01
EP4313125A1 (en) 2024-02-07
US11504398B2 (en) 2022-11-22
JP2024513781A (ja) 2024-03-27
US20230071113A1 (en) 2023-03-09
AU2022251011A1 (en) 2023-10-05
US20220323499A1 (en) 2022-10-13
CN117120080A (zh) 2023-11-24
GB202104715D0 (en) 2021-05-19

Similar Documents

Publication Publication Date Title
Leader et al. Single-cell analysis of human non-small cell lung cancer lesions refines tumor classification and patient stratification
Jiménez-Sánchez et al. Unraveling tumor–immune heterogeneity in advanced ovarian cancer uncovers immunogenic effect of chemotherapy
Zhang et al. Investigation of antigen-specific T-cell receptor clusters in human cancers
Newman et al. Determining cell type abundance and expression from bulk tissues with digital cytometry
Anagnostou et al. Evolution of neoantigen landscape during immune checkpoint blockade in non–small cell lung cancer
EP3576781B1 (en) Neoantigens and uses thereof for treating cancer
Wu et al. Inactivation of CDK12 delineates a distinct immunogenic class of advanced prostate cancer
Hundal et al. pVAC-Seq: A genome-guided in silico approach to identifying tumor neoantigens
Giannakis et al. Genomic correlates of immune-cell infiltrates in colorectal carcinoma
Kiyotani et al. Integrated analysis of somatic mutations and immune microenvironment in malignant pleural mesothelioma
KR20230165259A (ko) 클론성 신항원의 동정 및 이의 용도
US11475978B2 (en) Detection of human leukocyte antigen loss of heterozygosity
Morazán-Fernández et al. In silico pipeline to identify tumor-specific antigens for cancer immunotherapy using exome sequencing data
CN116580771A (zh) 预测肿瘤新抗原的方法和装置
Battaglia Neoantigen prediction from genomic and transcriptomic data
WO2023277932A1 (en) Detection of human leukocyte antigen loss of heterozygosity
Barroux et al. Evolutionary and immune microenvironment dynamics during neoadjuvant treatment of oesophagael adenocarcinoma
Ricker et al. Historical perspective and future directions: computational science in immuno-oncology
WO2023194486A1 (en) Identification of clonal neoantigens and uses thereof
Boll et al. Predicting immunotherapy response in advanced bladder cancer: a meta-analysis of six independent cohorts
Li et al. The landscape of antigen-specific T cells in human cancers
Rosenthal Immune editing and surveillance in cancer evolution
Sivakumar High-Throughput computational methods in sequencing and immuno-oncology: Identifying immunogenic mutations and T-cell receptor repertoire dynamics
Borch et al. Immune signatures and targets in human tumors
WO2023146978A2 (en) Systems and methods for determining t-cell cross-reactivity between antigens