KR101966080B1 - 전이의 유전적 분석을 위한 시스템 및 방법 - Google Patents

전이의 유전적 분석을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR101966080B1
KR101966080B1 KR1020187008045A KR20187008045A KR101966080B1 KR 101966080 B1 KR101966080 B1 KR 101966080B1 KR 1020187008045 A KR1020187008045 A KR 1020187008045A KR 20187008045 A KR20187008045 A KR 20187008045A KR 101966080 B1 KR101966080 B1 KR 101966080B1
Authority
KR
South Korea
Prior art keywords
metastasis
single nucleotide
somatic cell
nucleotide variant
filtering
Prior art date
Application number
KR1020187008045A
Other languages
English (en)
Other versions
KR20180090776A (ko
Inventor
존 재커리 산본
Original Assignee
난토믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 난토믹스, 엘엘씨 filed Critical 난토믹스, 엘엘씨
Publication of KR20180090776A publication Critical patent/KR20180090776A/ko
Application granted granted Critical
Publication of KR101966080B1 publication Critical patent/KR101966080B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Public Health (AREA)
  • Physiology (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Ecology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Urology & Nephrology (AREA)
  • Wood Science & Technology (AREA)
  • Microbiology (AREA)
  • Hematology (AREA)
  • Zoology (AREA)

Abstract

고려된 시스템 및 방법은 원발성 종양 및 전이에서 발견되는 체세포 단일 뉴클레오타이드 변이체의 확인 및 분류를 사용하여 전이의 계통발생을 결정한다.

Description

전이의 유전적 분석을 위한 시스템 및 방법
본 출원은 2015년 8월 25일에 출원된 출원번호 제62/209,850호의 공동 계류중인 US 가출원에 대한 우선권을 주장한다.
본 발명의 분야는 원발성 종양 및 그의 전이의 유전적 정보의 컴퓨터 분석이며, 특히 그것은 전이 및 이들의 유전적 기원에서 아집단(sub-populations)의 유전적 분화 및 계통발생에 관한 것이다.
배경 설명은 본 발명을 이해하는데 유용할 수 있는 정보를 포함한다. 그것은 본원에 제공된 임의의 정보가 선행 기술이거나 현재 청구된 발명과 관련이 있거나, 명시적으로 또는 암시적으로 언급된 임의의 간행물이 선행 기술임을 인정하는 것은 아니다.
본원에 언급된 모든 간행물 및 특허 출원은 각각의 개별 간행물 또는 특허 출원이 구체적으로 그리고 개별적으로 참조로 포함되도록 표시된 것과 동일한 정도로 참조로 본원에 포함된다. 포함된 참고문헌에서의 용어의 정의 또는 사용이 본원에 제공된 용어의 정의와 모순되거나 상반되는 경우, 본원에 제공된 용어의 정의가 적용되며 참고문헌에서의 용어의 정의는 적용되지 않는다.
많은 다른 고형 종양에서와 마찬가지로, 흑색종 전이는 종종 원발성 종양의 영역을 배수시키는 림프절에 먼저 존재하는 반면, 원격 전이는 나중에 나타나는 경향이 있다. 흑색종이 원발성 종양으로부터 지역 전이 내지 원격 전이로의 선형 진행을 따른다는 결론은 치유 목적으로 지역 림프절을 먼저 수술적으로 제거하는 것을 옹호하였다. 그러나, 몇 가지 관찰은 원격 전이가 지역 전이와 동시에 초기에 시딩(seed)된다는 것을 시사하였다. 전이를 갖는 림프절 구역의 절제술을 받는 환자는 기대 수명이 크게 연장되지 않는다. 또한, 순환성 흑색종 세포는 전이가 지역적으로만 검출된 환자의 26%의 혈액에서 검출되었다. 불행하게도, 현재의 결정은, 특히 다수의 전이가 존재하는 경우, 종양 전반(dissemination) 및 계통발생에 더 상세한 통찰력을 종종 제공하지 못한다.
WO2014/058987호에 기재된 한 가지 공지된 방법에서, 종양 클론성은 대립유전자 상태도(allelic state diagram)를 사용하여 오믹스(omics) 데이터로부터 결정된다. 이러한 분석은 종양의 클론 다양성, 및 아마도 심지어 서브클론 계통발생에 대한 가치있는 통찰력을 제공하지만, 이러한 분석은 일반적으로 상이한 부위 또는 시점에서의 종양 및 이들의 전이로부터의 오믹스 데이터에 적용될 수 없다.
따라서, 특히 전이 및 이들의 유전적 기원에서 아집단의 유전적 분화 및 계통발생 분석과 관련된 것과 같은, 원발성 종양 및 그의 전이의 유전적 정보의 컴퓨터 분석을 위한 개선된 시스템 및 방법이 여전히 필요하다.
발명의 요약
본 발명의 대상은 전이의 계통발생을 결정하기 위해 종양 및 그의 전이로부터의 오믹스 데이터를 분석하는 시스템 및 방법에 관한 것이다. 바람직하게는, 분석은 종양 및 전이 샘플에서 체세포 단일 뉴클레오타이드 변이체의 엄격한 결정 및 상태, 및 체세포 단일 뉴클레오타이드 변이체(SSNV)의 완전 공유(fully shared) SSNV, 부분(partially) SSNV, 개인(private) SSNV, 또는 부존재(absent) SSNV로서의 분류를 포함한다. 이렇게 분류된 SSNV는 이후에 원발성 종양 및 그의 전이에 대한 계통발생 프로파일의 계산을 가능하게 해준다.
본 발명의 대상의 일 측면에서, 본 발명자는 동일한 환자의 원발성 종양, 제1 전이, 제2 전이, 및 비-종양 조직으로부터 복수의 각각의 핵산 서열을 제공하는 단계를 포함하는 전이의 계통발생을 결정하는 방법을 고려한다. 추가 단계에서, 동일한 환자의 비-종양 조직으로부터의 핵산 서열와 비교하여 원발성 종양, 제1 전이, 및 제2 전이에 대해 체세포 SSNV가 결정되고, 또 다른 단계에서, 상기 원발성 종양, 제1 전이, 및 제2 전이로부터의 핵산 서열 각각에 대해 각각의 SSNV에 대한 상태(예컨대, '존재' 또는 '부존재')가 결정된다. 가장 전형적으로, 상기 상태는 이후에 각각의 SSNV를 부류(class) (예컨대, 완전 공유, 부분 공유, 개인, 또는 부존재)로 분류하는데 사용되고, 상기 분류는 원발성 종양, 제1 전이, 및 제2 전이에 대한 계통발생 프로파일을 계산하는데 사용된다.
본 발명의 대상에 제한되는 것은 아니지만, SSNV를 결정하는 단계가, 예를 들어, 오류 확률 모델(error probability model)을 사용하여, 원발성 종양, 제1 전이, 및 제2 전이에 대한 모든 가능한 유전자형의 가능성의 계산을 포함하는 것이 전형적으로 바람직하다. 더욱이, 특히 상기 결정된 체세포 단일 뉴클레오타이드 변이체가 이종접합인 경우, 그렇게 결정된 SSNV가 하나 이상의 필터링 기준을 사용하여 추가로 필터링될 수 있음이 고려된다. 예를 들어, 필터링 기준은 유전자형 품질, 체세포 스코어, 맵핑 품질, 미스매치의 품질 합계, 미스매치의 평균 수, 3'-말단까지의 단편적인 거리(fractional distance)에 의한 필터링, 및/또는 돌연변이체 대립유전자 깊이에 의한 필터링을 포함한다. 다른 추가로 고려되는 측면에서, SSNV 부류 각각은 SSNV의 구성원의 최소 수(예컨대, 적어도 3개)의 존재를 필요로 할 수 있으며, SSNV 각각은 최소 서열 대상영역(sequencing coverage)이 필요할 수 있다(예컨대, < 1의 99% 신뢰 구간으로 종양 변이체 백분율을 확립하기 위해).
따라서, 그리고 또 다른 관점에서 볼 때, 본 발명자는 또한 분석 엔진을 서열 데이터베이스에 정보적으로 결합시키는 단계를 포함하는 전이의 계통발생을 결정하는 방법을 고려하며, 여기서 서열 데이터베이스는 동일한 환자의 원발성 종양, 제1 전이, 제2 전이, 및 비-종양 조직으로부터 복수의 핵산 서열을 저장한다. 추가의 단계에서, 분석 엔진은 이후에, 전형적으로 오류 확률 모델을 사용한 가능한 유전자형에 대한 가능성의 결정을 사용하여, 동일한 환자의 비-종양 조직으로부터의 핵산 서열과 비교하여 원발성 종양, 제1 전이, 및 제2 전이에 대한 SSNV를 결정한다. 분석 엔진은 원발성 종양, 제1 전이, 및 제2 전이 각각에 대해 완전 공유 SSNV, 부분 공유 SSNV, 개인 SSNV, 및 부존재 SSNV를 추가로 확인하고, 상기 완전 공유 SSNV, 부분 공유 SSNV, 개인 SSNV, 및 부존재 SSNV에 기초하여 원발성 종양, 제1 전이, 및 제2 전이에 대한 계통발생 프로파일을 계산한다.
특히 고려되는 측면에서, 핵산 서열은 엑솜 핵산 서열 또는 전체 게놈 핵산 서열일 수 있고/있거나 SAM 또는 BAM 형식일 수 있다. 더욱이, 체세포 단일 뉴클레오타이드 변이체를 결정하는 단계가 원발성 종양, 제1 전이, 및 제2 전이에 대한 모든 가능한 유전자형의 가능성을 컴퓨팅하는 단계를 포함한다는 것이 일반적으로 고려된다. 특히 상기 결정된 체세포 단일 뉴클레오타이드 변이체가 이종접합인 경우, 그렇게 결정된 SSNV는 이후에 추가의 필터링을 거칠 수 있다. 적합한 필터는 유전자형 품질, 체세포 스코어, 맵핑 품질, 미스매치의 품질 합계, 미스매치의 평균 수, 3'-말단까지의 단편적인 거리에 의한 필터링, 및/또는 돌연변이체 대립유전자 깊이에 의한 필터링을 포함한다. 또한, 본원에 제공된 방법은 또한 체세포 단일 뉴클레오타이드 변이체에 대한 대립유전자 상태를 결정하는 단계, 및/또는 복제 갯수 수차(aberration)를 결정하는 단계를 포함할 수 있음이 고려된다.
본 발명의 대상의 다양한 목적, 특징, 측면 및 이점은 동일한 숫자가 동일한 구성 요소를 나타내는 첨부된 도면과 함께 바람직한 구현예의 하기의 상세한 설명으로부터 더욱 명백해질 것이다.
도 1은 상이한 환자로부터의 원발성 종양 및 이들의 전이에서 SSNV의 상태를 예시적으로 나타낸다.
도 2는 SSNV의 상태에 기초하여 선택된 환자에 대한 원발성 종양 및 이들의 전이의 계통발생 프로파일을 개략적으로 도시한다.
도 3a 및 3b는 선택된 환자의 종양, 염색체 3, 20, 및 14를 따라 이종접합 SNP의 대립유전자 비율, 및 원발성 종양 및 전이의 위치에 대한 예시적인 분산 그래프를 나타낸다.
도 3c 및 3d는 원발성 종양 및 전이 사이의 모든 SSNV에 대한 TVP, 및 원발성 종양 및 전이의 위치를 상호관련시키는 예시적인 플롯을 나타낸다.
도 4는 선택된 환자에 대한 전이성 서브클론 형성, 출발, 및 도착의 통합된 묘사를 개략적으로 나타낸다.
흑색종은 다른 암과 마찬가지로 종양 세포 내의 유전적 변이의 축적을 통해 발생하고 진화하는 것으로 보인다. 따라서, 동일한 환자로부터의 원발성 종양과 지역 및 원격 전이에서 체세포 돌연변이를 비교하는 것은 구별되는 종양 세포 집단 사이의 계통발생 관계 및 전이성 전반(metastatic dissemination)의 순서에 관한 통찰력을 제공할 수 있다. 이러한 분석은 또한 전이하는 원발성 종양 내의 세포가 새로운 유전적 변이를 통해 다른 해부학적 부위에 전반하고 시딩하는 능력을 획득하였는지, 또는 전이성 콜로니화가 단순히 원발성 종양 내의 모든 세포가 가능하지만 성공하는 세포는 적은 확률적인 과정인지에 관한 질문에 대한 답을 제공할 수 있다.
발견을 위한 전체 엑솜 시퀀싱, 및 유효성 확인을 위한 표적 시퀀싱을 사용하여, 본 발명자는 8명의 환자 각각에서 원발성 흑색종 및 2개 이상의 전이의 돌연변이 패턴을 분석하여 이들의 계통발생 관계를 결정하였다. 표적 요법을 받지 않은 전이성 흑색종 환자의 종양 샘플을 시퀀싱함으로써, 본 발명자는 전이를 시딩하는 원발성 종양 내의 세포의 유전적 진화를 추적할 수 있었다. 본 발명자는 또한 원발성 종양 내의 구별되는 세포들이, 종종 공통의 모계 세포 아집단으로부터 진화한 후에, 동시에 여러 번 출발하여 전이를 시딩한다는 것을 보여줄 수 있었다. 주목할 만하게도, 본 발명자는 또한 단일 전이가 원발성 암에서 발견되는 둘 이상의 세포 집단에 의해 설립될 수 있음을 발견하였다. 이러한 메커니즘은 중대한 유전적 다양성이 다수의 전이에서 어떻게 자연적으로 발생하여 성장 및 약물 내성을 유발하는지 보여줄 뿐만 아니라, 특정 돌연변이가 전이될 세포를 구별할 수 있음을 나타낸다.
전이의 계통발생을 결정하는 한 가지 예시적인 방법에서, 원발성 종양 샘플 및 전이가 환자로부터 수집되고, 전형적으로 신선 동결되거나 직접 핵산 추출된다. 대부분의 경우 게놈 및/또는 엑솜 분석이 바람직하지만, RNA 시퀀싱으로부터 추가적인 또는 유사한 정보가 또한 수득될 수 있다. 핵산 단리는 일반적으로 공지된 프로토콜을 따를 것이다. 마찬가지로, 시퀀싱은 다양한 방식으로 수행될 수 있지만, 고처리량 및 차세대 시퀀싱이 특히 바람직하다. 그 결과, 환자 특이적 단일 뉴클레오타이드 변이체를 확인하기 위해, 동일한 환자의 원발성 종양, 제1 전이, 제2 전이, 및 전형적으로 또한 비-종양 조직으로부터 핵산 서열이 수득될 수 있다. 물론, 서열 데이터는 FASTA, SAM, BAM, GAR, 또는 원시 형식 등을 포함하는 다양한 형식일 수 있고, 페어드-엔드(paired-end) 리드(read) 또는 단일 리드일 수 있음에 유의해야 한다. 더욱이, 상기 서열 리드는 추가로 처리되거나(예컨대, 정렬기에서, 또는 사용자 부가 메타데이터에 의해), 시퀀싱 장치로부터 직접 사용되거나, 선택 후 데이터베이스 또는 다른 데이터 캐리어에 저장될 수 있다.
다음 단계에서, 바람직하게는 원발성 종양, 제1 전이, 및 제2 전이에 대한 모든 가능한 유전자형의 가능성을 계산함으로써 SSNV를 결정한다. 가장 정확한 결과를 얻기 위해, SSNV는 전형적으로 하기에 더 상세히 추가 설명되는 오류 확률 모델 및 하나 이상의 엄격한 필터링 공정을 사용하여 계산된다. 필터링시, 환자의 각각의 SSNV의 상태를 추가적인 조건부 필터를 사용하여 원발성 종양 및 각각의 전이에 대해 계산한 다음, 상기 상태를 사용하여 SSNV를 다양한 그룹(즉, 완전 공유 SSNV, 부분 공유 SSNV, 개인 SSNV, 부존재 SSNV)로 분류한다.
이러한 방법은 다량의 매우 복잡하고 해석하기 어려운 데이터를 사용하고 이들 데이터를 게놈 또는 엑솜에서 가장 가능성 있는 구성으로 높은 정확도로 단순화하며, 따라서 하기에 추가 설명되는 바와 같이 계통발생을 추적하는 것을 실질적으로 용이하게 한다는 것을 특히 이해해야 한다. 물론, 이러한 시스템은 일반적으로 컴퓨팅 환경의 문맥에서 사용되는데, 본원에 기재된 분석이 인간에 의해 평생 동안 수행될 수 없기 때문이다. 더욱이, 본원에 제시된 고려된 시스템 및 방법은 다른 정렬 및 분석 방법에 비해 데이터 처리 속도 및 정확도를 실질적으로 증가시키고, 따라서 SSNV의 컴퓨터 구동 분석의 기능 및 결과를 개선한다는 점에 유의해야 한다.
컴퓨터 또는 컴퓨팅 장치에 관한 임의의 언어는 서버, 인터페이스, 시스템, 기기, 데이터베이스, 에이전트, 피어(peer), 엔진, 컨트롤러, 모듈, 또는 개별적으로, 집합적으로, 또는 협동적으로 작동하는 다른 유형의 컴퓨팅 장치를 포함하는, 컴퓨팅 장치의 임의의 적합한 조합을 포함하는 것으로 해석되어야 함에 유의한다. 컴퓨팅 장치는 유형의 비-일시적인 컴퓨터 해독가능한 저장 매체(예컨대, 하드 드라이브, FPGA, PLA, 솔리드 스테이트 드라이브, RAM, 플래쉬, ROM, 등) 상에 저장된 소프트웨어 명령을 실행하도록 구성된 하나 이상의 프로세서를 포함한다는 것을 이해해야 한다. 소프트웨어 명령은 컴퓨팅 장치가 상기 개시된 장치와 관련하여 하기 논의된 역할, 책임, 또는 다른 기능을 제공하도록 구체적으로 구성하거나 프로그래밍한다. 또한, 상기 개시된 기술은 프로세서가 컴퓨터 기반의 알고리즘, 공정, 방법, 또는 다른 명령의 구현과 관련된 개시된 단계를 실행할 수 있게 하는 소프트웨어 명령을 저장하는 유형의 비-일시적 컴퓨터 해독가능한 매체를 포함하는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 일부 구현예에서, 다양한 서버, 시스템, 데이터베이스, 또는 인터페이스는, 아마도 HTTP, HTTPS, AES, 공공-개인 키 교환, 웹 서비스 API, 공지된 금융 거래 프로토콜 또는 다른 전자 정보 교환 방법에 기초한 표준화된 프로토콜 또는 알고리즘을 사용하여 데이터를 교환한다. 장치간 데이터 교환은 패킷 교환 네트워크, 인터넷, LAN, WAN, VPN, 또는 다른 유형의 패킷 교환 네트워크; 회선 교환 네트워크; 셀 교환 네트워크; 또는 다른 유형의 네트워크를 통해 수행될 수 있다.
본원 명세서에서 그리고 후속 청구범위 전반에 사용된 바와 같이, 시스템, 엔진, 서버, 장치, 모듈, 또는 다른 컴퓨팅 요소가 메모리 내의 데이터에 대해 기능을 수행 또는 실행하도록 구성된 것으로 기재되는 경우, "구성되는" 또는 "프로그래밍되는"의 의미는 메모리에 저장된 목표 데이터 또는 데이터 객체에 기능 세트를 실행하기 위해 컴퓨팅 요소의 메모리에 저장된 소프트웨어 명령의 세트에 의해 프로그래밍되는 컴퓨팅 요소의 하나 이상의 프로세서 또는 코어로서 정의된다.
따라서, 그리고 상이한 관점으로부터 볼때, 본 발명자는 분석 엔진이 동일한 환자의 원발성 종양, 제1 전이, 제2 전이, 및 비-종양 조직으로부터의 복수의 핵산 서열을 저장하거나 제공하는 서열 데이터베이스 또는 하나 이상의 시퀀싱 장치에 정보적으로 결합될 수 있음을 고려한다. 분석 엔진은 이후에, 바람직하게는 하기에 더 상세히 추가 설명된 오류 확률 모델을 사용하여, 동일한 환자의 비-종양 조직으로부터의 핵산 서열과 비교하여 원발성 종양, 제1 전이, 및 제2 전이에 대한 SSNV를 결정한다. 분석 엔진은 이후 원발성 종양, 제1 전이, 및 제2 전이 각각에 대해, 완전 공유 SSNV, 부분 공유 SSNV, 개인 SSNV, 및 부존재 SSNV를 확인하고, 상기 완전 공유 SSNV, 부분 공유 SSNV, 개인 SSNV, 및 부존재 SSNV에 기초하여 원발성 종양, 제1 전이, 및 제2 전이에 대한 계통발생 프로파일을 계산한다.
상기 방법 및 시스템을 사용하여, 그리고 또한 하기에 보다 상세히 제공된 바와 같이, 본 발명자는 이들의 계통발생 관계를 밝히기 위해 8명의 환자로부터 원발성 흑색종 및 다수의 매치된 전이의 전체 엑솜 시퀀싱을 수행하였다. 8명의 환자 중 6명에서, 본 발명자는 원발성 종양 내의 유전적으로 구별되는 세포 집단이, 하나의 부위로부터 다음 부위로 순차적이 아니라, 동시에 상이한 해부학적 부위로 전이하였음을 확인하였다. 이들 6명 환자 중 5명에서, 전이 세포 자체는 원발성 종양 내의 공통된 모계 아집단으로부터 발생하였는데, 이는 전이를 확립하는 능력이 늦은 진화 특성일 수 있음을 나타낸다. 흥미롭게도, 본 발명자는 또한 개별 전이가 때로는 유전적으로 구별된 원발성 종양의 다수의 세포 집단에 의해 설립되었음을 확인하였다. 이러한 다수의 종양 아집단에 의한 전이의 확립은 전신 요법에 대한 초기 반응 후에 상이한 부위에서 동일한 내성 변이체가 확인되는 이유를 설명하는데 도움을 줄 수 있다. 예를 들어, 하나의 원발성 종양은, 동일한 전이로 전파된, CTNNB1 내에 상이한 종양원성 돌연변이를 갖는 2개의 서브클론 가지고 있었는데, 이는 시험 모델에 의해 시사된 바와 같이, WNT 신호전달의 활성화가 관여할 수 있다는 가능성을 제기한다.
실시예
연구 설계 및 종양 샘플: 종양 샘플을 1) MIA(이전에는 시드니 흑색종 유닛)를 통해 1996년부터 사전 동의 및 IRP 승인을 받은 신선 동결된 종양의 전향 수집물인 호주 흑색종 협회(MIA) 생물검체 은행; 및 2) MSKCC의 기관 감사 위원회 및 인간 생물검체 이용 위원회에 의해 규정된 요구사항에 따라 획득되고 관리된 신선 동결된 종양의 생물검체 수집물인 메모리얼 슬로안-케터링 암 센터(MSKCC)의 종양 조달 서비스로부터 수득하였다. 원발성 흑색종 및 2개 이상의 전이를 이용할 수 있었던 환자로부터의 종양이 포함되었다. 연구 과정 중에 어떠한 샘플도 제외되지 않았다. 추가적인 제외 기준은 없었다.
초기 증상 및 병기 시점에 림프절 전이를 갖는 환자(SLNB)는 B, D, E, 및 F였다. 다수의 양성 림프절이 검출된 경우, 시퀀싱을 위해 하나만을 취하였다. 이들 환자는 표적 치료제의 출현 전에 프로파일링되었고, 종양을 보관하기 전에 인터페론이나 임의의 전신 화학요법을 투여받지 않았다.
분석을 위해 선택된 보관된 신선 동결된 종양 전이 샘플을 병리학자에 의해 검토하고, 존재하는 종양 세포 및 괴사의 백분율에 대해 점수를 매겼다. 관련된 병리학적 데이터를 관련된 림프절의 수, 가장 큰 전이 크기 및 림프절외 확산의 존재에 대해 수득하였다.
DNA 단리 및 시퀀싱: 해부된 조직으로부터 적어도 5 마이크로그램의 DNA 및 말초 혈액으로부터 매칭 DNA를 각각 DNeasy 키트(Qiagen) 및 Flexigene 키트(both Qiagen)를 사용하여 추출하였다. 시퀀싱을 위해, 종양 및 정상적인 조직으로부터의 약 1.0 μg 게놈 DNA를 코바리스(Covaris) E220 음향 초음파기 상에서 150 bp의 평균 길이로 초음파 처리에 의해 절단하였다. v4 엑솜 + UTR 바이트 라이브러리(bait library)를 갖는 애질런트 슈어셀렉트(SureSelect) 엑솜 캡처 키트를 이용한 올리고뉴클레오타이드 기반의 하이브리드 캡처를 사용하여 약 71 메가베이스의 코딩 서열 및 비번역 영역을 표적화하였다. 일루미나 HiSeq2000 시스템을 사용한 합성을 통한 시퀀싱(Sequencing-by-synthesis)은 >90%의 염기에서 150x배 대상영역 (coverage)을 받는 85%를 초과하는 표적화된 지역을 야기하였다.
체세포 단일 뉴클레오타이드 변이체(SSNV) 호출(calling): 일루미나 FASTQ 데이터 형식의 원시 시퀀싱 데이터를 생어 염기호출(Sanger basecall) 형식으로 코딩된 염기 품질 스코어를 갖는 FASTQ 파일로 변환하였다. 다음으로, 리드를 BWA 정렬기를 사용하여 정렬하였다(Genome Res 18(11):1851-1858). 이 정렬기는 버로우즈-휠러(Burrows-Wheeler) 변환을 기반으로 하고, 페어드-엔드 리드를 정렬하며, 삽입-결실(indel)을 강력하게 처리한다. BWA의 출력은 SAM 형식(정렬된 서열 데이터에 대한 현재 표준 파일 형식)의 정렬된 리드이다. 이후, SAM 형식으로 저장된 리드를 샘툴즈(samtools) 소프트웨어를 사용하여 바이너리 BAM 형식으로 변환하였다(Bioinformatics 25(16):2078-2079). 리드가 정렬되고 인덱싱된 BAM 파일 형식이면, 리드의 위치 기반 검색을 신속히 처리하여 데이터 저장 요건을 최소화하였다. 다음으로, PCR 중복으로 인한 잘못된 돌연변이 호출을 제거하기 위해, 브로드 연구소(Broad Institute)(URL: sourceforge.net/projects/picard/)에 의해 개발된 피카드(Picard) 소프트웨어 패키지에 포함된 분석 도구인 마크듀플리케이츠(MarkDuplicates)를 사용하여 모든 중복 리드를 제거하였다. 중복 리드를 제거한 후, 브로드 연구소(URL: www.broadinstitute.org/gatk/#Introduction)에 의해 개발된 GATK 소프트웨어에 포함된 카운트코베리에이츠(CountCovariates) 및 테이블리캘큘레이션(TableRecalibration) 도구를 사용하여 염기 품질 점수를 재보정하였다.
종양 및 매치된 정상적인 BAM 파일을 하기 방법으로 단일 뉴클레오타이드 변이체에 대해 분석하였다. 종양 및 매치된 정상 모두에서 맵핑 품질 ≥ 20과 함께 ≥ 8 독특한 것(비-중복 리드)를 갖는 시퀀싱된 염기를 MAQ 오류 모델을 사용하여 모든 가능한 유전자형(AA, AT, AC, 등)의 가능성을 컴퓨팅하는데 사용하였다. 이 문맥에서, 새로운 시퀀싱 기술 중 일부는 매우 짧은 리드를 생성하여 효과적으로 처리하는 새로운 알고리즘을 필요로 한다는 것에 유의한다. 특히, 짧은 리드를 참조 게놈에 효율적으로 정렬하고 이 정렬에서 모호성 또는 정확성 결여를 처리하는데 있어 실질적인 문제가 발생한다. 이를 위해, 오류 모델은 맵핑 품질(리드가 실제로 맵핑 알고리즘에 의해 정렬된 위치에서 나오는 신뢰도의 척도)이 고려되는 경우에 특히 바람직하다. 예를 들어, MAQ는 2배체(인간) 게놈의 공통 서열의 유전자형 호출을 도출하는 품질 스코어를 사용하여, 샷건 짧은 리드를 참조 게놈에 맵핑함으로써 어셈블리를 만들 수 있다. MAQ는 메이트-페어(mate-pair) 정보를 최대한 활용하고 각각의 리드 정렬의 오류 확률을 추정한다. 오류 확률은, 가장 바람직하게는 맵핑 품질, 원시 서열 품질 스코어로부터의 오류 확률, 2개의 일배체형(haplotype)의 샘플링, 및 부위에서 상호관련된 오류에 대한 경험적 모델을 통합하는 베이지안(Bayesian) 통계 모델을 사용하여, 최종 유전자형 호출에 대해 도출될 수 있다. 예를 들어, 적합한 베이지안 통계 모델은 샘툴즈(samtools) 소스 코드에서 이용가능하다. 2개 미만의 리드가 현재 위치에서 임의의 비-참조 대립유전자를 지지한다면, 상기 위치를 동종접합 참조로 간주하고 추가적인 분석을 수행하지 않는다.
유전자형 가능성을 참조에 대한 사전 확률, 인간 게놈에서 이종접합 위치의 비율, 정상적인 유전자형을 종양 유전자형으로 변환하는 확률을 통합하는, 체세포 스나이퍼 방법(Bioinformatics 28(3):311-317)에 의해 사용된 베이지안 모델에서 사용하였다. 각각의 종양/정상적인 유전자형 쌍을 이 모델을 사용하여 점수를 매겼다. 주어진 데이터를 고려하여 가장 높은 가능성을 갖는 유전자형 쌍을 가장 가능성이 높은 종양 및 정상적인 유전자형으로 선택하였다. 종양 및 정상 모두에서 참조 대립유전자에 대해 동종접합인 것으로 결정된 임의의 위치는 추가로 분석하지 않았다.
종양 및 정상적인 유전자형이 동일하면, 상기 변이체를 생식계열(germline)로 분류하였다. 정상적인 유전자형이 이종접합이고 종양 유전자형이 동종접합인 경우는 이형접합성 소실(LOH)의 지역을 제시하며, 이러한 변이체는 그렇게 분류되었다. 생식계열 또는 LOH 중 하나로 분류된 변이체의 경우, 쌍을 이룬 유전자형의 로그(log)-가능성을 사용하여 생식계열 변이체의 프레스-스코어드(Phred-scaled) 품질/신뢰도를 계산하였다. 다른 모든 변이체를 체세포 돌연변이로 분류하였고 이들의 체세포 점수(SS)를 계산하였다.
종양 및/또는 정상적인 유전자형이 참조 대립유전자에 대해 동종접합이 아닌 임의의 위치의 경우, 총 리드의 수, 대립유전자 리드의 수, 평균 염기 및 맵핑 품질, 맵핑 품질 = 0을 갖는 리드의 수, 변이체 또는 참조 대립유전자를 갖는 리드에서 미스매치의 수 및 품질 합, 리드의 3' 말단까지의 변이체의 거리, 및 정방향/역방향 가닥에 정렬된 리드의 수를 포함하는, 많은 측정 기준을 계산하였다. 모든 추정 변이체 및 이들의 관련된 측정 기준을 VCF 형식으로 변환하고 하기 필터(Bioinformatics 28(3):311-317)를 적용하였다: conf: 유전자형 품질 또는 체세포 스코어 ≥ 100; dp: 총 깊이(정상 + 원발성의 DP) ≥ 8; mq0: 맵핑 품질= 0 리드의 # 수 < 5; sb: 돌연변이체 대립유전자 가닥 바이어스 p-값 > 0.005. (이항 시험); mmqs: 미스매치의 품질 합계(리드당) = 20; amm: 미스매치의 평균 수(리드당) = 1.5; detp: 3'까지의 단편적인 거리 < 0.2 또는 > 0.8; ad: 종양에서 돌연변이체 대립유전자 깊이 ≥ 4; gad: 정상에서 돌연변이체 대립유전자 깊이 = 3; 및 ma: 위치에 있는 2개의 대립유전자만이 리드 지지 ≥ 2를 갖는다.
상기 모든 필터를 통과한 변이체를 이들의 VCF 기록의 필터 컬럼에서 통과(PASS)로 표시하였다. 그렇지 않은 경우, 변이체가 실패한 각각의 필터의 이름을 대신 기록하였다. 각각의 종양 샘플(즉, 원발성 종양 또는 전이)에 대해 단일 VCF 파일이 생성되었다.
뮤텍트(mutect)와 비교한 본 발명의 방법을 사용한 SSNV 호출: 변이체 분석 파이프라인의 교차 유효성 확인을 단일 시리즈(환자 RPA08-0209로부터 1개의 원발성 종양 및 3개의 전이)에 대한 브로드의 뮤텍트(Mutect)(Nat Biotechnol 31(3):213-219) 호출을 사용하여 수행하였다. 환자의 매치된 정상을 대조군으로서 사용하여 뮤텍트를 그의 기본(default) 구성에서 실행하였다. 이후, 각 종양 대 매치된 정상에 대해 뮤텍트에 의해 수행된 필터링된 변이체 호출의 세트를, 본원에 제시된 변이체 호출기(caller)에 의해 이뤄진 변이체 호출과 동일하게 사후 처리하여, 각각의 확인된 변이체를 완전 공유(모든 샘플에 존재함), 개인(하나의 샘플에만 존재함), 또는 그렇지 않으면 모든 샘플이 아닌 둘 이상의 샘플에서 발견되는 것으로 분류하였다. 이후, 뮤텍트에 의해 수행된 RPA08-0209 시리즈에 대한 변이체 호출의 분류된 세트를 본원에 제시된 방법에 의해 확립된 변이체 호출과 비교하였다.
전체적으로, 2,301개의 변이체가 동일한 카테고리의 두 세트에서 발견되었다. 추가의 732개의 변이체는 뮤텍트 세트에 독점적이었고 229개의 변이체는 본 발명의 방법에 독점적이었다. 뮤텍트 세트에 독점적인 732개의 변이체 중에서, 617개의 완전 공유 변이체(84%), 105개의 개인 변이체(14%), 및 다른 샘플 조합에 존재하는 추가의 10개의 변이체(1%)가 있었다. 본 발명의 방법에 독점적인 229개의 변이체 중에서, 208개는 완전 공유(91%)로서 분류되었고, 10개는 개인(4%)으로서 분류되었고, 11개는 다른 샘플 조합(5%)에서 발견되었다. 주목할 만하게도, 뮤텍트 세트에서 발견된 변이체의 일부가 본 발명의 방법에서 호출되지 않은 이유를 조사한 결과, 뮤텍트 세트 내의 617개의 완전 공유 변이체 중 611개의 변이체가 본 발명의 방법에 의해 호출되었지만 필터링되었다. 두 개의 필터 MMQS 및 AMM은 이들 호출의 대부분을 필터링하는 역할을 담당하였다. 이러한 필터들은 열악한 품질 및/또는 잘못 정렬된 리드에 의해 유발된 위양성의 수를 줄이기 위해 많은 수의 다른 미스매치된 염기를 갖는 시퀀싱 리드 상에 위치한 변이체를 버린다. 뮤텍트 세트에 독점적인 105개의 개인 변이체 중 88개는 본 발명의 방법에 의해 호출되지 않은 반면(84%), 17개는 필터링되었다(16%). 예상대로, 이들 88개의 변이체는 낮은 대체 대립유전자 빈도를 가지고 있었고, 이를 포함시키는 것은 뮤텍트 돌연변이 모델의 주요 장점이다. 그러나, 낮은 대립유전자를 갖는 개인 변이체가 발산후(post-divergence) 이들 종양의 발달 동안 늦게 발생했을 가능성이 높기 때문에, 이들은 계통발생 분석에 대한 제한된 정보를 제공한다.
엑솜 시퀀싱 입력 데이터에 대해 권고된 바와 같이 그의 깊이 필터가 꺼져 있는 것을 제외하고 기본 매개변수를 사용하여 스트렐카(Strelka; Bioinformatics 2012 Jul 15;28(14):1811-7)에 의해 삽입-결실 호출을 수행하였다. 스트렐카에 의해 호출된 모든 체세포 삽입-결실을 각각의 샘플에 대해 수집하였다. 이후, 각각의 삽입-결실에 대한 존재/부존재 상태를, 상기 기재된 바와 같이, 치환 SSNV가 처리된 방법과 동일한 방식으로 환자 시리즈의 샘플에 대해 결정하였다.
개별 환자에서 SSNV 검출 상태의 분류: 주어진 환자로부터의 임의의 샘플에서 발견된 모든 변이체를 조합하여 그 변이체가 모든 샘플에 존재하는지 여부를 결정하였다. 시리즈의 모든 샘플에서 하나 이상의 필터를 실패한 변이체를 제거하였다. 시리즈의 적어도 하나의 샘플에서 통과로 표시된 변이체의 경우, 전체 리드 깊이, 참조 및 대체 대립유전자 깊이, 실패한 필터(존재하는 경우), 뿐만 아니라 변이체의 일반 정보, 예컨대 단백질 변화, 변이체 분류, 및 동일한 위치에서 돌연변이를 갖는 COSMIC 데이터베이스 내의 샘플의 수(Release v55 (Nucleic Acids Res 39(Database issue):D945-950))를 포함하는, 시리즈 내의 모든 샘플에 대한 변이체의 샘플 특이적 측정기준을 수집하였다. 상기 열거된 ≥ 8 독특한 리드의 필터 기준은 시리즈 내의 샘플 중 하나에서 낮은 분율로 존재하는 변이체를 놓칠 수 있는 가능성을 허용하였다. 이 가능성을 설명하기 위해, 시리즈의 매치된 정상을 포함하는 모든 샘플에 대한 참조 및 대체 대립유전자 리드 깊이를 각각의 샘플의 BAM 파일 내의 원시 시퀀싱 데이터를 사용하여 업데이트하여, 염기 품질 ≥ 20을 갖는 참조 및 대체 대립유전자의 수를 집계하였다.
개별 변이체에 대한 상술한 엄격한 통과 표시에 기초하여, 각각의 체세포 변이체를 환자의 각각의 샘플에 대해 존재 또는 부존재로 분류하였다. 1) 변이체가 샘플에서 통과로 호출되는 경우 또는 2) 변이체가 샘플의 원시 시퀀싱 데이터에서 임의의 깊이에서 검출되고 동일한 환자의 적어도 하나의 다른 샘플에서 통과로 호출되는 경우, 변이체를 존재로 분류하였다. 변이체가 동일한 환자의 적어도 하나의 다른 샘플에서 통과로 호출되지만, 문제되는 샘플에 대한 원시 시퀀싱 데이터에서 임의의 증거가 부족한 경우, 변이체를 부존재로 분류하였다. 환자의 모든 샘플에서 존재로 분류된 체세포 변이체를 상기 환자에서의 모든 종양이 이러한 변이체를 공유하면 완전 공유로 추가 분류하였는데, 이는 이들이 상기 변이체를 갖는 공통의 조상 세포로부터 유래되었음을 나타낸다. 다른 모든 변이체를 비-완전 공유로 분류하였는데, 이는 이들이 이후에 발생하는 진화 분기에 존재함을 나타낸다.
환자의 모든 샘플에 걸쳐 동일한 존재/부존재 상태를 갖는 SSNV의 부류를 샘플 간의 계통발생 관계에 대해 추가 분석하였다. 가장 큰 증거에 의해 뒷받침되는 부류에 초점을 맞추기 위해, 하기가 필요하였다: 1) 부류당 적어도 3개의 SSNV 및 2) 각각의 구성원 SSNV는 < 1의 99% 신뢰 구간을 갖는 TVP를 확립하기에 충분한 서열 대상영역을 갖는다(예컨대, 모든 샘플에 대한 평균 정상 세포 오염을 고려할 때, 이 역치는 중복의 제거 후 ≥ 42 리드였음). 약하게 뒷받침된 변이체 호출(예컨대, 모든 종양 및 매치된 정상에서 총 리드 깊이 < 42 리드)은 게놈의 열악하게 포획된 지역 또는 오프타겟 지역에서 발견되는 경향을 보인다는 것이 추가로 관찰되었고, 이는 이들의 배제를 추가로 정당화한다.
이러한 역치를 만족하고 하기와 같은 부류로 분류된 SSNV의 수는 하기 도 1표 1에 나타낸다. 도 1에는, 전이성 전반 동안 진화적 발산이 예시적으로 도시되어 있다. 또한 높은 신뢰도 복제갯수 추정치를 산출하는 8명의 환자 중 7명에 대하여, 각각의 종양 조직에서의 SSNV의 수가 나타나 있다. 모든 종양에 존재하는 완전 공유 SSNV의 수가 하단의 컬럼 그래프에 표시되어 있다. 모든 샘플에 존재하지 않는 SSNV의 수가 상단 컬럼 그래프에 나타나 있다. 모든 샘플에 존재하지 않는 SSNV는 각각의 샘플에 대해 SSNV의 계층으로 더 세분화된다: 다른 종양과 부분적으로 공유된 것(진한 회색), 샘플에 대해 개인적인 것(환자의 하나의 샘플에만 존재함, 밝은 회색), 및 샘플에서 검출되지 않는 것(흰색). 3개 미만의 SSNV를 갖는 계층은 표시되어 있지 않다. P는 존재를 나타내고, A는 부존재를 나타내며, 위치가 괄호안에 표시되어 있다.
Figure 112018028208485-pct00001
Figure 112018028208485-pct00002
TERT에서의 프로모터 돌연변이(Science 339(6122):957-959)를 수동으로 검사하였고, C228T 돌연변이가 환자 F 및 G의 종양에서 검출되었고, C250T 돌연변이가 환자 A, C, 및 D의 종양에서 발견되었다. 상기 돌연변이는 환자 F의 원격 등(back) 전이를 제외하고 모든 환자의 모든 종양에서 완전 공유되었지만, 단지 20개의 리드가 이 위치를 커버하였는데, 그것은 존재하지만 불충분하게 샘플링되었을 가능성이 높았다.
이온 토렌트 유효성 확인 시퀀싱: 각각의 샘플로부터, 앰플리콘을 등몰량으로 모으고, 10-100 ng을 이온 엑스프레스 플러스 프래그먼트 라이브러리 키트(Ion Xpress Plus Fragment Library Kit)에 입력하였다. 시퀀싱 템플레이트를 이온 PGM(Ion PGM) 템플레이트 OT2 200 키트를 사용하여 이온 원터치 2(Ion OneTouch 2) 상에서 유탁액 PCR을 사용하여 생성하였다. 최대 12개의 바코드 샘플을 이온 318 v2, 또는 이온 316 v2 칩 상에서 다중화하였다. 시퀀싱을 이온 PGM 200 v2 시퀀싱 키트를 사용하여 퍼스널 게놈 머신(PGM) 시퀀서(Ion Torrent) 상에서 수행하였다. 토렌트 수트(Torrent Suite) 소프트웨어 버전 4.0.2를 사용하여 리드를 hg19에 대해 정렬하였다. 리드를 IGV v 2.2.32(Broad Institute)를 사용하여 시각화하였고, 변이체 대립유전자 빈도를 일루미나 시퀀싱을 통해 이전에 확인된 부위에 대해 결정하였다.
복제 갯수 수차의 호출(CNAS): 본원에서 CNA로 불리는 복제 갯수 수차/변이체를 위해, 종양에서 측정된 리드 깊이를 엑손 내의 각각의 위치에 대한 매치된 정상에서의 리드 깊이로 나누어 각각의 캡처된 엑손에 대해 평균 종양 대 매치된 정상 상대 대상영역 및 표준 편차를 계산하였다. 종양 및 매치된-정상 모두에서 불충분하게 커버된 엑손(평균 리드 깊이 < 5 리드)을 나머지 분석에서 제외하였다. 평균 상대 대상영역을 LOWESS 회귀를 사용하여 GC 바이어스에 대해 보정하였다. 종양 및 매치된 정상 모두에서의 평균 다수 대립유전자 비율을 정상적인 조직에서 적어도 하나의 이종접합 SNP를 갖는 엑손에 대해 계산하였다:
Figure 112018028208485-pct00003
,
Figure 112018028208485-pct00004
상기 식에서
Figure 112018028208485-pct00005
Figure 112018028208485-pct00006
는 가장 큰 리드 지지를 갖는 생식계열 대립유전자의 리드 깊이이고,
Figure 112018028208485-pct00007
Figure 112018028208485-pct00008
는 각각 종양 및 매치된 정상에서 상기 위치에서의 총 리드 깊이이다. 상대 대상영역는 종양에서 관찰된 대상영역을 매치된-정상의 대상영역으로 나눔으로써 간단하게 결정되며, 즉,
Figure 112018028208485-pct00009
이다.
Figure 112018028208485-pct00010
추정치의 표준 편차를 적어도 3개의 이종접합 SNP를 특징으로 하는 엑손에 대해 계산하였다.
CNA를 결정하기 위해, 상기 계산된 엑손 수준의 통계를 계층적 클러스터링과 유사한 병합 공정에서 더 큰 세그먼트로 반복적으로 집계하였다. 첫 번째 라운드에서, 인접한 엑손의 모든 쌍을 분석하였다. 유의하게 상이한 상대 대상영역 및
Figure 112018028208485-pct00011
(이종 SNP를 갖는 엑손의 경우에만) 추정치(p>0.999, 2-샘플 스튜던트 t-검정)를 갖지 않은 인접한 엑손을 단일 세그먼트로 병합하였다. 새로운 세그먼트에 대한 평균 상대 대상영역 및
Figure 112018028208485-pct00012
를 2개의 개별적인 엑속 측정의 염기쌍 수 조절된 평균 및 표준 편차로서 계산하였다. 이 절차를 동일한 방법을 사용하여 인접한 세그먼트에서 계속하였다. 더 이상 세그먼트가 병합될 수 없으면, 1,000개 미만의 리드 및/또는 10개 이종접합 SNP를 갖는 임의의 세그먼트 또는 엑손을 제외하였는데, 이들의 약한 통계가 이들의 바로 이웃이 함께 병합되는 것을 방해할 수 있기 때문이다. 이 세그먼트와 엑손을 제거한 후, 반복 병합의 또 다른 라운드를 수행하여, 더 이상 양립가능한 세그먼트가 남아 있지 않을 때까지 양립가능한 임의의 새롭게 인접하는 세그먼트를 조합하였다. 모든 세그먼트의 상대 대상영역 추정치는 정상적인 복제갯수 상태를 나타내는 1.0의 값에 할당된 전체 게놈의 중앙값에 집중되었다. 다수 대립유전자의 리드 지지가 대립유전자 복제갯수의 근본적인 불균형 대신에 샘플링 바이어스로부터 발생할 때 유발된
Figure 112018028208485-pct00013
추정치의 왜곡을 매치된 정상적인 샘플에서 추정된
Figure 112018028208485-pct00014
를 차감함으로써 보정하였다. 그러나, 이러한 샘플링 바이어스는 두 대립유전자가 대략 동일한 복제갯수를 갖는 지역에서만 발생하기 때문에, 하기 방정식을 사용하여 보정하였다:
Figure 112018028208485-pct00015
이후, 세그먼트 및 엑손의 보정된 세트를 수동으로 검토하여, 모든 인접한 세그먼트가 동일한 대립유전자 상태를 공유한다는 것을 나타내는 유사한 상대 대상영역 및
Figure 112018028208485-pct00016
추정치를 갖는 인접한 세그먼트의 더 큰 지역을 검색하였다. 지역 j의 경우, 상기 지역의 상대 대상영역 및 대립유전자 비율은 하기에
Figure 112018028208485-pct00017
Figure 112018028208485-pct00018
로 불리는, 지역 내의 모든 세그먼트의 추정치의 평균으로서 정의된다.
상대 대상영역 및 대립유전자 비율로부터 대립유전자 상태의 결정: 2배체(1,1) 또는 단일 복제물 증가(copy gain)(2,1)와 같은 필수적인 대립유전자 상태는 하기 방정식에 기초하여 주어진 대립유전자 상태 i에 대해 예상된 복제갯수 CN(2개의 이전 실시예의 경우 2 및 3), 및 대립유전자 비율 AF(2개의 이전 실시예에 대해 50/50 및 66.6/33.3)를 가질 것이다:
Figure 112018028208485-pct00019
Figure 112018028208485-pct00020
상기 식에서,
Figure 112018028208485-pct00021
,
Figure 112018028208485-pct00022
은 종양에서 i-번째 대립유전자 상태에 대한 다수 및 소수 대립유전자의 복제갯수이고,
Figure 112018028208485-pct00023
은 매치된-정상 샘플에서 각각의 대립유전자의 복제갯수이며(2배체인 것으로 가정됨,
Figure 112018028208485-pct00024
), α는 종양 샘플에서 정상 오염물의 비율이다.
상기 관찰된 상대 대상영역 및 대립유전자 비율 추정치를 생성할 가능성이 가장 높은 대립유전자 상태를 결정하기 위해, 상기 관찰된 데이터를 가능한 대립유전자 상태의 세트로부터의 복제갯수 및 대립유전자 비율의 예상 값으로 변환시키는 3개의 매개변수를 결정하였다. 상기 3개의 매개변수는 다음과 같다: 정상 오염의 비율 α, 상대 대상영역 델타 d, 및 상대 대상영역 스케일링 인자(scaling factor) s. α 매개변수는
Figure 112018028208485-pct00025
Figure 112018028208485-pct00026
에 대한 예상된 추정치를 제어하는 반면, 후자의 2개의 매개변수는 상대 대상영역의 관찰된 추정치를 변환한다. 매개변수 ds 는 하기 방정식에 따라 2배체 대립유전자 상태(1,1)로부터 세그먼트의 상대 대상영역 추정치의 y-축 이동 및 스케일에 영향을 미친다:
Figure 112018028208485-pct00027
상기 식에서,
Figure 112018028208485-pct00028
는 관찰된 상대 대상영역이고,
Figure 112018028208485-pct00029
는 세그먼트 j의 관찰된 상대 복제갯수이다.
종양 샘플의 모든 지역에서 최소 제곱 평균 제곱근 편차(RMSD)를 찾아내는 가파른 경사 하강 탐색법(Gradient Steepest Descent Search)을 사용하여 이들 3개의 매개변수에 대한 최적 값을 발견하였다.
Figure 112018028208485-pct00030
Figure 112018028208485-pct00031
를 가장 가까운 대립유전자 상태의 예상 값과 비교함으로써 지역 j의 최소 편차를 결정하였다:
Figure 112018028208485-pct00032
최소 편차를 생성하는 대립유전자 상태 i(
Figure 112018028208485-pct00033
,
Figure 112018028208485-pct00034
를 현재의 매개변수 세트를 고려하여 지역 j에 대해 가장 가능성이 있는 대립유전자 상태로서 기록하였다. 이후, 가장 큰 지역 대비 더 짧은 지역이 RMSD 계산에 미치는 영향을 표준화하기 위해, 모든 지역의 RMSD를 게놈 폭
Figure 112018028208485-pct00035
에 의해 가중치화된 모든 지역의 최소 편차의 합의 제곱근으로서 계산하였다:
Figure 112018028208485-pct00036
탐색을 각각의 매개변수의 초기 값의 세트(d=0, s=2, 및 α=0.1), 및 각각의 매개변수에 대한 증분의 세트
Figure 112018028208485-pct00037
,
Figure 112018028208485-pct00038
, 및
Figure 112018028208485-pct00039
(d 는 0.2씩 증가하는 0에서 1의 범위임(5 단계), s 는 0.5씩 증가하는 0.5 내지 4의 범위임(5 단계), 및 α 는 0.2씩 증가하는 0.1 내지 0.9의 범위임(4 단계))로 시작하였다. 각각의 매개변수 p 및 매개변수 증분
Figure 112018028208485-pct00040
의 경우, RMSDp, p+p x , 및 p-p x 에 대해 계산하였다. RMSD가 가장 크게 감소시킨 매개변수 값을 상기 매개변수에 대한 새로운 현재 값으로 선택하였다. 모든 매개변수의 현재 값 및 이들의 증분된 대응물을 사용하여 RMSD의 새로운 세트를 계산하였고, 상기 새로운 세트로부터 매개변수의 값에 대한 다음 업데이트의 선택 등을 수행하였다. 현재의 매개변수 증분을 이용하여 RMSD를 감소시킬 수 없으면(즉, 3개의 매개변수의 현재 값이 가장 낮은 RMSD를 가짐), 각각의 증분을 절반으로 나누어 탐색을 재개한다. 이러한 매개변수 분할의 3라운드 후, 탐색이 완료하고, 상기 3개의 매개변수의 최종 값을 최적 적합 매개변수로서 기록하였다. 경사 하강 탐색은 극소점(local minima)으로 떨어질 수 있으므로, 적합 매개변수의 일관된 세트에 수렴될 때까지 상이한 초기 매개변수를 이용하여 경사 탐색 과정을 여러 번 수행하였다. 이후, 수동 과정에서, 매개변수의 최종 세트를 사용한 예상된 추정치 및 관찰된 추정치를 비교하여 경사 탐색이 좋은 해답을 찾았는지 결정하였다.
적합 매개변수의 일관된 세트가 많은 매개변수 초기화 후에 결정될 수 없거나, 또는 최적 적합 매개변수가 수동 검토시 관찰된 데이터를 적절히 모델링하지 못한 경우, 합리적인 적합이 찾아질 때까지 3개의 매개변수를 수동으로 조정하였다. 총 5 x 5 x 4 = 100 시작점을 사용하였다.
본 발명자들은 ds에 대한 최적 적합 값을 사용하여 상대 대상영역을 보정하는, 분산 플롯 상의 모든 세그먼트에 대해 상대 대상영역 및 대립유전자 비율 추정치를 그래프로 나타내는 인터랙티스 웹 기반 도구를 사용하였다. 몇 가지 대립유전자 상태(예컨대 (1,1), (2,1), (2,0) 등)의 위치를 알파에 대한 최적 적합 값에 의해 조정한 후 이들의 위치를 이 그래프 상에 중첩시켰다. 큰 클러스트가 대립유전자 상태의 위치와 겹치는지 살펴보기 위하여 대립유전자 상태의 위치를 세그먼트의 클러스터와 비교하였다. 상기 관찰된 데이터는 모든 또는 대부분의 큰 클러스터가 대립유전자 상태에 집중될 때 적합 매개변수에 의해 "적절하게" 모델링되었다. 많은 큰 클러스터가 대립유전자 상태 상에서 발견되지 않으면, 더 나은 적합이 수동으로 결정될 수 있는지 살펴보기 위하여 인터랙티스 도구를 사용하여 매개변수 d, s, 및 α를 조정하였다.
매개변수의 확정된 세트를 사용하여 전술한 방식으로 각각의 지역 j 에 대해 가장 가까운 대립 유전자 상태를 결정하였다. 2개의 대립유전자 상태 사이에 위치하는 관찰된 복제갯수 및 대립유전자 비율 추정치를 갖는 지역은 그들의 상대 대상영역 및 대립유전자 비율에 기초하여 그들이 "잠재적인" 서브클론임을 나타내었고, 이는 이후 하기에 상세히 기재된 TVP 추정치를 통해 검증되거나 무효화되었다. 대립유전자 상태의 정확한 혼합물을 하기 기재된 방법으로 결정하였다.
각각의 환자에서 발견된 총 독특한 복제갯수 변이체를 결정하는 것: 각각의 체계화된 세그먼트의 경우, 모든 복제갯수 상태의 독특한 세트를 환자의 모든 종양 샘플에 대해 확인하였다. 지역이 샘플에서 서브클론이면, 관찰된 복제갯수 상태를 생성하기 위해 조합될 수 있는 2개의 필수적인 복제갯수 상태를 상기 세트에 추가하였다. 이후, 복제갯수 상태의 독특한 세트를 추론하였다. FISH 분석(하기)은 A-G에서 우세한 (1,1) 2배체 상태를 지지하였기 때문에, (1,1) 대립유전자 상태가 검출되면, 상기 지역이 복제갯수 변이체를 갖지 않는다고 추론하였다. 모든 샘플이 동일한 이상(abberant) 상태(즉 (1,1) 이외)를 공유하면, 상기 변이체는 완전 공유로 결정하였다. 모든 샘플이 아닌 일부 샘플에서 복제 갯수 수차를 입증하는, 다른 모든 나머지 복제갯수 상태는 비-완전 공유로서 정의하였다. 완전 공유, 비-완전 공유 상태의 수, 뿐만 아니라 서브클론 대립유전자 상태를 갖는 샘플의 총 수를 각각의 체계화된 세그먼트에 대해 집계하였다.
SSNV에 대한 종양 변이체 백분율(TVP) 및 99% 신뢰 구간의 계산: 본 발명자들은 각각의 SSNV를 함유한 샘플에서 종양 세포의 비율(TVP)을 계산하고자 하였다. 대조적으로, 돌연변이의 대립유전자 빈도는 각각의 SSNV를 함유한 모든 DNA 가닥의 비율이며, 더 높은 복제갯수 및 정상적인 오염은 상기 비율에 영향을 미친다. 따라서 SSNV를 함유하는 DNA 가닥의 비율을 상기 가닥을 함유하는 종양 세포의 비율로 변환하는 것이 필요하다. 이 비율을 결정하기 위한 원칙적 통계적 접근법은 샘플의 정상적인 세포 오염, SSNV에서의 복제갯수 상태, 및 그의 참조 및 돌연변이체 대립유전자의 리드의 수의 추정치를 필요로 하였다.
TVP를 계산하기 위해, 종양 세포의 2개의 집단 A 및 B가 있고 집단 A에서 나온 종양 세포의 비율이 종양 변이체 비율(TVP)인 것으로 가정하였다. 또한, 각각의 집단은 균질하므로, 집단 A 내의 모든 세포에는 SSNV 위치를 커버링하는 DNA의
Figure 112018028208485-pct00041
가닥(또는 복제물)이 있고 이들 가닥의
Figure 112018028208485-pct00042
은 SSNV를 함유하는 것으로 가정하였다. B 집단에 대한
Figure 112018028208485-pct00043
Figure 112018028208485-pct00044
를 유사하게 정의하였다. 이후, 정상적인 오염이 없으면, SSNV의 대립유전자 빈도를 하기와 같이 쓸 수 있다:
Figure 112018028208485-pct00045
정상적인 오염이 있으면, 세포의 비율 α는 각각 2 가닥의 DNA에 기여하는 정상 세포이며, 가정에 의해, 이는 SSNV를 함유하지 않는다. 이 경우, SSNV의 대립유전자 빈도는 다음이 된다:
Figure 112018028208485-pct00046
TVP를 풀기 위해 이 방정식을 뒤집으면
Figure 112018028208485-pct00047
그러나, 서브클론 SSNV를 탐색할 때, 정의에 의해, 하나의 클론에서는 발견되지만 다른 클론에서는 발견되지 않는 돌연변이만 관심이 있으므로, 이러한 특정한 경우에는,
Figure 112018028208485-pct00048
또는
Figure 112018028208485-pct00049
이다. 분석을 단순화하기 위해, 2개의 집단 A 및 B가 동일한 총 복제갯수 상태를 갖는 지역만을 고려하면,
Figure 112018028208485-pct00050
이고,
Figure 112018028208485-pct00051
, 즉, A 클론에서 하나의 복제물만이 돌연변이되었다고 가정할 수 있다. 이것은 방정식을 단순화시킨다:
Figure 112018028208485-pct00052
각각의 SSNV에 대해, 본 발명자들은 변이체 리드의 수를 그 위치에서의 총 리드의 수로 나누어 대립유전자 빈도를 계산하였다. R에서의 이항 시험(binom.test) 함수를 사용하여 대립유전자 빈도의 추정치에 대해 표준 99% 이항 CI를 계산하였다. 이후, 상기 TVP에 대한 식을 사용하여 이들을 TVP에 대한 추정치 및 99% 신뢰 구간으로 변환하였다.
종양 서브클론을 정의하는 SSNV의 특징적인 그룹: 연구에서의 많은 수의 SSNV는 단일 SSNV만을 근거로 종양 서브클론을 확인할 때 허위 위양성 위험을 증가시킨다. 따라서 본 발명자들은 샘플 사이의 TVP에서 일치하는 변화를 나타내는 SSNV의 그룹을 탐색하였는데, 이는 구별되는 종양 서브클론의 존재를 훨씬 더 크게 지지할 것이다. 이러한 일치하는 변화를 확인하기 위해, 정상 복제갯수의 지역에 대해서만, 하나의 종양으로부터의 모든 SSNV의 TVP를 그 환자의 각각의 다른 종양에서의 TVP에 대해 매핑하였다. 생성된 그래프를 공유된 클론 SSNV(1,1의 TVP)와 구별되는 SSNV의 클러스터의 증거에 대해 육안으로 조사하였다. 이러한 패턴은 하나의 환자(환자 C)에서만 검출되었다. 상기 환자의 각 샘플로부터의 SSNV를 그들의 TVP 값에 대한 역치에 따라 그룹으로 분할하였다. 상기 역치를 오츠(Otsu)의 방법(Otsu N (1979) A Threshold Selection Method from Gray-Level Histograms. IEEE Transactions on Systems, Man and Cybernetics 9(1):62-66)에 의해 결정하였고, 이는 한 세트의 값을 2개의 그룹으로 나눈 다음 총 그룹내 분산을 최소화하는 역치를 선택하는 모든 가능한 역치를 시험하는 무차별 접근을 이용한다. 각 샘플에 대해 선택된 역치, t_원발성 = 0.55, t_국소지역1 = 0.29, 및 t_국소지역2 = 0.35를 통합하여 환자의 종양에 대한 SSNV 그룹의 세트를 정의하였다. 조합 방식으로 각 역치 위 및 아래의 지점을 선택함으로써 총 6개의 그룹이 가능하였고, 예컨대, 3개의 역치의 모든 조합이 만들어질 때까지 그룹 1은 > t_원발성, > t_국소지역1, 및 > 국소지역2인 지점의 세트이고, 그룹 2는 < t_원발성, >t_국소지역1, 및 < t_국소지역2인 지점의 세트이다. 2개 미만의 SSNV를 갖는 그룹은 제거되었다. 도 4에 표시된 4개의 나머지 그룹은 하기와 같이 설명된다: 그룹 #1/yellow (> t_원발성, > t_국소지역1, > t_국소지역2) = 855 SSNV; 그룹 #2/blue (< t_ 원발성, > t_국소지역1, > t_ 국소지역 2) = 142 SSNV; 그룹 #3/red (< t_ 원발성, > t_국소지역1, < t_ 국소지역 2) = 20 SSNV; 그룹 #4/green (< t_ 원발성, < t_국소지역1, > t_ 국소지역 2) = 15 SSNV.
그룹 #1의 SSNV에 대한 TVP는 도 3b에서 왼쪽으로 확장되어, 0.55에 접근한다. 가장 낮은 TVP를 갖는 이러한 그룹 #1 SSNV 일부가 실제로 서브클론이 많을 수 있음이 이론적으로 가능하다. 그러나, 이것이 사실이라면, 이들은 여전히 블루 그룹 #2 SSNV와 동일하게 분리되어, 국소지역 전이 1 및 2 모두에서 완전한 클론 풍부에 도달하므로, 전이를 설립하는 세포 집단에 관한 결론을 바꾸지 않을 것이다.
CNA에 대한 종양 변이체 백분율(TVP) 및 99% 신뢰 구간의 계산: 본 발명자들은 다수 대립유전자(이전 단락에 기재됨)의 대립유전자 빈도의 바이어스-보정된 추정치를 사용하여 각각의 CNA 지역에 대한 TVP를 계산하였는데, 이는 CNA를 함유하는 종양 내의 세포의 비율을 나타낸다. 정상적인 세포 오염 추정치 α가 주어지면, 다수 대립유전자 상태 A 및 소수 대립유전자 상태 B를 갖는 종양 세포의 백분율을 하기 방정식을 사용하여 계산하였다:
Figure 112018028208485-pct00053
Figure 112018028208485-pct00054
는, 매치된 정상 DNA에서 세그먼트가 2배체인 것으로 가정할 때, 각각 A 및 B 대립유전자 상태의 다수 대립유전자 복제갯수 및 총 복제갯수이다. TVP 값이 1.0보다 크거나 0.0보다 작으면, 이 범위 내에 있도록 끝을 잘랐다. TVP의 추정치가 0.5보다 작으면, 대립유전자 상태 A가 우성 클론으로 남도록 AB 대립유전자 상태를 바꾸었다.
CNA 지역에 대한 TVP에 대한 방정식의 유도는 SSNV에 대해 이전에 기재된 것을 따른다. 여기서의 차이점은 대립유전자 빈도가 단일 뉴클레오타이드에서의 돌연변이의 대립유전자 빈도라기보다는 다수 대립유전자 가닥의 대립유전자 빈도이며, 및 다수 대립유전자의 복제갯수(
Figure 112018028208485-pct00055
)가 돌연변이를 함유하는 복제갯수(
Figure 112018028208485-pct00056
)를 대신한다는 것이다. 또한, CNA에 대해 상이한 복제갯수 변이를 갖는 집단 A 및 B를 비교하는데 관심이 있으므로, 본 발명자들은 SSNV의 분석에서 만들어진
Figure 112018028208485-pct00057
, 및
Figure 112018028208485-pct00058
의 값에 관한 단순화 가정을 더 이상 하지 않았다.
지역 내에 함유된 SNP에서의 대립유전자의 빈도에 의해 결정되고 다음 섹션에 기재된 바이어스에 대해 보정된 바와 같이, 상기 식을 다수 대립유전자의 AF의 추정치에 적용하여 TVP의 추정치를 결정하였다. 상기 식을 AF의 상부 및 하부 99% 부트스트랩 신뢰 구간에 적용함으로써 TVP의 신뢰 구간을 계산하였다. TVP의 신뢰 구간이 0.01보다 크고 0.99보다 작으면, 상기 체계화된 지역이 2개의 대립유전자 상태의 혼합인 것으로 간주하였고, 따라서 서브클론으로 간주하였다. 하기에 더 상세히 설명된 바와 같이 AF의 이러한 추정치 및 신뢰 구간이 신뢰성있게 계산될 수 있는 CNA만을 TVP의 추정에 고려하였다.
CNA에 대한 종양 변이체 백분율(TVP)의 계산시 SNP 대립유전자 빈도에서 바이어스의 소스 보정: CNA의 TVP를 계산하기 위해, 본 발명자들은 먼저 다수 대립유전자로부터 유래된 모든 세포 내의 DNA의 가닥의 수로서 정의된 다수 대립유전자의 대립유전자 빈도를 추정하였다. 이를 수행하기 위해, 지역 내의 개별 SNP를 사용하였고, 이들 각각은 다수 대립유전자 빈도의 독립적인 추정치를 제공하며, 이를 조합하여 대립유전자 빈도의 단일 추정치를 얻는다.
Figure 112018028208485-pct00059
앞서 설명한 바와 같이, 평균 다수 대립유전자 비율은 하기와 같이 정상 조직에서 이종접합 SNP에 대해 간단히 계산된다
Figure 112018028208485-pct00060
상기 식에서,
Figure 112018028208485-pct00061
는 가장 큰 리드 지지를 갖는 생식계열 대립유전자의 리드 깊이이고,
Figure 112018028208485-pct00062
은 종양 내의 위치 i에서의 총 리드 깊이이다. 전체 게놈 시퀀싱 데이터에서처럼 SNP를 포괄적으로 단계별로 분석하는 것이 가능하였다면, SNP 전체의 대립유전자 빈도의 무작위적 변화는 평균 0.5가 될 것이다. 그러나, 본 연구에서처럼 단계전 분석은 엑솜 시퀀싱 데이터에서 매우 제한적이기 때문에, 본 발명자는 SNP를 단계적으로 분석하기 위해서뿐만 아니라 대립유전자 빈도를 추정하기 위해 리드 깊이에 의존하였다. 이것은 확률적 샘플링 오류(즉, 50%를 약간 초과하는 값)의 결과로서 "다수" 대립유전자의 오인을 기반으로 작고 영구적인 바이어스를 생성하며, 상기 바이어스는 진정한 대립유전자 빈도가 0.5에 가까울 때, 즉 두 대립유전자가 동일한 복제갯수를 갖는 지역에서 더 크다. 바이어스는 또한 시퀀싱 깊이에 따라 다르며, 더 큰 깊이를 갖는 SNP는 덜 바이어스된 추정치를 생성한다.
CNA 지역을 확인하고 및 그들의 복제갯수를 추정하는데 있어서, 본 발명자들은 그들의 복제갯수 상태에 관한 정보를 필요로 하지 않고 바이어스를 보정하기 위해 정상에서의 SNP에 대해 관찰된 AF를 사용하는 것에 의존한 방식으로 이 바이어스를 설명하였다. CNA 지역에 대한 TVP 계산을 위해 AF를 계산하는데 있어서, 본 발명자들은 복제갯수 상태가 정확하게 확인되었다고 가정하고, 이 설정에서 본 발명자들은 확률론적 모델에 기초하여 SNP 특이적 바이어스 보정을 보다 공식적으로 계산하였다.
CNA에 대해, 지역의 우성 클론이 확인되었고, 이 우성 클론이 대립유전자 특이적 복제갯수 C, 예를 들어 C= (2,1)을 갖는다고 가정한다. C
Figure 112018028208485-pct00063
로 명명된, 정상 오염 α에 대해 조정된, 우성 클론 내의 다수 대립유전자에 대한 대립유전자 빈도를 의미한다. 이후, 개별 SNP의 대립유전자 빈도의 보정된 추정치는 다음과 같이 제시된다
Figure 112018028208485-pct00064
Figure 112018028208485-pct00065
는 이항 모델을 기반으로 대립유전자 빈도 p에 대한 예상된 바이어스이며 상기 SNP의 시퀀싱 깊이에 특이적이다. g(C)는 동일한 우성 클론 복제갯수 C를 갖는 CNA 내의 모든 SNP에 적용된 추가 바이어스 보정이며,
Figure 112018028208485-pct00066
g(C)의 결정은 하기에 보다 상세히 설명된다.
본 발명자들은 CNA 지역 내의 모든 SNP에 대해
Figure 112018028208485-pct00067
를 계산하였고, 분석을 시퀀싱 깊이 m>50을 갖는 SNP로 제한하였고, 정상 조직이
Figure 112018028208485-pct00068
을 갖는 SNP로 제한하였다. 또한, g(p)는 하기에 보다 상세히 설명된 바와 같이 일부 우성 클론 값에 대해 신뢰할만하게 추정될 수 없었다. 전체 CNA 지역의 대립유전자 빈도를 추정하기 위해, n 개별
Figure 112018028208485-pct00069
추정치의 중앙값을 취하였다(여기서, n 은 CNA 지역 내의 SNP의 수임).
본 발명자들은 비모수 부트스트랩(non-parametric bootstrap)을 통해 대립유전자 빈도의 99% 신뢰 구간을 계산하였다:
Figure 112018028208485-pct00070
값을 재샘플링하고 중앙값을 계산한 다음, 5,000번 반복함. 99% 신뢰 구간은 0과 1(포함) 사이가 되도록 절단된, 부트스트랩 재샘플링 분포의 0.025 및 0.975 분위수(quantile)이다.
Figure 112018028208485-pct00071
의 유도: 각각의 SNP에 대해, 진정한 대립유전자 빈도 p를 알고 있는 경우, 이항 분포,
Figure 112018028208485-pct00072
하에서
Figure 112018028208485-pct00073
의 예상된 바이어스를 계산할 수 있고; 다음에 오는 첨자 i는 간단함을 위해 생략된다. 시퀀싱 깊이 m은 일반적으로 크므로, 예상된 바이어스에 대한 정규 근사가 사용되었다:
Figure 112018028208485-pct00074
상기 식에서,
Figure 112018028208485-pct00075
Figure 112018028208485-pct00076
및 Φ는 각각 표준 정규 분포 및 누적 분포(CDF) 함수이다. p>0.6의 경우,
Figure 112018028208485-pct00077
는 일반적으로 무시할 수 있다. 이것은 대립유전자-빈도의 초기 바이어스-보정된 추정치를 제공한다
Figure 112018028208485-pct00078
상기 식에서, p는 정상 오염 α에 대해 조정된((1,1) 및 (2,2) 지역 내의 SNP에 대해 p=0.5 이도록) CNA 내의 우성 클론에 대한 대립유전자-특이적 복제갯수에 의해 암시된 대립유전자 빈도인 것으로 본다. 다시, 우성 클론에 대해 p=0.5를 갖는 지역에 대해서만, 이 바이어스 보정은 무시할 수 없을 것이다. 이러한 CNA 지역에서, 상기 지역이 진정으로 서브클론이면, 이 추정치는 일반적으로 바이어스의 과대평가일 것이므로, 서브클론 지역의 검출을 보다 보수적으로 만들 것이다(
Figure 112018028208485-pct00079
은 0.5에 가까워질 것이므로).
g(C)의 유도: 이 접근법을 사용하여 결과를 면밀히 조사한 결과 모두는 아니지만 일부 바이어스가 이 확률적 모델에 의해 설명되었다(따라서
Figure 112018028208485-pct00080
를 차감함으로써 보정됨). 예상된 바이어스
Figure 112018028208485-pct00081
를 p=0.5를 갖는 지역으로부터 나온 수천 개의 SNP에서
Figure 112018028208485-pct00082
의 관찰된 값과 비교한 경우,
Figure 112018028208485-pct00083
가 관찰된 데이터의 바이어스를 약간 과소평가하였음이 관찰되었다. 더욱이, 이 차이는 다른 샘플마다 달랐고, 또한 정상적인 SNP(
Figure 112018028208485-pct00084
)를 그들의 예상된 바이어스와 비교할 때 관찰된 것과 달랐다. 0.5가 아닌 예상된 다수 대립유전자 빈도를 갖는 지역(따라서, 대립유전자 빈도를 계산하는데 있어 바이어스에 의해 영향을 받지 않음)에서 예상된 대립유전자 빈도 및 관찰된 대립유전자 빈도 사이에서 유사한 차이가 관찰되었다. 일부 샘플의 경우, 이것이 서브클론성 때문이 아니라 공유된 바이어스였음을 관찰하는 충분한 수의 유사한 대립유전자 복제갯수의 지역이 있었다. 서브클론성의 추정치는 관찰된 대립유전자 빈도 및 예상된 대립유전자 빈도 사이의 차이를 발견하는 것에 기초하므로, 이 차이는 서브클론성을 잘못 검출하게 할 수 있다.
이러한 체계적인 바이어스가 지속될 수 있는 몇 가지 이해되는 이유가 있다. 예를 들어, 참조 게놈에 맵핑함으로써, 데이터베이스 또는 SSNV에서 누락되는 SNP는 성공적인 맵핑을 감소시키고 임의의 대립유전자를 선호할 것이다. 이러한 다른 형태의 체계적 바이어스의 영향을 줄이기 위해, 본 발명자들은 g(C)로 표시된, 동일한 대립유전자 복제갯수(예컨대 (1,0))를 갖는 모든 SNP에서 이 차이의 중앙값을 계산함으로써, 각각의 SNP의 관찰된 대립유전자 빈도를 추가 보정하였다. 본 발명자들은
Figure 112018028208485-pct00085
로부터 g(C)를 차감한 후 대립유전자 빈도의 최종 바이어스-보정된 추정치를 계산하였다. 본 발명자들은 이것을 강력하게 수행할 수 있는 충분한 수의 지역을 갖는 종양 샘플에 대해서만 수행하여 어떠한 지역도 대립유전자 빈도의 예상된 값의 조정에 과도하게 영향을 미치지 않게 하였다. 구체적으로, g(C)를 계산하기 위해, 본 발명자들은 100보다 큰 시퀀싱 깊이를 갖는 적어도 50개의 SNP를 갖는 지역만을 고려하였고, 동일한 대립유전자 복제갯수를 갖는 적어도 5개의 이러한 지역을 갖는 샘플을 추가로 필요로 하였다. 샘플이 특이적 대립유전자 복제갯수의 5개 미만의 지역을 갖거나 또는 임의의 단일 지역이 주어진 대립유전자 복제갯수에 대해 30%를 초과하는 총 SNP를 함유하면, 상기 대립유전자 복제갯수를 갖는 지역은 g(C)의 추정치를 갖지 않았고 따라서 서브클론성 추정을 위해 대립유전자 빈도 추정치를 제공하지 않았다. 시리즈당 세그먼트화된 지역의 총 수는 7개 시리즈에서 29 내지 76의 범위였다. 기준을 만족하고 대립유전자 빈도 및 따라서 TVP 추정치를 받은 것은 23 내지 49의 범위였다(세그먼트의 60-96%).
검출된 체세포 단일 뉴클레오타이드 변이체(SSNV)의 수는 말단 또는 간헐적으로 노출된 피부(환자 E: 발뒤꿈치, 환자 B: 등)에서 엑솜당 96 내지 115부터 만성적으로 태양에 노출된 부위로부터의 원발성 흑색종에서 4,900 초과까지 다양하였고, 이는 게놈당 4,800 내지 245,000 돌연변이에 해당한다(모든 종양에 대해 높은 신뢰성 복제갯수 추정치를 갖는 7/8 환자가 도 1에 나타나 있음). 원발성 흑색종 및 모든 상응하는 전이성 조직에서 임의의 대립유전자 빈도(AF)로 검출된 SSNV를 완전 공유로 간주하였고(하단 검은색 층, 도 1), 이는 BRAFV600E, CTNNB1S33P와 같은 흑색종 및 TERT 프로모터에서 공지된 종양원성 돌연변이을 포함한다. 원발성 종양에서 완전 클론 AF(즉 ~100%)로 검출된 완전 공유 변이체는 "조상(ancestral)"로 간주하였고, 이들은 임의의 전이가 형성되기 전에, 원발성 종양을 포함하는 세포의 집단 팽창 동안 초기에 발생하였다. 반면, 원발성 종양 및 전이성 종양 사이에서 완전히 공유되지 않은 SSNV는 구별되는 진화적 이력을 나타내었고, 이는 부분 공유(진한 회색) 및 개인(옅은 회색)으로서 도 1의 상단에 나타나 있다.
환자 A, C, E, F, 및 G의 종양의 추가 조직 절편으로부터 추출된 DNA를 사용하여, 본 발명자는 엑솜 시퀀싱에 의해 최초로 발견된 72개의 대표적인 SSNV의 AF를 953개 리드의 평균 깊이에서 반도체 시퀀싱으로 유효성을 확인하였다. 엑솜 시퀀싱에 의해 전이에서 검출된 모든 SSNV는 표적 시퀀싱에 의해서도 검출되었다. 몇 가지 경우에, SSNV는 원발성 종양의 다수의 독립적 조직 절편의 일부에서만 발견되었으며, 이는 아마도 이들 변이체의 종양 이질성을 반영한다.
흑색종이 때때로 임의의 지역 중간 단계 없이 광범위하게 전반하는지에 대해 논란이 있다. 전이성 전반이 국소지역에서 원격 위치로 단계적으로 진행되면, 지역 및 원격 전이가 공통적인 계통발생 분기에 존재할 것으로 예상할 것이다. 원발성 종양 및 모두는 아니지만 일부 전이 사이에서 부분 공유된 SSNV는 원발성 종양의 상이한 아집단이 연속적이라기보다는 동시에 독립적인 전이를 시딩하는 경우를 밝혀내었다. 이러한 경우, 부분 공유 변이체의 획득 전후의 원발성 종양 내의 세포는 전이를 확립해야 한다. 환자 A, C, 및 F에서의 엑솜 시퀀싱 각각은 원발성에서의 이러한 2개의 구별되는 모계 아집단이 일부 전이와만 공유하였음을 분명히 밝혀내었다. 따라서, 이들의 전이는 다른 전이에서 진화되기보다는 원발성 종양 내의 독립적인 세포에서 발생했을 가능성이 크다.
환자 F에서, 유효성 확인 시퀀싱은 적어도 2개 SSNV가 원발성 종양에서 서브클론적으로 존재하였고, 국소지역 전이에서 부존재하였지만, 림프절 및 원격 피부 전이에서 검출되었음을 확인시켜 주었다. 반대로, 적어도 2개의 SSNV는 원발성 종양에서 서브클론적으로 존재하였고, 림프절 및 원격 전이에서 부존재하였지만, 국소지역에서 존재하였다. 따라서, 본 발명자는 국소지역 종양이 림프절 및 원격 전이를 생성하는 세포 집단과는 구별되는 원발성 내의 세포 집단으로부터 발생하였다고 결론내렸다.
환자 H에서, 염색체 4의 하나의 복제물의 검출이 원발성 종양 및 뇌 전이에서 관찰되었지만, 림프절 및 국소지역 피부 전이에는 부존재하였고, 이는 후자의 종양이 뇌 전이를 유발할 수 없었음을 보여준다. 또한, 림프절 및 뇌 전이 모두로부터의 개인 돌연변이는 C>T 치환(각각 1725/1849 및 804/973 SSNV)이 우세하였고, 이는 이들 전이가 또한 원발성 종양 내의 상이한 세포로부터 발생했다는 것을 시사한다. 이들 UV-유발 돌연변이는 원발성 종양 이외의 종양에서 획득된 것 같지는 않다.
원발성 종양이 오른쪽 다리에서 발견된 환자 D에서, 4개의 SSNV는 사타구니 림프절에 의해 그리고 통행 오른쪽 다리 국소지역 전이에서 부분 공유된 반면, 5개의 추가의 SSNV는 2개의 국소지역 전이에 의해서만 부분 공유되었다. 해부학적 관계로 인해 사타구니 림프절 내의 세포가 원발성 종양에 가까운 오직 하나의 발 내이 발견된 다수의 국소지역 전이로 돌아갈 가능성은 거의 없다. 따라서, 본 발명자는 상기 5개의 부분 공유 SSNV가 원발성 종양의 구별되는 세포에서 획득되었고, 이들 중 일부는 떠나 국소지역 전이에서 2개의 구별되는 아집단을 전반하고 형성하였음을 고려한다.
환자 E에서, CTNNB1의 야생형 복제물의 간질 결실을 갖는 세포 집단이 2개의 개별 전이에서 서브클론 비율로 검출되었는데, 이는 그들이 원발성 종양 내의 단일의 검출되지 않은 세포 아집단에 의해 설립되었음을 강하게 시사한다. 전체적으로, 8명의 환자 중 6명이 원발성 종양으로부터 전이의 동시 전반의 증거를 보였다.
도 2는 분류 정보를 계통발생 맵으로 번역하는 것을 예시적으로 도시한다. 쉽게 알 수 있는 바와 같이, 전이는 유전적으로 발산된 세포 아집단으로부터 동시에 원발성 흑색종을 떠난다. 환자 A, C, D, E, F, 및 H의 경우, 전이 세포의 계통발생 이력은 각각의 종양의 신선한 부분 및 FFPE 부분의 시퀀싱에 기초하여 재구성된다. 실선 화살표는 가능한 전반 경로를 나타내는 반면, 점선 화살표는 다수의 가능한 경로를 나타낸다. 사각형 내의 숫자는 부분 공유 SSNV를 나타낸다. 원발성 종양에 있지만 시퀀싱에 의해 직접 검출되지 않는 것으로 추론되는 SSNV의 경우는 추론에 의해 색으로 구분된다. 전반의 패턴은 각각의 환자에서의 전이가 원발성 종양 내의 구별되는 세포로부터 유래되었음을 입증하며, 이는 종종 서로간에 광범위한 유전적 발산을 입증한다.
완전 클론성에 대한 예상된 역치보다 유의하게 낮은 엑솜 시퀀싱으로부터의 리드 수를 갖는 복제 갯수 수차(CNA)를 서브클론으로 간주하였다. 각각의 환자는 이러한 서브클론 CNA(환자당 1-10개, 종양당 최대 6개)를 갖는 적어도 하나의 종양을 가지고 있었다. 원발성 종양 내의 서브클론 CNA는 병변이 설립된 후에 발생했을 것이다. 이러한 서브클론의 세포로부터 설립된 임의의 전이는 모든 세포에서 상기 새로운 수차를 가지고 있어야 한다.
예상외로, 환자 E에서, CTNNB1을 결실시키는 염색체 3 상의 동일한 34 Mb 간질 결실이 도 3a 및 3b에 개략적으로 도시된 바와 같이, 서브클론 수준에서 국소지역 전이 1 및 2 모두에서 관찰되었다. 결실에 의해 공유된 동일한 인접 중단점(breakpoint)이 주어지면, 이들이 이들 2개의 전이에서 독립적으로 발생했을 가능성은 거의 없다. 따라서, 본 발명자는 이들 전이가 각각 적어도 2개의 세포 집단인 결실을 갖는 세포 집단과 결실이 없는 세포 집단에 의해 설립되었을 것으로 결론내렸다. 다른 환자에서, 본 발명자는 둘 이상의 전이에서 동일하고 독특한 서브클론 CNA를 확인할 수 없었다.
도 3a 및 3b를 더 참조하면, 분산 그래프는 y-축상에 환자 E의 종양에 대해 염색체 3, 20, 및 14를 따라 이종접합 SNP의 대립유전자 비율을 나타낸다. 임상 증상의 시기에 따라 위에서 아래의 순서로 원발성 종양, 3개의 국소지역 전이, 및 림프절 전이가 나타나 있다. 0.5로부터 대립유전자 비율의 발산은 복제갯수 변화를 나타낸다. 생성된 대립유전자 상태가 각 세그먼트 아래에 빨간색 숫자로 나타나 있다. 회색 선은 정상 세포 오염을 고려하여, CNA가 종양의 모든 세포에 존재한 경우, 예상된 대립유전자 비율을 나타낸다. 진한 회색 선은 각각의 CNA에 대한 관찰된 평균 복제갯수 수준을 나타낸다. 원으로 표시된 염색체 3 상의 33.9 Mb 지역은 국소지역 전이 1(TVP = 32.1%, 99%CI = 28.0-35.6%) 및 2(TVP = 91.9%, 99%CI = 90.4-93.2%)에서의 서브클론 결실 및 전이 3(TVP=100%)에서의 완전한 클론 결실을 나타낸다. 염색체 20은 다이아몬드로 표시된, 각각 0 - 25.53 Mb 및 40.39 - 50.93 Mb에 이르는 2개의 개별 결실을 보여주며, 이는 모든 전이에서 완전한 클론 수준으로 존재하지만 원발성 종양에는 부존재한다. 염색체 14의 하나의 전체 복제물은 모든 종양에서 완전한 클론 수준으로 결실되며 따라서 완전 공유로 간주된다(삼각형). 국소지역 전이 1 및 2에서 서브클론 수준의 염색체 3의 9.72 - 43.6 Mb로부터의 결실의 존재는 이들 종양 중 적어도 하나가 2개의 구별되는 세포 집단인 염색체 3 결실을 갖는 세포 집단 및 염색체 3 결실이 없는 세포 집단에 의해 설립되었음을 시사한다.
도 3c 및 3d의 분산 그래프는, 환자 C에 대해, 복제갯수 변화에 의해 영향을 받지 않은 게놈 지역 내의 모든 SSNV에 대한 TVP를 나타낸다. x-축 상에 원발성 종양에 대한 TVP가 나타나 있으며 각각의 y-축 상에 국소지역 전이 1(상부 그래프) 및 2(하부 그래프)가 나타나 있다. 완전 공유 SSNV는 삼각형으로 도시되어 있고, 이는 완전히 클론 수준으로 모든 종양에 존재한다. 원발성 종양의 세포 중 약 30%에 존재하는 서브클론(Х)은 두 전이에서 완전히 클론 수준(TVP = 100%)에 가깝게 존재한다. 원발성 종양에서 25%의 TVP를 갖는 제2 서브클론(다이아몬드)은 전이 1에서는 완전히 클론이지만 전이 2에서 25%의 TVP에 있었으며, 이는 전이 2가 적어도 2개의 유전적으로 구별되는 선조(founding) 세포인 빨간색 다이아몬드로 도시된 SSNV를 함유하는 세포 및 함유하지 않는 세포에 의해 시딩되었음을 시사한다. 원발성 흑색종에서 3%로 존재하는 제3 서브클론(원)은 전이 1에는 존재하지 않았지만 전이 2에는 ~ 75% 풍부로 존재하였고, 이는 그것이 전이 2의 세포에 전체적으로는 아니지만 부분적으로 기여하였음을 나타낸다. 따라서, 이러한 제3 서브클론은 또한 전이 2가 2개의 유전적으로 구별되는 집단에 의해 설립되었음을 나타낸다.
이후, SSNV 데이터가 또한 단일 전이를 설립하는 다수의 세포 집단을 밝혀낼 수 있는지 조사하였다. 개별 SSNV는 서브클론을 명확하게 식별하기 위한 충분한 능력을 제공하지 못하기 때문에, 본 발명자는 아집단을 나타내는 유사한 서브클론 AF를 갖는 부분 또는 완전 공유 SSNV의 클러스터를 탐색하였다. 본 발명자는 SSNV를 갖는 유전자좌에서의 정상 세포 오염 및 복제갯수를 고려하여, 2배체 지역 내에 각각의 개별 SSNV를 갖는 종양 세포의 백분율을 추정하였다. 환자 C에서만, 원발성 종양 및 2개의 전이에서 그룹화 알고리즘을 사용하여 이러한 SSNV의 4개의 클러스터가 식별되었다. SSNV의 이들 4개의 클러스터 각각은 원발성 종양 및 2개의 전이 사이에 TVP에서 좌표 변화를 나타내었다.
이 알고리즘에 의해 생성된 클러스터는 원발성 종양 내의 일부 완전 클론 SSNV가 또한 두 전이에서 완전 클론임을 명확히 한다(삼각형, 도 3c 및 3d). 원발성 종양에서 일부 서브클론 SSNV는 두 전이(Х)에서 완전 클론이다. 더 낮은 농도로 원발성 종양에 존재하는 서브클론 SSNV의 2개의 다른 클러스터(다이아몬드 및 원)는 국소지역 전이 1에서 서로 분리되지 않으며, 이는 각각이 상이한 세포 집단에 존재해야 함을 나타낸다. 그러나, 놀랍게도, 이들 구별되는 아집단 모두는 환자 C의 국소지역 전이 2에서 검출된다. 따라서, 환자 C 및 E 모두에서의 시퀀싱 데이터는 이들의 전이가 단일 세포에 의해 시딩된 것이 아니라, 구별되는 유전적 정체성을 갖는 적어도 2개의 세포에 의해 시딩되었음을 시사하였다.
흥미롭게도, 두 환자에서, 정의하는 서브클론 집단은 또한 CTNNB1에서의 변이를 포함하였다. 환자 E에서, 염색체 3에서의 간질 결실은 CTNNB1의 야생형 복제물을 제거하여, 반접합성(hemizygous) S33P 돌연변이를 남겼다. 환자 C에서, SSNV의 구별되는 클러스터 내의 이들의 위치에 의해 입증된, 구별되는 종양 아집단에서 발생하는 것으로 나타난, 2개의 상이한 공지된 종양원성 CTNNB1 변이체가 검출되었다. 도 3b에서 원으로 표시된 SSNV 클러스터의 일부인 G34E 변이체는 원발성 종양에서 6%의 세포에 존재하고, 국소지역 전이 1에는 부존재하며, 국소지역 전이 2에서 75%의 세포에 존재하는 것으로 추정되었다. 대조적으로, 다이아몬드로 표시된 SSNV 클러스터 내의 S33P 변이체는 원발성 종양에서 31%의 세포에 존재하고, 국소지역 전이 1에서 완전 클론이며, 국소지역 전이 2의 25%의 세포에 존재하였다. 두 아집단은 국소지역 전이 2와 독립적으로 전반되었음에 틀림없다. β-카테닌 내의 공지된 활성화 돌연변이가 전이와 관련된 이러한 늦게 발생하는 변이체 사이에서 여러 번 출현하였다는 것은 놀랍다. WNT 신호전달 경로의 활성화(예컨대, β-카테닌 돌연변이에 의해)는 또한 흑색종의 마우스 모델에서 전이 잠재성을 촉진하는데 관여해왔다. 환자 C에서의 전이성 전반의 재구성된 진화가 도 4에 도시되어 있다.
도 4는 855개의 SSNV를 갖는 조상 세포가 증식하여 원발성 종양을 생성한 상황을 예시적으로 도시한다. 원발성 종양으로 확장하는 동안, 특정 세포가 142개의 더 많은 SSNV를 획득하였고, 그 다음 상기 아집단으로부터의 2개의 세포가 이후에 15개의 더 많은(옅은 회색) 및 20개의 더 많은(진한 회색) SSNV를 획득하였다. 흥미롭게도, 이러한 느리게 진화하는 각각의 아집단(옅고 진한 회색, 전이에서 관찰된 것과 동일함)은 각각 상이한 알려진 종양원성 CTNNB1 돌연변이를 획득한다. 두 서브클론은 국소지역 전이 2에서 관찰되는데, 이는 전이 능력이 획득되면, 유능한 서브클론이 기존 전이에 도달할 수 있거나 또는 다른 전이성 서브클론과 함께 동시에 이동할 수 있음을 시사한다.
상기 논의된 바와 같이, 환자 C 및 D에서, 본 발명자는 원발성 흑색종에서 전이성 아집단의 단계적 진화의 증거를 발견하였고, 이는 원발성에서 시간이 경과함에 따라 발생한 전이의 공통된 조상을 지지한다. 원발성 종양 내의 특이적 서브클론 집단으로부터의 유래를 지지하는 확실한 증거는 모든 전이 중에 부분 공유되나 원발성 종양에서 검출되지 않는 SSNV의 존재이다. 이러한 경우, 전이를 일으킨 원발성 종양 내의 세포의 집단은: i) 시퀀싱되지 않은 부분에 존재하거나 또는 ii) 시퀀싱된 부분에서 검출가능하지 않은(< 1%) 서브클론 수준으로 존재하거나 또는 iii) 이 연구에서 분석되지 않은 개별 전이로부터 기원되었음에 틀림없다. 이러한 3개의 SSNV는 환자 E에서 검출되었고, 이러한 5개의 SSNV는 환자 H에서 검출되었다.
환자 F에서, 원발성 종양 및 특이적 전이 사이에 부분 공유된 4개의 SSNV는 엑솜 및 유효성 확인 시퀀싱에 사용된 원발성 종양의 적어도 10%에 해당하는 조직에서 검출되지 않았고, 이는 나머지 원발성 종양에서 서브클론 집단에서의 기원을 나타낸다. 따라서, 전이가 원발성 종양 내의 적어도 2개의 구별되는 서브클론 집단으로부터 비롯된 6명의 환자 중 5명(C, D, E, F, 및 H)에서, 이들 서브클론 집단 자체는 공통된 모계 서브클론 집단으로부터 유래하였다.
따라서, 본 연구는 전이성 전반의 과정에 대해 몇 가지 새로운 통찰력을 제공한다는 점에 유의해야 한다. 수집된 자료는 본 발명자가 높은 서열 대상영역에서, 원발성 흑색종 및 이들의 매치된 전이 모두의 구별되는 지역을 샘플링하고 분석할 수 있게 해주었다. 생성된 데이터는 본 발명자가 상이한 부위의 종양 집단 사이의 계통발생 관계를 묘사하고 유효성을 확인하게 해주었다. 이 연구는 전이성 전반이 원발성 종양의 다른 아집단으로부터 발생할 수 있으며, 이는 종종 연속 방식보다는 동시에 전반하여 지역 및 원격 전이를 형성한다는 증거를 제공한다. 원발성 흑색종과 유전적으로 구별되는 세포 집단의 전이는 종양 조직의 이질성을 향상시켜, 잠재적으로 약물 내성에 기여한다.
전이성 전반의 순차적 개념은 지역 전이가 종종 원격 전이보다 더 먼저 검출된다는 임상적 관찰에 기초한다. 원발성 종양으로부터 성장 자극 인자의 분비와 같은 설명이 제안되었지만, 유방암에서 실험적으로 입증된 바와 같이, 원발성 종양에의 이들의 근접성이 반복된 시딩 사건의 확률을 증가시키기 때문에, 지역 전이가 더 빠르게 성장할 수 있다는 가능성을 제기하였다.
최근에 흑색종의 마우스 모델 및 환자 모두에서 검출된 바와 같이, 일부 경우, 전이에서의 다수의 선조 집단이 전반 세포 클러스터의 결과일 수 있을 것 같다. 흥미롭게도, 유방암에서 순환하는 클러스터는 또한 몇 가지의 전이에서 활성화되는 분자인 카테닌을 통해 향상된 신호전달을 나타낸다. 인간 흑색종 환자에서 보고된 현상은 표적 요법으로 치료받은 환자의 질환 재발의 특정 패턴을 설명할 수 있다. 예를 들어, 내성 변이체를 갖는 특정 세포 집단에 의해 다수의 전이가 의해 부분적으로 설립된 경우, 이러한 전이는 반응의 초기 기간 후 성장을 동시에 재개할 수 있다. 이러한 패턴은 BRAF 돌연변이체 흑색종이 초기에 RAF 억제에 반응하였지만, 이후 두드러진 다초점 재발을 나타낸 환자에서의 MEK 돌연변이에 대해 나타났다.
마지막으로, 본 발명자는 전이를 확립하는 세포의 능력이 서브클론 부모에서 나오는 특징일 수 있음을 입증하였는데, 이는 원발성 종양을 확립하는데 필요한 변이 외에도 변화가 필요하다는 것을 시사한다. 전이를 설립하는 세포는 단순히 우연히 공통 부모로부터 반복적으로 유래될 수 있다. 그러나, 원발성이 활성화 NRAS 돌연변이를 갖는 환자 C 및 E에서, 6개 전이 모두는 활성화된 CTNNB1을 획득한 원발성 종양의 서브클론 집단에서만 설립되었다. 베타-카테닌은 이전에 실험적으로 흑색종에서의 전이와 연관되었다. 환자 C에서 전이되는 2개의 세포 집단 중 각각은 베타-카테닌에서 상이한 알려진 활성화 돌연변이(S33P 및 G34E)를 획득하였고, 이는 전이를 형성하는데 있어 CTNNB1 활성화의 필요성과 일치한다.
전이성 세포 아집단의 이후 진화가 일부 췌장암에서 보고되었지만, 그것은 유방암 전이의 단일-세포 시퀀싱 분석에서 검출되지 않았다. 일부 원발성 흑색종이 전이하기 위해 추가의 수차를 필요로 하는 모델은 이들의 조기 검출 및 제거가 생존 이익을 제공하는 이유를 설명할 수 있는데, 향상된 전이성 능력을 갖는 클론이 출현하기 전에 종양을 절제하는 것이 치유력이 있다고 예상될 것이기 때문이다. 확인되면, 이들 전이-가능 돌연변이는 전반의 위험에 있는 원발성 흑색종을 확인하기 위한 바이오마커로서 작용할 수 있다.
이미 기술된 것 이외의 많은 추가의 변형이 본 발명 개념을 벗어나지 않으면서 본원에서 가능하다는 것이 당업자에게 자명할 것이다. 따라서, 본 발명의 대상은 첨부된 청구범위의 범위를 제외하고 제한되지 않는다. 더욱이, 명세서 및 청구범위를 해석함에 있어서, 모든 용어들은 문맥과 일치하는 가장 광범위한 가능한 방식으로 해석되어야 한다. 특히, 용어 "포함하다" 및 "포함하는"는 요소, 구성성분, 또는 단계를 비배타적 방식으로 언급하는 것으로 해석되어야 하며, 이는 언급된 요소, 구성성분, 또는 단계가 존재하거나 이용될 수 있거나, 명시적으로 언급되지 않은 다른 요소, 구성성분, 또는 단계와 조합될 수 있음을 나타낸다. 명세서 청구범위가 A, B, C .... 및 N으로 이루어진 군으로부터 선택되는 것 중 적어도 하나를 지칭하는 경우, 상기 문구는 A 및 N, 또는 B 및 N 등이 아닌 상기 군으로부터 하나의 요소만을 필요로 하는 것으로 해석되어야 한다.

Claims (20)

  1. 전이의 계통발생을 결정하는 컴퓨터 구현(computer-implemented) 방법으로서,
    동일한 환자의 원발성 종양, 제1 전이, 제2 전이, 및 비-종양 조직으로부터 복수의 각각의 핵산 서열을, 컴퓨터에 의하여, 얻어지는 단계;
    동일한 환자의 비-종양 조직으로부터의 핵산 서열과 비교하여 원발성 종양, 제1 전이, 및 제2 전이에 대해 체세포 단일 뉴클레오타이드 변이체를, 컴퓨터에 의하여, 결정하는 단계;
    상기 결정된 체세포 단일 뉴클레오타이드 변이체를, 컴퓨터에 의하여, 필터링하는 단계;
    원발성 종양, 제1 전이, 및 제2 전이로부터의 상기 핵산 서열 각각에 대해 각각의 필터링된 체세포 단일 뉴클레오타이드 변이체에 대한 상태를, 컴퓨터에 의하여, 결정하는 단계;
    상기 상태를 사용하여, 각각의 필터링된 체세포 단일 뉴클레오타이드 변이체를, 완전 공유(fully shared) 체세포 단일 뉴클레오타이드 변이체, 부분 공유(partially shared) 체세포 단일 뉴클레오타이드 변이체, 개인(private) 체세포 단일 뉴클레오타이드 변이체, 또는 부존재(absent) 체세포 단일 뉴클레오타이드 변이체 중 하나로, 컴퓨터에 의하여, 분류하는 단계; 및
    상기 필터링된 체세포 단일 뉴클레오타이드 변이체의 분류를 사용하여, 컴퓨터에 의하여, 원발성 종양, 제1 전이, 및 제2 전이에 대한 계통발생 프로파일을 계산하는 단계
    를 포함하는, 전이의 계통발생을 결정하는 컴퓨터 구현 방법.
  2. 제1항에 있어서, 상기 체세포 단일 뉴클레오타이드 변이체를 결정하는 단계가 원발성 종양, 제1 전이, 및 제2 전이에 대한 모든 가능한 유전자형의 가능성을 컴퓨팅하는 단계를 포함하는 것인 방법.
  3. 제1항 또는 제2항에 있어서, 상기 체세포 단일 뉴클레오타이드 변이체를 결정하는 단계가 오류 확률 모델(error probability model)을 사용하여 수행하는 것인 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제1항에 있어서, 상기 체세포 단일 뉴클레오타이드 변이체를 결정하는 단계가 다수 대립유전자의 대립유전자 빈도의 바이어스-보정된 추정치를 사용하여 종양 변이체 백분율을 계산하는 단계를 포함하는 것인 방법.
  9. 제1항에 있어서, 상기 필터링된 체세포 단일 뉴클레오타이드 변이체가 이종접합인 방법.
  10. 제9항에 있어서, 상기 필터링 단계가 유전자형 품질에 의한 필터링, 체세포 스코어에 의한 필터링, 맵핑 품질에 의한 필터링, 미스매치의 품질 합계에 의한 필터링, 미스매치의 평균 수에 의한 필터링, 3'-말단까지의 단편적인 거리에 의한 필터링, 및 돌연변이체 대립유전자 깊이에 의한 필터링 중 적어도 하나를 포함하는 것인 방법.
  11. 제1항에 있어서, 상기 상태가 '존재' 또는 '부존재'인 것인 방법.
  12. 제1항에 있어서, 각각의 부류가 적어도 3개의 필터링된 체세포 단일 뉴클레오타이드 변이체의 존재를 필요로 하고, 필터링된 체세포 단일 뉴클레오타이드 변이체 각각이 < 1의 99% 신뢰 구간을 갖는 종양 변이체 백분율을 확립하기에 충분한 서열 대상영역을 가져야 하는 것인 방법.
  13. 전이의 계통발생을 결정하는 방법으로서,
    분석 엔진을 서열 데이터베이스에 정보적으로 결합하는 단계로서, 상기 서열 데이터베이스는 동일한 환자의 원발성 종양, 제1 전이, 제2 전이, 및 비-종양 조직으로부터 복수의 핵산 서열을 저장하는 것인 단계;
    상기 분석 엔진에 의해, 동일한 환자의 비-종양 조직으로부터의 핵산 서열과 비교하여 원발성 종양, 제1 전이, 및 제2 전이에 대한 체세포 단일 뉴클레오타이드 변이체를 결정하는 단계로서, 상기 단계는 오류 확률 모델을 사용한 가능한 유전자형의 가능성을 결정하는 단계를 포함하는 것인 단계;
    상기 분석 엔진에 의해, 상기 결정된 체세포 단일 뉴클레오타이드 변이체를 필터링하는 단계;
    상기 분석 엔진에 의해, 원발성 종양, 제1 전이, 및 제2 전이 각각에 대해, 완전 공유 체세포 단일 뉴클레오타이드 변이체, 부분 공유 체세포 단일 뉴클레오타이드 변이체, 개인 체세포 단일 뉴클레오타이드 변이체, 및 부존재 체세포 단일 뉴클레오타이드 변이체인 필터링된 결정된 체세포 단일 뉴클레오타이드 변이체를 확인하는 단계; 및
    상기 분석 엔진에 의해, 완전 공유 체세포 단일 뉴클레오타이드 변이체, 부분 공유 체세포 단일 뉴클레오타이드 변이체, 개인 체세포 단일 뉴클레오타이드 변이체, 및 부존재 체세포 단일 뉴클레오타이드 변이체에 기초하여, 원발성 종양, 제1 전이, 및 제2 전이에 대한 계통발생 프로파일을 계산하는 단계
    를 포함하는, 전이의 계통발생을 결정하는 방법.
  14. 제13항에 있어서, 상기 복수의 핵산 서열이 엑솜 핵산 서열 또는 전체 게놈 핵산 서열인 것인 방법.
  15. 제13항에 있어서, 상기 복수의 핵산 서열이 SAM 또는 BAM 형식인 것인 방법.
  16. 제13항에 있어서, 상기 체세포 단일 뉴클레오타이드 변이체를 결정하는 단계가 원발성 종양, 제1 전이, 및 제2 전이에 대한 모든 가능한 유전자형의 가능성을 컴퓨팅하는 단계를 포함하는 것인 방법.
  17. 제13항에 있어서, 상기 필터링된 체세포 단일 뉴클레오타이드 변이체가 이종접합인 방법.
  18. 제13항에 있어서, 상기 필터링 단계가 유전자형 품질에 의한 필터링, 체세포 스코어에 의한 필터링, 맵핑 품질에 의한 필터링, 미스매치의 품질 합계에 의한 필터링, 미스매치의 평균 수에 의한 필터링, 3'-말단까지의 단편적인 거리에 의한 필터링, 및 돌연변이체 대립유전자 깊이에 의한 필터링 중 적어도 하나를 포함하는 것인 방법.
  19. 제13항에 있어서, 상기 체세포 단일 뉴클레오타이드 변이체에 대한 대립유전자 상태를 결정하는 단계를 추가로 포함하는 것인 방법.
  20. 제13항에 있어서, 복제 갯수 수차(copy number aberration)를 결정하는 단계를 추가로 포함하는 것인 방법.
KR1020187008045A 2015-08-25 2016-08-25 전이의 유전적 분석을 위한 시스템 및 방법 KR101966080B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562209850P 2015-08-25 2015-08-25
US62/209,850 2015-08-25
PCT/US2016/048778 WO2017035400A1 (en) 2015-08-25 2016-08-25 Systems and methods for genetic analysis of metastases

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020197007215A Division KR20190028821A (ko) 2015-08-25 2016-08-25 전이의 유전적 분석을 위한 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180090776A KR20180090776A (ko) 2018-08-13
KR101966080B1 true KR101966080B1 (ko) 2019-04-05

Family

ID=58100911

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020187008045A KR101966080B1 (ko) 2015-08-25 2016-08-25 전이의 유전적 분석을 위한 시스템 및 방법
KR1020197007215A KR20190028821A (ko) 2015-08-25 2016-08-25 전이의 유전적 분석을 위한 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020197007215A KR20190028821A (ko) 2015-08-25 2016-08-25 전이의 유전적 분석을 위한 시스템 및 방법

Country Status (9)

Country Link
US (2) US11908588B2 (ko)
EP (1) EP3341876A4 (ko)
JP (2) JP6403923B1 (ko)
KR (2) KR101966080B1 (ko)
CN (1) CN108475296A (ko)
AU (2) AU2016310501B2 (ko)
CA (1) CA2996704C (ko)
IL (1) IL257728B (ko)
WO (1) WO2017035400A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6403923B1 (ja) 2015-08-25 2018-10-10 ナントミクス,エルエルシー 転移の遺伝的分析のためのシステムおよび方法
US11861491B2 (en) * 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
KR102416048B1 (ko) 2017-10-16 2022-07-04 일루미나, 인코포레이티드 변이체 분류를 위한 심층 컨볼루션 신경망
CA3064796A1 (en) * 2018-02-16 2019-08-22 Illumina, Inc. Systems and methods for correlated error event mitigation for variant calling
US11640662B2 (en) * 2019-10-25 2023-05-02 Seoul National University R&Db Foundation Somatic mutation detection apparatus and method with reduced sequencing platform-specific error

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6545139B1 (en) 1998-03-13 2003-04-08 Baylor College Of Medicine DNA sequence encoding the p99 gene and kits for the detection of neoplasia
US8321137B2 (en) * 2003-09-29 2012-11-27 Pathwork Diagnostics, Inc. Knowledge-based storage of diagnostic models
US7917306B2 (en) * 2005-03-30 2011-03-29 Yeda Research And Developement Co. Ltd. Methods and systems for generating cell lineage tree of multiple cell samples
US8849576B2 (en) 2006-04-28 2014-09-30 Hakima Amri Phylogenetic analysis of mass spectrometry or gene array data for the diagnosis of physiological conditions
WO2011050341A1 (en) * 2009-10-22 2011-04-28 National Center For Genome Resources Methods and systems for medical sequencing analysis
JP2013123420A (ja) * 2011-12-15 2013-06-24 World Fusion Co Ltd 遺伝子セット作成方法
LT2805280T (lt) * 2012-01-20 2022-12-27 Sequenom, Inc. Diagnostikos būdai, kurie atsižvelgia į eksperimentines sąlygas
WO2013120509A1 (en) 2012-02-13 2013-08-22 Ruebben Albert Algorithm for modification of somatic cancer evolution
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
EP2907062B1 (en) 2012-10-09 2020-05-27 Five3 Genomics, LLC Method for tumor clonality analysis
US10155031B2 (en) 2012-11-28 2018-12-18 Biontech Rna Pharmaceuticals Gmbh Individualized vaccines for cancer
US20160034638A1 (en) * 2013-03-14 2016-02-04 University Of Rochester System and Method for Detecting Population Variation from Nucleic Acid Sequencing Data
EP3680347B1 (en) * 2013-10-18 2022-08-10 Seven Bridges Genomics Inc. Methods and systems for identifying disease-induced mutations
JP6403923B1 (ja) 2015-08-25 2018-10-10 ナントミクス,エルエルシー 転移の遺伝的分析のためのシステムおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M.K.H. Hong 외, "Tracking the origins and drivers of subclonal metastatic expansion in prostate cancer", Nature Communications, 6권, 1호, 2015.04.01. 1부.*
S.Yachida 외, "Distant metastasis occurs late during the genetic evolution of pancreatic cancer", Nature. 467권, pp.1114-1119, 2010.10.28. 1부.*

Also Published As

Publication number Publication date
IL257728A (en) 2018-04-30
IL257728B (en) 2020-03-31
JP2019003684A (ja) 2019-01-10
CA2996704C (en) 2019-09-17
CN108475296A (zh) 2018-08-31
CA2996704A1 (en) 2017-03-02
WO2017035400A1 (en) 2017-03-02
WO2017035400A4 (en) 2017-03-23
AU2016310501B2 (en) 2019-11-07
JP2018533113A (ja) 2018-11-08
US20200227137A1 (en) 2020-07-16
EP3341876A1 (en) 2018-07-04
AU2019250110A1 (en) 2019-10-31
AU2016310501A1 (en) 2018-03-15
KR20180090776A (ko) 2018-08-13
US20240153650A1 (en) 2024-05-09
KR20190028821A (ko) 2019-03-19
JP6403923B1 (ja) 2018-10-10
US11908588B2 (en) 2024-02-20
EP3341876A4 (en) 2018-10-10

Similar Documents

Publication Publication Date Title
Sanborn et al. Phylogenetic analyses of melanoma reveal complex patterns of metastatic dissemination
KR101966080B1 (ko) 전이의 유전적 분석을 위한 시스템 및 방법
Frankell et al. The evolution of lung cancer and impact of subclonal selection in TRACERx
AU2020264326B2 (en) Detection and treatment of disease exhibiting disease cell heterogeneity and systems and methods for communicating test results
CN107849612B (zh) 比对和变体测序分析管线
KR20210009299A (ko) 게놈-와이드 통합을 통한 순환 종양 dna의 초민감 검출
CN106676178B (zh) 一种评估肿瘤异质性的方法及系统
KR101945093B1 (ko) 다중 종양 및 생식세포 유전자 엑솜에 걸친 분자 프로파일의 종합 분석을 위한 시스템 및 방법
CN110387419A (zh) 实体瘤多基因检测基因芯片及其制备方法和检测装置
JP2015531240A (ja) 腫瘍クローン性解析のためのシステムおよび方法
KR20230165259A (ko) 클론성 신항원의 동정 및 이의 용도
US20240018599A1 (en) Methods and systems for detecting residual disease
KR102472050B1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
US20240021267A1 (en) Dynamically selecting sequencing subregions for cancer classification
Aguiar et al. BIISQ: Bayesian nonparametric discovery of Isoforms and Individual Specific Quantification
Kraven Understanding the genetic basis of disease endotypes in idiopathic pulmonary fibrosis
WO2024081769A2 (en) Methods and systems for detection of cancer based on dna methylation of specific cpg sites
WO2024026275A1 (en) Methods and systems for identifying hla-i loss of heterozygosity
Cradic Next Generation Sequencing: Applications for the Clinic
Yu Statistical Methods and Analyses for Next-generation Sequencing Data

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant