KR20150093658A - 종양 클론형성능 분석을 위한 시스템 및 방법 - Google Patents

종양 클론형성능 분석을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20150093658A
KR20150093658A KR1020157012288A KR20157012288A KR20150093658A KR 20150093658 A KR20150093658 A KR 20150093658A KR 1020157012288 A KR1020157012288 A KR 1020157012288A KR 20157012288 A KR20157012288 A KR 20157012288A KR 20150093658 A KR20150093658 A KR 20150093658A
Authority
KR
South Korea
Prior art keywords
allele
tumor
allelic
clone
allelic state
Prior art date
Application number
KR1020157012288A
Other languages
English (en)
Inventor
존 제커리 샌본
Original Assignee
파이브3 제노믹스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=50477847&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20150093658(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 파이브3 제노믹스, 엘엘씨 filed Critical 파이브3 제노믹스, 엘엘씨
Publication of KR20150093658A publication Critical patent/KR20150093658A/ko

Links

Images

Classifications

    • G06F19/18
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • G06F19/24
    • G06F19/26
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

게놈 분석 시스템 및 방법은 종양의 클론형성능, 모든 주요 클론들의 개수 및 비율, 및 이들을 구별하는 변이체들을 결정하는 프레임워크를 제공하는 것으로 제시된다. 또한, 고찰된 시스템 및 방법은 종양 세포 집단 내에서 돌연변이들이 출현하는 시기에 대하여 모 대립유전자에 대한 돌연변이의 단계화가 가능하도록 하고, 종양 생검에 존재하던 정상 조직의 오염 양의 정확한 추정치를 제공한다.

Description

종양 클론형성능 분석을 위한 시스템 및 방법{SYSTEMS AND METHODS FOR TUMOR CLONALITY ANALYSIS}
본 명세서는 2012년 10월 9일 출원된 미국 특허 가출원 제61/711467호에 대한 우선권을 주장한다.
본 발명의 분야는 게놈 데이터의 컴퓨터 분석, 특히 혼합된 세포 집단의 클론형성능(clonality) 상태의 식별에 관한 것이다.
전체 게놈 데이터의 가용성 증가 및 전체 게놈 시퀀싱의 계속 증가하는 속도로 인해, 의미있는 분석을 요구하는 거대한 양의 데이터가 이용가능하게 되어 보다 효과적인 치료 또는 약물 개발이 가능한 정보가 임상의 또는 과학자에게 제공된다.
예를 들어, 여러 종양 및 매치된 정상 전체 게놈 서열이 '암 게놈 아틀라스'(The Cancer Genome Atlas, TCGA)와 같은 프로젝트에서 현재 사용가능하며, 유의미한 정보의 추출이 어렵다. 이는 통계적으로 유의미한 데이터를 얻기 위하여 높은 게놈 시퀀싱 유효 범위(예를 들어, 30 배 초과)의 필요성에 의해 보다 심각해진다. 심지어 압축된 형태로도, 이와 같은 게놈정보는 종종 수백 기가 바이트에 도달할 수 있고, 다중의 큰 데이터세트와 비교하는 의미있는 분석은 많은 경우 매우 느리고 관리가 어려우나, 제2 시료에 상대적인 임의의 소정의 시료에서 발생한 많은 게놈 변화를 발견하기 위해서는 절대적으로 필요하다. 보다 최근에는, WO2013/074058에 기술된 바와 같이 대규모의 출력 파일을 방지하는 포맷으로 정보의 신속한 생성을 허용하도록 하는 시스템 및 방법들이 개발되었다. 각 개별 공보 또는 특허 출원이 구체적 및 개별적으로 참고로 포함되는 것과 같이 본 명세서에서 식별되는 본 출원 및 다른 출판물들은 동일한 범위에 대한 참조로써 포함된다.
인용된 참조의 용어의 정의나 사용이 본 명세서에서 제공하는 용어의 정의와 불일치 또는 반대인 경우, 본 명세서에서 제공하는 용어의 정의를 적용하고 참조 내 해당 용어의 정의는 적용하지 않는다.
'048 출원의 시스템이 다른 공지된 시스템에 비해 상당한 개선을 제공하지만, 그럼에도 불구하고 여러 가지 어려움이 존재한다. 예를 들어, 대부분의 유방암은 임상적 및 게놈적으로 이질적이며, 다양한 병리학적 및 분자적으로 독특한 하위유형으로 구성되어 있고, 이는 종종 게놈적 분석이 복잡하다. 또한, 현재까지 알려진 방법은, 조직 내 종양 세포의 가능한 진화 및 종양 세포 간의 결과인 클론형성능을 획득하는 이러한 게놈 다양성의 디콘볼루션(deconvolution)을 허용하지 않는다.
따라서, 수많은 게놈 분석 방법들이 당업계에 공지되어 있다하더라도 이들의 모두 또는 거의 모두는 몇몇 단점들을 겪는다. 가장 중요한 것은, 지금까지 알려진 방법은 분자 수준에서 종양으로의 진행을 식별하는데 실패했고, 클론형성능 및 잠재적 치료 효능에 대한 이해를 제공하지 못한다. 다른 관점에서 보면, 지금까지 알려진 방법은 여러 비-균일한 세포를 함유하는 시료 내의 클론형성능 및 세포 집단의 클론 관계를 식별하지 못했다. 결과적으로, 게놈 분석을 위한 개선된 시스템 및 방법, 특히, 이러한 정보에 기초하여 콜론형성능, 클론 일부, 분자적 종양 진행, 및/또는 치료 선택에 대한 정보를 제공하는 시스템 및 방법을 제공할 필요가 여전히 존재한다. 결과적으로, 게놈 분석을 위한 개선된 시스템 및 방법, 특히, 콜론형성능, 클론 일부, 분자적 종양 진행, 및/또는 이러한 정보에 기초하여 치료 선택에 대한 정보를 제공하는 시스템 및 방법을 제공할 필요가 여전히 존재한다.
본 발명은 유전적 분석, 특히 시료에서 얻은 게놈 데이터에 기초하여 세포의 하나 이상의 클론 집단을 함유하는 시료 내의 뚜렷한 세포 클론의 존재 및 분포를 식별하는 유전적 분석을 위한 다양한 시스템, 기기, 및 방법에 관한 것이다. 특히 바람직한 양태에서, 분석은 종양 또는 다른 비정상적 세포 집단으로부터의 게놈 DNA에 기초하며, 종양 또는 세포 집단 내의 다중 클론의 결정뿐만 아니라 클론 진화 가능성 및/또는 클론 연관성을 식별할 수 있도록 한다.
본 발명의 일 양태에서, 종양으로부터 얻은 시퀀싱 데이터를 이용하여 종양의 클론형성능(clonality)을 결정하는 생체외 방법은 상기 시퀀싱 데이터로부터 상기 시퀀싱 데이터 내 대립유전자(allele)에 대한 복제수(copy number)와 대립유전자 분획(allele fraction)을 결정하는 단계, 상기 결정된 복제수와 상기 결정된 대립유전자 분획에 기초하여 상기 대립유전자에 대한 대립유전자 상태(allelic state)를 계산하는 단계 및 상기 대립유전자 상태를 이용하여 클론형성능을 결정하는 단계를 포함한다. 상기 대립유전자 상태는 종양의 클론형성능을 결정하는 데 이용된다. 본 발명의 목적을 제한하지 않지만, 일반적으로 대립유전자 상태는 대립유전자 상태 도표(단일 또는 이중 대립유전자 상태 도표일 수 있음)에 플롯팅 또는 디스플레이되는 것이 바람직하다.
본 발명의 일부 구현예에서 상기 복제수 및 상기 대립유전자 분획 결정은 서열 스트링(예, BAMBAM)의 점진 동기화(incremental synchronization)에 의한 로컬 정렬(local alignments)을 생성하는 서열 분석 프로그램에 의하여 실시된다. 기타 상태들 중에서, 고려되는 대립유전자 상태는 정상 복제수(normal copy number), 단일 복제 증폭(single copy amplification), 단일 복제/반접합성 결실(single copy/hemizygous deletion), 이형접합성(heterozygosity)의 손실 이후 나머지 대립유전자의 하나 이상의 증폭, 및 양 대립유전자의 증폭을 포함한다.
본 발명의 더 고려되는 구현예에서, 상기 대립유전자 상태를 계산하는 단계는 정상적인 오염(normal contamination)에 대한 교정(correction)을 포함하며, 종양 및 정상에 대한 대다수(majority) 및 소수(minority) 대립유전자 상태를 이용하고, 및/또는 대립유전자에 대한 혼합 분획 Mb의 식별을 포함한다(모노클로날 종양에 대하여 0 또는 1이거나, 종양이 폴로클로날인 경우 0보다 크고 1보다 작다). 또한, 상기 대립유전자 상태를 계산하는 단계는 서열 유효범위(coverage) 수준, 특히 종양에 대한 유효범위가 동일한 환자의 해당 비-종양(예, 정상) 시료에 대한 유효범위보다 높을 경우에 대한 교정을 포함하는 것을 추가적으로 고려할 수 있다.
요구되는 경우, 고려되는 방법은 대립유전자 상태 특징을 결정하는 단계를 추가적으로 포함할 것이고, 종양 내 별개의(관련 또는 비관련) 클론의 수 및/또는 종양 내 클론의 비율을 결정하는 데 이용하는 것이 바람직하다. 추가적으로, 또는 대안적으로, 돌연변이를 대다수 대립유전자 또는 소수 대립유전자에 연결할 수 있고, 대립유전자 상태의 변화에 관한 상기 돌연변이의 시기를 결정하기 위하여 상기 돌연변이적 대립유전자 분획을 이용할 수 있는 것을 고려할 수 있다.
본 발명의 다른 양태에서, 종양에서 대립유전자 상태(allelic state)를 시각화(visualization)하는 생체외 방법은 복수의 시퀀싱 데이터로부터 상기 서열 데이터 내 대립유전자(allele)에 대한 복제수(copy number)와 대립유전자 분획(allele fraction)을 결정하는 단계, 상기 결정된 복제수와 상기 결정된 대립유전자 분획에 기초하여 상기 대립유전자에 대한 대립유전자 상태(allelic state)를 계산하는 단계. 및 복제수 대(versus) 대립유전자 분획이 플로팅(plotting)된 대립유전자 상태 도표에서 상기 대립유전자의 상기 대립유전자 상태를 맵핑(mapping)하는 단계를 포함한다. 추가적인 단계에서, 대립유전자의 대립유전자 상태는 복제수 대 대립유전자 분획(일반적으로 대다수 대립유전자 분획)이 플롯팅된 대립유전자 상태 도표에 맵핑된다.
가장 일반적으로, 상기 대립유전자 상태 도표는 상기 대립유전자 상태 도표 내 각 정점이 종양 대립유전자 상태, 상기 대립유전자 상태 도표는 정점들 사이에 그려진 가장자리를 따라 폴리클로날 종양 맵에 대립유전자의 손실(loss) 또는 획득(gain)된 클론 및/또는 정점들 사이에 그려진 가장자리 간의 폴리클로날 종양 맵에 대립유전자의 손실이나 획득외에 차이가 있는 클론과 일치하도록 나타낸다. 상기 대립유전자 상태 도표는 정상 오염에 대하여 조정하는 것을 추가적으로 고려할 수 있다. 물론, 상기 대립유전자 상태 도표는 이중 대립유전자 상태 도표로 나타낼 수 있음이 인식되어야 한다.
따라서, 다른 관점에서 본 발명자들은 또한 게놈(genomic) 서열 데이터를 분석하는 방법을 고려하였고, 이는 BAM 서버가 복수의 게놈 서열 판독을 수신하며, 상기 복수의 게놈 서열 판독은 환자의 종양 시료의 게놈 및 정상 시료의 게놈으로부터 획득된다. BAM 서버는 상기 복수의 게놈 서열 판독을 진행하여 복수의 상이한 서열 오브젝트(objects)를 생산하고, 상기 상이한 서열 오브젝트는 종양 게놈 내에 대립유전자에 대한 복제수 및 대립유전자 분획을 포함한다. 분석 엔진(BAM 서버에 연결됨)은 상기 대립유전자에 대한 상기 복제수 및 상기 대립유전자 분획을 진행하여 상기 대립유전자에 대한 대립유전자 상태를 결정한다.
본 방법의 일반적인 구현예에 있어서, 상이한 서열 데이터베이스는 BAM 서버 및 분석 엔진에 연결되어, 상기 BAM 서버는 상기 상이한 서열 데이터베이스에 대한 상기 상이한 서열 오브젝트를 제공하고, 상기 상이한 서열데이터베이스는 상기 분석 엔진에 대한 상기 상이한 서열 오브젝트를 제공한다. 또한, 그래픽 출력(graphic output)은 대립유전자 상태 도표 내 상기 대립유전자 상태를 플롯팅하는 분석 엔진에 의하여 생성되는 것이 고려된다.
본 발명의 다른 고려되는 양태에 있어, 종양으로부터 게놈 정보를 특성화하는 생체외 방법은 상기 종양 게놈 내 대립유전자에 대한 대립유전자 상태를 결정하는 단계, 및 추가적으로 상기 결정된 대립유전자 상태를 이용하여 상기 종양이 모노클로날 종양인지 또는 최소 2 종의 뚜렷한 종양 클론들로 구성된 것인지를 식별하는 단계를 포함한다.
본 방법에서, 종양 클론들의 관련성(예, 고유하고 비연관적인지 또는 연관적인지)을 식별하기 위하여 대립유전자 상태를 결정하는것이 추가적으로 고려된다. 클론이 관련성이 있는 경우 상기 결정된 대립유전자 상태를 이용하여 상기 별개의 종양 클론들에 대한 클론 이력(clonal history)을 식별하는 것이 고려된다.
따라서, 본 발명자들은 또한 종괴로부터 게놈 서열 정보를 획득하는 단계(예, BAM 서버로부터)를 포함하는 종괴의 종양 클론을 특성화하는 생체외 방법을 고려한다. 다른 단계에서, 상기 게놈 정보를 이용하여 상기 종양 게놈 서열 정보 내 대립유전자에 대한 대립유전자 상태를 결정한다. 추가적 단계에서, 대립유전자 상태 도표에서 상기 대립유전자에 대한 상기 대립유전자 상태의 위치를 결정하고(예, 그래픽 디스플레이 또는 인 실리코, 또는 숫자상으로), 상기 위치를 이용하여 상기 클론이 모노클로날인지 또는 폴리클로날인지를 식별한다. 예를 들어, 상기 대립유전자 상태의 상기 위치가 상기 대립유전자 상태 도표의 정점에 있는 경우 클론은 모노클로날이다.
본 발명의 또 다른 양태에서, 본 발명자들은 종양 치료를 위한 치료 정보를 제공하는 방법을 고려한다. 본 방법에서, 상기 종양에 대한 대립유전자 상태 정보를 확인하고, 약물 치료에 대한 상기 종양의 감수성(susceptibility), 및 약물 내성 또는 전이가능성의 증가된 위험 중 최소 하나를 나타내는 상기 종양 내 (a) 클론 또는 (b) 클론의 진화 패턴의 존재 또는 출현을 확인한다. 가장 일반적으로, 상기 존재 또는 출현을 식별하는 단계는 사전처리 데이터 또는 선험적(a priori) 공지된 데이터에 기초한다.
본 발명의 주제의 다양한 오브젝트, 특징, 양태 및 이점은, 유사한 번호는 유사한 구성요소를 나타내는 첨부하는 도면과 함께, 이하의 바람직한 실시예에 대한 상세한 설명으로부터 좀 더 명백해질 것이다.
본 발명자들은 대립유전자 상태 모델(예, 대립유전자 상태 도표로 표현)을 이용하는 접근법을 이용하여 유전적으로 비균질적인 시료의 클론형성능을 용이하게 해결할 수 있다는 것을 발견하였고, 상기 획득된 클론형성능 정보는 분석, 예후, 및 진단 이용을 포함하여 다양한 용도로 사용될 수 있다.
예를 들어, 본 명세서에서 고려되는 방법 및 시스템은 전체 게놈 시퀀싱 데이터를 이용하여 종양의 집단을 계산적으로 분해하는 능력을 제공하고, 요구되는 경우, 대립유전자 상태 도표를 이용하여 시각적으로 종양 샘플의 클론형성능을 평가하는 능력을 제공한다. 다른 관점에서 보면, 종양의 클론 혼합은, 현재 종양 세포 집단의 주요 클론으로의 종양 집단의 분해 및 복제수와 대립유전자 분획을 계산하기 위한 정상 오염의 추정에 의하여 결정될 수 있다(WO2013/074058에 기술된 바와 같이, BamBam를 이용하여 실시하는 것이 바람직하다). 또한, 순차적인 모든 주요 클론들의 전체 게놈 핵형의 결정 및 단계화에 대하여 고려되는 모든 시스템 및 방법은 클론-특이 복제수 변화의 출현 시간에 대하여 폴리클로날 종양 게놈의 계통수를 추정할 수 있도록 한다. 마지막으로, 단계화 및 돌연변이 대립유전자를 이용하여, 돌연변이의 출현을 이들의 포괄적인 복제수 변화에 관하여 개시할 수 있다.
따라서, 본 발명의 일 양태에서, 클론형성능 및 시기 정보는 개별적인 종양의 동적인 성질을 이해하는 데 보다 도움이 될 것이며, 이는 종양 유형 또는 종양의 존재 또는 발달에 대한 개별 또는 조직의 반응에 반영될 수 있다는 것이 인식되어야 한다. 놀랍게도, 이러한 모든 정보는 단일 종양 생검으로부터 발견할 수 있고, 특히 생체외 진단 방법에 유용한 고려되는 시스템 및 방법을 만들 수 있다.
본 발명의 또 다른 양태에서, 본 명세서에서 고려되는 계통-기반 돌연변이 모델은 관련된 시료(예를 들어, 원발 종양 및 이의 전이)의 돌연변이를 분석하는데 이용하여 암이 퍼진 돌연변이적 히스토리를 재구성할 수 있음이 인식되어야 한다. 단일 생검의 전체 게놈 시퀀싱 데이터로부터의 모든 성장하는 종괴를 포함하는 종양의 클론형성능을 결정하고 모든 주요 클론들을 식별할 수 있는 능력은 다양하고 잠재적인 임상적 적용이 가능하게 한다. 예를 들면, 새로 진단된 환자의 종양을 생검하는 경우 모든 주요 클론은 클론 분석을 통하여 식별된다. 임상의는 이러한 종양형성능 분석을 이용하여 진화수에서 가장 먼 클론에 특이적인 변형에 따라 환자의 치료에 맞추고, 초기 종괴 치료할 수 있는 전구 종양 세포, 파생 클론 또한 타겟이 될 것이다. 반면, 환자는 수술 또는 화학치료의 시작 전에 긴 시간 동안 안전하게 모니터링될 수 있는 느리게 성장하는 종양으로 진단된 경우, 일련의 생검의 클론 분석을 수행할 수 있고, 시기를 통해 종양의 클론 구성을 추적하여, 임상의는 가장 빠르게 성장하는 클론을 식별할 수 있다. 현재 지배적인 클론이 아니지만 지배적인 클론이 될 예정된 타겟 치료를 설계함으로서 보다 효과적으로 암을 치료할 수 있다.
또한, 클론형성능 분석은 암의 전이성 확산을 이해하는데 보다 유용할 수 있을 것으로 고려된다. 이러한 경우, 일차 종양 및 일련의 전이의 클론 분석은 확산되는 종양에 존재하는 모든 주요 클론을 결정하는 데 이용된다. 일차 및 각 전이의 클론 구성을 검사함으로써, 하나 이상의 특정 클론이 존재하면 전이 가능성이 증가하는 것으로 나타나는 경우 어떻게 각 클론이 퍼지고 발견되는 지를 결정할 수 있다. 전이성 클론의 독특한 특성을 결정함으로써, 본 발명자들은 다른 환자의 일차 종양 "초기 경고" 시그날의 소수 클론의 이러한 특성의 출현의 식별은 임박한 전이의 가능성의 결정을 위하여 개발될 수 있음을 고려한다.
클론형성능 분석에 대한 데이터를 획득하는 방법에 관해서, 복제수 및 대립유전자 분획을 식별하기 위한 게놈 분석은 제1 및 제2 조직 시료(예, 정상 및 질환 조직)으로부터 각 큰 유전자 서열 스트링의 다양하고 상대적으로 작은 게놈 서열 서브-스트링(sub-strings)(예, 서열 런으로부터의 짧은 판독)을 획득하는 시스템 및 방법을 이용하여 결정되는 것이 바람직하다. 유전자 서열 스트링은 최소 하나의 해당 서브-스트링의 하나 이상의 공지된 위치를 이용하여 점진적으로 동기화시켜 로컬 정렬을 생성한다. 상기 생성된 로컬 정렬은 분석(일반적으로 레퍼런스 게놈 서열을 이용)하여 로컬 정렬 내 제1 및 제2 서열 스트링 사이의 로컬 차이 스트링(local differential string)을 생성하고 이에 따라 상당히 상이한 정보(일반적으로 레퍼런스 게놈 서열에 상대적)를 포함한다. 로컬 차이 스트링 및 가장 일반적인 다수의 로컬 차이 스트링을 이용하여 부분 또는 심지어 전체 게놈에 대하여 상이한 게놈 서열 오브젝트가 생성된다. 이것은 로컬 정렬 및 상이한 정보를 생성하기 위한 점진 동기화가 대립유전자 특이 정보(예, 복제수, 대립유전자 분획 등)를 제공하는 능력뿐만 아니라, 전체 게놈의 처리속도의 상당한 증가를 포함하여 다양한 기술적 이점을 제공한다는 점에 주목해야 한다.
이와 같은 시스템 및 방법에서, 대신 두 가지의 매우 큰 파일을 처리하는 대신 다른 매우 큰 중간(또는 출력) 파일을 생성할 수 있어, 게놈 수준 분석은 다양하고 상당히 작은 부분을 달성할 수 있고, 상기 작은 부분들은 하나 이상의 서브-스트링의 게놈 내 공지된 위치를 이용하여 레퍼런스 게놈과 정렬된다는 것이 인식되어야 한다. 다른 관점에서 보면, 서브스트링의 공지된 위치 및 레퍼런스 게놈 서열을 이용하여 정렬은 서열 스트링의 점진 동기화에 의하여 실시되고, 출력 파일은 레퍼런스 게놈에 대해 유일한 관련 변화를 포함하도록 형성될 수 있다. 따라서, 처리 속도가 현저하게 향상되고 의미있는 출력의 생산에 필요한 데이터의 양이 극적으로 감소된다. 또한, 이러한 시스템 및 방법은, 그 중에서도, 하플로타입핑(haplotyping)/ 체세포 및 생식선 변이체 발현(calling) 및 대립유전자-특이 복제수가 결정되도록 한다는 것을 주목해야 한다. 또한, 본 명세서의 시스템 및 방법은 SAM/BAM-포맷의 서열 정보와 함께 사용하기에 적합하다.
예를 들면, 다중 서열 단편(예, 공여자의 종양 시료 및 동일한 공여자의 해당 비-종양 시료로부터의 짧은 판독)은 동일한 레퍼런스 게놈과 정렬되고, 이를 이용하여 시료로부터 서열 단편들이 구성된다. 따라서, 이러한 방법은 동일한 환자 및 레퍼런스 게놈으로부터 두 서열 단편의 데이터세트(종양으로부터 하나, 해당 정상 "생식선" 조직으로부터 또 다른 하나)를 이용하고, 데이터세트를 판독하여, 이에 의해 동일한 게놈 위치(서브-스트링의 레퍼런스 게놈 및 주석에 기초)가 오버랩핑된 양 데이터세트의 모든 서열은 동시에 처리된다. 각 데이터세트는 그 자체에 의해 처리되는 경우 이것은 이러한 데이터를 처리하는 가장 효율적인 방법이면서 또한 직렬 방식으로 달성하기 어렵거나 불가능한 복잡한 분석을 가능하게 하고 결과는 이후에만 병합된다. 특히 적합한 시스템은 본 명세서에 참고로 인용된, WO2013/074058에 기재되어 있다.
기본적 고려 사항
첫 번째 근사에서, 종양 성장은 암 세포 집단이다. 모든 종양 세포들이 실질적으로 동일한 유전자 특성을 공유하는 경우 이러한 집단은 균질적일 수 있다. 종양 세포가 증식하도록 하는 전구 종양 세포와 비교하여 모든 종양 세포들이 실질적으로 동일한 유전자 변이체(예, 복제수 변경, 구조적 변이체, 돌연변이)의 특징을 가지므로 이러한 종양은 모노클로날로 지칭된다. 이 전구 종양 세포는 종양을 개시하는 제1 종양성 세포일 수 있거나, 또는 종양 집단의 완전한 범위를 돕는데 유리한 돌연변이를 획득한 후속 종양 세포일 수 있다.
한편, 폴리클로날 종양 성장은 종양 세포의 최소 두 개의 유전적으로 별개의 클론 집단으로 구성된 종양으로 간주된다. 클론 종양에서, 각 클론 집단은 각각의 전구 클론으로부터 발생하지만, 각각의 전구 클론은 일부 관찰가능한 변형에 의한 다른 것과 상이하다. 따라서, 다중 클론 집단은 서로 유의하게 상이할 수 있으며, 또는 (더욱 흔히 그렇듯이), 클론 집단은 연관되어, 모든 또는 큰 서브세트의 종양 세포에서 발견되는 변이체 세트를 공유한다. 예를 들어, 주요 클론이 계산적으로 검출가능한 클론(일반적으로 종양 집단의 10 %를 나타냄)을 대표하는 경우, 폴리클로날 종양은 다수의 주요 클론을 포함할 수 있는 반면, 동일한 폴리클로날 종양은 임의의 소정의 방법으로 검출불가능한 소수 클론을 추가적으로 포함할 수 있다.
또한, 개별 돌연변이는 클로날 또는 서브클로날(subclonal)로 분류될 수 있다는 것에 주목해야 한다. 이런 맥락에서, 특히 종양의 지배적인 클론이 발견될 때, 클론 변이체는 임의의 모든 종양 세포 또는 모든 지배적인 클론들에 의해 이를 공유한다. 다른 관점에서 보면, 클로날 변이체들은 세포의 전체 집단 또는 폴리클로날 서브집단에 전체 침투가 달성된다. 서브클로날 변이체는 클론 집단에 속하는 세포들의 작은 비율로만 존재하는 것들이다.
종양의 상기 모델 및 이의 진화에 대한 예는 도 1에서 제공되며, 초기 생식선 세포는 중요한 종양 억제자(M1)에서 넌센스 돌연변이를 획득하고, 종양의 초기 성장을 지지하는 발암유전자(oncogene)(Al)를 증폭시킨다. 이러한 종양 발달의 초기에서, 다른 종양 억제자는 결실되어(D1) 유발된 종양 세포는 보다 빠르게 성장되고, 이는 이러한 결실을 갖는 세포가 전체 종양 집단을 빠르게 능가하도록 한다. 또한, 결실 D1을 획득한 후, 세포는 중성 돌연변이(M2, M3), 증폭(A2, A3), 결실 (D2, D3)의 세트를 획득한다. 이러한 변이체들은 종양 세포 변이체 클론 확장 동안 초기에 발생하지만, 임의의 선택적인 이점을 제공하지 않기 때문에, 종양 세포 집단은 종양 세포의 25%는 중립 변이체(M3, A2, A3, D2, 및 D3)를 갖고 종양 세포의 75%는 그렇지 않은 경우의 두 개의 "주요 클론"으로 나눠진다. 보다 추가적인 이러한 종양의 발달 동안, 추가 돌연변이(M4, M5)는 두 주요 클론 중 하나에 나타나지만, 환자의 사망 및/또는 조직 생검 이전에 집단을 통해 확산되는 기회를 갖지 못한다.
도 1의 예에서, 종양 집단은 하기 정의된 그의 두 주요 클론을 갖는 폴리클로날이고: 클론 (1)은 변이체 M1, A1, 및 D1을 갖고, 클론 (2)는 클론 (1)의 변이체를 공유하나, 추가적으로 변이체 M2, M3, A2, A3, D2, 및 D3을 갖는다. 클론 혼합은 75% 클론 (1)과 25%의 클론(2)로 결정된다. 그들 모두는 그들의 각 클론들이 전체 침투를 달성했으므로, 돌연변이 M1, M2 및 M3은 모두 "클로날"로 분류될 수 있는 반면, M4 및 M5는 "서브클로날"으로 분류될 수 있다. 또한, 도 1에서 볼 수 있는 바와 같이, 생검은 일반적으로 이종 조직 외에 정상 조직을 포함할 것이다.
데이터 추출 및 합성
하기에서 단일 종양 생검의 전체 게놈 시퀀싱 데이터로부터 종양 클론 진화를 재구성하는 데이터를 추출 및 합성하는 다양한 시스템 및 방법을 제시한다. 이러한 시스템 및 방법은 종양의 클론형성능, 종양의 모든 주요 클론의 비율, 및 주요 클론을 구별가능한 변이체를 결정하는 강력한 프레임 워크를 제공한다. 또한, 시스템 및 방법은 모대립유전자에 대하여 돌연변이를 단계화하고, 이에 의해 집단 내 이들의 출현 시간을 나타낸다. 또한, 고려되는 시스템 및 방법은 종양 생검에 존재하는 정상 조직의 오염 양의 정확한 추정을 제공할 것이다.
복제수 변경, 대립유전자 분획 및 대립유전자 상태 도표
주요 클론 집단을 발견 및 설명하기 위하여, 상대적인 복제수 및 대립유전자 분획 추정치가 이용된다. 이러한 데이터는 알고리즘과 WO2013/074058에 기술된 방법을 사용하여 얻을 수 있다. 클론형성능 및 추정 정상 오염 모두를 결정하는 방법의 기본은 "대립유전자 상태 도표(allelic state diagram, ASD)"이고, 이는 하기에서 더욱 상세히 설명된다. 상대적인 복제수 및 복제수 변경의 대립유전자 분획 모두를 이용하여 ASD는 대립유전자-특이 복제수 변이체의 클론 위치의 위치를 설명하고, 이는 모든 대립유전자 상태에 대한 복제수 및 대립유전자 분획 간의 연관성을 나타낸다는 것을 특별히 이해해야 한다. ASD에서 클론 대립유전자 상태의 위치는 하기의 방정식 I 및 II에 의해 결정된다:
Figure pct00001
상기 CN는 매칭된 정상에 비해 상대적인 종양 복제수이고, AF는 종양의 대립유전자 분획이고, α는 종양 시료의 정상 오염의 분획이며, tmaj, tmin, nmaj, 및 nmin는 각각 종양 및 정상의 대다수 및 소수 대립유전자 상태이다. 개별 게놈은 이산(discrete) 대립유전자 상태만을 가질 수 있기 때문에, 그것들은 소정의 염색체 세그먼트의 0, 1, 2, 또는 그 이상의 복제를 갖고, tmaj 및 tmin의 가능한 값은 양의 정수, ti ∈ (0, 1, 2, ...,n)의 세트로 제한된다. 또한, 정상에 대한 대다수 및 소수 대립유전자 상태는 하나, ni = 1에 대한 세트이고, 이는 정상 인간 게놈의 모든 상염색체(autosomes)에 대하여 사실이다. 성 염색체, X와 Y는 ASD에서 무시된다. 상기 식은 필수적으로 두 대립유전자를 필요로 하기 때문에, 일치하는 정상 게놈의 이형접합체의 위치(sites)만 ASD로 간주된다.
하기 도면에서, 특히 중요한 대립유전자 상태는 정상 복제수, 단일-복제 증폭, 단일-복제/반접합성 결실, 동형접합성 결실, CN-LOH(copy-neutral loss of heterozygosity) 및 양 모대립유전자의 증폭이다. 예를 들어, 도 2는 어떤 정상 오염없이 상기 대립유전자 상태에 대한 예시적인 복제수 및 대립유전자 분획 데이터를 보여주고, 이는 어떻게 ASD가 포인트의 각 클러스터의 대립유전자 상태를 결정하는데 이용될 수 있는지를 나타낸다. 여기서, ASD의 격자의 각 정점은 그 종양 대립유전자 상태(tmaj, tmin)로 표지되고, 그 위치는 상기 방정식에 의해 결정된다. 도 3은 어떻게 대립유전자 상태의 위치가 정상 오염, α의 양 증가에 의해 영향을 받는지 보여준다. 도 3A는 어떠한 정상 오염(α=0)도 없고, 도 3B-D는 증가된 정상 오염(3B: α=0.1; 3C: α=0.5; 3D: α=0.9)을 가진다. 쉽게 알 수 있는 바와 같이, 정상 오염이 증가함에 따라, 대립유전자 상태 위치가 함께 가까워지고, 이는 상이한 대립유전자 상태를 해결하는 능력이 감소시킨다. ASD를 생산하기 위하여 복제수 대 대립유전자 분획을 플로팅하는 것은, 종양의 클론형성능 상태를 관찰하고 식별하는 능력 및 종양의 클론형성능 상태의 변화를 관찰하고 식별하는 능력(일방 및 양방)을 포함하여 다양한 기술적 이점을 제공한다는 것을 특히 주목해야 한다.
도 3의 예는 모노클로날 종양의 정적 스냅샷을 나타낸다는 것에 주목해야 한다. 그러나, 종양 게놈이 크고 작은 염색체 세그먼트의 획득 및 손실로 매우 동적일 수 있다는 것은 잘 알려져 있다. 도 4는 이전 도면에서 설명한 대립유전자 상태 간의 가능한 전환의 일부를 예시적으로 도시한다. 그들은 염색체 세그먼트의 비가역적 손실을 포함하므로 일부 전환은 "일방(one-way)"임을 이식해야 한다. 예를 들어, 그결실된 대립유전자가 절대로 복원되지 않기 때문에, 정상 대립유전자 상태(1,1) 및 반접합성 결실 상태(1,0) 간의 전환은 "일방"이다. 그러나, 이 경우 유지된 대립유전자는 증폭되어 복제-중립 LOH 상태 및 이후(2+,0)로 전환되도록 한다. 각 대립유전자의 최소 하나의 복제가 게놈에 남아있기 때문에, 다른 대립유전자 상태 간의 전환에 필요한 결실은 "일방"으로 간주되지 않는다는 것을 주의해야 한다.
상기에 기초하여, 대립유전자 상태가 이제 비교적 간단한 방식으로 식별될 수 있다는 것을 인식해야 한다. 예를 들어, 도 5는 이전 도면에 기술된 대립유전자 상태로부터 단일 복제 손실 또는 획득에 의해서만 상이한 새로운 대립유전자로 전환된 종양 게놈의 ASD를 디스플레이한다. 이러한 전환 동안, 종양 세포의 집단은 원래 대립유전자 상태를 갖는 종양 세포 및 새로운 대립유전자 상태를 갖는 종양 세포의 혼합일 것이다. 예를 들면 도 5에 나타낸 바와 같이, 클론 A가 원래 대립유전자 상태로 정의되고, 클론 B는 새로운 대립유전자 상태로 정의되는 경우, 두 주요 클론 A 및 B 사이를 나누는 집단으로서 이러한 "전환성(transitional)" 종양으로 볼 수 있다. 이 도면에 나타낸 혼합 분획 Mb는 집단 내 클론 B의 분획으로 나타내어, Mb=0인 경우 종양 집단은 단독으로 클론 A로 구성되고, Mb=1인 경우 상기 집단은 클론 B로만 구성된다. 양 클론 ti,a 및 ti,b에 대한 대립유전자 상태가 여전히 양의 정수의 세트로 제한된다는 것을 주의하는 것이 중요하다.
도 5에서, 혼합 분획 Mb는 종양이 세포의 이종 집단인 경우, Mb = 0.25, 0.5, 0.75이며, 대립유전자 상태는 ASD의 정점에 놓여있는 것이 아니라 두 정점을 연결하는 가장자리에 있다. 이러한 상태에서 종양 집단은 폴리클로날로 분류될 수 있을 것이다. 예를 들어, 도 4의 포인트들의 클러스터를 참고한다. 게놈의 이러한 부위에서, 클론 A는 반접합성 결실의 대립유전자 상태를 가지고, 또는 (1, 0)인 반면, 클론 B는 증폭된 클론 A의 유지된 대립유전자를 가지며, 이는 복제-중립 LOH에 대한 이러한 부위에서 그의 대립유전자 상태를 변경한다. Mb=0인 경우, 빨간 포인트의 대립유전자 상태는 반접합성 결실 대립유전자 상태를 나타내는 ASD 정점 상에서 클러스터되어 확인된다. M이 증가함에 따라(즉, 집단의 클론 B의 양이 증가함에 따라), 포인트의 클러스터는 CN-LOH 상태를 향해 가장자리를 따라 진행한다. Mb=0.5에서, 집단의 클론 A와 클론 B의 양이 동일한 경우, 포인트의 클러스터는 LOH 및 CN-LOH 대립유전자 상태 사이의 가장자리의 중간에서 정확하게 발견된다.
만약 종양 인구가 비-파생 클론 또는 다른 하나와 관련이 먼 클론을 포함하여 이들의 대립유저나 상태가 단일 복제 획득 또는 손실에 의하여 상이해지지 않으면, 도 6에 나타낸 바와 같이 대립유전자의 혼합의 위치는 ASD의 가장자리를 따라 놓이지 않는다. 하기에서 더 상세히 설명되는 바와 같이, 또한, 2 개 이상의 주요 클론들이 폴리클로날 종양에 존재하는 경우 이러한 비정상적 대립유전자 상태가 발생할 수 있다. 따라서, ASD는 한번에, 종양 시료에서 하나 이상의 주요 클론의 존재를 나타낼 수 있있고, 주요 클론의 대립유전자 상태를 확인할 수 있으며, 종양 집단의 각 주요 클론의 비율을 시각적인 추정치로 제공할 수 있고, 이는 ASD가 종양 시료의 클론형성능을 결정하기 위한 강력한 진단 도구로 만들 수 있다는 것을 인식해야 한다. 또한, 대립유전자 상태 도표를 생성하기 위하여 복제수 대 대립유전자 분획을 플롯팅하는 것은 비-모노클로날 관련/파생 또는 비관련/비-파생 종양에서 혼합 분획을 결정하는데 유리하도록 한다는 것을 인식해야 한다.
ASD에 대하여 일치하는 서열 데이터
ASD 후의 수학적 컨스트럭트는 상기 방정식 I 및 II로 표현되고, 상대적인 복제수가 1.0이고 대다수 대립유전자 분획이 정상(1,1) 대립유전자 상태에 대하여 0.5인 이성적인 경우를 모델링한다. 그러나, 실제 데이터에 대한 서열 분석에 의해 생성된 결과들은 이러한 이상적인 경우와 종종 정확하게 맞지 않는다. 상대적인 복제수를 추정하기 위하여, 서열 분석(예, WO2013/074058에 기술된 바와 같이)은 종양과 정상의 사이의 상대적인 유효범위를 계산한다. 만약 종양 및 정상 시료가 동일한 유효범위 수준에서 서열화되는 경우, 상대적인 유효범위는 상대적인 복제수의 정확한 측정이다. 그러나, 종양 시료에서의 돌연변이, 특히 서브클로날 돌연변이의 검출을 개선하기 위한 시도로, 만약 종양 시료가 그의 매칭된 정상보다 높은 유효범위에서 서열화되는 경우는, 이 경우가 아닐 것이다.
예를 들어, 어떠한 정상 오염도 없다고 가정하고, 만약 종양이 그의 매칭된 정상의 2 배의 유효범위에서 서열화되는 경우, 종양에서 많이 판독될수록 정상에서 가지므로 "정상" 대립유전자 상태를 갖는 부위는 2 배를 가질 것이다. 따라서, 이 부위는 2.0의 상대적인 유효범위 및 1.0의 상대적인 복제수를 가지고, 그렇게 결정된 상대적인 유효범위는 ASD와 맞지 않을 것이다. 불행하게도, 시퀀싱은 원하는 유효범위 수준의 타겟만을 종종 서비스할 뿐만 아니라 그것이 달성된다는 보장이 없으므로 소정의 시퀀싱 데이터세트의 정확한 유효범위는 알려지지 않았다. 전체 유효범위 수준의 추정치로서 종양 및 매칭된 정상 데이터세트에서 발견되는 판독의 본래(raw) 갯수를 이용하는 것은 불균형을 교정하는 데 도움이 될 수 있으나, 종양 시료의 배수성에 의해 복잡하게 된다. 만약 4배체 종양(배수성 = 4.0)과 그의 매칭된 정상(배수성 = 2.0)이 동일한 물리적 유효범위에서 서열화된다면, 상기 종양은 매칭된 정상보다 2 배의 본래 판독 갯수를 가질 것이다. 그래서, 로컬 상대적인 유효범위 추정치를 눈금화하기 위하여 자신의 본래 갯수의 판독의 비율을 이용하는 것은 4배체 종양이 정상 복제수를 가지고 나타날 것이다.
서열 분석(예를 들어, WO2013/074058에 기술된 바와 같이)이 생성되는 대립유전자 분획의 추정에 있어 오류는 어떻게 대다수 대립유전자가 "정상" 대립유전자 상태와 같은 대립유전자 균형의 부위에서 선택되는지에 대한 제한에 의해 발생된다. 이상적으로, 상기 지역에 대한 대립유전자 분획이 약 0.5이어야하나, 두 대립유전자가 동일한 판독의 깊이가 있는 경우에만 발생한다. 종종, 어떻게 이형접합체 대립유전자가 게놈 DNA의 풀로부터 샘플링되는 지의 확률 특성 때문에, 두 대립유전자 중 하나는 다른 하나보다 약간 높은 판독 깊이를 가질 가능성이 있고, 추정된 대다수 대립유전자 분획에 있어 약간의 증가가 발생한다.
예를 들어, 어떠한 정상 오염도 없다고 가정하고, 30x 유효범위를 갖는 전체 게놈은 이상적으로 이형접합체 "정상" 대립유전자 상태에서 두 대립유전자의 15을 생산할 것이다. 그러나, 하나의 대립유전자의 판독 깊이가 단지 단일 판독에 의해 시프트되어, 대립유전자 A가 16의 판독 지원(read support)을 갖는 경우, 서열 분석(예를 들어, WO2013/074058에 기술된 바와 같이)은 16/30=.53, 실제 대립유전자 분획으로부터 0.03의 편차로 대다수 대립유전자 분획을 추정할 것이다. 일반적으로 다중 위치 전체를 평균화하는 것은 이러한 오류의 효과를 감소시킬 수 있고, 이러한 균형된 대립유전자 상태에 대한 대다수 대립유전자 분획의 오류는 그 정의에 의해, 0.5 이하로 된 적이 없기 때문에, 평균화될 수 없다. 다행히, 샘플링된 오류는 증폭되고 결실된 대립유전자 상태에 대하여 훨씬 덜 확연한 효과를 가진다. 이러한 경우에, 대다수 대립유전자는 쉽게 식별가능하고, 샘플링 오류가 다중 위치에 걸쳐 평균화될 수 있다.
이상화된 ASD로의 서열 분석 결과를 일치시키기 위해(예를 들어, WO2013/074058에 설명된 바와 같이), 데이터로부터 상기 오류를 모델링 및 교정할 수 있다. 상기 모델은 네 가지 매개 변수를 갖는다: 정상 오염 α, 대립유전자 분획 델타 AFd, 유효범위 델타 COVd, 유효범위 스케일링 요소 COVs. 도 3A-D에 나타낸 바와 같이, α 매개 변수만이 ASD의 격자 레이아웃에 영향을 미친다. 후자의 세 가지 매개 변수들은 서열 분석 결과를 변환시킨다. 매개 변수 COVd 및 COVs는 하기 방정식에 따라 "정상" 대립유전자 상태로부터 복제수 데이터의 Y 축 시프트 및 복제수 데이터의 스케일에 영향을 미친다:
Figure pct00002
상기 CN은 서열 분석에 의해 생성된 상대적인 복제수 추정치이고 CNcorr는 ASD에 대하여 비교하는 데 이용된 교정된 복제수이다. 마지막 매개 변수 AFd는 대립유전자 균형 상태의 대립유전자 분획 추정치에 대하여 그의 강력한 영향을 가진다. 이는 하기 방정식으로 이를 수행된다:
Figure pct00003
상기 x는 대립유전자 분획 추정치를 그들이 균형 대립유전자 상태로부터 분기되도록 교정할 정도로 신속하게 감소시키는 큰 정수(예를 들어, X = 20)로 설정된다. 그들이 정상 오염을 추정하기 위한 결정 요소이므로 결실된 상태에 있는 대립유전자 분획 추정치가 상당히 변경되지 않는 것을 주목해야 한다.
이러한 네 개의 매개 변수에 대한 최적의 값은 구배 최대경사 검색(gradient steepest descent search)을 이용하여 발견하고, 정상 오염 매개 변수 α에 의해 정의된 ASD에 대하여 교정된 복제수 및 대립유전자 분획 추정치의 RMSD, CNcorr 및 AFcorr를 최적화한다. 검색은 각 매개 변수에 대한 초기 값의 세트, 각 매개 변수 COVi d, COVi s ,AFi d 및 αi에 대한 증분의 세트로 시작한다. 각 매개 변수 P, 및 매개 변수 증분 pi, ASD로부터의 RMSD는 p, p + pi 및 p-pi에 대해 계산된다. 모두 네 개의 매개 변수 중 RMSD에서 가장 큰 감소를 산출하는 매개 변수 값은 그 매개 변수에 대한 새로운 현재 값으로 선택되고 이 사이클은 반복된다. RMSD에서 어떠한 감소도 없는 것이 현재 매개 변수 증분으로 가능한 경우, 증분은 절반으로 분할되고 검색이 재개된다. 분할의 3 라운드가 발생하면, 검색은 왼료되고 가장 적합한 매개 변수가 보고된다. 구배 하강은 종종 로컬 최소에 갇힐 수 있으므로, 매개 변수들의 일관성이 발견될 때까지 구배 검색은 얼마의 상이한 초기 매개 변수와 함께 실시된다. 따라서, 상술한 바와 같이 계정에 서열 판독(예, 종양 판독 대 정상 판독)의 실제 범위를 취함으로써 종양 및 정상 간의 유효범위가 동일하지 않은 경우(또는 명확하지 않은) 조차 대립유전자 상태를 식별할 수 있다는 것에 주목해야 한다.
종양 시료의 클론 혼합 모델링
ASD는 독특한 클론의 개수 및 종양 집단 내 이들의 비율을 정의하는 데 도움을 주는 대립유전자 상태 "랜드마크(landmark)"의 세트를 결정하는 데 이용할 수 있다, Li = (CNcorr,i, AFcorr,i). 그것들은 전체 종양 집단의 중요한 분획에 있어 복제수 변화를 겪은 종양의 주요 부분을 나타내기 때문에, 이러한 분석에 이용된 랜드마크는 ASD 상의 포인트의 큰 클러스터에 의해 정의될 수 있다. GBM-06-0185을 분석하는 데 사용되는 랜드마크 대립유전자 상태에 대한 도 7B를 참조한다. ASD의 각 랜드마크의 경우, 그의 관찰된 복제수 및 대립유전자 분획을 야기할 수 있는 모든 가능한 클론 혼합은 고려되고, 최적의 클론 혼합이 선택되어 가장 드문 모든 ASD 랜드마크가 설명될 수 있다.
도 5에 관찰된 바와 같이, 모노클로날 종양 집단에 대하여, ASD 정점에 놓인 모든 것을 랜드마크로 기대할 수 있다. 그러나, 두 주요 클론을 포함하는 폴리클로날 종양에서, 클론 B가 모든 클론 A의 대립유전자 상태를 물려받고 클론 A로부터 별개의 추가적인 대립유전자 상태를 갖는 경우, ASD의 정점 및 가장자리 모두에서 랜드마크가 발견될 것으로 기대할 수 있다. 정점에 놓인 랜드마크들은 클론 A & B 모두에 의해 공유된 대립유전자 상태를 나타내는 것들인 반면, ASD 가장자리에 있는 랜드마크들은 상이한 대립유전자 상태의 혼합을 나타낸다. 이 연결되는 가장자리를 따라 있는 위치는 혼합의 클론 A 및 B의 비율을 결정한다. 다중 랜드마크가 정점이 아닌 가장자리에서 발견되는 경우, 이들의 각 가장자리를 따라 있는 다양한 위치는 다양한 클론의 수를 결정할 것이다.
예를 들어, 모든 랜드마크가 두 대립유전자 상태의 중간에서 발견되면, 상기 예는 집단 내 동일한 비율의 두 주요 클론들에 의해 가장 단순하게 설명된다. 그러나, 하나의 랜드마크가 중간 마크에 위치하고 다른 하나는 대립유전자 상태를 향한 선을 따라 25%에서 발견되면, 집단에서 두 개 이상의 클론이 있어야 한다. 이것에 대한 간단한 설명은 A가 종양 집단의 50%를 차지하고, 클론 B & C가 각각 25%를 차지하는 경우 세 클론, A, B & C가 있다는 것이다. 가정된 클론 B & C 모두가 랜드마크 중간을 설명하는 클론 A로부터의 단일-복제 대립유전자 상태 변화를 나타낸다. 25% 랜드마크는, 그 염색체 세그먼트에서 클론 B(또는 C)가 단일-복제 대립유전자 상태 변화를 겪었다면 클론 A와 C(또는 B)에서는 발견되지 않는다는 것을 설명한다. 따라서, 수중에 문제는 n 관찰된 랜드마크를 설명하는 주요 클론의 최소 개소를 결정하는 것이고, 이는 하기와 같이 표현될 수 있다:
Figure pct00004
상기 Lobs i=(CNobs i,AFobs i). m 클론의 혼합을 가정할 수 있으며, 각각은 k 적분(integral) 대다수 및 소수 대립유전자 상태 Ci=[(t0 maj,i, t0 min,i), (t1 maj,i, t1 min,i), ..., (tk maj,i, tk min,i)], 및 혼합 비율 Mi이고 ∑ Mi = 1.0 - α. 각 랜드마크 Lmix i의 상대적인 복제수 및 대립유전자 분획은 클론 혼합을 가로지르는 i에 의해 인텍스된 대립유전자 상태의 선형 조합이다:
Figure pct00005
상기 모든 클론에 대한 정상 대립유전자 상태는 nk maj,i = nk min,i = 1인 것으로 간주된다. 최적의 해결은 주요 클론 또는 목적 함수를 최적화하는 단순한 혼합을 갖는 관찰된 랜드마크에 가장 가깝게 근접시키는 것이다:
Figure pct00006
이는 관찰된 데이터로부터의 RMSD에 강도 매개 변수 X에 의해 조절되는 집단의 클론 개수에 대한 패널티를 더한 것이다.
상기 방법은 최적 매개 변수를 찾은 후 실시된다. 모든 "공유된" 랜드마크 대립유전자 상태를 식별함으로써 시작되며, 이는 혼합 내 모든 클론이 나타나야 한다. 본 발명자들이 종양이 단계적인 전화인 것으로 가정한다면, 이러한 공유된 대립유전자 상태는 종양 진화수의 "뿌리"를 나타낸다. ASD 가장자리에 랜드마크가 존재하지 않는 경우, 절차는 완료되고 종양 집단은 모노클로날로 분류된다.
랜드마크는 두 개의 경계 대립유전자 상태 사이의 가장자리를 연결하는 ASD를 따라 존재하는 경우, 추가적인 클론이 필요하다. 상기 절차는 혼합에 대한 하나의 추가적인 "딸" 클론을 추가하고, 이는 모든 공유된 대립유전자 상태를 나타내고, 가장자리-결합 랜드마크를 설명하는데 필수적인 대립유전자 상태 및 혼합 비율을 획득한다. 하나 이상의 가장자리-결합 랜드마크이 동일한 혼합 비율로 설명될 수 있는 경우, 이러한 새로운 대립유전자 상태는 새로운 클론에 추가된다. 이러한 과정은 모든 비-정점 랜드마크가 클론 혼합에 의해 설명될 때까지 반복되고, 상기 각 추가적인 "딸" 클론은 설명되지 않는 랜드마크의 한쪽을 경계하는 혼합 내 임의의 최신 클론으로부터 유래할 수 있다. 일단 모든 랜드마크가 합리적으로 설명될 수 있기만 하다면, 클론의 대립유전자 상태 및 혼합 비율은 보고된다.
ASD의 각 랜드 마크의 위치를 고유하게 결정하는 대립유전자 상태의 상기 조합 이상의 방정식으로부터 또한 랜드마크에 해당하는 게놈 내 모든 위치에 대한 단계화 세트 대립유전자 상태를 결정할 수 있다는 것에 주목해야 한다. 혼합 비율이 각 클론에 대하여 고유한 경우, 즉, 주요 클론이 종양 집단을 고르지 않게 분할해야하는 경우에만 이것은 작용 할 수 있다. 그러한 경우에, 이것은 전체 게놈, 클론-특이 핵형이 종양 집단 내 각 클론에 대하여 추론이 가능하도록 한다. 따라서, 대립유전자 랜드마크를 사용하는 것은 종양 집단 내 별개의 클론의 수와 그들의 비율을 정의하는 것이 이제 가능하다는 것을 기술적 장점으로 제공할 것이다.
클론-특이 대립유전자 상태에 대한 돌연변이 연결
종양의 진화의 더 큰 이해를 달성하기 위해서는, 복제수 변화의 배타적 분석에 구속될 필요가 없다. 상술한 프레임워크에 체세포 돌연변이를 통합함으로써, 돌연변이가 종양의 발달 동안 발생되는 시기를 결정하는 것이 가능하다. 이를 위해, 하나 이상의 돌연변이가 ASD에 있는 포괄적인 염색체 부위의 대다수 또는 소수 대립유전자에 직접적으로 연결된다. 이어서 돌연변이의 대립유전자 분획을 이용하여 돌연변이가 대립유전자 상태의 변화 전, 대립유전자 상태의 변화 직후, 또는 훨씬 나중에 발생하는 지 여부를 결정한다. 이러한 분석은 두 가지 다른 방식으로 실시될 수 있다.
직접 단계화를 통해: 서열 분석에 의해 발견된 모든 돌연변이의 경우, 모든 주변의 생식선 이형접합체 변이체는 물리적으로 연결, 또는 특정 생식선 대립유전자에 대한 돌연변이 대립유전자인 "단계"인 페어된(paired) 판독을 식별할 수 있다. 이러한 맥락에서, "주변(Nearby)"은 일반적으로 이러한 전체 게놈 라이브러리에 대하여 일반적으로 1,000bp인 페어된 판독 라이브러리의 두배 미만 삽입 크기에 의해 분리되는 것으로 정의되고, 두 페어된 판독을 분리할 수 있는 예상 거리의 매우 바깥쪽이다.
돌연변이 및 생식선 변이체 모두의 위치를 오버랩하는 모든 판독 쌍은 수집되고 돌연변이 시기의 개수는 생식선 변이체 대립유전자로 단계화되거나 기록된다. 만약 돌연변이가 동일한 생식선 변이체 한번 이상 연결되어 발견되고 또한 그 생식선 변이체의 다른 대립유전자에 대해 단계화되어 발견되지 않는다면, 그 생식선 변이체 대립유전자에 대하여 직접적으로 단계화된 것으로 간주된다. 돌연변이 및 생식선 변이체가 판독 길이 보다 짧게 분리되는 경우, 단계화는 단일 판독 내에서 발생할 수 있거나 판독 쌍의 반대편 짝에서 발생할 수 있다. 또한, 돌연변이는 다중 생식선 변이체 위치에 대하여 단계화될 수 있다.
생식선 변이체에 대하여 직접적으로 단계화될 수 있는 모든 돌연변이의 경우, 생식선의 대립유전자 변이체 분획은 돌연변이가 대다수 또는 소수 대립유전자에 대하여 단계화되는 지를 결정하는 데 이용된다. 생식선 변이체의 대립유전자 분획이 0.5보다 크거나 동일한 것으로 결정되면, 돌연변이는 "대다수-단계적", 그렇지 않으면 소수 대립유전자, 또는 "소수-단계적"으로 간주된다. 두 대립유전자 상태가 정상(1,1) 또는 양-대립유전자, 균형 증폭(2,2)과 같이 동일한 경우, "대다수(majority)" 또는 "소수(minority)" 대립유전자에 대한 돌연변이의 정렬은 대립유전자가 서열 데이터에서 어떻게 약간 깊게 시료화되는 지에 의존적이다. 따라서, 이러한 경우의 "대다수-단계적(majority-phased)", 또는 "소수-단계적(minority-phased)"인 돌연변이를 분류하는 것은 의미가 없다.
증폭된 대립유전자 분획을 통해: 직접적인 단계화가 실시될 수 없는 경우, 돌연변이가 연결되어 있는 지를 결정하는 능력은 심각하게 제한된다. 돌연변이가 증폭된 염색체 세그먼트 내에서 발견되는 경우, 돌연변이의 대립유전자 분획을 이용하여 돌연변이가 연결될 수 있는 대립유전자를 결정한다. 돌연변이의 대립유전자 분획이 대다수 대립유전자 분획에 대하여 거의 동일한 경우, 돌연변이가 증폭 이전에 증폭된 대립유전자에 존재할때만 이것이 발생할 수 있다. 만약 돌연변이가 비-증폭 대립유전자에 대신 있었다면, 돌연변이의 대립유전자 분획은 반드시 훨씬 낮을 것이다.
그러나, 돌연변이가 증폭후 발생할 수 있기 때문에, 낮은 돌연변이 대립유전자 분획은 그들이 "대다수-단계적"라고 반드시 의미하지는 않는다. 예를 들어, 부위가 단일 복제인 대립유전자(2, 1)에 의해 증폭된 경우, 증폭 후 돌연변이는 전-증폭 돌연변이의 예상 대립유전자 분획 2/2+1 = 0.67과 비교하여 1/2+1 = 0.33의 최대 대립유전자 분획으로, 많아야 대대수 대립유전자의 하나의 복제에 존재할 수 있다.
따라서, 돌연변이가 증폭이전에 발생한 경우 비-단계화 돌연변이를 증폭된 세그먼트에 연결하는 것은 제한된다. 그럼에도 불구하고, 종양의 성장을 주도할 가능성이 있는 종양의 발달에 있어 초기에 발생하는 발암유전자 돌연변이를 예상할 수 있으므로, 이것은 여전히 유용할 수 있다. 이들 발암유전자 돌연변이의 다중 복제가 종양 세포에 대해 선택적으로 유리한 경우, 돌연변이 복제수 및 대립유전자 분획에 있어 필요한 증가를 예상하여 사용자가 이러한 방법을 이용하도록 할 수 있다.
돌연변이 시기를 유추하기 위한 대립유전자 분획 비교
대다수 또는 소수 대립유전자에 돌연변이를 가정한 후, 생식선 변이체 대립유전자를 포함하는 염색체 세그먼트의 대다수 또는 소수 대립유전자 분획에 대하여 돌연변이의 대립유전자 분획을 비교할 수 있다. 세그먼트 내 모든 생식선 이형접합체 위치 전체를 평균화로 인해 염색체 세그먼트의 대립유전자 분획의 추정치가 보다 정확하기 때문에, 일반적으로 생식선 변이체 대립유전자 대신 염색체 세그먼트의 대립유전자 분획을 이용하는 것이 바람직하다. 이형접합체 위치의 대다수 또는 소수 대립유전자 분획에 대한 돌연변이의 대립유전자 분획을 정확하게 비교하기 위해서는, 약간의 "정상" 오염에 돌연변이된 대립 유전자를 추가해야 한다. 대다수 대립유전자 분획 AF는 그것의 분자와 분모 모두 정상 오염을 특징으로 한다. 이러한 방정식에서 고려되는 위치는 정상에서 이형접합체라는 사실에 기인하고, 따라서 양 대립유전자 모두로부터 정상 오염을 얻을 것으로 기대된다. 그러나, 체세포 돌연변이의 경우, 돌연변이가 정상에 존재하지 않기 때문에, 돌연변이 대립유전자의 어떠한 정상 오염도 없다.
Figure pct00007
상기 MAF는 돌연변이 대립유전자 분획이고, m은 돌연변이된 종양 대립유전자 tmaj의 복제의 분획이며, tmaj, tmin, nmaj, 및 nmin는 동일한 동형접합체 대립유전자를 나타낸다. 이형접합체 위치에서 추정된 대립유전자 분획에 대하여 MAF를 공정하게 비교하기 위해, 하기 교정이 사용된다:
Figure pct00008
상기 MAFc는 교정된 돌연변이 대립유전자 분획이다. m이 상기 방정식에서 제로보다 작거나 동일한 임의의 분획일 수 있는 반면, 특별한 의미를 갖는 m의 일부 값이 존재한다. m = 1인 경우, 모든 tmaj 대립유전자는 돌연변이화되고, 상기 tmaj이 증폭된 대립유전자를 나타내는 경우, m = 1일 때, 돌연변이는 증폭전에 발생되어야 한다. m = 1 tmaj, 상기 tmaj는 증폭된 대립유전자의 복제 개수를 나타내는 경우, 증폭된 대립유전자의 단일 복제 상에 존재하나 대다수의 종양 세포의 이러한 상태에서 발견되므로 돌연변이가 증폭 직후에 발생해야 한다는 것을 알 수 있다. 그러나, M << 1/tmaj인 경우, 그것의 매우 낮은 대립유전자 분획은 종양 세포의 적은 분획에서만 발견된다는 것을 나타내므로 돌연변이는 종양의 성장 동안 매우 느릴 가능성이 있는 증폭 후 발생해야 한다.
돌연변이가 소수 대립유전자 tmin에 대해 단계화되는 경우, 소수 대립유전자의 모든 복제가 전환되었다는 것을 나타내므로 m = tmin/tmaj 인 최대 돌연변이 분획이 발견될 것으로 기대된다. 따라서, 단일 복제에서 소수 대립유전자 상태로 존재하고 그것의 모든 복제들이 정확하게 동일한 돌연변이 분획으로 돌연변이화된 경우 m = 1 tmaj, "대다수-단계적" 돌연변이는 단일 복제에 존재한다. 따라서, 오직 직접 단계화만이 초기 "소수-단계적" 돌연변이 및 증폭후 발생된 돌연변이를 구별할 수 있다.
도 1A는 종양 생검에 의하여 수집된 주요 및 소수 클론들의 집단에 대하여 생식선 세포로부터 초기 종양 세포로 시작되는 종양의 진화의 예시적인 도식이다.
도 2는 제로 정상 오염과 모노클로날 종양 시료에 대한 시뮬레이션 데이터의 예시적인 대립유전자 상태 도표(allelic state diagram, ASD) 이다, α=0. 상이한 복제수 변경을 나타내는 염색체 부위는 상이한 음영으로 플롯팅된다. 이 시뮬레이션 종양 게놈은 6 개의 대립유전자 상태를 나타낸다: 정상, 단일-복제 증폭, 반접합성 결실, 이형접합성 결실, 복제-중립 LOH(copy-neutral LOH), 및 다중-복제 이중대립유전자 증폭(multi-copy biallelic amplification).
도 3A-3D는 정상 오염 물질의 서로 다른 수준을 갖는 도 2의 시뮬레이션 모노클로날 종양 게놈에 대한 대립유전자 상태 도표의 세트의 예를 나타낸다: 도 3A는 0% 정상 오염 물질을 보여주고, 도 3B는 10% 정상 오염 물질을 보여주며, 도 3C는 50% 정상 오염 물질을 보여주고, 도 3D는 90% 정상 오염 물질을 보여주며, 차이는 정상 오염의 수준의 함수로서의 해상도이다.
도 4는 일방 전환이 모염색체의 비가역적 손실에 관련된 것인 경우 대립유전자 상태 간의 양방 및 일방 전환이 가능한 일부를 나타내는 도 2의 대립유전자 상태 도표이다.
도 5는 이전 도면에 기술된 대립유전자 상태로부터 단일 복제 손실 또는 획득에 의해서 상이한 새로운 대립유전자 상태로 전환되는 종양 게놈에 대한 대립유전자 상태 도표이다. 여기서, 종양이 두개의 상이한 클론/서브클론들의 혼합을 포함하는 경우 전환된 대립유전자 상태가 형성된다: 클론 A는 본래 대립유전자 상태에 의하여 정의된다: (2,1), (5,2) 및 (1,0). 클론 B는 증폭 및 결실을 통하여 이러한 상태가 변경되어 대립유전자 상태를 생성한다: (2,2), (4,2) 및 (2,0). 0%가 클론 A의 모노클로날 집단을 나타내고, 100%가 클론 B의 모노클로날 집단을 나타내는 경우, 비율은 종양 집단에 존재하는 클론 B의 비율을 가리킨다.
도 6은 대립유전자 상태가 종양이 두 가지 이상의 비관련, 또는 관련성이 먼 클론으로 구성된 경우에 발생될 수 있는 "스킵(skipped)"인 경우 생성된 전환성 대립유전자 상태를 나타내는 도 2의 대립유전자 상태의 예시적인 도식이다. 이 경우, 만약 두 개의 주요 클론이 대다수 및 소수 대립유전자 모두가 다르다면 전환된 대립유전자 상태를 대립유전자 상태와 연결되는 가장자리에서 발견되지 않는다.
7A 및 도 7B는 두 GBM 종양에 대한 대립유전자 상태 도표의 예시적인 도식이다: GBM-06-0145 (도 7A) 및 GBM-06-0185 (도 7B). 일치하는 매개 변수는 각각 21.5%와 14.6%의 정상 오염으로 발견되었다. 도 7A는 클론성 대립유전자 상태만을 가리키고 전환성 대립유전자 상태의 어떠한 증거도 없으며, 이는 GBM-06-0145가 모노클로날 종양임을 나타내는 반면, 도 7B는 클론 상태와 다중 전환성 대립유전자 상태 모두를 가르킨다. 전환성 대립유전자 상태((*)로 표시된)는 세 가지 혼합 비율을 특징으로 하므로, 이 폴리클로날 종양은 최소 세 개의 서브-클론으로 구성되어야 한다. 도 7B에 플롯팅한 블랙 X는 GBM-06-0185의 클론 혼합을 결정하기 위해 이용하기에 적합한 대립유전자 "랜드마크(landmark)"을 나타낸다.
도 8은 GBM-06-0145에 대한 모노클로날 핵형을 도시하는 예시적인 플롯이다.플롯의 상부에 표시된 "상대 범위" 및 "대립유전자 분획"은 BamBam에 의해 관찰된 결과 출력 및 단일 클론 정상 오염의 혼합을 모델링함으로써 생성된 계산된 범위와 대립유전자 분획 모두를 보여준다. 모델링 데이터에 대한 실제의 비교는 매우 강한 일치를 보여준다. 클론의 핵형은 하기에서 종양 게놈에 대한 대다수 및 소수 대립유전자 상태를 보여주고, 이는 전체 chr7 및 chr19의 하나의 복제의 증폭, chr10의 하나의 복제의 완전한 손실, 및 chr9p의 암-수준 손실을 나타낸다.
도 9는 GBM-06-0185에 대한 폴리클로날 핵형을 도시하는 예시적인 플롯이다. 종양 시료의 42.7%를 포함하는 집단의 지배적인 클론으로 결정된 클론 D가 있는 총 4개의 별개의 클론들이 이 종양에서 식별되었다. 모든 클론들은 공통적으로 chr7, chr19 & chr20의 단일-복제 증폭, chr10 및 chr22의 단일 복제 손실 및 chr9p의 손실을 갖는다. 클론 B, C, & D 모두 chr6에 결실을 가지고 있으나, 클론 B의 결실은 중심적인 반면, 클론 C & D는 chr6q의 암-수준 손실을 디스플레이한다. 클론 D는 chr9의 온전한(intact) 복제의 증폭에 의해 더욱 구별된다.
도 10은 GBM-06-0152에 대한 폴리클로날 핵형을 도시하는 예시적인 플롯이다. 예상 24.1% 정상 오염을 갖는 이 종양 시료에서 세 개의 클론들이 식별되었다. 모든 클론들은 이전 장에서 설명한 두 DM을 생성하는 염색체파열-유사 이벤트에 관련된 chr1, chr19 & chr20의 증폭, chr10 & chr22의 결실, 및 chr12의 중심 소실을 공유한다. 클론 B & C는 chr7의 증폭 및 chr1뿐만 아니라 chr2, chr3, chr4, chr8, chr13, 및 chr17의 비증폭된 복제의 결실을 나타낸다. 클론 C는 chr8의 나머지 복제를 추가적으로 증폭시킨다.
도 11은 GBM-06-1086에 대한 폴리클로날 핵형을 도시하는 예시적인 플롯이다. 예상 7.5% 정상 오염을 갖는 이 종양 시료에서 세 개의 클론들이 식별되었다. 모든 클론들은 chr21의 증폭 및 chr9 & chr11p의 결실을 공유한다. 클론 C & D는 chr1, CHR3, CHR4, chr5, chr6, chr8, chr10, chr13, chr14, chr15, chr17, chr18 및 chr20이 결실되는 중요한 염색체 손실이 나타난다. 종양 시료의 41.6%를 구성하는 지배적인 클론 D는 chr18의 유일한 나머지 복제를 결실하고, chr19을 증폭시킨다. 검은 색 화살표는 클론 A & B에 있는 CDK2NA의 위치를 나타내며, 후자의 클론에서 CDKN2A의 중심 결실의 도달을 강조한다.
도 12는 이중 ASD의 단계적 변이의 예시적인 도식이다. 종양 게놈의 대표적인 부위는, 단일 복제 획득 대립유전자 상태의 부위, "정상" 대립유전자 상태의 부위, CN-LOH을 나타내는 부위, 및 LOH을 나타내는 부위로 구성되는 것으로 나타내었다. 세 돌연변이는 두개의 대다수-단계적(빨간 별) 및 하나의 소수-단계적(파란 별) 증폭된 부위에서 발견된다. 두 돌연변이는 하나의 대다수-단계적 및 다른 하나의 소수-단계적인 "정상" 대립유전자 상태에서 발견된다. LOH을 나타내는 두 부위는 유일한 나머지 대립유전자에 대하여 각 단계화된 하나의 돌연변이를 갖고, 따라서, 대다수-단계적이다. 각 돌연변이의 교정된 대립유전자 분획인 MAFc를 이용하여 이러한 돌연변이의 각각을 확인하여 X-축을 따라 그것의 위치를 결정할 수 있는 경우, 이중 ASD는 하기에서 나타낸다. 모두 대다수 대립유전자에 존재하는 유일한 돌연변이 대립유전자(즉, 증폭전 돌연변이화)가 단일 복제 획득 대다수 대립유전자 상태 근처에서 발견되는 경우, 단일-복제 획득 대립유전자 상태에 있는 두 개의 대다수-단계적 돌연변이의 상이한 배치를 주목해야 한다. 다른 하나는 단일 복제 획득 소수 대립유전자 상태 근처에서 발견되고, 이는 돌연변이가 대다수 대립유전자의 유일한 하나의 복제 상에 존재한다는 것을 정확하게 식별한다. 마지막으로, 파란색의 소수-단계적 돌연변이가 모두 이중 ASD의 왼쪽-절반을 향하고 있는 것으로 확인된다.
도 13은 종양 GBM-06-0145에 대한 이중 ASD의 단계적 돌연변이의 도식이다. 7 부위가 이러한 플롯에 둘러 쌓여 있다: (a) 돌연변이가 두 복제 중 하나인 것을 제시하는 MAFc로 존재하는 증폭된 대립유전자 상태에 대한 대다수-단계적, (b) 돌연변이가 두 증폭된 복제 모두에 존재한다는 것을 제시하는 MAFc와 증폭된 대립유전자 상태에 대한 대다수-단계적, (c) LOH의 대립유전자 상태와 일치하는 대립유전자 분획을 갖는 대다수-단계적, (d) 단일 복제와 일치하는 MAFc를 갖는 대다수-증폭 대립유전자 상태에 있는 소수-단계적, (e) 증폭된 대립유전자 상태와 일치하는 MAFc를 갖는 비단계적 돌연변이, 및 (f) LOH의 대립유전자 상태와 일치하는 MAFc를 갖는 비단계적 돌연변이.
도 14는 종양 LUSC-34-2596에 대한 이중 ASD의 단계적 돌연변이의 도식이다.두 개의 둘러싸인 영역, (a) 및 (b)는 균형 증폭된 대립유전자 상태(2,2)에서 각각 대다수와 소수 대립유전저에 대하여 단계화된 돌연변이의 숫자를 나타낸다. NDRG1의 한 대다수-단계적 돌연변이가 일치하는 MAFc와 전환성 대립유전자 상태에서 발견된다. BRAF & DNMT3A에서 두 개의 미스센스 돌연변이의 위치 및 TP53에서 하나의 넌센스 돌연변이의 위치는 고도로 증폭된 대립유전자 상태에서 BRAF을 배치하고, "정상" 대립유전자 상태에서 DNMT3A를 배치하고, CN-LOH 상태에서 TP53을 배치하여비단계적 플롯에 나타내었다.
실시예
GBM (glioblastoma multiforme): 12 개의 전체 게놈 GBM 시료들을 상기 방법으로 처리하여 각 종양 생검에 존재하는 정상 오염 수준 및 클론형성능 수준을 결정하였다. 이전 섹션에서 언급된 다른 5 개의 전체 게놈 GBM 시료에 대한 BamBam에 의해 생성된 상대 범위와 대립유전자 분획은 이러한 방법으로 분석되어야 하는 매우 많은 가변성(variability)을 보유하였다. 클론형성능 분석의 결과는 표 1에 요약한다.
Figure pct00009
놀랍게도, 단지 3 개의 GBM 종양 시료들이 모노클로날인 것으로 확인된 반면, 다른 9 개의 시료들은 최소 두 가지 주요 클론을 포함하고 있었다. 7 개의 GBM 종양의 경우, 클론들의 정확한 혼합물이 결정된 반면, 나머지 5 개의 종양들은 이것들의 클론형성능을 육안으로 판별하였다.
두 종양, GBM-06-0145 및 GBM-06-0185는, 도 7a 및 7b에 나타낸다. 이 두 종양의 상대 범위 및 대립유전자 분획 데이터는 상술한 바와 같이 최적의 매개 변수를 이용하여 변환하였고, 각각 21.5%와 14.6%의 예상 정상 오염 수준으로 ASD에 일치하게 확인되었다. 정점 또는 가장자리에 있는 지 데이터 클러스터의 위치를 확인함으로써, 시각적으로 이러한 종양의 클론형성능을 결정할 수 있다. ASD 정점 주위의 모든 GBM-06-0145(도 7A) 데이터 클러스터 때문에, 이 종양이 모노클로날일 가능성이 있다. 반면, ASD의 가장자리를 따라 있는 여러 대형 클러스터들이 이 종양에서의 최소 두 가지 주요 클론들의 존재를 나타내기 때문에, GBM-06-0185(도 7B)는 명확하게 폴리클로날이다. 실제로, 가장자리-결합 클러스터가 이들의 가장자리를 따라 상이한 위치에서 확인되기 때문에(예를 들어, 일부 클러스터가 중간 표시에 있는 반면, 다른 클러스터는 단일-복제 결실 상태를 향한 선의 각각 약 .75 및 .80이다), 이것은 최소 세 가지 주요 클론의 혼합물로부터 발생할 수 있다.
이러한 시료들에서 정확하게 클론의 개수를 결정하기 위해, 본 발명자들은 상술한 방법을 이용하여 클론의 개수 및 이들의 대립유전자 상태를 결정하였다. 각 추론된 클론 혼합물의 경우, 본 발명자들은 파생된 클론 혼합물에 주어진 게놈의 모든 위치에 대한 상대적인 복제수와 대립유전자 분획을 계산적으로 결정하고 이를서열 분석에 의해 산출된 결과에 대해 비교하였다. 이것은 얼마나 잘 클론 혼합물 모델이 데이터를 관찰했는지 확인하기 위한 메트릭(metric)을 제공한다.
도 8에 나타낸 바와 같이, 예상대로 본 발명자들은 GBM-06-0145에 대한 단일 클론을 확인하였다. 계산적으로-파생 상대적인 복제수와 대립유전자 분획 데이터는 관찰된 데이터와 매우 잘 일치한다는 것을 보여준다. 총 네 개의 주요 클론들이 GBM-06-0185에 대하여 발견되었고, 이의 클론 대립유전자 상태는 도 9에 나타낸다. 본 명세서에 제시된 네 개의 클론들로부터 주의해야 할 두 가지 중요한 것이 있다. 상술한 바와 같이, 우선, 각 클론의 혼합 비율이 모든 다른 것들과 상이하다는 사실은 클론-특이 핵형으로의 전체 게놈에 걸쳐 대립유전자 상태를 단계적으로 돕는다. 둘째, 모든 클론은 클론 A로부터 파생된 것으로 나타났다. 각 파생물 클론은 클론 A에서 발견된 모든 이벤트들을 공유하고, 이는 클론 A 가 클론 B, C 및 D의 선조(progenitor)라는 것을 제시한다. 그러나, 단계적 진행에서 이러한 클론 세트가 선형으로 진화한 경우, 또는 클론 B 및 클론 C& D가 상이한 계통으로 나타난 경우에는 불분명하다. 클론 B가 중심 결실(focal deletions)의 세트를 특징으로 하는 경우, 이러한 후자의 세 클론들이 chr6q의 결실에 의해 상이한 반면, 클론 C & D는 모든 chr6q를 잃었다. 이들은 상호 배타적 이벤트가 아니므로, 클론 C가 B로부터 파생되어, 그것의 중심 결실을 물려받고 이후 chr6q의 나머지를 결실시킬 수 있다.그러나, 어떤것도 클론 B 및 C가 클론 A로부터 직접적으로 파생되고 독립적으로 chr6q의 일부가 결실되는 것을 배제하지 못한다. 혼합 비율에 따른 종양 집단에서 지배적인 클론이 되는 것이, 나무의 최종 클론인 클론 D라는 점이 흥미로우며, 이는 이러한 클론(예, chr9의 증폭)에 대한 별개의 이벤트가 상기 클론에게 성장 장점을 제공할 수 있다는 것을 제시한다.
GBM-06-0152의 클론 핵형은 도 10에 나타낸다. GBM 종양의 약 40 %의 특성인 chr7의 증폭이 클론 B까지 발생시키지 않은 것 때문에, 이러한 종양은 흥미롭다. 또헌 이러한 시료는 독립적인 분석에서 염색체파열(chromothripsis)-유사 이벤트를 책임지는 두개의 이중 소염색체(double minute chromosomes)(하나는 MDM2 및 CDK4를 포함하고 다른 하나는 EGFR을 포함)를 갖는 것으로 나타났다는 점을 주목해야 한다. 극단적으로 증폭된 게놈 부위가 이러한 클론 핵형의 모델로는 어려운 반면, 클론 A의 chr12 상의 이러한 이벤트에 관련된 결실의 증거를 보여줄 수 있으며, 이는 이러한 이중 소가 종양 발달의 초기에서 발생된다는 것을 제시한다. EGFR의 초기 중심 증폭은 chr7 증폭의 후기 출현에 역할을 할 수 있다.
시료 GBM-06-1086에 대한 핵형에 의해 표시된 클론 진화는 본 명세서에서 기술할 가치가 있는 몇 가지 흥미로운 측면이 있다. 도 11에 나타낸 바와 같이, 그것의 핵형에 있어 주목해야 할 첫번째 미묘한 것은 CDKN2A의 중심 결실 발생은 클론 B를 발생시키지 않으며, 이는 클론 A에서 첫번째로 관찰된 chr9의 완전한 손실 후 발생된다는 것을 제시한다. 이것은 CDKN2A의 중심 결실이 chr9의 암(arm)-수준 또는 전체 염색체 손실 후에 발생할 가능성이 있다는 가설을 지지하는 강력한 증거이다. 두 번째 흥미로운 점은 클론 C와 D는 13 개의 상이한 전체 염색체의 손실을 갖는다는 것이다. 클론 D는 그의 chr18의 마지막 복제수가 결실됐을 뿐만 아니라 chr19가 증폭되는 한 단계를 추가적으로 달성된다. 이것은 다른 두 클론에 의해 공유된 거의 정상에 가까운 배수성(배수성 = 1.95)에서 1.31로 클론 C 및 D 모두의 배수성(ploidy)을 감소시킨다. 어떻게 자신의 게놈 구성의 거의 30%를 손실한 세포들이 생존할 뿐만 아니라 종양 세포의 집단에서 분명히 증식하는 클론 D의 41.8% 혼합 비율을 획득하는 지는 놀라운 것이다.
LUSC(Lung Squamous cell carcinoma): TCGA에 의해 서열화된 9 개의 폐편평상피암(LUSC)에 대한 전체 게놈 데이터를 이러한 방법들에 의해 분석하여 클론형성능을 추론하였다. 두 종양의 대립유전자 상태 도표는 도 7C 및 7D에 나타내었다. 이들 두 시료에서 더 많은 수의 이행(transitional) 대립유전자 상태 증거로부터, 이들 LUSC 종양은 상술한 GBM 종양 클론형성능에 비해 훨씬 높은 수준을 나타낼 것으로 보인다.
도 7D에 나타낸 종양 샘플 LUSC-66-2756은 ASD 정점(모든 주요 클론 중 일반적인 상태) 및 ASD 가장자리(주요 클론의 세브세트만 공유한 상태)에서 많은 높게 증폭된 상태를 나타낸다. 다양한 혼합 비율은, ASD 가장자리를 따라 그리고 가장자리 사이의 포인트 클러스터의 상이한 위치의 거의 연속 세트에서 증거이고, 이는 이 시료가 매우 폴리클로날임을 제시한다. 이 시료의 또 다른 흥미로운 특징은 이것의 게놈 중에 어떤 것도 단일 복제 손실 대립유전자 상태(1,0)에서 발견되지 않는 점이다. 이것은 종양 게놈이 간단하게 4배체(tetraploid)(N=4)인 경우 게놈 이중 이벤트(genome doubling event)를 통해 발생할 수 있으며, 아후 일련의 염색체 결실은 단일 복사 획득, "정상" 또는 CN-LOH 대립유전자 상태를 야기한다. 액성 난소암에서 종종 발생하는 것으로 알려진 게놈 이중 이벤트는 어떻게 그것들의 게놈의 큰 부분이 CN-LOH의 대립유전자 상태에서 관찰되는 지를 설명한다.
대립유전자 상태에 대한 단계적 돌연변이(Phased mutations): 대립유전자 상태로의 단계적 돌연변이를 시각화하기 위하여, 본 발명자들은 약간 변형된 대립유전자 상태 도표인 이중 대립유전자 상태 도표(듀얼 ASD)를 이용하였다. 소수 대립유전자 분획은 대다수 대립유전자 분획(AFmin = 1.0 - AFmaj)의 상보성이기 때문에 상기 방정식으로부터 어떤 것도 아니며, ASD에 대한 거울 이미지상으로 배치함으로써 이중 ASD를 구성하여 소수 대립유전자 상태의 위치를 표시할 수 있다. 대다수 대립유전자, 소수 대립유전자 또는 둘다에 해당하는 생식선 세포 변이체들(germline variants)에 대한 단계적 돌연변이는 이중 ASD에 플롯팅하였다. 대립유전자 상태(대다수 또는 소수) 돌연변이가 가장 근접함을 결정하고, (만약 임의의) 이들의 단계적 상태를 사용함으로써, 돌연변이의 시기를 추정할 수 있다.
예시적인 이중 ASD는 도 12에 나타내었고, 이는 두 상이한 대립유전자 상태의 대다수 대립유전자 또는 소수 대립유전자에 속하는 생식선 세포 변이체에 대하여 단계적인 일련의 돌연변이를 표시하였다. 위에서 언급한 바와 같이, 각 돌연변이의 대립유전자 분획을 교정하여 이중 ASD 상에 배치하였다. 이들의 단계 및 돌연변이 대립유전자 분획에 기초하여, 얼마나 많은 복제수의 대다수(또는 소수)의 대립유전자가 존재하는 지 식별하는데 이중 ASD가 도움을 준다. 도 12에 표시된 증폭의 경우, 두 대립유전자 상에 존재하는 돌연변이 대 증폭된 복제들 중 하나에만 존재하는 돌연변이는 쉽게 구별되며, 이는 돌연변이가 증폭 전 또는 후에 발생한 것인지를 시각적으로 결정할 수 있도록 한다. 유사하게, 소수 대립유전자에 대한 단계적 돌연변이의 경우 모두에 대하여 MAFc ≤ 0.5를 갖는 것으로 볼 수 있으나, 이들의 단계적 지정(assignment)이 무의한 경우 "정상" 대립유전자 상태이다.
종양 GBM-06-0145에 대한 이중 ASD는 도 13에 나타낸다. 이 도표의 6 부위를 강조 표시하여 실제 데이터 상 이 도표의 해석에 도움을 주었다. 부위들 (a) 및 (b)는 대다수 대립유전자에 가까운 생식선 세포 변이체를 통해 직접적으로 단계화되는 돌연변이를 나타낼 뿐만 아니라, (b)의 2 개의 돌연변이는 증폭된 돌연변이에 해당하는 MAFc를 갖는 것으로 확인되었다. 대부분의 대다수-단계적 돌연변이는 단일 복제수에서의 돌연변에에 해당하는 부위 (a)에서 확인되었고, 이는 이러한 돌연변이들이 증폭후에 발생했다는 것을 발견하였다. DOCK8에 있는 비단계적인 미스센스(missense) 돌연변이는 단일 복제 손실 대립유전자 상태에서 확인되었고, 이는 종양에 남아있는 DOCK8의 유일한 복제가 돌연변이화된 상태에 있다는 것을 의미한다. 동형접합 결실을 통한 DOCK8의 불활성화는 폐암의 진행과 관련이 있으며, 이러한 GBM 종양의 야생형 DOCK8의 부족은 종양 형성의 역할을 할 수 있다. 또한, 도 13은 이러한 평균 범위 전체 게놈에서 MAFc의 추정치에 있어 변화(variation)의 높은 수준을 보여준다.
도 14에 나타낸 바와 같이, 종양 LUSC-34-2596의 이중 ASD에 대한 가장 눈에 띄는 점은 모든 예상 대립유전자 상태에 걸쳐 단계적 또는 비단계적인 돌연변이의 완벽한 수이다. 이전 GBM 종양에 비해, LUSC-34-2596의 돌연변이율은 상당히 높은 것이 명확하다. 폐 종양이 TCGA에 의해 지금까지 연구된 암 중 가장 높은 돌연변이 율의 일부를 나타낼 것으로 예상된다.
본 발명자들은 도 14의 표지된 (a) 및 (b)에서 예상 MAFc
Figure pct00010
0.5에서의 균형-증폭 대립유전자 상태(2,2)에서 많은 수의 대다수- 및 소수-단계적 돌연변이들을 관찰하였다. 또한, 본 발명자들은 단일 복제수의 돌연변이에 해당하는 이러한 부위들의 왼쪽에서 돌연변이 클러스터를 관찰하였다. 최근에 편평세포 폐암에서 상향-조절되는 것으로 발견된 유전자인 NDRG1에서 대다수-단계적 미스센스 돌연변이의 위치는, "정상" 및 단일 복제 손실 대립유전자 상태 사이의 게놈 부위에서 발견되었다. 그것의 MAFc은 게놈 부위의 대립유전자 분획과 거의 동일하였고, 이는 돌연변이가 두 클론 모두(즉, "정상" 대립유전자 상태를 갖는 클론 및 단일 복제 손실 대립유전자 상태를 갖는 클론)에 존재한다는 것을 제시한다. 이것은 돌연변이가 새로운 결실으로 특징을 갖는 두번째 클론이 출현하기 전에 초기에 발생하고, 상기 결실은 NDRG1의 야생형 버전을 포함한다는 증거이다.
또한, 세 개의 비-단계적 돌연변이인 BRAF, DNMT3A 및 TP53의 위치는 도 14에 강조 표시한다. TP53의 넌센스 돌연변이는 CNLOH 상태에서 발견되었고, CN-LOH 대립 유전자 분획에 정확하게 해당하는 돌연변이 대립유전자 분획을 가지며, 이는 이 종양이 TP53의 하나의 복제가 결실되어, 돌연변이를 통해 나머지 복제가 녹아웃(knocked out)되고 돌연변이 대립유전자가 증폭되었다는 것을 의미한다. BRAF를 포함하는 부위는 고도로 증폭되었고, 이는 그것의 증폭에 있어 돌연변이가 이전 또는 초기에 발생한 BRAF의 MAFc로부터 분명해진다. BRAF 돌연변이는 흑색 종에서 빈번하게 발생하지만, 최근에 적은 비율로 비-소세포 폐암에서 발견되었다. 복제의 절반 이상이 돌연변이화되어 있기 때문에, 거의 일어날것 같지 않은 이벤트인 다중 복제에서 BRAF가 독립적으로 동일하게 돌연변이화되지 않는 한, 돌연변이는 증폭 과정이 종료된 후에 발생할 수 없다.
손실시 폐암 및 기타 종양 유형과 연관되어 있는 유전자인 DNMT3A는 "정상"대립유전자 상태에서 발견되고, 예상 MAFc
Figure pct00011
0.5을 가진다. 이러한 모든 경우, 그들이 종양의 주요 클론의 모두(또는, 최소 대다수에서 BRAF의 경우)에 존재하므로, 이들 유전자에 대한 돌연변이는 종양 형성 과정 동안 초기에 발생해야 한다. 여러 종양 유형에 연관되어 있는 것으로 알려져 있는 유전자는 이러한 돌연변이 중 하나 이상이 특정 종양의 조절자(drivers)일 가능성을 제기한다는 사실과 결합된다.
표 2는 12 GBM 및 8 LUSC 종양에 대하여 단계적으로 가능한 돌연변이를 요약한 것이다. 다시, GBM 종양에 대하여 상대적인 LUSC 종양에서 돌연변이의 높은 전체적인 비율은 주목해야 한다. 또한, 상당히 많은 돌연변이가 GBM 종양의 증폭된 부위 내의 단일 복제에서 발견되는 반면, LUSC 종양에서는 증폭된 대립유전자 상태에 걸쳐 균일하게 분산되어 있는 돌연변이를 발견함이 자명하다.
Figure pct00012
"총(Total)"= # 단계적 및 비단계적 돌연변이 지칭, "Maj-단계적(phased)"= # 지칭되는 대다수-단계적 돌연변이, "Amp.State"= # 증폭된 대립유전자 상태 부위의 대다수-단계적 돌연변이, "단일 복제(Single Copy)"= # 증폭된 대립유전자 상태 부위의 대다수-단계적 돌연변이이나, 단일 복제에 해당하는 MAFc를 갖는다, "Min-단계적(phased)"= # 소수-단계적 돌연변이.
돌연변이율이 이러한 종양의 발달 전체에 걸쳐 일정하게 유지된다는 가정하고, 증폭은 대부분 돌연변이 발생 전에 GBM 종양의 발달 시 초기에 발생하였다. 이 같은 추론을 사용하여, 돌연변이 및 복제수 변경(alterations)은 증폭 이벤트 전후 발생하는 많은 수의 돌연변이로 LUSC 종양 발달에서 빈번하게 발생하였다.
돌연변이 패턴의 차이를 설명하는 또 다른 가능성은 돌연변이율이 발달 중에 일정하게 유지되지 않았다는 것이다. 이러한 GBM 종양들의 공통적인 이벤트인 성장 인자 EGFR의 증폭이라고 가정하면, 세포의 성장률을 증가시키고, 이어서 게놈 복제 중 만들어진 실수를 교정할 수 있는 세포의 능력을 감소시켜서, 이에 의해 세포 분열 당 돌연변이율이 증가된다. 이것은 증폭된 대립유전자 상태 내의 단일 복제에 존재하는 돌연변이의 풍부(enrichment)를 설명할 수 있다. 그러나, 돌연변이율이 증가한 경우 EGFR 증폭 전후에 발생한 세대 수에 대한 지식 없이는 확인할 수 없다. 그럼에도 불구하고, 본 명세서에 기술된 ASD 및 이중 ASD 방법을 이용하여, 중요한 임상적 관련 정보가 전례없는 방식으로 서열 분석 출력으로부터 도출될 수 있음을 인식해야 한다.
당업자들이라면 이미 기술된 변형들 이외에도 더 많은 변형들이 본 명세서에서의 발명적 개념들을 벗어나지 않고도 가능한 점이 자명해야 한다. 따라서, 본 발명의 주제 문제는 첨부된 청구항들의 정신들을 제외하고 제한되지 않아야 한다. 또한, 명세서 및 청구항들 둘 다를 해석하는 데 있어서, 모든 용어들은 문맥과 합치하는 가장 광범위하고 가능한 방식으로 해석되어야 한다. 상세하게, 용어들 "포함하다 (comprises)" 및 "포함하는(comprising)"은 비-배타적인 방식으로 요소들, 성분들, 또는 단계들을 언급하는 것으로서 해석되어야 하고, 언급된 요소들, 성분들, 또는 단계들은 명확하게 언급되지 않은 다른 요소들, 성분들, 또는 단계들과 함께 존재하거나, 사용되거나, 조합될 수 있는 것을 가리킨다. 본 명세서의 청구항들이 A, B, C.....및 N으로 이루어진 그룹으로부터 선택되는 어떤 것의 적어도 하나를 언급하는 곳에서, 내용은 A 플러스 N, 또는 B 플러스 N 등이 아닌, 그룹으로부터 나온 단지 하나의 요소를 요구하는 것으로 해석되어야 한다.

Claims (33)

  1. 다음 단계를 포함하는, 종양으로부터 얻은 시퀀싱 데이터를 이용하여 종양의 클론형성능(clonality)을 결정하는 생체외 방법:
    상기 시퀀싱 데이터로부터 상기 시퀀싱 데이터 내 대립유전자(allele)에 대한 복제수(copy number)와 대립유전자 분획(allele fraction)을 결정하는 단계;
    상기 결정된 복제수와 상기 결정된 대립유전자 분획에 기초하여 상기 대립유전자에 대한 대립유전자 상태(allelic state)를 계산하는 단계; 및
    상기 대립유전자 상태를 이용하여 클론형성능을 결정하는 단계.
  2. 제1항에 있어서, 상기 복제수 및 상기 대립유전자 분획을 결정하는 단계는 서열 스트링(sequence strings)의 점진 동기화(incremental synchronization)에 의한 로컬 정렬(local alignments)을 생성하는 서열 분석 프로그램에 의하여 실시되는 것인 방법.
  3. 제1항 또는 제2항에 있어서, 상기 대립유전자 상태는 정상 복제수(normal copy number), 단일 복제 증폭(single copy amplification), 단일 복제/반접합성 결실(single copy/hemizygous deletion), 이형접합성(heterozygosity)의 손실 이후 나머지 대립유전자의 하나 이상의 증폭, 및 양 대립유전자의 증폭으로 이루어진 군으로부터 선택된 상태로 식별되는 것인 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 대립유전자 상태를 계산하는 단계는 정상적인 오염(normal contamination)에 대한 교정(correction)을 포함하는 것인 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 대립유전자 상태를 계산하는 단계는 종양 및 정상에 대한 대다수(majority) 및 소수(minority) 대립유전자 상태를 이용하는 것인 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 대립유전자 상태를 계산하는 단계는 대립유전자에 대한 혼합 분획 Mb의 식별을 포함하는 것인 방법.
  7. 제6항에 있어서, 상기 종양은 상기 대립유전자에 대한 Mb가 0 또는 1인 경우 모노클로날(monoclonal)인 것인 방법.
  8. 제6항에 있어서, 상기 종양은 상기 대립유전자에 대한 Mb가 0보다 크고 1보다 작은 경우 폴리클로날(polyclonal)인 것인 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 대립유전자 상태를 계산하는 단계는 서열 유효범위(coverage) 수준에 대한 교정을 포함하는 것인 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 대립유전자 상태 랜드마크(landmark)를 결정하는 단계를 추가적으로 포함하는 것인 방법.
  11. 제10항에 있어서, 상기 대립유전자 상태 랜드마크를 이용하여 최소 하나의 종양 내 클론의 수 및 종양 내 클론의 비율을 결정하는 단계를 추가적으로 포함하는 것인 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 대다수 대립유전자 또는 소수 대립유전자에 돌연변이(mutation)를 연결하는 단계, 및 대립유전자 상태의 변화에 관한 상기 돌연변이의 시기를 결정하기 위하여 상기 돌연변이적 대립유전자 분획을 이용하는 단계를 추가적으로 포함하는 것인 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 대립유전자 상태 도표에서 상기 대립유전자 상태를 플로팅(plotting)시키는 단계를 추가적으로 포함하는 것인 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 이중 대립유전자 상태 도표에서 대립유전자 상태를 플로팅시키는 단계를 추가적으로 포함하는 것인 방법.
  15. 다음 단계를 포함하는, 종양에서 대립유전자 상태(allelic state)를 시각화(visualization)하는 생체외 방법:
    복수의 시퀀싱 데이터로부터 상기 시퀀싱 데이터 내 대립유전자(allele)에 대한 복제수(copy number)와 대립유전자 분획(allele fraction)을 결정하는 단계;
    상기 결정된 복제수와 상기 결정된 대립유전자 분획에 기초하여 상기 대립유전자에 대한 대립유전자 상태(allelic state)를 계산하는 단계; 및
    복제수 대(versus) 대립유전자 분획을 플로팅(plotting)한 대립유전자 상태 도표에서 상기 대립유전자의 상기 대립유전자 상태를 맵핑(mapping)하는 단계.
  16. 제15항에 있어서, 상기 대립유전자 상태 도표는 복제수 대 대다수(majority) 대립유전자 분획을 플롯팅한 것인 방법.
  17. 제15항 또는 제16항에 있어서, 상기 대립유전자 상태 도표는 상기 대립유전자 상태 도표 내 각 정점이 종양 대립유전자 상태와 일치하도록 나타내는 것인 방법.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서, 정상 오염에 대하여 상기 대립유전자 상태 도표를 조정하는 단계를 추가적으로 포함하는 것인 방법.
  19. 제15항 내지 제18항 중 어느 한 항에 있어서, 상기 대립유전자 상태 도표는 정점들 사이에 그려진 가장자리를 따라 폴리클로날 종양 맵에 대립유전자의 손실(loss) 또는 획득(gain)된 클론의 서브셋(subset)을 나타내는 것인 방법.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서, 상기 대립유전자 상태 도표는 정점들 사이에 그려진 가장자리 간의 폴리클로날 종양 맵에 대립유전자의 손실 또는 획득외에 차이가 있는 클론을 나타내는 것인 방법.
  21. 제15항 내지 제20항 중 어느 한 항에 있어서, 상기 대립유전자 상태 도표는 이중 대립유전자 상태 도표인 것인 방법.
  22. 다음 단계를 포함하는, 게놈(genomic) 서열 데이터를 분석하는 방법:
    BAM 서버에 의해 복수의 게놈 서열 판독을 수신하는 단계로서, 상기 복수의 게놈 서열 판독은 환자의 종양 시료의 게놈 및 정상 시료의 게놈으로부터 획득되고;
    BAM 서버에 의해 상기 복수의 게놈 서열 판독을 진행하여 복수의 상이한 서열 오브젝트(objects)를 생산하는 단계로서, 상기 상이한 서열 오브젝트는 종양 게놈 내에 대립유전자에 대한 복제수 및 대립유전자 분획을 포함하며;
    BAM 서버에 연결된 분석 엔진에 의해 상기 대립유전자에 대한 상기 복제수 및 상기 대립유전자 분획을 진행하여 상기 대립유전자에 대한 대립유전자 상태를 결정하는 단계.
  23. 제22항에 있어서, 상기 BAM 서버 및 분석 엔진에 연결된 상이한 서열 데이터베이스를 추가적으로 포함하여, 상기 BAM 서버는 상기 상이한 서열 데이터베이스에 상기 상이한 서열 오브젝트를 제공하고, 상기 상이한 서열데이터베이스는 상기 분석 엔진에 상기 상이한 서열 오브젝트를 제공하는 것인 방법.
  24. 제22항 또는 제23항에 있어서, 대립유전자 상태 도표 내 상기 대립유전자에 대한 상기 대립유전자 상태를 플롯팅하는 분석 엔진에 의한 그래픽 출력(graphic output)을 생성하는 단계를 추가적으로 포함하는 것인 방법.
  25. 다음 단계를 포함하는, 종양으로부터 게놈 정보를 특성화하는 생체외 방법:
    상기 종양 게놈 내 대립유전자에 대한 대립유전자 상태를 결정하는 단계;
    상기 결정된 대립유전자 상태를 이용하여 상기 종양이 모노클로날 종양 또는 최소 2 종의 별개의 종양 클론들을 포함하는 것인지를 식별하는 단계.
  26. 제25항에 있어서, 상기 결정된 대립유전자 상태를 이용하여 상기 최소 2종의 별개의 종양 클론들이 관련 없는 것으로 식별하는 단계를 추가적으로 포함하는 것인 방법.
  27. 제25항 또는 제26항에 있어서, 상기 결정된 대립유전자 상태를 이용하여 상기 최소 2종의 별개의 종양 클론들에 대한 클론 이력(clonal history)을 식별하는 단계를 추가적으로 포함하는 것인 방법.
  28. 다음 단계를 포함하는, 종괴의 종양 클론을 특성화하는 생체외 방법:
    상기 종괴로부터 게놈 서열 정보를 획득하는 단계;
    상기 게놈 정보를 이용하여 상기 종양 게놈 서열 정보 내 대립유전자에 대한 대립유전자 상태를 결정하는 단계;
    대립유전자 상태 도표에서 상기 대립유전자에 대한 상기 대립유전자 상태의 위치를 결정하는 단계; 및
    상기 위치를 이용하여 상기 클론이 모노클로날인지 또는 폴리클로날인지를 식별하는 단계.
  29. 제28항에 있어서, 상기 게놈 서열 정보는 BAM 서버로부터 획득되는 것인 방법.
  30. 제28항에 있어서, 상기 대립유전자 상태의 위치를 결정하는 단계는 그래픽 디스플레이로 실시되는 것인 방법.
  31. 제28항에 있어서, 상기 클론은 상기 대립유전자 상태의 상기 위치가 상기 대립유전자 상태 도표의 정점에 있는 경우 모노클로날인 것인 방법.
  32. 다음 단계를 포함하는, 종양 치료를 위한 치료 정보를 제공하는 방법:
    상기 종양에 대한 대립유전자 상태 정보를 확인하는 단계; 및
    약물 치료에 대한 상기 종양의 감수성(susceptibility), 및 약물 내성 또는 전이가능성의 증가된 위험 중 최소 하나를 나타내는 상기 종양 내 (a) 클론 또는 (b) 클론의 진화 패턴의 존재 또는 출현을 식별하는 단계.
  33. 제32항에 있어서, 상기 존재 또는 발생을 식별하는 단계는 사전처리 데이터 또는 선험적(a priori) 공지된 데이터에 기초하는 것인 방법.
KR1020157012288A 2012-10-09 2013-11-07 종양 클론형성능 분석을 위한 시스템 및 방법 KR20150093658A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261711467P 2012-10-09 2012-10-09
US61/711,467 2012-10-09
PCT/US2013/064081 WO2014058987A1 (en) 2012-10-09 2013-11-07 Systems and methods for tumor clonality analysis

Publications (1)

Publication Number Publication Date
KR20150093658A true KR20150093658A (ko) 2015-08-18

Family

ID=50477847

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157012288A KR20150093658A (ko) 2012-10-09 2013-11-07 종양 클론형성능 분석을 위한 시스템 및 방법

Country Status (10)

Country Link
US (1) US11183269B2 (ko)
EP (1) EP2907062B1 (ko)
JP (1) JP2015531240A (ko)
KR (1) KR20150093658A (ko)
CN (1) CN104885090A (ko)
AU (2) AU2013329356B2 (ko)
CA (1) CA2892308A1 (ko)
IL (1) IL238178A0 (ko)
IN (1) IN2015DN03223A (ko)
WO (1) WO2014058987A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11183269B2 (en) 2012-10-09 2021-11-23 Five3 Genomics, Llc Systems and methods for tumor clonality analysis

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9824068B2 (en) * 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
JP6533415B2 (ja) * 2015-06-03 2019-06-19 株式会社日立製作所 系統樹を構築する装置、方法およびシステム
WO2017035400A1 (en) 2015-08-25 2017-03-02 Nantomics, Llc Systems and methods for genetic analysis of metastases
KR20180087246A (ko) 2015-10-12 2018-08-01 난토믹스, 엘엘씨 네오에피토프의 반복적 발견 및 이에 대한 적응성 면역치료 및 방법
GB201618485D0 (en) * 2016-11-02 2016-12-14 Ucl Business Plc Method of detecting tumour recurrence
JP7072825B2 (ja) * 2017-09-13 2022-05-23 三菱電機ソフトウエア株式会社 コピー数計測装置、コピー数計測プログラムおよびコピー数計測方法
US11189361B2 (en) 2018-06-28 2021-11-30 International Business Machines Corporation Functional analysis of time-series phylogenetic tumor evolution tree
US11211148B2 (en) 2018-06-28 2021-12-28 International Business Machines Corporation Time-series phylogenetic tumor evolution trees
CN110853706B (zh) * 2018-08-01 2022-07-22 中国科学院深圳先进技术研究院 一种整合表观遗传组学的肿瘤克隆组成构建方法及系统
EP3881323A4 (en) * 2018-11-13 2022-11-16 Myriad Genetics, Inc. METHODS AND SYSTEMS FOR SOMATIC MUTATIONS AND THEIR USES
US20230392212A1 (en) * 2022-06-03 2023-12-07 Saga Diagnostics Ab Detection of target nucleic acids

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6984522B2 (en) 2000-08-03 2006-01-10 Regents Of The University Of Michigan Isolation and use of solid tumor stem cells
EP1877576B1 (en) * 2005-04-12 2013-01-23 454 Life Sciences Corporation Methods for determining sequence variants using ultra-deep sequencing
JP2009529326A (ja) 2006-03-09 2009-08-20 メディカル リサーチ カウンシル 生体系における標的細胞集団の増殖又は分化挙動を評価する方法
US20090246779A1 (en) 2008-02-15 2009-10-01 University Of Washington Increasing genomic instability during premalignant neoplastic progression revealed through high resolution array-cgh
US20110111419A1 (en) * 2008-07-04 2011-05-12 deCODE Geneties ehf. Copy Number Variations Predictive of Risk of Schizophrenia
US20100274495A1 (en) 2009-02-27 2010-10-28 Robert Sobol Novel clinical trial methods to improve drug development for disease therapy and prevention
US9361426B2 (en) * 2009-11-12 2016-06-07 Esoterix Genetic Laboratories, Llc Copy number analysis of genetic locus
US9646134B2 (en) * 2010-05-25 2017-05-09 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
AU2011258875B2 (en) * 2010-05-25 2016-05-05 The Regents Of The University Of California Bambam: parallel comparative analysis of high-throughput sequencing data
US20110301854A1 (en) * 2010-06-08 2011-12-08 Curry Bo U Method of Determining Allele-Specific Copy Number of a SNP
WO2012083069A2 (en) 2010-12-15 2012-06-21 The Board Of Trustees Of The Leland Stanford Junior University Measurement and monitoring of cell clonality
KR20210131432A (ko) 2010-12-30 2021-11-02 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
CA2742342A1 (en) 2011-02-12 2012-08-12 Baylor Research Institute Msh3 expression status determines the responsiveness of cancer cells to the chemotherapeutic treatment with parp inhibitors and platinum drugs
DK2681333T3 (en) 2011-03-01 2018-01-08 Univ Yale EVALUATION OF RESPONSE TO GASTROENTEROPANCREATIC NEUROENDOCRINE NEOPLASIS (GEP-NENE) THERAPY
EP2844771A4 (en) * 2012-05-04 2015-12-02 Complete Genomics Inc METHOD FOR DETERMINING THE ABSOLUTE GENOME-WIDE COPY COUNTER CHANGES OF COMPLEX TUMORS
US20150197785A1 (en) 2012-08-10 2015-07-16 The Broad Institute, Inc. Methods and apparatus for analyzing and quantifying dna alterations in cancer
EP2907062B1 (en) 2012-10-09 2020-05-27 Five3 Genomics, LLC Method for tumor clonality analysis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11183269B2 (en) 2012-10-09 2021-11-23 Five3 Genomics, Llc Systems and methods for tumor clonality analysis

Also Published As

Publication number Publication date
CA2892308A1 (en) 2014-04-17
IN2015DN03223A (ko) 2015-10-02
US11183269B2 (en) 2021-11-23
WO2014058987A4 (en) 2014-06-26
EP2907062A4 (en) 2016-12-14
WO2014058987A1 (en) 2014-04-17
AU2013329356A1 (en) 2015-04-30
EP2907062A1 (en) 2015-08-19
EP2907062B1 (en) 2020-05-27
US20150261912A1 (en) 2015-09-17
CN104885090A (zh) 2015-09-02
JP2015531240A (ja) 2015-11-02
IL238178A0 (en) 2015-05-31
AU2013329356B2 (en) 2018-11-29
AU2019201246A1 (en) 2019-03-14

Similar Documents

Publication Publication Date Title
KR20150093658A (ko) 종양 클론형성능 분석을 위한 시스템 및 방법
Frankell et al. The evolution of lung cancer and impact of subclonal selection in TRACERx
Chen et al. Genomic landscape of lung adenocarcinoma in East Asians
Yuan et al. Integrated analysis of genetic ancestry and genomic alterations across cancers
AU2014254394B2 (en) Gene fusions and gene variants associated with cancer
Chang et al. Genomic analysis of oesophageal squamous-cell carcinoma identifies alcohol drinking-related mutation signature and genomic alterations
Ding et al. Expanding the computational toolbox for mining cancer genomes
EP3122901B1 (en) Gene fusions and gene variants associated with cancer
Jiang et al. Mutational landscape and evolutionary pattern of liver and brain metastasis in lung adenocarcinoma
CN103981273B (zh) 一组评估乳腺癌风险的突变基因群及其检测试剂盒
Teng et al. Hobnail variant of papillary thyroid carcinoma: molecular profiling and comparison to classical papillary thyroid carcinoma, poorly differentiated thyroid carcinoma and anaplastic thyroid carcinoma
Ahn et al. The 18p11. 22 locus is associated with never smoker non-small cell lung cancer susceptibility in Korean populations
Tang et al. Timing and origins of local and distant metastases in lung cancer
EP3097206A1 (en) Methods and systems for detecting genetic mutations
Melin et al. Genome-wide analysis identifies germ-line risk factors associated with canine mammary tumours
Lee et al. BRCA1/2-negative, high-risk breast cancers (BRCAX) for Asian women: genetic susceptibility loci and their potential impacts
Chun et al. Molecular characterization of lung adenocarcinoma from Korean patients using next generation sequencing
Contino et al. Whole-genome sequencing of nine esophageal adenocarcinoma cell lines
Dong et al. Fine mapping of chromosome 5p15. 33 identifies novel lung cancer susceptibility loci in Han Chinese
Wilsher et al. Next generation sequencing of the nidus of early (adenosquamous proliferation rich) radial sclerosing lesions of the breast reveals evidence for a neoplastic precursor lesion
CN114974412A (zh) 生成目标对象的肿瘤检测数据的方法、设备和介质
Lawlor et al. Genomic characterization of hepatoid tumors: context matters
Chu et al. Neuroendocrine transformation from EGFR/ALK-wild type or TKI-naïve non-small cell lung cancer: An under-recognized phenomenon
Sanborn Tumor versus matched-normal sequencing analysis and data integration
Yang et al. Genetic and immune characteristics of multiple primary lung cancers and lung metastases

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application