KR20190100425A - 종양 샘플의 다유전자 분석의 최적화 - Google Patents

종양 샘플의 다유전자 분석의 최적화 Download PDF

Info

Publication number
KR20190100425A
KR20190100425A KR1020197024014A KR20197024014A KR20190100425A KR 20190100425 A KR20190100425 A KR 20190100425A KR 1020197024014 A KR1020197024014 A KR 1020197024014A KR 20197024014 A KR20197024014 A KR 20197024014A KR 20190100425 A KR20190100425 A KR 20190100425A
Authority
KR
South Korea
Prior art keywords
bait
gene
sample
tumor
sequence
Prior art date
Application number
KR1020197024014A
Other languages
English (en)
Inventor
션 알. 다우닝
머나 제이로즈
도론 립슨
제프리 앨런 오토
알렉산더 엔. 파커
미하일 쥐. 샤피로
필립 제임스 스티븐스
로만 옐렌스키
Original Assignee
파운데이션 메디신 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=46383525&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20190100425(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 파운데이션 메디신 인코포레이티드 filed Critical 파운데이션 메디신 인코포레이티드
Priority to KR1020217033813A priority Critical patent/KR20210131432A/ko
Publication of KR20190100425A publication Critical patent/KR20190100425A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/10Methods of screening libraries by measuring physical properties, e.g. mass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/143Multiplexing, i.e. use of multiple primers or probes in a single reaction, usually for simultaneously analyse of multiple analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/149Sequential reactions

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

종양 샘플의 분석 방법은 종양 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계, 라이브러리를 베이트 세트와 접촉시켜 선택된 구성원을 단리시키는 단계, 선택된 구성원으로부터 서브-게놈 간격에 대한 판독을 획득하는 단계, 상기 판독을 정렬하는 단계 및 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여하는 단계(예를 들어 돌연변이 호출)를 포함한다.

Description

종양 샘플의 다유전자 분석의 최적화{OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES}
관련 출원
본 출원은 2010년 12월 30일 출원된 미국 가특허 출원 제61/428,568호; 2010년 12월 30일 출원된 미국 가특허 출원 제61/428,602호; 2010년 12월 30일 출원된 미국 가특허 출원 제61/428,626호; 2010년 12월 30일 출원된 미국 가특허 출원 제 61/428,638호; 2011년 3월 25일 출원된 미국 가특허 출원 제61/467,798호; 2011년 3월 25일 출원된 미국 가특허 출원 제61/467,748호; 2011년 5월 13일 출원된 미국 가특허 출원 제61/486,006호; 2011년 5월 13일 출원된 미국 가특허 출원 제 61/486,012호; 2011년 5월 13일 출원된 미국 가특허 출원 제61/486,026호; 2011년 5월 13일 출원된 미국 가특허 출원 제61/486,033호; 및 2011년 10월 28일 출원된 미국 가특허 출원 제61/552,884호의 우선권을 주장한다. 이들 선출원의 내용은 본 명세서에 그것의 전문이 참조로서 포함된다.
본 발명은 종양 샘플로부터 핵산을 분석하기 위한 최적화된 방법, 예를 들어 통합된 최적화된 핵산 선택, 판독 정렬(read alignment) 및 돌연변이 호출(mutation calling)을 갖는 방법에 관한 것이다.
본 명세서에 개시된 방법은, 예를 들어 서브게놈 간격의 최적화된 세트, 예를 들어 본 명세서에 기재된 게놈의 암 관련 세그먼트의 세트에 대해 적용되는 베이트(bait)-기반 선택, 정렬 및 돌연변이 호출을 포함하는, 하나 이상의 최적화된 구성요소의 통합을 제공한다. 본 명세서에 기재된 방법은 암별로, 유전자별로 및/또는 부위별 기준으로 최적화될 수 있는 종양의 차세대 시퀀싱(next generation sequencing: NGS)-기반 분석을 제공한다.
따라서, 일 양태에서, 본 발명은 종양 샘플의 분석 방법을 특징으로 한다. 해당 방법은
(a) 샘플, 예를 들어 종양 샘플로부터 복수의 표적 구성원, 예를 들어, 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 해당 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시켜 선택된 구성원(때때로 본 명세서에서 "라이브러리 캐치(library catch)"로서 지칭됨)을 제공하는 단계;
(c) 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱, 예를 들어 차세대 시퀀싱 방법에 의해 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치, 예를 들어 복수의 서브게놈 간격의 각각, 예를 들어, 다수의 유전자의 각각에서 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여(assigning)함으로써(예를 들어, 돌연변이의, 예를 들어, 베이지안 방법(Bayeisan method)에 의한 호출), 상기 샘플을 분석하는 단계를 포함하되,
여기서:
(i) X개의 뉴클레오타이드 위치 각각은 단계 (b), (c), (d) 또는 (e) 중 하나 또는 조합에 대해 조건의 독특한 세트(unique set) 하에서 분석된다(독특한이란 조건의 다른 X-1 세트와는 상이한 것을 의미하며, X는 적어도 2, 5, 10, 20, 30, 40, 50, 100, 200, 300 또는 500이다). 예를 들어, 조건의 제1 세트, 예를 들어 본 명세서에 기재된 조건의 세트는 제1 뉴클레오타이드 위치, 예를 들어, 제1 서브게놈 간격 또는 유전자에 대해 사용되며, 조건의 제2 세트, 예를 들어, 본 명세서에 기재된 조건의 제2 세트는 제2 뉴클레오타이드 위치, 예를 들어 제2 서브게놈 간격 또는 유전자에 대해 사용되고;
(ii) X개의 뉴클레오타이드 위치 각각에 대해, 해당 뉴클레오타이드 위치에서 일어날 수 있는 사전선택된 변경, 예를 들어 돌연변이의 특징, 예를 들어 본 명세서에 기재된 특징에 대해 반응하여, 해당 뉴클레오타이드 위치는 조건의 독특한 세트 하에 분석된다(독특한이란 조건의 다른 X-1 세트와는 상이한 것을 의미하며, X는 적어도 2, 5, 10, 20, 30, 40, 50, 100, 200, 300 또는 500이다). 예를 들어, 제1 서브게놈 간격 내 뉴클레오타이드 위치에서 일어날 수 있는 사전선택된 변경, 예를 들어 돌연변이의 특징, 예를 들어, 본 명세서에 기재된 특징에 반응하여, 해당 뉴클레오타이드 위치는 조건의 제1 세트 하에 분석되고, 제2 서브게놈 간격 내 뉴클레오타이드 위치에서 일어날 수 있는 사전선택된 변경, 예를 들어 돌연변이의 특징, 예를 들어, 본 명세서에 기재된 특징에 대해 반응하여, 뉴클레오타이드 위치는 조건의 제2 세트 하에서 분석되며; (iii) 상기 방법은 적어도 2, 5, 10, 20, 50 또는 100 서브게놈 간격, 예를 들어, 유전자 내 뉴클레오타이드 위치에 대해 95, 98 또는 99% 민감성 또는 특이성을 허용하는 조건 하에, 샘플, 예를 들어 보존된 종양 샘플 상에서 수행되거나; 또는
(iv) 해당 방법은 하기 중 하나 이상 또는 모두를 포함한다:
a) 약 500X 이상의 시퀀싱 심도(depth)를 제공하기 위해, 예를 들어 샘플로부터 세포의 단지 5%에 존재하는 돌연변이를 시퀀싱 하기 위해 제1 서브게놈 간격을 시퀀싱하는 단계;
b) 약 200X 이상의, 예를 들어 약 200X 내지 약 500X의 시퀀싱 심도를 제공하기 위해, 예를 들어 샘플로부터 세포의 단지 10%에 존재하는 돌연변이를 시퀀싱 하기 위한 제2 서브게놈 간격을 시퀀싱하는 단계;
c) 약 10 내지 100X 시퀀싱 심도를 제공하기 위해, 예를 들어 a) 상이한 약물을 대사하는 환자의 능력을 설명할 수 있는 약물유전체적(pharmacogenomic: PGx) 단일 뉴클레오타이드 다형성(single nucleotide polymorphism: SNP), 또는 b) 환자를 특유의 형태로 확인하기 위하여 사용될 수 있는 게놈 SNP(예를 들어, 핑거프린트(fingerprint))로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 시퀀싱 하기 위해 제3 서브게놈 간격을 시퀀싱하는 단계;
d) 약 5 내지 50X 시퀀싱을 제공하기 위해, 예를 들어 게놈 전위 또는 삽입-결실(indel)과 같은 구조적 중단점을 검출하기 위해 제4 서브게놈 간격을 시퀀싱하는 단계. 예를 들어, 인트론 중단점의 검출은 고검출 신뢰도를 보장하는 심도에 걸쳐 5 내지 50X 서열 쌍을 필요로 한다. 이러한 베이트 세트는, 예를 들어 전위/삽입-결실되기 쉬운 암 유전자를 검출하기 위해 사용될 수 있다; 또는
e) 약 0.1 내지 300X 시퀀싱 심도를 제공하기 위해, 예를 들어 복제수 변화를 검출하기 위해 제5 서브게놈 간격을 시퀀싱 하는 단계. 일 실시형태에서, 시퀀싱 심도는 복제수 변화를 검출하기 위하여 약 0.1 내지 10X 시퀀싱 심도의 범위에 있다. 다른 실시형태에서, 시퀀싱 심도는 게놈 DNA 또는 이형접합 소실(loss-of-heterozygosity, LOH)의 복제수 획득/소실을 평가하기 위해 사용된 게놈 SNP/좌위를 검출하기 위하여 약 100 내지 300X의 범위에 있다.
조건의 대표적인 제1 및 제2 세트는 하기를 포함한다:
제1 베이트 세트는 제1 서브게놈 간격에 대해 사용되며, 제2 베이트 세트는 제2 서브게놈 간격에 대해 사용되고;
제1 정렬 방법은 제1 서브게놈 간격에 대한 판독에 적용되며, 제2 정렬 방법은 제2 서브게놈 간격에 대한 판독에 적용되고;
제1 돌연변이 호출 방법은 제1 서브게놈 간격의 뉴클레오타이드 위치에 적용되며, 제2 돌연변이 호출 방법은 제2 서브게놈 간격의 뉴클레오타이드 위치에 적용된다.
실시형태에서,
제1 뉴클레오타이드 위치는 베이트 조건의 제1 세트, 제1 정렬 방법 및 제1 돌연변이 호출 방법에 의해 분석되며;
제2 뉴클레오타이드 위치는 상기 베이트 조건의 제1 세트, 제2 정렬 방법 및 상기 제1 돌연변이 호출 방법에 의해 분석되고;
제3 뉴클레오타이드 위치는 상기 베이트 조건의 제1 세트, 상기 제1 정렬 방법 및 제2 돌연변이 호출 방법에 의해 분석되어;
독특한 조건 하에서, 다른 두 조건과 비교하여 각각 분석된 3개의 뉴클레오타이드 위치를 제공한다.
실시형태에서, 조건은 하기를 포함한다:
제1 베이트 세트는 제1 서브게놈 간격에 대해 사용되고, 제2 베이트 세트는 제2 서브게놈 간격에 대해 사용되며;
제1 정렬 방법은 제1 서브게놈 간격에 대한 판독에 적용되고, 제2 정렬 방법은 제2 서브게놈 간격에 대한 판독에 적용되거나; 또는
제1 돌연변이 호출 방법은 제1 서브게놈 간격의 뉴클레오타이드 위치에 적용되며, 제2 돌연변이 호출 방법은 제2 서브게놈 간격의 뉴클레오타이드 위치에 적용된다.
대표적인 특징은,
(i) 변경이 위치된 유전자, 또는 유전자의 유형, 예를 들어 종양유전자 또는 종양 억제 유전자, 사전선택 또는 변이체 또는 변이체의 유형, 예를 들어 돌연변이, 또는 사전선택된 빈도의 돌연변이를 특징으로 하는 또는 본 명세서에 기재된 다른 유전자 또는 유전자 유형을 특징으로 하는, 유전자 또는 유전자의 유형;
(ii) 변경, 예를 들어 치환, 삽입, 결실 또는 전위의 유형;
(iii) 변경에 대해 분석되는 샘플, 예를 들어 FFPE 샘플의 유형;
(iv) 변경이 평가되는 상기 뉴클레오타이드 위치 내 또는 근처의 서열, 예를 들어, 서브게놈 간격에 대해 정렬 불량(misalignment)의 예상된 경향에 영향을 미치는 서열, 예를 들어 뉴클레오타이드 위치 내 또는 근처의 반복 서열의 존재;
(v) 예를 들어 사전선택된 유형의 종양에서 변경, 예를 들어 돌연변이를 보여주는 판독을 관찰하는 사전의(prior)(예를 들어 문헌) 예상;
(vi) 염기-호출 오류 단독에 기인하는 변경을 보여주는 판독을 관찰할 확률; 또는
(vii) 변경을 검출하기 위해 요망되는 시퀀싱의 사전선택 심도.
실시형태에서, 특징은 시퀀싱되는 뉴클레오타이드의 동일성 이외이며, 즉 특징은 서열이 a인가 또는 t인가의 여부는 아니다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
실시형태에서, 적어도 X의 유전자, 예를 들어 표 1 및 1A의 적어도 X의 유전자, 예를 들어 표 1 및 1A에서 우선순위 1 주석이 있는 유전자로부터의 서브게놈 간격은 상이한 조건하에 분석되며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 해당 방법은 다음 중 하나 이상을 포함한다:
(i) 해당 방법, 예를 들어, 상기 (b)의 방법은 본 명세서에 기재된 베이트 세트, 예를 들어 베이트라는 표제 하에 또는 BAIT 모듈에 기재된 바와 같은 베이트 세트를 포함한다;
(ii) 해당 방법, 예를 들어, 상기 (c)의 방법은 본 명세서에 기재된 서브게놈 간격의 세트 또는 그룹에 대한 또는 유전자의 세트 또는 그릅으로부터의 판독을 획득하는 단계를 포함한다;
(iii) 해당 방법, 예를 들어, 상기 (d)의 방법은 본 명세서에 기재된 복수의 정렬 방법, 예를 들어, 정렬이라는 표제 하에 또는 정렬 모듈에 기재된 방법을 포함한다;
(iv) 해당 방법, 예를 들어, 상기 (e)의 방법은 본 명세서에 기재된 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하는 복수의 방법, 예를 들어 돌연변이 호출이라는 표제 하에, 또는 돌연변이 호출 모듈에서 또는 "임상적 암종의 다음 세대 시퀀싱으로부터 신체적 게놈 변경의 민감한 검출을 위한 베이지안 접근"이라는 제목의 부문에 기재된 방법의 사용을 포함한다; 또는
(v) 해당 방법은 본 명세서에 기재된, 예를 들어 "유전자 선별 또는 유전자 선별 모듈"이라는 제목의 부문에서 서브게놈 간격의 세트에 대해 뉴클레오타이드 값을 부여하는 단계를 포함한다.
실시형태에서, 해당 방법은 (i) 및 (ii) 내지 (v) 중 1, 2, 3 또는 모두를 포함한다.
실시형태에서, 해당 방법은, (i) 및 (iii) 내지 (v) 중 1, 2, 3 또는 모두, 및 (ii)를 포함한다.
실시형태에서, 해당 방법은, (i) 및 (ii), (iv) 및 (v) 중 1, 2, 3 또는 모두, 및 (iii)을 포함한다.
실시형태에서, 해당 방법은, (i) 내지 (iii) 및 (v) 중 1, 2, 3 또는 모두, 및 (iv)를 포함한다.
실시형태에서, 해당 방법은, (i) 내지 (iv) 중 1, 2, 3 또는 모두, 및 (v)를 포함한다.
정렬
본 명세서에 개시된 방법은 매우 다수의 다양한 유전자에서 매우 다수의 다양한 유전적 사건의 대량병렬(massively parallel) 시퀀싱에 의존한 방법, 예를 들어 종양 샘플의 분석 방법에서 수행을 최적화하기 위한 다수의, 개별적으로 조정된, 정렬 방법 또는 알고리즘의 사용을 통합할 수 있다. 실시형태에서, 상이한 유전자에 다수의 변이체의 각각으로 개개로 세트된 또는 조정된 다중 정렬 방법을 사용하여 판독을 분석한다. 실시형태에서, 조정은 시퀀싱된 유전자(또는 다른 서브게놈 간격), 샘플 내 종양 유형, 시퀀싱된 변이체, 또는 샘플의 특징 또는 피험체(중 하나 이상)의 작용일 수 있다. 시퀀싱되는 복수의 서브게놈 간격으로 개별적으로 조정되는 정렬 조건의 선택 또는 사용은 속도, 민감성 및 특이성을 최적화시킨다. 해당 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격에 대한 판독이 최적화될 때 특히 효과적이다.
따라서, 일 양태에서, 본 발명은 샘플, 예를 들어 종양 샘플을 분석하는 방법을 특징으로 한다. 해당 방법은,
(a) 샘플로부터의 다수의 구성원, 예를 들어 종양 샘플로부터의 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 사전선택된 서열에 대한 라이브러리를 풍부화시켜, 예를 들어 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시킴으로써 선택된 구성원을 제공하는 단계(때때로 본 명세서에서 라이브러리 포획으로서 지칭됨);
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱을 포함하는 방법에 의해, 예를 들어 차세대 시퀀싱 방법으로 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이를, 예를 들어 베이지안 방법으로 호출),
상기 종양 샘플을 분석하는 단계를 포함하되,
여기서
X개의 독특한 서브게놈 간격의 각각으로부터의 판독은 독특한 정렬 방법으로 정렬되며, 독특한 서브게놈 간격은 다른 X-1 서브게놈 간격과 상이한 것을 의미하고, 독특한 정렬 방법은 다른 X-1 정렬 방법과는 상이한 것을 의미하며, X는 적어도 2이다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
실시형태에서, X는 적어도 3, 4, 5, 10, 15, 20, 30, 50, 100, 500 또는 1,000이다.
실시형태에서, 적어도 X의 유전자, 예를 들어 표 1 및 1A로부터의 적어도 X의 유전자, 예를 들어 표 1 및 1A의 우선순위 1의 주석이 있는 유전자로부터의 서브게놈 간격은 독특한 정렬 방법으로 정렬되며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 방법(예를 들어 상기 인용된 방법의 구성요소 (d))은 분석, 예를 들어 판독을 정렬하기 위한 정렬 방법을 선택하거나 또는 사용하는 단계를 포함하되,
상기 정렬 방법은 하기 중 하나 이상 또는 모두의 기능이 있거나, 반응성이도록 선택되거나, 또는 최적화된다:
(i) 종양 유형, 예를 들어 상기 샘플의 종양 유형;
(ii) 시퀀싱된 상기 서브게놈 간격으로 위치된 유전자 또는 유전자의 유형, 예를 들어 사전선택 또는 변이체 또는 변이체의 유형, 예를 들어 돌연변이를 특징으로 하는, 또는 사전선택된 빈도의 돌연변이를 특징으로 하는 유전자 또는 유전자의 유형;
(iii) 분석되는 부위(예를 들어, 뉴클레오타이드 위치);
(iv) 평가되는 서브게놈 간격 내의 변이체, 예를 들어, 치환의 유형;
(v) 샘플, 예를 들어 FFPE 샘플의 유형; 및
(vi) 평가되는 상기 서브게놈 간격 내 또는 근처의 서열, 예를 들어 상기 서브게놈 간격에 대한 정렬불량에 대해 예상된 경향, 예를 들어 상기 서브게놈 간격 내 또는 근처에서 반복된 서열의 존재.
본 명세서의 다른 곳에서 지칭되는 바와 같이, 방법은 상대적으로 매우 복수의 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다. 따라서, 실시형태에서, 적어도 X의 독특한 방법은 적어도 X의 독특한 서브게놈 간격에 대한 판독을 분석하기 위해 사용되되, 독특한이란 다른 X-1과는 상이한 것을 의미하며, X는 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 500 또는 1,000과 동일하다.
실시형태에서, 표 1 및 표 1A로부터의, 예를 들어 표 1 및 표 1A의 우선순위 1 주석을 갖는 적어도 X의 유전자로부터의 서브게놈 간격이 분석되며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 독특 정렬 방법은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 상이한 유전자 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어 표 1 및 표 1A로부터의 유전자의 뉴클레오타이드 위치는 부여된 뉴클레오타이드 값이다. 실시형태에서, 독특한 정렬 방법은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
본 명세서에 개시된 방법은 문제있는 판독, 예를 들어 재정렬을 갖는 판독을 빠르고 효율적으로 정렬시킨다. 따라서, 서브게놈 간격에 대한 판독은 재정렬, 예를 들어 삽입-결실에 의해 뉴클레오타이드 위치를 포함하는 경우의 실시형태에서, 해당 방법은 적절하게 조정되고, 하기를 포함하는 정렬 방법을 사용하는 것을 포함할 수 있다:
판독에 의해 정렬을 위한 재배열 기준 서열을 선택하되, 상기 재정렬 기준 서열은 사전선택되어 사전선택된 재배열로 정렬되는 단계(실시형태에서, 기준 서열은 게놈 재배열과 동일하지 않음);
상기 사전선택된 재배열 기준 서열과 판독을 비교하는, 예를 들어 정렬시키는 단계.
실시형태에서, 다른 방법이 사용되어 문제있는 판독을 정렬시킨다. 이들 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격에 대한 판독의 정렬이 최적화될 때, 특히 효과적이다. 예로서, 종양 샘플의 분석 방법은,
변수의 제1 세트 하에(제1 맵핑 알고리즘 또는 제1 기준 서열에 의해) 판독의 비교, 예를 들어 정렬 비교를 수행하는 단계, 및 상기 판독이 제1 사전결정된 정렬 기준을 충족시키는지 여부(예를 들어, 판독은 상기 제1 기준 서열에 의해, 예를 들어 사전선택된 수의 미스매치 미만으로 정렬될 수 있음)를 결정하는 단계;
상기 판독이 제1의 사전결정된 정렬 기준을 충족시키지 못한다면, 변수의 제2 세트 하에(예를 들어, 제2 맵핑 알고리즘 또는 제2 기준 서열에 의해) 제2 정렬 기준을 수행하는 단계; 및
선택적으로, 상기 판독이 상기 제2 사전결정된 기준을 충족시키는지 여부(예를 들어, 판독은 사전결정된 수의 미스매치 미만의 상기 제2 기준 서열로 정렬될 수 있음)를 결정하는 단계를 포함할 수 있되,
상기 변수의 제2 세트는 변수 세트의 사용을 포함하며, 예를 들어 상기 변수의 제1 세트와 비교하여 상기 제2 기준 서열은 사전선택된 변이체, 예를 들어 재정렬, 예를 들어 삽입, 결실 또는 전위에 대한 판독에 의한 정렬을 초래할 가능성이 더 높다.
이들 및 다른 정렬 방법은 본 명세서의 다른 곳에서, 예를 들어 "정렬 모듈"이라는 제목의 부문에서 더 상세하게 논의된다. 해당 모듈의 구성요소는 종양의 분석 방법에 포함될 수 있다. 실시형태에서, "정렬 모듈"로부터의 정렬 방법은 "돌연변이 호출 모듈"로부터의 돌연변이 호출 방법 및/또는 "베이트 모듈"로부터의 베이트 세트와 조합된다. 해당 방법은 "유전자 선택 모듈"로부터의 서브게놈 간격의 세트에 적용될 수 있다.
돌연변이 호출
본 명세서에 개시된 방법은 시퀀싱 방법, 특히, 매우 다수의 다양한 유전자에서, 예를 들어 종양 샘플로부터 매우 다수의 유전적 사건의 대량병렬 시퀀싱에 의존하는 방법에서 성능을 최적화하기 위해 설정되거나 또는 조정된 돌연변이 호출 변수의 사용을 통합할 수 있다. 해당 방법의 실시형태에서, 다수의 사전선택된 서브게놈 간격의 각각에 대한 돌연변이 호출은 개개로 설정되거나 또는 미세 조정된다. 세트 또는 조정은 본 명세서에 기재된 인자, 예를 들어 샘플 내 암의 유형, 시퀀싱되는 서브게놈 간격이 위치되는 유전자 또는 시퀀싱되는 변이체 중 하나 이상을 기반으로 할 수 있다. 시퀀싱되는 복수의 서브게놈 간격으로 미세 조정된 정렬 조건의 이런 선택 또는 사용은 속도, 민감성 및 특이성을 최적화시킨다. 해당 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다.
따라서, 일 양태에서, 본 발명은 샘플, 예를 들어 종양 샘플을 분석하는 방법을 특징으로 한다. 해당 방법은,
(a) 샘플로부터 다수의 구성원, 예를 들어 샘플, 예를 들어 종양 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 예를 들어 해당 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시켜 선택된 구성원, 예를 들어 라이브러리 캐치를 제공함으로써 사전선택된 서열에 대한 라이브러리를 풍부화시키는 단계;
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱을 포함하는 방법에 의해, 예를 들어 차세대 시퀀싱 방법에 의해 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이의, 예를 들어, 베이지안 방법에 의한 호출 또는 본 명세서에 기재된 방법으로 호출), 상기 종양 샘플을 분석하는 단계를 포함하되,
여기서, 뉴클레오타이드 값은 독특한 호출 방법에 의해 부여되는 X개의 독특한 서브게놈 간격의 각각에 대해 부여되고, 독특한 서브게놈 간격은 다른 X-1 서브게놈 간격과는 상이한 것을 의미하며, 독특한 호출 방법은 다른 X-1 호출 방법과는 상이한 것을 의미하고, X는 적어도 2이다. 호출 방법은 상이할 수 있고, 이에 의해, 예를 들어 상이한 베이지안 사전 값에 의존함으로써 독특할 수 있다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
실시형태에서, 상기 뉴클레오타이드 값을 부여하는 것은 유형의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어, 돌연변이를 나타내는 판독을 관찰하는 사전의(예를 들어 문헌) 예상치이거나 또는 사전의 예상치를 나타내는 값의 함수이다.
실시형태에서, 해당 방법은 적어도 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하는(예를 들어, 돌연변이를 호출) 단계를 포함하되, 각각의 부여는 유형의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어 돌연변이를 나타내는 판독을 관찰하는 사전의(예를 들어, 문헌) 예상치이거나 또는 사전의 예상치를 나타내는 값의 함수이다.
실시형태에서, 변이체가 어떤 빈도로(예를 들어, 1%, 5%, 10% 등) 샘플 내에 존재한다면 및/또는 변이체가 없다면(예를 들어 기준-호출 오류 단독에 기인하는 판독에서 관찰됨), 상기 뉴클레오타이드 값을 부여하는 것은 상기 사전선택된 뉴클레오타이드 위치에서 상기 사전선택된 변이체를 나타내는 판독을 관찰할 확률을 나타내는 값의 세트의 함수이다.
실시형태에서, 방법(예를 들어, 상기 인용된 방법의 구성요소 (e))은 돌연변이 호출 방법을 포함한다. 본 명세서에 기재된 돌연변이 호출 방법은 다음을 포함할 수 있다:
상기 X 서브게놈 간격의 각각에서 사전선택된 뉴클레오타이드 위치에 대해 하기를 획득하는 단계:
(i) 유형 X의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어, 돌연변이를 나타내는 판독을 관찰하는 사전의(예를 들어, 문헌) 예상치이거나 또는 사전의 예상치를 나타내는 제1 값; 및
(ii) 변이체가 어떤 빈도로(예를 들어, 1%, 5%, 10% 등) 샘플 내에 존재한다면 및/또는 변이체가 없다면(예를 들어 기준-호출 오류 단독에 기인하는 판독에서 관찰됨), 상기 사전선택된 뉴클레오타이드 위치에서 상기 사전선택된 변이체를 나타내는 판독을 관찰할 확률을 나타내는 값의 제2 세트;
상기 값에 반응하여, 가중치 부여에 의해, 예를 들어 제1 값을 사용하여 제2 세트 내 값 중에서 비교하는 본 명세서에 기재된 베이지안 방법에 의해 상기 사전선택된 뉴클레오타이드 위치의 각각에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여(예를 들어, 돌연변이를 호출)함으로써, 상기 샘플을 분석하는 단계.
실시형태에서, 해당 방법은 하기 중 하나 이상 또는 모두를 포함한다:
(i) 적어도 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 각각의 부여는 독특한(다른 부여에 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(ii) (i)의 방법의 부여로서, 부여의 적어도 10, 20, 30 또는 40은, 예를 들어 사전선택된 종양 유형 내 세포의 5, 10 또는 20% 미만으로 존재하는 사전선택된 변이체의 확률의 함수인 제1 값으로 만들어지는 단계;
(iii) 적어도 X의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하고(예를 들어, 돌연변이를 호출), 사전선택된 뉴클레오타이드 위치 각각은 사전선택된 유형의 종양, 예를 들어 상기 샘플의 종양 유형에 존재하는 독특한(다른 X-1 부여와 대조적으로) 가능성을 갖는 사전선택된 변이체와 관련되되, 선택적으로, 각각의 상기 X 부여는 독특한(다른 X-1 부여와 대조적으로) 제1 및/또는 제2 값(X= 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100)을 기준으로 하는 단계;
(iv) 제1 및 제2 뉴클레오타이드 위치에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 사전선택된 유형(예를 들어, 상기 샘플의 종양 유형)의 종양에 존재하는 상기 제1 뉴클레오타이드 위치에서 제1 사전선택된 변이체의 가능성은 존재하는 상기 제2 뉴클레오타이드 위치에서 제2 사전선택된 변이체의 가능성보다 적어도 2, 5, 10, 20, 30 또는 40배 더 크고, 선택적으로, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(v) 다수의 사전선택된 뉴클레오타이드 위치(예를 들어 호출 돌연변이)에 뉴클레오타이드 값을 부여하되, 상기 다수는 하나 이상, 다음의 확률 범위 중 적어도 3, 4, 5, 6, 7 또는 모두에 속하는 변이체에 대한 부여를 포함하고:
.01 미만; .01 내지 .02;
0.02 초과 내지 0.03 이하;
0.03 초과 내지 0.04 이하;
0.04 초과 내지 0.05 이하;
0.05 초과 내지 0.1 이하;
0.1 초과 내지 0.2 이하;
0.2 초과 내지 0.5 이하;
0.5 초과 내지 1.0 이하;
1.0 초과 내지 2.0 이하;
2.0 초과 내지 5.0 이하;
5.0 초과 내지 10.0 이하;
10.0 초과 내지 20.0 이하;
20.0 초과 내지 50.0 이하; 및
50 초과 내지 100.0% 이하;
확률 범위는 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체가 사전선택된 유형의 종양(예를 들어 상기 샘플의 종양 유형)이 존재할 확률 또는 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체가 사전선택된 유형(예를 들어 상기 샘플의 종양 유형)에 대해 종양 샘플, 종양 샘플로부터의 라이브러리 또는 해당 라이브러리로부터의 라이브러리 캐치 내 세포의 인용된 %로 존재할 확률의 범위이고,
선택적으로, 각각의 부여는 제1 및/또는 제2 값(예를 들어, 인용된 확률 범위에서 다른 부여에 대조적으로 독특하거나 또는 다른 열거된 확률 범위 중 하나 이상 또는 모두에 대해 제1 및/또는 제2 값과 대조적으로 독특한)을 기준으로 하는 단계.
(vi) 상기 샘플 내 DNA의 50, 40, 25, 20, 15, 10, 5, 4, 3, 2, 1, 0.5, 0.4, 0.3, 0.2 또는 0.1% 미만으로 존재하는 사전선택된 변이체를 각각 독립적으로 갖는 적어도 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 선택적으로, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(vii) 제1 및 제2 뉴클레오타이드 위치에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 상기 샘플의 DNA 내 제1 위치에서 사전선택된 변이체의 가능성은 상기 샘플의 DNA 내 상기 제2 뉴클레오타이드 위치의 사전선택된 변이체의 가능성보다 적어도 2, 5, 10, 20, 30 또는 40배 초과이고, 선택적으로, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(viii) 다음 중 하나 이상 또는 모두에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출):
(1) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 1.0% 미만으로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(2) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 1.0 내지 2.0%로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(3) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 2.0% 초과 내지 3% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치
(4) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 3.0% 초과 내지 4% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(5) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 4.0% 초과 내지 5% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(6) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 5.0% 초과 내지 10% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(7) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 10.0% 초과 내지 20% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(8) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 20.0% 초과 내지 40% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(9) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 40.0% 초과 내지 50% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(10) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 50.0% 초과 내지 100% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
선택적으로, 각각의 부여는 독특한 제1 및/또는 제2 값(예를 들어 인용된 범위(예를 들어, 1% 미만의 (i)의 범위)에서 다른 부여와 대조적으로 독특하거나 또는 다른 열거된 범위 중 하나 이상 또는 모두에서 결정을 위한 제1 및/또는 제2 값과 대조적으로 독특한)을 기준으로 하는 단계; 또는
(ix) X의 뉴클레오타이드 위치 각각에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 각각의 뉴클레오타이드 위치는, 독립적으로, 다른 X-1 뉴클레오타이드 위치에서 사전선택된 변이체에 대한 가능성과 비교하여 독특한(상기 샘플의 DNA에 존재하는 사전선택된 변이체의) 가능성을 가지며, X는 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 이상이고, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 한다.
방법의 실시형태에서, "역치값"은 판독을 평가하기 위해 사용되며, 뉴클레오타이드 위치에 대한 값의 판독, 예를 들어 유전자 내 특이적 위치에서 돌연변이 호출로부터 선택된다. 해당 방법의 실시형태에서, 다수의 사전선택된 서브게놈 간격의 각각에 대한 역치값은 설정되거나 또는 미세조정된다. 세트 또는 조정은 본 명세서에 기재된 인자, 예를 들어 샘플 내 암의 유형, 시퀀싱되는 서브게놈 간격이 위치되는 유전자 또는 시퀀싱되는 변이체 중 하나 이상을 기준으로 할 수 있다. 이는 시퀀싱되는 복수의 서브게놈 간격의 각각으로 미세조정된 호출을 제공한다. 해당 방법은 상대적으로 다수의 다양한 서브게놈 간격이 분석될 때 특히 효과적이다.
따라서, 다른 실시형태에서, 종양의 분석 방법은 다음의 돌연변이 호출 방법을 포함한다:
각각의 상기 X 서브게놈 간격에 대해 역치값을 획득하되, 각각의 상기 획득된 X 역치값은 다른 X-1 역치값에 비해서 독특하고, 이에 의해 X로 독특한 역치값을 제공하는 단계;
각각의 상기 X 서브게놈 간격에 대해, 사전선택된 뉴클레오타이드 위치에서 사전선택된 뉴클레오타이드 값을 갖는 판독의 수의 함수인 관찰된 값을 그것의 독특한 역치값과 비교함으로써, 각각의 상기 X 서브게놈 간격, 그것의 독특한 역치값을 적용하는 단계: 및
선택적으로, 상기 비교 결과에 반응하여, 사전선택된 뉴클레오타이드 위치에 뉴클레오타이드 값을 부여하되,
X는 2 이상인 것인 단계.
실시형태에서, 해당 방법은 적어도 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에서 뉴클레오타이드 값을 부여하되, 각각은 독립적으로 0.5, 0.4, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02 또는 0.01 미만인 확률의 함수의 제1 값을 갖는 단계를 포함한다.
실시형태에서, 해당 방법은 적어도 X의 뉴클레오타이드 위치의 각각에서 뉴클레오타이드 값을 부여하는 단계를 포함하며, 각각은 독립적으로 다른 X-1 제1 값에 비해서 독특한 제1 값을 가지되, 상기 X 제1 값의 각각은 0.5, 0.4, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02 또는 0.01 미만인 확률의 함수이고, X는 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 이상이다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어, 표 1의 유전자의 뉴클레오타이드 위치는 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 제1 및/또는 제2 값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
해당 방법의 실시형태는 예를 들어 다음의 실시형태로부터 알 수 있는 바와 같이, 상대적으로 매우 복수의 서브게놈 간격이 최적화되는 경우 적용될 수 있다.
실시형태에서, 독특한 역치값은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 상이한 유전자 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어, 표 1의 유전자에서 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 역치값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 우선순위 1 주석을 갖는 표 1의 적어도 5, 10, 20, 30 또는 40개의 유전자 내 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 역치값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
이들 및 다른 돌연변이 호출 방법은 본 명세서의 다른 곳에서, 예를 들어 "돌연변이 호출 모듈"이라는 제목의 부문에서 논의된다. 해당 모듈의 구성요소는 종양의 분석 방법에 포함될 수 있다. 실시형태에서, "돌연변이 호출 모듈"로부터 정렬 방법은 "정렬 모듈"로부터의 정렬 방법 및/또는 "베이트 모듈"로부터의 베이트 세트와 조합된다. 해당 방법은 "유전자 선택 모듈"로부터 서브게놈 간격의 세트에 적용될 수 있다.
베이트
본 명세서에 기재된 방법은 시퀀싱되는 표적 핵산의 선택을 위해 베이트, 예를 들어 용액 혼성화에서 사용을 위한 베이트의 적절한 선택에 의해 하나 이상의 피험체로부터의 샘플, 예를 들어, 종양 샘플로부터 매우 다수의 유전자 및 유전자 생성물의 최적화된 시퀀싱을 제공한다. 다양한 서브게놈 간격 또는 이들의 분류에 대한 선택의 효능은 사전선택된 선택 효능을 갖는 베이트 세트에 따라 매칭된다. 이 부문에서 사용되는 바와 같이, "선택 효능"은 표적 서브게놈 간격(들)에 따라 조절되는 서열 덮임률(coverage)의 수준 또는 심도를 지칭한다.
따라서, 방법(예를 들어, 상기 열거된 방법 중 구성요소 (b))은 라이브러리를 다수의 베이트과 접촉시켜 선택된 구성원(예를 들어, 라이브러리 캐치)을 제공하는 단계를 포함한다.
따라서, 일 양태에서, 본 발명은 샘플, 예를 들어, 종양 샘플의 분석 방법을 특징으로 한다. 해당 방법은,
(a) 샘플로부터의 다수의 구성원(예를 들어 표적 구성원), 예를 들어 종양 샘플로부터의 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 라이브러리를 베이트 세트와 접촉시켜 선택된 구성원(예를 들어, 라이브러리 캐치)을 제공하는 단계;
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터의 서브게놈 간격에 대한 판독을, 예를 들어 시퀀싱을 포함하는 방법에 의해, 예를 들어 차세대 시퀀싱 방법으로 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값(예를 들어, 돌연변이를, 예를 들어, 베이지안 방법 또는 본 명세서에 기재된 방법으로 호출)을 부여함으로써, 상기 종양 샘플을 분석하는 단계를 포함하되,
해당 방법은 라이브러리를 다수의, 예를 들어 베이트 또는 베이트 세트 중 적어도 2, 3, 4 또는 5개와 접촉시키는 단계를 포함하고, 상기 다수 중 각각의 베이트 또는 베이트 세트는 독특한(다수 중 다른 베이트 세트와 대조적으로), 사전선택된 선택에 대한 효능을 가진다. 예를 들어, 각각의 독특한 베이트 또는 베이트 세트는 독특한 시퀀싱 심도를 제공한다. 본 명세서에서 사용되는 용어 "베이트 세트"는 하나의 베이트 또는 다수의 베이트 분자를 총괄적으로 지칭한다.
실시형태에서, 다수에서 제1 베이트 세트의 선택 효능은 적어도 2배만큼 다수에서 제2 베이트 세트의 효능과 상이하다. 실시형태에서, 제1 및 제2 베이트 세트는 적어도 2배만큼 상이한 시퀀싱의 심도를 제공한다.
실시형태에서, 해당 방법은 다음의 베이트 세트 중 하나 또는 다수를 라이브러리와 접촉시키는 단계를 포함한다:
a) 예를 들어, 샘플로부터 세포의 단지 5%에 존재하는 서열 돌연변이에 약 500X 이상의 시퀀싱 심도를 제공하기 위한 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트;
b) 예를 들어, 샘플로부터 세포의 단지 10%에 존재하는 서열 돌연변이에 약 200X 이상, 예를 들어 약 200X 내지 약 500X의 시퀀싱 심도를 제공하기 위한 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트;
c) a) 상이한 약물을 대사하는 환자의 능력을 설명할 수 있는 약물유전체적(PGx) 단일 뉴클레오타이드 다형성(SNP) 또는 b) 환자를 특유의 형태로 확인하기 위해 사용될 수 있는 게놈 SNP(예를 들어, 핑거프린트)로부터 선택된 하나 이상의 서브게놈 간격(예를 들어 엑손)을 시퀀싱하기 위해 약 10 내지 100X 시퀀싱 심도를 제공하는 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트;
d) 예를 들어 게놈 전위 또는 삽입-결실과 같은 구조적 중단점을 검출하기 위해 약 5 내지 50 X 시퀀싱 심도를 제공하기 위한 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트. 예를 들어, 인트론 중단점의 검출은 고검출 신뢰성을 보장하기 위한 심도에 걸쳐 5 내지 50X 서열-쌍을 필요로 한다. 이러한 베이트 세트는, 예를 들어 전위/삽입-결실되기 쉬운 암 유전자를 검출하는데 사용될 수 있다; 또는
e) 예를 들어, 복제수 변화를 검출하기 위해 약 0.1 내지 300X 시퀀싱 심도를 제공하는 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트. 일 실시형태에서, 시퀀싱 심도는 복제수 변화를 검출하기 위해 약 0.1 내지 10X 시퀀싱 심도의 범위에 있다. 다른 실시형태에서, 시퀀싱은 게놈 DNA 또는 이형접합 소실(LOH)의 복제수 획득/소실을 평가하기 위해 사용되는 게놈 SNP/좌위를 검출하기 위해 약 100 내지 300X의 범위에 있다. 이러한 베이트 세트는, 예를 들어 증폭/검출이 쉬운 암 유전자를 검출하는데 사용될 수 있다.
본 명세서에 사용되는 시퀀싱 심도의 수준(예를 들어, 시퀀싱 심도의 X-배 수준)은 복제물 판독, 예를 들어 PCR 복제물 판독의 검출 및 제거 후, 판독(예를 들어, 독특한 판독)의 적용 범위 수준을 지칭한다.
일 실시형태에서, 베이트 세트는 하나 이상의 재배열을 함유하는 서브게놈 간격, 예를 들어 게놈 재배열을 함유하는 인트론을 선택한다. 이러한 실시형태에서, 베이트 세트는 반복 서열이 선택 효율을 증가시키는 것을 가리도록 설계된다. 해당 실시형태에서, 재정렬이 공지된 연접(juncture) 서열을 가지는 경우, 상보적 베이트 세트는 선택 효능을 증가시키기 위해 연접 서열로 설계될 수 있다.
실시형태에서, 해당 방법은 2 이상의 상이한 표적 카테고리를 포획하기 위해 설계된 베이트의 세트를 포함하며, 각각의 카테고리는 상이한 베이트 설계 전략을 가진다. 실시형태에서, 본 명세서에 개시된 혼성체 포획 방법 및 조성물은 표적 서열의 한정된 서브세트(예를 들어, 표적 구성원)를 포획하며, 표적 서열의 균일한 덮임률을 제공하는 한편, 해당 서브세트 밖의 덮임률을 최소화한다. 일 실시형태에서, 표적 서열은 게놈 DNA 또는 이것의 선택된 서브세트 밖의 전체 엑솜(exome)을 포함한다. 본 명세서에 개시된 방법 및 조성물은 복합체 표적 핵산 서열(예를 들어, 핵산 라이브러리)에 대한 덮임률의 상이한 심도 및 패턴을 달성하기 위한 상이한 베이트 세트를 제공한다.
실시형태에서, 해당 방법은 핵산 라이브러리(예를 들어, 라이브러리 캐치)의 선택된 구성원을 제공하는 단계를 포함한다. 해당 방법은,
다수의 구성원, 예를 들어, 표적 핵산 구성원(예를 들어, 복수의 종양 구성원, 기준 구성원 및/또는 PGx 구성원을 포함)을 포함하는 라이브러리(예를 들어, 핵산 라이브러리)를 제공하는 단계;
라이브러리를, 예를 들어 용액-기반 반응에서 다수의 베이트(예를 들어, 올리고뉴클레오타이드 베이트)와 접촉시켜, 다수의 베이트/구성원 혼성체를 포함하는 혼성 혼합물을 형성하는 단계;
예를 들어, 상기 다수의 베이트/구성원 혼성체를 분리시키는 결합 완전체와 상기 혼성화 혼합물을 접촉시킴으로써, 상기 혼성화 혼합물로부터 다수의 베이트/구성원 혼성체를 분리시키고,
이에 의해 라이브러리-캐치(예를 들어, 라이브러리로부터 핵산 분자의 선택된 또는 풍부화된 서브그룹)를 제공하는 단계를 포함하되,
다수의 베이트는 다음 중 2 이상을 포함한다:
a) 가장 심층의 덮임률이 낮은 빈도, 예를 들어 약 5% 이하로 나타나는 변경(예를 들어, 하나 이상의 돌연변이)에 대해 고수준의 민감성을 가능하게 하는데 필요한(즉, 샘플로부터의 세포의 5%가 그것의 게놈 내 변경을 은닉) 고-수준의 표적(예를 들어, 유전자, 엑손 또는 염기와 같은 서브게놈 간격을 포함하는 하나 이상의 구성원)을 선택하는 제1 베이트 세트. 일 실시형태에서; 제1 베이트 세트는 약 500X 이상의 시퀀싱 심도가 필요한 변경(예를 들어, 점 돌연변이)을 포함하는 종양 구성원(예를 들어, 종양 구성원에 상보적임)을 선택한다;
b) 높은 덮임률이 a)의 고-수준 표적보다 더 높은 빈도로, 예를 들어 약 10%의 빈도로 나타나는 변경(예를 들어, 하나 이상의 돌연변이)에 대해 고수준의 민감성을 가능하게 하는데 필요한(즉, 샘플로부터의 세포의 10%는 그것의 게놈 내 변경을 은닉함) 중간-수준 표적(예를 들어, 유전자, 엑손 또는 염기와 같은 서브게놈 간격을 포함하는 하나 이상의 종양 구성원)을 선택하는 제2 베이트 세트. 일 실시형태에서; 제2 베이트 세트는 약 200X 이상의 시퀀싱 심도를 필요로 하는 변경(예를 들어, 점 돌연변이)을 포함하는 종양 구성원(예를 들어, 종양 구성원에 상보적임)을 선택한다;
c) 고수준의 민감성을 가능하게 하는데, 예를 들어 이형 접합적 대립유전자를 검출하는데 필요한 낮은 내지 중간 덮임률에 대해 저-수준의 표적(예를 들어 유전자, 엑손 또는 염기와 같은 서브게놈 간격을 포함하는 하나 이상의 PGx 구성원)을 선택하는 제3 베이트 세트. 예를 들어, 이형 접합적 대립유전자의 검출은 고검출 신뢰성을 보장하기 위한 10 내지 100X 시퀀싱 심도를 필요로 한다. 일 실시형태에서, 제3 베이트 세트는 하기로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다: a)상이한 약물을 대사하기 위한 환자의 능력을 설명할 수 있는 약물유전체적(PGx) 단일 뉴클레오타이드 다형성(SNP) 또는 b) 환자를 특유의 형태로 확인하기 위해 사용될 수 있는 게놈 SNP(예를 들어, 핑거프린트);
d) 낮은 내지 중간 덮임률이 예를 들어 게놈 전위 또는 삽입-결실과 같은 구조적 중단점을 검출하기 위해 필요한 제1 인트론 표적(예를 들어 인트론 서열을 포함하는 구성원)을 선택하는 제4 베이트 세트. 예를 들어, 인트론 중단점의 검출은 고 검출 신뢰성을 보장하기 위한 심도에 걸쳐 5 내지 50X 서열-쌍을 필요로 한다. 상기 제4 베이트 세트는, 예를 들어 전위/삽입-결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다; 또는
e) 스파스(sparse) 덮임률이 복제수 변화를 검출하기 위한 능력을 개선시키는데 필요한 제2 인트론 표적(예를 들어, 인트론 구성원)을 선택하는 제5 베이트 세트. 예를 들어, 몇몇 말단의 엑손의 1-복제 결실의 검출은 고검출 신뢰성을 보장하기 위해 0.1 내지 300X 덮임률을 필요로 한다. 일 실시형태에서, 덮임률 심도는 복제수 변화를 검출하기 위해 약 0.1 내지 10X의 범위에 있다. 다른 실시형태에서, 덮임률은 게놈 DNA 또는 이형접합 소실(LOH)의 복제수 획득/소실을 평가하기 위해 사용된 게놈 SNP/좌위를 검출하기 위해 약 100 내지 300X의 범위에 있다. 상기 제5 베이트 세트는, 예를 들어 증폭/결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
앞서 언급한 베이트 세트 중 2, 3, 4 이상의 임의의 조합, 예를 들어 제1 및 제2 베이트 세트의 조합; 제1 및 제3 베이트 세트; 제1 및 제4 베이트 세트; 제1 및 제5 베이트 세트; 제2 및 제3 베이트 세트; 제2 및 제4 베이트 세트; 제2 및 제5 베이트 세트; 제3 및 제4 베이트 세트; 제3 및 제5 베이트 세트; 제4 및 제5 베이트 세트; 제1, 제2 및 제3 베이트 세트; 제1, 제2 및 제4 베이트 세트; 제1, 제2 및 제5 베이트 세트; 제1, 제2, 제3, 제4 베이트 세트; 제1, 제2, 제3, 제4 및 제5 베이트 세트 등이 사용될 수 있다.
일 실시형태에서, 각각의 제1, 제2, 제3, 제4 또는 제5 베이트 세트는 선택에 대해 사전선택된 효율을 가진다(예를 들어, 포획). 일 실시형태에서, 선택의 효율에 대한 값은 a) 내지 e)에 따른 모두 5가지의 베이트 중 적어도 2, 3, 4에 대해 동일하다. 다른 실시형태에서, 선택의 효율을 위한 값은 a) 내지 e)에 따른 모두 5가지의 베이트 중 적어도 2, 3, 4에 대해 상이하다.
일부 실시형태에서, 적어도 2, 3, 4 또는 모두 5가지의 베이트 세트는 상이한 사전선택된 효율 값을 가진다. 예를 들어, 하기 중 하나 이상으로부터 선택된 선택의 효율에 대한 값:
(i) 제1 사전선택된 효율은 적어도 약 500X 이상의 시퀀싱 심도인 선택의 제1 효율에 대한 값을 가진다(예를 들어 제2, 제3, 제4 또는 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제2 선택의 효율에 대한 값보다 약 2 내지 3배 더 큰; 제3 선택의 효율에 대한 값보다 약 5 내지 6배 더 큰; 제4 선택의 효율에 대한 값보다 약 10배 더 큰; 제5 선택의 효율에 대한 값보다 약 50배 내지 5000배 더 큰) 선택의 효율에 대한 값을 가진다);
(ii) 제2 사전선택된 효율은 적어도 약 200X 이상의 시퀀싱 심도인 선택의 제2 효율에 대한 값을 가진다(예를 들어 제3, 제4 또는 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제3 선택의 효율에 대한 값보다 약 2배 더 큰; 제4 선택의 효율에 대한 값보다 약 4배 더 큰; 제5 선택의 효율에 대한 값보다 약 20배 내지 2000-배 더 큰) 선택의 효율에 대한 값을 가진다);
(iii) 제3 사전선택된 효율은 적어도 약 100X 이상의 시퀀싱 심도인 선택의 제3 효율에 대한 값을 가진다(예를 들어, 제4 또는 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제4 선택의 효율에 대한 값보다 약 2배 더 큰; 제5 선택의 효율에 대한 값보다 약 10배 내지 1000배 더 큰) 선택의 효율에 대한 값을 가진다);
(iv) 제4 사전선택된 효율은 적어도 약 50X 이상의 시퀀싱 심도인 선택의 제4 효율에 대한 값을 가진다(예를 들어, 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제5 선택의 효율에 대한 값보다 약 50배 내지 500배 더 큰) 선택의 효율에 대한 값을 가진다); 또는
(v) 제5 사전선택된 효율은 적어도 약 10X 내지 0.1X 시퀀싱 심도인 제5 선택의 효율에 대한 값을 가진다.
특정 실시형태에서, 선택의 효율에 대한 값은 하기 중 하나 이상에 의해 변형된다: 상이한 베이트 세트의 차별적인 표현, 베이트 서브세트의 차별적인 중복, 차별적인 베이트 변수, 상이한 베이트 세트의 혼합, 및/또는 상이한 유형의 베이트 세트의 사용. 예를 들어, 선택 효율의 변화(예를 들어, 각각의 베이트 세트/표적 카테고리의 상대적 서열 덮임률)는 하기 중 하나 이상을 변경함으로써 조절될 수 있다:
(i) 상이한 베이트 세트의 차별적인 표현 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 더 많은/소수의 복제물에 포함되어 상대적인 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(ii) 베이트 서브세트의 차별적인 중복 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 이웃하는 베이트 사이의 더 길거나 또는 더 짧은 복제물을 포함하여 상대적인 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(iii) 차별적인 베이트 변수 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 서열 변형/더 짧은 길이를 포함하여 포획 효율을 감소시키고, 상대적 표적 덮임률 심도를 낮출 수 있다;
(iv) 상이한 베이트 세트를 혼합 - 상이한 표적 세트를 포획하기 위해 설계된 베이트 세트는 상이한 몰비로 혼합되어 상대적 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(v) 상이한 유형의 올리고뉴클레오타이드 베이트 세트를 사용 - 특정 실시형태에서, 베이트 세트는 하기를 포함할 수 있다:
(a) 하나 이상의 화학적으로(예를 들어, 비-효소적으로) 합성된(예를 들어, 개별적으로 합성된) 베이트,
(b) 어레이에서 합성된 하나 이상의 베이트,
(c) 하나 이상의 효소적으로 제조된, 예를 들어 시험관내 전사된 베이트;
(d) (a), (b) 및/또는 (c)의 임의의 조합,
(e) 하나 이상의 DNA 올리고뉴클레오타이드(예를 들어, 자연적으로 또는 비-자연적으로 발생되는 DNA 올리고뉴클레오타이드),
(f) 하나 이상의 RNA 올리고뉴클레오타이드(예를 들어, 자연적으로 또는 비-자연적으로 발생되는 RNA 올리고뉴클레오타이드),
(g) (e) 및 (f)의 조합, 또는
(h) 상기 중 어떤 것의 조합.
상이한 올리고뉴클레오타이드 조합은 상이한 비로, 예를 들어 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000 등으로부터 선택된 비로 혼합될 수 있다. 일 실시형태에서, 화학적으로 합성된 베이트 대 배열-생성된 베이트의 비는 1:5, 1:10 또는 1:20으로부터 선택된다. DNA 또는 RNA 올리고뉴클레오타이드는 자연적으로- 또는 비-자연적으로 발생될 수 있다. 특정 실시형태에서, 베이트는, 예를 들어 융점을 증가시키는 하나 이상의 비-자연적으로 발생되는 뉴클레오타이드를 포함한다. 대표적인 비-자연적으로 발생되는 올리고뉴클레오타이드는 변형된 DNA 또는 RNA 뉴클레오타이드를 포함한다. 대표적인 변형된 뉴클레오타이드(예를 들어, 변형된 RNA 또는 DNA 뉴클레오타이드)는, 이하에 제한되는 것은 아니지만, 잠금 핵산(locked nucleic acid: LNA)을 포함하되, LNA 뉴클레오타이드의 리보스 모이어티(moiety)는 2' 산소와 4' 탄소를 연결하는 추가의 브릿지; 펩타이드 핵산(peptide nucleic acid: PNA), 예를 들어, 펩타이드 결합에 의해 연결된 반복되는 N-(2-아미노에틸)-글라이신 단위로 구성된 PNA; 저 GC 영역을 포획하기 위해 변형된 DNA 또는 RNA 올리고뉴클레오타이드; 바이사이클릭 핵산(bicyclic nucleic acid: BNA); 가교된 올리고뉴클레오타이드; 변형된 5-메틸 데옥시사이티딘; 및 2,6-다이아미노퓨린에 의해 변형된다. 다른 변형된 DNA 및 RNA 뉴클레오타이드는 당업계에서 공지된다.
특정 실시형태에서, 표적 서열(예를 들어, 표적 구성원)의 실질적으로 균일하거나 또는 동등한 덮임률이 얻어진다. 예를 들어, 각각의 베이트 세트/표적 카테고리 내에서, 덮임률의 균일성은, 예를 들어 하기 중 하나 이상에 의해 베이트 변수를 변형함으로써 최적화될 수 있다:
(i) 베이트 표현 또는 중복의 증가/감소는 동일 카테고리 내의 다른 표적에 대해 밑에/위에-덮여있는 표적(예를 들어, 표적 구성원)의 덮임률을 향상/감소시키기 위해 사용될 수 있다;
(ii) 표적 서열(예를 들어, 고 GC 함량 서열)을 포획하기가 어려운 낮은 덮임률에 대해, 예를 들어 인접한 서열(예를 들어, 더 적은 GC-풍부 인접 서열)을 덮는 베이트 세트로 표적화된 영역을 확장한다;
(iii) 베이트 서열의 변형은 베이트의 2차 구조를 감소시키고, 그것의 선택 효율을 향상시키도록 만들어질 수 있다;
(iv) 베이트 길이의 변형은 동일 카테고리 내에서 상이한 베이트의 용융 혼성화 역학과 동일하게 되도록 사용될 수 있다. 베이트 길이는 직접적으로(다양한 길이를 갖는 베이트를 생성함으로써) 또는 간접적으로(일정한 길이의 베이트를 생성하고, 베이트 말단을 임의의 서열로 대체함으로써) 변형될 수 있다;
(v) 동일 표적 영역(즉, 전방 및 후방 가닥)에 대해 상이한 배향의 베이트를 변형시키는 것은 상이한 결합 효율을 가질 수 있다. 각각의 표적에 대해 최적의 덮임률을 제공하는 배향 중 하나를 지니는 베이트 세트가 선택될 수 있다;
(vi) 결합 완전체의 양을 변형시키는 것, 예를 들어 각 베이트에 존재하는 포획 태그(예를 들어, 바이오틴)은 그것의 결합 효율에 영향을 미칠 수 있다. 특이적 표적을 표적화하는 베이트의 태그 수준을 증가/감소시키는 것은 상대적 표적 덮임률을 향상/감소시키도록 사용될 수 있다;
(vii) 상이한 베이트에 대해 사용된 뉴클레오타이드 유형의 변형은 표적의 결합 친화도에 영향을 미치도록 변경될 수 있고, 상대적 표적 덮임률을 향상시키고/감소시킬 수 있다; 또는
(viii) 예를 들어 더 안정한 염기 쌍을 갖는 변형된 올리고뉴클레오타이드 베이트를 사용하는 것은 고 GC 함량에 대해 낮은 또는 정상의 GC 함량의 영역 사이의 용융 혼성화 역학이 동등하게 되도록 사용될 수 있다.
예를 들어, 상이한 유형의 올리고뉴클레오타이드 베이트 세트가 사용될 수 있다.
일 실시형태에서, 선택의 효율에 대한 값은 상이한 유형의 베이트 올리고뉴클레오타이드를 사용함으로써 변형되어 사전선택된 표적 영역을 포함한다. 예를 들어, 제1 베이트 세트(예를 들어, 10,000 내지 50,000 RNA 또는 DNA 베이트를 포함하는 어레이-기반 베이트 세트)가 거대 표적 영역(예를 들어, 1 내지 2MB 전체 표적 영역)을 덮도록 사용될 수 있다. 제1 베이트 세트는 제2 베이트 세트가 스파이킹되어(spiked)(예를 들어, 5,000 미만의 베이트를 포함하는 개별적으로 합성된 RNA 또는 DNA 베이트 세트) 사전선택된 표적 영역(예를 들어, 250kb 미만의 표적 영역에 걸친, 관심의 선택된 서브게놈 간격) 및/또는 더 높은 2차 구조, 예를 들어 더 고 GC 함량의 영역을 덮는다. 관심의 선택된 서브게놈 간격은 본 명세서에 기재된 유전자 또는 유전자 생성물 또는 이것의 단편 중 하나 이상에 대응될 수 있다. 제2 베이트 세트는 원하는 베이트 중복에 따라서 약 1 내지 5,000, 2 내지 5,000, 3 내지 5,000, 10 내지 5,000, 100 내지 5,000, 500 내지 5,000, 100 내지 5,000, 1000 내지 5,000, 2,000 내지 5,000을 포함할 수 있다. 다른 실시형태에서, 제2 베이트 세트는 제1 베이트 세트에 스파이킹된 선택된 올리고 베이트(예를 들어, 400, 200, 100, 50, 40, 30, 20, 10, 5, 4, 3, 2 또는 1 미만의 베이트)를 포함할 수 있다. 제2 베이트 세트는 개개의 올리고 베이트의 임의의 비로 혼합될 수 있다. 예를 들어, 제2 베이트 세트는 1:1의 등몰비로서 존재하는 개개의 베이트를 포함할 수 있다. 대안적으로, 제2 베이트 세트는, 예를 들어 특정 표적의 포획을 최적화하기 위해(예를 들어, 특정 표적은 다른 표적과 비교하여 제2 베이트의 5 내지 10X를 가질 수 있음) 상이한 비(예를 들어, 1:5, 1:10, 1:20)로 존재하는 개개의 베이트를 포함할 수 있다.
다른 실시형태에서, 선택 효율은 베이트의 등몰 혼합을 사용할 때 관찰된 차별적인 서열 포획 효율에 대해 베이트의 상대적 존재비(abundance) 또는 결합 독립체의 밀도(예를 들어, 햅텐 또는 친화도 태그 밀도)를 조절한 다음, 내부-평준화된(leveled) 그룹 2에 비해 전반적인 베이트 혼합에 대해 내부로-평준화된 그룹 1 만큼 차별적인 과량을 도입함으로써 그룹(예를 들어, 제1, 제2 또는 제3 다수의 베이트) 내에서 개개 베이트의 효율을 평준화함으로써 조절된다.
실시형태에서, 해당 방법은 종양 구성원, 예를 들어 종양 세포로부터 서브게놈 간격을 포함하는 핵산 모듈을 선택하는 베이트 세트(또한 본 명세서에서 "종양 베이트 세트"으로서 지칭됨)를 포함하는 복수의 베이트 세트의 사용을 포함한다. 종양 구성원은 종양 또는 암 세포 내에 존재하는 본 명세서에 기재된 종양 세포, 예를 들어 돌연변이된, 야생형, PGx, 기준 또는 인트론 뉴클레오타이드 서열 내에 존재하는 임의의 뉴클레오타이드 서열일 수 있다. 일 실시형태에서, 종양 구성원은 낮은 빈도로 나타나는 변경(예를 들어 하나 이상의 돌연변이)을 포함하며, 예를 들어 종양 샘플로부터의 세포의 약 5% 미만이 그것의 게놈 내 변경을 은닉한다. 다른 실시형태에서, 종양 구성원은 종양 샘플로부터 약 10%의 빈도로 나타나는 변경(예를 들어, 하나 이상의 돌연변이)을 포함한다. 다른 실시형태에서, 종양 구성원은 PGx 유전자 또는 유전자 생성물, 인트론 서열, 예를 들어, 본 명세서에 기재된 인트론 서열, 종양 세포 내에 존재하는 기준 서열로부터의 서브게놈 간격을 포함한다.
다른 양태에서, 본 발명은 본 명세서에 기재된 베이트 세트, 본 명세서에 기재된 개개의 베이트 세트의 조합, 예를 들어 본 명세서에 기재된 조합을 특징으로 한다. 베이트 세트(들)는 설명서, 표준, 완충제 또는 효소 또는 다른 시약을 선택적으로 포함할 수 있는 키트의 부분일 수 있다.
유전자 선택
분석에 대해 사전선택된 서브게놈 간격, 예를 들어 유전자 및 다른 영역의 세트 또는 그룹에 대한 서브 게놈의 그룹 또는 세트가 본 명세서에 기재된다.
따라서, 실시형태에서, 방법은 획득한 핵산 샘플로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30 또는 그 이상의 유전자 또는 유전자 생성물을, 예를 들어 차세대 시퀀싱 방법에 의해 시퀀싱함으로써 종양 샘플을 분석하는 단계를 포함하되, 유전자 또는 유전자 생성물은 ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53으로부터 선택된다.
따라서, 일 양태에서, 본 발명은 샘플, 예를 들어 종양 샘플을 분석하는 방법을 특징으로 한다. 방법은,
(a) 샘플로부터 다수의 구성원, 예를 들어 종양 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 사전선택된 서열에 대해, 예를 들어 해당 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시켜 선택된 구성원(예를 들어, 라이브러리 캐치)를 제공함으로써 라이브러리를 풍부화하는 단계;
(c) 상기 라이브러리 또는 라이브러리 캐치로부터 구성원, 예를 들어 종양 구성원으로부터 서브게놈 간격에 대한 판독을, 예를 들어 시퀀싱을 포함하는 방법, 예를 들어 차세대 시퀀싱 방법에 의해 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이를 호출, 예를 들어, 베이지안 방법 또는 본 명세서에 기재된 방법으로), 상기 종양 샘플을 분석하는 단계를 포함하되,
상기 방법은 샘플로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30 또는 그 이상의 유전자 또는 유전자 생성물을, 예를 들어 차세대 시퀀싱 방법에 의해 시퀀싱하는 단계를 포함하며, 유전자 또는 유전자 생성물은 ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53으로부터 선택된다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
다른 실시형태에서, 다음의 세트 또는 그룹 중 하나의 서브게놈 간격이 분석된다. 예를 들어, 종양 또는 암 유전자 또는 유전자 생성물, 기준(예를 들어, 야생형) 유전자 또는 유전자 생성물 및 PGx 유전자 또는 유전자 생성물과 관련된 서브게놈 간격은 종양 샘플로부터 서브게놈 간격의 그룹 또는 세트를 제공할 수 있다.
실시형태에서, 해당 방법은 판독, 예를 들어 서열, 종양 샘플로부터 서브게놈 간격의 세트를 획득하되, 서브게놈 간격은 다음 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 또는 모두로부터 선택된다:
A) ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53 중 적어도 5개 이상으로부터 선택된 돌연변이된 또는 야생형 유전자 또는 유전자 생성물로부터의 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상의 서브게놈 간격;
B) ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL 또는 WT1 중 적어도 5개 이상으로부터 선택된 돌연변이된 또는 야생형 유전자 또는 유전자 생성물로부터 선택된 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120 이상의 서브게놈 간격;
C) 표 1, 1A, 2, 3 또는 4에 따른 유전자 또는 유전자 생성물로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20 이상의 서브게놈 간격;
D) 종양 또는 암과 관련된(예를 들어, 양성 또는 음성 치료 반응 예측변수임) 종양 또는 암, 예를 들어, ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1 및 TP53 중 하나 이상으로부터 선택된 유전자 또는 유전자 생성물의 차별적인 진단에 대한 또는 차별적인 진단을 가능하게 하는 양성 또는 음성의 예후 인자인 유전자 또는 유전자 생성물로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20 이상의 서브게놈 간격;
E) ABL1 유전자의 코돈 315; APC의 코돈 1114, 1338, 1450 또는 1556; BRAF의 코돈 600; CTNNB1의 코돈 32, 33, 34, 37, 41 또는 45; EGFR의 코돈 719, 746-750, 768, 790, 858 또는 861; FLT3의 코돈 835; HRAS의 코돈 12, 13 또는 61; JAK2의 코돈 617; KIT의 코돈 816; KRAS의 코돈 12, 13 또는 61; PIK3CA의 코돈 88, 542, 545, 546, 1047 또는 1049; PTEN의 코돈 130, 173, 233 또는 267; RET의 코돈 918; TP53의 코돈 175, 245, 248, 273 또는 306(예를 들어, 표 1에 나타낸 코돈 중 하나 이상을 포함하는 적어도 5, 10, 15, 20 이상의 서브게놈 간격) 중 하나 이상으로부터 선택된 돌연변이된 또는 야생형 코돈을 포함하는 적어도 5, 6, 7, 8, 9, 10 이상의 서브게놈 간격;
F) ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1 또는 UMPS로부터 선택된 약물 대사, 약물 반응 또는 독성 중 하나 이상과 관련된 유전자 또는 유전자 생성물(또한 본 명세서에서 "PGx" 유전자로서 지칭됨)에 존재하는 서브게놈 간격의 돌연변이된 또는 야생형 유전자 또는 유전자 생성물(예를 들어, 단일 뉴클레오타이드 다형성(SNP))로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상의 서브게놈 간격;
G) 하기 중 하나 이상과 관련된 유전자 또는 유전자 생성물에 존재하는 서브게놈 간격의 돌연변이된 또는 야생형 PGx 유전자 또는 유전자 생성물(예를 들어, 단일 뉴클레오타이드 다형성(SNP))로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상의 서브게놈 간격: (i) 약물로 처리된 암 환자의 더 양호한 생존률(예를 들어, 파클리탁셀(예를 들어, ABCB1 유전자)로 처리된 유방암 환자의 더 양호한 생존률); (ii) 파클리탁셀 대사(예를 들어, 표 2에 나타낸 상이한 좌위 및 돌연변이에서 CYP2C8 유전자; CYP3A4 유전자); (iii) 약물에 대한 독성(예를 들어, ABCC4 유전자에 의해 알 수 있는 바와 같은 6-MP 독성(표 2); DPYD 유전자, TYMS 유전자 또는 UMPS 유전자(표 2)에 의해 알 수 있는 바와 같은 5-FU 독성; TMPT 유전자에 의해 알 수 있는 바와 같은 퓨린 독성(표 2); NRP2 유전자에 의해 알 수 있는 바와 같은 다우노루비신 독성; Clorf144 유전자, CYP1B1 유전자(표 2); 또는 (iv) 약물(예를 들어, ABCG2, TYMS, UGT1A1, ESR1 및 ESR2 유전자(표 2))에 대한 부작용;
H) 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경;
J) 본 명세서에서 구체화된 암 유형으로부터 고형 종양 샘플에서 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경;
K) 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경;
L) 본 명세서에서 구체화된 암 유형으로부터의 헴(heme) 종양 샘플에서 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경;
M) 표 1-4로부터 선택된 적어도 5개의 유전자 또는 유전자 생성물로서, 예를 들어 사전선택된 위치에서 대립유전자 변형은 사전선택된 유형의 종양과 관련되고, 상기 대립유전자 변형은 상기 종양 유형 내 세포의 5% 미만으로 존재하는 유전자 또는 유전자 생성물;
N) GC-풍부 영역에 포매된 표 1, 1A-4로부터 선택된 적어도 5개의 유전자 또는 유전자 생성물; 또는
O) 암 발생에 대한 유전적(예를 들어, 생식계열 위험) 인자를 표시하는 적어도 5개의 유전자 또는 유전자 생성물(예를 들어, 유전자 또는 유전자 생성물은 BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL 또는 WT1 중 하나 이상으로부터 선택됨).
또 다른 실시형태에서, 해당 방법은, 판독, 예를 들어 종양 샘플로부터 서브게놈 간격의 세트인 서열을 획득하되, 서브게놈 간격은 표 1B에 기재된 변경 중 1, 2, 3, 4, 5, 10, 15 또는 모두로부터 선택된다. 일 실시형태에서, 서브게놈 간격은 카테고리 A, B, C, D 또는 E 중 하나 이상으로 분류된 변경을 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플, 예를 들어, 결장, 폐 또는 유방 종양 샘플에서 KRAS G13D의 변경을 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플, 예를 들어, 흑색종 또는 결장 종양 샘플 내 NRAS Q61K의 변경을 포함한다. 또 다른 실시형태에서, 서브게놈 간격은 종양 샘플, 예를 들어, 흑색종, 결장 또는 폐 종양 샘플에서 BRAF V600E의 변경을 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플, 예를 들어, 폐 종양 샘플에서 BRAF D594G의 변경을 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플, 예를 들어, 유방 또는 결장 종양 샘플에서 PIK3CA H1047R의 변경을 포함한다. 또 다른 실시형태에서, 서브게놈 간격은 종양 샘플, 예를 들어, 폐 종양 샘플에서 EGFR L858R 또는 T790M의 변경을 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플에서 ERBB2의 변경, 예를 들어, 유방 종양 샘플에서 ERBB2 증폭을 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 BRCA1의 변경, 예를 들어, 유방 종양 샘플 내 BRCA1 이대립유전자(biallelic) 비활성화를 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 BRCA2의 변경, 예를 들어, 췌장 종양 샘플 내 BRCA2 이대립유전자 비활성화를 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 ATM의 변경, 예를 들어, 유방 종양 샘플 내 ATM 이대립유전자 비활성화를 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 TSC의 변경, 예를 들어, 결장 종양 샘플 내 TSC 이대립유전자 비활성화를 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 PTEN의 변경, 예를 들어, 유방 또는 결장 종양 샘플 내 PTEN 이대립유전자 비활성화를 포함한다. 또 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 VHL의 변경, 예를 들어, 신장 종양 샘플 내 VHL 이대립유전자 비활성화를 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 ATR의 변경, 예를 들어, 유방 종양 샘플 내 ATR 이대립유전자 비활성화를 포함한다. 다른 실시형태에서, 서브게놈 간격은 종양 샘플 내 MYC의 변경, 예를 들어, 유방 종양 샘플 내 MYC 이대립유전자 비활성화를 포함한다.
서브게놈 간격의 이들 및 다른 세트 및 그룹은 본 명세서의 다른 곳에서, 예를 들어 "유전자 선택 모듈"이라는 제목의 부문에서 더욱 상세하게 논의된다.
본 명세서에 기재된 임의의 방법은 이하의 실시형태 중 하나 이상과 조합될 수 있다.
다른 실시형태에서, 샘플은 종양 샘플이며, 예를 들어, 하나 이상의 전암성(premalignant) 또는 악성 세포를 포함한다. 특정 실시형태에서, 샘플, 예를 들어, 종양 샘플은 고형 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 실시형태에서, 샘플, 예를 들어, 종양 샘플은 수술절제면으로부터 조직 또는 세포를 포함한다. 샘플은 조직학적으로 정상인 조직일 수 있다. 다른 실시형태에서, 샘플, 예를 들어, 종양 샘플은 하나 이상의 혈중 종양 세포(circulating tumor cell: CTC)(예를 들어 혈액 샘플로부터 획득된 CTC)를 포함한다.
일 실시형태에서, 해당 방법은 샘플, 본 명세서에 기재된 바와 같은 종양 샘플을 획득하는 단계를 추가로 포함한다. 샘플은 직접적으로 또는 간접적으로 획득될 수 있다.
다른 실시형태에서, 해당 방법은 본 명세서에 기재된 방법을 사용하여 샘플, 예를 들어, 조직학적으로 정상인 샘플을, 예를 들어 수술절제면으로부터 평가하는 단계를 포함한다. 출원인은 조직학적으로 정상인 조직(예를 들어, 달리 조직학적으로 정상인 조직 절제면)으로부터 얻은 샘플이 본 명세서에 기재된 바와 같은 변경을 여전히 가질 수 있다는 것을 발견하였다. 해당 방법은 따라서 검출된 변경의 존재를 기반으로 조직 샘플을 재분류하는 단계를 추가로 포함할 수 있다.
다른 실시형태에서, 획득되거나 또는 분석된 판독의 적어도 10, 20, 30, 40, 50, 60, 70, 80 또는 90%는 본 명세서에 기재된 유전자, 예를 들어 표 1-1A의 유전자 또는 표 1의 우선순위 1 유전자로부터의 서브게놈 간격에 대한 것이다.
실시형태에서, 해당 방법에서 만들어진 돌연변이 세포의 적어도 10, 20, 30, 40, 50, 60, 70, 80 또는 90%는 본 명세서에 기재된 유전자, 예를 들어, 표 1-1A로부터의 유전자 또는 표 1로부터의 우선순위 1 유전자로부터의 서브게놈 간격에 대한 것이다.
실시형태에서, 해당 방법에 사용된 독특한 역치값의 적어도 10, 20, 30, 40, 50, 60, 70, 80 또는 90%는 본 명세서에 기재된 유전자, 예를 들어 표 1-1A의 유전자 또는 표 1의 우선순위 1 유전자로부터의 서브게놈 간격에 대한 것이다.
실시형태에서, 주석이 달리거나 또는 제3자에게 보고된 돌연변이 호출의 적어도 10, 20, 30, 40, 50, 60, 70, 80 또는 90%는 본 명세서에 기재된 유전자, 예를 들어, 표 1-1A의 유전자 또는 표 1의 우선순위 1 유전자로부터의 서브게놈 간격에 대한 것이다.
실시형태에서, 해당 방법은 종양 및/또는 대조군 핵산 샘플(예를 들어, FFPE-유래 핵산 샘플)로부터 얻은 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.
실시형태에서, 판독은 NGS 시퀀싱 방법에 의해 제공된다.
실시형태에서, 해당 방법은 핵산 구성원의 라이브러리를 제공하는 단계 및 상기 라이브러리의 다수의 구성원으로부터 사전선택된 서브게놈 간격을 시퀀싱하는 단계를 포함한다. 실시형태에서, 해당 방법은 시퀀싱을 위한 상기 라이브러리의 서브세트를 선택, 예를 들어 용액-기반 선택 또는 고체 지지체-(예를 들어, 어레이-) 기반 선택하는 단계를 포함할 수 있다.
실시형태에서, 해당 방법은 라이브러리를 다수의 베이트과 접촉시켜 핵산의 선택된 서브그룹, 예를 들어 라이브러리 캐치를 제공하는 단계를 포함한다. 일 실시형태에서, 접촉시키는 단계는 용액 혼성화에서 달성된다. 다른 실시형태에서, 접촉시키는 단계는 고체 지지체, 예를 들어 어레이에서 달성된다. 특정 실시형태에서, 해당 방법은 혼성화의 하나 이상의 추가 라운드에 의해 혼성화 단계를 반복하는 단계를 포함한다. 일부 실시형태에서, 해당 방법은 라이브러리 캐치에 베이트의 동일 또는 상이한 수집을 갖는 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 추가로 포함한다.
또 다른 실시형태에서, 해당 방법은 라이브러리 캐치를 분석하는 단계를 추가로 포함한다. 일 실시형태에서, 라이브러리 캐치는 시퀀싱 방법, 예를 들어 본 명세서에 기재된 바와 같은 차세대 시퀀싱 방법에 의해 분석된다. 해당 방법은 라이브러리 캐치를, 예를 들어 용액 혼성화에 의해 분리시키는 단계, 및 라이브러리 캐치에 핵산 시퀀싱을 실시하는 단계를 포함한다. 특정 실시형태에서, 라이브러리 캐치는 재시퀀싱될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 문헌[Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재된다.
실시형태에서, 뉴클레오타이드 위치에 대해 부여된 값은 선택적으로 설명 주석과 함께 제3자에게 전달된다.
실시형태에서, 뉴클레오타이드 위치에 부여된 값은 제3자에게 전달되지 않는다.
실시형태에서, 다수의 뉴클레오타이드 위치에 부여된 값은 선택적으로 설명 주석과 함께 제3자에게 전달되며, 제2 다수의 뉴클레오타이드 위치에 대해 부여된 값은 제3자에게 전달되지 않는다.
실시형태에서, 적어도 0.01, 0.02, 0.03, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 15 또는 30 메가베이스 염기, 예를 들어, 게놈 염기가 시퀀싱된다.
실시형태에서, 해당 방법은 적어도 하나의 SNP를 포함하는 복수의 판독을 평가하는 단계를 포함한다.
실시형태에서, 해당 방법은 샘플 및/또는 대조군 판독에서 SNP 대립유전자 비를 결정하는 단계를 포함한다.
실시형태에서, 해당 방법은, 예를 들어 바코드 데콘볼루션(deconvolution)에 의해 피험체에 하나 이상의 판독을 부여하는 단계를 포함한다.
실시형태에서, 해당 방법은, 예를 들어 바코드 데콘볼루션에 의해 종양 또는 대조군 판독으로서 하나 이상의 판독을 부여하는 단계를 포함한다.
실시형태에서, 해당 방법은, 예를 들어 각각의 상기 하나 이상의 판독인 기준 서열에 의한 정렬에 의해 맵핑 단계를 포함한다.
실시형태에서, 해당 방법은 호출 돌연변이를 제출하는(memorialize) 단계를 포함한다.
실시형태에서, 해당 방법은 호출 돌연변이에 주석을 다는 단계, 예를 들어 돌연변이 구조, 예를 들어 미스-센스 돌연변이 또는 기능, 예를 들어 질병 표현형의 표시가 있는 호출 돌연변이에 주석을 다는 단계를 포함한다.
실시형태에서, 해당 방법은 종양 및 대조군 핵산에 대해 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.
실시형태에서, 해당 방법은 각각의 X 서브게놈 간격에 대해, 예를 들어 베이지안 호출 방법 또는 비-베이지안 호출 방법에 의해 뉴클레오타이드 값, 예를 들어, 변이체, 예를 들어, 돌연변이를 호출하는 단계를 포함한다.
실시형태에서, 예를 들어, 상이한 피험체로부터의 다중 샘플은 동시에 처리된다.
본 명세서에 개시된 방법은 피험체의 게놈 또는 전사체에 존재하는 변경을 검출하기 위해 사용될 수 있고, DNA 및 RNA 시퀀싱, 예를 들어 표적화된 RNA 및/또는 DNA 시퀀싱이 적용될 수 있다. 따라서, 본 발명에서 특징으로 하는 다른 양태는 본 명세서에 기재된 변경을 검출하기 위하여 표적화된 RNA 시퀀싱, 예를 들어, 샘플, 예를 들어 FFPE-샘플로부터 획득한 RNA로부터 유래된 cDNA의 시퀀싱을 위한 방법을 포함한다. 변경은 재배열, 예를 들어 유전자 융합을 암호화하는 재배열일 수 있다. 다른 실시형태에서, 해당 방법은 유전자 또는 유전자 생성물의 수준의 변화(예를 들어, 증가 또는 감소), 예를 들어 본 명세서에 기재된 유전자 또는 유전자 생성물의 발현의 변화의 검출을 포함한다. 해당 방법은, 선택적으로 표적 RNA에 대해 샘플을 풍부화하는 단계를 포함할 수 있다. 다른 실시형태에서, 해당 방법은 특정의 고존재비 RNA, 예를 들어 리보솜 또는 글로빈 RNA의 샘플을 결실시키는 단계를 포함한다. RNA 시퀀싱 방법은 단독으로 또는 본 명세서에 기재된 DNA 시퀀싱 방법과 조합되어 사용될 수 있다. 일 실시형태에서, 해당 방법은 DNA 시퀀싱 단계 및 RNA 시퀀싱 단계를 수행하는 단계를 포함한다. 해당 방법은 임의의 순서로 수행될 수 있다. 예를 들어, 해당 방법은 본 명세서에 기재된 변경의 발현을 RNA 시퀀싱 시킴으로써 확인하는 단계, 예를 들어 본 발명의 DNA 시퀀싱에 의해 검출된 돌연변이 또는 융합의 발현을 확인하는 단계를 포함할 수 있다. 다른 실시형태에서, 해당 방법은 RNA 시퀀싱 단계 다음에 DNA 시퀀싱 단계를 수행하는 단계를 포함한다.
다른 양태에서, 본 발명은 표적화된 서브게놈 영역에 대한 시퀀싱/정렬 인공물(artifact)의 데이터베이스를 구축하는 단계를 포함하는 방법을 특징으로 한다. 실시형태에서, 데이터베이스는 비논리적(spurious) 돌연변이 호출을 걸러 내고, 특이성을 개선시키기 위해 사용될 수 있다. 실시형태에서, 데이터베이스는 관련없는 비-종양(예를 들어, FFPE) 샘플 또는 세포주를 시퀀싱하고, 하나 이상의 이들 정상 샘플에서 무작위 시퀀싱 오류 단독에 기인하는 것으로 예상된 것보다 더 빈번하게 나타나는 비-기준 대립유전자 사건을 기록함으로써 구축된다. 이 접근은 인공물로서 생식계열 변화를 분류할 수 있지만, 체세포 돌연변이에 관한 방법에서 허용가능하다. 인공물로서 생식계열 변화의 이러한 미스-분류는 원한다면 알려진 생식계열 변화에 대해(보통의 변이체를 제거) 그리고 단지 1개의 개체에서 나타나는 인공물에 대해(더 드문 변화를 제거) 이 데이터베이스를 필터링함으로써 개선시킬 수 있다.
본 명세서에 개시된 방법은, 예를 들어 게놈의 암 관련 세그먼트에 적용된 바와 같은 최적화된 베이트-기반 선택, 최적화된 정렬 및 최적화된 돌연변이 호출을 포함하는 다수의 최적화된 구성요소를 통합시킨다. 본 명세서에 기재된 방법은 암별, 유전자별 및 부위별 기준으로 최적화될 수 있는 종양의 NGS-기반 분석을 제공한다. 이는 본 명세서에 기재된 유전자/부위 및 종양 유형에 적용될 수 있다. 해당 방법은 주어진 시퀀싱 기법에 의한 돌연변이 검출을 위해 민감성 및 특이성의 수준을 최적화한다. 암별, 유전자별, 및 부위별 최적화는 임상적 생성물에 대해 필수적인 매우 고수준의 민감성/특이성(예를 들어, 둘 다에 대해 99% 초과)을 제공한다.
본 명세서에 기재된 방법은 일상적인, 현실의 샘플로부터 차세대 시퀀싱 기법을 사용하여 진짜같이 실행할 수 있는 유전자(전형적으로 50 내지 500개의 유전자의 범위에 있을 수 있음)의 포괄적인 세트에 대한 게놈 일탈의 임상적 및 조절 등급의 종합적인 분석 및 해석을 제공하여 최적의 치료 및 질병 관리 결정을 알린다.
본 명세서에 기재된 방법은 종양학자/병리학자가 종양 샘플을 보내고, 해당 종양에 대한 게놈 및 다른 분자 변화의 종합적인 분석 및 설명을 수용하기 위한 원스톱 쇼핑을 제공하여 최적의 치료 및 질병 관리 결정을 알린다.
본 명세서에 기재된 방법은 표준 입수가능한 종양 샘플을 취하는 강한, 현실의 임상적 종양 진단 도구를 제공하며, 종합적인 게놈 및 다른 분자적 일탈 분석을 제공하여 어떤 일탈이 종양을 구동할 수 있고, 종양학자의 치료 결정을 알리는데 유용할 수 있는지의 종합적인 설명을 종양학자에게 제공한다.
본 명세서에 기재된 방법은 임상적 등급의 품질을 지니는 환자의 암 게놈의 종합적인 분석을 제공한다. 방법은 가장 적절한 유전자 및 잠재적인 변경을 포함하며, 돌연변이, 복제수, 재배열, 예를 들어 전위, 발현 및 후생적(epigenetic) 마커의 분석 중 하나 이상을 포함한다. 유전자 분석의 출력은 실행가능한 결과의 기술적 보고와 함께 관련지어질 수 있다. 방법은 해당 용도와 적절한 과학적 및 의학적 기술의 시기 세트를 연결한다.
본 명세서에 기재된 방법은 품질과 치료 효율을 둘 다 증가시키는 단계를 제공한다. 이는 종양이 표준 치료가 없거나 또는 환자가 확립된 계통의 치료 또는 추가적인 치료를 위한 합리적 기준에 대해 힘들어하거나 또는 임상적 시험 참가가 유용할 수 있는 드문 또는 불량하게 연구된 유형인 경우의 적용을 포함한다. 예를 들어, 방법은 임의의 치료 시점에서, 종양학자가 완전한 "분자 이미지" 및/또는 "분자 미진단(sub-diagnosis)"으로 결정을 알리는데 이용할 수 있는 경우 선택을 허용한다.
본 명세서에 기재된 방법은 기록, 예를 들어 전자적, 웹기반 또는 종이 형태로 환자 또는 다른 개인 또는 독립체, 예를 들어, 간병인, 예를 들어, 의사, 예를 들어, 종양학자, 병원, 클리닉, 제3자 지불인, 보험 회사 또는 관공서에 보호를 제공하는 단계를 포함할 수 있다. 기록은 방법으로부터의 출력값, 예를 들어 뉴클레오타이드 값의 확인, 예를 들어 샘플 유형의 종양과 관련된 서브게놈 간격에 대해 변경, 돌연변이 또는 야생형 서열의 존재 또는 부재의 표시를 포함할 수 있다. 보고서는 또한 질병에서 서열 역할 상의 정보, 예를 들어 변경, 돌연변이 또는 야생형 서열을 포함할 수 있다. 이러한 정보는 진단, 내성 또는 잠재력 또는 제안된 치료적 선택사항에 대한 정보를 포함할 수 있다. 보고는 치료적 선택사항의 가능성 있는 유효성, 치료적 선택사항의 허용가능성 또는 환자, 예를 들어 시험에서 확인된 서열, 변경 또는 돌연변이를 갖는 환자에 치료적 선택사항을 적용하는 것의 타당함에 대한 정보를 포함할 수 있고, 실시형태에서, 보고에서 확인된다. 예를 들어, 해당 보고는 환자에게, 예를 들어 다른 약물과 조합된 약물의 투여, 예를 들어 사전선택된 투약량으로 또는 사전선택된 치료 섭생으로 투여에 대한 정보 또는 추천을 포함할 수 있다. 실시형태에서, 해당 방법에서 확인된 모든 돌연변이가 보고에서 확인되는 것은 아니다. 예를 들어, 보고는 치료에 대한, 예를 들어 사전선택된 치료적 선택사항을 갖는 암의 발생, 예후, 단계 또는 감수성과 관련된 사전선택된 수준을 갖는 유전자에서 돌연변이로 제한될 수 있다. 본 명세서에서 특징으로 하는 방법은 해당 방법을 실행하는 독립체에 의해 샘플의 수용으로부터 제7일, 제14일 또는 제21일 이내에, 예를 들어 본 명세서에 기재된 독립체에 보고를 전달하기 위해 한다.
따라서, 본 발명에서 특징으로 하는 방법은, 예를 들어 샘플 수용으로부터 제7일, 제14일 또는 제21일 이내에 빠른 턴어라운드 시간을 허용한다.
본 명세서에 기재된 방법은 또한 조직학적으로 정상인 샘플, 예를 들어 수술절제면으로부터의 샘플을 평가하기 위해 사용될 수 있다. 본 명세서에 기재된 바와 같은 하나 이상의 변경이 검출된다면, 조직은, 예를 들어 악성 또는 전암성으로서 재분류될 수 있고/있거나 치료과정은 변할 수 있다.
특정 양태에서, 본 명세서에 기재된 시퀀싱 방법은 비-암 적용, 예를 들어 범죄과학 적용(예를 들어, 치과 기록의 사용에 대한 대안으로서 또는 추가로 확인), 친자 확인 검사, 및 질병 진단 및 예후, 예를 들어 낭포성 섬유증, 헌팅턴병, 알츠하이머병에서 유용하다. 예를 들어, 본 명세서에 기재된 방법에 의한 유전적 변경의 확인은 특정 장애가 발생하는 것에 대해 개체의 존재 또는 위험을 표시할 수 있다.
달리 정의되지 않는다면, 본 명세서에 사용된 모든 기술적 및 과학적 용어는 당업자에게 보통 이해되는 것과 동일한 의미를 가진다. 본 명세서에 기재된 것과 유사하거나 또는 동일한 방법 및 물질이 본 발명의 실행 또는 시험에서 사용될 수 있지만, 적합한 방법 및 물질은 이하에 기재된다. 본 명세서에 언급된 모든 간행물, 특허 출원, 특허 및 다른 참고문헌은 그것의 전문이 참조로서 포함된다. 추가로, 물질, 방법 및 실시예는 단지 예시적이며, 제한하는 것으로 의도되지 않는다.
본 발명의 다른 특징 및 이점은 상세한 설명, 도면 및 특허청구범위로부터 명백하게 될 것이다.
도면을 우선 기재한다.
도 1A 내지 F는 종양 샘플의 다유전자 분석을 위한 방법의 실시형태의 순서도를 도시한 도면.
도 2는 돌연변이 검출에 대한 사전 예상치 및 판독 심도의 영향을 도시한 도면.
도 3은 100개 이상의 임상적 암 샘플에서 돌연변이 빈도를 도시한 도면.
도 4는 덮임률 히스토그램의 선형 표현을 도시한 도면. 표적의 수(y-축)는 덮임률의 함수로서 도시된다(x-축). 라인 #1은 바이오틴화되고, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트가 스파이킹된 어레이-유래된 RNA 올리고뉴클레오타이드 베이트를 포함하는 베이트 세트를 사용하는 덮임률을 나타낸다(본 명세서에서 "베이트 세트 #1"로서 지칭됨). 라인 #2는 바이오틴화된, 어레이-유래된 RNA 올리고뉴클레오타이드 베이트만을 포함하는 베이트 세트를 사용하여 얻은 덮임률을 나타낸다(본 명세서에서 "베이트 세트 #2"로서 지칭됨). 베이트 세트 #2를 사용하는 전반적인 평균 덮임률은 924인 반면, 베이트 세트 #2를 사용하는 고 GC 함량(약 68%)의 영역에서 덮임률은 73이었다. 대조적으로, 베이트 세트 #1이 사용될 때, 전반적인 덮임률은 약 918이었지만, 덮임률은 고 GC 함량의 영역에서 183으로 개선되었다.
도 5는 첨가한 바이오틴화된, 어레이-유래된 RNA 올리고뉴클레오타이드 베이트 만을 포함하는 베이트 세트("베이트 세트 #3)와 비교하여, 바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트(베이트 세트 #1)만으로 이루어진 베이트 세트 및 바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트가 스파이킹된 바이오틴화된, 어레이-유래된 RNA 올리고뉴클레오타이드를 포함하는 베이트 세트("베이트 세트 #2")로 검출된 덮임률에서 균일성을 비교하는 덮임률 히스토그램을 도시한 도면. 베이트 세트는 도 5의 #1, 2 및 3으로서 나타낸다. 덮임률에서 몇몇 갭은 베이트 세트 #3을 사용하여 검출되었지만, 도 5에 도시한 바와 같은 베이트 세트 #1 내지 2를 사용하여 검출되지 않는다.
유전자 및 유전자 생성물의 선택된 군을 평가함으로써 하나 이상의 피험체로부터 샘플, 예를 들어 종양 샘플로부터의 매우 다수의 유전자 및 유전자 생성물을 시퀀싱하기 위한 최적화된 방법 및 분석이 개시된다. 일 실시형태에서, 본 발명에서 특징으로 하는 방법 및 분석은 멀티플렉스 분석 포맷, 예를 들어, 매우 다수의 유전자에서 매우 다수의 다양한 유전적 사건으로부터의 다양한 신호를 포함하는 분석에서 사용된다. 암성 표현형(cancerous phenotype)(예를 들어 암 위험, 암 진행, 암 치료 또는 치료에 대한 내성 중 하나 이상)과 관련된 유전자 또는 유전자 생성물의 선택 그룹에 적어도 부분적으로 기반한 방법 및 분석이 본 명세서에 개시된다. 이러한 사전선택된 유전자 또는 유전자 생성물은 시퀀싱 방법, 특히 예를 들어 종양 또는 대조군 샘플로부터의 매우 다수의 다양한 유전자의 대량병렬 시퀀싱에 의존하는 방법의 적용을 가능하게 한다.
특정 용어를 우선 정의한다. 추가적인 용어는 본 명세서를 통해 정의한다.
본 명세서에서 사용되는 단수의 용어는 용어의 문법적 대상 중 하나 이상(예를 들어, 적어도 하나)을 지칭한다.
"약" 및 "대략"은 일반적으로 측정의 특성 및 정밀성에 대해 주어진다면, 측정된 양에 대해 허용가능한 정도의 오류를 의미할 것이다. 대표적인 오류의 정도는 주어진 값 또는 값 범위의 20% 이내, 전형적으로 10% 이내, 및 더 전형적으로는 5% 이내이다.
용어로서 "획득하다" 또는 "획득하는"이 본 명세서에서 사용되며, 물리적 독립체 또는 값을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 물리적 독립체 또는 값, 예를 들어 수치적 값의 소유를 얻는 것을 지칭한다. "간접적으로 획득하는"은 물리적 독립체 또는 값을 얻기 위한 처리를 수행하는 것(예를 들어, 합성 또는 분석 방법을 수행하는 것)을 의미한다. "간접적으로 획득하는 것"은 다른 관계자 또는 공급원(예를 들어 물리적 독립체 또는 값을 직접적으로 획득한 제3자 연구소)으로부터 물리적 독립체 또는 값을 수용하는 것을 지칭한다. 물리적 독립체를 간접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질에서 물리적 변화를 포함하는 처리를 수행하는 것을 포함한다. 대표적인 변화는 2 이상의 출발 물질로부터 물리적 독립체를 만드는 것, 물질을 전단(shearing) 또는 단편화하는 것, 물질을 분리시키거나 정제하는 것, 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 값을 간접적으로 획득하는 것은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 처리를 수행하는 것, 예를 들어 물질, 예를 들어 샘플, 분석물 또는 시약에서 물리적 변화를 포함하는 분석 과정을 수행하는 것(때때로, 본 명세서에서 "물리적 분석"으로서 지칭됨), 분석 방법, 예를 들어 다음 중 하나 이상을 포함하는 방법을 수행하는 것: 물질, 예를 들어 분석물 또는 이것의 단편 또는 다른 유도체를 다른 물질로부터 분리시키거나 또는 정제하는 것; 분석물 또는 이것의 단편 또는 다른 유도체를 다른 물질, 예를 들어 완충제, 용매 또는 반응물과 합하는 것; 또는, 예를 들어 분석물의 제1 원자와 제2 원자 사이의 공유 또는 비공유 결합을 파괴하거나 또는 형성함으로써 분석물 또는 이것의 단편 또는 다른 유도체의 구조를 변화시키는 것; 또는, 예를 들어 시약의 제1과 제2 원자 사이의 공유 또는 비공유 결합을 파괴하거나 형성함으로써 시약 또는 이것의 단편 또는 다른 유도체의 구조를 변화시키는 것을 포함한다.
용어로서 "서열을 획득하는 것" 또는 "판독을 획득하는 것"은 본 명세서에서 사용되며, 서열 또는 판독을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 뉴클레오타이드 서열 또는 아미노산 서열의 소유를 얻는 것을 지칭한다. 서열 또는 판독을 "직접적으로 획득하는 것"은 시퀀싱 방법(예를 들어, 차세대 시퀀싱(NGS) 방법)을 수행하는 것과 같이 서열을 얻기 위한 과정을 수행하는 것(예를 들어, 합성 또는 분석 방법을 수행하는 것)을 의미한다. 서열 또는 판독을 "간접적으로 획득하는"은 다른 관계자 또는 공급원(예를 들어 서열을 직접적으로 획득한 제3자 연구소)으로부터 서열을 수용하거나 또는 서열의 정보 또는 지식을 수용하는 것을 지칭한다. 획득한 서열 또는 판독은 완전한 서열일 필요는 없으며, 예를 들어 적어도 하나의 뉴클레오타이드의 시퀀싱 또는 피험체에서 존재하는 것과 같은 본 명세서에 개시된 변경 중 하나 이상을 확인하는 정보 또는 지식을 얻는 것은 서열을 획득하는 것을 구성한다.
서열 또는 판독을 직접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질, 예컨대 조직 또는 세포 샘플, 예를 들어 생검 또는 분리된 핵산(예를 들어 DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다. 대표적인 변화는 2 이상의 출발 물질, 물질을 전단 또는 단편화하는 것, 예컨대 게놈 DNA 단편으로부터 물리적 독립체를 제조하는 것(예를 들어, 조직으로부터 핵산 샘플을 분리시키는 것); 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 값을 직접적으로 획득하는 것은 상기 기재한 바와 같은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.
용어로서 "샘플을 획득하는 것"은 본 명세서에서 사용되며, 샘플을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 샘플, 예를 들어 조직 샘플 또는 핵산 샘플의 소유를 얻는 것을 지칭한다. "샘플을 직접적으로 획득하는 것"은 샘플을 얻기 위한 과정을 수행하는 것(예를 들어, 수술 또는 추출과 같은 물리적 방법을 수행하는 것)을 의미한다. "샘플을 간접적으로 획득하는 것"은 다른 관계자 또는 공급원(예를 들어 샘플을 직접적으로 획득한 제3자 연구소)으로부터 샘플을 수용하는 것을 지칭한다. 샘플을 직접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질, 예컨대 조직, 예를 들어 인간 환자의 조직 또는 환자로부터 사전에 분리한 조직에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다. 대표적인 변화는 출발 물질로부터 물리적 독립체를 제조하는 것, 조직을 해부하거나 또는 스크레이핑(scraping)하는 것; 물질(예를 들어, 샘플 조직 또는 핵산 샘플)을 분리시키거나 또는 정제하는 것; 2 이상의 별개의 독립체를 혼합물로 합하는 것; 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 샘플을 직접적으로 획득하는 것은, 예를 들어 상기 기재한 바와 같은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.
본 명세서에서 사용되는 "정렬 선택기"는 사전선택된 서브게놈 간격의 시퀀싱을 최적화할 수 있는 정렬 방법을 선택하기 위해 하거나 또는 지시하는 변수, 예를 들어 정렬 알고리즘 또는 변수를 지칭한다. 정렬 선택기는, 예를 들어 다음 중 하나 이상의 함수로서 특이적으로 될 수 있거나 또는 선택될 수 있다:
1. 서열 콘텍스트(context), 예를 들어 서브게놈 간격에 대한 판독의 정렬불량에 대한 경향과 관련된 서브게놈 간격(예를 들어 평가되는 사전선택된 뉴클레오타이드 위치)의 서열 콘텍스트. 예를 들어, 게놈의 다른 곳에서 반복되는 평가되는 서브게놈 간격 내 또는 근처의 서열 구성요소의 존재는 정렬불량을 야기할 수 있고, 이에 의해 성능을 감소시킬 수 있다. 정렬불량을 최소화하는 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 이 경우에, 정렬 선택기에 대한 값은 서열 콘텍스트, 예를 들어 게놈 내 (또는 분석되는 게놈의 일부에서) 적어도 사전선택된 횟수를 반복한 사전선택된 길이의 서열의 존재 또는 부재의 함수일 수 있다.
2. 분석되는 종양 유형. 예를 들어, 구체적 종양 유형은 증가된 결실 속도를 특징으로 할 수 있다. 따라서, 수행은 삽입-결실에 더 민감한 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 이 경우에, 정렬 선택기에 대한 값은 종양 유형, 예를 들어 종양 유형에 대한 식별자의 함수 일 수 있다. 실시형태에서, 해당 값은 종양 유형, 예를 들어 유방암의 동일성이다.
3. 분석되는 유전자 또는 유전자의 유형, 예를 들어 유전자 또는 유전자의 유형이 분석될 수 있다. 예로서, 종양유전자는 종종 치환 또는 프레임 내 삽입-결실을 특징으로 한다. 따라서, 성능은 이들 변이체에 특히 민감하며, 다른 것에 대해 특이적인 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 종양 억제 유전자는 종종 프레임-이동 삽입-결실을 특징으로 한다. 따라서, 성능은 이들 변이체에 특히 민감한 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 따라서, 성능은 서브게놈 간격과 매칭된 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 이 경우에, 정렬 선택기에 대한 값은 유전자 또는 유전자 유형, 예를 들어 유전자 또는 유전자 유형에 대한 식별자의 함수일 수 있다. 실시형태에서, 값은 유전자의 동일성이다.
4. 분석되는 부위(예를 들어, 뉴클레오타이드 위치). 이 경우에, 정렬 선택기에 대한 값은 부위 또는 부위 유형, 예를 들어 부위 또는 부위 유형에 대한 식별자의 함수일 수 있다. 실시형태에서, 값은 부위의 동일성이다. (예를 들어, 부위를 함유하는 유전자가 다른 유전자와 고도로 상동성이라면, 정상/속성의 짧은 판독 정렬 알고리즘(예를 들어, BWA)은 두 유전자 간의 구별에 어려움이 있을 수 있고, 잠재적으로는 더 강한 정렬 방법(스미스-워터만(Smith-Waterman)) 또는 심지어 어셈블리(ARACHNE)를 필요하게 만들 수 있다. 유사하게, 유전자 서열이 낮은-복잡도 영역(예를 들어, AAAAAA)을 함유한다면, 더 강한 정렬 방법이 필요할 수 있다.
5. 평가되는 서브게놈 간격과 관련된 변이체 또는 변이체 유형. 예를 들어, 치환, 삽입, 결실, 전위 또는 다른 재정렬. 따라서, 성능은 구체적 변이체 유형에 더 민감한 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 이 경우에, 정렬 선택기는 변이체 유형, 예를 들어 변이체 유형에 대한 식별자의 함수일 수 있다. 실시형태에서, 값은 변이체의 유형, 예를 들어 치환의 동일성이다.
6. 샘플, FFPE 또는 다른 고정된 샘플의 유형. 샘플 유형/품질은 오류(비기준 서열의 비논리적 관찰) 비율에 영향을 미칠 수 있다. 따라서, 성능은 샘플 내 진오차율(true error rate)을 정확하게 모델할하는 알고리즘 또는 알고리즘 변수를 선택함으로써 향상될 수 있다. 이 경우에, 정렬 선택기에 대한 값은 샘플 유형, 예를 들어 샘플 유형에 대한 식별자의 함수일 수 있다. 실시형태에서, 값은 샘플 유형, 예를 들어 고정된 샘플의 동일성이다.
유전자 또는 유전자 생성물(예를 들어, 마커 유전자 또는 유전자 생성물)의 본 명세서에서 사용된 바와 같은 "변경" 또는 "변경된 구조"는 유전자 또는 유전자 생성물 내의 돌연변이 또는 돌연변이들, 예를 들어 정상 또는 야생형 유전자와 비교하여 유전자 또는 유전자 생성물의 양 또는 활성에 영향을 미치는 돌연변이의 존재를 지칭한다. 변경은 정상 또는 건강한 조직 또는 세포(예를 들어, 대조군)에서 세포의 양, 구조 및/또는 활성과 비교하여, 암 조직 또는 암 세포에서 양, 구조 및/또는 활성일 수 있고, 암과 같은 질병 상태와 관련된다. 예를 들어, 암과 관련된 변경 또는 항암 치료에 대한 반응의 예측은 정상의, 건강한 조직 또는 세포와 비교하여 암 조직 또는 암 세포에서 변경된 뉴클레오타이드 서열(예를 들어, 돌연변이), 아미노산 서열, 염색체 전위, 염색체내 역위, 복제수, 발현 수준, 단백질 수준, 단백질 활성, 메틸화 상태를 가질 수 있다. 대표적인 돌연변이는, 이하로 제한되는 것은 아니지만, 점돌연변이(예를 들어, 침묵, 미스센스 또는 넌센스), 결실, 삽입, 역위, 연결 돌연변이, 복제물, 저위, 염색체간 및 염색체내 재정렬을 포함한다. 돌연변이는 유전자의 암호 또는 비-암호 영역에 존재할 수 있다. 특정 실시형태에서, 변경(들)은 재배열, 예를 들어 하나 이상의 인트론 또는 이것의 단편을 포함하는 게놈 재배열로서 검출된다(예를 들어, 5'- 및/또는 3'-UTR에서 하나 이상의 재정렬). 특정 실시형태에서, 변경은 표현형, 예를 들어 암 표현형(예를 들어, 암 표현형(예를 들어, 암 위험, 암 진행, 암 치료 또는 암 치료에 대한 내성 중 하나 이상)과 관련된다. 일 실시형태에서, 변경은 다음 중 하나 이상과 관련된다: 암에 대한 유전적 위험, 양성 치료 반응, 음성 치료 반응 예측자, 양성 예후 인자, 음성 예후 인자 또는 진단 인자.
본 명세서에서 사용되는 "베이트"는 혼성체 포획 시약의 유형이다. 베이트는 혼성화될 수 있는(예를 들어 상보적일 수 있는) 핵산 분자, 예를 들어 DNA 또는 RNA 분자일 수 있고, 이에 의해 표적 핵산을 포획하게 한다. 일 실시형태에서, 베이트는 RNA 분자(예를 들어, 자연적으로 발생하거나 또는 변형된 RNA 분자); DNA 분자(예를 들어, 자연적으로 발생하거나 또는 변형된 DNA 분자) 또는 이것의 조합이다. 다른 실시형태에서, 베이트는 결합 독립체, 예를 들어 친화도 태그를 포함하는데, 이는 베이트에 의해 형성된 혼성체 및 베이트에 혼성화된 핵산의, 예를 들어 결합 독립체에 결합에 의해 포획 및 분리시킨다. 일 실시형태에서, 베이트는 용액 상 혼성화에 적합하다.
본 명세서에서 사용되는 "베이트 세트"는 하나 또는 다수의 베이트 분자를 지칭한다.
"결합 독립체"는 분자 태그에 직접적으로 또는 간접적으로 부착될 수 있는 임의의 분자를 의미하며, 이는 분석물에 특이적으로 결합될 수 있다. 결합 독립체는 각 베이트 서열 상의 친화도 태그일 수 있다. 특정 실시형태에서, 결합 독립체는 햅텐 또는 이것의 항원-결합 단편에 결합되는 상대, 예컨대 아비딘 분자 또는 항체에 대한 결합에 의해 혼성화 혼합물로부터 베이트/구성원 혼성체를 분리시킨다. 대표적인 결합 독립체는, 이하로 제한되는 것은 아니지만, 바이오틴 분자, 햅텐, 항체, 항체 결합 단편, 펩타이드 및 단백질을 포함한다.
"상보성"은 두 핵산 가닥의 영역 사이 또는 동일 핵산 가닥의 두 영역 사이의 서열 상보성을 지칭한다. 제1 핵산 영역의 아데닌 잔기는 잔기가 티미딘 또는 유라실이라면, 제1 영역에 역평행인 제2 핵산 영역의 잔기에 의한 특이적 수소 결합("염기쌍")을 형성할 수 있다는 것이 알려져 있다. 유사하게, 잔기가 구아닌이라면, 제1 핵산 가닥의 사이토신 잔기가 제1 가닥에 역평행한 제2 핵산 가닥의 잔기와 염기쌍을 이룰 수 있다는 것이 알려져 있다. 두 영역이 역평행 방식으로 배열될 때, 제1 영역의 적어도 하나의 뉴클레오타이드 잔기가 제2 영역의 잔기와 염기쌍을 이룰 수 있다면, 핵산의 제1 영역은 동일 또는 상이한 핵산의 제2 영역에 상보적이다. 특정 실시형태에서, 제1 영역은 제1 부분을 포함하며, 제2 영역은 제2 부분을 포함하고, 이에 의해 제1 및 제2 부분은 역평행 방식으로 배열될 때, 제1 부분의 뉴클레오타이드 잔기의 적어도 약 50%, 적어도 약 75%, 적어도 약 90% 또는 적어도 약 95%는 제2 부분 내 뉴클레오타이드 잔기와 염기쌍을 이룰 수 있다. 다른 실시형태에서, 제1 부분의 모든 뉴클레오타이드 잔기는 제2 부분에서 뉴클레오타이드 잔기와 염기쌍을 이룰 수 있다.
용어 "암" 또는 "종양"은 본 명세서에서 상호 호환적으로 사용된다. 이들 용어는 암-원인 세포의 전형적인 특징, 예컨대 제어되지 않는 증식, 불멸, 전이 가능성, 빠른 성장 및 증식 속도 및 어떤 특징적 형태학적 특징을 소유하는 세포의 존재를 지칭한다. 암 세포는 종종 종양 형태이지만, 이러한 세포는 동물 내에서 단독으로 존재할 수 있거나 또는 비-종양 암 세포, 예컨대 백혈병 세포일 수 있다. 이들 용어는 고형 종양, 연조직 종양 또는 전이성 병변을 포함한다. 본 명세서에서 사용되는 용어 "암"은 전암성뿐만 아니라 악성 암을 포함한다.
본 명세서에서 사용되는 "가능성이 있는" 또는 "증가된 가능성"은 항목, 대상, 물건 또는 사람에게 생길 수 있는 증가된 가능성을 지칭한다. 따라서, 일 실시예에서, 치료에 대해 반응할 가능성이 있는 피험체는 기준 피험체 또는 피험체의 그룹에 대해 치료에 반응하는 증가된 가능성을 가진다.
"가능성 없는"은 사건, 항목, 대상, 물건 또는 사람에게 기준에 대해 생길 수 있는 감소된 가능성을 지칭한다. 따라서, 치료에 반응할 가능성이 없는 피험체는 기준 피험체 또는 피험체 그룹에 대한 치료에 반응하는 감소된 가능성을 가진다.
"대조군 구성원"은 비-종양 세포로부터의 서열을 갖는 구성원을 지칭한다.
본 명세서에서 사용되는 "삽입-결실 정렬 서열 선택기"는 사전선택된 삽입-결실의 경우에 판독에 대한 서열의 선택이 배열되도록 하거나 또는 지시하는 변수를 지칭한다. 이러한 서열의 사용은 삽입-결실을 포함하는 사전선택된 서브게놈 간격의 시퀀싱을 최적화할 수 있다. 삽입-결실 정렬 서열 선택기에 대한 값은 사전선택된 삽입-결실, 예를 들어 삽입-결실에 대한 식별자의 함수이다. 실시형태에서, 값은 삽입-결실의 동일성이다.
본 명세서에서 사용되는 용어 "라이브러리"는 구성원의 수집물을 지칭한다. 일 실시형태에서, 라이브러리는 핵산 구성원의 수집물 예를 들어, 전체 게놈, 서브게놈 단편, cDNA, cDNA 단편, RNA, RNA 단편 또는 이들의 조합의 수집물을 포함한다. 일 실시형태에서, 라이브러리 구성원의 일부 또는 모두는 어댑터 서열을 포함한다. 어댑터 서열은 한 말단 또는 양 말단에 위치될 수 있다. 어댑터 서열은, 예를 들어 시퀀싱 방법을 위해(예를 들어 NGS 방법), 증폭을 위해, 역전사를 위해 또는 벡터 내로 클로닝을 위해 유용할 수 있다.
라이브러리는 구성원, 예를 들어 표적 구성원(예를 들어, 종양 구성원, 기준 구성원, PGx 구성원 또는 이들의 조합)의 수집물을 포함할 수 있다. 라이브러리의 구성원은 단일 개체로부터 유래될 수 있다. 실시형태에서, 라이브러리는 하나 이상의 피험체(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체)로부터 유래된 구성원을 포함할 수 있고, 예를 들어, 상이한 피험체로부터 둘 이상의 라이브러리는 조합되어 하나 이상의 피험체로부터 유래된 구성원을 갖는 라이브러리를 형성할 수 있다. 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 암 또는 종양을 가질 위험에 있는 인간이다.
"라이브러리-캐치"는 라이브러리의 서브세트, 예를 들어 사전선택된 서브게놈 간격에 대해 풍부화된 서브세트, 예를 들어 사전선택된 베이트과 혼성화에 의해 포획된 생성물을 지칭한다.
본 명세서에서 사용되는 바와 같은 "구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는 라이브러리의 구성원인 핵산 분자, 예를 들어 DNA, RNA 또는 이들의 조합을 지칭한다. 전형적으로, 구성원은 DNA 분자, 예를 들어, 게놈 DNA 또는 cDNA이다. 구성원은 단편화된, 예를 들어 전단 또는 효소적으로 제조된, 게놈 DNA일 수 있다. 구성원은 피험체로부터 유래된 서열을 포함하며, 또한 피험체로부터 유래되지 않은 서열, 예를 들어 어댑터 서열, 프라이머 서열 또는 식별을 위해 허용되는 다른 서열, 예를 들어 "바코드" 서열을 포함할 수 있다.
본 명세서에서 사용되는 "차세대 시퀀싱 또는 NGS 또는 NG 시퀀싱"은 개개의 핵산 분자(예를 들어 단일 분자 시퀀싱에서) 또는 고속 대량 방식으로(예를 들어, 103, 104, 105 이상의 분자가 동시에 시퀀싱됨) 개개의 핵산 분자에 대해 클론으로 확장된 프록시(proxy) 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 지칭한다. 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 발생의 상대적인 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있으며, 예를 들어 본 명세서에 참조로서 포함된 문헌[Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재된다. 차세대 시퀀싱은 샘플 내 핵산의 5% 미만으로 존재하는 변이체를 검출할 수 있다.
본 명세서에서 지칭되는 "뉴클레오타이드 값"은 사전선택된 뉴클레오타이드 위치 부여되거나 또는 점유된 뉴클레오타이드(들)의 동일성을 나타낸다. 전형적인 뉴클레오타이드 값은 다음을 포함한다: 상실(예를 들어, 결실됨); 추가적인(예를 들어, 하나 이상의 뉴클레오타이드의 삽입, 이것의 동일성은 포함되거나 또는 포함되지 않을 수 있음); 또는 존재(점유됨); A; T; C 또는 G. 다른 값은, 예를 들어 Y가 아닐 수 있되, Y는 A, T, G 또는 C이고; A 또는 X이되, X는 T, G 또는 C 중 1 또는 2이며; T 또는 X이되, X는 A, G 또는 C 중 1 또는 2이고; G 또는 X이되, X는 T, A 또는 C 중 1 또는 2이며; C 또는 X이되, X는 T, G 또는 A 중 1 또는 2이고; 피리미딘 뉴클레오타이드이거나; 또는 퓨린 뉴클레오타이드이다. 뉴클레오타이드 값은 뉴클레오타이드 위치에서 1 이상, 예를 들어 2, 3 또는 4개의 염기(또는 본 명세서에 기재된 다른 값, 예를 들어 상실 또는 추가)에 대한 빈도일 수 있다. 예를 들어, 뉴클레오타이드 값은 뉴클레오타이드 위치에서 A에 대한 빈도, G에 대한 빈도를 포함할 수 있다.
"또는"은 의미를 위해 본 명세서에서 사용되며, 달리 명확하게 표시되지 않는다면, "및/또는"이라는 용어와 상호 호환적으로 사용된다. 본 명세서의 일부 위치에서 용어 "및/또는"의 사용은 "또는"이라는 용어의 사용이 달리 명확하게 표시되지 않는다면 "및/또는"이라는 용어와 상호 호환될 수 없다는 것을 의미하지는 않는다.
"1차 대조군"은 종양 샘플 내 NAT 조직 이외의 비 종양 조직을 지칭한다. 혈액은 전형적인 1차 대조군이다.
본 명세서에서 사용되는 바와 같은 "재배열 정렬 서열 선택기"는 사전선택된 재정렬의 경우에 판독에 대한 서열의 선택이 정렬되도록 하거나 또는 지시하는 변수를 지칭한다. 이러한 서열의 사용은 재배열을 포함하는 사전선택된 서브게놈 간격의 시퀀싱을 최적화할 수 있다. 재배열 정렬 서열 선택기의 값은 사전선택된 재배열의 함수, 예를 들어 재배열에 대한 식별자이다. 실시형태에서, 값은 재배열의 동일성이다. "삽입-결실 정렬 서열 선택기"(또한 본 명세서의 다론 곳에서 정의됨) 는 재배열 정렬 서열 선택기의 예이다.
"샘플", "조직 샘플", "환자 샘플", "환자 세포 또는 조직 샘플" 또는 "표본"은 각각 피험체 또는 환자의 조직 또는 순환 세포로부터 얻은 유사한 세포의 수집을 지칭한다. 조직 샘플의 공급원은 신선한, 냉동 및/또는 보존된 기관, 조직 샘플, 생검 또는 흡입으로부터의 고형 조직; 혈액 또는 임의의 혈액 구성요소; 체액, 예컨대 뇌 척수액, 양수, 복막액 또는 세포간질액; 또는 피험체의 임신 또는 발생에서 어느 시점으로부터의 세포일 수 있다. 조직 샘플은 자연에서 조직과 자연적으로 상호혼합되지 않는 화합물, 예컨대 보존제, 항응고제, 완충제, 정착제, 영양제, 항생제 등을 함유할 수 있다. 일 실시형태에서, 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀-포매(paraformaldehyde-fixed paraffin-embedded: FFPE) 조직 제조물로서 제조된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플에서 포매될 수 있다.
일 실시형태에서, 샘플은 종양 샘플이며, 예를 들어, 하나 이상의 전암성 또는 악성 세포를 포함한다. 특정 실시형태에서, 샘플, 예를 들어 종양 샘플은 고형 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 수술절제면으로부터 조직 또는 세포를 포함한다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 하나 이상의 혈중 종양 세포(CTC)(예를 들어, 혈액 샘플로부터 획득한 CTC)를 포함한다.
본 명세서에서 사용되는 "민감성"은 서열의 이질적인 집단에서 사전선택된 서열 변이체를 검출하는 방법의 능력의 측정이다. 사전선택된 서열 변이체가 샘플 내 서열의 적어도 F%로서 존재하는 샘플이 주어질 때, 방법이 해당 시점에 C%, S%의 사전선택된 신뢰도로 사전선택된 서열을 검출할 수 있다면, 방법은 F%의 변이체에 대해 S%의 민감성을 가진다. 예로서, 사전선택된 서열 변이체가 샘플 내 서열의 적어도 5%로서 존재하는 샘플이 주어질 때, 방법이 10회 중 9회의 99%의 사전선택된 신뢰도로 사전선택된 서열을 검출할 수 있다면(F=5%; C=99%; S=90%), 방법은 5%의 변이체에 대해 90%의 민감성을 가진다. 대표적인 민감성은 C= 90%, 95%, 99% 및 99.9%의 신뢰수준에서 F=1%, 5%, 10%, 20%, 50%, 100%로 서열 변이체에 대해 S=90%, 95%, 99%의 민감성을 포함한다.
본 명세서에서 사용되는 "특이성"은 시퀀싱 인공물 또는 다른 밀접하게 관련된 서열로부터 정말로 발생된 사전선택된 서열 변이체를 구별하는 방법의 능력의 측정이다. 이는 거짓 양성(위양성) 검출을 회피하는 능력이다. 거짓 양성 검출은 샘플 제조 동안 관심의 서열 내로 도입된 오류, 시퀀싱 오류 또는 위 유전자(pseudo-gene) 또는 유전자 패밀리의 구성원과 같은 밀접하게 관련된 서열의 부적절한 시퀀싱으로부터 생길 수 있다. X진성 서열이 진짜 변이체이고, X비진성이 진짜 변이체가 아닌 N전체 서열의 샘플 세트에 적용될 때, 방법이 비변이체로서 진짜가 아닌 변이체의 적어도 X%를 선택한다면, 방법은 X%의 특이성을 가진다. 예를 들어, 500개 서열이 진짜 변이체이고, 500개는 진짜가 아닌 변이체인 1,000개 서열의 샘플 세트에 적용될 때, 방법이 비변이체로서 500개의 진짜가 아닌 변이체의 적어도 90%를 선택한다면, 방법은 90%의 특이성을 가진다. 대표적인 특이성은 90, 95, 98 및 99%를 포함한다.
본 명세서에서 사용되는 "종양 핵산 샘플"은 종양 또는 암 샘플로부터의 핵산 분자를 지칭한다. 전형적으로, 이는 종양 또는 암 샘플로부터의 DNA, 예를 들어 RNA로부터 유래된 게놈 DNA 또는 cDNA이다. 특정 실시형태에서, 종양 핵산 샘플은 정제되거나 또는 분리된다(예를 들어, 그것의 천연 상태로부터 제거된다).
본 명세서에서 사용되는 바와 같은 "대조군" 또는 "기준", "핵산 샘플"은 대조군 또는 기준 샘플로부터의 핵산 분자를 지칭한다. 전형적으로, 이는 유전자 또는 유전자 생성물에서 변경 또는 변화를 함유하지 않는 DNA, 예를 들어, RNA로부터 유래된 게놈 DNA 또는 cDNA이다. 특정 실시형태에서, 기준 또는 대조군 핵산 샘플은 야생형 또는 비돌연변이 서열이다. 특정 실시형태에서, 기준 핵산 샘플은 정제되거나 또는 분리된다(예를 들어, 이는 그것의 천연 상태로부터 제거된다). 다른 실시형태에서, 기준 핵산 샘플은 비-종양 샘플, 예를 들어 혈액 대조군, 정상 인접 종양(normal adjacent tumor: NAT) 또는 동일 또는 상이한 대상체로부터의 임의의 다른 비-암성 샘플로부터 유래된다.
"시퀀싱" 핵산 분자는 분자 내 적어도 하나의 뉴클레오타이드의 동일성을 결정하는 것을 필요로 한다. 실시형태에서, 분자 내 모든 뉴클레오타이드보다 적은 동일성이 결정된다. 다른 실시형태에서, 분자 내 뉴클레오타이드의 대다수 또는 모두의 동일성이 결정된다.
본 명세서에서 지칭되는 "서브게놈 간격"은 게놈 서열의 일부를 지칭한다. 실시형태에서, 서브게놈 간격은 종양 표현형과 관련된(양성으로 또는 음성으로) 단일 뉴클레오타이드 위치, 예를 들어, 뉴클레오타이드 위치 변이체일 수 있다. 실시형태에서, 서브게놈 간격은 하나 이상의 뉴클레오타이드 위치를 포함한다. 이러한 실시형태는 길이로 적어도 2, 5, 10, 50, 100, 150 또는 250개의 뉴클레오타이드 위치의 서열을 포함한다. 서브게놈 간격은 전체 유전자 또는 이것의 사전선택된 부분, 예를 들어 암호 영역(또는 이것의 부분), 사전선택된 인트론(또는 이것의 부분) 또는 엑손(또는 이것의 부분)을 포함할 수 있다. 서브게놈 간격은 자연적으로 발생하는, 예를 들어 게놈, 핵산의 단편의 모두 또는 부분을 포함할 수 있다. 예를 들어, 서브게놈 간격은 시퀀싱 반응이 실시된 게놈 DNA의 단편에 대응될 수 있다. 실시형태에서, 서브게놈 간격은 게놈 공급원으로부터 연속 서열이다. 실시형태에서, 서브게놈 간격은 게놈에서 연속적이지 않은 서열을 포함하며, 예를 들어 cDNA 내 엑손-엑손에서 발견되는 형성된 접합을 포함할 수 있다
실시형태에서, 서브게놈 간격은 단일 뉴클레오타이드 위치; 유전자 내 영역 또는 유전자간 영역; 엑손 또는 인트론 또는 이것의 단편, 전형적으로 엑손 서열 또는 이것의 단편; 암호 영역 또는 비-암호 영역, 예를 들어, 프로모터, 인핸서, 5' 미번역 영역(5' UTR) 또는 3' 미번역 영역(3' UTR) 또는 이것의 단편; cDNA 또는 이것의 단편; SNP; 체세포 돌연변이, 생식계열 돌연변이 또는 둘 다; 변경, 예를 들어, 점 돌연변이 또는 단일 돌연변이; 결실 돌연변이(예를 들어, 프레임 내 결실, 유전자 내 결실, 전체 유전자 결실); 삽입 돌연변이(예를 들어, 유전자내 삽입); 역위 돌연변이(예를 들어, 염색체내 역위); 연결 돌연변이; 연결된 삽입 돌연변이; 역위 복제물 돌연변이; 순차 중복(예를 들어, 염색체간 순차 중복); 전위(예를 들어, 염색체 전위, 비상호 전위); 재배열(예를 들어, 게놈 재배열(예를 들어, 하나 이상의 인트론 또는 이것의 단편의 재배열; 재배열된 인트론은 5'- 및/또는 3'-UTR을 포함할 수 있음); 유전자 복제수의 변화; 유전자 발현의 변화; RNA 수준의 변화 또는 이들의 조합으로 이루어지거나 또는 포함한다. "유전자의 복제수"는 특정 유전자 생성물을 암호화하는 세포에서 DNA 서열의 수를 지칭한다. 일반적으로, 주어진 유전자에 대해, 포유류는 각 유전자의 2개의 복제물을 가진다. 복제수는, 예를 들어 유전자 증폭 또는 복제물에 의해 증가될 수 있거나 또는 결실에 의해 감소될 수 있다.
본 명세서에서 사용되는 "역치값"은 서브게놈 간격에 뉴클레오타이드 값을 부여하기 위해 존재하는 것이 필요한 판독 수의 함수인 값이다. 예를 들어, 서브게놈 간격 내 해당 뉴클레오타이드 위치에 뉴클레오타이드 값을 부여하는데 필요한, 예를 들어 뉴클레오타이드 위치에서 구체적 뉴클레오타이드 값을 가지는 판독 수의 함수이다. 역치값은, 예를 들어 복수의 판독으로서(또는 이것의 함수로서), 예를 들어 사전선택된 값을 갖는 판독의 정수 또는 비율로서 표현될 수 있다. 예로서, 역치값이 X이고, "A"의 뉴클레오타이드 값을 갖는 X+1 판독이 존재한다면, "A"의 값은 서브게놈 간격 내 사전선택된 위치에 부여된다. 역치값은 또한 돌연변이 또는 변이체 예상치, 돌연변이 빈도 또는 베이지안 이전의 함수로서 표현될 수 있다. 실시형태에서, 사전선택된 돌연변이 빈도는 사전선택된 위치에서 뉴클레오타이드 값, 예를 들어, A 또는 G를 갖는 판독의 사전선택된 수 또는 비율을 요구하여 해당 뉴클레오타이드 값을 호출한다. 실시형태에서, 역치값은 돌연변이 예상치, 예를 들어 돌연변이 빈도 및 종양 유형의 함수일 수 있다. 예를 들어, 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체는 환자가 제1 종양 유형을 가진다면 제1 역치값을 가질 수 있으며, 환자가 제2 종양 유형을 가진다면 제2 역치값을 가질 수 있다.
본 명세서에서 사용되는 "표적 구성원"은 핵산 라이브러리로부터 분리될 것이 요망되는 핵산 분자를 지칭한다. 일 실시형태에서, 표적 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원, 대조군 구성원 또는 PGx 구성원일 수 있다.
본 명세서에서 사용되는 바와 같은 "종양 구성원" 또는 다른 유사한 용어(예를 들어, "종양 또는 암-관련 구성원")은 종양 세포로부터의 서열을 갖는 구성원을 지칭한다. 일 실시형태에서, 종양 구성원은 암성 표현형과 관련된 변경(예를 들어, 돌연변이)을 갖는 서열(예를 들어, 뉴클레오타이드 서열)을 갖는 서브게놈 간격을 포함한다. 다른 실시형태에서, 종양 구성원은 야생형 서열(예를 들어, 야생형 뉴클레오타이드 서열)을 갖는 서브게놈 간격을 포함한다. 예를 들어, 이형 접합적 또는 동형 접합적 야생형 대립유전자로부터의 서브게놈 간격은 암 세포 내에 존재한다. 종양 구성원은 기준 구성원 또는 PGx 구성원을 포함할 수 있다.
본 명세서에서 사용되는 "기준 구성원" 또는 다른 유사한 용어(예를 들어 "대조군 구성원")은 암성 표현형과 관련되지 않은 서열(예를 들어, 뉴클레오타이드 서열)을 갖는 서브게놈 간격을 포함하는 구성원을 지칭한다. 일 실시형태에서, 기준 구성원은 돌연변이된 암성 표현형과 관련될 때 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이 뉴클레오타이드 서열을 포함한다. 기준 구성원은 암 세포 또는 비-암 세포에 존재할 수 있다.
본 명세서에서 사용되는 "PGx 구성원" 또는다른 유사한 용어는 유전자의 약물유전학적 또는 약물유전체적 프로파일과 관련된 서브게놈 간격을 포함하는 구성원을 지칭한다. 일 실시형태에서, PGx 구성원은 SNP(예를 들어, 본 명세서에 기재된 SNP)를 포함한다. 다른 실시형태에서, PGx 구성원은 표 1 또는 표 2에 따른 서브게놈 간격을 포함한다.
본 명세서에서 사용되는 "변이체"는 하나 이상의 구조, 예를 들어 다형성 좌위의 대립유전자를 가질 수 있는 서브게놈 간격에서 존재할 수 있는 구조를 지칭한다.
표제, 예를 들어, (a), (b), (i) 등은 단지 본 명세서 및 특허청구범위의 용이함을 위해 제시된다. 본 명세서 또는 특허청구범위에서 표제의 사용은 알파벳 또는 수치적 순서 또는 그것들이 제시된 순서로 수행되는 단계 또는 구성요소가 필요하지는 않다.
유전자 또는 유전자 생성물의 선택
선택된 유전자 또는 유전자 생성물(또한 본 명세서에서 "표적 유전자 또는 유전자 생성물"로서 지칭됨)은 유전자내 영역 또는 유전자간 영역을 포함하는 서브게놈 간격을 포함할 수 있다. 예를 들어, 서브게놈 간격은 엑손 또는 인트론 또는 이들의 단편, 전형적으로 엑손 서열 또는 이것의 단편을 포함할 수 있다. 서브게놈 간격은 암호 영역 또는 비-암호 영역, 예를 들어 프로모터, 인핸서, 5' 미번역 영역(5' UTR) 또는 3' 미번역 영역(3' UTR) 또는 이들의 단편을 포함할 수 있다. 다른 실시형태에서, 서브게놈 간격은 cDNA 또는 이것의 단편을 포함한다. 다른 실시형태에서, 서브게놈 간격은, 예를 들어 본 명세서에 기재된 바와 같은 SNP를 포함한다.
다른 실시형태에서, 서브게놈 간격은 실질적으로 게놈 내 모든 엑손, 예를 들어 본 명세서에 기재된 바와 같은 서브게놈 간격 중 하나 이상을 포함한다(예를 들어, 선택된 유전자 또는 관심의 유전자 생성물(예를 들어, 본 명세서에 기재된 바와 같은 암성 표현형과 관련된 유전자 또는 유전자 생성물)로부터의 엑손). 일 실시형태에서, 서브게놈 간격은 체세포 돌연변이, 생식계열 돌연변이 또는 둘 다를 포함한다. 일 실시형태에서, 서브게놈 간격은 변경, 예를 들어, 점 또는 단일 돌연변이, 결실 돌연변이(예를 들어, 프레임내 결실, 유전자내 결실, 전체 유전자 결실), 삽입 돌연변이(예를 들어, 유전자내 삽입), 역위 돌연변이(예를 들어, 염색체내 역위), 연결 돌연변이, 연결된 삽입 돌연변이, 역위 복제물 돌연변이, 순차 중복(예를 들어, 염색체내 순차 중복), 전위(예를 들어, 염색체 전위, 비상호 전위), 재배열, 유전자 복제수의 변화 또는 이들의 조합을 포함한다. 특정 실시형태에서, 서브게놈 간격은 샘플 내 종양 세포의 게놈의 암호 영역의 5, 1, 0.5, 0.1%, 0.01%, 0.001% 미만을 구성한다. 다른 실시형태에서, 서브게놈 간격은 질병에 연루되지 않으며, 예를 들어 본 명세서에 기재된 바와 같은 암 표현형과 관련되지 않는다.
일 실시형태에서, 표적 유전자 또는 유전자 생성물은 바이오마커이다. 본 명세서에 기재된 바와 같은 "바이오마커" 또는 "마커"는 변경될 수 있는 유전자, mRNA 또는 단백질이되, 상기 변경은 암과 관련된다. 변경은 정상 또는 건강한 조직 또는 세포(예를 들어, 대조군)에서 그것의 양, 구조 및/또는 활성과 비교한 암 조직 또는 암 세포의 양, 구조 및/또는 활성일 수 있고, 암과 같은 질병 상태와 관련된다. 예를 들어, 암과 관련된 마커 또는 항암 치료에 대한 반응의 예후는 정상 또는 건강한 조직 또는 세포와 비교하여 암 조직 또는 암 세포에서 변경된 뉴클레오타이드 서열, 아미노산 서열, 염색체 전위, 염색체내 역위, 복제수, 발현 수준, 단백질 수준, 단백질 활성 또는 메틸화 상태를 가질 것이다. 더 나아가, "마커"는 암과 같은 질병 상태와 관련된 조직 또는 세포에서 존재할 때, 예를 들어 치환, 결실 또는 삽입에 의해 구조가 변경된, 예를 들어 돌연변이된(돌연변이를 함유), 예를 들어, 뉴클레오타이드 또는 아미노산 수준에서 야생형 서열과 상이한 분자를 포함한다.
일 실시형태에서, 표적 유전자 또는 유전자 생성물은 단일-뉴클레오타이드 다형성(SNP)을 포함한다. 다른 실시형태에서, 유전자 또는 유전자 생성물은 작은 결실, 예를 들어, 작은 유전자내 결실(예를 들어, 프레임내 도는 프레임-이동 결실)을 가진다. 또 다른 실시형태에서, 표적 서열은 전체 유전자의 결실로부터 초래된다. 또 다른 실시형태에서, 표적 서열은 작은 삽입, 예를 들어 작은 유전자내 삽입을 가진다. 일 실시형태에서, 표적 서열은 역위, 예를 들어 염색체내 역위로부터 초래된다. 다른 실시형태에서, 표적 서열은 염색체간 전위로부터 초래된다. 또 다른 실시형태에서, 표적 서열은 순차 중복을 가진다. 일 실시형태에서, 표적 서열은 바람직하지 않은 특징(예를 들어, 고 GC 함량 또는 반복 구성요소)을 가진다. 다른 실시형태에서, 표적 서열은, 예를 들어 그것의 반복 특징 때문에 그 자체가 성공적으로 표적화될 수 없는 뉴클레오타이드 서열의 일부를 가진다. 일 실시형태에서, 표적 서열은 대안의 스플라이싱으로부터 초래된다. 다른 실시형태에서, 표적 서열은 표 1, 1A, 2, 3 또는 4에 따른 유전자 또는 유전자 생성물 또는 이들의 단편으로부터 선택된다.
암은, 이하에 제한되는 것은 아니지만, B 세포 암, 예를 들어 다발성 골수종, 흑색종, 유방암, 폐암(예컨대, 비소세포 폐암 또는 NSCLC), 기관지 암, 결장직장 암, 전립선암, 췌장암, 위암, 난소암, 방광암, 뇌 또는 중추신경계 암, 말초신경계 암, 식도암, 자궁경부암, 자궁 또는 자궁내막암, 구강 또는 인두암, 간암, 신장암, 고환암, 담관암, 소장 또는 충수암, 침샘암, 갑상선암, 부신암, 골육종, 연골육종, 혈액 조직의 암, 선암, 염증성 근육 섬유 모세포 종양, 위장관 기질종양(gastrointestinal stromal tumor: GIST), 결장 암, 다발성 골수종(multiple myeloma: MM), 골수이형성 증후군(myelodysplastic syndrome: MDS), 골수증식성 질환(myeloproliferative disorder: MPD), 급성 림프구성 백혈병(acute lymphocytic leukemia: ALL), 소아 급성 백혈병(acute myelocytic leukemia: AML), 만성 골수성 백혈병(chronic myelocytic leukemia: CML), 만성 림프구성 백혈병(chronic lymphocytic leukemia: CLL), 진성 다혈구증, 호지킨 림프종, 비-호지킨 림프종 (non-Hodgkin lymphoma: NHL), 연조직 육종, 섬유육종, 점액육종, 지방육종, 골원성 육종, 척색종, 혈관육종, 내피육종, 림프혈관육종, 림프관내피육종, 활막종, 중피종, 유잉 종양, 평활근육종, 횡문근육종, 편평세포암종, 기저세포암종, 선암종, 한선암종, 피지선암종, 유두암종, 유두 선암, 수질암, 기관지원성 암종, 신세포암종, 간세포암, 담관 암종, 융모암, 정상피종, 태생성 암종, 윌름스 종양, 방광암종, 상피 암종, 신경교종, 성상세포종, 수모세포종, 두개인두종, 상의세포종, 송과체종, 혈관아세포종, 청신경종, 핍지교종, 뇌수막종, 신경아세포종, 망막아세포종, 여포성 림프종, 미만성 거대 B-세포 림프종, 외투세포 림프종, 간세포암, 갑상선 암, 위 암, 두경부 암, 소세포암, 진성혈소판 증가증, 원인불명 골수화생증, 호산구 증가증, 전신성 비만 세포증, 가족성 과호산구증가증, 만성 호염기성 백혈병, 신경 내분비 암, 유암종 등을 포함한다.
일 실시형태에서, 표적 유전자 또는 유전자 생성물은 ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, AKT1, AKT2, AKT3, ALK, APC, AR, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRAF, BRCA1, BRCA2, C1orf144, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2A, CDKN2B, CDKN2C, CEBPA, CHEK1, CHEK2, CRKL, CRLF2, CTNNB1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DNMT3A, DOT1L, DPYD, EGFR, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FCGR3A, FGFR1, FGFR2, FGFR3, FGFR4, FLT1, FLT3, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GSTP1, GUCY1A2, HOXA3, HRAS, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, ITPA, JAK1, JAK2, JAK3, JUN, KDR, KIT, KRAS, LRP1B, LRP2, LTK, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MET, MITF, MLH1, MLL, MPL, MRE11A, MSH2, MSH6, MTHFR, MTOR, MUTYH, MYC, MYCL1, MYCN, NF1, NF2, NKX2-1, NOTCH1, NPM1, NQO1, NRAS, NRP2, NTRK1, NTRK3, PAK3, PAX5, PDGFRA, PDGFRB, PIK3CA, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTEN, PTPN11, PTPRD, RAF1, RARA, RB1, RET, RICTOR, RPTOR, RUNX1, SLC19A1, SLC22A2, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOD2, SOX10, SOX2, SRC, STK11, SULT1A1, TBX22, TET2, TGFBR2, TMPRSS2, TOP1, TP53, TPMT, TSC1, TSC2, TYMS, UGT1A1, UMPS, USP9X, VHL 및 WT1으로 이루어진 군으로부터 선택된 전장 또는 이것의 단편으로부터 선택된다.
일 실시형태에서, 표적 유전자 또는 유전자 생성물 또는 이것의 단편은 약물유전학적 및 약물유전체적(PGx), 예를 들어, 약물 대사 및 독성에 대해 적절한 하나 이상의 SNP를 가진다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, ABCB1, ABCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1 및 UMPS을 포함한다.
다른 실시형태에서, 표적 유전자 또는 유전자 생성물 또는 이것의 단편은 암과 관련된 하나 이상의 코돈을 가진다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, ABL1(예를 들어, 코돈 315), AKT1, ALK, APC (예를 들어, 코돈 1114, 1338, 1450 및 1556), AR, BRAF(예를 들어, 코돈 600), CDKN2A, CEBPA, CTNNB1(예를 들어, 코돈 32, 33, 34, 37, 41 및 45), EGFR(예를 들어, 719, 746-750, 768, 790, 858 및 861), ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3(예를 들어, 코돈 835), HRAS(예를 들어, 코돈 12, 13 및 61), JAK2(예를 들어, 코돈 617), KIT(예를 들어, 코돈 816), KRAS(예를 들어, 코돈 12, 13 및 61), MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, PDGFRA, PIK3CA(예를 들어, 코돈 88, 542, 545, 546, 1047 및 1049), PTEN(예를 들어, 코돈 130, 173, 233 및 267), RB1, RET(예를 들어, 코돈 918), TP53(예를 들어,175, 245, 248, 273 및 306)을 포함한다.
또 다른 실시형태에서, 표적 유전자 또는 유전자 생성물 또는 이것의 단편은 암과 관련된다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, ABL2, AKT2, AKT3, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDR, LRP1B, LTK, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK3, PAK3, PAX5, PDGFRB, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOX10, SOX2, SRC, STK11, TBX22, TET2, TGFBR2, TMPRSS2, TOP1, TSC1, TSC2, USP9X, VHL 및 WT1을 포함한다.
앞서 언급한 방법의 적용은 의학적 표본의 시퀀싱을 위한 특정 유전자 또는 유전자의 모든 알려진 서열 변이체(또는 이것의 서브세트)를 함유하는 올리고뉴클레오타이드의 라이브러리를 사용하는 단계를 포함한다.
유전자 선택 모듈
이 모듈은 본 발명에서 특징으로 하는 방법에서 사용을 위한 서브게놈 간격, 예를 들어 본 명세서에 기재된 유전자의 세트 또는 그룹 및 다른 영역에 대한 서브게놈 간격을 개시한다.
하나 이상의 피험체로부터 샘플, 예를 들어 종양 샘플로부터 매우 다수의 유전자 및 유전자 생성물을 시퀀싱하기 위한 최적화된 방법 및 분석이 개시된다. 일 실시형태에서, 본 발명에서 특징으로 하는 방법 및 분석은 멀티플렉스, 다유전자 분석 포맷, 예를 들어 매우 다수의 유전자에서 매우 다수의 다양한 유전적 사건으로부터 다중 신호를 포함시키는 분석에 사용된다. 암성 표현형(예를 들어, 암 위험, 암 진행, 암 치료 반응 또는 암 치료에 대한 내성 중 하나 이상)과 관련된(예를 들어, 양성으로 또는 음성으로) 유전자 또는 유전자 생성물의 사전선택된 세트에 적어도 부분적으로 기반한 방법 및 분석이 본 명세서에 개시된다. 이러한 사전-선택된 유전자 또는 유전자 생성물은 시퀀싱 방법, 예를 들어 종양 또는 대조군 샘플로부터 매우 다수의 다양한 유전자의 대량병렬 시퀀싱에 의존한 방법의 적용을 가능하게 한다.
따라서, 본 발명은 샘플, 예를 들어 종양 샘플을 분석하는 방법을 특징으로 한다. 해당 방법은,
(a) 샘플로부터의 다수의 구성원, 예를 들어 종양 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 사전선택된 서열에 대한 라이브러리를 풍부화시켜, 예를 들어 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시킴으로써 선택된 구성원을 제공하는 단계(때때로 본 명세서에서 라이브러리 포획으로서 지칭됨);
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱을 포함하는 방법에 의해, 예를 들어 차세대 시퀀싱 방법으로 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이를, 예를 들어 베이지안 방법으로 호출),
상기 종양 샘플을 분석하는 단계를 포함하되,
해당 방법은 샘플로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상의 유전자 또는 유전자 생성물로부터의 서브게놈 간격을, 예를 들어 차세대 시퀀싱 방법에 의해 시퀀싱하는 단계를 포함하고, 유전자 또는 유전자 생성물은 ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53으로부터 선택된다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
따라서, 실시형태에서, 해당 방법은 획득한 핵산 샘플로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상의 유전자 또는 유전자 생성물로부터의 서브게놈 간격을, 예를 들어 차세대 시퀀싱 방법에 의해 시퀀싱함으로써, 종양 샘플을 분석하는 단계를 포함하되, 유전자 또는 유전자 생성물은 ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53으로부터 선택된다.
특정 실시형태에서, 해당 방법 또는 분석은, ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL 또는 WT1 중 1, 2, 3, 4, 5, 10, 15, 20, 25, 30,35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120개 이상으로부터 선택된 유전자 또는 유전자 생성물로부터 서브게놈 간격을 시퀀싱하는 단계를 추가로 포함한다.
다른 실시형태에서, 해당 방법 또는 분석은 약물 대사, 약물 반응 또는 독성(또한 본 명세서에서 "PGx" 유전자로서 지칭됨) 중 하나 이상과 관련된 유전자 또는 유전자 생성물에 존재하는 서브게놈 간격을 시퀀싱하는 단계를 추가로 포함한다. 특정 실시형태에서, 시퀀싱된 서브게놈 간격은 변경을 포함한다(예를 들어, 단일 뉴클레오타이드 다형성(SNP)). 일 실시형태에서, 시퀀싱된 서브게놈 간격은 ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1 또는 UMPS 중 1, 2, 3, 4, 5, 10, 15, 20, 25, 30개 이상으로부터 선택된 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 해당 방법 또는 분석은 ARFRP1, BCL2A1, CARD11, CDH20, CDH5, DDR2, EPHA3, EPHA5, EPHA7, EPHB1, FOXP4, GPR124, GUCY1A2, INSR, LRP1B, LTK, PAK3, PHLPP2, PLCG1, PTPRD, STAT3, TBX22 또는 USP9X 중 1, 2, 3, 4, 5, 10, 15, 20 이상으로부터 선택된 유전자 또는 유전자 생성물에 존재하는 서브게놈 간격을 시퀀싱하는 단계를 추가로 포함한다.
특정 실시형태에서, 핵산 샘플의 시퀀싱된 서브게놈 간격은 표 1 또는 1A로부터 적어도 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물로부터 뉴클레오타이드 서열을 포함한다. 다른 실시형태에서, 핵산 샘플의 시퀀싱된 서브게놈 간격은 본 명세서에 구체화된 암 유형으로부터의 종양 샘플로부터 획득한 표 1 또는 1A의 적어도 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물로부터 뉴클레오타이드 서열을 포함한다. 또 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 표 1 또는 1A에 따른 우선순위 1 유전자 및 PGx 유전자의 조합을 포함한다(예를 들어, 표 1 또는 1A에 따른 적어도 5, 10, 20 또는 30개 우선순위 1 유전자; 및 적어도 5, 10, 20 또는 30개의 PGX). 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 표 1 또는 1A에 따른 우선순위 1 유전자, 암 유전자 및 PGx 유전자의 조합을 포함한다(예를 들어, 표 1 또는 1A에 따른 적어도 5, 10, 20 또는 30개의 우선순위 1 유전자; 적어도 5, 10, 20 또는 30개의 암 유전자; 및 적어도 5, 10, 20 또는 30개의 PGX 유전자).
특정 실시형태에서, 핵산 샘플의 시퀀싱된 서브게놈 간격은 ABL1 유전자의 코돈 315; APC의 코돈 1114, 1338, 1450 또는 1556; BRAF의 코돈 600; CTNNB1의 코돈 32, 33, 34, 37, 41 또는 45; EGFR의 코돈 719, 746 내지 750, 768, 790, 858 또는 861; FLT3의 코돈 835; HRAS의 코돈 12, 13 또는 61; JAK2의 코돈 617; KIT의 코돈 816; KRAS의 코돈 12, 13 또는 61; PIK3CA의 코돈 88, 542, 545, 546, 1047 또는 1049; PTEN의 코돈 130, 173, 233 또는 267; RET의 코돈 918; TP53의 코돈 175, 245, 248, 273 또는 306 중 하나 이상으로부터 선택된 코돈을 포함한다. 특정 실시형태에서, 상기 언급한 코돈 중 2, 3, 4, 5, 10, 15, 20개 이상이 시퀀싱된다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 표 1 또는 1A에 나타낸 코돈 중 하나 이상을 포함한다.
다른 실시형태에서, 핵산 샘플의 시퀀싱된 서브게놈 간격은 표 1의 적어도 1, 5, 10, 15, 20, 25개 이상의 PGx 유전자 또는 유전자 생성물로부터 뉴클레오타이드 서열을 포함한다. 다른 실시형태에서, 핵산 샘플의 시퀀싱된 서브게놈 간격은 표 2의 적어도 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75개 이상의 PGx 유전자 또는 유전자 생성물로부터 뉴클레오타이드 서열을 포함한다. 또 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 약물 대사, 약물 반응, 약물 독성 또는 부작용 중 하나 이상과 관련된 표 2에 따른 적어도 하나의 PGx 유전자(및/또는 적어도 하나의 PGx 유전자 돌연변이로부터 선택된 뉴클레오타이드 서열을 포함한다. 예를 들어, 시퀀싱된 서브게놈 간격은 약물로 처리한 암 환자의 더 양호한 생존(예를 들어, 파클리탁셀(예를 들어, ABCB1 유전자)로 처리한 유방암 환자의 더 양호한 생존)과 관련된 적어도 하나의 PGx 유전자로부터 뉴클레오타이드 서열을 포함할 수 있다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 파클리탁셀 대사(예를 들어, 표 2에 나타낸 상이한 좌위 및 돌연변이에서 CYP2C8 유전자; CYP3A4 유전자)와 관련된다. 또 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 약물에 대한 독성(예를 들어, ABCC4 유전자(표 2)로 알 수 있는 6-MP 독성; DPYD 유전자, TYMS 유전자 및 UMPS 유전자(표 2)로 알 수 있는 5-FU 독성; TMPT 유전자(표 2)로 알 수 있는 퓨린 독성; NRP2 유전자; Clorf144 유전자, CYP1B1 유전자(표 2)로 알 수 있는 다우노루비신 독성)과 관련된다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 약물(예를 들어, ABCG2, TYMS, UGT1A1, ESR1 및 ESR2 유전자(표 2))에 대한 부작용과 관련된다.
다른 실시형태에서, 다음의 세트 또는 그룹 중 하나로부터 서브게놈 간격이 분석된다. 예를 들어, 서브게놈 간격은 종양 또는 암 유전자 또는 유전자 생성물, 기준(예를 들어, 야생형) 유전자 또는 유전자 생성물 또는 PGx 유전자 또는 유전자 생성물과 관련되며, 이에 의해 종양 샘플로부터 서브게놈 간격의 선택된 서브세트를 얻는다.
실시형태에서, 해당 방법은 종양 샘플로부터 서브게놈 간격의 서브세트를 시퀀싱하되, 서브게놈 간격은 다음 중 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13개 또는 모두로부터 선택된다:
A) ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53 중 적어도 5개 이상으로부터 선택된 돌연변이된 또는 야생형 유전자 또는 유전자 생성물로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상의 서브게놈 간격;
B) ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL 또는 WT1 중 적어도 5개 이상으로부터 선택된 돌연변이된 또는 야생형 유전자 또는 유전자 생성물로부터의 서브게놈 간격 중 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30,35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120개 이상;
C) 표 1, 1A, 2, 3 또는 4에 따른 유전자 또는 유전자 생성물로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20개 이상의 서브게놈 간격;
D) 종양 또는 암과 관련된 유전자 또는 유전자 생성물로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20 이상의 서브게놈 간격(예를 들어, 양성 또는 음성 치료 반응 예측자, 종양 또는 암의 차별적인 진단을 가능하게 하거나 진단을 위한 양성 또는 음성 진단 인자, 예를 들어, ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1 및 TP53 중 하나 이상으로부터 선택된 유전자 또는 유전자 생성물;
E) ABL1 유전자의 코돈 315; APC의 코돈 1114, 1338, 1450 또는 1556; BRAF의 코돈 600; CTNNB1의 코돈 32, 33, 34, 37, 41 또는 45; EGFR의 코돈 719, 746-750, 768, 790, 858 또는 861; FLT3의 코돈 835; HRAS의 코돈 12, 13 또는 61; JAK2의 코돈 617; KIT의 코돈 816; KRAS의 코돈 12, 13 또는 61; PIK3CA의 코돈 88, 542, 545, 546, 1047 또는 1049; PTEN의 코돈 130, 173, 233 또는 267; RET의 코돈 918; TP53의 코돈 175, 245, 248, 273 또는 306(예를 들어, 표 1 또는 1A에 나타낸 코돈 중 하나 이상을 포함하는 적어도 5, 10, 15, 20 이상의 서브게놈 간격) 중 하나 이상으로부터 선택된 돌연변이 또는 야생형 코돈을 포함하는 적어도 5, 6, 7, 8, 9, 10개 이상의 서브게놈 간격.
F) ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1 또는 UMPS로부터 선택된 약물 대사, 약물 반응 또는 독성 중 하나 이상과 관련된 유전자 또는 유전자 생성물(또한 본 명세서에서 "PGx" 유전자로서 지칭됨)에 존재하는 서브게놈 간격의 돌연변이된 또는 야생형 유전자 또는 유전자 생성물(예를 들어, 단일 뉴클레오타이드 다형성(SNP))로부터의 서브게놈 간격의 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상;
G) 하기 중 하나 이상과 관련된 유전자 또는 유전자 생성물에 존재하는 서브게놈 간격의 돌연변이된 또는 야생형 PGx 유전자 또는 유전자 생성물(예를 들어, 단일 뉴클레오타이드 다형성(SNP))으로부터 서브게놈 간격 중 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상: (i) 약물로 처리한 암 환자의 더 양호한 생존(예를 들어, 파클리탁셀(예를 들어, ABCB1 유전자)로 처리한 유방암 환자의 더 양호한 생존); (ii) 파클리탁셀 대사(예를 들어, 표 2에서 나타내는 상이한 좌위 및 돌연변이에서 CYP2C8 유전자; CYP3A4 유전자); (iii) 약물에 대한 독성(예를 들어, ABCC4 유전자(표 2)로 알 수 있는 6-MP 독성; DPYD 유전자, TYMS 유전자 또는 UMPS 유전자(표 2)로 알 수 있는 5-FU 독성; TMPT 유전자(표 2)로 알 수 있는 퓨린 독성; NRP2 유전자; Clorf144 유전자, CYP1B1 유전자(표 2)로 알 수 있는 다우노루비신 독성; 또는 (iv) 약물(예를 들어, ABCG2, TYMS, UGT1A1, ESR1 및 ESR2 유전자(표 2))에 대한 부작용;
H) 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경;
J) 본 명세서에 구체화된 암 유형으로부터 고형 종양 샘플 내 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경;
K) 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경;
L) 본 명세서에서 구체화된 암 유형으로부터의 헴 종양 샘플에서 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경;
M) 표 1, 1A 내지 4로부터 선택된 적어도 5개의 유전자 또는 유전자 생성물로서, 예를 들어 사전선택된 위치에서 대립유전자 변형은 종양의 사전선택된 유형과 관련되며, 상기 대립유전자 변형은 상기 종양 유형 내 세포의 5% 미만으로 존재하는 유전자 또는 유전자 생성물;
N) GC-풍부 영역에 포매된 표 1, 1A 내지 4로부터 선택된 적어도 5개의 유전자 또는 유전자 생성물; 또는
O) 발생하는 암에 대한 유전자(예를 들어, 생식계열 위험) 인자를 나타내는 적어도 5개의 유전자 또는 유전자 생성물(예를 들어, 유전자 또는 유전자 생성물은 BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL 또는 WT1 중 하나 이상으로부터 선택됨).
특정 실시형태에서, 해당 방법 또는 분석의 획득 단계는 상기 종양 샘플로부터 본 명세서에 기재된 바와 같은 다수의 종양 또는 암-관련 구성원, 기준 구성원 및/또는 PGx 구성원을 포함하는 라이브러리를 획득하는 단계를 포함한다. 특정 실시형태에서, 선택 단계는 용액 기반 혼성화를 포함한다(예를 들어 종양 또는 암-관련 구성원, 기준 구성원(예를 들어, 야생형 구성원) 또는 PGx 구성원에 대한 선택 또는 풍부화, 각각은 본 명세서에 기재된 바와 같은 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다).
본 발명의 추가적인 실시형태 또는 특징은 다음과 같다:
일 실시형태에서, 핵산 샘플의 서브게놈 간격은 유전자내 영역 또는 유전자간 영역을 포함한다. 일 실시형태에서, 서브게놈 간격은 유전자 또는 이것의 단편, 엑손 또는 이들의 단편 또는 사전선택된 뉴클레오타이드 위치를 포함한다. 다른 실시형태에서, 서브게놈 간격은 엑손 또는 인트론 또는 이것의 단편, 전형적으로 엑손 또는 이것의 단편을 포함한다. 일 실시형태에서, 서브게놈 간격은 암호 영역 또는 비-암호 영역, 예를 들어, 프로모터, 인핸서, 5' 미번역 영역(5' UTR) 또는 3' 미번역 영역(3' UTR) 또는 이것의 단편을 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은, 예를 들어 양성으로 또는 음성으로 암성 표현형(예를 들어, 암 위험, 암 진행, 암 치료 또는 치료에 대한 저항 중 하나 이상)과 관련된 변경(예를 들어, 하나 이상의 돌연변이)을 포함한다. 또 다른 실시형태에서, 서브게놈 간격은 변경, 예를 들어, 점 또는 단일 돌연변이, 결실 돌연변이(예를 들어, 프레임내 결실, 유전자내 결실, 전체 유전자 결실), 삽입 돌연변이(예를 들어, 유전자내 삽입), 역위 돌연변이(예를 들어, 염색체내 역위), 연결 돌연변이, 연결된 삽입 돌연변이, 역위 복제물 돌연변이, 순차 중복(예를 들어, 염색체내 순차 중복), 전위(예를 들어, 염색체 전위, 비상호 전위), 재배열, 유전자 복제수의 변화 또는 이들의 조합을 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 샘플로부터의 해당 유형의 종양에 대해 암성 표현형과 관련되지 않은 핵산 분자(동일 또는 상이한 서브게놈 간격에서)를 포함한다. 일 실시형태에서, 시퀀싱된 서브게놈 간격은 돌연변이될 때, 암성 표현형(예를 들어, 본 명세서에 기재된 바와 같은 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이된 서열)과 관련된 유전자 또는 유전자 생성물(예를 들어, 엑손 서열 또는 이것의 단편)의 야생형 또는 비-돌연변이된 뉴클레오타이드 서열을 포함한다. 예를 들어, 시퀀싱된 서브게놈 간격은 정상(예를 들어, 비-암성) 기준 샘플(예를 들어, 종양 샘플을 얻은 동일 피험체로부터); 정상 인접 조직(NAT) 또는 종양을 가지거나 또는 가질 위험이 있는 동일 피험체로부터의 혈액 샘플로부터 유래된다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 종양 또는 암-관련 구성원과 상이한 피험체로부터 유래되고(예를 들어, 상이한 피험체로부터 동일 또는 상이한 종양 샘플; 정상(예를 들어, 비-암성) 기준 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플 중 하나 이상으로부터 유래됨), 하나 이상의 상이한 피험체(예를 들어, 건강한 피험체 또는 종양을 가지거나 또는 가질 위험에 있는 다른 피험체)로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 표 3, 표 4에 나타내는 바와 같은 하나 이상의 전위 변경 또는 이들의 조합을 포함한다. 특정 실시형태에서, 시퀀싱된 서브게놈 간격은 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 본 명세서에서 구체화된 암 유형으로부터의 종양 샘플에서 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다. 다른 실시형태에서, 시퀀싱된 서브게놈 간격은 본 명세서에서 구체화된 암 유형으로부터의 종양 샘플에서 표 4의 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다.
일 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형과 관련된 단일 뉴클레오타이드 변경을 포함하는 엑손 서열을 포함한다. 예를 들어, 서브게놈 간격은 염색체 12의 뉴클레오타이드 25,398,215 내지 25,398,334를 포함한다. 다른 실시형태에서, 서브게놈 간격은 KRAS 유전자의 G12S 돌연변이를 나타내는 위치 25,398,286에서 C 내지 T 치환을 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 기준 뉴클레오타이드(예를 들어, 염색체) 서열로부터 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 코돈의 프레임내 결실을 포함한다. 일 실시형태에서, 서브게놈 간격은 EGFR 유전자의 코돈 746 내지 750의 프레임내 결실을 포함한다(예를 들어, 서브게놈 간격은 염색체 7의 뉴클레오타이드 55,242,400 내지 55,242,535를 포함하지만, 뉴클레오타이드 55,242,464 내지 55,242,479는 결여한다).
또 다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 PTEN 유전자의 코돈 64로부터 다이뉴클레오타이드 서열 "CA"의 결실을 포함한다(예를 들어, 서브게놈 간격은 염색체 10의 뉴클레오타이드 9,675,214 내지 89,675,274를 포함한 다음, 염색체 10의 염기 89,675,277 내지 89,675,337을 포함한다.
또 다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 PTEN의 코돈 136 다음의 아미노산 잔기 "Gly-Met"의 삽입을 포함한다(예를 들어, 서브게놈 간격은 염색체 10의 뉴클레오타이드 89,692,864 내지 89,692,924 다음에, 뉴클레오타이드 서열 "GGNATG", 다음에 염색체 10의 뉴클레오타이드 89,692,925 내지 89,692,980을 포함한다).
또 다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 CDKN2A 유전자의 결실을 포함한다(예를 들어, 서브게놈 간격은 염색체 9의 염기 22,001,175 내지 22,001,235에 인접한 염색체 9의 뉴클레오타이드 21,961,007 내지 21,961,067을 포함한다).
다른 실시형태에서, 핵산 샘플의 시퀀싱된 서브게놈 간격은 EML4:ALK 융합을 생성하는 역위를 포함한다(예를 들어, 서브게놈 간격은 염색체 2의 뉴클레오타이드 42,522,893 내지 42,522,953을 포함하며, 염색체 2의 뉴클레오타이드 29,449,993 내지 29,449,933과 병치된다).
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 BCR-ABL 융합을 초래하는 염색체간 전위를 포함한다(예를 들어, 서브게놈 간격은 염색체 22의 뉴클레오타이드 23,632,552 내지 23,632,612를 포함하며, 염색체 9의 뉴클레오타이드 133,681,793 내지 133,681,853과 병치된다).
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 FLT3 유전자의 내부 순차 중복(internal tandem duplication: ITD) 돌연변이를 포함한다(예를 들어, 서브게놈 간격은 동일 배향으로 2회 반복된 염색체 13의 뉴클레오타이드 28,608,259 내지 28,608,285를 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 미소부수체(microsatellite) 마커 서열을 포함한다(예를 들어, 서브게놈 간격은 D2S123의 미소부수체 마커 서열, 예를 들어 염색체 2의 뉴클레오타이드 51,288,380 내지 51,288,500 및 뉴클레오타이드 51,288,560 내지 51,288,680을 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 융합 서열에 대응되는 뉴클레오타이드 서열을 포함한다(예를 들어, 융합 전사체 또는 비-융합 전사체의 암 관련 대안의 스플라이싱된 형태).
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 암-관련 표현형을 표시한다(예를 들어, 암 위험, 암 진행, 암 치료 반응 또는 치료에 대한 저항, 종양 단계, 전이 가능성 등 중 하나 이상). 특정 실시형태에서, 시퀀싱된 핵산 샘플의 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 양성 임상적 결과의 예측, 및/또는 치료에 대한 반응이다. 다른 실시형태에서, 시퀀싱된 핵산 샘플의 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 음성 임상적 결과의 예측, 및/또는 치료에 대한 반응이다. 특정 실시형태에서, 시퀀싱된 핵산 샘플의 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 발생한 암에 대한 유전적(예를 들어, 생식계열 위험) 인자를 표시한다(예를 들어, 유전자 또는 유전자 생성물은 BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL 또는 WT1 중 하나 이상으로부터 선택된다).
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 표 1, 1A, 3 또는 4에 기재된 암 유형 중 하나 이상으로부터 선택된 암과 관련된 표 1, 1A, 3 또는 4에 나타낸 하나 이상의 유전자 또는 유전자 생성물로부터 유래된다.
일 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, CML, ALL 또는 T-ALL 중 하나 이상으로부터 선택된 연조직 악성 종양과 관련된 ABL-1 유전자 또는 유전자 생성물로부터 유래된다. 다른 실시형태에서, 시퀀싱된 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 유방, 결장직장, 난소 또는 비소세포 폐암(NSCLC) 중 하나 이상으로부터 선택된 암과 관련된 AKT1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, ALCL, NSCLC 또는 신경아세포종 중 하나 이상으로부터 선택된 암과 관련된 ALK 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 결장직장, 췌장, 유건종, 간모세포종, 신경교종 또는 다른 CNS 암 또는 종양 중 하나 이상으로부터 선택된 암과 관련된 APC 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 흑색종, 결장직장 암, 폐암, 다른 상피 악성종양 또는 AML 또는 ALL을 포함하는 혈액학적 악성 종양 중 하나 이상으로부터 선택된 암과 관련된 BRAF 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 흑색종, 췌장 또는 다른 종양 유형 중 하나 이상으로부터 선택된 암과 관련된 CDKN2A 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 시퀀싱된 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, AML 또는 MDS 중 하나 이상으로부터 선택된 암과 관련된 CEBPA 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 결장직장, 난소, 간모세포종 또는 다형성 침샘 선암종 중 하나 이상으로부터 선택된 암과 관련된 CTNNB1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 신경교종, 폐암 또는 NSCLC 중 하나 이상으로부터 선택된 암과 관련된 EGFR 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 유방, 난소, NSCLC, 위 또는 다른 고형 종양 중 하나 이상으로부터 선택된 암과 양성으로 또는 음성으로 관련된 ERBB2 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 유방, 난소 또는 자궁내막 종양 중 하나 이상으로부터 선택된 암과 관련된 ESR1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 MPD 또는 NHL 중 하나 이상으로부터 선택된 암과 관련된 FGFR1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 위, NSCLC 또는 자궁내막 종양 중 하나 이상으로부터 선택된 암과 관련된 FGFR2 유전자 또는 유전자 생성물로부터 선택된다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 위, NSCLC 또는 자궁내막 종양 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 방광암, 다발성 골수종 또는 T-세포 림프종 중 하나 이상으로부터 선택된 암과 관련된 FGFR3 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격으로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, AML, 흑색종, 결장직장, 유두 갑상선, 난소, 비소세포폐암(NSCLC), 담도암 또는 모양세포 성상세포종 중 하나 이상으로부터 선택된 암과 관련된 FLT3 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격으로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 횡문근육종, 신경절아세포종, 방광, 육종 또는 다른 암 유형 중 하나 이상으로부터 선택된 암과 관련된 HRAS 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 ALL, AML, MPD 또는 CML 중 하나 이상으로부터 선택된 암과 관련된 JAK2 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 위장관 기질종양(GIST), AML, TGCT, 비만세포증, 점막 흑색종 또는 상피종 중 하나 이상으로부터 선택된 암과 관련된 KIT 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 췌장, 결장, 결장직장, 폐, 갑상선 또는 AML 중 하나 이상으로부터 선택된 암과 관련된 KRAS 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 신장 또는 두경부 편평세포암종 중 하나 이상으로부터 선택된 암과 관련된 MET 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 시퀀싱된 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 AML 또는 ALL 중 하나 이상으로부터 선택된 암과 관련된 MLL 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 암성 표현형, 예를 들어 신경섬유종 또는 신경교종 중 하나 이상으로부터 선택된 암과 관련된 NF1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 T-ALL 암과 관련된 NOTCH1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 NHL, APL 또는 AML 중 하나 이상으로부터 선택된 암과 관련된 NPM1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 흑색종, 결장직장 암, 다발성 골수종, AML 또는 갑상선 암 중 하나 이상으로부터 선택된 암과 관련된 NRAS 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 GIST 또는 특발성 호산구 증가증 중 하나 이상으로부터 선택된 암과 관련된 PDGFRA 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 결장직장, 위, 교모세포종 또는 유방암 중 하나 이상으로부터 선택된 암과 관련된 PIK3CA 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 결장직장, 신경교종, 전립선 또는 자궁내막 암 중 하나 이상으로부터 선택된 암과 관련된 PTEN 유전자 또는 유전자 생성물로부어 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어, 망막아세포종, 육종, 유방 또는 소세포폐암종 중 하나 이상으로부터 선택된 암과 관련된 RB1 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 수질성 갑상선, 유두 갑상선 또는 갈색세포종 중 하나 이상으로부터 선택된 암과 관련된 RET 유전자 또는 유전자 생성물로부터 유래된다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 암성 표현형, 예를 들어 유방, 결장직장, 폐, 육종, 부신피질, 신경교종 또는 다른 종양 유형 중 하나 이상으로부터 선택된 암과 관련된 TP53 유전자 또는 유전자 생성물로부터 유래된다.
일 실시형태에서, 핵산 샘플의 서브게놈 간격은 치료 반응의 양성 예측자이다. 치료 반응의 양성 예측자의 예는, 이하에 제한되는 것은 아니지만, NSCLC 환자에서 소분자 EGFR TKI(예를 들어, 이레사(Iressa)/게피티닙(gefitinib))에 대한 반응을 예측하는 EGFR 유전자 내 활성화 돌연변이; NSCLC 환자에서 ALK 억제제(예를 들어, PF-02341066)에 대한 반응을 예측하는 EML4/ALK 융합 유전자의 존재; 흑색종 환자에서 BRAF 억제(예를 들어, PLX-4032)에 반응성을 예측하는 BRAF V600E 돌연변이의 존재를 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 치료 반응의 음성 예측자이다. 치료 반응의 음성 예측자의 예는, 이하에 제한되는 것은 아니지만, CRC 환자에서 항-EGFR 단클론성 항체(세툭시맙, 파니투무맙)에 대한 반응의 결여를 예측하는 KRAS 유전자 내 활성화 돌연변이; 및 CML 환자에서 글리벡(Gleevec)/이마티닙(imatinib)에 내성을 예측하는 BCR/Abl 융합 유전자 내 M351T 돌연변이의 존재를 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 예후 인자이다. 예후 인자의 예는, 이하에 제한되는 것은 아니지만, AML 환자에서 재발에 대한 음성 예후인 FLT3 유전자 내 삽입 돌연변이의 존재; 수질성 갑상선 암종 환자에서 생존을 위한 음성 예후 인자인 특이적 RET 유전자 돌연변이, 예를 들어 M918T의 존재를 포함한다.
다른 실시형태에서, 핵산 샘플의 서브게놈 간격은 진단 인자이다. 예후 인자의 예는, 이하에 제한되는 것은 아니지만, CML에 대해 진단적인 BCR/Abl 융합 유전자의 존재; 및 신장의 육종양에 진단적인 SMARCB1 돌연변이의 존재를 포함한다.
다른 실시형태에서, 핵산 샘플은 종양 샘플 내 세포의 소수(예를 들어, 5% 미만)에서 존재하는 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다. 일 실시형태에서, 핵산 샘플은 암-관련 표현형과, 예를 들어 양성으로 또는 음성으로 관련되지만, 종양 샘플 내 세포의 소수(예를 들어, 5% 미만)에 존재하는 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다. 다른 실시형태에서, 핵산 샘플은 종양 샘플 내 세포의 50, 40, 30, 10, 5 또는 1% 미만으로 존재하는 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다. 또 다른 실시형태에서, 핵산 샘플은 종양 샘플 내 세포의 50, 60, 70, 80% 이상에 존재하는 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다.
또 다른 실시형태에서, 핵산 샘플은 종양 샘플 내 종양 세포 게놈의 암호 영역의 5, 1, 0.5, 0.1%, 0.01%, 0.001% 미만으로 존재하는 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다.
일 실시형태에서, 핵산 샘플은 종양 또는 암과 관련된 유전자 또는 유전자 생성물(예를 들어, 양성 또는 음성치료 반응 예측자이며, 종양 또는 암의 차별적인 진단을 가능하게 하는 양성 또는 음성 예후 인자임, 예를 들어, ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1 및 TP53 중 하나 이상으로부터 선택된 유전자 또는 유전자 생성물)로부터의 서브게놈 간격을 포함한다.
일 실시형태에서, 유전자 또는 유전자 생성물과 관련된 암성 표현형은 종양 샘플로서 동일한 종양 유형이다. 다른 실시형태에서, 유전자 또는 유전자 생성물과 관련된 암성 표현형은 종양 샘플로서 상이한 종양 유형으로부터 유래된다.
특정 실시형태에서, 해당 방법 또는 분석은 적어도 X명의 피험체로부터의 종양 샘플로부터 핵산 샘플을 시퀀싱하는 단계를 포함한다(여기서 X = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40명 이상의 피험체임). 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 가질 위험에 있는 인간이다. 해당 방법은 적어도 X명의 피험체로부터 본 명세서에 기재된 적어도 5, 10, 15, 20, 30, 40, 50, 75개 이상의 유전자 또는 유전자 생성물(예를 들어, 표 1, 1A, 2, 3 또는 4의 유전자 또는 유전자 생성물)을 시퀀싱하는 단계를 포함한다. 특정 실시형태에서, 유전자 또는 유전자 생성물은 암성 표현형, 예를 들어, 암 위험, 암 진행, 암 치료 반응 또는 치료에 대한 저항 중 하나 이상과 관련된 변경을 포함한다.
다른 실시형태에서 또는 상기 언급한 실시형태에 추가로, 해당 방법 또는 분석은 종양 샘플로서 동일 피험체로부터의 유전자 또는 유전자 생성물로부터의 대조군 또는 기준 서브게놈 간격의 시퀀싱, 예를 들어 본 명세서에 기재된 유전자 또는 유전자 생성물(예를 들어, 표 1, 1A, 2, 3 또는 4의 유전자 또는 유전자 생성물)의 야생형 또는 비-돌연변이된 뉴클레오타이드 서열을 포함한다. 일 실시형태에서, 대조군 유전자 또는 유전자 생성물은 종양을 가지거나 또는 가질 위험에 있는 동일한 피험체로부터 또는 상이한 피험체로부터의 종양 샘플(예를 들어, 동일 또는 상이한 종양 샘플; 정상(예를 들어, 비-암성) 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플) 중 하나 이상)로서 동일 피험체 또는 상이한 피험체로부터 유래된다.
다른 실시형태에서 또는 상기 언급한 실시형태에 추가로, 해당 방법 또는 분석은 약물 대사, 약물 반응 또는 독성(본 명세서에 기재된 PGx 유전자)과 관련된 유전자 내에 존재하는 서브게놈 간격을 시퀀싱하는 단계를 포함한다. 특정 실시형태에서, 시퀀싱된 서브게놈 간격은 변경(예를 들어, 단일 뉴클레오타이드 다형성 (SNP))을 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 제1 피험체로부터 표 1, 1A, 2, 3 또는 4의 유전자 또는 유전자 생성물의 제1 세트를 시퀀싱하는 단계(및/또는 시퀀싱의 결과를 보고하는 단계)를 포함한다. 다른 실시형태에서, 해당 방법 또는 분석은 제1 또는 제2 피험체로부터 표 1, 1A, 2, 3 또는 4로부터의 유전자 또는 유전자 생성물의 제2 세트, 제3 세트 또는 그 이상의(예를 들어, 중복되지만 상이한) 세트를 시퀀싱하는 단계(및/또는 시퀀싱의 결과를 보고하는 단계)를 포함한다. 특정 실시형태에서, 제1 피험체로부터 종양 샘플은 제1 유형의 종양을 포함하며, 제2 피험체로부터의 종양 샘플은 제2 유형의 종양을 포함한다. 다른 실시형태에서, 제1 피험체 및 제2 피험체로부터의 종양 샘플은 동일 종양 유형으로부터 유래된다.
특정 실시형태에서, 해당 방법 또는 분석은 다음 중 하나 이상을 추가로 포함한다:
(i) 핵산 샘플을 핑거프린팅하는 단계;
(ii) 핵산 샘플에서 유전자 또는 유전자 생성물(예를 들어, 본 명세서에 기재된 유전자 또는 유전자 생성물)의 존재비를 정량화하는 단계;
(iii) 샘플 내 전사체의 상대적 존재비를 정량화하는 단계;
(iv) 특정 피험체(예를 들어, 정상 대조군 또는 암 환자)에 속하는 핵산 샘플을 확인하는 단계;
(v) 핵산 샘플에서 유전적 특성을 확인하는 단계(예를 들어, 하나 이상의 피험체의 유전적 구성(예를 들어, 민족성, 인종, 가족적 특성));
(vi) 핵산 샘플 내 배수성을 결정하는 단계; 핵산 샘플 내 이형접합성의 소실을 결정하는 단계;
(vii) 핵산 샘플 내 유전자 복제물 사건의 존재 또는 부재를 결정하는 단계;
(viii) 핵산 샘플 내 유전자 증폭 사건의 존재 또는 부재를 결정하는 단계; 또는
(ix) 핵산 샘플 내 종양/정상 세포 혼합물의 수준을 결정하는 단계.
다른 실시형태에서, 핵산 샘플은 다수의 종양 핵산 구성원, 기준 또는 대조군(예를 들어, 야생형) 핵산 구성원, 및/또는 종양 샘플로부터 PGx 관련 핵산 구성원(예를 들어, 본 명세서에 기재된 서브게놈 간격을 포함하는 핵산)을 포함하는 라이브러리 또는 선택된 라이브러리 결과물을 포함한다. 일 실시형태에서, 라이브러리(예를 들어, 핵산 라이브러리)는 다수의 구성원, 예를 들어 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체로부터 표적 핵산 구성원을 포함한다. 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 가질 위험에 있는 인간이다. 특정 실시형태에서, 라이브러리는 종양 또는 암-관련 핵산 구성원 및 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체로부터의 대조군 핵산 단편을 추가로 초함한다.
특정 실시형태에서, 서브게놈 간격의 선택된 서브세트는 용액- 또는 고체 지지체-기반 혼성화에 의해 핵산 샘플로부터 분리되거나 또는 풍부화된다. 일 실시형태에서, 해당 방법 또는 분석은 핵산 라이브러리(예를 들어, 라이브러리 캐치)의 선택된 구성원을 제공한다. 해당 방법은
다수의 구성원, 예를 들어, 표적 구성원(예를 들어, 다수의 종양 또는 암-관련 구성원, 기준 구성원, 및/또는 PGx 구성원을 포함)을 포함하는 라이브러리(예를 들어, 핵산 라이브러리)를 제공하는 단계;
라이브러리를, 예를 들어 용액- 또는 고체 지지체-기반 반응에서 다수의 베이트(예를 들어, 올리고뉴클레오타이드 베이트)와 접촉시켜, 다수의 베이트/구성원 혼성체를 포함하는 혼성 혼합물을 형성하는 단계;
예를 들어, 상기 다수의 베이트/구성원 혼성체를 분리시키는 결합 완전체와 상기 혼성 혼합물을 접촉시킴으로써, 상기 혼성 혼합물로부터 다수의 베이트/구성원 혼성체를 분리시키고,
이에 의해 라이브러리-캐치(예를 들어, 라이브러리로부터 핵산 분자의 선택된 또는 풍부화된 서브그룹)를 제공하는 단계를 포함하되,
다수의 베이트는 다음 중 적어도 1 또는 2가지를 포함한다:
a) 본 명세서에 기재된 바와 같은 종양 또는 기준 유전자 또는 유전자 생성물, 예를 들어 표 1, 1A, 3 또는 4에 기재된 바와 같은 종양 또는 유전자 또는 유전자 생성물로부터 서브게놈 간격을 포함하는 종양 또는 암-관련 또는 기준(예를 들어, 야생형) 구성원을 선택하는 제1 베이트 세트;
b) 표 1 또는 2에 기재된 바와 같은 유전자 또는 유전자 생성물로부터 서브게놈 간격(a)에서와 같은 동일 또는 상이한 서브게놈 간격으로)을 포함하는 PGx 구성원을 선택하는 제2 베이트 세트.
특정 실시형태에서, 해당 방법 또는 분석은 상기 구성원을 시퀀싱하는 단계를 추가로 포함한다. 특정 실시형태에서, 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체로부터의 종양 구성원이 시퀀싱된다(예를 들어, 표 1 또는 1A로부터의 유전자 또는 유전자 생성물로부터 적어도 50, 75, 100 또는 150 서브게놈 간격은 각 피험체로부터 시퀀싱된다).
특정 실시형태에서, 해당 방법 또는 분석은 핵산 샘플 내에서 표 1로부터 적어도 10(예를 들어, 20, 30, 40)개의 우선권, 암 또는 PGx 유전자 또는 유전자 생성물에서 사전선택된 변경(예를 들어, 대립유전자 변화)을 검출하는 단계를 추가로 포함한다. 특정 실시형태에서, 변경(예를 들어, 대립유전자 변화)은, 특히 세포 유전학적 이상, 비상호 전위, 재배열, 염색체내 역위, 돌연변이, 점 돌연변이, 결실, 유전자 복제수의 변화, SNP를 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 기준 값(예를 들어, 대조군 샘플의 문헌 보고 또는 서열, 예를 들어 종양 샘플로서 동일 피험체 또는 상이한 피험체로부터의 혈액 매치된 대조군 또는 NAT(정상 인접 종양))에 대해 변경(예를 들어, 대립유전자 변화)의 검출된 존재 또는 부재를 비교하는 단계를 추가로 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 변경(예를 들어, 사전선택된 대립유전자 변화)의 존재 또는 부재를 제출하는 단계 및, 예를 들어 제출을 포함하는 보고를 제공하는 단계를 추가로 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 변경에 주석을 다는 단계, 및 예를 들어, 사전선택된 대립유전자 변형에 돌연변이 구조, 예를 들어 미스-센스 돌연변이의 표시 또는 함수, 예를 들어 질병 표현형과 관계로 주석을 다는 단계를 추가로 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 데이터 세트를 제공하는 단계를 추가로 포함하되, 데이터 세트의 각 구성요소는 종양 유형, 유전자 및 사전선택된 변경(예를 들어, 대립유전자 변형)("TGA")의 관계를 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 TGA의 존재 또는 부재 및 선택적으로 피험체의 관련된 주석을 제출하여 보고를 형성하는 단계를 추가로 포함한다.
특정 실시형태에서, 해당 방법 또는 분석은 보고를 수용 관계자에게 전달하는 단계를 추가로 포함한다.
분석, 예를 들어 상기 언급한 선택 방법을 포함하는 멀티플렉스 분석 및 시약이 제공된다.
핵산 샘플
다양한 조직 샘플은 본 방법에 사용된 핵산 샘플의 공급원일 수 있다. 게놈 또는 서브게놈 핵산(예를 들어, DNA 또는 RNA)은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플, 혈중 종양 세포를 함유하는 샘플(CTC) 또는 임의의 정상 대조군))로부터 분리될 수 있다. 특정 실시형태에서, 조직 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀 포매(FFPE) 조직 제조물로서 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플 내에 포매될 수 있다. 단리 단계는 개개 염색체의 유동-분리(flow-sorting); 및/또는 피험체 샘플의 마이크로-해부(예를 들어, 종양 샘플, NAT, 혈액 샘플)를 포함할 수 있다.
"단리된" 핵산 분자는 핵산 분자의 천연 공급원에 존재하는 다른 핵산 분자로부터 분리된 것이다. 특정 실시형태에서, "단리된" 핵산 분자는 핵산이 유래된 유기체의 게놈 DNA에서 핵산에 자연적으로 측접한 서열(예컨대 단백질-암호화 서열)(즉, 핵산의 5' 및 3'에 위치된 서열)이 없다. 예를 들어, 다양한 실시형태에서, 분리된 핵산 분자는 핵산이 유래된 세포의 게놈 DNA에서 핵산 분자에 자연적으로 측접한 약 5 kB 미만, 약 4 kB 미만, 약 3 kB 미만, 약 2 kB 미만, 약 1 kB 미만, 약 0.5 kB 미만 또는 약 0.1 kB의 뉴클레오타이드 서열을 함유할 수 있다. 게다가, "단리된" 핵산 분자, 예컨대 cDNA 분자는 재조합 기법에 의해 생성될 때 다른 세포 물질 또는 배양물이 실질적으로 없거나 또는 화학적으로 합성될 때 화학적 전구체 또는 다른 화학물질이 실질적으로 없을 수 있다.
"다른 세포 물질 또는 배양 배지가 실질적으로 없는"이라는 표현은 핵산 분자가 그것이 단리되거나 또는 재조합적으로 생성된 세포의 세포 성분으로부터 분리된, 핵산 분자의 제조를 포함한다. 따라서, 세포 물질이 실질적으로 없는 핵산 분자는 약 30% 미만, 약 20% 미만, 약 10% 미만 또는 약 5% 미만(건조 중량으로)의 다른 세포 물질 또는 다른 배양 배지를 갖는 핵산 분자의 제조를 포함한다.
특정 실시형태에서, 핵산은 연령 샘플, 예를 들어 연령 FFPE 샘플로부터 단리된다. 연령 샘플은, 예를 들어 연령, 예를 들어 1세, 2세, 3세, 4세, 5세, 10세, 15세, 20세, 25세, 50세, 75 세 또는 100세 이상일 수 있다.
핵산 샘플은 다양한 크기의 조직 샘플(예를 들어, 생검 또는 FFPE 샘플)로부터 얻을 수 있다. 예를 들어, 핵산은 5 내지 200㎛ 또는 그 이상의 조직 샘플로부터 단리될 수 있다. 예를 들어, 조직 샘플은 5㎛, 10㎛, 20㎛, 30㎛, 40㎛, 50㎛, 70㎛, 100㎛, 110㎛, 120㎛, 150㎛ 또는 200㎛ 이상으로 측정될 수 있다.
조직 샘플로부터 DNA 단리를 위한 프로토콜은 실시예 1에서 제공된다. 포름알데하이드- 또는 파라포름알데하이드-고정, 파라핀-포매(FFPE) 조직으로부터 핵산(예를 들어, DNA)을 단리시키기 위한 추가적인 방법은, 예를 들어 문헌[Cronin M. et al., (2004) Am J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429], 앰비온 리커버올(Ambion RecoverAll)(상표명) 전체 핵산 단리 프로토콜(Ambion, Cat. No. AM1975, September 2008), 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트 기술 매뉴얼(프로메가(Promega) 문헌 #TM349, 2011년 2월), E.Z.N.A.(등록상표) FFPE DNA 키트 핸드북(조지아주 노크로스에 소재한 오메카 바이오-테크(OMEGA bio-tek), 제품 번호 D3399-00, D3399-01 및 D3399-02; 2009년 6월), 및 QIAamp(등록상표) DNA FFPE 조직 핸드북(퀴아젠(Qiagen), 카탈로그 번호 37625, 2007년 10월)에 개시된다. 리커버올(RecoverAll)(상표명) 전체 핵산 단리 키트는 파라핀-포매된 샘플을 가용화하기 위하여 상승된 온도에서 자일렌을 사용하고, 핵산을 포획하기 위하여 유리-섬유 필터를 사용한다. 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트는 FFPE 조직의 1 내지 10㎛ 부문으로부터 게놈 DNA의 정제를 위해 맥스웰(Maxwell)(등록상표) 16 기기와 함께 사용된다. DNA는 실리카-클래드 상자성 입자(PMP)를 사용하여 정지되고, 낮은 용리 부피로 용리된다. E.Z.N.A.(등록상표) FFPE DNA 키트는 게놈 DNA의 단리를 위한 스핀 칼럼 및 완충제 시스템을 사용한다. QIAamp(등록상표) DNA FFPE 조직 키트는 게놈 및 미토콘드리아 DNA의 정제를 위해 QIAamp(등록상표) DNA 마이크로기법을 사용한다. 혈액으로부터 DNA 단리를 위한 프로토콜은, 예를 들어 맥스웰(Maxwell)(등록상표) 16 LEV 혈액 DNA 키트 및 맥스웰(Maxwell) 16 경구 면봉 LEV DNA 정제 키트 기술 매뉴얼(프로메가(Promega) 문헌 #TM333, 2011년 1월 1일)]에 개시된다.
RNA 단리를 위한 프로토콜은, 예를 들어 맥스웰(Maxwell)(등록상표) 16 전체 RNA 정제 키트 기술 공고(프로메가(Promega) 문헌 #TB351, 2009년 8월)]에 개시된다.
단리된 핵산 샘플(예를 들어, 게놈 DNA 샘플)은 일상적인 기법에 의해 단편화되거나 또는 전단될 수 있다. 예를 들어, 게놈 DNA는 물리적 전단 방법, 효소적 절단 방법, 화학적 절단 방법 및 당업자에게 잘 알려진 다른 방법에 의해 단편화될 수 있다. 핵산 라이브러리는 모든 또는 실질적으로 모든 게놈의 복잡성을 함유할 수 있다. 이 내용에서 "실질적으로 모든"이라는 용어는 처리의 개시 단계 동안 사실상 게놈 복잡성의 일부 원치않는 소실이 있을 수 있다는 가능성을 지칭한다. 본 명세서에 기재된 방법은 또한 핵산 라이브러리가 게놈의 일부인 경우, 즉 게놈의 복잡성이 설계에 의해 감소되는 경우에 유용하다. 일부 실시형태에서, 게놈의 임의의 선택된 부분은 본 명세서에 기재된 방법과 함께 사용될 수 있다. 특정 실시형태에서, 전체 엑솜 또는 이것의 서브세트는 단리된다.
본 발명에서 특징으로 하는 방법은 핵산 샘플을 단리시켜 라이브러리(예를 들어, 본 명세서에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함할 수 있다. 특정 실시형태에서, 핵산 샘플은 전체 게놈, 서브게놈 단편 또는 둘 다를 포함한다. 단리된 핵산 샘플은 핵산 라이브러리를 제조하기 위해 사용될 수 있다. 따라서, 일 실시형태에서, 본 발명에서 특징으로 하는 방법은 핵산 샘플을 단리시켜 라이브러리(예를 들어, 본 명세서에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 단리시키고 제조하기 위한 프로토콜은 당업계에 공지되어 있다(예를 들어, 일루미나(Illumina)의 게놈 DNA 샘플 제조 키트). 특정 실시형태에서, 게놈 또는 서브게놈 DNA 단편은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플 또는 임의의 정상 대조군))로부터 단리된다. 일 실시형태에서, 샘플(예를 들어, 종양 또는 NAT 샘플)은 보존된 표본이다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플 내에 포매된다. 특정 실시형태에서, 단리 단계는 개개의 염색체의 유동-분리단계; 및/또는 피험체 샘플(예를 들어, 종양 샘플, NAT, 혈액 샘플)의 마이크로해부 단계를 포함한다. 특정 실시형태에서, 핵산 라이브러리를 만들기 위해 사용된 핵산 샘플은 5 마이크로그램 미만, 1 마이크로그램 미만 또는 500ng 미만, 200ng 미만, 100ng 미만, 50ng 미만, 10ng 미만, 5ng 미만 또는 1ng 미만이다.
또 다른 실시형태에서, 라이브러리를 만들기 위해 사용되는 핵산 샘플은 RNA 또는 RNA로부터 유래된 cDNA를 포함한다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 일부 실시형태에서, 전체 RNA 제조물 내 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의해 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.
해당 방법은 당업자에게 잘 공지된 특이적 또는 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다. 일부 실시형태에서, 특정 실시형태에서, 핵산 샘플은, 무작위-프라이밍된 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭된다.
다른 실시형태에서, 핵산 샘플은 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단되고, 합성 어댑터에 결찰되며, 크기가 선택되고(예를 들어, 분취 겔 전기 영동에 의함), 증폭된다(예를 들어, PCR에 의함). 다른 실시형태에서, 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성 선택 전 크기 선택 또는 증폭을 명확하게 하지 않고 사용된다.
다른 실시형태에서, 단리된 DNA(예를 들어, 게놈 DNA)는 단편화되거나 또는 전단된다. 일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 감소된 표현인 게놈 DNA의 하위단편(subfraction) 또는, 예를 들어 다른 수단에 의해 하위단편화된 게놈의 한정된 일부를 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다.
일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 감소된 표현인 게놈 DNA의 하위단편 또는, 예를 들어 다른 수단에 의해 하위단편화된 게놈의 한정된 일부를 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 단리시키고, 제조하기 위한 프로토콜은 당업계에 공지되어 있으며(예를 들어, 일루미나(Illumina)의 게놈 DNA 샘플 제조 키트) 본 명세서에서 실시예 2A, 2B 및 3으로서 기재된다. DNA 전단을 위한 대안의 방법은 본 명세서에서 실시예 2B로서 기재된다. 예를 들어, 대안의 DNA 전단 방법은 더 자동화가능하며 및/또는 더 효율적일 수 있다(예를 들어 분해된 FFPE 샘플에 의해). DNA 전단 방법에 대한 대안은 또한 라이브러리 제조 동안 결찰 단계를 회피하기 위해 사용될 수 있다.
본 명세서에 기재된 방법은 공급원 DNA의 양이 제한될 때(예를 들어, 전체-게놈 증폭 후 조차), 소량의 핵산을 사용하여 수행될 수 있다. 일 실시형태에서, 핵산은 약 5㎍ 미만, 4㎍, 3㎍, 2㎍, 1㎍, 0.8㎍, 0.7㎍, 0.6㎍, 0.5㎍또는 400ng, 300ng, 200ng, 100ng, 50ng, 10ng, 5ng, 1ng 또는 그 미만인 핵산 샘플을 포함한다. 예를 들어, 전형적으로 50 내지 100ng의 게놈 DNA로 시작될 수 있다. 그러나 혼성화 단계, 예를 들어 용액 혼성화 전 게놈 DNA(예를 들어, PCR을 사용)를 증폭시킨다면, 더 적게 시작할 수 있다. 따라서, 혼성화, 예를 들어 용액 혼성화 전 게놈 DNA를 증폭시키는 것은 가능하지만, 필수적인 것은 아니다.
라이브러리를 만들기 위해 사용된 핵산 샘플은 또한 RNA 또는 RNA로부터 유래된 cDNA를 포함할 수 있다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 다른 실시형태에서, 전체 RNA 제조물 내 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의한 프라이밍에 의해 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.
해당 방법은 당업자에게 공지된 특이적 및 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다. 핵산 샘플은, 예를 들어 무작위-프라이밍 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭될 수 있다.
핵산 샘플은 본 명세서에 기재된 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단될 수 있고, 합성 어댑터에 결찰되며, 크기가 선택되고(예를 들어 분취 겔 전기영동에 의함) 증폭된다(예를 들어, PCR에 의함). 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성 선택 전 크기 선택 또는 증폭을 명확하게 하지 않고 사용된다.
라이브러리 구성원
본 명세서에서 사용되는 "구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는 핵산 분자, 예를 들어 라이브러리(또는 "라이브러리-캐치")의 구성원인 DNA 또는 RNA를 지칭한다. 라이브러리 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원 또는 PGx 구성원 중 하나 이상일 수 있다. 전형적으로, 구성원은 DNA 분자, 예를 들어 게놈 DNA 또는 cDNA 분자이다. 구성원은, 예를 들어 효소적으로 또는 전단에 의해 단편화된 게놈 DNA일 수 있다. 구성원은 피험체로부터의 뉴클레오타이드 서열을 포함할 수 있고, 또한 피험체, 예를 들어 프라이머 또는 어댑터(예를 들어, PCR 증폭에 대해 또는 시퀀싱에 대해)로부터 유래되지 않은 뉴클레오타이드 서열 또는 샘플, 예를 들어 "바코드" 서열을 확인하게 하는 서열을 포함할 수 있다.
본 명세서에서 사용된 바와 같은, "표적 구성원"은 핵산 라이브러리로부터 분리될 것이 요망되는 핵산 분자를 지칭한다. 일 실시형태에서, 표적 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원 또는 PGx 구성원일 수 있다. 핵산 라이브러리로부터 실제로 선택된 구성원은 본 명세서에서 "라이브러리 캐치"로서 지칭된다. 일 실시형태에서, 라이브러리-캐치는 라이브러리 구성원의 선택 또는 풍부화, 예를 들어 본 명세서에 기재된 혼성체 포획물 중 하나 이상의 라운드 후 라이브러리의 풍부화되거나 또는 선택된 결과물을 포함한다.
표적 구성원은 라이브러리의 하위그룹일 수 있으며, 즉 라이브러리 구성원의 모두가 본 명세서에 기재된 어떤 특정한 과정의 사용에 의해 선택되는 것은 아니다. 다른 실시형태에서, 표적 구성원은 요망되는 표적 영역 내에 있다. 예를 들어, 표적 구성원은 10%만큼 낮거나 또는 95% 내지 98%만큼 높거나 또는 그 이상인 라이브러리 구성원의 백분율일 수 있다. 일 실시형태에서, 라이브러리 캐치는 적어도 약 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9% 이상의 표적 구성원을 포함한다. 다른 실시형태에서, 라이브러리는 표적 구성원의 100%를 함유한다. 일 실시형태에서, 라이브러리 캐치의 순도(표적에 대해 배열되는 판독의 백분율)는 적어도 약 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9% 이상이다.
게놈 DNA로부터 얻은 표적 구성원(또는 라이브러리 캐치)는 전체 게놈 DNA의 작은 분획을 포함할 수 있으므로, 이는 약 0.0001% 미만, 적어도 약 0.0001%, 적어도 약 0.001%, 적어도 약 0.01% 또는 적어도 약 0.1%의 게놈 DNA 또는 전체 게놈 DNA의 더 유의한 분획을 포함하며, 이는 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% 또는 10%의 게놈 DNA 또는 10% 이상의 게놈 DNA를 포함한다.
일 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 게놈의 복잡한 혼합물로부터 선택된다. 예를 들어, 다른 세포 유형(예를 들어, 정상 세포)으로부터 DNA를 함유하는 샘플로부터 하나의 세포 유형(예를 들어, 암 세포)으로부터의 DNA 선택. 이러한 적용에서, 표적 구성원은 복합체 샘플 또는 더 유의한 분획에서 존재하는 핵산 서열의 전체 복잡성의 0.0001% 미만, 적어도 0.0001%, 적어도 약 0.001%, 적어도 약 0.01% 또는 적어도 약 0.1%를 포함할 수 있으므로, 이는 복합체 샘플 내 존재하는 핵산 서열의 전체 복잡성의 적어도 약 1%, 2%, 5%, 10% 또는 10% 이상을 포함한다.
일 실시형태에서, 본 명세서에 기재된 방법(예를 들어, 용액 혼성화 선택 방법)에 의해 선택된 표적 구성원(또는 라이브러리 캐치)은 게놈 엑손의 게놈 내 엑손의 모두 또는 일부, 예컨대 약 0.1%, 1%, 2%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95% 초과를 포함한다. 다른 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 엑손의 구체적 그룹, 예를 들어, 적어도 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000개의 특정 엑손, 예를 들어, 암과 같은 특정 질병과 관련된 엑손일 수 있다. 또 다른 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 엑손 또는 관심의 선택된 유전자의 다른 부분을 함유한다. 구체적 베이트 서열의 사용은 실행자가 특정 선택을 위한 핵산의 그룹으로부터 표적 서열(선택된 서열의 이상적 세트) 및 다수의 또는 소수의 엑손(또는 다른 서열)을 함유하는 핵산의 서브그룹(선택된 서열의 실제 세트)을 선택하기 위해 한다.
일 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 cDNA의 세트를 포함한다. cDNA의 포획은, 예를 들어 스플라이스 변이체를 찾기 위하여, 그리고 융합 전사체를 확인하기 위하여(예를 들어, 게놈 DNA 전위) 사용될 수 있다. 다른 실시형태에서, 표적 구성원(및 라이브러리 캐치)은 세포, 조직 또는 기관, 예를 들어 종양 내, 세포의 RNA 분획에서 발현된 단일 염기 변화 및 다른 서열 변화를 발견하기 위해 사용된다.
표적 구성원(또는 라이브러리 캐치)(예를 들어, 엑손, cDNA 및 다른 서열)은 원한다면 관련되거나 또는 관련되지 않을 수 있다. 예를 들어, 선택된 표적 구성원(및 라이브러리 캐치)은 질병에 수반된 유전자인 핵산의 그룹, 예컨대 암과 같은 하나 이상의 질병에 연루된 유전자의 그룹, 특이적 SNP를 함유하는 핵산의 그룹으로부터 얻어질 수 있다.
베이트의 설계 및 구성
베이트는 혼성화될 수 있는(예를 들어, 상보적인) 핵산 분자, 예를 들어 DNA 또는 RNA 분자일 수 있으며, 이에 의해 표적 핵산을 포획하게 한다. 일 실시형태에서, 베이트는 RNA 분자이다. 다른 실시형태에서, 베이트는 베이트에 의해 형성된 혼성체 및 베이트에 혼성화된 핵산의 결합 독립체, 예를 들어 앞서 언급한 결합 독립체를 포함한다. 일 실시형태에서, 베이트는 용액 상 혼성화에 적합하다.
전형적으로, RNA 분자는 베이트 서열로서 사용된다. RNA-DNA 듀플렉스는 DNA-DNA 듀플렉스보다 더 안정하며, 따라서 핵산의 잠재적으로 더 양호한 포획을 제공한다.
RNA 베이트는, 이하에 제한되는 것은 아니지만, 데노보(de novo) 화학 합성 및 DNA-의존적 RNA 폴리머라제를 사용하는 DNA분자의 전자를 포함하는, 당업계에 공지된 방법을 사용하여 본 명세서의 다른 곳에 기재된 바와 같이 만들어질 수 있다. 일 실시형태에서, 베이트 서열은 PCR과 같은 공지된 핵산 증폭 방법을 사용하여, 예를 들어 주형으로서 인간 DNA 또는 불량한 인간 DNA 샘플을 사용하여 생성된다. 그 다음에 올리고뉴클레오타이드는 RNA 베이트로 전환될 수 있다. 일 실시형태에서, 시험관내 전사는, 예를 들어 올리고뉴클레오타이드의 한 말단에 RNA 폴리머라제 프로모터 서열을 첨가하는 것을 기반으로 사용된다. 일 실시형태에서, RNA 폴리머라제 프로모터 서열은 베이트 서열을 증폭시키거나 또는 재증폭시킴으로써, 예를 들어 PCR 또는 다른 핵산 증폭 방법을 사용하여, 예를 들어 RNA 프로모터 서열로 각각의 표적-특이적 프라이머 쌍의 하나의 프라이머를 테일링(tailing)함으로써 베이트의 말단에 첨가된다. 일 실시형태에서, RNA 폴리머라제는 T7 폴리머라제, SP6 폴리머라제 또는 T3 폴리머라제이다. 일 실시형태에서, RNA 베이트는 태그, 예를 들어 친화도 태그로 표지된다. 일 실시형태에서, RNA 베이트는, 예를 들어 바이오틴화된 UTP를 사용하여 시험관내 전사에 의해 만들어진다. 다른 실시형태에서, RNA 베이트는 바이오틴 없이 생성된 다음, 바이오틴은 당업계에 잘 공지된 방법, 예컨대 소랄렌(psoralen) 가교를 사용하여 RNA 분자에 가교된다. 일 실시형태에서, RNA 베이트는 RNase-내성 RNA 분자인데, 이는, 예를 들어 전사 동안 변형된 뉴클레오타이드를 사용함으로써 만들어져서 RNase 분해에 저항하는 RNA 분자를 생성할 수 있다. 일 실시형태에서, RNA 베이트는 이중 가닥 DNA 표적의 단지 하나의 가닥에 대응된다. 전형적으로, 이러한 RNA 베이트는 자기-상보적이지 않으며, 혼성화 구동자로서 더 효과적이다.
베이트 세트는 기준 서열로부터 설계될 수 있으므로, 베이트는 기준 서열의 표적을 선택하는데 최적이다. 일부 실시형태에서, 베이트 서열은 혼합된 염기(예를 들어, 축퇴)를 사용하여 설계된다. 예를 들어, 혼합된 염기(들)는 보통의 SNP 또는 돌연변이의 위치(들)에서 베이트 서열에 포함되어 대립유전자들 둘 다(예를 들어, SNP와 비-SNP; 돌연변이체와 비-돌연변이체)를 잡는 베이트 서열을 최적화할 수 있다. 일부 실시형태에서, 모든 공지된 서열 변형(또는 이것의 서브세트)은 혼합된 축퇴 올리고뉴클레오타이드를 사용하는 것보다는 다중 올리고뉴클레오타이드 베이트에 의해 표적화될 수 있다.
특정 실시형태에서, 베이트 세트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 전형적으로, 베이트 세트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드, 또는 약 150 내지 200개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 다른 실시형태에서, 베이트 세트는 길이로 약 300개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다.
일부 실시형태에서, 올리고뉴클레오타이드에서 표적 구성원-특이적 서열은 길이로 약 40 내지 1000개의 뉴클레오타이드, 약 70 내지 300개의 뉴클레오타이드, 약 100 내지 200개의 뉴클레오타이드, 전형적으로 길이로 약 120 내지 170개의 뉴클레오타이드이다.
일부 실시형태에서, 베이트 세트는 결합 독립체를 포함한다. 결합 독립체는 각각의 베이트 서열 상에서 친화도 태그일 수 있다. 일부 실시형태에서, 친화도 태그는 바이오틴 분자 또는 햅텐이다. 특정 실시형태에서, 결합 독립체는 햅텐 또는 이것의 항원-결합 단편에 결합하는 아비딘 분자 또는 항체와 같은 상대에 결합함으로써 혼성화 혼합물로부터 베이트/구성원 혼성체를 분리시킨다.
다른 실시형태에서, 베이트 세트 내 올리고뉴클레오타이드는 동일 표적 구성원 서열에 대해 전방 및 후방의 상보적 서열을 함유하며, 이에 의해 후방-상보적(reverse-complemented) 구성원-특이적 서열을 갖는 올리고뉴클레오타이드는 또한 후방 상보적인 보편적 꼬리를 운반한다. 이는 동일 가닥인, 즉 서로 상보적이 아닌 RNA 전사체를 유발할 수 있다.
다른 실시형태에서, 베이트 세트는 하나 이상의 위치에서 축퇴 또는 혼합된 염기를 함유하는 올리고뉴클레오타이드를 포함한다. 또 다른 실시형태에서, 베이트 세트는 단일 종의 집단 또는 유기체의 군집에 존재하는 다중 또는 실질적으로 모든 알려진 서열 변이체를 포함한다. 일 실시형태에서, 베이트 세트는 인간 집단에 존재하는 다중 또는 실질적으로 모든 알려진 서열 변이체를 포함한다.
다른 실시형태에서, 베이트 세트는 cDNA 서열을 포함하거나 또는 cDNA 서열로부터 유래된다. 다른 실시형태에서, 베이트 세트는 게놈 DNA, cDNA 또는 클로닝된 DNA로부터 증폭된 증폭 생성물(예를 들어, PCR 생성물)을 포함한다.
다른 실시형태에서, 베이트 세트는 RNA 분자를 포함한다. 일부 실시형태에서, 세트는 화학적으로, 효소적으로 변형된 또는, 이하에 제한되는 것은 아니지만, RNase에 대해 더 안정하고 내성인 것을 포함하는 시험관내 전사된 RNA 분자를 포함한다.
또 다른 실시형태에서, 베이트는 본 명세서에 참조로서 포함된 미국특허 제2010/0029498호 및 문헌[Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189]에 기재된 방법에 의해 생성된다. 예를 들어, 바이오틴화된 RNA 베이트는 본래 마이크로어레이 상에서 합성된 합성의 긴 올리고뉴클레오타이드를 얻는 단계 및 올리고뉴클레오타이드를 증폭시켜 베이트 서열을 생성하는 단계에 의해 생성될 수 있다. 일부 실시형태에서, 베이트는 베이트 서열의 한 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하는 단계 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계에 의해 생성된다. 일 실시형태에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 애질런트 테크로놀로지스 인코포레이티드(Agilent Technologies, Inc.)와 같은 상업적 공급업자로부터 얻을 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭된다.
따라서, 상기 언급한 베이트 세트의 제조방법이 제공된다. 해당 방법은 하나 이상의 표적 특이적 베이트 올리고뉴클레오타이드 서열(예를 들어, 본 명세서에 기재된 바와 같은 하나 이상의 돌연변이 포획, 기준 또는 대조군 올리고뉴클레오타이드 서열)을 선택하는 단계; 표적 특이적 베이트 올리고뉴클레오타이드 서열의 풀을 얻는 단계(예를 들어, 표적 특이적 베이트 올리고뉴클레오타이드 서열의 풀을, 예를 들어, 마이크로어레이 합성에 의해 합성하는 단계); 및 선택적으로, 올리고뉴클레오타이드를 증폭시켜 베이트 세트를 생성하는 단계를 포함한다.
다른 실시형태에서, 해당 방법은 하나 이상의 바이오틴화된 프라이머를 사용하여 올리고뉴클레오타이드를 증폭시키는 단계(예를 들어, PCR에 의해)를 추가로 포함한다. 일부 실시형태에서, 올리고뉴클레오타이드는 마이크로어레이에 부착된 각각의 올리고뉴클레오타이드의 말단에서 보편적 서열을 포함한다. 해당 방법은 올리고뉴클레오타이드로부터 보편적 서열을 제거하는 단계를 추가로 포함할 수 있다. 이러한 방법은 또한 올리고뉴클레오타이드의 상보적 가닥을 제거하는 단계, 올리고뉴클레오타이드를 어닐링하는 단계 및 올리고뉴클레오타이드를 연장시키는 단계를 포함할 수 있다. 이들 실시형태의 일부에서, 올리고뉴클레오타이드를 증폭시키기 위한(예를 들어, PCR에 의해) 방법은 하나 이상의 바이오틴화된 프라이머를 사용한다. 일부 실시형태에서, 해당 방법은 증폭된 올리고뉴클레오타이드를 크기로 선택하는 단계를 추가로 포함한다.
일 실시형태에서, RNA 베이트 세트가 만들어진다. 해당 방법은 본 명세서에 따른 베이트 서열의 세트를 생성하는 단계, 베이트 서열의 한 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하는 단계 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계를 포함한다. RNA 폴리머라제는 T7 RNA 폴리머라제, SP6 RNA 폴리머라제 또는 T3 RNA 폴리머라제로부터 선택될 수 있다. 다른 실시형태에서, RNA 폴리머라제 프로모터 서열은 베이트 서열을 증폭시킴으로써(예를 들어, PCR에 의해) 베이트 서열의 말단에 첨가된다. 실시형태에서, 베이트 서열이 게놈 또는 cDNA 이외의 특이적 프라이머 쌍으로 PCR에 의해 증폭되는 경우, 각 쌍에서 두 개의 특이적 프라이머 중 하나의 5' 말단에 RNA 프로모터 서열을 첨가하는 것은 표준 방법을 사용하여 RNA 베이트로 전사될 수 있는 PCR 생성물을 야기할 것이다.
다른 실시형태에서, 베이트 세트는 주형으로서 인간 DNA 또는 풀링된 인간 DNA 샘플을 사용하여 생성될 수 있다. 이러한 실시형태에서, 올리고뉴클레오타이드는 폴리머라제 연쇄 반응(polymerase chain reaction: PCR)에 의해 증폭된다. 다른 실시형태에서, 증폭된 올리고뉴클레오타이드는 회전환 증폭(rolling circle amplification) 또는 고차가지(hyperbranched) 회전환 증폭에 의해 재증폭된다. 동일 방법은 또한 주형으로서 인간 DNA 또는 풀링된 인간 DNA 샘플을 사용하여 베이트 서열을 생성하기 위해 사용될 수 있다. 동일 방법은 또한, 이하에 제한되는 것은 아니지만, 제한 분해, 펄스장 겔 전기영동(pulsed-field gel electrophoresis), 유동분리, CsCl 밀도 구배 원심분리, 선택적 역학 재회합, 염색체 제조의 현미해부 및 당업자에게 공지된 다른 단편화 방법을 포함하는 다른 방법에 의해 얻어진 게놈의 하위분획(subfraction)을 사용하여 베이트 서열을 생성하는데 사용될 수 있다.
특정 실시형태에서, 베이트 세트 내 베이트의 수는 1,000 미만이다. 다른 실시형태에서, 베이트 세트 내 베이트의 수는 1,000 초과, 5,000 초과, 10,000 초과, 20,000 초과, 50,000 초과, 100,000 초과 또는 500,000 초과이다.
일 실시형태에서, 베이트 서열은 SNP를 암호화하는 표적 유전자 또는 유전자 생성물 또는 이것의 단편에서, 예를 들어 그것의 결합 능력(예를 들어, 친화성 및/또는 특이성)을 증가시키기 위해 SNP에 대한 염기 상보성을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, ABCB1, ABCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1 및 UMPS를 포함한다.
다른 실시형태에서, 베이트 세트는 암과 관련된 표적 유전자 또는 유전자 생성물 또는 이것의 단편에서 코돈을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, ABL1(예를 들어, 코돈 315), AKT1, ALK, APC(예를 들어, 코돈 1114, 1338, 1450 및 1556), AR, BRAF(예를 들어, 코돈 600), CDKN2A, CEBPA, CTNNB1(예를 들어, 코돈 32, 33, 34, 37, 41 및 45), EGFR(예를 들어, 719, 746 내지 750, 768, 790, 858 및 861), ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3(예를 들어, 코돈 835), HRAS(예를 들어, 코돈 12, 13 및 61), JAK2(예를 들어, 코돈 617), KIT(예를 들어, 코돈 816), KRAS(예를 들어, 코돈 12, 13 및 61), MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, PDGFRA, PIK3CA(예를 들어, 코돈 88, 542, 545, 546, 1047 및 1049), PTEN(예를 들어, 코돈 130, 173, 233 및 267), RB1, RET(예를 들어, 코돈 918), TP53(예를 들어,175, 245, 248, 273 및 306)을 포함한다.
또 다른 실시형태에서, 베이트 세트는 암과 관련된 표적 유전자 또는 유전자 생성물 또는 이것의 단편을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, ABL2, AKT2, AKT3, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDR, LRP1B, LTK, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK3, PAK3, PAX5, PDGFRB, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOX10, SOX2, SRC, STK11, TBX22, TET2, TGFBR2, TMPRSS2, TOP1, TSC1, TSC2, USP9X, VHL 및 WT1을 포함한다.
베이트 서열의 길이는 약 70개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드일 수 있다. 일 실시형태에서, 베이트 길이는 길이로 약 100 내지 300개의 뉴클레오타이드, 110 내지 200개의 뉴클레오타이드 또는 120 내지 170개의 뉴클레오타이드이다. 상기 언급한 것에 추가로, 길이로 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800 및 900개의 뉴클레오타이드의 중간체 올리고뉴클레오타이드 길이가 본 명세서에 기재된 방법에서 사용될 수 있다. 일부 실시형태에서, 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220 또는 230개의 염기의 올리고뉴클레오타이드가 사용될 수 있다.
각각의 베이트 서열은 하나 또는 양 말단 상에서 표적-특이적(예를 들어, 구성원-특이적) 베이트 서열 및 보편적 꼬리를 포함할 수 있다. 본 명세서에서 사용된 바와 같은, 용어 "베이트 서열"은 표적-특이적 베이트 서열 또는 표적-특이적 "베이트 서열"을 포함하는 전체 올리고뉴클레오타이드 및 올리고뉴클레오타이드의 다른 뉴클레오타이드를 지칭할 수 있다. 베이트 내 표적-특이적 서열은 길이로 약 40개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드이다. 일 실시형태에서, 표적-특이적 서열은 길이로 약 70개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 표적-특이적 서열은 길이로 약 100개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 또 다른 실시형태에서, 표적-특이적 서열은 길이로 약 120개의 뉴클레오타이드 내지 170개의 뉴클레오타이드, 전형적으로 길이로 120개의 뉴클레오타이드이다. 상기 언급한 것에 추가로 중간체 길이는 또한 본 명세서에 기재된 방법, 예컨대 길이로 약 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800 및 900개의 뉴클레오타이드의 표적-특이적 서열뿐만 아니라 상기-언급한 길이 사이의 길이의 표적-특이적 서열에서 사용될 수 있다.
일 실시형태에서, 베이트는 길이로 약 50 내지 200개(예를 들어, 길이로 약 50, 60, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 190 또는 200개의 뉴클레오타이드)의 뉴클레오타이드의 올리고머(예를 들어, RNA 올리고머, DNA 올리고머 또는 이들의 조합를 포함)이다. 일 실시형태에서, 각각의 베이트 올리고머는 약 120 내지 170 또는 전형적으로, 약 120개의 뉴클레오타이드를 포함하는데, 이는 표적 특이적 베이트 서열이다. 베이트는 하나 또는 양 말단에서 추가적인 비-표적 특이적 뉴클레오타이드 서열을 포함할 수 있다. 추가적인 뉴클레오타이드 서열은, 예를 들어 PCT 증폭에 대해 또는 베이트 식별자로서 사용될 수 있다. 특정 실시형태에서, 베이트는 추가적으로 본 명세서에 기재된 바와 같은 결합 독립체(예를 들어, 바이오틴 분자와 같은 포획 태그)를 포함한다. 결합 독립체, 예를 들어 바이오틴 분자는, 예를 들어 베이트의 5'-, 3'-말단에서 또는 내부로(예를 들어 바이오틴화된 뉴클레오타이드를 포함함으로써) 베이트에 부착될 수 있다. 일 실시형태에서, 바이오틴 분자는 베이트의 5'-말단에 부착된다.
하나의 대표적인 실시형태에서, 베이트는 길이로 약 150개의 뉴클레오타이드의 올리고뉴클레오타이드인데, 이것의 120개의 뉴클레오타이드는 표적-특이적 "베이트 서열"이다. 다른 30개의 뉴클레오타이드(예를 들어, 각 말단에서 15개의 뉴클레오타이드)는 PCR 증폭에 대해 사용된 보편적인 임의의 꼬리이다. 꼬리는 사용자에 의해 선택된 임의의 서열일 수 있다. 예를 들어, 합성 올리고뉴클레오타이드의 풀은 표적-특이적 베이트 서열을 나타내는 N120과 함께 5'-ATCGCACCAGCGTGTN120CACTGCGGCTCCTCA-3'(서열번호 1)의 서열의 올리고뉴클레오타이드를 포함할 수 있다.
본 명세서에 기재된 베이트 서열은 엑손 및 짧은 표적 서열의 선택을 위해 사용될 수 있다. 일 실시형태에서, 베이트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 베이트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드이다. 또 다른 실시형태에서, 베이트는 길이로 약 150개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 예를 들어 엑손 및 짧은 표적 서열의 선택을 위한 베이트 내 표적-특이적 서열은 길이로 약 40개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드이다. 일 실시형태에서, 표적-특이적 서열은 길이로 약 70개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 표적-특이적 서열은 길이로 약 100개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 또 다른 실시형태에서, 표적-특이적 서열은 길이로 약 120개의 뉴클레오타이드 내지 170개의 뉴클레오타이드이다.
일부 실시형태에서, 긴 올리고뉴클레오타이드는 표적 서열을 포획하는데 필요한 올리고뉴클레오타이드의 수를 최소화할 수 있다. 예를 들어, 하나의 올리고뉴클레오타이드는 엑손마다 사용될 수 있다. 인간 게놈 내 단백질-암호 엑손의 평균 및 중앙값 길이는 각각 약 164 내지 120개의 염기쌍이라는 것은 당업계에 공지되어 있다. 더 긴 베이트는 더욱 특이적이며, 더 짧은 것보다 더 양호하게 포획할 수 있다. 그 결과, 올리고뉴클레오타이드 베이트 서열 당 성공률은 짧은 올리고뉴클레오타이드보다 더 높다. 일 실시형태에서, 최소의 베이트로 덮인 서열은, 예를 들어 엑손-크기 표적에 대한 하나의 베이트의 크기(예를 들어, 120 내지 170개의 염기)이다. 베이트 서열의 길이를 결정하는 것에서, 불필요하게 긴 베이트가 표적에 직접적으로 인접한 더 많은 원치않는 DNA를 포획하는 것을 또한 고려할 수 있다. 더 긴 올리고뉴클레오타이드 베이트는 더 짧은 것보다 DNA 샘플 내 표적화된 영역에서 다형성에 대해 더 관대할 수 있다. 전형적으로, 베이트 서열은 기준 게놈 서열로부터 유래된다. 실제 DNA 샘플 내 표적 서열이 기준 서열로부터 벗어난다면, 예를 들어 단일-뉴클레오타이드 다형성(SNP)을 함유한다면, 이는 베이트에 대해 덜 효율적으로 혼성화될 수 있고, 따라서 베이트 서열에 혼성화된 서열에서 실제보다 적게 표시되거나 또는 완전히 없을 수 있다. SNP에 기인하는 대립유전자 드롭-아웃(drop-out)은, 예를 들어 120 내지 170개의 염기에서 단일의 잘못된 쌍이, 멀티플렉스 증폭 및 마이크로어레이 포획에서 각각 전형적인 베이트 또는 프라이머 길이인 20 또는 70개의 염기에서 단일의 잘못된 쌍보다 혼성체 안정성에서 더 적은 효과를 가질 수 있다는 이유로 더 긴 합성 베이트 분자를 지닐 가능성이 더 적을 수 있다.
게놈 영역과 같은 포획 베이트의 길이에 비해서 긴 표적의 선택을 위해, 인접한 서열의 표적화를 최소화하는 유일한 목적을 위해 베이트 서열의 최대 크기를 제한할 필요가 없다는 것을 제외하고, 베이트 서열 길이는 전형적으로 상기 언급한 짧은 표적에 대한 베이트와 동일한 크기 범위에 있다. 대안적으로, 올리고뉴클레오타이드는 훨씬 더 넓은 창(전형적으로 600개의 염기)을 가로질러 타일링될 수 있다. 이 방법은 전형적인 엑손보다 훨씬 더 큰(예를 들어, 약 500개의 염기) DNA단편을 포획하기 위해 사용될 수 있다. 그 결과, 훨씬 더 원치않는 측접하는 비-표적 서열이 선택된다.
베이트 합성
베이트는 올리고뉴클레오타이드의 어떤 유형, 예를 들어, DNA 또는 RNA일 수 있다. DNA 또는 RNA 베이트("올리고 베이트")는 개별적으로 합성될 수 있거나 또는 DNA 또는 RNA 베이트 세트("어레이 베이트")로서 어레이에서 합성될 수 있다. 어레이 포맷으로 제공되든 또는 단리된 올리고로 제공되든 올리고 베이트는 전형적으로 단일 가닥이다. 베이트는 추가적으로 본 명세서에 기재된 바와 같은 결합 독립체(예를 들어, 바이오틴 분자와 같은 포획 태그)를 포함할 수 있다. 결합 독립체, 예를 들어 바이오틴 분자는, 예를 들어 베이트의 5' 또는 3'-말단에서, 전형적으로 베이트의 5'-말단에서 베이트에 부착될 수 있다.
일부 실시형태에서, 개개의 올리고 베이트는 어레이 베이트 세트에 첨가될 수 있다. 이들 경우에, 올리고 베이트는 어레이 베이트에 의해 표적화된 것과 동일 영역을 표적화하기 위해 설계될 수 있고, 추가적인 올리고 베이트가 설계되고, 표준 어레이 베이트에 첨가되어 게놈의 특정 영역에서 향상되거나 또는 더 철저한 덮임률을 달성할 수 있다. 예를 들어, 추가적인 올리고 베이트는 표준 어레이 베이트 세트에 의한 초기 시퀀싱 라운드 후 불량한 시퀀싱 덮임률의 영역을 표적화하기 위해 설계될 수 있다. 일부 실시형태에서, 올리고 베이트는 어레이 베이트 세트에 대한 덮임률의 영역에 걸쳐 타일 효과(tiled effect) 또는 다른 올리고 베이트에 대한 덮임률의 영역에 걸쳐 타일 효과를 가지도록 설계된다.
일 실시형태에서, 개개의 올리고 베이트는 RNA 또는 DNA 올리고 어레이 베이트 세트 또는 이들의 조합(예를 들어, 상업적으로 입수가능한 어레이 베이트 세트)를 보충하기 위해 사용되는 DNA 올리고이다. 다른 실시형태에서, 개개의 올리고 베이트는 개별적으로 설계되고 합성된 올리고의 수집물인 RNA 또는 DNA 올리고 베이트 세트 또는 이들의 조합을 보충하는데 사용되는 DNA 올리고이다. 일 실시형태에서, 개개의 올리고 베이트는 RNA 또는 DNA 올리고 어레이 베이트 세트 또는 이들의 조합(예를 들어, 상업적으로 입수가능한 어레이 베이트 세트)을 보충하는데 사용되는 RNA 올리고이다. 다른 실시형태에서 개개의 올리고 베이트는 개별적으로 설계되고 합성된 올리고의 수집물인 RNA 또는 DNA 올리고 베이트 세트 또는 이들의 조합을 보충하는데 사용되는 RNA 올리고이다.
또 다른 실시형태에서, 개개의 올리고 베이트는 DNA 올리고 어레이 베이트 세트(예를 들어, 상업적으로 입수가능한 어레이 베이트 세트)를 보충하는데 사용되는 DNA 올리고이고, 다른 실시형태에서 개개의 올리고 베이트는 개별적으로 설계되고 합성된 올리고의 수집물인 DNA 올리고 베이트 세트를 보충하는데 사용되는 DNA 올리고이다.
또 다른 실시형태에서, 개개의 올리고 베이트는 RNA 올리고 어레이 베이트 세트(예를 들어, 상업적으로 입수가능한 어레이 베이트 세트)를 보충하는데 사용되는 DNA 올리고이고, 다른 실시형태에서 개개의 올리고 베이트는 개별적으로 설계되고 합성된 올리고의 수집물인 RNA 올리고 베이트 세트를 보충하는데 사용되는 DNA 올리고이다.
또 다른 실시형태에서, 개개의 올리고 베이트는 RNA 올리고 어레이 베이트 세트(예를 들어, 상업적으로 입수가능한 어레이 베이트 세트)를 보충하는데 사용되는 RNA 올리고이고, 다른 실시형태에서 개개의 올리고 베이트는 개별적으로 설계되고 합성된 올리고의 수집물인 RNA 올리고 베이트 세트를 보충하는데 사용되는 RNA 올리고이다.
또 다른 실시형태에서, 개개의 올리고 베이트는 DNA 올리고 어레이 베이트 세트(예를 들어, 상업적으로 입수가능한 어레이 베이트 세트)를 보충하는데 사용되는 RNA 올리고이고, 다른 실시형태에서 개개의 올리고 베이트는 개별적으로 설계되고 합성된 올리고의 수집물인 DNA 올리고 베이트 세트를 보충하는데 사용되는 RNA 올리고이다.
일 실시형태에서, 올리고 베이트는 연장된 유전자 세트의 증가된 시퀀싱 덮임률을 달성하기 위하여 특정 관심의 유전자에서 표적 서열에 대해 설계된다.
다른 실시형태에서, 올리고 베이트는 게놈의 서브세트를 나타내는 표적 서열에 대해 설계되며, 어레이 베이트 대신에 또는 어레이 베이트에 추가로 혼합되고, 사용된다.
일 실시형태에서, 올리고 베이트의 제1 세트는 불량한 시퀀싱 덮임률의 표적 영역에 대해 설계되며, 올리고 베이트의 제2 세트는 특정 관심의 표적 유전자에 대해 설계된다. 그 다음에 올리고 베이트의 세트는 둘 다 조합되고, 선택적으로 표준 어레이 베이트 세트와 혼합되어 시퀀싱을 위해 사용된다.
일 실시형태에서, 올리고 베이트 혼합은, 예를 들어 표적화된 유전자 패널을 동시에 시퀀싱하기 위해서, 그리고 만들어진 단일 뉴클레오타이드 다형성(SNP)의 패널을 스크리닝하기 위해서, 예컨대 게놈 재배열 및 복제수 변경(배열된 CGH(포괄적 게놈 혼성화(Comprehensive Genomic Hybridization))의 동등물)을 찾을 목적을 위해 사용된다. 예를 들어, SNP의 패널은 어레이 베이트로서 어레이 방법에 의해 우선 만들어질 수 있고, 그 다음 추가적인 DNA 올리고뉴클레오타이드 베이트는 유전자의 표적화된 세트에 대해 불량한 시퀀싱 덮임률의 표적 영역으로 설계될 수 있다. 그 다음에 SNP 수집물의 시퀀싱은 본래 어레이 베이트 세트 + 추가적인 올리고 베이트와 함께 반복되어 전체의 의도된 시퀀싱 덮임률을 달성할 수 있다.
일부 실시형태에서, 올리고 베이트는 표준 어레이 베이트 세트에 첨가되어 더 철저한 시퀀싱 덮임률을 달성한다. 일 실시형태에서, 올리고 베이트는 표준 어레이 베이트 세트를 갖는 초기 시퀀싱 라운드 후 불량한 시퀀싱 덮임률의 표적 영역에 대해 설계된다.
다른 실시형태에서, 올리고 베이트는 특정 관심의 유전자에서 표적 서열에 대해 설계된다. 이들 올리고 베이트는 표준 어레이 베이트 세트에 또는 올리고/어레이 혼성체 베이트 세트에 첨가되어, 예를 들어 전체 어레이 베이트 풀 재설계 순환을 통하지 않고 확장된 유전자의 증가된 시퀀싱 덮임률을 달성할 수 있다.
올리고 베이트는 상업적 공급원, 예컨대 님블젠(NimbleGen)(로슈(Roche)) 또는 DNA 올리고에 대한 통합된 DNA 기법(Integrated DNA Technologies: IDT)으로부터 얻을 수 있다. 올리고는 또한 애질런트 테크놀로지스(Agilent Technologies)로부터 얻을 수 있다. 풍부화를 위한 프로토콜은, 예를 들어 슈어셀렉트 타겟 인리치먼트 시스템(SureSelect Target Enrichment System)으로부터 공공연하게 이용가능하다.
베이트는 본 명세서에 참조로서 포함된 미국특허 제2010/0029498호 및 문헌[Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189]에 기재된 방법에 의해 생성될 수 있다. 예를 들어, 바이오틴화된 RNA 베이트는 본래 마이크로어레이 상에서 합성된 합성의 긴 올리고뉴클레오타이드의 풀을 얻는 단계 및 올리고뉴클레오타이드를 증폭시켜 베이트 서열을 생성하는 단계에 의해 생성될 수 있다. 일부 실시형태에서, 베이트는 베이트 서열 중 하나의 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하는 단계 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계에 의해 생성된다. 일 실시형태에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 애질런트 테크놀로지스 인코포레이티드(Agilent Technologies, Inc.)로부터 얻을 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭할 수 있다.
예를 들어, 베이트의 거대 수집물은 본래 올리고뉴클레오타이드 어레이, 예를 들어 애질런트(Agilent) 프로그램가능한 DNA 마이크로어레이 상에서 합성된 합성 올리고뉴클레오타이드의 맞춤 풀로부터 만들어 낼 수 있다. 따라서, 적어도 약 2,500, 5,000, 10,000, 20,000, 3,000, 40,000, 50,000 또는 60,000개의 독특한 올리고뉴클레오타이드가 동시에 합성될 수 있다.
일 실시형태에서, 독특한 올리고뉴클레오타이드의 최소 세트가 선택되고, 추가적인 복제물(예를 들어, 후방 상보체와 본래의 전방 가닥 사이의 대체물)은 합성 올리고뉴클레오타이드 어레이의 최대 용량에 도달될 때까지, 예를 들어 사전선택된 표적(예를 들어, 사전선택된 엑손의 세트)의 세트를 포획하기 위해 설계된 베이트에 대해 첨가된다. 다른 실시형태에서, 표적은 적어도 2회, 예를 들어 전방과 후방-상보적 올리고뉴클레오타이드 둘 다를 합성함으로써 표시된다. 주어진 표적에 대해 전방 및 후방-상보적 올리고뉴클레오타이드를 합성하는 것은 매우 동일한 서열을 2회 합성하는 것보다 합성 단계에서 더 양호하게 여분을 제공할 수 있다. 또 다른 실시형태에서, PCR 생성물 또는 베이트는 전방 및 후방-상보적 올리고뉴클레오타이드에 대해 동일하다.
칩으로부터 올리고뉴클레오타이드는 일단 합성된 다음, 증폭되어 다수회 사용될 수 있는 올리고뉴클레오타이드의 세트를 만들 수 있다. 이 접근은 매우 다수의 선택 실험에 대한 베이트로서 사용될 수 있는 보편적인 시약을 만들고, 이에 의해 칩 비용이 시퀀싱 비용의 일부가 되도록 분할한다. 대안적으로, 베이트 서열은 PCR과 같은 공지된 핵산 증폭 방법을 사용하고, 주형으로서 인간 DNA 또는 풀링된 인간 DNA 샘플을 사용하여 생성될 수 있다.
합성 후, 올리고뉴클레오타이드는 화학적 절단에 의한 어레이로부터 유리된 후(예를 들어, 스트라이핑됨(stripped)) 보호 그룹이 제거되고 보편적 프라이머를 사용하여 이중-가닥 DNA로 PCR 증폭될 수 있다. PCR의 제2 라운드는 DNA를 단일-가닥 RNA로 전사시키는데 사용되는 앰플리콘에 프로모터(예를 들어, T7, SP6 또는 T3 프로모터) 부위를 포함시키도록 사용될 수 있다.
일 실시형태에서, 베이트는 갭 또는 중복 없이 서열(예를 들어, 엑손)과 함께 타일링된다. 예를 들어, 베이트는 UCSC 게놈 브라우저에서 나타낸 기준 게놈 서열의 가닥에서 가장 "왼쪽의" 암호 염기에서 시작할 수 있고(예를 들어, 유전자의 배향에 의존하여 암호 서열에 따라 5' 내지 3' 또는 3' 내지 5'), 추가적인 베이트는 모든 암호 염기가 덮일 때까지 첨가된다. 다른 실시형태에서, 각각의 표적에 대해 적어도 2, 3, 4 또는 5개의 베이트는 적어도 약 15, 30, 45 또는 60개의 염기만큼 중복되도록 설계된다. 보편적인 프라이머를 사용하는 올리고뉴클레오타이드 합성 및 PCR 증폭 후, 이중-가닥 DNA의 꼬리 중 하나는 가닥 중 효소적으로 그 다음에 가닥 중 하나의 분해에 의할 수 있다. 단일-가닥 생성물은 혼성화될 수 있고, 그것을 채움으로써 완전히 이중 가닥으로 만들어질 수 있으며, PCR에 의해 증폭될 수 있다. 이 방법에서, 화학적으로 합성될 수 있는 적어도 약 300, 400, 500 또는 600개 이상의 인접한 표적-특이적 염기를 함유하는 베이트를 생성하는 것이 가능하다. 이러한 긴 베이트는 고 특이성 및 민감성을 필요로 하는 적용에 대해 또는 베이트의 길이를 제한하는 것이 반드시 유리하지 않은 적용(예를 들어, 긴 인접한 게놈 영역의 포획)에 대해 유용할 수 있다.
일 실시형태에서, 각 표적의 덮임률은 평가될 수 있으며, 유사한 덮임률을 수득하는 표적은 그룹화될 수 있다. 베이트 서열의 별개의 세트는 표적의 각 그룹에 대해 만들어질 수 있으며, 표시를 추가로 개선시킬 수 있다. 다른 실시형태에서, 마이크로어레이 칩으로부터의 올리고뉴클레오타이드는 혼성화 효율에 대해 시험되며, 마이크로어레이 칩의 생성 라운드는 올리고뉴클레오타이드 상에서 그것의 포획 효율에 따라 그룹화되도록 지시되고, 따라서 베이트 효율의 변화를 보상한다. 또 다른 실시형태에서, 올리고뉴클레오타이드 풀은 응집되어 상대적으로 소수의 복합 풀을 형성할 수 있으므로, 특히 포획 효울의 변화가 거의 없다.
본 명세서에 기재된 베이트는 태그, 예를 들어 친화도 태그로 표지될 수 있다. 대표적인 친화도 태그는, 이하에 제한되는 것은 아니지만, 바이오틴 분자, 자기 입자, 햅텐 또는 태그 분자로 태그된 베이트를 단리시키는 다른 태그 분자를 포함한다. 이러한 분자 및 그것을 핵산에 부착하는 방법(예를 들어 본 명세서에 개시된 방법에서 사용되는 베이트)은 당업계에 잘 공지되어 있다. 바이오틴화된 베이트의 대표적인 제조방법은, 예를 들어 문헌[Gnirke A. et al., Nat. Biotechnol. 2009; 27(2):182-9]에 기재되며, 이는 본 명세서에 전문이 참조로서 포함된다.
혼성화 혼합물로부터 태그된 베이트의 설정을 분리시킬 수 있거나 결합될 수 있는 분자, 입자 또는 장치는 당업계에 공지되어 있다. 일 실시형태에서, 해당 분자, 입자 또는 장치는 태그(예를 들어, 친화도 태그)에 결합된다. 일 실시형태에서, 해당 분자, 입자 또는 장치는 아비딘 분자, 자석 또는 항체 또는 이것의 항원-결합 단편이다. 일 실시형태에서, 태그된 베이트는 스트렙타비딘 분자로 코팅된 자기 비드를 사용하여 분리된다.
올리고뉴클레오타이드 라이브러리를 제조하기 위한 대표적인 방법은, 예를 들어 문헌[Gnirke A. et al., Nat. Biotechnol. 2009; 27(2):182-9 및 Blumenstiel B. et al., Curr. Protoc. Hum. Genet. 2010; Chapter 18: Unit 18.4]에 기재되며, 이는 본 명세서에 전문이 참조로서 포함된다.
혼성화 조건
본 발명에서 특징으로 하는 방법은 라이브러리(예를 들어, 핵산 라이브러리)를 다수의 베이트와 접촉시켜 선택된 라이브러리 캐치를 제공하는 단계를 포함한다. 접촉 단계는 용액 혼성화에서 달성될 수 있다. 특정 실시형태에서, 해당 방법은 용액 혼성화의 하나 이상의 추가적인 라운드에 의해 혼성화 단계를 반복하는 단계를 포함한다. 일부 실시형태에서, 해당 방법은 라이브러리 캐치에 베이트의 동일 또는 상이한 수집물에 의한 용액 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 추가로 포함한다.
다른 실시형태에서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 증폭시키는 단계(예를 들어, PCR에 의해)를 추가로 포함한다. 다른 실시형태에서, 라이브러리 캐치는 증폭되지 않는다.
또 다른 실시형태에서, 해당 방법은 라이브러리 캐치에 게노타이핑(genotyping)을 실시함으로써, 선택된 핵산의 게노타이프를 확인하는 단계를 추가로 포함한다.
더 구체적으로는, 수천 베이트 서열의 혼합물은 핵산의 그룹에서 상보적 핵산으로 효과적으로 혼성화될 수 있고, 이러한 혼성화된 핵산(핵산의 서브그룹)은 효과적으로 분리되며 회수될 수 있다. 일 실시형태에서, 본 명세서에 기재된 방법은 약 1,000 초과의 베이트 서열, 약 2,000 초과의 베이트 서열, 약 3,000 초과의 베이트 서열, 약 4,000 초과의 베이트 서열, 약 5,000 초과의 베이트 서열, 약 6,000 초과의 베이트 서열, 약 7,000 초과의 베이트 서열, 약 8,000 초과의 베이트 서열, 약 9,000 초과의 베이트 서열, 약 10,000 초과의 베이트 서열, 약 15,000 초과의 베이트 서열, 약 20,000 초과의 베이트 서열, 약 30,000 초과의 베이트 서열, 약 40,000 초과의 베이트 서열 또는 약 50,000 초과의 베이트 서열을 함유하는 베이트 서열의 세트를 사용한다.
일부 실시형태에서, 선택 과정은, 예를 들어 선택된 핵산의 풍부함을 증가시키기 위해 핵산의 선택된 서브그룹 상에서 반복된다. 예를 들어, 1 라운드의 혼성화 후, 핵산의 수천 배 풍부화가 관찰될 수 있다. 제2 라운드 후, 풍부화는, 예를 들어 약 15,000-배 평균 풍부화로 상승될 수 있는데, 이는 단일 시퀀서 실행에서 표적의 100-배 덮임률을 제공할 수 있다. 따라서, 혼성체 선택의 단일 라운드에서 달성가능하지 않은 풍부화 인자가 필요한 실험에 대해, 해당 방법은 전형적으로 핵산의 단리된 서브그룹에(즉, 표적 서열의 일부 또는 모두) 베이스 서열의 세트에 의한 용액 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 포함한다.
2가지 상이한 베이트 서열(베이트 1, 베이트 2)을 갖는 순차적인 혼성체 선택은 "교차지점(intersection)", 즉, 예를 들어, 이하에 제한되는 것은 아니지만, 교차지점을 풍부화하는 단계를 포함하는 적용을 위해 사용되는 베이트 1에 및 베이트 2에 결합된 DNA 서열의 서브그룹을 단리시키고 시퀀싱하기 위해 사용될 수 있다. 예를 들어, 염색체 1 상의 서열에 특이적인 베이트에 의한 종양 샘플로부터 DNA의 선택 다음에 염색체 2에 특이적인 베이트에 혼성화되는 서열의 제1 선택의 생성물로부터의 선택은 두 염색체 모두로부터의 서열을 함유하는 염색체 전위 접합에서 서열을 풍부하게 할 수 있다.
핵산의 선택된 서브그룹의 몰농도는 제어될 수 있으므로, 임의의 특정 핵산의 몰농도는 핵산의 서브그룹에서 모든 선택된 핵산의 평균 몰농도의 작은 변형 내에 있다. 표적 표현의 균일함을 제어하고, 최적화하기 위한 방법은, 이하에 제한되는 것은 아니지만, 물리화학적일 뿐만 아니라 당업계에 잘 공지된 프로브 설계의 경험적 법칙을 기반으로 한 베이트 서열의 합리적 설계 및 기대에 미치지 못한 것으로 알려지거나 또는 의심되는 서열이 본래의 약점을 보상하는 것으로 지나치게 부각된 경우 베이트의 풀을 포함한다. 일부 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 50%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%는 평균 몰농도의 약 20-배, 15-배, 10-배, 5-배, 3-배 또는 2-배 이내이다. 일 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 50%는 평균 몰농도의 약 3-배 이내이다. 다른 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 90%는 평균 몰농도의 약 10-배 이내이다.
선택 효율의 변화는 베이트의 농도를 변경시킴으로써 추가로 조절될 수 있다. 일 실시형태에서, 선택 효율은 베이트의 등몰 혼합을 사용할 때 관찰된 차별적인 서열 포획 효율에 대해 베이트의 상대적 존재비 또는 결합 독립체의 밀도(예를 들어, 햅텐 또는 친화도 태그 밀도)를 조절한 다음, 내부-평준화된(leveled) 그룹 2에 비해 전반적인 베이트 혼합에 대해 내부로-평준화된 그룹 1 만큼 차별적인 과량을 도입함으로써 그룹(예를 들어, 제1, 제2 또는 제3 다수의 베이트) 내에서 개개 베이트의 효율을 평준화함으로써 조절된다.
특정 실시형태에서, 본 명세서에 기재된 방법은 표적 서열의 균등한 덮임률을 달성할 수 있다. 일 실시형태에서, 예상된 덮임률의 적어도 약 50%를 갖는 표적 염기의 백분율은, 예를 들어 단백질-암호 엑손과 같은 짧은 표적에 대해 적어도 약 60%, 70%, 80% 또는 90%이다. 다른 실시형태에서, 예상된 덮임률의 적어도 약 50%를 갖는 표적 염기의 백분율은, 예를 들어 게놈 영역과 같은 포획 베이트의 길이와 비교하여 긴 표적에 대해 적어도 약 80%, 90% 또는 95%이다.
혼성화 전, 베이트는 당업계에 잘 공지된 방법에 따라 변성될 수 있다. 일반적으로, 혼성화 단계는 표지된 베이트 조성물에 대해 과량의 차단 DNA를 첨가하는 단계, 혼성화 조건 하에 차단 베이트 조성물을 검출된 표적 서열과 접촉시키는 단계, 및 표적에 대한 베이트 조성물의 결합을 검출하는 단계를 포함한다.
베이트는 혼성화 조건 하에서 표적 서열에 대해 혼성화되거나 또는 어닐링된다. "혼성화 조건"은 베이트와 표적 핵산 사이의 어닐링을 가능하게 하는 조건이다. 상이한 베이트의 어닐링이 프로브 길이, 염기 농도 등에 의존하여 다를 것이기 때문에, 어닐링은 베이트 농도, 혼성화 온도, 염 농도 및 당업계에 잘 공지된 다른 인자를 다르게 함으로써 가능하게 된다.
혼성화 조건은 농도, 염기 조성, 베이트의 복합체 및 길이뿐만 아니라 염 농도, 온도 및 인큐베이션 길이를 다르게 함으로써 가능하게 된다. 예를 들어, 혼성화는 5x SSPE, 5x 덴하르트(Denhardt's), 5mM EDTA 및 0.1% SDS 및 차단 DNA를 함유하는 혼성화 완충제 중에서 수행되어 비-특이적 혼성화를 억제할 수 있다. 베이트가 RNA라면, RNase 억제제가 사용될 수 있다. 일반적으로, 상기 기재한 바와 같은 혼성화 조건은 약 25℃ 내지 약 65℃, 전형적으로 약 65℃의 온도 및 약 0.5 시간 내지 약 96 시간, 전형적으로 약 66 시간의 인큐베이션 길이를 포함한다. 추가적인 대표적인 혼성화 조건은 본 명세서의 실시예 12A 내지 12C 및 표 14에 있다.
본 명세서에 기재된 방법은 표준 액체 조작 방법 및 장치에 적용가능하다. 일부 실시형태에서, 해당 방법은 멀티웰 플레이트를 조작하는 장치와 같은 당업계에 공지된 것과 같은 자동화된 액체 조작 기법을 사용하여 수행된다(예를 들어, 문헌[Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189] 참조). 이는, 이하에 제한되는 것은 아니지만, 자동화된 라이브러리 구성 및 셋업 및 용액 혼성화 후 세척을 포함하는 용액 혼성화 단계를 포함할 수 있다. 예를 들어, 장치는 비드-포획을 위한 이러한 자동화된 방법 및 용액 혼성화 반응 후 세척 단계를 수행하기 위해 사용될 수 있다. 대표적인 장치는, 이하에 제한되는 것은 아니지만, 다음의 위치를 포함할 수 있다: 스트렙타비딘-코팅된 자기비드를 함유하는 멀티-웰 플레이트에 대한 위치, 용액 혼성체-선택 반응을 함유하는 멀티웰 플레이트에 대한 위치, 사용자-규정 온도에서 세척 단계를 수행하고, 시약을 사전가열하기 위한 I/O 제어된 열 차단, 피펫 끝의 받침대를 위한 위치, 자석-고정된 비드로부터 상청액의 분리를 가능하게 하는 특정 배치로 놓인 자석에 의한 위치, 피펫 팁을 세척하고, 폐기물을 없애는 세척 단계 및 다른 용액 및 시약, 예컨대 낮은 및 높은 엄격 세척 완충제 또는 최종 캐치의 알칼리 용리를 위한 용액에 대한 위치. 일 실시형태에서, 장치는 동시에 캐치 중화 단계를 통한 비드-포획 단계로부터 96 혼성체 선택까지의 과정으로 설계된다. 다른 실시형태에서, 하나 이상의 위치는 이중 기능을 가진다. 또 다른 실시형태에서, 사용자는 하나의 플레이트를 다른 것으로 교환하는 프로토콜에 의해 촉진된다.
직접적으로 선택된 핵산은 연쇄되며, 전단될 수 있는데, 이는 짧은 시퀀싱 판독의 제한을 극복하기 위해 행해진다. 일 실시형태에서, 각각의 엑손-크기 시퀀싱 표적은 표적으로서 동일한 거의 동일한 크기이며, 표적의 종말점 근처의 종말점을 갖는 단일 베이트 분자로 포획된다. 대략 100 이상의 인접한 염기쌍을 갖는 이중가닥 분자를 형성하는 유일한 혼성체는 엄격 혼성화 세척 후 살아남는다. 그 결과, 핵산의 선택된 서브그룹(즉, "캐치")은 말단이 베이트 분자의 말단 근처에 있는 무작위로 전단된 게놈 DNA 단편에 대해 풍부화된다. 매우 짧은 시퀀싱 판독에 의한 "캐치"의 말단만의 시퀀싱은 표적의 말단 근처에서(또는 외부에서조차) 더 높은 덮임률을 제공하며, 중간 근처에서 더 낮은 덮임률을 제공한다.
결찰 다음에 무작위 전단화 및 샷건(shotgun) 시퀀싱에 의해 "캐치" 분자를 연쇄시키는 것은 표적 서열의 전체 길이에 따라 서열 덮임률을 얻는 한 방법이다. 이 방법은 매우 짧은 판독을 갖는 말단 시퀀싱보다 표적 상에서(근처 표적과 대조적임) 더 높은 백분율의 시퀀싱된 염기를 생성한다. 공동-결찰에 의해 분자를 연쇄시키는 방법은 당업계에 잘 공지되어 있다. 연쇄화는 단순한 평활 말단 결찰에 의해 수행될 수 있다. 효율적인 결찰을 위한 "접착성" 말단은 그것의 5' 말단 근처에서 제한 부위를 갖는 PCR 프라이머를 지니는 "캐치"의 PCR 증폭 다음에 대응되는 제한 효소(예를 들어, NotI)에 의한 분해 또는 T4 DNA 폴리머라제에 의한 부분적 "츄-백(chew-back)과 같은 PCR 생성물의 결찰-독립적 클로닝을 위해 보통 사용되는 것과 유사한 전략(Aslanidis and de Jong, Nucleic Acids Res. 18:6069-6074, 1990) 또는 UDG 글라이코실라제 및 리아제 엔도 VIII에 의한 유라실-함유 PCR 생성물의 처리(예를 들어, 뉴 잉글랜드 바이오랩스 카탈로그 E5500S)를 포함하는 다양한 방법에 의해 생성될 수 있다.
다른 실시형태에서, 베이트 분자의 엇갈린(staggered) 세트는 영역을 표적화하기 위해 사용되며, 표적 영역을 통해 빈번하게 베이트 말단을 얻는다. 일부 실시형태에서, 단지 말단-시퀀싱된 "캐치"(즉, 연쇄화 및 전단 없이)는 실제 시퀀싱 표적(예를 들어, 엑손)을 포함하는 베이트에 의해 덮이는 전체 영역에 따라 상당히 균일한 서열 덮임률을 제공한다. 베이트 분자를 엇갈리게 하는 것은 베이트에 의해 덮이는 세그먼트를 넓히기 때문에, 시퀀싱된 염기는 더 넓은 영역에 걸쳐 분포된다. 그 결과, 표적 상의 서열 대 근처 표적의 비는 표적 당 단일 베이트 만을 종종 필요로 하는 비-중복 베이트에 의한 선택에 대해서보다 더 낮다.
다른 실시형태에서, 약간 더 긴 판독(예를 들어, 76개의 염기)을 갖는 말단 시퀀싱은 짧은 선택 표적(예를 들어, 엑손)을 시퀀싱하기 위한 전형적인 방법이다. 매우 짧은 판독에 의한 말단 시퀀싱과 달리, 이 방법은 중간의 덮임률로 낮춰지지 않고 단봉형의 덮임률 프로파일을 유도한다. 이 방법은 상기 기재한 연쇄 및 전단 방법보다 수행이 더 용이하며, 표적에 따라 상대적으로 균일한 덮임률을 야기하고, 베이트 및 표적 상에 적절하게 떨어지는 높은 백분율의 시퀀싱된 염기를 만들어낸다.
일 실시형태에서, 핵산의 선택된 서브그룹은 시퀀싱 또는 게노타이핑으로 분석하기 전에 증폭된다(예를 들어, PCR에 의해). 다른 실시형태에서, 서브그룹은 증폭 단계 없이, 예를 들어 선택된 서브그룹이 단일 분자를 판독할 수 있는 민감한 분석 방법에 의해 분석될 때 분석된다.
베이트 모듈
본 명세서에 기재된 방법은 시퀀싱된 표적 핵산의 선택을 위해 베이트, 예를 들어 용액 혼성화에서 사용을 위한 베이트의 적절한 선택에 의해 하나 이상의 피험체로부터의 샘플, 예를 들어 종양 샘플에서 매우 다수의 유전자 및 유전자 생성물의 최적화된 시퀀싱을 제공한다. 다양한 서브게놈 간격 또는 이것의 분류를 위한 선택 효율은 사전선택된 선택의 효율을 갖는 베이트 세트에 따라 매칭된다.
따라서 방법(예를 들어 상기 열거된 방법의 구성요소 (b))은 라이브러리를 다수의 베이트와 접촉시켜 선택된 구성원(때때로 본 명세서에서 라이브러리 캐치로서 지칭됨)을 제공하는 단계를 포함한다.
따라서, 샘플, 예를 들어 종양 샘플을 분석하는 방법이 제공된다. 해당 방법은
(a) 샘플로부터 복수의 표적 구성원, 예를 들어 종양 샘플로부터 복수의 표적 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 해당 라이브러리를 베이트 세트와 접촉시켜 선택된 구성원(예를 들어, 라이브러리 캐치)을 제공하는 단계;
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱, 예를 들어 차세대 시퀀싱 방법에 의해 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이의, 예를 들어, 베이지안 방법 또는 본 명세서에 기재된 방법에 의한 호출),
상기 종양 샘플을 분석하는 단계를 포함하되,
여기서, 해당 방법은 라이브러리를 다수의, 예를 들어 적어도 2, 3, 4 또는 5개의 베이트 세트와 접촉시키며, 상기 다수의 각각의 베이트 세트는 선택을 위해 독특한(복수의 다른 베이트 세트와 대조됨) 사전선택된 효율을 가진다. 예를 들어, 각각의 독특한 베이트 세트는 독특한 시퀀싱 심도를 제공한다.
실시형태에서, 복수의 제1 베이트 세트의 선택 효율은 적어도 2배만큼 다수의 제2 베이트 세트의 효율과 상이하다. 실시형태에서, 제1 및 제2 베이트 세트는 적어도 2배만큼 상이한 시퀀싱 심도를 제공한다.
실시형태에서, 해당 방법은 1 또는 다수의 다음의 베이트 세트를 라이브러리와 접촉시키는 단계를 포함한다:
a) 약 500X 이상의 시퀀싱 심도를 제공하기 위해, 예를 들어 샘플로부터 세포의 단지 5%로 존재하는 돌연변이를 시퀀싱하기 위한 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트;
b) 약 200X 이상의, 예를 들어 약 200X 내지 약 500X의 시퀀싱 심도를 제공하기 위해, 예를 들어 샘플로부터 세포의 단지 10%에 존재하는 돌연변이를 시퀀싱 하기 위한 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트;
c) 약 10 내지 100X 시퀀싱 심도를 제공하기 위해, 예를 들어 a) 상이한 약물을 대사하는 환자의 능력을 설명할 수 있는 약물유전체적(PGx) 단일 뉴클레오타이드 다형성(SNP), 또는 b) 환자를 특유의 형태로 확인하기 위하여 사용될 수 있는 게놈 SNP(예를 들어, 핑거프린트), c) 게놈 DNA 및 이형접합 소실(LOH)의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 시퀀싱 하기 위하여 서브게놈 간격을 포함하는 충분한 구성원을 선택하는 베이트 세트;
d) 약 5 내지 50X 시퀀싱을 제공하기 위해, 예를 들어 게놈 전위 또는 삽입-결실과 같은 구조적 중단점을 검출하기 위해 서브게놈 간격 포함하는 충분한 구성원을 선택하는 베이트 세트. 예를 들어, 인트론 중단점의 결실은 고검출 신뢰도를 보장하는 심도에 걸쳐 5 내지 50X 서열 쌍을 필요로 한다. 이러한 베이트 세트는, 예를 들어 전위/삽입-결실되기 쉬운 암 유전자를 검출하기 위해 사용될 수 있다; 또는
e) 약 0.1 내지 300X 시퀀싱 심도를 제공하기 위해, 예를 들어 복제수 변화를 검출하기 위해 서브게놈 간격을 포함하는 충분한 방법을 선택하는 베이트 세트. 일 실시형태에서, 시퀀싱 심도는 복제수 변화를 검출하기 위하여 약 0.1 내지 10X 시퀀싱 심도의 범위에 있다. 다른 실시형태에서, 시퀀싱 심도는 게놈 DNA 또는 이형접합 소실의 복제수 획득/소실을 평가하기 위해 사용된 게놈 SNP/좌위를 검출하기 위하여 약 100 내지 300X의 범위에 있다. 이러한 베이트 세트는, 예를 들어 증폭/결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
실시형태에서, 해당 방법은 2 이상의 상이한 표적 카테고리를 포획하기 위해 설계된 베이트의 사용을 포함하되, 각각의 카테고리는 상이한 베이트 설계 전략을 가진다. 실시형태에서, 본 명세서에 개시된 혼성체 포획 방법 및 조성물은 표적 서열의 한정된 서브세트(예를 들어, 표적 구성원)를 포획하며, 표적 서열의 동질의 덮임률을 제공하는 반면, 해당 서브세트 밖의 덮임률을 최소화한다. 일 실시형태에서, 표적 서열은 게놈 DNA 또는 이것의 선택된 서브세트 밖의 전체 엑솜을 포함한다. 본 명세서에 개시된 방법 및 조성물은 복합체 표적 핵산 서열(예를 들어, 핵산 라이브러리)에 대한 덮임률의 상이한 심도 및 패턴을 달성하기 위한 상이한 베이트 세트를 제공한다.
실시형태에서, 해당 방법은 핵산 라이브러리(예를 들어, 라이브러리 캐치)의 선택된 구성원을 제공하는 단계를 포함한다. 해당 방법은,
다수의 구성원, 예를 들어, 표적 핵산 구성원(예를 들어, 복수의 종양 구성원, 기준 구성원 및/또는 PGx 구성원을 포함)을 포함하는 라이브러리(예를 들어, 핵산 라이브러리)를 제공하는 단계;
라이브러리를, 예를 들어 용액-기반 반응에서 다수의 베이트(예를 들어, 올리고뉴클레오타이드 베이트)와 접촉시켜, 다수의 베이트/구성원 혼성체를 포함하는 혼성 혼합물을 형성하는 단계;
예를 들어, 상기 다수의 베이트/구성원 혼성체를 분리시키는 결합 완전체와 상기 혼성 혼합물을 접촉시킴으로써, 상기 혼성 혼합물로부터 다수의 베이트/구성원 혼성체를 분리시키고,
이에 의해 라이브러리-캐치(예를 들어, 라이브러리로부터 핵산 분자의 선택된 또는 풍부화된 서브그룹)를 제공하는 단계를 포함하되,
다수의 베이트는 다음 중 2 이상을 포함한다:
a) 가장 심층의 덮임률이 낮은 빈도, 예를 들어 약 5% 이하에서 나타내는 변경(예를 들어, 하나 이상의 돌연변이)에 대해 고수준의 민감성을 가능하게 하는데 필요한(즉, 샘플로부터의 세포의 5%가 그것의 게놈 내 변경을 은닉) 고-수준의 표적(예를 들어, 유전자, 엑손 또는 염기와 같은 서브게놈 간격을 포함하는 하나 이상의 구성원)을 선택하는 제1 베이트 세트. 일 실시형태에서; 제1 베이트 세트는 약 500X 이상의 시퀀싱 심도가 필요한 변경(예를 들어, 점 돌연변이)을 포함하는 종양 구성원(예를 들어, 종양 구성원에 상보적임)을 선택한다;
b) 높은 덮임률이 a)에서 고-수준 표적보다 더 높은 빈도로, 예를 들어 약 10%의 빈도로 나타나는 변경(예를 들어, 하나 이상의 돌연변이)에 대해 고수준의 민감성을 가능하게 하는데 필요한(즉, 샘플로부터의 세포의 10%는 그것의 게놈 내 변경을 은닉함) 중간-수준 표적(예를 들어, 유전자, 엑손 또는 염기와 같은 서브게놈 간격을 포함하는 하나 이상의 종양 구성원)을 선택하는 제2 베이트 세트. 일 실시형태에서; 제2 베이트 세트는 약 200X 이상의 시퀀싱 심도를 필요로 하는 변경(예를 들어, 점 돌연변이)을 포함하는 종양 구성원(예를 들어, 종양 구성원에 상보적임)을 선택한다;
c) 고수준의 민감성을 가능하게 하는데, 예를 들어 이형 접합적 대립유전자를 검출하는데 필요한 낮은 내지 중간 덮임률에 대해 낮은 수준의 표적(예를 들어 유전자, 엑손 또는 염기와 같은 서브게놈 간격을 포함하는 하나 이상의 PGx 구성원)을 선택하는 제3 베이트 세트. 예를 들어, 이형 접합적 대립유전자의 검출은 고검출 신뢰성을 보장하기 위한 10 내지 100X 시퀀싱 심도를 필요로 한다. 일 실시형태에서, 제3 베이트 세트는 하기로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다: a)상이한 약물을 대사하기 위한 환자의 능력을 설명할 수 있는 약물유전체적(PGx) 단일 뉴클레오타이드 다형성(SNP) 또는 b) 환자를 특유의 형태로 확인하기 위해 사용될 수 있는 게놈 SNP(예를 들어, 핑거프린트), c) 게놈 DNA의 복제수 획득/소실 및 이형접합성의 소실(LOH)을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위;
d) 낮은 내지 중간 덮임률이 예를 들어 게놈 전위 또는 삽입-결실과 같은 구조적 중단점을 검출하기 위해 필요한 제1 인트론 표적(예를 들어 인트론 서열을 포함하는 구성원)을 선택하는 제4 베이트 세트. 예를 들어, 인트론 중단점의 검출은 고 검출 신뢰성을 보장하기 위한 심도에 걸쳐 5 내지 50X 서열-쌍을 필요로 한다. 상기 제4 베이트 세트는, 예를 들어 전위/삽입-결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다; 또는
e) 스파스 덮임률이 복제수 변화를 검출하기 위한 능력을 개선시키는데 필요한 제2 인트론 표적(예를 들어, 인트론 구성원)을 선택하는 제5 베이트 세트. 예를 들어, 몇몇 말단의 엑손의 1-복제 결실의 검출은 고검출 신뢰성을 보장하기 위해 0.1 내지 10X 덮임률을 필요로 한다. 상기 제5 베이트 세트는, 예를 들어 증폭/결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
앞서 언급한 베이트 세트 중 2, 3, 4 이상의 임의의 조합, 예를 들어 제1 및 제2 베이트 세트의 조합; 제1 및 제3 베이트 세트; 제1 및 제4 베이트 세트; 제1 및 제5 베이트 세트; 제2 및 제3 베이트 세트; 제2 및 제4 베이트 세트; 제2 및 제5 베이트 세트; 제3 및 제4 베이트 세트; 제3 및 제5 베이트 세트; 제4 및 제5 베이트 세트; 제1, 제2 및 제3 베이트 세트; 제1, 제2 및 제4 베이트 세트; 제1, 제2 및 제5 베이트 세트; 제1, 제2, 제3, 제4 베이트 세트; 제1, 제2, 제3, 제4 및 제5 베이트 세트 등이 사용될 수 있다.
일 실시형태에서, 각각의 제1, 제2, 제3, 제4 또는 제5 베이트 세트는 선택에 대해 사전선택된 효율을 가진다(예를 들어, 포획). 일 실시형태에서, 선택의 효율에 대한 값은 a) 내지 e)에 따른 모두 5가지의 베이트 중 적어도 2, 3, 4에 대해 동일하다. 다른 실시형태에서, 선택의 효율을 위한 값은 a) 내지 e)에 따른 모두 5가지의 베이트 중 적어도 2, 3, 4에 대해 상이하다.
일부 실시형태에서, 적어도 2, 3, 4 또는 모두 5가지의 베이트 세트는 상이한 사전선택된 효율 값을 가진다. 예를 들어, 하기 중 하나 이상으로부터 선택된 선택의 효율에 대한 값:
(i) 제1 사전선택된 효율은 적어도 약 500X 이상의 시퀀싱 심도인 선택의 제1 효율에 대한 값을 가진다(예를 들어 제2, 제3, 제4 또는 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제2 선택의 효율에 대한 값보다 약 2 내지 3배 더 큰; 제3 선택의 효율에 대한 값보다 약 5 내지 6배 더 큰; 제4 선택의 효율에 대한 값보다 약 10배 더 큰; 제5 선택의 효율에 대한 값보다 약 50배 내지 5000배 더 큰) 선택의 효율에 대한 값을 가진다);
(ii) 제2 사전선택된 효율은 적어도 약 200X 이상의 시퀀싱 심도인 선택의 제2 효율에 대한 값을 가진다(예를 들어 제3, 제4 또는 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제3 선택의 효율에 대한 값보다 약 2배 더 큰; 제4 선택의 효율에 대한 값보다 약 4배 더 큰; 제5 선택의 효율에 대한 값보다 약 20배 내지 2000-배 더 큰) 선택의 효율에 대한 값을 가진다);
(iii) 제3 사전선택된 효율은 적어도 약 100X 이상의 시퀀싱 심도인 선택의 제3 효율에 대한 값을 가진다(예를 들어, 제4 또는 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제4 선택의 효율에 대한 값보다 약 2배 더 큰; 제5 선택의 효율에 대한 값보다 약 10배 내지 1000배 더 큰) 선택의 효율에 대한 값을 가진다);
(iv) 제4 사전선택된 효율은 적어도 약 50X 이상의 시퀀싱 심도인 선택의 제4 효율에 대한 값을 가진다(예를 들어, 제5 사전선택된 선택의 효율보다 더 큰(예를 들어, 제5 선택의 효율에 대한 값보다 약 50배 내지 500배 더 큰) 선택의 효율에 대한 값을 가진다); 또는
(v) 제5 사전선택된 효율은 적어도 약 10X 내지 0.1X 시퀀싱 심도인 제5 선택의 효율에 대한 값을 가진다.
특정 실시형태에서, 선택의 효율에 대한 값은 하기 중 하나 이상에 의해 변형된다: 상이한 베이트 세트의 차별적인 표현, 베이트 서브세트의 차별적인 중복, 차별적인 베이트 변수, 상이한 베이트 세트의 혼합, 및/또는 상이한 유형의 베이트 세트의 사용. 예를 들어, 선택 효율의 변화(예를 들어, 각각의 베이트 세트/표적 카테고리의 상대적 서열 덮임률)는 하기 중 하나 이상을 변경함으로써 조절될 수 있다:
(i) 상이한 베이트 세트의 차별적인 표현 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 더 많은/소수의 복제물에 포함되어 상대적인 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(ii) 베이트 서브세트의 차별적인 중복 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 이웃하는 베이트 사이의 더 길거나 또는 더 짧은 중복을 포함하여 상대적인 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(iii) 차별적인 베이트 변수 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 서열 변형/더 짧은 길이를 포함하여 포획 효율을 감소시키고, 상대적 표적 덮임률 심도를 낮출 수 있다;
(iv) 상이한 베이트 세트를 혼합 - 상이한 표적 세트를 포획하기 위해 설계된 베이트 세트는 상이한 몰비로 혼합되어 상대적 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(v) 상이한 유형의 올리고뉴클레오타이드 베이트 세트를 사용 - 특정 실시형태에서, 베이트 세트는 하기를 포함할 수 있다:
(a) 하나 이상의 화학적으로(예를 들어, 비-효소적으로) 합성된(예를 들어, 개별적으로 합성된) 베이트,
(b) 어레이에서 합성된 하나 이상의 베이트,
(c) 하나 이상의 효소적으로 제조된, 예를 들어 시험관내 전사된 베이트;
(d) (a), (b) 및/또는 (c)의 임의의 조합,
(e) 하나 이상의 DNA 올리고뉴클레오타이드(예를 들어, 자연적으로 또는 비-자연적으로 발생되는 DNA 올리고뉴클레오타이드),
(f) 하나 이상의 RNA 올리고뉴클레오타이드(예를 들어, 자연적으로 또는 비-자연적으로 발생되는 RNA 올리고뉴클레오타이드),
(g) (e) 및 (f)의 조합, 또는
(h) 상기 중 어떤 것의 조합.
상이한 올리고뉴클레오타이드 조합은 상이한 비로, 예를 들어 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000 등으로부터 선택된 비로 혼합될 수 있다. 일 실시형태에서, 화학적으로 합성된 베이트 대 배열-생성된 베이트의 비는 1:5, 1:10 또는 1:20으로부터 선택된다. DNA 또는 RNA 올리고뉴클레오타이드는 자연적으로- 또는 비-자연적으로 발생될 수 있다. 특정 실시형태에서, 베이트는, 예를 들어 융점을 증가시키는 하나 이상의 비-자연적으로 발생되는 뉴클레오타이드를 포함한다. 대표적인 비-자연적으로 발생되는 올리고뉴클레오타이드는 변형된 DNA 또는 RNA 뉴클레오타이드를 포함한다. 대표적인 변형된 뉴클레오타이드(예를 들어, 변형된 RNA 또는 DNA 뉴클레오타이드)는, 이하에 제한되는 것은 아니지만, 잠금 핵산(LNA)을 포함하되, LNA 뉴클레오타이드의 리보스 모이어티는 2' 산소와 4' 탄소를 연결하는 추가의 브릿지; 펩타이드 핵산(PNA), 예를 들어, 펩타이드 결합에 의해 연결된 반복되는 N-(2-아미노에틸)-글라이신 단위로 구성된 PNA; 저 GC 영역을 포획하기 위해 변형된 DNA 또는 RNA 올리고뉴클레오타이드; 바이사이클릭 핵산(BNA); 가교된 올리고뉴클레오타이드; 변형된 5-메틸 데옥시사이티딘; 및 2,6-다이아미노퓨린에 의해 변형된다. 다른 변형된 DNA 및 RNA 뉴클레오타이드는 당업계에서 공지된다.
특정 실시형태에서, 표적 서열(예를 들어, 표적 구성원)의 실질적으로 균일하거나 또는 동종의 덮임률이 얻어진다. 예를 들어, 각각의 베이트 세트/표적 카테고리 내에서, 덮임률의 균일성은, 예를 들어 하기 중 하나 이상에 의해 베이트 변수를 변형함으로써 최적화될 수 있다:
(i) 베이트 표현 또는 중복의 증가/감소는 동일 카테고리 내의 다른 표적에 대해 밑에/위에-덮여있는 표적(예를 들어, 표적 구성원)의 덮임률을 향상/감소시키기 위해 사용될 수 있다;
(ii) 표적 서열(예를 들어, 고 GC 함량 서열)을 포획하기가 어려운 낮은 덮임률에 대해, 예를 들어 인접한 서열(예를 들어, 더 적은 GC-풍부 인접 서열)을 덮는 베이트 세트로 표적화된 영역을 확장한다;
(iii) 베이트 서열의 변형은 베이트의 2차 구조를 감소시키고, 그것의 선택 효율을 향상시키도록 만들어질 수 있다;
(iv) 베이트 길이의 변형은 동일 카테고리 내에서 상이한 베이트의 용융 혼성화 역학과 동일하게 되도록 사용될 수 있다. 베이트 길이는 직접적으로(다양한 길이를 갖는 베이트를 생성함으로써) 또는 간접적으로(일정한 길이의 베이트를 생성하고, 베이트 말단을 임의의 서열로 대체함으로써) 변형될 수 있다;
(v) 동일 표적 영역(즉, 전방 및 후방 가닥)에 대해 상이한 배향의 베이트를 변형시키는 것은 상이한 결합 효율을 가질 수 있다. 각각의 표적에 대해 최적의 덮임률을 제공하는 배향 중 하나를 지니는 베이트 세트가 선택될 수 있다;
(vi) 결합 완전체의 양을 변형시키는 것, 예를 들어 각 베이트에 존재하는 포획 태그(예를 들어, 바이오틴)은 그것의 결합 효율에 영향을 미칠 수 있다. 특이적 표적을 표적화하는 베이트의 태그 수준을 증가/감소시키는 것은 상대적 표적 덮임률을 향상/감소시키도록 사용될 수 있다;
(vii) 상이한 베이트에 대해 사용된 뉴클레오타이드 유형의 변형은 표적의 결합 친화도에 영향을 미치도록 변경될 수 있고, 상대적 표적 덮임률을 향상시키고/감소시킬 수 있다; 또는
(viii) 예를 들어 더 안정한 염기 쌍을 갖는 변형된 올리고뉴클레오타이드 베이트를 사용하는 것은 고 GC 함량에 대해 낮은 또는 정상의 GC 함량의 영역 사이의 용융 혼성화 역학이 동등하게 되도록 사용될 수 있다.
다른 실시형태에서, 선택 효율은 선택 효율은 베이트의 등몰 혼합을 사용할 때 관찰된 차별적인 서열 포획 효율에 대해 베이트의 상대적 존재비 또는 결합 독립체의 밀도(예를 들어, 햅텐 또는 친화도 태그 밀도)를 조절한 다음, 내부-평준화된 그룹 2에 비해 전반적인 베이트 혼합에 대해 내부로-평준화된 그룹 1 만큼 차별적인 과량을 도입함으로써 그룹(예를 들어, 제1, 제2 또는 제3 다수의 베이트) 내에서 개개 베이트의 효율을 평준화함으로써 조절된다.
실시형태에서, 라이브러리 캐치는 종양 구성원, 예를 들어 종양 세포로부터의 서브게놈 간격을 포함하는 핵산 분자를 선택하는 베이트 세트(또한 본 명세서에서 "종양 베이트 세트"로서 지칭됨)를 포함하는 복수의 베이트 세트의 사용에 의해 제공된다. 종양 구성원은 종양 세포, 예를 들어 본 명세서에 기재된 바와 같은 돌연변이된, 야생형, PGx, 기준 또는 인트론 뉴클레오타이드 서열(예를 들어, 구성원)에 존재하는, 즉, 종양 또는 암 세포에 존재하는 임의의 뉴클레오타이드 서열일 수 있다. 일 실시형태에서, 종양 구성원은 낮은 빈도로 나타나는 변경(예를 들어, 하나 이상의 돌연변이)을 포함하며 예를 들어 종양 샘플로부터 세포의 약 5% 이하가 그것의 게놈 내 변경을 은닉한다. 다른 실시형태에서, 종양 구성원은 종양 샘플로부터 약 10%의 빈도로 나타나는 변경(예를 들어, 하나 이상의 돌연변이)을 포함한다. 다른 실시형태에서, 종양 구성원은 종양 세포에 존재하는 PGx 유전자 또는 유전자 생성물, 인트론 서열, 예를 들어, 본 명세서에 기재된 바와 같은 인트론 서열, 기준 서열로부터의 서브게놈 간격을 포함한다.
다른 실시형태에서, 해당 방법은 비종양 구성원, 예를 들어 비-종양 세포에 존재하는 핵산 분자(예컨대 서브게놈 간격)를 검출하는 단계를 추가로 포함한다. 일 실시형태에서, 복수의 베이트 세트는 비-종양 구성원을 선택하는 베이트 세트(또한 본 명세서에서 "비-종양 베이트 세트"로서 지칭됨)를 포함한다. 예를 들어, 비-종양 구성원은 정상(예를 들어, 비-암성) 기준 샘플(예를 들어, 동일 피험체로부터 얻은 종양 샘플로부터); 종양을 가지거나 또는 가질 위험에 있는 동일 피험체로부터의 정상 인접 조직(NAT) 또는 혈액 샘플로부터 유래될 수 있다. 다른 실시형태에서, 비-종양 구성원은 종양 구성원과 상이한 피험체로부터 유래된다(예를 들어, 정상(예를 들어, 비-암성) 기준 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플), 하나 이상의 상이한 피험체(예를 들어, 건강한 피험체 또는 종양을 가지거나 또는 가질 위험에 있는 다른 피험체)로부터 유래된다). 일 실시형태에서, 비-종양 구성원은 비-종양 세포에 존재하는 PGx 유전자 또는 유전자 생성물, 인트론 서열, 기준 서열로부터의 서브게놈 간격을 포함한다.
일 실시형태에서, 종양 베이트 세트은 다음의 A 내지 M 중 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12개 또는 모두로부터 선택된다:
A. 암성 표현형과 관련된 단일 뉴클레오타이드 변경을 포함하는 엑손 서열을 선택하는 베이트 세트;
B. 기준 뉴클레오타이드(예를 들어, 염색체) 서열로부터 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 코돈의 프레임내 결실을 선택하는 베이트 세트;
C. 유전자내 결실을 선택하는 베이트 세트;
D. 유전자내 삽입을 선택하는 베이트 세트;
E. 전체 유전자의 결실을 선택하는 베이트 세트;
F. 역위, 예를 들어 염색체내 역위를 선택하는 베이트 세트;
G. 염색체간 전위를 선택하는 베이트 세트;
H. 순차 중복, 예를 들어 염색체내 순차 중복을 선택하는 베이트 세트;
I. 비-반복 서열에 인접하여 측접한 관심의 뉴크렐오타이드 서열을 선택하는 베이트 세트;
J. 융합 서열에 대응되는 하나 이상의 서브게놈 간격, 예를 들어, 융합 서열(예를 들어, 융합 전사체 또는 비-융합 전사체의 암 관련 대안의 스플라이싱된 형태)에 대응되는 서브게놈 간격의 사전선택된 쌍(예를 들어, 엑손의 사전선택된 쌍)을 선택하는 베이트 세트;
K. 바람직하지 않은 특징을 포함하는 뉴클레오타이드 서열, 예를 들어 고 GC 함량의 뉴클레오타이드 서열, 하나 이상의 반복된 구성요소 및/또는 역위 반복체를 포함하는 뉴클레오타이드 서열에 인접한 서브게놈 간격을 선택하는 베이트 세트;
L. 재배열, 예를 들어, 게놈 재배열(예를 들어, 인트론 서열, 예를 들어, 5' 또는 3'-UTR을 포함하는 재배열)을 선택하는 베이트 세트; 또는
M. 암 관련 유전자 융합에 인접한 엑손을 포함하는 서브게놈 간격을 선택하는 베이트 세트.
베이트 세트의 추가적인 실시형태 및 그것을 사용하는 방법은 다음과 같다:
일 실시형태에서, 베이트 세트는 혼성화에 의해 구성원을 선택한다(예를 들어, 베이트 또는 베이트 세트 내 다수의 베이트는 본 명세서에 기재된 바와 같은 하나 이상의 구성원, 예를 들어 표적 구성원, 예컨대 제1 내지 제5 구성원, 종양 또는 비종양 구성원에 상보적이다).
일 실시형태에서, 라이브러리(예를 들어, 핵산 라이브러리)는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 이상의 피험체로부터의 다수의 구성원, 예를 들어, 표적 핵산 구성원을 포함한다. 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 가질 위험에 있는 인간이다.
특정 실시형태에서, 해당 방법은 적어도 X명의 피험체로부터의 종양 샘플로부터 핵산 샘플을 시퀀싱하는 단계를 포함한다(여기서 X = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40명 이상임). 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 가질 위험에 있는 인간이다. 해당 방법은 적어도 X명의 피험체로부터 본 명세서에 기재된 적어도 5, 10, 15, 20, 30, 40, 50, 75개 이상의 유전자 또는 유전자 생성물(예를 들어, 표 1, 1A, 2, 3 또는 4의 유전자 또는 유전자 생성물)을 시퀀싱하는 단계를 포함한다.
다른 실시형태에서 또는 상기 언급한 실시형태에 추가로, 해당 방법은 종양 샘플로서 동일 피험체로부터의 유전자 또는 유전자 생성물로부터 기준 서브게놈 간격, 예를 들어 본 명세서에 기재된 유전자 또는 유전자 생성물(예를 들어, 표 1, 1A, 2, 3 또는 4의 유전자 또는 유전자 생성물)의 야생형 또는 비-돌연변이 뉴클레오타이드 서열을 시퀀싱하는 단계를 포함한다. 일 실시형태에서, 기준 유전자 또는 유전자 생성물은 종양 샘플로서 동일 피험체 또는 상이한 피험체로부터 유래되며(예를 들어, 동일 또는 상이한 종양 샘플; 정상(예를 들어, 비-암성) 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플 중 하나 이상으로부터 유래됨), 종양을 가지거나 또는 가질 위험에 있는 동일한 피험체로부터 또는 상이한 피험체로부터 유래된다.
일 실시형태에서, 구성원(예를 들어, 본 명세서에 기재된 구성원 중 어떤 것)은 서브게놈 간격을 포함한다. 일 실시형태에서, 서브게놈 간격은 유전자내 영역 또는 유전자간 영역을 포함한다. 일 실시형태에서, 서브게놈 간격은 유전자 또는 이것의 단편, 엑손 또는 이들의 단편 또는 사전선택된 뉴클레오타이드 위치(예를 들어, 염기)를 포함한다. 다른 실시형태에서, 서브게놈 간격은 엑손 또는 인트론 또는 이것의 단편, 전형적으로 엑손 또는 이것의 단편을 포함한다. 일 실시형태에서, 서브게놈 간격은 암호 영역 또는 비-암호 영역, 예를 들어 프로모터, 인핸서, 5' 미번역 영역(5' UTR) 또는 3' 미번역 영역(3' UTR) 또는 이것의 단편을 포함한다.
다른 실시형태에서, 구성원(예를 들어, 본 명세서에 기재된 구성원 중 어떤 것)의 서브게놈 간격은, 예를 들어 양성으로 또는 음성으로 암성 표현형(예를 들어, 암 위험, 암 진행, 암 치료 또는 암 치료에 대한 내성 중 하나 이상)과 관련된 변경(예를 들어, 하나 이상의 돌연변이)을 포함한다. 또 다른 실시형태에서, 서브게놈 간격은 변경, 예를 들어, 점 또는 단일 돌연변이, 결실 돌연변이(예를 들어, 프레임내 결실, 유전자내 결실, 전체 유전자 결실), 삽입 돌연변이(예를 들어, 유전자내 삽입), 역위 돌연변이(예를 들어, 염색체내 역위), 연결 돌연변이, 연결된 삽입 돌연변이, 역위 복제물 돌연변이, 순차 중복(예를 들어, 염색체내 순차 중복), 전위(예를 들어, 염색체 전위, 비상호 전위), 재배열(예를 들어, 게놈 재배열(예를 들어, 하나 이상의 인트론 또는 이것의 단편의 재배열; 재배열된 인트론은 5'- 및/또는 3'- UTR을 포함함); 유전자 복제수의 변화; 유전자 발현의 변화; RNA 수준의 변화 또는 이들의 조합을 포함한다. 일 실시형태에서, 제1 또는 제2 구성원의 서브게놈 간격은 표 1, 1A, 3 또는 4에 따른 유전자 또는 유전자 생성물의 변경을 포함한다.
일 실시형태에서, 종양 구성원은 하나 이상의 변경(종양 샘플로부터 유전자 또는 유전자 생성물로부터의 하나 이상의 변경되거나 또는 돌연변이된 서브게놈 간격)을 포함한다. 일부 실시형태에서, 베이트 세트(예를 들어, 본 명세서에기재된 베이트 세트 중 어떤 것)은, 예를 들어 양성으로 또는 음성으로 암성 표현형과 관련된 변경(예를 들어, 하나 이상의 돌연변이)을 포함하는 종양 구성원, 예를 들어 핵산 분자(예를 들어, 서브게놈 간격, 예컨대 유전자, 엑손 또는 이것의 단편)을 선택한다(예를 들어, 상보적이다).
실시형태에서, 구성원은 암성 표현형, 예를 들어 암성 표현형, 예를 들어 암 위험, 암 진행, 암 치료 또는 암 치료에 대한 내성 중 하나 이상과 관련된다. 암성 표현형과 관련은 암에 대한 유전적 위험 인자, 양성 치료 반응 예측자, 음성 치료 반응 예측자, 양성 예후 인자, 음성 예후 인자 또는 진단 인자 중 하나 이상을 포함할 수 있다. 일 실시형태에서, 종양 구성원과 관련된 암성 표현형은 샘플의 조직학적 분석에 의해 검출된 동일 종양 유형이다. 다른 실시형태에서, 종양 구성원과 관련된 암성 표현형은 샘플의 조직학적 분석에 의해 검출되는 바와 같은 상이한 종양 유형으로부터 유래된다.
특정 실시형태에서, 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 양성 임상적 결과물 및/또는 치료에 대한 반응을 예측한다. 다른 실시형태에서, 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 음성 임상적 결과물 및/또는 치료에 대한 반응을 예측한다. 특정 실시형태에서, 핵산 샘플의 서브게놈 간격은 뉴클레오타이드 서열을 포함하되, 사전선택된 대립유전자 변이체의 존재 또는 부재는 암이 발생하는 것에 대해 유전적(예를 들어, 생식계열 위험) 인자를 표시한다(예를 들어, 유전자 또는 유전자 생성물은 BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL 또는 WT1 중 하나 이상으로부터 선택된다).
다른 실시형태에서, 구성원은 암성 표현형과 관련되지 않는다. 특정 실시형태에서, 구성원(예를 들어, 본 명세서에 기재된 구성원 중 어떤 것)의 서브게놈 간격은 샘플로부터 종양 유형에 대해 암성 표현형과 관련되지 않은 핵산 분자(동일 또는 상이한 서브게놈 간격에서)를 포함한다.
일 실시형태에서, 구성원(예를 들어, 본 명세서에 기재된 구성원 중 어떤 것)의 서브게놈 간격은 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이 뉴클레오타이드 서열(예를 들어, 엑손 서열 또는 이것의 단편)을 포함한다. 일 실시형태에서, 제1 또는 제2 구성원의 서브게놈 간격은 돌연변이될 때 암성 표현형과 관련된 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이 뉴클레오타이드 서열을 포함한다(예를 들어, 본 명세서에 기재된 바와 같은 유전자 또는 유전자 생성물, 예를 들어 표 1, 1A, 3 또는 4에서 본 명세서에 기재된 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이 서열). 야생형 또는 비-돌연변이 유전자 또는 유전자 생성물 서열을 함유하는 구성원은 또한 본 명세서에서 "기준 구성원"으로서 지칭된다. 예를 들어, 서브게놈 간격은 이형 접합적 돌연변이의 야생형 대립유전자; 정상(예를 들어, 비-암성) 기준 샘플(예를 들어, 동일 피험체로부터 얻은 종양 샘플로부터); 정상 인접 조직(NAT) 또는 종양을 가지거나 또는 가질 위험이 있는 동일 피험체로부터의 혈액 샘플 중 하나 이상으로부터 유래된다. 다른 실시형태에서, 서브게놈 간격은 종양 구성원과 상이한 피험체로부터 유래되고(예를 들어, 상이한 피험체로부터 동일 또는 상이한 종양 샘플; 정상(예를 들어, 비-암성) 기준 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플 중 하나 이상으로부터 유래됨), 하나 이상의 상이한 피험체(예를 들어, 건강한 피험체 또는 종양을 가지거나 또는 가질 위험에 있는 다른 피험체)로부터 유래된다.
일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 약 5% 이하(즉, 샘플이 제조된 세포의 5%가 그것의 게놈에서 이 돌연변이를 은닉함)의 빈도로 나타나는 점 돌연변이를 포함하는 서브게놈 간격을 선택하며(예를 들어, 상보적이며), 고검출 신뢰성을 보장하기 위해 약 500X 이상의 시퀀싱 심도를 필요로 한다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU 또는 TP53 유전자 또는 유전자 생성물 중 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개 이상으로부터 선택된 종양 또는 기준 구성원을 선택한다(예를 들어, 상보적이다). 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 ABL1 유전자의 코돈 315; APC의 코돈 1114, 1338, 1450 또는 1556; BRAF의 코돈 600; CTNNB1의 코돈 32, 33, 34, 37, 41 또는 45; EGFR의 코돈 719, 746 내지 750, 768, 790, 858 또는 861; FLT3의 코돈 835; HRAS의 코돈 12, 13 또는 61; JAK2의 코돈 617; KIT의 코돈 816; KRAS의 코돈 12, 13 또는 61; PIK3CA의 코돈 88, 542, 545, 546, 1047 또는 1049; PTEN의 코돈 130, 173, 233 또는 267; RET의 코돈 918; TP53의 코돈 175, 245, 248, 273 또는 306 중 하나 이상으로부터 선택된 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35개의 코돈을 선택한다(예를 들어, 상보적이다).
일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 표 1 또는 1A에 따른 우선순위 1 암 유전자 또는 유전자 생성물로부터 특정 유형의 암에서 빈번하게 돌연변이된 하나 이상의 서브게놈 간격, 예를 들어 적어도 5, 10, 20, 30 이상의 서브게놈 간격을 선택한다.
다른 실시형태에서, 제2 베이트 세트는 약 10%의 빈도로 나타나는 변경(예를 들어, 점 돌연변이)을 포함하는 종양 구성원을 선택하며(예를 들어, 상보적이며), 예를 들어, 고검출 신뢰성을 보장하기 위해 약 200X 이상의 시퀀싱 심도를 필요로 한다.
다른 실시형태에서, 제2 베이트 세트는 ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL 또는 WT1 유전자 또는 유전자 생성물 중 1, 2, 3, 4, 5, 10, 15, 20, 25, 30,35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115, 120개 이상의 선택된 종양 구성원을 선택한다(예를 들어, 상보적이다).
일 실시형태에서, 제2 베이트 세트 또는 종양 베이트 세트는 표 1 또는 1A에 따른 암 유전자 또는 유전자 생성물 중 적어도 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100개 이상으로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다.
특정 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 야생형 및/또는 비-돌연변이 뉴클레오타이드 서열, 예를 들어, 야생형 또는 비-돌연변이 뉴클레오타이드 서열, 예를 들어, 본 명세서에 기재된 바와 같은, 예를 들어 표 1, 1A, 3 또는 4에 기재된 바와 같은 유전자 또는 유전자 생성물의 서브게놈 간격의 야생형 및/또는 비-돌연변이 뉴클레오타이드 서열을 갖는 기준 구성원을 선택한다.
일 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 세트는, 예를 들어, 돌연변이될 때, 예를 들어 양성으로 또는 음성으로 암성 표현형과 관련된 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이 뉴클레오타이드 서열(예를 들어, 엑손 서열 또는 이것의 단편)을 갖는 구성원, 예를 들어 기준 구성원을 선택한다.
일 실시형태에서, 기준 구성원은 종양 구성원과 동일한 피험체로부터 유래되며(예를 들어, 동일 또는 상이한 종양 샘플; 돌연변이된 구성원의 야생형 이형 접합적 대립유전자; 정상(예를 들어, 비-암성) 기준 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플 중 하나 이상으로부터 유래됨), 종양을 가지거나 또는 가질 위험에 있는 동일한 피험체로부터 유래된다. 다른 실시형태에서, 기준 구성원은 종양 구성원과 상이한 피험체로부터 유래되며(예를 들어, 상이한 피험체로부터의 동일 또는 상이한 종양 샘플; 정상(예를 들어, 비-암성) 기준 샘플; 정상 인접 조직(NAT); 또는 혈액 샘플 중 하나 이상으로부터 유래됨), 종양을 가지거나 종양을 가질 위험에 있는 하나 이상의 상이한 피험체로부터 유래된다.
일 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 암성 표현형과 관련된 단일 뉴클레오타이드 변경을 포함하는 엑손 서열을 선택한다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 12의 뉴클레오타이드 25,398,215-25,398,334에 상보적인 뉴클레오타이드 서열을 포함할 수 있고, KRAS 유전자 내 G12S 돌연변이를 표시하는 위치 25,398,286에서 C-T 치환에 상보적인 염기를 함유할 수 있다.
다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 기준 뉴클레오타이드(예를 들어, 염색체) 서열로부터 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 코돈의 프레임내 결실을 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 그것의 기준 5' 내지 3' 배향에서 기준 염색체 서열의 2개의 불연속 뉴클레오타이드 서열을 포함하며(또는 이루어지며), 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60개 이상의 뉴클레오타이드 중 어떤 것의 갭에 의해 기준 염색체 서열상에서 분리된다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 7의 뉴클레오타이드 55,242,400 내지 55,242,535에 상보적이지만, EGFR 유전자의 코돈 746 내지 750의 프레임내 결실을 나타내는 뉴클레오타이드 55,242,464 내지 55,242,479를 결여하는 뉴클레오타이드 서열을 포함한다.
또 다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 유전자내 결실을 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 그것의 기준 5' 내지 3' 배향에서 기준 뉴클레오타이드(예를 들어, 염색체) 서열의 2개의 불연속 세그먼트를 포함하며(또는 이루어지며), 기준 염색체 서열로부터 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60개의 뉴클레오타이드에 의해 분리된다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 10의 뉴클레오타이드 9,675,214 내지 89,675,274 다음에 염색체 10의 염기 89,675,277 내지 89,675,337에 상보적인 뉴클레오타이드 서열을 포함할 수 있는데, 이는 PTEN 유전자의 코돈 64로부터 다이뉴클레오타이드 서열 "CA"의 결실을 나타낸다.
또 다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 유전자내 삽입을 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 기준 뉴클레오타이드(예를 들어, 염색체) 서열의 2개 인접한 세그먼트를 포함하며(또는 이루어지며), 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60개의 뉴클레오타이드의 비-기준 서열에 의해 분리된다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 10의 뉴클레오타이드 89,692,864 내지 89,692,924, 다음에 뉴클레오타이드 서열 "GGNATG", 다음에 염색체 10의 뉴클레오타이드 89,692,925 내지 89,692,980에 상보적인 뉴클레오타이드 서열을 포함할 수 있는데, 이는 PTEN 유전자의 코돈 136 다음의 아미노산 잔기 "Gly-Met"의 삽입을 나타낸다.
다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 전체 유전자의 결실을 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 그것의 기준 5' 내지 3' 배향에서 기준 뉴클레오타이드(예를 들어, 염색체) 서열의 2개의 불연속 세그먼트를 포함하며(또는 이루어지며), 기준 염색체 서열로부터 500, 1000, 1500, 2000, 2500, 3000, 4000, 5000개 이상의 뉴클레오타이드에 의해 분리된다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 9의 염기 22,001,175 내지 22,001,235에 인접한 염색체 9의 염기 21,961,007 내지 21,961,067에 상보적인 뉴클레오타이드 서열을 포함할 수 있는데, 이는 CDKN2A 유전자의 결실을 나타낸다.
다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 역위, 예를 들어 염색체내 역위를 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는, 예를 들어 역위로부터 생기는 구성원을 포획하기 위해 기준 뉴클레오타이드(예를 들어, 염색체) 서열의 두 개 불연속 세그먼트에 상보적인 뉴클레오타이드 서열을 포함하는데, 이중 하나는 그것의 기준 배향으로부터 역위된다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 2의 뉴클레오타이드 42,522,893 내지 42,522,953를 포함할 수 있고, 염색체 2의 뉴클레오타이드 29,449,993 내지 29,449,933와 병치되는데, 이는 EML4:ALK 융합을 생성하는 역위를 나타낸다.
다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 염색체간 전위를 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는, 예를 들어 염색체간 전위로부터 생기는 구성원을 포획하기 위해 상이한 기준 염색체 서열로부터 유래된 기준 뉴클레오타이드(예를 들어, 게놈) 서열의 2개 불연속 세그먼트에 상보적인 뉴클레오타이드 서열을 포함한다. 예를 들어, 제1 베이트 세트 또는 종양 베이트 세트는 염색체 22의 뉴클레오타이드 23,632,552 내지 23,632,612를 포함할 수 있고, 염색체 9의 뉴클레오타이드 133,681,793 내지 133,681,853과 병치될 수 있는데, 이는 BCR-ABL 융합을 초래하는 염색체 전위의 존재를 표시한다.
또 다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 순차 중복, 예를 들어, 염색체내 순차 중복을 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 길이로 적어도 3, 6, 9, 12, 15, 18, 21, 24, 27 또는 30개의 뉴클레오타이드의 기준 뉴클레오타이드(예를 들어, 염색체) 서열 중 하나의 세그먼트에 상보적인 뉴클레오타이드 서열을 포함하며, 예를 들어 순차 중복을 갖는 구성원을 포획하기 위해 그것의 기준 배향에서 적어도 1회, 예를 들어, 2회, 3회, 4회 또는 5회 반복된다. 예를 들어, 베이트는 동일 배양에서 2회 반복된 염색체 13의 염기 28,608,259 내지 28,608,285를 포함할 수 있는데, 이는 FLT3 유전자에서 내부의 순차 중복(ITD)을 나타낸다.
또 다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 인접한 비-반복 서열에 측접한 관심의 뉴클레오타이드 서열을 특징으로 하는 종양 구성원을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 적어도 2개의 불연속 뉴클레오타이드 서열을 포함한다. 제1 뉴클레오타이드 서열은 관심의 서열의 5' 측접 영역에 상보적이며, 제2 뉴클레오타이드 서열은 관심의 서열의 3' 측접 영역에 상보적이다. 예를 들어, 베이트의 제1 및 제2 쌍은 뉴클레오타이드 51,288,380 내지 51,288,500(베이트 1)에 상보적인 제1 뉴클레오타이드 서열 및 염색체 2의 뉴클레오타이드 51,288,560 내지 51,288,680(베이트 2)에 상보적인 제2 뉴클레오타이드 서열을 포함할 수 있는데, 이는 미소부수체 마커 서열 D2S123을 함유하는 구성원을 포획할 수 있다.
다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 융합 서열(예를 들어, 융합 전사체 또는 암 관련된 비-융합 전사체의 대안의 스플라이스된 형태)에 대응되는 서브게놈 간격의 사전선택된 쌍(예를 들어, 엑손의 사전선택된 쌍)을 선택한다(예를 들어, 상보적이다).
다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 바람직하지 않은 특징을 포함하는 뉴클레오타이드 서열, 예를 들어 고 GC 함량의 뉴클레오타이드 서열, 하나 이상의 반복된 구성요소 및/또는 역위된 반복체를 포하하는 뉴클레오타이드 서열에 인접한 서브게놈 간격을 선택한다. 일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 반복된 구성요소를 포함하지만, 반복된 구성요소에 대해 혼성화되지 않은(예를 들어, BRCA2 유전자에서 반복된 구성요소에 대해 혼성화되지 않은) 서브게놈 간격을 선택한다.
다른 실시형태에서, 제1, 제2 또는 종양, 베이트 세트는 암 관련 유전자 융합에 인접한 엑손을 포함하는 서브게놈 간격을 선택하며, 이에 의해 유전자 융합에 인접한 핵산 서열(예를 들어, cDNA 단편)의 포획을 가능하게 한다.
다른 실시형태에서, 제1, 제2 또는 종양, 베이트 세트는 표 1, 1A, 3 또는 4에 나타낸 하나 이상의 유전자 또는 유전자 생성물이고, 암성 표현형, 예를 들여 표 1, 1A, 3 또는 4에 기재된 암 유형 중 하나 이상으로부터 선택된 암과 관련된 서브게놈 간격을 선택한다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 CML, ALL 또는 T-ALL 중 하나 이상으로부터 선택된 연조직 악성 종양과 관련된 ABL-1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 CML, ALL 또는 T-ALL 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 유방, 결장직장, 난소 또는 비소세포 폐암(NSCLC) 중 하나 이상으로부터 선택된 암과 관련된 AKT1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 유방, 결장직장, 난소 또는 비소세포 폐암(NSCLC) 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 ALCL, NSCLC 또는 신경아세포종 중 하나 이상으로부터 선택된 암과 관련된 ALK 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 ALCL, NSCLC 또는 신경아세포종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 암성 표현형, 예를 들어 결장직장, 췌장, 유건종, 간모세포종, 신경교종 또는 다른 CNS 암 또는 종양 중 하나 이상으로부터 선택된 암과 관련된 APC 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 결장직장, 췌장, 유건종, 간모세포종, 신경교종 또는 다른 CNS 암 또는 종양 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 흑색종, 결장직장 암, 폐암, AML 또는 ALL을 포함하는 다른 상피 악성 종양 또는 혈액학적 악성 종양 중 하나 이상으로부터 선택된 암과 관련된 BRAF 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 흑색종, 결장직장 암, 폐암, AML 또는 ALL을 포함하는 다른 상피 악성 종양 또는 혈액학적 악성 종양 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 흑색종, 췌장 또는 다른 종양 유형 중 하나 이상으로부터 선택된 암과 관련된 CDKN2A 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 흑색종, 췌장 또는 다른 종양 유형 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 AML 또는 MDS 중 하나 이상으로부터 선택된 암과 관련된 CEBPA 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 AML 또는 MDS 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 결장직장, 난소, 간모세포종 또는 다형성 침샘 선암종 중 하나 이상으로부터 선택된 암과 관련된 CTNNB1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 결장직장, 난소, 간모세포종 또는 다형성 침샘 선암종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 신경교종, 폐암 또는 NSCLC 중 하나 이상으로부터 선택된 암과 관련된 EGFR 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 신경교종, 폐암 또는 NSCLC 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는, 예를 들어 양성으로 또는 음성으로 암성 표현형, 예를 들어 유방, 난소, NSCLC, 위 또는 다른 고형 종양 중 하나 이상으로부터 선택된 암과 관련된 ERBB2 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 유방, 난소, NSCLC, 위 또는 다른 고형 종양 유형 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 유방, 난소 또는 자궁내막 종양 중 하나 이상으로부터 선택된 암과 관련된 ESR1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 유방, 난소 또는 자궁내막 종양 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 MPD 또는 NHL 중 하나 이상으로부터 선택된 암과 관련된 FGFR1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 MPD 또는 NHL 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 위, NSCLC 또는 자궁내막 종양 중 하나 이상으로부터 선택된 암과 관련된 FGFR2 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 위, NSCLC 또는 자궁내막 종양 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 방광 암, 다발성 골수종 또는 T-세포 림프종 중 하나 이상으로부터 선택된 암과 관련된 FGFR3 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 방광 암, 다발성 골수종 또는 T-세포 림프종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 흑색종, 결장직장, 유두 갑상선, 난소, 비소세포폐암(NSCLC), 담도암 또는 모양세포 성상세포종 중 하나 이상으로부터 선택된 암과 관련된 FLT3 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 흑색종, 결장직장, 유두 갑상선, 난소, 비소세포폐암(NSCLC), 담도암 또는 모양세포 성상세포종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 횡문근육종, 신경절아세포종, 방광, 육종 또는 다른 암 유형 중 하나 이상으로부터 선택된 암과 관련된 HRAS 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 횡문근육종, 신경절아세포종, 방광, 육종 또는 다른 암 유형 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 ALL, AML, MPD 또는 CML 중 하나 이상으로부터 선택된 암과 관련된 JAK2 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 ALL, AML, MPD 또는 CML 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 위장관 기질종양(GIST), AML, TGCT, 비만세포증, 점막 흑색종 또는 상피종 중 하나 이상으로부터 선택된 암과 관련된 KIT 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 위장관 기질종양(GIST), AML, TGCT, 비만세포증, 점막 흑색종 또는 상피종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 췌장, 결장, 결장직장, 폐, 갑상선 또는 AML 중 하나 이상으로부터 선택된 암과 관련된 KRAS 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 췌장, 결장, 결장직장, 폐, 갑상선 또는 AML 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 신장 또는 두경부 편평세포암종 중 하나 이상으로부터 선택된 암과 관련된 MET 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 신장 또는 두경부 편평세포암종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 AML 또는 ALL 중 하나 이상으로부터 선택된 암과 관련된 MLL 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 AML 또는 ALL 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트는 암성 표현형, 예를 들어, 신경섬유종 또는 신경교종 중 하나 이상으로부터 선택된 암과 관련된 NF1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다(예를 들어, 상보적이다). 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 신경섬유종 또는 신경교종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 T-ALL 암과 관련된 NOTCH1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 T-ALL 암을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 NHL, APL 또는 AML 중 하나 이상으로부터 선택된 암과 관련된 NPM1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 NHL, APL 또는 AML 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 흑색종, 결장직장 암, 다발성 골수종, AML 또는 갑상선 암 중 하나 이상으로부터 선택된 암과 관련된 NRAS 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 흑색종, 결장직장 암, 다발성 골수종, AML 또는 갑상선 암 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 GIST 또는 특발성 호산구 증가증 중 하나 이상으로부터 선택된 암과 관련된 PDGFRA 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 GIST 또는 특발성 호산구 증가증 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 결장직장, 위, 교모세포종 또는 유방암 중 하나 이상으로부터 선택된 암과 관련된 PIK3CA 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 결장직장, 위, 교모세포종 또는 유방암 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어, 결장직장, 신경교종, 전립선 또는 자궁내막 암 중 하나 이상으로부터 선택된 암과 관련된 PTEN 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 결장직장, 신경교종, 전립선 또는 자궁내막 암 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 망막아세포종, 육종, 유방 또는 소세포폐암종 중 하나 이상으로부터 선택된 암과 관련된 RB1 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 망막아세포종, 육종, 유방 또는 소세포폐암종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 암성 표현형, 예를 들어 수질성 갑상선, 유두 갑상선 또는 갈색세포종 중 하나 이상으로부터 선택된 암과 관련된 RET 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어 핵산 라이브러리는 수질성 갑상선, 유두 갑상선 또는 갈색세포종 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 유방, 결장직장, 폐, 육종, 부신피질, 신경교종 또는 다른 종양 유형으로부터 선택된 암과 관련된 TP53 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 일 실시형태에서, 라이브러리, 예를 들어, 핵산 라이브러리는 유방, 결장직장, 폐, 육종, 부신피질, 신경교종 또는 다른 종양 유형 중 하나 이상을 가지거나 또는 가질 위험에 있는 피험체로부터의 샘플로부터 얻어진다.
일 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 치료 반응의 양성 예측자인 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 치료 반응의 양성 예측자의 예는, 이하에 제한되는 것은 아니지만, NSCLC 환자에서 소 분자 EGFR TKI(예를 들어, 이레사/게피티닙에 대한 반응을 예측하는 EGFR 유전자 내 활성화 돌연변이; NSCLC 환자에서 ALK 억제제(예를 들어, PF-02341066)에 대한 반응을 예측하는 EML4/ALK 융합 유전자의 존재; 흑색종 환자에서 BRAF 억제(예를 들어, PLX-4032)에 반응성을 예측하는 BRAF V600E 돌연변이의 존재를 포함한다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 치료 반응의 음성 예측자인 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 치료 반응의 음성 예측자의 예는, 이하에 제한되는 것은 아니지만, CRC 환자에서 항-EGFR 단클론성 항체(세툭시맙, 파니투무맙)에 대한 반응의 결여를 예측하는 KRAS 유전자 내 활성화 돌연변이; 및 CML 환자에서 글리벡/이마티닙에 대한 내성을 예측하는 BCR/Abl 융합 유전자 내 M351T 돌연변이의 존재를 포함한다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 예후 인자인 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 예후 인자의 예는, 이하에 제한되는 것은 아니지만, AML 환자에서 재발에 대한 음성 예후인 FLT3 유전자 내 삽입 돌연변이의 존재; 수질성 갑상선 암종 환자에서 생존을 위한 음성 예후 인자인 특이적 RET 유전자 돌연변이, 예를 들어 M918T의 존재를 포함한다.
다른 실시형태에서, 제1 베이트 세트 또는 종양 베이트 세트는 진단 인자인 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택한다. 예후 인자의 예는, 이하에 제한되는 것은 아니지만, CML에 대해 진단적인 BCR/Abl 융합 유전자의 존재; 및 신장의 육종양에 진단적인 SMARCB1 돌연변이의 존재를 포함한다.
또 다른 실시형태에서, 제1 또는 제2 베이트 세트 또는 종양 베이트 세트는 종양 진행 및/또는 내성과 관련되고, 암 진행에서 후발성(예를 들어, 전이-관련 돌연변이, 약물 내성 관련 돌연변이)인 변경을 포함하는 핵산 분자(예를 들어, 서브게놈 간격)를 선택한다.
또 다른 실시형태에서, 종양 구성원은 종양 샘플 내 종양 세포의 게놈의 암호 영역의 5, 1, 0.5, 0.1%, 0.01%, 0.001% 미만으로 존재하는 유전자 또는 유전자 생성물로부터의 서브게놈 간격을 포함한다.
일 실시형태에서, 종양 구성원은 종양 또는 암과 관련된 유전자 또는 유전자 생성물(예를 들어, 양성 또는 음성치료 반응 예측자이고, 종양 또는 암의 차별적인 진단을 가능하게 하는 양성 또는 음성 예후 인자, 예를 들어 ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1 및 TP53 중 하나 이상으로부터 선택된 유전자 또는 유전자 생성물임)과 관련된 서브게놈 간격을 포함한다.
일 실시형태에서, 종양 구성원은 표 1, 1A 내지 4에 따른 야생형 또는 돌연변이된 유전자 또는 유전자 생성물로부터 선택된 서브게놈 간격을 포함한다.
일 실시형태에서, 종양 구성원은 GC-풍부 영역에 포매된 표 1, 1A-4에 따른 야생형 또는 돌연변이된 유전자 또는 유전자 생성물로부터 선택된 서브게놈 간격을 포함한다.
다른 실시형태에서, 종양 구성원은 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다. 다른 실시형태에서, 종양 구성원은 본 명세서에서 구체화된 암 유형으로부터의 고형 종양 샘플에서 표 3에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다.
일 실시형태에서, 종양 구성원은 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다. 다른 실시형태에서, 종양 구성원은 본 명세서에서 구체화된 암 유형으로부터의 헴 종양 샘플에서 표 4에 따른 적어도 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200개 이상의 유전자 또는 유전자 생성물의 전위 변경을 포함한다.
다른 실시형태에서, 다수의 베이트는 대조군 구성원, 예를 들어 라이브러리에서 표적 핵산 구성원의 핑거프린팅; 라이브러리에서 표적 핵산 구성원 존재비의 정량화; 라이브러리 내 환자의 표적 핵산 구성원의 확인, 라이브러리가 유래된 샘플에서 배수성의 결정; 라이브러리가 유래된 샘플에서 이형접합성 소실의 결정; 라이브러리가 유래된 샘플에서 유전자 복제물의 결정; 라이브러리가 유래된 샘플에서 유전자 증폭의 결정; 또는 라이브러리가 유래된 샘플에서 종양/정상 세포 혼합의 결정 중 하나 이상에 대해 사용된 핵산을 선택하는(예를 들어, 상보적인) 베이트 세트를 추가로 포함한다. 이러한 베이트는 본 명세서에서 "대조군 베이트"로 지칭된다. 일 실시형태에서, 대조군 베이트 세트는 제3 베이트 세트 또는 PGx 베이트 세트이다. 다른 실시형태에서, 대조군 베이트 세트는 본 명세서에 기재된 바와 같은 PGx 구성원을 선택한다(예를 들어, 상보적이다). 다른 실시형태에서, 대조군 베이트는 SNP(예를 들어, 본 명세서에 기재된 바와 같은 SNP)를 포함하는 핵산 분자를 선택한다.
특정 실시형태에서, 제3 베이트 세트, 종양 또는 비-종양 베이트 세트 또는 PGx 베이트 세트(본 명세서에서 "대조군 베이트 세트"로서 총괄적으로 지칭됨)는 저-수준 표적인 핵산 분자(종양 또는 기준 구성원으로서 동일 또는 상이한 서브게놈 간격으로)를 선택하며, 예를 들어, 이형 접합적 대립유전자의 검출은 고검출 신뢰성을 보장하기 위해 10 내지 100X 시퀀싱 심도를 필요로 한다. 일 실시형태에서, 제3 베이트 세트 또는 종양 또는 PGx 베이트 세트는 라이브러리에서 표적 핵산 구성원의 핑거프린팅; 라이브러리에서 표적 핵산 구성원 존재비의 정량화; 라이브러리 내 환자의 표적 핵산 구성원의 확인, 라이브러리가 유래된 샘플에서 배수성의 결정; 라이브러리가 유래된 샘플에서 이형접합성 소실의 결정; 라이브러리가 유래된 샘플에서 유전자 복제물의 결정; 라이브러리가 유래된 샘플에서 유전자 증폭의 결정; 또는 라이브러리가 유래된 샘플에서 종양/정상 세포 혼합의 결정 중 하나 이상에 대해 사용된 서브게놈 간격을 선택한다.
일 실시형태에서, 대조군 베이트 세트(예를 들어, 3 베이트 세트, 종양 또는비-종양 베이트 세트 또는 PGx 베이트 세트)는 하기로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다: a) 상이한 약물을 대사하는 환자의 능력을 설명하는 약물유전체적 SNP, b) 환자를 특유의 형태로 확인하기 위하여 사용될 수 있는 게놈 SNP(핑거프린트), c) 게놈 DNA 및 이형접합 소실(LOH)의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위.
일 실시형태에서, 대조군 베이트 세트(예를 들어, 제3 베이트 세트, 종양 또는 비-종양 베이트 세트 또는 PGx 베이트 세트)는 약물 대사 또는 독성과 관련된 변이체를 포함하는 핵산 분자를 선택한다. 일 실시형태에서, 대조군 베이트 세트(예를 들어, 제3 베이트 세트, 종양 또는 비-종양 베이트 세트 또는 PGx 베이트 세트)는 피험체의 유전적 구성(예를 들어, 민족성, 인종, 가족적 특성)과 관련된 핵산 분자를 선택한다(예를 들어, 상보적이다).
다른 실시형태에서, 대조군 베이트 세트(예를 들어, 제3 베이트 세트, 종양 또는 비-종양 베이트 세트 또는 PGx 베이트 세트)는 단일 뉴클레오타이드 다형성(SNP)을 선택한다. 일 실시형태에서, 제3 베이트 세트, 종양 또는 비-종양(예를 들어, PGx) 베이트 세트는 ABCB1, ABCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1 및 UMPS의 1, 2, 3, 4, 5, 10, 15, 20, 25 또는 30으로부터 선택된 SNP를 선택한다(예를 들어, 상보적이다). 일 실시형태에서, 대조군 베이트 세트는 표 2에 따른 유전자 또는 유전자 생성물을 선택한다.
다른 실시형태에서, 대조군 베이트 세트(예를 들어, 제3 베이트 세트, 종양 또는 비-종양 베이트 세트 또는 PGx 베이트 세트)는 (i) 약물로 처리한 암 환자의 더 양호한 생존(예를 들어, 파클리탁셀(예를 들어, ABCB1 유전자)로 처리된 유방암 환자의 더 양호한 생존); (ii) 파클리탁셀 대사(예를 들어, 표 2에 나타낸 상이한 좌위 및 돌연변이에서 CYP2C8 유전자; CYP3A4 유전자); (iii) 약물에 대한 독성(예를 들어, ABCC4 유전자에 의해 알 수 있는 바와 같은 6-MP 독성(표 2); DPYD 유전자, TYMS 유전자 또는 UMPS 유전자(표 2)에 의해 알 수 있는 바와 같은 5-FU 독성; TMPT 유전자에 의해 알 수 있는 바와 같은 퓨린 독성(표 2); NRP2 유전자에 의해 알 수 있는 바와 같은 다우노루비신 독성; Clorf144 유전자, CYP1B1 유전자(표 2); 또는 (iv) 약물(예를 들어, ABCG2, TYMS, UGT1A1, ESR1 및 ESR2 유전자(표 2))에 대한 부작용 중 하나 이상과 관련된 유전자 또는 유전자 생성물에 존재하는 서브게놈 간격의 돌연변이 또는 야생형 PGx 유전자 또는 유전자 생성물(예를 들어, 단일 뉴클레오타이드 다형성(SNP))로부터 서브게놈 간격을 선택한다.
다른 실시형태에서, 대조군 베이트 세트(예를 들어, 제3 베이트 세트, 종양 또는 비-종양 베이트 세트 또는 PGx 베이트 세트)는 사전선택된 서브게놈 간격(예를 들어, 엑손 또는 UTR 서열)을 선택하여 라이브러리 내 표적 핵산 구성원 존재비의 정량을 제공한다. 일 실시형태에서, 제3 베이트 세트, 종양 또는 비-종양(예를 들어, PGx)은 라이브러리, 예를 들어 cDNA 라이브러리에서 전사체의 상대적 존재비의 정량을 제공한다.
다른 실시형태에서, 제4 베이트 세트는, 예를 들어, 구조적 중단점, 예컨대 게놈 전위 또는 삽입-결실을 검출하기 위해 낮은 내지 중간의 덮임률이 필요한 제1 인트론 표적(예를 들어, 인트론 서열을 포함하는 구성원)을 선택한다. 예를 들어, 인트론 중단점의 검출은 고검출 신뢰성을 보장하기 위해 심도에 걸쳐 5 내지 50X 서열쌍을 필요로 한다. 상기 제4 베이트 세트는, 예를 들어 전위/삽입-결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
또 다른 실시형태에서, 제1 베이트 세트는 스파스 덮임률이 복제수 변화를 검출하기 위한 능력을 개선시키는데 필요한 제2 인트론 표적(예를 들어, 인트론 구성원)을 선택한다. 예를 들어, 몇몇 말단 엑손의 1-복제 결실의 검출은 고 검출 신뢰성을 보장하기 위해 0.1 내지 10X 덮임률을 필요로 한다. 상기 제5 베이트 세트는, 예를 들어 증폭/결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
또 다른 실시형태에서, 본 명세서에 기재된 베이트 세트 중 어떤 것(예를 들어, 제1, 제2, 제3 베이트, 제4 베이트, 제5 베이트 세트, 대조군, 종양, 비-종양 베이트 세트 또는 PGx 베이트 세트)은 변형되어 2차 구조의 감소된 형성을 감소시킨다(예를 들어, 뉴클레오타이드를 2차 구조의 감소된 형성을 야기하는 상이한 뉴클레오타이드로 치환함으로써). 일 실시형태에서, 변형된 베이트 세트는 고 GC 함량의 영역을 포획하기 위해 사용된다. 일 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 하나 이상의 뉴클레오타이드의 상이한 천연 뉴클레오타이드(예를 들어, A, C, G, U 또는 T)로 치환을 포함한다. 다른 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 하나 이상의 뉴클레오타이드의 비-천연 뉴클레오타이드 유사체(예를 들어, 이노신 또는 데옥시이노신)로 치환을 포함한다. 일 실시형태에서, 베이트 세트는 표 8의 대표적인 서열에 의해 나타낸 바와 같이 변형된다.
다른 실시형태에서, 제1, 제2 또는 제3 베이트 세트 중 2이상은 동일한 서브게놈 간격(예를 들어, 동일한 유전자 또는 유전자 생성물)으로 있다. 일 실시형태에서, 제1 및 제2 베이트 세트는 동일한 서브게놈 간격으로 있다. 다른 실시형태에서, 제1 및 제3 베이트 세트는 동일한 서브게놈 간격으로 있다. 다른 실시형태에서, 제2 및 제3 베이트 세트는 동일한 서브게놈 간격으로 있다. 다른 실시형태에서, 제1, 제2 및 제3 베이트 세트는 상이한 서브게놈 간격으로 있다(예를 들어, 상이한 유전자 또는 유전자 생성물).
상기 언급한 베이트 세트의 임의의 조합은 본 명세서에 기재된 방법에서 사용될 수 있다. 일 실시형태에서, 서브세트 또는 모든 상기 언급한 제1, 제2 및/또는 제3 베이트 또는 다수의 베이트는 조합되어 사용된다.
일 실시형태에서, 조합은 본 명세서에 기재된 바와 같이 제1 베이트 세트 및 제2 베이트 세트를 포함한다. 예를 들어, 제1 베이트 세트는 표 1 또는 1A의 우선순위 1로서 본 명세서에 기재된 바와 같은 변경(예를 들어, 하나 이상의 돌연변이)을 포함하는 종양 구성원, 예를 들어, 서브게놈 간격을 선택하며; 제2 베이트 세트는 표 1 또는 1A의 암 유전자로서 본 명세서에 기재된 바와 같은 구성원을 선택한다.
다른 실시형태에서, 조합은 본 명세서에 기재된 바와 같은 제1 베이트 및 제3 베이트 세트를 포함한다. 예를 들어, 제1 베이트 세트는 표 1 또는 1A의 우선순위 1로서 본 명세서에 기재된 바와 같은 변경(예를 들어, 하나 이상의 돌연변이)을 포함하는 종양 구성원, 예를 들어, 서브게놈 간격을 선택하며; 제3 베이트 세트는 샘플의 핑거프린팅, 환자 샘플의 확인, 배수성의 결정, 이형접합성 소실의 결정, 유전자 복제물의 결정, 유전자 증폭의 결정 또는 종양/정상 세포 혼합물의 결정(예를 들어, 본 명세서에 기재된 바와 같은 SNP) 중 하나 이상을 위해 사용된 PGx 구성원, 예를 들어, 핵산 분자(동일 또는 상이한 서브게놈 간격으로)를 선택한다.
다른 실시형태에서, 조합은 본 명세서에 기재된 바와 같은 제2 베이트 세트 및 제3 베이트 세트를 포함한다. 예를 들어, 제2 베이트 세트는 표 1 또는 1A의 암 유전자로서 본 명세서에 기재된 구성원을 선택하며; 제3 베이트 세트는 샘플의 핑거프린팅, 환자 샘플의 확인, 배수성의 결정, 이형접합성 소실의 결정, 유전자 복제물의 결정, 유전자 증폭의 결정 또는 종양/정상 세포 혼합물의 결정(예를 들어, 본 명세서에 기재된 바와 같은 SNP) 중 하나 이상을 위해 사용된 PGx 구성원, 예를 들어, 핵산 분자(동일 또는 상이한 서브게놈 간격으로)를 선택한다.
또 다른 실시형태에서, 조합은 본 명세서에 기재된 바와 같은 제1 베이트 세트, 제2 베이트 세트 및 제3 베이트 세트를 포함한다.
또 다른 실시형태에서, 조합은 표 1 또는 1A에 따른 유전자 또는 유전자 생성물의 변경(예를 들어, 본 명세서에 기재된 바와 같은 하나 이상의 돌연변이)을 포함하는 돌연변이된 종양 구성원, 예를 들어 서브게놈 간격을 선택하는 제1 베이트 세트를 포함한다. 일 실시형태에서, 제1 베이트 세트는 ABL1 유전자의 코돈 315; APC의 코돈 1114, 1338, 1450 또는 1556; BRAF의 코돈 600; CTNNB1의 코돈 32, 33, 34, 37, 41 또는 45; EGFR의 코돈 719, 746 내지 750, 768, 790, 858 또는 861; FLT3의 코돈 835; HRAS의 코돈 12, 13 또는 61; JAK2의 코돈 617; KIT의 코돈 816; KRAS의 코돈 12, 13 또는 61; PIK3CA의 코돈 88, 542, 545, 546, 1047 또는 1049; PTEN의 코돈 130, 173, 233 또는 267; RET의 코돈 918; TP53의 코돈 175, 245, 248, 273 또는 306; 및 상기 언급한 유전자 또는 유전자 생성물 중 하나 이상에 대응되는 야생형 서열을 선택하는 제1 베이트 세트(예를 들어, 기준 구성원) 중 하나 이상으로부터 선택된 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35개의 코돈을 선택한다.
또 다른 실시형태에서, 조합은 종양 구성원, 예를 들어 변경(예를 들어, 본 명세서에 기재된 바와 같은 하나 이상의 돌연변이)을 포함하는 서브게놈 간격을 선택하는 제1 베이트 세트를 포함하되, 종양 또는 암-관련 구성원은 ABL1, AKT1, ALK, APC, AR, BRAF, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, PDGFRA, PIK3CA, PTEN, RB1, RET 또는 TP53 유전자 또는 유전자 생성물 중 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30개로부터 선택된다. 일 실시형태에서, 제1 베이트 세트는 ABL1 유전자의 코돈 315; APC의 코돈 1114, 1338, 1450 또는 1556; BRAF의 코돈 600; CTNNB1의 코돈 32, 33, 34, 37, 41 또는 45; EGFR의 코돈 719, 746 내지 750, 768, 790, 858 또는 861; FLT3의 코돈 835; HRAS의 코돈 12, 13 또는 61; JAK2의 코돈 617; KIT의 코돈 816; KRAS의 코돈 12, 13 또는 61; PIK3CA의 코돈 88, 542, 545, 546, 1047 또는 1049; PTEN의 코돈 130, 173, 233 또는 267; RET의 코돈 918; TP53의 코돈 175, 245, 248, 273 또는 306 중 하나 이상으로부터 선택된 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35개의 코돈을 선택하며; 제3 베이트 세트는 샘플의 핑거프린팅, 환자 샘플의 확인, 배수성의 결정, 이형접합성 소실의 결정, 유전자 복제물의 결정, 유전자 증폭의 결정 또는 종양/정상 세포 혼합물의 결정(예를 들어, 본 명세서에 기재된 바와 같은 SNP) 중 하나 이상을 위해 사용된 핵산 분자(동일 또는 상이한 서브게놈 간격으로)를 선택한다.
또 다른 실시형태에서, 제1 베이트 세트는 종양 진행 및/또는 내성과 관련된 변경을 포함하는 핵산 분자(예를 들어, 서브게놈 간격)를 선택하고, 암 진행에서 후발성(예를 들어, 전이-관련 돌연변이, 약물 내성 관련 돌연변이)을 가지며; 제2 베이트 세트는 종양 진행 및/또는 내성과 관련된 변경을 포함하는 핵산 분자(예를 들어, 서브게놈 간격)를 선택하고(예를 들어, 상보적이고), 암 진행에서 조발성을 가진다(예를 들어, 결장암에서 APC 또는 TP53 돌연변이).
다른 실시형태에서, 베이트 세트는 다음 중 적어도 2가지 또는 모두를 포함한다:
제1 서브게놈 간격에 대한 덮임률의 제1 패턴을 갖는 제1 베이트 세트;
제2 서브게놈 간격에 대한 덮임률의 제2 패턴을 갖는 제2 베이트 세트; 및
(선택적으로) 제3 서브게놈 간격에 대한 덮임률의 제3 패턴을 갖는 제3, 제4 또는 제5 베이트 세트.
일 실시형태에서, 제1 서브게놈 간격은 제1 유전자, 엑손, 인트론, 유전자내 영역 또는 본 명세서에 기재된 바와 같이 사전선택된 SNP를 갖는 영역의 뉴클레오타이드 서열 중 하나 이상으로부터 선택된다.
일 실시형태에서, 제2 서브게놈 간격은 제1 유전자, 엑손, 인트론, 유전자내 영역 또는 본 명세서에 기재된 바와 같이 사전선택된 SNP를 갖는 영역의 뉴클레오타이드 서열 중 하나 이상으로부터 선택된다.
일 실시형태에서, 제3 서브게놈 간격은 제1 유전자, 엑손, 인트론, 유전자내 영역 또는 본 명세서에 기재된 바와 같이 사전선택된 SNP를 갖는 영역의 뉴클레오타이드 서열 중 하나 이상으로부터 선택된다.
일 실시형태에서, 제4 서브게놈 간격은 제1 유전자, 엑손, 인트론, 유전자내 영역 또는 본 명세서에 기재된 바와 같이 사전선택된 SNP를 갖는 영역의 뉴클레오타이드 서열 중 하나 이상으로부터 선택된다.
일 실시형태에서, 제5 서브게놈 간격은 제1 유전자, 엑손, 인트론, 유전자내 영역 또는 본 명세서에 기재된 바와 같이 사전선택된 SNP를 갖는 영역의 뉴클레오타이드 서열 중 하나 이상으로부터 선택된다.
일 실시형태에서, 제1, 제2 및 제3 서브게놈 간격은 상이한 유전자 또는 유전자 생성물에 존재한다.
일 실시형태에서, 제1, 제2 및 제3 서브게놈 간격 중 적어도 둘은 동일한 유전자 또는 유전자 생성물에 존재한다.
일 실시형태에서, 제1, 제2 및 제3 서브게놈 간격은 동일한 유전자 또는 유전자 생성물에 존재한다.
특정 실시형태에서, 덮임률의 제1, 제2 및 제3 패턴은 동일하다.
다른 실시형태에서, 덮임률의 상기 패턴 중 적어도 하나 이상은 상이하다.
다른 실시형태에서, 덮임률의 상기 패턴 중 적어도 둘 이상은 상이하다.
또 다른 실시형태에서, 덮임률의 제1, 제2 및 제3 패턴은 상이하다.
다른 실시형태에서, 다수의 베이트는 다음 중 적어도 둘 또는 모두를 포함하되:
제1 서브게놈 간격에 대해 제1 수준의 돌출부(양성 또는 음성)를 갖는 제1 다수의 베이트;
제2 서브게놈 간격에 대해 제2 수준의 돌출부(양성 또는 음성)를 갖는 제2 다수의 베이트;
제3 서브게놈 간격에 대해 제2 수준의 돌출부(양성 또는 음성)를 갖는 제3 다수의 베이트; 및
(선택적으로) 제3 서브게놈 간격에 대해 제2 수준의 돌출부(양성 또는 음성)를 갖는 제4 또는 제5 다수의 베이트, 상기 수준 중 적어도 다수는 상이하다.
일 실시형태에서, 제1, 제2, 제3, 제4 또는 제5 서브게놈 간격은 제1 유전자, 엑손, 인트론, 유전자내 영역 또는 본 명세서에 기재된 바와 같은 사전선택된 SNP를 갖는 영역의 뉴클레오타이드 서열 중 하나 이상으로부터 선택된다.
다른 양태에서, 본 발명은 변형된 베이트 세트를 제공하는 방법을 특징으로 한다. 해당 방법은 베이트 서열 및/또는 길이를 변형시켜 2차 구조를 감소시키는 단계를 포함한다.
일 실시형태에서, 2차 구조는 베이트 서열의 5' 말단에서 형성된다. 다른 실시형태에서, 2차 구조는 베이트 서열의 중간에서 형성된다. 또 다른 실시형태에서, 2차 구조는 베이트 서열의 3' 말단에서 형성된다.
일 실시형태에서, 해당 방법은 뉴클레오타이드를 2차 구조의 감소된 형성을 초래하는 상이한 뉴클레오타이드로 치환하는 단계를 포함한다. 일 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 고 GC 함량 영역을 포획하기 위해 사용된다. 일 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 하나 이상의 뉴클레오타이드를 상이한 천연 뉴클레오타이드(예를 들어, A, C, G, U 또는 T)로 치환을 포함한다. 다른 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 하나 이상의 뉴클레오타이드의 비-천연 뉴클레오타이드 유사체(예를 들어, 이노신 또는 데옥시이노신)로 치환을 포함한다. 일 실시형태에서, 베이트 세트는 표 8의 대표적인 서열에 의해 나타낸 바와 같이 변형된다.
다른 실시형태에서, 해당 방법은 본 명세서에 기재된 베이트 중 어떤 것 또는 다수의 베이트(예를 들어, 제1, 제2 또는 제3 베이트 또는 다수의 베이트)의 비(예를 들어, 몰농도)를 조절하는 단계; 최적화된 혼성화 완충제를 제공하는 단계를 포함한다.
다른 양태에서, 본 발명은 베이트 세트(예를 들어, 본 명세서에 기재된 바와 같은 베이트 세트)를 특징으로 한다.
일 실시형태에서, 베이트 또는 베이트의 수집물은 본 명세서에 기재된 바와 같은 제1, 제2, 제3, 제4, 제5 종양 또는 대조군 베이트 세트 중 하나, 서브세트 또는 모두이거나/이들을 포함한다. 다른 실시형태에서, 베이트 세트는 본 명세서에 기재된 바와 같은 기준 또는 대조군 베이트 세트를 포획하는 돌연변이 중 하나, 서브세트 또는 모두이거나/이들을 포함한다.
일부 실시형태에서, 베이트 세트는 본 명세서에 기재된 바와 같은 유전자 또는 유전자 생성물 또는 이것의 서브게놈 간격을 선택하고, 예를 들어 양성으로 또는 음성으로 본 명세서에 기재된 바와 같은 암성 표현형과 관련된다.
특정 실시형태에서, 베이트 세트는 야생형 또는 비-돌연변이 뉴클레오타이드 서열을 선택한다.
다른 실시형태에서, 본 명세서에 기재된 바와 같은 베이트 세트는 라이브러리에서 표적 핵산 구성원의 핑거프린팅; 라이브러리에서 표적 핵산 구성원 존재비의 정량화; 라이브러리 내 환자의 표적 핵산 구성원의 확인, 라이브러리가 유래된 샘플에서 배수성의 결정; 라이브러리가 유래된 샘플에서 이형접합성 소실의 결정; 라이브러리가 유래된 샘플에서 유전자 복제물의 결정; 라이브러리가 유래된 샘플에서 유전자 증폭의 결정; 또는 라이브러리가 유래된 샘플에서 종양/정상 세포 혼합의 결정 중 하나 이상에 대해 사용된 핵산을 선택한다. 이러한 베이트는 본 명세서에서 "대조군 베이트"로 지칭된다. 일 실시형태에서, 대조군 베이트 세트(또는 대조군 다수의 베이트)는 SNP(예를 들어, 본 명세서에 기재된 바와 같은 SNP)를 포함하는 핵산 분자에 상보적이다.
또 다른 실시형태에서, 본 명세서에 기재된 베이트 세트 중 어떤 것은 변형되어 2차 구조의 형성을 감소시킨다(예를 들어, 2차 구조의 감소된 형성을 야기하는 상이한 뉴클레오타이드로 치환에 의해). 일 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 고 GC 함량의 영역을 포획하기 위해 사용된다. 일 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 하나 이상의 뉴클레오타이드의 상이한 천연 뉴클레오타이드(예를 들어, A, C, G, U 또는 T)로 치환을 포함한다. 다른 실시형태에서, 변형된 베이트(또는 다수의 베이트)는 하나 이상의 뉴클레오타이드의 비-천연 뉴클레오타이드 유사체(예를 들어, 이노신 또는 데옥시이노신)로 치환을 포함한다. 일 실시형태에서, 베이트 세트는 표 8의 대표적인 서열에 의해 나타내는 바와 같이 변형된다.
본 발명의 추가적인 실시형태 또는 특징은 다음과 같다:
다른 양태에서, 본 발명은 상기 언급한 베이트 세트의 제조방법을 특징으로 한다. 해당 방법은 하나 이상의 표적 특이적 베이트 올리고뉴클레오타이드 서열(예를 들어, 본 명세서에 기재된 바와 같은 유전자 또는 유전자 생성물의 서브게놈 간격에 대응되는 베이트 서열 중 어떤 것)을 선택하는 단계; 표적 특이적 베이트 올리고뉴클레오타이드 서열의 풀을 얻는 단계(예를 들어, 표적 특이적 베이트 올리고뉴클레오타이드 서열의 풀을, 예를 들어, 마이크로어레이 합성에 의해 합성하는 단계); 및 선택적으로 올리고뉴클레오타이드를 증폭시켜 베이트 세트를 생성하는 단계를 포함한다.
또 다른 양태에서, 본 발명은 핵산 샘플에서, 예를 들어 양성으로 또는 음성으로 암성 표현형(예를 들어, 본 명세서에 기재된 유전자 또는 유전자 생성물의 변경 중 적어도 10, 20, 30, 50 이상)과 관련된 변경의 존재 또는 부재를 결정하는 방법을 특징으로 한다. 해당 방법은 본 명세서에 기재된 방법 및 베이트 중 어떤 것에 따른 용액-기반 선택에 대해 샘플 내 핵산을 접촉시켜 핵산 캐치를 얻는 단계; 및 핵산 캐치의 모두 또는 서브세트를 시퀀싱(예를 들어, 차세대 시퀀싱에 의해)함으로써, 본 명세서에 기재된 유전자 또는 유전자 생성물에서 변경의 존재 또는 부재를 결정하는 단계를 포함한다.
특정 실시형태에서, 베이트 세트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 전형적으로, 베이트 세트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드 또는 약 150개의 뉴클레오타이드 내지 200개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 다른 실시형태에서, 베이트 세트는 길이로 약 300개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다.
일부 실시형태에서, 올리고뉴클레오타이드의 표적 구성원-특이적 서열은 길이로 약 40 내지 1000개의 뉴클레오타이드, 약 70 내지 300개의 뉴클레오타이드, 약 100 내지 200개의 뉴클레오타이드, 전형적으로 길이로 약 120 내지 170개의 뉴클레오타이드를 포함한다.
일부 실시형태에서, 베이트 세트는 결합 독립체를 포함한다. 결합 독립체는 각 베이트 서열 상의 친화성 태그일 수 있다. 일부 실시형태에서, 친화성 태그는 바이오틴 분자 또는 햅텐이다. 특정 실시형태에서, 결합 독립체는 상대, 예컨대 아비딘 분자 또는 햅텐에 결합되는 항체 또는 이것의 항원-결합 단편에 결합에 의해 혼성화 혼합물로부터 베이트/구성원 혼성체를 분리시킨다.
다른 실시형태에서, 베이트 세트 내 올리고뉴클레오타이드는 동일 표적 구성원 서열에 대해 전방 및 후방의 상보적 서열을 함유하며, 이에 의해 후방-상보적 구성원-특이적 서열을 갖는 올리고뉴클레오타이드는 또한 후방 상보적인 보편적 꼬리를 운반한다. 이는 동일 가닥인, 즉, 서로 상보적이 아닌 RNA 전사체를 유발할 수 있다.
다른 실시형태에서, 베이트 세트는 하나 이상의 위치에서 축퇴되거나 또는 혼합된 염기를 함유하는 올리고뉴클레오타이드를 포함한다. 또 다른 실시형태에서, 베이트 세트는 단일종의 집단 또는 유기체의 공동체에 존재하는 다양한 또는 실질적으로 모든 알려진 서열 변이체를 포함한다. 일 실시형태에서, 베이트 세트는 인간 집단에서 다양하거나 또는 실질적으로 모든 알려진 서열 변이체를 포함한다.
다른 실시형태에서, 베이트 세트는 cDNA 서열을 포함하거나 또는 cDNA 서열로부터 유래된다. 일 실시형태에서, cDNA는 RNA 서열, 예를 들어, 종양- 또는 암 세포-유래 RNA, 예를 들어, 종양-FFPE 샘플로부터 얻은 RNA로부터 제조된다. 다른 실시형태에서, 베이트 세트는 게놈 DNA, cDNA 또는 클로닝된 DNA로부터 증폭된 증폭 생성물(예를 들어, PCR 생성물)을 포함한다.
다른 실시형태에서, 베이트 세트는 RNA 분자를 포함한다. 일부 실시형태에서, 세트는, 이하에 제한되는 것은 아니지만, RNase에 대해 더 안정하고 저항성이 있는 것을 포함하는, 화학적으로, 효소적으로 변형되거나 또는 시험관내 전사된 RNA 분자를 포함한다.
또 다른 실시형태에서, 베이트는 본 명세서에 참조로서 포함된 미국특허 제2010/0029498호 및 문헌[Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189]에 기재된 방법에 의해 생성된다. 예를 들어, 바이오틴화된 RNA 베이트는 본래 마이크로어레이 상에서 합성된 합성의 긴 올리고뉴클레오타이드의 풀을 획득하고, 올리고뉴클레오타이드를 증폭시켜 베이트 서열을 생성함으로써 생성될 수 있다. 일부 실시형태에서, 베이트는 베이트 서열의 한 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하고, RNA 폴리머라제를 사용하여 RNA 서열을 합성함으로써 생성된다. 일 실시형태에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 상업적 공급업자 애질런트 테크놀러지스 인코포레이티드(Agilent Technologies, Inc.)로부터 얻을 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭시켰다.
따라서, 상기 언급한 베이트 세트의 제조방법이 제공된다. 하나 이상의 표적 특이적 베이트 올리고뉴클레오타이드 서열(예를 들어, 본 명세서에 기재된 바와 같은 기준 또는 대조군 올리고뉴클레오타이드 서열을 포획하는 하나 이상의 돌연변이)을 선택하는 단계; 표적 특이적 베이트 올리고뉴클레오타이드 서열의 풀을 얻는 단계(예를 들어, 표적 특이적 베이트 올리고뉴클레오타이드 서열의 풀을, 예를 들어, 마이크로어레이 합성에 의해 합성하는 단계); 및 선택적으로, 올리고뉴클레오타이드를 증폭시켜 베이트 세트를 생성하는 단계를 포함한다.
다른 실시형태에서, 해방 방법은 하나 이상의 바이오틴화된 프라이머를 사용하여 올리고뉴클레오타이드를 증폭시키는(예를 들어, PCR에 의해) 단계를 추가로 포함한다. 일부 실시형태에서, 올리고뉴클레오타이드는 마이크로어레이에 부착된 각 올리고뉴클레오타이드의 말단에서 보편적인 서열을 포함한다. 해당 방법은 올리고뉴클레오타이드로부터 보편적 서열을 제거하는 단계를 추가로 포함할 수 있다. 이러한 방법은 또한 올리고뉴클레오타이드의 상보적 가닥을 제거하는 단계, 올리고뉴클레오타이드를 어닐링하는 단계 및 올리고뉴클레오타이드를 연장시키는 단계를 포함할 수 있다. 이들 실시형태 중 일부에서, 올리고뉴클레오타이드를 증폭시키는(예를 들어, PCR에 의해) 방법은 하나 이상의 바이오틴화된 프라이머를 사용한다. 일부 실시형태에서, 해당 방법은 증폭된 올리고뉴클레오타이드를 선택하는 크기를 추가로 포함한다.
일 실시형태에서, RNA 베이트 세트가 만들어진다. 해당 방법은 본 명세서에 기재된 방법에 따른 베이트 서열의 세트를 생성하는 단계, 베이트 서열의 한 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하는 단계 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계를 포함한다. RNA 폴리머라제는 T7 RNA 폴리머라제, SP6 RNA 폴리머라제 또는 T3 RNA 폴리머라제로부터 선택될 수 있다. 다른 실시형태에서, RNA 폴리머라제 프로모터 서열은 베이트 서열을 증폭시킴으로써(예를 들어, PCR에 의해) 베이트 서열의 말단에서 첨가된다. 베이트 서열이 게놈 또는 cDNA 이외의 특이적 프라이머 쌍으로 PCR에 의해 증폭되는 경우의 실시형태에서, 각 쌍에서 두 개의 특이적 프라이머 중 하나의 5' 말단에 RNA 프로모터 서열을 첨가하는 단계는 표준 방법을 사용하여 RNA 베이트로 전사될 수 있는 PCR 생성물을 유발할 것이다.
다른 실시형태에서, 베이트 세트는 주형으로서 인간 DNA 또는 풀링된 인간 DNA 샘플을 사용하여 생성될 수 있다. 이러한 실시형태에서, 올리고뉴클레오타이드는 폴리머라제 연쇄 반응(PCR)에 의해 증폭된다. 다른 실시형태에서, 증폭된 올리고뉴클레오타이드는 회전환 증폭 또는 고차가지 회전환 증폭에 의해 재증폭된다. 동일 방법은 또한 주형으로서 인간 DNA 또는 풀링된 인간 DNA 샘플을 사용하여 베이트 서열을 생성하기 위해 사용될 수 있다. 동일 방법은 또한, 이하에 제한되는 것은 아니지만, 제한 분해, 펄스장 겔 전기영동, 유동분리, CsCl 밀도 구배 원심분리, 선택적 역학 재회합, 염색체 제조의 현미해부 및 당업자에게 공지된 다른 단편화 방법을 포함하는 다른 방법에 의해 얻어진 게놈의 하위분획을 사용하여 베이트 서열을 생성하는데 사용될 수 있다.
특정 실시형태에서, 베이트 세트 내 베이트의 수는 1,000 미만, 예를 들어 2, 3, 4, 5, 10, 50, 100, 500개 베이트이다. 다른 실시형태에서, 베이트 세트 내 베이트의 수는 1,000 초과, 5,000 초과, 10,000 초과, 20,000 초과, 50,000 초과, 100,000 초과 또는 500,000 초과이다.
특정 실시형태에서, 라이브러리(예를 들어, 핵산 라이브러리)는 구성원의 수집물을 포함한다. 본 명세서에 기재된 바와 같이, 라이브러리 구성원은 표적 구성원(예를 들어, 종양 구성원, 기준 구성원 및/또는 대조군 구성원을 포함할 수 있고; 또한 각각 제1, 제2 및/또는 제3 구성원으로서 지칭됨)을 포함할 수 있다. 라이브러리의 구성원은 단일 개체로부터 유래될 수 있다. 실시형태에서, 라이브러리는 하나 이상의 피험체(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체)로부터의 구성원을 포함할 수 있고, 예를 들어, 상이한 피험체로부터 둘 이상의 라이브러리는 조합되어 하나 이상의 피험체로부터의 구성원을 갖는 라이브러리를 형성할 수 있다. 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 가질 위험에 있는 인간이다.
본 명세서에서 사용된 바와 같은 "구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는 라이브러리의 구성원인 핵산 분자, 예를 들어 DNA 또는 RNA를 지칭한다. 전형적으로, 구성원은 DNA 분자, 예를 들어 게놈 DNA 또는 cDNA이다. 구성원은 전단된 게놈 DNA일 수 있다. 다른 실시형태에서, 구성원은 cDNA일 수 있다. 다른 실시형태에서, 구성원은 RNA일 수 있다. 구성원은 피험체로부터의 서열을 포함하며, 또한 피험체로부터 유래되지 않은 서열, 예를 들어 확인시키기 위한 프라이머 또는 서열, 예를 들어 "바코드" 서열을 포함할 수 있다.
또 다른 실시형태에서, 본 발명에서 특징으로 하는 방법은 핵산 샘플을 분리시켜 라이브러리(예를 들어, 본 명세서에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함한다. 특정 실시형태에서, 핵산 샘플은 전체 게놈, 서브게놈 단편 또는 둘 다를 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 단리시키고, 제조하기 위한 프로토콜은 당업계에 공지되어 있다(예를 들어, 일루미나(Illumina) 게놈 DNA 샘플 제조 키트). 특정 실시형태에서, 게놈 또는 서브게놈 DNA 단편은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플 또는 임의의 정상 대조군))로부터 단리된다. 일 실시형태에서, 샘플(예를 들어, 종양 또는 NAT 샘플)은 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플에 포매된다. 특정 실시형태에서, 단리 단계를 개개의 염색체의 유동-정렬 단계; 및/또는 피험체의 샘플(예를 들어, 종양 샘플, NAT, 혈액 샘플)을 마이크로해부시키는 단계를 포함한다. 특정 실시형태에서, 핵산 라이브러리를 만들기 위해 사용된 핵산 샘플은 5 미만, 1 마이크로그램 미만 또는 500ng(예를 들어, 200ng 이하)이다.
또 다른 실시형태에서, 라이브러리를 만들기 위해 사용된 핵산 샘플은 RNA로부터 유래된 RNA 또는 cDNA를 포함한다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 일부 실시형태에서, 전체 RNA 제조물에서 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드를 프라이밍시킴으로써 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.
해당 방법은 당업자에게 잘 공지된 특이적 또는 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다.
일부 실시형태에서, 특정 실시형태에서, 핵산 샘플은, 예를 들어 무작위-프라이밍된 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭된다.
다른 실시형태에서, 핵산 샘플은 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단되며, 합성 어댑터에 결찰되고, 크기-선택되며(예를 들어, 분취 겔 전기영동에 의해), 증폭된다(예를 들어, PCR에 의해). 다른 실시형태에서, 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성화 선택 전 명백한 크기 선택 또는 증폭없이 사용된다.
다른 실시형태에서, 단리된 DNA(예를 들어, 게놈 DNA)는 단편화되거나 또는 전단된다. 일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 게놈의 감소된 표현 또는 한정된 부분인, 예를 들어 다른 수단에 의해 하위 분획화된 게놈 DNA의 하위분획을 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다.
특정 실시형태에서, 라이브러리의 구성원은 유전자내 영역 또는 유전자간 영역을 포함하는 서브게놈 간격을 포함한다. 다른 실시형태에서, 서브게놈 간격은 엑손 또는 인트론 또는 이것의 단편, 전형적으로 엑손 서열 또는 이것의 단편을 포함한다. 일 실시형태에서, 서브게놈 간격은 암호 영역 또는 비-암호 영역, 예를 들어 프로모터, 인핸서, 5' 미번역 영역(5' UTR) 또는 3' 미번역 영역(3' UTR) 또는 이것의 단편을 포함한다. 다른 실시형태에서, 서브게놈 간격은 cDNA 또는 이들의 단편(예를 들어, 종양 RNA(예를 들어, 종양 샘플, 예를 들어, FFPE-종양 샘플로부터 추출될 RNA)로부터 얻은 cDNA)을 포함한다. 다른 실시형태에서, 서브게놈 간격은, 예를 들어 본 명세서에 기재된 바와 같은 SNP를 포함한다. 다른 실시형태에서, 표적 구성원은 게놈에서 실질적으로 모든 엑손을 포함한다. 다른 실시형태에서, 표적 구성원은 본 명세서에 기재된 바와 같은 서브게놈 간격, 예를 들어 서브게놈 간격, 예를 들어 관심의 선택된 유전자 또는 유전자 생성물(예를 들어, 본 명세서에 기재된 바와 같은 암성 표현형과 관련된 유전자 또는 유전자 생성물)로부터의 엑손을 포함한다.
일 실시형태에서, 서브게놈 간격은 체세포 돌연변이, 생식계열 돌연변이 또는 둘 다를 포함한다. 일 실시형태에서, 서브게놈 간격은 변경, 예를 들어 점 또는 단일 돌연변이, 결실 돌연변이(예를 들어, 프레임내 결실, 유전자내 결실, 전체 유전자 결실), 삽입 돌연변이(예를 들어, 유전자내 삽입), 역위 돌연변이(예를 들어, 염색체내역위), 연결 돌연변이, 연결된 삽입 돌연변이, 역위 복제물 돌연변이, 순차 중복(예를 들어, 염색체내 순차 중복), 전위(예를 들어, 염색체 전위, 비상호 전위), 재배열(예를 들어, 게놈 재배열), 유전자 복제수 또는 이들의 조합의 변화를 포함한다. 특정 실시형태에서, 서브게놈 간격은 샘플 내 종양 세포의 게놈의 암호 영역의 5, 1, 0.5, 0.1%, 0.01%, 0.001% 미만을 구성한다. 다른 실시형태에서, 서브게놈 간격은 질병에 연루되지 않으며, 예를 들어 본 명세서에 기재된 암성 표현형과 관련되지 않는다.
본 발명에서 특징으로 하는 방법은 라이브러리(예를 들어, 핵산 라이브러리)를 다수의 베이트와 접촉시켜 핵산의 선택된 서브그룹, 예를 들어 라이브러리 캐치를 제공하는 단계를 포함한다. 일 실시형태에서, 접촉 단계는 고체 지지체, 예를 들어 어레이에서 달성된다. 혼성화를 위한 적합한 고체 지지체는, 예를 들어 문헌[Albert, T.J. et al. (2007) Nat. Methods 4(11):903-5; Hodges, E. et al. (2007) Nat. Genet. 39(12):1522-7; Okou, D.T. et al. (2007) Nat. Methods 4(11):907-9]에 기재되어 있으며, 이들의 내용은 본 명세서에 참조로서 포함된다. 다른 실시형태에서, 접촉 단계는 용액 혼성화에 의해 달성된다. 특정 실시형태에서, 해당 방법은 혼성화의 하나 이상의 추가적인 라운드에 의해 혼성화 단계를 반복하는 것을 포함한다. 일부 실시형태에서, 해당 방법은 라이브러리에 동일 또는 상이한 베이트의 수집물과 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 추가로 포함한다.
다른 실시형태에서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 증폭시키는(예를 들어, PCR에 의해) 단계를 추가로 포함한다. 다른 실시형태에서, 라이브러리 캐치는 증폭되지 않는다.
또 다른 실시형태에서, 해당 방법은 라이브러리 캐치를 분석하는 단계를 추가로 포함한다. 일 실시형태에서, 라이브러리 캐치는 시퀀싱 방법, 예를 들어 본 명세서에 기재된 바와 같은 차세대 시퀀싱 방법에 의해 분석된다. 해당 방법은 용액 혼성화에 의해 라이브러리 캐치를 단리시키는 단계 및 라이브러리 캐치에 핵산 시퀀싱을 실시하는 단계를 포함한다. 특정 실시형태에서, 라이브러리 캐치는 재시퀀싱될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 문헌[Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재된다.
또 다른 실시형태에서, 해당 방법은 라이브러리 캐치에 게노타이핑을 실시함으로써, 선택된 핵산의 게노타이프를 확인하는 단계를 추가로 포함한다.
특정 실시형태에서, 해당 방법은 다음 중 하나 이상을 추가로 포함한다:
(i) 핵산 샘플을 핑거프린팅하는 단계;
(ii) 핵산 샘플에서 유전자 또는 유전자 생성물(예를 들어, 본 명세서에 기재된 유전자 또는 유전자 생성물)의 존재비를 정량화하는 단계(예를 들어, 샘플 내 전사체의 상대적 존재비를 정량화하는 단계);
(iii) 특정 피험체(예를 들어, 정상 대조군 또는 암 환자)에 속하는 핵산 샘플을 확인하는 단계;
(iv) 핵산 샘플에서 유전적 특성을 확인하는 단계(예를 들어, 하나 이상의 피험체의 유전적 구성(예를 들어, 민족성, 인종, 가족적 특성));
(v) 핵산 샘플 내 배수성을 결정하는 단계; 핵산 샘플 내 이형접합성의 소실을 결정하는 단계;
(vi) 핵산 샘플 내 유전자 복제물 사건의 존재 또는 부재를 결정하는 단계;
(vii) 핵산 샘플 내 유전자 증폭 사건의 존재 또는 부재를 결정하는 단계; 또는
(viii) 핵산 샘플 내 종양/정상 세포 혼합물의 수준을 결정하는 단계.
본 명세서에 기재된 방법 중 어떤 것은 이하의 실시형태 중 하나 이상과 조합된다.
실시형태에서, 해당 방법은 종양 및/또는 대조군 핵산 샘플(예를 들어, FFPE-유래된 핵산 샘플)로부터 얻어진 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.
실시형태에서, 판독은 차세대 시퀀싱 방법에 의해 제공된다.
실시형태에서, 해당 방법은 핵산 구성원의 라이브러리를 제공하는 단계 및 상기 리이브러리의 다수의 구성원으로부터 사전선택된 서브게놈 간격을 시퀀싱하는 단계를 포함한다. 실시형태에서, 해당 방법은 시퀀싱, 예를 들어 용액-기반 선택을 위해 상기 라이브러리의 서브세트를 선택하는 단계를 포함할 수 있다.
특정 실시형태에서, 해당 방법은 2 이상의 상이한 표적 카테고리를 포획하기 위해 설계된 혼성체 포획 방법을 포함하며, 각각은 상이한 베이트 설계 전력을 가진다. 혼성체 포획 방법 및 조성물은 표적 서열(예를 들어, 표적 구성원)의 한정된 서브세트를 포획하기 위해 의도되며, 표적 서열의 균일한 덮임률을 제공하는 한편, 해당 서브세트 바깥의 덮임률을 최소화한다. 일 실시형태에서, 표적 서열은 게놈 DNA 또는 이것의 선택된 서브세트 이외의 전체 엑솜을 포함한다. 본 명세서에 개시된 방법 및 조성물은 복잡한 표적 핵산 서열(예를 들어, 라이브러리)에 대해 덮임률의 상이한 심도 및 패턴을 달성하기 위해 상이한 베이트 세트를 제공한다.
특정 실시형태에서, 베이트 세트 및 표적의 상이한 카테고리는 다음과 같다.
A. 가장 심층의 덮임률은 낮은 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 고-수준 표적(예를 들어, 하나 이상의 종양 구성원 및/또는 기준 구성원, 예컨대 유전자, 엑손 또는 염기)을 선택하는 제1 베이트 세트. 예를 들어, 약 5% 이하(즉, 샘플이 제조된 세포의 5%가 그것의 게놈에서 이 돌연변이를 은닉함)의 빈도로 나타나는 점 돌연변이의 검출. 제1 베이트 세트는 고검출 신뢰성을 보장하기 위해 전형적으로 약 500X 이상의 시퀀싱 심도를 필요로 한다. 일 실시형태에서, 제1 베이트 세트는 표 1 또는 1A에 따른 암, 예를 들어 우선순위 1 암 유전자 또는 유전자 생성물의 특정 유형에서 빈번하게 돌연변이된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다.
B. 높은 덮임률이 고수준 표적보다 더 높은 빈도로, 예를 들어 약 10%의 빈도로 나타나는 돌연변이에 대한 고수준의 민감성을 가능하게 하는데 필요한 중간-수준 표적(예를 들어, 하나 이상의 종양 구성원 및/또는 기준 구성원, 예컨대 유전자, 엑손 또는 염기)을 선택하는 제2 베이트 세트. 예를 들어, 고검출 신뢰성을 보장하기 위해 10%의 빈도에서 나타나는 변경(예를 들어, 점 돌연변이)의 검출은 약 200X 이상의 시퀀싱 심도를 필요로 한다. 일 실시형태에서, 제2 베이트 세트는 표 1 또는 1A에 따른 암 유전자 또는 유전자 생성물로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다.
C. 고수준의 민감성을 가능하게 하기 위해, 예를 들어 이형 접합적 대립유전자를 검출하기 위해 낮은-중간 덮임률이 필요한 낮은-수준 표적(예를 들어, 하나 이상의 PGx 구성원, 예컨대 유전자, 엑손 또는 염기)을 선택하는 제3 베이트 세트. 예를 들어, 이형 접합적 대립유전자의 검출은 고검출 신뢰성을 보장하기 위해 10 내지 100X 시퀀싱 심도를 필요로 한다. 일 실시형태에서, 제3 베이트 세트는 a) 상이한 약물을 대사하기 위한 환자의 능력을 설명할 수 있는 약물유전체적 SNP, b) 환자를 특유의 형태로 확인하기 위하여 사용될 수 있는 게놈 SNP(예를 들어, 핑거프린트), c) 게놈 DNA 및 이형접합 소실(LOH)의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위로부터 선택된 하나 이상의 서브게놈 간격(예를 들어, 엑손)을 선택한다;
D. 낮은-중간 덮임률이 게놈 전위 또는 삽입-결실과 같은 구조적 중단점을 검출하는데 필요한 인트론 표적(예를 들어, 인트론 구성원)을 선택하는 제4 베이트 세트. 예를 들어, 구조적 중단점의 검출은 고검출 신뢰성을 보장하기 위해 심도에 걸쳐 5 내지 50X 서열-쌍을 필요로 한다. 상기 제4 베이트 세트는, 예를 들어 전위/삽입-결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
E. 복제수 변화를 검출하기 위한 능력을 개선시키기 위해 스파스 덮임률이 필요한 인트론 표적(예를 들어, 인트론 구성원)을 선택하는 제5 베이트 세트. 예를 들어, 몇몇 말단 엑손의 1 복제 결실의 검출은 고검출 신뢰성을 보장하기 위해 0.1 내지 10X 덮임률을 필요로 한다. 상기 제5 베이트 세트는, 예를 들어 증폭/결실이 쉬운 암 유전자를 검출하기 위해 사용될 수 있다.
본 발명에서 특징으로 하는 방법 및 조성물은 각각의 베이트 세트/표적 카테고리의 상대적 서열 덮임률을 조정하는 단계를 수반한다. 베이트 설계에서 상대적 서열 덮임률의 차이점을 실행하기 위한 방법은 하기 중 하나 이상을 포함한다:
(i) 상이한 베이트 세트의 차별적인 표현 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 더 많은/소수의 복제물에 포함되어 상대적인 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(ii) 베이트 서브세트의 차별적인 중복 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 이웃하는 베이트 사이의 더 길거나 또는 더 짧은 중복을 포함하여 상대적인 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(iii) 차별적인 베이트 변수 - 주어진 표적(예를 들어, 표적 구성원)을 포획하기 위한 베이트 세트 설계는 서열 변형/더 짧은 길이를 포함하여 포획 효율을 감소시키고, 상대적 표적 덮임률 심도를 낮출 수 있다;
(iv) 상이한 베이트 세트를 혼합 - 상이한 표적 세트를 포획하기 위해 설계된 베이트 세트는 상이한 몰비로 혼합되어 상대적 표적 덮임률 심도를 향상시키고/감소시킬 수 있다;
(v) 상이한 유형의 올리고뉴클레오타이드 베이트 세트를 사용 - 특정 실시형태에서, 베이트 세트는 하기를 포함할 수 있다:
(a) 하나 이상의 화학적으로(예를 들어, 비-효소적으로) 합성된(예를 들어, 개별적으로 합성된) 베이트,
(b) 어레이에서 합성된 하나 이상의 베이트,
(c) 하나 이상의 효소적으로 제조된, 예를 들어 시험관내 전사된 베이트;
(d) (a), (b) 및/또는 (c)의 임의의 조합,
(e) 하나 이상의 DNA 올리고뉴클레오타이드(예를 들어, 자연적으로 또는 비-자연적으로 발생되는 DNA 올리고뉴클레오타이드),
(f) 하나 이상의 RNA 올리고뉴클레오타이드(예를 들어, 자연적으로 또는 비-자연적으로 발생되는 RNA 올리고뉴클레오타이드),
(g) (e) 및 (f)의 조합, 또는
(h) 상기 중 어떤 것의 조합.
상이한 올리고뉴클레오타이드 조합은 상이한 비로, 예를 들어 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000 등으로부터 선택된 비로 혼합될 수 있다. 일 실시형태에서, 화학적으로 합성된 베이트 대 배열-생성된 베이트의 비는 1:5, 1:10 또는 1:20으로부터 선택된다. DNA 또는 RNA 올리고뉴클레오타이드는 자연적으로- 또는 비-자연적으로 발생될 수 있다. 특정 실시형태에서, 베이트는, 예를 들어 융점을 증가시키는 하나 이상의 비-자연적으로 발생되는 뉴클레오타이드를 포함한다. 대표적인 비-자연적으로 발생되는 올리고뉴클레오타이드는 변형된 DNA 또는 RNA 뉴클레오타이드를 포함한다. 대표적인 변형된 RNA 뉴클레오타이드 잠금 핵산(LNA)을 포함하되, LNA 뉴클레오타이드의 리보스 모이어티는 2' 산소와 4' 탄소를 연결하는 추가의 브릿지에 의해 변형된다(Kaur, H; Arora, A; Wengel, J; Maiti, S; Arora, A.; Wengel, J.; Maiti, S. (2006). "Thermodynamic, Counterion, and Hydration Effects for the Incorporation of Locked Nucleic Acid Nucleotides into DNA Duplexes". Biochemistry 45 (23): 7347-55). 다른 변형된 대표적인 DNA 및 RNA 뉴클레오타이드는, 이하에 제한되는 것은 아니지만, 펩타이드 결합에 의해 연결된 반복되는 N-(2-아미노에틸)-글라이신 단위로 구성된 펩타이드 핵산(PNA)(Egholm, M. et al. (1993) Nature 365 (6446): 566-8); 저 GC 영역을 포획하기 위해 변형된 DNA 또는 RNA 올리고뉴클레오타이드; 바이사이클릭 핵산(BNA) 또는 가교된 올리고뉴클레오타이드; 변형된 5-메틸 데옥시사이티딘; 및 2,6-다이아미노퓨린을 포함한다. 다른 변형된 DNA 및 RNA 뉴클레오타이드는 당업계에 공지되어 있다.
특정 실시형태에서, 표적 서열(예를 들어, 표적 구성원)의 실질적으로 균일한 또는 동종의 덮임률이 얻어진다. 예를 들어, 각각의 베이트 세트/표적 덮임률 내에서, 덮임률의 균일성은 베이트 변수를, 예를 들어 하기 중 하나 이상에 의해 변형시킴으로써 최적화될 수 있다:
(i) 베이트 표현 또는 중복의 증가/감소는 동일 카테고리 내의 다른 표적에 대해 밑에/위에-덮여있는 표적(예를 들어, 표적 구성원)의 덮임률을 향상/감소시키기 위해 사용될 수 있다;
(ii) 표적 서열(예를 들어, 고 GC 함량 서열)을 포획하기가 어려운 낮은 덮임률에 대해, 예를 들어 인접한 서열(예를 들어, 더 적은 GC-풍부 인접 서열)을 덮는 베이트 세트로 표적화된 영역을 확장한다;
(iii) 베이트 서열의 변형은 베이트의 2차 구조를 감소시키고, 그것의 선택 효율을 향상시키도록 만들어질 수 있다;
(iv) 베이트 길이의 변형은 동일 카테고리 내에서 상이한 베이트의 용융 혼성화 역학과 동일하게 되도록 사용될 수 있다. 베이트 길이는 직접적으로(다양한 길이를 갖는 베이트를 생성함으로써) 또는 간접적으로(일정한 길이의 베이트를 생성하고, 베이트 말단을 임의의 서열로 대체함으로써) 변형될 수 있다;
(v) 동일 표적 영역(즉, 전방 및 후방 가닥)에 대해 상이한 배향의 베이트를 변형시키는 것은 상이한 결합 효율을 가질 수 있다. 각각의 표적에 대해 최적의 덮임률을 제공하는 배향 중 하나를 지니는 베이트 세트가 선택될 수 있다;
(vi) 결합 완전체의 양을 변형시키는 것, 예를 들어 각 베이트에 존재하는 포획 태그(예를 들어, 바이오틴)는 그것의 결합 효율에 영향을 미칠 수 있다. 특이적 표적을 표적화하는 베이트의 태그 수준을 증가/감소시키는 것은 상대적 표적 덮임률을 향상/감소시키도록 사용될 수 있다;
(vii) 상이한 베이트에 대해 사용된 뉴클레오타이드 유형의 변형은 표적의 결합 친화도에 영향을 미치도록 변경될 수 있고, 상대적 표적 덮임률을 향상시키고/감소시킬 수 있다; 또는
(viii) 예를 들어 더 안정한 염기 쌍을 갖는 변형된 올리고뉴클레오타이드 베이트를 사용하는 것은 고 GC 함량에 대해 낮은 또는 정상의 GC 함량의 영역 사이의 용융 혼성화 역학이 동등하게 되도록 사용될 수 있다.
예를 들어, 상이한 유형의 올리고뉴클레오타이드 베이트 세트가 사용될 수 있다.
일 실시형태에서, 선택의 효율에 대한 값은 상이한 유형의 베이트 올리고뉴클레오타이드를 사용함으로써 변형되어 사전선택된 표적 영역을 포함한다. 예를 들어, 제1 베이트 세트(예를 들어, 10,000 내지 50,000개의 RNA 또는 DNA 베이트를 포함하는 어레이-기반 베이트 세트)가 거대 표적 영역(예를 들어, 1 내지 2MB 전체 표적 영역)을 덮도록 사용될 수 있다. 제1 베이트 세트는 제2 베이트 세트가 스파이킹되어(예를 들어, 5,000 미만의 베이트를 포함하는 개별적으로 합성된 RNA 또는 DNA 베이트 세트) 사전선택된 표적 영역(예를 들어, 250kb 미만의 표적 영역에 걸친, 관심의 선택된 서브게놈 간격) 및/또는 더 높은 2차 구조, 예를 들어 더 고 GC 함량의 영역을 덮는다. 관심의 선택된 서브게놈 간격은 본 명세서에 기재된 유전자 또는 유전자 생성물 또는 이것의 단편 중 하나 이상에 대응될 수 있다. 제2 베이트 세트는 요망되는 베이트 중복에 의존하여 약 2,000 내지 5,000 베이트를 포함할 수 있다. 또 다른 실시형태에서, 제2 베이트 세트는 제1 베이트 세트에 스파이킹된 선택된 올리고 베이트(예를 들어, 400, 200, 100, 50, 40, 30, 20, 10개 미만의 베이트)를 포함할 수 있다. 제2 베이트 세트는 개개의 올리고 베이트의 임의의 비로 혼합될 수 있다. 예를 들어, 제2 베이트 세트는 1:1의 등몰비로서 존재하는 개개의 베이트를 포함할 수 있다. 대안적으로, 제2 베이트 세트는, 예를 들어 특정 표적의 포획을 최적화하기 위해(예를 들어, 특정 표적은 다른 표적과 비교하여 제2 베이트의 5 내지 10X를 가질 수 있음) 상이한 비(예를 들어, 1:5, 1:10, 1:20)로 존재하는 개개의 베이트를 포함할 수 있다.
시퀀싱
본 발명은 또한 핵산의 시퀀싱 방법을 포함한다. 이들 방법에서, 핵산 라이브러리 구성원은 본 명세서에 기재된 방법을 사용하여, 예를 들어 용액 혼성화를 사용하여 단리되고, 이에 의해 라이브러리 캐치를 제공한다. 라이브러리 캐치 또는 이것의 서브그룹은 시퀀싱될 수 있다. 따라서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 분석하는 단계를 추가로 포함한다. 일 실시형태에서, 라이브러리 캐치는 시퀀싱 방법, 예를 들어 본 명세서에 기재된 바와 같은 차세대 시퀀싱 방법에 의해 분석된다. 해당 방법은 용액 혼성화에 의해 라이브러리 캐치를 단리시키는 단계 및 라이브러리 캐치에 핵산 시퀀싱을 실시하는 단계를 포함한다. 특정 실시형태에서, 라이브러리 캐치는 재시퀀싱될 수 있다.
당업계에 공지된 임의의 시퀀싱 방법이 사용될 수 있다. 선택 방법에 의해 단리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌[Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열 을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 판독을 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-판독 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오 알에스(PacBio RS) 시스템을 포함한다.
NGS 테크놀로지스는, 예를 들어 주형 제조, 시퀀싱 및 이미징 및 데이터 분석 단계 중 하나 이상을 포함할 수 있다.
주형 제조. 주형 제조를 위한 방법은 핵산(예를 들어, 게놈 DNA 또는 cDNA)을 작은 크기로 무작위로 파괴하는 단계 및 시퀀싱 주형(예를 들어, 단편 주형 또는 메이트-쌍 주형)을 만드는 단계와 같은 단계들을 포함할 수 있다. 공간적으로 분리된 주형은 고체 표면 또는 지지체에 부착되거나 또는 고정될 수 있는데, 이는 대량의 시퀀싱 반응이 동시에 수행되도록 한다. NGS 반응을 위해 사용될 수 있는 주형의 유형은, 예를 들어 단일 DNA 분자로부터 유래된 클론이 증폭된 주형 및 단일 DNA 분자 주형을 포함한다.
클론이 증폭된 주형의 제조방법은, 예를 들어 에멀젼 PCR(emulsion PCR: emPCR) 및 고체상 증폭을 포함한다.
EmPCR은 NGS를 위한 주형을 제조하기 위해 사용될 수 있다. 전형적으로, 핵산 단편의 라이브러리가 만들어지며, 보편적 프라이밍 부위를 함유하는 어댑터는 단편의 말단에 결찰된다. 그 다음에 단편은 단일 가닥으로 변성되고, 비드에 의해 포획된다. 각 비드는 단일 핵산 분자를 포획한다. 증폭 및 emPCR 비드의 풍부화 후, 다량의 주형이 부착될 수 있고, 표준 현미경 슬라이드(예를 들어, 폴로네이터(Polonator)) 상에서 폴리아크릴아마이드 겔에 고정되며, 아미노-코팅된 유리 표면(예를 들어, Life/APG; 폴로네이터(Polonator))에 화학적으로 가교되거나, 또는 개개의 피코타이터플레이트(PicoTiterPlate: PTP) 웰(예를 들어, 로슈(Roche)/454) 상에 증착되는데, 이때 NGS 반응이 수행될 수 있다.
고체상 증폭이 또한 사용되어 NGS를 위한 주형을 생성할 수 있다. 전형적으로, 전방 및 후방 프라이머는 고체 지지체에 공유적으로 부착된다. 증폭된 단편의 표면 밀도는 지지체 상에서 프라이머 대 주형의 비로써 정의된다. 고체상 증폭은 수백만개의 공간적으로 분리된 주형 클러스터(예를 들어, 일루미나/솔렉사(Illumina/Solexa))를 생성할 수 있다. 주형 클러스터의 말단은 NGS 반응을 위한 보편적 프라이머에 혼성화될 수 있다.
클론으로 증폭된 주형의 제조를 위한 다른 방법은, 예를 들어 다중 치환 증폭(Multiple Displacement Amplification: MDA)(Lasken R. S. Curr Opin Microbiol. 2007; 10(5):510-6)을 포함한다. MDA는 비-PCR 기반 DNA 증폭 기법이다. 반응은 주형에 대해 무작위 헥사머 프라이머를 어닐링하는 단계 및 일정한 온도에서 고충실도 효소, 전형적으로 Ф29에 의해 DNA를 합성하는 단계를 수반한다. MDA는 더 낮은 오류 빈도로 거대한 크기의 생성물을 만들 수 있다.
PCR과 같은 주형 증폭 방법은 표적에 NGS 플랫폼을 결합시킬 수 있거나 또는 게놈의 특이적 영역을 풍부화할 수 있다(예를 들어, 엑손). 대표적인 주형 풍부화 방법은, 예를 들어 마이크로점적 PCR 기법(Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), 맞춤-설계된 올리고뉴클레오타이드 마이크로어레이(예를 들어, 로슈(Roche)/님블젠(NimbleGen) 올리고뉴클레오타이드 마이크로어레이) 및 용액-기반 혼성화 방법(예를 들어, 분자 역위 프로브(molecular inversion probe: MIP))(Porreca G. J. et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci. USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315-316) 및 바이오틴화된 RNA 포획 서열(Gnirke A. et al., Nat. Biotechnol. 2009; 27(2):182-9)을 포함한다.
단일-분자 주형은 NGS 반응을 위해 사용될 수 있는 주형의 다른 유형이다. 공간적으로 분리된 단일 분자 주형은 다양한 방법에 의해 고체 지지체 상에 고정될 수 있다. 한 접근에서, 개개의 프라이머 분자는 고체 지지체에 공유적으로 부착된다. 어댑터는 주형에 첨가되고, 주형은 그 다음에 고정된 프라이머에 혼성화된다. 다른 접근에서, 단일-분자 주형은 고정된 프라이머로부터 단일-가닥의 단일-분자 주형을 프라이밍하고 연장시킴으로써 고체 지지체에 공유적으로 부착된다. 그 다음에 보편적 프라이머는 주형에 혼성화된다. 또 다른 접근에서, 단일 폴리머라제 분자는 프라이밍된 주형이 결합된 고체 지지체에 부착된다.
시퀀싱 및 이미징. NGS를 위한 대표적인 시퀀싱 및 이미징 방법은, 이하에 제한되는 것은 아니지만, 사이클릭 가역적 종결(cyclic reversible termination: CRT), 결찰에 의한 시퀀싱(sequencing by ligation: SBL), 단일-분자 첨가(파이로시퀀싱(pyrosequencing)) 및 실시간 시퀀싱을 포함한다.
CRT는 뉴클레오타이드 포함, 형광 이미징 및 절단 단계를 최소로 포함하는 사이클릭 방법에서 가역 종결자를 사용한다. 전형적으로, DNA 폴리머라제는 프라이머에 주형 염기의 상보적 뉴클레오타이드에 대해 상보적인 단일의 형광으로 변형된 뉴클레오타이드를 포함시킨다. DNA 합성은 단일 뉴클레오타이드의 첨가 후 종결되고, 미포함된 뉴클레오타이드는 세척된다. 포함된 표지 뉴클레오타이드의 동일성을 결정하기 위해 이미징이 수행된다. 그 다음에, 절단 단계에서, 종결/억제기 및 형광 염료는 제거된다. CRT 방법을 사용하는 대표적인 NGS 플랫폼은, 이하에 제한되는 것은 아니지만, 전체 내부 반사 형광(total internal reflection fluorescence: TIRF)에 의해 검출된 4-색 CRT 방법과 결합된 클론으로 증폭된 주형 방법을 사용하는 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(GA); 및 TIRF에 의해 검출된 1-색 CRT 방법과 결합된 단일-분자 주형 방법을 사용하는 헬리코스 바이오사이언스(Helicos BioSciences)/헬리스코프(HeliScope)를 포함한다.
SBL은 시퀀싱을 위해 DNA 리가제 및 1-염기-암호화된 프로브 또는 2-염기-암호화된 프로브 중 하나를 사용한다. 전형적으로, 형광 표지된 프로브는 프라이밍된 주형에 인접한 상보적 서열에 혼성화된다. DNA 리가제는 프라이머에 염료-표지된 프로브를 결찰시키기 위해 사용된다. 비-결찰 프로브가 세척된 후 결찰된 프로브의 동일성을 결정하기 위하여 형광 이미징이 수행된다. 형광 염료는 후속의 결찰 주기를 위해 5'-PO4 기를 재생하는 절단가능한 프로브를 사용하여 제거될 수 있다. 대안적으로, 새로운 프라이머는 오래된 프라이머가 제거된 후 주형에 혼성화될 수 있다. 대표적인 SBL 플랫폼은, 이하에 제한되는 것은 아니지만, 라이프(Life)/APG/SOLiD(지지체 올리고뉴클레오타이드 결찰 검출)를 포함하는데, 이는 2-염기-암호화된 프로브를 사용한다.
파이로시퀀싱 방법은 다른 화학발광 효소로 DNA 폴리머라제의 활성을 검출하는 단계를 기반으로 한다. 전형적으로, 해당 방법은 한 번에 하나의 염기쌍을 따라 상보적 가닥을 합성하고, 각 단계에서 실제로 첨가된 염기를 검출함으로써 DNA의 단일 가닥을 시퀀싱시킨다. 주형 DNA는 고정적이며, A, C, G 및 T 뉴클레오타이드의 용액은 순차적으로 첨가되고, 반응으로부터 제거된다. 빛은 단지 뉴클레오타이드 용액이 주형의 짝지어지지 않은 염기를 보충할 때에만 생성된다. 화학발광 신호를 생성하는 용액의 서열은 주형의 서열을 결정하게 한다. 대표적인 파이로시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, PTP 웰에 증착된 백만 내지 2백만개의 비드에 의한 emPCR에 의해 제조된 DNA 주형을 사용하는 로슈(Roche)/454를 포함한다.
실시간 시퀀싱은 DNA 합성 동안 염료-표지된 뉴클레오타이드의 연속적 포함을 이미징하는 단계를 수반한다. 대표적인 실시간 시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, 포스페이트 연결된 뉴클레오타이드가 성장되는 프라이머 가닥에 포함될 때 서열 정보를 얻기 위한 개개의 0-모드 웨이브가이드(zero-mode waveguide, ZMW) 검출기의 표면에 부착된 DNA 폴리머라제 분자를 사용하는 퍼시픽 바이오사이언스 플랫폼(Pacific Biosciences); 형광 공명 에너지 전달(fluorescence resonance energy transfer, FRET)에 의한 뉴클레오타이드 포함 후 향상된 신호를 만들기 위해 부착된 형광 염료와 함께 유전자 조작된 DNA 폴리머라제를 사용하는 라이프(Life)/비시겐(VisiGen) 플랫폼; 및 시퀀싱 반응에서 염료-퀀처 뉴클레오타이드를 사용하는 LI-COR 바이오사이언스(Biosciences) 플랫폼을 포함한다.
NGS의 다른 시퀀싱 방법은, 이하에 제한되는 것은 아니지만, 나노포어 시퀀싱, 혼성화에 의한 시퀀싱, 나노-트랜지스터 어레이 기반 시퀀싱, 폴로니(polony) 시퀀싱, 주사형전자 터널링 현미경(scanning tunneling microscopy, STM) 기반 시퀀싱 및 나노와이어-분자 센서 기반 시퀀싱을 포함한다.
나노포어 시퀀싱은 단일-핵산 폴리머에서 분석될 수 있는 고도로 밀폐된 공간을 제공하는 나노-규모 포어를 통해서 용액 중의 핵산 분자의 전기영동을 수반한다. 나노포어 시퀀싱의 대표적인 방법은, 예를 들어 문헌[Branton D. et al., Nat Biotechnol. 2008; 26(10):1146-53]에 기재된다.
혼성화에 의한 시퀀싱은 DNA 마이크로어레이를 사용하는 비-효소적 방법이다. 전형적으로, DNA의 단일 풀은 형광으로 표지되며, 공지된 서열을 함유하는 어레이에 혼성화된다. 어레이 상의 주어진 스팟으로부터 혼성화 신호는 DNA 서열을 확인할 수 있다. DNA 이중-가닥에서 DNA 중 한 가닥의 그것의 상보적 가닥에 결합은 혼성체 영역이 짧거나 또는 구체된 미스매치 검출 단백질이 존재할 때, 단일-염기 미스매치에 대해서 조차도 민감하다. 혼성화에 의한 시퀀싱의 대표적인 방법은, 예를 들어 문헌[Hanna G.J. et al., J. Clin. Microbiol. 2000; 38 (7): 2715-21; 및 Edwards J.R. et al., Mut. Res. 2005; 573(1-2): 3-12]에 기재된다.
폴로니 시퀀싱은 폴로니 증폭 및 다중 단일-염기-연장(FISSEQ)을 통해 시퀀싱에 따르는 것을 기반으로 한다. 폴로니 증폭은 폴리아크릴아마이드 필름 상에서 인시츄로 DNA를 증폭시키는 방법이다. 대표적인 폴로니 시퀀싱 방법은, 예를 들어 미국특허 출원 공개 제2007/0087362호에 기재된다.
탄소나노튜브 전계 효과 트랜지스터(Carbon NanoTube Field Effect Transistor: CNTFET)와 같은 나노-트랜지스터 어레이 기반 장치가 또한 NGS를 위해 사용될 수 있다. 예를 들어, DNA 분자는 신장되고, 마이크로-제작된 전극에 의해 나노튜브에 걸쳐 구동된다. DNA 분자는 탄소 나노튜브 표면과 순차적으로 접촉하게 되고, DNA 분자와 나노튜브 사이의 전하 전달에 기인하여 각 염기로부터의 전류 흐름의 차이가 만들어진다. DNA는 이들 차이를 기록함으로써 시퀀싱된다. 대표적인 나노-트랜지스터 어레이 기반 시퀀싱 방법은, 예를 들어 미국특허 공개 제2006/0246497호에 기재된다.
주사형전자 터널링 현미경(STM)은 또한 NGS를 위해 사용될 수 있다. STM은 표본의 래스터 주사(raster scan)를 수행하는 피에조-전자-제어 프로브를 사용하여 그것 표면의 이미지를 형성한다. STM은, 예를 들어 작동기-구동 가요성 갭과 주사형전자 터널링 현미경을 통합시킴으로써 일관된 전자 터널링 이미징 및 분광학을 만드는 단일 DNA 분자의 물리적 특성을 이미징하기 위해 사용될 수 있다. STM을 사용하는 대표적인 시퀀싱 방법은, 예를 들어 미국특허출원 공개 제2007/0194225호에 기재된다.
나노와이어-분자 센서로 구성된 분자-분석 장치가 또한 NGS를 위해 사용될 수 있다. 이러한 장치는 DNA와 같은 나노와이어 및 핵산 분자에 배치된 질소성 물질의 상호작용을 검출할 수 있다. 분자 가이드는 상호작용 및 후속하는 검출을 허용하기 위해 분자 센서 근처의 분자를 가이딩하기 위해 배치된다. 나노와이어-분자 센서를 사용하는 대표적인 시퀀싱 방법은 예를 들어 미국특허 출원 공개 제2006/0275779호에 기재된다.
이중 말단의 시퀀싱 방법이 NGS를 위해 사용될 수 있다. 이중 말단 시퀀싱은 DNA의 센스와 안티센스 가닥 둘 다를 시퀀싱하기 위해 차단 및 미차단 프라이머를 사용한다. 전형적으로, 이들 방법은 핵산의 제1 가닥에 미차단 프라이머를 어닐링시키는 단계; 핵산의 제2 가닥에 제2의 차단 프라이머를 어닐링 시키는 단계; 폴리머라제로 제1 가닥을 따라 핵산을 연장시키는 단계; 제1 시퀀싱 프라이머를 종결시키는 단계; 제2 프라이머를 차단해제(deblocking)하는 단계; 및 제2 가닥을 따라 핵산을 연장시키는 단계를 포함한다. 대표적인 이중 가닥 시퀀싱 방법은, 예를 들어 미국특허 제7,244,567호에 기재된다.
데이터 분석. NGS 판독이 만들어진 후, 그것들은 공지된 기준 서열에 대해 정렬되거나 데노보 조립된다.
예를 들어, 샘플(예를 들어, 종양 샘플)에서 단일-뉴클레오타이드 다형성 및 구조적 변이체와 같은 유전적 변형을 확인하는 것은 기준 서열(예를 들어, 야생형 서열)에 대해 NGS 판독을 정렬함으로써 수행될 수 있다. NGS에 대한 서열 정렬방법은, 예를 들어 문헌[Trapnell C. and Salzberg S.L. Nature Biotech., 2009, 27:455-457]에 기재된다.
데노보 조립체의 예는, 예를 들어 문헌[Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; 및 Zerbino D.R. 및 Birney E., Genome Res., 2008, 18:821-829]에 기재된다.
서열 정렬 또는 어셈블리는 하나 이상의 NGS 플랫폼으로부터의 판독 데이터를 사용하여, 예를 들어 로슈(Roche)/454 및 일루미나(Illumina)/솔렉사(Solexa) 판독 데이터를 혼합하여 수행될 수 있다.
정렬
일반
정렬은 위치, 예를 들어 게놈 위치와 판독을 매칭시키는 과정이다. 정렬불량(예를 들어, 게놈 내 정확하지 않은 위치 상에서 짧은 판독으로부터 염기쌍의 위치), 예를 들어, 실제 암 돌연변이 주위 판독의 서열 콘텍스트(예를 들어, 반복 서열의 존재)에 기인하는 정렬불량은 돌연변이 검출의 민감의 감소를 야기할 수 있는데, 대안의 대립유전자의 판독이 대안의 대립유전자 판독의 주요 파일업(pile-up)을 피할 수 있기 때문이다. 실제 돌연변이가 존재하지 않는 경우 문제의 서열 콘텍스트가 생긴다면, 미스-정렬은 잘못된 위치 상에 기준 게놈 염기의 실제 판독을 위치시킴으로써 "돌연변이된" 대립유전자의 인공 판독을 도입할 수 있다. 다중의 다유전자 분석을 위한 돌연변이-호출 알고리즘이 심지어 낮은-존재비 돌연변이에 대해 민감하여야 하기 때문에, 이들 정렬불량은 위양성 발견율을 증가시키고/특이성을 감소시킬 수 있다.
본 명세서에서 논의되는 바와 같이, 실제 돌연변이에 대해 감소된 민감성은 분석되는 유전자에서 예상되는 돌연변이 부위 주변의 정렬(수동으로 또는 자동화된 방식으로)의 품질을 평가함으로써 처리될 수 있다. 평가될 수 있는 부위는 암 돌연변이(예를 들어, COSMIC)의 데이터베이스로부터 얻어질 수 있다. 문제가 있는 것으로 확인된 영역은 더 느리지만, 더 정확한 정렬 알고리즘, 예컨대 스미스-워터만(Smith-Waterman) 정렬을 사용하여, 예를 들어 정렬 최적화(또는 재정렬)에 의해 적절한 서열 콘텍스트에서 더 양호한 수행을 제공하기 위해 선택된 알고리즘의 사용에 의해 교정될 수 있다. 일반적 정렬 알고리즘이 문제를 교정할 수 없는 경우에, 맞춤 정렬 접근은, 예를 들어 치환을 함유할 가능성이 높은 유전자에 대해 최대 차이 미스매치 패널티 변수의 조절에 의해; 특정 종양 유형(예를 들어, 흑색종에서 C→T)에서 흔한 특이적 돌연변이 유형에 기반한 특이적 미스매치 페널티 변수를 조절함으로써; 또는 특정 샘플 유형에서 흔한(예를 들어, FFPE에서 흔한 치환) 특이적 돌연변이 유형에 기반한 특이적 미스매치 패널티 변수를 조절함으로써 만들어질 수 있다. 미스-정렬에 기인하여 평가된 유전자 영역 내의 감소된 특이성(증가된 위양성률)은 시퀀싱된 샘플 내 모든 돌연변이 호출의 수동의 또는 자동화된 시험에 의해 평가될 수 있다. 미스-정렬에 기인하여 비논리적 돌연변이 호출이 되기 쉬운 것으로 발견된 해당 영역은 상기와 같은 동일 정렬 교정이 실시될 수 있다. 가능한 알고리즘 교정이 발견되지 않은 경우, 문제 영역으로부터의 "돌연변이"는 시험 패널로부터 분류되거나 또는 스크리닝될 수 있다.
삽입/결실(삽입-결실)
일반적으로, 삽입-결실 돌연변이의 정확한 검출은 정렬에서 실행되는데, 본 명세서에서 망가진 시퀀싱 플랫폼 상의 비논리적 삽입-결실률이 상대적으로 낮기 때문이다(따라서, 정확하게 정렬된 삽입-결실의 몇 안 되는 관찰조차도 돌연변이의 강한 증거가 될 수 있다). 그러나 삽입-결실의 존재에서 정확한 정렬은 어려울 수 있다(특히 삽입-결실 길이가 증가함에 따라). 정렬과 관련된 일반적 문제, 예를 들어 치환에 추가로, 삽입-결실 그 자체는 정렬에 의한 문제를 야기할 수 있다. (예를 들어, 다이뉴클레오타이드 반복체의 2bp의 결실은 용이하게 명확하게 위치될 수 없다.) 민감성과 특이성은 둘 다 더 짧은(<15bp) 명확한 삽입-결실-함유 판독의 부정확한 배치에 의해 감소될 수 있다. 더 큰 삽입-결실(개개의 판독 길이에 대한 규모에서 더 가깝게 됨- 본 발명자의 현재 과정에서 36bp)은 판독을 정렬시키는 것에서 어쨌든 실패를 야기할 수 있는데, 이는 정렬된 판독의 표준 세트에서 불가능한 삽입-결실의 검출을 제공한다.
암 돌연변이의 데이터베이스는 이들 문제를 처리하고, 성능을 개선시키기 위해 사용될 수 있다. 위양성 삽입-결실 발견을 감소시키기 위해(특이성을 개선시키기 위해), 보통 예상되는 삽입-결실 주위의 영역은 서열 콘텍스트에 기인하는 문제가 있는 정렬에 대해 시험될 수 있고, 상기 치환과 유사하게 처리될 수 있다. 삽입-결실 검출의 민감성을 개선시키기 위해, 암에서 예상되는 삽입-결실에 대한 정보를 사용하여 몇몇 상이한 접근이 사용된다. 예를 들어, 예상된 삽입-결실을 함유하는 짧은-판독은 자극되고, 정렬이 시도된다. 정렬은 연구될 수 있고, 문제가 있는 삽입-결실 영역은, 예를 들어 갭 개방/확장 페널티를 감소시키거나 또는 부분적 판독(예를 들어, 판독의 제1 또는 제2의 절반)을 정렬시킴으로써 조절된 정렬 변수를 가질 수 있다.
대안적으로, 초기 정렬은 정상 기준 게놈에 의할 뿐 아니라 공지되거나 또는 가능성이 있는 암 삽입-결실 돌연변이를 각각 함유하는 게놈의 또 다른 형태에 의해 시도될 수 있다. 이 접근에서, 초기에 정렬되지 않거나 또는 부정확하게 정렬된 삽입-결실의 판독은 게놈의 대안의(돌연변이된) 형태 상에 성공적으로 위치된다.
이 방법으로, 삽입결실 정렬(및 따라서 호출)은 예상된 암 유전자/부위에 대해 최적화될 수 있다. 예를 들어, 유방암 샘플을 평가할 때, 종양 억제 유전자 PTEN의 정렬은 표 5에 예시된 바와 같은 삽입-결실 돌연변이의 잠재적인 존재에 대해 최적화될 수 있다.
정렬 최적화를 위한 PTEN에서 대표적인 삽입-결실 돌연변이
유전자 조직 AA 교환 뉴클레오타이드 교환 변화 게놈 시작 GRCh37 게놈 중단 GRCh37 뉴클레오타이드 교환 빈도
PTEN 유방 K237_Y240>N 710_718결실9 10 89717685 89717693 0.128%
PTEN 유방 N329fs*12 987_996결실10 10 89720836 89720845 0.128%
PTEN 유방 S338fs*1 1013_1023결실11 10 89720862 89720872 0.128%
PTEN 유방 L70fs*7 208_251결실44 10 89685313 89690844 0.256%
PTEN 유방 0? 1_1212결실1212 10 89624227 89725229 0.128%
PTEN 유방 K60fs*9 180_181삽입? 10 89685285 89685286 0.128%
PTEN 유방 K60fs*39 179_179결실A 10 89685284 89685284 0.384%
PTEN 유방 K197fs*2 590결실A 10 89711972 89711972 0.128%
PTEN 유방 N323fs*2 968_969삽입A 10 89720817 89720818 0.128%
PTEN 유방 V317fs*3 951_954결실ACTT 10 89720800 89720803 0.256%
PTEN 유방 T319fs*1 955_958결실ACTT 10 89720804 89720807 0.128%
PTEN 유방 I135결실 403_405결실ATA 10 89692919 89692921 0.128%
PTEN 유방 S385fs*1 1154_1155결실CT 10 89725171 89725172 0.128%
PTEN 유방 T277fs*13 831_834결실CTTC 10 89720680 89720683 0.128%
PTEN 유방 R74fs*25 221_221결실G 10 89690814 89690814 0.128%
PTEN 유방 V275fs*1 823결실G 10 89720672 89720672 0.256%
PTEN 유방 F90fs*9 270결실T 10 89692786 89692786 0.128%
조정
조정: 서열 정렬 알고리즘
본 명세서에서 사용된 바와 같은 서열 정렬 알고리즘은 게놈에서 판독 서열(예를 들어, 차세대 시퀀싱으로부터의, 예를 들어 짧은-판독 서열)이 대부분 판독 서열과 기준 서열 사이의 유사성을 평가함으로써 유래될 가능성이 있는 경우로부터 동일성에 대해 사용되는 컴퓨터적 방법 또는 접근을 포함한다. 서열 정렬 문제에 다양한 알고리즘이 적용될 수 있다. 일부 알고리즘은 상대적으로 느리지만, 상대적으로 높은 특이성을 허용한다. 이들은, 예를 들어 역동적 프로그래밍-기반 알고리즘을 포함한다. 역동적 프로그래밍은 그것들이 더 간단한 단계로 나누어짐으로써 복잡한 문제를 해결하는 방법이다. 다른 접근은 상대적으로 더 효율적이지만, 전형적으로 철저하지 않다. 이는, 예를 들어 대량 데이터베이스 검색을 위해 설계된 휴리스틱(heuristic) 알고리즘 및 확률적(probabilistic) 방법을 포함한다.
전형적으로, 정렬 과정에 두 단계가 있을 수 있다: 후보자 검사 및 서열 정렬. 후보자 검사는 가능한 정렬 위치의 더 짧은 열거에 대해 전체 게놈으로부터 서열 정렬을 위한 검색 공간을 감소시킨다. 용어가 시사하는 바와 같이 서열 정렬은 후보자 검사 단계에 제공된 서열을 갖는 서열을 정렬시키는 단계를 포함한다. 이는 광역 정렬(예를 들어, 니들만-분쉬(Needleman-Wunsch) 정렬) 또는 국소 정렬(예를 들어, 스미스-워터만 정렬)을 사용하여 수행될 수 있다.
대부분의 속성 정렬 알고리즘은 색인 방법에 기반한 3가지 유형 중 하나를 특징으로 할 수 있다: 해쉬 테이블(예를 들어, BLAST, ELAND, SOAP), 접미사트리(예를 들어, Bowtie, BWA) 및 병합 정렬(예를 들어, 슬라이더(Slider))에 기반한 알고리즘.
짧은 판독 서열은 정렬을 위해 전형적으로 사용된다. 짧은-판독 서열에 대한 서열 정렬 알고리즘/프로그램의 예는, 이하에 제한되는 것은 아니지만, BFAST (Homer N. et al., PLoS One. 2009;4(11):e7767), BLASTN(월드 와이드 웹상의 blast.ncbi.nlm.nih.gov에서), BLAT(Kent W.J. Genome Res. 2002;12(4):656-64), 보타이(Bowtie)(Langmead B. et al., Genome Biol. 2009;10(3):R25), BWA(Li H. and Durbin R. Bioinformatics, 2009, 25:1754-60), BWA-SW(Li H. and Durbin R. Bioinformatics, 2010;26(5):589-95), 클라우드버스트(CloudBurst)(Schatz M.C. Bioinformatics. 2009;25(11):1363-9), 코로나 라이트(Corona Lite)(Applied Biosystems, Carlsbad, California, USA), CASHX(Fahlgren N. et al., RNA, 2009; 15, 992-1002), CUDA-EC (Shi H. et al., J Comput Biol. 2010;17(4):603-15), ELAND(월드 와이드 웹상의 bioit.dbi.udel.edu/howto/eland에서), GNUMAP(Clement N.L. et al., Bioinformatics. 2010;26(1):38-45), GMAP(Wu T.D. and Watanabe C.K. Bioinformatics. 2005;21(9):1859-75), GSNAP(Wu T.D. and Nacu S., Bioinformatics. 2010;26(7):873-81), 제니오스 어셈블러(Geneious Assembler)(뉴질랜드 오클랜드에 소재한 Biomatters Ltd.), LAST, MAQ(Li H. et al., Genome Res. 2008;18(11):1851-8), Mega-BLAST(월드 와이드 웹 상의 ncbi.nlm.nih.gov/blast/megablast.shtml에서), MOM(Eaves H.L. and Gao Y. Bioinformatics. 2009;25(7):969-70), MOSAIK(월드 와이드 웹 상의 bioinformatics.bc.edu/marthlab/Mosaik에서), 노보얼라인(Novoalign)(월드 와이드 웹 상의 novocraft.com/main/index.php에서), 팔맵퍼(PALMapper)(월드 와이드 웹 상의 fml.tuebingen.mpg.de/raetsch/suppl/palmapper에서), PASS(Campagna D. et al., Bioinformatics. 2009; 25(7):967-8), PatMaN(Prufer K. et al., Bioinformatics. 2008; 24(13):1530-1), PerM(Chen Y. et al., Bioinformatics, 2009, 25 (19): 2514-2521), ProbeMatch(Kim Y.J. et al., Bioinformatics. 2009;25(11):1424-5), QPalma(de Bona F. et al., Bioinformatics, 2008, 24(16): i174), RazerS(Weese D. et al., Genome Research, 2009, 19:1646-1654), RMAP (Smith A.D. et al., Bioinformatics. 2009;25(21):2841-2), SeqMap(Jiang H. et al. Bioinformatics. 2008;24:2395-2396.), Shrec(Salmela L., Bioinformatics. 2010;26(10):1284-90), SHRiMP(Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386), SLIDER(Malhis N. et al., Bioinformatics, 2009, 25 (1): 6-13), 슬림 서치(SLIM Search)(Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9), SOAP(Li R. et al., Bioinformatics. 2008;24(5):713-4), SOAP2(Li R. et al., Bioinformatics. 2009;25(15):1966-7), SOCS(Ondov B.D. et al., Bioinformatics, 2008; 24(23):2776-7), SSAHA(Ning Z. et al., Genome Res. 2001;11(10):1725-9), SSAHA2(Ning Z. et al., Genome Res. 2001;11(10):1725-9), 스탬피(Stampy)(Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print), 타이판(Taipan)(월드 와이드 웹 상의 taipan.sourceforge.net에서), UGENE(월드 와이드 웹 상의 ugene.unipro.ru에서), XpressAlign(월드 와이드 웹 상의 bcgsc.ca/platform/bioinfo/software/XpressAlign에서), 및 ZOOM(캐나다 온타리오주 워터루에 소재한 바이오인포매틱스 솔루션 인코포레이티드(Bioinformatics Solutions Inc.))을 포함한다.
서열 정렬 알고리즘은, 예를 들어 시퀀싱 기법, 판독 길이, 판독 수, 입수가능한 컴퓨팅 자료 및 민감성/스코어링 필요조건을 포함하는 다수의 인자에 기반하여 선택될 수 있다. 상이한 서열 정렬 알고리즘은 상이한 속도 수준, 정렬 민감성 및 정렬 특이성을 달성할 수 있다. 정렬 특이성은 예측된 정렬과 비교하여 정확하게 정렬된 전형적으로 서브미션에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다. 정렬 민감성은 또한 서브미션에서 정확하게 정렬된 보통 예측된 정렬에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다.
정렬 알고리즘, 예컨대 ELAND 또는 SOAP는 속도가 고려되는 제1 인자일 때 기준 게놈에 대해 짧은 판독(예를 들어, 일루미나(Illumina)/솔렉사(Solexa) 시퀀서제)을 정렬하는 목적으로 사용될 수 있다. BLAST 또는 Mega-BLAST와 같은 정렬 알고리즘은 특이성이 가장 중요한 인자일 때, 이들 방법이 상대적으로 더 느리지만, 짧은 판독(예를 들어, 로슈(Roche) FLX제)을 사용하여 유사성 조사의 목적을 위해 사용될 수 있다. MAQ 또는 노보얼라인(Novoalign)와 같은 정렬 알고리즘은 품질 스코어를 고려하며, 따라서 정확성이 본질을 가질 때 단일- 또는 짝지어진-말단 데이터에 대해 사용될 수 있다(예를 들어, 고속-대량 SNP 검색에서). 보타이(Bowtie) 또는 BWA와 같은 정렬 알고리즘은 버로우즈-휠러 변환(Burrows-Wheeler Transform: BWT)을 사용하며, 따라서 상대적으로 작은 메모리 풋프린트(memory footprint)를 필요로 한다. BFAST, PerM, SHRiMP, SOCS 또는 ZOOM과 같은 정렬 알고리즘은 색공간 판독을 맵핑하며, 따라서 ABI의 SOLiD 플랫폼과 함께 사용될 수 있다. 일부 적용에서, 2 이상의 정렬 알고리즘으로부터의 결과가 조합될 수 있다.
조정: 정렬 변수
정렬 변수는 알고리즘의 성능을 조절하기 위해, 예를 들어 판독 서열과 기준 서열 사이의 최적의 광역 또는 국소 알고리즘을 생성하기 위해 정렬 알고리즘에서 사용된다. 정렬 변수는 매치, 미스매치 및 삽입-결실을 위한 가중치를 제공할 수 있다. 예를 들어, 더 낮은 가중치는 더 많은 미스매치 및 삽입-결실을 가지는 정렬을 허용한다.
정렬 변수의 예는, 이하에 제한되는 것은 아니지만, 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크를 포함한다.
예를 들어, 갭 페널티는 정렬이 판독 서열 또는 기준 서열에서 삽입에 의해 파괴되었을 때 정렬 스코어를 감소시키도록 설계된다. 갭 페널티는 서열 내 일부 다른 이웃하는 지점에서 잔기 대 잔기의 양호한 정렬을 달성하는 것이 가능할 때, 정렬 내 갭 또는 삽입이 허용되는지 여부의 결정을 돕기 위해 사용될 수 있다. 특히, 페널티는 각각의 개방된 갭("갭 오프닝" 페널티)에 대한 스코어 및 비용을 곱한 갭 공간의 전체 수("갭 익스텐션" 페널티)에 대한 스코어로부터 차감될 수 있다. 전형적으로, 연장된 갭의 비용은 갭 오프닝에 대한 비용보다 적어도 약 2, 3, 4, 5, 6, 7, 8, 9 또는 10배 더 낮게 설정된다. 예상 역치는 특정 크기의 데이터베이스를 검색할 때 우연히 알게 되는 것으로 "예상할 수 있는" 히트의 수를 설명하는 변수이다.
조정: 알고리즘 및 변수의 서열 콘텍스트-기반 선택/조정
서열 콘텍스트, 예를 들어, 반복 서열(예를 들어, 종열(tandem) 반복, 산재성(interspersed) 반복)의 존재, 낮은 복잡도 영역, 삽입-결실, 위유전자 또는 파라로그는 정렬 특이성에 영향을 미칠 수 있다(예를 들어, 정렬불량을 야기한다). 본 명세서에서 사용된 바와 같은, 정렬불량은 게놈 내 부정확한 위치 상에서 짧은 판독으로부터 염기쌍의 배치를 지칭한다.
정렬 알고리즘, 예컨대 더 느리지만 더 정확한 정렬 알고리즘(예를 들어, 스미스-워터만(Smith-Waterman) 정렬 또는 다중-서열(판독) 정렬기 CLUSTALW)은 정렬 특이성을 증가시키도록 선택될 수 있다(예를 들어, 서열 콘텍스트, 예를 들어, 반복 서열의 존재에 의해 야기된 정렬불량의 가능성을 감소시킴).
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 정렬 특이성을 증가시키도록(예를 들어, 서열 콘텍스트에 의해 야기되는 정렬불량의 가능성을 감소시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다).
조정: 종양 유형-기반 선택/알고리즘 및 변수의 조정
정렬 알고리즘이 선택되거나 또는 정렬 변수가 종양 유형, 예를 들어 특정 돌연변이 또는 돌연변이 유형을 가지는 경향이 있는 종양 유형에 기반하여 조절될 때, 정렬의 민감성이 증가될 수 있다
정렬 알고리즘은 핵산이 특정 종양 유형의 샘플로부터 단리될 때 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는, 핵산이 특정 종양 유형의 샘플로부터 단리될 때 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, C→T 치환은 흑색종에서 흔한 돌연변이 유형이다. 따라서, 정렬의 민감성은흑색종 샘플로부터 핵산 서열의 미스매치 페널티가 감소되거나 또는 증가될 때 조절될 수 있다(예를 들어, 증가될 수 있다).
조정: 유전자 유형-기반 선택/알고리즘 및 변수의 조정
정렬의 민감성은 정렬 알고리즘이 선택되거나 또는 정렬 변수가 특정 유전자 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 조절될 때 증가될 수 있다. 암-관련 유전자의 상이한 유형에서 돌연변이는 암 표현형에서 상이한 충격을 가질 수 있다. 예를 들어, 돌연변이체 종양유전자 대립유전자가 전형적으로 우세하다. 돌연변이체 종양 억제 유전자 대립유전자는 전형적으로 열성인데, 이는 대부분의 경우에 종양 억제자 유전자의 대립유전자 둘 다 효과가 명백하게 되기 전에 영향을 받아야한다는 것을 의미한다.
정렬 알고리즘은 유전자 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 종양 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 프레임내 삽입-결실은 보통 종양 억제자와 관련된다. 따라서, 정렬의 민감성 및 특이성은 표준 갭 페널티 접근(예를 들어, 갭 오픈 + 갭 익스텐션)이 종양유전자에 대한 프레임내 삽입-결실 및 종양 억제 유전자에 대한 프레임-이동 삽입-결실에서 선호되도록 변형될 때 조절될 수 있다(예를 들어, 증가될 수 있다).
조정: 돌연변이 유형-기반 선택/알고리즘 및 변수의 조정
정렬의 민감성은 정렬 알고리즘이 선택되거나 또는 정렬 변수가 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 조절될 때, 조절될 수 있다(예를 들어, 증가될 수 있다).
BWA(속성 단일 짧은-판독), 스미스-워터만(Smith-Waterman)(더 짧고, 더 정확한 단일의 짧은-판독) 및 CLUSTALW(훨씬 더 짧지만, 다중 판독을 고려)와 같은 정렬 알고리즘은 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 점 돌연변이는 보통 KRAS 유전자와 관련된다. 따라서, 정렬의 민감성은 해당 위치에 대한 미스매치 페널티가 감소될 때 증가될 수 있다. 유사하게, 결실은 보통 EGFR 유전자와 관련된다. 따라서, 정렬의 민감성은 해당 위치(들) 또는 유전자에 대한 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티)가 감소될 때, 증가될 수 있다. 부분적 서열(예를 들어, 판독의 제1 또는 제2의 절반)이 정렬을 위해 사용된다면, 정렬의 민감성은 또한 증가될 수 있다.
조정/돌연변이 부위-기반 선택/알고리즘 및 변수의 조정
알고리즘이 선택되거나 또는 정렬 변수가 돌연변이 부위(예를 들어, 핫스팟)를 기반으로 조절될 때, 정렬의 민감성은 조절될 수 있다(예를 들어, 증가될 수 있다). 돌연변이 핫스팟은 돌연변이가 정상 돌연변이율보다 더 빈번하게 100배까지 일어나는 경우의 게놈 내 부위를 지칭한다.
정렬 알고리즘은 돌연변이 부위(예를 들어, 돌연변이 핫스팟)를 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 돌연변이 부위(예를 들어, 돌연변이 핫스팟)를 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 코돈 12에서 돌연변이는 보통 KRAS 유전자와 관련된다. 따라서, 정렬의 민감성은 부위에 대한 미스매치 페널티가 감소될 때 증가될 수 있다.
조정: 샘플 유형-기반 선택/알고리즘 및 변수의 조정
정렬 알고리즘이 선택되거나 또는 정렬 변수가 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 조절될 때, 정렬의 민감성/특이성은 조절될 수 있다(예를 들어, 증가될 수 있다).
정렬 알고리즘은 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, DNA 손상에 기인하는 전이 돌연변이는 보통 FFPE 샘플과 관련된다. 따라서, 정렬의 민감성/특이성은 FFPE 샘플로부터 얻은 서열에 대한 미스매치 페널티가 증가될 때, 감소될 수 있다.
정렬 모듈
정렬을 위한 일반적 방법
본 명세서에 개시된 방법은 시퀀싱 방법, 특히 매우 다수의 다양한 유전자에서 매우 다수의 다양한 유전적 사건의 대량병렬 시퀀싱에 의존한 방법, 예를 들어 종양 샘플의 분석 방법에서 성능을 최적화하기 위해 다중, 개별적으로 조정된 정렬 방법 또는 알고리즘을 사용하기 위해 한다. 실시형태에서, 상이한 유전자에서 다수의 변이체 각각으로 개별적으로 맞춰지거나 또는 조정된 다중 정렬 방법은 판독을 분석하기 위해 사용된다. 실시형태에서, 조정은 시퀀싱되는 유전자(또는 다른 서브게놈 간격), 샘플 내 종양 유형, 시퀀싱되는 변이체 또는 샘플 또는 피험체의 특징의 작용일 수 있다. 시퀀싱되는 복수의 서브게놈 간격으로 개별적으로 조정된 정렬 조건의 선택 또는 사용은 속도, 민감성 및 특이성을 최적화시킨다. 해당 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다.
따라서, 일 양태에서, 샘플의 분석 방법, 예를 들어, 종양 샘플이 제공된다. 해당 방법은,
(a) 샘플로부터의 다수의 구성원, 예를 들어 종양 샘플로부터의 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 사전선택된 서열에 대한 라이브러리를 풍부화시켜, 예를 들어 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시킴으로써 선택된 구성원을 제공하는 단계(때때로 본 명세서에서 라이브러리 포획으로서 지칭됨);
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱을 포함하는 방법에 의해, 예를 들어 차세대 시퀀싱 방법으로 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이를, 예를 들어 베이지안 방법으로 호출),
상기 종양 샘플을 분석하는 단계를 포함하되,
여기서
각각의 X의 독특한 서브게놈 간격으로부터의 판독은 독특한 정렬 방법으로 정렬되며, 독특한 서브게놈 간격은 다른 X-1 서브게놈 간격과 상이한 것을 의미하고, 독특한 정렬 방법은 다른 X-1 정렬 방법과는 상이한 것을 의미하며, X는 적어도 2이다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
실시형태에서, X는 적어도 3, 4, 5, 10, 15, 20, 30, 50, 100, 500 또는 1,000이다.
따라서, 실시형태에서, 본 명세서에 기재된 방법, 예를 들어, 종양 샘플의 분석 방법은 본 명세서에 기재된 정렬 방법을 포함한다. 예로서, 해당 방법(예를 들어, 단계 (c))은 분석을 위한 정렬 방법, 예를 들어 정렬, 상기 판독을 선택하는 단계를 포함할 수 있되, 정렬 방법은 하기 중 하나 이상 또는 모두의 함수이거나, 하기 중 하나 이상에 대해 선택된 반응이거나 또는 하기 중 하나 이상에 대해 최적화된다:
(i) 종양 유형, 예를 들어 상기 샘플 내 종양 유형;
(ii) 시퀀싱되는 상기 서브게놈 간격이 위치되는 유전자 또는 유전자의 유형으로서, 예를 들어 유전자 또는 유전자의 유형은 변이체 또는 변이체의 유형, 예를 들어 돌연변이에 대해 사전선택된 가능성과 관련된 유전자 또는 유전자의 유형;
(iii) 분석되는 부위(예를 들어, 뉴클레오타이드 위치);
(iv) 평가되는 서브게놈 간격 내에서 변이체의 유형, 예를 들어 치환;
(v) 샘플, 예를 들어 FFPE 샘플의 유형; 및
(vi) 상기 평가된 서브게놈 간격의 또는 근처의 서열, 예를 들어 상기 서브게놈 간격에 대한 정렬불량에 대해 예상된 경향, 예를 들어 상기 서브게놈 간격에서 또는 근처에서 반복될 서열의 존재.
본 명세서의 다른 곳에서 지칭되는 바와 같이, 방법은 상대적으로 매우 복수의 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다. 따라서, 실시형태에서, 적어도 X의 독특한 정렬 방법은 적어도 X개의 독특한 서브게놈 간격에 대한 판독을 분석하기 위해 사용되되, 독특한이란 다른 X-1과는 상이한 것을 의미하며, X는 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 200, 500 또는 1,000과 동일하다.
실시형태에서, 표 1의 적어도 X의 유전자로부터의 서브게놈 간격이 분석되며, X는 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 우선순위 1 주석이 있는 표 1로부터의 적어도 X개의 유전자로부터의 서브게놈 간격이 분석되며, X는 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 독특한 정렬 방법은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 상이한 유전자 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어, 표 1 또는 1A의 유전자의 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 정렬 방법은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 우선순위 1 주석을 갖는 표 1 또는 1A의 적어도 5, 10, 20, 30 또는 40개의 유전자에서 뉴클레오타이드 위치는 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 정렬 방법은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 또는 500개의 변이체 또는 코돈, 예를 들어, 표 1, 1A, 2 또는 3의 돌연변이에 대한 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 정렬 방법은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 해당 방법은,
각각 종양 표현형과 관련된 변이체를 갖는 각각의 X의 게놈 간격에 대해 독특한 정렬 방법을 적용하되, 예를 들어 변이체는 점 돌연변이이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 각각의 상기 서브게놈 간격은 상이한 유전자에 위치된 단계를 포함한다.
실시형태에서, 해당 방법은,
각각 종양 표현형과 관련된 변이체를 갖는 각각의 X의 게놈 간격에 대해 독특한 정렬 방법을 적용하되, 예를 들어 변이체는 재배열, 예를 들어, 결실, 삽입 또는 전위이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 각각의 상기 서브게놈 간격은 상이한 유전자에 위치된 단계를 포함한다.
실시형태에서,
제1 독특한 정렬 방법은 사전선택된 뉴클레오타이드 위치, 종양 표현형과 관련된 변이체를 포함하는 제1 서브게놈 간격에 적용되고
제2 독특한 정렬 방법은 상기 제1 사전선택된 뉴클레오타이드 위치, 예를 들어 종양 표현형을 갖는 변이체가 없는 위치 이외의 사전선택된 뉴클레오타이드를 포함하는 서브게놈 간격에 적용된다.
실시형태에서, 해당 방법은,
a) 제1 게놈 간격, 이것의 종양 표현형과 관련된 변이체에 제1의 독특한 정렬 방법을 적용하되, 예를 들어 해당 변이체는 점 돌연변이, 예를 들어, 표 6의 돌연변이인 단계;
b) 제2 게놈 간격, 이것의 종양 표현형과 관련된 변이체에 제2의 독특한 정렬 방법을 적용하되, 예를 들어 해당 변이체는 재배열, 예를 들어, 결실, 삽입 또는 전위, 예를 들어, 표 5의 돌연변이인 단계; 및
c) 제3 게놈 간격, 예를 들어 변이체가 상기 샘플 내 종양 표현형과 또는 종양 유형과 관련되지 않은 게놈 간격에 제3의 독특한 정렬 방법을 적용하는 단계를 포함한다.
실시형태에서, 유전자 또는 유전자의 유형은,
예를 들어 티로신 키나제 도메인에서 돌연변이를 활성화하는 것과 관련될 수 있는 종양유전자;
돌연변이를 탈활성화(예를 들어, 넌센스)시킬 수 있는 종양 억제 유전자 돌연변이; 또는
고활성 또는 저활성 생식계열 유전자 변형이 있을 수 있는 약물 ADME-관련 유전자.
실시형태에서, 정렬 방법의 선택은 정렬 알고리즘에서 사용을 위해 변수(또는 그에 대한 값), 예를 들어, 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상된 역치, 단어 크기, 필터 또는 마스크를 선택하는 단계를 포함한다. 변수(또는 그에 대한 값)는 사전선택된 변수, 예를 들어 사전선택된 경계 또는 제한에 의해 정의된 변수의 패널로부터 선택될 수 있다.
실시형태에서, 공지된 암 치환 및 공지된 생식계열 삽입-결실을 함유하는 유전자에 대해 정렬할 때(또는 정렬을 최적화할 때), 갭 페널티는 생식계열 변이체가 정확하게 포획되고, 관심의 체세포 돌연변이 주변의 정렬에 해로운 영향을 미치지 않도록 감소될 수 있다.
실시형태에서, 정렬 방법의 선택은 치환을 함유할 높은 가능성이 있는 유전자에 대해 최대의 상이한 미스매치 페널티를 선택하는 단계를 포함한다.
실시형태에서, 정렬 방법의 선택은 정렬 알고리즘을 선택하는 단계, 예를 들어 더 빠른, 예를 들어 CLUSTALW와 같은 다중 정렬 방법을 사용하는 BWA 또는 선택 정렬 최적화 대신 더 느리지만, 더 정확한 알고리즘, 예를 들어 스미스-워터만 정렬을 선택하는 단계를 포함한다.
실시형태에서, 상기 정렬 방법은 핵산 샘플의 특징, 예를 들어 샘플 연령, 샘플 조직 공급원(예를 들어, 췌장), 발암물질/돌연변이원 노출(예를 들어, 흡연, UV)의 존재, 샘플 내 핵산 샘플의 품질(예를 들어, 핵산 단편화의 수준)의 함수이거나, 이들에 대해 선택된 반응이거나 또는 이들에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50임)의 정렬 방법(들)은 (i)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50) 정렬 방법(들)은 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50) 정렬 방법(들)은 (iii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 제1 정렬 방법은 (i)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화되고, 제2 정렬 방법은 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화되며, 제3 정렬 방법은 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 하나의 정렬 방법은 (ii), (iii), (iv), (v) 또는 (vii) 중 하나 이상 및 (i)에 대한 작용이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50) 정렬 방법(들)은 (ii), (iii), (iv), (v) 또는 (vii) 중 하나 이상 및 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 상기 정렬 방법은 유전자 또는 유전자의 유형의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화되되, 유전자 또는 유전자의 유형은 사전선택된 가능성 또는 변이체의 유형, 예를 들어 돌연변이와 관련된다.
실시형태에서, 상기 정렬 방법은,
치환을 함유할 가능성이 높은 유전자에 대해 최대의 상이한 미스매치 페널티를 조절, 설정 또는 사용하는 단계;
사전선택된 종양 유형(예를 들어, 흑색종의 C→T)에서 흔한 특이적 돌연변이 유형에 기반한 특이적 미스매치 페널티 변수를 조절, 설정 또는 사용하는 단계; 또는
특정 샘플 유형에서 흔한 특이적 돌연변이 유형(예를 들어, FFPE에서 흔한 치환)에 기반한 특이적 미스매치 페널티 변수를 조절, 설정 또는 사용하는 단계를 제공한다.
실시형태에서, 해당 방법은 재배열과 관련되지 않은 서브게놈 간격에 대해 최적화된 제1 정렬 방법 및 재배열과 관련된 서브게놈 간격에 대해 최적화된 제2 정렬 방법의 사용을 포함한다.
실시형태에서, 해당 방법은 다음 중 1, 2, 3, 4 또는 모두의 적용을 포함한다(실시형태에서 다음 중 2 이상의 그룹이 포함되며, 각각의 기에 대한 정렬 방법은 독특하다):
(i) 가장 심층의 덮임률이 상대적으로 낮은 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 고수준의 표적(예를 들어, 유전자, 엑손 또는 염기)에 대한 반응이 선택되거나 또는 최적화된 제1 정렬 방법. 예를 들어, 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5% 이하의 빈도로 나타나는 변이체, 예를 들어 점 돌연변이에 대해 반응이 선택되거나 또는 최적화된 정렬 방법. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 500X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 사전선택된 암에서 빈번하게 돌연변이된 엑손이다;
(ii) 높은 덮임률이(실시형태에서 상기 (i)의 덮임률 미만이지만) 상대적으로 높은 빈도로, 예를 들어 상기 (i)의 돌연변이보다 더 큰 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 중간-수준 표적(예를 들어, 유전자, 엑손 또는 염기)에 대해 반응이 선택되거나 또는 최적화된 제2 정렬 방법. 예를 들어, 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5%초과 내지 10, 15 또는 20%까지의 빈도로 나타나는 변이체, 예를 들어, 점 돌연변이에 대해 반응이 선택되거나 또는 최적화된 정렬 방법. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 200X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 암과 관련된 유전자에 있다;
(iii) 낮은 내지 중간의 덮임률(실시형태에서 상기 (i) 또는 (ii)의 덮임률 미만)이 이형 접합적 대립유전자에 대해 고수준의 민감성을 가능하게 하는데 필요한 낮은-수준 표적(예를 들어, 유전자, 엑손 또는 염기)에 대해 반응하거나 또는 최적화된 제3 정렬 방법. 예를 들어, 변이체, 예를 들어, (1) 약물에 반응하거나 또는 약물을 대사하는 환자의 능력과 관련될 수 있는 약물유전체적 SNP; (2) 환자를 독특하게 확인하게 위해(핑거프린트) 사용될 수 있는 게놈 SNP; 또는 (3) 게놈 DNA 및 LOH의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위에 대한 반응이 선택되거나 또는 최적화된 정렬 방법;
(iv) 중간-수준 표적(예를 들어, 재배열, 예를 들어 전위 또는 삽입-결실에서의, 예를 들어 구조적 중단점)에 대한 반응이 선택되거나 또는 최적화된 제4 정렬 방법. 실시형태에서, 덮임률은 (i), (ii) 또는 (iii) 중 하나 미만이다. 예를 들어, 실시형태에서 고 검출 신뢰성을 보장하기 위해 심도에 걸쳐 5 내지 50X 서열-쌍을 필요로 하는 변이체, 예를 들어 인트론 중단점에 대한 반응이 선택된 또는 최적화된 정렬 방법. 대표적인 적용은 전위/삽입-결실이 쉬운 암 유전자; 및
(v) 스파스 덮임률이 복제수 변화를 검출하는 능력을 개선시킬 수 있는 인트론 표적과 같은 표적에 대한 반응이 선택되거나 또는 최적화된 제5 정렬 방법. 실시형태에서, 덮임률은 (i), (ii) (iii) 또는 (iv) 중 하나보다 적다. 예를 들어, 몇몇 말단 엑손의 1 복제 결실의 검출은 고검출 신뢰성을 보장하기 위해 0.1 내지 10X의 덮임률을 필요로 한다. 대표적인 적용은 증폭/결실이 쉬운 암 유전자에 대한 것이다.
실시형태에서, 상기 정렬 방법은 판독을 배열하기 위해 다른 정렬 방법이 시도, 예를 들어 허용가능하지 않은 시도에서 사용된 후 적용된다.
실시형태에서, 해당 방법은 사전선택된 서브게놈 간격에 대해 판독을 배열하기 위해 제2 또는 후속되는 시도에서 제2 정렬 방법을 선택하고 적용하는 단계를 추가로 포함한다. 예를 들어, 실시형태에서, 제1 방법은 제1의 상대적으로 빠른, 알고리즘의 사용을 포함하며, 제2 정렬 방법은 제2의 더 느리지만 더 정확한 알고리즘의 사용을 포함한다.
실시형태에서, 상기 정렬 방법은 스미스-워터만 정렬 알고리즘 또는 유사한 알고리즘 또는 다중 정렬 알고리즘, 예컨대 CLUSTALW를 포함한다.
실시형태에서, 정확한 정렬에 대해 저항성인 서브게놈 간격에서(예를 들어, 임의의 방법에 의해), 데노보 또는 기준-가이드 어셈블리는 ARACHNE 또는 퓨전(Phusion)과 같은 방법을 사용함으로써 착수된다.
실시형태에서, a-c 또는 b-c는 상기 표시된 서열에서 수행된다.
실시형태에서, 해당 방법은
d) 판독과 상기 선택된 정렬 방법(예를 들어, 사전선택된 알고리즘 또는 변수)의 비교, 예를 들어 정렬 비교를 수행하는 단계; 및
e) 선택적으로 상기 판독이 사전결정된 정렬 기준을 충족하는지 여부, 예를 들어 사전결정된 기준이 미스매치 또는 갭의 사전선택된 수 미만인 기준에 대한 정렬일 수 있는지를 결정하는 단계를 추가로 포함한다.
실시형태에서, (c)는
f) 변이체, 예를 들어 치환 또는 재배열, 예를 들어 삽입-결실과 관련된 뉴클레오타이드 위치를 포함하는 서브게놈 간격, 예를 들어, 서브게놈 간격에 대한 정렬 선택자에 대해 값을 획득하는 단계; 및
g) 정렬 선택자에 대해 상기 획득한 값에 반응하여, 판독을 분석하기 위한, 예를 들어 정렬하기 위한 정렬 방법을 선택하는 단계에 의해, 정렬 방법을 선택하는 단계를 포함하되,
단, 상기 정렬 선택자는 하기 중 하나 이상 또는 모두의 함수이거나, 하기 중 하나 이상 또는 모두에 대해 선택된 반응이거나 또는 하기 중 하나 이상 또는 모두에 대해 최적화된다:
i) 종양 유형, 예를 들어, 상기 샘플 내 종양 유형;
ii) 상기 시퀀싱된 서브게놈 간격이 위치된 유전자 또는 유전자의 유형, 예를 들어 유전자 또는 유전자의 유형은 변이체, 예를 들어 돌연변이의 사전선택된 가능성 또는 유형과 관련된다;
iii) 분석되는 부위(예를 들어, 뉴클레오타이드 위치);
iv) 서브게놈 간격과 관련된 변이체의 유형, 예를 들어 평가되는 치환;
v) 샘플, 예를 들어 FFPE 샘플의 유형; 및
vi) 평가되는 상기 서브게놈 간격 내 또는 근처의 서열, 예를 들어 상기 서브게놈 간격에 대한 정렬불량에 대해 예상된 경향, 예를 들어 상기 서브게놈 간격 내 또는 근처에서 반복된 서열의 존재.
실시형태에서, 해당 방법은 독특한 역치값, 예를 들어 비-독특 역치값 이외의 역치값을 서브게놈 간격, 예를 들어 본 명세서에 기재된 상기 서브게놈 간격 중 하나를 획득하고 적용하는 단계를 포함한다.
재배열을 정렬하기 위한 방법
본 명세서에 개시된 방법은 재배열, 예를 들어 삽입-결실과 관련된 서브게놈 간격의 시퀀싱에서 수행을 최적화하기 위한 다중의, 개별적으로 조정된 정렬 방법 또는 알고리즘, 특히 매우 다수의 유전자, 예를 들어 종양 샘플에서 매우 다수의 다양한 유전적 사건의 대량병렬 시퀀싱에 의존하는 방법을 사용하게 한다. 실시형태에서, 상이한 유전자에서 대수의 재정렬 각각에 대해 개개로 맞춰지거나 또는 조정된 다중 정렬방법이 판독을 분석하기 위해 사용된다. 실시형태에서, 조정은 시퀀싱되는 유전자(또는 다른 서브게놈 간격), 샘플 내 종양 유형, 시퀀싱되는 변이체 또는 샘플 또는 피험체의 특징(중 하나 이상)의 작용일 수 있다. 시퀀싱되는 복수의 서브게놈 간격에 대해 미세하게 조정된 정렬 조건의 이런 선택 또는 사용은 속도, 민감성 및 특이성을 최적화하기 위해 한다. 해당 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다. 실시형태에서, 해당 방법은 재정렬을 위해 최적화되고, 재정렬과 관련되지 않은 서브게놈 간격에 대해 다른 최적화된 정렬 방법의 사용을 포함한다.
따라서, 실시형태에서, 본 명세서에 기재된 방법, 예를 들어 종양 샘플의 분석 방법은 본 명세서에 기재된 재배열에 대한 정렬 방법을 포함한다.
예로서, 서브게놈 간격에 대판 판독이 재배열, 예를 들어 삽입-결실을 갖는 뉴클레오타이드 위치를 포함하는 경우, 해당 방법은
c) 판독에 의해 정렬을 위한 재배열 기준 서열을 선택하는 단계로서, 상기 재배열 기준 서열은 사전선택된 재배열에 의해 배열되도록 사전선택된 단계(실시형태에서, 기준 서열은 게놈 재배열과 동일하지 않음). 실시형태에서, 재배열 기준 서열 단편(즉, "대안의 기준")은 판독에서 알 수 있는 것으로 예상되는 재배열과 동일하다. 이 대안의 기준은 또한 예상된 재배열과 다소 상이할 수 있다(예를 들어, 이는 또한 근처의 생식계열 변이체를 함유할 수 있다);
e) 판독을 상기 사전선택된 재배열 기준 서열과 비교, 예를 들어 배열하는 단계; 및
f) 선택적으로, 상기 판독이 사전선택된 정렬 기준을 충족시키는지 여부, 예를 들어 사전선택된 기준이 미스매치 또는 갭의 사전선택된 수준 미만으로 상기 사전선택된 재배열 기준에 대한 정렬일 수 있는지를 결정하고,
이에 의해 판독을 분석하는 단계를 포함하는 정렬 방법을 사용하는 단계를 포함하며,
단, 적어도 X의 독특한 사전선택된 재배열 정렬 서열은 적어도 X의 독특한 서브게놈 간격에 대한 판독을 분석하기 위해 사용되되, 독특한이란 다른 X-1과는 상이한 것을 의미하고, X는 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 300, 500, 1000, 2000 또는 3000과 동일하다.
실시형태에서, 사전선택된 재배열 정렬 서열은 상기 사전선택된 재배열, 예를 들어 사전선택된 변이를 확인하게 하기 위해 선택된 서열을 포함한다.
실시형태에서, 사전선택된 재배열 정렬 서열은 상기 사전선택된 재배열, 예를 들어, 사전선택된 변이에 대응되는 서열(예를 들어, 서열 또는 그것의 보체 중 하나)을 포함한다.
실시형태에서, 사전선택된 재배열 정렬 서열은 상기 사전선택된 서열의 판독에 의한 정렬을 위해 선택된 모의 서열(예를 들어 삽입-결실의 서열 이외의 서열 또는 그것의 보체)을 포함한다.
실시형태에서, 사전선택된 재배열 정렬 서열은 재배열의 측면 중 하나 또는 둘 다에 측접한 서열, 예를 들어 모의 서열을 포함한다.
실시형태에서, 사전선택된 재배열 정렬 서열은 상기 재배열의 접합으로부터의 서열, 예를 들어 모의 서열을 포함한다.
실시형태에서, 정렬은 종양 유형에 대해 사전선택된 사전선택 재배열 정렬 서열에 의해 수행된다.
실시형태에서, 부분적 판독 정렬이 수행되며, 예를 들어 모두보다는 적은 판독이 배열되고, 예를 들어 90, 80, 70, 50, 50, 40, 30, 20 또는 10% 미만의 판독이 배열된다.
실시형태에서, 해당 방법은 재배열과 관련된 서브게놈 간격에 대해 최적화된 제1 정렬 방법 및 재배열과 관련없는 서브게놈 간격에 대해 최적화된 제2 정렬 방법의 사용을 포함한다.
실시형태에서, 해당 방법은,
(g) 상기 판독을 분석, 예를 들어 정렬하기 위해 정렬 방법을 선택하거나 또는 적용하고,
이에 의해 상기 판독을 분석하는 단계를 추가로 포함하며,
단, 상기 정렬 방법은 하기 중 하나 이상 또는 모두의 작용이며, 하기 중 하나 이상 또는 모두에 대해 선택된 반응이거나 또는 하기 중 하나 이상 또는 모두에 대해 최적화된다:
i) 종양 유형, 예를 들어, 상기 샘플 내 종양 유형;
ii) 시퀀싱된 상기 서브게놈 간격이 위치되는 유전자 또는 유전자의 유형, 예를 들어 유전자 또는 유전자의 유형은 변이체, 예를 들어 돌연변이의 사전선택된 가능성 또는 유형과 관련된다;
iii) 분석되는 부위(예를 들어, 뉴클레오타이드 위치);
iv) 서브게놈 간격과 관련된 변이체의 유형, 예를 들어 평가되는 치환;
v) 샘플, 예를 들어 FFPE 샘플의 유형; 및
vi) 평가되는 상기 서브게놈 간격 내 또는 근처의 서열, 예를 들어 상기 서브게놈 간격에 대한 정렬불량에 대해 예상된 경향, 예를 들어 상기 서브게놈 간격 내 또는 근처에서 반복된 서열의 존재.
본 명세서의 다른 곳에서 지칭되는 바와 같이, 방법은 상대적으로 매우 복수의 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다. 따라서, 실시형태에서, 실시형태에서, 적어도 X의 독특한 정렬 방법은 적어도 X의 독특한 서브게놈 간격에 대한 판독을 분석하기 위해 사용되되, 독특한이란 다른 X-1과는 상이한 것을 의미하며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 표 1 또는 1A의 적어도 X의 유전자로부터의 서브게놈 간격이 분석되며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 우선순위 1 주석을 갖는 표 1 또는 1A의 적어도 X의 유전자로부터의 서브게놈 간격이 분석되며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 독특한 정렬 방법은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 상이한 유전자 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어 표 1 또는 1A의 유전자에서 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 정렬 방법은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 우선순위 1 주석을 갖는 표 1 또는 1A의 적어도 5, 10, 20, 30 또는 40개의 유전자에서 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 정렬 방법이 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 대해 적용된다.
실시형태에서, 예를 들어 표 1, 2 또는 3의 적어도 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 또는 500개의 변이체 또는 코돈에 대한 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 정렬 방법은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 해당 방법은,
각각 종양 표현형과 관련된 변이체를 갖는 각각의 X의 게놈 간격에 대해 독특한 정렬 방법을 적용하되, 예를 들어 변이체는 재배열, 예를 들어, 결실, 삽입 또는 전위이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 각각의 상기 서브게놈 간격은 상이한 유전자에 위치된 단계를 포함한다.
실시형태에서,
제1 독특한 정렬 방법은 제1의 사전선택된 뉴클레오타이드 위치, 종양 표현형과 관련된 변이체(예를 들어 표 10에 제공된 변이체, 예를 들어 흔한 상피암: 폐, 유방, 결장, 전립선에서 삽입-결실 변이체)에 적용되고
제2 독특한 정렬 방법은 상기 제1 사전선택된 뉴클레오타이드 위치, 예를 들어 종양 표현형과 관련된 변이체가 없는 위치(예를 들어, 표 10에서 가변성인 것으로 존재하지 않는 서열) 이외의 사전선택된 뉴클레오타이드에 적용된다.
실시형태에서, 해당 방법은,
a) 제1 게놈 간격, 이것의 종양 표현형과 관련된 변이체에 제1의 독특한 정렬 방법을 적용하되, 예를 들어 해당 변이체는 점 돌연변이, 예를 들어, 표 6의 돌연변이인 단계;
b) 제2 게놈 간격, 이것의 종양 표현형과 관련된 변이체에 제2의 독특한 정렬 방법을 적용하되, 예를 들어 해당 변이체는 재배열, 예를 들어, 결실, 삽입 또는 전위, 예를 들어, 표 5의 돌연변이인 단계; 및
c) 제3 게놈 간격, 예를 들어 변이체가 상기 샘플 내 종양 표현형과 또는 종양 유형과 관련되지 않은 게놈 간격에 제3의 독특한 정렬 방법을 획득하고 적용하는 단계를 포함한다.
실시형태에서, 유전자 또는 유전자의 유형은
예를 들어 티로신 키나제 도메인에서 돌연변이를 활성화하는 것과 관련될 수 있는 종양유전자;
돌연변이를 탈활성화(예를 들어, 넌센스)시킬 수 있는 종양 억제 유전자 돌연변이; 또는
고활성 또는 저활성 생식계열 유전자 변형이 있을 수 있는 약물 ADME-관련 유전자.
실시형태에서, 정렬 방법의 선택은 정렬 알고리즘에서 사용을 위해 변수(또는 그에 대한 값), 예를 들어, 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상된 역치, 단어 크기, 필터 또는 마스크를 선택하는 단계를 포함한다. 변수(또는 그에 대한 값)는 사전선택된 변수, 예를 들어 사전선택된 경계 또는 제한에 의해 정의된 변수의 패널로부터 선택될 수 있다.
실시형태에서, 공지된 암 치환 및 공지된 생식계열 삽입-결실을 함유하는 유전자에 대해 정렬할 때(또는 정렬을 최적화할 때), 갭 페널티는 생식계열 변이체가 정확하게 포획되고, 관심의 체세포 돌연변이 주변의 정렬에 해로운 영향을 미치지 않도록 감소될 수 있다.
실시형태에서, 정렬 방법의 선택은 치환을 함유할 높은 가능성이 있는 유전자에 대해 최대의 상이한 미스매치 페널티를 선택하는 단계를 포함한다.
실시형태에서, 정렬 방법의 선택은 정렬 알고리즘을 선택하는 단계, 예를 들어 더 빠른, 예를 들어 CLUSTALW와 같은 다중 정렬 방법을 사용하는 BWA 또는 선택 정렬 최적화 대신 더 느리지만, 더 정확한 알고리즘, 예를 들어 스미스-워터만 정렬을 선택하는 단계를 포함한다.
실시형태에서, 상기 정렬 방법은 핵산 샘플의 특징, 예를 들어 샘플 연령, 샘플 조직 공급원(예를 들어, 췌장), 발암물질/돌연변이원 노출(예를 들어, 흡연, UV)의 존재, 샘플 내 핵산 샘플의 품질(예를 들어, 핵산 단편화의 수준)의 함수이거나, 이들에 대해 선택된 반응이거나 또는 이들에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50임)의 정렬 방법(들)은 (i)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50)의 정렬 방법(들)은 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50)의 정렬 방법(들)은 (iii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 제1 정렬 방법은 (i)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화되고, 제2 정렬 방법은 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화되며, 제3 정렬 방법은 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 하나의 정렬 방법은 (ii), (iii), (iv), (v) 또는 (vii) 중 하나 이상 및 (i)에 대한 작용이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 적어도 X(X는 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 또는 50) 정렬 방법(들)은 (ii), (iii), (iv), (v) 또는 (vii) 중 하나 이상 및 (ii)의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화된다.
실시형태에서, 상기 정렬 방법은 유전자 또는 유전자의 유형의 함수이거나, 이에 대해 선택된 반응이거나 또는 이에 대해 최적화되되, 유전자 또는 유전자의 유형은 사전선택된 가능성 또는 변이체의 유형, 예를 들어 돌연변이와 관련된다.
실시형태에서, 상기 정렬 방법은
치환을 함유할 가능성이 높은 유전자에 대해 최대의 상이한 미스매치 페널티를 조절, 설정 또는 사용하는 단계;
삽입-결실을 함유할 가능성이 높은 유전자(예를 들어, NSCLC의 EGFR)에 대해 갭 페널티 변수를 조절, 설정 또는 사용하는 단계;
사전선택된 종양 유형(예를 들어, 흑색종의 C→T)에서 흔한 특이적 돌연변이 유형에 기반한 특이적 미스매치 페널티 변수를 조절, 설정 또는 사용하는 단계; 또는
특정 샘플 유형에서 흔한 특이적 돌연변이 유형(예를 들어, FFPE에서 흔한 치환)에 기반한 특이적 미스매치 페널티 변수를 조절, 설정 또는 사용하는 단계를 제공한다.
실시형태에서, 해당 방법은 재배열과 관련되지 않은 서브게놈 간격에 대해 최적화된 제1 정렬 방법 및 재배열과 관련된 서브게놈 간격에 대해 최적화된 제2 정렬 방법의 사용을 포함한다.
실시형태에서, 정렬 변수, 예를 들어 갭 오픈/익스텐션 페널티가 조절되며, 예를 들어 감소된다.
실시형태에서, 해당 방법은 다음 중 1, 2, 3, 4개 또는 모두의 적용을 포함한다(실시형태에서 다음 중 2개 이상의 그룹이 포함되며, 각각의 기에 대한 정렬 방법은 독특하다):
(i) 가장 심층의 덮임률이 상대적으로 낮은 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 고수준의 표적(예를 들어, 유전자, 엑손 또는 염기)에 대한 반응이 선택되거나 또는 최적화된 제1 정렬 방법. 예를 들어, 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5% 이하의 빈도로 나타나는 변이체, 예를 들어 점 돌연변이에 대해 반응이 선택되거나 또는 최적화된 정렬 방법. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 500X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 사전선택된 암에서 빈번하게 돌연변이된 엑손이다;
(ii) 높은 덮임률이(실시형태에서 상기 (i)의 덮임률 미만이지만) 상대적으로 높은 빈도로, 예를 들어 상기 (i)의 돌연변이보다 더 큰 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 중간-수준 표적(예를 들어, 유전자, 엑손 또는 염기)에 대해 반응이 선택되거나 또는 최적화된 제2 정렬 방법. 예를 들어, 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5%초과 내지 10, 15 또는 20%까지의 빈도로 나타나는 변이체, 예를 들어, 점 돌연변이에 대해 반응이 선택되거나 또는 최적화된 정렬 방법. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 200X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 암과 관련된 유전자에 있다;
(iii) 낮은 내지 중간의 덮임률(실시형태에서 상기 (i) 또는 (ii)의 덮임률 미만)가 이형 접합적 대립유전자에 대해 고수준의 민감성을 가능하게 하는데 필요한 낮은-수준 표적(예를 들어, 유전자, 엑손 또는 염기)에 대해 반응하거나 또는 최적화된 제3 정렬 방법. 예를 들어, 변이체, 예를 들어, (1) 약물에 반응하거나 또는 약물을 대사하는 환자의 능력과 관련될 수 있는 약물유전체적 SNP; (2) 환자를 독특하게 확인하게 위해(핑거프린트) 사용될 수 있는 게놈 SNP; 또는 (3) 게놈 DNA 및 LOH의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위에 대한 반응이 선택되거나 또는 최적화된 정렬 방법;
(iv) 중간-수준 표적(예를 들어, 재배열, 예를 들어 전위 또는 삽입-결실에서의, 예를 들어 구조적 중단점)에 대한 반응이 선택되거나 또는 최적화된 제4 정렬 방법. 실시형태에서, 덮임률은 (i), (ii) 또는 (iii) 중 하나 미만이다. 예를 들어, 실시형태에서 고 검출 신뢰성을 보장하기 위해 심도에 걸쳐 5 내지 50X 서열-쌍을 필요로 하는 변이체, 예를 들어 인트론 중단점에 대한 반응이 선택된 또는 최적화된 정렬 방법. 대표적인 적용은 전위/삽입-결실이 쉬운 암 유전자; 및
(v) 스파스 덮임률이 복제수 변화를 검출하는 능력을 개선시킬 수 있는 인트론 표적과 같은 표적에 대한 반응이 선택되거나 또는 최적화된 제5 정렬 방법. 실시형태에서, 덮임률은 (i), (ii) (iii) 또는 (iv) 중 하나보다 적다. 예를 들어, 몇몇 말단 엑손의 1 복제 결실의 검출은 고검출 신뢰성을 보장하기 위해 0.1 내지 10X의 덮임률을 필요로 한다. 대표적인 적용은 증폭/결실이 쉬운 암 유전자에 대한 것이다.
실시형태에서, 상기 정렬 방법은 판독을 배열하기 위해 다른 정렬 방법이 시도, 예를 들어 허용가능하지 않은 시도에서 사용된 후 적용된다.
실시형태에서, 해당 방법은 사전선택된 서브게놈 간격에 대해 판독을 배열하기 위해 제2 또는 후속되는 시도에서 제2 정렬 방법을 선택하고 적용하는 단계를 추가로 포함한다. 예를 들어, 실시형태에서, 제1 방법은 제1의 상대적으로 빠른, 알고리즘의 사용을 포함하며, 제2 정렬 방법은 제2의 더 느리지만 더 정확한 알고리즘의 사용을 포함한다.
실시형태에서, 상기 정렬 방법은 스미스-워터만 정렬 알고리즘 또는 유사한 알고리즘 또는 다중 정렬 알고리즘, 예컨대 CLUSTALW를 포함한다.
실시형태에서, 정확한 정렬에 대해 저항성인 서브게놈 간격에서(예를 들어, 임의의 방법에 의해), 데노보 또는 기준-가이드 어셈블리는 ARACHNE 또는 퓨전과 같은 방법을 사용함으로써 착수된다.
실시형태에서, a 내지 c 또는 b 내지 c는 상기 표시된 서열에서 수행된다.
실시형태에서, 해당 방법은
d) 판독과 상기 선택된 정렬 방법(예를 들어, 사전선택된 알고리즘 또는 변수)의 비교, 예를 들어 정렬 비교를 수행하는 단계; 및
e) 선택적으로 상기 판독이 사전결정된 정렬 기준을 충족하는지 여부, 예를 들어 사전결정된 기준이 미스매치 또는 갭의 사전선택된 수 미만인 기준에 대한 정렬일 수 있는지를 결정하는 단계를 추가로 포함한다.
실시형태에서, 해당 방법은 종양 및/또는 대조군 핵산 샘플(예를 들어, FFPE-유래 핵산 샘플)로부터 얻은 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.
실시형태에서, 판독은 NGS 시퀀싱 방법에 의해 제공된다.
실시형태에서, 해당 방법은 핵산 구성원의 라이브러리를 제공하는 단계 및 상기 라이브러리의 다수의 구성원으로부터 사전선택된 서브게놈 간격을 시퀀싱 하는 단계를 포함한다. 실시형태에서, 해당 방법은 시퀀싱을 위해 상기 라이브러리의 서브세트를 선택하는 단계, 예를 들어 용액-기반 선택을 포함할 수 있다.
실시형태에서, (c)는 하기에 의한 정렬 방법을 선택하는 단계를 포함한다:
f) 서브게놈 간격, 예를 들어, 변이체, 예를 들어 치환 또는 재배열, 예를 들어 삽입-결실과 관련된 뉴클레오타이드 위치를 포함하는 서브게놈 간격에 대한 정렬 선택자에 대해 값을 획득하는 단계; 및
g) 정렬 선택자에 대해 상기 획득한 값에 반응하여, 판독을 분석하기 위한, 예를 들어 정렬하기 위한 정렬 방법을 선택하는 단계에 의해, 정렬 방법을 선택하는 단계를 포함하되,
단, 상기 정렬 선택자는 하기 중 하나 이상 또는 모두의 함수이거나, 하기 중 하나 이상 또는 모두에 대해 선택된 반응이거나 또는 하기 중 하나 이상 또는 모두에 대해 최적화된다:
i) 종양 유형, 예를 들어, 상기 샘플 내 종양 유형;
ii) 상기 시퀀싱된 서브게놈 간격은 위치되는 유전자 또는 유전자의 유형, 예를 들어 유전자 또는 유전자의 유형은 변이체, 예를 들어 돌연변이의 사전선택된 가능성 또는 유형과 관련된다;
iii) 분석되는 부위(예를 들어, 뉴클레오타이드 위치);
iv) 서브게놈 간격과 관련된 변이체의 유형, 예를 들어 평가되는 치환;
v) 샘플, 예를 들어 FFPE 샘플의 유형; 및
vi) 평가되는 상기 서브게놈 간격 내 또는 근처의 서열, 예를 들어 상기 서브게놈 간격에 대한 정렬불량에 대해 예상된 경향, 예를 들어 상기 서브게놈 간격 내 또는 근처에서 반복된 서열의 존재.
실시형태에서, 상기 획득한 값은 핵산 샘플의 특징, 예를 들어 샘플 연령, 샘플 조직 공급원(예를 들어, 췌장), 발암물질/돌연변이원 노출(예를 들어, 흡연, UV)의 존재, 샘플 내 핵산 샘플의 품질(예를 들어, 핵산 단편화의 수준)의 함수이거나, 이들에 대해 선택된 반응이거나 또는 이들에 대해 최적화된다.
실시형태에서, 예를 들어, 제1(또는 하나 이상의) 정렬 방법의 실패 후, 해당 방법은, 예를 들어 신규의 복잡한 재배열을 회복하기 위한 미정렬된 판독의 어셈블리(예를 들어, ARACHNE 방법에 의함)를 포함한다.
더 어려운 판독의 정렬
본 명세서에 개시된 방법은 문제 있는 판독을 빠르고 효율적으로 정렬시킨다. 해당 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다. 예로서, 종양 샘플의 분석 방법은
선택적으로, 핵산을 시퀀싱하여 판독을 획득하는 단계;
선택적으로, 판독을 획득하는 단계(예를 들어, 종양 및/또는 대조군 핵산 샘플(예를 들어, FFPE-유래 핵산 샘플)로부터 얻은 뉴클레오타이드 서열 판독을 획득하는 단계);
변수의 제1 세트 하에서 판독의 비교, 예를 들어 정렬 비교를 수행하는 단계(예를 들어, 제1 맵핑 알고리즘 또는 제1 기준 서열에 의해) 및 상기 판독이 제1의 사전결정된 정렬 기준을 충족시키는지 여부를 결정하는 단계(예를 들어, 판독은, 예를 들어 사전선택된 수의 미스매치보다 적은 상기 제1 기준 서열에 의해 정렬될 수 있음);
상기 판독이 제1 사전결정된 정렬 기준을 충족시키지 못한다면, 변수의 제2 설정 하에 제2 정렬 비교를 수행하는 단계(예를 들어, 제2 맵핑 알고리즘 또는 제2 기준 서열에 의해); 및
선택적으로, 상기 판독이 상기 제2 사전결정된 기준을 충족시키는지 여부를 결정하는 단계(예를 들어, 판독은, 예를 들어 사전선택된 수의 미스매치보다 적은 상기 제2 기준 서열에 의해 정렬될 수 있음);
이에 의해 판독을 분석하는 단계를 포함할 수 있되,
상기 변수의 제2 세트는 변수 세트의 사용을 포함하며, 예를 들어 상기 제2 세트의 변수와 비교하여 상기 제2 기준 서열은 사전선택된 변이체, 예를 들어, 재배열, 예를 들어, 삽입, 결실 또는 전위에 대한 판독에 의해 정렬을 야기할 가능성이 더 크다.
실시형태에서, 상기 제2 기준 서열은 사전선택된 변이체, 예를 들어, 염색체 재배열, 예를 들어, 삽입, 결실 또는 전위에 측접한 서열을 포함한다.
실시형태에서, 상기 제2 기준 서열은 사전선택된 변이체, 예를 들어, 염색체 재배열, 예를 들어, 삽입, 결실 또는 전위로부터의 판독에 의해 배열되도록 설계된 서열을 포함한다.
실시형태에서, 상기 제2 기준 서열은 상기 사전선택된 재배열, 예를 들어 사전선택된 변이를 확인하게 하기 위해 선택된 서열을 포함한다.
실시형태에서, 상기 제2 기준 서열은 상기 사전선택된 재배열, 예를 들어 사전선택된 변이에 대응되는 서열(예를 들어, 서열 또는 그것의 보체 중 하나)을 포함한다.
실시형태에서, 상기 제2 기준 서열은 상기 사전선택된 서열의 판독에 의해 정렬되도록 선택된 모의 서열(예를 들어, 삽입-결실의 서열 이외의 서열 또는 그것의 보체)을 포함한다.
실시형태에서, 상기 제2 기준 서열은 재배열의 측면 중 하나 또는 둘 다에 측접하는 서열, 예를 들어 모의 서열을 포함한다.
실시형태에서, 상기 제2 기준 서열은 상기 재배열의 접합으로부터의 서열, 예를 들어 모의 서열을 포함한다.
돌연변이 호출
염기 호출은 시퀀싱 장치의 미가공(raw) 결과물을 지칭한다. 돌연변이 호출은 시퀀싱되는 뉴클레오타이드 위치에 대해 뉴클레오타이드 값, 예를 들어, A, G, T 또는 C를 선택하는 과정을 지칭한다. 전형적으로, 위치에 대한 시퀀싱 판독(또는 염기 호출)은 하나 이상의 값을 제공할 것이며, 예를 들어 일부 판독은 T를 제공할 것이고, 일부는 G를 제공할 것이다. 돌연변이 호출은 뉴클레오타이드 값, 예를 들어 서열에 대한 해당 값 중 하나를 부여하는 과정이다. "돌연변이" 호출로서 지칭되지만, 임의의 뉴클레오타이드 위치에, 예를 들어 돌연변이체 대립유전자, 야생형 대립유전자, 돌연변이체 또는 야생형 중 하나를 특징으로 하지 않은 대립유전자에 대응되는 위치에 또는 가변성을 특징으로 하지 않는 위치에 뉴클레오타이드 값을 부여하기 위해 적용될 수 있다. 돌연변이 호출을 위한 방법은 다음 중 하나 이상을 포함할 수 있다: 기준 서열의 각 위치에서 정보에 기반한 독립적 호출을 만드는 단계(예를 들어, 서열 판독을 시험하는 단계; 염기 호출 및 품질 스코어를 시험하는 단계; 관찰된 염기의 확률 및 잠재적 유전자형이 주어진 품질 스코어를 계산하는 단계; 및 유전자형을 부여하는 단계(예를 들어, 베이스(Bayes) 규칙을 사용)); 위양성을 제거하는 단계(예를 들어, 예상치보다 훨씬 더 낮거나 또는 훨씬 더 높은 판독에 의해 SNP를 기각시키는 심층의 역치; 작은 삽입-결실에 기인하여 위양성을 제거하는 국소 재정렬을 사용); 및 연관불균형(linkage disequilibrium: LD)/호출을 개선시키는 대치(imputation) 기반 분석을 수행하는 단계.
특이적 유전자형 및 위치와 관련된 유전자형 가능성을 계산하기 위한 식은, 예를 들어 문헌[Li H. and Durbin R. Bioinformatics, 2010; 26(5): 589-95]에 기재된다. 특정 암 유형에서 특정 돌연변이에 대한 사전 예상치는 해당 암 유형으로부터 샘플을 평가할 때 사용될 수 있다. 이러한 가능성은 암 돌연변이의 공공 데이터베이스, 예를 들어 암에서 체세포 돌연변이의 카탈로그(Catalogue of Somatic Mutation in Cancer: COSMIC), HGMD(인간 유전자 돌연변이 데이터베이스(Human Gene Mutation Database)), SNP 컨소시엄(The SNP Consortium), 유방암 돌연변이 데이터베이스(Breast Cancer Mutation Data Base: BIC) 및 유방암 유전자 데이터베이스(Breast Cancer Gene Database: BCGD)로부터 유래될 수 있다.
LD/대치 기반 분석의 예는, 예를 들어 문헌[Browning B.L. and Yu Z. Am. J. Hum. Genet. 2009, 85(6):847-61]에 기재된다. 낮은-덮임률 SNP 호출 방법의 예는, 예를 들어 문헌[Li Y. et al., Annu. Rev. Genomics Hum. Genet. 2009, 10:387-406]에 기재된다.
돌연변이 호출: 치환
정렬 후, 치환의 검출은 호출 방법, 예를 들어, 베이지안 돌연변이 호출 방법을 사용하여 수행될 수 있는데; 이는 대안의 대립유전자의 존재가 관찰되는 경우 서브게놈 간격, 예를 들어 평가되는 유전자의 엑손의 각각에서 각 염기에 적용된다. 이 방법은 돌연변이의 존재에서 판독 데이터를 관찰할 확률을 염기-호출 오류 단독의 존재에서 판독 데이터를 관찰할 확률과 비교할 것이다. 돌연변이는 이 비교가 돌연변이 존재를 충분히 강하게 지원하는 경우 호출될 수 있다.
방법은 암 DNA의 분석을 위해 50% 또는 100%의 빈도로부터 제한된 편차를 처리하기 위해 개발되었다. (예를 들어, SNVMix -Bioinformatics. 2010 March 15; 26(6): 730-736.) 그러나 본 명세서에 개시된 방법은 샘플 DNA의 1% 내지 100% 어디에서든지 및 특히 50% 미만의 수준에서 돌연변이체 대립유전자 존재의 가능성을 고려하게 한다. 이 접근은 천연(다중-클론) 종양 DNA의 저-순도 FFPE 샘플에서 돌연변이의 검출에 대해 특히 중요하다.
베이지안 돌연변이-검출 접근의 이점은 돌연변이 존재의 확률과 염기-호출 오류 단독의 확률의 비교가 부위에서 돌연변이 존재의 사전 예상치에 의해 가중치를 부여할 수 있다는 점이다. 대안의 대립유전자의 일부 판독이 주어진 암 유형에 대해 빈번하게 돌연변이된 부위에서 관찰된다면, 돌연변이의 존재는 돌연변이 증거의 양이 보통의 역치를 충족시키지 못한다 해도 자신있게 호출될 수 있다. 그 다음에 이 가요성은 훨씬 더 드문 돌연변이/더 낮은 순도의 샘플에 대해 검출 민감성을 증가시키거나 또는 판독 덮임률의 감소에 대해 시험을 더 탄탄하게 하기 위해 사용될 수 있다. 암에서 돌연변이된 게놈에서 무작위 염기쌍의 가능성은 ~1e-6이다. 전형적 돌연변이유발 암 게놈 패널의 다수 부위에서 특이적 돌연변이의 가능성은 10배 이상일 수 있다. 이들 가능성은 암 돌연변이(예를 들어, COSMIC)의 공공의 데이터베이스로부터 유래될 수 있다. 예를 들어, 분석되는 유전자 중 하나인 KRAS에 대해, 결장암 샘플을 평가할 때, 표 6에서 제공된 돌연변이 중 다음의 사전 예상치가 사용될 수 있다.
결장암에서 KRAS 유전자에 대한 대표적인 사전 예상치
유전자 암 유형 뉴클레오타이드 치환(암호 서열 위치 및 뉴클레오타이드) 변화 게놈 위치 암 유형에서 치환 확률
KRAS 결장 35G>A 12 25398284 11.924%
KRAS 결장 35G>T 12 25398284 7.542%
KRAS 결장 38G>A 12 25398281 6.888%
KRAS 결장 34G>T 12 25398285 2.711%
KRAS 결장 35G>C 12 25398284 2.492%
KRAS 결장 34G>A 12 25398285 1.895%
KRAS 결장 34G>C 12 25398285 0.415%
KRAS 결장 37G>T 12 25398282 0.162%
KRAS 결장 183A>C 12 25380275 0.138%
KRAS 결장 37G>C 12 25398282 0.081%
KRAS 결장 182A>T 12 25380276 0.053%
KRAS 결장 183A>T 12 25380275 0.048%
KRAS 결장 38G>T 12 25398281 0.043%
KRAS 결장 38G>C 12 25398281 0.033%
KRAS 결장 182A>G 12 25380276 0.029%
KRAS 결장 37G>A 12 25398282 0.029%
KRAS 결장 181C>A 12 25380277 0.019%
그 다음에 이러한 테이블이 만들어질 수 있으며, 공공의 데이터베이스에서 풍분한 정보가 이용가능한 경우 다유전자 시험에서 임의의 유전자에 대한 돌연변이 호출 알고리즘에서 사용될 수 있다.돌연변이 호출: 삽입-결실
삽입-결실 호출은 전형적으로 관련된 신뢰도 스코어 또는 통계적 증거 측정 기준을 포함하는, 삽입 또는 결실에 의해 기준서열과 상이한 시퀀싱 데이터에서 염기를 발견하는 과정이다.
삽입-결실 호출 방법은 후보자 삽입-결실을 확인하는 단계, 국소 재정렬을 통해 유전자형 가능성을 계산하는 단계 및 LD-기반 유전자형 추론 및 호출을 수행하는 단계를 포함할 수 있다. 전형적으로, 베이지안 접근은 잠재적인 삽입-결실 후보자를 얻기 위해 사용된 다음, 이들 후보자는 베이지안 프레임워크에서 기준 서열과 함께 시험된다.
후보자 삽입-결실을 만들기 위한 알고리즘은, 예를 들어 문헌[McKenna A. et al., Genome Res. 2010; 20(9):1297-303; Ye K. et al., Bioinformatics, 2009; 25(21):2865-71; Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print; Li H. et al., Bioinformatics 2009, Bioinformatics 25(16):2078-9]에 기재된다.
삽입-결실 호출 및 개개-수준 유전자형 가능성을 만들기 위한 방법은, 예를 들어 딘델(Dindel) 알고리즘(Albers C.A. et al., Genome Res. 2010 Oct 27. [Epub ahead of print]). 예를 들어, 베이지안 EM 알고리즘은 판독을 분석하기 위해 사용될 수 있고, 초기 삽입-결실 호출을 만들고, 각 후보자 삽입-결실에 대해 유전자형 가능성을 만든 다음, 예를 들어, QCALL을 사용하여 유전자형을 대치를 만들 수 있다(Le S.Q. and Durbin R. Genome Res. 2010 Oct 27. [Epub ahead of print]). 삽입-결실을 관찰하는 것의 사전 예상치와 같은 변수는 삽입-결실의 크기 또는 위치를 기반으로 조절될 수 있다(예를 들어, 증가되거나 또는 감소될 수 있다).
Figure pat00001
Figure pat00002
Figure pat00003
Figure pat00004
Figure pat00005
Figure pat00006
Figure pat00007
Figure pat00008
Figure pat00009
Figure pat00010
돌연변이 호출 모듈
본 명세서에 개시된 방법은 시퀀싱 방법, 특히, 예를 들어 종양 샘플로부터의 매우 다수의 다양한 유전자에서 매우 다수의 다양한 유전적 사건의 대량병렬 시퀀싱에 의존한 방법에서 성능을 최적화하기 위한 맞춤된 또는 조정된 돌연변이 호출의 사용을 제공한다. 해당 방법의 실시형태에서, 다수의 사전선택된 서브게놈 간격의 각각에 대한 돌연변이 호출은 개별적으로 맞춤되거나 미세조정된다. 맞춤 또는 조정은 본 명세서에 기재된 인자, 예를 들어 샘플 내 암의 유형, 시퀀싱되는 서브게놈 간격이 위치되는 유전자 또는 시퀀싱되는 변이체 중 하나 이상에 기반할 수 있다.
시퀀싱되는 복수의 서브게놈 간격에 대해 미세조정된 정렬 조건의 이런 선택 또는 사용은 속도, 민감성 및 특이성을 최적화시킨다. 해당 방법은 상대적으로 다수의 다양한 서브게놈 간격에 대한 판독의 정렬이 최적화될 때 특히 효과적이다.
따라서, 일 양태에서, 본 발명은 샘플, 예를 들어 종양 샘플을 분석하는 방법을 특징으로 한다. 해당 방법은
(a) 샘플로부터 다수의 구성원, 예를 들어 종양 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(b) 선택적으로, 사전선택된 서열에 대한 라이브러리를 풍부화시켜, 예를 들어 라이브러리를 베이트 세트(또는 복수의 베이트 세트)와 접촉시킴으로써 선택된 구성원을 제공하는 단계(때때로 본 명세서에서 라이브러리 포획으로서 지칭됨);
(c) 구성원, 예를 들어 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터, 예를 들어 시퀀싱을 포함하는 방법에 의해, 예를 들어 차세대 시퀀싱 방법으로 서브게놈 간격에 대한 판독을 획득하는 단계;
(d) 정렬 방법, 예를 들어 본 명세서에 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 및
(e) 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여함으로써(예를 들어, 돌연변이를, 예를 들어 베이지안 방법으로 호출),
상기 종양 샘플을 분석하는 단계를 포함한다.
여기서 뉴클레오타이드 값은 뉴클레오타이드 위치에 대해 부여되며, 각각의 X의 독특한 서브게놈 간격은 독특한 호출 방법에 의해 부여되되, 독특한 서브게놈 간격은 다른 X-1 서브게놈 간격과는 상이한 것을 의미하고, 독특한 호출 방법은 다른 X-1 호출 방법과는 상이한 것을 의미하며, X는 적어도 2이다. 호출 방법은 상이할 수 있고, 따라서 상이한 베이지안 사전 값에 의존함으로써 독특할 수 있다.
실시형태에서, 단계 (b)가 존재한다. 실시형태에서, 단계 (b)는 없다.
실시형태에서, 상기 뉴클레오타이드 값을 부여하는 것은 유형의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어, 돌연변이를 나타내는 판독을 관찰하는 사전의(예를 들어 문헌) 예상치이거나 또는 사전의 예상치를 나타내는 값의 함수이다.
실시형태에서, 해당 방법은 적어도 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하는(예를 들어, 돌연변이를 호출) 단계를 포함하되, 각각의 부여는 유형의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어 돌연변이를 나타내는 판독을 관찰하는 사전의(예를 들어, 문헌) 예상치이거나 또는 사전의 예상치를 나타내는 독특한(다른 부여에 대한 값과 대조적임) 값의 함수이다.
실시형태에서, 변이체가 어떤 빈도로(예를 들어, 1%, 5%, 10% 등) 샘플 내에 존재한다면 및/또는 변이체가 없다면(예를 들어 기준-호출 오류 단독에 기인하는 판독에서 관찰됨), 상기 뉴클레오타이드 값을 부여하는 것은 상기 사전선택된 뉴클레오타이드 위치에서 상기 사전선택된 변이체를 나타내는 판독을 관찰할 확률을 나타내는 값의 세트의 함수이다;
따라서, 종양 샘플의 분석 방법은 돌연변이 호출 방법을 포함할 수 있다. 본 명세서에 기재된 돌연변이 호출 방법은 다음을 포함할 수 있다:
(b) 상기 X 서브게놈 간격의 각각에서 사전선택된 뉴클레오타이드 위치에 대해 하기를 획득하는 단계:
(i) 유형 X의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어, 돌연변이를 보여주는 판독을 관찰하는 사전(예를 들어, 문헌) 예상치이거나 또는 사전 예상치를 나타내는 제1 값; 및
(ii) 변이체가 어떤 빈도로(예를 들어, 1%, 5%, 10% 등) 샘플 내에서 존재하고/하거나 변이체가 없다면(예를 들어, 염기-호출 오류 단독에 기인하여 판독에서 관찰됨), 상기 사전선택된 뉴클레오타이드 위치에서 상기 사전선택된 변이체를 보여주는 판독을 관찰할 확률을 나타내는 제2 세트;
(c) 상기 값에 반응하여, 제1 값을 사용하는 제2 세트에서 값 사이의 비교를 예를 들어 본 명세서에 기재된 베이지안 방법에 의해 가중치를 부여함으로써 각각의 상기 사전선택된 뉴클레오타이드 위치에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여하며(예를 들어, 돌연변이를 호출), 이에 의해 상기 샘플을 분석하는 단계.
실시형태에서, 해당 방법은 하기 중 하나 이상 또는 모두를 포함한다:
(i) 적어도 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 각각의 부여는 독특한(다른 부여에 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(ii) (i)의 방법의 부여로서, 부여의 적어도 10, 20, 30 또는 40은, 예를 들어 사전선택된 종양 유형 내 세포의 5, 10 또는 20% 미만으로 존재하는 사전선택된 변이체의 확률의 함수인 제1 값으로 만들어지는 단계;
(iii) 적어도 X의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하고(예를 들어, 돌연변이를 호출), 사전선택된 뉴클레오타이드 위치 각각은 사전선택된 유형의 종양, 예를 들어 상기 샘플의 종양 유형에 존재하는 독특한(다른 X-1 부여와 대조적으로) 가능성을 갖는 사전선택된 변이체와 관련되되, 선택적으로, 각각의 상기 X 부여는 독특한(다른 X-1 부여와 대조적으로) 제1 및/또는 제2 값(X= 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100)을 기준으로 하는 단계;
(iv) 제1 및 제2 뉴클레오타이드 위치에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 사전선택된 유형(예를 들어, 상기 샘플의 종양 유형)의 종양에 존재하는 상기 제1 뉴클레오타이드 위치에서 제1 사전선택된 변이체의 가능성은 존재하는 상기 제2 뉴클레오타이드 위치에서 제2 사전선택된 변이체의 가능성보다 적어도 2, 5, 10, 20, 30 또는 40배 더 크고, 선택적으로, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(v) 다수의 사전선택된 뉴클레오타이드 위치(예를 들어 호출 돌연변이)에 뉴클레오타이드 값을 부여하되, 상기 다수는 하나 이상, 다음의 확률 범위 중 적어도 3, 4, 5, 6, 7 또는 모두에 속하는 변이체에 대한 부여를 포함하고:
.01 미만; .01 내지 .02;
0.02 초과 내지 0.03 이하;
0.03 초과 내지 0.04 이하;
0.04 초과 내지 0.05 이하;
0.05 초과 내지 0.1 이하;
0.1 초과 내지 0.2 이하;
0.2 초과 내지 0.5 이하;
0.5 초과 내지 1.0 이하;
1.0 초과 내지 2.0 이하;
2.0 초과 내지 5.0 이하;
5.0 초과 내지 10.0 이하;
10.0 초과 내지 20.0 이하;
20.0 초과 내지 50.0 이하; 및
50 초과 내지 100.0 % 이하;
확률 범위는 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체가 사전선택된 유형의 종양(예를 들어 상기 샘플의 종양 유형)이 존재할 확률 또는 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체가 사전선택된 유형(예를 들어 상기 샘플의 종양 유형)에 대해 종양 샘플, 종양 샘플로부터의 라이브러리 또는 해당 라이브러리로부터의 라이브러리 캐치 내 세포의 인용된 %로 존재할 확률의 범위이고,
선택적으로, 각각의 부여는 제1 및/또는 제2 값(예를 들어, 인용된 확률 범위에서 다른 부여에 대조적으로 독특하거나 또는 다른 열겨된 확률 범위 중 하나 이상 또는 모두에 대해 제1 및/또는 제2 값과 대조적으로 독특한)을 기준으로 하는 단계.
(vi) 상기 샘플 내 DNA의 50, 40, 25, 20, 15, 10, 5, 4, 3, 2, 1, 0.5, 0.4, 0.3, 0.2 또는 0.1% 미만으로 존재하는 사전선택된 변이체를 각각 독립적으로 갖는 적어도 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 선택적으로, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(vii) 제1 및 제2 뉴클레오타이드 위치에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 상기 샘플의 DNA 내 제1 위치에서 사전선택된 변이체의 가능성은 상기 샘플의 DNA 내 상기 제2 뉴클레오타이드 위치의 사전선택된 변이체의 가능성보다 적어도 2, 5, 10, 20, 30 또는 40배 초과이고, 선택적으로, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 하는 단계;
(viii) 다음 중 하나 이상 또는 모두에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출):
(1) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 1.0% 미만으로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(2) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 1.0 내지 2.0%로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(3) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 2.0% 초과 내지 3% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치
(4) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 3.0% 초과 내지 4% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(5) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 4.0% 초과 내지 5% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(6) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 5.0% 초과 내지 10% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(7) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 10.0% 초과 내지 20% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(8) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 20.0% 초과 내지 40% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(9) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 40.0% 초과 내지 50% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
(10) 상기 샘플로부터의 라이브러리 내 핵산 또는 해당 라이브러리로부터의 라이브러리 캐치 내 핵산의 상기 샘플 내 세포의 50.0% 초과 내지 100% 이하로 존재하는 사전선택된 변이체를 갖는 적어도 1, 2 3, 4 또는 5개의 사전선택된 뉴클레오타이드 위치;
선택적으로, 각각의 부여는 독특한 제1 및/또는 제2 값(예를 들어 인용된 범위(예를 들어, 1% 미만의 (i)의 범위)에서 다른 부여와 대조적으로 독특하거나 또는 다른 열거된 범위 중 하나 이상 또는 모두에서 결정을 위한 제1 및/또는 제2 값과 대조적으로 독특한)을 기준으로 하는 단계; 또는
(ix) X개의 뉴클레오타이드 위치 각각에서 뉴클레오타이드 값을 부여하되(예를 들어, 돌연변이를 호출), 각각의 뉴클레오타이드 위치는 다른 X-1 뉴클레오타이드 위치에서 사전선택된 변이체에 대한 가능성과 비교하여 독립적으로 독특한(상기 샘플의 DNA에 존재하는 사전선택된 변이체의) 가능성을 가지며, X는 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 이상이고, 각각의 부여는 독특한(다른 부여와 대조적으로) 제1 및/또는 제2 값을 기준으로 한다.
실시형태에서, 해당 방법은 적어도 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 사전선택된 뉴클레오타이드 위치에서 뉴클레오타이드 값을 부여하되, 각각은 독립적으로 0.5, 0.4, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02 또는 0.01 미만인 확률의 함수의 제1 값을 갖는 단계를 포함한다.
실시형태에서, 해당 방법은 적어도 X의 뉴클레오타이드 위치의 각각에서 뉴클레오타이드 값을 부여하는 단계를 포함하며, 각각은 독립적으로 다른 X-1 제1 값과 비해서 독특한 제1 값을 가지되, 상기 X 제1 값의 각각은 0.5, 0.4, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02 또는 0.01 미만인 확률의 함수이고,
X는 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 이상이다.
실시형태에서, 상기 제1 및/또는 제2 값은 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체의 존재의 사전 예상치에 의해, 예를 들어 종양 유형의 함수로서 가중치를 부여한다.
실시형태에서, 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하는데(예를 들어, 돌연변이를 호출) 필요한 판독의 수는 상기 제1 값의 규모에 반비례한다.
실시형태에서, 사전선택된 뉴클레오타이드 위치에 대해 뉴클레오타이드 값을 부여하는데(예를 들어, 돌연변이를 호출) 필요한 판독의 수는 사전선택된 변이체의 예상된 확률의 규모와 양의 상관관계가 있다.
본 명세서의 다른 곳에서 지칭되는 바와 같이, 방법은 상대적으로 매우 복수의 서브게놈 간격에 대해 돌연변이 호출이 최적화될 때 특히 효과적이다. 따라서, 실시형태에서, 적어도 X의 독특한 제1 및/또는 제2 값은 적어도 X의 독특한 서브게놈 간격에 대해 판독을 분석하기 위해 사용되되, 독특한이란 다른 X-1과는 상이한 것을 의미하며, X는 2, 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 표 1의 적어도 X의 유전자로부터의 서브게놈 간격이 분석되며, X는 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 우선순위 1 주석을 갖는 표 1의 적어도 X의 유전자로부터의 서브게놈 간격이 분석되며, X는 3, 4, 5, 10, 15, 20 또는 30과 동일하다.
실시형태에서, 독특헌 제1 및/또는 제2 값은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 상이한 유전자의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어 표 1 또는 1A의 유전자에서 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 제1 및/또는 제2 값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 우선순위 1 주석을 갖는 표 1 또는 1A의 적어도 5, 10, 20, 30 또는 40개의 유전자에서 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 제1 및/또는 제2 값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 표 1, 1A, 2 또는 3의 적어도 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 또는 500개의 변이체 또는 코돈, 예를 들어, 돌연변이에 대한 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 제1 및/또는 제2 값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 해당 방법은,
각각 종양 표현형과 관련된 변이체를 갖는 각각의 X의 게놈 간격에 대해 독특한 제1 및/또는 제2 값을 적용하되, 예를 들어 변이체는 점 돌연변이이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 각각의 상기 서브게놈 간격은 상이한 유전자에 위치된 단계를 포함한다.
실시형태에서, 해당 방법은,
각각 종양 표현형과 관련된 변이체를 갖는 각각의 X의 게놈 간격에 대해 독특한 제1 및/또는 제2 값을 적용하되, 예를 들어 변이체는 재배열, 예를 들어, 결실, 삽입 또는 전위이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 각각의 상기 서브게놈 간격은 상이한 유전자에 위치된 단계를 포함한다.
실시형태에서, 해당 방법은 다음 중 1, 2, 3, 4개 또는 모두를 포함하며(실시형태에서, 다음 중 2개 이상의 그룹이 포함되고, 각각의 그룹에 대한 제1 및/또는 제2 값은 독특하다):
(i) 제1 및/또는 제2 값에 반응하여, 예를 들어 가장 심층의 덮임률이 상대적으로 낮은 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 제1 사전선택된 뉴클레오타이드 위치에 대한 판독으로부터 뉴클레오타이드 값을 부여하는 단계(예를 들어, 돌연변이를 호출). 예는 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5% 이하의 빈도로 나타나는 변이체, 예를 들어 점 돌연변이를 포함한다. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 500X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 사전선택된 암에서 빈번하게 돌연변이된 엑손이다;
(ii) 제1 및/또는 제2 값에 반응하여, 예를 들어 높은 덮임률(상기 (i)의 덮임률 미만인 실시형태에서)가 상대적으로 높은 빈도로, 예를 들어 상기 (i)의 돌연변이보다 더 큰 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 제2 사전선택된 뉴클레오타이드 위치에 대한 판독으로부터 뉴클레오타이드 값을 부여하는 단계(예를 들어, 돌연변이를 호출). 예는 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5% 초과 내지 10, 15 또는 20% 까지의 빈도로 나타나는 변이체, 예를 들어 점 돌연변이를 포함한다. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 200X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 암과 관련된 유전자에서이다;
(iii) 제1 및/또는 제2 값에 반응하여, 예를 들어 낮은 내지 중간 덮임률(상기 (i) 또는 (ii)에서의 덮임률 미만의 실시형태에서)은 이형 접합적 대립유전자에 대해 고수준의 민감성을 가능하게 하는데 필요한 제3 사전선택된 뉴클레오타이드 위치에 대한 판독으로부터 뉴클레오타이드 값을 부여하는 단계(예를 들어, 돌연변이를 호출). 예는 변이체, 예를 들어 (1) 약물에 반응하거나 또는 약물을 대사하는 환자의 능력과 관련될 수 있는 약물유전체적 SNP; (2) 환자를 독특하게 확인하게 위해(핑거프린트) 사용될 수 있는 게놈 SNP; 또는 (3) 게놈 DNA 및 LOH의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위를 포함한다;
(iv) 제1 및/또는 제2 값에 반응하여, 제4 사전선택된 뉴클레오타이드 위치, 예를 들어 구조적 중단점, 예를 들어 재배열에서, 예를 들어 전위 또는 삽입-결실에 대한 판독으로부터 뉴클레오타이드 값을 부여하는 단계(예를 들어, 돌연변이를 호출). 실시형태에서, 덮임률은 (i), (ii) 또는 (iii) 중 하나 미만이다. 예는 실시형태에서 고검출 신뢰성을 보장하기 위해 심도에 걸쳐 5 내지 50X 서열쌍을 필요로 하는 인트론 중단점을 포함한다. 대표적인 적용은 전위/삽입-결실이 쉬운 암 유전자이다; 및
(v) 제1 및/또는 제2 값에 반응하여, 스파스 덮임률이 복제수 변화를 검출하는 능력을 개선시킬 수 있는 제5의 사전선택된 뉴클레오타이드 위치에 대한 판독으로부터 뉴클레오타이드 값을 부여하는 단계(예를 들어, 돌연변이를 호출). 실시형태에서, 덮임률은 (i), (ii) (iii) 또는 (iv) 중 하나 미만이다. 예를 들어, 고검출 신뢰성을 보장하기 위해 심도에 걸쳐 0.1 내지 10X 서열쌍을 필요로 하는 몇몇 말단 엑손의 1 복제 결실. 대표적인 적용은 증폭/결실이 쉬운 암 유전자에 대한 것이다.
본 명세서에 개시된 방법은 시퀀싱 방법, 특히 매우 다수의 다양한 유전자에서 매우 다수의 다양한 유전적 사건의 대량병렬 시퀀싱에 의존하는 방법에서 성능을 최적화하는 맞춤 또는 조정된 돌연변이 호출 변수의 사용을 제공한다. 해당 방법의 실시형태에서, "역치값"은 유전자 내 특정 위치에서 판독을 평가하고, 뉴클레오타이드 위치에 대한 값의 판독, 예를 들어, 돌연변이를 호출로부터 선택되도록 사용된다. 해당 방법의 실시형태에서, 다수의 사전선택된 서브게놈 간격의 각각에 대한 역치값은 맞춰지거나 또는 미세조정된다. 맞춤 또는 조정은 본 명세서에 기재된 인자 중 하나 이상, 예를 들어 샘플 내 암의 유형, 시퀀싱되는 서브게놈 간격이 위치되는 유전자 또는 시퀀싱되는 변이체를 기준으로 할 수 있다. 이는 시퀀싱되는 복수의 서브게놈 간격의 각각에 대해 미세조정된 호출을 제공한다. 해당 방법은 상대적으로 매우 다수의 다양한 서브게놈 간격이 분석될 때 특히 효과적이다.
따라서, 다른 양태에서, 피험체로부터 샘플, 예를 들어 종양 샘플의 분석 방법을 특징으로 한다. 해당 방법은,
(a) 상기 샘플의 핵산으로부터 각각의 X 서브게놈 간격에 대판 하나의 또는 복수의 판독을 획득하는 단계;
(b) 각각의 상기 X 서브게놈 간격에 대해, 역치값을 획득하되, 각각의 상기 획득된 X 역치값은 다른 X-1 역치값과 비해서 독특하고, 이에 의해 X의 독특한 역치값을 제공하는 단계;
(c) 각각의 상기 X 서브게놈 간격에 대해, 사전선택된 뉴클레오타이드 위치에서 사전선택된 뉴클레오타이드 값을 갖는 판독의 수의 함수인 관찰된 값과 그것의 독특한 역치값을 비교하고, 이에 의해 각각의 상기 X 서브게놈 간격에 그것의 독특한 역치값을 적용하는 단계: 및
(d) 선택적으로, 상기 비교결과에 반응하여, 사전선택된 뉴클레오타이드 위치에 뉴클레오타이드 값을 부여하되,
X는 2 이상이고,
이에 의해 상기 샘플을 분석하는 단계를 포함한다.
해당 방법의 실시형태는, 예를 들어 다음의 실시형태로부터 알 수 있는 바와 같이, 상대적으로 매우 복수의 서브게놈 간격에 대한 역치값이 최적화되는 경우 적용될 수 있다.
실시형태에서, X는 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100이다.
실시형태에서, 독특한 역치값은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100개의 상이한 유전자의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180개의 유전자, 예를 들어, 표 1 또는 1A의 유전자의 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 역치값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 우선순위 1 주석을 갖는 표 1 또는 1A의 적어도 5, 10, 20, 30 또는 40 유전자에서 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 역치값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 표 1, 1A, 2 또는 3의 적어도 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 또는 500개의 변이체 또는 코돈, 예를 들어 돌연변이에 대한 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 역치값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 표 9의 후반부 1/2 또는 후반부 1/3의 적어도 10, 20, 30, 40, 50, 100 또는 200개의 변이체, 예를 들어, 돌연변이에 대한 뉴클레오타이드 위치에 뉴클레오타이드 값이 부여된다. 실시형태에서, 독특한 역치값은 상기 분석된 유전자의 적어도 10, 20, 30, 40 또는 50%의 각각에서 서브게놈 간격에 적용된다.
실시형태에서, 해당 방법은,
각각의 X의 게놈 간격에 독특한 역치값을 획득하고 적용하는 단계를 포함하며, 이들 각각은 종양 표현형과 관련된 변이체를 가지되, 예를 들어 변이체는 점 돌연변이이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 예를 들어 상기 서브게놈 간격의 각각은 상이한 유전자에 위치된다.
실시형태에서, 해당 방법은,
각각의 X의 게놈 간격에 독특한 역치값을 획득하고 적용하는 단계를 포함하며, 이들 각각은 종양 표현형과 관련된 변이체를 가지되, 예를 들어 변이체는 재배열, 예를 들어 결실, 삽입 또는 전위이고, X는 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100 초과이며, 각각의 상기 서브게놈 간격은 상이한 유전자에 위치된다.
해당 방법의 실시형태는, 예를 들어 다음의 실시형태로부터 알 수 있는 바와 같이 적용에서 사용된 다른 역치값에 비례하여 역치값을 조정하기 위해 할 수 있다.
실시형태에서,
표 4에서 적어도 10, 20, 30, 40, 50, 75, 100, 150 또는 200개의 변이체, 예를 들어 돌연변이에 대응되는 사전선택된 뉴클레오타이드 위치에 뉴클레오타이드 값을 부여하기 위해 서브게놈 간격에 독특한 역치값이 적용되고,
적용된 상기 독특한 역치값의 X는 시험에서 사용되는 다른 역치값, 예를 들어 사용된 가장 낮은 역치값, 사용된 평균 또는 중앙값 역치값 또는 표 9에 열거된 것과 같은 흔한 임상적으로 적절한 돌연변이에 대한 역치값보다 더 높은, 예를 들어 50% 더 높은 역치값을 가지되, X는 1, 2, 3, 4, 5, 10, 15, 20 또는 30 이상이다.
실시형태에서, 표 9의 상부 1/2 또는 상부 1/3의 적어도 10, 20, 30, 40, 50, 100 또는 200개의 변이체, 예를 들어, 돌연변이에 대한 뉴클레오타이드 위치에 뉴클레오타이드 값 및 선택적으로 제3자에게 전달되는 평가가 부여된다. 실시형태에서,
독특한 역치값은 서브게놈 간격에 적용되어 적어도 10, 20, 30, 40, 50, 75, 100, 150 또는 200개의 변이체에 대응되는 사전선택된 뉴클레오타이드 위치에 뉴클레오타이드 값을 부여하며,
상기 적용된 독특한 역치값의 X는 시험에서 사용된 다른 역치값, 예를 들어 사용된 가장 큰 역치값, 사용된 평균 또는 중앙값 역치값 또는 암에서 돌연변이되도록 사전에 관찰되지 않은 게놈 위치에 대한 역치값 보다 더 낮은, 예를 들어 50% 더 낮은 역치값을 가지되, X는 1, 2, 3, 4, 5, 10, 15, 20 또는 30 이상이다.
실시형태에서,
독특한 역치값은 대장암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 2, 3, 5, 7 또는 8개의 각각에서 서브게놈 간격에 적용되고,
적용된 독특한 역치값 중 2의 X 조합(즉, 쌍별 조합)에 대해, 쌍별 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 갖는 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 5, 10 또는 20 이상이다. 예로서, 실시형태에서, 대장암의 분석에서, 독특한 역치값은 APC, SMAD4 및 CDNK2a(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서 APC/SMAD4, APC/CDNK2a 및 SMAD4/CDNK2a의 3가지 쌍별 조합의 각각에서, 각각의 쌍별 조합의 구성원은 둘 다 그것의 유전자가 표 11에서 서로에 대해 가지는 것과 같이 서로에 대해 동일한 상대적 순위를 가진다(예를 들어, APC는 실시형태 둘 다에서 및 표 11에서 SMAD4보다 더 낮다).
실시형태에서,
독특한 역치값은 대장암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 3, 5, 7 또는 8의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 3가지의 X 조합(즉, 3-웨이(way) 조합)에 대해, 3-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4 또는 5, 10 또는 20이상이다. 예로서, 실시형태에서, 대장암의 분석에서, 독특한 역치값은 APC, SMAD4, CDNK2a 및 VHL(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, APC/SMAD4/CDNK2a의 3-웨이 조합에서, 3-웨이 조합의 모든 3가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다. 유사하게, APC/CDNK2a/VHL의 3-웨이 조합에서, 3-웨이 조합의 모든 3가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 대장암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 4, 5, 7 또는 8의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 4가지의 X 조합(즉, 4-웨이 조합)에 대해, 4-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 10 또는 20 이상이다. 예로서, 실시형태에서, 대장암의 분석에서, 독특한 역치값은 APC, SMAD4, CDNK2a, VHL, MSH6 및 MSH2(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, APC/SMAD4/CDNK2a/MSH2의 4-웨이 조합에서, 4-웨이 조합의 모든 4가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 폐암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 2, 3, 5 또는 7의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 2의 X 조합(즉, 쌍별 조합)에 대해, 쌍별 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 갖는 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 5, 10 또는 20 이상이다. 예로서, 실시형태에서, 폐암의 분석에서, 독특한 역치값은 CDNK2a, STK11, RB1, APC 및 SMAD4(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서 CDNK2a/ STK11, STK11/APC 및 RB1/SMAD4의 3가지 쌍별 조합의 각각에서, 각각의 쌍별 조합의 구성원은 둘 다 그것의 유전자가 표 11에서 서로에 대해 가지는 것과 같이 서로에 대해 동일한 상대적 순위를 가진다(예를 들어, STK11은 실시형태 둘 다에서 및 표 11에서 SMAD4보다 더 낮다).
실시형태에서,
독특한 역치값은 폐암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 3, 5 또는 7의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 3가지의 X 조합(즉, 3-웨이 조합)에 대해, 3-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4 또는 5, 10 또는 20 이상이다. 예로서, 실시형태에서, 폐암의 분석에서, 독특한 역치값은 CDNK2a, STK11, RB1, APC 및 SMAD4(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, CDNK2/APC/SMAD4의 3-웨이 조합에서, 3-웨이 조합의 모든 3가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 폐암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 4, 5 또는 7의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 4가지의 X 조합(즉, 4-웨이 조합)에 대해, 4-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 10 또는 20 이상이다. 예로서, 실시형태에서, 폐암의 분석에서, 독특한 역치값은 CDNK2a, STK11, RB1, APC 및 SMAD4(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, CDNK2a/STK11/APC/SMAD4의 4-웨이 조합에서, 4-웨이 조합의 모든 4가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 전립선암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 2, 3, 4, 5, 6 또는 7의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 2의 X 조합(즉, 쌍별 조합)에 대해, 쌍별 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 갖는 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 5, 10 또는 20 이상이다. 예로서, 실시형태에서, 전립선암의 분석에서, 독특한 역치값은 CEBPA, MSH2, CDKN2A, APC, RB1, NF1(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서 STK11/CEBPA, RB1/NF1 및 CEBPA/CDKN2A의 3가지 쌍별 조합의 각각에서, 각각의 쌍별 조합의 구성원은 둘 다 그것의 유전자가 표 11에서 서로에 대해 가지는 것과 같이 서로에 대해 동일한 상대적 순위를 가진다(예를 들어, STK11은 실시형태 둘 다에서 및 표 11에서 CEBPA보다 더 낮다).
실시형태에서,
독특한 역치값은 전립선 암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 3, 4, 5, 6 또는 7의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 3가지의 X 조합(즉, 3-웨이 조합)에 대해, 3-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4 또는 5, 10 또는 20이상이다. 예로서, 실시형태에서, 전립선암의 분석에서, 독특한 역치값은 STK11, CEBPA, MSH2, CDKN2A, APC 및 RB1(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, CDNK2/APC/RB1의 3-웨이 조합에서, 3-웨이 조합의 모든 3가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 전립선암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 4, 5, 6 또는 7의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 4가지의 X 조합(즉, 4-웨이 조합)에 대해, 4-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 10 또는 20 이상이다. 예로서, 실시형태에서, 전립선암의 분석에서, 독특한 역치값은 STK11, CEBPA, MSH2, CDKN2A, APC, RB1 및 NF1(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, STK11/APC/RB1/NF1의 4-웨이 조합에서, 4-웨이 조합의 모든 4가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 유방암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 2, 3, 5, 7 또는 8의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 2의 X 조합(즉, 쌍별 조합)에 대해, 쌍별 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 갖는 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 5, 10 또는 20 이상이다. 예로서, 실시형태에서, 유방암의 분석에서, 독특한 역치값은 CDH1, CDKN2A, APC, RB1, SMAD4, NF2, STK11, MSH2(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서 APC/SMAD4, APC/NF2 및 SMAD4/MSH2의 3가지 쌍별 조합의 각각에서, 각각의 쌍별 조합의 구성원은 둘 다 그것의 유전자가 표 11에서 서로에 대해 가지는 것과 같이 서로에 대해 동일한 상대적 순위를 가진다(예를 들어, APC은 실시형태 둘 다에서 및 표 11에서 SMAD4보다 더 낮다).
실시형태에서,
독특한 역치값은 유방암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 3, 5, 7 또는 8의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 3가지의 X 조합(즉, 3-웨이 조합)에 대해, 3-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4 또는 5, 10 또는 20 이상이다. 예로서, 실시형태에서, 유방암의 분석에서, 독특한 역치값은 CDH1, CDKN2A, RB1, SMAD4, NF2, STK11, MSH2(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, CDH1/RB1/STK11의 3-웨이 조합에서, 3-웨이 조합의 모든 3가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 유방암에 대해 표 11의 유전자에서 열거된 유전자의 적어도 4, 5, 7 또는 8의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 4가지의 X 조합(즉, 4-웨이 조합)에 대해, 4-웨이 조합의 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가지되, X는 1, 2, 3, 4, 10 또는 20 이상이다. 예로서, 실시형태에서, 유방암의 분석에서, 독특한 역치값은 CDH1, CDKN2A, APC, RB1, SMAD4, NF2, STK11, MSH2(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서, 예를 들어, CDH1/SMAD4/STK11/MSH2의 4-웨이 조합에서, 4-웨이 조합의 모든 4가지 구성원은 그것의 유전자가 표 11에서 서로에 대해 가진 것과 같이 서로에 대해 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 유전자 APC, SMAD4 및 ATM의 적어도 2 또는 3의 각각에서 서브게놈 간격에 적용되며,
적용된 독특한 역치값 중 2의 X 조합(즉, 쌍별 조합)에 대해, 쌍별 조합의 구성원은 APC, SMAD4 및 ATM의 상대적 순위가 있되, X는 1, 2 또는 3 이상이다. 예로서, 실시형태에서, 대장암의 분석에서, 독특한 역치값은 APC, SMAD4 및 ATM(낮은 내지 높은 역치값의 순서로)에서 서브게놈 간격에 적용된다. 따라서 APC/SMAD4 및 APC/ATM의 쌍별 조합의 각각에서, 각각의 쌍별 조합의 구성원은 둘 다 APC, SMAD4 및 ATM에서와 같이 동일한 상대적 순위를 가진다.
실시형태에서,
독특한 역치값은 유전자 APC, SMAD4 및 ATM의 각각에서 서브게놈 간격에 적용되고, 낮은 내지 높은 역치값에 대한 순서는 APC, SMAD4 및 ATM이다.
(표 11은 해당 유전자에서 일부 또는 모든 암호 염기 쌍, 예를 들어 표 9에서와 같이 더 높은 비율로 돌연변이된 것으로 구체적으로 알려진 염기의 다른 대체된 열거에 의해 달리 구체화되지 않은 염기쌍에 대해 역치값을 증가시키기 위해 유전자의 순서를 열거한다)
실시형태에서,
제1 독특한 역치값은 제1 사전선택된 뉴클레오타이드 위치에 적용되며, 이것의 변이체는 종양 표현형과 관련되고,
제2 독특한 역치값은 상기 제1 사전선택된 뉴클레오타이드 위치, 예를 들어 종양 표현형과 관련된 변이체가 없는 위치에 적용되며, 상기 제1 역치값은 제2 역치값보다 더 높다.
실시형태에서, 해당 방법은,
a) 제1 게놈 간격, 이것의 종양 표현형과 관련된 변이체에 제1의 독특한 정렬 방법을 획득하고 적용하되, 예를 들어 해당 변이체는 점 돌연변이, 예를 들어, 표 6의 돌연변이인 단계;
b) 제2 게놈 간격, 이것의 종양 표현형과 관련된 변이체에 제2의 독특한 정렬 방법을 획득하고 적용하되, 예를 들어 해당 변이체는 재배열, 예를 들어, 결실, 삽입 또는 전위, 예를 들어, 표 5의 돌연변이인 단계; 및
c) 제3 게놈 간격, 예를 들어 변이체가 상기 샘플 내 종양 표현형과 또는 종양 유형과 관련되지 않은 게놈 간격에 제3의 독특한 정렬 방법을 획득하고 적용하는 단계를 포함한다.
실시형태에서, 해당 방법은 다음 중 1, 2, 3, 4개 또는 모두를 포함한다(실시형태에서 다음 중 2 이상이 포함되며, 각각의 그룹에 대한 역치값은 독특하다):
(i) 예를 들어 가장 심층의 덮임률이 상대적으로 낮은 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 제1 사전선택된 뉴클레오타이드 위치에 대해 제1 역치값을 적용하는 단계. 예는 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5% 이하의 빈도로 나타나는 변이체, 예를 들어 점 돌연변이를 포함한다. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 500X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 사전선택된 암에서 빈번하게 돌연변이된 엑손이다;
(ii) 예를 들어 높은 덮임률(상기 (i)의 적용 범위 미만인 실시형태에서지만)이 상대적으로 높은 빈도로, 예를 들어 상기 (i)의 돌연변이보다 더 높은 빈도로 나타나는 돌연변이에 대해 고수준의 민감성을 가능하게 하는데 필요한 제2의 사전선택된 뉴클레오타이드 위치에 대한 판독에 제2 역치값을 적용하는 단계. 예는 샘플 내 세포, 라이브러리의 핵산 또는 라이브러리 캐치의 핵산에서 5% 초과 내지 10, 15 또는 20%의 빈도로 나타나는 변이체, 예를 들어 점 돌연변이를 포함한다. 전형적으로 이들 변이체는 고검출 신뢰성을 보장하는 200X 초과의 시퀀싱 심도를 필요로 한다. 대표적인 적용은 암과 관련된 유전자에 있다;
(iii) 예를 들어 낮은 내지 중간 덮임률(상기 (i) 또는 (ii)의 덮임률 미만의 실시형태에서)이 이형 접합적 대립유전자에 대해 고수준의 민감성을 가능하게 하는데 필요한 제3 사전선택된 뉴클레오타이드 위치에 대한 판독에 대해 제3의 역치값을 적용하는 단계. 예는 변이체, 예를 들어 (1) 약물에 반응하거나 또는 약물을 대사하는 환자의 능력과 관련될 수 있는 약물유전체적 SNP; (2) 환자를 독특하게 확인하게 위해(핑거프린트) 사용될 수 있는 게놈 SNP; 또는 (3) 게놈 DNA 및 LOH의 복제수 획득/소실을 평가하기 위해 사용될 수 있는 게놈 SNP/좌위를 포함한다;
(iv) 제4 사전선택된 뉴클레오타이드 위치, 예를 들어 구조적 중단점, 예를 들어, 재배열에서, 예를 들어, 전위 또는 삽입-결실에 대한 판독에 제4 역치값을 적용하는 단계. 실시형태에서, 덮임률은 (i), (ii) 또는 (iii) 중 하나 미만이다. 예는 실시형태에서 고검출 신뢰성을 보장하기 위해 심도에 걸쳐 5 내지 50X 서열쌍을 필요로 하는 인트론 중단점을 포함한다. 대표적인 적용은 전위/삽입-결실이 쉬운 유전자에 있다; 및
(v) 예를 들어, 스파스 덮임률이 복제수 변화를 검출하는 능력을 개선시킬 수 있는 제5의 사전선택된 뉴클레오타이드 위치에 대한 판독에 제5의 역치값을 적용하는 단계. 실시형태에서, 덮임률은 (i), (ii) (iii) 또는 (iv) 중 하나 미만이다. 예를 들어, 고검출 신뢰성을 보장하기 위해 0.1 내지 10X 덮임률을 필요로 하는 몇몇 말단 엑손의 1 복제 결실. 대표적인 적용은 증폭/결실이 쉬운 암 유전자에 있다.
실시형태에서,
제1 역치값은 제2 역치값 초과이며;
제2 역치값은 제3 역치값 초과이고;
제3 역치값은 제4 역치값 초과이며; 및
제4 역치값은 제5 역치값 초과이다.
실시형태에서, X 역치값, 예를 들어 독특한 또는 비독특한 역치값은 다음의 특징 중 1, 2, 3, 4 이상 또는 모두의 함수이거나 또는 이들을 기준으로 선택되되:
a) 돌연변이 예상치;
b) 돌연변이 확률 값;
c) 이전의 베이지안;
d) 돌연변이 빈도;
e) 사전선택된 뉴클레오타이드 위치와 관련된 변이체, 예를 들어 종양 표현형, 예를 들어, 점 돌연변이 또는 재배열, 예를 들어 결실, 삽입 또는 전위와 관련된 변이체의 유형;
f) 복제수;
g) 서브게놈 간격의 종양 유형; 또는
h) 서브게놈 간격;
X는 적어도 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100이다.
실시형태에서, X 역치값, 예를 들어, 독특한 또는 비독특한 역치값은 a와 e; a와 g; e와 g를 포함하거나 또는 이들인 인자를 기준으로 하는 함수이거나, 이들 인자를 기준으로 선택되되; X는 적어도 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100이다.
실시형태에서, 특징 a 내지 f 중 하나 이상 또는 모두는 사전선택된 뉴클레오타이드 위치, 사전선택된 종양 유형 또는 사전선택된 유전자 중 하나 이상 또는 모두의 함수이다.
실시형태에서, X 역치값, 예를 들어 독특한 또는 비독특한 역치값은 백그라운드 돌연변이 빈도의 함수이거나 또는 이것을 기준으로 선택되되, X는 적어도 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100이다.
실시형태에서, X 역치값, 예를 들어 독특한 또는 비독특한 역치값은 다음의 환자 특징:
연령; 성별; 사전의 환경 노출, 예를 들어, 돌연변이원 또는 발암물질; 의약 또는 치료에 대한 사전 노출, 예를 들어, 항-종양제로 사전처리, 환자가 현재 또는 과거에 흡연자였는지 여부; 서브게놈 간격에서 종양 유형 또는 생식계열 변형 중 1, 2, 3, 4 이상 또는 모두의 함수이거나 또는 이들을 기준으로 선택되되,
X는 적어도 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100이다.
실시형태에서, X 역치값, 예를 들어, 독특한 또는 비독특한 역치값은 다음의 샘플 특징:
종양 유형; 부위-특이적 종양 배수성(예를 들어, SNP 분석을 기준으로); 종양 접합자 구조; 샘플 순도; 종양 샘플 세포질(예를 들어, 샘플 내 종양 세포의 비율); 피험체에 대해 종양 및 대조군 SNP 유전자형이 매치되는지 여부; 또는 예상되거나 또는 관찰된 DNA 손상 수준 중 1, 2, 3, 4 이상 또는 모두의 함수이거나 또는 이들을 기준으로 선택되되,
X는 적어도 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 또는 100이다.
실시형태에서, 해당 방법은 복수의 서브게놈 간격에 대해 독특한 역치값을 적용하는 단계를 포함한다.
실시형태에서, 해당 방법은 제1 서브게놈 간격의 위치에서 사전선택된 세트, 예를 들어 유전자에 독특한 역치값을 적용하는 단계를 포함한다. 예를 들어, 실시형태에서, 상기 사전선택된 세트는 하기를 포함하거나 또는 하기에 제한된다:
제1 유전자 또는 이것의 사전선택된 부분에서 모든 뉴클레오타이드 위치;
제1 유전자 또는 이것의 사전선택된 부분에서 인트론 내 모든 뉴클레오타이드 위치;
제1 유전자 또는 이것의 사전선택된 부분의 엑손에서 모든 뉴클레오타이드 위치;
제1 유전자에서 뉴클레오타이드 위치를 포함하는 사전선택된 범위 내에서 모든 뉴클레오타이드 위치, 예를 들어 변이체가 종양 표현형과 관련된 것, 예를 들어 변이체는 점 돌연변이 또는 재배열, 예를 들어 결실, 삽입 또는 전위이다.
실시형태에서, 해당 방법은 제1 서브게놈 간격에서 위치의 사전선택된 세트, 예를 들어 유전자에 독특한 역치값을 적용하는 단계 및 후속하여 위치의 사전선택된 세트, 예를 들어 제2, 제3, 제4, 제5 또는 제6 서브게놈 간격, 예를 들어, 유전자에 독특한 역치값을 추가로 적용하는 단계를 포함한다. 실시형태에서, 상기 후속 유전자에 대해 사전선택된 세트는 하기를 포함하거나 하기로 제한된다:
상기 후속 유전자 또는 이것의 사전선택된 일부에서 모든 뉴클레오타이드 위치;
상기 후속 유전자 또는 이것의 사전선택된 일부의 인트론에서 모든 뉴클레오타이드 위치;
상기 후속 유전자 또는 이것의 사전선택된 일부의 엑손에서 모든 뉴클레오타이드 위치;
상기 후속 유전자 내 뉴클레오타이드 위치를 포함하는 사전선택된 범위 내의 모든 뉴클레오타이드 위치, 종양 표현형과 관련된 변이체, 예를 들어, 변이체는 점 돌연변이 또는 재배열, 예를 들어, 결실, 삽입 또는 전위이다.
실시형태에서, 하나 이상의 역치값이 유전자 또는 다른 서브게놈 간격에 적용된다. 따라서, 일부 실시형태에서 해당 방법은 하기를 포함한다:
백그라운드 돌연변이율의 함수인 제1의 독특한 역치값을 제1 사전선택된 위치 또는 서브게놈 간격 내 위치의 세트, 예를 들어 유전자에 적용하는 단계; 및
후속의, 예를 들어 본 명세서에 개시된 인자에 반응하여 선택된, 예를 들어, 제2, 제3, 제4, 제5 또는 제6, 독특한 역치값, 예를 들어, 종양 표현형과 관련된 변이체의 예상된 빈도를 후속의, 예를 들어, 상기 서브게놈 간격의 제2, 제3, 제4, 제5 또는 제6의 사전선택된 위치 또는 위치의 세트에 적용하는 단계.
이러한 실시형태에서, 제1 사전선택된 세트는 하기를 포함할 수 있거나 하기로 제한될 수 있다:
뉴클레오타이드 위치, 뉴클레오타이드 위치 이외의 종양 표현형과 관련된 변이체; 또는
유전자에서 대다수의 뉴클레오타이드 위치.
실시형태에서, 제2 사전선택된 세트는 하기를 포함하거나 또는 하기로 제한된다:
뉴클레오타이드 위치, 종양 표현형과 관련된 변이체;
상기 유전자의 인트론의 제1 사전선택된 일부에서 뉴클레오타이드 위치;
상기 유전자의 엑손의 제1 사전선택된 일부에서 뉴클레오타이드 위치;
뉴클레오타이드 위치를 포함하는 사전선택된 범위 내에서 모든 뉴클레오타이드 위치, 종양 표현형과 관련된 변이체, 예를 들어, 변이체는 점 돌연변이 또는 재배열, 예를 들어 결실, 삽입 또는 전위이다;
유전자에서 소수의 뉴클레오타이드 위치; 또는
유전자에서 단지 1, 2, 3, 3, 5, 10 또는 20개의 뉴클레오타이드 위치.
이러한 실시형태에서, 제1 사전선택된 세트는 하기를 포함하거나 또는 하기로 제한된다:
상기 뉴클레오타이드 위치 이외의 뉴클레오타이드 위치, 종양 표현형과 관련된 변이체;
상기 유전자의 인트론의 제1 사전선택된 일부에서 상기 뉴클레오타이드 위치 이외의 뉴클레오타이드 위치;
상기 유전자의 엑손의 제1 사전선택된 일부에서 상기 뉴클레오타이드 위치 이외의 뉴클레오타이드 위치;
뉴클레오타이드 위치를 포함하는 사전선택된 범위 이내에서 상기 뉴클레오타이드 위치 이외의 뉴클레오타이드 위치, 종양 표현형과 관련된 변이체, 예를 들어 변이체는 점 돌연변이 또는 재배열, 예를 들어 결실, 삽입 또는 전위이다.
이러한 실시형태에서, 제1 독특한 역치값은 상기 후속되는 독특한 역치값보다 더 낮을 수 있다.
임상적 암 표본의 차세대 시퀀싱으로부터 체세포 게놈 변경의 민감한 검출을 위한 베이지안 접근
본 명세서의 다른 곳에서 논의되는 바와 같이, 본 발명은 샘플, 예를 들어 종양 샘플의 분석 방법을 특징으로 한다. 본 명세서에 기재된 방법은 하기를 포함할 수 있다:
(aaa) 상기 샘플의 핵산으로부터 X 서브게놈 간격의 각각에 대해 하나 또는 복수의 판독을 획득하는 단계;
(bbb) 상기 X 서브게놈 간격의 각각에서 사전선택된 뉴클레오타이드 위치에 대해 획득하는 단계:
(i) 유형 X의 종양 내 상기 사전선택된 뉴클레오타이드 위치에서 사전선택된 변이체, 예를 들어, 돌연변이를 나타내는 판독을 관찰하는 사전(예를 들어, 문헌) 예상치이거나 또는 사전 예상치를 나타내는 제1 값; 및
(ii) 변이체가 어떤 빈도로(예를 들어, 1%, 5%, 10% 등) 존재하고/하거나 변이체가 없다면(예를 들어, 염기-호출 오류 단독에 기인하는 판독에서 관찰됨), 상기 사전선택된 뉴클레오타이드 위치에서 상기 사전선택된 변이체를 나타내는 판독을 관찰할 확률을 나타내는 값의 제2 세트;
(ccc) 상기 값에 반응하여, 제1 값을 사용하여 제2 세트에서 값의 비교에 가중치를 부여함으로써 상기 사전선택된 뉴클레오타이드 위치의 각각에 대해 상기 판독으로부터 뉴클레오타이드 값을 부여하고(예를 들어, 돌연변이를 호출)(예를 들어, 돌연변이 존재의 이후의 확률을 계산하는 것), 이에 의해 상기 샘플을 분석하는 단계.
예를 들어 변수 중에서 비교에 가중치를 부여하는 것에서, 이 방법은 검출을 최적화하기 위해 체세포 돌연변이 빈도 및 다양성의 지식을 포함하는 종양 게놈 평가에 대한 NGS-기반 접근에 대해 분석 성분을 제공한다. 돌연변이가 암 게놈에서 상대적으로 드물지만(예를 들어, 염기 치환은 1Mb 게놈-와이드(genome-wide) 당 ~1 내지 10의 속도로 예상됨), 구체적 드라이버 돌연변이는 특정 종양 유형에서 종종 생기는 것으로 알려져 있다. 예를 들어, KRAS 돌연변이 c.35G>A(p.G12D)는 결장암의 ~10%에서 예상된다. 효율적인 돌연변이-검출 접근은 민감성과 특이성 사이의 균형을 최적화하고, "어려운" 샘플에서 검출력을 최대화하기 위해 사전 정보에 영향을 미칠 수 있다. 예를 들어, 해당 방법은 다음의 관계를 사용하는 분석을 포함할 수 있다:
Figure pat00011
Figure pat00012
은 식 A에 대해 이산적 근사(discrete approximation)인데, 이는 대안적으로 이산화된 근사를 대신하는 관계에서 평가될 수 있다:
식 A:
Figure pat00013
P(F = 0) = 1 - 암 유형에서 돌연변이의 사전 예상치 "p". 상기 (i)의 값은 p에 대응된다.
Figure pat00014
(예를 들어, n = 100), 사전의 과다 빈도의 균일한 분포를 추정하며, 따라서 (ii)에서 지칭되는 돌연변이 빈도의 사전 예상치를 구체화한다. 이 용어는 예상된 돌연변이 빈도, 예컨대 구체적 샘플에서 측정된 순도 또는 이수성 또는 구체적 종양 유형, 추출 방법이 주어진 예상된 돌연변이 빈도 등에 관한 임의의 사전 지식에 대한 조정을 위해 균일한 분포로부터 벗어날 수 있다.
Figure pat00015
는, 예를 들어 대립유전자 수 관측, 캘리브레이션된 품질 스코어 및 치환 돌연변이에 대한 다항분포를 사용하여 돌연변이 유형에 따라 평가된다.
본 명세서에 제공된 검출 접근은 다음의 단계를 포함할 수 있다: 시퀀싱 및 정렬, 품질 스코어 재보정(recalibration), 베이지안 돌연변이 호출 및 돌연변이 호출 필터링. 예를 들어, 시퀀싱 및 정렬은 182개의 암-관련 유전자의 엑손에 대한 혼성체 선택, 일루미나(Illumina) HiSeq 플랫폼 상의 심층 시퀀싱, 버로우-휠러 얼라이너(Burrows-Wheeler Aligner: BWA)에 의한 정렬(Li H. and Durbin R. (2009) Bioinformatics, 25:1754-60) 및 게놈 분석 툴키트(The Genome Analysis Toolkit: GATK)에 의한 정렬(McKenna A.H. et al., Genome Res. 2010 20(9):1297-303)을 포함할 수 있다. 품질 스코어 재캘리브레이션은 경험적 오류율에 대해 보고된 품질 스코어를 맵핑한다. 베이지안 돌연변이 호출은 임의의 빈도로 존재하는 돌연변이의 가능성에 대해 허용된다(이배체로 제한되지 않음). 민감성을 상승시키기 위해 COSMIC으로부터 돌연변이의 조직-특이적 사전 확률의 포함. 돌연변이 호출 필터는 가닥 바이어스, 낮은 맵핑 품질 및 판독 위치 바이어스와 같은 지표를 사용하여 인공물을 필터링하며; 대부분의 병원균-유사 변형(dbSNP)을 제거한다.
이 접근은 적절한 P를 유도함으로써 추가적인 돌연변이 유형(삽입-결실/전위/CNV)으로 연장될 수 있다(판독 데이터 R|돌연변이 빈도= f).
복제물 판독
시퀀싱 과정 동안, 오류는, 예를 들어 시퀀싱 화학에 의해 또는 이미지 분석 소프트웨어에 의해 상이한 과정의 전략에서 판독에 도입될 수 있다. 복제물 판독은 전형적으로 별개의 판독으로서 시퀀싱된다. 돌연변이 호출 알고리즘은 시퀀싱 오류와 실제 서열 변형 사이를 구별하여 후자를 정확하게 호출할 필요가 있다. 본 명세서에 기재된 방법은 시퀀싱 오류를 감소시키기 위해 복제된 판독을 분석할 수 있으며, 이에 의해 돌연변이 호출 알고리즘의 민감성을 개선시킬 수 있다.
이는 동일 게놈 위치를 덮는 독립된 판독을 비교하는 것에 의해 전형적으로 행해진다. 실제 복제물은 다양한 라이브러리 제조 단계 동안(예를 들어, PCR 증폭) 만들어지며, 별개의 판독으로서 시퀀싱된다. 이들은 독립된 판독이 아니기 때문에(즉, 그것들은 동일한 본래의 DNA 분자로부터 유래됨), 임의의 수의 복제물 중 하나만이 돌연변이 검출 과정에 전형적으로 사용되는 한편, 나머지는 폐기된다.
복제물의 사용은 시퀀싱 오류를 감소시키도록 판독되며, 이에 의해 본 명세서에 기재된 돌연변이 호출 알고리즘의 민감성을 개선시킨다. 복제물 판독은 동일한 시작 및 말단 위치의 소유에 의해 확인될 수 있다. 복제물 판독이 동일한 본래의 DNA 분자의 판독을 본질적으로 복제하기 때문에, 복제물 사이의 임의의 차이는 시퀀싱 오류이어야 하고, 따라서 무시될 수 있다. 예를 들어, 고도의 복제물 데이터가 이용가능하다면, 공통된 3 이상의 복제물이 사용될 수 있다. 대안적으로, 염기의 품질 스코어는 판독의 2 이상의 복제물 사이의 동의를 반영하기 위해 재정립될 수 있으며, 임의의 하위 과정에 의해 이용될 수 있다. 예를 들어, 돌연변이 호출 알고리즘은 모든 복제물에 의해 지지되지 않은 서열 차이에 더 적은 가중치를 둘 수 있다.
제시된 방법은 복제물에 대한 공통 서열을 만드는 것에 의해 일부 시퀀싱 데이터 상에서 시험되었다. 공통 판독 서열의 오류율은 본래의 판독보다 상당히 더 낮게 되는 것으로 나타났다.
이 방법은, 예를 들어 1) 시퀀서의 일부 실패 방식이, 이 데이터에서 돌연변이를 호출하는 능력에 부정적으로 영향을 미치는, 더 높은 오류율을 지니는 사용할 수 있는 서열 데이터를 초래할 때 사용될 수 있다. 복제물을 사용함으로써 오류를 감소시키는 것은 시나리오에서 특히 효과적이어야 하며, 기계 고장에 대해 돌연변이 호출 경로를 더 강하게 만들고, 2) 샘플에서 특히 드문(예를 들어, 혈중 종양 세포는 샘플 내 세포의 <1% 일 수 있음) 암 세포로부터의 DNA 시퀀싱할 때, 염기 오류율의 어떤 개선은 이들 종양 세포에서 돌연변이를 정확하게 확인하는 능력을 상당히 증가시킬 수 있다.
하나의 대표적인 실시형태에서, 높은 복제율(69%)을 갖는 데이터세트는 복제물에 대해 스캐닝되었다. 복제물 중 하나의 판독을 임의로 선택하는 보통-사용되는 소프트웨어 제거 툴(피카드 마크듀플리케이트(Picard MarkDuplicates))에 의해 복제물이 제거될 때, 얻어진 오류율은 0.40%였다. 비슷하게, 적어도 3개의 복제물을 갖는 모든 판독은 개별적으로 처리되었고, 각 복제물 세트에 대한 공통 서열은 가장 흔한 복제물 서열을 선택하는 것에 의해 유래된다. 공통 서열의 오류율은 0.20%였는데, 이는 그것의 서열을 비교함으로써 복제물 판독에 대해 더 낮은 오류율이 달성될 수 있다는 것을 증명한다.
공통 판독에 기인하는 예:
판독1: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(서열번호 2)
판독2: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(서열번호 3)
판독3: CCAACACTAAACTGCTCTTTAAATATCTTAGACACT(서열번호 4)
공통: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(서열번호 5)
따라서, 다른 양태에서, 본 발명은, 예를 들어 하기를 포함하는 종양 샘플로부터 핵산의 서열을 분석하는 방법을 포함한다:
(a) 선택적으로, 서브게놈 간격의 복수의 복제물을 획득하는 단계(예를 들어, 상기 서브게놈 간격의 본래 복제물의 증폭에 의해 형성됨);
(b) 상기 복수의 복제물 각각에 대해 판독을 획득하여 복수의 복제물 판독을 제공하는 단계;
(c) 상기 복수의 복제물 판독의 각각의 제1 뉴클레오타이드 위치에서 뉴클레오타이드 값을 비교하는 단계(전형적으로, 하나의 복제물 판독에서 뉴클레오타이드 위치는 제2 판독에서 대응되는 뉴클레오타이드 위치와 비교됨);
(d) 선택적으로, 각각의 상기 복수의 복제물 판독의 제2 뉴클레오타이드 위치에서 뉴클레오타이드 값을 비교하는 단계,
뉴클레오타이드 위치 중 하나에 대해, 상기 복수의 판독의 각각은 동일한 뉴클레오타이드 값을 가지지 않고, 선택적으로 상기 뉴클레오타이드 위치의 나머지에 대해, 각각의 상기 복수의 판독은 동일한 뉴클레오타이드 값을 가진다;
(e) 상기 복수의 판독 모두에서 동일 뉴클레오타이드 값을 갖지 않는 위치에서 뉴클레오타이드 값에 대해 제1 분류기, 예를 들어, 품질 스코어 또는 복제물-조절된 뉴클레오타이드 값을 부여하는 단계,
(f) 선택적으로 복수의 판독 각각에 대해 동일 뉴클레오타이드 값을 갖는 위치에서 뉴클레오타이드 값에 대해 제2 분류기, 예를 들어, 품질 스코어 또는 복제물-조절된 뉴클레오타이드 값을 부여하는 단계,
상기 제1 분류기는 그것에 대해 부여된 뉴클레오타이드 값이 정확한 제1 수준의 품질 또는 신뢰도를 표시하고, 상기 제2 분류기는 그것에 대해 부여된 뉴클레오타이드 값이 정확한 제2 수준의 품질 또는 신뢰도를 표시하며, 상기 제1 수준은 사전선택된 기준 이하이다.
일 실시형태에서, 상기 제1 수준은 상기 복수의 판독의 각각이 동일한 뉴클레오타이드 값을 가진다면 부여되는 것보다 더 낮다.
다른 실시형태에서, 상기 제1 수준은 상기 제2 수준보다 더 낮다.
다른 실시형태에서, 분류는 다수에서 해당 뉴클레오타이드 위치에 대해 상이한 뉴클레오타이드 값의 비율의 함수이다.
다른 실시형태에서, 분류는 다수에서 복제물 판독 수의 함수이다.
또 다른 실시형태에서, 뉴클레오타이드 위치에서 돌연변이의 호출방법은 해당 뉴클레오타이드 위치에서 해당 뉴클레오타이드 값에 대한 분류의 함수이다.
다른 실시형태에서, 복제물 판독은 확인되지 않거나 또는 제거되지 않는다. 복제물 판독을 제거하지 않는 것은, 복제물 판독의 분획이 대조군과 실험군 샘플 간에 상당히 상이할 때 종양 DNA에서 복제수를 확인하는 것과 대립유전자-균형의 평가에서 특히 유용할 수 있다. 예를 들어, 고-복제율을 갖는 샘플에서 높은 덮임률 심도를 갖는 게놈 영역은 낮은 중복률을 갖는 샘플에서 유사한 심도를 갖는 동일 영역보다 더 많은 판독을 상실할 수 있는 반면, 낮은-덮임률 영역은 이 효과에 대한 경향이 더 적을 가능성이 있다. 따라서, 복제물 판독의 분획이 대조군과 실험군 샘플 간에 상당히 상이할 때, 둘 사이의 비교는 더 소란스럽게 될 수 있으며, 따라서 복제수 변경 호출의 민감성 및/또는 특이성을 낮출 수 있다.
DNA 시험 샘플, 예를 들어 종양으로부터 추출된 DNA 샘플의 서열 분석은 대조군 샘플, 예를 들어 비-암성 조직으로부터의 DNA 샘플과 시험군 샘플의 비교를 필요로 한다.
게놈 DNA 샘플의 시퀀싱에서, 복제물 판독이 만들어질 것이다. 판독 복제물은 라이브러리 제조의 다양한 단계(예를 들어, PCR 증폭)동안 만들어지며, 별개의 판독으로서 시퀀싱된다. 이들이 독립된 판독이 아니기 때문에(즉, 그것들은 동일한 본래의 DNA 분자로부터 유래됨), 임의의 수의 복제물 중 하나만이 돌연변이 검출 과정에 전형적으로 사용되는 한편, 나머지는 폐기된다. 전형적으로, 대조군과 시험 샘플 둘 다로부터 복제물 판독은 시험군과 대조군 DNA 서열 사이의 유사한 분석을 수행하기 전에 제거된다.
일 실시형태에서, 출원인은 복제물 판독의 수가 시험군과 대조군 샘플 사이에 상당히 다른 경우의 상황에서, 복제물 판독의 제거(대조군과 시험군 샘플 중 하나 또는 둘 다로부터)가 변경, 예컨대 복제수 변경을 호출하는 능력에 부정적으로 영향을 미친다는 것을 발견하였는데, 이는 상이한 샘플의 덮임률 심도 패턴이 상이하게 왜곡되기 때문이다. 따라서, 복제물 판독의 분획이 시험군과 대조군 샘플 사이에 상당히 상이한 경우의 상황에서(예를 들어, 20%, 30%, 40%, 50%, 60% 이상 만큼 상이함), 복제물 판독은 시험 샘플 내 돌연변이를 정확하게 확인하는 능력을 최대화하기 위해 유사한 분석 전에 제거되지 않는 것이 바람직하다. 예를 들어, 대조군 샘플과 시험 샘플에서 복제물 판독의 수가 각각 20% 및 80%(또는 70% 또는 60% 또는 50%)인 경우의 상황이라면, 복제물 판독은 바람직하게는 유사한 분석 전에 제거되지 않는다.
기타 실시형태
본 명세서에 기재된 방법의 실시형태에서, 해당 방법의 단계 또는 변수는 해당 방법에서 하위 단계 또는 변수를 변화시키는데 사용된다.
실시형태에서, 종양 샘플의 특징은 다음 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 단리; 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 단리된 종양 또는 대조군, 핵산의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 단리; 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 라이브러리의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 라이브러리-캐치의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 시퀀싱 방법의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 맵핑된 판독의 수집물의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 후속 시퀀싱의 혼성화 조건의 후속 결정; 후속 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 해당 방법은 종양 샘플 특징에 대해 값을 획득하는 단계, 예를 들어 상기 샘플에서 종양 세포의 비율에 대해, 상기 종양 샘플의 세포질에 대해; 또는 종양 샘플의 이미지로부터 값을 획득하는 단계를 포함한다.
실시형태에서, 해당 방법은 종양 샘플 특징에 대해 상기 획득한 값에 반응하여, 종양 샘플로부터 핵산의 단리, 라이브러리 구성; 베이트 설계 또는 선택; 베이트/라이브러리 구성원 혼성화; 시퀀싱; 또는 돌연변이 호출에 대한 변수를 선택하는 단계를 포함한다.
실시형태에서, 방법은 상기 종양 샘플에 존재하는 종양 조직의 양에 대한 값을 획득하는 단계, 상기 획득한 값을 참조 기준과 비교하는 단계 및 상기 참조 기준이 충족된다면, 상기 종양 샘플을 받아들이는 단계, 예를 들어 상기 종양 샘플이 30, 40 또는 50% 초과의 종양 세포를 함유한다면, 상기 종양 샘플을 받아들이는 단계를 추가로 포함한다.
실시형태에서, 방법은 종양 세포에 대해 상기 종양 샘플로부터의 종양 조직을 참조 기준을 충족시키지 못하는 종양 샘플로부터 마크로해부(macrodissecting)함으로써 풍부화된 하위-샘플을 획득하는 단계를 추가로 포함한다.
실시형태에서, 방법은 주요 대조군, 예를 들어 혈액 샘플이 이용가능한지 여부, 따라서 상기 주요 대조군으로부터 대조군 핵산(예를 들어, DNA)을 분리시키는지 여부를 결정하는 단계를 추가로 포함한다.
실시형태에서, 방법은 NAT가 상기 종양 샘플에 존재하는지 여부(예를 들어 주요 대조군 샘플이 이용가능하지 않은 경우)를 추가로 포함한다.
실시형태에서, 방법은 비-종양 샘플에 대해, 예를 들어 주요 대조군에 의해 수반되지 않는 종양 샘플에서 상기 NAT로부터 비-종양 조직을 마크로해부함으로써 비-종양 세포에 대해 풍부화된 하위-샘플을 획득하는 단계를 추가로 포함한다.
실시형태에서, 방법은 주요 대조군 및 NAT가 이용가능하지 않은지를 결정하는 단계 및 매칭된 대조군이 없는 분석에 대해 상기 종양 샘플을 표시하는 단계를 추가로 포함한다.
실시형태에서, 방법은 단리된 종양 핵산 샘플을 제공하기 위해 상기 종양 샘플로부터 핵산을 단리시키는 단계를 추가로 포함한다.
실시형태에서, 방법은 단리된 대조군 핵산 샘플을 제공하기 위해 대조군으로부터 핵산을 단리시키는 단계를 추가로 포함한다.
실시형태에서, 방법은 검출가능한 핵산이 없는 샘플을 기각시키는 단계를 추가로 포함한다.
실시형태에서, 방법은 상기 단리된 핵산 샘플에서 핵산 수율에 대한 값을 획득하는 단계 및 획득한 값을 참조 기준과 비교하는 단계를 추가로 포함하되, 예를 들어 상기 획득한 값이 상기 참조 기준 미만이라면, 라이브러리 구성 전 상기 단리된 핵산 샘플을 증폭시키는 단계를 포함한다.
실시형태에서, 방법은 상기 단리된 핵산 샘플에서 핵산 단편의 크기에 대한 값을 획득하는 단계 및 획득한 값을 참조 기준, 예를 들어 적어도 300, 600 또는 900 bp의 크기, 예를 들어, 평균 크기와 비교하는 단계를 추가로 포함한다. 본 명세서에 기재된 변수는 이 결정에 반응하여 조절되거나 또는 선택될 수 있다.
실시형태에서, 방법은 라이브러리를 획득하는 단계를 추가로 포함하되, 상기 핵산 단편의 크기는 기준 값 이하이고, 상기 라이브러리는 DNA 단리와 라이브러리 제조 사이의 단편화 단계 없이 만들어진다.
실시형태에서, 방법은 핵산 단편을 추가로 획득하는 단계를 포함하며, 상기 핵산 단편의 크기가 기준 값 이상이고, 단편화된다면, 라이브러리로 만들어진다.
실시형태에서, 방법은, 예를 들어 확인가능한 별개의 핵산 서열(바코드)의 다수의 구성원 각각에 첨가함으로써 다수의 라이브러리 구성원 각각을 표지하는 단계를 추가로 포함한다.
실시형태에서, 방법은 다수의 라이브러리 구성원의 각각에 프라이머를 부착하는 단계를 추가로 포함한다.
실시형태에서, 방법은 다수의 베이트를 제공하는 단계 및 다수의 베이트를 선택하는 단계를 추가로 포함하며, 상기 선택은, 1) 환자 특징, 예를 들어 연령, 종양 단계, 사전 처리 또는 내성; 2) 종양 유형; 3) 종양 샘플의 특징; 4) 대조군 샘플의 특징; 5) 대조군의 존재 또는 유형; 6) 분리된 종양(또는 대조군) 핵산 샘플의 특징; 7) 라이브러리 특징; 8) 종양 샘플에서 종양의 유형과 관련된 것으로 알려진 돌연변이; 9) 종양 샘플에서 종양의 유형과 관련된 것으로 알려지지 않은 돌연변이; 10) 사전선택된 서열을 시퀀싱하거나(또는 사전선택된 서열에 혼성화되거나 또는 회복되거나) 또는 사전선택된 돌연변이를 확인하는 능력, 예를 들어 고 gc 영역 또는 재배열 시퀀싱과 관련된 어려움; 11) 시퀀싱되는 유전자에 대한 반응이다
실시형태에서, 방법은 예를 들어 상기 종양 샘플에서 적은 수의 종양 세포의 결정, 베이트 또는 다수의 베이트의 선택 단계, 제1 유전자의 구성원과 비교하여 제2 유전자의 구성원의 상대적으로 매우 효율적인 포획을 제공하는 단계에 대한 반응을 추가로 포함하되, 제1 유전자의 돌연변이는 종양 샘플의 종양 유형에 대한 종양 표현형과 관련된다.
실시형태에서, 방법은 라이브러리-캐치 특징, 예를 들어, 핵산 농도 또는 표현에 대한 값을 획득하는 단계 및 핵산 농도에 대해 또는 표현에 대해 참조 기준과 획득한 값을 비교하는 단계를 추가로 포함한다.
실시형태에서, 방법은 재작업에 대해 참조 기준을 충족시키지 않는 라이브러리 특징에 대한 값으로 라이브러리를 선택하는 단계를 추가로 포함한다.
실시형태에서, 방법은 라이브러리 정량화를 위한 참조 기준을 충족시키는 라이브러리 특징에 대한 값으로 라이브러리를 선택하는 단계를 추가로 포함한다.
실시형태에서, 방법은 피험체에 대해 종양 유형, 유전자 및 유전적 변경(TGA)의 연관을 제공하는 단계를 추가로 포함한다.
실시형태에서, 방법은 다수의 구성요소를 갖는 사전선택된 데이터베이스를 제공하는 단계를 추가로 포함하되, 각각의 구성요소는 TGA를 포함한다.
실시형태에서, 방법은 하기를 포함하는 피험체의 TGA를 특성규명하는(characterizing) 단계를 추가로 포함한다:
상기 TGA가 사전선택된 데이터베이스, 예를 들어 적합화된 TGA의 데이터베이스에 존재하는지 여부를 결정하는 단계;
사전결정된 데이터베이스로부터 TGA에 대한 정보를 상기 피험체로부터의 상기 TGA(주석)와 연관시키는 단계; 및
선택적으로, 상기 피험체에 대한 제2 또는 후속의 TGA가 상기 사전선택된 데이터베이스에 존재하는지 여부를 결정하는 단계 및 만약 그렇다면 사전결정된 데이터베이스로부터의 제2 또는 후속의 TGA에 대한 정보를 상기 환자에 존재하는 제2 TGA와 연관시키는 단계.
실시형태에서, 방법은 TGA의 존재 또는 부재 및 선택적으로 피험체의 연관된 주석을 제출하여 보고를 형성하는 단계를 추가로 포함한다.
실시형태에서, 방법은 상기 보고를 수용 관계자에게 전달하는 단계를 추가로 포함한다.
실시형태에서, 방법은 하기를 포함하는 피험체의 TGA를 특성규명하는 단계를 추가로 포함한다:
상기 TGA가 사전선택된 데이터베이스, 예를 들어 적합한 TGA의 데이터베이스에 존재하는지 여부를 결정하는 단계;
상기 사전선택된 데이터베이스에 없는 TGA가 알려진 임상적으로 적절한 G 또는 A를 가지는지 여부를 결정하고, 만약에 그렇다면 상기 사전선택된 데이터베이스에서 상기 TGA에 대해 독립체를 제공하는 단계.
실시형태에서, 방법은 피험체로부터 종양 샘플의 DNA에서 발견되는 돌연변이의 존재 또는 부재를 제출하여 보고를 형성하는 단계를 추가로 포함한다.
실시형태에서, 피험체의 TGA의 존재 또는 부재 및 선택적으로 연관된 주석을 제출하여 보고를 형성하는 단계를 추가로 포함한다.
실시형태에서, 방법은 상기 보고를 수용 관계자에게 전달하는 단계를 추가로 포함한다.
종양 샘플의 다유전자 분석을 위한 방법의 실시형태의 흐름도 도시는 도 1에서 제공된다.
실시예
본 발명은 다음의 실시예에 의해 추가로 예시되며, 제한으로서 해석되어서는 안된다. 본 출원을 통해 인용된 모든 기준, 도면, 서열목록, 특허 및 공개된 특허 출원의 내용은 본 명세서에 참조로서 포함된다.
실시예 1: 종양 샘플로부터 핵산 단리
파라핀 블록으로부터 3×20㎛ 부문 절단을 교반에 의해 400㎕ 완충제 FTL과 혼합하였고, 1.5㎖ 원심분리 튜브 내에서 90℃로 15분 동안 인큐베이션시켰다. 88 내지 92℃의 범위가 인큐베이션에 대해 허용가능하였다. 그 다음에, 샘플을 55℃에서 6시간 동안 20㎕ 프로테이나제 K 및 10㎕ RNase(1 ㎎/㎖)와 함께 실온에서 5분 동안 인큐베이션시켰다. 다음에, 460㎕ 완충제 BL 및 500㎕ 무수 에탄올을 샘플에 첨가하였다. 얻어진 샘플 용액을 추가 사용시까지 실온에서 유지하였다.
DNA 결합을 위한 칼럼을 제조하기 위해, 100㎕ 평형 완충제를 마이크로일류트(MicroElute) 칼럼에 첨가하였고, 칼럼을 10,000 x g에서 30초 동안 원심분리시켰다. 상기 기재한 700㎕의 샘플 용액을 마이크로일류트 칼럼에 전달하였고, 칼럼을 10,000 x g에서 1분 동안 원심분리시켰다. 유체가 마이크로일류트 칼럼을 완전히 통과하지 않는다면 원심분리 단계를 반복하였다. 남은 샘플 용액을 상기 기재한 것과 동일한 방법으로 마이크로일류트 칼럼에 적용하였다. 그 다음에, 마이크로일류트 칼럼을 500㎕ 완충제 HB로 처리하였고, 10,000 x g에서 1분 동안 원심분리시켰다. 다음에, 에탄올로 희석시킨 700㎕ DNA 세척 완충제를 마이크로일류트 칼럼에 첨가하였고, 칼럼을 10,000 x g에서 1분 동안 원심분리시켰다. 마이크로일류트 칼럼을 에탄올로 희석시킨 700㎕ DNA 세척 완충제를 사용하여 다시 세척하였고, 10,000 x g에서 1분 동안 원심분리시켰으며, 13,000 x g 초과에서 3분 동안 원심분리시켜 칼럼을 건조시켰다. 마이크로일류트 칼럼을 마개를 제거한 채로 표준 1.5㎖ 원심분리 튜브에 넣었다. 70℃로 사전예열한 50 내지 75㎕ 용리 완충제를 마이크로일류트 칼럼에 첨가하였고, 실온에서 3분 동안 인큐베이션시켰다. 칼럼을 수집 튜브 내 13,000 x g 초과에서 1분 동안 원심분리시켰다. 다른 70℃로 사전예열한 50 내지 75㎕ 용리 완충제를 마이크로일류트 칼럼에 첨가하였고, 실온에서 3분 동안 인큐베이션시켰다. 칼럼을 수집 튜브 내 13,000 x g 초과에서 1분 동안 다시 원심분리시켰다. 전체 용액을 신선한 1.5㎖ 원심분리 튜브에 옮겼고, -20℃에서 저장하였다.
FTL 완충제, 프로테이나제 K, BL 완충제, 평형상태 완충제, 마이크로일류트 칼럼, 완충제 HB, DNA 세척 완충제 및 용리 완충제를 E.Z.N.A.(상표명) FFPE DNA 키트(미국 조지아주 노크로스에 소재한 오메가 바이오-테크(OMEGA bio-tek); 카탈로그 번호 D3399-00, D3399-01 및 D3399-02)로 제공하였다.
포름알데하이드- 또는 파라포름알데하이드-고정, 파라핀-포매된(FFPE) 조직으로부터 핵산(예를 들어, DNA)을 단리시키는 추가적인 방법은, 예를 들어 문헌[Cronin M. et al., (2004) Am J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429, Ambion RecoverAll(상표명) Total Nucleic Acid Isolation Protocol(Ambion, Cat. No. AM1975, September 2008), Maxwell(등록상표) 16 FFPE Plus LEV DNA Purification Kit Technical Manual (Promega Literature #TM349, February 2011), 및 QIAamp(등록상표) DNA FFPE Tissue Handbook(Qiagen, Cat. No. 37625, October 2007)]에 개시된다. 리커버올(RecoverAll)(상표명) 전체 핵산 단리 키트는 상승된 온도에서 자일렌을 사용하여 파라핀-포매된 샘플 및 유리-섬유 필터를 가용화하여 핵산을 포획한다. FFPE 조직의 1 내지 10㎛ 부분의 게놈 DNA의 정제를 위해 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트를 맥스웰(Maxwell)(등록상표) 16 기기와 함께 사용하였다. 규소-클래드 상자성 입자(paramagnetic particle: PMP)를 사용하여 DNA를 정제하였고, 낮은 용리 부피에서 용리시켰다. QIAamp(등록상표) DNA FFPE 조직 키트는 게놈 및 미토콘드리아 DNA의 정제를 위해 QIAamp(등록상표) DNA 마이크로 테크놀로지(Micro technology)를 사용한다.
실시예 2A: DNA의 전단
순환 냉각기를 지니는 코바리스(Covaris)(상표명) E210 기기를 4℃로 설정하였다. 기기 물 탱크를 채움선의 수준 "6"까지 증류수/탈이온수로 채웠다. 소노랩( SonoLab)(상표명) 소프트웨어를 시작하였고, 시스템은 촉발될 때, 호밍 시퀀싱을 실행시켰다. 기기 탱크 내 물을 샘플을 전단시키기 전에 적어도 45분 동안 탈기시켰다.
전단을 위한 게놈 DNA 샘플을 제조하기 위해, 샘플을 우선 마이크로플레이트 판독기(스펙트라맥스(Spectramax) M2, 몰레큘러 디바이스(Molecular Devices)) 상에서 피코그린(등록상표) 분석(인비트로젠(Invitrogen))을 사용하여 정량화하였다. 농도를 기준으로, 낮은 TE(10mM 트리스(Tris), 0.2mM EDTA, pH 8.0)를 지니는 120㎕ 설계된 입력 DNA(2ng/㎕)를 실험을 위해 사용하였다. 100㎕의 개개의 샘플을 튜브 뚜겅의 마개를 통해 코바리스 마이크로튜브(Covaris MicroTUBE)(코바리스 카탈로그 # 520045) 내로 천천히 피펫팅하였다. 그 다음에 코바리스 마이크로튜브(Covaris MicroTUBE)를 코바리스 E-시리즈 튜브 받침대에 두었다. 200bp 전단을 위해, 설정은 다음과 같았다: 10% 사용률, 5 강도, 200 사이클/버스트(burst), 시간 180 초 및 주파수 스위핑(Frequency Sweeping) 모드. 전단 후, 코바리스 마이크로튜브(Covaris MicroTUBE)를 미니-원심분리기 내 적절한 어댑터를 사용하여 간단히 스핀다운시켰고, 전단된 샘플을 깨끗한 1.5㎖ 마이크로원심분리기 튜브에 옮겼다. 각각의 전단된 DNA 샘플을 QIAGEN 민일류트(MinElute)(등록상표) 칼럼을 사용하여 정제하였다. 간단히, 5x QIAGEN PBI 완충제를 1.5㎖ 마이크로원심분리기 튜브 내 샘플에 첨가하였다(예를 들어, 500㎕의 PBI 완충제를 100㎕의 샘플에 첨가하였다). 각각의 샘플을 교반시켰고, 간단히 스핀다운시켰으며, 민일류트(MinElute) 스핀 칼럼에 옮겼다. 민일류트(MinElute) 스핀 칼럼을 13,000 rpm에서 1분 동안 원심분리시켰고, 통과액을 버렸다. 750㎕의 QIAGEN PE 완충제를 칼럼에 첨가하였고, 13,000 rpm에서 1분 동안 원심분리시켰으며, 통과액을 버렸다. 스핀 칼럼을 13,000 rpm에서 1분 동안 다시 원심분리시켰고, 깨끗한 1.5㎖ 마이크로원심분리 튜브에 옮겼다. 칼럼을 2 내지 3분 동안 공기 건조시켰다. 제1 용리를 위해, 18㎕의 QIAGEN 용리 완충제를 각 칼럼에 첨가하였고, 2 내지 3분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 제2 용리를 위해, 15㎕의 QIAGEN 용리 완충제를 첨가하였고, 1분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 용리액을 수집하였고, 스핀 칼럼을 버렸다.
전형적으로, DNA 전단을 위해 200ng을 사용하였지만, DNA의 양은 20 내지 200ng 또는 그 이상의 범위에 있을 수 있다.
실시예 2B: 대안의 DNA 전단
이 실시예는 실시예 2A로부터 DNA 전단을 위한 대안의 방법을 기재한다.
이중 가닥 게놈 DNA는 먼저 단일 전단 DNA로 변성시킨 다음, 프라이머, DNA 폴리머라제(예를 들어, 엑소- DNA 폴리머라제), dNTP 및 소량의 ddNTP와 혼합한다. 프라이머 서열은 무작위 헥사머 또는 5' 말단에서 어댑터 서열로 태그된 무작위 헥사머일 수 있다. 소량의 DNA를 클로닝하고 시퀀싱하기 위해 태그된 무작위 헥사머 증폭의 사용 방법은, 예를 들어 문헌[Wong K.K. et al., Nucleic Acids Res. 1996; 24(19):3778-83]에 기재된다. 반응물을 프라이머-주형 어닐링 및 DNA 합성을 허용하는 조건 하에서 인큐베이션시킨다. ddNTP가 새로 합성된 제1 가닥에 포함될 때 DNA 합성은 종결된다. 제1 가닥 DNA의 길이는 dNTP 대 ddNTP의 비에 의해 조절될 수 있다. 예를 들어, dNTP 대 ddNTP의 몰 비는 적어도 약 1000:1, 약 5000:1 또는 약 10000:1이다. 제1 가닥의 합성 후, 짧은 단편(예컨대 프라이머 및 짧은 길이를 갖는 합성된 제1 DNA 가닥 및 ddNTP)은 크기 선택(예를 들어 크기 선택 스핀 칼럼을 사용)에 의해 제거할 수 있다. 얻어진 제1 가닥 DNA를 프라이머(예를 들어, 무작위 헥사머 또는 어댑터 서열로 태그된 무작위 헥사머), DNA 폴리머라제(예를 들어, 엑소(Exo)+ DNA 폴리머라제) 및 dNTP와 혼합한다. 엑소(Exo)+ DNA 폴리머라제를 사용하여 제1 가닥 DNA로부터 말단 3'-ddNTP를 제거하거나 또는 심지어 제2 프라이밍 부위에 걸쳐 평활 말단을 만들 수 있다. 그 다음에 반응물을 프라이머-주형 어닐링 및 DNA 합성을 허용하는 조건하에서 인큐베이션시킨다. 제2 가닥의 합성 후, 얻어진 이중 가닥 DNA 단편을 정제할 수 있고, 라이브러리 구성에 직접 사용할 수 있다. 대안적으로, 이들 어댑터 서열이 제1- 및 제2- 가닥 합성을 위해 프라이머에 포함되었다면, 어댑터 서열을 함유하는 프라이머를 사용하여 이중 가닥 DNA 단편을 PCR 증폭시킬 수 있다. PCR 증폭을 위한 프라이머는 또한 전체 서열 및/또는 바코드 서열을 포함할 수 있다.
실시예 3: 라이브러리 제조
말단 복구 반응
말단-복구 시약(NEB #E6050L)을 해동시키고, 말단-복구 마스터믹스(mastermix)를 얼음에서 제조하였다. 샘플 당 70㎕의 마스터믹스를 제조하기 위해, 55㎕의 뉴클레아제가 없는 물을 10㎕ 10x 말단 복구 반응 완충제 및 5㎕ 말단 복구 효소 혼합물과 혼합시켰다. 그 다음에, 70㎕의 마스터믹스를 얼음 상에서 96웰 PCR 플레이트 내 30㎕의 각각 전단된 DNA 샘플에 첨가하였다. 반응물을 20℃에서 30분 동안 서모사이클러 내에서 인큐베이션시켰다. 각 샘플을 QIAGEN 민일류트(MinElute)(등록상표) 칼럼을 사용하여 정제시켰다. 간단히, 5x QIAGEN PBI 완충제를 1.5㎖ 마이크로원심분리기 튜브 내 샘플에 첨가하였다(예를 들어, 500㎕의 PBI 완충제를 100㎕의 샘플에 첨가하였다). 각 샘플을 교반시켰고, 간단히 스핀다운시켰으며, 민일류트(MinElute) 스핀 칼럼에 옮겼다. 민일류트(MinElute) 스핀 칼럼을 13,000 rpm에서 1분 동안 원심분리시키고, 통과액을 버렸다. 750㎕의 QIAGEN PE 완충제를 칼럼에 첨가하였고, 13,000 rpm에서 1분 동안 원심분리시켰으며, 통과액을 버렸다. 스핀 칼럼을 다시 13,000 rpm에서 1분 동안 원심분리시켰고, 깨끗한 1.5㎖ 마이크로원심분리기 튜브에 옮겼다. 칼럼을 2 내지 3분 동안 공기 건조시켰다. 제1 용리를 위해, 22㎕의 QIAGEN 용리 완충제(10mM 트리스(Tris), pH 8.5)를 각 칼럼에 첨가하였고, 2 내지 3분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 제2 용리를 위해, 22㎕의 QIAGEN 용리 완충제를 첨가하였고, 1분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 용리액을 수집하였고, 스핀 칼럼을 버렸다.
3' A-염기 첨가
A-염기 첨가 시약(NEB #E6053L)을 얼음에서 해동시켰고, A-염기 첨가 마스터믹스를 얼음에서 제조하였다. 샘플 당 10㎕의 마스터믹스를 제조하기 위해, 2㎕의 뉴클레아제가 없는 물을 5㎕ 10x dA-테일링(Tailing) 반응 완충제 및 3㎕ 클레노우단편(Klenow Fragment)(3'->5' 엑소-)과 혼합시켰다. 10㎕의 마스터믹스를 얼음 상에서 96웰 PCR 플레이트 내 40㎕의 각각 정제된 말단-복구 DNA 샘플에 첨가하였다. 반응물을 37℃에서 30분 동안 서모사이클러 내에서 인큐베이션시켰다. 각 샘플을 QIAGEN 민일류트(MinElute)(등록상표) 칼럼을 사용하여 정제시켰다. 간단히, 5x QIAGEN PBI 완충제를 1.5㎖ 마이크로원심분리기 튜브 내 샘플에 첨가하였다(예를 들어, 250㎕의 PBI 완충제를 50㎕의 샘플에 첨가하였다). 각 샘플을 교반시켰고, 간단히 스핀다운시켰으며, 민일류트(MinElute) 스핀 칼럼에 옮겼다. 민일류트(MinElute) 스핀 칼럼을 13,000 rpm에서 1분 동안 원심분리시키고, 통과액을 버렸다. 750㎕의 QIAGEN PE 완충제를 칼럼에 첨가하였고, 13,000 rpm에서 1분 동안 원심분리시켰으며, 통과액을 버렸다. 스핀 칼럼을 다시 13,000 rpm에서 1분 동안 원심분리시켰고, 깨끗한 1.5㎖ 마이크로원심분리기 튜브에 옮겼다. 칼럼을 2 내지 3분 동안 공기 건조시켰다. 제1 용리를 위해, 13㎕의 QIAGEN 용리 완충제(10mM 트리스(Tris), pH 8.5)를 각 칼럼에 첨가하였고, 2 내지 3분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 제2 용리를 위해, 13㎕의 QIAGEN 용리 완충제를 첨가하였고, 1분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 용리액을 수집하였고, 스핀 칼럼을 버렸다.
멀티플렉스 어댑터의 결찰
결찰 시약(NEB #E6056L)을 해동시키고, 결찰 마스터믹스를 얼음에서 제조하였다. 샘플 당 36㎕의 마스터믹스를 제조하기 위해, 12㎕ 5x 속성 결찰(Quick Ligation) 반응 완충제를 3.3㎕ 일루미나 멀티플렉스 어댑터(Illumina Multiplex Adaptor)(15uM, 일루미나 카탈로그 #PE-400-1001에 포함됨)(3.3㎕ 어댑터/1㎍ 출발 입력 DNA를 사용하였다)에 첨가하였다. 예를 들어, 500ng 입력 DNA의 하나의 샘플에 대해, 어댑터를 수중에서(2㎕ 어댑터 + 2㎕ H2O) 우선 희석시킨 다음, 3.3㎕의 이런 희석된 어댑터 혼합물, 15.7㎕의 뉴클레아제가 없는 물 및 5㎕의 퀵(Quick) T4 DNA 리가제를 결찰 반응물에 첨가하였다. 1㎍ 초과의 출발 물질에 대해, 3.3㎕ 초과의 어댑터를 사용하였다. 따라서, 희석시킨 어댑터 혼합물 및 뉴클레아제가 없는 물의 전체 부피를 19㎕로 유지시키기 위해 더 적은 물을 첨가하였다.
36㎕의 마스터믹스 및 24㎕의 각각의 dA-꼬리 DNA 샘플을 얼음에서 96웰 PCR 플레이트의 웰에 첨가하였다. 반응물을 25℃에서 30분 동안 서모사이클러 내에서 인큐베이션시켰다. 각 샘플을 QIAGEN 민일류트(MinElute)(등록상표) 칼럼을 사용하여 정제하였다. 간략하게, 5x QIAGEN PBI 완충제를 1.5㎖ 마이크로원심분리기 튜브 내 샘플에 첨가하였다(예를 들어, 300㎕의 PBI 완충제를 60㎕의 샘플에 첨가하였다). 각 샘플을 교반시켰고, 간단하게 스핀다운시켰으며, 민일류트(MinElute) 스핀 칼럼에 옮겼다. 민일류트(MinElute) 스핀 칼럼을 13,000 rpm에서 1분 동안 원심분리시키고, 통과액을 버렸다. 750㎕의 QIAGEN PE 완충제를 칼럼에 첨가하였고, 13,000 rpm에서 1분 동안 원심분리시켰으며, 통과액을 버렸다. 스핀 칼럼을 다시 13,000 rpm에서 1분 동안 원심분리시켰고, 깨끗한 1.5㎖ 마이크로원심분리기 튜브에 옮겼다. 칼럼을 2 내지 3분 동안 공기 건조시켰다. 제1 용리를 위해, 20㎕의 QIAGEN 용리 완충제(10mM 트리스(Tris), pH 8.5)를 각 칼럼에 첨가하였고, 2 내지 3분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 제2 용리를 위해, 20㎕의 QIAGEN 용리 완충제를 첨가하였고, 1분 동안 인큐베이션시킨 다음, 13,000 rpm에서 1분 동안 원심분리시켰다. 용리액을 수집하였고, 스핀 칼럼을 버렸다.
PCR 풍부화
PCR 시약을 해동시키고 PCR 마스터믹스를 얼음에서 제조하였다. 샘플 당 62㎕의 마스터믹스에 대해, HF 완충제(핀자임(Finnzyme), NEB 카탈로그 번호 F-531S), 8㎕ 뉴클레아제가 없는 물, 2㎕ 일루미나 프라이머(Illumina Primer) 1.0(25㎛) 및 2㎕ 일루미나 프라이머(Illumina Primer) 2.0(0.5㎛)와 함께 50㎕의 2X 퓨전 하이 피델리티(Phusion High Fidelity) 마스터믹스를 사용하였다. 그 다음에 62㎕의 마스터믹스를 적절한 바코드를 지니는 2㎕ 일루미나 인덱스 프라이머(Illumina Index Primer)(25㎛, 일루미나 카탈로그 번호 PE-400-1001에 포함됨) 및 96-웰 PCR 플레이트 내 36㎕의 결찰된 DNA 샘플과 혼합시켰다.
반응물을 다음과 같이 서모사이클러 내에서 인큐베이션시켰다:
1 주기 98℃ 30 초
18 주기 98℃ 10 초
65℃ 30 초
72℃ 30 초
1 주기 72℃ 5 분
4℃ 중단
각각의 PCR 반응은 AMPureXP 비드(아젠코트(Agencourt); 벡맨 콜터 게노믹스(Beckman Co㎕ter Genomics) 카탈로그 번호 A6388)의 1.8x 부피로 선택된 규모였다. 간단히, 1.8x AMPureXP 비드를 1.5㎖ 마이크로원심분리기 튜브 내 샘플에 첨가하였고(예를 들어, 180㎕의 비드를 100㎕의 샘플에 첨가함), 교반시키고, 빙글빙글 회전하는 로테이션 혼합에 의해 5분 동안 인큐베이션시켰다. 용액이 맑아질 때까지(2분) 튜브를 자석 스탠드에 두었다. 자석 상에서 포획한 비드를 건드리지 않고 상청액을 버렸다. 600㎕의 갓 만든 70% 에탄올을 비드에 첨가하였고, 1분 동안 인큐베이션시킨 후 에탄올을 제거하였다. 600㎕의 갓 만든 70% 에탄올의 제2 알리쿼트를 비드에 첨가하였고, 1분 동안 인큐베이션시켰으며, 에탄올을 제거하였다. 튜브를 1 내지 2분 동안 자석 스탠드에 다시 갖다 놓아서 비드를 재포획하였다. 임의의 남아있는 에탄올을 제거하였고, 비드를 실온에서 5 내지 10분 동안 공기건조시켰다. 30㎕의 QIAGEN 용리 완충제를 비드에 첨가하였고, 교반시켰으며 2분 동안 인큐베이션시켰다. 용액이 맑아질 때까지(2분) 튜브를 자석 스탠드에 다시 두었다. 상청액을 신선한 1.5㎖ 튜브에 옮겼고, 비드를 버렸다. 용리시킨 DNA 샘플을 Q-PCR 분석을 사용하여 정량화하였다. 이들 정량화는 풀링한 혼성체 포획 선택 내에서 각각의 라이브러리의 동일한 표현을 보장하기 위해 등몰로 풀링되게 한다.
실시예 4: 혼성체 선택
풀 인덱스(Pool indexed) 샘플 라이브러리
인덱스되고, 정제되며, Q PCR에 의해 정량화된 라이브러리의 풀(12-플렉스까지)을 얼음에서 만들었다. 등몰의 풀을 1.5㎖ 마이크로원심분리기 튜브에서 제조하여 각 샘플이 혼성체 선택 과정에서 동일하게 표현되도록 보장하였다. 이들 풀의 각각에 대한 DNA의 전체 입력은 2000ng 내지 500ng의 범위에 있을 수 있다. 전형적으로, 전체 입력 DNA는 2000ng이다. 따라서, 12개의 샘플을 풀링시킨다면, 각각의 166.67ng을 풀링시켜 전체 2000ng을 달성할 수 있다. 2000ng 라이브러리 풀의 최종 부피는 4㎕이어야 한다. 인덱스 라이브러리의 농도를 다르게 하는 것에 기인하여, 풀을 임의의 더 큰 부피로 제조할 수 있지만, 그 다음에 풀은 스피드백(speedvac)(낮은 열을 사용)에 의해 건조시켜야 하며 4㎕의 뉴클레아제가 없는 물에서 재구성하였다.
라이브러리 구성에서 수율에 클수록, 라이브러리의 복잡성은 크다.
바이오틴화된-RNA 베이트에 풀링한 DNA 라이브러리의 혼성화
애질런트 슈어셀렉트(Agilent SureSelect) 표적 풍부화 페어드 엔드 키트(#G3360A-J)를 이 실험에서 사용하였다. 혼성화 완충제 #3, 슈어셀렉트 블록(SureSelect Block) #1, 슈어셀렉트 블록 #2, 페어드 엔드 프라이머(Paired End Primer) 1.0 블록, 인덱스 프라이머(Index Primer) 1-12 블록, RNAse 블록 및 바이오틴화된-RNA 베이트를 얼음 상에서 해동시켰다. 다음의 마스터믹스를 제조하였다.
a. 혼성화 완충제 혼합물(반응 당 13㎕):
i. 혼성화 완충제 #1(애질런트(Agilent)) - 25㎕
ii. 혼성화 완충제 #2(애질런트(Agilent)) - 1㎕
iii. 혼성화 완충제 #3(애질런트(Agilent)) - 10㎕
iv. 혼성화 완충제 #4(애질런트(Agilent)) - 13㎕
b. 차단 혼합물(반응 당 8㎕):
i. 슈어셀렉트 블록(SureSelect Block) #1(애질런트(Agilent)) - 2.5㎕
ii. 슈어셀렉트 블록(SureSelect Block) #2(애질런트(Agilent)) - 2.5㎕
iii. 페어드 엔드 프라이머(Paired End primer) 1.0 블록(IDT, H2O에 의해 200 uM로 재현탁시킴) - 1.5㎕
iv. 인덱스 프라이머(Index Primer) 1-12 블록(IDT, H2O에 의해 200 uM로 재현탁시킴) - 1.5㎕
c. RNase 블록의 희석
i. <3Mb 영역을 지니는 맞춤의 바이오틴화된 RNA-베이트에 대해: 1㎕의 RNase 블록(애질런트(Agilent))을 9㎕의 물에서 희석시켰다.
ii. 3Mb 초과의 베이트 영역을 지니는 맞춤 베이트에 대해: 1㎕의 RNase 블록을 3㎕의 물에서 희석시켰다(7㎕ 포획 반응물 당 여전히 0.5㎕의 RNase 블록)
d. 베이트 혼합: (반응물 당 7㎕)
i. RNA 베이트 - 2㎕(3Mb 초과의 베이트 영역을 갖는 베이트에 대해, 5㎕ 베이트를 사용하였다)
ii. 희석시킨 RNase 블록- 5㎕(3Mb 초과의 베이트 영역을 갖는 베이트에 대해, 상기 표시한 바와 같이 희석시킨 2㎕ RNase 블록을 사용하였다)
일단 혼성화 완충제 혼합물, 차단 혼합물 및 베이트 믹스(들)를 제조하면, 혼성화 완충제 혼합물을 교반하였고, 스핀다운시켰으며, 열 차단으로 65℃까지 가열하였다. 선택되는 혼성체가 되는 4㎕의 각각의 풀링 샘플 라이브러리를 96 웰 PCR 플레이트 내 8㎕의 차단 혼합물과 혼합하였다. 반응물을 95℃에서 5분 동안 인큐베이션시킨 다음 65℃에서 유지하였다. 풀링된 샘플 라이브러리/차단 혼합물을 95℃에서 5분 동안 그 다음에 65℃에서 2.5분 동안 인큐베이션시켰을 때, 베이트 혼합(=베이트/RNAse 블록 혼합)을 65℃에서 2.5분 동안 열 차단하에 두었다. 튜브를 함유하는 혼성화 완충제를 빠르게 스핀다운시킨 다음, 즉시 65℃ 가열 블록에 되돌렸다. 13㎕의 가열 혼성화 완충제 혼합물을 각 샘플 라이브러리/차단 혼합물에 피펫팅한 한편, 96 웰 플레이트를 65℃에서 서모사이클러 내에 남겼다. 일단 베이트 혼합물을 65℃에서 2.5분 동안 인큐베이션시키면, 7㎕의 베이트 혼합물을 각 샘플 라이브러리/블록/혼성화 완충제 혼합물에 첨가한 한편, 96 웰 플레이트를 65℃에서 서모사이클러에 두었다. 반응물(전체 부피는 32㎕임)을 서모사이클러에서 65℃에서 24시간 동안 인큐베이션시켰다.
자기 비드의 제조
슈어셀렉트 세척 완충제(SureSelect Wash Buffer) #2를 열 차단 중에 65℃로 사전가온하였다. 다이날 마이온(Dynal MyOne) 스트렙타비딘 T1 비드(인비트로젠(Invitrogen))을 교반시켰고, 재현탁시켰다. 50㎕ 다이날(Dynal) 비드 당 200㎕의 슈어셀렉트 결합 완충제를 첨가함으로써 비드를 세척하였다(예를 들어, 1200㎕의 슈어셀렉트 결합 완충제(SureSelect Binding Buffer)를 사용하여 300㎕의 다이날(Dynal) 비드를 제조하였다). 비드를 5초 동안 교반시켰고, 간단히 스핀다운시켰다. 비드를 약 15초 동안 또는 모든 비드가 포획될 때까지 자기 스탠드 상에 두었다. 상청액을 제거하였고, 버렸다. 전체 3회 세척동안 2회를 슈어셀렉트 결합 완충제(SureSelect Binding Buffer)에 의해 세척을 반복하였다. 세척 후, 비드를 50㎕ 다이날(Dynal) 비드 당 200㎕의 슈어셀렉트 결합 완충제(SureSelect Binding Buffer) 중에서 재현탁시켰다(예를 들어, 1200㎕의 슈어셀렉트 결합 완충제( SureSelect Binding Buffer)를 사용하여 300㎕의 다이날(Dynal) 비드를 제조하였다). 재현탁시킨 비드를 교반시켰고, 간단히 스핀다운시켰다. 200㎕의 재현탁 비드를 개개의 1.5㎖ 마이크로원심분리기 튜브에 알리쿼팅하였다.
혼성체 포획 DNA의 선택
24시간의 인큐베이션 후, 65℃에서 서모사이클러 내 PCR 플레이트로부터 각각의 혼성화된 샘플을 실온에서 200㎕의 제조된 비드를 함유하는 튜브 내로 빠르게 피펫팅하였다. 샘플과 비드의 혼합물을 5초 동안 교반시켰고, 실온에서 30분 동안 로테이터 상에서 인큐베이션시켜, 적절한 혼합을 보장하였다. 그 다음에 튜브를 빠르게 스핀다운시켰다. 비드를 자석 상에서 포획하였으며(2분 동안), 상청액을 제거하였고, 버렸다. 비드를 낮은 엄격 세척을 위해 슈어셀렉트 세척 완충제(SureSelect Wash Buffer) #1의 500㎕ 중에서 재현탁시켰다. 샘플을 5초 동안 교반시키고 자석을 끄고 실온에서 15분 동안 인큐베이션시켰다. 샘플을 3 내지 5초마다 5초 동안 교반시켰다. 튜브를 빠르게 스핀다운시켰다. 그 다음에 비드를 2분 동안 자석 스탠드 상에서 포획하였고, 상청액을 제거하였으며, 버렸다. 표적 물질을 제거하기 위한 높은 엄격 세척을 위해, 비드를 65℃로 사전가열한 슈어셀렉트 세척 완충제(SureSelect Wash Buffer) #2로 세척하였다. 간단히, 비드를 500㎕의 사전가온 슈어셀렉트 세척 완충제(SureSelect Wash Buffer) #2에서 재현탁시켰고, 5초 동안 교반기 상에서 혼합하여 비드를 재현탁시켰다. 원심분리기에서 비드를 간단히 스핀다운시키고, 실온에서 5초 동안 가끔씩 교반 혼합하면서 열 차단으로 65℃에서 10분 동안 인큐베이션시켰다. 그 다음에 비드를 원심분리기에서 간단히 스핀다운시켰고, 2분 동안 자석 상에서 포획하였다. 3회 세척 동안 65℃에서 사전가온한 슈어셀렉트 세척 완충제(SureSelect Wash Buffer) #2에 의해 세척을 2회 반복하였다. 그 다음에 세척 완충제를 완전하게 제거하였고, 50㎕의 슈어셀렉트 용리 완충제(SureSelect Elution Buffer)를 비드에 첨가한 후 5초 동안 교반시켜 비드를 혼합하였다. 샘플을 5초 동안 때때로 교반 혼합에 의해 실온에서 10분 동안 인큐베이션시켰다. 비드를 원심분리기에서 간단히 스핀 다운시키고, 자석 스탠드 상에서 포획하였다. 포획한 DNA를 함유하는 상청액을 새로운 1.5㎖ 마이크로원심분리기 튜브에 피펫팅하였다. 50㎕의 슈어셀렉트 중화 완충제를 포획한 DNA에 첨가하였다. 샘플을 5초 동안 교반시켰고, 원심분리기 내에서 간단히 스핀다운시켰으며, 1.8x 부피의 AMPureXP 비드를 사용하여 정제하였다. DNA를 40㎕ 뉴클레아제가 없는 물에서 용리시켰다.
포획한 DNA의 PCR 풍부화
PCR 시약을 해동시켰고, PCR 마스터믹스를 얼음에서 제조하였다. 샘플마다 60㎕의 마스터믹스에 대해, HF 완충제(NEB #F-531S)를 지니는 50㎕ 2X 퓨전 하이 피델리티(Phusion High Fidelity) 마스터믹스를 8㎕의 뉴크렐아제가 없는 물, 1㎕ QPCR 프라이머(Primer) 1.1(H2O 중에서 100㎛) 및 1㎕ QPCR 프라이머(Primer) 2.1(H2O 중에서 100㎛)과 혼합하였다. Q-PCR에 대한 프라이머 서열은,
QPCR 프라이머(Primer)1.1(IDT로부터 HPLC-정제):
5'AATGATACGGCGACCACCGAGAT3'(서열번호 48)
QPCR 프라이머2.1(IDT로부터 HPLC-정제):
5'CAAGCAGAAGACGGCATACGA3'(서열번호 49)
60㎕의 마스터믹스를 96 웰 PCR 플레이트 내 40㎕의 각각의 정제된 포획 DNA 샘플에 첨가하였다. 반응물을 다음과 같이 서모사이클러에서 인큐베이션시켰다:
1 주기 98℃ 30 초
12 주기 98℃ 10 초
65℃ 30 초
72℃ 30 초
1 주기 72℃ 5 분
4℃ 중단
각각 100㎕의 PCR 반응물을 1.8x 부피의 AMPureXP 비드로 정제하였고, 35㎕의 용리 완충제 중에서 용리하였다(10mM Tris, pH 8.5). 혼성체 선택/포획된 DNA 샘플을 Q-PCR 분석을 사용하여 정량화하였다. Q-PCR 분석은 말단 어댑터를 검출하였고, 판독은 얼마나 많은 각각의 샘플이 적절한 클러스터 밀도를 얻기 위해 시퀀싱 유동 세포 상에 로딩되어야 하는지를 표시하였다.
실시예 5: 방법
다음은 실시예에 따른 변경을 확인하기 위해 사용된 방법 및 실험 조건의 특정 실시형태를 예시한다. 추가적인 전위 스크리닝은, 예를 들어 사전-선택된 종양 샘플로부터 제조된 cDNA의 qRT-PCR 분석을 사용하여 행해질 수 있다.
대량병렬 DNA 시퀀싱을 혼성화 상에서 행하였고, 보관용 고정된 파라핀-포매 조직으로부터 단리된 DNA를 사용하여 어댑터 결찰-기반 라이브러리를 포획하였다. 분석 툴의 조합을 사용하여 데이터를 분석하였고, DNA 변경 호출을 부여하였다. 냉동 종양으로부터 제조된 cDNA의 qRT-PCR 분석 또는 보관용 FFPE 표본의 IHC 평가 중 하나를 사용하여 추가적인 전위 스크리닝을 행하였다. FFPE 조직으로부터 단리된 RNA를 사용하여 신규한 전위 둘 다의 발현을 확인하기 위해 대량 병렬 cDNA 시퀀싱을 수행하였다. 혈액으로부터 매칭된 정상 기준 게놈 DNA를 인덱스 NSCLC 환자에 대해 시퀀싱하여 재배열의 체세포 기원을 확인하였다.
게놈 DNA 시퀀싱
145개 암 유전자의 2574 엑손의 시퀀싱을 보관용 포르말린 고정된 파라핀 포매(FFPE) 종양 표본으로부터의 DNA를 사용하여; NSCLC 환자로부터 24명에서 행하였다. 게놈 DNA를 사용하는 어댑터 결찰 방법 다음에 최적화된 RNA 혼성화 포획 프로브(애질런트 슈어셀렉트(Agilent SureSelect) 맞춤 키트)에 의한 혼성화 선택에 의해 시퀀싱 라이브러리를 구성하였다. HiSeq2000 기기(일루미나(Illumina)) 상의 시퀀싱을 253X의 평균 심도에 대해 36 x 36 쌍 판독을 사용하여 행하였다. 염기 치환, 삽입-결실, 복제수 변경 및 게놈 재배열을 위한 데이터 처리 및 돌연변이 부여를 종양 조직으로부터 돌연변이 호출에 대해 최적화된 툴의 조합을 사용하여 행하였다.
cDNA 시퀀싱
로슈 하이 퓨어(Roche High Pure) 키트를 사용하여 단일 5-10um FFPE 조직 부문으로부터 추출한 전체 RNA로부터 cDNA를 만들었고, 수퍼스크립트(SuperScript(등록상표)) III 제1-가닥 합성 시스템(인비트로젠(Invitrogen))에 의해 역전사시켰다. 이중 가닥 cDNA를 넵넥스트(NEBNext)(등록상표) mRNA 제2 가닥 합성 모듈(뉴 잉글랜드 바이오랩스(New England Biolabs))로 만들었고, FFPE DNA 샘플에 대해서 라이브러리 구성, 혼성체 포획 및 시퀀싱에 대한 입력으로서 사용하였다. 분석 툴의 조합에 의해 발현 수준의 분석을 행하였다.
실시예 6: 멀티플렉스 분석을 위한 대표적인 선택 유전자 및 변이체
이 실시예는 멀티플렉스 분석을 위해 유전자, 변이체 및 암 유형의 선택을 요약하는 4가지 대표적인 표를 제공한다.
Figure pat00016
Figure pat00017
Figure pat00018
Figure pat00019
Figure pat00020
Figure pat00021
Figure pat00022
Figure pat00023
Figure pat00024
Figure pat00025
Figure pat00026
(표 1A): 암 유형, 우선순위 코돈, 작용가능성 범주 및 잠재적 치료와 관련된 추가적인 대표적 선택 유전자 및 변이체.
Figure pat00027
Figure pat00028
Figure pat00029
Figure pat00030
Figure pat00031
Figure pat00032
Figure pat00033
(표 1B): 상이한 암 유형에서 대표적인 변경의 분류
Figure pat00034
Figure pat00035
Figure pat00036
Figure pat00037
Figure pat00038
Figure pat00039
Figure pat00040
Figure pat00041
Figure pat00042
Figure pat00043
Figure pat00044
Figure pat00045
Figure pat00046
실시예 7: 혼성체 포획을 위한 대표적인 베이트 서열
표 7은 3가지 표적에 대한 대표적인 베이트를 제공한다: SMAD3_표적_10, SMAD3_표적_11, SMAD3_표적_12.
Figure pat00047
Figure pat00048
Figure pat00049
Figure pat00050
표 8은 2개의 표적: 2차 구조를 감소시키도록 변형된 FLT3_표적_24에 대해 서열을 지니는 베이트를 제공한다. FLT4_표적_31은 더 짧은 베이트와 효과적으로 유사한 베이트의 양 말단에서 일부 임의 서열을 가진다. 둘 다 약 4X만큼의 적용 범위를 개선시킨다(덮임률에서 ~4x 개선).
Figure pat00051
Figure pat00052
Figure pat00053
Figure pat00054
Figure pat00055
실시예 8: 임상적 암 표본의 차세대 시퀀싱으로부터 체세포 게놈 변경의 민감한 검출을 위한 베이지안 접근
본 명세서에 기재된 베이지안 접근을 다음의 실시예에서 수행하였다.
이 접근의 이용성을 임상적 설정에서 적절한 돌연변이 빈도의 더 낮은 범위에서 치환 검출에 대해 사전의 데이터-구동의 영향을 설명하는 전력 계산에 의해 예시한다. 도 2에서 나타내는 바와 같이, 사전 예상치(예를 들어, 1e-6 또는 10% 우선) 및 돌연변이 빈도(예를 들어, 1%, 5% 또는 15% 돌연변이)는 "임상적 암 표본의 차세대 시퀀싱으로부터 체세포 게놈 변경의 민감한 검출을 위한 베이지안 접근의" (i) 및 (ii)에서 각각 설명되는 값에 대응된다. 도 2는 포함되는 사전 예상치가, 예를 들어 돌연변이된 부위에서 필요한 덮임률 심도를 감소시키거나 또는 돌연변이를 검출하기 위한 추정력(민감성)을 증가시킴으로써 희귀 돌연변이에 대한 검출력을 개선시킨다는 것을 나타낸다.
실시예 9: 베이지안 접근: 구성된 저 순도 멀티-클론 샘플에 대한 적용
본 명세서에 개시된 베이지안 접근의 이런 이점을 추가로 증명하기 위해, 인공적 저순도, 1000 게놈 프로젝트에서 10명의 참여자로부터 DNA의 동일한 혼합에 의해 멀티-클론 "종양" 샘플을 구성하였고, 이에 의해 전체 DNA의 ~5% 또는 10%로 존재하는(전용의 이형 접합적 SNP로부터 생김) 매우 다수의 서열 변이체를 함유하는 DNA 풀을 만들었다. 혼합물에 182개의 암-관련 유전자의 엑손에 대해 혼성체 선택을 실시하였고, 일루미나 HiSeq2000 플랫폼에서 시퀀싱하였으며, 유전자 패널에 걸쳐 대략 350X의 평균 덮임률을 수득하였다. 각각의 구성성분 샘플을 마찬가지로 모든 SNP 부위에서 유전자형을 결정하기 위해 개별적으로 처리하였다. 풀 내에 존재하는 대략 260 ~5% "돌연변이" 중에서, 1e-6의 우선을 사용하는 고신뢰도로 89%를 검출한 반면, 94% 및 95%는 각각 1% 및 10%(~125x의 소실된 부위의 평균 덮임률)의 우선을 사용하여 검출가능한데, 이는 상기 이론적 결과를 뒷받침한다. 풀에 존재하는 102개 중에서 10% "돌연변이"는 풀에 존재하였고, 98%는 1e-6의 우선을 사용하여 고-신뢰도로 검출한 반면, 99% 및 99%는 1% 및 10%(13x의 소실된 부위의 덮임률)의 우선을 사용하여 검출가능하였다.
실시예 10: A 베이지안 접근: 폐 및 결장 종양 샘플에 적용.
COSMIC 데이터베이스로부터 몇몇 암 유형에서 적절한 돌연변이 빈도의 사전 예상치(월드 와이드 웹 상의 sanger.ac.uk/genetics/CGP/cosmic에서)는 일상적인 임상적 표본으로부터 추출한 80개 이상의 폐 및 결장암 샘플로부터 유래되고, 분석하였다. 이 암 유형에서 이 돌연변이에 대해 3% 우선의 포함에 의해 단지 검출될 수 있었던 결장암의 1% PIK3CA돌연변이 p.H1047R를 포함하는, 20개 이상의 상이한 유전자에서 공지된 돌연변이를 관찰하였다. 이들 결과는 종양 유형 특이적 돌연변이 범위 근처의 사전 예상치의 신중한 포함이 임상적 설정에 대해 NGS-기반 종양 게놈 분석의 번역에서 유리할 수 있다는 것을 나타낸다.
실시예 11: 베이지안 접근: 유방암 샘플에 대한 적용
FFPE 유방암 샘플에 대해 ~260x로 시퀀싱한 182개 암-관련 유전자의 엑손에서 치환 돌연변이 호출을 수행하였다. 대안의 대립유전자의 2 초과의 복제물을 지니는 부위의 수는 1,793이다. 돌연변이 존재에서 99% 초과의 사후 확신을 지니는 부위의 수는 402이다. 여과 후 남아있는 부위의 수는 188인데, 이는 대략 변이체 부위의 예상된 수이다. dbSNP에 있지 않은 부위의 수는 14인데, 이는 dbSNP가 변형의 90% 초과를 포획하기 때문에 dbSNP에 있지 않은 부위의 대략 예상된 수이다. 동일하지 않은 부위의 수는 5이다. COSMIC에서 부위의 수는 2이다(PIK3CA p.H1047R 및 P53 p.F113S).
실시예 12: 베이지안 접근: 드문 돌연변이의 검출
다수의 일상적인 임상적 표본은 적절한 희귀 돌연변이를 함유한다. 도 3은 100 이상의 임상적 암 샘플에서 돌연변이 빈도를 나타낸다. 샘플은 대부분의 결장암 및 폐암의 FFPE 생검, 수술적 절제 또는 미세-바늘 흡인물이었다. 일련의 임상적 샘플에서 발견되는 공지된 돌연변이의 빈도 범위를 표 12에 나타낸다.
일련의 임상적 샘플에서 발견되는 공지된 돌연변이의 빈도 범위
일련의 임상적 샘플에서 발견되는 공지된 돌연변이의 빈도 범위
<5% 돌연변이의 분획 <10% 돌연변이의 분획 <25% 돌연변이의 분획 <50% 돌연변이의 분획 <100% 돌연변이의 분획
7%* 17% 50% 85% 100%
*과소평가될 가능성 있음
실시예 13A. 개별적으로 합성된 올리고뉴클레오타이드 포획 프로브를 사용하는 고성능 용액-기반 표적 선택
용액-기반 게놈 표적 선택 기법의 이용가능성은 표적화된 시퀀싱 적용의 빠른 개발을 가능하게 하였는데, 이는 임상적 시퀀싱 시험의 도입을 유발하였다. 상업화된 혼성화 포획 시약은 바이오틴화된 DNA 또는 RNA 프로브("베이트")로 전환되는 어레이 합성된 올리고뉴클레오타이드를 기반으로 한다. 그러나, 프로브의 이런 복잡한 풀을 만드는 방법은 성능 과제(performance challenge), 예를 들어 고-GC 함량 표적의 포획에 직면해 있다.
57개의 임상적으로 적절하고 작용가능한 암-관련 유전자를 나타내는 ~130kb의 표적 영역을 포획하기 위해 개별적으로 합성된 5'-바이오틴화된 올리고뉴클레오타이드("올리고-베이트")를 사용하는 대안의 접근이 본 명세서에 기재된다. 24-시간 혼성과 절차와 함께 이들 올리고-베이트를 사용하여 선택된 라이브러리의 인덱스 시퀀싱으로 5,000-배 표적 풍부화를 얻었다. 50M 49x49 페어드 엔드 판독으로 568x(27%)의 표준 편차를 지니는 2100x의 평균 표적 적용 범위를 만들었다. 모든 표적은 성공적으로 덮었고, 99.95%의 표적화된 염기는 500x 초과에서 덮는다. 더 나아가, 표적 덮임률은 GC-바이어스가 사실상 없었다. 70% 초과의 GC 함량을 지니는 표적은 1,975x 덮임률로 평균화되었고, 35% 미만의 GC 함량을 지니는 표적은 1,996x 덮임률로 평균화되었다.
심지어 더 짧은 혼성화 시간을 사용하여 고성능을 유지하였고: 2.5 시간 혼성화 후 500x 초과에서 99.3%의 표적화된 염기를 다루었다.
SSPE(연어정자, PE)/덴하르트(Denhardt)의 사용은 TEACl, TMACl 및/또는 덱스트란 설페이트를 함유하는 혼성체/세척물 완충제를 능가하였다.
올리고-베이트를 (예를 들어, 고 GC%)영역을 달리 포획하기가 어려운 덮임률을 증가시키기 위해 또는 새로운 유전자 내용물을 빠르게 첨가하기 위해 어레이-유래 베이트 풀에 첨가할 수 있다. 이 접근은 고성능의 표적화된 임상적 시퀀싱 시험을 개발하기 위한 고도로 효과적이며 확장가능한 방법을 제공한다.
실시예 13B: 포획 베이트의 최적화 방법
3개의 베이트 세트를 시험하였다. 결과를 도 5에서 요약한다. 베이트 세트는 다음과 같다:
베이트 세트 #1은 5'-바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트만으로 이루어진다.
베이트 세트 #2는 5'-바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트가 스파이킹된 바이오틴화된, 어레이-유래 RNA 베이트를 포함한다.
베이트 세트 #3은 바이오틴화된, 어레이-유래 RNA 베이트 만으로 이루어진다.
모두 5'-바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드는 5' 바이오틴을 지니는 120개의 염기였다.
도 5는 베이트 세트 #3에 비해서, 베이트 세트 #1 및 베이트 세트 #2에 의해 검출된 덮임률에서 균일함을 비교하는 덮임률 히스토그램이다. 베이트 세트는 도 5에서 #1, 2 및 3로서 나타낸다. 덮임률의 몇몇 갭은 고 GC%에 대응되는 베이트 세트 #3을 사용하여 존재하는 반면, 도 5에서 도시하는 바와 같이 대응되는 영역은 베이트 세트 #1 및 #2를 사용하여 깊게 덮여진다. 도 5에서 "GC_밀도_표적…"으로 표지된 왼편의 패널은 표적 내에서 국소적인 GC 함량을 표시하며, 라인은 65% GC 함량을 나타내어서, 라인 이상의 임의의 값은 더 고 GC 함량을 나타낸다. 히스토그램에 나타낸 바와 같이, 덮임률은 고 GC 함량의 영역에서 베이트 세트 3#에 대해 가장 낮다. "IDT_베이트…"로 표지된 도 5의 하부 패널은 나타낸 표적을 덮는 올리고의 위치를 표시한다.
어레이-유래 베이트 세트를 단독으로 사용하거나 개별적으로 합성된 베이트를 첨가한 표적 수 및 덮임률의 변화의 그래프 표현을 도 4에 도시한다. 더 구체적으로는, 도 4는 덮임률 히스토그램의 선형 표현이다. 표적의 수(y-축)를 덮임률(x-축)의 함수로서 도시한다. 라인 #1은 5'-바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트가 스파이킹된 5'-바이오틴화된, 어레이-유래 RNA 올리고뉴클레오타이드 베이트를 포함하는 베이트 세트(도 4에서 "베이트 세트 #1"로서 지칭함)를 사용하는 덮임률을 나타낸다. 라인 #2는 바이오틴화된, 어레이-유래 RNA 올리고뉴클레오타이드 베이트 만을(도 4에서 "베이트 세트 #2"로서 지칭함) 포함하는 베이트 세트를 사용하여 얻어진 덮임률을 나타낸다. 베이트 세트 #2를 사용하는 전반적인 평균 덮임률은 924인 반면, 베이트 세트 #2를 사용하는 고 GC 함량(약 68%)의 덮임률은 73이었다. 대조적으로, 베이트 세트 #1이 사용될 때, 전반적인 덮임률은 베이트 세트 #1과 유사하게, 약 918이었지만, 덮임률은 고 GC 함량의 영역에서 183으로 개선되었다.
실시예 13C: 베이트 세트를 평가하기 위한 대표적인 실험 조건
베이트 세트 A는 5'-바이오틴화된, 개별적으로 합성된 DNA 올리고뉴클레오타이드 베이트만으로 이루어진다. 본래의 세트는 1000 올리고인데, 이는 표적 영역의 133 kb를 덮는다(본 명세서에서 "거대 세트", "베이트 세트 A" 또는 "DNA 올리고 베이트"로서 지칭됨).
"스파이크-인(spike-in)" 실험에 대해, 본래 1000 DNA 올리고 세트("거대 세트")를 바이오틴화된, 어레이-유래 RNA 올리고뉴클레오타이드 베이트(이 실시예에서 "베이트 세트 B" 또는 "RNA 베이트"로서 지칭됨)로 이루어진 베이트 세트에 첨가하였다. 베이트 세트 A로부터의 DNA 올리고 베이트의 상이한 비로 베이트 세트 B로부터의 RNA 베이트와 혼합하였다. 특히, 1:10의 DNA 올리고 베이트:RNA 베이트 비를 사용하였다(10ng 전체 DNA 올리고 베이트 대 100ng 전체 RNA 베이트). 혼성화 및 세척 조건을 RNA에 대해 가장 이상적인 것과 매치시켰다(RNA 베이트에 대해 최적의 세척 온도는 70C인 반면, DNA 올리고 베이트에 대해서는 ~50C가 된다는 것이 주된 차이점임).
낮은 타일링 밀도에 의해, 베이트 위치에 대응된 DNA 올리고 베이트를 사용할 때 덮임률에서 강한 주기성을 검출하였다. 추가로, 낮은 타일링 밀도는 삽입/결실이 더 어려운 대림유전자를 포획할 수 있게 할 수 있다. 따라서, 베이트 세트를 표 13에서 도시한 상이한 타일링 밀도를 갖는 MAP3K1에 대해 설계하였다. 혼합 하에서, 6가지의 암-관련 유전자(DAXX, TRRAP, CREBBP, GRIN2A, SPOP, GNA11)의 엑손을 포획하기 위해 설계된 5'-바이오틴화된, 개별적으로 합성된 DNA 올리고 베이트를 함유하는 혼합물 1을 단지 어레이-유래 RNA 올리고뉴클레오타이드 베이트(베이트 세트 B)에 스파이킹하였다. DAXX, TRRAP, CREBBP, GRIN2A 및 SPOP은 RNA 베이트 세트에 존재하지 않았다. 혼합물 2 내지 4를 베이트 세트 A(DNA 올리고 베이트의 거대 세트)에 첨가하여 MAP3K1의 엑손에 대해 포획 베이트의 상이한 타일링 밀도(혼합물 2는 고밀도로 됨)를 시험하였다. RNA 베이트 세트는 단독으로 약 1MB의 서열을 덮었다.
포획 프로브를 사용하는 방법을 위한 혼합물
카테고리
혼합물 1 흑색종 유전자에 대해 369
혼합물 2 MAP3K1에 대해 60의 91 올리고 타일링 밀도
혼합물 3 MAP3K1에 대해 100의 57개 올리고 타일링 밀도
혼합물 4 MAP3K1에 대해 150의 40개 올리고 타일링 밀도
혼합물 5 STK11 엑손 3에 대해 3개의 올리고
포획에 대한 입력은 2㎍의 풀링된 세포주 DNA 라이브러리였다. 2㎍ 라이브러리를 차단 혼합물과 혼합하였고(표 14), 건조시켰으며, 9㎕ 물 중에서 재현탁시켰다. 그 다음에 이 혼합물을 플레이트에 두었고, 사이클러에 옮겼으며, 98℃에서 5분 동안 실행한 다음, 68℃에서 2분 동안 실행하였다. 그 다음에 플레이트를 밀봉하지 않았고, 11㎕ DNA 베이트/혼성체 완충제 혼합물을 68℃에서 첨가하였다. 68℃에서 DNA 베이트/혼성체 혼합물 = 10㎕ 혼성체 완충제 + 1㎕ 베이트(10ng, 50ng 또는 100ng 베이트를 함유).
DNA 베이트 단독(예를 들어, 베이트 세트 A)에 의한 포획을 위해, 혼성화를 68℃에서 수행하였고, 세척을 50℃에서 수행하였다. 베이트를 5ng, 10ng, 100ng, 1000ng 및 2000ng(2ug 입력 라이브러리 마다)에서 시험하였다. 24시간 혼성화 동안, 5-10ng 조건이 이상적이었고, 100ng 조건이 또한 허용가능하였다. 2.5 시간 혼성화 동안, 100ng을 최고로 작업하였다.
불량한 수행/고 GC 영역을 구하기 위해 RNA-어레이 베이트 세트(B)에 스파이킹된 거대 DNA 베이트 세트(100kb)로 포획을 위해, 혼성화를 68℃에서 수행하였고, 세척을 70℃에서 수행하였다. 베이트 세트를 1:10 DNA 올리고: RNA 베이트(즉, 10ng 전체 질량의 올리고 베이트 및 100ng 전체 질량의 RNA 베이트)에서 시험하였다.
RNA 베이트 세트에 스파이킹된 작은, 유전자 집중 DNA 베이트 세트에 의한 포획을 위해, 혼성화를 68℃에서 수행하였고, 세척 온도 범위를 시험하였다(62℃, 64℃, 66℃, 68℃, 70℃ 및 72℃).
혼합물 1(6개의 새로운 유전차를 추가)을 다음의 비로 시험하였다: 1:5, 1:10 및 1:20 전체 올리고 DNA 베이트 질량: RNA 베이트 질량(즉, 20ng:100ng, 10ng:100ng 및 5ng:100ng).
혼합물 5(낮은 덮임률로 통과하는 STK11의 엑손 3을 나타내는 3개의 올리고)를 1:500, 1:1000 및 1:2000 DNA 올리고:RNA 올리고에서 시험하였다. 100ng의 전체 RNA 베이트를 사용하였다. STK11을 시험하였는데, 이는 RNA 베이트 단독으로 포획하였을 때 불량한 검출 성능을 지니는 중요한 암 표적을 나타내기 때문이다. STK11의 엑손 3의 DNA 올리고 스파이킹은 70X 내지 300X의 평균으로부터 덮임률을 증가시킨다.
포획 프로브를 사용하는 방법에 대한 완충제
베이트(풀링된 IDT 올리고) 39600 100 n㏖ = 0.0039600 그램 =
(g/㏖) 396000 나노그램
낮은 TE에서 재현탁 25㎖ 250㎕ 트리스
5㎕ EDTA
차단 혼합물 [저장액] [작업] 14.5㎕/rxn
대조군1 1ug/㎕ 1ug/ul 10
연어정자 10ug/㎕ 10.0ug/ul 1
PE 1.0 800uM 800uM 1.75
보편적 인덱스 800uM 800uM 1.75
2X 혼성체 완충제 [저장액] [최종] 10 ml (10ul/rxn) 중에서
SSPE 20X 10X 5㎖
덴하르트 50X 10X 2㎖
EDTA 0.5M 0.01M 200ul
SDS 10% 0.20% 200ul
2.6㎖
비드 세척 [저장액] [최종] 50ml(200ul/세척물) 중에서
NaCl 5M 1M 10㎖
트리스 1M 10mM 500ul
EDTA 0.5M 1mM 100ul
39.4㎖
세척 완충제1 [저장액] [최종] 50ml(150ul/세척물) 중에서
SSC 20X 1X 2.5㎖
SDS 10% 0.10% 500ul
47㎖
세척 완충제2 [저장액] [최종] 50ml(150ul/세척물) 중에서
SSC 20X 0.1X 250ul
SDS 10% 0.10% 500ul
49.25㎖
실시예 14. 포르말린 고정 조직으로부터 유래된 DNA의 낮은 입력을 사용하는 민감한 종양 프로파일링을 위한 일상적인, 초-심도 시퀀싱
고속-대량 DNA 시퀀싱 기법의 광범위한 적용은 암 게놈에서 빠른 진보를 가능하게 하였다. 그러나, 게놈 암 진단에서 치료기준은 여전히 개개의 유전자 및 구체적 돌연변이에 집중한 시험을 수반한다. 임상적으로 작용가능한 돌연변이의 수가 증가함에 따라, 시험 패러다임당 이 단일 돌연변이는, 특히 조직 표본이 일반적으로 생검의 경우와 같이 제한될 때, 실행할 수 없게 된다. 종양 샘플의 종합적인 게놈 프로파일링을 위한 임상적 필요를 처리하기 위해, 본 발명자들은 200+ 암-관련 유전자에 대해 대량병렬 서열 데이터를 전달하는 임상적 시험을 개발하였다. 더 나아가, 이 시험은 임상적으로 적절한 것으로 나타났는데, 이는 50ng 만큼 낮은 DNA 입력에 의해 포르말린-고정 파라핀-포매(FFPE) 조직 샘플로부터, 그리고 11년만큼 오래된 샘플로부터 초-심도 시퀀싱 데이터를 만든다.
매우 다양한 샘플에서 이런 시험 수행을 평가하기 위해, 연령-차단 세트로부터의 96개의 FFPE 표본으로부터 DNA를 단리하였는데, 이는 다음의 연령에 걸쳐 각 조직에 대해 균일하게 분포된 유방, 결장, 폐 및 신장 조직의 각각으로부터 12개의 종양/정상 쌍을 포함하였다: 1, 3, 5, 7, 9 및 11-세. 200ng 및/또는 50ng의 입력 DNA를 사용하여 인덱싱된 시퀀싱 라이브러리를 구성하였는데, 이는 그 다음에 용액-기반 혼성체 포획 방법을 사용하여 200+ 암 관련 유전자에 대해 풍부화하였고, 일루미나(Illumina) HiSeq(상표명) 2000 플랫폼 상에서 시퀀싱하였다.
라이브러리 구성을 위하여 적어도 200ng의 DNA를 수득하는 76개 샘플에 대해, 시퀀싱 덮임률은 PCR 복제물의 제거후 1,000x로 평균을 내었고, 95% 초과의 샘플은 350x 초과의 중앙값 덮임률을 수득하였다. 50ng이 라이브러리 구성에 대해 사용된 경우의 샘플에 대해, 덮임률은 450x으로 평균을 내었다. 시퀀싱 수행은 모든 샘플 조직 유형 및 유형에 거쳐서 일치되었다. 이러한 초-심도 시퀀싱은 5 내지 10%만큼 낮은 빈도로 존재하는 돌연변이의 고 신뢰도 검출을 가능하게 한다.
실시예 15. 순환 종양 세포를 사용하는 종양 게놈의 프로파일링
순환 종양 세포(Circulating tumor cell: CTC)는 최소의 침습성, 연속적 방식으로 인간 악성 종양을 샘플링하는데 독특한 기회를 제공한다. 암 게놈의 분자적 특성규명을 위한 CTC의 사용은 2가지 중요한 도전을 시사한다. 첫째로, CTC는 그것들이 비종양 세포에 의해 107-배 우세할 수 있는 경우, 혈액으로부터 효율적으로 단리되어야 한다. 두번째로, CTC 샘플에 존재하는 제한된 수의 종양 게놈은 물질의 소실 및 바이어스의 도입을 최소화하는 동안 허용가능한 형태로 포획되어야 한다.
이전의 CTC 유전자 분석은 대립유전자-특이적 PCR을 사용하였고; 이들 방법은 야생형 서열의 ≥104-배 배경에서 매우 낮은 복제수의 구체적 돌연변이의 검출을 허용한다. CTC 존재비 및 포획 효율의 이중적 도전을 처리하는 동안, 이 접근은 본질적으로 좁은 특성규명의 선택인 사전구체화된 변이체로 제한된다. 분자적 CTC 분석을 게놈 시대로 이동시키기 위해, 본 발명자들은 수만개의 백혈구보다는 단지 수백개의 배경으로 CTC를 회수하는 미소유체 희귀-세포 포획 시스템을 단일 CTC 샘플로부터 200개 이상의 암-관련 유전자의 심층 재시퀀싱을 가능하게 하는 차세대 플랫폼과 결합시켰다.
10개까지의 암 세포주의 복잡한 혼합물을 사용하여, 100만큼 적은 전체 세포로부터 민감한 돌연변이 검출하는(≥10% 존재비의 대립유전자에 대해 ~94%) 한편, 대립유전자 빈도를 대체로 보존하였다(R2~0.90). 전체 혈액에 스파이킹된 배양 세포를 재포획함으로써, 10개만큼 적은 암 세포를 함유하는 표본으로부터 다유전자 돌연변이 프로파일을 획득하였다. 이 민감성 수준은 NGS 분석의 범위 내에 대부분의 임상적 CTC 샘플을 위치시킨다. 유방암 환자로부터의 일련의 혈액 샘플에서, Her2Neu 양성 세포의 빈도를 체세포 돌연변이 양성 DNA의 상대적 존재비와 비교함으로써 잠재적 CTC 이질성을 조사하였다.
실시예 16. FFPE 종양 샘플의 표적화된 DNA 및 RNA 심층 시퀀싱의 통합을 통한 유전자 발현의 암-관련 돌연변이, 전위 및 변화의 검출
암에 대해 개인화된 치료의 광범위한 적용은 종양의 게놈 및 전사체에 존재하는 다양한 일탈의 종합적이며, 민감하고, 적시인 특성규명을 필요로 한다. 보통 포르말린 고정 파라핀 포매(FFPE) 블럭으로서 저장되는 대부분의 임상적 암 샘플로부터의 RNA 및 DNA는 불량한 품질을 가지며, 분자적 프로파일링을 위한 사용이 어려웠다. 신생의 차세대 DNA 시퀀싱 분석은 손상된 DNA에 의해 잘 실행되며, 다수의 게놈 일탈 유형을 검출하기에 충분히 민감하다. 현재, FFPE 종양 샘플로부터 전사체의 종합적인 분석을 위한 유사한 RNA 시퀀싱 프로토콜은 없다.
결과:
200개의 암-관련 유전자에서 돌연변이, 재배열 및 발현 변화의 민감한 검출을 위한 FFPE-양립성 표적화된 RNA 시퀀싱 및 분석 방법이 개발되었다. 프로토콜은 세포주 RNA에서 승인되었고, 50개 FFPE 비소세포 폐암(NSCLC) 종양에 걸쳐 연구를 위해 사용하였다. 공지된 돌연변이 및 유전자 융합(예를 들어, BCR-ABL1)을 세포주에서 검출하였다. 디지털 발현에서 기술적 재현성은 세포주 및 FFPE RNA 각각에 대해 R2=0.99 및 0.9 초과를 넘었다. 암 게놈에서 예상되는 바와 같이, RNA-시퀀싱은 공지된 종양유전자를 수반하는 점 돌연변이 및 신규한 재배열을 포함하는 게놈에서 일탈의 증거를 제공하였다. 상이한 종양에 걸쳐 2.5- 내지 70-배의 범위에서 EGFR, FGFR3, CDH5, KIT 및 RET를 포함하는 종양유전자의 매우 중요한 차별적인 발현을 나타내었다. 동일한 FFPE 샘플에서 RNA와 DNA 시퀀싱 데이터의 조합은 게놈 변경의 기능적 결과를 확증하였고; 예는 돌연변이된 TP53 대립유전자의 발현 및 DNA 수준에서 이형접한 소실을 나타낸 종양에서 감소된 STK11 발현을 포함하였다. 현존하는 DNA 시퀀싱 방법에 의한 FFPE RNA 및 통합에 대한 차세대 시퀀싱 기법의 적용은 임상적으로 적절한 암 생검의 이해를 확장시키고 환자 치료를 개선시키는 것으로 예측된다.
방법:
제조업자의 설명서에 따라 로슈 하이 퓨어 파라핀 키트(Roche High Pure Paraffin Kit)를 사용하여 FFPE 조직 부문인 전형적으로 1 또는 2개의 10㎛ 컬(curl)로부터 RNA를 추출하였다. 추출한 RNA를 -80℃에서 저장한다. RNA를 수득하고, 리보그린(인비트로젠(Invitrogen)) 및 바이오아날라이저 RNA 피코 칩(Bioanalyzer RNA Pico Chip)(애질런트(Agilent))에 의해 각각 품질을 평가한다. 전형적인 수율은 500ng 내지 2㎍이고, RIN 스코어는 4 미만이다.
제조업자의 프로토콜에 따라 슈퍼스크립트 III(SuperScript III)(인비트로젠(Invitrogen))을 사용하여 20㎕ 반응물 중의 100 내지 600ng의 FFPE RNA로부터 프라이머로서 550 p㏖의 무작위 헥사머에 의해 상보적 DNA(cDNA)의 제1 가닥을 만든다. 60㎕의 NEBNext 제2 가닥 합성 모듈(NEBNext Second Strand Synthesis Module)(뉴잉글랜드 바이오랩스(New England Biolabs)) 매트릭스-혼합물의 첨가 및 제조업자의 프로토콜에 따라 16℃에서 150분 동안 인큐베이션에 의한 제1 가닥 합성 후 즉시 완전한 이중-가닥 cDNA를 만들기 위한 제2 가닥 합성을 수행한다. 이중-가닥 cDNA의 품질 및 수율을 피코그린(PicoGreen)(인비트로젠(Invitrogen)) 및 바이오어날라이저 고 민감성 칩(Bioanalyzer High Sensitivity Chip)(애질런트(Agilent))를 사용하여 평가할 수 있다. 일반적으로, 전체 cDNA 합성 수율을 표준 FMI 라이브러리 구성 프로토콜에 대한 입력값으로 사용한다.
페어드-엔드 호환성 시퀀싱 라이브러리의 구성 및 이후의 혼성체 선택 및 FFPE RNA로부터 만들어진 cDNA의 시퀀싱을 본 명세서에 기재된 FFPE DNA에 대한 것과 유사한 프로토콜을 사용하여 수행하지만, 고도로 단편화된 특성의 FFPE RNA가 전단에 대한 필요성을 제거하기 때문에 말단 복구 단계에서 직접 시작한다.
FFPE RNA로부터 시퀀싱 데이터의 분석을 당업계에 공지된 방법을 사용하여 수행할 수 있다. 예를 들어, FFPE RNA로부터의 시퀀싱 데이터의 분석을 기준 게놈 서열(hg19) 및/또는 기준 전사체(공지된 전사체, 예를 들어 RefSeq의 모든 서열)에 대해 판독 쌍 모두를 맵핑함으로써 수행할 수 있다. 그 다음에 유전자 융합, 유전자 서열 내 돌연변이, 대안의 스플라이싱을 확인하고, 문헌, 예를 들어 문헌[Berger et al. (2010) Genome Res. 20(4):413-27 (PMID 20179022) 및 Garber et al. (2011) Nat Methods. 8(6):469-77 (PMID 21623353)]에 기재된 바와 같은 유전자 발현을 정량화하기 위해 유전자 발현을 정량화기 위해 맵핑된 판독을 사용하였다. 문헌[Levin et al. (2009) Genome Biol. 10(10):R115 (PMID 19835606)]에 의해 증명된 바와 같이, 표적화된 RNA-seq을 사용하여 유전자의 선택된 세트에서 돌연변이 검출 및 융합 발견을 개선시키고, 발현 프로파일링을 위한 정량적 정보를 보존할 수 있다.
실시예 17. 임상적 종양 샘플의 초-심도 시퀀싱에 의한 민감하고 정확한 돌연변이 호출
암 게놈의 이해의 빠른 진보 및 이용가능한 표적화된 치료의 증가되는 수 는 종합적인 종양 프로파일링에 기반한 효과적인 암치료에 대한 기회의 확장을 제공한다. 검색 설정에서 차세대 시퀀싱에 의한 종양 게놈의 분석에 대해 중요한 진전이 실험적 및 컴퓨터적 접근에 의해 만들어졌지만, 병원에 대해 이들 기법을 확대하는 것은 상당한 추가적인 도전을 제기한다.이들 중에서 중요한 것은 임상적 표본의 제한된 순도 및 이질성이며, 이는 광범위한 잠재적으로 임상적으로 작용가능한 돌연변이에 대해 고민감성 및 정확성을 제공하는 필요와 결합된다.
이 도전을 처리하기 위해, 본 발명자들은 낮은 분획에서 존재하는 상이한 유형의 돌연변이에 대해 고수준의 민감성 및 정확성을 제공하기 위해 이 심도를 이용할 수 있는 일상적인 FFPE 종양 샘플 및 컴퓨터적 툴로부터 200+ 암-관련 유전자에 대해 초-심도 서열 데이터(700x 초과)를 만들 수 있는 임상 시험을 개발하였다. 본 발명자들의 분석적 공급관은 공지된 돌연변이 빈도를 설명하는 맵핑된 서열 데이터에서 짧은 변이체를 검출하며, 더 거대한 삽입 및 결실을 확인하기 위해 중단점 검출 및 국소적 어셈블리를 조합하는데, 이는 종종 대안의 방법에 의해 누락된다. 추가로, 복제-수 대안 및 중요한 암 유전자를 수반하는 재배열을 확인한다.
본 발명자들의 새로-개발한 방법의 분석적 성능을 입증하기 위해, 본 발명자들은 이종의 DNA에서 드문 사건에 대한 모델로서 샘플 혼합물의 광대한 연구를 설계하고 실행하였는데, 이는 20개의 정상 HapMap 세포주 및 28개의 개별적으로 특성규명된 암 세포주를 포함한다. 본 발명자는 치환에 대해 100% 민감도 및 10% 초과의 혼합물에서 존재하는 길이 1 내지 50bp의 삽입-결실에 대해 90% 초과의 민감도를 보고하는데, 둘 다 PPV>99%이다. 227개 흑색종, 전립선, 유방, 결장 및 폐 종양 샘플의 코호트에 대한 본 발명자의 시험의 적용은 427의 공지되고 가능성있는 체세포 구동 돌연변이를 나타내었는데, 이 중 40%는 20% 및 18% 미만 10% 미만의 샘플 분획으로 존재하며, 민감한 돌연변이 호출의 중요도를 밑줄로 나타낸다.
실시예 18. 수술절제면에서 암 돌연변이의 검출
종양의 절제면에서 조직이 조직학적으로 정상일 때 조차, 암-관련 돌연변이가 검출될 수 있다는 것을 발견하였다. 과형성 결장 용종과 관련된 조직 샘플을 바이오서브(BioServe)(메릴랜드주 벨트스빌에 소재)로부터 트라이어드(triad)로서 구입하였다. 트라이어드는 말초혈액 백혈구, 정상 조직 FFPE(포르말린 고정 파라핀-포매) 및 종양 조직 FFPE로부터의 게놈 DNA를 포함하였다.
예를 들어, 과형성 결장 용종의 절제변으로부터 단리시킨 정상 결장 샘플로부터 증가하여 시험한 6개 부문에서, 용종으로부터의 극원위 부분(부문 1)에서 어떤 kras 돌연변이도 관찰되지 않았다. KRAS p.G13D 돌연변이를 제2 극원위 부문(부문 2)으로부터 세포의 1%에서, 제3 극원위 부문(부문 3)의 세포의 2%에서, 제4 극원위부(부문 4)의 세포의 3%에서, 제5 극원위부(부문 5)의 세포의 4%에서 및 용종에 가장 가까운 부문(부문 6)의 세포의 5%에서 관찰하였다. 용종의 가장자리로부터의 부문으로부터 단리시킨 세포의 6%에서 돌연변이를 관찰하였다.
부문 1, 3 및 5의 조직 샘플의 H&E 염색은 암 조직의 조직학적 증거를 확인하지 않았다. 부문 6으로부터 H&E 염색은 용종의 존재를 확인하였다.
원위 직장으로부터 침습성의 중간정도로-분화된 선암종으로부터의 부문에서 종양 이질성을 검출하였다. 특히 시험한 부문 1-6은 다음의 돌연변이를 증가하여 포함하였다: 각각 BRAF p.V600E, TP53 p.R213X, BRCA1 c.2105결실G, APC c.5541삽입G 및 APC c.6463결실A.
이들 실험의 결과는 수술절제면에서 조직의 유전적 시험이 암성 또는 전암성 조직의 검출에 더 민감하다는 것을 나타내었다. 따라서 수술절제면에서 조직의 유전적 시험을 수행함으로써, 예컨대 본 명세서에 기재된 시퀀싱 방법에 의해, 의료인은 추가 치료과정에 대해 더 알려진 추천을 할 수 있다. 예를 들어, 유전적 시험의 결과에 따라서, 추가 치료에 대한 추천이 될 수 있거나 또는 추가 치료가 추천되지 않을 수 있다. 추가적인 치료는, 예를 들어 화학치료 또는 방사선치료 또는 둘 다를 포함할 수 있거나, 또는 화학치료의 경우에, 돌연변이에 기반한 특정 약물 또는 약물의 조합 또는 특정 투약 섭생은 유전적 시험에 의해 확인하였다.
참고문헌에 의한 포함
본 명세서에 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별적 간행물, 특허 또는 특허출원이 구체적이고 개별적으로 참조로서 포함되는 것으로 나타내는 것과 같이 그것의 전문이 참조로서 본 명세서에 포함된다. 본 명세서의 어떤 정의를 포함하여 모순되는 경우에, 본 출원으로 조절할 것이다.
공중 데이터베이스, 예컨대 월드와이드 웹의 tigr.org의 게놈연구소(Institute for Genomic Research: TIGR) 및/또는 월드와이드 웹의 ncbi.nlm.nih.gov에서 국가생물정보센터(National Center for Biotechnology Information: NCBI)에 의해 유지되는 것에서 가입과 상호관련되는 등록 번호를 표시하는 임의의 폴리뉴클레오타이드 및 폴리펩타이드 서열이 또한 전문에서 참조로서 포함된다.
동등물
당업자는 단지 일상적인 실험을 사용하여 본 명세서에 기재된 발명의 구체적 실시형태에 대해 다수의 동등물을 인식하거나 또는 확인할 것이다. 이러한 동등물은 다음의 특허청구범위에 의해 포함되는 것으로 의도된다.
SEQUENCE LISTING <110> DOWNING, SEAN R. JAROSZ, MIRNA LIPSON, DORON OTTO, GEOFFREY ALAN PARKER, ALEXANDER N. SHAPIRO, MIKHAIL G. STEPHENS, PHILIP JAMES YELENSKY, ROMAN <120> OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES <130> F2036-700010 <140> 13/339,986 <141> 2011-12-29 <150> 61/552,884 <151> 2011-10-28 <150> 61/486,033 <151> 2011-05-13 <150> 61/486,006 <151> 2011-05-13 <150> 61/486,026 <151> 2011-05-13 <150> 61/486,012 <151> 2011-05-13 <150> 61/467,748 <151> 2011-03-25 <150> 61/467,798 <151> 2011-03-25 <150> 61/428,638 <151> 2010-12-30 <150> 61/428,626 <151> 2010-12-30 <150> 61/428,602 <151> 2010-12-30 <150> 61/428,568 <151> 2010-12-30 <160> 51 <170> PatentIn version 3.5 <210> 1 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <221> modified_base <222> (16)..(135) <223> a, c, t, g, unknown or other <400> 1 atcgcaccag cgtgtnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 120 nnnnnnnnnn nnnnncactg cggctcctca 150 <210> 2 <211> 36 <212> DNA <213> Homo sapiens <400> 2 ccaaaactaa actgctcttt aaatatctta gacact 36 <210> 3 <211> 36 <212> DNA <213> Homo sapiens <400> 3 ccaaaactaa actgctcttt aaatatctta gacact 36 <210> 4 <211> 36 <212> DNA <213> Homo sapiens <400> 4 ccaacactaa actgctcttt aaatatctta gacact 36 <210> 5 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic consensus sequence <400> 5 ccaaaactaa actgctcttt aaatatctta gacact 36 <210> 6 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 6 ccattgtgtg tgagcaaagg caccctgtcc agtctaacct gaatctctgt aggaagaggc 60 gtgcggctct actacatcgg aggggaggtc ttcgcagagt gcctcagtga cagcgctatt 120 <210> 7 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 7 ctgtccagtc taacctgaat ctctgtagga agaggcgtgc ggctctacta catcggaggg 60 gaggtcttcg cagagtgcct cagtgacagc gctatttttg tccagtctcc caactgtaac 120 <210> 8 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 8 gtaggaagag gcgtgcggct ctactacatc ggaggggagg tcttcgcaga gtgcctcagt 60 gacagcgcta tttttgtcca gtctcccaac tgtaaccagc gctatggctg gcacccggcc 120 <210> 9 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 9 tacatcggag gggaggtctt cgcagagtgc ctcagtgaca gcgctatttt tgtccagtct 60 cccaactgta accagcgcta tggctggcac ccggccaccg tctgcaagat cccaccaggt 120 <210> 10 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 10 gagtgcctca gtgacagcgc tatttttgtc cagtctccca actgtaacca gcgctatggc 60 tggcacccgg ccaccgtctg caagatccca ccaggtaaac gagccgcaca ggcacccctg 120 <210> 11 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 11 tttgtccagt ctcccaactg taaccagcgc tatggctggc acccggccac cgtctgcaag 60 atcccaccag gtaaacgagc cgcacaggca cccctgcctt gaggtccctc tccgagtgca 120 <210> 12 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 12 gacctggcca cttccatccc cacagccctg tttctgtgtt tttggcagga tgcaacctga 60 agatcttcaa caaccaggag ttcgctgccc tcctggccca gtcggtcaac cagggctttg 120 <210> 13 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 13 gccctgtttc tgtgtttttg gcaggatgca acctgaagat cttcaacaac caggagttcg 60 ctgccctcct ggcccagtcg gtcaaccagg gctttgaggc tgtctaccag ttgacccgaa 120 <210> 14 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 14 gatgcaacct gaagatcttc aacaaccagg agttcgctgc cctcctggcc cagtcggtca 60 accagggctt tgaggctgtc taccagttga cccgaatgtg caccatccgc atgagcttcg 120 <210> 15 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 15 accaggagtt cgctgccctc ctggcccagt cggtcaacca gggctttgag gctgtctacc 60 agttgacccg aatgtgcacc atccgcatga gcttcgtcaa aggctgggga gcggagtaca 120 <210> 16 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 16 cccagtcggt caaccagggc tttgaggctg tctaccagtt gacccgaatg tgcaccatcc 60 gcatgagctt cgtcaaaggc tggggagcgg agtacaggtc agttatgggt gctgcctaca 120 <210> 17 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 17 aggctgtcta ccagttgacc cgaatgtgca ccatccgcat gagcttcgtc aaaggctggg 60 gagcggagta caggtcagtt atgggtgctg cctacatcag gggacccaac tccaggtgac 120 <210> 18 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 18 tgtaaccccc tggagatttt ttaagtcccc caccccaccc ctttccctat ttcttacagg 60 agacagactg tgaccagtac cccctgctgg attgagctgc acctgaatgg gcctttgcag 120 <210> 19 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 19 gtcccccacc ccaccccttt ccctatttct tacaggagac agactgtgac cagtaccccc 60 tgctggattg agctgcacct gaatgggcct ttgcagtggc ttgacaaggt cctcacccag 120 <210> 20 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 20 atttcttaca ggagacagac tgtgaccagt accccctgct ggattgagct gcacctgaat 60 gggcctttgc agtggcttga caaggtcctc acccagatgg gctccccaag catccgctgt 120 <210> 21 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 21 accagtaccc cctgctggat tgagctgcac ctgaatgggc ctttgcagtg gcttgacaag 60 gtcctcaccc agatgggctc cccaagcatc cgctgttcca gtgtgtctta gagacatcaa 120 <210> 22 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 22 ctgcacctga atgggccttt gcagtggctt gacaaggtcc tcacccagat gggctcccca 60 agcatccgct gttccagtgt gtcttagaga catcaagtat ggtaggggag ggcaggcttg 120 <210> 23 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 23 tggcttgaca aggtcctcac ccagatgggc tccccaagca tccgctgttc cagtgtgtct 60 tagagacatc aagtatggta ggggagggca ggcttgggga aaatggccat gcaggaggtg 120 <210> 24 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 24 cgtcgcgcgc caacgccggc atggcctccg gagcccgggg tccccaggcc gcgccggccc 60 agccctgcga tgccgcctgg agcggcgcgc ctcgcgctgc aggtggctct cttaaggatg 120 <210> 25 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 25 cgtctcacgc caacgcaagc atgtcctccg gagcccgggg tccccaggcc gcgccggccc 60 agccctgcga tgccgcctgg agcggcgcgc ctcgcactgc agatggctct cttaaggatg 120 <210> 26 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 26 taccgagcag cggcagctgg ccgccgtcgc gcgccaacgc cggcatggcc tccggagccc 60 ggggtcccca ggccgcgccg gcccagccct gcgatgccgc ctggagcggc gcgcctcgcg 120 <210> 27 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 27 taccgagcag cggcagctgg ccgccgtcgc gcgccaacgc cggcatggcc tccggagccc 60 ggggtcccca ggccgcgcat gcccagccct gcgatgccgc cttgagcaac gcgcctcacg 120 <210> 28 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 28 gctgcgagcg agcgagcggg gccttaccga gcagcggcag ctggccgccg tcgcgcgcca 60 acgccggcat ggcctccgga gcccggggtc cccaggccgc gccggcccag ccctgcgatg 120 <210> 29 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 29 gcttcgagag agcgagcggg gccttaccga gcagcagcag ctggccgccg tcgcgcgcca 60 acgccggcat ggcctccgga gcccggggtc cccaggccgc gccagcccag ccctgagatg 120 <210> 30 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 30 gtgggggctg agggaccgcg aggggctgcg agcgagcgag cggggcctta ccgagcagcg 60 gcagctggcc gccgtcgcgc gccaacgccg gcatggcctc cggagcccgg ggtccccagg 120 <210> 31 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 31 gaggtggctg agagaccgcg aggagctgcg agcgagcgag cggggcctta ccgagcagcg 60 gcagctggcc gccgtcgcgc gccaacgcag gcatggcctc cggagcccag ggtccccagg 120 <210> 32 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 32 cgaggcggct gggccggagg aggcgcgcgc ccgggtccac actgcggggt gggggctgag 60 ggaccgcgag gggctgcgag cgagcgagcg gggccttacc gagcagcggc agctggccgc 120 <210> 33 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 33 cgaggcggct gggccggagg aggcgcgcgc ccggatccac actgcggggt gggggctgag 60 ggaccgcgag gggctgcgag cgagcgagcg gggacttacc gagcagcggc aactggacgc 120 <210> 34 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 34 gcgcgcccgg gtccacactg cggggtgggg gctgagggac cgcgaggggc tgcgagcgag 60 cgagcggggc cttaccgagc agcggcagct ggccgccgtc gcgcgccaac gccggcatgg 120 <210> 35 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 35 gcacgcacgg atccacactg cggggtgggg gctgagggac cgcgaggagc tgcgagcgag 60 cgagcggggc cttaccgagc agcggcagct ggcagccgtc gcgcgccaac gccggcatgg 120 <210> 36 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 36 tcgcaggcac agcgcggcgc cccgctgcat ctccggccgc tgcgcgtggg tccgacccga 60 gcggccgcgg ctcggggctg aaagtgtccg cgcgggcgcc ggctggcctg gggcggggcg 120 <210> 37 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 37 cacacacaca agcgcggcgc cccgctgcat ctccggccgc tgcgcgtggg tccgacccga 60 gcggccgcgg ctcggggctg aaagtgtccg cgcgggcgcc ggctggcctg cacacacaca 120 <210> 38 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 38 ggcggagcgg tctcagcgcc cgccccaggt gcgcggtacc ccctccccgg ccagccccac 60 gctcgggcgg gtggcccgtt cgccgcgctc accgtccagg agtcccaggc agagccacag 120 <210> 39 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 39 cacacacaca tctcagcgcc cgccccaggt gcgcggtacc ccctccccgg ccagccccac 60 gctcgggcgg gtggcccgtt cgccgcgctc accgtccagg agtcccaggc cacacacaca 120 <210> 40 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 40 ccaggtgcgc ggtaccccct ccccggccag ccccacgctc gggcgggtgg cccgttcgcc 60 gcgctcaccg tccaggagtc ccaggcagag ccacagtcgc aggcacagcg cggcgccccg 120 <210> 41 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 41 cacacacaca ggtaccccct ccccggccag ccccacgctc gggcgggtgg cccgttcgcc 60 gcgctcaccg tccaggagtc ccaggcagag ccacagtcgc aggcacagcg cacacacaca 120 <210> 42 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 42 ggcccgttcg ccgcgctcac cgtccaggag tcccaggcag agccacagtc gcaggcacag 60 cgcggcgccc cgctgcatct ccggccgctg cgcgtgggtc cgacccgagc ggccgcggct 120 <210> 43 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 43 cacacacaca ccgcgctcac cgtccaggag tcccaggcag agccacagtc gcaggcacag 60 cgcggcgccc cgctgcatct ccggccgctg cgcgtgggtc cgacccgagc cacacacaca 120 <210> 44 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 44 ggccagcccc acgctcgggc gggtggcccg ttcgccgcgc tcaccgtcca ggagtcccag 60 gcagagccac agtcgcaggc acagcgcggc gccccgctgc atctccggcc gctgcgcgtg 120 <210> 45 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 45 cacacacaca acgctcgggc gggtggcccg ttcgccgcgc tcaccgtcca ggagtcccag 60 gcagagccac agtcgcaggc acagcgcggc gccccgctgc atctccggcc cacacacaca 120 <210> 46 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 46 caggagtccc aggcagagcc acagtcgcag gcacagcgcg gcgccccgct gcatctccgg 60 ccgctgcgcg tgggtccgac ccgagcggcc gcggctcggg gctgaaagtg tccgcgcggg 120 <210> 47 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 47 cacacacaca aggcagagcc acagtcgcag gcacagcgcg gcgccccgct gcatctccgg 60 ccgctgcgcg tgggtccgac ccgagcggcc gcggctcggg gctgaaagtg cacacacaca 120 <210> 48 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 48 aatgatacgg cgaccaccga gat 23 <210> 49 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 49 caagcagaag acggcatacg a 21 <210> 50 <211> 10 <212> DNA <213> Homo sapiens <400> 50 ttaagagaag 10 <210> 51 <211> 11 <212> DNA <213> Homo sapiens <400> 51 acagaaagac a 11

Claims (1)

  1. 종양 샘플의 용도.
KR1020197024014A 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화 KR20190100425A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020217033813A KR20210131432A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화

Applications Claiming Priority (23)

Application Number Priority Date Filing Date Title
US201061428626P 2010-12-30 2010-12-30
US201061428602P 2010-12-30 2010-12-30
US201061428638P 2010-12-30 2010-12-30
US201061428568P 2010-12-30 2010-12-30
US61/428,638 2010-12-30
US61/428,568 2010-12-30
US61/428,602 2010-12-30
US61/428,626 2010-12-30
US201161467798P 2011-03-25 2011-03-25
US201161467748P 2011-03-25 2011-03-25
US61/467,748 2011-03-25
US61/467,798 2011-03-25
US201161486033P 2011-05-13 2011-05-13
US201161486006P 2011-05-13 2011-05-13
US201161486026P 2011-05-13 2011-05-13
US201161486012P 2011-05-13 2011-05-13
US61/486,012 2011-05-13
US61/486,006 2011-05-13
US61/486,026 2011-05-13
US61/486,033 2011-05-13
US201161552884P 2011-10-28 2011-10-28
US61/552,884 2011-10-28
PCT/US2011/067725 WO2012092426A1 (en) 2010-12-30 2011-12-29 Optimization of multigene analysis of tumor samples

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020187037565A Division KR20190002733A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020217033813A Division KR20210131432A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화

Publications (1)

Publication Number Publication Date
KR20190100425A true KR20190100425A (ko) 2019-08-28

Family

ID=46383525

Family Applications (5)

Application Number Title Priority Date Filing Date
KR1020217033813A KR20210131432A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화
KR1020187037565A KR20190002733A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화
KR1020137020085A KR20140024270A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화
KR1020197024014A KR20190100425A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화
KR1020237032614A KR20230141927A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화

Family Applications Before (3)

Application Number Title Priority Date Filing Date
KR1020217033813A KR20210131432A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화
KR1020187037565A KR20190002733A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화
KR1020137020085A KR20140024270A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020237032614A KR20230141927A (ko) 2010-12-30 2011-12-29 종양 샘플의 다유전자 분석의 최적화

Country Status (10)

Country Link
US (5) US9340830B2 (ko)
EP (3) EP3225697A3 (ko)
JP (6) JP6054303B2 (ko)
KR (5) KR20210131432A (ko)
AU (16) AU2011352070A1 (ko)
BR (1) BR112013016708B1 (ko)
CA (1) CA2823621C (ko)
IL (2) IL261052B (ko)
SG (1) SG191818A1 (ko)
WO (1) WO2012092426A1 (ko)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US9732131B2 (en) 2006-02-27 2017-08-15 Calviri, Inc. Identification and use of novopeptides for the treatment of cancer
GB2467691A (en) 2008-09-05 2010-08-11 Aueon Inc Methods for stratifying and annotating cancer drug treatment options
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US20120276555A1 (en) 2009-10-21 2012-11-01 Peter Kuhn Method of Using Non-Rare Cells to Detect Rare Cells
SI2556171T1 (sl) 2010-04-05 2016-03-31 Prognosys Biosciences, Inc. Prostorsko kodirane biološke analize
US20190300945A1 (en) 2010-04-05 2019-10-03 Prognosys Biosciences, Inc. Spatially Encoded Biological Assays
US10787701B2 (en) 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2572003A4 (en) 2010-05-18 2016-01-13 Natera Inc METHOD FOR NONINVASIVE PRANATAL PLOIDIE ASSIGNMENT
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
AU2011293635B2 (en) 2010-08-24 2015-11-26 Children's Medical Center Corporation Methods for predicting anti-cancer response
WO2012040387A1 (en) 2010-09-24 2012-03-29 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target dna using immobilized primers
KR20210131432A (ko) 2010-12-30 2021-11-02 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
GB201106254D0 (en) 2011-04-13 2011-05-25 Frisen Jonas Method and product
PL2697397T3 (pl) 2011-04-15 2017-08-31 The Johns Hopkins University System bezpiecznego sekwencjonowania
JP6117194B2 (ja) 2011-06-17 2017-04-19 ミリアド・ジェネティックス・インコーポレイテッド アレル不均衡を評価するための方法および材料
RU2639509C2 (ru) 2011-06-27 2017-12-21 Эйсай Ар Энд Ди Менеджмент Ко., Лтд. МикроРНК - БИОМАРКЕРЫ, УКАЗЫВАЮЩИЕ НА БОЛЕЗНЬ АЛЬЦГЕЙМЕРА
EP2748192B2 (en) * 2011-08-23 2022-04-20 Foundation Medicine, Inc. Kif5b-ret fusion molecules and uses thereof
WO2013059740A1 (en) 2011-10-21 2013-04-25 Foundation Medicine, Inc. Novel alk and ntrk1 fusion molecules and uses thereof
WO2013096843A1 (en) 2011-12-21 2013-06-27 Myriad Genetics, Inc. Methods and materials for assessing loss of heterozygosity
WO2013130347A1 (en) 2012-02-23 2013-09-06 The Children's Hospital Corporation Methods for predicting anti-cancer response
CA2867375A1 (en) * 2012-03-12 2013-09-19 Memorial Sloan-Kettering Cancer Center Methods and compositions for the diagnosis, prognosis and treatment of acute myeloid leukemia
EP2859118B1 (en) 2012-06-07 2017-11-22 Institut Curie Methods for detecting inactivation of the homologous recombination pathway (brca1/2) in human tumors
AU2013286635B2 (en) 2012-07-03 2018-11-08 Foundation Medicine, Inc. Tm-enhanced blocking oligonucleotides and baits for improved target enrichment and reduced off-target selection
CN104685064A (zh) * 2012-07-24 2015-06-03 纳特拉公司 高度复合pcr方法和组合物
AU2013296237B2 (en) 2012-08-03 2019-05-16 Foundation Medicine, Inc. Human papilloma virus as predictor of cancer prognosis
WO2014028862A1 (en) * 2012-08-17 2014-02-20 Cornell University Use of dna in circulating exosomes as a diagnostic marker for metastasic disease
US9725768B2 (en) 2012-08-31 2017-08-08 Biovest International, Inc. Methods for producing high-fidelity autologous idiotype vaccines
IL305303A (en) 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014058987A1 (en) * 2012-10-09 2014-04-17 Five3 Genomics, Llc Systems and methods for tumor clonality analysis
US11525163B2 (en) 2012-10-29 2022-12-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
CA2890346A1 (en) 2012-11-05 2014-05-08 Foundation Medicine, Inc. Novel fusion molecules and uses thereof
AU2013337277B2 (en) 2012-11-05 2018-03-08 Foundation Medicine, Inc. Novel NTRK1 fusion molecules and uses thereof
US20140143188A1 (en) * 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
CA2898326C (en) 2013-01-18 2022-05-17 Foundation Medicine, Inc. Methods of treating cholangiocarcinoma
CN105339507A (zh) * 2013-02-21 2016-02-17 托马生物科学公司 用于核酸分析的方法、组合物和试剂盒
US20160010068A1 (en) * 2013-02-22 2016-01-14 Boris C. Bastian Fusion polynucleotides and fusion polypeptides associated with cancer and particularly melanoma and their uses as therapeutic and diagnostic targets
US9347095B2 (en) 2013-03-15 2016-05-24 Bio-Rad Laboratories, Inc. Digital assays for mutation detection
WO2014145824A2 (en) * 2013-03-15 2014-09-18 Medicomp Systems, Inc. Electronic medical records system utilizing genetic information
US11976329B2 (en) 2013-03-15 2024-05-07 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
WO2014183078A1 (en) * 2013-05-10 2014-11-13 Foundation Medicine, Inc. Analysis of genetic variants
DK3013983T3 (da) 2013-06-25 2023-03-06 Prognosys Biosciences Inc Spatialt kodede biologiske assays ved brug af en mikrofluidisk anordning
RU2524433C1 (ru) * 2013-07-04 2014-07-27 Федеральное государственное бюджетное учреждение "Российский онкологический научный центр имени Н.Н. Блохина" Российской академии медицинских наук (ФГБУ "РОНЦ им. Н.Н. Блохина" РАМН) Набор последовательностей олигонуклеотидов для диагностики герминальных мутаций в гене ret, ассоциированных с наследственной предрасположенностью к раку щитовидной железы
WO2015009831A2 (en) 2013-07-17 2015-01-22 Foundation Medicine, Inc. Methods of treating urothelial carcinomas
US10323285B2 (en) 2013-09-09 2019-06-18 Nantomics, Llc Proteomics analysis and discovery through DNA and RNA sequencing, systems and methods
ES2909899T3 (es) 2013-12-09 2022-05-10 Inst Curie Métodos para detectar inactivación de la ruta de recombinación homóloga (BRCA1/2) en tumores humanos
JP2017500032A (ja) * 2013-12-15 2017-01-05 アカデミア シニカAcademia Sinica 配列不明の二本鎖線形核酸の全長増幅のための方法
US20160319367A1 (en) * 2013-12-17 2016-11-03 Stichting Het Nederlands Kanker Instituut-Antoni van Leeuwenhoek Ziekenhuis Means and methods for typing a breast cancer patient and assigning therapy based on the typing
JP6571665B2 (ja) 2013-12-28 2019-09-04 ガーダント ヘルス, インコーポレイテッド 遺伝的バリアントを検出するための方法およびシステム
US10527624B2 (en) 2014-01-27 2020-01-07 Epic Sciences, Inc. Circulating tumor cell diagnostics for prostate cancer biomarkers
EA201691682A1 (ru) 2014-02-21 2017-02-28 Эпик Сайенсиз, Инк. Способы анализирования редких циркулирующих в крови клеток
EP3125907A4 (en) 2014-04-01 2017-11-29 Cornell University Use of double-stranded dna in exosomes: a novel biomarker in cancer detection
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
WO2016025958A1 (en) 2014-08-15 2016-02-18 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
CN104459130B (zh) * 2014-09-26 2016-06-29 济南大学 基于核酸适配体检测氨苄青霉素的生物传感器及其制备方法
US11397182B2 (en) 2014-10-07 2022-07-26 Cornell University Methods for prognosing and preventing metastatic liver disease
CN114606309A (zh) * 2014-11-05 2022-06-10 威拉赛特公司 使用机器学习和高维转录数据的诊断系统和方法
EP3227464B1 (en) * 2014-12-05 2022-04-20 Foundation Medicine, Inc. Multigene analysis of tumor samples
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10429342B2 (en) 2014-12-18 2019-10-01 Edico Genome Corporation Chemically-sensitive field effect transistor
EP3239875B1 (en) * 2014-12-26 2019-10-02 National University Corporation, Tohoku University Method for determining genotype of particular gene locus group or individual gene locus, determination computer system and determination program
CN107532207B (zh) 2015-04-10 2021-05-07 空间转录公司 生物样本的空间区别、多重核酸分析
KR101850437B1 (ko) * 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
US10776713B2 (en) * 2015-04-24 2020-09-15 Regents Of The University Of Minnesota Classification of highly-skewed data
US11971402B2 (en) 2015-04-24 2024-04-30 Cornell University Methods and reagents for determination and treatment of organotropic metastasis
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
EP3294324A1 (en) 2015-05-13 2018-03-21 Agenus Inc. Vaccines for treatment and prevention of cancer
CA2986685A1 (en) 2015-05-27 2016-12-01 Quest Diagnostics Investments Incorporated Compositions and methods for screening solid tumors
EP3303363A4 (en) * 2015-05-29 2019-01-23 Epic Sciences, Inc. INTRA-PATIENT GENOMIC HETEROGENEITY OF UNIQUE CIRCULATING TUMOR CELLS (CTC) ASSOCIATED WITH THE HETEROGENEITY OF PHENOTYPIC CTC IN ANDROGEN-INDEPENDENT METASTASIC PROSTATE CANCER (MCRPC)
JP6698708B2 (ja) 2015-06-09 2020-05-27 ライフ テクノロジーズ コーポレーション 分子タグ付けのための方法、システム、組成物、キット、装置、及びコンピュータ可読媒体
CN107408162B (zh) * 2015-06-24 2020-12-01 吉尼努斯公司 用于分析基因的方法及装置
WO2016208827A1 (ko) * 2015-06-24 2016-12-29 사회복지법인 삼성생명공익재단 유전자를 분석하는 방법 및 장치
EP3328440A4 (en) 2015-07-28 2019-01-16 Otonomy, Inc. TREATMENT USING TRK B TRK B TRK ANTAGONISTS
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
US10720227B2 (en) 2015-08-12 2020-07-21 Samsung Electronics Co., Ltd. Method and device for mutation prioritization for personalized therapy
US11492670B2 (en) 2015-10-27 2022-11-08 The Broad Institute Inc. Compositions and methods for targeting cancer-specific sequence variations
CN115044645A (zh) 2015-11-11 2022-09-13 分析生物科学有限公司 Dna文库的高效率构建
AU2016369519B2 (en) 2015-12-16 2023-04-20 Gritstone Bio, Inc. Neoantigen identification, manufacture, and use
CN108603228B (zh) 2015-12-17 2023-09-01 夸登特健康公司 通过分析无细胞dna确定肿瘤基因拷贝数的方法
CN108463559A (zh) * 2016-01-15 2018-08-28 文塔纳医疗系统公司 肿瘤的深度测序概况分析
CN109196121B (zh) 2016-02-29 2022-01-04 基因泰克公司 用于癌症的治疗和诊断方法
KR20220018627A (ko) * 2016-02-29 2022-02-15 파운데이션 메디신 인코포레이티드 종양 돌연변이 부담을 평가하기 위한 방법 및 시스템
WO2017151517A1 (en) 2016-02-29 2017-09-08 Foundation Medicine, Inc. Methods of treating cancer
CN116509869A (zh) 2016-04-04 2023-08-01 希诺皮亚生物科学公司 使用曲匹地尔治疗锥体外系综合征
WO2017176214A1 (en) * 2016-04-06 2017-10-12 Angsana Molecular And Diagnostics Laboratory Pte. Ltd. System and method for detecting variations in nucleic acid sequence for use in next-generation sequencing
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
WO2017217694A2 (ko) * 2016-06-16 2017-12-21 한국한의학연구원 돌연변이 발생률의 측정 방법
KR101915701B1 (ko) 2016-06-16 2018-11-07 한국한의학연구원 돌연변이 발생률의 측정 방법
US11923049B2 (en) * 2016-06-22 2024-03-05 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data
EP3500686B1 (en) * 2016-08-18 2024-01-10 Quest Diagnostics Investments LLC Methods for detecting craniopharyngioma and for selecting medicaments and patients for treatment
RU2019108294A (ru) 2016-08-25 2020-09-25 Резолюшн Байосайенс, Инк. Способы обнаружения изменений количества геномных копий в образцах днк
ES2840003T3 (es) 2016-09-30 2021-07-06 Guardant Health Inc Métodos para análisis multi-resolución de ácidos nucleicos libres de células
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
EP3523451A1 (en) 2016-10-06 2019-08-14 Genentech, Inc. Therapeutic and diagnostic methods for cancer
AU2017361069B2 (en) * 2016-11-16 2023-09-21 Illumina, Inc. Methods of sequencing data read realignment
WO2018098362A1 (en) 2016-11-23 2018-05-31 Gritstone Oncology, Inc. Viral delivery of neoantigens
KR101919995B1 (ko) * 2016-11-29 2018-11-20 충북대학교 산학협력단 콘크리트 테이블 제작용 섬유보강장치
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US11615864B2 (en) * 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
US20200058375A1 (en) * 2017-02-23 2020-02-20 Jay DUNFFNER Variant-specific alignment of nucleic acid sequencing data
KR20230152172A (ko) * 2017-03-19 2023-11-02 오펙-에슈콜롯 리서치 앤드 디벨롭먼트 엘티디 K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
PL3448859T3 (pl) 2017-03-20 2020-02-28 Forma Therapeutics, Inc. Kompozycje pirolopirolu jako aktywatory kinazy pirogronianowej (PKR)
WO2018208856A1 (en) 2017-05-08 2018-11-15 Gritstone Oncology, Inc. Alphavirus neoantigen vectors
WO2018223092A1 (en) 2017-06-02 2018-12-06 Arizona Board Of Regents On Behalf Of Arizona State University A method to create personalized cancer vaccines
US11433074B2 (en) 2017-06-22 2022-09-06 Triact Therapeutics, Inc. Methods of treating glioblastoma
PT3649260T (pt) * 2017-07-07 2022-05-30 Nipd Genetics Public Company Ltd Análise paralela multiplexada enriquecida com alvo para avaliação de biomarcadores tumorais
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
KR20200093518A (ko) 2017-07-21 2020-08-05 제넨테크, 인크. 암에 대한 치료 및 진단 방법
JP7232476B2 (ja) 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
KR101867011B1 (ko) * 2017-08-10 2018-06-14 주식회사 엔젠바이오 차세대 염기서열 분석기법을 이용한 유전자 재배열 검출 방법
TWI650664B (zh) * 2017-08-21 2019-02-11 遺傳軌跡股份有限公司 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統
US11773449B2 (en) 2017-09-01 2023-10-03 The Hospital For Sick Children Profiling and treatment of hypermutant cancer
WO2019055618A1 (en) 2017-09-15 2019-03-21 Arizona Board Of Regents On Behalf Of Arizona State University METHODS OF CLASSIFYING RESPONSES TO ANTICANCER IMMUNOTHERAPY
US11628144B2 (en) 2017-09-29 2023-04-18 Triact Therapeutics, Inc. Iniparib formulations and uses thereof
AU2018348165A1 (en) 2017-10-10 2020-05-21 Gritstone Bio, Inc. Neoantigen identification using hotspots
KR20200044123A (ko) * 2017-10-10 2020-04-28 난토믹스, 엘엘씨 암 환자에서의 향상된 정밀도를 위한 포괄적 게놈 트랜스크립톰 종양-정상 유전자 패널 분석 (comprehensive genomic transcriptomic tumor-normal gene panel analysis for enhanced precision in patients with cancer)
US20200239932A1 (en) * 2017-10-16 2020-07-30 The Regents Of The University Of California Efficient screening library preparation
JP7054133B2 (ja) 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
US10514890B2 (en) 2017-11-15 2019-12-24 Accenture Global Solutions Limited Test case and data selection using a sampling methodology
US10241903B1 (en) 2017-11-15 2019-03-26 Accenture Global Solutions Limited Parallel testing and reporting system
US10409553B2 (en) 2017-11-15 2019-09-10 Accenture Global Solutions Limited Optimized construction of a sample imprint for selecting a sample dataset for comparison testing
JP2021503897A (ja) 2017-11-22 2021-02-15 グリットストーン オンコロジー インコーポレイテッド 新生抗原のためのジャンクションエピトープ提示の低減
KR102029393B1 (ko) * 2018-01-11 2019-10-07 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
EP3553182A1 (en) * 2018-04-11 2019-10-16 Université de Bourgogne Detection method of somatic genetic anomalies, combination of capture probes and kit of detection
TW202012430A (zh) 2018-04-26 2020-04-01 美商艾吉納斯公司 熱休克蛋白質-結合之胜肽組成物及其使用方法
WO2019217486A1 (en) * 2018-05-08 2019-11-14 Memorial Sloan Kettering Cancer Center Methods and compositions for detecting myeloma
CA3102460A1 (en) * 2018-06-11 2019-12-19 Foundation Medicine, Inc. Compositions and methods for evaluating genomic alterations
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CA3107983A1 (en) 2018-07-23 2020-01-30 Guardant Health, Inc. Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
JP7407193B2 (ja) * 2018-08-08 2023-12-28 イニヴァータ リミテッド 可変の複製多重pcrを使用した配列決定方法
JP2021535489A (ja) 2018-08-31 2021-12-16 ガーダント ヘルス, インコーポレイテッド 無細胞dnaにおけるマイクロサテライト不安定性の検出
US20200129485A1 (en) 2018-09-19 2020-04-30 Forma Therapeutics, Inc. Treating sickle cell disease with a pyruvate kinase r activating compound
JP7450610B2 (ja) 2018-09-19 2024-03-15 ノヴォ・ノルディスク・ヘルス・ケア・アーゲー ピルビン酸キナーゼrの活性化
CN109266729B (zh) * 2018-09-29 2020-11-27 中国科学院遗传与发育生物学研究所 一种基于基因组二代测序的大片段缺失的检测方法
US10978196B2 (en) * 2018-10-17 2021-04-13 Tempus Labs, Inc. Data-based mental disorder research and treatment systems and methods
FR3087792B1 (fr) * 2018-10-29 2023-09-29 Inovotion Modele animal pour amplifier des cellules tumorales circulantes humaines ou animales
CN109637585B (zh) * 2018-12-27 2020-11-17 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
AU2020216438A1 (en) 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
US20200318174A1 (en) * 2019-04-03 2020-10-08 Agilent Technologies, Inc. Compositions and methods for identifying and characterizing gene translocations, rearrangements and inversions
WO2020243579A1 (en) 2019-05-30 2020-12-03 10X Genomics, Inc. Methods of detecting spatial heterogeneity of a biological sample
BR122024002387A2 (pt) 2019-05-30 2024-03-12 Gritstone Bio, Inc. Vetores de adenovírus, composição farmacêutica, sequência de nucleotídeo isolada, célula isolada, vetor, kit, usos de um vetor, método para fabricar o vetor, métodos para produzir um vírus e vetor viral
US20200390873A1 (en) * 2019-06-11 2020-12-17 Iogenetics, Llc Neoantigen immunotherapies
WO2020264565A1 (en) * 2019-06-25 2020-12-30 Board Of Regents, The University Of Texas System Methods for duplex sequencing of cell-free dna and applications thereof
US20220401452A1 (en) * 2019-06-26 2022-12-22 The Board Of Regents Of The University Of Texas System Use of inhibitors of enhancer of zeste homolog 2
EP4038222A4 (en) 2019-10-02 2023-10-18 Arizona Board of Regents on behalf of Arizona State University METHODS AND COMPOSITIONS FOR IDENTIFYING NEOANTIGENS FOR USE IN THE TREATMENT AND PREVENTION OF CANCER
GB2623904A (en) 2019-11-06 2024-05-01 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
KR102273152B1 (ko) * 2019-11-11 2021-07-05 사회복지법인 삼성생명공익재단 유전자 변이 검출수단의 검출능력 평가용 조성물의 제조방법
WO2021146486A1 (en) * 2020-01-14 2021-07-22 The Board Institute, Inc. Minor allele enrichment sequencing through recognition oligonucleotides
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
EP4127216A1 (en) * 2020-03-30 2023-02-08 Cedars-Sinai Medical Center Ripk2 inhibition for the treatment of cancer
CN111554387B (zh) * 2020-04-26 2023-05-23 医渡云(北京)技术有限公司 医生信息推荐的方法、装置、存储介质及电子设备
CN113759113A (zh) * 2020-06-01 2021-12-07 首都医科大学附属北京天坛医院 用于诊断髓母细胞瘤的尿液蛋白标记物及其用途
EP4025692A2 (en) 2020-06-02 2022-07-13 10X Genomics, Inc. Nucleic acid library methods
WO2021247568A1 (en) 2020-06-02 2021-12-09 10X Genomics, Inc. Spatial trancriptomics for antigen-receptors
EP4162074B1 (en) 2020-06-08 2024-04-24 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof
CN111933218B (zh) * 2020-07-01 2022-03-29 广州基迪奥生物科技有限公司 一种优化的宏基因组binning分析微生物群落的方法
WO2022032196A2 (en) 2020-08-06 2022-02-10 Gritstone Bio, Inc. Multiepitope vaccine cassettes
CN114073704B (zh) * 2020-08-14 2023-08-11 赛诺哈勃药业(成都)有限公司 具有大环结构的含氟并杂环衍生物的应用
CN111979327A (zh) * 2020-09-01 2020-11-24 上海睿璟生物科技有限公司 用于人甲状腺免提取癌基因突变检测试剂盒及检测方法
US20240000970A1 (en) * 2020-12-01 2024-01-04 Emendobio Inc. Differential knockout of a heterozygous allele of lrrk2
EP4255474A1 (en) * 2020-12-07 2023-10-11 Iogenetics, LLC. Personalized immunotherapies
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
CN113337588A (zh) * 2021-05-17 2021-09-03 上海市皮肤病医院 一种基于捕获测序的col1a1-pdgfb融合基因检测方法
CN113584162A (zh) * 2021-06-17 2021-11-02 湖南菲思特精准医疗科技有限公司 一种紫杉醇代谢标志物的检测试剂盒及其检测方法和应用
CN113493863B (zh) * 2021-06-23 2022-06-10 华中科技大学同济医学院附属同济医院 用于检测covid-19易感性的分子标记、试剂盒及应用
CN113278706B (zh) * 2021-07-23 2021-11-12 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
WO2023039539A1 (en) * 2021-09-10 2023-03-16 Foundation Medicine, Inc. Gene fusions in sarcoma
CA3236814A1 (en) * 2021-11-17 2023-05-25 Maximilian Diehn Systems and methods for gene expression and tissue of origin inference from cell-free dna
WO2023107869A1 (en) 2021-12-08 2023-06-15 Foundation Medicine, Inc. Methods and systems for highlighting clinical information in diagnostic reports
CN114758723B (zh) * 2022-03-31 2023-03-24 广州华银医学检验中心有限公司 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统
WO2023230444A2 (en) * 2022-05-23 2023-11-30 Foundation Medicine, Inc. Abl1 fusions and uses thereof
CN116089320B (zh) * 2022-08-31 2023-10-20 荣耀终端有限公司 垃圾回收方法和相关装置
KR20240041396A (ko) * 2022-09-22 2024-04-01 차의과학대학교 산학협력단 파클리탁셀에 대하여 내성을 갖는 난소암의 진단을 위한 분석방법
CN115786356B (zh) * 2022-11-17 2023-06-30 百世诺(北京)医疗科技有限公司 致心律失常右室发育不良心肌病变异基因cdh2及其应用

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6495676B1 (en) 1993-04-13 2002-12-17 Naxcor Nucleic acid sequence detection employing probes comprising non-nucleosidic coumarin derivatives as polynucleotide-crosslinking agents
US20040161741A1 (en) * 2001-06-30 2004-08-19 Elazar Rabani Novel compositions and processes for analyte detection, quantification and amplification
US20040022764A1 (en) * 2002-07-31 2004-02-05 Hanan Polansky Inhibition of microcompetition with a foreign polynucleotide as treatment of chronic disease
CA2513889A1 (en) 2003-01-29 2004-08-19 454 Corporation Double ended sequencing
US20050209787A1 (en) * 2003-12-12 2005-09-22 Waggener Thomas B Sequencing data analysis
CN1950519A (zh) 2004-02-27 2007-04-18 哈佛大学的校长及成员们 聚合酶群落荧光原位测序珠子
TWI287041B (en) 2005-04-27 2007-09-21 Jung-Tang Huang An ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
US8383338B2 (en) 2006-04-24 2013-02-26 Roche Nimblegen, Inc. Methods and systems for uniform enrichment of genomic regions
US20080131887A1 (en) 2006-11-30 2008-06-05 Stephan Dietrich A Genetic Analysis Systems and Methods
CA2686211C (en) 2007-05-03 2018-08-21 One Lambda Inc. Methods of screening for binding interaction using sets of microparticles and unique probes
US8518640B2 (en) 2007-10-29 2013-08-27 Complete Genomics, Inc. Nucleic acid sequencing and process
WO2009099602A1 (en) 2008-02-04 2009-08-13 Massachusetts Institute Of Technology Selection of nucleic acids by solution hybridization to oligonucleotide baits
WO2010028098A2 (en) 2008-09-03 2010-03-11 The Johns Hopkins University Pathways underlying pancreatic tumorigenesis and an hereditary pancreatic cancer gene
US8748103B2 (en) 2008-11-07 2014-06-10 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US8628927B2 (en) 2008-11-07 2014-01-14 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
CN102308212A (zh) * 2008-12-04 2012-01-04 加利福尼亚大学董事会 用于确定前列腺癌诊断和预后的材料和方法
CN101619350B (zh) * 2009-01-23 2012-05-16 周宏灏 用于恶性肿瘤个体化用药相关基因突变检测的基因芯片及其应用
US20100216648A1 (en) 2009-02-20 2010-08-26 Febit Holding Gmbh Synthesis of sequence-verified nucleic acids
US20100286143A1 (en) * 2009-04-24 2010-11-11 Dora Dias-Santagata Methods and materials for genetic analysis of tumors
ES2544500T3 (es) * 2009-06-05 2015-09-01 Myriad Genetics, Inc. Métodos de detección del cáncer
SG185128A1 (en) 2010-05-06 2012-12-28 Sequenta Inc Monitoring health and disease status using clonotype profiles
KR20210131432A (ko) 2010-12-30 2021-11-02 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
AU2013286635B2 (en) 2012-07-03 2018-11-08 Foundation Medicine, Inc. Tm-enhanced blocking oligonucleotides and baits for improved target enrichment and reduced off-target selection
IL305303A (en) 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014164486A1 (en) 2013-03-11 2014-10-09 Yilin Zhang ENRICHMENT AND NEXT GENERATION SEQUENCING OF TOTAL NUCLEIC ACID COMPRISING BOTH GENOMIC DNA AND cDNA
CN105518151B (zh) 2013-03-15 2021-05-25 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
US20140363521A1 (en) 2013-04-05 2014-12-11 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
WO2014183078A1 (en) 2013-05-10 2014-11-13 Foundation Medicine, Inc. Analysis of genetic variants
US9708657B2 (en) 2013-07-01 2017-07-18 Adaptive Biotechnologies Corp. Method for generating clonotype profiles using sequence tags
KR102423377B1 (ko) 2013-08-05 2022-07-25 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
JP6571665B2 (ja) 2013-12-28 2019-09-04 ガーダント ヘルス, インコーポレイテッド 遺伝的バリアントを検出するための方法およびシステム
EP3227464B1 (en) 2014-12-05 2022-04-20 Foundation Medicine, Inc. Multigene analysis of tumor samples
KR20220018627A (ko) 2016-02-29 2022-02-15 파운데이션 메디신 인코포레이티드 종양 돌연변이 부담을 평가하기 위한 방법 및 시스템
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CA3102460A1 (en) 2018-06-11 2019-12-19 Foundation Medicine, Inc. Compositions and methods for evaluating genomic alterations

Also Published As

Publication number Publication date
WO2012092426A1 (en) 2012-07-05
EP3564395A1 (en) 2019-11-06
AU2019201446A1 (en) 2019-03-21
AU2018211304A1 (en) 2018-08-23
AU2011352070A1 (en) 2013-07-18
AU2018279012A1 (en) 2019-01-17
KR20140024270A (ko) 2014-02-28
IL261052A (en) 2018-10-31
AU2017208342A1 (en) 2017-08-17
AU2017276313A1 (en) 2018-01-18
KR20190002733A (ko) 2019-01-08
US11136619B2 (en) 2021-10-05
AU2018203684A1 (en) 2018-06-14
JP2017077244A (ja) 2017-04-27
CA2823621A1 (en) 2012-07-05
AU2020201108B2 (en) 2022-10-20
JP2020000253A (ja) 2020-01-09
JP2014507133A (ja) 2014-03-27
JP7437429B2 (ja) 2024-02-22
CA2823621C (en) 2023-04-25
AU2020201108A1 (en) 2020-03-05
IL261052B (en) 2022-03-01
EP3225697A3 (en) 2017-11-22
EP3225697A2 (en) 2017-10-04
US20120208706A1 (en) 2012-08-16
US11118213B2 (en) 2021-09-14
US9340830B2 (en) 2016-05-17
BR112013016708A2 (pt) 2016-10-04
AU2018241163A1 (en) 2018-11-01
AU2017239591A1 (en) 2017-11-02
US20190136301A1 (en) 2019-05-09
AU2017203322A1 (en) 2017-06-08
AU2019279918A1 (en) 2020-01-16
AU2019206126A1 (en) 2019-08-08
EP2659003A1 (en) 2013-11-06
EP2659003A4 (en) 2014-05-21
US20190032118A1 (en) 2019-01-31
KR20230141927A (ko) 2023-10-10
AU2019236708A1 (en) 2019-10-17
JP2018134083A (ja) 2018-08-30
SG191818A1 (en) 2013-08-30
AU2019203300A1 (en) 2019-05-30
JP2024041951A (ja) 2024-03-27
US20230148412A1 (en) 2023-05-11
JP6054303B2 (ja) 2016-12-27
US11421265B2 (en) 2022-08-23
AU2018201701A1 (en) 2018-04-05
BR112013016708B1 (pt) 2021-08-17
US20190119733A1 (en) 2019-04-25
IL290139A (en) 2022-03-01
JP2022065062A (ja) 2022-04-26
KR20210131432A (ko) 2021-11-02

Similar Documents

Publication Publication Date Title
JP7437429B2 (ja) 腫瘍試料の多重遺伝子分析の最適化
JP7459010B2 (ja) Tm増強ブロッキングオリゴヌクレオチド、ならびに標的濃縮の改善およびオフターゲット選択の低減のためのベイト
JP6905934B2 (ja) 腫瘍試料の多重遺伝子分析

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination