KR20220021909A - 신속한 이수성 검출 - Google Patents

신속한 이수성 검출 Download PDF

Info

Publication number
KR20220021909A
KR20220021909A KR1020217037650A KR20217037650A KR20220021909A KR 20220021909 A KR20220021909 A KR 20220021909A KR 1020217037650 A KR1020217037650 A KR 1020217037650A KR 20217037650 A KR20217037650 A KR 20217037650A KR 20220021909 A KR20220021909 A KR 20220021909A
Authority
KR
South Korea
Prior art keywords
cancer
sample
amplicons
dna
primer
Prior art date
Application number
KR1020217037650A
Other languages
English (en)
Inventor
버트 보겔스타인
케네쓰 더블유. 킨즐러
크리스토퍼 도빌
니콜라스 파파도포울로스
크리스티안 토마세티
Original Assignee
더 존스 홉킨스 유니버시티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 존스 홉킨스 유니버시티 filed Critical 더 존스 홉킨스 유니버시티
Publication of KR20220021909A publication Critical patent/KR20220021909A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/16Assays for determining copy number or wherein the copy number is of special importance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/50Determining the risk of developing a disease

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)

Abstract

본 명세서는 질환 (가령, 암 또는 선천적 기형)을 갖는 포유류 식별에 이용될 수 있는 염색체 변칙을 확인하기 위한 방법 및 재료를 제공한다. 예를 들면, 본 명세서는 하나 또는 그 이상의 염색체 변칙과 연합된 질환 (가령, 암 또는 선천적 기형)을 보유하는 포유류를 식별해내기 위한 시퀸싱 데이터를 평가하기 위한 방법 및 재료를 제공한다. 예를 들면, 본 명세서는 암 진단, 비-침습성 산전 검사 (NIPT), 착상-전 유전자 진단, 그리고 선천적 기형의 평가평가에 이용될 수 있는 시퀸싱 데이터를 평가하기 위한 방법 및 재료를 제공한다.

Description

신속한 이수성 검출
관련 출원에 대한 상호-참조
본 출원은 2019년 5월 17일자로 제출된 U.S. 가출원 번호 62/849,662, 2019년 9월 24일자로 제출된 U.S. 가출원 번호 62/905,327, 그리고 2020년 2월 6일자로 제출된 U.S. 가출원 번호 62/971,050의 출원일에 대한 우선권을 청구한다. 선행 출원의 명세서는 본 출원의 개시의 일부로 간주되며 (본 명세서에 참고자료에 편입)된다.
연방 자금 지원에 관한 진술
본 발명은 National Institutes of Health에 의해 제공되는 CA230691 및 CA230400에서 정부 지원으로 이루어졌다. 정부는 본 발명의 특정 권리를 보유한다.
배경
1. 기술 분야
본 명세서는 암 진단, 비-침습성 산전 검사 (NIPT), 착상-전 유전자 진단, 그리고 선천적 기형의 평가에 이용될 수 있는 염색체 변칙(anomalies)을 식별해내기 위한 방법 및 재료를 제공한다. 예를 들면, 본 명세서는 하나 또는 그 이상의 염색체 변칙과 연합된 질환 (가령, 암 또는 선천적 기형)을 보유하는 포유류를 식별해내기 위한 시퀀싱 데이터를 평가하기 위한 방법 및 재료를 제공한다. 추가적으로 또는 대안으로, 본 명세서는 암 진단, 비-침습성 산전 검사 (NIPT), 착상-전 유전자 진단, 그리고 선천적 기형의 평가평가에 이용될 수 있는 시퀀싱 데이터를 평가하기 위한 방법 및 재료를 제공한다.
2. 배경 정보
이수성(aneuploidy)이란 비정상적인 염색체 수로 정의된다. 이것은 암에서 발견된 최초의 유전자 이상이며 (Boveri 2008 Journal of cell science 121(Supplement 1):1-84; 그리고 Nowell 1976 Science 194(4260):23-28), 그리고 대부분의 조직병리학적 유형의 암의 >90%에 존재하는 것으로 추정되었다 (Knouse et al. 2017 Annual Review of Cancer Biology 1:335-354). 암의 이수성은 핵형 연구에 의해 처음 감지되었으며, 나중에 마이크로어레이, Sanger 시퀀싱, 그리고 가장 최근에는 대규모 병렬 시퀀싱 방법을 통해 평가되었다 (Wang et al. 2002 Proceedings of the National Academy of Sciences 99(25):16156-16161). 최근 시퀀싱 방법에는 순환 이진 세그먼트화, 숨겨진 Markov 모델, 기대 최대화 및 평균-변위(mean-shift)를 사용하는 방법들이 내포된다 (Zhao et al. 2013 BMC bioinformatics 14(11):S1)). 암 게놈에 적용하는 것 외에도, 이러한 기술들은 다운 증후군 및 기타 삼염색체를 갖는 태아의 비-침습성 산전 검출을 위한 기반이 된다 (Bianchi et al. 2015 JAMA 314(2):162-169; Zhao et al. 2015 Clinical chemistry 61(4):608-616).
요약
본 명세서는 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해내는 방법 및 재료에 관계한다. 일부 구체예들에서, 본 명세서는 하나 또는 그 이상의 염색체 변칙과 연합된 질환 또는 장애를 갖는 포유류를 식별해내기 위한 앰플리콘-기반의 시퀀싱 데이터를 이용하는 방법 및 재료를 제공한다. 예를 들면, 본원에 기술된 방법들 및 재료들을 포유류로부터 획득된 샘플에 적용하여, 해당 포유류가 하나 또는 그 이상의 염색체 변칙을 갖는 지를 식별해낼 수 있다. 예를 들면, 포유류들이 하나 또는 그 이상의 이수성의 존재에 근거하여(적어도 일부분으로) 질환 또는 장애를 갖는 것으로 이들을 식별해낼 수 있다. 일부 구체예들에서, 단일 프라이머 쌍을 이용하여 게놈을 통틀어 게놈 요소들을 증폭시킨다. 예를 들면, 본원에 기술된 단일 프라이머 쌍을 이용하여 ~1,000,000개 특유의 반복되는 요소들 (가령, 앰플리콘)를 증폭시킬 수 있다. 일부 구체예들에서, 상기 증폭된 특유의 반복되는 요소들의 크기는 평균 100개 미만의 염기쌍 (bp)이다. 일부 구체예들에서, 방법 (WALDO, 샘플내-이수성-검출의 약어: Within-Sample-AneupLoidy-DetectiOn)를 이용하여 앰플리콘으로부터 획득한 시퀀싱 데이터를 평가하여 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)의 존재를 식별해낼 수 있다. 본원에서 기술된 바와 같이, 건강한 사람의 1,348개 혈장 샘플과 암 환자의 883개 혈장 샘플에서 이수성 평가하면, 이들 암 환자의 혈장 샘플의 49%에서 이수성이 탐지되었다.
한 측면에서, 포유류의 게놈 안에 이수성의 존재를 테스트하는 방법이 본원에 제공된다. 이 방법은 DNA 샘플 안의 다수의 염색체 서열을 해당 염색체 서열에 상보적인 프라이머 쌍을 이용하여 증폭시켜 다수의 앰플리콘을 형성하고; 이들 다수의 앰플리콘중 하나 또는 그 이상의 핵산 서열의 적어도 일부분을 결정하고; 이들 서열화된 앰플리콘을 참조 게놈에 맵핑시키고; 해당 DNA 샘플을 다수의 게놈 인터벌로 배당하고; 정해당 게놈 인터벌에 맵핑된 앰플리콘에 대한 다수의 속성을 정량화시키고; 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성과 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성을 비교하고; 그리고 이때 증폭 단계에서 적어도 100,000개의 앰플리콘이 형성된다 (가령, 이들 다수의 앰플리콘에는 ~745,000개의 앰플리콘이 내포된다).
일부 구체예들에서, 이 방법은 시험관내에서 실행된다. 일부 구체예들에서, 이들 다수의 앰플리콘은 약 1,000,000개 앰플리콘, 가령, 약 1,000,000-10,000개 앰플리콘; 약 1,000,000-50,000개 앰플리콘; 약 1,000,000-100,000개 앰플리콘; 약 1,000,000-200,000개 앰플리콘; 약 1,000,000-300,000개 앰플리콘; 약 1,000,000-400,000개 앰플리콘; 약 1,000,000-500,000개 앰플리콘; 약 1,000,000-600,000개 앰플리콘; 약 1,000,000-700,000개 앰플리콘; 약 1,000,000-800,000개 앰플리콘; 약 1,000,000-900,000개 앰플리콘; 약 900,000-10,000개 앰플리콘; 약 800,000-10,000개 앰플리콘; 약 700,000-10,000개 앰플리콘; 약 600,000-10,000개 앰플리콘; 약 500,000-10,000개 앰플리콘; 약 400,000-10,000개 앰플리콘; 약 300,000-10,000개 앰플리콘; 약 200,000-10,000개 앰플리콘; 약 100,000-10,000개 앰플리콘 또는 약 50,000-10,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 50,000개 앰플리콘; 약 100,000개 앰플리콘; 약 150,000개 앰플리콘; 약 200,000개 앰플리콘; 약 250,000개 앰플리콘; 약 300,000개 앰플리콘; 약 350,000개 앰플리콘; 약 400,000개 앰플리콘; 약 450,000개 앰플리콘; 약 500,00개 앰플리콘; 약 550,000개 앰플리콘; 약 600,000개 앰플리콘; 약 650,000개 앰플리콘; 약 700,000개 앰플리콘; 약 750,000개 앰플리콘; 약 800,000개 앰플리콘; 약 850,000개 앰플리콘; 약 900,000개 앰플리콘; 약 950,000개 앰플리콘; 또는 약 1,000,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 750,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 350,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 반복되는 요소들, 가령, 본원에 기술된 단일 프라이머 쌍에 의해 증폭된 앰플리콘의 수는 샘플 안에 존재하는 반복되는 요소들의 수 및/또는 샘플 안에 존재하는 반복되는 요소들의 길이에 대한 함수다. 예를 들면, 상기 단일 프라이머 쌍으로 검출될 수 있는 일부 샘플 안에 반복되는 요소들, 가령, 앰플리콘의 수는 약 ~750,000개의 앰플리콘이다. 일부 구체예들에서, 상기 단일 프라이머 쌍으로 검출될 수 있는 다른 샘플 안에 반복되는 요소들, 가령, 앰플리콘의 수는 약 ~350,000개의 앰플리콘이다.
일부 구체예들에서, DNA 샘플은 다수의 정배수성 DNA 샘플이다. 일부 구체예들에서, DNA 샘플은 다수의 테스트 DNA 샘플이다. 일부 구체예들에서, DNA 샘플은 다수의 테스트 DNA 샘플이다. 일부 구체예들에서, DNA 샘플은 혈장 샘플이다. 일부 구체예들에서, DNA 샘플은 혈청 샘플이다. 일부 구체예들에서, DNA 샘플은 세포 태아 DNA를 포함한다. 일부 구체예들에서, DNA 샘플은 적어도 3 피코그램의 DNA를 포함한다. 일부 구체예들에서, 포유류는 인간이다. 일부 구체예들에서, 상기 프라이머 쌍은 서열 식별 번호: 1을 포함하는 제 1 프라이머와 서열 식별 번호: 10을 포함하는 제 2 프라이머를 포함한다. 일부 구체예들에서, 본원에서 제공되는 방법에는 하나 또는 그 이상의 추가적인 프라이머 쌍이 내포된다. 일부 구체예들에서, 상기 앰플리콘에는 반복되는 요소들 (가령, 표 1에 나타낸 하나 또는 그 이상의 유형의 반복되는 요소들)이 내포된다. 일부 구체예들에서, 상기 앰플리콘에는 특유의 짧은 산재된 뉴클레오티드 요소들 (SINEs)이 내포된다. 일부 구체예들에서, 상기 앰플리콘에는 특유의 산재된 긴 뉴클레오티드 요소들 (LINEs)이 내포된다.
일부 구체예들에서, 상기 앰플리콘의 평균 길이는 약 100개 또는 그 미만의 염기쌍이다. 일부 구체예들에서, 상기 앰플리콘의 평균 길이는약 110 bp개 미만, 가령, 약 10-110bp, 약 10-105bp, 약 10-100bp, 약 10-99bp, 약 10-98bp, 약 10-97bp, 약 10-96bp, 약 10-95bp, 약 10-94bp, 약 10-93bp, 약 10-92bp, 약 10-91bp, 약 10-90bp, 약 10-89bp, 약 10-87bp, 약 10-86bp, 약 10-85bp, 약 10-84bp, 약 10-83bp, 약 10-82bp, 약 10-81bp, 약 10-80bp, 약 10-79bp, 약 10-78bp, 약 10-77bp, 약 10-76bp, 약 10-75bp, 약 10-74bp, 약 10-73bp, 약 10-72bp, 약 10-71bp, 약 10-70bp, 약 10-65bp, 약 10-60bp, 약 10-55bp, 약 10-50bp, 약 10-40bp, 약 10-30bp, 약 10-20bp, 약 15-110bp, 약 20-110bp, 약 25-110bp, 약 30-110bp, 약 35-110bp, 약 40-110bp, 약 45-110bp, 약 50-110bp, 약 55-110bp 약 60-110bp, 약 65-110bp, 약 70-110bp, 약 75-110bp, 약 80-110bp, 약 85-110bp, 약 90-110bp, 약 95-110bp, 약 100-110bp, 또는 약 105-110bp이다.
일부 구체예들에서, 상기 앰플리콘의 평균 길이는 약 10 bp; 약 20 bp; 약 30bp; 약 40bp; 약 45 bp; 약 50 bp; 약 60bp; 약 65 bp; 약 70bp; 약 75bp; 약 80bp; 약 85bp; 약 90bp; 약 95bp; 약 100bp; 약 105bp 또는 약 110bp이다.
일부 구체예들에서, 상기 앰플리콘은 1000개 또는 그 이상의 염기쌍의 평균 길이를 갖는, 하나 또는 그 이상의 긴 앰플리콘을 포함한다. 일부 구체예들에서, 상기 긴 앰플리콘은 오염 세포의 DNA를 포함한다. 일부 구체예들에서, 상기 오염 세포는 백혈구이다. 일부 구체예들에서, 상기 게놈 인터벌은 약 100개 뉴클레오티드 내지 약 125,000,000개 뉴클레오티드를 포함한다 (가령, 상기 게놈 인터벌에는 약 500,000개 뉴클레오티드가 내포될 수 있다).
또다른 측면에서, 본 명세서는 대상체에서 다수의 암중 임의의 암, 가령, 적어도 네가지 암중 임의의 암이 존재하는지, 또는 이의 발달 위험이 있는 지에 대해 해당 대상체를 평가하는 방법을 제공하며, 이 방법은 다음을 포함한다:
(i) 하나 또는 그 이상의 유전자 (가령, 하나 또는 그 이상의 드라이버 유전자, 가령, 적어도 네 가지 드라이버 유전자) 각각에서 하나 또는 그 이상의 유전적 생물표지자, 가령, 하나 또는 그 이상의 돌연변이 (가령, 하나 또는 그 이상의 드라이버 유전자 돌연변이)의 존재를 탐지하기 위한 값을 직접적으로 획득하거나, 또는 간접적으로 획득하고, 그리고 임의선택적으로 이때, 각 유전자, 가령, 드라이버 유전자는 이들 다수의 암에서 암의 존재 또는 위험과 연관되며;
(ii) 가령, 다수의, 가령, 적어도 네 가지의 단백질 생물표지자 각각의 수준을 검출하기 위한 값을 직접적으로 획득하거나, 또는 간접적으로 획득하고, 그리고 임의선택적으로 이때, 이들 다수의 생물표지자중 각각의 단백질 생물표지자의 수준은 이들 다수의 암에서 암의 존재 또는 위험과 연관되며; 또는
(iii) 가령, 이수성을 검출하기 위한 값을 직접적으로 획득하거나, 또는 간접적으로 획득하고, 이때 해당 이수성 값은 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개 말단 반복된 요소들 간에 배치된 게놈의 카피 수 카피 수 또는 길이의 함수이며, 이때 상기 RE 패밀리는 다음을 포함한다:
(a) 산재된 긴 뉴클레오티드 요소 (LINE)이외의 RE 패밀리;
(b) 패밀리의 반복된 말단 요소들에 상보적인 프라이머 모이어티로 증폭될 때, X개 미만의 nts 평균 길이를 갖는 앰플리콘을 제공하는 RE 패밀리, 이때 X는 100, 105, 또는 110이며,
(c) 길이가 약 700bp 미만인 RE 패밀리; 또는
(d) 게놈당 적어도 100개 카피로 존재하는 RE 패밀리;
그리고 임의선택적으로 이때, 상기 이수성은 다수의 암에서 암의 존재 또는 위험과 연관되며;
이로 인하여 다수의 암, 가령, 적어도 네 가지 암중 임의의 암의 존재, 또는 발생 위험에 대해 해당 대상체를 평가한다.
구체예에서, (i), (ii) 및 (iii)중 하나는 직접적으로 획득된다. 구체예에서, (i)과 (ii)는 직접적으로 획득된다. 구체예에서, (i)과 (iii)은 직접적으로 획득된다. 구체예에서, (ii)와 (iii)은 직접적으로 획득된다. 구체예에서, (i), (ii) 및 (iii) 모두는 직접적으로 획득된다.
구체예에서, (i), (ii) 및 (iii)중 하나는 간접적으로 획득된다. 구체예에서, (i)과 (ii)는 간접적으로 획득된다. 구체예에서, (i)과 (iii)은 간접적으로 획득된다. 구체예에서, (ii)와 (iii)은 간접적으로 획득된다. 구체예에서, (i), (ii) 및 (iii) 모두는 간접적으로 획득된다.
구체예에서, 이 방법은 유전적 생물표지자를 포함하는 시퀀싱 하나 또는 그 이상의 하위게놈 인터벌 또는 앰플리콘을 포함한다. 구체예에서, 이 방법은 이수성에 대해 하나 또는 그 이상의 게놈을 분석하는 것을 포함한다. 구체예에서, 이 방법은 단백질 생물표지자에 검출 시약을 접촉시키는 것을 포함한다. 구체예에서, 이 방법은 다음을 포함한다: (1) 유전적 생물표지자를 포함하는 하나 또는 그 이상의 하위게놈 인터벌 또는 앰플리콘을 시퀀싱하고; (2) 이수성에 대해 하나 또는 그 이상의 게놈을 분석하고, 및/또는 (3) 단백질 생물표지자에 검출 시약을 접촉시킨다.
구체예에서, 해당 이수성 값은 RE 패밀리의 적어도 두 개 말단 반복된 요소들 사이에 배치된 게놈 서열의 카피 수에 대한 함수이다. 구체예에서, 해당 이수성 값은 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 길이에 대한 함수다.
일부 구체예들에서, 이 방법은 시험관내에서 실행된다.
구체예에서, 샘플, 가령, 대상체로부터 획득된 생물학적 샘플은 (i)-(iii)중 하나, 둘 또는 이들 모두에 대해 평가된다. 구체예에서, 상기 생물학적 샘플은 액체 샘플, 가령, 혈액 샘플을 포함한다. 구체예에서, 상기 생물학적 샘플은 무-세포 DNA 샘플, 혈장 샘플 또는 혈청 샘플을 포함한다. 구체예에서, 상기 생물학적 샘플은 무-세포 DNA, 가령, 순환 종양 DNA를 포함한다. 구체예에서, 상기 생물학적 샘플은 세포 및/또는 조직을 포함한다. 구체예에서, 상기 생물학적 샘플은 세포 (가령, 정상 세포 또는 암 세포) 및 무-세포 DNA를 포함한다.
본원에서 기술된 방법들중 임의의 방법의 구체예에서, (i), (ii) 및 (iii)을 갖는 다수의 암에서 암 검출 특이성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암의 검출 특이성과 실질적으로 동일한, 가령, 이들보다 실질적으로 더 낮지 않다.
본원에서 기술된 방법들중 임의의 방법의 구체예에서, (i), (ii) 및 (iii)을 갖는 다수의 암에서 해당 암 검출의 민감성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암 검출의 민감성보다 더 높은, 가령, 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 더 높다. 구체예에서, 증가된 검출 민감성이란 검출 민감성 명시된 특이성에서, 가령, 사전-결정된 특이성에서, 가령, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 특이성에서 가령, 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 증가다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 1,000,000개 앰플리콘, 가령, 약 1,000,000-10,000개 앰플리콘; 약 1,000,000-50,000개 앰플리콘; 약 1,000,000-100,000개 앰플리콘; 약 1,000,000-200,000개 앰플리콘; 약 1,000,000-300,000개 앰플리콘; 약 1,000,000-400,000개 앰플리콘; 약 1,000,000-500,000개 앰플리콘; 약 1,000,000-600,000개 앰플리콘; 약 1,000,000-700,000개 앰플리콘; 약 1,000,000-800,000개 앰플리콘; 약 1,000,000-900,000개 앰플리콘; 약 900,000-10,000개 앰플리콘; 약 800,000-10,000개 앰플리콘; 약 700,000-10,000개 앰플리콘; 약 600,000-10,000개 앰플리콘; 약 500,000-10,000개 앰플리콘; 약 400,000-10,000개 앰플리콘; 약 300,000-10,000개 앰플리콘; 약 200,000-10,000개 앰플리콘; 약 100,000-10,000개 앰플리콘 또는 약 50,000-10,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 50,000개 앰플리콘; 약 100,000개 앰플리콘; 약 150,000개 앰플리콘; 약 200,000개 앰플리콘; 약 250,000개 앰플리콘; 약 300,000개 앰플리콘; 약 350,000개 앰플리콘; 약 400,000개 앰플리콘; 약 450,000개 앰플리콘; 약 500,00개 앰플리콘; 약 550,000개 앰플리콘; 약 600,000개 앰플리콘; 약 650,000개 앰플리콘; 약 700,000개 앰플리콘; 약 750,000개 앰플리콘; 약 800,000개 앰플리콘; 약 850,000개 앰플리콘; 약 900,000개 앰플리콘; 약 950,000개 앰플리콘; 또는 약 1,000,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 750,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 350,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 반복되는 요소들, 가령, 본원에 기술된 단일 프라이머 쌍에 의해 증폭된 앰플리콘의 수는 샘플 안에 존재하는 반복되는 요소들의 수 및/또는 샘플 안에 존재하는 반복되는 요소들의 길이에 대한 함수다. 예를 들면, 상기 단일 프라이머 쌍으로 검출될 수 있는 일부 샘플 안에 반복되는 요소들, 가령, 앰플리콘의 수는 약 ~750,000개의 앰플리콘이다. 일부 구체예들에서, 상기 단일 프라이머 쌍으로 검출될 수 있는 다른 샘플 안에 반복되는 요소들, 가령, 앰플리콘의 수는 약 ~350,000개의 앰플리콘이다.
일부 구체예들에서, 상기 앰플리콘의 평균 길이는 약 100개 또는 그 미만의 염기쌍이다. 일부 구체예들에서, 상기 앰플리콘의 평균 길이는약 110 bp개 미만, 가령, 약 10-110bp, 약 10-105bp, 약 10-100bp, 약 10-99bp, 약 10-98bp, 약 10-97bp, 약 10-96bp, 약 10-95bp, 약 10-94bp, 약 10-93bp, 약 10-92bp, 약 10-91bp, 약 10-90bp, 약 10-89bp, 약 10-87bp, 약 10-86bp, 약 10-85bp, 약 10-84bp, 약 10-83bp, 약 10-82bp, 약 10-81bp, 약 10-80bp, 약 10-79bp, 약 10-78bp, 약 10-77bp, 약 10-76bp, 약 10-75bp, 약 10-74bp, 약 10-73bp, 약 10-72bp, 약 10-71bp, 약 10-70bp, 약 10-65bp, 약 10-60bp, 약 10-55bp, 약 10-50bp, 약 10-40bp, 약 10-30bp, 약 10-20bp, 약 15-110bp, 약 20-110bp, 약 25-110bp, 약 30-110bp, 약 35-110bp, 약 40-110bp, 약 45-110bp, 약 50-110bp, 약 55-110bp 약 60-110bp, 약 65-110bp, 약 70-110bp, 약 75-110bp, 약 80-110bp, 약 85-110bp, 약 90-110bp, 약 95-110bp, 약 100-110bp, 또는 약 105-110bp이다.
일부 구체예들에서, 상기 앰플리콘의 평균 길이는 약 10 bp; 약 20 bp; 약 30bp; 약 40bp; 약 45 bp; 약 50 bp; 약 60bp; 약 65 bp; 약 70bp; 약 75bp; 약 80bp; 약 85bp; 약 90bp; 약 95bp; 약 100bp; 약 105bp 또는 약 110bp이다.
일부 구체예들에서, 이 방법은 해당 대상체를 방사선 스캔하는, 가령, 장기 또는 신체 영역의 PET-CT 스캔하는 것을 더 포함한다. 일부 구체예들에서, 장기 또는 신체 영역의 방사선 스캔으로 해당 암을 특징화시킨다. 일부 구체예들에서, 장기 또는 신체 영역의 방사선 스캔으로 해당 암의 위치를 확인한다. 일부 구체예들에서, 상기 방사선 스캔은 PET-CT 스캔이다. 일부 구체예들에서, 상기 방사선 스캐닝은 다수 암의 각 존재에 대해 해당 대상체를 평가한 후, 실행된다.
또다른 측면에서, 본 명세서은 포유류의 게놈 안에 이수성의 존재를 테스트하는 방법을 제공한다. 이 방법은 다음을 포함한다:
a) DNA 샘플 안의 다수의 염색체 서열을 프라이머 모이어티, 가령, 해당 염색체 서열에 상보적인 프라이머 또는 프라이머 쌍으로 증폭시켜 다수의 앰플리콘을 형성하고, 가령, 이때 이수성 검출이 되도록, 상기 프라이머 모이어티는 충분한 수의 서열을 증폭시키고;
b) 이들 다수의 앰플리콘중 하나 또는 그 이상의 핵산 서열의 적어도 일부분을 결정하고;
c) 이들 서열화된 앰플리콘을 참조 게놈에 맵핑시키고;
d) 해당 DNA 샘플을 다수의 게놈 인터벌로 배당하고;
e) 해당 게놈 인터벌에 맵핑된 앰플리콘의 다수의 속성을 정량화하고;
f) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성을 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 비교하고; 그리고
이때 이수성을 검출하는데 충분한 앰플리콘의 갯수, 가령, 적어도 10,000, 20,000, 50,000, 또는 100,000개의 앰플리콘이 증폭 단계에서 형성된다.
일부 구체예들에서, 이 방법은 시험관내에서 실행된다.
본원에서 기술된 방법들중 임의의 방법의 구체예에서, 다수의 암에서 해당 암의 검출 민감성의 증가는 이들 다수의 암에서 해당 암의 검출 특이성에 영향을 주지 않는데, 가령, 이의 검출 특이성을 감소시키거나, 또는 실질적으로 감소시키지 않는다. 구체예에서, 다수의 암에서 해당 암의 검출 특이성 정체기에 있고, 가령, 검출 특이성은 추가적인 생물표지자의 검출에 의해 변경되지 않는다.
또다른 측면에서, 본원에 기술된 방법들중 임의의 방법을 이용하여, 저-투입(low input) DNA를 포함하는 샘플에서 이수성을 검출하는 방법이 본원에서 제공된다.
일부 구체예들에서, 상기 샘플은 약 0.01 피코그램 (pg) 내지 500 pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 약 0.01-500pg, 0.05-400pg, 0.1-300pg, 0.5-200pg, 1-100pg, 10-90pg, 또는 20-50pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 적어도 0.01 pg, 적어도 .01 pg, 적어도 0.1 pg, 적어도 1 pg. 적어도 2 pg, 적어도 3 pg, 적어도 4 pg, 적어도 5 pg, 적어도 6 pg, 적어도 7 pg, 적어도 8 pg, 적어도 9 pg 적어도 10pg, 적어도 11 pg, 적어도 12 pg, 적어도 13 pg, 적어도 14 pg, 적어도 15 pg, 적어도 16 pg, 적어도 17 pg, 적어도 18 pg, 적어도 19 pg, 적어도 20 pg, 적어도 21 pg, 적어도 22 pg, 적어도 23 pg, 적어도 24 pg, 적어도 25 pg, 적어도 26 pg, 적어도 27 pg, 적어도 28 pg, 적어도 29 pg, 적어도 30 pg, 적어도 31 pg, 적어도 32 pg, 적어도 33 pg, 적어도 34 pg, 적어도 35 pg, 적어도 36 pg, 적어도 37 pg, 적어도 38 pg, 적어도 39 pg, 적어도 40 pg, 적어도 50 pg, 적어도 60 pg, 적어도 70 pg, 적어도 80 pg, 적어도 90 pg, 적어도 100pg, 적어도 150pg, 적어도 200 pg, 적어도 300 pg, 적어도 350 pg, 적어도 400 pg, 적어도 450 pg, 또는 적어도 500 pg의 DNA를 포함한다.
일부 구체예들에서, 상기 샘플은 1 pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 2 pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 3 pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 4 pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 5 pg의 DNA를 포함한다. 일부 구체예들에서, 상기 샘플은 10 pg의 DNA를 포함한다.
일부 구체예들에서, 상기 샘플은 대상체로부터 취한 생물학적 샘플이다. 구체예에서, 상기 생물학적 샘플은 액체 샘플, 가령, 혈액 샘플을 포함한다. 구체예에서, 상기 생물학적 샘플은 무-세포 DNA 샘플, 혈장 샘플 또는 혈청 샘플을 포함한다. 구체예에서, 상기 생물학적 샘플은 무-세포 DNA, 가령, 순환 종양 DNA를 포함한다. 구체예에서, 상기 생물학적 샘플은 세포 및/또는 조직을 포함한다. 구체예에서, 상기 생물학적 샘플은 세포 (가령, 정상 세포 또는 암 세포) 및 무-세포 DNA를 포함한다.
일부 구체예들에서, 상기 샘플은 삼염색체성(trisomy) 21 샘플이다. 일부 구체예들에서, 상기 샘플은 법의학적 샘플이다. 일부 구체예들에서, 상기 샘플은 배아, 가령, 착상-전 배아에서 취한 샘플이다.
일부 구체예들에서, 상기 샘플은 가령, 실시예 3에 기술된 바와 같은, 바이오뱅크(biobank) 샘플이다.
일부 구체예들에서, 이 방법은 진단, 가령, 착상-전 진단에 이용된다.
일부 구체예들에서, 이 방법은 법의학적 목적으로 이용된다.
일부 구체예들에서, 이 방법은 시험관내 방법이다.
또다른 측면에서, 본원에 기술된 방법들중 임의의 방법을 이용하여 샘플을 식별해내거나 또는 구별해내는 방법이 본원에서 제공된다.
일부 구체예들에서, 샘플, 가령, 대상체 (가령, 제 1 대상체)로부터 취한 제 1 샘플은 제 2 대상체에서 취한 제 2 샘플과 구별된다. 일부 구체예들에서, 다형태 (가령, 다수의 다형태, 가령, 공통적 다형태)를 기반으로 샘플, 가령, 제 1 샘플이 제 1 대상체로부터 유래된 것임이 확인된다. 일부 구체예들에서, 다형태 (가령, 다수의 다형태, 가령, 공통적 다형태)를 기반으로 제 2 샘플이 제 2 대상체로부터 유래된 것임이 확인된다. 일부 구체예들에서, 공통적 다형태는 가령, 본원에서 기술된 바와 같이 반복되는 요소에 존재한다. 일부 구체예들에서, 실시예 8에 기술된 방법을 이용하여 샘플을 식별해내거나 및/또는 구별해낼 수 있다.
또다른 측면에서, 적어도 2, 3,4, 5, 6, 7, 8, 9 또는 10개 검출 시약을 포함하는 반응 혼합물이 본원에서 제공되며, 이때 검출 시약은 (i) 본원에서 언급된 하나 또는 그 이상의 유전적 생물표지자; (ii) 본원에서 언급된 하나 또는 그 이상의 단백질 생물표지자; 및/또는 (iii) 본원에서 언급된 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 카피 수 또는 길이, 가령 이수성의 수준 또는 존재의 값이 되는 판독(readout)을 매개한다.
여전히 또다른 측면에서, 본 명세서는 다음을 포함하는 키트를 제공한다: (a) 적어도 2, 3, 4, 5, 6, 7, 8, 9 또는 10가지 검출 시약; 그리고 (b) 전술한 키트 사용을 위한 사용지침을 포함하며, 이때 검출 시약은 (i) 본원에서 언급된 하나 또는 그 이상의 유전적 생물표지자; (ii) 본원에서 언급된 하나 또는 그 이상의 단백질 생물표지자; 및/또는 (iii) 본원에서 언급된 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 카피 수 또는 길이, 가령 이수성의 수준 또는 존재의 값이 되는 판독을 매개한다.
본원에 기술된 방법들중 임의의 방법의 일부 구체예들에서, 게놈 인터벌에 맵핑된 앰플리콘의 정량화는 하나 또는 그 이상의 공유되는 앰플리콘 속성을 갖는 다수의 게놈 인터벌을 식별해내는 단계를 포함한다. 일부 구체예들에서, 상기 공유되는 앰플리콘 속성은 상기 맵핑된 앰플리콘의 숫자이다.
본원에 기술된 방법들중 임의의 방법의 일부 구체예들에서, 상기 공유되는 앰플리콘 속성은 상기 맵핑된 앰플리콘의 평균 길이다. 일부 구체예들에서, 공유되는 앰플리콘 속성을 갖는 다수의 게놈 인터벌을 클러스터로 그룹화시킨다. 일부 구체예들에서, 각 클러스터(cluster)에는 약 200개 게놈 인터벌이 내포된다. 일부 구체예들에서, 상기 클러스터는 사전-정의된 클러스터를 포함한다. 일부 구체예들에서, 상기 게놈 인터벌들의 비교는 테스트 샘플에서의 하나 또는 그 이상의 게놈 인터벌을 사전-정의된 클러스터에 매칭시키는 것을 더 포함한다. 일부 구체예들에서, 테스트 샘플에서의 게놈 인터벌을 사전-정의된 클러스터에 매칭시키는 것은 사전-정의된 클러스터에 대한 사전-결정된 유의성 역치를 벗어난, 공유되는 앰플리콘 속성을 갖는 하나 또는 그 이상의 게놈 인터벌을 식별해내는 것을 더 포함한다. 일부 구체예들에서, 이 방법은 관리감독 하에(supervised) 기계 학습을 포함한다. 일부 구체예들에서, 상기 관리감독 하에 기계 학습은 서포트 벡터 기계 모델을 이용한다.
본원에 기술된 방법들중 임의의 방법의 일부 구체예들에서, 단일 프라이머 쌍은 서열 식별 번호: 1에 대해 적어도 80% 동일한 서열을 포함하는 제 1 프라이머와 서열 식별 번호: 10에 대해 적어도 80% 동일한 서열을 포함하는 제 2 프라이머를 포함하는 DNA 샘플로부터 다수의 앰플리콘을 증폭시키는데 이용된다. 일부 구체예들에서, 제 1 프라이머의 서열은 서열 식별 번호: 1에 대해 적어도 90% 동일하다. 일부 구체예들에서, 제 1 프라이머의 서열은 서열 식별 번호: 1에 대해 적어도 95% 동일하다. 일부 구체예들에서, 제 1 프라이머의 서열은 서열 식별 번호: 1에 대해 100% 동일하다. 일부 구체예들에서, 제 2 프라이머의 서열은 서열 식별 번호: 10에 대해 적어도 90% 동일하다. 일부 구체예들에서, 제 2 프라이머의 서열은 서열 식별 번호: 10에 대해 적어도 95%동일하다. 일부 구체예들에서, 제 2 프라이머의 서열은 서열 식별 번호: 10에 대해 100% 동일하다. 일부 구체예들에서, 프라이머 쌍을 포함하는 키트를 이용하여 DNA 샘플로부터 취한 다수의 앰플리콘을 증폭시키고, 이때 상기 프라이머 쌍의 제 1 프라이머는 서열 식별 번호: 1 또는 이에 대해 적어도 80% 동일한 서열을 포함하고, 그리고 상기 프라이머 쌍의 제 2 프라이머는 서열 식별 번호: 10, 또는 이에 대해 적어도 80% 동일한 서열을 포함한다.
또다른 측면에서, 본 명세서는 포유류에서 암의 존재를 테스트하는 방법을 제공한다. 이 방법에는 다음이 내포된다: a) DNA 샘플 안의 다수의 염색체 서열을 해당 염색체 서열에 상보적인 프라이머 쌍을 이용하여 증폭시켜 다수의 앰플리콘을 형성하고; b) 이들 다수의 앰플리콘중 하나 또는 그 이상의 핵산 서열의 적어도 일부분을 결정하고; c) 이들 서열화된 앰플리콘을 참조 게놈에 맵핑시키고; d) 해당 DNA 샘플을 다수의 게놈 인터벌로 배당하고; e) 해당 게놈 인터벌에 맵핑된 앰플리콘의 다수의 속성을 정량화하고; f) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성과 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성을 비교하고; 그리고 g) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성이 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 상이할 때, 해당 포유류에 암의 존재를 결정한다. 일부 구체예들에서, 이 방법에는 증폭 단계에서 형성된 적어도 100,000개의 앰플리콘이 내포될 수 있다. 일부 구체예들에서, 상기 암은 I 기 암일 수 있다. 일부 구체예들에서, 상기 암은 간암, 난소암, 식도암, 위암, 췌장암, 결장직장암, 폐암, 유방암, 또는 전립선암일 수 있다.
일부 구체예들에서, 이 방법은 시험관내 방법이다.
본원에 기술된 방법들, 반응 혼합물 또는 키트중 임의의 일부 구체예들에서, 이들 다수의 앰플리콘은 약 1,000,000개 앰플리콘, 가령, 약 1,000,000-10,000개 앰플리콘; 약 1,000,000-50,000개 앰플리콘; 약 1,000,000-100,000개 앰플리콘; 약 1,000,000-200,000개 앰플리콘; 약 1,000,000-300,000개 앰플리콘; 약 1,000,000-400,000개 앰플리콘; 약 1,000,000-500,000개 앰플리콘; 약 1,000,000-600,000개 앰플리콘; 약 1,000,000-700,000개 앰플리콘; 약 1,000,000-800,000개 앰플리콘; 약 1,000,000-900,000개 앰플리콘; 약 900,000-10,000개 앰플리콘; 약 800,000-10,000개 앰플리콘; 약 700,000-10,000개 앰플리콘; 약 600,000-10,000개 앰플리콘; 약 500,000-10,000개 앰플리콘; 약 400,000-10,000개 앰플리콘; 약 300,000-10,000개 앰플리콘; 약 200,000-10,000개 앰플리콘; 약 100,000-10,000개 앰플리콘 또는 약 50,000-10,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 50,000개 앰플리콘; 약 100,000개 앰플리콘; 약 150,000개 앰플리콘; 약 200,000개 앰플리콘; 약 250,000개 앰플리콘; 약 300,000개 앰플리콘; 약 350,000개 앰플리콘; 약 400,000개 앰플리콘; 약 450,000개 앰플리콘; 약 500,00개 앰플리콘; 약 550,000개 앰플리콘; 약 600,000개 앰플리콘; 약 650,000개 앰플리콘; 약 700,000개 앰플리콘; 약 750,000개 앰플리콘; 약 800,000개 앰플리콘; 약 850,000개 앰플리콘; 약 900,000개 앰플리콘; 약 950,000개 앰플리콘; 또는 약 1,000,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 750,000개의 앰플리콘을 포함한다.
일부 구체예들에서, 이들 다수의 앰플리콘은 약 350,000개의 앰플리콘을 포함한다.
본원에 기술된 방법들중 임의의 방법의 일부 구체예들에서, 반복되는 요소들, 가령, 본원에 기술된 단일 프라이머 쌍에 의해 증폭된 앰플리콘의 수는 샘플 안에 존재하는 반복되는 요소들의 수 및/또는 샘플 안에 존재하는 반복되는 요소들의 길이에 대한 함수다. 예를 들면, 상기 단일 프라이머 쌍으로 검출될 수 있는 일부 샘플 안에 반복되는 요소들, 가령, 앰플리콘의 수는 약 ~750,000개의 앰플리콘이다. 일부 구체예들에서, 다른 샘플 안에, 반복되는 요소들, 가령, 상기 단일 프라이머 쌍으로 검출될 수 있는 앰플리콘의 수는 약 ~350,000개의 앰플리콘이다.
본원에서 기술된 방법들, 반응 혼합물, 또는 키트중 임의의 것의 일부 구체예들에서,상기 앰플리콘의 평균 길이는 약 100개 또는 그 미만의 염기쌍이다. 일부 구체예들에서, 상기 앰플리콘의 평균 길이는약 110 bp개 미만, 가령, 약 10-110bp, 약 10-105bp, 약 10-100bp, 약 10-99bp, 약 10-98bp, 약 10-97bp, 약 10-96bp, 약 10-95bp, 약 10-94bp, 약 10-93bp, 약 10-92bp, 약 10-91bp, 약 10-90bp, 약 10-89bp, 약 10-87bp, 약 10-86bp, 약 10-85bp, 약 10-84bp, 약 10-83bp, 약 10-82bp, 약 10-81bp, 약 10-80bp, 약 10-79bp, 약 10-78bp, 약 10-77bp, 약 10-76bp, 약 10-75bp, 약 10-74bp, 약 10-73bp, 약 10-72bp, 약 10-71bp, 약 10-70bp, 약 10-65bp, 약 10-60bp, 약 10-55bp, 약 10-50bp, 약 10-40bp, 약 10-30bp, 약 10-20bp, 약 15-110bp, 약 20-110bp, 약 25-110bp, 약 30-110bp, 약 35-110bp, 약 40-110bp, 약 45-110bp, 약 50-110bp, 약 55-110bp 약 60-110bp, 약 65-110bp, 약 70-110bp, 약 75-110bp, 약 80-110bp, 약 85-110bp, 약 90-110bp, 약 95-110bp, 약 100-110bp, 또는 약 105-110bp이다.
일부 구체예들에서, 상기 앰플리콘의 평균 길이는 약 10 bp; 약 20 bp; 약 30bp; 약 40bp; 약 45 bp; 약 50 bp; 약 60bp; 약 65 bp; 약 70bp; 약 75bp; 약 80bp; 약 85bp; 약 90bp; 약 95bp; 약 100bp; 약 105bp 또는 약 110bp이다.
본원에 기술된 방법들중 임의의 방법의 추가적인 속성에는 다음에 열거된 구체예들중 하나 또는 그 이상이 내포된다.
당업계 숙련자는 일반적인 실험만을 통하여 본 명세서에서 설명된 발명의 특정 구체예들에 대등한 다수의 등가물을 인지할 수 있거나, 또는 알아낼 수 있을 것이다. 이러한 등가물은 다음에 열거된 구체예들에 의해 포괄되는 것으로 의도된다.
열거된 구체예들
E1. 대상체에서 다수의 암중 임의의 암, 가령, 적어도 네가지 암중 임의의 암이 존재하는지, 또는 이의 발달 위험이 있는 지에 대해 해당 대상체를 평가하는 방법을 제공하며, 이 방법은 다음을 포함한다:
(i) 하나 또는 그 이상의 유전자 (가령, 하나 또는 그 이상의 드라이버 유전자, 가령, 적어도 네 가지 드라이버 유전자) 각각에서 하나 또는 그 이상의 유전적 생물표지자, 가령, 하나 또는 그 이상의 돌연변이 (가령, 하나 또는 그 이상의 드라이버 유전자 돌연변이)의 존재를 탐지하기 위한 값을 직접적으로 획득하거나, 또는 간접적으로 획득하고, 그리고 임의선택적으로 이때, 각 유전자, 가령, 드라이버 유전자는 이들 다수의 암에서 암의 존재 또는 위험과 연관되며;
(ii) 가령, 다수의, 가령, 적어도 네 가지의 단백질 생물표지자 각각의 수준을 검출하기 위한 값을 직접적으로 획득하거나, 또는 간접적으로 획득하고, 그리고 임의선택적으로 이때, 이들 다수의 생물표지자중 각각의 단백질 생물표지자의 수준은 이들 다수의 암에서 암의 존재 또는 위험과 연관되며; 또는
(iii) 가령, 이수성을 검출하기 위한 값을 직접적으로 획득하거나, 또는 간접적으로 획득하고, 이때 해당 이수성 값은 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개 말단 반복된 요소들 간에 배치된 게놈의 카피 수 카피 수 또는 길이의 함수이며, 이때 상기 RE 패밀리는 다음을 포함한다:
(a) 산재된 긴 뉴클레오티드 요소 (LINE)이외의 RE 패밀리;
(b) 패밀리의 반복된 말단 요소들에 상보적인 프라이머 모이어티로 증폭될 때, X개 미만의 nts 평균 길이를 갖는 다수의 앰플리콘을 제공하는 RE 패밀리, 이때 X는 100, 105, 또는 110이며,
(c) 길이가 약 700bp 미만인 RE 패밀리; 또는
(d) 게놈당 적어도 100개 카피로 존재하는 RE 패밀리;
그리고 임의선택적으로 이때, 상기 이수성은 다수의 암에서 암의 존재 또는 위험과 연관되며;
이로 인하여 다수의 암, 가령, 적어도 네 가지 암중 임의의 암의 존재, 또는 발생 위험에 대해 해당 대상체를 평가한다.
E2. 구체예 E1의 방법, 이때:
(a) (i), (ii) 및 (iii)중 하나는 직접적으로 획득되고;
(b) (i)과 (ii)는 직접적으로 획득되고;
(c) (i)과 (iii)은 직접적으로 획득되고;
(d) (ii)와 (iii)은 직접적으로 획득되고; 또는
(e) (i), (ii) 및 (iii) 모두는 직접적으로 획득된다.
E3. 구체예 E1의 방법, 이때:
(a) (i), (ii) 및 (iii)중 하나는 간접적으로 획득되고;
(b) (i)과 (ii)는 간접적으로 획득되고;
(c) (i)과 (iii)은 간접적으로 획득되고;
(d) (ii)와 (iii)은 간접적으로 획득되고; 또는
(e) (i), (ii) 및 (iii) 모두는 간접적으로 획득된다.
E4. 구체예 E1-E3중 임의의 하나의 구체예의 방법, 이 방법은 다음을 포함한다:
(1) 유전적 생물표지자를 포함하는 하나 또는 그 이상의 하위게놈 인터벌 또는 앰플리콘을 시퀀싱하고;
(2) 이수성에 대해 하나 또는 그 이상의 게놈을 분석하고, 및/또는
(3) 단백질 생물표지자에 검출 시약을 접촉시킨다.
E5. 구체예 E1-E4중 임의의 하나의 구체예의 방법, 이때 해당 이수성 값은 다음의 함수다:
(a) RE 패밀리의 적어도 두 개 말단 반복된 요소들 사이에 배치된 게놈 서열의 카피 수; 및/또는
(b) 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열 사이에 배치된 게놈 서열의 길이
E6. 구체예 E1-E5중 임의의 하나의 구체예의 방법, 이때 대상체로부터 획득된 생물학적 샘플은 (i)-(iii)중 하나, 둘 또는 이들 모두에 대해 평가된다.
E7. 구체예 E6의 방법, 이때 상기 생물학적 샘플은 액체 샘플, 가령, 혈액 샘플을 포함한다.
E8. 구체예 E6 또는 E7의 방법, 이때 상기 생물학적 샘플은 무-세포 DNA 샘플, 혈장 샘플 또는 혈청 샘플을 포함한다.
E9. 구체예 E6-E8중 임의의 하나의 구체예의 방법, 이때 상기 생물학적 샘플은 무-세포 DNA, 가령, 순환 종양 DNA를 포함한다.
E10. 구체예 E1-E9중 임의의 하나의 구체예의 방법, 이 방법은 다음을 더 포함한다:
(i) 샘플의 무-세포 DNA로부터 하위게놈 인터벌에 대한 서열을 획득하고;
(ii) 상기 샘플의 백혈구 DNA로부터 백혈구 매개변수, 가령, 하위게놈 인터벌의 서열을 획득한다.
E11. 구체예 E1-E10중 임의의 하나의 구체예의 방법, 이 방법은 다음을 더 포함한다:
(i) 샘플의 무-세포 DNA로부터 이수성 분석을 위한 하위게놈 인터벌에 대한 서열을 획득하고;
(ii) 상기 샘플의 백혈구 DNA로부터 이수성 분석을 위한 백혈구 매개변수, 가령, 하위게놈 인터벌에 대한 서열을 획득한다.
E12. 구체예 E10 또는 E11의 방법, 이 방법은 다음을 더 포함한다:
(i)과 (ii)를 비교하여, 게놈 사건, 가령, 상기 무-세포 DNA 하위게놈 인터벌 또는 무-세포 DNA 이수성 분석 샘플에서 발견되는 돌연변이를 평가한다.
E13. 구체예 E10-E12중 임의의 하나의 구체예의 방법, 이 방법은 무-세포 DNA 또는 무-세포 DNA의 이수성 분석으로부터 하위 게놈 인터벌에서 게놈 사건, 가령, 돌연변이를 추가 분류하고, 가령, 해당 돌연변이를 제 1 클래스 또는 제 2 클래스에 할당한다.
E14. 구체예 E10-E13중 임의의 하나의 구체예의 방법, 이 방법은 다음을 더 포함한다: 무-세포 DNA 또는 무-세포 DNA의 이수성 분석의 하위게놈 인터벌에서 게놈 사건, 가령 돌연변이를 성장-통제이탈, 가령, 암에 걸린 것으로 분류한다.
E15. 구체예 E10-E13중 임의의 하나의 구체예의 방법, 이 방법은 다음을 더 포함한다: 무-세포 DNA 또는 무-세포 DNA의 이수성 분석의 하위게놈 인터벌에서 게놈 사건, 가령 돌연변이를 성장-통제이탈이 아닌, 가령, 암에 걸린 것이 아닌으로 것으로 분류한다.
E16. 구체예 E10-E14중 임의의 하나의 구체예의 방법, 이때 무-세포 DNA 또는 무-세포 DNA의 이수성 분석의 하위게놈 인터벌에서 게놈 사건, 가령, 돌연변이는 다음과 같을 때, 암에 걸린 것으로 분류한다:
(a) 상기 하위게놈 인터벌은 무-세포 DNA에서 이수성이며, 그리고 상기 하위게놈 인터벌은 백혈구에서 이수성이 아닐 때; 또는
(b) 상기 게놈 사건이 무-세포 DNA의 하위게놈 인터벌에 존재하고, 그리고 상기 게놈 사건이 백혈구의 하위게놈 인터벌에 존재하지 않을 때.
E17. 구체예 E10-E13 또는 E15중 임의의 하나의 구체예의 방법, 이때 무-세포 DNA 또는 무-세포 DNA의 이수성 분석의 하위게놈 인터벌에서 게놈 사건, 가령, 돌연변이는 다음과 같을 때, 성장-통제이탈이 아닌 것으로 분류한다:
(a) 상기 하위게놈 인터벌은 무-세포 DNA에서 이수성이며, 그리고 상기 하위게놈 인터벌은 백혈구에서 이수성일 때; 또는
(b) 상기 게놈 사건은 무-세포 DNA의 하위게놈 인터벌에 존재하고, 상기 게놈 사건은 백혈구의 하위게놈 인터벌에 존재할 때.
E18. 구체예 E17의 방법, 이때 상기 게놈 사건은 백혈구의 클론 확장과 관련되는데, 가령, 연령-관련된 클론 조혈, 가령, 클론성 조혈증 (CHIP)과 관련된다.
E19. 구체예 E1-E18중 임의의 하나의 구체예의 방법, 이때 (i), (ii) 및 (iii)을 갖는 다수의 암에서 암 검출 특이성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암의 검출 특이성과 실질적으로 동일한, 가령, 이들보다 실질적으로 더 낮지 않다.
E20. 구체예 E1-E19중 임의의 하나의 구체예의 방법, 이때 (i), (ii) 및 (iii)을 갖는 다수의 암에서 해당 암 검출의 민감성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암 검출의 민감성보다 더 높은, 가령, 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 더 높다.
E21. 구체예 E1-E20중 임의의 하나의 구체예의 방법, 이때 (i), (ii) 및 (iii)은 검출 민감성을 증가시키는데, 가령, 사전-결정된 특이성에서, 가령, 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 특이성에서 가령, 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 증가시킨다.
E22. 구체예 E20-E21중 임의의 하나의 구체예의 방법, 이때 다수의 암에서 해당 암의 검출 민감성의 증가는 이들 다수의 암에서 해당 암의 검출 특이성에 영향을 주지 않는데, 가령, 이의 검출 특이성을 감소시키거나, 또는 실질적으로 감소시키지 않는다.
E23. 구체예 E22의 방법, 이때 다수의 암에서 해당 암의 검출 특이성 정체기에 있다.
E24. 구체예 E1-E23중 임의의 하나의 구체예의 방법, 이때 상기 RE 패밀리는 LINE이외의 것이다.
E25. 구체예 E1-E24중 임의의 하나의 구체예의 방법, 이때 상기 RE 패밀리는 반복된 요소를 포함하는데, 이것은 이의 반복된 말단 요소들에 대해 프라이머로 증폭될 때, 약 110 bp 미만의 평균 길이, 가령, 약 10-110bp, 약 10-105bp, 약 10-100bp, 약 10-99bp, 약 10-98bp, 약 10-97bp, 약 10-96bp, 약 10-95bp, 약 10-94bp, 약 10-93bp, 약 10-92bp, 약 10-91bp, 약 10-90bp, 약 10-89bp, 약 10-87bp, 약 10-86bp, 약 10-85bp, 약 10-84bp, 약 10-83bp, 약 10-82bp, 약 10-81bp, 약 10-80bp, 약 10-79bp, 약 10-78bp, 약 10-77bp, 약 10-76bp, 약 10-75bp, 약 10-74bp, 약 10-73bp, 약 10-72bp, 약 10-71bp, 약 10-70bp, 약 10-65bp, 약 10-60bp, 약 10-55bp, 약 10-50bp, 약 10-40bp, 약 10-30bp, 약 10-20bp, 약 15-110bp, 약 20-110bp, 약 25-110bp, 약 30-110bp, 약 35-110bp, 약 40-110bp, 약 45-110bp, 약 50-110bp, 약 55-110bp 약 60-110bp, 약 65-110bp, 약 70-110bp, 약 75-110bp, 약 80-110bp, 약 85-110bp, 약 90-110bp, 약 95-110bp, 약 100-110bp, 또는 약 105-110bp의 평균 길이를 갖는 다수의 앰플리콘을 제공한다.
E26. 구체예 E1-E25중 임의의 하나의 구체예의 방법, 이때 상기 RE 패밀리는 표 1에 나타낸 하나 또는 그 이상의 반복되는 요소를 포함한다.
E27. 구체예 E1-E26중 임의의 하나의 구체예의 방법, 이때 상기 RE 패밀리는 SINE 또는 일렬(tandem) 반복부 (가령, 미소부수체(microsatellite) DNA, 미니-부수체 DNA, 부수체 DNA 또는 다중 카피를 갖는 유전자의 DNA (가령, 리보솜 RNA를 인코딩하는 DNA))를 포함한다.
E28. 구체예 E27의 방법, 이때 상기 RE 패밀리는 SINE, 가령, Vassetzky and Kramerov (2013) Nucleic Acids Res. 41: D83-89.에 기술된 Alu 패밀리, MIR 또는 MIR3, 또는 SINE이다.
E29. 구체예 E1-E28중 임의의 하나의 구체예의 방법, 이때 이수성에 대한 값은 더 나아가 LINE 반복된 요소의 말단 반복된 요소들 간에 배치된 게놈 서열의 카피 수 또는 길이의 함수다.
E30. 구체예 E1-E29중 임의의 하나의 구체예의 방법, 이때 이수성에 대한 값은 더 나아가 반복된 요소 패밀리의 말단 반복된 요소들 사이에 배치된 다수의 게놈 서열의 카피 수 또는 길이의 함수이며, 이때 상기 반복 요소들이 이의 반복된 말단 요소들에 상보적인 프라이머로 증폭될 때, 100 bp이상의 평균 길이를 갖는 앰플리콘이 제공된다.
E31. 구체예 E1-E30중 임의의 하나의 구체예의 방법, 이때 이수성에 대한 값은 더 나아가 다음의 함수다:
a) DNA 샘플 안의 다수의 염색체 서열을 해당 염색체 서열에 상보적인 프라이머 쌍을 이용하여 증폭시켜 다수의 앰플리콘을 형성하고;
b) 이들 다수의 앰플리콘중 하나 또는 그 이상의 핵산 서열의 적어도 일부분을 결정하고;
c) 이들 서열화된 앰플리콘을 참조 게놈에 맵핑시키고;
d) 해당 DNA 샘플을 다수의 게놈 인터벌로 배당하고;
e) 해당 게놈 인터벌에 맵핑된 앰플리콘의 다수의 속성을 정량화하고;
f) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성을 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 비교하고; 그리고
g) 이때 증폭 단계에서 적어도 100,000개의 앰플리콘이 형성된다.
E32. 구체예 E1-E31중 임의의 하나의 구체예의 방법, 이 방법은 이수성에 대한 값을 제공하는 것을 포함하고, 이때 이 값은 RE 패밀리의 말단 반복된 요소들 사이에 배치된 적어도 약 5, 10, 20, 30, 50, 100, 200, 500, 또는 1000개의 상이한 게놈 서열의 함수다.
E33. 구체예 E1-E32중 임의의 하나의 구체예의 방법, 이때 상기 카피 수는 2 이상이거나, 또는 2 미만이다.
E34. 구체예 E31-E33중 임의의 하나의 구체예의 방법, 이때 적어도 약 100,000개 앰플리콘; 약 150,000개 앰플리콘; 약 200,000개 앰플리콘; 약 250,000개 앰플리콘; 약 300,000개 앰플리콘; 약 350,000개 앰플리콘; 약 400,000개 앰플리콘; 약 450,000개 앰플리콘; 약 500,000개 앰플리콘; 약 550,000개 앰플리콘; 약 600,000개 앰플리콘; 약 650,000개 앰플리콘; 약 700,000개 앰플리콘; 약 750,000개 앰플리콘; 약 800,000개 앰플리콘; 약 850,000개 앰플리콘; 약 900,000개 앰플리콘; 약 950,000개 앰플리콘; 또는 약 1,000,000개의 앰플리콘이 형성된다.
E35. 구체예 E1-E34중 임의의 하나의 구체예의 방법, 이 방법은 이수성에 대한 값을 제공하는 것을 포함하며, 이때 이 값은 다음의 함수다:
(i) RE 패밀리의 말단 반복된 요소들 사이에 배치된, 게놈 DNA의 제 1 세그먼트 상의 제 1 게놈 서열의 카피 수 또는 길이; 그리고
(ii) (가령, 동일한 또는 상이한) RE 패밀리의 말단 반복된 요소들 사이에 배치된, 게놈 DNA의 제 2 세그먼트 상의 제 2 게놈 서열의 카피 수 또는 길이.
E36. 구체예 E35의 방법, 이때:
(i) 상기 게놈 DNA의 제 1 세그먼트와 상기 게놈 DNA의 제 2 세그먼트는 동일한 염색체의 상이한 가지(arm) 상에 있고, 가령, 제 1 세그먼트는 q 가지(arm) 상에 있고, 제 2 세그먼트는 동일한 염색체의 p 가지(arm) 상에 있고; 또는 제 1 세그먼트는 동일한 염색체의 p 가지(arm)에 있고, 제 2 세그먼트는 동일한 염색체의 q 가지(arm)에 있고;
(ii) 상기 게놈 DNA의 제 1 세그먼트와 상기 게놈 DNA의 제 2 세그먼트는 동일한 염색체의 동일한 가지(arm) 상에 있는데, 가령, 제 1 세그먼트와 제 2 세그먼트 모두 염색체의 p 가지(arm) 상에 있거나, 또는 q 가지(arm) 상에 있고; 및/또는
(iii) 상기 게놈 DNA의 제 1 세그먼트와 상기 게놈 DNA의 제 2 세그먼트는 상이한 염색체, 가령, 비-상동성 염색체 상에 있다.
E37. 구체예 E1-E36중 임의의 하나의 구체예의 방법, 이 방법은 이수성에 대한 값을 제공하는 것을 포함하며, 이때 이 값은 다음의 함수다:
RE 패밀리의 말단 반복된 요소들 사이에 배치된 제 3 염색체 상의 제 3 게놈 서열의 카피 수 또는 길이.
E38. 구체예 E1-E37중 임의의 하나의 구체예의 방법, 이 방법은 이수성에 대한 값을 제공하는 것을 포함하며, 이때 이 값은 다음의 함수다:
RE 패밀리의 말단 반복된 요소들 사이에 배치된 N번째 염색체 상의 N번째 게놈 서열의 카피 수 또는 길이, 이때 N은 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23이다.
E39. 구체예 E1-E38중 임의의 하나의 구체예의 방법, 이 방법은 RE 패밀리의 말단 반복된 요소들 사이에 배치된 게놈 서열을 포함하는 서열을 증폭시키는 프라이머 모이어티에 대상체 게놈 핵산을 접촉시키는 것을 포함한다.
E40. 구체예 E39의 방법, 이때 상기 프라이머 모이어티는 상기 RE 패밀리의 말단 요소에 상보적이다.
E41. 구체예 E39 또는 E40의 방법, 이때 상기 프라이머 모이어티는 프라이머 쌍을 포함한다.
E42. 구체예 E39-E41중 임의의 하나의 구체예의 방법, 이때 상기 프라이머 모이어티는 단일 프라이머를 포함하고, 가령, 등온(isothermal) 증폭과 함께 이용된다.
E43. 구체예 E1-E42중 임의의 하나의 구체예의 방법, 이때, 검출되는 생물표지자의 수 (가령, 드라이버 유전자 돌연변이의 수)는 다수의 암에서 각 유전자, 가령, 드라이버 유전자와 연관된 해당 암의 검출 민감성이 하나 또는 그 이상의 추가적인 유전적 생물표지자의 검출에 의해 실질적으로 증가되지 않을 수준으로 충분하다.
E44. 구체예 E1-E42중 임의의 하나의 구체예의 방법, 이때 유전적 생물표지자는 가령, 유전적 생물표지자의 서열 (가령, 뉴클레오티드 서열)을 시퀀싱함으로써 이 표지자의 검출이 제공되는 것을 포함한다.
E45. 구체예 E44의 방법, 이때 제공되는 유전적 생물표지자 서열의 수는 다수의 암에서 각 유전자, 가령, 드라이버 유전자와 연관된 해당 암의 검출 민감성이 추가적인 유전적 생물표지자의 하나 또는 그 이상의 서열의 제공에 의해 실질적으로 증가되지 않을 수준으로 충분하다.
E46. 구체예 E1-E42중 임의의 하나의 구체예의 방법, 이때 상기 생물표지자의 검출은 유전적 생물표지자를 포함하는 하나 또는 그 이상의 하위게놈 인터벌의 서열 (가령, 뉴클레오티드 서열)을 제공는 것을 포함한다.
E47. 구체예 E46의 방법, 이때, 제공되는 하위게놈 인터벌 서열의 수는 다수의 암에서 각 유전자, 가령, 드라이버 유전자와 연관된 해당 암의 검출 민감성이 추가적인 하위게놈 인터벌의 하나 또는 그 이상의 서열 (가령, 뉴클레오티드 서열)의 제공에 의해 실질적으로 증가되지 않을 수준으로 충분하다.
E48. 구체예 E1-E42중 임의의 하나의 구체예의 방법, 이때 유전적 생물표지자의 검출은 유전적 생물표지자를 포함하는 앰플리콘의 서열을 제공하는 것을 포함한다.
E49. 구체예 E48의 방법, 이때 제공되는 앰플리콘 서열의 수는 다수의 암에서 각 유전자, 가령, 드라이버 유전자와 연관된 해당 암의 검출 민감성이 추가적인 앰플리콘의 하나 또는 그 이상의 서열의 제공에 의해 실질적으로 증가되지 않을 수준으로 충분하다.
E50. 구체예 E46의 방법, 이때 제공되는 하위게놈 인터벌 서열의 수는 다수의 암에서 각 유전자, 가령, 드라이버 유전자와 연합된 해당 암의 검출 특이성이 추가적인 하위게놈 인터벌의 하나 또는 그 이상의 서열의 제공에 의해 실질적으로 감소되지 않을 수준으로 충분하다.
E51. 구체예 E48의 방법, 이때 제공되는 앰플리콘의 수는 다수의 암에서 다수의 각 유전자, 가령, 드라이버 유전자와 연관된 해당 암의 검출 특이성이 추가적인 앰플리콘의 하나 또는 그 이상의 서열의 제공에 의해 실질적으로 감소되지 않을 수준으로 충분하다.
E52. 선행 구체예들중 임의의 구체예의 방법, 이때 다수의 암은 4, 5, 6, 7 또는 8개의 암을 포함한다.
E53. 선행 구체예들중 임의의 구체예의 방법, 이때 다수의 암은 이를 테면, 다음의 고형 종양으로부터 선택된다: 중피종 (가령, 악성 흉막 중피종), 폐암 (가령, 비-소 세포 폐암, 소 세포 폐암, 편평 세포 폐암, 또는 거대 세포 폐암), 췌장암 (가령, 췌관 선암종), 간암 (가령, 간세포 암종, 또는 담관암종), 식도암 (가령, 식도 선암종 또는 편평 세포 암종), 두경부 암, 난소암, 결장직장암, 방광암, 자궁경부암, 자궁암 (자궁내막 암), 신장암, 유방암, 전립선암, 뇌암 (가령, 수모세포종, 또는 교모세포종), 또는 육종 (가령, 유잉(Ewing) 육종, 골육종, 횡문근육육종), 또는 이들의 조합.
E54. 선행 구체예들중 임의의 구체예의 방법, 이때 다수의 암은 간암, 난소암, 식도암, 위암, 췌장암, 결장직장암, 폐암, 유방암, 또는 전립선암, 또는 이들의 조합으로부터 선택된다.
E55. 선행 구체예들중 임의의 구체예의 방법, 이때 다수의 암에서 하나 또는 그 이상은 간암, 난소암, 식도암, 위암, 췌장암, 결장직장암, 폐암, 또는 유방암로부터 선택된다.
E56. 선행 구체예들중 임의의 구체예의 방법, 이때 다수의 암에서 하나 또는 그 이상은 혈액성 암이다.
E57. 선행 구체예들중 임의의 구체예의 방법, 이때 하나 또는 그 이상의 유전자, 가령, 하나 또는 그 이상의 드라이버 유전자, 가령, US2019/0256924A1의 표 60 및 표 61에 열거된 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2로부터 단지 60, 100, 150, 200, 300 또는 400개의 하위게놈 인터벌 또는 앰플리콘이 서열화된다.
E58. 선행 구체예들중 임의의 구체예의 방법, 이때 하나 또는 그 이상의 유전자, 가령, 하나 또는 그 이상의 드라이버 유전자, 가령, US2019/0256924A1의 표 60 및 표 61에 열거된 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2로부터 적어도 30, 40, 50 또는 60개의 하위게놈 인터벌 또는 앰플리콘이 서열화된다.
E59. 선행 구체예들중 임의의 구체예의 방법, 이때 하나 또는 그 이상의 유전자, 가령, 하나 또는 그 이상의 드라이버 유전자, 가령, US2019/0256924A1의 표 60 및 표 61에 열거된 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2로부터 적어도 30개 그러나 400개를 넘지 않는, 적어도 40개 그러나 300개를 넘지 않는, 적어도 50개 그러나 200개를 넘지 않는, 적어도 60개 그러나 150개를 넘지 않는, 또는 적어도 60개 그러나 100개를 넘지 않는, 하위게놈 인터벌 또는 앰플리콘이 서열화된다.
E60. 선행 구체예들중 임의의 구체예의 방법, 이때 유전자에 대하여 서열화된 하위게놈 인터벌 또는 앰플리콘의 수는 해당 암 검출의 민감성에 대한 안정기를 달성하게 되는 최저 수의 125, 150, 200, 또는 300 %를 넘지 않는다.
E61. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 유전적 생물표지자의 각 하위게놈 인터벌 또는 앰플리콘은 6-800bp, 가령, 6-750bp, 6-700bp, 6-650bp, 6-600bp, 6-550bp, 6-500bp, 6-450bp, 6-400bp, 6-350bp, 6-300bp, 6-250bp, 6-200bp, 6-150bp, 6-100bp, 10-800bp, 15-800bp, 20-800bp, 25-800bp, 30-800bp, 35-800bp, 40-800bp, 45-800bp, 50-800bp, 55-800bp, 60-800bp, 65-800bp, 70-800bp, 75-800bp, 80-800bp, 85-800bp, 90-800bp, 95-800bp, 100-800bp, 200-800bp, 300-800bp, 400-800bp, 500-800bp, 600-800bp, 700-800bp, 10-700bp, 20-600bp, 30-500bp, 40-400bp, 50-300bp, 60-200bp, 61-150bp, 62-140bp, 63-130bp, 64-120bp, 또는 65-100bp, 가령, 66-80bp를 포함한다.
E62. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 유전적 생물표지자의 각 하위게놈 인터벌 또는 앰플리콘은 약 35, 40, 45, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 100, 또는 110 bp를 포함한다.
E63. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 유전적 생물표지자의 각 하위게놈 인터벌 또는 앰플리콘은 단지 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 또는 800 bp를 포함한다.
E64. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 유전적 생물표지자의 각 하위게놈 인터벌 또는 앰플리콘은 적어도 6, 10, 15, 20, 25, 30, 35, 40, 45, 또는 50bp를 포함한다.
E65. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 유전적 생물표지자의 각 하위게놈 인터벌 또는 앰플리콘은 적어도 6pb를 그러나 800bp를 넘지 않는, 적어도 10bp 그러나 700bp를 넘지 않는, 적어도 15bp 그러나 600bp를 넘지 않는, 적어도 20bp 그러나 600bp를 넘지 않는, 적어도 25bp 그러나 500bp를 넘지 않는, 적어도 30bp 그러나 400bp를 넘지 않는, 적어도 35bp 그러나 300bp를 넘지 않는, 적어도 40bp 그러나 200bp를 넘지 않는, 적어도 45bp 그러나 100bp를 넘지 않는, 적어도 50bp 그러나 95bp를 넘지 않는, 또는 적어도 55bp 그러나 90bp를 넘지 않는다.
E66. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 유전적 생물표지자의 각 하위게놈 인터벌 또는 앰플리콘은 66-80bp를 포함한다.
E67. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수는 단지 2000, 2500, 3000, 3500, 4000, 5000, 6000, 7000, 8000, 9000, 10,000, 15,000, 또는 20,000bp를 포함한다.
E68. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수는 적어도 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900 또는 2000bp를 포함한다.
E69. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수는 적어도 200bp 그러나 20,000bp를 넘지 않는, 적어도 300bp 그러나 15,000bp를 넘지 않는, 적어도 400bp 그러나 10,000bp를 넘지 않는, 적어도 500bp 그러나 9000를 넘지 않는, 적어도 600bp 그러나 8000bp를 넘지 않는, 적어도 700bp 그러나 7000bp를 넘지 않는, 적어도 800bp 그러나 6000bp를 넘지 않는, 적어도 900bp 그러나 5000bp를 넘지 않는, 적어도 1000bp 그러나 4000bp를 넘지 않는, 적어도 1100bp 그러나 3500bp를 넘지 않는, 적어도 1200bp 그러나 3000bp를 넘지 않는, 적어도 1300bp 그러나 2500bp를 넘지 않는, 또는 적어도 1500bp 그러나 2000bp를 넘지 않는다.
E70. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수는 200 + 15%, 300 + 15%, 400 + 15%, 500 + 15%, 600 + 15%, 700 + 15%, 800 + 15%, 900 + 15%, 1000 + 15%, 1100 + 15%, 1200 + 15%, 1300 + 15%, 1400 + 15%, 1500 + 15%, 1600 + 15%, 1700 + 15%, 1800 + 15%, 1900 + 15%, 2000 + 15%, 2500 + 15%, 3000 + 15%, 3500 + 15%, 4000 + 15%, 5000 + 15%, 6000 + 15%, 7000 + 15%, 8000 + 15%, 9000 + 15%, 10,000 + 15%, 15,000 + 15%, 또는 20,000bp + 15%, 가령, 2000bp + 15%를 포함한다.
E71. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수는 2000bp를 포함한다.
E72. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수가 서열화되는 평균 심도(depth)는 적어도 5× 시퀀싱 심도이다.
E73. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수가 서열화되는 평균 심도는 단지 500× 시퀀싱 심도이다.
E74. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 유전적 생물표지자의 하위게놈 인터벌 또는 앰플리콘의 수가 서열화되는 평균 심도는 5× 내지 500× 시퀀싱 심도이다.
E75. 선행 구체예들중 임의의 구체예의 방법, 이때 전술한 검출 단계는 염기당 적어도 50,000회 판독의 심도로 각 하위게놈 인터벌을 시퀀싱하는 것을 포함한다.
E76. 선행 구체예들중 임의의 구체예의 방법, 이때 전술한 검출 단계는 염기당 단지 150,000회 판독의 심도로 각 하위게놈 인터벌을 시퀀싱하는 것을 포함한다.
E77. 선행 구체예들중 임의의 구체예의 방법, 이때 전술한 검출 단계는 염기당 50,000회 판독 내지 염기당 150,000회 판독의 심도로 각 하위게놈 인터벌을 시퀀싱하는 것을 포함한다.
E78. 선행 구체예들중 임의의 구체예의 방법, 이때 전술한 검출 단계는 관심대상의 전술한 영역에서 0.0005% 만큼 낮은 빈도에서 돌연변이를 검출하는데 충분한 심도로 각 하위게놈 인터벌을 시퀀싱하는 것을 포함한다.
E79. 선행 구체예들중 임의의 구체예의 방법, 이때 각 생물표지자, 가령, 각 유전자, 가령, 각 드라이버 유전자, 가령, US2019/0256924A1의 표 60 또는 61에 기술된 각 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2에 대해 단지 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 40, 45, 50, 55, 60,100, 200 또는 300 bp가 서열화된다.
E80. 선행 구체예들중 임의의 구체예의 방법, 이때 각 생물표지자, 가령, 각 유전자, 가령, 각 드라이버 유전자, 가령, US2019/0256924A1의 표 60 또는 61에 기술된 각 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2에 대해 적어도 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20bp가 서열화된다.
E81. 선행 구체예들중 임의의 구체예의 방법, 이때 선행 구체예들중 임의의 구체예의 방법, 이때 각 생물표지자, 가령, 각 유전자, 가령, 각 드라이버 유전자, 가령, US2019/0256924A1의 표 60 또는 61에 기술된 각 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2에 대해 적어도 6bp 그러나 300bp를 넘지 않는, 적어도 7bp 그러나 200bp를 넘지 않는, 적어도 8bp 그러나 100bp를 넘지 않는, 적어도 9bp 그러나 60bp를 넘지 않는, 적어도 10bp 그러나 55bp를 넘지 않는, 적어도 11 bp 그러나 50bp를 넘지 않는, 적어도 12bp 그러나 45bp를 넘지 않는, 적어도 13bp 그러나 40bp를 넘지 않는, 적어도 14bp 그러나 35bp를 넘지 않는, 적어도 15bp 그러나 34bp를 넘지 않는, 적어도 14bp 그러나 33bp를 넘지 않는, 적어도 15bp 그러나 32bp를 넘지 않는, 적어도 16bp 그러나 31bp를 넘지 않는, 적어도 17bp 그러나 30bp를 넘지 않는, 적어도 18bp 그러나 29bp를 넘지 않는, 적어도 19bp 그러나 28bp를 넘지 않는, 적어도 20bp 그러나 27bp를 넘지 않게 서열화된다.
E82. 선행 구체예들중 임의의 구체예의 방법, 이때 각 생물표지자, 가령, 각 유전자, 가령, 각 드라이버 유전자, 가령, US2019/0256924A1의 표 60 또는 61에 기술된 각 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2에 대해 약 33bp가 서열화된다.
E83. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 생물표지자의 검출은 길이가 단지 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 40, 45, 50, 55, 60,100, 200 또는 300 bp인 하위게놈 인터벌의 서열 또는 앰플리콘을 제공하는 것을 포함하고, 이때 상기 하위게놈 인터벌 또는 상기 앰플리콘은 상기 생물표지자, 가령, 드라이버 돌연변이를 포함하는 드라이버 유전자를 포함한다.
E84. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 생물표지자의 검출은 길이가 적어도 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20bp인 하위게놈 인터벌의 서열 또는 앰플리콘을 제공하는 것을 포함하고, 이때 상기 하위게놈 인터벌 또는 상기 앰플리콘은 상기 생물표지자, 가령, 드라이버 돌연변이를 포함하는 드라이버 유전자를 포함한다.
E85. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 생물표지자의 검출은 길이가 적어도 6bp 그러나 300bp를 넘지 않는, 적어도 7bp 그러나 200bp를 넘지 않는, 적어도 8bp 그러나 100bp를 넘지 않는, 적어도 9bp 그러나 60bp를 넘지 않는, 적어도 10bp 그러나 55bp를 넘지 않는, 적어도 11 bp 그러나 50bp를 넘지 않는, 적어도 12bp 그러나 45bp를 넘지 않는, 적어도 13bp 그러나 40bp를 넘지 않는, 적어도 14bp 그러나 35bp를 넘지 않는, 적어도 15bp 그러나 34bp를 넘지 않는, 적어도 14bp 그러나 33bp를 넘지 않는, 적어도 15bp 그러나 32bp를 넘지 않는, 적어도 16bp 그러나 31bp를 넘지 않는, 적어도 17bp 그러나 30bp를 넘지 않는, 적어도 18bp 그러나 29bp를 넘지 않는, 적어도 19bp 그러나 28bp를 넘지 않는, 적어도 20bp 그러나 27bp를 넘지 않는 하위게놈 인터벌 또는 앰플리콘의 서열을 제공하는 것을 포함하고, 이때 상기 하위게놈 인터벌 또는 앰플리콘 는 상기 생물표지자, 가령, 드라이버 돌연변이를 포함하는 드라이버 유전자를 포함한다.
E86. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 생물표지자의 검출은 길이가 6bp ~ 300bp, 7bp ~ 200bp, 또는 8bp ~ 100bp, 9bp ~ 60bp, 10bp ~ 50bp, 15bp ~ 40bp, 20bp ~ 35bp 사이인 하위게놈 인터벌의 서열 또는 앰플리콘을 제공하는 것을 포함하고, 이때 상기 하위게놈 인터벌 또는 상기 앰플리콘은 상기 생물표지자, 가령, 드라이버 돌연변이를 포함하는 드라이버 유전자를 포함한다.
E87. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 생물표지자의 검출은 길이가 약 33bp인 하위게놈 인터벌의 서열 또는 앰플리콘을 제공하는 것을 포함하고, 이때 상기 하위게놈 인터벌 또는 상기 앰플리콘은 상기 생물표지자, 가령, 드라이버 돌연변이를 포함하는 드라이버 유전자를 포함한다.
E88. 선행 구체예들중 임의의 구체예의 방법, 이 방법은 다음을 더 포함한다:
b) 생물학적 샘플에서 다수, 가령, 적어도 네 가지, 단백질 생물표지자 각각의 수준을 검출하고, 이때 이들 다수의 생물표지자중 각각의 단백질 생물표지자의 수준은 다수의 암에서 암의 존재와 연관되며;
(임의선택적으로) (c) 이들 다수의 생물표지자중 각각의 단백질 생물표지의 탐지된 수준을 해당 단백질 생물표지자의 참조 수준에 비교하고; 그리고
d) 이들 다수의 단백질 생물표지자중 하나 또는 그 이상의 유전적 생물표지자 존재 및 이들 단백질 생물표지자중 하나의 수준이 검출될 때, 해당 대상체에서 다수 암에서 암이 존재하는 것으로 확인된다.
E89. 선행 구체예들중 임의의 구체예의 방법, 이때:
(i) 해당 대상체는 암, 가령, 다수의 암에서 선택된 암을 보유하는 것으로 아직 결정되지 않았으며,
(ii) 해당 대상체는 암 세포, 가령, 다수의 암에서 선택된 암 세포를 품고 있는 것으로 아직 결정되지 않았으며, 또는
(iii) 해당 대상체는 암, 가령, 다수의 암에서 선택된 암과 관련된 증상을 나타내지 않고, 또는 나타내지 않았다.
E90. 선행 구체예들중 임의의 구체예의 방법, 이때 해당 대상체는 다음과 같다:
(i) 소아과 대상이거나 젊은 성인, 예를 들어, 6개월-21세이고; 또는
(ii) 성인, 가령, 18세 또는 그 이상의 성인이다.
E91. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 샘플은 종양 샘플, 가령, 생검 샘플 (가령, 액체 생검 샘플 (가령, 순환 종양 DNA 샘플, 또는 무-세포 DNA 샘플) 또는 고형 종양 생검 샘플); 혈액 샘플 (가령, 순환 종양 DNA 샘플, 또는 무-세포 DNA 샘플), 성분채집 샘플, 소변 샘플, 낭액 샘플 (가령, 췌장 낭액 샘플), Papanicolaou (Pap) 샘플, 또는 고정된 종양 샘플 (가령, 포르말린 고정된 샘플 또는 파라핀 매립된 샘플 (FPPE))을 포함한다.
E92. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 유전자는 US2019/0256924A1의 표 60과 표 61의 1개, 2개, 3개 또는 4개 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2를 포함한다.
E93. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 유전자는 US2019/0256924A1의 표 60과 표 61의 5개, 6개, 7개, 또는 8개 유전자, 가령, ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 또는 SKP2를 포함한다.
E94. 선행 구체예들중 임의의 구체예의 방법, 이때 하나 또는 그 이상의, 가령, 다수의 유전자는 다음에서 선택된 유전자이다: NRAS, CTNNB1, PIK3CA, FBXW7, APC, EGFR, BRAF, CDKN2A, PTEN, FGFR2, HRAS, KRAS, AKT1, TP53, PPP2R1A, 또는 GNAS.
E95. 선행 구체예들중 임의의 구체예의 방법, 이때 하나 또는 그 이상의, 가령, 다수의 생물표지자 (가령, 하나 또는 그 이상의 유전자)는 KRAS, PIK3CA, HRAS, CDKN2A, TP53, AKT1, CTNNB1, APC, EGFR, GNAS, PPP2R1A, BRAF, FBXW7, PTEN, 또는 FGFR2, 또는 이들의 조합에서 선택되며; 그리고 상기 암은 간암, 난소암, 식도암, 위암, 췌장암, 결장직장암, 폐암, 유방암, 또는 전립선암에서 선택된다.
E96. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 생물표지자 (가령, 하나 또는 그 이상의 유전자)는 KRAS, PIK3CA, HRAS, CDKN2A, TP53, TERT, ERBB2, FGFR3, MET, MLL, 또는 VHL, 또는 이들의 조합에서 선택되며, 그리고 상기 암은 방광암 또는 상부 요로 상피 암종 (UTUC)에서 선택된다.
E97. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 생물표지자 (가령, 하나 또는 그 이상의 유전자)는 KRAS, PIK3CA, CDKN2A, TP53, CTNNB1, PPP2R1A, BRAF, PTEN, CSMD3, FAT3, BRCA, 또는 ARID1A, 또는 이들의 조합에서 선택되며, 그리고 상기 암은 난소암 또는 자궁내막암이다.
E98. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 생물표지자 (가령, 하나 또는 그 이상의 유전자)는 KRAS, PIK3CA, CDKN2A, TP53, CTNNB1, GNAS, BRAF, NRAS, VHL, RNF43, 또는 SMAD4, 또는 이들의 조합에서 선택되며, 그리고 상기 암은 췌장암, 가령, 췌관 선암종 (PDAC)이다.
E99. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 생물표지자는 5개, 6개, 7개, 또는 8개의 단백질 생물표지자를 포함한다.
E100. 선행 구체예들중 임의의 구체예의 방법, 이때 상기 하나 또는 그 이상의, 가령, 다수의 생물표지자는 다음으로부터 선택된 단백질 생물표지자를 포함한다: CA19-9, CEA, HGF, OPN, CA125, 프로락틴 (PRL), TIMP-1, CA15-3, AFP 또는 MPO.
E101. 선행 구체예들중 임의의 구체예의 방법, 이때 하나 또는 그 이상의 유전적 생물표지자의 존재를 검출하는 것은 다음을 포함한다:
a. 각 샘플에 존재하는 다수의 주형 분자 각각에 특유의 식별자(ID)를 할당하고;
b. 특유하게 테그된 각 주형 분자를 증폭시켜 UID-패밀리를 창출하고; 그리고;
c. 상기 증폭 산물을 과다하게(redundantly) 시퀀싱한다.
E102. 선행 구체예들중 임의의 구체예의 방법, 이 방법은 다음을 더 포함한다: 상기 샘플 안에 이수성의 존재를 탐지하고, 가령, 실시예 6에서 기술된 WALDO 방법을 이용하여 가령, 하나 또는 그 이상의 염색체의 획득 또는 상실을 탐지한다.
E103. 구체예 102의 방법, 이때 이 방법은 다음을 포함한다: (i) 체세포 돌연변이 부하(load)를 추정하고; (ii) 발암물질 시그니쳐를 추정하고, 및/또는 (iii) 미소부수체 불안정성 (MSI)을 탐지한다.
E104. 구체예 102 또는 103의 방법, 이때 이 방법을 이용하여 두 개 샘플, 가령, 무관한 두 개 샘플을 비교하여, 상기 샘플 간의 유전적 유사성을 평가하거나, 또는 상기 샘플, 가령, 상기 샘플안에 LINE 요소들 안에 체세포 돌연변이를 찾을 수 있다.
E105. 구체예 102 또는 103의 방법, 이때 이 방법으로 이수성 검출의 특이성 및/또는 민감성이 증가되는 결과를 얻는다.
E106. 구체예 102의 방법, 이때 하나 또는 그 이상의 염색체 가지에서 이수성의 존재가 탐지된다.
E107. 선행 구체예들중 임의의 구체예의 방법, 이 방법은 다음을 더 포함한다: 유전적 표지자, 단백질 생물표지자 및/또는 이수성 상태의 값에 반응하여, 기원 또는 암 유형을 해당 암에 할당한다.
E108. 선행 구체예들중 임의의 구체예의 방법, 이때 유전적 표지자, 단백질 생물표지자 및/또는 이수성 상태의 값에 반응하여, 이 방법은 해당 대상체가 암을 가지거나, 또는 암의 발달 위험을 갖는 것으로 식별해내는 것을 포함한다.
E109. 구체예 E108의 방법, 이 방법은 다음을 더 포함한다: 해당 대상체에게 치료요법제를 투여하여 상기 암을 치료하거나, 또는 해당 대상체에서 상기 암 치료용 치료요법제를 선택한다.
E110. 구체예 E109의 방법, 이때 해당 대상체에게 하나 또는 그 이상의 추가적인 치료요법제와 조합하여 해당 치료요법제를 투여한다.
E111. 다음을 포함하는 반응 혼합물:
적어도 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 검출 시약, 이때 검출 시약은 다음의 존재 또는 수준의 값이 되는 판독을 매개한다:
(i) 본원에서 언급된 하나 또는 그 이상의 유전적 생물표지자;
(ii) 본원에서 언급된 하나 또는 그 이상의 단백질 생물표지자; 및/또는
(iii) 본원에서 언급된 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 카피 수 또는 길이, 가령, 이수성.
E112. 구체예 E111의 반응 혼합물, 이것은 (i)에 대한 다수의 검출 시약을 포함한다.
E113. 구체예 E111-E112중 임의의 구체예의 반응 혼합물, 이것은 (ii)에 대한 다수의 검출 시약을 포함한다.
E114. 구체예 E111-E113중 임의의 구체예의 반응 혼합물, 이것은 (iii)에 대한 다수의 검출 시약을 포함한다.
E115. 구체예 E111-E114중 임의의 구체예의 반응 혼합물, 이것은 대상체로부터 취한 샘플, 가령, 대상체 샘플을 포함한다.
E116. 다음을 포함하는 키트:
(a) 적어도 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 검출 시약, 이때 검출 시약은 다음의 존재 또는 수준의 값이 되는 판독을 매개한다:
(i) 본원에서 언급된 하나 또는 그 이상의 유전적 생물표지자;
(ii) 본원에서 언급된 하나 또는 그 이상의 단백질 생물표지자; 및/또는
(iii) 본원에서 언급된 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 카피 수 또는 길이, 가령, 이수성; 그리고
(b) 전술한 키트 사용을 위한 사용지침.
E117. 구체예 E116의 반응 혼합물, 이것은 (i)에 대한 다수의 검출 시약을 포함한다.
E118. 구체예 E116-E117중 임의의 구체예의 반응 혼합물, 이것은 (ii)에 대한 다수의 검출 시약을 포함한다.
E119. 구체예 E116 ~ E118중 임의의 구체예의 반응 혼합물, 이것은 (iii)에 대한 다수의 검출 시약을 포함한다.
E120. 구체예 E1-E110중 임의의 하나의 구체예의 반응 혼합물, 이때 이수성 상태가 추정되는데, 가령, 제 1 프라이머와 제 2 프라이머를 이용하여 결정된다.
E121. 구체예 E120의 방법, 이때 제 1 프라이머는 서열 식별 번호: 1에 대해 적어도 80%, 85%, 90%, 95%, 96%, 96%, 98%, 99%, 또는 100% 동일한 서열을 포함한다.
E122. 구체예 E121의 방법, 이때 제 1 프라이머는 서열 식별 번호: 1의 서열을 포함한다.
E123. 구체예 E120의 방법, 이때 제 2 프라이머는 서열 식별 번호: 10에 대해 적어도 80%, 85%, 90%, 95%, 96%, 96%, 98%, 99%, 또는 100% 동일한 서열을 포함한다.
E124. 구체예 E123의 방법, 이때 제 2 프라이머는 서열 식별 번호: 10의 서열을 포함한다.
E125. 구체예 E1-E110중 임의의 하나의 구체예의 방법, 또는 E120-E124, 이 방법은 해당 대상체를 방사선 스캔하는, 가령, 장기 또는 신체 영역의 PET-CT 스캔하는 것을 더 포함한다.
E126. 구체예 125의 방법, 이때 장기 또는 신체 영역의 방사선 스캔으로 해당 암을 특징화시킨다.
E127. 구체예 125의 방법, 이때 장기 또는 신체 영역의 방사선 스캔으로 해당 암의 위치를 식별해낸다.
E128. 구체예 E125-E127중 임의의 하나의 구체예의 방법, 이때 상기 방사선 스캔은 PET-CT 스캔이다.
E129. 구체예 E125-E128중 임의의 하나의 구체예의 방법, 이때 상기 방사선 스캐닝은 다수 암의 각 존재에 대해 해당 대상체를 평가한 후, 실행된다.
E130. 구체예 E1-E110, 또는 E120-E129중 임의의 하나의 구체예의 방법, 이 방법은 해당 대상체에게 하나 또는 그 이상의 치료요법적 중재 (가령, 수술, 보조적 화학요법, 신종-보조적 화학요법, 방사선 요법, 면역요법, 표적화된 요법, 및/또는 면역 체크포인트 저해제)로 관리하는 것을 포함한다.
E131. 구체예 E1-E110, 또는 E120-E130중 임의의 하나의 구체예의 방법, 이때 평가는 한 시점 또는 상이한 시점들에서 해당 대상체의 샘플을 평가하는 것을 포함한다.
E132. E1-E110, 또는 E120-E131중 임의의 하나의 구체예의 방법, 이 방법은 하나 또는 그 이상의 샘플, 가령, 대상체로부터 획득된 다중 샘플의 평가를 포함한다.
E133. E132의 방법, 이때 상기 하나 또는 그 이상의 샘플, 가령, 다중 샘플은 연단위, 가령, 서로에 대해 1년 이내에 획득된 것이다.
E134. 구체예 E1-E110, 또는 E120-E133중 임의의 구체예의 방법, 이때 해당 대상체는 다수의 암에서 각 암의 존재 또는 부재에 대해 동시에 평가된다.
E135. 구체예 E1-E110, 또는 E120-E134중 임의의 구체예의 방법, 이때 해당 대상체는 다수의 암에서 각 암의 존재 또는 부재에 대해 공동-평가된다.
E136. 구체예 E1-E110, 또는 E120-E135중 임의의 구체예의 방법, 이 방법은 사전-결정된 인터벌 내 하나 또는 그 이상의 시점, 가령, 해당 대상체에서 암들중에서 적어도 하나의 암의 동일한 또는 실질적으로 동일한 임상 상태에서, 대상체에 다수의 암중 각 암의 존재를 평가하는 것을 포함한다.
E137. 구체예 E1-E110, 또는 E120-E136중 임의의 구체예의 방법, 이 방법은 샘플, 가령, 대상체로부터 획득된 단일 샘플 또는 다중 샘플을 평가하는 것을 포함한다.
E138. 구체예 E1-E110, 또는 E120-E137중 임의의 구체예의 방법, 이때 공동-평가는 가령, 1, 5, 24 또는 48시간 내에 서로에 대해 단일 샘플, 단일 샘플의 분취량 또는 여러 샘플에서 수행된다.
E139. 구체예 E1-E110, 또는 E120-E138의 방법, 이때 해당 대상체는 암에 대해 무-증상자이다.
E140. 구체예 E1-E110, 또는 E120-E139 임의의 구체예의 방법, 이때 해당 대상체는 이들 다수의 암에 대해 무-증상자이다.
E141. 구체예 E1-E110, 또는 E120-E140중 임의의 구체예의 방법, 이때 해당 대상체는 암 세포를 보유하는 것으로 알려져 있지 않거나 또는 결정되지 않았다.
E142. 구체예 E1-E110, 또는 E120-E141중 임의의 구체예의 방법, 이때 해당 대상체는 암이 있거나 또는 암 진단에 대해 결정되지 않았다.
E143. 구체예 E1-E110, 또는 E120-E142중 임의의 구체예의 방법, 이때 해당 대상체는 암 초기 단계, 가령, I 기 또는 II 기이다.
E144. 구체예 E1-E110, 또는 E120-E143중 임의의 구체예의 방법, 이때 해당 대상체는 전이-전 단계이다.
E145. 구체예 E1-E110, 또는 E120-E144중 임의의 구체예의 방법, 이때 해당 대상체는 검출가능한 전이를 가지지 않는다.
E146. 구체예 E1-E110, 또는 E120-E145중 임의의 구체예의 방법, 이때 해당 대상체는 암과 연관된 증상을 나타내지 않았다.
E147. 구체예 E1-E110, 또는 E120-E146중 임의의 구체예의 방법, 이때 해당 대상체는 암과 임상적으로 관련된 하나, 둘 또는 그 이상의 증상을 나타내지 않는다.
E148. 구체예 E1-E110, 또는 E120-E147중 임의의 구체예의 방법, 이때 상기 이수성 상태가 양성일 때, 해당 대상체는 가령, 표 3에서 제공된 바와 같이, 암 초기 단계, 가령, I 기 또는 II 기이다.
E149. 구체예 E1-E110, 또는 E120-E147중 임의의 구체예의 방법, 이때 상기 이수성 상태가 음성일 때, 해당 대상체는 가령, 표 3에서 제공된 바와 같이, 암 초기 단계, 가령, I 기 또는 II 기이다.
E150. 저-투입 DNA를 포함하는 샘플에서 이수성을 검풀하는 방법.
E151. 구체예 E1-E110, 또는 E120-E150중 임의의 구체예의 방법, 이때 상기 샘플은 약 0.01 피코그램 (pg) 내지 500 pg의 DNA를 포함한다.
E152. 구체예 E151의 방법, 이때 상기 샘플은 약 0.01-500pg, 0.05-400pg, 0.1-300pg, 0.5-200pg, 1-100pg, 10-90pg, 또는 20-50pg DNA를 포함한다.
E153. 구체예 E151의 방법, 이때 상기 샘플은 적어도 0.01 pg, 적어도 .01 pg, 적어도 0.1 pg, 적어도 1 pg. 적어도 2 pg, 적어도 3 pg, 적어도 4 pg, 적어도 5 pg, 적어도 6 pg, 적어도 7 pg, 적어도 8 pg, 적어도 9 pg 적어도 10pg, 적어도 11 pg, 적어도 12 pg, 적어도 13 pg, 적어도 14 pg, 적어도 15 pg, 적어도 16 pg, 적어도 17 pg, 적어도 18 pg, 적어도 19 pg, 적어도 20 pg, 적어도 21 pg, 적어도 22 pg, 적어도 23 pg, 적어도 24 pg, 적어도 25 pg, 적어도 26 pg, 적어도 27 pg, 적어도 28 pg, 적어도 29 pg, 적어도 30 pg, 적어도 31 pg, 적어도 32 pg, 적어도 33 pg, 적어도 34 pg, 적어도 35 pg, 적어도 36 pg, 적어도 37 pg, 적어도 38 pg, 적어도 39 pg, 적어도 40 pg, 적어도 50 pg, 적어도 60 pg, 적어도 70 pg, 적어도 80 pg, 적어도 90 pg, 적어도 100pg, 적어도 150pg, 적어도 200 pg, 적어도 300 pg, 적어도 350 pg, 적어도 400 pg, 적어도 450 pg, 또는 적어도 500 pg의 DNA를 포함한다.
E154. 가령, 본원에 기술된 방법들중 임의의 방법을 이용하여, 샘플을 식별해내거나 또는 구별해내는 방법.
E155. 구체예 E154의 방법, 이때 샘플, 가령, 대상체, 가령, 제 1 대상체로부터 취한 제 1 샘플은 제 2 대상체에서 취한 제 2 샘플과 구별된다.
E156. 구체예 E154의 방법, 이때 샘플은 다형태 (가령, 다수의 다형태, 가령, 공통적 다형태)를 기반으로 대상체로부터 유래된 것임이 확인된다.
E157. 구체예 E156의 방법, 이때 다형태, 가령, 공통적 다형태는 가령, 본원에서 기술된 바와 같이 반복되는 요소에 존재한다.
E158. 구체예 E154의 방법, 이때 실시예 8에 기술된 방법을 이용하여 샘플을 식별해내거나 및/또는 구별해낸다.
E159. 구체예 E1-E110, 또는 E120-E158중 임의의 구체예의 방법, 이때 이 방법은 시험관내 방법이다.
다른 언급이 없는 한, 본 명세서에서 이용된 모든 기술적 그리고 과학적 용어들은 본 발명이 속하는 분야의 통상적 숙련자에 의해 흔히 이해되는 것과 동일한 의미를 갖는다. 본 명세서에 기술된 것과 유사한 또는 동등한 방법 및 물질이 발명의 실시에 사용될 수 있지만, 적합한 방법 및 물질은하기에 기술된다. 본 명세서에 언급된 모든 간행물, 특허 출원, 특허 및 다른 참고문헌들은 그 전문이 참고문헌으로 포함된다. 충돌이 있는 경우, 정의를 비롯하여 본 명세서의 내용이 우선한다. 또한, 재료, 방법, 그리고 실례는 단지 예시이고 제한하는 것으로 의도되지 않는다.
본 발명의 하나 또는 그 이상의 구체예들에 관한 세부사항은 첨부 도면과 하기 상세한 설명에서 설명된다. 본 발명의 그 외 다른 특징, 목적 및 이점들은 하기 상세한 설명과 도면 및 청구범위로부터 명확해 질 것이다.
도면의 설명
도 1A는 반복되는 요소들 (가령, 반복되는 요소들의 목록에 관한 표 1 참고)를 증폭시키기 위하여 단일 프라이머 쌍을 이용할 때 앰플리콘 크기 분포를 보여준다. 도 1A에 나타낸 앰플리콘 크기에는 상기 프라이머의 염기 수가 내포된다.
도 1B는 반복되는 요소들 (가령, 반복되는 요소들의 목록에 관한 표 1 참고)를 증폭시키기 위하여 단일 프라이머 쌍을 이용할 때 앰플리콘 크기 분포를 보여준다. 도 1B에 나타낸 앰플리콘 크기에는 상기 프라이머의 염기 수가 내포되어 있지 않다.
도 1C는 2231개 혈장 샘플로부터 무-세포 DNA에서 관찰된 앰플리콘의 수의 분포를 보여준다.
도 2A. 여기에 설명된 워크플로(workflow)의 구체예에 대한 예시적인 개요.
도 2B는 반복되는 요소 이수성 시퀀싱 시스템 (RealSeqS)의 구체예의 예시적인 개요다.
도 3은 상이한 암 유형에서 이수성 민감성 vs 돌연변이 (@99% 특이성)를 나타낸다. 각 암 유형에서 검출된 이수성 비율은 Y축에 표시된다.
도 4는 다른 암 생물표지자와 비교하였을 때 이우성 민감성을 나타낸다. 검출된 암 퍼센트 (민감성)를 Y 축에 나타낸다.
도 5는 여러 가지(arm) 변경으로 합성(synthetics)을 생성하는 의사코드(pseudocode)를 보여준다.
도 6은 판독과 DNA 농도 간의 상관관계의 추정을 나타낸다.
도 7A는 상이한 다중-피분석물 테스트로 암 검출의 민감성을 비교한 것이다. 상이한 세 가지 다중-피분석물 테스트는 8가지 나타낸 암의 검출 민감성을 평가하였다. 상기 세 가지 테스트는 다음과 같다: (1) 이수성 상태, 체세포 돌연변이 분석과 단백질 생물표지자 평가; (2) 이수성 상태와 체세포 돌연변이 분석; 그리고 (3) 이수성 상태와 단백질 생물표지자 평가.
도 7B는 오로지 이수성 + 단백질 또는 오로지 돌연변이과 단백질을 비교하는 테스트와 비교하였을 때, 이수성, 돌연변이, 그리고 8가지 단백질의 비정상적인 높은 수준이 통합된 테스트의 민감성을 나타낸다. 모든 민감성은 99% 특이성의 집합체(aggregate)에서 산출되었다 (가령, 10 배 교차 검정의 10회 반복을 이용하여, 이수성, 돌연변이, 그리고 단백질을 통합한 테스트에서 혈장 샘플의 오로지 1%만 양성이었다).
도 8은 y축에 진(true)-양성 분획(민감도)과 다양한 검사를 이용한 위(false)-양성 분획을 나타내는 그래프이다. 상기 테스트에는 다음이 내포된다: (1) 이수성 상태; 체세포 돌연변이; 그리고 단백질 생물표지자; (2) 이수성 상태와 단백질 생물표지자; (3) 체세포 돌연변이와 단백질 생물표지자; (4) 이수성 상태와 체세포 돌연변이; (5) 이수성 상태; 그리고 (6) 체세포 돌연변이. 상기 진-양성 분획 (민감성)은 99% 특이성에서 역치를 이용하여 산출되었다.
도 9는 암의 상이한 단계에서, 이수성 및 단백질 생물표지자 (@95% 특이성)와 함께 민감성을 비교하였을 때, 오로지 이수성에 있어서 암 검출의 민감성 (@98% 또는 99% 특이성)을 나타낸다.
도 10은 암의 상이한 단계에서 이수성 (@99% 특이성)을 나타낸다.
도 11은 상이한 암 유형에서 이수성 (@99% 특이성)을 나타낸다.
도 12는 이수성 (@99% 특이성)이 단백질 생물표지자의 검출과 조합될 때 민감성을 나타낸다.
도 13은 전체 게놈 시퀀싱, FAST-SeqS 및 Real SeqS의 비교에 이용된 가상환경에서의(in silico) 삼염색체성 및 홑염색체(monosomy) 샘플을 생성하기 위한 의사코드 (pseudocode)를 보여준다.
도 14는 Genome Wide Aneuploidy SVM 트레이닝 세트에 이용된 다중 가지(arm) 변경을 갖는 가상환경에서 시뮬레이션된 샘플을 만들기 위한 의사코드 (pseudocode)를 보여준다.
도 15A-15C는 차세대 Sequencing Technologies을 이용한 이수성 검출을 나타낸다. 민감성은 99% 특이성에서 산출되었다. 오차 막대는 95% 신뢰 구간을 나타낸다. 도 15A. 5% 세포 분획에서 39개의 모든 비-말단동원체 염색체 가지(arm)에 걸친 홑염색체 및 삼염색체에 대한 민감성 비교. 도 15B. 5% 세포 분획에서 22q 상의 1.5Mb DiGeorge 결손에 대한 민감성 비교. 도 15C. 1% 세포 분획에서 20개 카피 ERBB2 초점 증폭에 대한 민감성 비교.
도 16A-16B. 국소 결손 또는 증폭이 있는 혈장 샘플의 예를 보여준다. 도 16A. DiGeorge 증후군의 특징인 22번 염색체의 ~3Mb 결손이 있는 정상적인 개체의 혈장 샘플에 대한 RealSeqS 데이터를 보여준다. 이 좌에서 미세결손이 있는 많은 환자는 경미한 징후와 증상을 가지고 있으며, 이는 임상적으로 검출되지 않는다. 도 16B는 DiGeorge 유전자 좌에서 결손을 보이지 않는 정상적인 개체의 전형적인 혈장 샘플에 대한 RealSeqS 데이터를 보여준다.
도 17A-17B는 국소 결손 또는 증폭이 있는 혈장 샘플의 예를 보여준다. 도 17A는 염색체 17q상에서 ERBB2 유전자 좌가 내포된 2.5MB 국소 증폭을 보여주는 암 환자로부터 취한 혈장 샘플에 대한 RealSeqS 데이터를 보여준다. 도 17B는 ERBB2 유전자 좌에서 증폭을 보이지 않는 정상적인 개체의 전형적인 혈장 샘플에 대한 RealSeqS 데이터를 보여준다.
도 18은 종양으로부터 유래된 DNA (다양한 양의)가 있는 혈장 샘플에 대한 RealSeqS 민감성을 보여준다. 종양 DNA의 양은 혈장 샘플에 존재하는 드라이버 돌연변이의 돌연변이 대립유전자 빈도(MAF)에 의해 추정되었다.
도 19A-19B은 8가지 상이한 유형의 비-전이성 암이 있는 샘플로부터 취한 액체 생검에서 암 검출을 보여준다. 민감도는 교차-검증 동안 99% 특이성에서 산출되었다. 오차 막대는 95% 신뢰 구간을 나타낸다. 도 19A는 종양 유형에 대한 체세포 돌연변이 상태에 대한 RealSeqS에 의해 평가된 이수성 상태를 비교한 것이다. 도 19B는 암 단계에 대한 체세포 돌연변이 상태에 대한 RealSeqS에 의해 평가된 이수성 상태를 비교한 것이다.
상세한 설명
정의
용어 "드라이버 유전자 돌연변이(driver gene mutation)" 또는 "드라이버 돌연변이(driver mutation)"는 본원에 사용된 바와 같이, (i) 드라이버 유전자에 일어난 돌연변이를 지칭하고; 그리고 (ii) 이것이 일어난 세포에 성장 이점을 제공한다. 세포에 대한 성장 이점에는 다음의 것들이 내포될 수 있다:
a) 드라이버 유전자 돌연변이를 갖는 세포에서 세포 분할 속도의 증가, 가령, 참조 세포, 가령, 그외의 유사 세포, 가령, 해당 세포에 인접한 그외의 유사 세포, 가령, 드라이버 유전자 돌연변이를 갖지 않는 동일한 유형의 세포와 비교하였을 때, 세포 분할 속도의 증가;
b) 드라이버 유전자 돌연변이를 갖는 세포에서 클론 확장 속도의 증가, 가령, 참조 세포, 가령, 그외의 유사 세포, 가령, 해당 세포에 인접한 그외의 유사 세포, 가령, 드라이버 돌연변이를 갖지 않는 동일한 유형의 세포와 비교하였을 때, 클론 확장 속도의 증가;
c) 자손 세포 가령, 드라이버 유전자 돌연변이를 갖는 세포의 딸 세포의 수 증가, 가령, 해당 세포가 드라이버 유전자 돌연변이를 갖지 않았을 때, 예상되는 자손 세포 수와 비교하여, 자손 세포 수의 증가;
d) 가령, 참조 세포와 비교하였을 때, 가령, 드라이버 유전자 돌연변이를 갖지 않는 그외의 유사 세포와 비교하였을 때, 종양을 형성하거나, 또는 종양 성장, 가령, 종양 진행을 촉진시키는 능력의 증가; 또는
e) 해당 대상체의 두 번째 또는 후속 부위 또는 위치에서의 존재 또는 출현.
구체예에서, 드라이버 유전자 돌연변이는 성장 이점, 가령, 세포 출생과 세포 사멸 간 차이를 0.1-5%, 가령, 0.1-4.5%, 0.1-4%, 0.1-3.5%, 0.1-3%, 0.1-2.5%, 0.1-2%, 0.1-1.5%, 0.1-1%, 0.1-0.5%, 0.5-5%, 1-5%, 1.5-5%, 2-5%, 2.5-5%, 3-5%, 3.5-5%, 4-5%, 4.5-5%, 0.5-4.5%, 1-4%, 1.5-3.5%, 또는 2-3% 증가시킨다. 구체예에서, 드라이버 유전자 돌연변이는 성장 이점, 가령, 세포 출생과 세포 사멸 간 차이를 적어도 0.1% 0.2%, 0.3%, 0.4%, 0.5%, 0.6%, 0.7%, 0.8%, 0.9%, 1%, 1.5%, 2%, 2.5%, 3%, 3.5%, 4%, 또는 4.5%, 가령, 약 0.4 % 증가시킨다. 구체예에서, 드라이버 유전자 돌연변이는 돌연변이가 일어난 세포에서 가령, 세포 확장, 가령, 클론 확장을 허용하는 이 세포의 증식성 능력을 제공한다.
일부 구체예들에서, 상기 드라이버 유전자 돌연변이는 암 진행에 인과적으로(causally) 연계될 수 있다.
구체예에서, 상기 드라이버 유전자 돌연변이는 단백질 코딩 유전자에 영향을 주는데, 가령, 이 유전자의 조절, 발현 또는 기능을 변경시킨다. 구체예에서, 드라이버 유전자 돌연변이는 넌-코딩 영역, 가령, 단백질 넌-코딩 영역에 영향을 주는데, 가령, 이 영역의 기능을 변경시킨다. 구체예에서, 드라이버 유전자 돌연변이에는 다음이 내포된다: 전좌, 결손 (가령, 동형접합성 결손), 삽입 (가령, 유전자내 삽입), 작은 삽입 및 결손 (indels), 단일 염기 치환 (가령, 밀접(synonymous) 돌연변이, 비-밀접 돌연변이, 넌센스 돌연변이 또는 틀이동 돌연변이), 카피 수 변동 (CNV) (가령, 증폭), 또는 단일 뉴클레오티드 변동 (SNV) (가령, 단일 뉴클레오티드 다형태 (SNP)). 예시적인 드라이버 돌연변이는 US2019/0256924A1의 표 60과 표 61에 기술된다.
일부 구체예들에서, 세포에서 드라이버 유전자 돌연변이가 존재하면, 이 세포에서 해당 유전자 산물의 발현을 변경시킨다 (가령, 증가 또는 감소). 일부 구체예들에서, 세포에 드라이버 유전자 돌연변이의 존재는 해당 유전자 산물의 기능을 변경시킬 수 있다. 일부 경우들에서, 세포에 드라이버 유전자 돌연변이는 이 세포에게 성장 이점을 제공할 수 있다. 예를 들면, 세포에 드라이버 유전자 돌연변이의 존재는 증식 속도의 증가 (가령, 참조 세포와 비교하였을 때)를 야기시킬 수 있다. 예를 들면, 세포에 드라이버 유전자 돌연변이의 존재는 드라이버 유전자 돌연변이를 갖는 세포에서 클론 확장 속도의 증가 (가령, 참조 세포와 비교하였을 때)를 야기시킬 수 있다. 예를 들면, 세포에 드라이버 유전자 돌연변이의 존재는 상기 드라이버 유전자 돌연변이를 갖는 세포로부터 유래된 자손 세포 수의 증가 (가령, 참조 세포와 비교하였을 때)를 야기시킬 수 있다. 예를 들면, 세포에 드라이버 유전자 돌연변이의 존재는 해당 세포가 종양을 형성하는 능력의 증가 (가령, 참조 세포와 비교하였을 때)를 야기시킬 수 있다. 일부 경우들에서, 성장 이점은 세포발생 (가령, 세포운 세포의 형성)과 세포 사멸 간의 차이의 증가로 측정될 수 있다. 예를 들면, 세포에 드라이버 유전자 돌연변이의 존재는 해당 세포에게 적어도 약 0.1% (가령, 약 0.2%, 약 0.3%, 약 0.4%, 약 0.5%, 약 0.6%, 약 0.7%, 약 0.8%, 약 0.9%, 약 1%, 약 1.5%, 약 2%, 약 2.5%, 약 3%, 약 3.5%, 약 4%, 약 4.5%, 또는 그 이상)의 성장 이점을 제공할 수 있다. 예를 들면, 세포에 드라이버 유전자 돌연변이의 존재는 해당 세포에게 약 0.1% 내지 약 5% (가령, 약 0.1 내지 약 5%, 약 0.1 내지 약 4.5%, 약 0.1 내지 약 4%, 약 0.1 내지 약 3.5%, 약 0.1 내지 약 3%, 약 0.1 내지 약 2.5%, 약 0.1 내지 약 2%, 약 0.1 내지 약 1.5%, 약 0.1 내지 약 1%, 약 0.1 내지 약 0.5%, 약 0.5 내지 약 5%, 약 1 내지 약 5%, 약 1.5 내지 약 5%, 약 2 내지 약 5%, 약 2.5 내지 약 5%, 약 3 내지 약 5%, 약 3.5 내지 약 5%, 약 4 내지 약 5%, 약 4.5 내지 약 5%, 약 0.5 내지 약 4.5%, 약 1 내지 약 4%, 약 1.5 내지 약 3.5%, 또는 약 2 내지 약 3%)의 성장 이점을 제공할 수 있다.
일부 경우들에서, 드라이버 유전자에는 하나 이상의 (가령, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 이상) 드라이버 유전자 돌연변이가 내포될 수 있다. 일부 경우들에서, 하나 또는 그 이상의 드라이버 유전자 돌연변이가 내포된 드라이버 유전자에는 또한 하나 또는 그 이상의 추가적인 돌연변이 (가령, 패신져 유전자 돌연변이 (드라이버 돌연변이가 아닌 체세포 돌연변이))가 내포될 수 있다.
용어 "드라이버 유전자"란 본원에 사용된 바와 같이, 드라이버 유전자 돌연변이가 내포된 유전자를 지칭한다. 한 구체예에서, 상기 드라이버 유전자는 하나 또는 그 이상의 (가령, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 이상) 획득된 돌연변이, 가령, 드라이버 유전자 돌연변이가 인과적으로 암 진행에 연계될 수 있는, 유전자이다. 구체예에서, 드라이버 유전자는 세포 운명 결정, 세포 생존 및 게놈 유지가 내포된 하나 또는 그 이상의 세포 프로세스를 조절한다. 드라이버 유전자는 하나 또는 그 이상의 신호전달 경로와 연합될 수 있다 (가령, 조절할 수 있다) . 신호전달 경로의 예로는 TGF-beta 경로, MAPK 경로, STAT 경로, PI3K 경로, RAS 경로, 세포 주기 경로, 세포자멸 경로, NOTCH 경로, Hedgehog (HH) 경로, APC 경로, 크로마틴 변형 경로, 전사 조절 경로, 그리고 DNA 손상 제어 경로가 내포되나, 이에 국한되지 않는다. 드라이버 유전자의 예로는 ABL1, ACVR1B, AKT1, ALK, APC, AR, ARID1A, ARID1B, ARID2, ASXL1, ATM, ATRX, AXIN1, B2M, BAP1, BCL2, BCOR, BRAF, BRCA1, BRCA2, CARD11, CASP8, CBL, CDC73, CDH1, CDKN2A, CEBPA, CIC, CREBBP, CRLF2, CSF1R, CTNNB1, CYLD, DAXX, DNMT1, DNMT3A, EGFR, EP300, ERBB2, EZH2, FAM123B, FBXW7, FGFR2, FGFR3, FLT3, FOXL2, FUBP1, GATA1, GATA2, GATA3, GNA11, GNAQ, GNAS, H3F3A, HIST1H3B, HNF1A, HRAS, IDH1, IDH2, JAK1, JAK2, JAK3, KDM5C, KDM6A, KIT, KLF4, KRAS, MAP2K1, MAP3K1, MED12, MEN1, MET, MLH1, MLL2, MLL3, MPL, MSH2, MSH6, MYD88, NCOR1, NF1, NF2, NFE2L2, NOTCH1, NOTCH2, NPM1, NRAS, PAX5, PBRM1, PDGFRA, PHF6, PIK3CA, PIK3R1, PPP2R1A, PRDM1, PTCH1, PTEN, PTPN11, RB1, RET, RNF43, RUNX1, SETD2, SETBP1, SF3B1, SMAD2, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOX9, SPOP, SRSF2, STAG2, STK11, TET2, TNFAIP3, TRAF7, TP53, TSC1, TSHR, U2AF1, VHL, WT1, CCND1, CDKN2C, IKZF1, LMO1, MAP2K4, MDM2, MDM4, MYC, MYCL1, MYCN, NCOA3, NKX2-1, 그리고 SKP2가 내포되나, 이에 국한되지 않는다. 예시적인 드라이버 유전자에는 종양유전자 및 종양 억제인자들이 내포된다. 구체예에서, 드라이버 유전자는 하나 또는 그 이상의 드라이버 유전자 돌연변이, 가령, 본원에서 기술된 바와 같은 돌연변이를 갖는다. 구체예에서, 드라이버 유전자는 US2019/0256924A1의 표 60 또는 표 61에 열거된 유전자들이다. 구체예에서, 드라이버 유전자는 US2019/0256924A1의 표 60 또는 표 61에서 기술된 하나 또는 그 이상의 세포 프로세스, 가령, 세포 운명 결정, 세포 생존 및 게놈 유지를 조절하는 유전자다. 구체예에서, 드라이버 유전자는 US2019/0256924A1의 표 60 또는 표 61에 기술된 하나 또는 그 이상의 경로를 조절하는 유전자다. 구체예에서, 드라이버 유전자는 US2019/0256924A1의 표 62에 기술된 하나 또는 그 이상의 경로를 조절하는 유전자다.
구체예에서, 드라이버 유전자에는 하나 이상의 드라이버 돌연변이가 내포되며, 제 1 드라이버 유전자 돌연변이는 이 돌연변이가 일어난 해당 세포에 선택적 성장 이점을 제공한다. 구체예에서, 상기 드라이버 유전자에서 후속 돌연변이, 가령, 제 2, 제 3, 제 4, 제 5 또는 그 이후 돌연변이, 가령, 드라이버 돌연변이는 이 돌연변이가 일어나는 해당 세포에 증식성 능력, 가령, 세포 확장, 가령, 클론 확장을 허용하는 능력을 제공한다. 구체예에서, 드라이버 유전자는 하나 또는 그 이상의 패신져 유전자 돌연변이, 가령, 암 발달에서 일어나는 체세포 돌연변이 (그러나 이것은 드라이버 돌연변이는 아님)를 갖는다. 구체예에서, 드라이버 유전자는 임의의 세포 유형, 가령, 세 개 생식 세포 층: 외배엽, 내배엽 또는 중배엽중 임의의 하나로부터 유래된 세포 유형에 존재하는데, 가령, 이들 유형에서 발현된다. 구체예에서, 드라이버 유전자는 체세포 세포에 존재하는데, 가령, 이들 유형에서 발현된다. 구체예에서, 드라이버 유전자는 생식 세포에 존재하는데, 가령, 이들 유형에서 발현된다. 구체예에서, 드라이버 유전자는 많은 수의 암, 가령, 암의 5% 이상에서 존재할 수 있다. 구체예에서, 드라이버 유전자는 적은 수의 암, 가령, 암의 5% 미만에서 존재할 수 있다. 구체예에서, 드라이버 유전자는 계획된(non-random) 및/또는 재발성 돌연변이 패턴을 갖는데, 가령, 상기 드라이버 유전자에서 드라이버 돌연변이가 일어나는 위치는 상이한 암 유형에서 동일하다. 예시적인 재발성 드라이버 유전자 돌연변이에는 IDH1 유전자의 기질 결합 부위, 가령, 코돈 132에서 돌연변이, 그리고 Vogelstein et al (2013) Science 339: 1546-1558에서 묘사된 바와 같이, 나선형 도메인 또는 키나제 도메인에서 PIK3CA 유전자내 돌연변이가 내포된다.
구체예에서, 드라이버 유전자 돌연변이를 갖는 드라이버 유전자는 종양유전자다. 구체예에서, 종양유전자는 적어도 20%, 가령, 적어도 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 99% 또는 100%의 종양유전자 점수를 갖는 유전자다. 구체예에서, 종양유전자 점수란 돌연변이, 가령, 클러스터화된 돌연변이 (가령, 동일한 아미노산에서 미스센스 돌연변이, 또는 동일한 인-프레임 삽입 또는 결손)의 수를 전체 돌연변이의 수로 나눈 것으로 정의된다. 구체예에서, 가령, 본원에서 기술된 바와 같이, 증폭을 갖는 드라이버 유전자는 종양유전자이다. 구체예에서, 드라이버 유전자 돌연변이를 갖는 드라이버 유전자는 종양 억제인자 유전자 (TSG)이다. 구체예에서, 종양 억제인자 유전자는 적어도 20%, 가령, 적어도 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 99% 또는 100%의 종양유전자 점수를 갖는 유전자다. 구체예에서, 종양 억제인자 유전자 점수는 비활성화된 돌연변이의 수를 전체 돌연변이의 수로 나눈 것으로 정의된다. 구체예에서, 가령, 본원에서 기술된 바와 같이, 결손을 갖는 드라이버 유전자는 종양 억제인자 유전자다.
어구 "반복된 요소 패밀리" 또는 "RE 패밀리"는 본원에 사용된 바와 같이, 유기체의 게놈에 존재하는 반복부 DNA 요소들의 패밀리 (반복되는 DNA 요소들 또는 반복되는 단위 또는 DNA 반복부)를 지칭한다. DNA 반복부 요소는 유기체의 게놈 전채를 통하여 산재되어 있을 수 있거나, 또는 선별 염색체에 존재할 수 있다. RE 패밀리에는 하나 또는 그 이상의 반복부 DNA 요소들이 내포될 수 있다. 인간 게놈에서 RE 패밀리의 예로는 다음이 내포된다: 산재된 반복부 (가령, 산재된 긴뉴클레오티드 요소들 (LINE); 짧은 산재된 뉴클레오티드 요소들 (SINE)); 그리고 일렬 반복부 (가령, 미소부수체, 미니-부수체, 부수체 DNA 또는 다중 카피 유전자 (가령, 리보솜 RNA)). 일부 구체예들에서, RE 패밀리에는 표 1에 열거된 하나 또는 그 이상의 반복부 요소들, 가령, SINE가 내포된다.
본 명세서에 사용된 용어 "획득하다" 또는 "획득하는"이란 물리적 엔터티 또는 값을 "직접적으로 획득" 또는 "간접적으로 획득"함으로써 물리적 엔터티 또는 값, 예를 들어 수치적 값의 소유를 획득하는 것을 의미한다. 본 명세서에 사용된 용어 "직접적으로 획득하는"이란 물리적 엔터티 또는 값을 획득하기 위해 프로세스를 수행(가령, 합성 또는 분석 방법 수행)하는 것을 의미한다. 본 명세서에 사용된 용어 "간접적으로 획득하는"이란 또다른 대상 또는 출처(가령, 물리적 엔터티 또는 값을 직접적으로 획득한 제 3 실험실)로부터 물리적 엔터티 또는 값을 제공받는 것을 의미한다. 물리적 엔터티를 직접적으로 획득하는 것은 출발 물질과 같은 물리적 물질의 물리적 변화가 내포된 프로세스를 수행하는 것이 내포된다. 값을 직접 획득하는 것은 샘플 또는 다른 물질의 물리적 변화를 비롯한 프로세스를 수행하는 것이 내포되는데, 가령, 샘플, 피분석물 또는 시약과 같은 물질의 물리적 변화를 비롯한 분석 프로세스 수행 (본원서 "물리적 분석"이라고도 함); 분석 방법, 예를 들어, 다음 중 하나 이상을 포함하는 방법을 비롯한 분석 방법의 수행: 물질, 예를 들어, 피분석물 또는 이의 단편 또는 이의 유도체를 다른 물질로부터 분리 또는 정제함; 피분석물, 또는 이의 단편 또는 이의 유도체를 완충제, 용매 또는 반응물과 같은 다른 물질과 복합시킴; 또는 피분석물 또는 이의 단편 또는 이의 유도체의 구조를 변경.
"생물학적 샘플", "샘플", "환자 샘플", 또는 "검체" 용어들이 본원에서 사용되며, 이들 각각은 대상체 또는 환자로부터 획득된 샘플을 지칭한다. 샘플의 원천은 생검(가령, 액체 생검), 흡출물; 혈액 또는 임의의 혈액 성분; 체액(가령, 뇌척수액, 양수, 복막액 또는 간질액)이 될 수 있다. 상기 샘플은 세포 (가령, 인체의 임의의 세포, 가령, 정상 세포 및/또는 암 세포) 및/또는 무-세포 DNA, 가령, 순환 종양 DNA 또는 순환 DNA (정상 세포에서 취한)를 포함할 수 있다. 구체예에서, 상기 샘플, 가령, 종양 샘플에는 수술 경계부로부터 취한 조직 또는 세포가 내포된다. 또다른 구체예에서, 상기 샘플, 가령, 종양 샘플에는 하나 또는 그 이상의 순환 종양 세포 (CTC) (가령, 혈액 샘플로부터 획득된 CTC)들이 내포된다.
본원에 사용된 바와 같이, 용어 "민감성"이라는 용어는 대상에서 질환의 존재를 감지하거나 또는 확인하는 방법의 능력을 의미한다. 예를 들면, 대상체에서 암의 존재를 검출할 수 있는 본원에 기재된 임의의 다양한 방법과 관련하여 사용될 때, 높은 민감성이란 그 방법이 시행되는 횟수중 큰 범위에서 대상체에서 암의 존재를 정확하게 식별함을 의미한다. 예를 들면, 방법이 수행되는 횟수의 95%에서 대상체에서 암의 존재를 정확하게 검출하는 본원에 기술된 방법은 95%의 민감성를 갖는다고 말한다. 일부 구체예들에서, 대상체에서 암의 존재를 검출해낼 수 있는 본원에 기술된 방법은 적어도 70% (가령, 약 70%, 약 72%, 약 75%, 약 80%, 약 85%, 약 90%, 약 91%, 약 92%, 약 93%, 약 94%, 약 95%, 약 96%, 약 97%, 약 98%, 약 99%, 약 99.5%, 또는 약 100%)의 민감성을 제공한다. 일부 구체예들에서, 생물표지자의 두 가지 또는 그 이상 클래스 (가령, 유전적 생물표지자 및/또는 단백질 생물표지자)의 하나 또는 그 이상의 구성원의 존재를 탐지하는 것이 내포된 본원에서 제공되는 방법은 오로지 하나의 클래스의 생물표지자의 하나 또는 그 이상의 구성원의 존재를 검출하는 방법보다 더 높은 민감성을 제공한다.
일부 구체예들에서, 민감성은 이질적인 서열 집단에서 서열 변이체를 검출하는 방법의 능력의 척도를 제공한다. 해당 샘플 안에 서열 변이체가 이 서열의 적어도 F%로 존재하고, 이 방법으로 C% 신뢰구간에서 시간의 S%에서 해당 서열을 탐지할 수 있다면, 이 F% 변이체에 대한 이 방법의 민감성은 S%이다. 예를 들면, 해당 샘플 안에 서열 변이체가 이 서열의 적어도 5%로 존재하고, 이 방법으로 99% 신뢰구간에서 10회중 9회에서 해당 서열을 탐지할 수 있다면, 5% 변이체에 대한 이 방법의 민감성은 90%이다 (F=5%; C=99%; S=90%). 예시적인 민감성에는 C= 90%, 95%, 99%, 그리고 99.9%의 신뢰 수준에서 서열 변이체 F=0.5%, 1%, 5%, 10%, 20%, 50%, 100%에 대하여 S=90%, 95%, 99%, 99.9%이 내포된다.
상기에서 논의된 바와 같이, 구체예들에서, 민감성이란 제 1 상태의 모든 샘플에 대해 제 1 상태의 정체성을 할당하는 테스트 방법의 능력, 환언하면, 제 1 상태의 모든 샘플을 발견하거나, 또는 확인하는 테스트 방법의 능력이다. (민감성은 제 1 상태 샘플을 제 2 상태 샘플로 오인-할당하는 방법의 경향을 다루지 않는다). 구체예들에서, 제 1 상태는 음성이며, 그리고 민감성이란 음성인 모든 샘플을 식별해내는 능력이다. 구체예들에서, 제 1 상태는 양성이며, 그리고 민감성이란 양성인 모든 샘플을 식별해내는 능력이다.
본원에 사용된 바와 같이, "특이성"이라는 용어는 대상체에서 질환의 존재를 감지하는 방법의 능력을 나타낸다 (가령, 방법의 특성은 대상체에서 진-음성보다는 진-양성을 식별해내는 해당 방법의 능력으로 설명될 수 있고, 및/또는 인위적인 서열 또는 다른 밀접하게 관련된 서열의 시퀀싱으로부터 실제 발생하는 서열 변이체를 구별하는 이 방법의 능력으로 설명될 수 있다). 예를 들면, 대상체에서 암의 존재를 검출해낼 수 있는 본원에 기술된 다양한 방법중 임의의 것을 언급하며 이용될 때, 높은 특이성이란 실시 횟수의 상당 부분의 비율에서 해당 대상체에서 암이 없음을 정확하게 확인한다는 의미이다 (가령, 이 방법은 실시 횟수의 상당 부분의 비율에서 해당 대상체에서 암이 존재한다는 것을 잘못 식별하지 않는다). NTotal 서열 세트, 이때 XTrue 서열은 진정한 변이체이고, XNot true는 진정한 변이가 아니며, 해당 방법이 진정한 변이가 아닌 변이체의 적어도 X%를 변이체가 아닌 것으로 선택할 경우, 이 방법은 X%의 특이성을 가진다. 예를 들면, 1,000개 서열의 샘플 세트에 적용될 때, 이때 500개 서열은 진정한 변이체이며, 500개 서열은 진정한 변이체가 아니며, 이 방법이 상기 500개의 진정한 변이체가 아닌 것중 90 %를 변이체가 아니라고 선택한다면, 이 방법은 90%의 특이성을 가진다. 예를 들면, 본원의 기술된 방법이 횟수의 95%에서 대상체에서 암이 부재함을 정확하게 탐지하는 경우, 실행된 해당 방법은 95%의 특이성을 갖는다고 말한다. 일부 구체예들에서, 대상체에서 암이 부재함을 탐지할 수 있는 본원에 기술된 방법은 적어도 80% (가령, 적어도 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5%, 또는 더 높은)의 특이성을 제공한다. 높은 특이성을 갖는 방법은 최소한의 또는 허위 양성이 없는 결과를 초래한다(가령, 다른 방법들과 비교하였을 때). 허위 양성 결과는 임의의 공급원으로부터 발생될 수 있다. 예를 들면, 암의 부재를 정확하게 탐지하고, 핵산을 서열화하는 것이 내포된 본원에 기술된 다양한 방법들에서 허위 양성은 샘플 준비, 시퀀싱 오류, 및/또는 유전자 패밀리의 모의(pseudo)-유전자 또는 구성원과 같이 밀접하게 관련된 서열의 의도치않은 시퀀싱 동안 관심 대상의 서열에 오류에 의한 도입으로 인해 발생할 수 있다. 일부 구체예들에서, 생물표지자의 두 가지 또는 그 이상 클래스 (가령, 유전적 생물표지자 및/또는 단백질 생물표지자)의 하나 또는 그 이상의 구성원의 존재를 탐지하는 것이 내포된 본원에서 제공되는 방법은 오로지 하나의 클래스의 생물표지자의 하나 또는 그 이상의 구성원의 존재를 검출하는 방법보다 더 높은 특이성을 제공한다.
상기에서 논의된 바와 같이, 구체예들에서, 특이성은 샘플에 제 1 상태 실체를 실제로 할당하는 테스트 방법의 능력이다. (특이성은 모든 진정한 제 1 상태 샘플을 찾는 (즉, 민감성) 이 방법의 능력을 다루지는 않는다). 제 1 상태가 음성인 구체예에서, 그리고 특이성은 음성의 진정한 할당(잘못된 것과 반대로)하는 능력 (그리고 제 2 상태 (가령, 양성) 샘플에게 제 1 상태 (음성) 샘플로 오인-할당하지 않음)이다. 제 1 상태가 양성인 구체예에서, 그리고 특이성은 양성의 진정한 할당(잘못된 것과 반대로)하는 능력 (그리고 제 2 상태 (가령, 음성) 샘플에게 제 1 상태 (양성) 샘플로 오인-할당하지 않음)이다.
본원에 사용된 바와 같이, 어구 "하위게놈 인터벌(subgenomic interval)"이란 게놈 서열의 일부분을 지칭한다. 하위게놈 인터벌은 임의의 적절한 크기일 수 있다 (가령, 임의의 적절한 수의 뉴클레오티드가 내포될 수 있다). 일부 구체예들에서, 하위게놈 인터벌에는 단일 뉴클레오티드가 내포될 수 있다 (가령, 이의 변이체에 대한 단일 뉴클레오티드는 종양 표현형과 관련된다(양으로 또는 음으로)). 일부 구체예들에서, 하위게놈 인터벌에는 하나 이상의 뉴클레오티드가 내포될 수 있다. 예를 들면, 하위게놈 인터벌에는 적어도 약 2개 (가령, 약 5개, 약 10개, 약 50개, 약 100개, 약 150개, 약 250개, 또는 약 300개) 뉴클레오티드가 내포될 수 있다. 일부 경우들에서, 하위게놈 인터벌에는 전체 유전자가 내포될 수 있다. 일부 경우들에서, 하위게놈 인터벌에는 유전자의 일부분 (가령, 코딩 영역, 이를 테면 엑손, 비-코딩 영역, 이를 테면, 인트론, 또는 조절 영역, 이를 테면, 프로모터, 인헨서, 5' 비-해독 영역 (5' UTR), 또는 3' 영역 (3' UTR))이 내포될 수 있다. 일부 경우들에서, 하위게놈 인터벌에는 자연 발생적 (가령, 게놈) 뉴클레오티드 서열의 전부 또는 일부분이 내포될 수 있다. 예를 들면, 하위게놈 인터벌은 시퀀싱 반응을 거치게 될 게놈 DNA의 단편에 상응할 수 있다. 일부 경우들에서, 하위게놈 인터벌은 게놈 원천으로부터 연속적인 뉴클레오티드 서열일 수 있다. 일부 경우들에서, 하위게놈 인터벌에는 해당 게놈 안에 인접해있지 않은 뉴클레오티드 서열이 내포될 수 있다. 예를 들면, 하위게놈 인터벌에는 엑손-엑손 이음부(junction) (가령, 상기 하위게놈 인터벌로부터 역-전사된 cDNA에)가 내포된 뉴클레오티드 서열이 내포될 수 있다. 일부 경우들에서, 하위게놈 인터벌에는 돌연변이 (가령, SNV, SNP, 체세포 돌연변이, 생식 계열 돌연변이, 점 돌연변이, 재배열, 결손 돌연변이 (가령, 인-프레임 결손, 유전자내 결손, 또는 전체 유전자 결손), 삽입 돌연변이 (가령, 유전자내 삽입), 역위(inversion) 돌연변이 (가령, 염색체-내 역위), 역전된 중복 돌연변이, 일렬 중복 (가령, 염색체-내 일렬 중복), 전좌 (가령, 염색체 전좌, 또는 비-상호적 전좌), 유전자 카피 수에서의 변화, 또는 이들의 임의의 조합이 내포될 수 있다.
본원에 사용된 바와 같이, 구절 "백혈구 매개변수"란 백혈구 핵산, 가령, 염색체 핵산의 서열을 지칭한다.
본원에 사용된 바와 같이, 구절 "게놈 사건"이란 참조 서열과는 상이한, 하위게놈 인터벌의 서열을 지칭한다. 게놈 사건이란 가령, 돌연변이, 가령, 점 돌연변이 또는 재배열, 가령, 전좌가 될 수 있다.
이수성 검출
본 명세서는 샘플에서 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해내는 방법 및 재료를 제공한다. 일부 구체예들에서, 본원에 기술된 방법들 및 재료들을 이용하여 배아에서 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해낸다. 일부 구체예들에서, 본원에 기술된 방법들 및 재료들을 이용하여 포유류 (가령, 어린 포유류 또는 성체 포유류)에서 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해낸다. 예를 들면, 포유류 (가령, 포유류로부터 획득된 샘플)에서 하나 또는 그 이상의 염색체 변칙의 존재 또는 부재를 평가할 수 있다. 일부 경우들에서, 본 명세서는 하나 또는 그 이상의 염색체 변칙이 관련된 질환 (가령, 암)을 갖는 지를 식별해내기 위해, 앰플리콘-기반의 시퀀싱 데이터를 이용하는 방법 및 재료를 제공한다. 예를 들면, 본원에 기술된 방법들 및 재료들을 포유류로부터 획득된 샘플에 적용하여, 해당 포유류가 하나 또는 그 이상의 염색체 변칙을 갖는 지를 식별해낼 수 있다. 예를 들면, 본원에 기술된 방법들 및 재료들을 포유류로부터 획득된 샘플에 적용하여, 해당 포유류가 하나 또는 그 이상의 염색체 변칙이 관련된 질환 (가령, 암)을 갖고 있는 지를 식별해낼 수 있다. 본 명세서는 하나 또는 그 이상의 염색체 변칙과 연합된 질환 또는 장애 (가령, 본원에서 기술된 바와 같이 식별된 하나 또는 그 이상의 염색체 변칙)를 식별해내고 및/또는 치료하는 방법 및 재료를 또한 제공한다. 일부 경우들에서, 하나 또는 그 이상의 염색체 변칙은 포유류로부터 획득된 샘플로부터 획득된 DNA (가령, 게놈 DNA)에서 확인될 수 있다. 예를 들면, 하나 또는 그 이상의 염색체 변칙의 존재를 기반으로 (적어도 일부분으로), 산전 포유류 (가령, 산전 인간)가 질환 또는 장애를 갖는 지를 확인할 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 염색체 비정상을 기반으로 (적어도 일부분으로) 질환 또는 질환을 갖는 것으로 확인된 포유류 배아를 시험관내 수정을 목적으로 평가할 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 염색체 변칙의 존재를 기반으로 (적어도 일부분으로) 암을 보유하는 것으로 확인된 포유류는 하나 또는 그 이상의 암 치료에 의해 치료될 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 염색체 비정상의 존재를 기반으로 (적어도 일부분으로) 포유류가 선천적 기형을 갖는 것으로 확인할 수 있다. 일부 구체예들에서, 본원에 기술된 방법 및 재료를 이용하여, 착상을 위해 자궁 (가령, 인간 자궁)으로 옮기기 전, 염색체 비정상에 대해 배아 (가령, 시험관내 수정에 의해 생성된 배아)를 테스트한다.
그 중에서도, 전술한 암 또는 다수의 암의 검출 특이성의 변경 없이, 하나 또는 그 이상의 암, 또는 다수의 암을 검출하는 민감성을 증가시키는 방법이 본원에 기술된다. 구체예에서, (i) 유전적 생물표지자, 가령, 체세포 돌연변이; (ii) 단백질 생물표지자; 그리고 (iii) 이수성 상태를 평가함으로써, 암의 검출 민감성은 (i) 단독; (ii) 단독; (iii) 단독; 오로지 (i)과 (ii); 오로지 (i)과 (iii); 또는 오로지 (ii)과 (iii)의 평가에 의한 해당 암 검출의 민감성보다 더 높은, 가령, 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 더 높다. (i), (ii) 및 (iii)을 포함하는 방법에 의한 민감성의 증가로 해당 암, 또는 다수의 암을 검출하는 특이성의 변경, 가령, 감소되지 않는다. 본 명세서의 방법을 이용한 암 검풀 민감성의 예시적인 증가는 본 명세서의 실시예 6에서 실증된다.
본원에서 기술된 바와 같이, 임의의 적절한 포유류가 평가될 수 있다. 포유류는 산전 포유류 (가령, 산전 인간)가 될 수 있다. 포유류는 하나 또는 그 이상의 염색체 변칙이 관련된 질환 (가령, 암 또는 선천적 기형)을 갖는 것으로 의심되는 포유류일 수 있다. 일부 경우들에서, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙의 존재에 대해 인간 또는 원숭이와 같은 다른 영장류를 평가할 수 있다. 일부 경우들에서, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙의 존재에 대해 개, 고양이, 말, 소, 돼지, 양, 마우스 및 렛(rats)를 평가할 수 있다. 예를 들면, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙의 존재에 대해 인간을 평가할 수 있다.
본원에서 기술된 바와 같이 포유류로부터 취한 임의의 적절한 샘플이 평가될 수 있다 (가령, 하나 또는 그 이상의 염색체 변칙의 존재에 관하여 평가됨). 샘플에는 게놈 DNA가 내포될 수 있다. 일부 경우들에서, 샘플에는 무-세포 순환 DNA (가령, 무-세포 순환 태아 DNA)가 내포될 수 있다. 일부 경우들에서, 샘플에는 순환 종양 DNA (ctDNA)가 내포될 수 있다. DNA (가령, ctDNA)를 함유할 수 있는 샘플의 예시에는 혈액 (가령, 전체 혈액, 혈청, 또는 혈장), 양막, 조직, 소변, 뇌척수액, 타액, 가래, 기관지 폐포 세척액, 담즙, 림프액, 낭종액, 대변, 복수, 자궁 경부 세포진 검사, 뇌척수액, 자궁경부, 자궁내막 및 나팔관 샘플이 내포되나, 이에 국한되지 않는다. 예를 들면, 샘플은 혈장 샘플일 수 있다. 예를 들면, 샘플은 소변 샘플일 수 있다. 예를 들면, 샘플은 타액 샘플일 수 있다. 예를 들면, 샘플은 낭액 샘플일 수 있다. 예를 들면, 샘플은 가래 샘플일 수 있다. 일부 경우들에서, 샘플에는 신생물 세포 분획 (가령, 낮은 신생물 세포 분획)이 내포될 수 있다.
일부 구체예들에서, 샘플을 가공하여 해당 샘플로부터 DNA를 단리시키거나 및/또는 정제시킬 수 있다. 일부 구체예들에서, DNA 단리 및/또는 정제에는 세포 용해 (가령, 세제 및/또는 계면활성제를 이용하여)가 내포될 수 있다. 일부 구체예들에서, 해당 세포 용해로부터 DNA를 정제하지 않고, DNA의 추가 프로세싱(가령, 증폭 반응)이 실행된다. 이러한 경우, 프로테아제 저해제를 포함하나, 이에 국한되지 않는 추가 프로세싱을 용이하게 하기 위해 추가 시약이 첨가된다. 일부 구체예들에서, DNA 단리 및/또는 정제에는 단백질의 제거 (가령, 프로테아제를 이용)가 내포될 수 있다. 일부 경우들에서, DNA 단리 및/또는 정제에는 RNA의 제거 (가령, RNase를 이용)가 내포될 수 있다. 일부 구체예들에서, DNA 단리는 상업적으로 이용가능한 키트 (예를 들면, Qiagen DNAeasy 키트, 이에 국한되지 않음) 또는 당분야에 공지된 완충액 (가령, Tris-완충액내 세제)를 이용하여 실행된다.
일부 구체예들에서, 단리 및/또는 정제 반응으로 투입되는 DNA 양("투입 DNA")은 DNA 단편들의 평균 길이, 전체적인 DNA 품질, 및/또는 DNA 유형 (가령, gDNA, 미토콘드리아 DNA, cfDNA)를 비롯한, 그러나, 이에 국한되지 않은 다양한 인자들에 의해 달라질 수 있다. 일부 구체예들에서, 투입 DNA의 임의의 적합한 양은 본원에 기술된 방법에 이용될 수 있다. 일부 구체예들에서, 상기 투입 DNA의 양은 1 피코그램 (pg) 내지 500 pg 범위의 임의의 양일 수 있다. 일부 구체예들에서, 상기 투입 DNA의 양은 적어도 0.01 pg, 적어도 .01 pg, 적어도 0.1 pg 또는 적어도 1 pg일 수 있다. 일부 구체예들에서, 상기 투입 DNA의 양은 적어도 1 피코그램 (pg), 적어도 2 pg, 적어도 3 pg, 적어도 4 pg, 적어도 5 pg, 적어도 6 pg, 적어도 7 pg, 적어도 8 pg, 적어도 9 pg 적어도 10pg, 적어도 11 pg, 적어도 12 pg, 적어도 13 pg, 적어도 14 pg, 적어도 15 pg, 적어도 16 pg, 적어도 17 pg, 적어도 18 pg, 적어도 19 pg, 적어도 20 pg, 적어도 21 pg, 적어도 22 pg, 적어도 23 pg, 적어도 24 pg, 적어도 25 pg, 적어도 26 pg, 적어도 27 pg, 적어도 28 pg, 적어도 29 pg, 적어도 30 pg, 적어도 31 pg, 적어도 32 pg, 적어도 33 pg, 적어도 34 pg, 적어도 35 pg, 적어도 36 pg, 적어도 37 pg, 적어도 38 pg, 적어도 39 pg 또는 적어도 40 pg일 수 있다. 일부 구체예들에서, 상기 투입 DNA의 양은 3 pg이다.
일부 구체예들에서, 본원에서 기술된 바와 같이, 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해내는 방법 및 재료에는 다수의 앰플리콘의 증폭이 내포될 수 있다. 일부 구체예들에서, 이들 다수의 앰플리콘은 DNA 샘플 안의 다수의 염색체 서열로부터 증폭된다. 일부 구체예들에서, 이들 다수의 앰플리콘은 임의의 다양한 반복되는 요소들 (가령, 표 1의 반복되는 요소들의 목록 참고)로부터 증폭될 수 있다. 일부 구체예들에서, 이들 다수의 앰플리콘은 다수의 짧은 산재된 뉴클레오티드 요소들 (SINEs)로부터 증폭된다. 일부 구체예들에서, 이들 다수의 앰플리콘은 다수의 산재된 긴 뉴클레오티드 요소들 (LINEs)로부터 증폭된다. 다수의 앰플리콘을 증폭시키는 방법에는 중합효소 연쇄 반응 (PCR)과 등온 증폭 방법 (가령, 롤링 서클 증폭 또는 브릿지 증폭)이 내포되나, 이에 국한되지 않는다. 일부 구체예들에서, 제 2 증폭 단계가 실행된다. 일부 구체예들에서, 제 1 증폭 반응은 제 2 증폭 반응에서 주형으로 이용된다. 일부 구체예들에서, 상기 증폭된 DNA는 제 2 증폭 반응 (가령, 당분야에 공지된 방법을 이용한 PCR 정제) 전에 정제된다.
일부 구체예들에서, 증폭 반응은 다음을 보유한, 또는 다음이 내포된 제 1 프라이머를 포함하는 단일 프라이머 쌍을 이용한다: 서열 식별 번호: 1, 서열 식별 번호: 2, 서열 식별 번호: 3, 서열 식별 번호: 4, 서열 식별 번호: 5, 서열 식별 번호: 6, 서열 식별 번호: 7, 서열 식별 번호: 8 또는 서열 식별 번호: 9. 일부 구체예들에서, 증폭 반응은 서열 식별 번호: 1, 서열 식별 번호: 2, 서열 식별 번호: 3, 서열 식별 번호: 4, 서열 식별 번호: 5, 서열 식별 번호: 6, 서열 식별 번호: 7, 서열 식별 번호: 8 또는 서열 식별 번호: 9에 대해 적어도 80% (가령, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96 %, 적어도 97%, 적어도 98%, 또는 적어도 99%) 서열 동일성을 갖는 제 1 프라이머를 포함하는 단일 프라이머 쌍을 이용한다. 일부 구체예들에서, 증폭 반응은 다음을 보유한, 또는 다음이 내포된 제 2 프라이머를 포함하는 단일 프라이머 쌍을 이용한다: 서열 식별 번호: 10, 서열 식별 번호: 11, 서열 식별 번호: 12, 서열 식별 번호: 14, 서열 식별 번호: 15, 서열 식별 번호: 16, 서열 식별 번호: 17, 서열 식별 번호: 18 or 서열 식별 번호: 19. 일부 구체예들에서, 증폭 반응에는 서열 식별 번호: 10, 서열 식별 번호: 11, 서열 식별 번호: 12, 서열 식별 번호: 14, 서열 식별 번호: 15, 서열 식별 번호: 16, 서열 식별 번호: 17, 서열 식별 번호: 18 또는 서열 식별 번호: 19에 대해 적어도 80% (가령, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96 %, 적어도 97%, 적어도 98%, 또는 적어도 99%) 서열 동일성을 갖는 제 1 프라이머를 포함하는 단일 프라이머 쌍을 이용한다.
일부 구체예들에서, 제 1 프라이머는 CGACGTAAAACGACGGCCAGTNNNNNNNNNNNNNNNNGGTGAAACCCCGTCTCTACA (서열 식별 번호: 1)에 대해 적어도 80% 동일한 (가령, 적어도 85%, 적어도 90%, 적어도 95% 적어도 99%, 또는 100% 동일한) 서열을 갖는다. 일부 구체예들에서, 제 2 프라이머는 CACACAGGAAACAGCTATGACCATGCCTCCTAAGTAGCTGGGACTACAG (서열 식별 번호: 10)에 대해 적어도 80% 동일한 (가령, 적어도 85%, 적어도 90%, 적어도 95% 적어도 99%, 또는 100% 동일한) 서열을 갖는다. 일부 구체예들에서, 증폭 반응은 서열 식별 번호: 1을 갖는 제 1 프라이머 및 서열 식별 번호: 10을 갖는 제 2 프라이머를 포함하는 단일 프라이머 쌍을 이용한다. 일부 구체예들에서, 증폭 반응은 서열 식별 번호: 1에 대해 적어도 80% (가령, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96 %, 적어도 97%, 적어도 98%, 또는 적어도 99%) 서열 동일성을 갖는 제 1 프라이머와 서열 식별 번호: 10에 대해 적어도 80% (가령, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96 %, 적어도 97%, 적어도 98%, 또는 적어도 99%) 서열 동일성을 갖는 제 2 프라이머를 포함하는 단일 프라이머 쌍을 이용한다.
일부 구체예들에서, 제 1 프라이머는 5' 단부에서 3' 단부 방향으로, 범용 프라이머 서열 (UPS), 특유의 식별자 DNA 서열 (UID), 그리고 증폭 서열을 포함한다. 일부 구체예들에서, 제 1 프라이머는 5'단부에서 3' 단부 방향으로, UPS 서열 및 증폭 서열을 포함한다. 일부 구체예들에서, 제 1 프라이머는 5'단부에서 3'단부 방향으로, 증폭 서열을 포함한다. 제 1 프라이머가 적어도 증폭 서열을 포함하는 그러한 경우들에 있어서, 당분야에 공지된 임의의 다양한 라이브러리 생성 기술을 이용하여 상기 증폭된 앰플리콘으로부터 다음 세대 시퀀싱 라이브러리를 만들 수 있다.
일부 구체예들에서, 범용 프라이머 서열 (UPS)은 다음 세대 시퀀싱을 위한 앰플리콘 라이브러리 생성을 용이하게 한다. 예를 들면, 제 1 프라이머 (서열 식별 번호: 1) 및 제 2 프라이머 (서열 식별 번호: 10)를 이용한 증폭 반응 동안 생성된 앰플리콘을 제 2 증폭 반응의 주형으로 이용한다. 이러한 경우들에서, UPS에 결합하도록 기획된 프라이머의 제 2 세트에는 Illumina 유동 세포에 혼성화에 필수적인 5' 접목 서열이 내포된다.
일부 구체예들에서, UID는 16-20 개의 축중(degenerate) 염기 서열을 포함한다. 일부 구체예들에서, 축중 서열은 뉴클레오티드 서열의 일부 위치에는 있을 수 있는 다수의 염기를 함유하는 서열이다. 본원에서 기술된 방법들중 임의의 방법의 일부 구체예들에서, 축중 서열은 대략적으로, 또는 적어도 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 또는 50개의 뉴클레오티드를 포함하는 축중 뉴클레오티드 서열일 수 있다. 일부 구체예들에서, 뉴클레오티드 서열은 해당 뉴클레오티드 서열 안에 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 10, 15, 20, 25개, 또는 그 이상의 축중 위치를 함유한다. 일부 구체예들에서, 상기 축중 서열은 특유의 식별자 DNA 서열 (UID)로 이용된다. 일부 구체예들에서, 상기 축중 서열은 앰플리콘의 증폭 개선에 이용된다. 예를 들면, 축중 서열은 증폭될 염색체 서열에 대해 상보적인 염기들을 함유할 수 있다. 이러한 경우들에서, 증가된 상보성은 해당 염색체 서열에 대한 프라이머 친화성을 증가시킬 수 있다. 일부 구체예들에서, 상기 UID (가령, 축중 염기)는 다수의 염색체 서열에 대한 프라이머의 친화성을 증가시키도록 기획된다.
일부 구체예들에서, 증폭 반응에는 하나 또는 그 이상의 프라이머 쌍 (가령, 표 2에서 선별된 하나 또는 그 이상의 프라이머 쌍)이 내포된다. 일부 구체예들에서, 증폭 반응에는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 적어도 6개, 적어도 7개, 적어도 8개, 또는 적어도 9개의 프라이머 쌍이 내포된다. 일부 구체예들에서, 증폭 반응에 하나 이상의 쌍 또는 프라이머가 내포될 때, 적어도 하나의 프라이머 쌍에는 서열 식별 번호: 1을 갖는 프라이머(제 1 프라이머)와 서열 식별 번호: 10을 갖는 프라이머(제 2 프라이머)가 내포된다. 일부 구체예들에서, 증폭 반응에 하나 이상의 쌍 또는 프라이머가 내포될 때, 적어도 하나의 프라이머 쌍에는 서열 식별 번호: 10에 대해 적어도 80% (가령, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96 %, 적어도 97%, 적어도 98%, 또는 적어도 99%) 서열 동일성을 갖는 서열을 갖는 제 1 프라이머가 내포된다.
일부 구체예들에서, 증폭 반응에 하나 또는 그 이상의 프라이머 쌍이 내포되는 경우, 표 2로부터 프라이머 또는 프라이머 쌍의 임의의 다양한 조합이 선택될 수 있다. 프라이머예를 들면, 2개 프라이머 쌍 (가령, 표 2에서 선택된 4개 프라이머)을 함유하는 증폭 반응에는 제 1 프라이머 (가령, 서열 식별 번호: 1을 갖는 제 1 프라이머)와 제 2 프라이머 (가령, 서열 식별 번호: 10을 갖는 제 2 프라이머)가 내포된 제 1 프라이머 쌍 (가령, 표 2의 제 1 프라이머 쌍), 그리고 제 3 프라이머 (가령, 서열 식별 번호: 2를 갖는 제 3 프라이머)와 제 4 프라이머 (가령, 서열 식별 번호: 11을 갖는 제 4 프라이머)가 내포된 제 2 프라이머 쌍 (가령, 표 2로부터 제 2 프라이머 쌍 2)이 내포될 수 있다. 표 2에 열거된 임의의 전방 프라이머 (가령, 서열 식별 번호: 1, 서열 식별 번호: 2, 서열 식별 번호: 3, 서열 식별 번호: 4, 서열 식별 번호: 5, 서열 식별 번호: 6, 서열 식별 번호: 7, 서열 식별 번호: 8 또는 서열 식별 번호: 9를 보유한 "FP")와 표 2에 열거된 임의의 역 프라이머 (가령, 서열 식별 번호: 10, 서열 식별 번호: 11, 서열 식별 번호: 12, 서열 식별 번호: 14, 서열 식별 번호: 15, 서열 식별 번호: 16, 서열 식별 번호: 17, 서열 식별 번호: 18 또는 서열 식별 번호: 19를 갖는 "RP")의 조합은 본원에서 기술된 바와 같이 반복되는 요소들로부터 앰플리콘을 만들 것이다 (가령, 예시적인 반복되는 요소들 목록에 관한 표 1 참고). 예를 들면, 2개 프라이머 쌍 (가령, 표 2에서 선택된 4개 프라이머)을 함유하는 증폭 반응에는 제 1 프라이머 (가령, 서열 식별 번호: 1을 갖는 제 1 프라이머)와 제 2 프라이머 (가령, 서열 식별 번호: 10을 갖는 제 2 프라이머)가 내포된 제 1 프라이머 쌍 (가령, 표 2의 제 1 프라이머 쌍), 그리고 제 3 프라이머 (가령, 서열 식별 번호: 2를 갖는 제 3 프라이머)와 제 4 프라이머 (가령, 서열 식별 번호: 12를 갖는 제 4 프라이머)가 내포된 제 2 프라이머 쌍 (가령, 표 2로부터 프라이머 쌍으로 열거되지 않은)이 내포될 수 있다. 일부 구체예들에서, 증폭 반응에는 하나 또는 그 이상의 프라이머 쌍이 내포되며, 여기에서 제 1 프라이머는 두 프라이머 쌍 모두에 내포된다. 예를 들면, 증폭 반응에는 제 1 프라이머 (가령, 제 1 프라이머는 서열 식별 번호: 1을 보유함) 및 제 2 프라이머 (가령, 제 2 프라이머는 서열 식별 번호: 10을 보유함)를 내포하는 제 1 프라이머 쌍 (가령, 표 2의 제 1 프라이머 쌍), 그리고 제 3 프라이머 (가령, 제 3 프라이머는 서열 식별 번호: 1을 보유함) 및 제 4 프라이머 (가령, 제 4 프라이머는 서열 식별 번호: 11을 보유함)가 내포된 제 2 프라이머 쌍이 내포될 수 있다.
일부 구체예들에서, 프라이머 쌍은 다수의 염색체 서열에 대해 상보적이다. 본원에 사용된 바와 같이, 용어 "상보적(complementary)" 또는 "상보성"이란 증폭을 지원하기에 충분한, Watson-Crick 유형 상호작용 또는 유사한 염기 쌍 상호작용을 할 수 있는 또는 이에 참여할 수 있는 핵산 잔기를 지칭한다. 일부 구체예들에서, 제 1 프라이머의 증폭 서열은 하나 또는 그 이상의 염색체 서열을 증폭하도록 기획된다. 일부 구체예들에서, 상기 하나 또는 그 이상의 염색체 서열에는 본원에서 기술된 바와 같이 다양한 반복되는 요소들중 임의의 것들이 내포된다 (가령, 예시적인 반복되는 요소들의 목록에 대한 표 1 참고). 일부 구체예들에서, 상기 염색체 서열은 SINEs이다. 일부 구체예들에서, 상기 염색체 서열은 LINEs이다. 일부 구체예들에서, 상기 염색체 서열은 상이한 유형의 반복되는 요소들의 혼합물이다 (가령, SINEs, LINEs 및/또는 표 1에 열거된 기타 예시적인 반복되는 요소들). 일부 구체예들에서, 증폭 반응에 두 가지 또는 그 이상의 프라이머 쌍이 내포될 경우, 각 프라이머 쌍은 상이한 유형의 반복되는 요소를 증폭시킨다 (가령, 예시적인 반복되는 요소들의 목록에 대한 표 1). 예를 들면, 제 1 프라이머 쌍은 SINEs를 증폭시킬 수 있고, 제 2 프라이머 쌍은 LINEs를 증폭시킬 수 있다. 임의선택적으로, 제 3, 제 4, 제 5 등등의 프라이머 쌍은 제 3, 제 4, 제 5 등등의 유형의 반복되는 요소를 증폭시킬 수 있다 (가령, 추가적인 예시적인 반복되는 요소들의 목록에 대한 표 1 참고). 일부 구체예들에서, 증폭 반응에 두 가지 또는 그 이상의 프라이머 쌍이 내포될 때, 각 프라이머 쌍은 동일한 유형의 반복되는 요소로부터 앰플리콘을 생성한다 (가령, 예시적인 반복되는 요소들의 목록에 대한 표 1 참고). 예를 들면, 제 1 프라이머 쌍은 SINEs를 증폭시킬 수 있고, 제 2 프라이머 쌍은 SINEs를 증폭시킨다. 임의선택적으로, 제 3, 제 4, 제 5, 등등의 프라이머 쌍은 SINEs를 증폭시킬 수 있다. 일부 구체예들에서, 증폭 반응에 두 가지 또는 그 이상의 프라이머 쌍이 내포될 때, 각 프라이머 쌍은 상이한 유형의 반복되는 요소들의 혼합물로부터 앰플리콘을 생성한다 ( 가령, 예시적인 반복되는 요소들의 목록에 대한 표 1 참고).
표 1: 예시적인 반복되는 요소들의 목록
Figure pct00001
Figure pct00002
Figure pct00003
일부 구체예들에서, 본원에 기술된 프라이머쌍중 하나의 프라이머 또는 두 프라이머 모두에 프라이머 변형이 내포된다. 프라이머 변형의 예로는 스페이서 (가령, C3 스페이서, PC 스페이서, 핵산디올, 스페이서 9, 스페이서 18, 1',2'-디데옥시리보스 (dspacer)), 포스포릴화, 포스포로티오에이트 결합 변형, 변형된 핵산, 화학물 부착 및/또는 링커 변형이 내포되나, 이에 국한되지 않는다. 변형된 핵산의 예로는 다음이 내포되나, 이에 국한되지 않는다: 2-아미노퓨린, 2,6-디아미노퓨린 (2-아미노-dA), 5-브로모 dU, 데옥시우리딘, 역전된 dT, 역전된 디데옥시-T, 디데옥시-C, 5-메틸 dC, 데옥시이노신, Super T®, Super G®, 잠김 핵산 (LNA's), 5-니트로인돌, 2'-O-메틸 RNA 염기, 히드록시메틸 dC, Iso-dG, Iso-dC, 플루오르 C, 플루오르 U, 플루오르 A, 플루오르 G, 2-메톡시에톡시 A, 2-메톡시에톡시 MeC, 2-메톡시에톡시 G, 및/또는 2-메톡시에톡시 T. 화학물 부착 및 링커 변형의 예로는 다음이 내포되나, 이에 국한되지 않는다: AcryditeTM, 아데닐화, 아지드 (NHS Ester), 디곡시게닌 (NHS Ester), 콜레스테롤-TEG, I-링커, 아미노 개질자 (가령, 아미노 개질자 C6, 아미노 개질자 C12, 아미노 개질자 C6 dT, 아미노 개질자, 및/또는 Uni-LinkTM 아미노 개질자), 알킨 (가령, 5' 헥시닐 및/또는 5-옥타디닐 dU), 바이오티닐화 (가령, 바이오틴, 바이오틴 (Azide), 바이오틴 dT, 바이오틴-TEG, 듀얼 바이오틴, pC 바이오틴, 및/또는 데스티오바이오틴-TEG), 및/또는 티올 변형 (가령, 티올 개질자 C3 S-S, 디티올, 및/또는 티올 개질자 C6 S-S). 일부 구체예들에서, 본원에서 기술된 바와 같이 임의의 프라이머에는 합성 핵산이 내포된다.
일부 구체예들에서, 본원에 기술된 프라이머쌍중 하나의 프라이머 또는 두 프라이머 모두에 증폭된 DNA의 프로세싱을 강화시키는 프라이머 변형이 내포된다. 일부 구체예들에서, 본원에서 기술된 바와 같이, 임의의 프라이머에는 프라이머의 제거(가령, 증폭 반응에 이어 프라이머의 제거)를 용이하게 하는 프라이머 변형이 내포된다. 일부 구체예들에서, 프라이머 변형은 증폭 반응 산물로 전달된다 (가령, 증폭 산물은 변형된 염기를 함유한다). 이러한 경우들에서, 상기 증폭 산물에는 변형 및 해당 변형의 고유한 속성 (가령, 해당 변형을 함유하는 증폭 산물을 선별해내는 능력)이 내포된다.
일부 구체예들에서, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙을 식별해내는 방법에는 앰플리콘-기반의 시퀀싱 판독의 이용이 내포된다. 일부 구체예들에서, 다수의 앰플리콘 (가령, DNA 샘플로부터 획득된 앰플리콘)이 서열화된다. 일부 구체예들에서, 각 앰플리콘은 적어도 1, 2,3,4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20회, 또는 그 이상 횟수로 서열화된다. 일부 구체예들에서, 각 앰플리콘은 약 1 내지 약 20의 횟수 (가령, 약 1 내지 약 15, 약 1 내지 약 12, 약 1 내지 약 10, 약 1 내지 약 8, 약 1 내지 약 5, 약 5 내지 약 20, 약 7 내지 약 20, 약 10 내지 약 20, 약 13 내지 약 20, 약 3 내지 약 18, 약 5 내지 약 16, 또는 약 8 내지 약 12)로 서열화될 수 있다. 일부 경우들에서, 앰플리콘-기반의 시퀀싱 판독에는 연속적 시퀀싱 판독이 내포될 수 있다. 일부 경우들에서, 앰플리콘에는 짧은 산재된 뉴클레오티드 요소들 (SINEs)이 내포된다. 일부 경우들에서, 앰플리콘-기반의 시퀀싱 판독에는 약 100,000 내지 약 25 백만 (가령, 약 100,000 내지 약 20 백만, 약 100,000 내지 약 15 백만, 약 100,000 내지 약 12 백만, 약 100,000 내지 약 10 백만, 약 100,000 내지 약 5 백만, 약 100,000 내지 약 1 백만, 약 100,000 내지 약 750,000, 약 100,000 내지 약 500,000, 약 100,000 내지 약 250,000, 약 250,000 내지 약 25 백만, 약 500,000 내지 약 25 백만, 약 750,000 내지 약 25 백만, 약 1 백만 내지 약 25 백만, 약 5 백만 내지 약 25 백만, 약 10 백만 내지 약 25 백만, 약 15 백만 내지 약 25 백만, 약 200,000 내지 약 20 백만, 약 250,000 내지 약 15 백만, 약 500,000 내지 약 10 백만, 약 750,000 내지 약 5 백만, 또는 약 1 백만 내지 약 2 백만)의 시퀀싱 판독이 내포될 수 있다. 예를 들면, 다수의 앰플리콘의 시퀀싱에는 특유의 식별자 (UID)를 각 주형 분자에 (가령, 각 앰플리콘에) 할당하고, 특유하게 테그된 각 주형 분자를 증폭시켜 UID-패밀리를 생성시키고, 그리고 상기 증폭 산물을 과다하게 시퀀싱하는 것이 내포될 수 있다. 예를 들면, 다수의 앰플리콘의 시퀀싱에는 식
Figure pct00004
을 이용하여 전술한 선택된 염색체 가지(arm) 상에 있는 변이체의 Z-점수의 산출이 내포될 수 있는데, 여기에서 w i 는 변이체 i 에서 UID 심도이며, Z i 는 변이체의 Z-점수이며, 그리고 k i는 해당 염색체 가지(arm) 상에서 관찰되는 변이체의 수이다. 일부 구체예들에서, 앰플리콘의 시퀀싱 방법들에는 당분야에 공지된 방법들이 내포된다 (가령, US 특허 번호. 2015/0051085; 그리고 Kinde et al. 2012 PloS ONE 7:e41162, 이들의 전문이 본원의 참고자료에 편입된다). 일부 구체예들에서, 앰플리콘을 참조 게놈 (가령, GRC37)과 나란히 정렬시킨다.
일부 구체예들에서, 본원에 기술된 방법에 의해 생성된 다수의 앰플리콘에는 약 10,000 내지 약 1,000,000개 (가령, 약 15,000 내지 약 1,000,000, 약 25,000 내지 약 1,000,000, 약 35,000 내지 약 1,000,000, 약 50,000 내지 약 1,000,000, 약 75,000 내지 약 1,000,000, 약 100,000 내지 약 1,000,000, 약 125,000 내지 약 1,000,000, 약 160,000 내지 약 1,000,000, 약 180,000 내지 약 1,000,000, 약 200,000 내지 약 1,000,000, 약 300,000 내지 약 1,000,000, 약 500,000 내지 약 1,000,000, 약 750,000 내지 약 1,000,000, 약 10,000 내지 약 800,000, 약 10,000 내지 약 500,000, 약 10,000 내지 약 250,000, 약 10,000 내지 약 150,000, 약 10,000 내지 약 100,000, 약 10,000 내지 약 75,000, 약 10,000 내지 약 50,000, 약 10,000 내지 약 40,000, 약 10,000 내지 약 30,000, 또는 약 10,000 내지 약 20,000)의 앰플리콘 (가령, 특유의 앰플리콘)이 내포된다. 하나의 비-제한적인 예로써, 다수의 앰플리콘에는 약 745,000개의 앰플리콘 (가령, 745,000개의 특유의 앰플리콘)이 내포될 수 있다. 다수의 앰플리콘 안에 앰플리콘에는 약 50 내지 약 140개 (가령, 약 60 내지 약 140개, 약 76 내지 약 140개, 약 90 내지 약 140개, 약 100 내지 약 140개, 약 130 내지 약 140개, 약 50 내지 약 130개, 약 50 내지 약 120개, 약 50 내지 약 110개, 약 50 내지 약 100개, 약 50 내지 약 90개, 약 50 내지 약 80개, 약 60 내지 약 130개, 약 70 내지 약 125개, 약 80 내지 약 120개, 또는 약 90 내지 약 100개) 뉴클레오티드가 내포될 수 있다. 하나의 비-제한적인 예로써, 앰플리콘에는 약 100개 뉴클레오티드가 내포될 수 있다.
일부 구체예들에서, 본원에 기술된 방법에 의해 생성된 다수의 앰플리콘의 길이는 1000개 이상의 염기쌍 (bp) ("긴 앰플리콘")일 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 긴 앰플리콘은 다수의 총 앰플리콘 안에 모든 앰플리콘의 적어도 4.0%로 구성된다. 일부 구체예들에서, 상기 긴 앰플리콘이 다수의 총 앰플리콘 안에 모든 앰플리콘의 적어도 4.0%로 구성될 때, 본원에 기술된 방법들 및 재료들은 이러한 긴 앰플리콘을 검출할 수 있다. 일부 구체예들에서, 상기 긴 앰플리콘이 다수의 총 앰플리콘 안에 모든 앰플리콘의 0.01% 내지 3.9%로 구성될 때, 본원에 기술된 방법들 및 재료들은 이러한 긴 앰플리콘을 검출할 수 있다.
일부 구체예들에서, 길이가 >1000bp인 하나 또는 그 이상의 앰플리콘은 염색체 비정상성을 함유하지 않는 세포로부터 DNA 증폭으로 기인된다. 일부 구체예들에서, 염색체 비정상성을 함유하지 않는 세포는 오염 세포로 간주된다. 일부 구체예들에서, 염색체 비정상성을 함유하지 않는 세포는 대조군 세포 또는 샘플로 이용된다. 일부 구체예들에서, 오염 세포는 혈장 샘플에서 발견될 수 있는, 의도한 표적의 증폭을 희석시킬 수 있는 임의의 다양한 세포일 수 있다. 일부 구체예들에서, 오염 세포는 백혈구 세포 (가령, 백혈구, 과립구, 호산구, 호염기구, B-세포, T-세포 또는 천연 킬러 세포)이다. 예를 들면, 오염 세포는 백혈구일 수 있다.
일부 구체예들에서, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙을 식별해내기 위한 방법 및 제료에는 시퀀싱 판독 (가령, 다수의 앰플리콘으로부터)을 게놈 인터벌의 클러스터 (가령, 특유의 클러스터)로 그룹화시키는 것이 내포된다 일부 구체예들에서, 게놈 인터벌은 하나 또는 그 이상의 클러스터에 내포된다. 일부 구체예들에서, 게놈 인터벌은 약 100 내지 약 252개 (가령, 약 125 내지 약 252개, 약 150 내지 약 252개, 약 175 내지 약 252개, 약 200 내지 약 252개, 약 225 내지 약 252개, 약 100 내지 약 250개, 약 100 내지 약 225개, 약 100 내지 약 200개, 약 100 내지 약 175개, 약 100 내지 약 150개, 약 125 내지 약 225개, 약 150 내지 약 200개, 또는 약 160 내지 약 180개)의 클러스터에 속할 수 있다. 하나의 비-제한적인 예로써, 게놈 인터벌은 약 176개 클러스터에 속할 수 있다. 일부 구체예들에서, 각 클러스터에는 임의의 적절한 갯수의 게놈 인터벌이 내포된다. 일부 구체예들에서, 각 클러스터에는 동일한 갯수의 게놈 인터벌이 내포된다. 일부 구체예들에서, 상이한 클러스터에는 가변적인 갯수의 게놈 클러스터가 내포된다. 하나의 비-제한적인 예로써, 각 클러스터에는 약 200개의 게놈 인터벌이 내포될 수 있다.
일부 구체예들에서, 게놈 인터벌은 공유되는 앰플리콘 속성을 보유하는 것으로 식별된다. 본원에 사용된 바와 같이, 용어 "공유되는 앰플리콘 속성" 이란 유사한 하나 또는 그 이상의 속성을 갖는 앰플리콘을 지칭한다. 일부 구체예들에서, 다수의 게놈 인터벌은 게놈 인터벌에 맵핑된 시퀀싱 판독의 하나 또는 그 이상의 공유되는 앰플리콘 속성을 기반으로 클로스터로 그룹화된다. 일부 구체예들에서, 상기 공유되는 앰플리콘 속성은 게놈 인터벌에 맵핑된 앰플리콘의 갯수 (가령, 게놈 인터벌에서 시퀀싱 판독 분포의 합)이다. 일부 구체예들에서, 상기 공유되는 앰플리콘 속성은 상기 맵핑된 앰플리콘의 평균 길이다.
일부 구체예들에서, 게놈 인터벌의 클러스터에는 약 5000 내지 약 6000개 (가령, 약 5100 내지 약 6000개, 약 5200 내지 약 6000개, 약 5300 내지 약 6000개, 약 5400 내지 약 6000개, 약 5500 내지 약 6000개, 약 5600 내지 약 6000개, 약 5700 내지 약 6000개, 약 5800 내지 약 6000개, 약 5900 내지 약 6000개, 약 5000 내지 약 5900개, 약 5000 내지 약 5800개, 약 5000 내지 약 5700개, 약 5000 내지 약 5600개, 약 5000 내지 약 5500개, 약 5000 내지 약 5400개, 약 5000 내지 약 5300개, 약 5000 내지 약 5200개, 약 5000 내지 약 5100개, 약 5100 내지 약 5800개, 약 5100 내지 약 5700개, 약 5100 내지 약 5600개, 약 5100 내지 약 5500개, 약 5100 내지 약 5400개, 약 5100 내지 약 5300개, 약 5100 내지 약 5200개, 약 5200 내지 약 5600개, 약 5200 내지 약 5500개, 약 5200 내지 약 5400개, 약 5200 내지 약 5300개, 약 5300 내지 약 5500개, 약 5300 내지 약 5400개, 또는 약 5400 내지 5500개, 약 5200 내지 약 5700개, 또는 약 5300 내지 약 5500개)의 게놈 인터벌이 내포된다. 하나의 비-제한적인 예로써, 게놈 인터벌의 클러스터에는 약 5344개의 게놈 인터벌이 내포될 수 있다. 게놈 인터벌은 임의의 적절한 길이일 수 있다. 예를 들면, 게놈 인터벌은 본원에서 기술된 바와 같이 서열화된 앰플리콘 서열의 길이일 수 있다. 예를 들면, 게놈 인터벌은 염색체 가지(arm)의 길이일 수 있다. 일부 경우들에서, 게놈 인터벌에는 약 100 내지 약 125,000,000개 (가령, 약 250 내지 약 125,000,000개, 약 500 내지 약 125,000,000개, 약 750 내지 약 125,000,000개, 약 1,000 내지 약 125,000,000개, 약 1,500 내지 약 125,000,000개, 약 2,000 내지 약 125,000,000개, 약 5,000 내지 약 125,000,000개, 약 7,500 내지 약 125,000,000개, 약 10,000 내지 약 125,000,000개, 약 25,000 내지 약 125,000,000개, 약 50,000 내지 약 125,000,000개, 약 100,000 내지 약 125,000,000개, 약 250,000 내지 약 125,000,000개, 약 500,000 내지 약 125,000,000개, 약 100 내지 약 1,000,000개, 약 100 내지 약 750,000개, 약 100 내지 약 500,000개, 약 100 내지 약 250,000개, 약 100 내지 약 100,000개, 약 100 내지 약 50,000개, 약 100 내지 약 25,000개, 약 100 내지 약 10,000개, 약 100 내지 약 5,000개, 약 100 내지 약 2,500개, 약 100 내지 약 1,000개, 약 100 내지 약 750개, 약 100 내지 약 500개, 약 100 내지 약 250개, 약 500 내지 약 1,000,000개, 약 5000 내지 약 900,000개, 약 50,000 내지 약 800,000개, 또는 약 100,000 내지 약 750,000개)의 뉴클레오티드가 내포될 수 있다. 하나의 비-제한적인 예로써, 게놈 인터벌에는 약 500,000개의 뉴클레오티드가 내포될 수 있다. 일부 구체예들에서, 게놈 인터벌의 클러스터은 당분야에 공지된 임의의 적절한 방법을 이용하여 형성된다. 일부 구체예들에서, 게놈 인터벌의 클러스터는 상기 게놈 인터벌의 공유되는 앰플리콘 속성을 기반으로 형성된다 (가령, Douville et al. PNAS 201 115(8):1871-1876 참고, 이의 전문이 본원의 참고자료에 편입된다).
일부 구체예들에서, 하나 또는 그 이상의 염색체 변칙을 식별해내기 위한 본원에 기술된 방법들 및 재료들에는 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)의 존재 또는 부재에 대한 게놈 (가령, 포유류의 게놈)의 평가가 내포된다. 포유류의 게놈 안에 하나 또는 그 이상의 염색체 변칙의 존재 또는 부재는 예를 들면, 시퀀싱 판독을 획득하기 위해 해당 포유류로부터 획득된 샘플 (가령, 테스트 샘플)에서 획득된 다수의 앰플리콘을 시퀀싱하고, 그리고 해당 시퀀싱 판독들을 게놈 인터벌의 클러스터로 그룹화시켜 결정될 수 있다. 일부 경우들에서, 게놈 인터벌 판독 카운트는 동일한 샘플 안에 다른 게놈 인터벌의 판독 카운트와 비교될 수 있다. 게놈 인터벌의 판독 카운트가 동일한 샘플 안에 다른 게놈 인터벌의 판독 카운트와 비교되는 일부 경우들에서, 제 2 샘플 (가령, 대조군 또는 참조 샘플)은 검정되지 않는다. 일부 경우들에서, 게놈 인터벌 판독 카운트는 또다른 샘플 안에 다른 게놈 인터벌의 판독 카운트와 비교될 수 있다. 예를 들면, 본원에 기술된 방법들 및 재료들을 이용하여 유전적 관련성, 다형태 (가령, 체세포 돌연변이), 및/또는 미소부수체 불안정성을 식별해낼 때, 게놈 인터벌은 참조 샘플 안에 있는 게놈 인터벌의 판독 카운트에 비교될 수 있다. 참조 샘플은 합성 샘플일 수 있다. 참조 샘플은 데이터베이스에서 유래될 수 있다. 변칙 (가령, 이수성)을 식별해내기 위해 본원에 기술된 방법들 및 재료들이 이용되는 일부 경우들에서, 참조 샘플은 동일한 암 환자 (가령, 이 환자에게서 암 세포를 품고있지 않는 샘플) 또는 또다른 공급원천 (가령, 암을 갖고 있지 않는 환자)으로부터 취한 정상 샘플일 수 있다. 변칙 (가령, 이수성)을 식별해내기 위해 본원에 기술된 방법 및 재료가 이용되는 일부 경우들에서, 참조 샘플은 동일한 환자로부터 취한 정상 샘플(가령, 오로지 모체 세포만을 함유하는 산전 인간으로부터 취한 샘플)일 수 있다.
일부 구체예들에서, 본원에 기술된 방법들 및 재료들은 착상-전 배아 (가령, 시험관내 수정을 통하여 생성된 배아)에서 이수성을 검출하는데 이용된다. 일부 구체예들에서, 착상-전 배아에서 하나 또는 그 이상의 염색체 변칙의 존재 또는 부재는 시퀀싱 판독을 획득하기 위해 착상-전 배아 (가령, 테스트 샘플, 이를 테면, 배반포에서 획득된 하나 또는 그 이상의 세포, 그러나 이에 국한되지 않음)로부터 취한 샘플에서 획득된 다수의 앰플리콘을 시퀀싱하고, 그리고 해당 시퀀싱 판독들을 게놈 인터벌의 클러스터로 그룹화시켜서 결정한다. 일부 경우들에서, 게놈 인터벌 판독 카운트는 동일한 샘플 안에 다른 게놈 인터벌의 판독 카운트와 비교될 수 있다. 게놈 인터벌의 판독 카운트가 동일한 샘플 안에 다른 게놈 인터벌의 판독 카운트와 비교되는 일부 경우들에서, 제 2 샘플 (가령, 대조군 또는 참조 샘플)은 검정되지 않는다. 일부 경우들에서, 게놈 인터벌의 판독 카운트는 또다른 샘플 (가령, 참조 샘플)에서 게놈 인터벌의 판독 카운트와 비교될 수 있다. 일부 구체예들에서, 참조 샘플은 참조 포유류로부터 획득한 샘플이다. 일부 구체예들에서, 참조 샘플은 데어터베이스로부터 획득된다 (가령, 참조 샘플은 관심대상의 게놈 위치에 공지의 서열 및/또는 배수성을 갖는 가상환경에서의 샘플이다). 착상-전 배아에서 검출될 수 있는 이수성의 예시에는 염색체 21에서 삼염색체 (가령, 이로 인하여 다운증후군이 초래됨), 염색체 13에서 삼염색체, 염색체 18에서 삼염색체 (터너(Turner) 증후군 (가령, 오로지 한개의 X 염색체만을 갖는 여성) 및 클라인펠터(Klinefelter) 증후군 (가령, 두 개 또는 그 이상의 X 염색체를 갖는 남성)이 초래됨)이 내포된다.
일부 구체예들에서, 본원에 기술된 방법들 및 재료들을 이용하여 포유류 게놈에서 이수성을 검출한다. 예를 들면, 포유류로부터 획득된 샘플에서 획득된 다수의 앰플리콘을 서열화하고, 시퀀싱 판독은 게놈 인터벌의 클러스터로 그룹화시키고, 각 게놈 인터벌에서 시퀀싱 판독 분포의 합을 산출할 수 있고, 염색체 가지(arm)의 Z-점수가 산출될 수 있고, 그리고 상기 포유류 게놈에서 이수성의 존재 또는 부재를 식별해낼 수 있다. 각 게놈 인터벌에서 시퀀싱 판독의 분포가 합산될 수 있다. 예를 들면, 각 게놈 인터벌에서 시퀀싱 판독의 분포 합은 식
Figure pct00005
을 이용하여 산출해낼 수 있으며, 여기에서 Ri 은 시퀀싱 판독의 수이며, I 는 염색체 가지(arm) 상에서 클러스터의 수이며, N 은 매개변수 μ i
Figure pct00006
를 갖는 Gaussian분포이며, μ i 는 각 게놈 인터벌에서 평균 갯수이며, 그리고
Figure pct00007
는 각 게놈 인터벌에서 시퀀싱 판독의 변수이다. 염색체 가지(arm)의 Z-점수는 임의의 적절한 기술을 이용하여 산출할 수 있다. 예를 들면, 염색체 가지(arm)의 Z-점수는 변위치(quantile) 함수 1-CDF(
Figure pct00008
를 이용하여 산출될 수 있다. Z-점수가 사전-결정된 유의성 역치를 벗어날 때, 해당 포유류의 게놈에서 이수성이 존재하는 것으로 식별될 수 있으며, 그리고 Z-점수가 사전-결정된 유의성 역치 안에 있을 때, 해당 포유류의 게놈에는 이수성이 없는 것으로 식별될 수 있다. 상기 사전-결정된 역치는 해당 테스트에서 신뢰도 및 허위 양성의 허용가능한 수에 상응할 수 있다. 예를 들면, 유의성 역치는 ± 1.96, ± 3, 또는 ± 5일 수 있다. 일부 구체예들에서, 본원에 기술된 방법들 및 재료들은 관리감독 하에 기계 학습(supervised machine learning)을 이용한다. 일부 구체예들에서, 관리감독 하에 기계 학습은 하나 또는 그 이상의 염색체 가지(arms)에서 작은 변화를 탐지해낼 수 있다. 기계, 기 예를 들면, 관리감독 하에 기계 학습은 염색체 변칙과 관련된 질환 또는 장애, 이를 테면, 암 또는 선천적 기형에 흔히 존재하는 염색체 가지(arm) 습득 또는 상실과 같은 변화를 검출해낼 수 있다. 일부 구체예들에서, 관리감독 하에 기계 학습은 착상-전 배아 (가령, 시험관내 수정 방법에 의해 생성된 착상-전 배아 유전자)에 존재하는 염색체 가지(arm) 습득 또는 상실과 같은 변화를 검출해낼 수 있다. 일부 경우들에서, 관리감독 하에 기계 학습을 이용하여 이수성 상태에 따른 샘플을 분류할 수 있다. 예를 들면, 관리감독 하에 기계 학습을 이용하여 게놈-전체(wide) 이수성 호출(calls)을 만들 수 있다. 일부 경우들에서, 서포트 벡터 기계 모델에는 SVM 점수의 획득이 내포될 수 있다. 임의의 적절한 기술을 이용하여 SVM 점수를 획득할 수 있다. 일부 경우들에서, SVM 점수는 도처에 기술된 바와 같이 획득될 수 있다 (가령, Cortes 1995 Machine learning20:273-297; 그리고 Meyer et al. 2015 R package version:1.6-3 참고). 더 낮은 판독 심도에서, 샘플은 전형적으로 더 높은 미가공(raw) SVM 점수를 가질 것이다. 따라서, 일부 경우들에서, 미가공 (raw) SVM 가능성은 식
Figure pct00009
을 이용한 샘플의 판독 심도를 기반으로 교정될 수 있으며, 여기에서 r 은 특정 판독 심도/주어진 특정 샘플의 최저 SVM 점수에서 SVM 점수의 비율이다. 실시예 1에 기술된 바와 같이, A 및 B가 결정될 수 있다. 예를 들면, A = -7.076*10^-7, x = 주어진 샘플에 있어서 특유의 주형 분자 갯수, 그리고 B = -1.946*10^-1.
또한, 여기에는 샘플 간의 변동성을 줄이는 새로운 정규화 방법이 또한 제공된다. 일부 구체예들에서, 주성분 분석 (PCA)을 정규화에 사용할 수 있다. 일부 구체예들에서, 대조군의 시퀀싱 데이터에 PAC가 실행된다. 예를 들면, PCA을 이용하여 500kb 게놈 인터벌의 수를 n=5,344에서 보다 관리하기 쉬운 크기의 수로 감소시킬 수 있다. 대조군의 PCA 좌표를 사용하여, 특정 500kb의 인터벌이 PCA 좌표를 기반으로 향후 샘플에서 다소 효율적으로 증폭되는지 여부를 예측하는 모델을 생성시킬 수 있다.
Figure pct00010
예를 들면, 각 테스트 샘플에 있어서, 샘플을 PCA 공간에 투영할 수 있으며, PCA 좌표의 함수로써 각 500kb의 인터벌에 대해 보정 계수를 산출해낼 수 있다. 각각의 500kb 게놈 인터벌에 보정 계수를 적용한 후, 테스트 샘플은 500kb 인터벌의 가장 가까운 Euclidean 거리에 기초하여 하나 또는 그 이상의 대조군 샘플에 매칭시킬 수 있다.
일부 구체예들에서, 데이터의 품질을 보장하기 위해 샘플은 배제된다. 일부 구체예들에서, 샘플은 데이터 분석-전, 분석과 동시 및/또는 분석-후에 배제된다. 일부 구체예들에서, 계수 목록에 명시된 기준을 충족하지 않는 데이터는 배제되도록 하기 위해, 계수 목록을 데이터에 적용시킬 수 있다. 일부 구체예들에서, 계수 목록은 임의의 합당한 수의 계수일 수 있다. 예를 들면, 샘플을 배제하는데, 5가지 계수의 목록을 사용할 수 있다. 모든 계수 조합을 사용하여, 샘플이 배제되어야 하는지 결정할 수 있다. 일부 구체예들에서, 250만개 미만의 판독값을 가진 샘플은 제외될 수 있다. 일부 구체예들에서, 오염의 충분한 증거가 있는 샘플이 배제될 수 있다. 예를 들면, 샘플에 적어도 10개의 유의미한 대립형질 불균형 염색체 가지(arm) (z 점수 >= 2.5)가 있고, 10개 미만의 유의미한 염색체 가지(arm)의 획득 또는 손실이 있는 경우 (z >= 2.5 또는 z<= -2.5), 해당 샘플은 오염된 것으로 간주될 수 있다. 일부 구체예들에서, 대립 유전자 불균형은 SNPs에서 결정할 수 있으며, 획득 또는 손실은 WALDO를 통해 평가할 수 있다. 일부 구체예들에서, 혈장 시료의 품질을 조사할 때 앰플리콘의 8.5% 이상이 94bps (정방향 및 역방향 프라이머 사이에 50개 염기쌍)보다 큰 샘플은 배제될 수 있다. 이론에 결부되지 않고, 이러한 샘플은 백혈구 DNA로 오염될 수 있다. 일부 구체예들에서, 아래 식에 의해 정의된 바와 같이, 해당 분석의 동적 범위를 벗어난 샘플은 배제될 수 있다.
Figure pct00011
예를 들면, 이 측정항목의 분포에는 긴 꼬리가 있다. >0.2450 및 0.2320의 값은 컷오프를 평가할 수 있는 동적 범위로 선택될 수 있다. 일부 구체예들에서, 동일한 환자의 백혈구에서 공지의 이수성을 갖는 혈장 샘플은 배제될 수 있다. 예를 들면, 이러한 환자는 클론성 조혈증 (Clonal Hematopoiesis of Indeterminate Potential: CHIP) 또는 선천성 장애를 가질 수 있다.
일부 구체예들에서, 미규정(indeterminate) 길이의 카피 수 변이체(CNV)를 검출하는 방법이 본 명세서에 제공된다. 일부 구체예들에서, 거의-고정된 길이의 카피 수 변동을 검출하는 방법이 본 명세서에 제공된다. 일부 구체예들에서, 카피 수 변이 검출에는 하나 또는 그 이상의 변수 값의 산출이 내포된다. 일부 구체예들에서, 각 염색체 암에 걸쳐 매 500kb 인터벌에서 관찰된 테스트 샘플과 WALDO 예측 값의 로그 비율을 사용하여, 원형 이진 세그먼트화 알고리즘을 적용하여 각 염색체 가지(arm) 전체에 걸쳐 카피 수 변이체를 결정할 수 있다. 예를 들면, 크기가 ≤ 5Mb인 카피 수 변이체를 표시할 수 있다. 일부 구체예들에서, 표시된(플래그가 지정된) CNV들은 데이터 분석-전, 분석과 동시 및/또는 분석-후에 제거될 수 있다. 일부 구체예들에서, 작은 CNVs를 이용하여 마이크로-결손 또는 마이크로-증폭을 평가할 수 있다. 예를 들면, 마이크로-결손 또는 마이크로-증폭은 디조지 증후군(DiGeorge Syndrome) (염색체 22q11.2 또는) 또는 유방암 (염색체 17q12)에서 발생된다.
일부 구체예들에서, 합성 이수성 샘플을 이용한 방법이 본원에서 제공된다. 일부 구체예들에서, 몇 가지 염색체 가지(arms)의 판독을 이들 정상 DNA 샘플의 판독에 추가함으로써(또는 차감시킴으로써) 합성 이수성 샘플이 창출될 수 있다 예를 들면, 1개, 10개, 15개, 또는 20개 염색체 가지(arms)로부터 판독이 각 샘플에 추가되거나, 또는 차감될 수 있다. 추가 및 차감은 0.5%에서 1.5% 범위의 신생물 세포 분획을 나타내도록 설계될 수 있으며, 결과적으로 정확히 천만 판독을 포함하는 합성 샘플이 생성된다. 각 염색체의 판독이 균일하게 추가되거나, 또는 차감될 수 있다. 일부 구체예들에서, 예시적인 의사코드 (pseudocode)를 이용하여 합성 이수성 샘플을 만드는 방법이 본원에 제공된다 (도 5). 일부 구체예들에서, 당업자는 도 5에 도시된 예시적인 의사코드에 공지된 코딩 언어 및 기술을 적용함으로써 합성 샘플을 생성할 수 있을 것이다.
본 명세서에 기술된 방법 및 재료를 사용하여 검출할 수 있는 염색체 변칙의 예에는 숫자적 이상(numerical disorder), 구조적 이상, 대립유전자 불균형 및 미소부수체 불안정성이 내포되지만 이에 국한되지는 않는다. 염색체 이상에는 숫자적 이상이 내포될 수 있다. 예를 들면, 염색체 이상에는 이수성 (가령, 비정상적인 갯수의 염색체)이 내포될 수 있다. 일부 경우들에서, 이수성에는 전체 염색체가 내포될 수 있다. 일부 경우들에서, 이수성에는 염색체의 일부분 (가령, 염색체 가지(arm) 획득 또는 염색체 가지(arm) 상실)이 내포될 수 있다. 이수성의 예시에는 홑염색체, 삼염색체성, 사염색체증, 그리고 오염색체증이 내포되나, 이에 국한되지 않는다. 염색체 이상에는 구조적 비정상성이 내포될 수 있다. 구조적 비정상의 예로는 결손, 중복, 전좌 (가령, 상호간의 전좌 및 Robertsonian 전좌), 역위, 삽입, 고리, 그리고 등소(iso)염색체가 내포되나, 이에 국한되지 않는다. 염색체 변칙은 임의의 염색체 쌍 (가령, 염색체 1, 염색체 2, 염색체 3, 염색체 4, 염색체 5, 염색체 6, 염색체 7, 염색체 8, 염색체 9, 염색체 10, 염색체 11, 염색체 12, 염색체 13, 염색체 14, 염색체 15, 염색체 16, 염색체 17, 염색체 18, 염색체 19, 염색체 20, 염색체 21, 염색체 22, 및/또는 성 염색체중 하나 (가령, X 염색체 또는 Y 염색체)에서 일어날 수 있다. 예를 들면, 이수성은 염색체 13 (가령, 삼염색체성 13), 염색체 16 (가령, 삼염색체성 16), 염색체 18 (가령, 삼염색체성 18), 염색체 21 (가령, 삼염색체성 21), 및/또는 성 염색체 (가령, X 염색체 홑염색체; 성 염색체 삼염색체증 이를 테면, XXX, XXY, 그리고 XYY; 성 염색체 사염색체증 이를 테면, XXXX 및 XXYY; 그리고 성 염색체 오염색체증 이를 테면, XXXXX, XXXXY, 및 XYYYY)에서 발생될 수 있지만, 이에 국한되지 않는다. 예를 들면, 구조적 비정상은 염색체 4 (가령, 염색체 4의 짧은 가지(arm)의 부분적 결손), 염색체 11 (가령, 말단 11q 결손), 염색체 13 (가령, 염색체 13에서 Robertsonian 전좌), 염색체 14 (가령, 염색체 14에서 Robertsonian 전좌), 염색체 15 (가령, 염색체 15에서 Robertsonian 전좌), 염색체 17 (가령, 말초 미엘린 단백질 22을 인코딩하는 유전자의 중복), 염색체 21 (가령, 염색체 21에서 Robertsonian 전좌), 그리고 염색체 22 (가령, 염색체 22에서 Robertsonian 전좌)에서 발생될 수 있지만, 이에 국한되지 않는다.
일부 구체예들에서, 본원에서 기술된 바와 같은 방법 및 재료를 이용하여 하나 또는 그 이상의 염색체 변칙이 관련된 질환 (가령, 본원에서 기술된 바와 같이 식별된 하나 또는 그 이상의 염색체 변칙, 이를 테면, 이수성)을 식별해내거나 및/또는 치료할 수 있지만, 이러한 질환에 국한되지 않는다. 일부 경우들에서, 하나 또는 그 이상의 염색체 변칙의 존재 또는 부재에 관하여 포유류로부터 획득된 DNA 샘플 (가령, 게놈 DNA 샘플)을 평가할 수 있다. 예를 들면, 하나 또는 그 이상의 염색체 변칙의 존재를 기반으로 (적어도 일부분으로) 질환을 보유하는 것으로 확인된 포유류(가령, 인간)는 하나 또는 그 이상의 암 치료에 의해 치료될 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 염색체 변칙의 존재를 기반으로 (적어도 일부분으로) 암을 보유하는 것으로 확인된 포유류는 하나 또는 그 이상의 암 치료에 의해 치료된다. 일부 구체예들에서, 하나 또는 그 이상의 염색체 변칙의 존재를 기반으로 (적어도 일부분으로), 포유류 (가령, 산전 인간)가 질환 또는 장애를 갖는 지를 확인할 수 있다. 일부 구체예들에서, 적어도 일부분으로, 하나 또는 그 이상의 염색체 변칙의 존재를 기반으로 착상을 위해 자궁 (가령, 인간의 자궁)으로 옮기는데 적합하지 않을 것 같은 배아 (가령, 시험관내 수정에 의해 만들어진 배아)를 식별해낼 수 있다. 일부 구체예들에서, 적어도 일부분으로, 하나 또는 그 이상의 염색체 변칙의 부재를 기반으로 착상을 위해 자궁 (가령, 인간의 자궁)으로 옮기는데 적합할 것 같은 배아 (가령, 시험관내 수정에 의해 만들어진 배아)를 식별해낼 수 있다.
일부 구체예들에서, 본원에서 기술된 바와 같이 (가령, 적어도 일부분으로, 하나 또는 그 이상의 염색체 변칙, 이를 테면, 이수성의 존재를 기반으로) 하나 또는 그 이상의 염색체 변칙과 연합된 질환 또는 장애를 갖는 것으로 식별된 포유류는 임의의 적절한 방법으로 확인된 질환 또는 장애로 진단받을 수 있다. 하나 또는 그 이상의 염색체 변칙의 존재를 확인하는데 이용되는 방법의 예로는 핵형 분석(karyotyping), 형광 제자리 하이브리드화(FISH), 짧은 직렬 반복부의 정량적 PCR, 정량적 형광 PCR(QF-PCR), 정량적 PCR 투여량 분석, SNPs의 정량적 질량 분석, 비교 게놈 하이브리드화(CGH), 전체 게놈 시퀀싱 및 엑솜 시퀀싱이 내포되나, 이에 국한되지 않는다.
암 검출을 위한 다중-피분석물 테스트
일부 구체예들에서, 포유류가 암 (가령, 본원에서 기술된 예시된 암중 임의의 암)을 갖고 있는 지를 식별해내는데 이수성 검출이 이용된다. 일부 구체예들에서, 하나 또는 그 이상의 유전적 생물표지자 검출을 이용하여 포유류가 암 (가령, 본원에서 기술된 예시된 암중 임의의 암)을 갖고 있는 지를 확인하거나, 또는 식별해낸다. 일부 구체예들에서, 하나 또는 그 이상의 펩티드 생물표지자의 수준이 상승됨을 이용하여 포유류가 암 (가령, 본원에서 기술된 예시된 암중 임의의 암)을 갖고 있는 지를 확인하거나, 또는 식별해낸다. 일부 구체예들에서, 본원에서 기술된 바와 같이 (가령, 이수성의 검출을 기반으로 하여, 및/또는 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 존재 또는 부재를 적어도 일부 기반으로하여, 및/또는 하나 또는 그 이상의 단백질 생물표지자 (가령, 펩티드)의 수준이 상승됨을 적어도 일부분 기반으로 하여), 암을 가지고 있는 것으로 식별된 포유류는 임의의 적절한 방법으로 확인된 암 진단을 받을 수 있다. 암을 진단하거나, 또는 암 진단의 확인에 사용할 수 있는 방법의 예로는 신체 검사(가령, 골반 검사), 영상 검사(가령, 초음파 또는 CT 스캔), 세포학 및 조직 검사(가령, 생검)가 내포되지만, 이에 국한되지 않는다.
일부 구체예들에서, 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해내기 위하여 본원에서 제공된 방법을 이용하여 정확한 병기의 암을 가지는 포유류를 식별해낼 수 있다. 일부 구체예들에서, 암은 I 기 암일 수 있다. 일부 구체예들에서, 암은 II 기 암일 수 있다. 일부 구체예들에서, 암은 III 기 암일 수 있다. 일부 구체예들에서, 암은 IV 기 암일 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해내기 위하여 본원에서 제공된 방법을 이용하여 기존의 암 검출 방법이 확실하게 검출할 수 없는 암의 병기를 갖는 포유류를 식별해낼 수 있다. 예를 들면, 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)을 식별해내기 위하여 본원에서 제공된 방법을 이용하여 기존의 암 검출 방법이 확실하게 검출할 수 없는 암의 병기 I을 갖는 포유류를 식별해낼 수 있다. 일부 구체예들에서, 다음을 식별하기 위하여, 1) 하나 또는 그 이상의 염색체 변칙 (가령, 이수성), 그리고 2) 하나 또는 그 이상의 유전적 생물표지자 (가령, 본원에서 제공된 유전적 생물표지자중 임의의 유전적 생물표지자), 본원에 제공된 방법을 이용하여 기존의 암 검출 방법으로는 확실하게 검출할 수 없는 암 병기를 갖고 있는 포유류를 식별해낸다. 일부 구체예들에서, 다음을 식별하기 위하여, 1) 하나 또는 그 이상의 염색체 변칙 (가령, 이수성), 그리고 2) 하나 또는 그 이상의 유전적 생물표지자 (가령, 본원에서 제공된 단백질 생물표지자중 임의의 단백질 생물표지자), 본원에 제공된 방법을 이용하여 기존의 암 검출 방법으로는 확실하게 검출할 수 없는 암 병기를 갖고 있는 포유류를 식별해낸다. 본원에서 기술된 바와 같이 식별될 수 있는 암의 비-제한적인 예(가령, 이수성 검출에 근거하여, 및/또는 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 존재 또는 부재에 적어도 일부분 근거하여, 및/또는 하나 또는 그 이상의 단백질 생물표지자 (가령, 펩티드)의 수준 상승됨에 일부 근거하여)에는 간암, 난소암, 식도암, 위암, 췌장암, 결장직장암, 폐암, 유방암, 그리고 전립선암이 내포된다.
일부 구체예들에서, 상기 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)의 존재가 검추된 해당 대상체는 추가 진단 테스트를 위해 선별될 수 있다. 일부 구체예들에서, 여기에 제공된 방법은 종래 기술이 초기 단계의 암을 가진 대상체를 진단할 수 있는 기간이 되기 전, 추가 진단 테스트를 위해 대상체를 선별하는 데 사용될 수 있다. 예를 들면, 추가 진단 테스트를 위해 대상체 선별을 위해 본원에서 제공된 방법은 대상체가 기존 방법을 통하여 암 진단을 받지 않은 경우, 및/또는 대상체이 암을 갖고 있는 것으로 알려지지 않은 경우에 사용될 수 있다. 일부 구체예들에서, 추가 진단 테스트를 위해 선별된 대상체는 추가 진단 테스트를 위해 선별되지 않은 대상체와 비교하여, 증가된 빈도로 진단 테스트(예를 들어, 본 명세서에 기재된 임의의 진단 테스트)를 받을 수 있다. 예를 들면, 추가 진단 테스트를 위해 선별된 대상체는 하루 2회, 매일, 격주로, 매주, 격월로, 매월, 분기별, 반년마다, 매년 또는 이 기간 안에 있는 임의의 빈도로 진단 테스트를 받을 수 있다. 일부 구체예들에서, 추가 진단 테스트를 위해 선별된 대상체는 추가 진단 테스트를 위해 선별되지 않은 대상체와 비교하여, 하나 또는 그 이상의 추가 진단 테스트를 받을 수 있다. 예를 들면, 추가 진단 테스트를 위해 선별된 대상체는 두 가지 또는 그 이상의 진단 테스트를 시행할 수 있는 반면, 추가 진단 테스트를 위해 선별되지 않은 대상체는 오로지 단일 진단 테스트만 시행한다(또는 진단 테스트 없음). 일부 구체예들에서, 진단 테스트 방법으로 최초 탐지된 암과 동일한 유형의 암의 존재를 결정할 수 있다. 추가적으로 또는 대안으로, 진단 테스트 방법으로 최초 탐지된 암과 상이한 유형의 암의 존재를 결정할 수 있다.
일부 구체예들에서, 상기 진단 테스트 방법은 스캔이다. 일부 구체예들에서, 상기 스캔은 뼈 스캔, 컴퓨터 단층 촬영(CT), CT 혈관조영술(CTA), 식도 조영술 (바륨 삼키기), 바륨 관장기, 갈륨 스캔, 자기 공명 영상(MRI), 유방 조영술, 단클론 항체 스캔(가령, 전립선암의 경우 ProstaScint® 스캔, 난소암의 경우 OncoScint® 스캔, 결장암의 경우 CEA-Scan®), 다중-게이트 획득 (MUGA) 스캔, PET 스캔, PET/CT 스캔, 갑상선 스캔, 초음파 (가령, 유방 초음파, 기관지내 초음파, 내시경 초음파, 질-경유 초음파), 엑스레이, DEXA 스캔이다.
일부 구체예들에서, 상기 진단 테스트 방법은 신체 검사, 예를 들어, 항문경, 생검, 기관지경 검사 (가령, 자가형광 기관지경, 백색-광 기관지경, 항법 기관지경), 디지털 유방 단층 합성, 디지털 직장 검사, 내시경 (가령, 캡슐 내시경, 가상 내시경, 관절 내시경, 기관지 내시경, 대장 내시경, 질 확대경, 방광경, 식도경, 위 내시경, 복강경, 후두 내시경, 신경내시경, 직장내시경, S상 결장경 검사), 피부암 검사, 흉강경 검사, 내시경 역행성 담췌관조영술(ERCP), 식도위 십이지장경 검사, 골반 검사가 내포되나, 이에 국한되지 않는다.
일부 구체예들에서, 상기 진단 테스트 방법은 생검 (가령, 골수 천자, 조직 생검)이다. 일부 구체예들에서, 생검은 미세 바늘 흡출 또는 외과적 절제에 의해 수행된다. 일부 구체예들에서, 진단 테스트 방법(들)에는 생물학적 샘플(가령, 조직 샘플, 소변 샘플, 혈액 샘플, 면봉 검사, 타액 샘플, 점막 샘플 (가령, 가래, 기관지 분비물), 유두 흡출물을 분비물 또는 배설물을 획득하는 것이 추가 내포된다. 일부 구체예들에서, 상기 진단 테스트 방법(들)에는 엑소좀 단백질 (가령, 엑소좀 표면 단백질 (가령, CD24, CD147, PCA-3))을 결정하는 것이 내포된다 (Soung et al. (2017) Cancers 9(1):pii:E8). 일부 구체예들에서, 상기 진단 테스트 방법은 온코형 DX® 테스트 (Baehner (2016) Ecancermedicalscience 10:675)이다.
일부 구체예들에서, 상기 진단 테스트 방법은 알파-태아단백 혈액 검사, 골수 검사, 분변 잠혈 검사, 인유두종 바이러스 검사, 저-선량 나선 컴퓨터 단층 촬영, 요추 천자, 전립선(PSA) 특이 항원 테스트, 세포진 테스트 또는 종양 표지자 테스트이나, 이에 국한되지 않는다.
일부 구체예들에서, 상기 진단 테스트 방법에는 공지의 단백질 생물표지자 (가령, CA-125 또는 전립선 특이 항원 (PSA))의 수준을 결정하는 것이 내포된다. 예를 들면, 대상체의 혈액에서 다량의 CA-125가 발현될 수 있고, 이때 이 대상체는 난소암, 자궁내막 암, 나팔관 암, 췌장암, 위암, 식도암, 결장암, 간암, 유방암, 또는 폐암을 가지고 있다. 용어 "생물표지자"란 본원에서 사용되는 본원에 사용된 바와 같이, 혈액, 기타 체액 또는 조직에서 발견되는 생물학적 분자"를 지칭하고, "정상 또는 비정상 프로세스, 또는 National Cancer Institute (가령, URL www.cancer.gov/publications/dictionaries/cancer-terms?CdrID=45618 참고)에서 정의한 바의 병태 또는 질환의 징후를 나타낸다. 생물표지자에는 유전적 생물표지자, 이를 테면, 핵산 (가령, DNA 분자, RNA 분자 (가령, microRNA, 긴 넌-코딩 RNA (lncRNA) 또는 다른 넌-코딩 RNA)가 내포될 수 있지만, 이에 국한되지 않는다. 생물표지자에는 단백질 생물표지자, 이를 테면, 펩티드, 단백질, 또는 이의 단편이 내포될 수 있다.
일부 구체예들에서, 상기 생물표지자는 FLT3, NPM1, CEBPA, PRAM1, ALK, BRAF, KRAS, EGFR, Kit, NRAS, JAK2, KRAS, HPV virus, ERBB2, BCR-ABL, BRCA1, BRCA2, CEA, AFP, 및/또는 LDH이다. 가령, Easton et al. (1995) Am. J. Hum. Genet. 56: 265-271, Hall et al. (1990) Science 250: 1684-1689, Lin et al. (2008) Ann. Intern. Med. 149: 192-199, Allegra et al. (2009) (2009) J. Clin. Oncol. 27: 2091-2096, Paik et al. (2004) N. Engl. J. Med. 351: 2817-2826, Bang et al. (2010) Lancet 376: 687-697, Piccart-Gebhart et al. (2005) N. Engl. J. Med. 353: 1659-1672, Romond et al. (2005) N. Engl. J. Med. 353: 1673-1684, Locker et al. (2006) J. Clin. Oncol. 24: 5313-5327, Giligan et al. (2010) J. Clin. Oncol. 28: 3388-3404, Harris et al. (2007) J. Clin. Oncol. 25: 5287-5312; Henry and Hayes (2012) Mol. Oncol. 6: 140-146 참고. 일부 구체예들에서, 상기 생물표지자는 대상체에서 유방암 검출용 생물표지자, 이를 테면, MUC-1, CEA, p53, 유로키나제 플라스미노겐 활성자, BRCA1, BRCA2, 및/또는 HER2이나, 이에 국한되지 않는다 (Gam (2012) World J. Exp. Med. 2(5): 86-91). 일부 구체예들에서, 상기 생물표지자는 대상체에서 폐암 검출용 생물표지자, 이를 테면, KRAS, EGFR, ALK, MET, 및/또는 ROS1이나, 이에 국한되지 않는다 (Mao (2002) Oncogene 21: 6960-6969; Korpanty et al. (2014) Front Oncol. 4: 204). 일부 구체예들에서, 상기 생물표지자는 대상체에서 난소암 검출용 생물표지자, 이를 테면, HPV, CA-125, HE4, CEA, VCAM-1, KLK6/7, GST1, PRSS8, FOLR1, ALDH1이나, 이에 국한되지 않는다 (Nolen and Lokshin (2012) Future Oncol. 8(1): 55-71; Sarojini et al. (2012) J. Oncol. 2012:709049). 일부 구체예들에서, 상기 생물표지자는 대상체에서 결장직장암 검출용 생물표지자, 이를 테면, MLH1, MSH2, MSH6, PMS2, KRAS, 그리고 BRAF이나, 이에 국한되지 않는다 (Gonzalez-Pons and Cruz-Correa (2015) Biomed. Res. Int. 2015: 149014; Alvarez-Chaver et al. (2014) World J. Gastroenterol. 20(14): 3804-3824). 일부 구체예들에서, 상기 진단 테스트 방법은 핵산 (가령, microRNA (Sethi et al. (2011) J. Carcinog. Mutag. S1-005), RNA, SNP (Hosein et al. (2013) Lab. Invest doi: 10.1038/labinvest.2013.54; Falzoi et al. (2010) Pharmacogenomics 11: 559-571), 메틸화 상태 (Castelo-Branco et al. el. 2013) Lancet Oncol 14: 534-542), 핫스팟(hotspot) 암 돌연변이 (Yousem et al. (2013) Chest 143: 1679-1684))의 존재 및/또는 발현 수준을 결정한다. 샘플에서 핵산 검출 방법의 비-제한적인 예시에는 다음이 내포된다: PCR, RT-PCR, 시퀀싱 (가령, 차세대 시퀀싱 방법, 딥 시퀀싱), DNA 마이크로어레이, microRNA 마이크로어레이, a SNP 마이크로어레이, 형광 제자리 혼성화 (FISH), 제한 단편 길이 다형태 (RFLP), 겔 전기영동, 노던 블랏 분석, 서던 블랏 분석, 발색 제자리 혼성화 (CISH), 크로마틴 면역침전 (ChIP), SNP 유전형분석(genotyping), 그리고 DNA 메틸화 분석. 가령, Meldrum et al. (2011) Clin. Biochem. Rev. 32(4): 177-195; Sidranksy (1997) Science 278(5340): 1054-9 참고.
일부 구체예들에서, 상기 진단 테스트 방법에는 샘플 안에 단백질 생물표지자 (가령, 혈장 생물표지자 (Mirus et al. (2015) Clin. Cancer Res. 21(7): 1764-1771))의 존재를 결정하는 것이 내포된다. 단백질 생물표지자의 존재를 결정하는 방법의 비-제한적 예로는 다음이 내포된다: 웨스턴 블랏 분석, 면역조직화학 (IHC), 면역형광법, 질량 분광분석법 (MS) (가령, 매트릭스 지원된 레이져 탈착/이온화 (MALDI)-MS, 표면 강화된 레이져 탈착/이온화 빛이동거리 (SELDI-TOF)-MS), 효소-연계된 면역흡착 분석 (ELISA), 유동 세포분석, 근접성 분석 (가령, VeraTag 근접성 분석 (Shi et al. (2009) Diagnostic molecular pathology: the American journal of surgical pathology, part B: 18: 11-21, Huang et al. (2010) AM. J. Clin. Pathol. 134: 303-11)), a 단백질 마이크로어레이 (가령, 항체 마이크로어레이 (Ingvarsson et al. (2008) Proteomics 8: 2211-9, Woodbury et al. (2002) J. Proteome Res. 1: 233-237), IHC-기반의 마이크로어레이 (Stromberg et al. (2007) Proteomics 7: 2142-50), 마이크로어레이 ELISA (Schroder et al. (2010) Mol. Cell. Proteomics 9: 1271-80). 일부 구체예들에서, 단백질 생물표지자의 존재를 결정하는 방법은 기능성 분석이다. 일부 구체예들에서, 상기 기능성 분석은 키나제 분석 (Ghosh et al. (2010) Biosensors & Bioelectronics 26: 424-31, Mizutani et al. (2010) Clin. Cancer Res. 16: 3964-75, Lee et al. (2012) Biomed. Microdevices 14: 247-57), 프로테아제 분석 (Lowe et al. (2012) ACS nano. 6: 851-7, Fujiwara et al. (2006) Breast cancer 13: 272-8, Darragh et al. (2010) 암 Res 70: 1505-12)이다. 가령, 암 환자 진단을 위한 단백질의 분석학적 검정의 검토는 Powers and Palecek (2015) J. Heathc Eng. 3(4): 503-534를 참고한다.
일부 구체예들에서, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙 (가령, 적어도 일부분으로, 하나 또는 그 이상의 염색체 변칙의 존재, 이를 테면, 이수성을 기반으로, 그러나 이에 국한되지 않음)과 연관된 임의의 적절한 질환 또는 병태가 본원에서 기술된 바와 같이, 식별된다. 일부 구체예들에서, 상기 질환은 암이다. 하나 또는 그 이상의 염색체 변칙과 연관될 수 있는 암의 예로는 다음이 내포되나, 이에 국한되지 않는다: 폐암 (가령, 소 세포 폐 암종 또는 비-소 세포 폐 암종), 유두 갑상선 암, 수질 갑상선 암, 분화된 갑상선 암, 재발성 갑상선 암, 난치성 분화된 갑상선 암, 폐 선암종, 소엽세기관지 폐 세포 암종, 다중 내분비 신생물 유형 2A 또는 2B (차례로 MEN2A 또는 MEN2B), 크롬친화성세포종, 부갑상선 과형성, 유방암, 결장직장암 (가령, 전이성 결장직장암), 유두 신장 세포 암종, 위장 점막의 신경절 신경종증, 염증성 근섬유아세포 종양, 또는 자궁경부암, 급성 림프구성 백혈병 (ALL), 급성 골수성 백혈병 (AML), 청소년에서 암, 부신 암, 부신피질 암종, 항문 암, 맹장 암, 성상세포종, 비정형 기형/간상 종양, 기저 세포 암종, 담관 암, 방광암, 골 암, 뇌간 신경교종, 뇌 종양, 유방암, 기관지 종양, 버킷 림프종, 카르시노이드 종양, 미지 원발성 암종, 심장 종양, 자궁경부암, 어린이 암, 척색종, 만성 림프구성 백혈병 (CLL), 만성 골수성 백혈병 (CML), 만성 골증식성 신생물, 결장암, 결장직장암, 두개인두관종, 피부의 T-세포 림프종, 담관 암, 관상피내 암종, 배아 종양, 자궁내막 암, 뇌질피복세포종, 식도암, 감각신경모세포종, 유잉(Ewing) 육종, 두개외 생식 세포 종양, 고환외부 생식 세포 종양, 간외부 담관암, 눈 암, 나팔관 암, 뼈의 섬유성조직구종, 담낭암, 위암, 위장 카르시노이드 종양, 위장 기질 종양 (GIST), 생식 세포 종양, 임신성 영양막 질환, 신경교종, 털세포 종양, 털세포 백혈병, 두경부 암, 심장암, 간세포 암, 조직구증, 호지킨 림프종, 하인두 암, 안구내 흑색종, 섬 세포 종양, 췌장 신경내분비 종양, 카포시 육종, 신장암, 랑게르한스 세포 조직구증, 후두 암, 백혈병, 입술 및 구강암, 간암, 폐암, 림프종, 거대글로불린혈증, 악성 뼈의 섬유성조직구종, 골암종, 흑색종, 메르켈 세포 암종, 중피종, 전이성 편평 목 암, 정중선 암종, 입암, 다중 내분비 신생물 증후군, 다발성 골수종, 균상 식육종, 골수이형성 증후군, 골수이형성/골증식성 신생물, 골수형성 백혈병, 골수성 백혈병, 다발성 골수종, 골증식성 신생물, 비강 및 부비동암, 비인두암, 신경모세포종, 비-호지킨 림프종, 비-소 세포 폐암, 입의 암, 구강암, 입술암, 구강인두 암, 골육종, 난소암, 췌장암, 간담도암, 상부 요로암, 유두종증, 부신경절종, 부비동과 비강암, 부갑상선 암, 음경암, 인두암, 크롬친화성세포종, 뇌하수체암, 혈장 세포 신생물, 흉막과 폐의 모세포종, 임신 및 유방암, 원발성 중추신경계 림프종, 원발성 복막암, 전립선암, 직장암, 신장 세포 암, 망막아종, 횡문근육육종, 타액선암, 육종, 세자리(Sezary) 증후군, 피부암, 소 세포 폐암, 소장암, 연-조직 육종, 편평 세포 암종, 편평 목암, 위암, T-세포 림프종, 고환암, 목구멍암, 흉선종과 흉선 암종, 갑상선 암, 신우 및 요관의 이행 세포 암, 원인불명 원발성 암종, 요도암, 자궁암, 자궁 육종, 질암, 외음부암, 발덴스트륌 거대글로불린혈증, 윌름 종양, 1p36 결손 증후군, 1q21.1 결손 증후군, 2q37 결손 증후군, 울프-허쉬혼 증후군, Cri du chat, 5q 결손 증후군, 윌리암 증후군, 홑염색체 8p, 홑염색체 8q, 알피 증후군, 클레프스트라 증후군, 홑염색체 10p, 홑염색체 10q, 야콥슨 증후군, 파타우 증후군, 엥겔만 증후군, 프라더-윌리 증후군, 밀러-디에커 증후군, 스미스-마게니스 증후군, 에드워드 증후군, 다운 증후군, 디조지 증후군, 펠란-멕데르미드 증후군, 22q11.2 말단 결손 증후군, 고양이눈 증후군, XYY 증후군, 삼중 X 증후군, 클라인펠터 증후군, 울프-허쉬혼 증후군, 야콥슨 증후군, 샤르코마리두스 질환(Charcot-Marie-Tooth disease) 유형 1A, 그리고 린치 증후군.
본원에서 기술된 바와 같이, 하나 또는 그 이상의 염색체 변칙이 관련된 질환 (가령, 적어도 일부분으로, 하나 또는 그 이상의 염색체 변칙의 존재, 이를 테면, 이수성의 존재를 기반으로, 그러나 이에 국한되지 않음)을 갖는 것으로 일단 확인되면, 이에 따라 포유류 (가령, 인간)를 치료할 수 있다. 예를 들면, 포유류가 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙과 관련된 암을 가지고 있는 것으로 식별될 때, 해당 포유류를 하나 또는 그 이상의 암 치료를 이용하여 치료할 수 있다. 상기 하나 또는 그 이상의 암 치료에는 임의의 적절한 암 치료가 내포될 수 있다. 암 치료에는 수술이 내포될 수 있다. 암 치료에는 방사선 요법이 내포될 수 있다. 암 치료에는 화학요법, 호르몬 요법, 표적화 요법 및/또는 세포독성 요법과 같은 약물요법의 진행이 내포될 수 있다. 암 치료의 예시에는 다음이 내포되나, 이에 국한되지 않는다: 백금 화합물(이를 테면, 시스플라틴 또는 카보플라틴), 탁산(이를 테면, 파클리탁셀 또는 도세탁셀), 알부민 결합 파클리탁셀(나브-파클리탁셀), 알트레타민, 카페시타빈, 사이클로포스파미드, 에토포사이드(vp-16), 젬시타빈, 이포스파미드, 이리노테칸(cpt-11), 리포솜 독소루비신, 멜팔란, 페메트렉세드, 토포테칸, 비노렐빈, 황체형성 호르몬 방출 호르몬(LHRH) 작용제(이를 테면, 고세렐린 및 류프로라이드), 항-에스트로겐 요법(이를 테면, 타목시펜), 아로마타제 억제제(이를 테면, 레트로졸, 아나스트로졸 및 엑세메스탄), 혈관신생 억제제(이를 테면, 베바시주맙), 폴리(ADP)-리보스 폴리머라제(PARP) 억제제(이를 테면, 올라파립, 루카파립 및 니라파립), 외부 빔(beam) 방사선 요법, 근접 요법, 방사성 인, 및 이들의 조합.
검출 민감성을 증가시키기 위한 다중-피분석물 테스트
일부 구체예들에서, 이수성 (가령, 염색체 서열의 분석 (가령, 분석될 반복되는 요소들의 예시적인 목록에 관하여 표 1 참고))을 검출하기 위하여 본원에서 제공된 방법은 암의 표지자로써 하나 또는 그 이상의 유전적 생물표지자를 이용한 암 검출과 비교하였을 때, 암 검출 민감성을 증가시킨다. 일부 구체예들에서, 이수성 (가령, 염색체 서열의 분석 (가령, 분석될 반복되는 요소들의 예시적인 목록에 관하여 표 1 참고))을 검출하기 위하여 본원에서 제공된 방법은 암의 표지자로써 하나 또는 그 이상의 단백질 생물표지자를 이용한 암 검출과 비교하였을 때, 암 검출 민감성을 증가시킨다.
일부 구체예들에서, 이수성 (가령, 염색체 서열의 분석 (가령, 분석될 반복되는 요소들의 예시적인 목록에 관하여 표 1 참고))을 검출하기 위하여 본원에서 제공된 방법은 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 존재를 탐지하기 위한 하나 또는 그 이상의 방법과 조합된다. 일부 구체예들에서, 유전적 생물표지자 검출과 이수성 검출 조합으로 암의 탐지 특이성 및/또는 민감성이 증가된다. 일부 구체예들에서, 이수성 (가령, 염색체 서열의 분석 (가령, 분석될 반복되는 요소들의 예시적인 목록에 관하여 표 1 참고))을 검출하기 위하여 본원에서 제공된 방법은 단백질 생물표지자 (가령, 펩티드)의 패널에서 하나 또는 그 이상의 구성원의 존재를 탐지하기 위한 하나 또는 그 이상의 방법과 조합된다. 일부 구체예들에서, 단백질 생물표지자 검출과 이수성 검출 조합으로 암의 탐지 특이성 및/또는 민감성이 증가된다. 일부 구체예들에서, 이수성 (가령, 염색체 서열의 분석 (가령, 분석될 반복되는 요소들의 예시적인 목록에 관하여 표 1 참고))을 검출하기 위하여 본원에서 제공된 방법은 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 존재를 탐지하는 방법 및/또는 단백질 생물표지자 (가령, 펩티드)의 패널에서 하나 또는 그 이상의 구성원의 존재를 탐지하기 위한 하나 또는 그 이상의 방법과 조합된다. 일부 구체예들에서, 유전적 및/또는 단백질 생물표지자 검출과 이수성 검출 조합으로 암의 탐지 특이성 및/또는 민감성이 증가된다.
일부 구체예들에서, 이수성을 검출하기 위해 본원에서 제공된 방법은 다음으로 구성된 군에서 선택된 하나 또는 그 이상의 유전자에서 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 존재를 탐지하기 위한 하나 또는 그 이상의 방법과 조합된다: NRAS, PTEN, FGFR2, KRAS, POLE, AKT1, TP53, RNF43, PPP2R1A, MAPK1, CTNNB1, PIK3CA, FBXW7, PIK3R1, APC, EGFR, BRAF. 일부 구체예들에서, 이수성을 검출하기 위해 본원에서 제공된 방법은 다음으로 구성된 군에서 선택된 하나 또는 그 이상의 유전자에서 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 존재를 탐지하기 위한 하나 또는 그 이상의 방법과 조합된다: PTEN, TP53, PIK3CA, PIK3R1, CTNNB1, KRAS, FGFR2, POLE, APC, FBXW7, RNF43, 그리고 PPP2R1A. 일부 구체예들에서, 본원에서 기술된 유전자들중 다음을 비롯한, 그러나 이에 국한되지 않는 하나 또는 그 이상의 임의의 유전자에서 유전적 생물표지자 (가령, 돌연변이)의 검출이 분석에 내포된다: CDKN2A, FGF2, GNAS, ABL1, EVI1, MYC, APC, IL2, TNFAIP3, ABL2, EWSR1, MYCL1, ARHGEF12, JAK2, TP53, AKT1, FEV, MYCN, ATM, MAP2K4, TSC1, AKT2, FGFR1, NCOA4, BCL11B, MDM4, TSC2, ATF1, FGFR1OP, NFKB2, BLM, MEN1, VHL, BCL11A, FGFR2, NRAS, BMPR1A, MLH1, WRN, BCL2, FUS, NTRK1, BRCA1, MSH2, WT1, BCL3, GOLGA5, NUP214, BRCA2, NF1, BCL6, GOPC, PAX8, CARS, NF2, BCR, HMGA1, PDGFB, CBFA2T3, NOTCH1, BRAF, HMGA2, PIK3CA, CDH1, NPM1, CARD11, HRAS, PIM1, CDH11, NR4A3, CBLB, IRF4, PLAG1, CDK6, NUP98, CBLC, JUN, PPARG, SMAD4, PALB2, CCND1, KIT, PTPN11, CEBPA, PML, CCND2, KRAS, RAF1, CHEK2, PTEN, CCND3, LCK, REL, CREB1, RB1, CDX2, LMO2, RET, CREBBP, RUNX1, CTNNB1, MAF, ROS1, CYLD, SDHB, DDB2, MAFB, SMO, DDX5, SDHD, DDIT3, MAML2, SS18, EXT1, SMARCA4, DDX6, MDM2, TCL1A, EXT2, SMARCB1, DEK, MET, TET2, FBXW7, SOCS1, EGFR, MITF, TFG, FH, STK11, ELK4, MLL, TLX1, FLT3, SUFU, ERBB2, MPL, TPR, FOXP1, SUZ12, ETV4, MYB, USP6, GPC3, SYK, ETV6, IDH1, 및/또는 TCF3. 일부 구체예들에서, 이수성의 검출과 하나 또는 그 이상의 유전적 생물표지자 (가령, 돌연변이)의 검출을 조합하면, 암 검출을 위한 특이성 및/또는 민감성이 증가된다.
일부 구체예들에서, 유전적 생물표지자 (가령, 하나 또는 그 이상의 유전적 생물표지자)의 검출에는 U.S. 특허 번호 7,700,286 (이의 전문이 본원의 참고자료에 편입됨)에 기술된 다양한 방법들중 임의의 것이 내포된다. 당분야에 공지된 메신져 RNA ("mRNA") 단리를 위한 다양한 방법들중 임의의 방법을 이용하여 샘플로부터 RNA를 단리시킬 수 있다 (가령, Qiagen RNeasy Kit). 당분야에 공지된 게놈 DNA ("gDNA") 단리를 위한 다양한 방법들중 임의의 방법을 이용하여 샘플로부터 gDNA를 단리시킬 수 있다 (가령, Qiagen DNeasy Kit). 일부 구체예들에서, 유전적 생물표지자의 검출에는 암 검출 분석이 내포된다. 일부 구체예들에서, 본원에서 기술된 임의의 유전적 생물표지자에 대해 샘플 안에 gDNA 및/또는 mRNA의 양이 측정된다. gDNA 및/또는 mRNA 양에서 변화는 암을 나타낼 수 있다. 예를 들면, gDNA를 측정할 때, 유전자 증폭 (가령, 염색체 서열 (가령, 유전자의 코딩 영역 또는 넌-코딩 DNA (가령, 측정될 수 있는 반복되는 요소들의 예시적인 목록에 관하여 표 1 참고)의 카피 수의 증가)은 암을 나타낼 수 있다. 예를 들면, mRNA를 측정할 때, RNA의 양의 증가 (가령, 유전적 생물표지자의 발현 증가)는 암을 나타낼 수 있다. 일부 경우들에서, DNA 및 RNA에서 변화와 관련될 수 있다.
일부 구체예들에서, 이수성을 검출하기 위해 본원에서 제공된 방법은 다음으로 구성된 군에서 선택된 하나 또는 그 이상의 단백질에서 하나 또는 그 이상의 단백질 생물표지자 (가령, 펩티드)의 존재를 탐지하기 위한 하나 또는 그 이상의 방법과 조합될 수 있다: 암 (가령, 난소 또는 자궁내막)의 존재를 결정하기 위해, AFP, CA19-9, CEA, HGF, OPN, CA-125, CA15-3, MPO, 프로락틴 (PRL) 및/또는 TIMP-1. 일부 구체예들에서, 단백질 생물표지자는 임의의 적절한 펩티드 생물표지자일 수 있다. 일부 구체예들에서, 펩티드 생물표지자는 암과 연합된 펩티드 생물표지자일 수 있다. 예를 들면, 펩티드 생물표지자는 암 (가령, 해당 펩티드의 참조 수준과 비교하였을 때)에서 수준이 상승된 펩티드일 수 있다.
특정 단백질 생물표지자의 역치 수준에 대한 예시적인, 그러나 이에 국한되지 않는 역치 수준에는 다음이 내포된다: CA19-9 (>92 U/ml), CEA (>7,507 pg/ml), CA125 (>577 U/ml), AFP (>21,321 pg/ml), 프로락틴 (>145,345 pg/ml), HGF (>899 pg/ml), OPN (>157,772 pg/ml), TIMP-1 (>176,989 pg/ml), 폴리스태틴 (>1,970 pg/ml), 그리고 CA15-3 (>98 U/ml). 일부 구체예들에서, 단백질 생물표지자의 역치 수준은 본원에서 기술된 예시적인 역치 수준보다 더 높을 수 있다 (가령, 약 10%, 약 20%, 약 30%, 약 40%, 약 50%, 약 60%, 약 70%, 약 80%, 약 90%, 약 100%, 또는 더 높음) 일부 구체예들에서, 단백질 생물표지자의 역치 수준은 본원에서 기술된 예시적인 역치 수준보다 더 낮을 수 있다 (가령, 약 10%, 약 20%, 약 30%, 약 40%, 약 50%, 또는 더 낮음).
일부 구체예들에서, CA19-9의 역치 수준은 적어도 약 92 U/mL일 수 있다 (가령, 약 92 U/mL). 일부 구체예들에서, CA19-9의 역치 수준은 92 U/mL일 수 있다. 일부 구체예들에서, CEA의 역치 수준은 적어도 약 7,507 pg/ml 일 수 있다(가령, 약 7,507 pg/ml). 일부 구체예들에서, CEA의 역치 수준은 7.5 ng/mL일 수 있다. 일부 구체예들에서, HGF의 역치 수준은 적어도 약 899 pg/ml일 수 있다 (가령, 약 899 pg/ml). 일부 구체예들에서, HGF의 역치 수준은 0.92 ng/mL일 수 있다. 일부 구체예들에서, OPN의 역치 수준은 적어도 약 157,772 pg/ml일 수 있다 (가령, 약 157,772 pg/ml). 일부 구체예들에서, OPN의 역치 수준은 158 ng/mL일 수 있다. 일부 구체예들에서, CA125의 역치 수준은 적어도 약 577 U/ml일 수 있다 (가령, 약 577 U/ml). 일부 구체예들에서, CA125의 역치 수준은 577 U/mL일 수 있다. 일부 구체예들에서, AFP의 역치 수준은 적어도 약 21,321 pg/ml일 수 있다 (가령, 약 21,321 pg/ml). 일부 구체예들에서, AFP의 역치 수준은 21,321 pg/ml일 수 있다. 일부 구체예들에서, 프로락틴의 역치 수준은 적어도 약 145,345 pg/ml일 수 있다 (가령, 약 145,345 pg/ml). 일부 구체예들에서, 프로락틴의 역치 수준은 145,345 pg/ml일 수 있다. 일부 구체예들에서, TIMP-1의 역치 수준은 적어도 약 176,989 pg/ml일 수 있다 (가령, 약 176,989 pg/ml). 일부 구체예들에서, TIMP-1의 역치 수준은 176,989 pg/ml일 수 있다. 일부 구체예들에서, 폴리스태틴의 역치 수준은 적어도 약 1,970 pg/ml일 수 있다 (가령, 약 1,970 pg/ml). 일부 구체예들에서, CA15-3의 역치 수준은 적어도 약 98 U/ml 일 수 있다(가령, 약 98 U/ml). 일부 구체예들에서, CA15-3의 역치 수준은 98 U/ml일 수 있다. 일부 구체예들에서, CA19-9, CEA, 및/또는 OPN의 역치 수준은 상기 열거된 역치 수준보다 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100% 또는 그 이상일 수 있다(가령, CA-19-9의 경우 92 U/mL 이상, CEA의 경우 7,507 pg/ml이상, HGF의 경우 899 pg/ml 이상, OPN의 경우 157,772 pg/ml 이상, CA125의 경우 577 U/ml 이상, AFP의 경우 21,321 pg/ml 이상, 프로락틴의 경우 145,345 pg/ml 이상, TIMP-1의 경우 176,989 pg/ml 이상, 폴리스태틴의 경우 1,970 pg/ml이상, 및/또는 CA15-3의 경우 98 U/ml이상).
일부 구체예들에서, 단백질 생물표지자의 역치 수준은 전형적으로 진단 또는 임상 목적용으로 테스트되는 수준보다 더 크다. 예를 들면, CA19-9의 역치 수준은 약 37 U/ml 이상이다 (가령, 약 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95U/mL 또는 그 이상). 추가적으로 또는 대안으로, CEA의 역치 수준은 약 2.5 ug/L 이상이다 (가령, 약 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5, 7.0, 7.5 ug/L 또는 그 이상). 추가적으로 또는 대안으로, CA125의 역치 수준은 약 35 U/mL이상이다(가령, 약 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550U/mL 또는 그 이상). 추가적으로 또는 대안으로, AFP의 역치 수준은 약 21 ng/mL이상이다 (가령, 약 25, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 300, 350, 400 ng/L 또는 그 이상). 추가적으로 또는 대안으로, TIMP-1의 역치 수준은 약 2300 ng/mL이상이다 (가령, 약 2,500, 3,000, 4,000, 5,000, 6,000, 7,000, 8,000, 9,000, 10,000, 15,000, 20,000, 25,000, 30,000, 35,000, 40,000ng/L 또는 그 이상). 추가적으로 또는 대안으로, 폴리스태틴의 역치 수준은 약 2 ug/mL 이상이다 (가령, 약 2.5, 3.0, 3.5, 4.0, 4.5, 5.0, 5.5, 6.0, 6.5, 7.0, 7.5ug/L 또는 그 이상). 추가적으로 또는 대안으로, CA15-3의 역치 수준은 약 30 U/mL 이상이다 (가령, 약 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95U/mL 또는 그 이상). 일부 구체예들에서, 종래의 진단 또는 임상적 분석동안 전형적으로 테스트된 것보다 더 높은 역치 수준의 하나 또는 그 이상의 단백질 생물표지자 검출은 암 검출의 민감성을 개선시킬 수 있다.
펩티드 생물표지자의 예로는 AFP, 앙지오포에틴-2, AXL, CA125, CA 15-3, CA19-9, CD44, CEA, CYFRA 21-1, DKK1, 앤도글린, FGF2, 폴리스태틴, 갈렉틴-3, G-CSF, GDF15, HE4, HGF, IL-6, IL-8, 칼리크레인-6, 렙틴, LRG-1, 메소텔린, 미드킨, 미엘로퍼옥시다제, NSE, OPG, OPN, PAR, 프로락틴, sEGFR, sFas, SHBG, sHER2/sEGFR2/sErbB2, sPECAM-1, TGFa, 트롬보스폰딘-2, TIMP-1, TIMP-2, 그리고 비트로렉틴이 내포되나, 이에 국한되지 않는다. 예를 들면, 펩티드 생물표지자에는 OPN, IL-6, CEA, CA125, HGF, 미엘로퍼옥시다제, CA19-9, 미드킨 및/또는 TIMP-1중 하나 또는 그 이상이 내포될 수 있다. 일부 구체예들에서, 이수성의 검출과 하나 또는 그 이상의 단백질 생물표지자 (가령, 펩티드)의 검출을 조합하면, 암 검출을 위한 특이성 및/또는 민감성이 증가된다.
일부 구체예들에서, 대상체 (가령, 인간 대상체)로부터 단리된 또는 획득된 혈액, 혈장, 혈청, 소변, 뇌척수액, 타액, 가래, 기관지-폐포 세척액, 담즙, 림프액, 낭포액, 대변, 복수 및 이들의 조합을 비롯한, 그러나 이에 국한되지 않은 임의의 다양한 생물학적 샘플에서 유전적 및/또는 단백질 생물표지자의 존재가 탐지될 수 있다. 당업계에 공지된 임의의 단백질 생물표지자는 건강한 인간 대상체가 속하는 정상 수준 이상이며, 암에 걸린 인간 대상체의 임계값이 여기에 속한다는 것이 탐지될 수 있다. 임의의 적절한 방법을 이용하여, 본원에서 기술된 바와 같이 하나 또는 그 이상의 단백질 생물표지자의 수준을 탐지할 수 있다. 일부 구체예들에서, 하나 또는 그 이상의 단백질 생물표지자의 수준은 사전-결정된 역치와 비교된다. 일부 구체예들에서, 상기 사전-결정된 역치는 일반적인 또는 전역(global) 역치이다. 일부 구체예들에서, 상기 사전-결정된 역치는 특정 단백질 생물표지자와 관련된 역치다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 참조 단백질 생물표지자의 절대량과 비교된다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 참조 단백질 생물표지자의 양과 관계된다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 상승된 수준이다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 사전-결정된 역치 이상이다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 사전-결정된 역치 범위 안에 있다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 사전-결정된 역치이거나, 또는 이에 근사치다. 일부 구체예들에서, 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 사전-결정된 역치 아래이다. 일부 구체예들에서, 생물학적 샘플에서 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 특정 역치보다 더 낮다. 일부 구체예들에서, 생물학적 샘플에서 상기 하나 또는 그 이상의 단백질 생물표지자의 수준은 사전-결정된 역치와 비교하였을 때, 하락된다.
일부 구체예들에서, 본원에 기술된 방법들 및 재료들을 이용하여 포유류의 게놈에서 하나 또는 그 이상의 다형태 (가령, 체세포 돌연변이)를 탐지할 수 있다. 예를 들면, 제 1 포유류 (가령, 테스트 포유류 또는 하나 또는 그 이상의 다형태를 품고 있는 것으로 의심되는 포유류)로부터 획득된 샘플에서 얻은 다수의 앰플리콘이 서열화될 수 있고, 제 2 포유류 (가령, 참조 포유류)로부터 획득된 샘플에서 얻은 다수의 앰플리콘이 서열화될 수 있고, 제 1 포유류에서 획득된 샘플의 변이체 시퀀싱 판독은 게놈 인터벌의 클러스터로 그룹화될 수 있고, 제 2 포유류에서 획득된 샘플의 참조 시퀀싱 판독은 게놈 인터벌의 클러스터로 그룹화될 수 있고, 양쪽 대립유전자 모두에서 변이체 시퀀싱 판독과 참조 시퀀싱 판독상의 합이 약 3 이상 (가령, 약 4 이상, 약 5 이상, 약 6 이상, 약 7 이상, 약 8 이상, 약 9 이상, 약 10 이상, 약 12 이상, 약 15 이상, 약 18 이상, 약 20 이상, 약 22 이상, 약 25 이상, 또는 약 30 이상) 인 염색체 가지(arm)이 선별될 수 있고, 선별된 염색체 가지(arm)의 변이체-대립유전자 빈도 (VAF)가 결정될 수 있고, 그리고 선별된 염색체 가지(arm) 상에 하나 또는 그 이상의 다형태의 존재 또는 부재가 확인될 수 있다. 선별된 염색체 가지의 VAF는 임의의 적절한 기술을 이용하여 결정될 수 있다. 예를 들면, 선별된 염색체 가지의 VAF는 변이체 시퀀싱 판독의 갯수 / 전체 시퀀싱 판독의 갯수가 될 수 있다. 상기 VAF가 약 0.2 내지 약 0.8 (가령, 약 0.3 내지 약 0.8, 약 0.4 내지 약 0.8, 약 0.5 내지 약 0.8, 약 0.6 내지 약 0.8, 약 0.2 내지 약 0.7, 약 0.2 내지 약 0.6, 약 0.2 내지 약 0.5, 또는 약 0.2 내지 약 0.4)일 때 포유류의 게놈에서 하나 또는 그 이상의 다형태의 존재가 확인될 수 있고, 그리고 상기 VAF가 사전-결정된 유의성 역치 범위 안에 있을 때, 포유류의 게놈에서 하나 또는 그 이상의 다형태의 부재가 확인될 수 있다. 예를 들면, 상기 VAF가 약 0.4 내지 0.6 사이일 경우, 해당 포유의 게놈에서 하나 또는 그 이상의 다형태가 식별될 수 있다.
일부 구체예들에서, 본원에 기술된 방법들 및 재료들을 이용하여 샘플 식별을 할 수 있다. 본원에서 기술된 방법에 의해 증폭된 반복되는 요소들에는 샘플 (가령, 혈장, 종양, 그리고 혈액)중에서 샘플 실제를 확립하거나, 또는 보인하는데 이용될 수 있는 동통적 다형태가 내포된다. 예를 들면, 각 다형성 위치의 유전자형을 식별하고, 샘플에 걸쳐 비교할 수 있다. 다형성 위치에서 샘플 간의 전반적인 유사성은 샘플 실체 결정에 사용할 수 있다.
일부 경우들에서, 본원에서 기술된 바와 같은 하나 또는 그 이상의 염색체 변칙 (가령, 적어도 일부분으로, 하나 또는 그 이상의 염색체 변칙의 존재, 이를 테면, 이수성을 기반으로, 그러나 이에 국한되지 않음)과 관련된 질환은 대조군 (가령, 질환이 없는 샘플)과 비교하였을 때, 돌연변이률의 증가와 또한 관련될 수 있다(가령, 증가된 돌연변이률은 질환의 병기와 연관될 수 있다). 이러한 경우들에서, 본원에서 기술된 재료 및 벙법을 이용하여 (a) 하나 또는 그 이상의 염색체 변칙 (가령, 이수성)의 존재를 확인하고, 그리고 (b) 대조군과 비교하였을 때, 해당 돌연변이률 (가령, 돌연변이 수)의 결정을 바탕으로 해당 질환의 병기를 확인할 수 있다.
본 발명은 하기 실시예에서 추가로 기술될 것이지만, 청구 범위에 기재된 본 발명의 범위를 제한하지 않는다.
실시예
실시예 1: 암 환자에서 이수성의 검출
본 실시예는 앰플리콘-기반의 이수성 검출의 신규한 적용을 기술한다. 염색체 가지(arms)에서 변화를 탐지하기 위해 관리감독 하에 기계 학습을 이용하는 샘플내-이수성-검출용으로 소위 WALDO라고 불리는 이 방법은 종래 방법과 비교하였을 때 이수성 검출 민감성을 개선시켰다. WALDO를 이용하여, DNA 샘플로부터 짧은 산재된 뉴클레오티드 요소들 (SINEs)의 앰플리콘을 분석하면 이수성 검출의 민감성이 증가됨을 본원에서 보여준다. 추가로, 평균 길이가 약 100bp인 ~1,000,000개의 SINE 앰플리콘은 검출 민감성을 또한 증가시키면서, 무-세포 DNA 투입에 대한 투입 요건을 감소시킨다.
재료 및 방법
프라이머
후보 프라이머 목록을 생성하기 위해, hg19의 RepeatMasker 트랙 내에서 가능한 모든 6-mer(4^6 = 4096)의 빈도를 산출했다. 다음으로, 6-mer의 업스트림 또는 다운스트림 75 bp 내에서 가능한 모든 4-mer(4^4 = 256)의 빈도를 산출했다. 6-mer를 4-mer와 결합하면 2,097,152개의 후보 쌍이 생성되었다. 이들 쌍은 PCR-매개된 증폭에서 예상되는 특유의 게놈 유전자좌의 수, 6-mer와 이에 상응하는 4-mer 간의 평균 크기, 단일 모드 분포를 목표로 하는 이러한 크기의 분포를 기반으로 추가 평가를 위해 선택되었다. 이 필터링 기준은 16개의 잠재적인 k-mer 쌍을 생성하여 3-단부에 이러한 k-mer 쌍들이 편입되도록 기획된 16개의 프라이머 쌍을 만들었다. k-mer는 서열 내에 포함된 길이 k의 하위서열을 지칭하는 것으로 당업계에서 이해된다.
총, 16개의 프라이머가 초기에 설계 및 테스트되었다(표 2). 하나의 프라이머 (서열 식별 번호: 1)는 일관되게 더 적은 수의 프라이머 이합체를 갖고, 코호트 테스트용으로 선택되었다. 프라이머 중 하나로 서열 식별 번호: 1을 갖는 프라이머 쌍은 745,184개의 앰플리콘을 특유하게 증폭시켰으며, 이 앰플리콘은 ~88bp의 평균 앰플리콘 크기를 가지고 있었다 (도 1A). 도 1A에 나타낸 앰플리콘 크기에는 45 bp의 프라이머가 내포된다. 예를 들면, 프라이머가 내포되지 않을 때, 해당 앰플리콘의 평균 크기는 ~43개 염기 쌍을 갖는다 (도 1B).
표 2.
Figure pct00012
시퀀싱 라이브러리 준비
서열 식별 번호: 1을 갖는 제 1 프라이머에는 5' 단부에서 3' 단부 방향으로, 범용 프라이머 서열 (UPS), 특유의 식별자 DNA 서열 (UID), 그리고 증폭 서열이 내포된다. 중합효소 연쇄 반응 (PCR)은 7.25 uL의 물, 0.125 uL의 각 프라이머, 12.5 uL 의 NEBNext Ultra II Q5 Master Mix (New England Biolabs cat # M0544S), 그리고 5 uL의 DNA를 함유하는 25uL 반응물에서 실행되었다. 사이클링 조건은 다음과 같다: 98℃에서 120 s을 한 사이클, 그 다음 98℃에서 10 s, 57℃에서 120 s, 그리고 72℃에서 120 s의 사이클을 15 사이클. 혈장을 이용한 실험의 경우, 5 uL안에 DNA 양은 0.14 ng이었다. 그 다음 제 2 라운드 PCR은 시퀀싱 전 각 PCR에 듀얼 인덱스(바코드)를 추가하기 위해 실행되었다. 제 2 라운드 PCR에 이용된 전방 프라이머와 역 프라이머는 표 2에 열거되어 있다. 최초 증폭 프라이머는 제거되지 않았고, 제 1 반응으로부터 증폭 산물은 1:20으로 희석되었다. 희석액은 첫 번째 라운드 프라이머에 의해 도입된 UPS 사이트에 어닐링되고, Illumina 플로우 셀로 혼성화시키는 데 필요한 5' 그래프팅 서열을 추가적으로 함유하는 프라이머를 사용하여 두 번째 증폭 라운드에 직접 사용되었다.
FIndex(가령, 샘플 분별용으로 사용되는 서열)를 두 번째 역방향 프라이머를 사용하여 각 샘플에 도입하여 추후 다중화된 시퀀싱을 허용했다. 제 2 라운드 PCR은 7.25 uL의 물, 0.125 uL의 각 프라이머, 12.5 uL 의 NEBNext Ultra II Q5 Master Mix (New England Biolabs cat # M0544S), 그리고 제 1 라운드의 PCR 산물의 5%를 함유하는 5 uL의 DNA를 함유하는 25uL 반응물에서 실행되었다. 사이클링 조건은 다음과 같다: 98℃에서 120 s을 한 사이클, 그 다음 98℃에서 10 s, 65℃에서 15 s, 그리고 72℃에서 120 s의 사이클을 15 사이클. 증폭 산물을 아가로스 겔에서 실행하여, 증폭을 확인했다. 증폭 산물을 1.2X에서 AMPure XP 비드로 정제하였고, 분광광도법, 실시간 PCR, Agilent 2100 Bioanalyzer 또는 Aiglent TapeStation을 사용한 자동 전기영동으로 정량화했다. 모든 올리고뉴클레오티드는 Integrated DNA Technologies(Coralville, Iowa)에서 구입했다.
시퀀싱 및 시퀀싱 분석
Bowtie2는 7개의 프라이머 쌍 각각으로 생성된 앰플리콘의 판독 값을 인간의 참조 게놈 어셈블리 GRC37에 정렬하는 데 사용되었다(Langmead et al. 2012). 프라이머 쌍 1(서열 식별 번호: 1을 갖는 프라이머 및 서열 식별 번호: 10을 갖는 프라이머)을 사용하면, 총 판독값의 평균 51.1%가 특유하게 정렬시킬 수 있었고, 평균 앰플리콘 크기는 88bp였다 (도 1A). 도 1A에 나타낸 앰플리콘 크기에는 45 bp의 프라이머가 내포된다. 예를 들면, 프라이머가 내포되지 않을 때, 해당 앰플리콘의 평균 크기는 ~43개 염기 쌍을 갖는다 (도 1B). 프라이머 쌍 1은 이론적으로 특유하게 정렬될 수 있는 최대 745,184개의 반복 요소를 증폭시킬 수 있었지만, 평균적으로 샘플은 평균 350,000개의 반복 요소를 함유하였다 (도 1C 참조). 이론에 얽매이지 않고, 혈장 샘플에서 잠재적인 수와 실제 관찰된 앰플리콘 수 사이의 불일치에 대한 몇 가지 가능한 이유가 있었다. (1) 서열 내의 다형성으로 인해 정렬 오류가 발생하여 "앰플리콘 누락"이 발생할 수 있다. (2) 프라이머 내의 다형성이 증폭되지 않았을 수 있다. (3) 각 앰플리콘은 PCR 동안 경쟁이 치열한 저효율 앰플리콘으로 상이한 PCR 효율을 가졌을 수 있다. (4) 더 작은 DNA 단편은 우선적으로 증폭되었을 수 있고, 긴 앰플리콘 (>100bp)은 증폭되지 않았을 수 있다. (5) 무세포 DNA에 있는 작은 크기의 DNA 단편으로 인해, 긴 앰플리콘은 무-세포 DNA에 없을 수 있다. (6) 이러한 샘플에 사용된 시퀀싱의 양은 모든 앰플리콘, 특히 PCR 효율이 낮은 앰플리콘을 관찰할 만큼 충분히 높지 않았을 수 있다. (7) 마지막으로, 일부 반복 요소는 모든 개체에 존재하지 않았을 수 있다. 서열 식별 번호: 1 및 서열 식별 번호: 10의 프라이머 쌍에 의해 생성된 앰플리콘 안에서, 52,762개의 다형태가 확인되었다. 1348개의 정상 혈장과 883개의 암 환자 개체의 혈장으로 구성된 테스트 코호트에서 이형접합성 부위의 평균 수는 2,200개 이었다. 이들 부위는 대립유전자 불균형을 측정하고, 샘플을 유전적으로 식별해내고, 샘플이 실수로 함께 혼합되었는지 여부를 결정하는 데 사용할 수 있다. 동일한 SNPs를 사용하여, 합성 실험을 사용하여 샘플 1 DNA의 양이 주어진 혼합물에서 샘플 2 DNA 양의 >4%일 때 샘플 혼합이 탐지될 수 있다고 추정했다.
통계학적 분석
판독-심도-기반 분석 방법은 전체 게놈 시퀀싱(WGS) 프로토콜에 널리 적용되었다. 판독이 균일하고, 독립적으로 분포되어 있다는 가정 하에 정상적인 카피 수의 영역은 Poisson 또는 정상 분포를 따를 것으로 예상된다 (Zhao et al 2013 및 Pirooznia et al 2015). 앰플리콘-기반의 프로토콜은 상대적으로 저렴한 비용으로 높은 적용 범위를 달성하고, WGS에 대한 매력적인 대안이지만, 그러나 위에서 설명한 분석 결과와 같은 앰플리콘 시퀀싱의 정렬된 판독은 WGS 및 WES로 인한 결과들과는 상이한 속성을 갖는다. 이들 판독은 비교적 적은 수의 개별 유전자좌로 한정되며, 이들은 불연속적이다. 또한, 읽기가 무작위로 분포되지 않기 때문에, 이로 인하여 WGS 및 WES용으로 설계된 판독 심도 적용 범위의 통계 모델을 사용하기 어렵다. 샘플-내 이수성 검출 (WALDO)은 앰플리콘-기반의 이수성 검출을 위하여 특별히 기획된 알고리즘이다 (가령, Douville et al. PNAS 201 115(8):1871-1876 참고). WALDO는 위에서 설명한 게놈 유전자좌(가령, SINE)에 매핑된 시퀀싱 판독에 적용되었다. 게놈-전체 이수성 점수는 샘플에 이수성 존재 여부의 식별에 사용되었다.
WALDO의 기본 통계 원칙
카피 수 변화를 평가하기 위한 대부분의 기존 접근 방식과 달리, WALDO는 테스트 샘플의 각 염색체 가지(arm)의 정규화된 판독 수를 다른 샘플의 각 염색체 가지(arm)의 판독 비율과 비교하지 않는다. 이러한 기존의 비교는 배치(batch) 효과 및 통제가 어려운 변수와 관련된 기타 인공산물의 영향을 받는다. 전체 게놈 시퀀싱 데이터를 평가하기 위해, 각각 500-kb 서열을 포함하는 5344개의 게놈 간격 내에서 판독 수를 비교하여 이수성을 검출했다. 샘플 내 500-kb 게놈 인터벌의 판독 수는 동일한 샘플 내, 즉 WALDO에서 "샘플-내" 지정된 샘플 안에서 다른 게놈 인터벌의 판독 수와만 비교되었다. 기존에 설명된 WALDO 프로토콜은 이 실시예에서 맞춤화되어 몇 가지 분석적 변경이 있었다 (도 2 참조). 해당 변형에는 아래에 설명된 바와 같이, 새로운 정규화 단계, 미확실정 길이의 작은 카피 수의 변경을 호출하는 새로운 방법, 게놈 전체 이수성을 감지하는 개선된 방법이 내포되었다. 서열 식별 번호:1 및 서열 식별 번호: 10의 프라이머 쌍으로 달성된 앰플리콘의 증가된 게놈 밀도와 결부된 이러한 분석적 개선은 1Mb 미만 크기의 국소 증폭 및 결실의 검출 뿐만 아니라, 더 큰 민감도를 가능하게 했다.
정배수체 샘플에서, 각 500-kb 게놈 인터벌 내의 판독 수는 특정 다른 게놈 영역의 판독 수와 함께 추적되어야 한다. 함께 추적되는 게놈 인터벌은 그 안에 있는 앰플리콘이 비슷한 수준으로 증폭하기 때문에 그렇게 한다. 여기에서, 함께 추적하는 이러한 게놈 영역을 "클러스터(clusters)"라고 한다. 정배수체 샘플 상의 시퀀싱 데이터에서 클러스터를 식별할 수 있다. 테스트 샘플에서, 사전-정의된 각 클러스터의 각 게놈 인터벌에 있는 판독 수가 동일한 샘플의 다른 클러스터의 예상 범위 내에 있는 지 여부가 결정된다. 게놈 인터벌 내의 판독 값이 통계적으로 예상되는 범위를 벗어나고, 동일한 염색체 가지(arm)에 이러한 아웃사이더(outsider)가 많이 있는 경우, 해당 염색체 가지(arm)는 이수성으로 분류된다. 이 테스트의 통계적 근거는 도처에 설명되어 있다 (가령, Douville et al. PNAS 201 115(8):1871-1876). 간단히 말해서, 판독 수는 게놈 전체에 무작위로 분포되지 않지만, 각 클러스터 내에서 규모의 판독 분포는 대략 정상(Normal)이다. 정상 분포의 통상적 속성은 다중의 정상(Normal) 분포의 합도 정상(Normal) 분포라는 것이다. 따라서, 단순히 해당 염색체 가지(arm)에 표시된 모든 클러스터의 평균과 분산을 합산하여, 각 염색체 가지(arm)서 합산된 판독 값의 이론적 평균과 분산을 산출해내는 것이 가능하다.
WALDO는 임상 샘플에서 PCR-생성된 앰플리콘의 분석에 적용할 수 있도록 하는 몇 가지 다른 혁신을 또한 사용한다. 이러한 혁신 중 하나는 초기 주형 크기에 대한 데이터 의존도가 높기 때문에 증폭 편향을 제어하는 것이다. 또다른 것은 낮은 신생물 분획을 함유하는 샘플에서 이수성 탐지가 가능하도록 하는 기계 학습 알고리즘 (가령, Support Vector Machine (SVM))을 사용하는 것이다.
정규화
이 실시예에 설명된 개선된 WALDO 방법에는 샘플 간의 변동성을 감소시킨 새로운 정규화 방법이 내포된다. 이러한 정규화에서, 주성분 분석(PCA)은 먼저 대조군의 데이터 시퀀싱에 대해 수행되었다. PCA을 이용하여 500kb 게놈 인터벌의 수를 n=5,344에서 보다 관리하기 쉬운 크기의 수로 감소시켰다. 대조군의 PCA 좌표를 사용하여, 특정 500kb의 인터벌이 PCA 좌표를 기반으로 향후 샘플에서 다소 효율적으로 증폭되는지 여부를 예측하는 모델을 만들었다.
Figure pct00013
각 테스트 샘플에 있어서, 샘플을 PCA 공간에 투영하였고, PCA 좌표의 함수로써 각 500kb의 인터벌에 대해 보정 계수를 산출하였다. 각각의 500kb 게놈 인터벌에 보정 계수를 적용한 후, 테스트 샘플은 500kb 인터벌의 가장 가까운 Euclidean 거리에 기초하여 7개의 대조군 샘플에 매칭시켰다.
합성 이수성 샘플의 생성.
데이터는 각각 최소 1천만 개의 판독 값을 함유하고, 각각 정상 WBCs의 DNA에서 파생된 것으로 추정되는 84개의 정배수체 혈장 샘플에서 선택되었다. 몇 가지 염색체 가지(arms)의 판독을 이들 정상 DNA 샘플의 판독에 추가함으로써(또는 차감시킴으로써) 합성 이수성 샘플이 창출되었다. 1개, 10개, 15개, 또는 20개 염색체 가지(arms)로부터 판독이 각 샘플에 추가되었거나, 또는 차감되었다. 추가 및 차감은 0.5%에서 1.5% 범위의 신생물 세포 분획을 나타내도록 설계되었으며, 결과적으로 정확히 천만 판독을 포함하는 합성 샘플이 생성되었다. 각 염색체의 판독이 균일하게 추가되었거나, 또는 차감되었다. 예를 들어, 손실된 5개의 염색체 가지(arm)을 모델링할 때, 각각은 동일한 정도로 손실되었으며, 종양 이질성을 모델에 통합하지 않았다. 더욱이, 3개 이상의 염색체 팔을 포함하는 합성 샘플은 생성되지 않았았고, 예를 들어, 염색체 3p의 4개 카피. 이 단순화된 접근 방식은 생물학적으로 타당한 모든 이수성 사건을 포괄적으로 다루지 않았다. 그러나, 변형된 가지(arm)의 가능한 조합을 제한하면 샘플 생성을 계산적으로 다루기 쉽게 만들었고, 결과적으로 지원 벡터 머신이 실제로 잘 작동했다. 관심대상의 단일 염색체 가지(arm)만 얻거나 또는 상실하는 경우, 단일 염색체 가지(arm)에서만 판독값을 추가하거나 또는 차감하여 합성적으로 생성된 샘플을 통해 우리는 WALDO의 성능을 추정할 수 있다. 합성 샘플을 만들기 위한 의사코드 (pseudocode)는 도 5에 나타낸다.
게놈 전체(wide) 이수성의 결정
2-클래스 서포트 벡터 기계 (SVM)는 정배수성 샘플과 이수성 샘플을 분별하도록 훈련되었다. 훈련 세트에는 적어도 250만 판독과 635개의 이수성 샘플을 함유하는 정상 개체의 1348개 아마도 정배수체 혈장 샘플의 음성 클래스가 함유되었다. 이 이수성 클래스는 합성 및 실제 이수성 샘플 혼합물을 함유하였다. SVM 훈련은 방사형 기반 커널과 기본(default) 매개변수를 사용하여 R에서 e1071 패키지로 수행되었다. 각 샘플에는 염색체 가지(arm)의 획득 및 상실을 나타내는, 39개의 Z-점수 속성을 가지고 있었다. 훈련 동안, 양성 클래스는 음성 클래스의 10% 크기가 되도록 양성 클래스를 무작위로 샘플링했다. 양성 클래스는 2개의 실제 샘플과 1개의 합성 샘플의 비율로 무작위로 샘플링되었다. 이 절차를 10회 반복했다. 최종 게놈 전체 이수성 점수는 10회 반복에 걸친 미가공(raw) svm 점수의 평균이었다.
결과
이 분석의 성능은 암 환자의 1348개 정배수성 혈장 샘플과 883개 혈장 샘플의 코호트에서 평가되었다 (표 3). 암 환자의 샘플에는 유방암, 결장직장암, 식도암, 간암, 폐암, 난소암, 췌장암, 및 위암이 내포되어 있었다 (도 3). 그 컷오프를 사용하여, 1348개의 정배수성 샘플의 코호트에서 정의된 99% 특이성을 얻었으며, 암 샘플의 49% 혈장에 이수성이 있는 것으로 나타났다.
샘플 배제기준
문서 결과 섹션에 내포된 모든 샘플이 고품질임을 보장하기 위해, 몇 가지 배제 기준을 만들었다. 우선, 250만개 미만의 판독 값을 가진 샘플은 배제되었다. 둘째, 오염의 충분한 증거가 있는 샘플은 배제되었다. 오염된 것으로 표시하기 위해, 샘플은 적어도 10개의 유의미한 대립형질 불균형 염색체 가지(arm) (z 점수 >= 2.5)가 있어야 하고, 10개 미만의 유의미한 염색체 가지(arm)의 획득 또는 손실을 보유해야 하였다(z >= 2.5 또는 z<= -2.5) 대립 유전자 불균형은 SNPs에서 결정되며, 획득 또는 손실은 WALDO를 통해 평가되었다. 혼합 실험을 통해 결정된 바와 같이, 다수의 이득 또는 손실이 없이, 상대적으로 다수의 대립형질 불균형 염색체 가지(arm)들은 샘플이 또다른 개체의 DNA로 오염되었음을 나타낸다. 셋째, 혈장 분석에서 앰플리콘의 8.5% 이상이 94bps(정방향 및 역방향 프라이머 사이의 50개 염기쌍)보다 큰 샘플은 배제되었다. 이러한 샘플은 백혈구 DNA로 오염되었을 가능성이 있었다. 넷째, 아래 식에 의해 정의된 바와 같이, 해당 분석의 동적 범위를 벗어난 샘플은 배제되었다.
Figure pct00014
이 측정항목의 분포에는 긴 꼬리가 있다. >0.2450 및 0.2320의 값은 컷오프를 평가할 수 있는 동적 범위로 선택되었다. 다섯째, 동일한 환자의 백혈구에서 이수성을 갖는 것으로 알려진 혈장 샘플; 이러한 환자는 클론성 조혈증 (CHIP) 또는 선천적 장애가 있는 것으로 추정되었다.
다중-피분석물 테스트를 이용한 암 검출
체세포 돌연변이 및 단백질 마커를 사용하는 원래 로지스틱 회귀 모델에 대해 이수성 및 단백질 마커가 있는 로지스틱 회귀 모델의 예측 능력, 뿐만 아니라 이수성이 추가 표지자로 게시된 프레임워크에 통합될 수 있는지 여부를 비교했다.
여기에서, 건강한 사람의 혈장 샘플 1348개와 암 환자의 883개 샘플을 분석했다. 1348개의 건강한 샘플 중 248개만이 원래 연구와 겹쳤다. 883개의 모든 암 샘플이 원래 연구에 내포되었다. 샘플 인구 통계 정보는 표 3에 제공되었다.
원래의 812개의 건강한 샘플(Cohen et al.)과 883개의 암 샘플을 사용하여, 로지스틱 회귀 모델을 학습한 다음 10번의 10배 교차 검증을 사용하여 성능을 평가했다. 샘플 및 해당 생물표지자 값의 전체 목록이 표 3에 제공되었다. 원래의 건강한 샘플 중 564개는 이수성에 대해 분석되지 않았기 때문에, 1348개의 정상 샘플에서 점수 목록을 무작위로 샘플링하고, 누락된 각 샘플에 이수성 값을 할당했다. 10회의 분석이 수행되었고, 각각의 새로운 라운드에서 1348개의 정상 점수 수집이 다시 무작위로 샘플링되어, 564개의 샘플에 새로운 점수를 할당했다.
다양한 실험에서 감지 하한의 변화를 설명하기 위해, 90번째 백분위수 특성 값이 정상적인 훈련 샘플에 사용되었다. 이 임계값 미만의 모든 기능 값 및 모든 값을 90번째 백분위수 임계값으로 설정한다. 이 변환은 모든 훈련 및 테스트 샘플에 대해 수행되었다. 이 절차는 이수성 점수, 체세포 돌연변이 점수 및 단백질 농도에 대해 수행되었다. 로지스틱 회귀 모델의 90번째 백분위수 임계값과 최종 특성 계수는 표 4에 열거하였다.
표 4. 로지스틱 회귀 계수 및 임계값
Figure pct00015
다른 암 생물표지자를 이용한 이수성 민감성 검출 비교
이수성 결과는 최근 암 진단을 위한 핵심 바이오마커로 발표된 7가지 단백질 마커(AFP, CA-125, CA15-3, CA19-9, CEA, HGF, OPN, TIMP1)의 드라이버 유전자 돌연변이 패널 및 컬렉션에 대해 벤치마킹되었다 (도 4) (Cohen et. al 2018, Science 359(6378): 926-930). 이수성은 모든 단백질 표지자를 능가했다. 이수성은 또한 돌연변이에 의해 놓친 샘플의 42%, 돌연변이 패널 및 단백질에 의해 놓친 샘플의 34%를 검출할 수 있었다. 이 이수성 분석의 높은 특이성과 각각의 추가 암 생물표지자의 유용성으로 인해, 이러한 구성요소는 암 검출을 위한 다중 분석물 테스트로 결합될 수 있음을 이해할 것이다.
실시예 2: 삼염색체성 21개 샘플로부터 저-투입 DNA를 이용한 이수성 검출
DNA의 단 몇 피코그램(pg)에서 이수성을 안정적으로 검출하는 것은 법의학 응용, 뿐만 아니라 착상 전 진단에 필수적이다. 착상-전 진단에서, 배반포에서 채취한 몇 개의 세포를 사용하여 카피 수 변동을 평가한다. 예를 들면, 착상-전 진단에는 다운 증후군과 관련된 이수성을 갖는 포유동물 식별이 내포된다. 본 명세서에 특징된 방법에서 입력 DNA에 대한 검출 한계를 시험하기 위해, 삼염색체성 21과 관련된 이수성을 갖는 샘플을 3-225 pg 범위의 입력 DNA 농도에서 분석하였다. DNA에 대한 판독의 상관관계는 음성 대조군(DNA가 없는 웰)과 정배수체 대조군의 알려진 농도를 기반으로 했다 (도 6). 삼염색체성 21 이수성은 테스트된 모든 샘플에서, 심지어 이배체 세포의 절반을 나타내는 3pg의 입력 DNA가 있는 샘플에서도 검출되었다. 21번 염색체 이외의 염색체 가지(arm)는 21번 삼염색체성 샘플에서 이수체로 발견되지 않았다. 이 실험에 사용된 정배수성 대조군에서는 염색체 21을 비롯한, 염색체 가지(arms)이 이수성을 갖는 것으로 확인된 것은 없었다.
실시예 3: 바이오뱅크 샘플로부터 저-투입 DNA를 이용한 이수성 검출
이수성을 갖는지, 또는 식별 목적으로 바이오뱅크의 샘플을 저-투입 DNA로 평가했다. 본원에 설명된 방법은 10년의 가능한 긴 동안 PCR 플레이트에 보관되었던, 793개의 혈장 DNA 샘플에 적용되었다. PCR 플레이트의 각 웰에 대해 모든 DNA 용적을 다른 실험에 사용하였다. 5 마이크로리터의 물을 건조된 (비어있는,) 웰에 첨가한 다음, 본 명세서에 기술된 바와 같은 방법에 적용하였다. 728개의 샘플에서, 250만 개 이상의 정렬된 판독이 시퀀싱되었으며, 이는 이수성을 안정적으로 평가하기에 충분한 갯수다. 이 샘플 중 768개에서 100만 개 이상의 정렬된 판독이 시퀀싱되었으며, 이는 동일한 공여자의 다른 샘플에 대한 혈장 DNA의 동일성을 확인하기에 충분한 갯수다.
실시예 4: 혈장 샘플에서 백혈구 DNA 오염 탐지
혈장 cfDNA는 종종 정맥 절개술이나 또는 혈장 준비를 통해 백혈구에서 누출된 DNA로 오염된다. 이 오염된 백혈구 DNA는 백혈구가 태아 세포 (NIPT의 경우) 또는 암세포 (액체 생검의 경우)에서 유래하지 않기 때문에, 혈장 샘플에서 이수성 검사의 민감도를 감소시킬 수 있다. 백혈구 게놈 DNA(gDNA)의 평균 단편 크기는 >1000bp인 반면, 무-세포 혈장 DNA의 평균 크기는 <160bp이다. PCR 반응 동안 작은 단편이 더 효율적으로 증폭된다는 점을 감안할 때, 더 짧은 cfDNA가 우선적으로 증폭되기 때문에 오염된 백혈구 gDNA의 검출은 어렵다. 본원에 기술된 방법을 적용하면, 서열 식별 번호: 1 및 서열 식별 번호: 10의 프라이머에 의해 생성된 앰플리콘 덕분에 오염된 백혈구 gDNA의 검출이 가능하게 되었다. 이들 방법을 이용하여, 전형적으로 gDNA에 존재하지만, cfDNA에는 존재하지 않는 1241개 앰플리콘이 확인되었다. 따라서, 이들 앰플리콘의 시퀀싱 판독으로 혈장 샘플에서 백혈구 오염이 표시된다. 백혈구 DNA를 무-세포 혈장 DNA와 혼합하고, 본원에 설명된 방법을 사용하여 표 5에 나타낸 바와 같이, >4%의 백혈구 DNA를 함유하는 샘플을 검출할 수 있었다.
표 5. 혈장에서 gDNA 오염의 예측.
Figure pct00016
실시예 5: 미확정(indeterminate) 길이의 카피 수 분석
미확정 길이의 카피 수 변이체를 탐지하였다. 먼저, 각 염색체 가지(arm)에 걸쳐 매 500kb 인터벌마다 관찰된 테스트 샘플과 WALDO 예측 값의 로그 비율을 산출했다. 로그 비율을 사용하여, 원형 이진 세그먼트화 알고리즘(circular binary segmentation algorithm)을 적용하여 각 염색체 가지(arm) 전체에 걸쳐 카피 수 변이체를 찾았다. 크기가 ≤ 5Mb 인 카피 수 변이체를 플래그표시하였다. 각 염색체 가지(arm)에 대한 통계적 유의성을 계산하기 전, 이러한 플래그가 표시된 CNV들을 제거했다. 일반적으로, 작은 CNV들은 디조지 증후군 (염색체 22q11.2 또는 유방암 (염색체 17q12)에서 발생하는 것과 같은 마이크로-결실 또는 마이크로-증폭을 평가하는 데 사용할 수 있다.
실시예 6: 다중-피분석물 테스트를 통한 암 검출 민감성
본 실시예는 상이한 다중-피분석물 테스트를 이용한 암 검풀 민감성을 기술한다.
환자의 혈장 샘플에서 유방암, 난소암, 간암, 폐암, 췌장암, 식도암, 위암, 결장직장암 등 8개 암을 감지하는 민감성을 평가하기 위해 3가지 다중-피분석물 테스트가 사용되었다. 상기 세 가지 테스트는 다음과 같다: (1) 이수성 상태, 체세포 돌연변이 분석과 단백질 생물표지자 평가를 이용한 3-성분 테스트; (2) 이수성 상태와 체세포 돌연변이 분석을 이용한 2-성분 테스트; 그리고 (3) 이수성 상태와 단백질 생물표지자 평가를 이용한 2-성분 테스트. 테스트된 8개의 단백질 생물표지자와 테스트한 체세포 돌연변이는 Cohen et al., Science 359, pp. 926-930에 기술된다(이의 전문이 본원의 참고자료에 편입된다).
7A-7B에서 나타낸 바와 같이, 난소, 간, 폐, 췌장, 식도, 위, 결장직장암에 대한 3-성분 다중분석법의 검출 민감성 중앙값은 80%였고, 검출 민감성 범위는 77%~97%였다. 3-성분 다중-피분석물 테스트를 이용한 유방암 검출 민감성은 38%이었다. 상기 민감성은 99% 특이성에서 역치를 이용하여 산출되었다.
8은 다음 테스트를 이용하여 암 검출의 진-양성 분획(민감성 척도)을 더 설명한다: (1) 이수성 상태; 체세포 돌연변이; 그리고 단백질 생물표지자; (2) 이수성 상태와 단백질 생물표지자; (3) 체세포 돌연변이와 단백질 생물표지자; (4) 이수성 상태와 체세포 돌연변이; (5) 이수성 상태; 그리고 (6) 체세포 돌연변이. 상기 검출 특이성은 99%에서 유지되었다.
도 8에 나타낸 것과 같이, 3-성분 다중-피분석물 테스트 (이수성 상태, 체세포 돌연변이 분석 및 단백질 생물표지자 평가)는 민감성 73%, 특이성 99%로 암을 검출하였다. 진-양성 분획 (민감성의 척도)는 다른 테스트와 비교하였을 때, 3-성분 다중-피분석물 테스트에서 가장 높았다.
도 9에 나타낸 바와 같이, 다중-피분석물 테스트 (이수성 상태와 단백질 생물표지자 평가)는 암 병기 기반 샘플에서 찾을 때, 이수성 단독보다 더 큰 민감성으로 암을 검출하였다.
따라서, 본 실시예에서 개시된 데이터에서 이수성 상태, 체세포 돌연변이 분석 및 단백질 생물표지자 평가의 3-성분 다중-피분석물 테스트는 암 검출의 높은 특이성을 유지하면서, 암을 탐지하는 민감성을 증가시킬 수 있다.
실시예 7: 체세포/생식세포계열 상태의 결정
본원에서 기술된 재료 및 방법을 이용하여 샘플 (가령, 종양 샘플 또는 비-종양 샘플 (가령, 정상 샘플))로부터 증폭된 반복되는 요소들의 서열 안에 체세포 돌연변이를 확인할 수 있다. 예를 들면, 동일한 환자로부터 두 개 샘플 (비-종양 샘플과 종양 샘플)은 사용하는 경우, 한 개 샘플에는 있지만, 다른 샘플에는 없는 돌연변이를 식별해낼 수 있다. 각 샘플에서, 체세포 돌연변이 수를 카운트할 수 있고, 단일 염기 치환 (SBS) (가령, A->T, A->C, 등등)의 스펙트럼이 결정된다. 샘플이 엑솜 시퀀싱에 의해 또한 분석될 때, 여기에서 증폭된 반복 요소의 SBS의 수와 엑솜의 SBS의 수 사이의 상관관계가 결정될 수 있다. 따라서, 본원에서 기술된 바와 같은 재료 및 방법을 이용하여 샘플 안에 체세포 돌연변이를 확인할 수 있다.
실시예 8: 샘플 식별
여기에 설명된 재료 및 방법은 샘플을 식별 및/또는 구별하는 데 사용할 수 있다 (가령, 한 대상체의 샘플과 두 번째 대상체의 샘플을 분별). 이러한 경우, 샘플은 본원에 설명된 재료 및 방법에 의해 증폭된 반복 요소에 존재하는 공통적 다형태를 기반으로 식별된다. 그런 다음, 샘플 간의 공통적 다형태에서 서열을 비교하여 한 샘플이 다른 샘플과 분별된다. 각 앰플리콘에 대한 각 다형태의 유전자형을 결정하면, 해당 샘플에 유전자형이 할당된다. 유전자형은 샘플을 분별해내기 위해, 샘플 전체에서 비교될 수 있다 (가령, 종양 샘플을 비-종양 샘플과 분별해내거나, 또는 한 대상체의 샘플을 다른 대상체의 샘플과 분별). 일치도 (가령, 유전자형 간의 유사성 백분율)가 < 0.99 이고, 적어도 5,000개 앰플리콘이 적절한 범위를 포함하는 경우, 샘플은 상이한 샘플로부터 유래된 것으로 간주될 수 있다.
실시예 9: 상이한 병기 및 상이한 유형의 암에서 이수성 검출
다양한 병기 및 다양한 유형의 암에서 이수성의 검출을 평가하기 위해 일련의 실험이 수행되었다. 이들 실험에서, 유방암, 결장직장암, 식도암, 간암, 폐암, 난소암, 췌장암 및 위암의 상이한 병기를 갖는 대상체로부터의 혈장을 본원에 기재된 방법에 따라 단리하였다. 도 10에서는 I 기 (n=109), II 기 (n=276), 그리고 III기 (173)에 대한 이수성 (99% 특이성에서)을 나타낸다. 도 11은 암 병기(도 10)보다는 암 유형(도 11)에 의해 나타낼 때, 동일한 암에 대한 이수성 (99% 특이성에서)을 나타낸다.
Real Seq 방법을 사용하여, 이수성은 암 환자의 혈장 샘플에서 돌연변이보다 더 공통적으로 탐지되었다. 이수성은 암 환자의 혈장 샘플에서 돌연변이보다 더 공통적으로 검출되었다 (883개 샘플에서 차례로 49% 및 34%; P < 10-20, 단측 이항(binomial) 테스트, 도 19A). 조직 유형과 관련하여, 이수성은 식도, 결장직장, 췌장, 폐, 위 및 유방의 암이 있는 환자의 샘플에서 돌연변이보다 더 공통 적으로 검출되었으며 (모든 P-값 <0.01), 난소(P= 0.048), 간암에서도 똑같이 공통적으로 발생되었다 (도 19A). 병기와 관련하여, 모든 병기, 구체적으로 I기 및 II기에서 돌연변이보다 이수성이 더 공통적으로 검출되었다 (도19B, P-값 <10-9).
실시예 10: 이수성 및 단백질 생물표지자를 이용하여 샘플에서 암 검출
본 명세서에 기재된 바와 같이, 이수성 검출과 단백질 생물표지자 검출을 조합할 때, 암 검출의 민감성을 평가하기 위해 일련의 실험을 수행하였다. 이들 실험에서, 실시예 8에서와 동일한 코호트로부터의 혈장 (예를 들어, 유방, 결장직장, 식도, 간, 폐, 난소, 췌장 및 위암의 상이한 병기)이 이수성 및 단백질 생물표지자에 대해 분석되었다. 도 12는 암의 상이한 단계에서 (I 기 (n=109), II 기 (n=276), 그리고 III 기 (n=173) 탐지 민감성을 나타낸다.
실시예 11: Real Seq와 다른 차세대 시퀀싱 기술 비교
다른 차세대 시퀀싱 기술과 비교하여 Real Seq의 성능을 평가하기 위해 일련의 실험이 수행되었다.
NIPT의 가장 일반적인 형태에서 염색체 (가령, 다운 증후군의 경우 염색체 21)의 증가 또는 손실을 감지하는 것이 목표다. 전체 게놈 시퀀싱(WGS), FAST-SeqS 및 RealSeqS는 비-침습적 산전 검사(NIPT)에서 일반적으로 발생하는 DNA 혼합물에 대한 샘플의 성능을 평가하는 데 사용되었고, 가령, 태아 DNA의 분획이 5%인 경우. 이를 위해, 세 가지 방법으로 얻은 실제 데이터를 사용했지만, 동일한 샘플의 다양한 염색체 영역에서 정의된 수의 판독을 추가하여 이 영역에 이수성이 있는 경우, 어떤 일이 발생할지 시뮬레이션했다. 가상환경에서의 시뮬레이션된 샘플을 생성시키는데 이용된 의사코드 (pseudocode)는 도 13 및 도 14에 기술된다. 성능은 특정 염색체 가지(arm)에서 관찰된 판독 비율을 정상 패널의 표준 편차로 나눈 정상 패널의 평균 판독 비율을 비교하는 자주 사용되는 z-점수를 사용하여 산출되었다. 단일-단부 100bp 판독을 가정하고, 일반적으로 사용되는 정렬 속도 및 필터링 기준의 차이를 고려하여, 세 가지 접근 방식 모두에 필요한 총 판독 결과가 보고된다.
15A에 나타낸 바와 같이, RealSeqS는 더 적은 양의 시퀀싱에서 지속적으로 더 높은 민감성을 달성했다. 예를 들면, RealSeqS는 5% 세포 분획에서 홑염색체 및 삼염색체에 대해 99% 민감성 (99% 특이성에서)을 갖고, 한편 WGS 및 FAST-SeqS는 차례로 각각 94% 및 81%의 민감성을 가졌다 (도 15A).
카피 수 변이에 대한 분석의 또 다른 중요한 측면은 결실되거나 또는 증폭되는 상대적으로 작은 영역의 검출이다. 예를 들면, 디조지 증후군 결손은 대개 1.5 Mb 정도로 작다. 5% 결손-함유 세포 분획을 시뮬레이션하는 데이터의 경우, RealSeqS는 1.5Mb 디조지 결손(99% 특이성에서)에 대해 75.0% 민감도를 갖는 반면, WGS 및 FAST-SeqS는 각각 19.0% 및 29.0% 민감도를 나타낸다 (도 15B; 그리고 도 16A-16B).
유방암에서 ERBB2와 같은 증폭의 검출은 환자가 트라스투주맙 또는 다른 표적 요법으로 치료되어야 하는지 여부 결정에 중요하다. 본 실시예에서 상기 기술된 동일한 프로토콜에 따라, 가상환경에서의 ~42 Kb ERBB2 유전자 (20개 카피)의 국소 증폭으로 시뮬레이션된 샘플이 WGS, FAST-SeqS, 및 RealSeqS에 대해 생성되었다. RealSeqS는 WGS 또는 Fast-SeqS에 비교하였을 때, 훨씬 적은 시퀀싱으로 가상환경에서의 시뮬레이션된 샘플에서 증폭을 탐지했다. 1% 세포 분획의 경우, RealSeqS는 91.0% 민감성을 가진 한편, WGS는 50.0%이었다 (도 15C; 그리고 도 17A-17B).
이 데이터는 Real SEQ 기술이 증폭되거나 또는 상실된 작은 영역을 감지할 수 있고, 이 방법이 더 적은 양의 시퀀싱에서 더 높은 감도를 갖는다는 것을 보여준다.
실시예 12: 작은 농도의 종양-유래된 DNA로 샘플에서 이수성 검출
다양한 농도의 종양-유래된 DNA가 있는 샘플에서 Real SEQ 방법을 사용하여 이수성의 검출을 평가하기 위해 일련의 실험을 수행했다. 혈장에 존재하는 돌연변이 분석을 통해 돌연변이 대립유전자 분획이 결정된 302개의 샘플을 평가함에 있어서 (Cohen et al., Science 359; 926-930), 돌연변이 대립유전자 분획이 2% 이상인 샘플 65개 중 92%, 돌연변이 대립유전자 분획이 0.5%~2%인 표본 65개 중 71%, 돌연변이 대립유전자 빈도가 0.01%~0.5%인 표본 172개 중 49%에서 이수성이 검출되었다 (도 18). 이 세 종류의 샘플 사이의 이수성의 차이는 유의적이었다(P<10-3, 단측 이항 테스트).
데이터는 Real Seq 방법이 낮은 농도의 종양 DNA에서도 이수성을 감지할 수 있음을 보여준다. 따라서, 이수성 검출의 민감도는 샘플에서 순환하는 종양 DNA의 농도와 관련있다.
기타 구체예
본 발명이 그의 상세한 설명과 관련하여 설명되었지만, 전술한 설명은 예시하기 위한 것이며, 본 발명의 범위를 제한하지 않으며, 본 발명의 범위는 첨부된 청구항의 범위에 의해 특정된다. 다른 측면들, 장점들 및 수정들은 다음 청구 범위의 범주 내에 있다:
Figure pct00017
Figure pct00018
Figure pct00019
Figure pct00020
Figure pct00021
Figure pct00022
Figure pct00023
Figure pct00024
Figure pct00025
Figure pct00026
Figure pct00027
Figure pct00028
Figure pct00029
Figure pct00030
Figure pct00031
Figure pct00032
Figure pct00033
Figure pct00034
Figure pct00035
Figure pct00036
Figure pct00037
Figure pct00038
Figure pct00039
Figure pct00040
SEQUENCE LISTING <110> The Johns Hopkins University <120> RAPID ANEUPLOIDY DETECTION <130> 44807-0322WO1 <140> PCT/US2020/033209 <141> 2020-05-15 <150> 62/849,662 <151> 2019-05-17 <150> 62/905,327 <151> 2019-09-24 <150> 62/971,050 <151> 2020-02-06 <160> 19 <170> PatentIn version 3.5 <210> 1 <211> 57 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 1 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnggt gaaaccccgt ctctaca 57 <210> 2 <211> 56 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 2 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnggt gaaaccccgt ctctac 56 <210> 3 <211> 57 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 3 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnggt gaaaccccgt ctctact 57 <210> 4 <211> 59 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 4 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnncat gcctgtagtc ccagctact 59 <210> 5 <211> 62 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 5 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnata gtgaaacccc atctctacaa 60 aa 62 <210> 6 <211> 58 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 6 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnggt gaaaccccat ctctacaa 58 <210> 7 <211> 61 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 7 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnata gtgaaacccc atctctacaa 60 a 61 <210> 8 <211> 55 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 8 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnngag gtgggaggat tgctt 55 <210> 9 <211> 55 <212> DNA <213> Artificial <220> <223> synthetic primer <220> <221> misc_feature <222> (22)..(37) <223> n is a, c, g, or t <400> 9 cgacgtaaaa cgacggccag tnnnnnnnnn nnnnnnnacc agcctgggca acata 55 <210> 10 <211> 49 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 10 cacacaggaa acagctatga ccatgcctcc taagtagctg ggactacag 49 <210> 11 <211> 49 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 11 cacacaggaa acagctatga ccatgcctcc taagtagctg ggactacag 49 <210> 12 <211> 49 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 12 cacacaggaa acagctatga ccatgcctcc taagtagctg ggactacag 49 <210> 13 <400> 13 000 <210> 14 <211> 60 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 14 cacacaggaa acagctatga ccatgtgcag tggcacgatc atagctcact gcagccttga 60 <210> 15 <211> 44 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 15 cacacaggaa acagctatga ccatgctccc gagtagctgg gact 44 <210> 16 <211> 46 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 16 cacacaggaa acagctatga ccatgctccc gagtagctgg gactac 46 <210> 17 <211> 45 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 17 cacacaggaa acagctatga ccatgcccga gtagctggga ctaca 45 <210> 18 <211> 42 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 18 cacacaggaa acagctatga ccatgaggct ggagtgcagt gg 42 <210> 19 <211> 42 <212> DNA <213> Artificial <220> <223> synthetic primer <400> 19 cacacaggaa acagctatga ccatgccacc atgcctggct aa 42

Claims (107)

  1. 포유류의 게놈 안에 이수성의 존재를 테스트하는, 다음을 포함하는 방법:
    a) DNA 샘플 안의 다수의 염색체 서열을 해당 염색체 서열에 상보적인 프라이머 쌍을 이용하여 증폭시켜 다수의 앰플리콘을 형성하고, 이때 상기 프라이머 쌍은 이수성 검출이 되도록 충분한 수의 서열을 증폭시키고;
    b) 이들 다수의 앰플리콘중 하나 또는 그 이상의 핵산 서열의 적어도 일부분을 결정하고;
    c) 이들 서열화된 앰플리콘을 참조 게놈에 맵핑시키고;
    d) 해당 DNA 샘플을 다수의 게놈 인터벌로 배당하고;
    e) 해당 게놈 인터벌에 맵핑된 앰플리콘의 다수의 속성을 정량화하고;
    f) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성을 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 비교하고; 그리고
    g) 이때 이수성을 검출하는데 충분한 앰플리콘의 갯수가 상기 증폭 단계에서 형성되며,따라서, 해당 포유류의 게놈에서 이수성의 존재가 테스트된다.
  2. 청구항 1에 있어서, 이때 DNA 샘플은 다수의 정배수성 DNA 샘플을 포함하는, 방법.
  3. 청구항 1에 있어서, 이때 DNA 샘플은 다수의 테스트 DNA 샘플을 포함하는, 방법.
  4. 청구항 3에 있어서, 이때 상기 테스트 DNA는 알려지지 않은 배수성 DNA를 포함하는, 방법.
  5. 청구항 1에 있어서, 이때 DNA 샘플은 혈장으로부터 얻은, 방법.
  6. 청구항 1에 있어서, 이때 DNA 샘플은 혈청으로부터 얻은, 방법.
  7. 청구항 1에 있어서, 이때 DNA 샘플은 무-세포 DNA를 포함하는, 방법.
  8. 청구항 1 내지 7중 임의의 한 항에 있어서, 이때 DNA 샘플은 적어도 3 피코그램의 DNA를 포함하는 방법.
  9. 청구항 1 내지 8중 임의의 한 항에 있어서, 이때 포유류는 인간인, 방법.
  10. 청구항 1 내지 9중 임의의 한 항에 있어서, 이때 상기 프라이머 쌍은 표 1에서 선택된 제 1 프라이머와 제 2 프라이머, 가령, 서열 식별 번호: 1을 포함하는 제 1 프라이머와 서열 식별 번호: 10을 포함하는 제 2 프라이머, 또는 서열 식별 번호: 1에 대해 적어도 80%, 85%, 90%, 95%, 96%, 97%, 98%, 또는 99% 동일성을 갖는 제 1 프라이머, 서열 식별 번호: 10에 대해 적어도 80%, 85%, 90%, 95%, 96%, 97%, 98%, 또는 99% 동일성을 갖는 제 2 프라이머를 포함하는, 방법.
  11. 청구항 1 내지 10중 임의의 한 항에 있어서, 이때 하나 또는 그 이상의 추가적인 프라이머 쌍은 단계 (a)에서 DNA 샘플 안에 하나 또는 그 이상의 다수 염색체 서열을 증폭시키는, 방법.
  12. 청구항 1 내지 11중 임의의 한 항에 있어서, 이때 전술한 앰플리콘은 표 1에 나타낸 하나 또는 그 이상의 반복되는 요소들을 포함하는, 방법.
  13. 청구항 12에 있어서, 이때 전술한 앰플리콘은 특유의 짧은 산재된 뉴클레오티드 요소들 (SINEs)을 포함하는, 방법.
  14. 청구항 1 내지 13중 임의의 한 항에 있어서, 이때 상기 앰플리콘의 평균 길이는 100개 또는 그 미만의 염기쌍인, 방법.
  15. 청구항 1 내지 14중 임의의 한 항에 있어서, 이때 전술한 앰플리콘은 하나 또는 그 이상의 긴 앰플리콘을 포함하고, 여기에서 긴 앰플리콘의 평균 길이는 1000개 또는 그 이상의 염기쌍인, 방법.
  16. 청구항 15에 있어서, 이때 전술한 긴 앰플리콘은 오염 세포의 DNA를 포함하는, 방법.
  17. 청구항 16에 있어서, 이때 상기 오염 세포는 백혈구인, 방법.
  18. 청구항 1 내지 17중 임의의 한 항에 있어서, 이때 이들 다수의 앰플리콘은 다수의, 가령, 2개 또는 그 이상, 상이한 염색체 상의 서열을 포함하는, 방법.
  19. 청구항 1 내지 18중 임의의 한 항에 있어서, 이때 상기 게놈 인터벌은 약 100개 뉴클레오티드 내지 약 125,000,000개 뉴클레오티드를 포함하는, 방법.
  20. 청구항 1 내지 19중 임의의 한 항에 있어서, 이때 게놈 인터벌에 맵핑된 앰플리콘의 정량화는 하나 또는 그 이상의 공유되는 앰플리콘 속성을 갖는 다수의 게놈 인터벌을 식별해내는 것을 포함하는, 방법.
  21. 청구항 20에 있어서, 이때 상기 공유되는 앰플리콘 속성은 맵핑된 앰플리콘의 갯수인, 방법.
  22. 청구항 20에 있어서, 이때 상기 공유되는 앰플리콘 속성은 맵핑된 앰플리콘의 평균 길이인, 방법.
  23. 청구항 20 내지 22중 임의의 한 항에 있어서, 이때 공유되는 앰플리콘 속성을 갖는 다수의 게놈 인터벌은 하나 또는 그 이상의 클러스터로 그룹화되는, 방법.
  24. 청구항 23에 있어서, 이때 각 클러스터는 약 200개 게놈 인터벌을 포함하는, 방법.
  25. 청구항 23에 있어서, 이때 상기 클러스터는 사전-정의된 클러스터를 포함하는, 방법.
  26. 청구항 1 내지 25중 임의의 한 항에 있어서, 이때 상기 게놈 인터벌들의 비교는 테스트 샘플에서의 하나 또는 그 이상의 게놈 인터벌을 사전-정의된 클러스터에 매칭시키는 것을 더 포함하는, 방법.
  27. 청구항 26에 있어서, 이때 테스트 샘플에서의 게놈 인터벌을 사전-정의된 클러스터에 매칭시키는 것은 사전-정의된 클러스터에 대한 사전-결정된 유의성 역치를 벗어난, 공유되는 앰플리콘 속성을 갖는 하나 또는 그 이상의 게놈 인터벌을 식별해내는 것을 더 포함하는, 방법.
  28. 청구항 1 내지 27중 임의의 한 항에 있어서, 이때 이수성의 존재에 대한 테스트는 관리감독 하에 기계 학습을 포함하는, 방법.
  29. 청구항 28에 있어서, 이때 관리감독 하에 기계 학습은 서포트 벡터 기계 모델을 이용하는, 방법.
  30. DNA 샘플로부터 취한 다수의 앰플리콘 증폭용으로 식별 번호: 1에 대해 적어도 80% 동일한 서열을 포함하는 제 1 프라이머와 서열 식별 번호: 10에 대해 적어도 80% 동일한 서열을 포함하는 제 2 프라이머을 포함하는, 프라이머 쌍.
  31. 청구항 30에 있어서, 이때 제 1 프라이머의 서열은 서열 식별 번호: 1에 대해 적어도 90% 동일한, 프라이머 쌍.
  32. 청구항 30에 있어서, 이때 제 1 프라이머의 서열은 서열 식별 번호: 1에 대해 적어도 95% 동일한, 프라이머 쌍.
  33. 청구항 30에 있어서, 이때 제 1 프라이머의 서열은 서열 식별 번호: 1이거나 또는 이에 대해 100% 동일한 서열을 포함하고, 및/또는 제 2 프라이머의 서열은 서열 식별 번호: 2이거나, 또는 이에 대해 100% 동일한, 프라이머 쌍.
  34. 청구항 30 내지 32중 임의의 한 항에 있어서, 이때 제 2 프라이머의 서열은 서열 식별 번호: 10에 대해 적어도 90% 동일한, 프라이머 쌍.
  35. 청구항 30 내지 32중 임의의 한 항에 있어서, 이때 제 2 프라이머의 서열은 서열 식별 번호: 10에 대해 적어도 95% 동일한, 프라이머 쌍.
  36. 청구항 30 내지 32중 임의의 한 항에 있어서, 이때 제 2 프라이머의 서열은 서열 식별 번호: 10이거나, 또는 이에 대해 100% 동일한 서열을 포함하는, 프라이머 쌍.
  37. 프라이머 쌍을 포함하는 DNA 샘플로부터 취한 다수의 앰플리콘의 증폭을 위한 키트에 있어서, 이때 상기 프라이머 쌍의 제 1 프라이머는 열 식별 번호: 1을 포함하고, 프라이머 쌍의 제 2 프라이머는 서열 식별 번호: 10을 포함하는, 키트.
  38. 청구항 1 내지 29중 임의의 한 항에 있어서, 이때 적어도 10,000개 앰플리콘이 상기 증폭 단계에서 형성되는, 방법.
  39. 청구항 1 내지 37중 임의의 한 항에 있어서, 이때 적어도 20,000개 앰플리콘이 상기 증폭 단계에서 형성되는, 방법.
  40. 청구항 1 내지 37중 임의의 한 항에 있어서, 이때 적어도 50,000개 앰플리콘이 상기 증폭 단계에서 형성되는, 방법.
  41. 청구항 1 내지 37중 임의의 한 항에 있어서, 이때 증폭 단계에서 적어도 100,000개의 앰플리콘이 형성되는, 방법.
  42. 대상체에서 다수의 암 각각의 존재 또는 이의 발생 위험에 대해 해당 대상체를 평가하기 위한, 다음을 포함하는 방법:
    (i) 하나 또는 그 이상의 드라이버 유전자 각각에서 하나 또는 그 이상의 돌연변이 존재에 대한 값을 획득하고, 이때 각 드라이버 유전자는 이들 다수의 암에서 암의 존재 또는 위험과 연관되며;
    (ii) 다수의 단백질 생물표지자 각 수준에 대한 값을 획득하고, 이때 이들 다수의 생물표지자중 각각의 단백질 생물표지자의 수준은 다수의 암에서 암의 존재 또는 위험과 연관되며;
    (iii) 이수성에 대한 값을 획득하고, 이때 해당 이수성 값은 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개 말단 반복된 요소들 간에 배치된 게놈의 카피 수 카피 수 또는 길이의 함수이며, 이때 상기 RE 패밀리는 다음을 포함한다:
    (a) 산재된 긴 뉴클레오티드 요소 (LINE)이외의 RE 패밀리;
    (b) 패밀리의 반복된 말단 요소들에 상보적인 프라이머 모이어티로 증폭될 때, X개 미만의 nts 평균 길이를 갖는 앰플리콘을 제공하는 RE 패밀리, 이때 X는 100, 105, 또는 110이며,
    (c) 길이가 약 700bp 미만인 RE 패밀리; 또는
    (d) 게놈당 적어도 100개 카피로 존재하는 RE 패밀리;
    이때 상기 이수성은 다수의 암에서 암의 존재 또는 위험과 연관되며;
    이로 인하여 다수의 암중 임의의 암의 존재 또는 발생 위험에 대해 해당 대상체를 평가한다.
  43. 청구항 42에 있어서, 이때 (i), (ii) 및 (iii)중 하나는 직접적으로 획득되는, 방법.
  44. 청구항 42에 있어서, 이때 (i)과 (ii)는 직접적으로 획득되는, 방법.
  45. 청구항 42에 있어서, 이때 (i)과 (iii)은 직접적으로 획득되는, 방법.
  46. 청구항 42에 있어서, 이때 (i)과 (ii)는 직접적으로 획득되는, 방법.
  47. 청구항 42에 있어서, 이때 (i), (ii) 및 (iii) 모두 직접적으로 획득되는, 방법.
  48. 청구항 42에 있어서, 이때 (i), (ii) 및 (iii)중 하나는 간접적으로 획득되는, 방법.
  49. 청구항 42에 있어서, 이때 (i)과 (ii)는 간접적으로 획득되는, 방법.
  50. 청구항 42에 있어서, 이때 (i)과 (iii)은 간접적으로 획득되는, 방법.
  51. 청구항 42에 있어서, 이때 (i)과 (ii)는 간접적으로 획득되는, 방법.
  52. 청구항 42에 있어서, 이때 (i), (ii) 및 (iii) 모두 간접적으로 획득되는, 방법.
  53. 청구항 42 내지 52중 임의의 한 항에 있어서, 다음을 포함하는 방법:
    (1) 유전적 생물표지자를 포함하는 하나 또는 그 이상의 하위게놈 인터벌 또는 앰플리콘을 시퀀싱하고;
    (2) 이수성에 대해 하나 또는 그 이상의 게놈을 분석하고, 및/또는
    (3) 단백질 생물표지자에 검출 시약을 접촉시킨다.
  54. 청구항 42 내지 53중 임의의 한 항에 있어서, 이때 해당 이수성 값은 RE 패밀리의 적어도 두 개 말단 반복된 요소들 사이에 배치된 게놈 서열의 카피 수에 대한 함수인, 방법.
  55. 청구항 42 내지54중 임의의 한 항에 있어서, 이때 해당 이수성 값은 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 길이에 대한 함수인, 방법.
  56. 청구항 42 내지55중 임의의 한 항에 있어서, 이 방법은 다음을 더 포함하는, 방법:
    (i) 샘플의 무-세포 DNA로부터 하위게놈 인터벌에 대한 서열을 획득하고; 그리고
    (ii) 상기 샘플의 백혈구 DNA로부터 백혈구 매개변수를 획득한다.
  57. 청구항 55 또는 56에 있어서, 이때 상기 백혈구 매개변수는 하위게놈 인터벌의 서열을 포함하는, 방법.
  58. 청구항 55 또는 56에 있어서, 이 방법은 무-세포 DNA 하위게놈 인터벌 또는 무-세포 DNA 이수성 분석 샘플에서 발견되는 게놈 사건을 평가하기 위해, (i)과 (ii)를 비교하는 것을 더 포함하는, 방법.
  59. 청구항 58에 있어서, 이때 상기 게놈 사건은 돌연변이를 포함하는, 방법.
  60. 청구항 42 내지 59중 임의의 한 항에 있어서, 이때 (i), (ii) 및 (iii)을 갖는 다수의 암에서 암의 검출 특이성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암의 검출 특이성과 실질적으로 동일한, 방법.
  61. 청구항 42 내지 59중 임의의 한 항에 있어서, 이때 (i), (ii) 및 (iii)을 갖는 다수의 암에서 암의 검출 특이성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암의 검출 특이성보다 실질적으로 더 낮지 않는, 방법.
  62. 청구항 42 내지 61중 임의의 한 항에 있어서, 이때 (i), (ii) 및 (iii)을 갖는 다수의 암에서 암의 검출 특이성은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암의 검출 민감성보다 더 높은, 방법.
  63. 청구항 62에 있어서, 이때 해당 암 검출의 민감성 in (i), (ii) 및 (iii)을 갖는 다수의 암은 (i); (ii); (iii); (i)과 (ii); (i)과 (iii); 또는 (ii)과 (iii)을 갖는 다수의 암에서 해당 암 검출의 민감성보다 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 더 높은, 방법.
  64. 청구항 42 내지 63중 임의의 한 항에 있어서, 이때 (i), (ii) 및 (iii)에 의해 명시된 특이성에서 검출 민감성이 증가된, 방법.
  65. 청구항 64에 있어서, 이때 상기 증가된 검출 민감성은 명시된 특이성에서 약 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 또는 10 배 증가된, 방법.
  66. 청구항 64 또는 65에 있어서, 이때 상기 특이성은 사전-결정된 특이성인, 방법.
  67. 청구항 66에 있어서, 이때 상기 사전-결정된 특이성은 적어도 약 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 특이성인, 방법.
  68. 청구항 62 내지 67중 임의의 한 항에 있어서, 이때 상기 다수의 암에서 해당 암의 검출 민감성의 증가는 이들 다수의 암에서 해당 암의 검출 특이성에 영향을 주지 않는, 방법.
  69. 청구항 62 내지 67중 임의의 한 항에 있어서, 이때 상기 다수의 암에서 해당 암의 검출 민감성의 증가는 이들 다수의 암에서 해당 암의 검출 특이성을 감소시키지 않거나, 또는 실질적으로 감소시키지 않는, 방법.
  70. 청구항 68 또는 69에 있어서, 이때 다수의 암에서 해당 암의 검출 특이성은 정체기에 있는, 방법.
  71. 청구항 42 내지 70중 임의의 한 항에 있어서, 이때 하나 또는 그 이상의 돌연변이 존재에 관한 값의 획득은 하나 또는 그 이상의 드라이버 유전자에서 하나 또는 그 이상의 돌연변이를 탐지하는 것을 포함하는, 방법.
  72. 청구항 71에 있어서, 이때 상기 하나 또는 그 이상의 돌연변이는 하나 또는 그 이상의 드라이버 유전자 돌연변이를 포함하는, 방법.
  73. 청구항 42 내지 72중 임의의 한 항에 있어서, 이때 상기 하나 또는 그 이상의 드라이버 유전자는 다음에서 선택되는, 방법: NRAS, CTNNB1, PIK3CA, FBXW7, APC, EGFR, BRAF, CDKN2A, PTEN, FGFR2, HRAS, KRAS, AKT1, TP53, PPP2R1A, 또는 GNAS.
  74. 청구항 42 내지 73중 임의의 한 항에 있어서, 이때 하나 또는 그 이상의 돌연변이의 존재는 다음에서 선택된 적어도 네 가지 드라이버 유전자에서 평가되는, 방법: NRAS, CTNNB1, PIK3CA, FBXW7, APC, EGFR, BRAF, CDKN2A, PTEN, FGFR2, HRAS, KRAS, AKT1, TP53, PPP2R1A, 또는 GNAS.
  75. 청구항 42 내지 74중 임의의 한 항에 있어서, 이때 하나 또는 그 이상의 돌연변이의 존재는 다음의 드라이버 유전자 16개 모두에서 평가되는, 방법: NRAS, CTNNB1, PIK3CA, FBXW7, APC, EGFR, BRAF, CDKN2A, PTEN, FGFR2, HRAS, KRAS, AKT1, TP53, PPP2R1A, 그리고 GNAS.
  76. 청구항 42 내지 75중 임의의 한 항에 있어서, 이때 이들 다수의 단백질 생물표지자 각각에 대한 값의 획득은 단백질 생물표지자, 가령, 다음에서 선택된 단백질 생물표지자 각각을 탐지하는 것을 포함하는, 방법: CA19-9, CEA, HGF, OPN, CA125, 프로락틴 (PRL), TIMP-1, CA15-3, AFP 또는 MPO.
  77. 청구항 76에 있어서, 이때 이들 다수의 단백질 생물표지자는 적어도 네 가지 단백질 생물표지자를 포함하는, 방법.
  78. 청구항 42 내지 77중 임의의 한 항에 있어서, 이때 이수성에 대한 값의 획득은 이수성의 탐지를 포함하는, 방법.
  79. 청구항 42 내지 78중 임의의 한 항에 있어서, 이때 다수의 암은 적어도 네 가지 암을 포함하는, 방법.
  80. 청구항 42 내지 79중 임의의 한 항에 있어서, 이 방법은 해당 대상체를 방사선 스캔하는, 가령, 장기 또는 신체 영역의 PET-CT 스캔하는 것을 더 포함하는, 방법.
  81. 청구항 80에 있어서, 이때 장기 또는 신체 영역의 방사선 스캔으로 암을 특징화시키는, 방법.
  82. 청구항 80에 있어서, 이때 장기 또는 신체 영역의 방사선 스캔으로 해당 암의 위치를 식별해내는, 방법.
  83. 청구항 80-82중 임의의 한 항에 있어서, 이때 상기 방사선 스캔은 PET-CT 스캔인, 방법.
  84. 청구항 80-83중 임의의 한 항에 있어서, 이때 상기 방사선 스캐닝은 다수 암의 각 존재에 대해 해당 대상체를 평가한 후, 실행되는, 방법.
  85. 청구항 42-84중 임의의 한 항에 있어서, 해당 대상체에게 하나 또는 그 이상의 치료요법적 중재 (가령, 수술, 보조적 화학요법, 신종-보조적 화학요법, 방사선 요법, 면역요법, 표적화된 요법, 및/또는 면역 체크포인트 저해제)를 적용하는 것을 포함하는, 방법.
  86. 청구항 42-85중 임의의 한 항에 있어서, 이때 해당 대상체는 암에 대해 무증상인, 방법.
  87. 청구항 42-85중 임의의 한 항에 있어서, 이때 해당 대상체는 다수의 암에서 암에 대해 무증상인, 방법.
  88. 청구항 42-85중 임의의 한 항에 있어서, 이때 해당 대상체는 암 세포를 보유하는 것으로 알려져 있지 않거나 또는 결정되지 않았던, 방법.
  89. 청구항 42-85중 임의의 한 항에 있어서, 이때 해당 대상체는 암이 있거나 또는 암 진단에 대해 결정되지 않았던, 방법.
  90. 청구항 42-85중 임의의 한 항에 있어서, 이때 해당 대상체는 암 초기 단계, 가령, I 기 또는 II 기인, 방법.
  91. 다음을 포함하는 키트:
    (a) 적어도 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 검출 시약, 이때 검출 시약은 다음의 존재 또는 수준의 값이 되는 판독을 매개한다:
    (i) 본원에서 언급된 하나 또는 그 이상의 유전적 생물표지자;
    (ii) 본원에서 언급된 하나 또는 그 이상의 단백질 생물표지자; 및/또는
    (iii) 본원에서 언급된 반복된 요소 패밀리 (RE 패밀리)의 적어도 두 개의 말단 반복된 요소 사이에 배치된 게놈 서열의 카피 수 또는 길이; 그리고
    (b) 전술한 키트 사용을 위한 사용지침.
  92. 청구항 91에 있어서, 이때 상기 검출 시약은 게놈 서열에서 이수성의 수준의 값 또는 존재에 대한 판독을 매개하는, 키트.
  93. 포유류에서 암의 존재를 테스트하는, 다음을 포함하는 방법:
    a) DNA 샘플 안의 다수의 염색체 서열을 해당 염색체 서열에 상보적인 프라이머 쌍을 이용하여 증폭시켜 다수의 앰플리콘을 형성하고;
    b) 이들 다수의 앰플리콘중 하나 또는 그 이상의 핵산 서열의 적어도 일부분을 결정하고;
    c) 이들 서열화된 앰플리콘을 참조 게놈에 맵핑시키고;
    d) 해당 DNA 샘플을 다수의 게놈 인터벌로 배당하고;
    e) 해당 게놈 인터벌에 맵핑된 앰플리콘의 다수의 속성을 정량화하고;
    f) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성을 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 비교하고; 그리고
    g) 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성이 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 상이할 때, 해당 포유류에 암이 존재하는 것으로 결정한다.
  94. 청구항 93에 있어서, 이때 증폭 단계에서 적어도 100,000개의 앰플리콘이 형성되는, 방법.
  95. 청구항 93 또는 94에 있어서, 이때 상기 암은 I 기 암인, 방법.
  96. 청구항 93 내지 95중 임의의 한 항에 있어서, 이때 상기 암은 간암, 난소암, 식도암, 위암, 췌장암, 결장직장암, 폐암, 유방암, 또는 전립선암인, 방법.
  97. 청구항 93-96중 임의의 한 항에 있어서, 이 방법은 제 1 게놈 인터벌에서 앰플리콘의 다수의 속성이 하나 또는 그 이상의 상이한 게놈 인터벌에 있는 앰플리콘의 다수의 속성과 상이할 때, 이수성의 존재를 결정하는 것을 더 포함하는, 방법.
  98. 본원에 기술된 방법들중 임의의 방법을 이용하여, 저-투입 DNA를 포함하는 샘플에서 이수성을 탐지하는 방법.
  99. 청구항 98에 있어서, 이때 상기 샘플은 약 0.01 피코그램 (pg) ~ 500 pg의 DNA를 포함하는, 방법.
  100. 청구항 98 또는 99에 있어서, 이때 상기 샘플은 대상체로부터 취한 생물학적 샘플인, 방법.
  101. 청구항 98-100중 임의의 한 항에 있어서, 이때 상기 샘플은 액체 샘플, 혈액 샘플, 무-세포 DNA 샘플 (가령, 순환 종양 DNA 샘플), 혈장 샘플, 혈청 샘플; 또는 조직 샘플을 포함하는, 방법.
  102. 청구항 98-100중 임의의 한 항에 있어서, 이때 상기 샘플, 가령, 생물학적 샘플은 세포 (가령, 정상 세포 또는 암 세포) 및 무-세포 DNA를 포함하는, 방법.
  103. 본원에 기술된 방법들중 임의의 방법을 이용하여 샘플을 식별해내거나 또는 구별해내는 방법.
  104. 청구항 103에 있어서, 이때 상기 샘플, 가령, 대상체, 가령, 제 1 대상체로부터 취한 제 1 샘플은 제 2 대상체에서 취한 제 2 샘플과 분별되는, 방법.
  105. 청구항 103에 있어서, 이때 샘플은 다형태 (가령, 다수의 다형태, 가령, 공통적 다형태)를 기반으로 대상체로부터 유래된 것임이 확인되는, 방법.
  106. 청구항 105에 있어서, 이때 다형태, 가령, 공통적 다형태는 가령, 본원에서 기술된 바와 같이 반복되는 요소에 존재하는, 방법.
  107. 청구항 1-90 또는 93-106중 임의의 한 항에 있어서, 이때 이 방법은 시험관내 방법인, 방법.
KR1020217037650A 2019-05-17 2020-05-15 신속한 이수성 검출 KR20220021909A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962849662P 2019-05-17 2019-05-17
US62/849,662 2019-05-17
US201962905327P 2019-09-24 2019-09-24
US62/905,327 2019-09-24
US202062971050P 2020-02-06 2020-02-06
US62/971,050 2020-02-06
PCT/US2020/033209 WO2020236625A2 (en) 2019-05-17 2020-05-15 Rapid aneuploidy detection

Publications (1)

Publication Number Publication Date
KR20220021909A true KR20220021909A (ko) 2022-02-22

Family

ID=71741878

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217037650A KR20220021909A (ko) 2019-05-17 2020-05-15 신속한 이수성 검출

Country Status (14)

Country Link
US (1) US20220259668A1 (ko)
EP (1) EP3969616A2 (ko)
JP (1) JP2022532761A (ko)
KR (1) KR20220021909A (ko)
CN (1) CN114207147A (ko)
AU (1) AU2020279106A1 (ko)
BR (1) BR112021023025A2 (ko)
CA (1) CA3140850A1 (ko)
CL (1) CL2021003030A1 (ko)
CO (1) CO2021017009A2 (ko)
IL (1) IL288081A (ko)
MX (1) MX2021013834A (ko)
SG (1) SG11202112680XA (ko)
WO (1) WO2020236625A2 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023239866A1 (en) * 2022-06-10 2023-12-14 The Johns Hopkins University Methods for identifying cns cancer in a subject
CN114990202B (zh) * 2022-07-29 2022-09-30 普瑞基准科技(北京)有限公司 Snp位点在评估基因组异常的应用及评估基因组异常的方法
KR102630597B1 (ko) * 2023-08-22 2024-01-29 주식회사 지놈인사이트테크놀로지 종양 정보를 활용한 미세 잔존 질환 탐지 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1712639B1 (en) 2005-04-06 2008-08-27 Maurice Stroun Method for the diagnosis of cancer by detecting circulating DNA and RNA
CN104350158A (zh) 2012-03-26 2015-02-11 约翰霍普金斯大学 快速非整倍性检测
US20160210404A1 (en) * 2015-01-15 2016-07-21 Good Start Genetics, Inc. Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening
WO2019067092A1 (en) 2017-08-07 2019-04-04 The Johns Hopkins University METHODS AND SUBSTANCES FOR THE EVALUATION AND TREATMENT OF CANCER

Also Published As

Publication number Publication date
WO2020236625A3 (en) 2021-02-11
JP2022532761A (ja) 2022-07-19
SG11202112680XA (en) 2021-12-30
AU2020279106A1 (en) 2021-12-09
CA3140850A1 (en) 2020-11-26
BR112021023025A2 (pt) 2022-01-04
CO2021017009A2 (es) 2022-04-08
WO2020236625A2 (en) 2020-11-26
US20220259668A1 (en) 2022-08-18
IL288081A (en) 2022-01-01
MX2021013834A (es) 2022-06-29
EP3969616A2 (en) 2022-03-23
CN114207147A (zh) 2022-03-18
CL2021003030A1 (es) 2022-10-07

Similar Documents

Publication Publication Date Title
JP7232476B2 (ja) がんを評価及び治療するための方法及び物質
AU2020200128B2 (en) Non-invasive determination of methylome of fetus or tumor from plasma
JP7317078B2 (ja) 腫瘍変異負荷を評価するための方法及びシステム
US20220056534A1 (en) Methods for analysis of circulating cells
JP6905934B2 (ja) 腫瘍試料の多重遺伝子分析
JP2024001359A (ja) 変異の検出および染色体分節の倍数性
CA3083787A1 (en) Process for microsatellite instability detection
US20220259668A1 (en) Rapid aneuploidy detection
CN117597456A (zh) 用于确定肿瘤生长的速度的方法
CN118076750A (zh) 用于检测孕妇体内的赘生物的方法
WO2023133131A1 (en) Methods for cancer detection and monitoring
AU2024203201A1 (en) Multimodal analysis of circulating tumor nucleic acid molecules
RU2811503C2 (ru) Способы выявления и мониторинга рака путем персонализированного выявления циркулирующей опухолевой днк
EP3999521A1 (en) Methods for detecting hereditary cancers
JP2024086739A (ja) 循環細胞の分析方法
Alsolami Characterisation of the mutational landscape of chronic lymphocytic leukaemia using genome-wide approaches