KR20190095410A - 핵산 분자를 분석하기 위한 방법 및 시스템 - Google Patents

핵산 분자를 분석하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20190095410A
KR20190095410A KR1020197020828A KR20197020828A KR20190095410A KR 20190095410 A KR20190095410 A KR 20190095410A KR 1020197020828 A KR1020197020828 A KR 1020197020828A KR 20197020828 A KR20197020828 A KR 20197020828A KR 20190095410 A KR20190095410 A KR 20190095410A
Authority
KR
South Korea
Prior art keywords
nucleic acid
dna
tag
population
molecules
Prior art date
Application number
KR1020197020828A
Other languages
English (en)
Inventor
앤드류 케네디
스테파니 앤 워드 모르티머
헬미 엘토키
아미르알리 타라사즈
다이아나 아브두에바
매튜 슐츠
Original Assignee
가던트 헬쓰, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가던트 헬쓰, 인크. filed Critical 가던트 헬쓰, 인크.
Publication of KR20190095410A publication Critical patent/KR20190095410A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/101DNA polymerase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/107RNA dependent DNA polymerase,(i.e. reverse transcriptase)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/164Methylation detection other then bisulfite or methylation sensitive restriction endonucleases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/131Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a member of a cognate binding pair, i.e. extends to antibodies, haptens, avidin
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시내용은 상이한 형태 (예를 들어, RNA 및 DNA, 단일 가닥 또는 이중 가닥) 및/또는 변형 정도 (예를 들어, 시토신 메틸화, 단백질과의 연합)를 함유하는 핵산 집단을 프로세싱하는 방법을 제공한다. 이들 방법은 샘플 내의 핵산의 다수의 형태 및/또는 변형을 수용하여, 서열 정보가 다수의 형태에 대하여 수득될 수 있도록 한다. 방법은 또한, 프로세싱 및 분석을 통해 다수의 형태 또는 변형된 상태의 실체를 보존하여, 서열의 분석이 후성적 분석과 조합될 수 있도록 한다.

Description

핵산 분자를 분석하기 위한 방법 및 시스템
관련 특허 출원에 대한 참조
본 출원은 2016년 12월 22일에 출원된 미국 가출원 번호 62/438,240; 2017년 5월 31일에 출원된 미국 가출원 번호 62/512,936; 및 2017년 8월 25일에 출원된 미국 가출원 번호 62/550,540을 우선권 주장하며, 이들 모두는 그 전문이 본원에 참조로 포함된다.
암은 전 세계적으로 질환의 주요 원인이다. 전 세계적으로 매년 수천만 명의 사람들이 암으로 진단되며 그 중 절반이 넘게 결국 암으로 사망한다. 많은 국가에서 암은 심혈관계 질환에 이어 두 번째로 흔한 사망 원인이다. 조기 검출은 많은 암에 대한 개선된 성과와 연관된다.
암은 개체의 정상 세포 내에서의 유전적 변이의 축적에 의해 유발될 수 있으며, 그 중 적어도 일부는 부적절하게 조절되는 세포 분열을 초래한다. 이러한 변이는 통상적으로, 카피 수 변이 (CNV), 단일 뉴클레오티드 변이 (SNV), 유전자 융합, 삽입 및/또는 결실 (삽입-결실)을 포함하며, 후성적 변이는 시토신의 5-메틸화 (5-메틸시토신) 및 DNA와 염색질 및 전사 인자의 연합을 포함한다.
암은 종종, 종양의 생검에 이어, 세포, 마커 또는 세포로부터 추출된 DNA의 분석에 의해 검출된다. 그러나 보다 최근에는 체액, 예컨대 혈액 또는 소변 내의 무세포 핵산으로부터 암이 검출될 수도 있다고 제안되었다. 이러한 시험은 비침습적이며 생검에서 의심되는 암세포를 확인하지 않고서도 수행될 수 있다는 이점이 있다. 그러나, 이러한 시험은 체액 내의 핵산의 양이 매우 적고 핵산이 존재하는 형태가 이질적이라는 사실로 인해 복잡해진다 (예를 들어, RNA 및 DNA, 단일 가닥 및 이중 가닥, 및 다양한 상태의 복제 후 변형 및 단백질, 예컨대 히스톤과의 연합).
순환 핵산 (원래의 물질) 또는 프로세스에서의 데이터의 손실을 줄이면서 액체 생검 검정의 감수성을 증가시키는 것이 바람직하다.
본 개시내용은 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하기 위한 방법, 조성물 및 시스템을 제공한다. 일부 실시양태에서 상기 방법은 (a) 상기 핵산 형태 중 적어도 하나를 적어도 하나의 태그 핵산과 연결시켜 이들 형태를 서로 구별하는 단계, (b) 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시키는 단계이며, 여기서 이러한 핵산 및 연결된 핵산 태그는 존재하는 경우, 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 단계; (c) 그 중 적어도 일부가 태그부착되는 상기 증폭된 핵산의 서열 데이터를 검정하는 단계; 및 (d) 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하는 단계를 포함한다.
일부 실시양태에서, 상기 방법은 하나 이상의 다른 형태와 비교하여 상기 형태 중 적어도 하나를 풍부화시키는 단계를 추가로 포함한다. 일부 실시양태에서 상기 집단 내의 각각의 형태의 핵산의 분자의 적어도 70%가 단계 (b)에서 증폭된다. 일부 실시양태에서 적어도 3가지 형태의 핵산이 상기 집단 내에 존재하고, 이러한 형태 중 적어도 2가지가 상이한 태그 핵산 형태와 연결되어, 3가지 형태 각각이 서로 구별된다. 일부 실시양태에서 집단 내의 적어도 3가지 형태의 핵산 각각이 상이한 태그와 연결된다. 일부 실시양태에서 동일한 형태의 각각의 분자는 동일한 식별 정보 태그를 포함하는 태그 (예를 들어, 동일한 것을 수반하거나 또는 동일한 서열을 포함하는 태그)와 연결된다. 일부 실시양태에서 동일한 형태의 분자는 상이한 유형의 태그와 연결된다. 일부 실시양태에서 단계 (a)는: 상기 집단을 태그부착된 프라이머로 역전사시키는 것을 포함하며, 여기서 태그부착된 프라이머는 상기 집단 내의 RNA로부터 생성된 cDNA 내로 혼입된다. 일부 실시양태에서 역전사는 서열 특이적이다. 일부 실시양태에서 역전사는 무작위이다. 일부 실시양태에서, 상기 방법은 상기 cDNA와 듀플렉스화된 RNA를 분해하는 것을 추가로 포함한다. 일부 실시양태에서, 상기 방법은 단일 가닥 DNA를 이중 가닥 DNA로부터 분리하고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함한다. 일부 실시양태에서 단일 가닥 DNA는 하나 이상의 포획 프로브와 혼성화함으로써 분리된다. 일부 실시양태에서, 상기 방법은 단일 가닥 핵산 상에서 기능하는 라이가제를 사용하여 단일 가닥 DNA를 단일 가닥 태그로 차별적으로 태그부착시키고, 이중 가닥 핵산 상에서 기능하는 라이가제를 사용하여 이중 가닥 DNA를 이중 가닥 어댑터로 차별적으로 태그부착시키는 것을 추가로 포함한다. 일부 실시양태에서, 상기 방법은 검정하기 전에, 상이한 형태의 핵산을 포함하는 태그부착된 핵산을 풀링하는 것을 추가로 포함한다. 일부 실시양태에서, 상기 방법은 분할된 DNA의 풀을 개별 검정에서 별도로 분석하는 것을 추가로 포함한다. 이러한 검정은 동일하거나, 실질적으로 유사하거나, 등가이거나 또는 상이할 수 있다.
상기 방법 중 임의의 것에서, 서열 데이터는 체세포 또는 배선 변이체, 또는 카피 수 변이 또는 단일 뉴클레오티드 변이, 또는 삽입-결실 또는 유전자 융합의 존재를 표시할 수 있다.
본 개시내용은 추가로, 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법을 제공한다. 일부 경우에, 본 개시내용은 특정 질환과 연관된 특징 (예를 들어, 5' 메틸시토신)에 관하여 스크리닝하는 방법을 제공한다. 상기 방법은 핵산 집단을, 상기 변형을 보유하는 핵산과 우선적으로 결합하는 작용제 (예컨대 메틸 결합 도메인 또는 단백질)와 접촉시키는 단계; 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 상기 변형에 대해 과다표현되고, 제2 풀 내의 핵산은 상기 변형에 대해 과소표현되는 것인 단계; 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시켜, 태그부착된 핵산의 집단을 생산하는 단계; 이와 같이 태그부착된 핵산을 증폭시키는 단계이며, 여기서 상기 핵산 및 연결된 태그가 증폭되는 것인 단계; 상기 증폭된 핵산 및 연결된 태그의 서열 데이터를 검정하는 단계; 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하는 단계를 포함한다.
일부 실시양태에서 상기 변형은 단백질에 대한 핵산의 결합이다. 일부 실시양태에서, 단백질은 히스톤 또는 전사 인자이다. 일부 실시양태에서, 핵산 변형은 뉴클레오티드에 대한 복제 후 변형이다. 일부 실시양태에서, 복제 후 변형은 5-메틸시토신이고, 핵산에 대한 포획제의 결합 정도는 핵산 내의 5-메틸시토신의 정도에 따라 증가된다. 일부 실시양태에서, 복제 후 변형은 5-히드록시메틸시토신이고, 핵산에 대한 포획제의 결합 정도는 핵산 내의 5-히드록시메틸시토신의 정도에 따라 증가된다. 일부 실시양태에서, 복제 후 변형은 5-포르밀시토신 또는 5-카르복실시토신이고, 포획제의 결합 정도는 핵산 내의 5-포르밀시토신 또는 5-카르복실시토신의 정도에 따라 증가된다. 일부 실시양태에서, 복제 후 변형은 N6-메틸아데닌이다. 일부 실시양태에서, 상기 방법은 상기 작용제와 결합된 핵산을 세척하고, 세척물을, 제1 및 제2 풀과 비교하여 중간 정도로 복제 후 변형을 수반하는 핵산을 포함하는 제3 풀로서 수집하는 것을 추가로 포함한다. 일부 방법은 검정하기 전에, 제1 및 제2 풀로부터 태그부착된 핵산을 풀링하는 것을 추가로 포함한다. 일부 실시양태에서, 상기 작용제는 메틸-결합 도메인 또는 메틸-CpG-결합 도메인 (MBD)을 포함한다. MBD는 단백질, 항체, 또는 관심 변형과 특이적으로 결합할 수 있는 임의의 다른 작용제일 수 있다. 바람직하게, MBD는 자기 비드, 스트렙타비딘, 또는 친화성 분리 단계를 수행하기 위한 다른 결합 도메인을 추가로 포함한다.
본 개시내용은 추가로, 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기를 포함하는 핵산 집단을 분석하는 방법을 제공한다. 이러한 방법은 포획 모이어티, 예를 들어, 비오틴을 집단 내의 핵산과 연결시켜, 증폭을 위한 주형으로서 제공하는 단계; 증폭 반응을 수행하여 상기 주형으로부터 증폭 산물을 생산하는 단계; 포획 모이어티와 연결된 주형을 증폭 산물로부터 분리시키는 단계; 포획 모이어티와 연결된 주형의 서열 데이터를 중아황산염 시퀀싱에 의해 검정하는 단계; 및 증폭 산물의 서열 데이터를 검정하는 단계를 포함한다.
일부 실시양태에서, 포획 모이어티는 비오틴을 포함한다. 일부 실시양태에서, 분리 단계는 상기 주형을 스트렙타비딘 비드와 접촉시킴으로써 수행된다. 일부 실시양태에서 상기 변형된 시토신 잔기는 5-메틸시토신, 5-히드록시메틸 시토신, 5-포르밀 시토신 또는 5-카르복실시토신이다. 일부 실시양태에서, 포획 모이어티는 하나 이상의 변형된 잔기를 포함한 핵산 태그와 연결된 비오틴을 포함한다. 일부 실시양태에서, 포획 모이어티는 절단 가능한 연결을 통해 집단 내의 핵산과 연결된다. 일부 실시양태에서, 절단 가능한 연결은 광 절단 가능한 연결이다. 일부 실시양태에서, 절단 가능한 연결은 우라실 뉴클레오티드를 포함한다.
본 개시내용은 추가로, 상이한 정도의 5-메틸시토신을 수반한 핵산을 포함하는 핵산 집단을 분석하는 방법을 제공한다. 이러한 방법은 (a) 핵산 집단을, 5-메틸화된 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계; (b) 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 5-메틸시토신에 대해 과다표현되고, 제2 풀 내의 핵산이 5-메틸화에 대해 과소표현되는 것인 단계; (c) 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시키는 단계이며, 여기서 제1 풀 내의 핵산과 연결된 핵산 태그가 포획 모이어티 (예를 들어, 비오틴)를 포함하는 것인 단계; (d) 상기 표지된 핵산을 증폭시키는 단계이며, 여기서 핵산 및 상기 연결된 태그가 증폭되는 것인 단계; (e) 포획 모이어티를 보유하는 증폭된 핵산을, 포획 모이어티를 보유하지 않은 증폭된 핵산으로부터 분리시키는 단계; 및 (f) 이와 같이 분리되고 증폭된 핵산의 서열 데이터를 검정하는 단계를 포함한다.
본 개시내용은 추가로, 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법을 제공하며, 이러한 방법은: 집단 내의 핵산을 어댑터와 접촉시켜, 프라이머 결합 부위를 포함하는 어댑터에 의해 플랭킹된 핵산의 집단을 생산하는 단계; 프라이머 결합 부위로부터 프라이밍된 어댑터에 의해 플랭킹된 핵산을 증폭시키는 단계; 이와 같이 증폭된 핵산을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계; 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 상기 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 상기 변형에 대해 과소표현되는 것인 단계; 제1 및 제2 풀 내의 핵산의 제2 증폭 단계를 수행하는 단계; 및 제1 및 제2 풀 내의 상기 증폭된 핵산의 서열 데이터를 검정하는 단계를 포함한다. 각각의 풀의 증폭은 상이한 반응 용기에서 별도로 발생할 수 있다. 풀 특이적 태그를 사용하여, 시퀀싱하기 전에 앰플리콘의 후속 풀링을 허용한다.
본 개시내용은 추가로, 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기를 포함하는 핵산 집단을 분석하는 방법을 제공하며, 이러한 방법은 핵산 집단을, 적어도 하나의 변형된 시토신을 포함하는 프라이머 결합 부위를 포함하는 어댑터와 접촉시켜, 어댑터에 의해 플랭킹된 핵산을 형성하는 단계; 핵산을 플랭킹하는 어댑터 내의 프라이머 결합 부위로부터 프라이밍된 어댑터에 의해 플랭킹된 핵산을 증폭시키는 단계; 이와 같이 증폭된 핵산을 제1 및 제2 분취액으로 분할하는 단계; 제1 분취액의 핵산 상의 서열 데이터를 검정하는 단계; 제2 분취액의 핵산을, 변형되지 않은 시토신 (C)을 우라실 (U)로 전환시켜 주는 중아황산염과 접촉시키는 단계; 상기 핵산을 플랭킹하는 프라이머 결합 부위로부터 프라이밍된 중아황산염 처리로부터 생성된 핵산을 증폭시키는 단계이며, 여기서 중아황산염 처리에 의해 도입된 U가 T로 전환되는 것인 단계; 제2 분취액으로부터 증폭된 핵산 상의 서열 데이터를 검정하는 단계; 제1 분취액 내의 핵산의 서열 데이터와 제2 분취액 내의 핵산의 서열 데이터를 비교하여, 핵산 집단 내의 어떤 뉴클레오티드가 변형된 시토신이었는지를 확인하는 단계를 포함한다.
상기 방법 중 임의의 것에서, 핵산 집단은 체액 샘플, 예컨대 혈액, 혈청, 또는 혈장으로부터의 것일 수 있다. 일부 실시양태에서, 핵산 집단은 무세포 핵산 집단이다. 일부 실시양태에서, 체액 샘플은 암이 있는 것으로 의심되는 대상체로부터의 것이다.
한 측면에서 본원에는 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하는 방법이 제공되며, 여기서 적어도 2가지 형태 각각은 복수 개의 분자를 포함하고, 상기 방법은 상기 핵산 형태 중 적어도 하나를 적어도 하나의 태그 핵산과 연결시켜 이들 형태를 서로 구별하는 단계; 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시키는 단계이며, 여기서 이러한 핵산 및 연결된 핵산 태그가 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 단계; 그 중 적어도 일부가 태그부착되는 상기 증폭된 핵산의 서열 데이터를 검정하는 단계이며, 여기서 검정은 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하기에 충분한 서열 정보를 수득하는 것인 단계를 포함한다. 한 실시양태에서 상기 방법은 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하는 단계를 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 하나 이상의 다른 형태와 비교하여 상기 형태 중 적어도 하나를 풍부화시키는 것을 추가로 포함한다. 또 다른 실시양태에서 상기 집단 내의 각각의 형태의 핵산의 분자의 적어도 70%가 증폭된다. 또 다른 실시양태에서 적어도 3가지 형태의 핵산이 상기 집단 내에 존재하고, 이러한 형태 중 적어도 2가지가 상이한 태그 핵산 형태와 연결되어, 3가지 형태 각각이 서로 구별된다. 또 다른 실시양태에서 집단 내의 적어도 3가지 형태의 핵산 각각이 상이한 태그와 연결된다. 또 다른 실시양태에서 동일한 형태의 각각의 분자는 동일한 태그 정보를 포함하는 태그와 연결된다. 또 다른 실시양태에서 동일한 형태의 분자는 상이한 유형의 태그와 연결된다. 또 다른 실시양태에서 상기 방법은 상기 집단을 태그부착된 프라이머로 역전사시키는 것을 추가로 포함하며, 여기서 태그부착된 프라이머는 상기 집단 내의 RNA로부터 생성된 cDNA 내로 혼입된다. 또 다른 실시양태에서 역전사는 서열 특이적이다. 또 다른 실시양태에서 역전사는 무작위이다. 또 다른 실시양태에서, 상기 방법은 상기 cDNA와 듀플렉스화된 RNA를 분해하는 것을 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 단일 가닥 DNA를 이중 가닥 DNA로부터 분리하고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함한다. 또 다른 실시양태에서 단일 가닥 DNA는 하나 이상의 포획 프로브와 혼성화함으로써 분리된다. 또 다른 실시양태에서 상기 방법은 단일 가닥 DNA를 서클라이가제(circligase)로 환상화시키고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함한다. 또 다른 실시양태에서, 상기 방법은 검정하기 전에, 상이한 형태의 핵산을 포함하는 태그부착된 핵산을 풀링하는 것을 포함한다. 또 다른 실시양태에서 핵산 집단은 체액 샘플로부터의 것이다. 또 다른 실시양태에서 체액 샘플은 혈액, 혈청, 또는 혈장이다. 또 다른 실시양태에서 핵산 집단은 무세포 핵산 집단이다. 또 다른 실시양태에서 체액 샘플은 암이 있는 것으로 의심되는 대상체로부터의 것이다. 또 다른 실시양태에서 서열 데이터는 체세포 또는 배선 변이체의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 카피 수 변이의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시한다.
또 다른 측면에서 본원에는 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법이 제공되며, 이러한 방법은: 핵산 집단을, 상기 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계; 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 상기 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 상기 변형에 대해 과소표현되는 것인 단계; 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시켜, 태그부착된 핵산의 집단을 생산하는 단계; 이와 같이 표지된 핵산을 증폭시키는 단계이며, 여기서 상기 핵산 및 연결된 태그가 증폭되는 것인 단계; 및 상기 증폭된 핵산 및 연결된 태그의 서열 데이터를 검정하는 단계이며, 여기서 검정은 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하기 위한 서열 데이터를 수득하는 것인 단계를 포함한다. 한 실시양태에서 상기 방법은 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하는 단계를 포함한다. 또 다른 실시양태에서 상기 변형은 단백질에 대한 핵산의 결합이다. 또 다른 실시양태에서 단백질은 히스톤 또는 전사 인자이다. 또 다른 실시양태에서 상기 변형은 뉴클레오티드에 대한 복제 후 변형이다. 또 다른 실시양태에서 복제 후 변형은 5-메틸-시토신이고, 핵산에 대한 상기 작용제의 결합 정도는 핵산 내의 5-메틸-시토신의 정도에 따라 증가된다. 또 다른 실시양태에서 복제 후 변형은 5-히드록시메틸-시토신이고, 핵산에 대한 상기 작용제의 결합 정도는 핵산 내의 5-히드록시메틸-시토신의 정도에 따라 증가된다. 또 다른 실시양태에서 복제 후 변형은 5-포르밀-시토신 또는 5-카르복실-시토신이고, 상기 작용제의 결합 정도는 핵산 내의 5-포르밀-시토신 또는 5-카르복실-시토신의 정도에 따라 증가된다. 또 다른 실시양태에서 상기 방법은 상기 작용제와 결합된 핵산을 세척하고, 세척물을, 제1 및 제2 풀과 비교하여 중간 정도로 복제 후 변형을 수반하는 핵산을 포함한 제3 풀로서 수집하는 것을 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 검정하기 전에, 제1 및 제2 풀로부터 태그부착된 핵산을 풀링하는 것을 포함한다. 또 다른 실시양태에서 상기 작용제는 5-메틸-결합 도메인 자기 비드이다. 또 다른 실시양태에서 핵산 집단은 체액 샘플로부터의 것이다. 또 다른 실시양태에서 체액 샘플은 혈액, 혈청, 또는 혈장이다. 또 다른 실시양태에서 핵산 집단은 무세포 핵산 집단이다. 또 다른 실시양태에서 체액 샘플은 암이 있는 것으로 의심되는 대상체로부터의 것이다. 또 다른 실시양태에서 서열 데이터는 체세포 또는 배선 변이체의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 카피 수 변이의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시한다.
또 다른 측면에서 본원에는 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기를 포함하는 핵산 집단을 분석하는 방법이 제공되며, 이러한 방법은 포획 모이어티를 집단 내의 핵산과 연결시키는 단계이며, 이러한 핵산이 증폭을 위한 주형으로서 제공되는 것인 단계; 증폭 반응을 수행하여 상기 주형으로부터 증폭 산물을 생산하는 단계; 포획 태그와 연결된 주형을 증폭 산물로부터 분리시키는 단계; 포획 태그와 연결된 주형의 서열 데이터를 중아황산염 시퀀싱에 의해 검정하는 단계; 및 증폭 산물의 서열 데이터를 검정하는 단계를 포함한다. 한 실시양태에서 포획 모이어티는 비오틴을 포함한다. 또 다른 실시양태에서 분리 단계는 상기 주형을 스트렙타비딘 비드와 접촉시킴으로써 수행된다. 또 다른 실시양태에서 상기 변형된 시토신 잔기는 5-메틸시토신, 5-히드록시메틸 시토신, 5-포르밀 시토신 또는 5-카르복실 시토신이다. 또 다른 실시양태에서 포획 모이어티는 하나 이상의 변형된 잔기를 포함한 핵산 태그와 연결된 비오틴을 포함한다. 또 다른 실시양태에서 포획 모이어티는 절단 가능한 연결을 통해 집단 내의 핵산과 연결된다. 또 다른 실시양태에서 절단 가능한 연결은 광 절단 가능한 연결이다. 또 다른 실시양태에서 절단 가능한 연결은 우라실 뉴클레오티드를 포함한다. 또 다른 실시양태에서 핵산 집단은 체액 샘플로부터의 것이다. 또 다른 실시양태에서 체액 샘플은 혈액, 혈청, 또는 혈장이다. 또 다른 실시양태에서 핵산 집단은 무세포 핵산 집단이다. 또 다른 실시양태에서 체액 샘플은 암이 있는 것으로 의심되는 대상체로부터의 것이다. 또 다른 실시양태에서 서열 데이터는 체세포 또는 배선 변이체의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 카피 수 변이의 존재를 표시한다. 또 다른 실시양태에서 서열 데이터는 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시한다.
또 다른 측면에서 본원에는 상이한 정도의 5-메틸화를 수반한 핵산을 포함하는 핵산 집단을 분석하는 방법이 제공되며, 이러한 방법은: 핵산 집단을, 5-메틸화된 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계; 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 5-메틸화에 대해 과다표현되고, 제2 풀 내의 핵산이 5-메틸화에 대해 과소표현되는 것인 단계; 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시키는 단계이며, 여기서 제1 풀 내의 핵산과 연결된 핵산 태그가 포획 모이어티 (예를 들어, 비오틴)를 포함하는 것인 단계; 상기 표지된 핵산을 증폭시키는 단계이며, 여기서 핵산 및 연결된 태그가 증폭되는 것인 단계; 포획 모이어티를 보유하는 증폭된 핵산을, 포획 모이어티를 보유하지 않은 증폭된 핵산으로부터 분리시키는 단계; 및 이와 같이 분리되고 증폭된 핵산의 서열 데이터를 검정하는 단계를 포함한다.
또 다른 측면에서 본원에는 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법이 제공되며, 이러한 방법은: 집단 내의 핵산을 어댑터와 접촉시켜, 프라이머 결합 부위를 포함하는 어댑터에 의해 플랭킹된 핵산의 집단을 생산하는 단계; 프라이머 결합 부위로부터 프라이밍된 어댑터에 의해 플랭킹된 핵산을 증폭시키는 단계; 이와 같이 증폭된 핵산을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계; 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 상기 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 상기 변형에 대해 과소표현되는 것인 단계; 제1 및 제2 풀 내의 태그부착된 핵산의 병렬 증폭을 수행하는 단계; 및 제1 및 제2 풀 내의 상기 증폭된 핵산의 서열 데이터를 검정하는 단계를 포함한다. 또 다른 실시양태에서 어댑터는 헤어핀 어댑터이다.
또 다른 측면에서 본원에는 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기를 포함하는 핵산 집단을 분석하는 방법이 제공되며, 이러한 방법은 핵산 집단을, 변형된 시토신을 포함하는 프라이머 결합 부위를 포함하는 어댑터와 접촉시켜, 어댑터에 의해 플랭킹된 핵산을 형성하는 단계; 핵산을 플랭킹하는 어댑터 내의 프라이머 결합 부위로부터 프라이밍된 어댑터에 의해 플랭킹된 핵산을 증폭시키는 단계; 이와 같이 증폭된 핵산을 제1 및 제2 분취액으로 분할하는 단계; 제1 분취액의 핵산 상의 서열 데이터를 검정하는 단계; 제2 분취액의 핵산을, 변형되지 않은 C를 U로 전환시켜 주는 중아황산염과 접촉시키는 단계; 상기 핵산을 플랭킹하는 프라이머 결합 부위로부터 프라이밍된 중아황산염 처리로부터 생성된 핵산을 증폭시키는 단계이며, 여기서 중아황산염 처리에 의해 도입된 U가 T로 전환되는 것인 단계; 및 제2 분취액으로부터 증폭된 핵산의 서열 데이터를 검정하는 단계이며, 여기서 검정은 제1 분취액 내의 핵산의 서열 데이터와 제2 분취액 내의 핵산의 서열 데이터를 비교하여, 핵산 집단 내의 어떤 뉴클레오티드가 변형된 시토신이었는지를 확인하기 위해 사용될 수 있는 서열 데이터를 생산하는 것인 단계를 포함한다. 한 실시양태에서 상기 방법은 제1 분취액 내의 핵산의 서열 데이터와 제2 분취액 내의 핵산의 서열 데이터를 비교하여, 핵산 집단 내의 어떤 뉴클레오티드가 변형된 시토신이었는지를 확인하는 것을 포함한다. 또 다른 실시양태에서 어댑터는 헤어핀 어댑터이다.
또 다른 측면에서 본원에는 인간 샘플로부터 DNA 분자를 물리적으로 분획화하여 2개 이상의 파티션을 생성하는 단계; 차별적 분자 태그 및 NGS 가능 어댑터를 상기 2개 이상의 파티션 각각에 적용하여 분자 태그부착된 파티션을 생성하는 단계; 차별적으로 분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 생성하기 위해 NGS 기기 상의 분자 태그부착된 파티션을 검정하는 단계를 포함하는 방법이 제공된다. 한 실시양태에서 상기 방법은 차별적으로 분할시킨 분자로 샘플을 디콘볼루션함으로써 서열 데이터를 분석하는 것을 추가로 포함한다. 또 다른 실시양태에서 DNA 분자는 추출된 혈장으로부터의 것이다. 또 다른 실시양태에서 물리적 분획화는 다양한 정도의 메틸화에 근거하여 분자를 분획화하는 것을 포함한다. 또 다른 실시양태에서 다양한 정도의 메틸화는 과다메틸화 및 과소메틸화를 포함한다. 또 다른 실시양태에서 물리적으로 분획화하는 것은 다양한 정도의 메틸화로 계층화하기 위한 메틸-결합 도메인 단백질 ("MBD")-비드로 분획화하는 것을 포함한다. 또 다른 실시양태에서 차별적 분자 태그는 MBD-파티션에 상응하는 상이한 세트의 분자 태그이다. 또 다른 실시양태에서 물리적 분획화는 면역침전을 이용하여 DNA 분자를 분리하는 것을 포함한다. 또 다른 실시양태에서 상기 방법은 상기 생성된 분자 태그부착된 분획의 2개 이상의 분자 태그부착된 분획을 재조합하는 것을 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 이와 같이 재조합된 분자 태그부착된 분획 또는 군을 풍부화시키는 것을 추가로 포함한다. 또 다른 실시양태에서 하나 이상의 특징이 메틸화이다. 또 다른 실시양태에서 분획화는 메틸-결합 도메인을 포함하는 단백질을 사용하여 메틸화된 핵산을 비-메틸화된 핵산으로부터 분리시켜, 다양한 정도의 메틸화를 포함하는 핵산 분자의 군을 생성하는 것을 포함한다. 또 다른 실시양태에서 이러한 군 중 하나는 과다메틸화된 DNA를 포함한다. 또 다른 실시양태에서 적어도 하나의 군은 메틸화 정도를 특징으로 한다. 또 다른 실시양태에서 분획화는 단백질 결합된 핵산을 단리하는 것을 포함한다. 또 다른 실시양태에서 이와 같이 단리하는 것은 면역침전을 포함한다.
또 다른 측면에서 본원에는 NGS를 통하여 MBD-비드 분획화된 라이브러리의 분자 태그 식별을 위한 방법이 제공되며, 이러한 방법은: 추출된 DNA 샘플을, 메틸-결합 도메인 단백질-비드 정제 키트를 사용하여 물리적 분획화하여, 하류 프로세싱을 위해 모든 용출액을 모으는 단계; 차별적 분자 태그 및 NGS 가능 어댑터 서열을 각각의 분획 또는 군에 병렬 적용하는 단계; 모든 분자 태그부착된 분획 또는 군을 재조합하고, 어댑터-특이적 DNA 프라이머 서열을 사용하여 후속 증폭시키는 단계; (d) 재조합되고 증폭된 전체 라이브러리를 풍부화/혼성화하여, 관심 게놈 영역을 표적화하는 단계; 상기 풍부화된 전체 DNA 라이브러리를 재증폭하여, 샘플 태그를 첨부하는 단계; 및 상이한 샘플을 풀링하고, NGS 기기 상의 멀티플렉스에서 검정하는 단계이며, 여기서 상기 기기에 의해 생산된 NGS 서열 데이터가, 독특한 분자를 확인하기 위해 사용되는 분자 태그의 서열과, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 제공하는 것인 단계를 포함한다. 한 실시양태에서 상기 방법은 독특한 분자를 확인하는 데 사용되는 분자 태그와 함께, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하는 것을 이용하여 NGS 데이터의 분석을 수행하는 것을 포함한다. 또 다른 실시양태에서 분획화는 물리적 분획화를 포함한다. 또 다른 실시양태에서 핵산 분자의 집단은 메틸화 상태, 글리코실화 상태, 히스톤 변형, 길이 및 출발/정지 위치로 이루어진 군으로부터 선택된 하나 이상의 특징에 근거하여 분할된다. 또 다른 실시양태에서 상기 방법은 핵산 분자를 풀링하는 것을 추가로 포함한다. 또 다른 실시양태에서 분획화는 모노뉴클레오솜 프로파일 상의 차이에 근거하여 분획화하는 것을 포함한다. 또 다른 실시양태에서 분획화는 정상과 비교될 때 핵산 분자의 적어도 하나의 군에 대한 상이한 모노뉴클레오솜 프로파일을 생성할 수 있다. 또 다른 실시양태에서 상기 방법은 상이한 특징에 근거하여 핵산 분자의 적어도 하나의 군을 분획화하는 것을 추가로 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서, 핵산 분자의 제1 군에 상응하는 제1 특징을, 핵산 분자의 제2 군에 상응하는 제2 특징과 비교하는 것을 포함한다. 또 다른 실시양태에서 핵산 분자는 순환 종양 DNA이다. 또 다른 실시양태에서 핵산 분자는 무세포 DNA ("cfDNA")이다. 또 다른 실시양태에서 태그는 동일한 샘플 내의 상이한 분자를 구별하기 위해 사용된다. 또 다른 실시양태에서 하나 이상의 특징이 암 마커이다.
또 다른 측면에서 본원에는 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계; 하나 이상의 특징에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계; 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계; 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계; 핵산 분자의 복수 개의 군 각각에 대한 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 결합 DNA-단백질 상호 작용에 관한 상대적 정보를 생성하기에 충분한 데이터를 함유하는 단계를 포함하는 방법이 제공된다. 한 실시양태에서 상기 방법은 핵산 분자의 복수 개의 군 각각에 대한 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 결합 DNA-단백질 상호 작용에 관한 상대적 정보를 생성하기 위해 서열 판독물을 분석하는 것을 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 하나 이상의 특징에 근거하여 상기 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함한다. 또 다른 실시양태에서 하나 이상의 특징은 맵핑된 판독물의 정량적 특징을 포함한다. 또 다른 실시양태에서 분획화는 물리적 분획화를 포함한다. 또 다른 실시양태에서 상기 방법은 핵산 분자를 풀링하는 것을 추가로 포함한다. 또 다른 실시양태에서 분획화는 모노뉴클레오솜 프로파일 상의 차이에 근거하여 분획화하는 것을 포함한다. 또 다른 실시양태에서 분획화는 정상과 비교될 때 핵산 분자의 적어도 하나의 군에 대한 상이한 모노뉴클레오솜 프로파일을 생성할 수 있다. 또 다른 실시양태에서 상기 방법은 상이한 특징에 근거하여 핵산 분자의 적어도 하나의 군을 분획화하는 것을 추가로 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서, 핵산 분자의 제1 군에 상응하는 제1 특징을, 핵산 분자의 제2 군에 상응하는 제2 특징과 비교하는 것을 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서 정상 샘플과 비교하여 특정 군에서의 하나 이상의 특징 중 특정 특징을 분석하는 것을 포함한다. 또 다른 실시양태에서 하나 이상의 특징은: 참조 서열 상의 염기 위치에서의 염기 호출 빈도, 참조 서열 상의 하나의 염기 또는 서열에 맵핑하는 분자의 수, 참조 서열 상의 염기 위치에 맵핑하는 출발 부위를 갖는 분자의 수, 및 참조 서열 상의 염기 위치에 맵핑하는 정지 부위를 갖는 분자의 수, 및 참조 서열 상의 유전자 자리에 맵핑하는 분자의 길이로 이루어진 군으로부터 선택된다. 또 다른 실시양태에서 상기 방법은 하나 이상의 특징에 근거하여 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함한다. 또 다른 실시양태에서 훈련된 분류자는 하나 이상의 특징을 대상체 내의 조직과 연관된 것으로서 분류한다. 또 다른 실시양태에서 훈련된 분류자는 하나 이상의 특징을 대상체 내의 암 유형과 연관된 것으로서 분류한다. 또 다른 실시양태에서 하나 이상의 특징은 유전자 발현 또는 질환의 상태를 표시한다. 또 다른 실시양태에서 핵산 분자는 순환 종양 DNA이다. 또 다른 실시양태에서 핵산 분자는 무세포 DNA ("cfDNA")이다. 또 다른 실시양태에서 태그는 동일한 샘플 내의 상이한 분자를 구별하기 위해 사용된다. 또 다른 실시양태에서 하나 이상의 특징이 암 마커이다.
또 다른 측면에서 본원에는 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계; 메틸화 상태에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계; 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계; 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계; 및 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하는 단계이며, 여기서 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 단계를 포함하는 방법이 제공된다. 또 다른 실시양태에서 상기 방법은 하나 이상의 특징에 근거하여 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함한다. 또 다른 실시양태에서 하나 이상의 특징은 맵핑된 판독물의 정량적 특징을 포함한다. 또 다른 실시양태에서 분획화는 물리적 분획화를 포함한다. 또 다른 실시양태에서 상기 방법은 핵산 분자를 풀링하는 것을 추가로 포함한다. 또 다른 실시양태에서 분획화는 모노뉴클레오솜 프로파일 상의 차이에 근거하여 분획화하는 것을 포함한다. 또 다른 실시양태에서 분획화는 정상과 비교할 때 핵산 분자의 적어도 하나의 군에 대한 상이한 모노뉴클레오솜 프로파일을 생성할 수 있다. 또 다른 실시양태에서 상기 방법은 상이한 특징에 근거하여 핵산 분자의 적어도 하나의 군을 분획화하는 것을 추가로 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서, 핵산 분자의 제1 군에 상응하는 제1 특징을, 핵산 분자의 제2 군에 상응하는 제2 특징과 비교하는 것을 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서 정상 샘플과 비교하여 특정 군에서의 하나 이상의 특징 중 특정 특징을 분석하는 것을 포함한다. 또 다른 실시양태에서 하나 이상의 특징은: 참조 서열 상의 염기 위치에서의 염기 호출 빈도, 참조 서열 상의 하나의 염기 또는 서열에 맵핑하는 분자의 수, 참조 서열 상의 염기 위치에 맵핑하는 출발 부위를 갖는 분자의 수, 및 참조 서열 상의 염기 위치에 맵핑하는 정지 부위를 갖는 분자의 수, 및 참조 서열 상의 유전자 자리에 맵핑하는 분자의 길이로 이루어진 군으로부터 선택된다. 또 다른 실시양태에서 상기 방법은 하나 이상의 특징에 근거하여 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함한다. 또 다른 실시양태에서 훈련된 분류자는 하나 이상의 특징을 대상체 내의 조직과 연관된 것으로서 분류한다. 또 다른 실시양태에서 훈련된 분류자는 하나 이상의 특징을 대상체 내의 암 유형과 연관된 것으로서 분류한다. 또 다른 실시양태에서 하나 이상의 특징은 유전자 발현 또는 질환의 상태를 표시한다. 또 다른 실시양태에서 핵산 분자는 순환 종양 DNA이다. 또 다른 실시양태에서 핵산 분자는 무세포 DNA ("cfDNA")이다. 또 다른 실시양태에서 태그는 동일한 샘플 내의 상이한 분자를 구별하기 위해 사용된다. 또 다른 실시양태에서 하나 이상의 특징이 암 마커이다.
또 다른 측면에서 본원에는 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계; 핵산 분자의 집단을 분획화하여, 단백질 결합된 무세포 핵산을 포함하는 핵산 분자의 복수 개의 군을 생성하는 단계; 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계; 및 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계이며, 여기서 수득된 서열 정보가 참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하기에 충분하고; 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하기에 충분하고, 여기서 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 단계를 포함하는 방법이 제공된다. 한 실시양태에서 상기 방법은 참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하는 단계; 및 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하는 단계이며, 여기서 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 단계를 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 하나 이상의 특징에 근거하여 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함한다. 또 다른 실시양태에서 하나 이상의 특징은 맵핑된 판독물의 정량적 특징을 포함한다. 또 다른 실시양태에서 분획화는 물리적 분획화를 포함한다. 또 다른 실시양태에서 핵산 분자의 집단은: 메틸화 상태, 글리코실화 상태, 히스톤 변형, 길이 및 출발/정지 위치로 이루어진 군으로부터 선택된 하나 이상의 특징에 근거하여 분할된다. 또 다른 실시양태에서 상기 방법은 핵산 분자를 풀링하는 것을 추가로 포함한다. 또 다른 실시양태에서 하나 이상의 특징은 메틸화이다. 또 다른 실시양태에서 분획화는 메틸-결합 도메인을 포함하는 단백질을 사용하여, 메틸화된 핵산을 비-메틸화된 핵산으로부터 분리시켜 다양한 정도의 메틸화를 포함하는 핵산 분자의 군을 생성시키는 것을 포함한다. 또 다른 실시양태에서 상기 군 중 하나는 과다메틸화된 DNA를 포함한다. 또 다른 실시양태에서 적어도 하나의 군은 메틸화 정도를 특징으로 한다. 또 다른 실시양태에서 분획화는 단일 가닥 DNA 분자 및/또는 이중 가닥 DNA 분자를 분리하는 것을 포함한다. 또 다른 실시양태에서 이중 가닥 DNA 분자는 헤어핀 어댑터를 사용하여 분리된다. 또 다른 실시양태에서 분획화는 단백질 결합된 핵산을 단리하는 것을 포함한다. 또 다른 실시양태에서 분획화는 모노뉴클레오솜 프로파일 상의 차이에 근거하여 분획화하는 것을 포함한다. 또 다른 실시양태에서 분획화는 정상과 비교할 때 핵산 분자의 적어도 하나의 군에 대한 상이한 모노뉴클레오솜 프로파일을 생성할 수 있다. 또 다른 실시양태에서 상기와 같이 단리하는 것은 면역침전을 포함한다. 또 다른 실시양태에서 상기 방법은 상이한 특징에 근거하여 핵산 분자의 적어도 하나의 군을 분획화하는 것을 추가로 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서, 핵산 분자의 제1 군에 상응하는 제1 특징을, 핵산 분자의 제2 군에 상응하는 제2 특징과 비교하는 것을 포함한다. 또 다른 실시양태에서 분석하는 것은 하나 이상의 유전자 자리에서 정상 샘플과 비교하여 특정 군에서의 하나 이상의 특징 중 특정 특징을 분석하는 것을 포함한다. 또 다른 실시양태에서 하나 이상의 특징은: 참조 서열 상의 염기 위치에서의 염기 호출 빈도, 참조 서열 상의 하나의 염기 또는 서열에 맵핑하는 분자의 수, 참조 서열 상의 염기 위치에 맵핑하는 출발 부위를 갖는 분자의 수, 및 참조 서열 상의 염기 위치에 맵핑하는 정지 부위를 갖는 분자의 수, 및 참조 서열 상의 유전자 자리에 맵핑하는 분자의 길이로 이루어진 군으로부터 선택된다. 또 다른 실시양태에서 상기 방법은 하나 이상의 특징에 근거하여 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함한다. 또 다른 실시양태에서 훈련된 분류자는 하나 이상의 특징을 대상체 내의 조직과 연관된 것으로서 분류한다. 또 다른 실시양태에서 훈련된 분류자는 하나 이상의 특징을 대상체 내의 암 유형과 연관된 것으로서 분류한다. 또 다른 실시양태에서 하나 이상의 특징은 유전자 발현 또는 질환의 상태를 표시한다. 또 다른 실시양태에서 핵산 분자는 순환 종양 DNA이다. 또 다른 실시양태에서 핵산 분자는 무세포 DNA ("cfDNA")이다. 또 다른 실시양태에서 태그는 동일한 샘플 내의 상이한 분자를 구별하기 위해 사용된다.
또 다른 측면에서 본원에는 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계; 하나 이상의 특징에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계; 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계; 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계이며, 여기서 수득된 서열 정보가 참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하기에 충분한 것인 단계; 및 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하는 단계이며, 여기서 하나 이상의 특징이 상기 복수 개의 군으로부터의 서열 판독물의 풀에서 검출될 수 없는 것인 단계를 포함하는 방법이 제공된다. 한 실시양태에서 상기 방법은 참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하는 단계; 및 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하는 단계이며, 여기서 하나 이상의 특징이 상기 복수 개의 군으로부터의 서열 판독물의 풀에서 검출될 수 없는 것인 단계를 추가로 포함한다. 또 다른 실시양태에서 분획화는 물리적 분획화를 포함한다.
또 다른 측면에서 본원에는 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계; 하나 이상의 특징에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계이며, 여기서 복수 개의 군 각각의 핵산 분자가 별개의 식별자를 포함하는 것인 단계; 핵산 분자의 복수 개의 군을 풀링하는 단계; 이와 같이 풀링된 핵산 분자의 복수 개의 군을 시퀀싱하여 복수 개의 서열 판독물 세트를 생성하는 단계; 및 상기 식별자에 근거하여 서열 판독물을 분획화하는 단계를 포함하는 방법이 제공된다.
또 다른 측면에서 본원에는 상이하게 태그부착된 핵산 분자를 포함하는 핵산 분자의 풀을 포함하는 조성물이 제공되며, 여기서 이러한 풀은 메틸화 상태, 글리코실화 상태, 히스톤 변형, 길이 및 출발/정지 위치로 이루어진 군으로부터 선택된 하나 이상의 특징에 근거하여 상이하게 태그부착되는 핵산 분자의 복수 개의 세트를 포함하고, 상기 풀은 생물학적 샘플로부터 유래된다. 한 실시양태에서 복수 개의 세트는 2, 3, 4, 5개 또는 5개 초과 중 임의의 것이다.
또 다른 측면에서 본원에는 핵산 분자의 집단을 복수 개의 군이 되도록 분획화하는 단계이며, 복수 개의 군은 특정 특징에 의해 상이한 핵산을 포함하는 것인 단계; 복수 개의 군 각각에서의 핵산을, 이러한 복수 개의 군 각각에서의 핵산을 구별시켜 주는 태그 세트로 태그부착하여, 태그부착된 핵산의 집단을 생산하는 단계이며, 여기서 각각의 태그부착된 핵산이 하나 이상의 태그를 포함하는 것인 단계; 태그부착된 핵산의 집단을 시퀀싱하여 서열 판독물을 생성하는 단계; 각각의 군의 서열 판독물을 나누기 위해 하나 이상의 태그를 사용하는 단계; 및 정상 샘플 또는 분류자와 비교하여 상기 군 중 적어도 하나에서의 시그널을 검출하기 위해 서열 판독물을 분석하는 단계를 포함하는 방법이 제공된다. 한 실시양태에서 상기 방법은 또 다른 군 또는 전체 게놈 서열에 대항하여 상기 군 중 적어도 하나에서의 시그널을 정규화하는 것을 추가로 포함한다.
또 다른 측면에서 본원에는 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계; 비-암성 세포와 비교해서 암성 세포로부터 유래된 무세포 DNA에 상이한 수준으로 존재하는 특징에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계; 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 증폭시키는 단계; 및 이와 같이 증폭된 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱하는 단계를 포함하는 방법이 제공된다. 한 실시양태에서 상기 특징은: 무세포 DNA의 메틸화 수준; 무세포 DNA의 글리코실화 수준; 무세포 DNA 단편의 길이; 또는 무세포 DNA 내에서의 단일 가닥 절단물의 존재이다.
또 다른 측면에서 본원에는 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계; 무세포 DNA의 메틸화 수준에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계; 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 증폭시키는 단계; 및 이와 같이 증폭된 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱하는 단계를 포함하는 방법이 제공된다.
또 다른 측면에서 본원에는 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계; 무세포 DNA의 메틸화 수준에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계; 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱함으로써, 서열 판독물을 생성하는 단계; 및 상응하는 서열 판독물이 발생하는 하위 집단에 따라서 각각의 무세포 DNA에 메틸화 상태를 배정하는 단계를 포함하는, 무세포 DNA의 메틸화 상태를 결정하는 방법이 제공된다.
또 다른 측면에서 본원에는 대상체를 분류하는 방법이 제공되며, 여기서 이러한 방법은: 대상체로부터의 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계; 무세포 DNA의 메틸화 수준에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계; 무세포 DNA의 하위 집단을 시퀀싱함으로써, 서열 판독물을 생성하는 단계; 및 서열 판독물이 어느 하위 집단에서 발생하는 지에 따라서 대상체를 분류하기 위해 훈련된 분류자를 이용하는 단계를 포함한다. 또 다른 실시양태에서 무세포 DNA의 집단은 건강한 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 하나 이상의 특징에 의해 분획화된다. 또 다른 실시양태에서 무세포 DNA의 집단은 무세포 DNA의 메틸화 수준에 근거하여 분획화된다. 또 다른 실시양태에서 무세포 DNA의 단편화 패턴을 결정하는 것은 참조 게놈 내의 각각의 염기 위치에 맵핑하는 서열 판독물의 수를 분석하는 것을 추가로 포함한다. 또 다른 실시양태에서 상기 방법은 참조 게놈 내의 각각의 염기 위치에 맵핑하는 서열 판독물의 수를 분석함으로써 각각의 하위 집단 내의 무세포 DNA의 단편화 패턴을 결정하는 것을 추가로 포함한다.
또 다른 측면에서 본원에는 무세포 DNA의 단편화 패턴을 분석하는 방법이 제공되며, 이러한 방법은: 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계; 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계; 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱함으로써, 서열 판독물을 생성하는 단계; 상기 서열 판독물을 참조 게놈에 정렬하는 단계; 및 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이; 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수; 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 또는 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수 중 임의의 수를 분석함으로써, 각각의 하위 집단 내에서의 무세포 DNA의 단편화 패턴을 결정하는 단계를 포함한다. 또 다른 실시양태에서 하나 이상의 특징은 메틸화, 히드록시메틸화, 포르밀화, 아세틸화, 및 글리코실화로 이루어진 군으로부터 선택된 화학적 변형을 포함한다.
본원에 기재된 방법 중 임의의 것은 DNA:비드의 비율이 1:100이다.
본원에 기재된 방법 중 임의의 것은 DNA:비드의 비율이 1:50이다.
본원에 기재된 방법 중 임의의 것은 DNA:비드의 비율이 1:20이다.
한 측면에서 본원에는 유전자 발현 또는 질환 상태를 결정하기 위해 순환 종양 DNA (ctDNA)의 분석 동안 DNA 메틸화의 정도에 근거한 물리적 분획화의 용도가 제공된다.
한 측면에서 본원에는 ctDNA의 분석 동안 ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도가 제공된다.
한 측면에서 본원에는 ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도가 제공된다.
한 측면에서 본원에는 시퀀싱 및 임의적 하류 분석 전에, ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도가 제공된다.
한 측면에서 본원에는 차별적 표지화/태그부착을 위하여 ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도가 제공된다. 한 실시양태에서 차별적 단편화 패턴은 유전자 발현 또는 질환 상태를 표시한다. 또 다른 실시양태에서 차별적 단편화 패턴은 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이; 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수; 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 및 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수로 이루어진 군으로부터 선택된, 정상과 비교하여 하나 이상의 차이를 특징으로 한다.
한 측면에서 본원에는 ctDNA의 분석 동안 차별적 단편화 패턴에 근거한 분획화의 용도가 제공된다. 한 실시양태에서 차별적 단편화 패턴은 유전자 발현 또는 질환 상태를 표시한다. 또 다른 실시양태에서 차별적 단편화 패턴은 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이; 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수; 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 및 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수로 이루어진 군으로부터 선택된, 정상과 비교하여 하나 이상의 차이를 특징으로 한다.
한 측면에서 본원에는 ctDNA를 분할하기 위한 차별적 단편화 패턴의 용도가 제공된다. 한 실시양태에서 차별적 단편화 패턴은 유전자 발현 또는 질환 상태를 표시한다. 또 다른 실시양태에서 차별적 단편화 패턴은 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이; 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수; 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 및 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수로 이루어진 군으로부터 선택된, 정상과 비교하여 하나 이상의 차이를 특징으로 한다.
한 측면에서 본원에는 시퀀싱 및 임의적 하류 분석 전에, ctDNA를 분할하기 위한 차별적 단편화 패턴의 용도가 제공된다. 한 실시양태에서 차별적 단편화 패턴은 유전자 발현 또는 질환 상태를 표시한다. 또 다른 실시양태에서 차별적 단편화 패턴은 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이; 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수; 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 및 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수로 이루어진 군으로부터 선택된, 정상과 비교하여 하나 이상의 차이를 특징으로 한다.
한 측면에서 본원에는 차별적 표지화/태그부착을 위하여 ctDNA를 분할하기 위한 차별적 단편화 패턴의 용도가 제공된다.
한 측면에서 본원에는 다양한 정도의 DNA 메틸화가 되도록 계층화하기 위해 분자 결합 도메인 (MBD)-비드에 의해 분할된 다음 차세대 시퀀싱 (NGS)에 의해 정량화되는 DNA 분자의 차별적 분자 태그부착의 용도가 제공된다.
한 측면에서 본원에는 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하는 방법이 제공되며, 여기서 적어도 2가지 형태 각각은 복수 개의 분자를 포함하고, 상기 방법은: 상기 핵산 형태 중 적어도 하나를 적어도 하나의 태그 핵산과 연결시켜 이들 형태를 서로 구별하는 단계; 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시키는 단계이며, 여기서 이러한 핵산 및 연결된 핵산 태그가 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 단계; 및 태그와 연결된 복수 개의 증폭된 핵산을 시퀀싱하는 단계이며, 여기서 서열 데이터가 적어도 하나의 태그와 연결되기 전에 집단 내의 핵산의 형태를 밝히기 위해 디코딩하기에 충분한 것인 단계를 포함한다. 한 실시양태에서 분자 태그는 1개 또는 복수 개의 핵산 바코드를 포함한다. 또 다른 실시양태에서 세트 내의 임의의 2개의 바코드의 조합인 태그부착된 핵산 분자의 풀은 임의의 다른 세트 내의 임의의 2개의 바코드의 조합과 상이한 조합된 서열을 갖는다.
또 다른 측면에서 본원에는 태그부착된 핵산 분자의 풀이 제공되며, 이러한 풀 내의 각각의 핵산 분자는 복수 개의 태그 세트 중 하나로부터 선택된 분자 태그를 포함하고, 각각의 태그 세트는 복수 개의 상이한 태그를 포함하고, 여기서 어느 하나의 세트 내의 태그는 임의의 다른 세트 내의 태그와 완전히 다르고, 각각의 태그 세트는 (i) 그것이 부착되는 분자 또는 그 분자가 유래되는 모 분자의 특징을 표시하는 정보 및 (ii) 단독으로 또는 그것이 부착되는 분자로부터의 정보와 조합하여, 그것이 부착되는 분자를, 동일한 태그 세트로부터의 태그로 태그부착된 다른 분자와 독특하게 구별시켜 주는 정보를 함유한다. 한 실시양태에서 분자 태그는 분자의 반대쪽 끝에 부착된 2개의 핵산 바코드를 포함한다. 또 다른 실시양태에서 바코드는 길이가 10 내지 30개의 뉴클레오티드이다.
또 다른 측면에서 본원에는 핵산 서열 분석기; 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 핵산 서열 분석기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크를 포함하는 시스템이 제공되며, 여기서 디지털 처리 장치는 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하기 위한 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함하고, 상기 적어도 2가지 형태 각각은 복수 개의 분자를 포함하고, 상기 애플리케이션은: 상기 데이터 링크를 통해 상기 핵산 서열 분석기로부터, 그 중 적어도 일부가 태그부착되는 증폭된 핵산의 서열 데이터를 수신하는 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 상기 핵산의 형태 중 적어도 하나를 적어도 하나의 태그부착된 핵산과 연결시켜 이들 형태를 서로 구별해 주고, 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시킴으로써 생성되며, 여기서 이러한 핵산 및 연결된 핵산 태그가 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 소프트웨어 모듈; 및 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그부착된 핵산 분자를 디코딩하기에 충분한 서열 정보를 수득함으로써, 상기 증폭된 핵산의 서열 데이터를 검정하는 소프트웨어 모듈을 포함한다. 한 실시양태에서 상기 애플리케이션은 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그부착된 핵산 분자를 디코딩하는 소프트웨어 모듈을 추가로 포함한다. 또 다른 실시양태에서 상기 애플리케이션은 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함한다.
또 다른 측면에서 본원에는 차세대 시퀀싱 (NGS) 기기; 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크를 포함하는 시스템이 제공되며; 여기서, 디지털 처리 장치는 하기를 포함하는 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함한다: 상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하기 위한 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 인간 샘플로부터 DNA 분자를 물리적으로 분획화하여 2개 이상의 파티션을 생성시키고, 차별적 분자 태그 및 NGS 가능 어댑터를 2개 이상의 파티션 각각에 적용하여 분자 태그부착된 파티션을 생성하며, 이러한 분자 태그부착된 파티션을 NGS 기기로 검정함으로써 생성되는 것인 소프트웨어 모듈; 상기 샘플을, 차별적으로 분할시킨 분자로 디콘볼루션하기 위해 서열 데이터를 생성하기 위한 소프트웨어 모듈; 및 상기 샘플을, 차별적으로 분할시킨 분자로 디콘볼루션함으로써 서열 데이터를 분석하기 위한 소프트웨어 모듈. 한 실시양태에서 상기 애플리케이션은 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함한다.
또 다른 측면에서 본원에는 차세대 시퀀싱 (NGS) 기기; 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크를 포함하는 시스템이 제공되며; 여기서, 디지털 처리 장치는 MBD-비드 분획화된 라이브러리의 분자 태그 식별을 위한 하기를 포함하는 애플리케이션을 창출하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령을 추가로 포함한다: 상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하도록 설정된 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 추출된 DNA 샘플을, 메틸-결합 도메인 단백질-비드 정제 키트를 사용하여 물리적으로 분획화하여, 하류 프로세싱을 위해 모든 용출액을 모으고; 차별적 분자 태그 및 NGS 가능 어댑터 서열을 각각의 분획 또는 군에 병렬 적용하는 것을 시행하고; 모든 분자 태그부착된 분획 또는 군을 재조합하고, 어댑터-특이적 DNA 프라이머 서열을 사용하여 후속 증폭시키며; 재조합되고 증폭된 전체 라이브러리의 풍부화/혼성화를 시행하여, 관심 게놈 영역을 표적화하고; 상기 풍부화된 전체 DNA 라이브러리를 재증폭하여, 샘플 태그를 첨부하며; 상이한 샘플을 풀링하고; NGS 기기 상의 멀티플렉스에서 검정함으로써 생성되고; 여기서, 상기 기기에 의해 생산된 NGS 서열 데이터가, 독특한 분자를 확인하기 위해 사용되는 분자 태그의 서열과, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 제공하는 것인 소프트웨어 모듈; 및 독특한 분자를 확인하기 위해 분자 태그를 사용하고 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션함으로써 서열 데이터의 분석을 수행하도록 설정된 소프트웨어 모듈. 한 실시양태에서 상기 애플리케이션은 통신 네트워크를 통해 상기 분석 결과를 전송하도록 설정된 소프트웨어 모듈을 추가로 포함한다.
상기 제공된 요약은 실시양태의 예시적인 목록이고 실시양태의 완전한 목록이 되도록 의도되지는 않는다.
참조로 포함됨
본 명세서에서 언급된 모든 간행물, 특허 및 특허 출원은 각각의 개별 간행물, 특허 또는 특허 출원이 구체적으로 및 개별적으로 참조로 포함되도록 표시된 것과 동일한 정도로 본원에 참조로 포함된다.
도 1은 RNA, 단일 가닥 DNA 및 이중 가닥 DNA를 분할하기 위한 예시적인 계획을 도시한다.
도 2는 RNA, 단일 가닥 DNA 및 이중 가닥 DNA를 분할하기 위한 추가의 예시적인 계획을 도시한다.
도 3은 다양한 정도의 5-메틸 시토신 표현을 함유하는 DNA를 분석하기 위한 계획을 도시한다.
도 4는 메틸화된 DNA의 중아황산염 시퀀싱을 위한 계획을 도시한다.
도 5는 다양한 정도의 5-메틸 시토신 표현을 함유하는 DNA를 분석하기 위한 추가의 계획을 도시한다.
도 6은 메틸화된 DNA의 중아황산염 시퀀싱을 위한 추가의 계획을 도시한다.
도 7은 차별적 태그부착의 개요를 도시한다.
도 8은 분할 방법론의 개요를 도시한다.
도 9는 방법론의 개요를 도시한다.
도 10은 분획화된 핵산 분자 상에서의 단편적인 데이터 분석을 사용하는 예를 도시한다. 게놈 위치는 X-축 상에 도시되고, 단편 길이는 Y-축 상에 도시되며, 적용 범위 또는 카피는 Z-축 상에 도시되고, 상승된 과소메틸화 또는 과다메틸화의 상응하는 영역이 표시된다.
도 11은 정상 및 폐암 샘플의 메틸화 프로파일링을 도시한다.
도 12A, 도 12B, 및 도 12C는 전체 게놈 시퀀싱을 이용하는 메틸화 프로파일링을 도시한다. 도 12A는 X-축 상에 전사 출발 부위 (TSS) 내의 600 bp 영역에 따른 위치를 도시하고, Y-축을 따라 과다메틸화 부위의 빈도를 도시한다. 도 12B는 X-축 상에 전사 출발 부위 (TSS) 내의 600 bp 영역에 따른 위치를 도시하고, Y-축을 따라 과소메틸화 부위의 빈도를 도시한다. 도 12C는 X-축 상에 과다메틸화 백분율을 도시하고, Y-축 상에 단편 길이를 도시한다.
도 13A 및 도 13B는 MOB3A 및 WDR88의 메틸화 프로파일링을 도시한다. 도 13A는 X-축 상에 MOB3A 유전자의 게놈 위치를 도시하고, 상이한 분획화된 군으로부터의 핵산 분자에 대한 단편 길이가 별도의 행으로써 표시된다. 분획화된 군은 과다메틸화된 군, 과소메틸화된 군, 과소메틸화된 군과 혼합된 과다메틸화된 군 (hyper + hypo) 및 비교를 위한 분획화되지 않은 군 (MBD 없음)을 포함한다.
도 14A 및 도 14B는 분획화된 군과 분획화되지 않은 군의 메틸화 프로파일링을 도시한다. 도 14A는 X-축 및 Y-축 상에 각각, 분획화되지 않은 군 (MBD 없음)으로부터의 적용 범위 및 분획화 후 혼합 파티션으로부터의 적용 범위를 갖는 히트 맵을 도시한다.
도 15는 분획화된 샘플 및 분획화되지 않은 샘플에 대한 뉴클레오솜 구성을 도시한다.
도 16은 MBD 시그널의 검증을 도시한다.
도 17은 게놈 영역에 의해 추정적으로 조절되는 모든 유전자의 TSS에 대한 투입 게놈 영역의 연합에 관한 통계를 표시한다. X-축은 킬로 염기 (kb) 단위의 TSS까지의 거리를 표시하며, Y-축은 백분율 (%)로 영역-유전자 연합을 표시한다. 그래프 내의 각각의 막대 위에, 계수되는 항목의 절대 수가 열거된다. 어두운 막대로 표시되는 전경 게놈 영역은 밝은 막대로 표시되는 배경 게놈 영역의 슈퍼세트로부터 선택되었다. 배경 게놈 영역은 반복적인 요소로 게놈 내의 모든 반복적인 요소로부터 선택된 기능적 역할로 통합되었다.
도 18A 및 도 18B는 AP3D1 유전자의 메틸화 프로파일링을 도시한다. 도 18A는 X-축 상에 AP3D1 유전자의 게놈 위치를 도시하고, 상이한 군으로부터의 핵산 분자에 대한 판독물의 적용 범위가 별도의 행으로써 표시된다. 상기 군은 분획화된 군, 예컨대 과다메틸화된 군, 과소메틸화된 군, 및 비교를 위한 분획화되지 않은 군 (MBD 없음)을 포함한다. TSS는 전사의 방향을 표시하는 화살표가 있는 히트 맵의 중간에 수직선으로서 도시된다. 도 18B는 X-축 상에 과다메틸화 백분율을 도시하고, Y-축 상에 단편 길이를 도시한다. 예를 들어, 도 18B에서, 비-분획화된 핵산 샘플에서의 메틸화 백분율은 적색 점선으로써 표시된 바와 같이, 약 65%일 수 있다.
도 19A 및 도 19B는 DNMT1 유전자의 메틸화 프로파일링을 도시한다. 도 19A는 X-축 상에 DNMT1 유전자의 게놈 위치를 도시하고, 상이한 군으로부터의 핵산 분자에 대한 판독물의 적용 범위가 별도의 행으로써 표시된다. 상기 군은 분획화된 군, 예컨대 과다메틸화된 군, 과소메틸화된 군, 및 비교를 위한 분획화되지 않은 군 (MBD 없음)을 포함한다. TSS는 전사의 방향을 표시하는 화살표가 있는 히트 맵의 중간에 수직선으로서 도시된다. 도 19B는 X-축 상에 과다메틸화 백분율을 도시하고, Y-축 상에 단편 길이를 도시한다.
도 20은 핵산 분자의 가닥성(strandedness)에 근거한 분획화 절차를 도시한다.
도 21은 핵산 분자가 ssDNA와 dsDNA로 분획화되는 것을 도시한다. X-축은 다양한 투입 DNA (200 ng 및 500 ng)를 갖는 2개의 샘플의 2가지 기술적 반복실험을 보여준다. Y-축은 정량적 PCR 증폭을 이용하여 온-타겟 분자의 카피 수를 보여준다. 본 도면은 분획화된 cfDNA의 각각의 군 내의 표적 서열의 정량적 결정을 도시한다.
도 22는 핵산 분자가 ssDNA와 dsDNA로 분획화된 후의 PCR 수율을 도시한다. X-축은 2가지 기술적 반복실험에서 cfDNA 투입 (200 ng 및 500 ng)을 보여주지만 Y-축은 PCR 수율 (pmol)을 보여준다.
도 23은 전체 게놈 시퀀싱을 이용하는 프로모터 영역의 메틸화 프로파일링을 도시한다.
도 24는 메틸-결합 도메인 단백질을 사용하여 분할되거나 또는 분획화된 (MBD-분할) 핵산 분자를 태그부착하기 위한 전략의 3가지 예를 제공한다.
도 25A 및 도 25B는 표적화된 시퀀싱 검정에서 MBD 샘플에 대한 적용 범위와 비-MBD 샘플에 대한 적용 범위 간의 비교를 도시한다.
도 26A 및 도 26B는 15 ng의 cfDNA 투입과 2개의 임상 샘플 (파워풀V1 및 파워풀V2)을 사용하여 패널 내의 유전자에 대한 적용 범위를 도시한다.
도 27A 및 도 27B는 150 ng의 cfDNA 투입과 2개의 임상 샘플 (파워풀V1 및 파워풀V2)을 사용하여 패널 내의 유전자에 대한 적용 범위를 도시한다.
도 28A, 도 28B 및 도 28C는 15 ng의 cfDNA 투입을 사용하여 패널 내의 유전자에 대한 변이체 또는 돌연변이 검출의 특이성 및 감도를 도시한다.
도 29A, 도 29B 및 도 29C는 150 ng의 cfDNA 투입을 사용하여 패널 내의 유전자에 대한 변이체 또는 돌연변이 검출의 특이성 및 감도를 도시한다.
도 30은 전체 게놈 중아황산염 시퀀싱 (WGBS) 및 MBD 분할에 의해 측정된 바와 같은 평균 메틸화 수준 간의 상관 관계를 도시한다.
도 31A 및 도 31B는 MBD 분할 (Y-축) 및 전체 게놈 중아황산염 시퀀싱 검정 (WGBS, X-축)을 사용하여 메틸화된 DNA를 검출하는 감도 (도 31A) 및 특이성 (도 31B)을 도시한다.
도 32는 디지털 처리 장치의 한 실시양태를 도시한다.
도 33은 애플리케이션 제공 시스템의 한 실시양태를 도시한다.
도 34는 클라우드 기반 아키텍처를 이용하는 애플리케이션 제공 시스템의 한 실시양태를 도시한다.
본원에 사용된 바와 같은 용어 "무세포 DNA" 및 "무세포 DNA 집단"은 크고 복잡한 생물학적 유기체, 예를 들어, 포유동물 내의 세포(들)에서 원래 발견되었고, 이러한 세포로부터 유기체 내에서 발견된 액상 유체, 예를 들어, 혈장, 림프액, 뇌척수액, 소변 내로 방출되었던 DNA를 지칭하며, 여기서 이러한 DNA는 시험관내 세포 용해 단계를 수행할 필요없이 상기 유체의 샘플을 수득함으로써 수득될 수 있다.
총론
본 개시내용은 복잡한 게놈 물질에 초기에 존재하는 분자 특징 (예를 들어, 후성적 또는 다른 유형의 구조적) 정보의 손실을 감소시키거나 또는 없애면서, 복잡한 게놈 물질을 분석하기 위한 다수의 방법, 시약, 조성물, 및 시스템을 제공한다. 일부 실시양태에서, 분자 태그는 상이한 형태의 핵산을 추적하고 유전적 변형 (예를 들어, SNV, 삽입-결실, 유전자 융합 및 카피 수 변이)을 결정하기 위한 목적으로 그러한 상이한 형태를 열거하기 위해 사용될 수 있다. 일부 실시양태에서, 본원에 기재된 방법은 대상체에서의 특정 병태, 예컨대 암 또는 태아의 상태를 검출, 분석 또는 모니터링하기 위해 사용된다. 일부 실시양태에서, 대상체는 임신하지 않았다.
본 개시내용은 상이한 형태를 함유하는 핵산 집단을 프로세싱하는 방법을 제공한다. 본원에 사용된 바와 같이, 상이한 형태의 핵산은 상이한 특징을 보유하고 있다. 예를 들어, 및 제한 없이, RNA와 DNA는 당 실체에 근거하여 상이한 형태이다. 단일 가닥 (ss) 및 이중 가닥 (ds) 핵산은 가닥 수에 따라 상이하다. 핵산 분자는 후성적 특징, 예컨대 5-메틸시토신 또는 단백질, 예컨대 히스톤과의 연합에 근거하여 상이할 수 있다. 핵산은 상이한 뉴클레오티드 서열, 예를 들어, 특이적 유전자 또는 유전적 유전자 자리를 보유할 수 있다. 특징은 정도의 관점에서 상이할 수 있다.
예를 들어, DNA 분자는 그의 후성적 변형의 정도에 있어서 상이할 수 있다. 변형의 정도는 분자가 영향을 받은 변형 이벤트의 수, 예컨대 메틸화 군의 수 (메틸화의 정도) 또는 다른 후성적 변화를 지칭할 수 있다. 예를 들어, 메틸화된 DNA는 과소메틸화되거나 또는 과다메틸화될 수 있다. 형태는 특징들의 조합, 예를 들어, 단일 가닥-메틸화되지 않거나 또는 이중 가닥-메틸화되는 것을 특징으로 할 수 있다. 특징 중 하나 또는 그의 조합에 근거하여 분자를 분획화하는 것이 단일 분자의 다차원 분석에 유용할 수 있다. 이들 방법은 샘플 내의 핵산의 다수의 형태 및/또는 변형을 수용하여, 서열 정보가 다수의 형태에 대하여 수득될 수 있도록 한다. 상기 방법은 또한, 프로세싱 및 분석을 통해 초기 다수의 형태 또는 변형된 상태의 실체를 보존하여, 핵 염기 서열의 분석이 후성적 분석과 조합될 수 있도록 한다. 일부 방법은 샘플에 존재하는 다수의 형태를 분석하는 데 필요한 프로세싱 단계의 수를 감소시키는 상이한 형태 또는 변형 상태의 분리, 태그부착 및 후속 풀링을 포함한다. 샘플 내의 다수의 형태의 핵산을 분석하는 것은, 부분적으로는 분석할 분자가 더 많기 때문에 (이용 가능한 핵산의 총량이 매우 적을 때 중요할 수 있다), 또한 상이한 형태 또는 변형 상태가 상이한 정보를 제공할 수 있기 때문에 (예를 들어, 돌연변이는 RNA에만 존재할 수 있다), 및 상이한 유형의 정보 (예를 들어, 유전적 및 후성적)가 서로 상관이 있을 수 있으므로, 더 큰 정확성, 확실성을 가져다주거나 또는 의학적 병태와의 새로운 상관관계의 발견을 초래하기 때문에, 더 큰 정보를 제공해 준다.
CpG 디뉴클레오티드는 정상적인 인간 게놈에서 과소표현되며, 대다수의 CpG 디뉴클레오타이드 서열은 전사적으로 불활성이고 (예를 들어, 염색체의 주위 동원체 부분 내의 및 반복 요소 내의 DNA 헤테로크로마틱 영역) 메틸화된다. 그러나, 많은 CpG 섬은, 특히 전사 출발 부위 (TSS) 주변에서 그러한 메틸화로부터 보호된다.
암은 후성적 변이, 예컨대 메틸화에 의해 표시될 수 있다. 암에서의 메틸화 변화의 예는 정상적인 성장 제어, DNA 복구, 세포 주기 조절, 및/또는 세포 분화에 관여하는 유전자의 전사 출발 부위 (TSS)에서 CpG 섬 내에서의 DNA 메틸화의 국소적 증가를 포함한다. 이러한 과다메틸화는 관련 유전자의 전사 능력의 비정상적 상실과 연관될 수 있으며, 변경된 유전자 발현의 원인으로서 적어도 점 돌연변이 및 결실과 같은 빈도로 발생한다. DNA 메틸화 프로파일링은 발달 중에 변경되거나 또는 질환, 예를 들어, 암 또는 임의의 암 관련 질환에 의해 교란되는 게놈의 상이한 정도의 메틸화를 수반한 영역 ("차별적으로 메틸화된 영역" 또는 "DMR")을 검출하기 위해 사용될 수 있다. 암세포의 게놈은 상기 DNA 메틸화 패턴에 있어서 불균형을 포함하고 있으므로, DNA의 기능적 패키징에 있어서 불균형을 포함하고 있다. 따라서 염색질 구성의 이상은 메틸화 변화와 결합되어, 공동으로 분석될 때 암 프로파일링의 증강에 기여할 수 있다. 바이오마커 검출 속도를 개선시키기 위한 목적으로 과다메틸화 연구에서 염색질 구조 분석을 위하여, MBD-분할을 단편적인 데이터, 예컨대 단편 맵핑된 출발 및 정지 위치 (뉴클레오솜 위치와 상관이 있음), 단편 길이 및 관련 뉴클레오솜 점유율과 조합하여 사용할 수 있다.
메틸화 프로파일링은 게놈의 상이한 영역 전체에 걸친 메틸화 패턴을 결정하는 것을 포함할 수 있다. 예를 들어, 메틸화의 정도 (예를 들어, 분자당 메틸화된 부위의 상대적 수) 및 시퀀싱에 근거하여 분자를 분할한 후에, 상이한 파티션에서의 분자의 서열을 참조 게놈에 맵핑할 수 있다. 이는 다른 영역과 비교해서, 보다 고도로 메틸화되거나 또는 덜 고도로 메틸화되는 게놈의 영역을 나타낼 수 있다. 이러한 방식으로, 게놈 영역은 개별 분자와 달리 메틸화 정도가 상이할 수 있다.
핵산 분자의 특징은 변형일 수 있으며, 이는 다양한 화학적 또는 단백질 변형 (즉, 후성적 변형)을 포함할 수 있다. 화학적 변형의 비-제한적 예는 DNA 메틸화를 포함한 공유 DNA 변형을 포함할 수 있으나, 이에 제한되지는 않는다. 일부 실시양태에서, DNA 메틸화는 메틸 기를 CpG 부위에서의 시토신 (핵산 서열에서 시토신에 이어 구아닌)에 부가하는 것을 포함한다. 일부 실시양태에서, DNA 메틸화는 N6-메틸아데닌에서와 같이, 메틸 기를 아데닌에 부가하는 것을 포함한다. 일부 실시양태에서, DNA 메틸화는 5-메틸화 (시토신의 6개 탄소 환 중 5번째 탄소의 변형)이다. 일부 실시양태에서, 5-메틸화는 메틸 기를 시토신의 5C 위치에 부가하여 5-메틸시토신 (m5c)을 창출하는 것을 포함한다. 일부 실시양태에서, 메틸화는 m5c의 유도체를 포함한다. m5c의 유도체는 5-히드록시메틸시토신 (5-hmC), 5-포르밀시토신 (5-fC), 및 5-카르복실시토신 (5-caC)을 포함하나, 이에 제한되지는 않는다. 일부 실시양태에서, DNA 메틸화는 3C 메틸화 (시토신의 6개 탄소 환 중 3번째 탄소의 변형)이다. 일부 실시양태에서, 3C 메틸화는 메틸 기를 시토신의 3C 위치에 부가하여 3-메틸시토신 (3mC)을 생성하는 것을 포함한다. 메틸화는 또한, 비-CpG 부위에서 발생할 수 있으며, 예를 들어, 메틸화는 CpA, CpT, 또는 CpC 부위에서 발생할 수 있다. DNA 메틸화는 메틸화된 DNA 영역의 활성을 변화시킬 수 있다. 예를 들어, 프로모터 영역 내의 DNA가 메틸화되는 경우, 유전자의 전사가 억제될 수 있다. DNA 메틸화는 정상적인 발달에 중요하며, 메틸화에 있어서의 이상은 후성적 조절을 방해할 수 있다. 후성적 조절에 있어서의 방해, 예를 들어, 억제는 암과 같은 질환을 유발시킬 수 있다. DNA 내에서의 프로모터 메틸화는 암을 표시할 수 있다.
단백질 변형은 염색질의 성분, 특히 그의 변형된 형태를 포함한 히스톤에 대한 결합, 및 다른 단백질, 예컨대 복제 또는 전사에 관여하는 단백질에 대한 결합을 포함한다. 본 개시내용은 상이한 정도의 변형을 수반하는 핵산을 프로세싱 및 분석하여, 그의 원래의 변형의 성질이 핵산 태그와 상관이 있고 핵산이 분석될 때 태그를 시퀀싱으로써 디코딩될 수 있도록 하는 방법을 제공한다. 이때, 샘플 핵산 변형의 유전적 변이는 원래의 샘플 내의 그 핵산의 변형 (후성적 변이) 정도와 연관될 수 있다.
본원에 사용된 바와 같은, 용어 "분획화" 및 "분할"은 상이한 특징에 근거하여 분자를 분리하는 것을 지칭한다. 샘플 내의 핵산 분자는 하나 이상의 특징에 근거하여 분획화될 수 있다. 분획화는 게놈 특징의 존재 또는 부재에 근거하여 핵산 분자를 서브세트 또는 군으로 물리적으로 분할하는 것을 포함할 수 있다. 분획화는 게놈 특징이 존재하는 정도에 근거하여 핵산 분자를 파티션 군으로 물리적으로 분할하는 것을 포함할 수 있다. 샘플은 차별적 유전자 발현 또는 질환 상태를 표시하는 특징에 근거하여 하나 이상의 군 파티션으로 분획화 또는 분할될 수 있다. 샘플은 핵산, 예를 들어, 무세포 DNA ("cfDNA"), 비-cfDNA, 종양 DNA, 순환 종양 DNA ("ctDNA") 및 무세포 핵산 ("cfNA")의 분석 동안 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징, 또는 그의 조합에 근거하여 분획화될 수 있다.
본 개시내용은 핵산 분자를 효율적으로 분석하는 방법 및 시스템을 제공한다. 이러한 방법은 하나 또는 복수 개의 특징에 근거하여 핵산 분자를 상이한 파티션으로 분획화한 다음, 각각의 파티션 내의 핵산 분자를 시퀀싱하고 (단독으로 또는 함께) 분석하는 것을 포함할 수 있다. 일부 경우에, 핵산 분자의 파티션은 시퀀싱 이전 및/또는 이후에 증폭된다. 상기 방법은 다양한 적용, 예컨대 질환을 예후, 진단 및/또는 모니터링하기 위한 적용에 사용될 수 있다.
핵산 분자는 하나 이상의 특징 중 임의의 것을 특징으로 할 수 있다. 핵산 분자의 특징은 가닥성, 단백질 결합된 영역, 핵산 길이, 출발/정지 위치, 화학적 변형, 또는 단백질 변형을 포함할 수 있다. 핵산 분자의 가닥성은 단일 가닥 (예를 들어, ssDNA 또는 RNA) 또는 이중 가닥 분자 (예를 들어, dsDNA)를 포함할 수 있다.
핵산 분자의 게놈 특징은 다양한 화학적 변형을 포함할 수 있는 변형일 수 있다. 비-제한적 예로서, 화학적 변형은 공유 DNA 변형, 예컨대 DNA 메틸화 (5mC), 히드록실메틸화 (5hmC), 포르밀메틸화 (5fC), 카르복실메틸화 (5CaC), N6-메틸아데닌 또는 글리코실화를 포함할 수 있다. DNA 메틸화는 메틸 기를 DNA (예를 들어 CpG)에 부가하는 것을 포함하고, 메틸화된 DNA 영역의 발현을 변화시킬 수 있다. 예를 들어, 프로모터 영역 내의 DNA가 메틸화되는 경우, 유전자의 전사가 억제될 수 있다. DNA 메틸화는 정상적인 발달에 중요하며, 메틸화에 있어서의 이상은 후성적 조절을 방해할 수 있다. 후성적 조절에 있어서의 방해, 예를 들어, 억제는 암과 같은 질환을 유발시킬 수 있다. DNA 내에서의 프로모터 메틸화는 암을 표시할 수 있다.
비-제한적 예로서, 샘플의 특징을 규명하기 위해 단일 가닥 RNA 및/또는 DNA뿐만 아니라 이중 가닥 DNA를 분할하는 것을 포함하는 방법의 혜택은 하기를 포함한다:
1. dsDNA 외에도 ssDNA 및 RNA 분자로부터의 SNV, CNV 및 삽입-결실 호출에 대한 부가의 지원;
2. 인트론 DNA 내의 가변 절단점이 RNA에서 규정된 엑손-엑슨 접합부를 산출하기 때문에, DNA와 비교 시 RNA에서 유전자 융합의 식별 (표적화)이 더 용이해진다;
3. 메신저 RNA (mRNA), 마이크로RNA (miRNA) 및 긴 비-코딩 RNA (lncRNA)의 식별 또는 차별적 발현 수준은 많은 질환 상태의 특징일 수 있다. 암의 조기 검출에 중요할 수 있는 백혈구로부터의 건강한 무세포 DNA (cfDNA)와 비교해서 순환 종양 DNA (ctDNA) 집단 내에서의 뉴클레오솜의 위치 설정 변화에서 발견된 발현 시그니처의 입체 형태 및 부가의 지원. 부가적으로, 백혈구 유래 cfDNA 및 cfRNA 발현 변화는 또한, 질환에 대한 면역 반응을 표시할 수 있다;
4. 불안정한 분자의 증거. 더 짧은 순환 종양 DNA (ctDNA)의 포획 - 무세포 DNA에 대한 연구 결과, 종양 DNA (ctDNA)의 길이가 정상 DNA보다 상당히 더 짧을 수 있는 것으로 밝혀졌다. 일부 증거는 이러한 더 짧은 서열이 불안정하고 ssDNA로서 존재할 수 있다는 것을 표시한다. 이들은 또한, 암의 조기 검출에 중요할 수 있는 cfDNA와 비교해서 ctDNA에서의 전사 인자 결합 변화에 대한 정보를 제공할 수 있었다. 유사하게, cfDNA는 또한, 질환 반응을 표시할 수 있다;
5. 임상적으로 관련될 수 있고 단일 가닥 "갭이 있는" 영역을 함유하는 손상된/분해된 DNA를 포획한다.
샘플 내의 다수의 형태의 핵산을 분석하는 것은, 예를 들어, 시퀀싱 전에 상이한 형태의 핵산을 차별적으로 태그부착하고/하거나 상이한 형태의 핵산을 분할함으로써 발생될 수 있다.
II. 샘플 내의 상이한 핵산 형태를 차별적 태그부착시킨다
체액 중의 핵산, 예컨대 무세포 핵산의 샘플은 종종, 단일 가닥 및 이중 가닥 DNA 및 단일 가닥 RNA를 포함한 다수의 형태로 핵산을 함유한다. 이러한 샘플 중의 핵산의 총량은 낮을 수 있고, 상이한 특징 및/또는 변형을 갖는 상이한 형태의 핵산이 샘플에 관한 상이한 정보를 산출할 수 있기 때문에, 본원에는 이러한 형태 2개, 3개 또는 모두를 분석하는 방법이 제공된다.
다수의 형태의 제조 및 분석은, 적어도 일부 단계를 병렬로 수행할 수 있는 경우에 더 효율적이다. 이러한 샘플로부터 결정된 정보는 프로세싱 후 특별한 핵산의 서열 정보가 샘플 내의 핵산의 원래의 형태와 상관될 수 있는 경우에 가장 유익하다. 예를 들어, SNV가 프로세싱 후 특별한 핵산에서 결정되는 경우, 그러한 핵산이 원래의 샘플 내의 RNA, 단일 가닥 DNA 또는 이중 가닥 DNA로부터 유래되었는지의 여부를 결정할 수 있다.
샘플 내의 상이한 형태의 핵산의 식별은, 예컨대 제2 가닥 합성 또는 증폭에 의해 원래의 형태를 모호하게 만드는 방식으로 형태를 변경시키기 전에, 샘플 내의 상이한 형태의 핵산을 차별적으로 태그부착시킴으로써 달성될 수 있다. 따라서, 다수의 형태를 포함한 핵산에서는, 적어도 하나의 형태를, 샘플 내에 존재하는 하나 이상의 다른 형태와 구별시켜 주는 핵산 태그와 연결시킨다. 3가지 형태의 핵산, 예컨대 단일 가닥 DNA, 단일 가닥 RNA 및 이중 가닥 DNA를 함유하는 샘플에서, 이러한 3가지 형태는 적어도 2가지 형태를 차별적으로 표지시키거나 또는 3가지 형태 모두를 차별적으로 표지시킴으로써 구별될 수 있다. 동일한 형태의 핵산 분자와 연결된 태그는 서로 동일하거나 또는 상이할 수 있다. 그러나 서로 상이한 경우, 상기 태그는 일부 실시양태에서, 이들이 부착된 분자를 특별한 형태인 것으로서 확인하기 위해 공통적인 코드의 일부를 가질 수 있다. 예를 들어, 특별한 형태의 핵산 분자는 형태 A1, A2, A3, A4 등의 코드, 및 상이한 형태 B1, B2, B3, B4 등의 코드를 보유할 수 있다. 이러한 코딩 시스템은 상기 형태와, 특정 형태 내의 분자 둘 다 간의 뚜렷한 차이를 허용한다. 상이한 특징, 예를 들어, 메틸-결합 도메인 단백질을 사용하여 결정된 바와 같은 메틸화 정도를 갖는 핵산 분자를 차별적으로 태그부착하기 위한 예시적인 전략이 도 24 (후술됨)에 제공된다.
샘플 내의 핵산의 1개, 일부 또는 모든 형태를 핵산 태그로 차별적 표지화한 후, 이러한 형태는 핵산 태그가 원래의 샘플 내의 형태와 함께 증폭되도록 증폭시킬 수 있다. 이어서, 이와 같이 증폭된 핵산을 서열 분석하여 샘플 내의 원래의 핵산의 서열의 일부 또는 모두뿐만 아니라 연결된 핵산 태그의 서열의 일부 또는 모두를 판독할 수 있다. 이어서 태그의 서열을 디코딩하여 원래의 샘플 내의 핵산의 형태를 표시할 수 있다. 이어서 상이한 형태의 서열은, 유전적 변이가 우세하게 또는 독점적으로 특정 형태(들)의 핵산에서만 발견되는지 또는 원래의 형태와는 독립적으로 거의 동일한 빈도로 발생하는지를 알아보기 위해 비교될 수 있다. 상이한 형태의 차별적 태그부착 후의 단계 중 일부 또는 모두, 특히 증폭 및 시퀀싱은 풀링된 상이한 형태의 핵산을 이용하여 수행될 수 있다. 이러한 방법은 바람직하게, 샘플에 존재하는 2가지, 3가지 또는 그 이상의 형태의 핵산의 분자의 적어도 40, 50, 60, 70, 80, 90 또는 95%를 증폭시키고 시퀀싱시켜 준다.
이중 가닥 핵산은 적어도 부분적으로 이중 가닥 어댑터에 라이게이션함으로써 차별적으로 표지될 수 있다. 전형적으로, 이중 가닥 핵산은 양 말단에서 그러한 어댑터에 라이게이션된다. 이러한 어댑터 중 하나 또는 둘 다는 핵산 태그를 포함할 수 있다. 각각 태그를 갖는 2개의 어댑터가 핵산의 각각의 말단에 연결되는 경우, 이러한 태그 조합이 식별자로서 기능할 수 있다. 단일 가닥 DNA 또는 RNA 분자는 어댑터의 이중 가닥 말단에 상당한 정도로 라이게이션되지 않으므로, 핵산 태그를 수용하지 않는다. 이중 가닥 어댑터는 Y자 형 어댑터 또는 헤어핀 어댑터의 사례에 흔히 있듯이 완전한 이중 가닥 또는 부분적 이중 가닥일 수 있다. Y자 형 어댑터에 대한 예시적인 서열이 하기에 제시된다.
만능 어댑터
만능 어댑터
서열식별번호 ( SEQ ID No): 1:
5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3' (서열식별번호: 1)
어댑터 태그
서열식별번호: 2:
5'GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNATCTCGTATGCCGTCTTCTGCTTG-3' (서열식별번호: 2)
이들 어댑터 서열의 말단절단된 버전이 문헌 [Rohland et al., Genome Res. 2012 May; 22(5): 939-946]에 기재되었다.
Y자 형 어댑터는 단일 가닥 말단을 갖기 때문에, 후속 단계가 단일 가닥 샘플 핵산을 다른 샘플 핵산으로부터 분리시키는 것을 수행해야 하는 경우에는 이들을 피하거나 (예를 들어, Y자 형 어댑터와 결합하지 않는 프로브를 이용하여 단일 가닥 DNA를 분리시킴으로써) 또는 보호하는 것이 필요할 수 있다.
RNA 분자는 역전사 효소가 RNA 의존성 DNA 폴리머라제와 함께 작용할 수 있는 샘플 내의 유일한 형태의 분자이기 때문에 핵산 태그로 차별적으로 표지될 수 있다. 핵산 태그는 역전사를 프라이밍하기 위해 사용되는 프라이머의 5' 태그로서 도입될 수 있다. 역전사는 무작위 또는 서열 특이적일 수 있다. 역전사 후, 원래의 RNA 가닥이 분해된 다음, 제2 상보적 DNA 가닥이 합성될 수 있다. 현재 이중 가닥 DNA는 필요할 경우, 평활 말단될 수 있으며, 샘플에 이미 존재하는 이중 가닥 DNA 분자와 유사한 방식으로 어댑터에 연결된다. 또 다른 한편으론, RNA/DNA 혼성체 분자는 어댑터에 직접적으로 연결될 수 있다.
단일 가닥 DNA 분자는 분자내 라이가제로 처리함으로써 이중 가닥 DNA 분자로부터 분획화될 수 있다. 일부 실시양태에서, 분자내 라이가제는 ssDNA를 3' 태그로 차별적으로 태그부착하기 위한 서클라이가제™ ssDNA 라이가제이다. ssDNA는 ssDNA의 환상화를 방지하기 위해 분자내 라이가제로 처리하기 전에 5' 말단에서 탈인산화된다. 한 경우에, 태그를 단일 가닥 DNA에 부착시키기 위해 사용되는 라이가제는 서클라이가제™ ssDNA 라이가제이다. 서클라이가제™ ssDNA 라이가제는 열안정성 ATP 의존성 라이가제이다. 제2 가닥 합성은 한쪽 말단에 있는 단일 가닥 DNA를 올리고뉴클레오티드에 연결시켜 (예를 들어, T4 RNA 라이가제를 사용한다) 프라이머 결합 부위를 제공하고, 단일 가닥 DNA를, 그들이 혼성화되는 주형 서열에 근거하여 연장하기 위해 프라이머로서 제공되는 상보적 올리고뉴클레오티드와 혼성화하거나, 또는 그들이 혼성화되는 주형 서열에 근거하여 연장하기 위한 프라이머로서 또한 제공되는 무작위 올리고뉴클레오티드와 혼성화하는 것을 포함한 몇 가지 메커니즘에 의해 발생될 수 있다. 하나의 방법은 단일 가닥 라이가제를 사용하여, 연장 가능한 3 '말단을 갖는 올리고뉴클레오티드를 단일 가닥 DNA 라이브러리 구성원 상에 첨부하는 것이다 (문헌 [Gansauge & Meyer, Nature Protocols 8, 737 (2013)] 참조). 제2 DNA 가닥은 프라이머 결합 부위로서 어댑터를 사용하여 채운다. 이어서, 5' DNA 인산화 단계 및 표준 (dsDNA) 라이게이션을 수행하여 어댑터를 상기 라이브러리 분자의 5' 말단에 부가한다.
또 다른 방법에서는, 상업적으로 이용 가능한 NEB다이렉트 방법론으로부터의 단계가 상기 방법에 포함될 수 있으며, 단일 가닥 DNA 분자는 제2 가닥 합성을 위한 서열 특이적 프라이머와 혼성화된 다음, 말단 복구되고 플랭킹 어댑터에 라이게이션된다 ([neb.com/nebnext-direct/nebnext-direct-for-target-enrichment] 참조). 상기 프라이머를 함유하는 제2 DNA 가닥은 분해되므로, 서열 분석되지 못한다. 또 다른 방법은 그의 5' 말단 상에 어댑터 서열을 갖고 3' 말단 상에 무작위 염기를 갖는 무작위 프라이머를 사용한다. 통상적으로 6개의 무작위 염기가 있지만, 그 길이는 4개 내지 9개 염기일 수 있다. 이러한 접근법은 RNA-seq 또는 중아황산염-시퀀싱을 위한 낮은 투입/단일 세포 증폭에 대하여 특히 잘 받아들인다 (Smallwood et al., Nat. Methods 2014 Aug; 11(8):817-820).
ssDNA는 혼성화 이전의 표준 변성 단계를 생략함으로써 핵산 (NA) 프로브에 의해 선택적으로 포획될 수 있다. ssDNA-프로브 혼성체는 통상적인 방법 (예를 들어, 스트렙타비딘-비드 자석에 의해 포획된 비오티닐화된 DNA/RNA 프로브)에 의해 cfNA (무세포 핵산) 집단으로부터 단리될 수 있다. 프로브 서열은 표적 특이적일 수 있고, dsDNA 작업 흐름, 그러한 작업 흐름의 서브세트를 수반한 패널과 동일하거나, 또는 상이할 수 있다 (예를 들어, 엑손-엑슨 접합부에서의 RNA-융합, '핫 스팟(hot spot)' DNA 서열을 표적화함). 모든 단일 가닥 핵산 (ssNA)은 프로브를 '만능 뉴클레오티드 염기', 예컨대 데옥시이노신, 3-니트로피롤, 및 5-니트로인돌와 함께 활용함으로써 서열 애그노스틱 방식으로, 상기 단계에서 포획될 수 있다.
도 1은 핵산의 형태를 분리하기 위한 예시적인 계획을 도시한다. 본 도면의 상단은 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA를 포함한 샘플을 나타낸다. RNA는 5' RNA를 식별하는 핵산 태그를 수반한 서열 특이적 또는 무작위 폴리T 프라이머로 역전사된다. 상보적 DNA 가닥의 합성 후, RNA 주형은 선택적 혼성화에 의해 RNase H 또는 NaOH 또는 리보솜 고갈로 분해된다. 이어서, 샘플은 샘플의 변성 없이 포획 프로브 (서열 특이적 또는 애그노스틱일 수 있다)로 처리된다. 이들 프로브는 단일 가닥 분자와 혼성화하여, 샘플로부터 단일 가닥 분자를 제거한다. 이때, 이러한 예에서의 샘플 내의 이중 가닥 DNA 분자는 평활 말단되고 핵산 태그를 포함한 어댑터에 연결된다. 이러한 예에서, 어댑터는 Y자 형이고, Y의 이중 가닥 아암(arm) 부분이 DNA 분자에 연결된다. 한편, 분리된 단일 가닥 핵산은 태그의 부착을 포함하여 상기 논의된 바와 같이 DNA 프로토콜 또는 NEB다이렉트 프로토콜에 의해 프로세싱된다.
도 2는 간략화된 작업 흐름을 갖는 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA를 포함한 샘플로 출발하는 추가의 예시적인 계획을 보여주는데, 가장 주목할만한 것은 5' DNA 인산화 단계를 제거한 것이다. 샘플 내의 이중 가닥 DNA는 먼저, 핵산 태그를 포함한 헤어핀 어댑터에 라이게이션된다. 이어서 샘플은 5' DNA 탈인산화된 다음, RNA는 cDNA로 전환되고, 또한 상이한 태그에 라이게이션된다. 이어서, 단일 가닥 DNA는 도 1에서와 같이 유사하게 프로세싱된다. 일부 실시양태에서, 헤어핀 어댑터는 라이브러리 증폭 전에 2개의 가닥으로 절단될 수 있다.
도 7은 차별적 태그부착의 한 실시양태를 예시한다. 단계 (701)에서는, 핵산 집단이 수득된다. 이러한 핵산은, 예컨대 액체 생검 샘플 (혈청, 혈장 또는 혈액)로부터의 순환 핵산 (cNA)일 수 있다. 단계 (702)에서는, 제1 형태의 핵산이 차별적으로 태그부착되어, 제1의 태그부착된 핵산 형태와 제2의 비-태그부착된 핵산 형태의 혼합물 (703)이 형성된다. 그 후, 단계 (704)에서는, 제2 형태의 핵산 (또는 잔여 핵산)이 상이한 표지로 태그부착된다. 상기 방법은 단계 (704) 이전에 2개 이상의 상이한 차별적 태그부착 단계 (702)를 포함할 수 있다. 집단 내의 2개 이상의 형태의 핵산을 태그부착한 후, 상이한 형태가 일부 실시양태에서 분할될 수 있다. 상이한 형태가 분할되는 경우, 차별적으로 태그부착된 핵산은 시퀀싱 이전에 함께 풀링될 수 있거나 또는 별도로 서열 분석될 수 있다. 바람직하게, 상이한 형태의 핵산의 차별적 태그부착은 하나의 튜브 또는 반응 용적에서 발생할 수 있고, 태그부착된 분자의 전체가 (분할 없이) 서열 분석된다. 시퀀싱으로부터 얻어진 판독물은 집합적 핵산 샘플뿐만 아니라 상이한 핵산 형태로부터 유래된 판독물에 대해 수행될 분석을 위해 사용될 수 있다.
일부 실시양태에서, 차별적으로 태그부착되는 제1 형태의 핵산은 dsDNA이고, 차별적 태그부착은 제1 세트의 태그를 포함하는 이중 가닥 어댑터를 dsDNA에 부착시킴으로써 수행된다. 이어서, ssDNA (잔여 핵산)는 상이한 세트의 태그 (제2 세트의 태그)로 태그부착된다.
일부 실시양태에서, 차별적으로 태그부착되는 제1 형태의 핵산은 오픈 염색질 영역으로부터의 DNA이고, 태그부착은 Tn5 매개된 트랜스포사제 활성을 수반한 핵산의 집단을 접촉시킴으로써 수행된다.
일부 실시양태에서, 차별적으로 태그부착되는 제1 형태의 핵산은 이중 가닥 핵산이고, 태그부착은 헤어핀 어댑터를 이중 가닥 핵산에 부착시킴으로써 수행된다.
III. 상이한 정도의 변형을 수반하는 핵산을 분할한다
본원에 기재된 특정 실시양태에서, 상이한 형태의 핵산 집단은 태그부착 및 시퀀싱 이전에 핵산의 하나 이상의 특징에 근거하여 분할될 수 있다. 이질적 핵산 집단을 분할함으로써, 예를 들어, 집단의 한 분획 (또는 파티션)에 보다 널리 퍼져있는 희귀한 핵산 분자를 풍부화시킴으로써 희귀한 시그널을 증가시킬 수 있다. 예를 들어, RNA에는 존재하지만 DNA에는 덜 존재하는 (또는 존재하지 않는) 유전적 변이는 DNA로부터 RNA를 분할함으로써 검출될 수 있다. 유사하게, 과다메틸화된 DNA에는 존재하지만 과소메틸화된 DNA에는 덜 존재하는 (또는 존재하지 않는) 유전적 변이는 샘플을 과다메틸화된 핵산 분자와 과소메틸화된 핵산 분자로 분할함으로써 보다 용이하게 검출될 수 있다. 샘플의 다수의 분획을 분석함으로써, 단일 분자의 다차원 분석을 수행할 수 있고, 이로써 더 큰 감도를 얻을 수 있다.
일부 경우에, 이질적 핵산 샘플은 2개 이상의 파티션 (예를 들어, 적어도 3, 4, 5, 6 또는 7개의 파티션)으로 분할된다. 일부 실시양태에서, 각각의 파티션은 차별적으로 태그부착된다. 이어서 태그부착된 파티션은 집합적 샘플 프렙 및/또는 시퀀싱을 위하여 함께 풀링된다. 이러한 분할-태그부착-풀링 단계는 2회 이상 발생할 수 있으며, 각각의 라운드의 분할은 상이한 특징 (본원에 제공된 예)에 근거하여 발생되며, 다른 파티션과 구별시켜 주는 차별적 태그 및 분할 수단을 사용하여 태그부착된다.
분할을 위해 사용될 수 있는 특징의 예는 서열 길이, 메틸화 수준, 뉴클레오솜 결합, 서열 미스매치, 면역침전, 및/또는 DNA와 결합하는 단백질을 포함한다. 생성된 파티션은 하기 핵산 형태 중 하나 이상을 포함할 수 있다: 리보핵산 (RNA), 단일 가닥 DNA (ssDNA), 이중 가닥 DNA (dsDNA), 더 짧은 DNA 단편 및 더 긴 DNA 단편. 일부 실시양태에서, 이질적 핵산 집단은 뉴클레오솜과 연합된 핵산 분자와 뉴클레오솜이 결여된 핵산 분자로 분할된다. 또 다른 한편으론 또는 부가적으로, 이질적 핵산 집단은 RNA와 DNA로 분할된다. 또 다른 한편으론 또는 부가적으로, 이질적 핵산 집단은 단일 가닥 DNA (ssDNA)와 이중 가닥 DNA (dsDNA)로 분할될 수 있다. 또 다른 한편으론 또는 부가적으로, 이질적 핵산 집단은 하나 이상의 후성적 변형을 수반하는 핵산과 하나 이상의 후성적 변형을 수반하지 않은 핵산으로 분할될 수 있다. 후성적 변형의 예는 메틸화의 존재 또는 부재; 메틸화의 수준, 메틸화의 유형 (5' 시토신); 및 하나 이상의 단백질, 예컨대 히스톤과의 연합 및 연합 수준을 포함한다. 또 다른 한편으론, 또는 부가적으로, 이질적 핵산 집단은 핵산 길이에 근거하여 분할될 수 있다 (예를 들어, 160 bp 이하의 분자와 160 bp 초과의 길이를 갖는 분자).
일부 경우에, 각각의 파티션 (상이한 핵산 형태를 나타낸다)은 차별적으로 표지되고, 이러한 파티션은 시퀀싱 이전에 함께 풀링된다. 다른 경우에, 상이한 형태는 별도로 서열 분석된다.
도 8은 본 개시내용의 한 실시양태를 예시한다. 상이한 핵산 (801)의 집단은 2개 이상의 상이한 파티션 (803 a, b)으로 분할된다 (802). 각각의 파티션 (803 a, b)은 상이한 핵산 형태를 나타낸다. 각각의 파티션은 별개로 태그부착된다 (804). 이와 같이 태그부착된 핵산은 시퀀싱 (808) 이전에 함께 풀링된다 (807). 판독물은 인 실리코(in silico) 분석된다. 태그는 상이한 파티션으로부터의 판독물을 분류하기 위해 사용된다. 유전적 변이체를 검출하기 위한 분석은 파티션 별로의 수준뿐만 아니라 전체 핵산 집단 수준에 대해 수행될 수 있다. 예를 들어, 분석은 각각의 파티션에서의 핵산 내의 유전적 변이체, 예컨대 CNV, SNV, 삽입-결실, 융합을 결정하기 위한 인 실리코 분석을 포함할 수 있다. 일부 경우에, 인 실리코 분석은 염색질 구조를 결정하는 것을 포함할 수 있다. 예를 들어, 서열 판독물의 적용 범위 또는 카피 수는 염색질 내에서의 뉴클레오솜 위치 설정을 결정하기 위해 사용될 수 있다. 더 높은 적용 범위는 게놈 영역 내에서의 더 높은 뉴클레오솜 점유율과 상관이 있을 수 있지만, 더 낮은 적용 범위는 더 낮은 뉴클레오솜 점유율 또는 뉴클레오솜 고갈된 영역 (NDR)과 상관이 있을 수 있다.
샘플은 뉴클레오티드에 대한 복제 후 변형 및 통상적으로 비공유적으로 하나 이상의 단백질에 대한 결합을 포함한 변형에 있어서 다양한 핵산을 포함할 수 있다.
한 실시양태에서, 핵산 집단은 암이 있는 것으로 의심되거나 또는 이전에 암이 있는 것으로 진단된 대상체로부터의 혈청, 혈장 또는 혈액 샘플로부터 수득된 것이다. 이러한 핵산은 다양한 수준의 메틸화를 갖는 것을 포함한다. 메틸화는 임의의 하나 이상의 복제 후 또는 전사 변형으로부터 발생될 수 있다. 복제 후 변형은 뉴클레오티드 시토신, 특히 5-메틸시토신, 5-히드록시메틸시토신, 5-포르밀시토신 및 5-카르복실시토신의 변형을 포함한다.
핵산의 분할은 핵산을 메틸화 결합 단백질 ("MBP")의 메틸화 결합 도메인 ("MBD")과 접촉시킴으로써 수행된다. MBD는 5-메틸시토신 (5mC)과 결합한다. MBD는 비오틴 링커를 통해 상자성 비드, 예컨대 다이나비드(Dynabeads®) M-280 스트렙타비딘과 커플링된다. 상이한 정도의 메틸화를 수반한 분획으로의 분할은 NaCl 농도를 증가시킴으로써 분획을 용출시켜 수행될 수 있다.
일반적으로, 용출은 분자당 메틸화된 부위의 수의 함수이며, 더 많은 메틸화를 갖는 분자는 증가된 염 농도하에 용출된다. 메틸화의 정도에 근거하여 DNA를 별개의 집단 내로 용출시키기 위해, 증가하는 NaCl 농도의 일련의 용출 완충액을 사용할 수 있다. 염 농도는 약 100 nm 내지 약 2500 mM NaCl의 범위일 수 있다. 한 실시양태에서, 상기 프로세스로 인해 3개의 파티션이 생성된다. 분자는 제1 염 농도 하에 있고 메틸 결합 도메인을 포함하는 분자를 포함하는 용액과 접촉시키며, 이러한 분자는 포획 모이어티, 예컨대 스트렙타비딘에 부착될 수 있다. 제1 염 농도에서는, 분자 집단이 MBD와 결합할 것이고, 특정 집단이 결합되지 않은 채로 있을 것이다. 결합되지 않은 집단은 "과소메틸화된" 집단으로서 분리될 수 있다. 예를 들어, 과소메틸화된 형태의 DNA를 나타내는 제1 파티션은 낮은 염 농도, 예를 들어, 160 nM에서 결합되지 않은 채로 있는 것이다. 중간 수준으로 메틸화된 DNA를 나타내는 제2 파티션은 중간 염 농도, 예를 들어, 100 mM 내지 2000 mM 농도를 이용하여 용출된다. 이는 또한, 샘플로부터 분리된다. 과다메틸화된 형태의 DNA를 나타내는 제3 파티션은 높은 염 농도, 예를 들어, 적어도 약 2000 nM을 사용하여 용출된다.
각각의 파티션은 차별적으로 태그부착된다. 태그는 이러한 태그와 연합되는 분자의 특색을 표시하는 정보를 함유하는 분자, 예컨대 핵산일 수 있다. 예를 들어, 분자는 샘플 태그 (한 샘플 내의 분자를 상이한 샘플 내의 분자와 구별시켜 준다), 파티션 태그 (한 파티션 내의 분자를 상이한 파티션 내의 분자와 구별시켜 준다) 또는 분자 태그 [상이한 분자를 (독특한 태그부착과 독특하지 않은 태그부착 둘 다의 시나리오에서) 서로 구별시켜 준다]를 보유할 수 있다. 특정 실시양태에서, 태그는 바코드 중 하나 또는 그의 조합을 포함할 수 있다. 본원에 사용된 바와 같은, 용어 "바코드"는 특별한 뉴클레오티드 서열을 갖는 핵산 분자, 또는 문맥에 따라서, 뉴클레오티드 서열 그 자체를 지칭한다. 바코드는, 예를 들어, 10개 내지 100개의 뉴클레오티드를 가질 수 있다. 바코드 컬렉션은 변성 서열을 가질 수 있거나, 또는 특이적 목적을 위해 원하는 바와 같이, 특정의 해밍 거리를 갖는 서열을 가질 수 있다. 따라서, 예를 들어, 샘플 인덱스, 파티션 인덱스 또는 분자 인덱스는 하나의 바코드 또는 2개의 바코드의 조합으로 구성될 수 있으며, 각각은 분자의 상이한 말단에 부착된다.
태그는 개별 폴리뉴클레오티드 집단 파티션을 표지시켜 태그(들)가 특이적 파티션과 상관이 있도록 하기 위해 사용될 수 있다. 일부 실시양태에서, 단일 태그는 특이적 파티션을 표지시키기 위해 사용될 수 있다. 일부 실시양태에서, 다수의 상이한 태그는 특이적 파티션을 표지시키기 위해 사용될 수 있다. 특이적 파티션을 표지시키기 위해 다수의 상이한 태그를 이용하는 실시양태에서, 하나의 파티션을 표지시키기 위해 사용되는 태그 세트는 다른 파티션를 표지시키기 위해 사용되는 태그 세트에 대하여 용이하게 차별될 수 있다. 일부 실시양태에서, 태그는 부가의 기능을 가질 수 있으며, 예를 들어 태그는 샘플 소스를 색인화하기 위해 사용될 수 있거나 또는 독특한 분자 식별자 (시퀀싱 오류를 돌연변이와 차별화함으로써 시퀀싱 데이터의 품질을 개선시키기 위해 사용할 수 있다)로서 사용될 수 있다. 유사하게, 일부 실시양태에서, 태그는 부가의 기능을 가질 수 있으며, 예를 들어 태그는 샘플 소스를 색인화하기 위해 사용될 수 있거나 또는 독특하지 않은 분자 식별자 (시퀀싱 오류를 돌연변이와 차별화함으로써 시퀀싱 데이터의 품질을 개선시키기 위해 사용할 수 있다)로서 사용될 수 있다.
한 실시양태에서, 파티션 태그부착은 각각의 파티션 내의 분자를 샘플 태그의 등가물로 태그부착하는 것을 포함한다. 파티션을 재조합하고 분자를 시퀀싱한 후, 샘플 태그는 소스 파티션을 확인한다. 또 다른 실시양태에서, 상이한 파티션은, 예를 들어, 한 쌍의 바코드로 구성된 상이한 세트의 분자 태그로 태그부착된다. 이러한 방식으로, 각각의 분자 바코드는 소스 파티션을 표시하며, 또한 파티션 내의 분자를 구별하는데 유용하다. 예를 들어, 35개 바코드의 제1 세트는 제1 파티션 내의 분자를 태그부착시키기 위해 사용될 수 있는 반면, 35개 바코드의 제2 세트는 제2 파티션 내의 분자를 태그부착시키기 위해 사용될 수 있다.
태그는 하나 이상의 특징에 근거하여 이미 분할된 분자에 부착될 수 있지만, 라이브러리 내의 최종 태그부착된 분자는 더 이상 그 특징을 보유할 수 없다. 예를 들어, 단일 가닥 DNA 분자가 분할되고 태그부착될 수 있지만, 라이브러리 내의 최종 태그부착된 분자는 이중 가닥인 것으로 예상된다. 유사하게, RNA가 분할될 수 있지만, 최종 라이브러리 내에서, 이들 RNA 분자로부터 유래된 태그부착된 분자는 DNA인 것으로 예상된다. 따라서, 라이브러리 내의 분자에 부착된 태그는 전형적으로, 그로부터 궁극적인 태그부착된 분자가 유래되는 "모 분자"의 특징이 반드시 태그부착된 분자 자체의 특징일 필요는 없다는 것을 표시한다.
예를 들어, 바코드 1, 2, 3, 4 등은 제1 파티션 내의 분자에 태그부착하고 이를 표지시키기 위해 사용되고; 바코드 A, B, C, D 등은 제2 파티션 내의 분자에 태그부착하고 이를 표지시키기 위해 사용되며; 바코드 a, b, c, d 등은 제3 파티션 내의 분자에 태그부착하고 이를 표지시키기 위해 사용된다. 차별적으로 태그부착된 파티션은 시퀀싱 이전에 풀링될 수 있다. 차별적으로 태그부착된 파티션은, 예를 들어, 일루미나(Illumina) 서열 분석기의 동일한 유동 세포에서, 별도로 서열 분석될 수 있거나 또는 공동으로 함께 서열 분석될 수 있다.
시퀀싱 후, 유전적 변이체를 검출하기 위해 판독물을 분석하는 것은 파티션 별로의 수준뿐만 아니라 전체 핵산 집단 수준에 대해 수행될 수 있다. 태그는 상이한 파티션으로부터의 판독물을 분류하기 위해 사용된다. 분석은 서열 정보, 게놈 좌표 길이 및 적용 범위 또는 카피 수를 이용하여 유전적 변이체 및 염색질 구조를 결정하기 위한 인 실리코 분석을 포함할 수 있다. 더 높은 적용 범위는 게놈 영역 내에서의 더 높은 뉴클레오솜 점유율과 상관이 있을 수 있지만, 더 낮은 적용 범위는 더 낮은 뉴클레오솜 점유율 또는 뉴클레오솜 고갈된 영역 (NDR)과 상관이 있을 수 있다.
일부 실시양태에서, 원래의 집단 내의 핵산은 DNA 및/또는 RNA, 단일 가닥 및/또는 이중 가닥일 수 있다. 단일 가닥성 대 이중 가닥성에 근거한 분할은, 예를 들어, 표지된 포획 프로브를 사용하여 ssDNA를 분할하고 이중 가닥 어댑터를 사용하여 dsDNA를 분할함으로써 달성될 수 있다. RNA 대 DNA 조성에 근거한 분할은 이중 가닥 어댑터를 사용하여 dsDNA를 분할하는 것, 및 포획 프로브를 이용하거나 또는 이용하지 않으면서 역전사하여 RNA를 분할하는 것을 포함하나, 이에 제한되지는 않는다.
친화제는 원하는 특이성을 수반한 항체, 자연 결합 파트너 또는 그의 변이체 (문헌 [Bock et al., Nat Biotech 28: 1106-1114 (2010); Song et al., Nat Biotech 29, 68-72 (2011)]), 또는 예를 들어, 소정의 표적에 대한 특이성을 갖기 위해 파지 디스플레이에 의해 선택된 인공 펩티드일 수 있다.
본원에 고려된 포획 모이어티의 예는 메틸 결합 도메인 (MBD) 및 메틸 결합 단백질 (MBP)을 포함한다. 본원에 고려된 MBP의 예는 하기를 포함하나, 이에 제한되지는 않는다:
(a) MeCP2는 비-변형된 시토신에 비해 5-메틸-시토신과 우선적으로 결합하는 단백질이다.
(b) RPL26, PRP8 및 DNA 미스매치 복구 단백질 MHS6은 비-변형된 시토신에 비해 5-히드록시메틸-시토신과 우선적으로 결합한다.
(c) FOXK1, FOXK2, FOXP1, FOXP4 및 FOXI3은 바람직하게, 비-변형된 시토신에 비해 5-포르밀-시토신과 결합한다 (Iurlaro et al., Genome Biol. 14, R119 (2013)).
(d) 하나 이상의 메틸화된 뉴클레오티드 염기에 대해 특이적인 항체.
마찬가지로, 상이한 형태의 핵산의 분할은 히스톤과 결합된 핵산을 유리 또는 결합되지 않은 핵산으로부터 분리시킬 수 있는 히스톤 결합 단백질을 사용하여 수행될 수 있다. 본원에 개시된 방법에 사용될 수 있는 히스톤 결합 단백질의 예는 RBBP4, RbAp48 및 SANT 도메인 펩티드를 포함한다.
일부 친화제 및 변형의 경우, 이러한 작용제에 대한 결합은 핵산이 변형을 보유하고 있는지에 따라서 본질적으로 모두이거나 또는 전혀 없는 방식으로 일어날 수 있지만, 분리는 정도 중 하나일 수 있다. 이러한 경우에, 변형에 있어서 과다표현된 핵산은 변형에 있어서 과소표현된 핵산보다 더 큰 정도로 상기 작용제와 결합한다. 또 다른 한편으론, 변형을 갖는 핵산은 모두이거나 또는 전혀 없는 방식으로 결합될 수 있다. 그러나 이때, 다양한 수준의 변형이 결합제로부터 순차적으로 용출될 수 있다.
예를 들어, 일부 실시양태에서, 분할은 바이너리이거나 또는 변형의 정도/수준에 근거할 수 있다. 예를 들어, 모든 메틸화된 단편은 메틸-결합 도메인 단백질을 사용하여 비-메틸화된 단편으로부터 분할될 수 있다 (예를 들어, 메틸마이너 메틸화된 DNA 풍부화 키트 [써모피셔 사이언티픽(ThermoFisher Scientific)]). 그 후, 부가의 분할은 메틸-결합 도메인 및 결합된 단편을 수반한 용액 중의 염 농도를 조정함으로써 상이한 수준의 메틸화를 갖는 단편을 용출시키는 것을 포함할 수 있다. 염 농도가 증가함에 따라, 더 큰 메틸화 수준을 갖는 단편이 용출된다.
일부 경우에, 최종 파티션은 상이한 정도의 변형 (변형의 과다표현 또는 과소표현)을 갖는 핵산을 나타낸다. 과다표현 및 과소표현은 집단 내의 가닥 당 변형의 중앙 수와 비교하여 핵산에 의해 생성된 변형의 수로써 정의될 수 있다. 예를 들어, 샘플 중의 핵산 내의 5-메틸시토신 잔기의 중앙 수가 2인 경우, 2개 초과의 5-메틸시토신 잔기를 포함한 핵산은 이러한 변형에서 과다표현되고, 1개 또는 0개의 5-메틸시토신 잔기를 수반한 핵산은 과소표현된다. 친화성 분리의 효과는 결합 상에서의 변형에서 과다표현된 핵산 및 비-결합 상 (즉, 용액 중)에서의 변형에서 과소표현된 핵산을 풍부화시키는 것이다. 결합 상에서의 핵산은 후속 프로세싱 전에 용출될 수 있다.
메틸마이너 메틸화된 DNA 풍부화 키트 (써모피셔 사이언티픽)를 사용하는 경우, 다양한 수준의 메틸화는 순차적 용출을 이용하여 분할될 수 있다. 예를 들어, 과소메틸화된 파티션 (메틸화 없음)은 핵산 집단을, 자기 비드에 부착되는 상기 키트로부터의 MBD와 접촉시킴으로써 메틸화된 파티션으로부터 분리될 수 있다. 상기 비드는 비-메틸화된 핵산으로부터 메틸화된 핵산을 분리시키기 위해 사용된다. 그 후, 하나 이상의 용출 단계를 순차적으로 수행하여 상이한 수준의 메틸화를 갖는 핵산을 용출시킨다. 예를 들어, 제1 세트의 메틸화된 핵산은 160 mM 이상, 예를 들어, 적어도 200 mM, 300 mM, 400 mM, 500 mM, 600 mM, 700 mM, 800 mM, 900 mM, 1000 mM, 또는 2000 mM의 염 농도에서 용출될 수 있다. 이러한 메틸화된 핵산을 용출시킨 후, 더 높은 수준의 메틸화된 핵산을 더 낮은 수준의 메틸화를 수반한 것으로부터 분리하기 위해 자기 분리를 다시 한번 사용한다. 용출 및 자기 분리 단계는 다양한 파티션, 예컨대 과소메틸화된 파티션 (메틸화가 없다는 것을 나타낸다), 메틸화된 파티션 (낮은 수준의 메틸화를 나타낸다), 및 과다메틸화된 파티션 (높은 수준의 메틸화를 나타낸다)을 창출하기 위해 자체적으로 반복될 수 있다.
일부 방법에서, 친화성 분리에 사용된 작용제와 결합된 핵산은 세척 단계를 거친다. 세척 단계는 친화제와 약하게 결합된 핵산을 세척한다. 이러한 핵산에는 평균 또는 중앙에 가까운 정도로 변형된 핵산 (즉, 고체 상과 결합된 채로 있는 핵산과 상기 작용제와 샘플의 초기 접촉시 고체 상과 결합하지 않는 핵산 사이의 중간)이 풍부화될 수 있다.
친화성 분리는 상이한 정도의 변형을 수반하는 핵산의 적어도 2개, 및 종종 3개 이상의 파티션을 초래한다. 파티션이 여전히 분리되어 있는 동안, 적어도 하나의 파티션의 핵산, 및 통상적으로 2개 또는 3개 (또는 그 이상)의 파티션은 통상적으로 어댑터의 구성 요소로서 제공되는 핵산 태그에 연결되며, 상이한 파티션 내의 핵산은 한 파티션의 구성원을 또 다른 파티션의 구성원과 구별시켜 주는 상이한 태그를 받아들인다. 동일한 파티션의 핵산 분자에 연결된 태그는 서로 동일하거나 또는 상이할 수 있다. 그러나 서로 상이한 경우, 상기 태그는 이들이 부착된 분자를 특별한 파티션인 것으로서 확인하기 위해 공통적인 코드의 일부를 가질 수 있다.
도 3은 예시적인 계획을 도시한다. 샘플은 상이한 정도의 메틸화를 수반한 핵산을 포함하며, 이들 중 일부는 또한 유전적 변이를 갖는다. 샘플은 시토신에 비해 5-메틸시토신과 우선적으로 결합하는 친화제에 연결된 자기 비드와 접촉된다. 친화성 정제는 핵산의 2개의 파티션을 초래한다. 본 도면의 좌측에 있는 파티션은 친화성 시약과 결합하는 핵산을 나타내고, 5-메틸시토신이 과다표현된 핵산이 풍부화된다. 우측에 있는 파티션은 친화성 시약과 결합하지 않는 핵산을 나타내고, 5-메틸시토신이 결여되거나 또는 과소표현된 핵산이 풍부화된다. 이어서, 2개의 파티션은 차별적 핵산 태그를 포함한 Y자 형 어댑터에 부착되고 증폭된다. 이어서, 이와 같이 증폭된 핵산은 서열 데이터에 관하여 검정되며, 샘플 핵산의 서열은 유전적 변이를 표시하고, 태그의 서열은 샘플 핵산이 분할된 파티션을 표시하므로, 변형 정도를 표시한다.
도 24는 MBD-분할 및 태그부착 접근법의 예시적인 예를 제공한다. 작업 흐름 (1)에서는, 한 세트의 분자 태그 (예를 들어, 35x35 태그)가 분할 이전에 전체 샘플에 적용될 수 있다. 분할 후, 이러한 예에서 과다메틸화된 형태 및 과소메틸화된 형태의 경우, 각각의 파티션 내의 분자는 임의로 증폭된 다음, 독립적으로 서열 분석된다. 작업 흐름 (2)에서는, 샘플 내의 분자가, 예를 들어, 메틸화 특징에 근거하여 분할된다. 각각의 파티션은 별도로 태그부착되고, 증폭되며 서열 분석된다. 작업 흐름 (3)에서는, 복수 개의 샘플 각각에서의 분자를 분할시키고, 파티션-특이적 태그로 태그부착시키며, 풀링하고 증폭시킨다. 이어서, 각각의 샘플 내의 분자에 샘플 태그가 제공되어, 그로부터 분자가 유래된 샘플을 디콘볼루션한다.
일부 실시양태에서, 핵산 분자는 특이적 단백질 또는 그의 단편과 결합되는 핵산 분자 및 그러한 특이적 단백질 또는 그의 단편과 결합되지 않는 핵산 분자에 근거하여 상이한 파티션으로 분획화될 수 있다. 핵산 분자는 DNA-단백질 결합에 근거하여 분획화될 수 있다. 단백질-DNA 복합체는 단백질의 특이적 특성에 근거하여 분획화될 수 있다. 이러한 특성의 예는 다양한 에피토프, 변형 (예를 들어, 히스톤 메틸화 또는 아세틸화) 또는 효소 활성을 포함한다. DNA와 결합할 수 있고 분획화를 위한 기준으로서 제공될 수 있는 단백질의 예는 단백질 A 및 단백질 G를 포함할 수 있으나, 이에 제한되지는 않는다. 임의의 적합한 방법을 사용하여, 단백질 결합된 영역에 근거하여 핵산 분자를 분획화할 수 있다. 단백질 결합된 영역에 근거하여 핵산 분자를 분획화하기 위해 사용되는 방법의 예는 SDS-PAGE, 염색질-면역침전 (ChIP), 헤파린 크로마토그래피, 및 비대칭 필드 흐름 분획화 (AF4)를 포함하나, 이에 제한되지는 않는다.
IV. 핵산의 5- 메틸시토신 패턴의 결정
중아황산염 기반 시퀀싱 및 그의 변이체는 핵산의 메틸화 패턴을 결정하는 수단을 제공한다. 일부 실시양태에서, 메틸화 패턴을 결정하는 것은 5-메틸시토신 (5mC)을 비-메틸화된 시토신과 구별하는 것을 포함한다. 일부 실시양태에서, 메틸화 패턴을 결정하는 것은 N6-메틸아데닌을 비-메틸화된 아데닌과 구별하는 것을 포함한다. 일부 실시양태에서, 메틸화 패턴을 결정하는 것은 5-히드록시메틸시토신 (5hmC), 5-포르밀시토신 (5fC), 및 5-카르복실시토신 (5caC)을 비-메틸화된 시토신과 구별하는 것을 포함한다. 중아황산염 시퀀싱의 예는 산화성 중아황산염 시퀀싱 (OX-BS-seq), Tet-지원형 중아황산염 시퀀싱 (TAB-seq), 및 환원 중아황산염 시퀀싱 (redBS-seq)을 포함하나, 이에 제한되지는 않는다.
산화성 중아황산염 시퀀싱 (OX-BS-seq)은 먼저, 5hmC를 5fC로 전환시킨 다음, 앞서 기재된 바와 같이 중아황산염 시퀀싱으로 진행시킴으로써, 5mC와 5hmC 간을 구별하기 위해 사용된다. Tet-지원형 중아황산염 시퀀싱 (TAB-seq)은 또한, 5mc와 5hmC를 구별하기 위해 사용될 수 있다. TAB-seq에서, 5hmC는 글리코실화에 의해 보호된다. 이어서, Tet 효소를 사용하여 5mC를 5caC로 전환시킨 후, 앞서 기재된 바와 같이 중아황산염 시퀀싱으로 진행한다. 환원 중아황산염 시퀀싱은 5fC를 변형된 시토신과 구별하기 위해 사용된다.
일반적으로, 중아황산염 시퀀싱에서, 핵산 샘플은 2개의 분취액으로 나눠지며, 하나의 분취액은 중아황산염으로 처리된다. 중아황산염은 천연 시토신 및 특정의 변형된 시토신 뉴클레오티드 (예를 들어 5-포르밀시토신 또는 5-카르복실시토신)를 우라실로 전환시키는 반면, 다른 변형된 시토신 (예를 들어, 5- 메틸시토신, 5-히드록실메틸시토신)은 전환시키지 않는다. 2개의 분취액으로부터의 분자의 핵산 서열을 비교하면, 어느 시토신이 우라실로 전환되었고 어느 시토신이 우라실로 전환되지 않았다는 것이 표시된다. 결과적으로, 변형된 시토신과 변형되지 않은 시토신을 결정할 수 있다. 샘플을 2개의 분취액으로 초기 분할하는 것은 소량의 핵산만을 함유하고/하거나 이질적 세포/조직 기원, 예컨대 무세포 DNA를 함유하는 체액으로 구성된 샘플에 대해서는 불리하다.
본 개시내용은 중아황산염 시퀀싱 및 그의 변이체를 허용하는 방법을 제공한다. 이들 방법은 집단 내의 핵산을 포획 모이어티, 즉 포획 또는 고정화될 수 있는 표지에 연결시킴으로써 작동된다. 포획 모이어티는 제한 없이, 비오틴, 아비딘, 스트렙타비딘, 특별한 뉴클레오티드 서열을 포함하는 핵산, 항체에 의해 인식된 합텐, 및 자기적으로 끌어당기는 입자를 포함한다. 추출 모이어티는 결합 쌍의 구성원, 예컨대 비오틴/스트렙타비딘 또는 합텐/항체일 수 있다. 일부 실시양태에서, 분석물에 부착되는 포획 모이어티는 단리 가능한 모이어티, 예컨대 자기적으로 끌어당기는 입자이거나 또는 원심분리를 통해 침강될 수 있는 큰 입자에 부착되는 그의 결합 쌍에 의해 포획된다. 포획 모이어티는 포획 모이어티가 결여된 핵산으로부터 포획 모이어티를 보유하는 핵산을 친화성 분리시킬 수 있는 임의의 유형의 분자일 수 있다. 예시적인 포획 모이어티는 고체 상에 연결되거나 또는 이에 연결 가능한 스트렙타비딘과의 결합에 의해 친화성 분리될 수 있는 비오틴, 또는 고체 상에 연결되거나 또는 이에 연결 가능한 상보적 올리고뉴클레오티드와의 결합을 통해 친화성 분리될 수 있는 올리고뉴클레오티드이다. 포획 모이어티를 샘플 핵산에 연결시킨 후, 샘플 핵산은 증폭을 위한 주형으로서 제공된다. 증폭 후, 원래의 주형은 포획 모이어티에 연결된 채로 있지만, 앰플리콘은 포획 모이어티에 연결되지 않는다.
포획 모이어티는 증폭 및/또는 시퀀싱 프라이머 결합 부위를 제공할 수도 있는 어댑터의 구성 요소로서 샘플 핵산에 연결될 수 있다. 일부 방법에서, 샘플 핵산은 양 말단에서 어댑터에 연결되며, 양 어댑터는 포획 모이어티를 보유한다. 바람직하게 이러한 어댑터 내의 임의의 시토신 잔기는 중아황산염의 작용에 대항하여 보호하기 위해, 예컨대 5메틸시토신에 의해 변형된다. 일부 경우에, 포획 모이어티는 절단 가능한 연결 (예를 들어, 광 절단 가능한 데스티오비오틴-TEG 또는 USER™ 효소로 절단 가능한 우라실 잔기 (문헌 [Chem. Commun. (Camb). 2015 Feb 21; 51(15): 3266-3269]))에 의해 원래의 주형에 연결되며, 이러한 경우 포획 모이어티는 원하는 경우, 제거될 수 있다.
앰플리콘은 변성되고, 포획 태그를 위한 친화성 시약과 접촉된다. 원래의 주형은 친화성 시약과 결합하는 반면, 증폭으로부터 생성된 핵산 분자는 그렇지 않다. 따라서, 원래의 주형은 증폭으로부터 생성된 핵산 분자로부터 분리될 수 있다.
분리 또는 분할 후, 핵산의 각각의 집단 (즉, 원래의 주형 및 증폭 산물)은 중아황산염 처리될 수 있는데, 원래의 주형 집단은 중아황산염 처리를 받고 증폭 산물은 그렇지 않다. 또 다른 한편으론, 증폭 산물은 중아황산염 처리를 받고 원래의 주형 집단은 그렇지 않다. 이러한 처리 후, 각각의 집단은 증폭될 수 있다 (원래의 주형 집단의 경우에는 우라실이 티민으로 전환된다). 상기 집단은 또한, 풍부화를 위하여 비오틴 프로브 혼성화를 겪을 수 있다. 이어서, 각각의 집단을 분석하고 서열을 비교하여 원래 내의 어느 시토신이 5-메틸화 (또는 5-히드록실메틸화)되었는지를 결정하였다. 주형 집단 내에서의 T 뉴클레오티드 (우라실로 전환된 비-메틸화된 시토신에 상응함) 및 증폭된 집단의 상응하는 위치에서의 C 뉴클레오티드의 검출은 비-변형된 C를 표시한다. 원래의 주형 및 증폭된 집단의 상응하는 위치에서의 C의 존재는 원래의 샘플 내의 변형된 C를 표시한다.
일부 실시양태에서, 한 방법은 분자 태그부착된 DNA 라이브러리의 순차적 DNA-seq 및 중아황산염-seq (BIS-seq) NGS 라이브러리 제조를 이용한다 (도 4 참조). 이러한 프로세스는 어댑터 (예를 들어, 비오틴)의 표지화, 전체 라이브러리의 DNA-seq 증폭, 모 분자 회수 (예를 들어 스트렙타비딘 비드 하강), 중아황산염 전환 및 BIS-seq에 의해 수행된다. 일부 실시양태에서, 상기 방법은 중아황산염 처리를 사용하는 경우 및 사용하지 않는 경우 모 라이브러리 분자의 순차적 NGS-예비 증폭을 통해 단일 염기 분해능으로 5-메틸시토신을 확인한다. 이는 2개의 어댑터 가닥 중 하나 상에 표지 (예를 들어, 비오틴)를 이용하여 BIS-seq에 사용된 5-메틸화된 NGS-어댑터 (방향성 어댑터; 5-메틸시토신으로 대체된 Y자형/분기형)를 변형시킴으로써 수득될 수 있다. 샘플 DNA 분자는 어댑터 라이게이션되고, 증폭된다 (예를 들어, PCR에 의함). 모 분자 만이 표지된 어댑터 말단을 가질 것이므로, 표지 특이적 포획 방법 (예를 들어, 스트렙타비딘-자기 비드)에 의해 그의 증폭된 자손으로부터 선택적으로 회수될 수 있다. 모 분자가 5-메틸화 마크로 보유하므로, 포획된 라이브러리 상에서의 중아황산염 전환은 BIS-seq 동안 단일 염기 분해능 5-메틸화 상태를 야기하여, 분자 정보를 상응하는 DNA-seq에 보유한다. 일부 실시양태에서, 중아황산염 처리된 라이브러리는 표준 멀티플렉스된 NGS 작업 흐름에 샘플 태그 DNA 서열을 부가함으로써 풍부화/NGS 이전에 비-처리된 라이브러리와 조합될 수 있다. BIS-seq 작업 흐름과 마찬가지로, 생물 정보학 분석은 게놈 정렬 및 5-메틸화된 염기 식별을 위해 수행될 수 있다. 요컨대, 이러한 방법은 라이브러리 증폭 후 5-메틸시토신 마크를 수반하는, 라이게이션된 모 분자를 선택적으로 회수함으로써, 중아황산염 전환된 DNA를 병렬 프로세싱할 수 있는 능력을 제공한다. 이는 작업 흐름으로부터 추출된 DNA-seq 정보의 품질/감도에 대한 중아황산염 처리의 파괴적 성질을 극복한다. 이러한 방법을 사용하면, 회수된 라이게이션된 모 DNA 분자 (표지된 어댑터를 통함)는 완전한 DNA 라이브러리를 증폭할 수 있게 해주고, 후성적 DNA 변형을 유도하는 처리를 병렬 적용할 수 있게 해준다. 본 개시내용은 시토신 5-메틸화 (5-메틸시토신)를 확인하기 위해 BIS-seq 방법을 사용하는 것이 논의되지만, 이에 제한되지 않아야 한다. 히드록시메틸화된 시토신 (5hmC; OX-BS-seq, TAB-seq), 포르밀시토신 (5fC; redBS-seq) 및 카르복실시토신을 확인하기 위한 BIS-seq의 변이체가 개발되었다. 이들 방법론은 본원에 기재된된 순차적/병렬 라이브러리 제조로 구현될 수 있다.
변형된 핵산 분석의 대체 방법
본 개시내용은 변형된 핵산 (예를 들어, 메틸화된, 히스톤에 연결된 및 상기 논의된 다른 변형)을 분석하기 위한 대체 방법을 제공한다. 일부 이러한 방법에서는, 변형을 상이한 정도로 보유하는 핵산 집단 (예를 들어, 핵산 분자 당 0, 1, 2, 3, 4, 5개 또는 그 초과의 메틸 기)을 어댑터와 접촉시킨 후, 변형 정도에 따라서 상기 집단을 분획화한다. 어댑터는 집단 내의 핵산 분자의 어느 한쪽 말단 또는 양 말단에 부착된다. 바람직하게, 어댑터는 충분한 수의 상이한 태그를 포함하므로, 수많은 태그의 조합으로 인해, 예를 들어, 동일한 출발 점과 정지 점을 갖는 2개의 핵산 중 95, 99 또는 99.9%가 동일한 태그 조합을 받을 확률은 낮다. 어댑터의 부착 후, 핵산은 어댑터 내의 프라이머 결합 부위와 결합하는 프라이머로부터 증폭된다. 어댑터는 동일하거나 또는 상이한 태그를 보유하는지에 상관없이, 동일하거나 또는 상이한 프라이머 결합 부위를 포함할 수 있지만, 바람직하게 어댑터는 동일한 프라이머 결합 부위를 포함한다. 증폭 후, 핵산은 변형을 보유하고 있는 핵산과 바람직하게 결합하는 작용제 (예컨대, 앞서 기재된 상기 작용제)와 접촉된다. 핵산은 이러한 핵산이 상기 작용제와 결합하는 변형을 보유하는 정도에 있어서 상이한 적어도 2개의 파티션으로 분리된다. 예를 들어, 상기 작용제가 변형을 보유하는 핵산에 대한 친화성을 갖는 경우, 이러한 변형에서 과다표현된 핵산 (집단 내의 중앙 표현과 비교함)은 상기 작용제와 우선적으로 결합하는 반면, 상기 변형에 대하여 과소표현된 핵산은 상기 작용제와 결합하지 않거나 또는 그로부터 보다 용이하게 용출된다. 분리 후, 상이한 파티션은 추가의 프로세싱 단계를 거칠 수 있으며, 이는 전형적으로 추가의 증폭, 및 서열 분석을 병렬식이긴 하지만, 별도로 포함한다. 이어서 상이한 파티션으로부터의 서열 데이터를 비교할 수 있다.
이러한 분리를 수행하기 위한 예시적인 계획이 도 5에 도시된다. 핵산은 양 말단에서 프라이머 결합 부위 및 태그를 포함한 Y자 형 어댑터에 연결된다. 그 분자가 증폭된다. 이어서 증폭된 분자는 5-메틸시토신과 우선적으로 결합하는 항체와 접촉시킴으로써 분획화하여 2개의 파티션을 생산한다. 하나의 파티션은 메틸화가 결여된 원래의 분자 및 메틸화를 상실한 증폭 카피를 포함한다. 다른 파티션은 메틸화를 수반한 원래의 DNA 분자를 포함한다. 이어서 2개의 파티션은, 메틸화된 파티션의 추가의 증폭과 별도로 프로세싱되고 서열 분석된다. 이어서, 2개의 파티션의 서열 데이터를 비교할 수 있다. 이러한 예에서, 태그는 메틸화된 DNA와 비-메틸화된 DNA를 구별하기 위해 사용되는 것이 아니라, 오히려 이들 파티션 내의 상이한 분자들 간을 구별하여, 동일한 출발 점과 정지 점을 수반한 판독물이 동일하거나 또는 상이한 분자에 근거한 것인지를 결정할 수 있도록 하기 위해 사용된다.
본 개시내용은 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기, 예컨대 5-메틸시토신 및 앞서 기재된 다른 변형 중 임의의 것을 포함하는 핵산 집단을 분석하기 위한 추가의 방법을 제공한다. 이들 방법에서는, 핵산 집단을 5C 위치에서 변형된 하나 이상의 시토신 잔기, 예컨대 5-메틸시토신을 포함한 어댑터와 접촉시킨다. 바람직하게 이러한 어댑터 내의 모든 시토신 잔기가 또한 변형되거나, 또는 어댑터의 프라이머 결합 영역 내의 모든 상기 시토신이 변형된다. 어댑터는 집단 내의 핵산 분자의 양 말단에 부착된다. 바람직하게, 어댑터는 충분한 수의 상이한 태그를 포함하므로, 수많은 태그의 조합으로 인해, 예를 들어, 동일한 출발 점과 정지 점을 갖는 2개의 핵산 중 95, 99 또는 99.9%가 동일한 조합의 태그를 받을 확률은 낮다. 이러한 어댑터 내의 프라이머 결합 부위는 동일하거나 또는 상이할 수 있지만, 바람직하게 동일하다. 어댑터의 부착 후, 핵산은 어댑터의 프라이머 결합 부위와 결합하는 프라이머로부터 증폭된다. 이와 같이 증폭된 핵산은 제1 및 제2 분취액으로 분할된다. 제1 분취액은 추가 프로세싱을 수반하거나 또는 수반하지 않으면서 서열 데이터에 관하여 검정된다. 따라서 제1 분취액 내의 분자에 대한 서열 데이터는 핵산 분자의 초기 메틸화 상태에 상관없이 결정된다. 제2 분취액 내의 핵산 분자는 중아황산염으로 처리된다. 이러한 처리는 비-변형된 시토신을 우라실로 전환시킨다. 이어서 이와 같이 중아황산염 처리된 핵산은, 핵산과 연결된 어댑터의 원래의 프라이머 결합 부위에 대한 프라이머에 의해 프라이밍된 증폭을 거친다. 원래 어댑터와 연결된 핵산 분자 만이 (그의 증폭 산물과 뚜렷이 구별되는 바와 같음) 현재 증폭 가능한데, 이는 이들 핵산이 어댑터의 프라이머 결합 부위 내에 시토신을 보유하는 반면, 증폭 산물은 이들 시토신 잔기의 메틸화를 상실하여, 중아황산염 처리에서 우라실로의 전환을 진행하기 때문이다. 따라서, 그 중 적어도 일부가 메틸화되는, 집단 내의 원래의 분자만이 증폭을 진행한다. 증폭 후, 이들 핵산은 서열 분석의 대상이 된다. 제1 분취액으로부터 결정된 서열과 제2 분취액으로부터 결정된 서열의 비교는 다른 것들 중에서, 핵산 집단 내의 어느 시토신이 메틸화의 대상인지를 표시할 수 있다.
이러한 분석을 위한 예시적인 계획이 도 6에 도시된다. 메틸화된 DNA는 프라이머 결합 부위 및 태그를 포함한 양 말단에서 Y자 형 어댑터에 연결된다. 어댑터 내의 시토신은 5-메틸화된다. 프라이머의 메틸화는 후속 후속 중아황산염 단계에서 프라이머 결합 부위를 보호하기 위해 제공된다. 어댑터의 부착 후, DNA 분자가 증폭된다. 증폭 산물은 중아황산염 처리를 수반하는 경우 및 수반하지 않은 경우에 시퀀싱을 위하여 2개의 분취액으로 분할된다. 중아황산염 시퀀싱의 대상이 아닌 분취액은 추가의 프로세싱을 수반하거나 또는 수반하지 않으면서 서열 분석될 수 있다. 다른 분취액은 중아황산염으로 처리하는데, 이는 비-메틸화된 시토신을 우라실로 전환시킨다. 시토신의 메틸화에 의해 보호된 프라이머 결합 부위만이, 원래의 프라이머 결합 부위에 대해 특이적인 프라이머와 접촉될 때 증폭을 지원할 수 있다. 따라서, 원래의 분자만이 그리고 제1 증폭으로부터의 카피가 아닌 것이 추가 증폭의 대상이 된다. 이어서 이와 같이 추가 증폭된 분자는 서열 분석의 대상이 된다. 이어서 서열을 2개의 분취액으로부터 비교할 수 있다. 도 5에서와 같이, 어댑터 내의 핵산 태그는 메틸화된 DNA와 비-메틸화된 DNA를 구별하기 위해 사용되는 것이 아니라, 동일한 파티션 내의 핵산 분자를 구별하기 위해 사용된다.
V. 본 방법의 일반적인 특색
1. 샘플
샘플은 대상체로부터 단리된 임의의 생물학적 샘플일 수 있다. 샘플은 신체 샘플일 수 있다. 샘플은 신체 조직, 예컨대 공지되거나 또는 의심되는 고형 종양, 전혈, 혈소판, 혈청, 혈장, 대변, 적혈구, 백혈구 또는 림프구, 내피 세포, 조직 생검, 뇌척수액, 활액, 림프액, 복수, 간질 액 또는 세포외 유체, 세포 사이 공간 내의 유체 (잇몸 치은구의 유체 포함), 골수, 흉막 삼출액, 뇌척수액, 타액, 점액, 객담, 정액, 땀, 소변을 포함할 수 있다. 샘플은 바람직하게 체액, 특히 혈액 및 그의 분획, 및 소변이다. 샘플은 대상체로부터 원래 단리된 형태일 수 있거나 또는 세포와 같은 성분을 제거 또는 부가하기 위해 또는 또 다른 성분과 비교하여 한 성분을 풍부화시키기 위해 추가로 프로세싱시킬 수 있었다. 따라서, 분석용으로 바람직한 체액은 무세포 핵산을 함유하는 혈장 또는 혈청이다. 샘플은 대상체로부터 단리 또는 수득될 수 있고, 샘플 분석 부위로 수송될 수 있다. 샘플은 원하는 온도, 예를 들어, 실온, 4℃, -20℃, 및/또는 -80℃ 하에 보존 및 선적될 수 있다. 샘플은 샘플 분석 부위에서 대상체로부터 단리 또는 수득될 수 있다. 대상체는 인간, 포유동물, 동물, 애완용 동물, 서비스 동물, 또는 애완동물일 수 있다. 대상체는 암이 있을 수 있다. 대상체는 암 또는 검출 가능한 암 증상이 없을 수 없다. 대상체는 하나 이상의 암 요법, 예를 들어, 화학요법, 항체, 백신 또는 생물 제제 중 어느 하나 이상으로 치료받은 적이 있을 수 있다. 대상체는 차도가 있을 수 있다. 대상체는 암 또는 임의의 암 관련 유전적 돌연변이/장애에 대해 감수성인 것으로 진단될 수 있거나 또는 그렇지 않을 수 있다.
혈장의 용적은 서열 분석된 영역에 대한 원하는 판독 폭에 좌우될 수 있다. 예시적인 용적은 0.4-40 ml, 5-20 ml, 10-20 ml이다. 예를 들어, 그 용적은 0.5 mL, 1 mL, 5 mL, 10 mL, 20 mL, 30 mL, 또는 40 mL일 수 있다. 샘플링된 혈장의 용적은 5 내지 20 mL일 수 있다.
샘플은 게놈 등가물을 함유하는 다양한 양의 핵산을 포함할 수 있다. 예를 들어, 약 30 ng DNA의 샘플은 약 10,000개 (104)의 반수체 인간 게놈 등가물을 함유할 수 있고, cfDNA의 경우에는, 약 2천억개 (2x1011) 개별 폴리뉴클레오티드 분자를 함유할 수 있다. 유사하게, 약 100 ng의 DNA 샘플은 약 30,000개의 반수체 인간 게놈 등가물을 함유할 수 있고, cfDNA의 경우에는, 약 6천억개의 개별 분자를 함유할 수 있다.
샘플은 상이한 공급원, 예를 들어, 동일한 대상체의 세포 및 무세포, 상이한 대상체의 세포 및 무세포로부터의 핵산을 포함할 수 있다. 샘플은 돌연변이를 수반하는 핵산을 포함할 수 있다. 예를 들어, 샘플은 배선 돌연변이 및/또는 체세포 돌연변이를 수반하는 DNA를 포함할 수 있다. 배선 돌연변이는 대상체의 배선 DNA에 현존하는 돌연변이를 지칭한다. 체세포 돌연변이는 대상체의 체세포, 예를 들어, 암세포에서 유래되는 돌연변이를 지칭한다. 샘플은 암 관련 돌연변이 (예를 들어, 암 관련 체세포 돌연변이)를 수반하는 DNA를 포함할 수 있다. 샘플은 후성적 변이체 (즉 화학적 또는 단백질 변형)를 포함하며, 여기서 후성적 변이체는 유전적 변이체, 예컨대 암 관련 돌연변이의 존재와 연관된다. 일부 실시양태에서, 샘플은 유전적 변이체의 존재와 연관된 후성적 변이체를 포함하며, 여기서 샘플은 유전적 변이체를 포함하지 않는다.
증폭 전의 샘플 내의 무세포 핵산의 예시적인 양은 약 1 fg 내지 약 1 μg, 예를 들어, 1 pg 내지 200 ng, 1 ng 내지 100 ng, 10 ng 내지 1000 ng의 범위이다. 예를 들어, 그 양은 약 600 ng 이하, 약 500 ng 이하, 약 400 ng 이하, 약 300 ng 이하, 약 200 ng 이하, 약 100 ng 이하, 약 50 ng 이하, 또는 약 20 ng 이하의 무세포 핵산 분자일 수 있다. 그 양은 적어도 1 fg, 적어도 10 fg, 적어도 100 fg, 적어도 1 pg, 적어도 10 pg, 적어도 100 pg, 적어도 1 ng, 적어도 10 ng, 적어도 100 ng, 적어도 150 ng, 또는 적어도 200 ng의 무세포 핵산 분자일 수 있다. 그 양은 1 펨토그램 (fg), 10 fg, 100 fg, 1 피코그램 (pg), 10 pg, 100 pg, 1 ng, 10 ng, 100 ng, 150 ng, 또는 200 ng 이하의 무세포 핵산 분자일 수 있다. 상기 방법은 1 펨토그램 (fg) 내지 200 ng을 수득하는 것을 포함할 수 있다.
무세포 핵산은 세포 내에 함유되지 않거나 또는 달리 세포와 결합되지 않는 핵산, 또는 다시 말해서, 무손상 세포를 제거한 후에도 샘플 내에 남아있는 핵산이다. 무세포 핵산은 DNA, RNA, 및 그의 혼성체를 포함하며, 이는 게놈 DNA, 미토콘드리아 DNA, siRNA, miRNA, 순환 RNA (cRNA), tRNA, rRNA, 작은 핵소체 RNA (snoRNA), Piwi-상호 작용성 RNA (piRNA), 긴 비-코딩 RNA (긴 ncRNA), 또는 이들 중 임의의 것의 단편을 포함한다. 무세포 핵산은 이중 가닥, 단일 가닥, 또는 그의 혼성체일 수 있다. 무세포 핵산은 분비 또는 세포 사멸 프로세스, 예를 들어, 세포성 괴사 및 아폽토시스를 통해 체액 내로 방출될 수 있다. 일부 무세포 핵산은 암세포, 예를 들어, 순환 종양 DNA (ctDNA)로부터 체액 내로 방출된다. 다른 것은 건강한 세포로부터 방출된다. 일부 실시양태에서, cfDNA는 무세포 태아 DNA (cffDNA)이다. 일부 실시양태에서, 무세포 핵산은 종양 세포에 의해 생산된다. 일부 실시양태에서, 무세포 핵산은 종양 세포와 비-종양 세포의 혼합물에 의해 생산된다.
무세포 핵산은 약 100 내지 500개의 뉴클레오티드의 예시적인 입자 분포를 나타내며, 110 내지 약 230개의 뉴클레오티드의 분자가 이러한 분자의 약 90%를 차지하고, 약 168개의 뉴클레오티드의 모드 및 240 내지 440개의 뉴클레오타이드 범위의 제2 마이너 피크를 수반한다.
무세포 핵산은 분획화 또는 분할 단계를 통해 체액으로부터 단리될 수 있으며, 여기서 용액에서 발견된 바와 같은 무세포 핵산은 무손상 세포 및 체액의 다른 비-가용성 성분으로부터 분리된다. 분할은 원심분리 또는 여과와 같은 기술을 포함할 수 있다. 또 다른 한편으론, 체액 중의 세포는 용해될 수 있고, 무세포와 세포성 핵산은 함께 프로세싱될 수 있다. 일반적으로, 완충액의 부가 및 세척 단계 후, 핵산은 알콜로 침전될 수 있다. 추가의 정화 단계는, 예컨대 실리카 기반 칼럼을 사용하여 오염물질 또는 염을 제거할 수 있다. 중아황산염 시퀀싱, 혼성화, 및/또는 라이게이션을 위한 비-특이적 벌크 캐리어 핵산, 예컨대 Cot-1 DNA, DNA 또는 단백질이 반응 내내 부가되어, 본 절차의 특정 측면, 예컨대 수율을 최적화할 수 있다.
이러한 프로세싱 후, 샘플은 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA를 포함한 다양한 형태의 핵산을 포함할 수 있다. 일부 실시양태에서, 단일 가닥 DNA 및 RNA는 이중 가닥 형태로 전환될 수 있으므로, 이들은 후속 프로세싱 및 분석 단계에 포함된다.
2. DNA 분자를 어댑터에 연결시킨다
샘플 내의 이중 가닥 DNA 분자, 및 이중 가닥 DNA 분자로 전환된 단일 가닥 RNA 또는 DNA 분자는 어느 한쪽 말단 또는 양 말단에서 어댑터에 연결될 수 있다. 전형적으로, 이중 가닥 분자는 4개 모든 표준 뉴클레오티드의 존재하에, 5'-3' 폴리머라제 및 3'-5' 엑소뉴클레아제 (또는 증명 판독 기능)를 수반한 폴리머라제로 처리함으로써 평활 말단시킨다. 클레노우 큰 단편 및 T4 폴리머라제가 적합한 폴리머라제의 예이다. 이와 같이 평활 말단된 DNA 분자는 적어도 부분적으로 이중 가닥 어댑터 (예를 들어, Y자 형 또는 종 모양의 어댑터)와 라이게이션될 수 있다. 또 다른 한편으론, 상보적 뉴클레오티드는 샘플 핵산 및 어댑터의 평활 말단에 부가되어 라이게이션을 용이하게 할 수 있다. 본원에는 평활 말단 라이게이션과 점착성 말단 라이게이션 둘 다가 고려된다. 평활 말단 라이게이션에서는, 핵산 분자와 어댑터 태그 둘 다가 평활 말단을 갖는다. 점착성 말단 라이게이션에서는, 전형적으로, 핵산 분자가 "A" 오버행을 보유하고 어댑터는 "T" 오버행을 보유한다.
3. 증폭
어댑터에 의해 플랭킹된 샘플 핵산은 PCR 및 다른 증폭 방법에 의해 증폭될 수 있다. 증폭은 전형적으로, 증폭될 DNA 분자를 플랭킹하는 어댑터 내의 프라이머 결합 부위와 결합하는 프라이머에 의해 프라이밍된다. 증폭 방법은 써모사이클링으로부터 비롯되는, 변성, 어닐링 및 연장의 주기를 포함할 수 있거나, 또는 전사 매개된 증폭에서와 같이 등온일 수 있다. 다른 증폭 방법은 라이가제 연쇄 반응, 가닥 치환 증폭, 핵산 서열 기반 증폭, 및 자립적인 서열 기반 복제를 포함한다.
바람직하게, 본 방법은 T-테일형 및 C-테일형 어댑터를 이용하여 dsDNA 'T/A 라이게이션'을 수행하여, 어댑터에 연결하기 전에 적어도 50, 60, 70 또는 80%의 이중 가닥 핵산을 증폭시킨다. 바람직하게 본 방법은 T-테일형 어댑터 단독으로 수행된 대조군 방법과 비교하여 증폭된 분자의 양 또는 수를 적어도 10, 15 또는 20% 만큼 증가시킨다.
4. 태그
바코드를 포함하는 태그가 어댑터 내로 혼입되거나 또는 달리 결합될 수 있다. 태그는 다른 방법 중에서 라이게이션, 중복 연장 PCR에 의해 혼입될 수 있다.
분자 태그부착 전략
분자 태그부착은 서열 판독물이 유래된 분자를 구별할 수 있게 해주는 태그부착 실무를 지칭한다. 태그부착 전략은 독특한 태그부착 전략과 독특하지 않은 태그부착 전략으로 나눌 수 있다. 독특한 태그부착에서, 샘플 내의 모든 분자 또는 실질적으로 모든 분자는 상이한 태그를 보유하므로, 판독물은 태그 정보 단독에 근거하여 원래의 분자에 배정될 수 있다. 이러한 방법에 사용되는 태그가 종종, "독특한 태그"로서 지칭된다. 독특하지 않은 태그부착에서는, 동일한 샘플 내의 상이한 분자가 동일한 태그를 보유할 수 있으므로, 태그 정보 이외의 다른 정보를 이용하여 서열 판독물을 원래의 분자에 배정한다. 이러한 정보는 출발 및 정지 좌표, 분자가 맵핑하는 좌표, 출발 또는 정지 좌표 단독 등을 포함할 수 있다. 이러한 방법에 사용되는 태그가 종종, "독특하지 않은 태그"로서 지칭된다. 따라서, 샘플 내의 모든 분자에 독특하게 태그부착할 필요는 없다. 샘플 내에서 식별 가능한 부류 내에 속하는 분자를 독특하게 태그부착하는 것으로 충분하다. 따라서, 식별 가능한 상이한 계열의 분자는 태그부착된 분자의 실체에 관한 정보의 손실없이 동일한 태그를 보유할 수 있다.
독특하지 않은 태그부착의 특정 실시양태에서, 사용된 상이한 태그의 수는 특별한 군의 모든 분자가 상이한 태그를 지닐 가능성이 매우 높을 정도로 (예를 들어, 적어도 99%, 적어도 99.9%, 적어도 99.99% 또는 적어도 99.999%) 충분할 수 있다. 바코드가 태그로서 사용될 때, 및 바코드가, 예를 들어, 분자의 양 말단에 무작위로 부착될 때, 바코드의 조합이 함께, 태그를 구성할 수 있다는 것에 주의해야 한다. 이러한 숫자는 말하자면, 호출로 분류되는 분자의 수의 함수이다. 예를 들어, 그 부류는 참조 게놈 상의 동일한 출발-정지 위치에 맵핑되는 모든 분자일 수 있다. 그 부류는 특별한 유전적 유전자 자리, 예를 들어, 특별한 염기 또는 특별한 영역 (예를 들어, 100개 이하의 염기 또는 유전자 또는 유전자의 엑손) 전체에 걸쳐 맵핑되는 모든 분자일 수 있다. 특정 실시양태에서, 특정 부류 내의 분자의 수 (z)를 독특하게 확인하기 위해 사용되는 상이한 태그의 수는 2*z, 3*z, 4*z, 5*z, 6*z, 7*z, 8*z, 9*z, 10*z, 11*z, 12*z, 13*z, 14*z, 15*z, 16*z, 17*z, 18*z, 19*z, 20*z 또는 100*z (예를 들어, 하한치) 중 임의의 것 내지 100,000*z, 10,000*z, 1000*z 또는 100*z (예를 들어, 상한치) 중 임의의 것일 수 있다.
예를 들어, 약 5 ng 내지 30 ng의 무세포 DNA의 샘플에서는, 특별한 뉴클레오티드 좌표에 맵핑하기 위해 약 3000 개의 분자를 기대하고, 동일한 정지 좌표를 공유하기 위해 임의의 출발 좌표를 갖는 약 3 내지 10개의 분자를 기대한다. 따라서, 약 50 내지 약 50,000개의 상이한 태그 (예를 들어, 약 6 내지 220개의 바코드 조합)가 이러한 모든 분자를 독특하게 태그부착시키는 데 충분할 수 있다. 뉴클레오티드 좌표 전체에 걸쳐 매핍하는 모든 3000개 분자를 독특하게 태그부착하기 위해, 약 1백만개 내지 약 2천만개의 상이한 태그가 요구될 것이다.
일반적으로, 독특하거나 또는 독특하지 않은 태그 바코드를 반응에 배정하는 것은 미국 특허 출원 20010053519, 20030152490, 20110160078, 및 미국 특허 번호 6,582,908 및 미국 특허 번호 7,537,898 및 미국 특허 번호 9,598,731에 기재된 방법 및 시스템을 따른다. 태그는 샘플 핵산에 무작위로 또는 비-무작위로 연결될 수 있다.
일부 실시양태에서, 이와 같이 태그부착된 핵산은 마이크로웰 플레이트 내로 부하한 후에 서열 분석된다. 이러한 마이크로웰 플레이트는 96, 384, 또는 1536개의 마이크로웰을 가질 수 있다. 일부 경우에, 이들은 독특한 태그 대 마이크로웰의 예상 비율로 도입된다. 예를 들어, 독특한 태그는 게놈 샘플 당 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50,000, 100,000, 500,000, 1,000,000, 10,000,000, 50,000,000 또는 1,000,000,000개 초과의 독특한 태그가 부하되도록 부하될 수 있다. 일부 경우에, 독특한 태그는 게놈 샘플 당 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50,000, 100,000, 500,000, 1,000,000, 10,000,000, 50,000,000 또는 1,000,000,000개 미만의 독특한 태그가 부하되도록 부하될 수 있다. 일부 경우에, 샘플 게놈 당 부하된 독특한 태그의 평균 수는 게놈 샘플 당 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50,000, 100,000, 500,000, 1,000,000, 10,000,000, 50,000,000 또는 1,000,000,000개 미만이거나 또는 초과의 독특한 태그이다.
바람직한 포맷은 표적 핵산의 양 말단에 라이게이션된 20 내지 50개의 상이한 태그바코드를 이용한다. 예를 들어, 35개의 상이한 태그바코드가 표적 분자의 양 말단에 라이게이션되어 35 x 35 순열을 창출시키며, 이는 35개의 태그 바코드에 대해 1225와 같다. 이러한 수의 태그는 동일한 출발 및 정지 점을 갖는 상이한 분자가 상이한 태그 조합을 받을 가능성이 높도록 하기에 (예를 들어, 적어도 94%, 99.5%, 99.99%, 99.999%) 충분하다. 다른 바코드 조합은 10 내지 500 중 임의의 수, 예를 들어, 약 15x15, 약 35x35, 약 75x75, 약 100x100, 약 250x250, 약 500x500을 포함한다.
일부 경우에, 독특한 태그는 미리 결정되거나 또는 무작위 또는 반-무작위 서열 올리고뉴클레오티드일 수 있다. 다른 경우에, 복수 개의 바코드는 바코드가 복수 개에서 서로 반드시 독특하지 않도록 사용될 수 있다. 이러한 예에서, 바코드는 개별 분자에 라이게이션되어, 바코드와 이에 라이게이션될 수 있는 서열의 조합이 개별적으로 추적될 수 있는 독특한 서열을 창출할 수 있도록 한다. 본원에 기재된 바와 같이, 서열 판독물의 시작 (출발) 및 종료 (정지) 부분의 서열 데이터와 조합하여 독특하지 않은 바코드를 검출하는 것은, 특별한 분자에 독특한 실체를 배정할 수 있게 해준다. 개별 서열 판독물의 염기쌍의 길이 또는 수는 또한, 그러한 분자에 독특한 실체를 배정하기 위해 사용될 수 있다. 본원에 기재된 바와 같이, 독특한 실체가 배정된 핵산의 단일 가닥으로부터의 단편은 이로써, 모 가닥으로부터의 단편의 후속 식별을 허용할 수 있다.
5. 표적 풍부화
특정 실시양태에서, 샘플 내의 핵산은 표적 풍부화를 받을 수 있으며, 여기서 표적 서열을 갖는 분자가 후속 분석을 위해 포획된다. 표적 풍부화는 포획 모이어티, 예컨대 비오틴으로 표지된 올리고뉴클레오티드 미끼를 포함하는 미끼 세트의 사용을 포함할 수 있다. 프로브는 유전자와 같은 영역 패널 전체에 걸쳐 타일링되도록 선택된 서열을 가질 수 있다. 일부 실시양태에서, 미끼 세트는 보다 구체적으로 원하는 관심 서열에 대해 더 높은 상대 농도를 가질 수 있다. 이러한 미끼 세트는 미끼와 표적 분자의 혼성화를 허용하는 조건 하에서 샘플과 조합된다. 그런 다음, 포획된 분자는 포획 모이어티, 예를 들어, 비드 기반 스트렙타비딘에 의한 비오틴 포획 모이어티를 사용하여 단리된다. 이러한 방법은, 예를 들어, 2017년 2월 7일에 출원된 USSN 15/426,668 (2017년 12월 26일에 허여된 미국 특허 번호 9,850,523)에 추가로 기재된다.
6. 시퀀싱
사전 증폭을 수반하거나 또는 수반하지 않으면서 어댑터에 의해 플랭킹된 샘플 핵산은 시퀀싱될 수 있다. 시퀀싱 방법은, 예를 들어, 생거(Sanger) 시퀀싱, 고 처리량 시퀀싱, 피로시퀀싱, 합성에 의한 시퀀싱, 단일 분자 시퀀싱, 나노포어 시퀀싱, 반도체 시퀀싱, 라이게이션에 의한 시퀀싱, 혼성화에 의한 시퀀싱, RNA-Seq (일루미나), 디지털 유전자 발현 [헬리코스(Helicos)], 차세대 시퀀싱 (NGS), 합성에 의한 단일 분자 시퀀싱 (SMSS) (헬리코스), 대규모 병렬 시퀀싱, 클로날 단일 분자 어레이 [솔렉사(Solexa)], 샷건 시퀀싱, 이온 토렌트(Ion Torrent), 옥스포드 나노포어, 로슈 제니아(Roche Genia), 맥심-길버트(Maxim-Gilbert) 시퀀싱, 프라이머 워킹; PacBio, SOLiD, 이온 토렌트, 또는 나노포어 플랫폼을 이용하는 시퀀싱을 포함한다. 시퀀싱 반응은 다수의 레인, 다수의 채널, 다수의 웰, 또는 다수의 샘플 세트를 실질적으로 동시에 프로세싱하는 다른 수단일 수 있는 각종 샘플 프로세싱 유닛에서 수행될 수 있다. 샘플 프로세싱 유닛은 또한, 다수의 실행물을 동시에 프로세싱할 수 있게 해주는 다수의 샘플 챔버를 포함할 수 있다.
시퀀싱 반응은 그 중 적어도 하나가 암 또는 다른 질환의 마커를 함유하는 것으로 공지되어 있는 하나 이상의 형태의 핵산 상에서 수행될 수 있다. 시퀀싱 반응은 또한, 샘플에 존재하는 임의의 핵산 단편 상에서 수행될 수 있다. 서열 반응은 적어도 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 또는 100%의 게놈의 서열 적용 범위를 제공할 수 있다. 다른 경우에, 게놈의 서열 적용 범위는 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 99%, 99.9% 또는 100% 미만일 수 있다. 서열 적용 범위는 적어도 5, 10, 20, 70, 100, 200 또는 500개의 상이한 유전자, 또는 많아 봐야 5000, 2500, 1000, 500 또는 100개의 상이한 유전자 상에서 수행될 수 있다.
동시 시퀀싱 반응은 멀티플렉스 시퀀싱을 이용하여 수행될 수 있다. 일부 경우에, 무세포 핵산은 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개의 시퀀싱 반응으로 서열 분석될 수 있다. 다른 경우에 무세포 핵산은 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개 미만의 시퀀싱 반응으로 서열 분석될 수 있다. 시퀀싱 반응은 순차적으로 또는 동시에 수행될 수 있다. 후속 데이터 분석은 시퀀싱 반응의 전부 또는 일부에 대해 수행될 수 있다. 일부 경우에, 데이터 분석은 적어도 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개의 시퀀싱 반응 상에서 수행될 수 있다. 다른 경우에, 데이터 분석은 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000개 미만의 시퀀싱 반응 상에서 수행될 수 있다. 예시적인 판독물 폭은 유전자 자리 (염기) 당 1000 내지 50000개의 판독물이다.
7. 분석
본 방법은 특정 대상체에서 병태, 특히 암의 존재를 진단하거나, 병태의 특징을 규명하거나 (예를 들어, 암의 병기를 결정하거나 또는 암의 이질성을 결정한다), 병태의 치료에 대한 반응을 모니터링하거나, 병태 또는 병태의 후속 과정의 발생 위험을 예후하기 위해 사용될 수 있다. 본 개시내용은 또한, 특별한 치료 옵션의 효능을 결정하는 데 유용할 수 있다. 성공적인 치료 옵션은 더 많은 암이 사멸하고 DNA를 유출할 수 있으므로 그러한 치료가 성공적인 경우에, 대상체의 혈액에서 검출된 희소 돌연변이 또는 카피 수 변이의 양을 증가시킬 수 있다. 다른 예에서는, 이것이 발생하지 않을 수 있다. 또 다른 예에서, 아마도 특정의 치료 옵션은 시간 경과에 따른 암의 유전적 프로파일과 상관이 있을 수 있다. 이러한 상관 관계는 요법을 선택하는 데 유용할 수 있다. 부가적으로, 치료 후에 암에 차도가 있는 것으로 관찰되는 경우, 본 방법은 잔여 질환 또는 질환의 재발을 모니터링하기 위해 사용될 수 있다.
검출될 수 있는 암의 유형 및 수는 혈액암, 뇌암, 폐암, 피부암, 코암, 인후암, 간암, 뼈암, 림프종, 췌장암, 피부암, 장암, 직장암, 갑상선암, 방광암, 신장암, 구강암, 위암, 고형 상태 종양, 이질적 종양, 동질적 종양 등을 포함할 수 있다. 암의 유형 및/또는 병기는 돌연변이, 희귀 돌연변이, 삽입-결실, 카피 수 변이, 염기전환, 전위, 역위, 결실, 이수성, 부분 이수성, 다배수성, 염색체 불안정성, 염색체 구조 변경, 유전자 융합, 염색체 융합, 유전자 말단절단, 유전자 증폭, 유전자 복제, 염색체 병변, DNA 병변, 핵산 화학적 변형에 있어서의 비정상적인 변화, 후성적 패턴에 있어서의 비정상적인 변화, 및 핵산 5-메틸시토신에 있어서의 비정상적인 변화을 포함한 유전적 변이로부터 검출될 수 있다.
유전적 데이터는 또한, 특이적 형태의 암의 특징을 규명하기 위해 사용될 수 있다. 암은 종종, 조성과 병기 둘 다에 있어서 이질적이다. 유전적 프로파일 데이터는 특이적 하위 유형의 암을 진단 또는 치료하는 데 중요할 수 있는, 그러한 특이적 하위 유형의 암의 특징 규명을 허용할 수 있다. 이러한 정보는 또한, 특이적 유형의 암의 예후에 관한 대상체 또는 실무자 단서를 제공할 수 있으며, 대상체 또는 실무자가 질환의 진행에 따라 치료 옵션을 채택하도록 허용할 수 있다. 일부 암은 보다 공격적이고 유전적으로 불안정하도록 진행될 수 있다. 다른 암은 양성, 비활성 또는 휴면 상태로 남아있을 수 있다. 본 개시내용의 시스템 및 방법은 질환 진행을 결정하는데 유용할 수 있다.
본 분석은 또한, 특별한 치료 옵션의 효능을 결정하는 데 유용하다. 성공적인 치료 옵션은 더 많은 암이 사멸하고 DNA를 유출할 수 있으므로 그러한 치료가 성공적인 경우에, 대상체의 혈액에서 검출된 희소 돌연변이 또는 카피 수 변이의 양을 증가시킬 수 있다. 다른 예에서는, 이것이 발생하지 않을 수 있다. 또 다른 예에서, 아마도 특정의 치료 옵션은 시간 경과에 따른 암의 유전적 프로파일과 상관이 있을 수 있다. 이러한 상관 관계는 요법을 선택하는 데 유용할 수 있다. 부가적으로, 치료 후에 암에 차도가 있는 것으로 관찰되는 경우, 본 방법은 잔여 질환 또는 질환의 재발을 모니터링하기 위해 사용될 수 있다.
본 방법은 또한, 암 이외의 병태에서 유전적 변이를 검출하기 위해 사용될 수 있다. 면역 세포, 예컨대 B 세포는 특정 질환의 존재시 신속한 클로날 확장을 진행할 수 있다. 클로날 확장은 카피 수 변이 검출을 이용하여 모니터링될 수 있고, 특정의 면역 상태가 모니터링될 수 있다. 이러한 예에서, 카피 수 변이 분석은 특별한 질환이 어떻게 진행될 수 있는지에 관한 프로파일을 생산하기 위해 시간 경과에 따라 수행될 수 있다. 카피 수 변이 또는 심지어 희귀 돌연변이 검출을 이용하여, 감염 과정 동안 병원체 집단이 어떻게 변화되는지를 결정할 수 있다. 이는 만성 감염, 예컨대 HIV/AIDS 또는 간염 감염시 특히 중요할 수 있으며, 이로써 바이러스가 생명 주기 상태를 변화시키고/시키거나 감염 과정 동안 더 독성인 형태로 돌연변이될 수 있다. 본 방법은 면역 세포가 이식 조직의 상태를 모니터링하기 위해 이식 조직을 파괴하려고 시도할 뿐만 아니라 거부 반응의 치료 또는 예방 과정을 변경시키므로, 숙주 신체의 거부 반응을 결정하거나 또는 프로파일링하기 위해 사용될 수 있다.
추가로, 본 개시내용의 방법은 대상체의 비정상적인 병태의 이질성의 특징을 규명하기 위해 사용될 수 있다. 이러한 방법은, 예를 들어, 대상체로부터 유래된 세포외 폴리뉴클레오티드의 유전적 프로파일을 생성하는 것을 포함할 수 있으며, 여기서 유전적 프로파일은 카피 수 변이 및 희귀 돌연변이 분석으로부터 생성된 복수 개의 데이터를 포함한다. 일부 실시양태에서, 비정상적인 병태는 암이다. 일부 실시양태에서, 비정상적인 병태는 이질적 게놈 집단을 초래하는 것일 수 있다. 암의 예에서, 일부 종양은 상이한 병기의 암에 있는 종양 세포를 포함하는 것으로 공지되어 있다. 다른 예에서, 이질성은 질환의 다수의 병소를 포함할 수 있다. 또한, 암의 예에서, 다수의 종양 병소가 있을 수 있으며, 아마도 하나 이상의 병소는 원발성 부위로부터 확산된 전이의 결과이다.
본 방법은 이질적 질환에서 상이한 세포로부터 유래된 유전적 정보의 합산인 데이터의 세트 또는 핑거프린트를 생성하거나 또는 프로파일링하기 위해 사용될 수 있다. 이러한 데이터 세트는 카피 수 변이 및 돌연변이 분석을 단독으로 또는 조합하여 포함할 수 있다.
본 방법은 암, 또는 다른 질환을 진단, 예후, 모니터링 또는 관찰하기 위해 사용될 수 있다. 일부 실시양태에서, 본원의 방법은 태아의 진단, 예후 또는 모니터링을 수반하지 않으며, 따라서 비-침습성 태아 시험에 관한 것이 아니다. 다른 실시양태에서, 이들 방법론은 그의 DNA 및 다른 폴리뉴클레오티드가 산모 분자와 함께 공동 순환될 수 있는 아직 태어나지 않은 대상체에서 암 또는 다른 질환을 진단, 예후, 모니터링 또는 관찰하기 위해 임신 대상체에 이용될 수 있다.
NGS를 통해 MBD-비드 분할된 라이브러리의 분자 태그 식별을 위한 예시적인 방법은 하기와 같다:
1. 추출된 DNA 샘플 (예를 들어, 인간 샘플로부터의 추출된 혈장 DNA)을, 메틸-결합 도메인 단백질-비드 정제 키트를 사용하여 물리적 분할하여, 하류 프로세싱을 위해 프로세스로부터의 모든 용출액을 모은다.
2. 차별적 분자 태그 및 NGS 가능 어댑터 서열을 각각의 파티션에 병렬 적용한다. 예를 들어, 과다메틸화된 파티션, 잔여 메틸화 ('세척') 파티션, 및 과소메틸화된 파티션은 분자 태그를 수반한 NGS-어댑터와 라이게이션된다.
3. 모든 분자 태그부착된 파티션을 재조합하고, 어댑터-특이적 DNA 프라이머 서열을 사용하여 후속 증폭시킨다.
4. 재조합되고 증폭된 전체 라이브러리를 풍부화/혼성화하여, 관심 게놈 영역 (예를 들어, 암-특이적 유전적 변이체 및 차별적으로 메틸화된 영역)을 표적화한다.
5. 상기 풍부화된 전체 DNA 라이브러리를 재증폭하여, 샘플 태그를 첨부한다. 상이한 샘플을 풀링하고, NGS 기기 상의 멀티플렉스에서 검정한다.
6. NGS 데이터의 생물 정보학 분석으로, 분자 태그는 독특한 분자를 확인하기 위해 사용되고, 또한 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션한다. 이러한 분석은 표준 유전적 시퀀싱/변이체 검출과 공동으로, 게놈 영역에 대한 상대적 5-메틸시토신에 대한 정보를 산출할 수 있다.
VI. 본 개시내용을 실행하는 방식
본 개시내용은 무세포 핵산 (cfNA) 집단을, 하나 이상의 유사한 특징을 공유하는 파티션으로 분할하는 것을 포함하는 방법을 제공한다.
본 개시내용의 방법은 단일 가닥 핵산 (ssNA; ssDNA, RNA)과 dsDNA로 분할하기 위해 수행될 수 있으며, 이로써 dsDNA 분자는 표준 라이브러리 프렙을 통해 준비되며, ssNA는 ssNA를 원래의 생체 분자 유형 (즉, RNA, ssDNA, dsDNA)에 관한 정보를 보유하면서 풍부화, 시퀀싱 (예를 들어, NGS), 및 분석으로 보정 가능한 형태로 전환시키는 보조 라이브러리 프렙 작업 흐름에서 준비된다.
cfNA 포함 라이브러리 제조에 있어서의 접근법은 (a) RNA를 확인 가능한 ssDNA로 전환시키는 것, (b) 병렬 NGS 라이브러리 프렙을 위해 ssDNA와 dsDNA 분자를 분할하는 것, (c) 이어서, (임의적) 표적 풍부화, (d) NGS, 및 서열을 수반한 분자 유형을 확인하기 위한 하류 데이터 분석을 포함할 수 있다 (도 1 참조).
일부 실시양태에서, cfNA 집단의 dsDNA-특이적 NGS 어댑터 라이게이션은 RNA 분자 태그부착, 특이적 라이게이션, cDNA 전환, 및 NGS 라이브러리 프렙 이전에 수행될 수 있다. 분할 없이, dsDNA에 이어 RNA를 NGS 라이브러리 창출을 위해 순차적으로 라이게이션하는 동시 시퀀싱 방법론이 도 2에 도시된 바와 같이 cfNA 샘플에 적용될 수 있다.
일부 실시양태에서, 플랫폼 라이게이션은 ssDNA 5' 및 3' 말단을 수반한 라이게이션된 ds-cfDNA 분자를 생산하는 Y자 형 또는 '분기된' 어댑터를 이용한다. 이들 말단은 동시 시퀀싱 또는 전통적인 ssDNA 라이브러리 프렙 방법론에서 RNA 라이가제 (또는 서클라이가제™II)에 의해 부당하게 라이게이션될 수 있다. Y자 형 어댑터의 말단을 "헤어핀" 또는 "버블"로 변경시킴으로써, 상기와 같이 라이게이션된 cf-dsDNA 분자는 더 이상 ssDNA 말단을 갖지 않고, 동시 시퀀싱/전통적인 DNA 라이브러리 프렙에서 후속 ssNA-라이게이션에 대한 기질이 아니다. 따라서, 유리 ssDNA 말단을 함유하지 않도록 NGS 어댑터를 재창조하면, 분자 유형을 분할하지 않고서도 dsDNA 작업 흐름 이외에도 RNA 및 ssDNA 라이브러리 제조가 가능해진다.
본 개시내용의 방법은 분자 태그부착 테일을 갖는 유전자 특이적/무작위/폴리T DNA 프라이머를 사용하고, 연속해서 RNase H 또는 NaOH 가수분해에 의해 RNA를 제거하여, 각각의 RNA 분자를 치환하기 위한 태그부착된 ssDNA (cDNA)를 산출함으로써, 역전사 효소를 수반한 cfNA 집단 상에서 수행될 수 있다. 관련 기술분야의 통상의 기술자에게 공지된 부가의 방법론을 이용하여 원치 않는 RNA 서열을 제거할 수 있는데, 예컨대 선택적 혼성화에 의해 리보솜 RNA를 고갈시킨다.
ssDNA는 혼성화 이전에 표준 변성 단계를 생략함으로써, NA 프로브에 의해 선택적으로 포획될 수 있다. ssDNA-프로브 혼성체는 관련 기술분야에 공지된 방법 (예를 들어, 스트렙타비딘-비드 자석에 의해 포획된, 비오티닐화된 DNA/RNA 프로브)에 의해 cfNA 집단으로부터 단리될 수 있다. 이러한 프로브 서열은 표적 특이적일 수 있고, dsDNA 작업 흐름을 수반하는 패널과 동일하거나, 그러한 작업 흐름의 서브세트이거나, 또는 상이할 수 있다 (예를 들어, 엑손-엑손 접합부에서의 RNA-융합, '핫 스팟' DNA 서열을 표적화함). 더욱이, 모든 ssNA는 '만능 뉴클레오티드 염기', 예컨대 데옥시이노신, 3-니트로피롤, 및 5-니트로인돌을 수반한 프로브를 활용함으로써 서열-애그노스틱 방식으로 상기 단계에서 포획될 수 있다.
DNA 시퀀싱에 의해 확인된 유전적 변이, 예컨대 SNV, 삽입-결실, 유전자 융합, 및 CNV 이외에도, 후성적 변이 (예컨대 5-메틸시토신, 히스톤 메틸화, 뉴클레오솜 위치 설정, 및 마이크로- 및 긴-비코딩-RNA 발현)는 질환 진행, 예컨대 암을 유발시키거나 또는 이에 관여할 수 있다. 후성적 마커의 고 처리량 측정에는 각각의 유형의 후성적 마크를 위해 특별히 개발된 복잡한 분자 생물학 기술이 필요하다. 따라서, 후성적 시퀀싱 프로젝트는 전형적으로, DNA (유전적) 시퀀싱과 병행되며, 다량의 투입이 필요하다. 상이하게 표현하면, 다분석물 바이오마커 검출은 샘플 파괴를 동반한다.
무세포 DNA의 유전적 (DNA) 시퀀싱과 후성적 시퀀싱 둘 다는 비-침습적 태아 검사 (NIPT) 및 암 모니터링/검출에 대한 진단적 가치가 있다. 양 적용에서, 유전적 물질의 양은 제한적이고, 희귀 분자 이벤트를 확인하는 것이 가장 중요하다. 따라서, 현재의 방법론으로 후성적 시퀀싱을 수행하면, 각각의 유형의 마커가 전용 샘플을 필요로 하기 때문에 유전적 변이체를 검출하는 데 있어서의 감도가 저하된다.
본 개시내용은 DNA 5-메틸시토신의 후성적 프로세스에 관한 정보를 수득하는 방법을 제공하지만, 5-메틸시토신에 대하여 요약된 "분자 태그를 이용한 분할" 방법론이 또한 다른 후성적 메커니즘에 적용될 수 있다. 유사하게, 5-메틸시토신 (5mC) 식별을 위하여 본 개시내용에 요약된 바와 같이, NGS-어댑터 라이게이션된 모 DNA 분자의 표지화 및 회수를 또한 이용하여, 다른 후성적 DNA 변형 마크 (예를 들어, 히드록시메틸화된, 포르밀, 및 카르복실; 각각 5hmC, 5fC, 및 5caC)를 확인할 수 있다.
5-메틸시토신과 관련하여, 단일 염기 분해능으로 5-메틸시토신 염기를 분별할 수 있는 중아황산염-시퀀싱이 가장 널리 사용되는 접근법이었다. 이러한 방법은 모든 시토신 염기 상에 작용하는 화학적 처리 (중아황산염)를 수반하여, 5-메틸화 또는 5-히드록시메틸화되지 않는 한은 우라실로 전환시킨다. 중아황산염 처리 후에 시퀀싱하면, 시토신으로서 검출된 5-메틸화된 시토신 및 5-히드록실메틸화된 시토신 잔기가 생성될 것이지만, 비-메틸화된 시토신, 5-포르밀메틸화된 시토신, 및 5-카르복실메틸화된 시토신은 티민으로서 검출된다. 앞서 기재된, 중아황산염 시퀀싱의 변이는 5mC, 5hmC, 5fC, 및 5caC 간을 추가로 구별시켜 줄 수 있다. 이러한 접근법의 주요 한계점은 대다수의 유전적 물질이 손실된다는 것이다. 극심한 중아황산염 처리는 투입 DNA의 <99%를 분해시키므로, 샘플의 분자 복잡성과 달성 가능한 검출 한계를 저하시킨다. 현재의 분자 생물학 DNA 증폭 기술 (예를 들어, PCR, LAMP, RCA)은 시토신의 5-메틸화 상태와 관련이 없으므로, 증폭으로 5-메틸화 마크가 손실된다. 이것은 액체 생검 적용에는 매우 바람직하지 않다. 또한, 중아황산염-전환된 DNA 라이브러리는 체세포 변이체 검출을 더욱 어렵게 한다 (예를 들어, C-> T SNV를 비-메틸화된 시토신과 구별한다). 따라서, 중아황산염-처리된 DNA는 액체 생검 적용에서 유전적 변이체 검출을 위해 사용되지 않는다. 5-메틸시토신 분석과 DNA를 호출하는 유전적 변이체를 수행하기 위해서는 샘플을 분할해야 하며, 이는 각각의 작업 흐름에서 검출의 투입/감도를 감소시키고 단일 분자에 대한 5-메틸시토신 정보와 유전적 변이체 둘 다의 식별을 방지시킨다.
특정 실시양태에서, 핵산은 메틸화 차이에 근거하여 분할된다. "과다메틸화" 및 "과소메틸화" 형태의 핵산은 사용된 특별한 분할 방법에 의해 차별화된 메틸화의 특별한 정도 위 및 아래에 각각 속하는 분자로서 정의될 수 있다. 예를 들어, 분할 방법은 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개 또는 적어도 6개의 메틸화된 뉴클레오티드를 갖는 분자를 선택할 수 있다. 메틸화의 정도는 핵산 단편 내의 메틸화된 뉴클레오티드의 수를 지칭한다. DNA 샘플에서 비교적 "과다메틸화"되는 DNA 분자를 확인하는 것은 메틸-결합 도메인 (MBD) 단백질, 또는 그의 단편 또는 변이체와 결합하는 분자를 포획함으로써 달성될 수 있다. MBD는 또한, 메틸-CpG-결합 도메인으로서 지칭될 수 있다. MBD 단백질은 자기 비드와 복합체 형성될 수 있다. 일부 실시양태에서 MBD와 결합하는 단백질은 MECP2, MBD1, MBD2, MBD3, MBD4, 또는 그의 단편 또는 변이체이다. 5-메틸화 부위가 이러한 방법 (중아황산염 전환이 없음)으로 직접적으로 표시되지는 않지만, 중복되는 과다메틸화된 단편의 생물 정보학 분석은 5-메틸시토신의 특이적 부위(들)를 분별할 수 있다. 이러한 방법의 주요 단점은 과다메틸화된 파티션 만을 시퀀싱함으로써, 비-메틸화되는 (약 80 내지 97 질량%) 인간 게놈의 대다수가 서열 분석되지 않아, 유전적 변이체 (예를 들어, SNV, 삽입-결실, 및 CNV)의 식별을 방지/제한하는데, 이는 이들이 과다메틸화된 파티션에는 전혀 존재하지 않거나 또는 낮은 적용 범위 영역이기 때문이다.
본 개시내용은 5-메틸시토신 데이터를 수득하고, 동일한 낮은 투입 샘플 (예를 들어, 액체 생검 작업 흐름)에서 희귀 유전적 변이체를 검출하기 위한 시퀀싱 데이터를 수득하는 방법을 제공한다. 예를 들어, MBD 분획화 및 태그부착을 포함하는 접근법은 샘플 내의 핵산에 대해 비-파괴적이고 증폭 후의 게놈 복잡성을 보존해 준다. 또한 분획화-태그부착 접근법 (예를 들어, MBD 분획화 및 태그부착)은 차별적으로 분할된 핵산 분자를 재조합하여 게놈 복잡성을 반드시 보존해 주고 다분석물 바이오마커 검출 (유전적 및 후성적 변이체)을 가능하게 할 수 있다. 대조적으로, 다른 접근법은 샘플 내의 핵산 분자에 대해 파괴적일 수 있다. 이러한 다른 접근법은 핵산 분자의 단 하나의 분획 또는 군 (예를 들어, 과다메틸화된 핵산 분자)이 분석되는 경우, 중아황산염 시퀀싱, 메틸-감수성 제한 효소 소화, 및 MBD 풍부화를 포함할 수 있다. 예를 들어, 중아황산염 시퀀싱은 핵산 분자에 대한 물리적 손상을 창출시킨다. 메틸 감수성 제한 효소 소화는 메틸화된 핵산 만을 손상시키지 않으면서, 비-메틸화된 분획을 파괴함으로써 게놈 복잡성을 감소시킨다. MBD 결합된 핵산 분자만이 분석되는 경우에 MBD 풍부화는 샘플 내의 핵산의 단일 분획 만을 단리하기 위해 유사하게 사용될 수 있다. 핵산 분자의 단일 분획 만을 분석하는 접근법은 비-풍부화된 부분에 존재하는 핵산 분자에 관한 정보를 파괴한다.
5-메틸시토신 데이터 (또는 다른 메틸화 상태 데이터)를 수득하기 위해 본원에 제공된 방법은 단일 가닥 핵산 및 이중 가닥 핵산 정보를 수득하기 위한 전술한 방법과 조합하여 실시될 수 있다. 일부 실시양태에서, 본원의 방법은 MBD-비드에 의해 다양한 정도의 메틸화로 분할되었던 DNA 분자를 차별적으로 태그부착시킴으로써 과다메틸화된 DNA의 %를 정량화한다 (도 3 참조). 이러한 방법에서는, MBD-분할 프로토콜로부터의 모든 용출액을 회수할 수 있으며, NGS 라이브러리는 그의 MBD-파티션에 상응하는 상이한 분자 태그 세트로 준비된다. 따라서, MBD-분할 프로세스는 전형적인 중아황산염 처리로 존재하는 물질의 손실을 감소시킨다. 라이게이션된 파티션이 증폭/풍부화/NGS 이전에 재조합될 수 있기 때문에, DNA 시퀀싱 작업 흐름에 대한 최소한의 결함이 있다. MBD는 이중 가닥 DNA (dsDNA)와 결합하므로, MBD 분할은 샘플 DNA의 이중 가닥 본질을 유지하여, 감수성 DNA 시퀀싱 방법론에 의한 이중 가닥 분자 태그부착을 허용한다.
MBD 분할된 분자 태그 NGS 작업 흐름에서, 분자 태그는 2가지 목적, 즉 (태그와 게놈 출발/종료 좌표의 조합에 의해) 샘플로부터 독특한 DNA 분자를 확인하는 것, 및 분자의 상대적 5-메틸시토신 수준을 표시하는 것을 제공할 수 있다. 분자 태그를 사용하여 독특한 핵산 분자를 확인하고 계수할 수 있다. 이러한 정보는 증폭 불균형을 계산하기 위해 사용될 수 있다. 분자 태그는 샘플의 원래의 복잡성을 파악할 수 있게 해준다. 분자 태그부착은 증폭이 불균일할 때조차도 샘플 내의 핵산 분자를 확인하고 계수하는데 사용될 수 있다. 상기 방법론은 5-메틸시토신의 정도에 따른 물리적 분할, 차별적 분자 태그의 적용, 임의적 라이브러리 재조합, 풍부화, NGS; 및 유전적 시퀀싱/변이체 검출에 활용되는, DNA-seq과 공동으로 각각의 분자 유래 파티션의 생물 정보학 디콘볼루션을 설명한다. 상기 방법론은 DNA 분자의 이중 가닥 본성을 보유하고 있는 상이한 DNA 결합 요소 및 단백질 결합 요소로 메틸화 결합 단백질 (MBD) 분할을 대체함으로써 다른 후성적 상호 작용의 특징을 규명하도록 연장 가능하다. 예를 들어, 다양한 면역침전 프로토콜에 사용되는 히스톤, 변형된 히스톤 및 전사 인자에 대한 항체는 차별적 분자 태그 세트의 사용을 통해 샘플 내의 모든 DNA 분자와 연관된 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 및 전사 인자 결합에 관한 상대적 정보를 생성하기 위해 MBD-분할을 대체할 수 있다.
데이터 분석
액체 생검에서 암 메틸화 분석이 직면한 주요 과제는 세포 유형 이질성이다. 내재적이고 잘 기록된 암의 이질성 외에도, 혈장 내의 무세포 DNA는 주로 암과 관련이 없는 혼합 세포 사멸 유형을 나타낸다. 예를 들어, 세포 사멸은 비-악성 기관인 생리학적 조혈 계통에 있을 수 있다. 이러한 복잡성에 부가되는 것은 간질 성분 내의 비-암 세포, 예를 들어 혈관 및 림프계 내피 세포 및 혈관주위 세포, 면역 세포, 예컨대 대식 세포, 백혈구 및 림프구, 간질 섬유모세포, 근섬유모세포, 근상피 세포뿐만 아니라 지방 세포, 내분비 세포, 신경 세포, 및 상이한 발달 기원을 갖는 다른 세포성 및 조직 요소 조차도 매우 뚜렷이 구별된다는 것이다. 따라서, 일부 실시양태에서, 액체 생검으로부터의 소견을 분석하고 해석할 때 세포 유형 조성 상의 변화를 조정한다.
분석 파이프라인은 하기 단계를 포함할 수 있다:
a) 뉴클레오솜 점유율 분해;
b) 2분염색체의 위치 지정, 엄격성 배정;
c) 전체 게놈에 걸친 개별 게놈 요소 내에서의 가우시안 혼합 모델 맞춤;
d) 유전자 수준에서의 세포 계통 디콘볼루션.
예시적인 예로서, cfDNA 단편 출발 풍부화 프로파일은 개별 파티션으로부터의 샘플에서 별도로 결정될 수 있다. 예를 들어, 분할된 샘플은 과다메틸화된, 과소메틸화된 또는 중간 메틸화된 DNA를 포함할 수 있다. 상기와 같이 결정된 cfDNA 단편 출발 풍부화 프로파일은 관련 조절 요소, 예를 들어 TSS, 인핸서 영역, 원위 유전자간 요소 내에서의 뉴클레오솜 점유율을 확립하기 위해 사용될 수 있다. 각각의 파티션에 대해, 점유율 피크, 예를 들어, 2분염색체가 결정될 수 있고 그의 엄격성이 배정될 수 있다. 건강한 혈장 샘플에서 관찰된 세포 상태와 연관된 표준 프로파일은 cfDNA 단편 출발 풍부화 프로파일을 결정하고 큰 비-악성 대조군 (예를 들어, 건강한 개체 또는 복수 개의 건강한 개체로부터의 샘플)에서 상기 2분염색체의 위치를 지정함으로써 확립될 수 있다. 임의의 샘플에 대해, 가우시안 혼합물 모델은 분할된 샘플에서 관찰된 악성 (비-표준) 염색질 상태에 상응하는 잔여 점유율을 생산하기 위해 상기 정의된 바와 같은 표준 프로파일을 사용하여 맞출 수 있으며, 이로써 비-표준 cfDNA 단편 피크 및 프로파일을 결정할 수 있다. 비-표준 cfDNA 단편 피크와 프로파일은 각각의 분할된 샘플에서 암의 악성 염색질 상태와 연관될 수 있다. 메틸화에 의한 생물학적 조절은 단일 CpG에 의해 매개되거나 또는 서로 근접한 CpG 군에 의해 매개될 수 있다. 따라서, DNA 메틸화의 영역 분석은 보다 포괄적이고 체계적인 관점의 메틸화 데이터를 제공한다. 전형적으로, 메틸화 정보는 타일링 윈도우 또는 미리 규정된 영역 세트 (프로모터, CpG 섬, 인트론 등)에 걸쳐 요약된다.
뉴클레오솜 구성은 2가지 독립적인 메트릭스, 예컨대 뉴클레오솜 점유율 및 뉴클레오솜 위치 설정에 의해 결정될 수 있다. 뉴클레오솜 점유율은 뉴클레오솜이 세포 집단 내의 특이적 게놈 영역에 걸쳐 존재할 확률로서 이해될 수 있다. 뉴클레오솜 점유율은 시퀀싱 기반 실험에서 적용 범위 (게놈 영역에 맵핑된 정렬된 시퀀싱 판독의 수)로서 측정될 수 있다. 뉴클레오솜 위치 설정은 뉴클레오솜 참조점 (예를 들어, 2분염색체)이 주변 좌표와 비교하여 특이적 게놈 좌표에 있을 확률일 수 있다. 도 9에 도시된 바와 같이, 양호한 뉴클레오솜 위치 설정은 그것이 존재할 때마다 동일한 게놈 좌표에서 발생하는 뉴클레오솜 2분염색체로서 생물학적으로 해석될 수 있다. 불량한 위치 설정은 전체 뉴클레오솜의 동일한 일반적인 풋프린트 내에서 일정 범위의 위치를 차지하는 뉴클레오솜 2분염색체로서 해석될 수 있다. 한 예에서, 폐암이 있는 8명의 대상체로부터의 샘플을 사용하여 2분염색체 중심을 결정하였다. 뉴클레오솜 위치 설정 및 뉴클레오솜 점유율을 결정하였다. 예를 들어, 적용 범위가 > 0.5 변위치 (Qu)이고 피크 폭이 < 0.5 Qu일 때, 높은 점유율과 양호한 위치 설정이 표시될 수 있다. 일부 경우에, 분획화된 샘플 (예컨대 과다메틸화된/과소메틸화된 분획) 내에서 2분염색체 중심 간의 거리를, 분획화되지 않은 샘플 (MBD 없음)과 비교할 수 있다. 일부 경우에, 2분염색체 중심뿐만 아니라 인접한 염색질 구조는 2분염색체 중심을 게놈 전반에 걸쳐 5% 이상의 점유율 적용 범위를 갖는 모든 피크에 배정함으로써 분별될 수 있다. 점유율 적용 범위는 15%, 20%, 25% 또는 30%일 수 있다. 점유율 적용 범위는 기계 학습 접근법을 사용하여 피크 위치, 폭, 길이, 중심 및 폭 분해능을 결정함으로써 배정될 수 있다. 이것은 혈장 DNA에 대한 염색질 아키텍처의 실증적 분해능을 제공한다.
서열 판독물의 적용 범위에 있어서의 증가는 더 큰 뉴클레오솜 점유율과 상관이 있을 수 있다. 추가로, 뉴클레오솜 점유율은 뉴클레오솜-고갈된 영역 (NDR)과 반비례할 수 있다. 뉴클레오솜 점유율의 증가는 보다 치밀한 염색질과 같은 변경된 염색질 구조를 표시할 수 있다. 이와 같이 치밀한 염색질은 정상 세포 기능을 교란시킬 수 있는 유전자 발현의 하향 조절을 표시할 수 있다. 정상 세포 기능에 있서의 교란은 암과 같은 질환의 징후로서 작용할 수 있다.
무세포 DNA는 이질적 세포 집단 (예를 들어, 죽어가는, 악성, 비-악성 등)으로부터의 시그널을 포함한다. 세포의 이질적 집단은 다수의 염색질 상태를 수반한 핵산을 가질 수 있다. 일부 경우에, 다수의 염색질 상태는 상이한 상태의 뉴클레오솜 점유, 예컨대 잘 위치되거나 분산된 ("퍼지") 뉴클레오솜을 포함할 수 있다. 이와 같이 잘 위치된 뉴클레오솜은 더 넓은 적용 범위를 나타내지만 퍼지 뉴클레오솜은 서열 판독물의 낮은 적용 범위를 나타낸다. 서열 판독물의 적용 범위에 근거하여, 염색질 전체에 걸친 뉴클레오솜 점유율이 해결될 수 있다.
"디콘볼루션"은 서로 중복되는 무세포 DNA 단편 점유율 피크를 분해하여 "숨겨진 피크"에 관한 정보를 추출하는 프로세스를 지칭할 수 있다. 뉴클레오솜 점유율 피크의 디콘볼루션은 MBD 분할에 의해 달성될 수 있다. 핵산을 과다메틸화된 파티션과 과소메틸화된 파티션으로 분할하면, 2개의 별개의 피크, 즉 피크 1 및 피크 2가 생산될 수 있다. 그러나, 핵산이 분획화되지 않는 경우, 하나의 연속 피크가 수득될 수 있고 비-악성 피크 2로부터 악성 종양 관련 피크 1의 디콘볼루션이 실행 가능하지 않을 수 있다.
2분염색체는 뉴클레오솜의 중심에 의해 점유된 DNA 영역일 수 있다. 2분염색체는 분할된 샘플 내에 위치할 수 있다. 일부 경우에, 핵산은 과다메틸화된 분획과 과소메틸화된 분획으로 분할된다. 2분염색체 위치 설정 또는 국재화는 참조 없는 방법 또는 참조 기반 방법을 사용하여 수행될 수 있다. 참조 없는 방법은 고 파티션과 저 파티션 둘 다를 인 실리코 조합하여 근원적인 2분염색체 위치를 결정하고, 이로써 2분염색체 맵을 결정하는 것을 포함할 수 있다. 일부 경우에, 과다메틸화된 파티션 및 과소메틸화된 파티션으로부터의 시퀀싱 데이터를 조합하여 뉴클레오솜 점유율을 결정하고, 상기 파티션 간을 비교하는데, 예를 들어, 모든 파티션으로부터의 시그널을 조합하고 점유율 피크를 검출한 다음, 과다메틸화된 파티션 대 과소메틸화된 파티션에서 관찰된 것의 위치를 비교한다. 참조 기반 방법은 파티션의 독립적인 분석을 포함할 수 있다. 예를 들어, 과다메틸화된 분획 및 과소메틸화된 분획에 대한 뉴클레오솜 점유율을 결정한다. 제1 실험에서 각각의 파티션에 대한 뉴클레오솜 점유율은 후속 실험(들)에서 상응하는 파티션을 위해 사용될 수 있으며, 여기서 동일한 파트 1은 큰 샘플 세트에서 독립적으로 수행되고 (파티션 기반 정보가 사용되지 않고 정보가 조합되어 피크 분해능를 개선시키기 때문에 표준 WGS로 충분할 것이다), 점유율 피크의 맵은, 각각에 대항하여 단일 파티션 (또는 둘 다)을 비교할 수 있는 "참조"로서 저장된다.
단편 적인 데이터에 근거한 단편적 시그너처
단편적 데이터를 조사하는 방법은, 예를 들어, 미국 공보 2016/0201142 (Lo), WO 2016/015058 (Shendure) 및 PCT/US17/40986 [2017년 7월 6일에 출원됨 ("무세포 핵산의 단편적 프로파일링을 위한 방법")] (모두 본원에 참조로 포함된다)에 기재되어 있다. 단편적인 데이터는 핵산 단편을 분석함으로써 수득된 서열 데이터를 지칭한다. 예를 들어, 이러한 서열 데이터는 단편 길이 (염기 쌍), 게놈 좌표 (예를 들어, 참조 게놈 상의 출발 및 정지 위치), 적용 범위 (예를 들어, 카피의 수) 또는 서열 정보 (예를 들어, 염기 A, G, C, T)를 포함할 수 있다. 단편적인 데이터는 혈액 또는 혈장에서 관찰된 무세포 DNA의 보호된 함량을 풍부화시키는 것에 상응하는 무세포 DNA에서의 단편 출발 및 정지 및 관련 점유율의 서열 정보를 지칭한다.
예를 들어, 하나의 샘플에서, 게놈 또는 그의 표적 부분 전체에 걸친 특별한 뉴클레오티드 좌표에 그들의 중심점 맵핑을 갖는 cfDNA 분자의 수를 결정할 수 있었다. 건강한 개체에서는, 그래프의 피크가 뉴클레오솜 위치 (예를 들어, 여기서 세포 DNA는 cfDNA로의 전환 동안 절단되지 않는다)를 나타내는 물결 모양의 그래프를 전형적으로 생산할 것이고, 트로프(trough)는 뉴클레오솜 사이의 위치 (예를 들어, 많은 분자가 절단되고 따라서, 소수의 분자가 중심에 위치한다)를 나타낸다. 피크 간의 거리는 뉴클레오솜 2분염색체를 나타낸다. 악성 세포에서는, 뉴클레오솜의 위치가, 예를 들어 메틸화의 함수로서 이동할 수 있다. 이러한 경우, 그래프 내의 피크와 트로프의 위치가 이동될 것으로 예상된다. 이러한 이동은 상이한 특징에 근거하여 분자를 분할하고 각각의 파티션에 대한 단편 분포를 검사함으로써 보다 용이하게 검출될 수 있다. 단편 데이터는 하나 또는 복수 개의 더 많은 차원에서 추가로 분석될 수 있다. 예를 들어, 임의의 좌표에서, 그에 맵핑되는 분자의 수는 단편 크기에 근거하여 추가로 차별될 수 있다. 이러한 데이터에 근거한 그래프에서, 세 번째 "Z" 차원은 단편 크기를 나타낸다. 예를 들어, 2차원 그래프에서 X 축은 게놈 좌표를 나타내고 Y 축은 이러한 좌표에 맵핑되는 분자의 수를 나타낸다. 3차원 그래프에서, X 축은 게놈 좌표를 나타내고, Z 차원은 단편 길이를 나타내고, Y 축은 상기 좌표에 맵핑하는 각각의 크기의 분자 수를 나타낸다. 이러한 3차원 그래프는 X 및 Z 축이 2차원으로 표시되고 Y 축 상의 값이, 예를 들어, 색 강도 (예를 들어, 더 어두울 수록 더 큰 값을 나타낸다) 또는 색상의 "뜨거움" (예를 들어, 청색은 더 낮은 값을 나타내고 적색은 더 높은 값을 나타낸다)으로써 표시되는 2차원 히트 맵으로서 나타낼 수 있다. 이러한 데이터는 암의 존재 또는 부재, 암의 유형, 전이의 정도 등과 같이 검사되는 상태의 뉴클레오솜 위치 패턴 특징을 결정하기 위해 조사될 수 있다.
개체의 코호트는 모두 공유된 특징을 가질 수 있다. 이러한 공유된 특징은 종양 유형, 염증성 병태, 아폽토시스 병태, 괴사성 병태, 종양 재발, 및 치료에 대한 내성으로 이루어진 군으로부터 선택될 수 있다. 일부 경우에, 코호트는 특이적 유형의 암 (예를 들어, 유방, 결장직장, 췌장, 전립선, 흑색종, 폐 또는 간)을 가진 개체를 포함한다. 암의 뉴클레오솜 시그너처를 수득하기 위해, 암을 앓고 있는 개체는 혈액 샘플을 제공한다. 무세포 DNA는 이러한 혈액 샘플로부터 수득된다. 무세포 DNA가 서열 분석된다 (게놈으로부터의 영역 세트의 선택적 풍부화를 수반하거나 수반하지 않는다). 시퀀싱 반응으로부터의 서열 판독물 형태의 서열 정보는 인간 참조 게놈에 맵핑된다. 일부 실시양태에서, 분자는 맵핑 조작 전 또는 후에 독특한 분자 판독물로 축소된다.
소정의 샘플 내의 무세포 DNA 단편은 무세포 DNA가 생성되는 세포의 혼합을 나타내기 때문에, 각각의 세포 유형으로부터의 차별적 뉴클레오솜 점유율은 소정의 무세포 DNA 샘플을 나타내는 수학적 모델에 기여할 수 있다. 예를 들어, 단편 길이의 분포는 상이한 세포 유형 전체에 걸친, 또는 종양 대 비-종양 세포 전체에 걸친 차별적 뉴클레오솜 보호로 인해 발생할 수 있다. 이러한 방법은 서열 데이터의 단일 파라메트릭, 다중 파라메트릭 및/또는 통계 분석에 근거하여 임상적으로 유용한 평가 세트를 개발하는 데 사용될 수 있다.
샘플 내의 핵산 분자는 하나 이상의 특징에 근거하여 분획화될 수 있다. 분획화는 게놈 특징의 존재 또는 부재에 근거하여 핵산 분자를 서브세트 또는 군으로 물리적으로 분할하는 것을 포함할 수 있다. 분획화는 게놈 특징이 존재하는 정도에 근거하여 군 내의 핵산 분자를 물리적으로 분할하는 것을 포함할 수 있다. 샘플은 차별적 유전자 발현 또는 질환 상태를 표시하는 특징에 근거하여 하나 이상의 군으로 분획화되거나 또는 분할될 수 있다. 샘플은 핵산, 예를 들어, cfDNA, 비-cfDNA, 종양 DNA, 순환 종양 DNA (ctDNA)의 분석 동안 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징에 근거하여 분획화될 수 있다.
단편적인 데이터는 유전적 변이체를 추론하기 위해 사용될 수 있다. 유전적 변이체는 카피 수 변이 (CNV), 삽입 및/결실 (삽입-결실), 단일 뉴클레오티드 변이 (SNV) 및/또는 유전자 융합을 포함한다. 단편적인 데이터는 후성적 변이체, 예컨대 암을 표시하는 변이체를 추론하기 위해 사용될 수 있다. 각각의 분획화되거나 또는 분할된 군 및/또는 분획화되지 않은 핵산 내의 하나 이상의 유전적 변이체가 결정될 수 있다. 분획화 또는 분할은 핵산의 메틸화 상태, 크기, 길이, 및 전사 결합을 포함하나 이에 제한되지 않는 다양한 특징 중 적어도 하나에 근거하여 수행될 수 있다. 분획화되거나 또는 분할된 군에서 결정된 유전적 변이체를 서로 비교하고/하거나 동일한 특징을 보유할 수 있거나 또는 보유하지 않을 수 있는 분획화되지 않은 핵산과 비교할 수 있다. 분획화되거나 또는 분할된 핵산을 재조합할 수 있고, 단편적인 데이터를 분획화되지 않은 핵산과 비교하고/하거나 상기 분획화되거나 또는 분할된 핵산과 동일한 특징을 보유하지 않는 핵산과 비교하여 유전적 변이체의 존재를 결정할 수 있다.
모델을 패널 입체 배치에 사용하여 영역 (예를 들어, 단편적 프로파일 관련 영역)을 선택적으로 풍부화시키고, 특별한 돌연변이, 중요한 염색질 중심 이벤트, 예컨대 전사 출발 부위 (TSS), 프로모터 영역, 접합 부위 및 인트론 영역 전역에 걸쳐 있는 많은 수의 판독물이 또한 반드시 고려될 수 있도록 한다.
한 예에서, 단편적 프로파일에 있어서의 차이는 인트론과 엑손의 접합부 (또는 경계)에서 또는 그 근처에서 발견된다. 하나 이상의 체세포 돌연변이의 식별은 cfDNA 단편이 분포되어 있는 게놈 위치를 밝히기 위해 하나 이상의 다중 파라메트릭 또는 단일 파라메트릭 모델과 상관이 있을 수 있다. 이러한 상관 관계 분석은 단펴적 프로파일 붕괴가 가장 두드러지는 하나 이상의 인트론-엑손 접합부를 밝혀낼 수 있다.
또 다른 예로서, 샘플 내에서의 과다메틸화는 TSS로부터 더 먼 영역에서 관찰될 수 있다. 과다메틸화된 영역의 풍부화는 TSS로부터 0 kb 내지 5 kb, 5 kb 내지 50 kb, 및/또는 50 kb 내지 500 kb의 거리에서 관찰될 수 있다. 과다메틸화된 영역의 풍부화는 TSS로부터 5 kb 내지 50 kb에서 관찰될 수 있다. 과다메틸화된 영역의 풍부화는 TSS로부터 5 kb, 10 kb, 15 kb, 20 kb, 25 kb, 30 kb, 35 kb, 40 kb, 50 kb, 100 kb, 200 kb, 300 kb, 400 kb, 및/또는 500 kb 미만에서 관찰될 수 있다. 과다메틸화된 영역의 풍부화는 TSS로부터 5 kb, 10 kb, 15 kb, 20 kb, 25 kb, 30 kb, 35 kb, 40 kb, 50 kb, 100 kb, 200 kb, 300 kb, 400 kb, 및/또는 500 kb 초과에서 관찰될 수 있다. 과다메틸화의 위치와 풍부화는 건강하거나 또는 정상적인 대상체로부터 수득된 DNA (정상 DNA)와 병이 있는 대상체에서 수득된 DNA 간에 서로 다를 수 있다. 예를 들어, 폐암이 있는 것으로 의심되거나 또는 폐암이 있는 대상체로부터의 DNA (폐암 DNA)는 TSS 내의 표준 위치로부터 가장 먼 과다메틸화된 거리의 풍부화를 나타낼 수 있으며, 과다메틸화된 분획 내에서의 잘 위치된 뉴클레오솜은 프로모터 영역 부근을 차지한다 (도 17). 예를 들어, 폐암 환자로부터의 분획화되지 않은 핵산 (MBD 없음)이 시퀀싱에 사용되었다. 게놈 위치와 같은 단편적인 데이터에 근거하여, 뉴클레오솜 2분염색체 중심이 서열 판독을 위해 결정되었다. 단편적인 데이터에 추가로 근거하여, 5% 이하의 적용 범위 또는 95% 이하의 적용 범위를 갖는 서열 판독물이 추가로 분석되었다. 유전자 주석 툴, 예컨대 게놈 영역 풍부화의 주석 툴 (GREAT)을 사용하여 가까운 유전자에 근거한 게놈 영역 세트에 기능성을 배정하였다. 서열 판독물과 그의 추정적으로 조절된 유전자 간의 거리가 결정되었다 (도 17). 그 거리는 4개의 별도의 빈으로 나눠졌다: 하나는 0 내지 5 kb이고, 또 다른 것은 5 kb 내지 50 kb이며, 세 번째 것은 50 kb 내지 500 kb이고, 모든 연합물의 마지막 빈은 500 kb 초과이다. 정확성을 위해, 상기 빈은 [0, 5 kb], [5 kb, 50 kb], [50 kb, 500 kb], [500 kb, 무한대]이다. 그래프에서, 0 (즉 TSS 상의)에서 정확하게 모든 연합은 [-5 kb, 0] 내지 [0, 5 kb] 빈으로 균등하게 분할되었다. 이러한 방법을 사용하여, 배경 게놈 영역 (예를 들어, 모든 뉴클레오솜)과 전경 게놈 영역 (예를 들어, 메틸화된 뉴클레오솜) 둘 다에서 TSS로부터 더 먼 영역에서 샘플 내의 과다메틸화가 관찰되었다. 예를 들어, 과다메틸화된 영역의 풍부화가 [5 kb, 50 kb] 빈 사이에서 관찰되었다.
단편적 시그너처는 세포 사멸 동안 뉴클레오솜 점유율, 뉴클레오솜 위치 설정, RNA 폴리머라제 II 일시 정지, 세포 사멸 특이적 DNase 과민성, 및 염색질 응축을 결정하는 데 도움이 될 수 있다. 이러한 시그너처는 또한 세포 부스러기 제거 및 트래피킹에 대한 통찰력을 제공할 수 있다. 예를 들어, 세포 부스러기 제거는 아폽토시스에 의해 죽어가는 세포에서 카스파제 활성화된 DNase (CAD)에 의해 수행된 DNA 단편화를 포함할 수 있지만, 죽어가는 세포가 포식된 후 리소좀 DNase II에 의해 수행되어, 상이한 절단 맵이 생성될 수 있다.
게놈 분할 맵은 관심 영역으로의 중요한 윈도우의 집합을 통해 염색질의 전술한 특성과 연관된 악성 대 비-악성 조건에서 차별적 염색질 상태의 게놈 규모에서의 식별에 의해 구축될 수 있다. 이러한 관심 영역은 일반적으로 게놈 분할 맵으로서 지칭된다.
메틸화 상태에 근거한 분획화
샘플 내의 핵산 분자는 5-메틸시토신의 특징에 근거하여 분획화될 수 있다. DNA는 예컨대 CpG 디뉴클레오티드 영역에서의 시토신에서 메틸화될 수 있다. DNA 메틸화는 히스톤 복합체와 함께, 유전자 발현의 후성적 조절뿐만 아니라 염색질로의 DNA 패키징에 영향을 미칠 수 있다. 후성적 변경은 암 진행, 원발성 또는 초기 암 발병, 재발 또는 전이 암의 모든 단계에서와 같이 다양한 질환에서 중요한 역할을 할 수 있다. 예를 들어, 정상적인 성장, DNA 복구, 세포 주기 조절 및 세포 분화에 관여하는 유전자의 전사 출발 부위 (TSS)와 같은 정상적으로 과소메틸화된 영역의 과다메틸화는 암을 표시할 수 있다. 과다메틸화는 전사를 억제함으로써 유전자 발현을 변경시킬 수 있다. 일부 경우에, 과다메틸화는 유전자 발현을 감소시키고/시키거나 억제할 수 있다. 예를 들어, 과다메틸화는 종양 유전자 억제인자의 발현을 감소시키고/시키거나 억제할 수 있다. 일부 경우에, 과다메틸화는 유전자 발현을 증가시키고/시키거나 증진시킬 수 있다. 예를 들어, 억제인자의 과다메틸화는 하류 반응인자, 예를 들어 억제인자에 의해 정상적으로 억제되는 종양 유전자의 유전자 발현을 증가시키고/시키거나 증진시킬 수 있다.
DNA 메틸화 상태에 근거하여, 샘플 내의 핵산 분자는 실험적 절차를 사용하여 유사한 메틸화 상태를 지닌 핵산 분자를 풍부화시킬 수 있는 상이한 군으로 분획화될 수 있다. 예를 들어, 메틸-결합 도메인 (MBD) 단백질을 사용하여 유사한 메틸화 상태, 예컨대 과다메틸화, 과소메틸화 및 잔여 메틸화를 지닌 핵산 분자를 친화성 정제할 수 있다. 또 다른 예에서, 5-메틸-시토신에 대해 특이적인 항체를 사용하여 유사한 메틸화 수준을 지닌 핵산 분자를 면역침전시킬 수 있다. 또 다른 예에서, 중아황산염 기반 방법을 이용하여 고도로 메틸화된 핵산 분자를 선택적으로 풍부화시킬 수 있다. 또한 또 다른 예에서, 메틸화 감수성 제한 효소를 사용하여 고도로 메틸화된 핵산 분자를 선택적으로 풍부화시킬 수 있다.
상기 특징 중 하나를 이용하여 분획화 시, 각각의 군 내의 핵산 분자를 서열 분석하여 서열 판독물을 생성할 수 있다. 이러한 서열 판독물을 참조 게놈에 맵핑할 수 있다. 맵핑은 서열 정보를 생성할 수 있다. 서열 정보를 분석하여, 예를 들어, 단일 뉴클레오티드 변이체, 카피 수 변이, 삽입-결실, 또는 융합을 포함한 유전적 변이를 결정할 수 있다. 본원에 개시된 방법을 사용하여 무세포 DNA를 검정하는 경우에는, 분획화된 핵산 분자의 군 간에 다양할 수 있는 단편적인 데이터가 생성될 수 있다. 단편적인 데이터는 게놈 좌표, 크기, 적용 범위 또는 서열 정보를 포함할 수 있다. 본 개시내용은 상기 단편적인 데이터를 각각의 파티션으로부터의 서열 판독물과 통합하는 방법을 제공한다. 이러한 통합은 질환 상태를 표시하는 바이오마커를 정확하고 신속하게 검출하는 데 유용할 수 있다.
본원에 기재된 방법은 단편적인 데이터에 근거하여 핵산 분자를 인 실리코 풍부화시키기 위해 사용될 수 있다. 예를 들어, 폐암 환자로부터의 분획화되지 않은 핵산 분자 (MBD 없음)가 시퀀싱에 사용될 수 있다. 또 다른 예에서, 분획화는 모노뉴클레오솜 또는 디뉴클레오솜 프로파일 상의 차이 단독에 근거하거나 또는 이러한 차이를 다른 특징, 예컨대 크기 및/또는 메틸화 상태와 조합한 것에 근거하여 달성될 수 있다. 모노뉴클레오솜 프로파일은 대략 단일 뉴클레오솜을 감싸는 데 필요한 길이 (예를 들어, 약 146 bp)인 단편의 적용 범위 또는 카운트를 지칭할 수 있다. 디뉴클레오솜 프로파일은 대략 단일 뉴클레오솜을 두 번 감싸는 데 필요한 길이 (예를 들어, 약 292 bp)인 단편의 적용 범위 또는 카운트를 지칭할 수 있다.
데이터 분석
특정 실시양태에서, 상이한 부류의 대상체, 예를 들어, 암/암이 없는, 암 유형 1/암 유형 2로부터의 데이터를 사용하여, 샘플을 상기 부류 중 하나에 속하는 것으로서 분류하기 위해 기계 학습 알고리즘을 트레이닝할 수 있다. 본원에 사용된 바와 같은 용어 "기계 학습 알고리즘"은, 예를 들어, 클러스터링, 분류 또는 패턴 인식을 위하여, 분석 모델 구축을 자동화하는 컴퓨터에 의해 실행되는 알고리즘을 지칭한다. 기계 학습 알고리즘은 감독되거나 또는 감독되지 않을 수 있다. 학습 알고리즘은, 예를 들어, 인공 신경망 (예를 들어, 역 전파 네트워크), 판별 분석 (예를 들어, 베이지안 분류자 또는 피셔 분석), 지원 벡터 기계, 의사 결정 트리 (예를 들어, 재귀적 분할 프로세스, 예컨대 CART - 분류 및 회귀 트리), 무작위 포레스트), 선형 분류자 (예를 들어, 다수의 선형 회귀 (MLR), 부분 최소 제곱 (PLS) 회귀 및 주요 구성 요소 회귀 (PCR)), 계층적 클러스터링 및 클러스터 분석을 포함한다. 기계 학습 알고리즘이 학습하는 데이터세트는 "트레이닝 데이터"로서 지칭될 수 있다.
본원에 사용된 바와 같은, 용어 "분류자"는 입력으로서 시험 데이터를 수신하고 출력으로서 하나 또는 또 다른 부류에 속하는 것으로서서 입력 데이터의 분류를 생산하는 알고리즘 컴퓨터 코드를 지칭한다.
본원에 사용된 바와 같은, 용어 "데이터세트"는 시스템의 요소의 특징을 규명하는 값의 컬렉션을 지칭한다. 시스템은, 예를 들어, 생물학적 샘플로부터의 cfDNA일 수 있다. 그러한 시스템의 요소는 유전적 유전자 자리일 수 있다. 데이터세트 (또는 "데이터 세트")의 예는 하기로부터 선택된 특징의 정량적 측정 기준을 표시하는 값을 포함한다: (i) 유전적 유전자 자리에 맵핑하는 DNA 서열, (ii) 유전적 유전자 자리에서 시작하는 DNA 서열, (iii) 유전적 유전자 자리에서 끝나는 DNA 서열; (iv) DNA 서열의 디뉴클레오솜 보호 또는 모노뉴클레오솜 보호; (v) 참조 게놈의 인트론 또는 엑손에 위치한 DNA 서열; (vi) 하나 이상의 특징을 갖는 DNA 서열의 크기 분포; (vii) 하나 이상의 특징을 갖는 DNA 서열의 길이 분포 등.
본원에 사용된 바와 같은, 용어 "값"은 이러한 값이 지칭하는 특색을 규명하는 임의의 것일 수 있는 데이터세트 내의 항목을 지징한다. 이는 제한 없이, 숫자, 단어 또는 구, 기호 (예를 들어, + 또는 -) 또는 정도를 포함한다.
디지털 처리 장치
일부 실시양태에서, 본원에 기재된 방법은 디지털 처리 장치를 활용한다. 추가 실시양태에서, 디지털 처리 장치는 이러한 장치의 기능을 수행하는 하나 이상의 하드웨어 중앙 처리 유닛 (CPU) 또는 범용 그래픽 처리 유닛 (GPGPU)을 포함한다. 또한 추가 실시양태에서, 디지털 처리 장치는 실행 가능한 명령을 수행하도록 설정된 운영 체제를 추가로 포함한다. 일부 실시양태에서, 디지털 처리 장치는 컴퓨터 네트워크에 임의로 접속된다. 추가 실시양태에서, 디지털 처리 장치는 월드 와이드 웹에 액세스하도록 인터넷에 임의로 접속된다. 또한 추가 실시양태에서, 디지털 처리 장치는 클라우드 컴퓨팅 인프라 구조에 임의로 접속된다. 다른 실시양태에서, 디지털 처리 장치는 인트라넷에 임의로 접속된다. 다른 실시양태에서, 디지털 처리 장치는 데이터 저장 장치에 임의로 접속된다.
본원의 설명에 따르면, 적합한 디지털 처리 장치는 비-제한적 예로서, 서버 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 핸드 헬드 컴퓨터, 인터넷 장치, 모바일 스마트 폰 및 태블릿 컴퓨터를 포함한다.
일부 실시양태에서, 디지털 처리 장치는 실행 가능한 명령을 수행하도록 설정된 운영 체제를 포함한다. 이러한 운영 체제는, 예를 들어, 장치의 하드웨어를 관리하고 애플리케이션의 실행을 위한 서비스를 제공하는 프로그램 및 데이터를 포함한 소프트웨어이다. 관련 기술분야의 통상의 기술자는 적합한 서버 운영 체제가 비-제한적 예로서, FreeBSD, OpenBSD, NetBSD®, 리눅스, 애플® 맥 OS X 서버®, 오라클(Oracle®) 솔라리스(Solaris®), 윈도우 서버®, 및 노벨® 네트웨어®를 포함한다는 것을 인식할 것이다. 관련 기술분야의 통상의 기술자는 적합한 개인용 컴퓨터 운영 체제가 비-제한적 예로서, 마이크로소프트® 윈도우®, 애플® 맥 OS X®, UNIX®, 및 UNIX 유사 운영 체제, 예컨대 GNU/리눅스®를 포함한다는 것을 인식할 것이다. 일부 실시양태에서, 상기 운영 체제는 클라우드 컴퓨팅에 의해 제공된다. 관련 기술분야의 통상의 기술자는 또한, 적합한 모바일 스마트 폰 운영 체제가 비-제한적 예로서, 노키아(Nokia®) 심비안(Symbian®) OS, 애플® iOS®, 리서치 인 모션(Research In Motion®) 블랙베리 OS®, 구글® 안드로이드®, 마이크로소프트® 윈도우 폰® OS, 마이크로소프트® 윈도우 모바일® OS, 리눅스®, 및 팜(Palm®) 웹 OS®를 포함한다는 것을 인식할 것이다.
일부 실시양태에서, 상기 장치는 저장 및/또는 메모리 장치를 포함한다. 저장 및/또는 메모리 장치는 일시적 또는 영구적으로 데이터 또는 프로그램을 저장하는 데 사용되는 하나 이상의 물리적 기구이다. 일부 실시양태에서, 상기 장치는 휘발성 메모리이고 저장된 정보를 유지하기 위한 전력을 필요로 한다. 일부 실시양태에서, 상기 장치는 비휘발성 메모리이고, 디지털 처리 장치에 전력이 공급되지 않을 때 저장된 정보를 보유한다. 추가 실시양태에서, 비휘발성 메모리는 플래시 메모리를 포함한다. 일부 실시양태에서, 비휘발성 메모리는 동적 랜덤 액세스 메모리 (DRAM)를 포함한다. 일부 실시양태에서, 비휘발성 메모리는 강유전체 랜덤 액세스 메모리 (FRAM)를 포함한다. 일부 실시양태에서, 비휘발성 메모리는 상 변화 랜덤 액세스 메모리 (PRAM)를 포함한다. 다른 실시양태에서, 상기 장치는 비-제한적 예로서, CD-ROM, DVD, 플래시 메모리 장치, 자기 디스크 드라이브, 자기 테이프 드라이브, 광학 디스크 드라이브 및 클라우드 컴퓨팅 기반 저장 장치를 포함한 저장 장치이다. 추가 실시양태에서, 저장 및/또는 메모리 장치는 본원에 개시된 것과 같은 장치의 조합이다.
일부 실시양태에서, 디지털 처리 장치는 시각적 정보를 사용자에게 전송하는 디스플레이를 포함한다. 일부 실시양태에서, 디스플레이는 액정 디스플레이 (LCD)이다. 추가 실시양태에서, 디스플레이는 박막 트랜지스터 액정 디스플레이 (TFT-LCD)이다. 일부 실시양태에서, 디스플레이는 유기 발광 다이오드 (OLED) 디스플레이이다. 다양한 추가 실시양태에서, OLED 디스플레이는 패시브 매트릭스형 OLED (PMOLED) 또는 액티브 매트릭스형 OLED (AMOLED) 디스플레이이다. 일부 실시양태에서, 디스플레이는 플라즈마 디스플레이이다. 다른 실시양태에서, 디스플레이는 비디오 프로젝터이다. 또한 다른 실시양태에서, 디스플레이는 VR 헤드셋과 같은 디지털 처리 장치와 통신하는 헤드 장착 디스플레이이다. 추가 실시양태에서, 적합한 VR 헤드셋은 비-제한적 예로서, HTC Vive, 오쿨루스 리프트(Oculus Rift), 삼성 기어(Samsung Gear) VR, 마이크로소프트 홀로렌즈, 레이저 OSVR, FOVE VR, 차이스(Zeiss) VR 원, 아베간트 글리프(Avegant Glyph), 프리플라이 VR 헤드셋 등을 포함한다. 또한 추가 실시양태에서, 상기 디스플레이는 본원에 개시된 것과 같은 장치의 조합이다.
일부 실시양태에서, 디지털 처리 장치는 사용자로부터 정보를 수신하기 위한 입력 장치를 포함한다. 일부 실시양태에서, 입력 장치는 키보드이다. 일부 실시양태에서, 입력 장치는 비-제한적 예로서, 마우스, 트랙볼, 트랙 패드, 조이스틱, 게임 컨트롤러 또는 스타일러스를 포함한 포인팅 장치이다. 일부 실시양태에서, 입력 장치는 터치 스크린 또는 멀티 터치 스크린이다. 다른 실시양태에서, 입력 장치는 음성 또는 다른 사운드 입력을 포착하기 위한 마이크로폰이다. 다른 실시양태에서, 입력 장치는 움직임 또는 시각적 입력을 포착하기 위한 비디오 카메라 또는 다른 센서이다. 추가 실시양태에서, 입력 장치는 키넥트(Kinect), 도약 모션(Leap Motion) 등이다. 또한 추가 실시양태에서, 입력 장치는 본원에 개시된 것과 같은 장치의 조합이다.
도 32를 참조하면, 특별한 실시양태에서, 예시적인 디지털 처리 장치 (101)는 서열 및/또는 태그 데이터를 분석, 검정, 디코딩 및/또는 디콘볼루션하도록 프로그래밍되거나 또는 달리 설정된다. 상기 실시양태에서, 디지털 처리 장치 (101)는 단일 코어 또는 멀티 코어 프로세서일 수 있는 중앙 처리 유닛 (CPU; 또한 본원에서 "프로세서" 및 "컴퓨터 프로세서") (105), 또는 병렬 처리를 위한 복수 개의 프로세서를 포함한다. 디지털 처리 장치 (101)는 또한, 메모리 또는 메모리 위치 (110) (예를 들어, 랜덤 액세스 메모리, 판독 전용 메모리, 플래시 메모리), 전자 저장 유닛 (115) (예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스 (120) (예를 들어, 네트워크 어댑터), 및 주변 장치 (125), 예컨대 캐시, 다른 메모리, 데이터 저장 및/또는 전자 디스플레이 어댑터를 포함한다. 메모리 (110), 저장 유닛 (115), 인터페이스 (120) 및 주변 장치 (125)는 마더 보드와 같은 통신 버스 (실선)를 통해 CPU (105)와 통신한다. 저장 유닛 (115)은 데이터를 저장하기 위한 데이터 저장 유닛 (또는 데이터 저장소)일 수 있다. 디지털 처리 장치 (101)는 통신 인터페이스 (120)의 도움으로 컴퓨터 네트워크 ("네트워크") (130)에 작동적으로 연결될 수 있다. 네트워크 (130)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷과 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 경우에 네트워크 (130)는 원격 통신 및/또는 데이터 네트워크이다. 네트워크 (130)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 일부 경우에 장치 (101)의 도움으로 네트워크 (130)는 장치 (101)에 결합된 장치가 클라이언트 또는 서버로서 동작할 수 있게 하는 피어-투-피어 네트워크를 구현할 수 있다.
계속해서 도 32를 참조하면, CPU (105)는 프로그램 또는 소프트웨어로 구체화될 수 있는 일련의 기계 판독 가능 명령을 실행할 수 있다. 명령은 메모리 (110)와 같은 메모리 위치에 저장될 수 있다. 명령은 CPU (105)로 향할 수 있으며, 이후에 본 개시내용의 방법을 구현하도록 CPU (105)를 프로그래밍하거나 또는 달리 설정할 수 있다. CPU (105)에 의해 수행되는 작동의 예는 패치, 디코드, 실행 및 라이트 백을 포함할 수 있다. CPU (105)는 집적 회로와 같은 회로의 일부일 수 있다. 장치 (101)의 하나 이상의 다른 구성 요소가 회로에 포함될 수 있다. 일부 경우에, 회로는 주문형 집적 회로 (ASIC) 또는 현장 프로그래밍 가능 게이트 어레이 (FPGA)이다.
계속해서 도 32를 참조하면, 저장 유닛 (115)은 드라이버, 라이브러리 및 저장된 프로그램과 같은 파일을 저장할 수 있다. 저장 유닛 (115)은 사용자 데이터, 예를 들어, 사용자 선호도 및 사용자 프로그램을 저장할 수 있다. 디지털 처리 장치 (101)는 일부 경우에, 인트라넷 또는 인터넷을 통해 통신하는 원격 서버 상에 위치하는 것과 같은 외부의 하나 이상의 부가 데이터 저장 유닛을 포함할 수 있다.
계속해서 도 32를 참조하면, 디지털 처리 장치 (101)는 네트워크 (130)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 장치 (101)는 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예는 개인용 컴퓨터 (예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC (예를 들어, 애플® 아이패드(iPad), 삼성® 갤럭시 탭 및 마이크로소프트® 서피스®) 및 스마트 폰 (예를 들어, 애플® 아이폰(iPhone) 또는 안드로이드 가능 장치)을 포함한다.
본원에 기재된 바와 같은 방법은 디지털 처리 장치 (101)의 전자 저장 위치 상에 저장된, 예컨대 예를 들어, 메모리 (110) 또는 전자 저장 유닛 (115) 상에 저장된 기계 (예를 들어, 컴퓨터 프로세서) 실행 가능 코드에 의해 적어도 부분적으로 구현될 수 있다. 기계 실행 가능 또는 기계 판독 가능 코드는 소프트웨어의 형태로 제공될 수 있다. 사용 중에, 코드는 프로세서 (105)에 의해 실행될 수 있다. 일부 경우에, 코드는 저장 유닛 (115)으로부터 검색될 수 있고 프로세서 (105)에 의한 액세스 준비를 위해 메모리 (110) 상에 저장될 수 있다. 일부 상황에서, 전자 저장 유닛 (115)은 배제될 수 있고 기계 실행 가능 명령은 메모리 (110) 상에 저장된다.
비-일시적 컴퓨터 판독 가능 저장 매체
일부 실시양태에서, 본원에 개시된 방법은 임의로 네트워크화된 디지털 처리 장치의 운영 체제에 의해 실행 가능한 명령을 포함한 프로그램으로 인코딩된 하나 이상의 비-일시적 컴퓨터 판독 가능 저장 매체를 활용한다. 추가 실시양태에서, 컴퓨터 판독 가능 저장 매체는 디지털 처리 장치의 실체적인 구성 요소이다. 또한 추가 실시양태에서, 컴퓨터 판독 가능 저장 매체는 디지털 처리 장치로부터 임의로 제거 가능하다. 일부 실시양태에서, 컴퓨터 판독 가능 저장 매체는 비-제한적 예로서, CD-ROM, DVD, 플래시 메모리 장치, 반도체 메모리, 자기 디스크 드라이브, 자기 테이프 드라이브, 광학 디스크 드라이브, 클라우드 컴퓨팅 시스템 및 서비스 등을 포함한다. 일부 경우에, 프로그램 및 명령이 상기 매체에 영구적으로, 실질적으로 영구적으로, 반영구적으로, 또는 비-일시적으로 인코딩된다.
실행 가능한 명령
일부 실시양태에서, 본원에 개시된 방법은 적어도 하나의 컴퓨터 프로그램의 형태로 디지털 처리 장치에 의해 실행 가능한 명령을 활용한다. 예를 들어, 컴퓨터 프로그램은 명시된 태스크를 수행하도록 작성된 디지털 처리 장치의 CPU에서 실행 가능한 일련의 명령을 포함한다. 컴퓨터 판독 가능 명령은 특별한 태스크를 수행하거나 또는 특별한 추상 데이터 유형을 구현하는 프로그램 모듈, 예컨대 기능, 객체, 애플리케이션 프로그래밍 인터페이스 (API), 데이터 구조 등으로서 구현될 수 있다. 본원에 제공된 개시내용의 관점에서, 관련 기술분야의 통상의 기술자는 컴퓨터 프로그램이 다양한 언어의 다양한 버전으로 작성될 수 있다는 것을 인식할 것이다.
컴퓨터 판독 가능 명령의 기능성은 다양한 환경에서 원하는 대로 조합되거나 또는 분산될 수 있다. 일부 실시양태에서, 컴퓨터 프로그램은 하나의 명령 순서를 포함한다. 일부 실시양태에서, 컴퓨터 프로그램은 복수 개의 명령 순서를 포함한다. 일부 실시양태에서, 컴퓨터 프로그램은 하나의 위치로부터 제공된다. 다른 실시양태에서, 컴퓨터 프로그램은 복수 개의 위치로부터 제공된다. 다양한 실시양태에서, 컴퓨터 프로그램은 하나 이상의 소프트웨어 모듈을 포함한다. 다양한 실시양태에서, 컴퓨터 프로그램은 부분적으로 또는 전체적으로 하나 이상의 웹 애플리케이션, 하나 이상의 모바일 애플리케이션, 하나 이상의 독립형 애플리케이션, 하나 이상의 웹 브라우저 플러그-인, 확장, 애드-인, 또는 애드-온, 또는 그의 조합을 포함한다.
웹 애플리케이션
일부 실시양태에서, 컴퓨터 프로그램은 웹 애플리케이션을 포함한다. 본원에 제공된 개시내용의 관점에서, 관련 기술분야의 통상의 기술자는 웹 애플리케이션이 다양한 실시양태에서, 하나 이상의 소프트웨어 프레임 워크 및 하나 이상의 데이터베이스 시스템을 활용한다는 것을 인식할 것이다. 일부 실시양태에서, 웹 애플리케이션은 소프트웨어 프레임 워크, 예컨대 마이크로소프트® .NET 또는 루비 온 레일즈(Ruby on Rails) (RoR) 상에서 창출된다. 일부 실시양태에서, 웹 애플리케이션은 비-제한적 예로서, 관계형, 비-관계형, 객체 지향, 연관, 및 XML 데이터베이스 시스템을 포함한 하나 이상의 데이터베이스 시스템을 활용한다. 추가 실시양태에서, 적합한 관계형 데이터베이스 시스템은 비-제한적 예로서, 마이크로소프트® SQL 서버, mySQL™, 및 오라클®을 포함한다. 관련 기술분야의 통상의 기술자는 또한, 웹 애플리케이션이 다양한 실시양태에서, 하나 이상의 언어의 하나 이상의 버전으로 작성된다는 것을 인식할 것이다. 웹 애플리케이션은 하나 이상의 마크업 언어, 프리젠테이션 정의 언어, 클라이언트 측 스크립팅 언어, 서버 측 코딩 언어, 데이터베이스 질의 언어 또는 이의 조합으로 작성될 수 있다. 일부 실시양태에서, 웹 애플리케이션은 마크업 언어, 예컨대 하이퍼텍스트 마크업 언어 (HTML), 확장성 하이퍼텍스트 마크업 언어 (XHTML), 또는 확장성 마크업 언어 (XML)로 어느 정도 작성된다. 일부 실시양태에서, 웹 애플리케이션은 프리젠테이션 정의 언어, 예컨대 캐스케이딩 스타일 시트 (CSS)로 어느 정도 작성된다. 일부 실시양태에서, 웹 애플리케이션은 클라이언트 측 스크립팅 언어, 예컨대 비동기 자바스크립트 및 XML (AJAX), 플래시® 액션스크립트, 자바스크립트 또는 실버라이트®로 어느 정도 작성된다. 일부 실시양태에서, 웹 애플리케이션은 서버 측 코딩 언어, 예컨대 액티브 서버 페이지 (ASP), 콜드퓨전(ColdFusion®), 펄(Perl), 자바™, 자바서버 페이지 (JSP), 하이퍼텍스트 프로세서 (PHP), 파이산(Python™), 루비, Tcl, 스몰토크, WebDNA®, 또는 그루비(Groovy)로 어느 정도 작성된다. 일부 실시양태에서, 웹 애플리케이션은 데이터베이스 질의 언어, 예컨대 구조화 질의 언어 (SQL)로 어느 정도 작성된다. 일부 실시양태에서, 웹 애플리케이션은 엔터프라이즈 서버 제품, 예컨대 IBM® 로투스 도미노(Lotus Domino®)을 통합한다. 일부 실시양태에서, 웹 애플리케이션은 미디어 플레이어 요소를 포함한다. 다양한 추가 실시양태에서, 미디어 플레이어 요소는 비-제한적 예로서, 어도비(Adobe®) 하시®, HTML 5, 애플® 퀵타임(QuickTime®), 마이크로소프트® 실버라이트®, 자바™, 및 유니티(Unity®)을 포함한 많은 적합한 멀티미디어 기술 중 하나 이상을 활용한다.
도 33을 참조하면, 특별한 실시양태에서, 애플리케이션 제공 시스템은 관계형 데이터베이스 관리 시스템 (RDBMS) (210)에 의해 액세스되는 하나 이상의 데이터베이스 (200)를 포함한다. 적합한 RDBMS는 파이어버드, MySQL, PostgreSQL, SQLite, 오라클 데이터베이스, 마이크로소프트 SQL 서버, IBM DB2, IBM 인포믹스, SAP 사이베이스(Sybase), 테라데이터 등을 포함한다. 이러한 실시양태에서, 애플리케이션 제공 시스템은 하나 이상의 애플리케이션 서버 (220) (예컨대, 자바 서버, .NET 서버, PHP 서버 등) 및 하나 이상의 웹 서버 (230) (예컨대, 아파치, IIS, GWS 등)을 추가로 포함한다. 웹 서버(들)는 인터넷과 같은 네트워크를 통해 앱 응용 프로그래밍 인터페이스 (API) (240)를 통해 하나 이상의 웹 서비스를 임의로 노출시키며, 상기 시스템은 브라우저 기반 및/또는 모바일 고유 사용자 인터페이스를 제공한다.
도 34를 참조하면, 특별한 실시양태에서, 애플리케이션 제공 시스템은 또 다른 한편으론, 분산형 클라우드 기반 아키텍처 (300)를 가지며, 탄성적으로 로드 밸런싱된 자동 스케일링 웹 서버 리소스 (310) 및 애플리케이션 서버 리소스 (320) 및 동기식으로 복제된 데이터베이스 (330)를 포함한다.
모바일 애플리케이션
일부 실시양태에서, 컴퓨터 프로그램은 모바일 디지털 처리 장치에 제공되는 모바일 애플리케이션을 포함한다. 일부 실시양태에서, 모바일 애플리케이션은 그것이 제조될 때 모바일 디지털 처리 장치에 제공된다. 다른 실시양태에서, 모바일 애플리케이션은 본원에 기재된 컴퓨터 네트워크를 통해 모바일 디지털 처리 장치에 제공된다.
본원에 제공된 본 개시내용의 관점에서, 모바일 애플리케이션은 관련 기술분야에 공지된 하드웨어, 언어, 및 개발 환경을 사용하여 관련 기술분야의 통상의 기술자에게 공지된 기술에 의해 창출된다. 관련 기술분야의 통상의 기술자는 모바일 애플리케이션이 여러 언어로 작성된다는 것을 인식할 것이다. 적합한 프로그래밍 언어는 비-제한적 예로서, C, C++, C#, 오브젝티브-C, 자바™, 자바스크립트, 파스칼, 객체 파스칼, 파이산™, 루비, VB.NET, WML, 및 CSS를 수반하거나 또는 수반하지 않는 XHTML/HTML, 또는 그의 조합을 포함한다.
적합한 모바일 애플리케이션 개발 환경은 여러 공급처로부터 이용 가능하다. 상업적으로 이용 가능한 개발 환경은 비-제한적 예로서, 에어플레이SDK, alcheMo, 앱셀러레이터(Appcelerator®), 셀시우스(Celsius), 베드록(Bedrock), 플래시 라이트, .NET 컴팩트 프레임워크, 로모바일, 및 워크라이트 모바일 플랫폼을 포함한다. 비-제한적 예로서 라자루스(Lazarus), 모비플렉스(MobiFlex), 모신크(MoSync), 및 폰갭(PhoneGap)을 포함한 다른 개발 환경이 비용 없이 이용 가능하다. 또한, 모바일 장치 제조업체는 비-제한적 예로서, 아이폰 및 아이패드 (iOS) SDK, 안드로이드™ SDK, 블랙베리® SDK, BREW SDK, 팜® OS SDK, 심비안 SDK, 웹 OS SDK, 및 윈도우® 모바일 SDK를 포함한 소프트웨어 개발자 키트를 배포한다.
관련 기술분야의 통상의 기술자는 비-제한적 예로서, 애플® 앱 스토어, 구글® 플레이, 크롬 웹스토어, 블랙베리® 앱 월드, 팜 장치용 앱 스토어, 웹 OS 용 앱 카탈로그, 모바일용 윈도우® 마켓 플레이스, 노키아® 장치용 오비(Ovi) 스토어, 삼성® 앱, 및 니텐도® DSi 샵을 포함한 모바일 애플리케이션의 배포를 위해 여러 상업적 포럼이 이용 가능하다는 것을 인식할 것이다.
독립형 애플리케이션
일부 실시양태에서, 컴퓨터 프로그램은 기존 프로세스에 대한 애드-온이 아니라, 예를 들어, 플러그-인이 아니라, 독립적인 컴퓨터 프로세스로서 실행되는 프로그램인 독립형 애플리케이션을 포함한다. 관련 기술분야의 통상의 기술자는 독립형 애플리케이션이 종종 컴파일된다는 것을 인식할 것이다. 컴파일러는 프로그래밍 언어로 작성된 소스 코드를 2진 객체 코드, 예컨대 어셈블리 언어 또는 기계 코드로 변환시키는 컴퓨터 프로그램(들)이다. 적합한 컴파일된 프로그래밍 언어는 비-제한적 예로서, C, C++, 오브젝티브-C, COBOL, 델파이(Delphi), 에펠(Eiffel), 자바™, 리스프(Lisp), 파이산™, 비주얼 베이식(Visual Basic), 및 VB .NET, 또는 그의 조합을 포함한다. 컴파일은 적어도 부분적으로, 실행 가능한 프로그램을 창출하기 위해 종종 수행된다. 일부 실시양태에서, 컴퓨터 프로그램은 하나 이상의 실행 가능한 컴파일된 애플리케이션을 포함한다.
소프트웨어 모듈
일부 실시양태에서, 본원에 개시된 방법은 소프트웨어, 서버, 및/또는 데이터베이스 모듈을 활용한다. 본원에 제공된 본 개시내용의 관점에서, 소프트웨어 모듈는 관련 기술분야에 공지된 기계, 소프트웨어, 및 언어를 사용하여 관련 기술분야의 통상의 기술자에게 공지된 기술에 의해 창출된다. 본원에 개시된 소프트웨어 모듈은 다양한 방식으로 구현된다. 다양한 실시양태에서, 소프트웨어 모듈은 파일, 코드 섹션, 프로그래밍 객체, 프로그래밍 구조, 또는 이의 조합을 포함한다. 추가의 다양한 실시양태에서, 소프트웨어 모듈은 복수 개의 파일, 복수 개의 코드 섹션, 복수 개의 프로그래밍 객체, 복수 개의 프로그래밍 구조, 또는 이의 조합을 포함한다. 다양한 실시양태에서, 하나 이상의 소프트웨어 모듈은 비-제한적 예로서, 웹 애플리케이션, 모바일 애플리케이션, 및 독립형 애플리케이션을 포함한다. 일부 실시양태에서, 소프트웨어 모듈은 하나의 컴퓨터 프로그램 또는 애플리케이션 내에 있다. 다른 실시양태에서, 소프트웨어 모듈은 2개 이상의 컴퓨터 프로그램 또는 애플리케이션 내에 있다. 일부 실시양태에서, 소프트웨어 모듈은 하나의 기계에서 호스팅된다. 다른 실시양태에서, 소프트웨어 모듈은 2개 이상의 기계에서 호스팅된다. 추가 실시양태에서, 소프트웨어 모듈은 클라우드 컴퓨팅 플랫폼에서 호스팅된다. 일부 실시양태에서, 소프트웨어 모듈은 하나의 위치 내의 하나 이상의 기계에서 호스팅된다. 다른 실시양태에서, 소프트웨어 모듈은 2개 이상의 위치 내의 하나 이상의 기계에서 호스팅된다.
데이터베이스
일부 실시양태에서, 본원에 개시된 방법은 하나 이상의 데이터베이스를 활용한다. 본원에 제공된 개시내용의 관점에서, 관련 기술분야의 통상의 기술자는 많은 데이터베이스가 환자, 서열, 태그, 코드/디코드, 유전적 변이체 및 질환 정보의 저장 및 검색에 적합하다는 것을 인식할 것이다. 다양한 실시양태에서, 적합한 데이터베이스는 비-제한적 예로서, 관계형 데이터베이스, 비-관계형 데이터베이스, 객체 지향 데이터베이스, 객체 데이터베이스, 개체 관계 모델 데이터베이스, 연상 데이터베이스, 및 XML 데이터베이스를 포함한다. 추가의 비-제한적 예는 SQL, PostgreSQL, MySQL, 오라클, DB2, 및 사이베이스를 포함한다. 일부 실시양태에서, 데이터베이스는 인터넷 기반이다. 추가 실시양태에서, 데이터베이스는 웹 기반이다. 또한 추가 실시양태에서, 데이터베이스는 클라우드 컴퓨팅 기반이다. 다른 실시양태에서, 데이터베이스는 하나 이상의 로컬 컴퓨터 저장 장치에 근거한다.
한 측면에서 본원에는 프로세서 및 컴퓨터 메모리를 포함하는 컴퓨터를 포함하는 시스템이 제공되며, 여기서 컴퓨터는 통신 네트워크와 통신하고, 컴퓨터 메모리는 프로세서에 의해 실행될 때, (1) 통신 네트워크로부터 컴퓨터 메모리 내로 서열 데이터를 수신하고; (2) 서열 데이터 내에서의 유전적 변이체가 본원에 기재된 방법을 사용하여 배선 돌연변이체 또는 체세포 돌연변이체를 나타내는지를 결정하며; (3) 통신 네트워크를 통해 그 결정을 보고하는 코드를 포함한다.
통신 네트워크는 인터넷에 연결되는 임의의 이용 가능한 네트워크일 수 있다. 통신 네트워크는, 예를 들어, 제한 없이, 전력선을 통한 광대역 (BPL), 케이블 모뎀, 디지털 가입자 회선 (DSL), 광섬유, 위성 및 무선을 포함한 고속 전송 네트워크를 활용할 수 있다.
한 측면에서 본원에는 근거리 통신망; 이러한 근거리 통신망에 접속되는 DNA 서열 데이터를 저장하도록 설정된 컴퓨터 메모리를 포함하는 하나 이상의 DNA 서열 분석기; 근거리 통신망에 접속된, 컴퓨터 메모리 및 프로세서를 포함하는 생물 정보학 컴퓨터를 포함하는 시스템이 제공되며, 여기서 상기 컴퓨터는 실행될 때, DNA 서열 분석기 상에 저장된 DNA 서열 데이터를 카피하고, 이와 같이 카피된 데이터를 상기 생물 정보학 컴퓨터 내의 메모리에 기록하고, 본원에 기재된 바와 같은 단계를 수행하는 코드를 추가로 포함한다.
또한 본원에는 상기 언급된 방법을 구현하기 위한 수많은 시스템이 제공된다. 일부 실시양태에서 상기 시스템은 차세대 DNA 서열 분석기를 포함한 핵산 서열 분석기를 포함하며, 서열 분석기는 디지털 처리 장치와 데이터 통신되고, 여기서 디지털 처리 장치 상의 소프트웨어 모듈(들)에 의해 수신된 데이터는, 서열 분석기가 그 대상 방법에 의해 분할시키고 태그부착시킨 분할되고 태그부착된 DNA 서열로부터 DNA 서열 정보를 수득할 때 서열 분석기에 의해 생성된다. 서열 분석기와 디지털 처리 장치는 서로 가까이에 위치될 필요가 없으며, 일부 실시양태에서는, 시스템 구성 요소들 간에 적합한 데이터 통신이 존재한다면, 큰 물리적 거리에 걸쳐 분리될 수 있다. 후술되는 특이적 시스템 실시양태는 본 발명에 의해 제공되는 보다 다양한 시스템의 예이다. 관련 기술분야의 통상의 기술자는 데이터 분석 단계를 포함하는 본원에 기재된 방법이 본원에 개시된 시스템을 통하여 용이하게 구현될 수 있다는 것을 이해할 것이며, 여기서 디지털 처리 장치 상의 소프트웨어 모듈(들)은 그 대상 방법에 의해 생산된 태그부착된 핵산 집단을 시퀀싱함으로써 수득된 서열 데이터를 분석하기 위해 사용된다.
한 실시양태는:
핵산 서열 분석기; 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 핵산 서열 분석기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며, 여기서 디지털 처리 장치는 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하기 위한 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함하고, 상기 적어도 2가지 형태 각각은 복수 개의 분자를 포함하고, 상기 애플리케이션은: (i) 상기 데이터 링크를 통해 상기 핵산 서열 분석기로부터, 그 중 적어도 일부가 태그부착되는 증폭된 핵산의 서열 데이터를 수신하는 소프트웨어 모듈이며, 이러한 서열 데이터는 상기 핵산의 형태 중 적어도 하나를 적어도 하나의 태그부착된 핵산과 연결시켜 이들 형태를 서로 구별해 주고, 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시킴으로써 생성되며, 여기서 이러한 핵산 및 연결된 핵산 태그가 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 소프트웨어 모듈; 및 (ii) 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그부착된 핵산 분자를 디코딩하기에 충분한 서열 정보를 수득함으로써, 상기 증폭된 핵산의 서열 데이터를 검정하는 소프트웨어 모듈을 포함한다. 또 다른 실시양태에서, 상기 시스템은 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그부착된 핵산 분자를 디코딩하는 소프트웨어 모듈을 추가로 포함한다. 시스템의 다른 또 다른 실시양태에서, 상기 애플리케이션은 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함한다.
또 다른 실시양태는:
차세대 시퀀싱 (NGS) 기기; 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며; 여기서, 디지털 처리 장치는 하기를 포함하는 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함한다: (i) 상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하기 위한 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 인간 샘플로부터 DNA 분자를 물리적으로 분획화하여 2개 이상의 파티션을 생성시키고, 차별적 분자 태그 및 NGS 가능 어댑터를 2개 이상의 파티션 각각에 적용하여 분자 태그부착된 파티션을 생성하며, 이러한 분자 태그부착된 파티션을 NGS 기기로 검정함으로써 생성되는 것인 소프트웨어 모듈; (ii) 상기 샘플을, 차별적으로 분할시킨 분자로 디콘볼루션하기 위해 서열 데이터를 생성하기 위한 소프트웨어 모듈; 및 (iii) 상기 샘플을, 차별적으로 분할시킨 분자로 디콘볼루션함으로써 서열 데이터를 분석하기 위한 소프트웨어 모듈. 시스템의 다른 또 다른 실시양태에서, 시스템은 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함한다.
또 다른 실시양태는:
차세대 시퀀싱 (NGS) 기기; 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며; 여기서, 디지털 처리 장치는 MBD-비드 분획화된 라이브러리의 분자 태그 식별을 위한 하기를 포함하는 애플리케이션을 창출하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령을 추가로 포함한다: (i) 상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하도록 설정된 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 추출된 DNA 샘플을, 메틸-결합 도메인 단백질-비드 정제 키트를 사용하여 물리적으로 분획화하여, 하류 프로세싱을 위해 모든 용출액을 모으며; 차별적 분자 태그 및 NGS 가능 어댑터 서열을 각각의 분획 또는 군에 병렬 적용하는 것을 시행하고; 모든 분자 태그부착된 분획 또는 군을 재조합하고, 어댑터-특이적 DNA 프라이머 서열을 사용하여 후속 증폭시키며; 재조합되고 증폭된 전체 라이브러리의 풍부화/혼성화를 시행하여, 관심 게놈 영역을 표적화하고; 상기 풍부화된 전체 DNA 라이브러리를 재증폭하여, 샘플 태그를 첨부하며; 상이한 샘플을 풀링하고; NGS 기기 상의 멀티플렉스에서 검정함으로써 생성되고; 여기서, 상기 기기에 의해 생산된 NGS 서열 데이터가, 독특한 분자를 확인하기 위해 사용되는 분자 태그의 서열과, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 제공하는 것인 소프트웨어 모듈; 및 (ii) 독특한 분자를 확인하기 위해 분자 태그를 사용하고 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션함으로써 서열 데이터의 분석을 수행하도록 설정된 소프트웨어 모듈. 또 다른 실시양태는 상기 애플리케이션이 통신 네트워크를 통해 상기 분석 결과를 전송하도록 설정된 소프트웨어 모듈을 추가로 포함하는 시스템이다.
또 다른 실시양태는:
(a) 차세대 시퀀싱 (NGS) 기기; (b) 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및 (c) NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며; 여기서, 디지털 처리 장치는 하기를 포함하는 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함한다: i) 상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하기 위한 소프트웨어 모듈이며, 서열 데이터는 핵산 집단을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시켜, 이러한 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 변형에 대해 과소표현되는 것인 단계; 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산을 제2 풀 내의 핵산과 구별시켜 주는 하나 이상의 핵산 태그에 연결시켜 태그부착된 핵산 집단을 생산하는 단계; 이와 같이 표지된 핵산을 증폭시키는 단계이며, 여기서 핵산 및 상기 연결된 태그가 증폭되는 것인 단계; 및 분자 태그부착된 파티션을 NGS 기기로 검정하는 단계에 의해 제조된 표지된 핵산을 부하하여 생성되하는 것인 소프트웨어 모듈; ii) 태그를 디코딩하기 위해 서열 데이터를 생성하기 위한 소프트웨어 모듈; 및 iii) 그에 대한 서열 데이터가 검정된 핵산이 제1 풀 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하기 위해 서열 데이터를 분석하기 위한 소프트웨어 모듈. 또 다른 실시양태는 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함하는 시스템이다.
VII. 실시예 :
실시예 1: 메틸 결합 도메인 ( MBD ) 기반 분획화를 위한 실험적 절차
샘플 수집
폐암 (예를 들어, NSCLC)이 있는 대상체로부터의 샘플, 예컨대 혈액, 혈청 또는 혈장을, GUARDANT360™ 검정에 의해 결정된 바와 같이 높은 순환 종양 DNA (ctDNA) 함량을 나타내는 가던트 헬스(Guardant Health) 저장소로부터 선택하였다. 건강한 정상 공여자로부터의 무세포 DNA (cfDNA)를 기존에 보고된 바와 같이 (문헌 [Lanman et al., Analytical and clinical validation of a digital sequencing panel for quantitative, highly accurate evaluation of cell-free circulating tumor DNA, PLoS ONE 10(10): e0140712 (2015)]) 혈액 단리된 혈장으로부터 추출하였다.
cfDNA 추출
상기 샘플을 프로테이나제 K 소화시켰다. DNA를 이소프로판올로 침전시켰다. DNA를 DNA 정제 칼럼 (예를 들어, QIAamp DNA 혈액 미니 키트) 상에 포획하고, 100 μl 용액에서 용출시켰다. 500 bp 아래의 DNA를 앰퓨어(Ampure) SPRI 자기 비드 포획 (PEG/염)으로 선별하였다. 이로써 생성된 산물을 30 μl H2O에 현탁시켰다. 크기 분포도를 검사하고 (주요 피크=166개 뉴클레오티드; 부차적 피크=330개 뉴클레오티드) 정량화하였다. 일반적으로, 5 ng의 추출된 DNA는 대략 1700개의 반수체 게놈 등가물 ("HGE")을 함유한다. DNA의 양과 HGE 간의 일반적인 상관 관계는 다음과 같이 열거된다: 3 pg DNA=1 HGE; 3 ng DNA=1K HGE; 3 ng DNA=1M HGE; 10 pg DNA=3 HE; 10 ng DNA=3K HGE; 10 ng DNA=3M HGE.
DNA 분획화
DNA를 다수의 분획 (또는 파티션)으로 분획화한다. cfDNA (10 내지 150 ng)를, 메틸마이너™ 친화성 풍부화 프로토콜 [써모 피셔 사이언티픽(Thermo Fisher Scientific), Cat # ME10025]을 사용하여 과다메틸화된 분획, 중간 메틸화된 분획 및 과소메틸화된 분획으로 분획화하였는데, 단 반응 조건은 300 mM NaCl 인큐베이션 및 세척 완충액을 사용하여 변형시켰고, 1 마이크로그램 DNA 투입에 대한 프로토콜은 서브 마이크로그램 DNA 투입을 위해 축소되었다.
비드 제조
다이나비드® M-280 스트렙타비딘를 세척한다: 다이나비드® M-280 스트렙타비딘을, MBD-비오틴 단백질과 커플링시키기 전에, 300 mM NaCl을 함유하는 세척 완충액을 사용하여 세척하였다. 다이나비드® M-280 스트렙타비딘의 스톡을 재현탁시켜 균질한 현탁액을 수득한다. 각각의 마이크로그램의 투입 DNA에 대하여, 10 μl의 비드를 1.7-ml DNase-무함유 미세 원심분리용 튜브에 부가하였다. 비드 용적은 1X 결합/세척 완충액으로 100 μl가 되게 하였다. 튜브를 1분 동안 자기 랙 위에 놓아 두어 모든 비드를 튜브의 내벽에 집중시킨 후에 액체를 제거하고 폐기하였다. 튜브를 자기 랙으로부터 꺼내고, 동일한 용적 (예를 들어, 약 100 내지 250 μl)의 1X 결합/세척 완충액을 부가하여 비드를 재현탁시켰다. 이와 같이 재현탁시킨 비드를 농축시키고 한번 더 세척한 후에 MBD-비오틴 단백질을 비드와 커플링시켰다.
다이나비드® M-280 스트렙타비딘을 MBD-비오틴 단백질과 커플링시킨다: 각각의 마이크로그램의 투입 DNA에 대하여, 7 μl (3.5 μg)의 MBD-비오틴 단백질을 1.7-ml DNase-무함유 미세 원심분리용 튜브에 부가하였다. 비드 용적은 300 mM NaCl을 함유하는 1X 결합/세척 완충액으로 100 μl가 되게 하였다. MBD-비오틴 단백질을 희석시키고, 이를 초기 비드 세척액으로부터 재현탁된 비드의 튜브로 옮겼다. 비드-단백질 혼합물을 실온에서 1시간 동안 회전자 혼합기 상에서 혼합한 후, MBD-비드를 세척하였다.
MBD -비드를 세척한다: 튜브 내의 MBD-비드는, 이러한 튜브를 자기 랙 위에 1분 동안 놓아둠으로써 농축시켰다. 액체를 제거하고 폐기하였다. 비드를, 300 mM NaCl을 함유하는 1X 결합/세척 완충액 100-250 μl로 재현탁시키고, 실온에서 5분 동안 회전 혼합기 상에서 혼합하였다. 비드를 2회 이상 동안 상기 언급된 바와 같이 농축, 세척 및 재현탁시켰다. 이어서, 튜브를 1분 동안 자기 랙 위에 올려 놓고, 액체를 조심스럽게 제거하고 폐기하였다. 비드를 300 mM NaCl을 함유하는 1X 결합/세척 완충액 100-250 μl로 재현탁시킨 후, 메틸화 DNA 포획을 수행하였다.
단편화되고 메틸화된 DNA를 MBD-비드 상에 포획하고 MBD-비드를 단편화된 DNA와 함께 인큐베이션한다: 일반적으로, 투입 DNA는 5 ng 내지 1 μg의 범위일 수 있다. 대조군 반응은 전형적으로, 1 μg의 K-562 DNA를 사용한다. 깨끗한 1.7-ml DNase-무함유 미세 원심분리용 튜브에, 300 mM NaCl을 함유하는 5X 세척/결합 완충액 20 μl를 부가하였다. 예를 들어, 5 ng 내지 1 μg의 단편화된 샘플 DNA를 상기 튜브에 부가하고, DNase-무함유 물로 최종 용적이 100 μl가 되게 하였다. DNA/완충액 혼합물을, MBD-비드를 함유하는 튜브에 옮기고, 실온에서 1시간 동안 회전 혼합기 상에서 혼합하였다. 또 다른 한편으론, 혼합물을 4℃에서 밤새 혼합할 수 있다.
비드 용액으로부터 비-포획된 DNA를 수집한다: 비-포획된/비-메틸화된 DNA를 DNA와 MBD-비드 혼합물로부터 수집하였다. DNA와 MBD-비드의 혼합물을 함유하는 튜브를 1분 동안 자기 랙 위에 놓아 두어 비드를 농축시키고, 상청액을 제거하고 이를 깨끗한 DNase-무함유 미세 원심분리용 튜브에 모은다. 이와 같이 모은 상청액은 비-포획된 DNA 상청액이고, 얼음 위에 저장할 수 있다. 비드를 3분 동안 회전 혼합기 상에서 300 mM NaCl을 함유하는 1x 결합/세척 완충액 200 μl로 세척하였다. 비드를 상기 언급된 바와 같이 농축시키고, 비-포획된/비-메틸화된/과소메틸화된 DNA를 함유하는 상청액을 제거하고 이를 모으며, 상기 언급된 바와 같이 얼음 위에 저장하였다. 비드를 세척하고, 혼합하고, 상청액을 제거하면서 농축시키고, 2개의 세척 분획을 수집하기 위해 한번 더 모았다. 각각의 세척 분획을 얼음 위에 저장하였다. 세척 분획을 함께 풀링하고, 이에 따라 표지할 수 있다.
포획된 DNA를 용출시킨다: 상기와 같이 포획된 DNA를, 2000 mM NaCl을 함유하는 용출 완충액을 사용하여 용출시켰다. 비드를 200 μl의 용출 완충액 (2000 mM NaCl)에 재현탁시켰다. 비드를 3분 동안 회전 혼합기 상에서 인큐베이션하고, 이를 1분 동안 자기 랙 위에 놓아 두어 모든 비드를 농축시켰고, 포획된/과다메틸화된 DNA를 함유하는 액체를 제거하고, 이를 깨끗한 DNase-무함유 미세 원심분리용 튜브에 모았다. 이와 같이 모은 포획된/메틸화된 DNA의 제1 분획을 얼음 위에 저장하였다. 비드를 재현탁시키고 한번 더 인큐베이션하였고, 포획된/메틸화된 DNA를 함유하는 액체를 제거하고, 이를 제2의 깨끗한 튜브에 모았다. 포획된/메틸화된 DNA의 제1 및 제2 컬렉션을 풀링하고 얼음 위에 저장하였다.
분석을 위한 메틸화 분획화된 DNA의 제조: 분할된 cfDNA, 과다메틸화된, 중간 메틸화된 및 비-메틸화된 DNA를, 예를 들어, SPRI 비드 클린업 [앰퓨어 XP, 베크만 쿨터(Beckman Coulter)]에 의해 정제하고, 연속해서 라이게이션을 위해 준비한 다음 (NEBNext® 울트라™ 말단 복구/dA-테일링 모듈을 사용한다), 문헌 [Lanman et al., 2015]에 기재된 바와 같이 비-무작위 분자 바코드를 함유하는 변형된 Y자 형 dsDNA 어댑터와 라이게이션하였다. 과다메틸화된, 중간 메틸화된 및 과소메틸화된 cfDNA 파티션을 11, 12, 및 12개의 별개의 비-무작위 분자 바코드된 어댑터와 각각 라이게이션하였다. 각각의 샘플에 대하여 라이게이션되고 분할된 cfDNA 분자를 SPRI 비드 (앰퓨어 XP)로 다시 정제한 다음, 모든 어댑터 라이게이션된 분자 (NEBNext 울트라 II™ Q5 마스터 혼합물)에 보편적인 올리고와의 PCR 반응물로 재조합하여, 하나의 샘플로부터의 모든 cfDNA 분자를 함께 증폭시켰다. 증폭된 DNA 라이브러리를, 표준 제조 기술을 사용하여 표적 풍부화 또는 전체 게놈 시퀀싱 (WGS)에 대비하여 SPRI 비드 (앰퓨어 XP)를 사용하여 다시 정제하였다.
표적 포획 및 풍부화: DNA 샘플은 상업적으로 이용 가능한 프로토콜, 예를 들어, 일루미나 멀티플렉스된 시퀀싱을 위한 슈어셀렉트(SureSelectXT) 표적 풍부화 시스템을 사용하여 풍부화될 수 있다.
실시예 3: CDKN2A의 메틸화 프로파일링
DNA 메틸화 프로파일링을 단편적인 데이터와 연계해서 사용하여 CDKN2A 유전자 내의 차별적으로 메틸화된 영역 (DMR)을 포획하였다. CDKN2A 유전자는 세포 주기 조절에 관여하는 p16INK4A 및 p14ARF 단백질을 코딩하는 종양 억제 유전자이다. cfDNA 샘플을, MBD-친화성 정제를 이용하여 과소메틸화된 파티션과 과다메틸화된 파티션으로 분획화하였다. 분획화 시, 각각의 군 내의 핵산 분자를 서열 분석하여 서열 판독물을 생성하였다. 그 서열 판독물은 참조 게놈에 맵핑될 때 단편적인 데이터를 제공하였고, 이어서 이는 각각의 분획화된 파티션으로부터의 서열 판독물과 조합되었다 (도 10). CDKN2A 유전자는 과다메틸화된 파티션과 비교해서 과소메틸화된 파티션의 적용 범위가 전반적으로 증가한 것으로 나타났다.
실시예 4: 정상 및 폐암 샘플의 메틸화 프로파일
도 11에 도시된 바와 같이, MBD-분할 프로세스는 투입 양 (10 내지 150 ng cfDNA) 및 반복 실험 (예를 들어, 3회 반복 실험)을 다양하게 하면서, 건강한 공여자로부터의 4개의 cfDNA 샘플 (Norm 13893, Norm 13959, Norm 13961, Norm 13962) 및 높은 % ctDNA를 수반한 폐암 환자로부터의 2개의 cfDNA 샘플 (LungA 1345402, LungA 0516902)에 적용하였다. 샘플은 패널에서 표적화된 모든 게놈 유전자 자리 전체에 걸쳐 과다메틸화된 DNA의 백분율에 의해 계층적으로 클러스터되었다. 과다메틸화된 DNA의 백분율은 과다메틸화된 무세포 DNA 단편의 수를 모든 파티션 전체에 걸쳐 관찰된 무세포 DNA 단편의 총 수로 나눔으로써 결정될 수 있다. 이 패널은 약 30 kb 게놈 영역을 커버하는 맞춤형 유전자 패널이다. 패널은 또한, 상이한 암, 예컨대 폐암, 결장직장암 등을 검출하기 위한 더 높은 감도를 가지고 있다. 건강한 공여자로부터의 샘플은 폐암 환자로부터의 샘플과 별도로 클러스터된다. 개별적인 폐암 샘플은 별도로 추가 클러스터된 별개의 메틸화 프로파일을 갖는다 (즉, 각각의 폐암 샘플의 복제물이 정확하게 확인되고 함께 나누어진다). 예를 들어, 2017년 10월 19일자의 WO 2017/181146을 참조할 수 있다.
실시예 5: 전체 게놈 시퀀싱을 이용하는 메틸화 프로파일링
DNA 메틸화 프로파일링은 비정상적인 단편화 패턴을 결정하기 위해 단편적인 데이터와 통합되어 임상 샘플에서 염색질 구조가 변경되었다 (도 12A, 도 12B, 및 도 12C). 핵산 분자는 폐암 환자로부터 유래되었다. 핵산 분자는 MBD-친화성 정제를 이용하여 과소메틸화된 파티션과 과다메틸화된 파티션으로 분획화되었다. 분획화 시, 각각의 파티션 내의 핵산 분자를 서열 분석하여 서열 판독물을 생성하였다. 그 서열 판독물은 참조 게놈에 맵핑될 때 단편적인 데이터를 제공하였다. 단편적인 데이터, 예컨대 게놈 위치, 단편 길이 및 적용 범위를 각각의 파티션으로부터의 서열 판독물과 조합하였다. 도 12A 및 도 12B에 도시된 바와 같이, 전사 출발 부위 (TSS) 내의 600 bp 영역이 X-축에 있고, 빈도 또는 적용 범위가 Y-축에 표시된다. 도 12C는 X-축 상의 전체 단편과 Y-축 상의 빈도와 비교 시 과다메틸화된 단편의 분획을 나타낸다. 예를 들어, 도 12C에서, 전체 단편 중에서 과다메틸화된 단편의 분획은 약 0.2 (즉, 약 20%)이다.
실시예 6: MOB3A 및 WDR88의 메틸화 프로파일링
DNA 메틸화 프로파일링은 후성적 조절 상의 차이를 결정하기 위해 단편적인 데이터와 통합되었다 (도 13A 및 도 13B). 핵산 분자는 MBD-친화성 정제를 이용하여 과소메틸화된 파티션과 과다메틸화된 파티션으로 분획화되었다. 분획화 시, 각각의 파티션 내의 핵산 분자를 서열 분석하여 서열 판독물을 생성하였다. 그 서열 판독물은 참조 게놈에 맵핑될 때 단편적인 데이터를 제공하였다. 단편적인 데이터, 예컨대 게놈 위치 및 적용 범위를 각각의 분획화된 군으로부터의 서열 판독물과 조합하였다.
MOB3A 유전자는 공지되지 않은 생화학적 기능을 가질 수 있으며, 종양 성장과 증식을 지속시키는 것과 관련될 수 있다. 도 13A에서와 같은 히트 맵은 건강한 개체로부터의 샘플 내의 TSS의 출발 부위 근처 과소메틸화된 것과 비교해서 과다메틸화된 것에 대한 더 많은 적용 범위를 보였다. 이러한 예는 암을 표시할 수 있는 유전자의 TSS 내의 마커를 검출하기 위해 분획화된 군을 단편적인 데이터와 조합하는 애플리케이션을 제공하였다. 이들 데이터는 과다메틸화된 및 과소메틸화된 분획화된 군 (또는 파티션)이 TSS와 같은 게놈 영역 전체에 걸친 메틸화 상태를 파악하기 위한 더 나은 분해능을 제공하였다는 것을 보여 주었다. 전술한 바와 같이, 분획화된 군 내의 적용 범위는 TSS에 걸친 메틸화 상태 상의 차이를 나타냈다. 이러한 예는 유전자 전체에 걸친 메틸화 상태의 더 나은 분해능을 제공하기 위해 핵산 분자를 분획화하는 애플리케이션을 제공하였다.
WDR88 유전자는 세포 주기 조절, 아폽토시스 및 자가 포식에 관련될 수 있다. 히트 맵은 건강한 개체로부터의 샘플 내의 TSS의 출발 부위 근처 과소메틸화된 것과 비교해서 과다메틸화된 것에 대한 더 많은 적용 범위를 보였다 (도 13B). 추가로, 도 13B는 과다메틸화된 및 과소메틸화된 분획화된 군이 TSS와 같은 게놈 영역 전체에 걸친 메틸화 상태를 파악하기 위한 더 나은 분해능을 제공하였다는 것을 보여 주었다. 전술한 바와 같이, 분획화된 군 내의 적용 범위는 TSS에 걸친 메틸화 상태 상의 차이를 나타냈다. 이러한 예는 유전자 전체에 걸친 메틸화 상태의 더 나은 분해능을 제공하기 위해 핵산 분자를 분획화하는 애플리케이션을 제공하였다.
실시예 7: 재조합된 파티션 및 분획화되지 않은 샘플의 메틸화 프로파일링
도 14A는 분획화되지 않은 군 (MBD 없음) 및 MBD-친화성 분할 후 재조합된 파티션 (전체 MBD)으로부터의 적용 범위를 각각 X-축 및 Y-축 상에 나타낸 히트 맵을 도시한다. 파티션은 과다메틸화된 파티션과 과소메틸화된 파티션으로 분할한 후 인 실리코 재조합하여 "hyper + hypo" 또는 "전체 MBD"를 형성하였다. 히트 맵은 MBD 없음에 대한 적용 범위와 전체 MDB에 대한 적용 범위 간의 선형 상관 관계를 보여준다. 선형 상관 관계는 유사한 적용 범위를 표시하며 게놈 유전자 자리 전체에 걸친 메틸화 상태의 유사한 분해능을 제공할 수 있다. MBD 없음 및/또는 전체 MBD에 의해 수득된 분해능 수준은 유전자 자리 전체에 걸친 메틸화 상태에 있어서의 차이를 구별하기에 충분하지 않을 수 있으며, 이는 MBD 친화성에 근거한 분할의 예기치 않은 이점을 보여준다.
도 14B는 전체 MBD를 갖는 MVA 플롯 히트 맵을 도시한다. X-축은 전체 MBD (재조합된 과다메틸화된 및 과소메틸화된 파티션) 내의 평균 단편을 (a+b)/2로서 표시한다 (여기서, a는 전체 MBD이고 b는 MBD 없음이다).
실시예 8: 재조합된 파티션 (전체 MBD)과 분획화되지 않은 샘플 간의 뉴클레오솜 구성
도 15에 도시된 바와 같이, 게놈 영역 전체에 걸친 전체 MBD (인 실리코 재조합된 과다메틸화된 및 과소메틸화된 파티션) 및 MBD 없음 (분획화되지 않은) 샘플에 대한 뉴클레오솜 점유율 중심 간의 거리에 있어서의 차이가 X-축 상에 플롯되었다. 게놈 영역 전체에 걸친 전체 MBD 및 MBD 없음 샘플에 대한 뉴클레오솜 점유율 중심 간의 거리의 분포에 있어서의 차이가 "밀도"로써 표시된 바와 같이 Y-축 상에 플롯되었다. 전체 MBD 샘플은 과다메틸화된 파티션과 과소메틸화된 파티션을 인 실리코 재조합함으로써 준비되었다. 이들 결과는 MBD 분할이 뉴클레오솜 점유율에 영향을 미치지 않는다는 것을 보여준다.
실시예 9: MBD 시그널의 검증
MBD-분할된 샘플을 사용하여 건강한 샘플과 암 샘플에서의 뉴클레오솜 점유율을 파악하였다. 본 실시예에서는, 6명의 폐암 환자 및 3명의 비-악성 건강한 성인으로부터의 혈액 샘플을 수득하였다. 이러한 샘플로부터 무세포 핵산을 추출하고, MBD-친화성 정제를 이용하여 과다메틸화된 파티션과 과소메틸화된 파티션으로 분할하였다. 전체 게놈 시퀀싱을 사용하여 핵산 샘플을 서열 분석하였다. 각각의 파티션 및 모든 샘플에 대한 과다메틸화된 단편의 백분율을 결정하였다. 도 16은 폐암 환자 (상단으로부터 열 1 및 2) 및 건강한 성인 (열 3 및 4)으로부터의 과다메틸화된 파티션 및 과소메틸화된 파티션 내의 MBD 시그널을 도시한다. 도 16에 도시된 바와 같이, 폐암 환자로부터의 무세포 DNA 단편은 건강한 개체로부터의 과다메틸화된 파티션과 비교 시 과다메틸화된 파티션 내의 원위 유전자내 영역 (LungSigHyper)의 풍부화를 나타낸다. 또한, 과다메틸화된 피크 (LungSigHyper) 및 과소메틸화된 피크 (LungSigHypo)의 상위 5% 최고 백분율에서의 특징 분포는 엑손 1 이외의 모든 엑손에서 과소메틸화된 피크의 상당한 풍부화를 나타낸다 (도 16, 열 1 및 2).
실시예 10: AP3D1 유전자의 메틸화 프로파일링
본원에 기재된 방법은 폐암을 예후하기 위해 사용되었다. 한 실험에서는, 폐암 환자로부터의 핵산 분자를 수반한 샘플을 MBD-친화성 정제를 이용하여 과소메틸화된 파티션과 과다메틸화된 파티션으로 분획화하였다. 대조군으로서의 샘플은 분할되지 않았다 (MBD 없음). 전체 게놈 시퀀싱을 사용하여 상기 샘플을 서열 분석하였다.
AP3D1 유전자는 세포 소기관 수송과 관련될 수 있는 AP-3 복합체 서브유닛 델타-1을 코딩할 수 있다. 히트 맵은 TSS의 근처에서 MBD 없음 및/또는 과소메틸화된 파티션과 비교해서 과다메틸화된 파티션에 대한 더 많은 적용 범위를 나타냈다 (도 18A). 과다메틸화된 파티션은 MBD 없음 군보다 더 강하고/강하거나 더 국한된 적용 범위를 나타냈다. 히트 맵에 도시된 바와 같이, 과다메틸화된 파티션은 TSS 근처에 매우 국한된 강력한 적용 범위를 가지지만, MBD 없음 군은 게놈 영역 전체에 걸쳐 유사한 적용 범위를 가졌다. 과다메틸화의 평균 퍼센트가 또한, 도 18B의 적색 선에 의해 표시된 바와 같이 결정되었다. 이러한 예는 유전자 전체에 걸친 메틸화 상태의 더 나은 분해능을 제공하기 위해 핵산 분자를 분획화하는 애플리케이션을 제공할 수 있다. 이들 결과는 AP3D1 유전자가 특히 TSS 근처에서 과다메틸화된다는 것 (도 18A)과, AP31 유전자가 과다메틸화된다는 것 (도 18B에 도시된 바와 같이 > 60%)을 나타낸다. AP3D1 유전자의 탈조절이 폐암 유발에 관여할 수 있다. 따라서, 본 실시예는 특정 개체의 메틸화 프로파일을 모니터링함으로써 폐암의 예후에 있어서의 상기 방법에 대한 애플리케이션을 제공할 수 있다.
실시예 11: DNMT1 유전자의 메틸화 프로파일링
또 다른 예에서, DNMT1 유전자의 메틸화 프로파일링을 조사하였다. DNMT1 유전자는 메틸 기가 DNA 내의 특이적 CpG 디뉴클레오티드로 전달되는 것을 촉매하는 효소를 코딩한다. DNMT1은 유전된 후성적 패턴의 복제의 충실도를 보장하기 위해 DNA 메틸화의 유지에 관여하였다. 이상한 메틸화 패턴은 암 및 발달 이상과 연관될 수 있다.
과다메틸화된, 과소메틸화된 및 MBD 없음에 대한 히트 맵이 TSS와 관련하여 도시된다 (도 19A). 과다메틸화된 파티션은 MBD 없음 군보다 더 강하고/강하거나 더 국한된 적용 범위를 나타냈다. 과다메틸화된 파티션은 TSS 근처에 국한되고 더 강력한 적용 범위를 가지지만, MBD 없음 군은 유전자 전체에 걸쳐 유사한 적용 범위를 가졌다. 과다메틸화의 평균 퍼센트가 또한, 도 19B의 적색 선에 의해 표시된 바와 같이 약 75%인 것으로 결정되었다. 이들 결과는 DNMT1 유전자가 특히 TSS 근처에서 과다메틸화된다는 것 (도 19A)과, DNMT1 유전자가 과다메틸화된다는 것 (도 19B에 도시된 바와 같이 약 75%)을 나타낸다. 이상한 메틸화 패턴은 염색질 구조에 있어서의 변화와 함께, DNMT1의 탈조절을 초래할 수 있으며, 이는 폐암 유발에 관여할 수 있다. 따라서, 본 실시예는 특정 개체의 메틸화 프로파일을 모니터링함으로써 폐암의 예후에 있어서의 상기 방법에 대한 애플리케이션을 제공할 수 있다. 본 실시예는 또한, 유전자 전체에 걸친 메틸화 상태의 더 나은 분해능을 제공하기 위해 핵산 분자를 분획화하는 애플리케이션을 제공할 수 있다.
실시예 12: 변형된-히스톤 분획화
본 실시예는 변형된-히스톤 접근법을 이용하여 분할하는 것을 명확하게 보여준다. DNA는 히스톤 변형에 근거하여 분할된다. 간략하게 언급하면, 아가로스 비드를 BSA로 차단시키고, 세척한 후, 상기 비드를 4℃에서 4시간 동안 H3K9me3 및 H4K20me3에 대항한 항체 [밀리포어 (Millipore; 미국 캘리포니아주 테메큘라)]와 함께 미리 인큐베이션한다. 그 후, 200 μl의 혈장을 800 μl의 파티션 희석 완충액 내로 희석시킨 다음, 항체와 함께 미리 인큐베이션한 펠릿화 아가로스 비드에 부가하였다. 4℃에서 밤새 인큐베이션한 후, 상기 비드를 저 염, 고 염, LiCl 및 트리스/EDTA 완충액으로 세척하였다. 최종적으로, 상기 비드를 65℃에서 인큐베이션함으로써 염색질을 용출시키고, 프로테이나제 K로 처리함으로써 단백질을 제거한다. 이어서, 분할된 DNA를 적절한 정제 키트를 사용하여 정제하고 -20℃ 하에 저장한다.
실시예 13: 단백질-결합된 영역에 근거한 분획화
본 실시예는 단백질-결합된 영역을 사용하는 분할 접근법을 명확하게 보여준다. DNA는 단백질 A에 대한 결합 상의 차이에 근거하여 분할된다. 샘플 내의 핵산 분자는 또한, 단백질-결합된 영역에 근거하여 분획화될 수 있다. 예를 들어, 핵산 분자는 특이적 단백질과 결합되는 핵산 분자 및 그러한 특이적 단백질과 결합되지 않는 핵산 분자에 근거하여 상이한 군으로 분획화될 수 있다. 핵산 분자는 DNA-단백질 결합에 근거하여 분획화될 수 있다. 단백질-DNA 복합체는 단백질의 특이적 특성에 근거하여 분획화될 수 있다. 이러한 특성의 예는 다양한 에피토프, 변형 (예를 들어, 히스톤 메틸화 또는 아세틸화) 또는 효소 활성을 포함한다. DNA와 결합할 수 있고 분획화를 위한 기준으로서 제공될 수 있는 단백질의 예는, 예를 들어, 단백질 A 또는 단백질 G를 포함할 수 있다. 실험적 절차, 예컨대 염색질-면역침전을 사용하여 단백질 A 결합된 영역에 근거하여 핵산 분자를 분획화한다.
실시예 14: 히드록시메틸화에 근거한 분획화
본 실시예는 변형된-히스톤 접근법을 이용하여 분할하는 것을 명확하게 보여준다. DNA는 히드록시메틸화에 근거하여 분할된다. 간략하게 언급하면, 5-hmC-변형된 염기는 시험관 내에서 글리코실화된다. 5-hmC의 특이적 글루코실화는 자이모 리서치(Zymo Research) (zymoresearch.com/epigenetics/dna-hydroxymethylation/5-hmc-glucosyltransferase)로부터의 고도로 활성인 5-hmC 글루코실트랜스퍼라제 효소의 프로토콜을 수행함으로써 달성된다. J-결합 단백질-1 (JBP-1)은 글루코실화된 DNA와 고 친화성으로 특이적으로 결합하여, 5-hmC 수준이 JBP-1 기반 풍부화에 의해 결정될 수 있도록 한다. 부가적으로, 5-hmC의 글루코실화는 몇 가지 제한 효소에 의한 DNA의 소화를 변경시키므로, 5-hmC-글루코실화된 DNA의 소화 패턴을 사용하여 DNA 히드록시메틸화 상태를 평가할 수 있다.
실시예 15: 핵산 분자의 가닥성에 근거한 분획화
샘플 내의 핵산 분자는 가닥성에 근거하여 분획화된다. 예를 들어, ssDNA 및 dsDNA는 2개의 군으로 분획화된다. 이들 군을 대상으로 개별적으로 또는 동시에 시퀀싱 검정을 수행한다. ssDNA와 dsDNA 둘 다를 갖는 핵산 샘플은 분획화 동안 샘플에 변성 단계를 거치지 않음으로써 분획화된다. 변성 단계는 dsDNA를 ssDNA로 전환시키고, 가닥성에 근거하여 핵산 분자를 분획화하지 못하게 한다.
실시예 16: 변형된 사전 증폭 표적 포획 프로토콜 (NEBNext 다이렉트)을 이용한 ssDNA 및 dsDNA의 분자 분할
사전 증폭 혼성체 포획 표적 시퀀싱 프로토콜 (예를 들어, NEBNext 다이렉트 핫스팟 암 패널)을 DNA 변성 없이 무세포 DNA (cfDNA) 샘플에 적용하여 ssDNA 분자를 포획하는 신규한 혼성체 포획 방법론 (도 18). dsDNA 분자를 함유하는 비-결합된 분획을 단리하고, ssDNA로 변성시키고, 상기 포획 프로토콜에 적용하였다.
사용된 사전 증폭 혼성체 포획 시퀀싱 프로토콜은 대략 40 kb의 서열을 포괄하고 18,000개 이상의 COSMIC 기능을 포함한, 50개의 유전자로부터의 190개의 일반적인 암 표적에 대한 미끼를 함유하는 NEBNext 다이렉트 핫스팟 암 패널이었다 (NEBNext 다이렉트 핫스팟 암 패널; neb.com/products/e7000-nebnext-direct-cancer-hotspot-panel). 간략하게 언급하면, NEBNext 다이렉트 표적 풍부화 접근법은 DNA 샘플을 비오티닐화된 올리고뉴클레오티드 미끼와 신속하게 혼성화시키는데, 이는 각각의 관심 표적의 3' 말단을 규정한다. 미끼-표적 혼성체가 스트렙타비딘 비드와 결합되었고, 효소 반응을 사용하여 3' 오프-타겟 서열을 제거하였다. 그에 따른 라이브러리 프렙은 분자 태그와 샘플 바코드를 포함한 일루미나 화합성 라이브러리로 표적을 전환시켰다. 키트를 사용하는 것이, 미끼와의 혼성화 이전에 DNA 샘플을 변성시킴으로써 샘플 내의 모든 ssDNA 및 dsDNA 분자를 포획할 수 있게 하였다.
ss- 및 ds-cfDNA를 함유하는 cfDNA 샘플을 대상으로, 선행 dsDNA 변성 단계를 생략하는 표적 포획 프로토콜을 수행하였다. 이로써 포획된 ssDNA 분자가 NEBNext 프로토콜 (도 20 내의 좌측 칼럼)에 의해 NGS에 대해 준비된 반면, 상기 포획으로부터의 상청액은 표준 선행 dsDNA 변성 단계를 이용하여 제2 표적 포획 프로토콜에 적용하였고, 그 후에 NGS에 대해 준비되었다 (도 20 내의 우측 칼럼). 혈장으로부터 추출된 cfDNA를 전기영동 기반 측정에 의해 정량화하였다. 200 ng 또는 500 ng 등가의 샘플 용적을, DNA 변성 단계를 생략하면서 NEBNExt 다이렉트 핫스팟 암 패널 검정에 적용하여, ssDNA 분자 만이 미끼와 혼성화되도록 하였다. dsDNA 분자 및 비-표적화된 ssDNA 분자를 함유하는, 상기 포획의 상청액을 보유하고, 이를 대상으로 제2의 표적 포획을 수행하였다 (도 20). ssDNA와 dsDNA 라이브러리 둘 다는 NGS를 위해 별도로 준비되었으며, 하류 생물 정보학 분석에서 확인되는 독특한 샘플 바코드 태그를 이용한다. ssDNA 및 dsDNA로 준비된 라이브러리 둘 다를 일루미나 NextSeq 500 (2 x 75개의 쌍을 이룬 말단) 상에서 서열 분석하고, 온-타겟 분자의 총 수 (40 kb 미끼에 상응함)를 계산하였다 (도 1).
단일 가닥 무세포 DNA (ss-cfDNA)와 이중 가닥 무세포 DNA (ds-cfDNA) 둘 다를 수반한 무세포 DNA (cfDNA) 샘플을, 상기 언급된 방법을 사용하여 ss-cfDNA 군과 ds-cfDNA 군으로 각각 분획화하였다 (도 20). 서열 분석된 샘플 중 2개에서, ssDNA 라이브러리는 약 80%의 dsDNA (온-타겟 분자, 제1 200 ng 및 제2 500 ng cfDNA 투입)를 함유한다. 제2의 200 ng cfDNA는 ssDNA와 dsDNA 라이브러리 둘 다를 생산하지 못하였고, 이는 ssDNA/dsDNA 분할 프로세스의 샘플 프로세싱 상류에서의 확률 오차를 표시한 반면, 제1의 500 ng cfDNA 투입은 유의적인 dsDNA 라이브러리 만을 생산하였는데, 이는 cfDNA 샘플 내에서의 ssDNA와 dsDNA의 상대적 양이 가변적이었다는 것을 암시하였다. 온-타겟 분자는 브로드 연구소로부터의 피카르(Picard) 패키지에 의해 정의된 바와 같이 계산되었다 (피카르 메트릭스; broadinstitute.github.io/picard/picard-metric-definitions.html). 이러한 실험에 대한 PCR 수율이 도 20에 제시되었다. 상대적 수율, 즉 ssDNA에 대한 PCR 수율/dsDNA에 대한 PCR 수율은 4개의 샘플 모두에 대하여 20% 내지 75%인 것으로 결정되었다.
실시예 17: 감수성 체세포 돌연변이 검출은 MBD 기반 메틸화 분할 방법으로 유지되었다
샘플 수집 및 풀링
높은 cfDNA 수율을 나타낸 가던트 헬스 저장소로부터 샘플을 선택하였다. 96개의 샘플을 동일한 용적으로 혼합함으로써 임상 샘플을 준비하였다. 풀이 <0.02% 내지 100%에서 참조 게놈으로부터의 돌연변이를 함유하고 있기 때문에, 이는 돌연변이 검출에 대한 감도를 검정하기 위한 시험 물질로서 제공된다. 독특한 구성 요소 샘플이 있는 2개의 상이한 임상 샘플 (파워풀V1 및 파워풀V2)을 준비하였다.
DNA 분할
파워풀 cfDNA을 다수의 분획으로 분할하였다. 메틸마이너™ 친화성 풍부화 프로토콜 (써모 피셔 사이언티픽, Cat # ME10025)을 사용하여 cfDNA (15 또는 150 ng)를 과다메틸화된 분획, 중간 메틸화된 분획 및 과소메틸화된 분획으로 분할하였는데, 단 반응 조건은 300 mM NaCl 인큐베이션 및 세척 완충액을 사용하여 변형시켰고, 1 마이크로그램 DNA 투입에 대한 프로토콜은 서브 마이크로그램 DNA 투입을 위해 선형으로 축소되었다.
비드 제조
다이나비드® M-280 스트렙타비딘를 세척한다:
다이나비드® M-280 스트렙타비딘을, MBD-비오틴 단백질과 커플링시키기 전에, 1X 결합/세척 완충액 (160 mM NaCl을 함유함)을 사용하여 세척하였다. 간략하게 언급하면, 다이나비드® M-280 스트렙타비딘의 스톡을 재현탁시켜 균질한 현탁액을 수득하였다. 각각의 마이크로그램의 투입 DNA에 대하여, 10 μl의 비드를 1.7-ml DNase-무함유 미세 원심분리용 튜브에 부가하였다. 비드 용적은 1X 결합/세척 완충액으로 100 μl가 되게 하였다. 튜브를 1분 동안 자기 랙 위에 놓아 두어 모든 비드를 튜브의 내벽에 집중시킨 후에 액체를 제거하고 폐기하였다. 튜브를 자기 랙으로부터 꺼내고, 동일한 용적 (예를 들어, 약 100 내지 250 μl)의 1X 결합/세척 완충액을 부가하여 비드를 재현탁시켰다. 이와 같이 재현탁시킨 비드를 농축시키고 한번 더 세척한 후에 MBD-비오틴 단백질을 비드와 커플링시켰다.
다이나비드® M-280 스트렙타비딘을 MBD-비오틴 단백질과 커플링시킨다
각각의 마이크로그램의 투입 DNA에 대하여, 7 μl (3.5 μg)의 MBD-비오틴 단백질을 1.7-ml DNase-무함유 미세 원심분리용 튜브에 부가하였다. 비드 용적은 300 mM NaCl을 함유하는 1X 결합/세척 완충액으로 100 μl가 되게 하였다. MBD-비오틴 단백질을 희석시키고, 이를 초기 비드 세척액으로부터 재현탁된 비드의 튜브로 옮겼다. 비드-단백질 혼합물을 실온에서 1시간 동안 회전자 혼합기 상에서 혼합한 후, MBD-비드를 세척하였다.
MBD-비드를 세척한다
MBD-비드를 함유하는 튜브는 MBD-비드를 자기 랙 위에 1분 동안 놓아둠으로써 농축시켰다. 액체를 제거하고 폐기하였다. 비드를, 160 mM NaCl을 함유하는 1X 결합/세척 완충액 100-250 μl로 재현탁시키고, 실온에서 5분 동안 회전 혼합기 상에서 혼합하였다. 비드를 2회 이상 동안 상기 언급된 바와 같이 농축, 세척 및 재현탁시켰다. 이어서, 튜브를 1분 동안 자기 랙 위에 올려 놓고, 액체를 조심스럽게 제거하고 폐기하였다. 비드를 사용된 스트렙타비딘 비드 1 μl 당 10 μl의 1X DNA 포획 완충액 (300 mM NaCl을 함유함)으로 재현탁시켰다.
단편화되고 메틸화된 DNA를 MBD-비드 상에 포획한다
MBD-비드를 단편화된 DNA와 함께 인큐베이션한다
일반적으로, 투입 DNA는 5 ng 내지 1 μg의 범위일 수 있다. 대조군 반응은 전형적으로, 1 μg의 K-562 DNA를 사용한다. 깨끗한 1.7-ml DNase-무함유 미세 원심분리용 튜브 또는 PCR 튜브에, 예를 들어, 5 ng 내지 1 μg의 단편화된 샘플 DNA를, 동일 용적의 2xDNA 포획 완충액 (300 mM NaCl을 함유함)과 함께 부가하고, 1x DNA 포획 완충액으로 최종 용적이 100 또는 200 μl가 되게 하였다. DNA/완충액 혼합물을, MBD-비드를 함유하는 튜브에 옮기고, 실온에서 1시간 동안 회전 혼합기 상에서 혼합하였다. 또 다른 한편으론, 혼합물을 4℃에서 밤새 혼합할 수 있다.
비드 용액으로부터 비-포획된 DNA를 수집한다
비-포획된/비-메틸화된 DNA를 DNA와 MBD-비드 혼합물로부터 수집하였다. 간략하게 언급하면, DNA와 MBD-비드의 혼합물을 함유하는 튜브를 1분 동안 자기 랙 위에 놓아 두어 모든 비드를 농축시키고, 상청액을 제거하고 이를 깨끗한 DNase-무함유 미세 원심분리용 튜브에 모은다. 이와 같이 모은 상청액은 비-포획된 DNA 상청액/비-메틸화된 DNA 분획이고, 얼음 위에 저장할 수 있다. 비드를 3분 동안 회전 혼합기 상에서 300 mM NaCl을 함유하는 1X DNA 포획 완충액 200 μl로 세척하였다. 비드를 상기 언급된 바와 같이 농축시키고, 비-포획된/비-메틸화된/과소메틸화된 DNA를 함유하는 상청액을 제거하고 이를 모으며, 상기 언급된 바와 같이 얼음 위에 저장하였다. 비드를 세척하고, 혼합하며, 상청액을 제거하면서 농축시키고, 2개의 세척 분획을 수집하기 위해 한번 더 모았다. 각각의 세척 분획을 얼음 위에 저장하였다. 세척 분획을 함께 풀링하고, 이에 따라 표지할 수 있다.
포획된 DNA를 용출시킨다
상기와 같이 포획된 DNA를, 2000 mM NaCl을 함유하는 용출 완충액을 사용하여 용출시켰다. 비드를 200 μl의 용출 완충액 (2000 mM NaCl)에 재현탁시켰다. 비드를 3분 동안 회전 혼합기 상에서 인큐베이션하고, 이를 1분 동안 자기 랙 위에 놓아 두어 모든 비드를 농축시켰고, 포획된/과다메틸화된 DNA를 함유하는 액체를 제거하고, 이를 깨끗한 DNase-무함유 미세 원심분리용 튜브에 모았다. 이와 같이 모은 제1 분획을 얼음 위에 저장하였다. 비드를 재현탁시키고 한번 더 인큐베이션하였고, 포획된/메틸화된 DNA를 함유하는 액체를 제거하고, 이를 제2의 깨끗한 튜브에 모았다. 포획된/과다메틸화된 DNA의 제1 및 제2 컬렉션을 풀링하고 얼음 위에 저장하였다. 또 다른 한편으론, 증가하는 NaCl 농도를 갖는 다중 용출을 수행하여, DNA 메틸화가 증가함에 따라 DNA를 분획으로 추가 분할할 수 있다.
분석을 위한 메틸화 분획화된 DNA의 제조
분할된 cfDNA, 과다메틸화된, 중간 메틸화된 및 비-메틸화된 DNA를, 예를 들어, SPRI 비드 클린업 (앰퓨어 XP, 베크만 쿨터)에 의해 정제하고, 연속해서 라이게이션을 위해 준비한 다음 (NEBNext® 울트라™ 말단 복구/dA-테일링 모듈을 사용한다), 문헌 [Lanman et al., 2015]에 기재된 바와 같이 비-무작위 분자 바코드를 함유하는 변형된 Y자 형 dsDNA 어댑터와 라이게이션하였다. 과다메틸화된, 중간 메틸화된 및 과소메틸화된 cfDNA 파티션을 11, 12, 및 12개의 별개의 비-무작위 분자 바코드된 어댑터와 각각 라이게이션하였다. 각각의 샘플에 대하여 라이게이션되고 분할된 cfDNA 분자를 SPRI 비드 (앰퓨어 XP)로 다시 정제한 다음, 모든 어댑터 라이게이션된 분자 (NEBNext 울트라 II™ Q5 마스터 혼합물)에 보편적인 올리고와의 PCR 반응물로 재조합하여, 하나의 샘플로부터의 모든 cfDNA 분자를 함께 증폭시켰다. 증폭된 DNA 라이브러리를, 혼성체 포획 [애질런트 슈어셀렉트(Agilent SureSelect) 30 kb 패널; '패널']에 의한 표적 풍부화에 대비하여 SPRI 비드 (앰퓨어 XP)를 사용하여 다시 정제하였다.
분석을 위한 비-분할된 DNA의 제조
파워풀 cfDNA (10 또는 150 ng)를 라이게이션을 위해 준비한 다음 (NEBNext® 울트라™ 말단 복구/dA-테일링 모듈을 사용한다), 문헌 [Lanman et al., 2015]에 기재된 바와 같이 비-무작위 분자 바코드를 함유하는 변형된 Y자 형 dsDNA 어댑터와 라이게이션하였다. 상기 cfDNA를 35개의 별개의 비-무작위 분자 바코드된 어댑터와 라이게이션하였다. 각각의 샘플에 대하여 라이게이션된 cfDNA 분자를 SPRI 비드 (앰퓨어 XP)로 다시 정제한 다음, 모든 어댑터 라이게이션된 분자 (NEBNext 울트라 II™ Q5 마스터 혼합물)에 보편적인 올리고와의 PCR 반응물 내에 놓아두어, 하나의 샘플로부터의 모든 cfDNA 분자를 함께 증폭시켰다. 증폭된 DNA 라이브러리를, 혼성체 포획 (애질런트 슈어셀렉트 30 kb 패널; '패널')에 의한 표적 풍부화에 대비하여 SPRI 비드 (앰퓨어 XP)를 사용하여 다시 정제하였다.
본 개시내용은 상이한 형태 (예를 들어, RNA 및 DNA, 단일 가닥 또는 이중 가닥) 및/또는 변형 정도 (예를 들어, 시토신 메틸화, 단백질과의 연합)를 함유하는 핵산 집단을 프로세싱하는 방법을 제공한다. 이들 방법은 샘플 내의 핵산의 다수의 형태 및/또는 변형을 수용하여, 서열 정보가 다수의 형태에 대하여 수득될 수 있도록 한다. 상기 방법은 또한, 프로세싱 및 분석을 통해 다수의 형태 또는 변형된 상태의 실체를 보존하여, 서열의 분석이 후성적 분석과 조합될 수 있도록 한다.
데이터 분석
상이한 샘플로부터의 DNA 라이브러리를 풀링하고, 일루미나 HiSeq2500, 2x150 쌍을 이룬 말단 시퀀싱 상에서 서열 분석하였다. 문헌 [Lanman et al., 2015] 및 다른 곳에 기재된 바와 같은 표준 GUARDANT360™ 프로토콜에 따라 생물 정보학 프로세싱을 수행하였다. MBD-분할된 샘플에 대하여, 부가적으로 분자 바코드를 사용하여, 그 DNA가 분획화된 (과다메틸화된, 중간 메틸화된, 및 과소메틸화된) MBD-파티션을 확인하였다. 패널에 의해 표적화된 각각의 게놈 유전자 자리에서, 과다메틸화된, 중간 메틸화된 및 과소메틸화된 것으로 정렬된 분자를 합계하였다. 과다메틸화된 %는 소정의 유전자 자리에서 과다메틸화되는 유전자 자리 전역에 걸쳐 있는 전체 분자의 분획으로서 정의되었다. 표적화된 영역에서, MBD 분할된 DNA 샘플과 비-분할된 DNA 샘플 둘 다에 대하여, 참조 게놈으로부터의 돌연변이체 대립 유전자 분획 (MAF)이 독점적 가던트 헬스 변이체 호출 소프트웨어를 사용하여 호출되었다.
실시예 18: 표적화된 시퀀싱 검정에서 MBD 샘플 및 비-MBD 샘플에 대한 적용 범위 간의 비교
본 실시예에서는, 샘플을 실시예 17에 기재된 바와 같이 프로세싱하였다. cfDNA의 상이한 임상 샘플 (파워풀V1 및 파워풀V2)을, MBD-분할, 'MBD' 및 '비-MBD'을 수반한 경우 및 수반하지 않은 경우에 표적화된 시퀀싱 검정에서 각각 삼중으로 검정하였다. 패널로부터의 유전자에 대한 각각의 표적화된 게놈 위치에서 서열 분석된 독특한 분자를 15 ng (도 25A) 및 150 ng (도 25B) 검정 투입에서 파워풀V1에 대하여 MBD 및 비-MBD에서 비교하였다. 패널은 약 30 kb 게놈 영역을 커버하는 맞춤형 유전자 패널이다. 패널은 또한, 상이한 암, 예컨대 폐암, 결장직장암 등을 검출하는 데 더 높은 감도를 가지고 있다. 도 25A 및 도 25B는 표적화된 시퀀싱 검정에서 분자의 고 효율 회복이 MBD-분할의 적용으로 유지되었다는 것을 보여준다. 분자는 MBD-분할을 수반하면서 실행되거나 (Y-축) 또는 수반하지 않으면서 실행되는, 파워풀V1 (a) 15 ng 및 (b) 150 ng 투입의 표적화된 시퀀싱 검정으로부터 계수된다. 선형 상관 관계가 MBD 대 비-MBD 분자 카운트 또는 적용 범위 간에 관찰되며, 이는 MBD 분할이 상기 검정의 회복을 편향시키지 않는다는 것을 표시한다.
상기 패널로부터의 유전자에 대한 분자 카운트 또는 적용 범위를 비-MBD 샘플과 MBD 샘플 간에 비교하였다. MBD 및 비-MBD 샘플은 2개의 임상 샘플 (도 26A - 파워풀V1 및 도 26B - 파워풀V2)로부터 추출된 15 ng 투입 cfDNA를 사용하거나 또는 2개의 임상 샘플 (도 27A - 파워풀V1; 도 27B - 파워풀V2)로부터 추출된 150 ng 투입 cfDNA를 사용하여 준비하였다. 좌측 그래프의 X-축은 분자 카운트 또는 적용 범위를 나타내며, 가운데 그래프의 X-축은 둘 다 쌍을 이룬 말단 판독물로 확증된 돌연변이체를 나타내고 (이중 가닥 중복; DSO), 우측 그래프의 X-축은 그에 대한 양 DNA 가닥을 서열 분석한 분자 카운트를 나타낸다 (이중 가닥 지원; DS). 분자 카운트, DSO 및 DS에 대한 MBD 샘플과 비-MBD 샘플 간의 강력한 상관 관계는 MBD 샘플이 비-MBD와 비교 시 대부분의 분자를 포획할 수 있다는 것 (도 26A에서와 같이 약 94%, 도 26B 및 도 27A에서와 같이 약 80-85% 및 도 27B에서와 같이 약 90%)을 보여준다. 분자 적용 범위에서의 위치적 편향이 없을 뿐만 아니라 패널 전체에 걸친 다른 중요한 변이체 호출 메트릭스 (DSO, DS)도 없었다.
실시예 19: MBD 및 비-MBD 샘플에서 변이체 검출의 감도 및 특이성
본 실시예에서는, 샘플을 실시예 17에 기재된 바와 같이 프로세싱하였다. 감도와 특이성에 대한 변이체 또는 돌연변이 검출에 미치는 영향을 측정하기 위해, MBD (Y-축) 샘플과 비-MBD (X-축) 샘플 간의 돌연변이체 대립 유전자 분획 (MAF)을 15 ng 투입 cfDNA를 사용하여 패널 내의 유전자에 대하여 비교하였다. 상이한 MAF 범위, 예를 들어, 0-100% (도 28A), 0-5% (도 28B) 및 0-0.5% (도 28C)가 X-축 상에 플롯된다. MAF 값은 MBD 및 비-MBD로부터의 삼중 샘플로부터의 것이다. MBD 샘플에 대해 결정된 MAF는 비-MBD 샘플에 대해 결정된 MAF와 일치했다. MBD와 비-MBD 간의 MAF는 15 ng 투입 (도 28A; 0-100%)과 검출 하한치 (도 28B; 0-5%)에서 파워풀V1에 대해 선형 상관 관계를 보였다. MBD와 비-MBD 간의 MAF는 검출 한계 이하로 상관 관계가 없었다 (도 28C; 0-0.5% MAF). 유사하게, MBD 및 비-MBD 샘플은 파워풀V1로부터의 150 ng cfDNA 투입 (도 29A 및 도 29B)과 MAF 상의 일치를 보여 주었지만, 0-0.5% 범위에서 강한 일치는 없었다 (도 29C).
실시예 20: 전체 게놈 시퀀싱을 이용한 프로모터 영역의 메틸화 프로파일링
분자 분할된 샘플은 게놈 아키텍처의 분석, 예컨대 무세포 DNA 단편 점유율 및 암의 검출을 증강시킬 수 있다. 예를 들어, 전사 관련된 과다메틸화 이벤트는 메틸화 구동된 유전자 침묵을 통해 암에 의해 통상적으로 표적화되는 종양 억제 유전자의 프로모터 영역을 분석할 때 무세포 DNA 단편 점유율을 고려함으로써 검출될 수 있다. 암 샘플에서 전사 관련된 과다메틸화 이벤트 및 유전자 침묵을 MBD 구동 발견할 수 있는 타당성을 검증하기 위해 상이한 MBD 파티션 내에서의 무세포 DNA 단편 점유율 시그널 및 과다메틸화된 분획을 공동으로 조사할 수 있다.
예시적인 예로서, 공개적으로 이용 가능한 진코드(gencode) (v26lift37) 데이터를 사용하여 비-악성의 건강한 성인의 이용 가능한 코호트 내의 모든 진코드 유전자의 TSS 영역에서 과다메틸화된 백분율 (과다메틸화된 파티션 내의 단편의 수/모든 MBD 파티션 내의 단편의 총 수)을 생산할 수 있다. 무세포 DNA 단편 점유율 시그널은 비-악성의 건강한 성인의 코호트 전체에 걸쳐 응집될 수 있다. 모든 TSS는 MBD 분할 검정에서 관찰된 과다메틸화된 분획의 백분율에 근거하여 분류될 수 있다. 각각의 빈에서의 비-MBD WSG 코호트의 단편 점유율을 조사할 수 있다. 도 23은 유전자 발현과 메틸화 상태의 상관 관계를 도시한다. 프로모터 프로파일에서의 WGS 점유율 대 MBD 메틸화 백분율이 제시된다. 도 23에서 볼 수 있듯이, 과소메틸화된 DNA (0-0.1% hyper)는 TSS 부근에서 낮은 단편 점유율 적용 범위를 보인 반면, 과다메틸화된 DNA (10-50% hyper 또는 > 50% hyper)는 TSS 부근에서 높은 단편 점유율 적용 범위 및 별개의 NDR을 보인다. 일부 경우에, 과소메틸화된 DNA의 단편 점유율 적용 범위는 서열 깊이 및/또는 서열의 맵핑 가능성을 정규화하기 위해 사용된다. 과다메틸화되거나 또는 과소메틸화된 핵산 단편의 백분율은 과다메틸화되거나 또는 과소메틸화된 무세포 단편의 수를 모든 파티션 전체에 걸쳐 관찰된 무세포 DNA 단편의 총 수로 나눔으로써 결정될 수 있다.
실시예 21: MBD 샘플 내에서의 메틸화 수준과 전체 게놈 중아황산염 시퀀싱 (WGBS) 샘플 내에서의 메틸화 수준 간의 비교
MBD 프로토콜을 사용함으로써 제조된 다양한 파티션 내의 단편의 메틸화 수준을 평가하기 위해, 충분히 규명된 샘플인 NA12878 (catalog.coriell.org/0/Sections/Search/Sample_Detail.aspx?Ref=GM12878)을 사용하였다. 상기 샘플을 과다메틸화된, 과소메틸화된 및 중간 메틸화된 부분으로 분할한 다음, 실시예 1에 기재된 바와 같이 파티션을 인 실리코 재조합하였다 (MBD 샘플). MBD 샘플을, 전체 게놈 중아황산염 시퀀싱 (WGBS)을 활용하는 공개적으로 이용 가능한 표준 메틸화 데이터 세트 (basespace.illumina.com/datacentral (HiSeq 4000: TruSeq DNA 메틸화 (NA12878, 1x151)와 비교하였다. WGBS는 개별 시토신의 메틸화 상태를 조사한다. 도 31은 160 bp 윈도우에서 WGBS (X-축) 및 MBD (Y-축)에 의해 측정된 바와 같은 평균 메틸화 수준의 상관 관계를 도시한다. MBD 메틸화 수준은 그 윈도우에 속하는 과다메틸화된 파티션 내의 판독물 수를 과다메틸화된 및 과소메틸화된 파티션 내의 판독물 총 수로 나눔으로써 계산되었다. WGBS 메틸화 수준은 메틸화된 염기의 수를 윈도우 내의 메틸화된 염기 및 비-메틸화된 염기의 수로 나눔으로써 계산되었다. 이러한 실험은 메틸화된 단편의 분할에 영향을 미치는 몇 가지 상이한 비드 비율에 걸쳐 실행되었다. 비드가 더 적을수록 과다메틸화된 파티션을 고도로 메틸화된 단편으로 제한하고 (즉, 본 검정은 메틸화에 보다 특이적이 된다), 비드가 더 많을수록 단편을 과다메틸화된 파티션으로 만드는 데 필요한 메틸화의 양이 감소한다 (즉, 본 검정은 메틸화에 보다 감수성이 된다). 경험적으로, 1:50의 투입 DNA:비드 비율은 분할된 단편과 그들의 메틸화 수준 간에 상관 관계가 있다는 것을 밝혀내었다. 이러한 결과는 MBD 분할이 샘플의 근원적인 메틸화 상태를 정확하게 반영한다는 것을 표시한다.
이러한 분석에서는, 특정 단편 내의 CG 부위의 수가 그러한 단편의 분할에 미치는 효과를 결정하였다. 고도로 과다메틸화되거나 또는 과소메틸화된 것 (이전의 분석에서 계산된 바와 같은 전체 게놈 중아황산염 시퀀싱 메틸화 수준 >90% 또는 <10%)을 표시하는 표준 메틸화 데이터 세트 (NA 12878; 이전의 분석에서와 동일함)로 공개적으로 이용 가능한 단편이 분석을 위해 선택되었다. 이들 단편은 이들이 함유한 CG 부위의 수에 의해 계층화되었다. 3개 이상의 CG 부위를 갖는 고도로 메틸화된 단편은 과다메틸화된 파티션에서 끝나는데, 이는 본 검정이 소량의 메틸화에 대해 감수성이라는 것을 표시한다 (도 31A). 반대로, 메틸화가 없는 단편은 단편 내의 CG 부위의 수에 상관 없이 주로 과소메틸화된 파티션으로 분할되었는데, 이는 본 검정이 고도의 특이성을 지니고 있다는 것을 표시한다 (도 31B).
본 개시내용의 바람직한 실시양태가 본원에 제시되고 기재되었지만, 관련 기술분야의 통상의 기술자에게는 그러한 실시양태가 단지 예로서 제공된다는 것이 명백할 것이다. 본 개시내용을 벗어나지 않으면서 수많은 변이, 변화 및 대체가 관련 기술분야의 통상의 기술자에게는 가능할 것이다. 본원에 기재된 본 개시내용의 실시양태에 대한 다양한 대안이 본 개시내용을 실시하는 데 이용될 수 있다는 것을 이해해야 한다. 하기의 청구범위는 본 개시내용의 범위를 정의하고, 이들 청구범위의 범위 내에 있는 방법 및 구조 및 그의 등가물이 그로써 커버되는 것으로 의도된다.
본 발명의 일부 실시양태.
특허 청구범위 포맷으로 제공된 본 발명의 일부 실시양태가 하기에 제공된다.
1. 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하는 방법이며, 여기서 이러한 적어도 2가지 형태 각각은 복수 개의 분자를 포함하고,
(a) 상기 핵산 형태 중 적어도 하나를 적어도 하나의 태그 핵산과 연결시켜 이들 형태를 서로 구별하는 단계;
(b) 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시키는 단계이며, 여기서 이러한 핵산 및 연결된 핵산 태그는 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 단계;
(c) 그 중 적어도 일부가 태그부착되는 상기 증폭된 핵산의 서열 데이터를 검정하는 단계이며, 여기서 검정은 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하기에 충분한 서열 정보를 수득하는 것인 단계
를 포함하는 방법.
1A. 제1항에 있어서, 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하는 단계를 추가로 포함하는 방법.
2. 제1항에 있어서, 하나 이상의 다른 형태와 비교하여 상기 형태 중 적어도 하나를 풍부화시키는 단계를 추가로 포함하는 방법.
3. 제1항에 있어서, 상기 집단 내의 각각의 형태의 핵산의 분자의 적어도 70%가 단계 (b)에서 증폭되는 것인 방법.
4. 제1항에 있어서, 적어도 3가지 형태의 핵산이 상기 집단 내에 존재하고, 이러한 형태 중 적어도 2가지가 상이한 태그 핵산 형태와 연결되어, 3가지 형태 각각이 서로 구별되는 것인 방법.
5. 제4항에 있어서, 집단 내의 적어도 3가지 형태의 핵산 각각이 상이한 태그와 연결되는 것인 방법.
6. 제1항에 있어서, 동일한 형태의 각각의 분자가, 동일한 식별 정보 태그를 포함하는 태그와 연결되는 것인 방법.
7. 제1항에 있어서, 동일한 형태의 분자가 상이한 유형의 태그와 연결되는 것인 방법.
8. 제1항에 있어서, 단계 (a)가 상기 집단을 태그부착된 프라이머로 역전사시키는 것을 포함하며, 여기서 태그부착된 프라이머가 상기 집단 내의 RNA로부터 생성된 cDNA 내로 혼입되는 것인 방법.
9. 제8항에 있어서, 역전사가 서열 특이적인 것인 방법.
10. 제8항에 있어서, 역전사가 무작위인 것인 방법.
11. 제8항에 있어서, cDNA와 듀플렉스화된 RNA를 분해하는 것을 추가로 포함하는 방법.
12. 제4항에 있어서, 단일 가닥 DNA를 이중 가닥 DNA로부터 분리하고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함하는 방법.
13. 제12항에 있어서, 단일 가닥 DNA가, 하나 이상의 포획 프로브와 혼성화함으로써 분리되는 것인 방법.
14. 제4항에 있어서, 단일 가닥 DNA를 서클라이가제로 환상화시키고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함하는 방법.
15. 제1항에 있어서, 검정하기 전에, 상이한 형태의 핵산을 포함하는 태그부착된 핵산을 풀링하는 것을 포함하는 방법.
16. 제1항 내지 제15항 중 어느 한 항에 있어서, 핵산 집단이 체액 샘플로부터의 것인 방법.
17. 제16항에 있어서, 체액 샘플이 혈액, 혈청, 또는 혈장인 방법.
18. 제1항에 있어서, 핵산 집단이 무세포 핵산 집단인 방법.
19. 제17항에 있어서, 체액 샘플이 암이 있는 것으로 의심되는 대상체로부터의 것인 방법.
20. 제1항 내지 제19항 중 어느 한 항에 있어서, 서열 데이터가 체세포 또는 배선 변이체의 존재를 표시하는 것인 방법.
21. 제1항 내지 제20항 중 어느 한 항에 있어서, 서열 데이터가 카피 수 변이의 존재를 표시하는 것인 방법.
22. 제1항 내지 제21항 중 어느 한 항에 있어서, 서열 데이터가 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시하는 것인 방법.
23. 핵산 집단을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계;
상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 상기 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 상기 변형에 대해 과소표현되는 것인 단계;
제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시켜, 태그부착된 핵산의 집단을 생산하는 단계;
이와 같이 표지된 핵산을 증폭시키는 단계이며, 여기서 상기 핵산 및 연결된 태그가 증폭되는 것인 단계;
상기 증폭된 핵산 및 연결된 태그의 서열 데이터를 검정하는 단계이며, 여기서 검정은 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하기 위한 서열 데이터를 수득하는 것인 단계
를 포함하는, 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법.
23A. 제23항에 있어서, 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하는 단계를 포함하는 방법.
24. 제23항에 있어서, 변형이 단백질에 대한 핵산의 결합인 것인 방법.
25. 제23항에 있어서, 단백질이 히스톤 또는 전사 인자인 방법.
26. 제23항에 있어서, 변형이 뉴클레오티드에 대한 복제 후 변형인 방법.
27. 제26항에 있어서, 복제 후 변형이 5-메틸-시토신이고, 핵산에 대한 상기 작용제의 결합 정도가 핵산 내의 5-메틸-시토신의 정도에 따라 증가되는 것인 방법.
28. 제26항에 있어서, 복제 후 변형이 5-히드록시메틸-시토신이고, 핵산에 대한 상기 작용제의 결합 정도가 핵산 내의 5-히드록시메틸-시토신의 정도에 따라 증가되는 것인 방법.
29. 제26항에 있어서, 복제 후 변형이 5-포르밀-시토신 또는 5-카르복실-시토신이고, 상기 작용제의 결합 정도가 핵산 내의 5-포르밀-시토신 또는 5-카르복실-시토신의 정도에 따라 증가되는 것인 방법.
30. 제23항에 있어서, 상기 작용제와 결합된 핵산을 세척하고, 세척물을, 제1 및 제2 풀과 비교하여 중간 정도로 복제 후 변형을 수반하는 핵산을 포함하는 제3 풀로서 수집하는 것을 추가로 포함하는 방법.
31. 제23항에 있어서, 검정하기 전에, 제1 및 제2 풀로부터 태그부착된 핵산을 풀링하는 것을 포함하는 방법.
32. 제23항에 있어서, 상기 작용제가 5-메틸-결합 도메인 자기 비드인 방법.
33. 제23항 내지 제32항 중 어느 한 항에 있어서, 핵산 집단이 체액 샘플로부터의 것인 방법.
34. 제33항에 있어서, 체액 샘플이 혈액, 혈청, 또는 혈장인 방법.
35. 제23항에 있어서, 핵산 집단이 무세포 핵산 집단인 방법.
36. 제33항에 있어서, 체액 샘플이 암이 있는 것으로 의심되는 대상체로부터의 것인 방법.
37. 제23항 내지 제36항 중 어느 한 항에 있어서, 서열 데이터가 체세포 또는 배선 변이체의 존재를 표시하는 것인 방법.
38. 제23항 내지 제37항 중 어느 한 항에 있어서, 서열 데이터가 카피 수 변이의 존재를 표시하는 것인 방법.
39. 제23항 내지 제38항 중 어느 한 항에 있어서, 서열 데이터가 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시하는 것인 방법.
40. 포획 모이어티를 집단 내의 핵산과 연결시켜, 핵산을 증폭을 위한 주형으로서 제공하는 단계;
증폭 반응을 수행하여 상기 주형으로부터 증폭 산물을 생산하는 단계;
포획 태그와 연결된 주형을 증폭 산물로부터 분리시키는 단계;
포획 태그와 연결된 주형의 서열 데이터를 중아황산염 시퀀싱에 의해 검정하는 단계; 및
증폭 산물의 서열 데이터를 검정하는 단계
를 포함하는, 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기를 포함하는 핵산 집단을 분석하는 방법.
41. 제40항에 있어서, 포획 모이어티가 비오틴을 포함하는 것인 방법.
42. 제41항에 있어서, 분리 단계가 상기 주형을 스트렙타비딘 비드와 접촉시킴으로써 수행되는 것인 방법.
43. 제40항에 있어서, 변형된 시토신 잔기가 5-메틸시토신, 5-히드록시메틸 시토신, 5-포르밀 시토신 또는 5-카르복실 시토신인 것인 방법.
44. 제40항에 있어서, 포획 모이어티가, 하나 이상의 변형된 잔기를 포함한 핵산 태그와 연결된 비오틴을 포함하는 것인 방법.
45. 제40항에 있어서, 포획 모이어티가, 절단 가능한 연결을 통해 집단 내의 핵산과 연결되는 것인 방법.
46. 제45항에 있어서, 절단 가능한 연결이 광 절단 가능한 연결인 것인 방법.
47. 제45항에 있어서, 절단 가능한 연결이 우라실 뉴클레오티드를 포함하는 것인 방법.
48. 제40항 내지 제47항 중 어느 한 항에 있어서, 핵산 집단이 체액 샘플로부터의 것인 방법.
49. 제48항에 있어서, 체액 샘플이 혈액, 혈청, 또는 혈장인 방법.
50. 제40항에 있어서, 핵산 집단이 무세포 핵산 집단인 방법.
51. 제48항에 있어서, 체액 샘플이 암이 있는 것으로 의심되는 대상체로부터의 것인 방법.
52. 제40항 내지 제51항 중 어느 한 항에 있어서, 서열 데이터가 체세포 또는 배선 변이체의 존재를 표시하는 것인 방법.
53. 제40항 내지 제52항 중 어느 한 항에 있어서, 서열 데이터가 카피 수 변이의 존재를 표시하는 것인 방법.
54. 제40항 내지 제53항 중 어느 한 항에 있어서, 서열 데이터가 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시하는 것인 방법.
55. (a) 핵산 집단을, 5-메틸화된 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계;
(b) 상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 5-메틸화에 대해 과다표현되고, 제2 풀 내의 핵산이 5-메틸화에 대해 과소표현되는 것인 단계;
(c) 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시키는 단계이며, 여기서 제1 풀 내의 핵산과 연결된 핵산 태그가 포획 모이어티 (예를 들어, 비오틴)를 포함하는 것인 단계;
(d) 상기 표지된 핵산을 증폭시키는 단계이며, 여기서 핵산 및 상기 연결된 태그가 증폭되는 것인 단계;
(e) 포획 모이어티를 보유하는 증폭된 핵산을, 포획 모이어티를 보유하지 않은 증폭된 핵산으로부터 분리시키는 단계; 및
(f) 이와 같이 분리되고 증폭된 핵산의 서열 데이터를 검정하는 단계
를 포함하는, 상이한 정도의 5-메틸화를 수반한 핵산을 포함하는 핵산 집단을 분석하는 방법.
56. 집단 내의 핵산을 어댑터와 접촉시켜, 프라이머 결합 부위를 포함하는 어댑터에 의해 플랭킹된 핵산의 집단을 생산하는 단계;
프라이머 결합 부위로부터 프라이밍된 어댑터에 의해 플랭킹된 핵산을 증폭시키는 단계;
이와 같이 증폭된 핵산을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계;
상기 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 상기 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 상기 변형에 대해 과소표현되는 것인 단계;
제1 및 제2 풀 내의 태그부착된 핵산의 병렬 증폭을 수행하는 단계; 및
제1 및 제2 풀 내의 상기 증폭된 핵산의 서열 데이터를 검정하는 단계
를 포함하는, 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법.
57. 핵산 집단을, 변형된 시토신을 포함하는 프라이머 결합 부위를 포함하는 어댑터와 접촉시켜, 어댑터에 의해 플랭킹된 핵산을 형성하는 단계;
핵산을 플랭킹하는 어댑터 내의 프라이머 결합 부위로부터 프라이밍된 어댑터에 의해 플랭킹된 핵산을 증폭시키는 단계;
이와 같이 증폭된 핵산을 제1 및 제2 분취액으로 분할하는 단계;
제1 분취액의 핵산 상의 서열 데이터를 검정하는 단계;
제2 분취액의 핵산을, 변형되지 않은 C를 U로 전환시켜 주는 중아황산염과 접촉시키는 단계;
상기 핵산을 플랭킹하는 프라이머 결합 부위로부터 프라이밍된 중아황산염 처리로부터 생성된 핵산을 증폭시키는 단계이며, 여기서 중아황산염 처리에 의해 도입된 U가 T로 전환되는 것인 단계;
제2 분취액으로부터 증폭된 핵산 상의 서열 데이터를 검정하는 단계;
제1 분취액 내의 핵산의 서열 데이터와 제2 분취액 내의 핵산의 서열 데이터를 비교하여, 핵산 집단 내의 어떤 뉴클레오티드가 변형된 시토신이었는지를 확인하는 단계
를 포함하는, 핵산의 적어도 일부가 하나 이상의 변형된 시토신 잔기를 포함하는 핵산 집단을 분석하는 방법.
58. 제56항 또는 제57항에 있어서, 어댑터가 헤어핀 어댑터인 것인 방법.
59. (a) 인간 샘플로부터 DNA 분자를 물리적으로 분획화하여 2개 이상의 파티션을 생성하는 단계;
(b) 차별적 분자 태그 및 NGS 가능 어댑터를 상기 2개 이상의 파티션 각각에 적용하여 분자 태그부착된 파티션을 생성하는 단계;
(c) 차별적으로 분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 생성하기 위해 NGS 기기 상의 분자 태그부착된 파티션을 검정하는 단계
를 포함하는 방법.
60. 제59항에 있어서, 차별적으로 분할시킨 분자로 샘플을 디콘볼루션함으로써 서열 데이터를 분석하는 것을 추가로 포함하는 방법.
61. 제59항에 있어서, DNA 분자가, 추출된 혈장으로부터의 것인 방법.
62. 제59항에 있어서, 물리적으로 분획화하는 것이, 다양한 정도의 메틸화에 근거하여 분자를 분획화하는 것을 포함하는 것인 방법.
63. 제61항에 있어서, 다양한 정도의 메틸화가 과다메틸화 및 과소메틸화를 포함하는 것인 방법.
64. 제59항에 있어서, 물리적으로 분획화하는 것이, 다양한 정도의 메틸화로 계층화하기 위한 메틸-결합 도메인 단백질 ("MBD")-비드로 분획화하는 것을 포함하는 것인 방법.
65. 제59항에 있어서, 차별적 분자 태그가 MBD-파티션에 상응하는 상이한 세트의 분자 태그인 것인 방법.
66. 제59항에 있어서, 물리적 분획화가 면역침전을 이용하여 DNA 분자를 분리하는 것을 포함하는 것인 방법.
67. 제59항에 있어서, 상기 생성된 분자 태그부착된 분획의 2개 이상의 분자 태그부착된 분획을 재조합하는 것을 추가로 포함하는 방법.
68. 제66항에 있어서, 재조합된 분자 태그부착된 분획 또는 군을 풍부화시키는 것을 추가로 포함하는 방법.
69. (a) 추출된 DNA 샘플을, 메틸-결합 도메인 단백질-비드 정제 키트를 사용하여 물리적 분획화하여, 하류 프로세싱을 위해 모든 용출액을 모으는 단계;
(b) 차별적 분자 태그 및 NGS 가능 어댑터 서열을 각각의 분획 또는 군에 병렬 적용하는 단계;
(c) 모든 분자 태그부착된 분획 또는 군을 재조합하고, 어댑터-특이적 DNA 프라이머 서열을 사용하여 후속 증폭시키는 단계;
(d) 재조합되고 증폭된 전체 라이브러리를 풍부화/혼성화하여, 관심 게놈 영역을 표적화하는 단계;
(e) 상기 풍부화된 전체 DNA 라이브러리를 재증폭하여, 샘플 태그를 첨부하는 단계; 및
(f) 상이한 샘플을 풀링하고, NGS 기기 상의 멀티플렉스에서 검정하는 단계이며, 여기서 상기 기기에 의해 생산된 NGS 서열 데이터가, 독특한 분자를 확인하기 위해 사용되는 분자 태그의 서열과, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 제공하는 것인 단계
를 포함하는, NGS를 통하여 MBD-비드 분획화된 라이브러리의 분자 태그 식별을 위한 방법.
69A. 제69항에 있어서, 독특한 분자를 확인하는 데 사용되는 분자 태그와 함께, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하는 것을 이용하여 NGS 데이터의 분석을 수행하는 것을 포함하는 방법.
70. (a) 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계;
(b) 하나 이상의 특징에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계;
(c) 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계;
(d) 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계; 핵산 분자의 복수 개의 군 각각에 대한 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 결합 DNA-단백질 상호 작용에 관한 상대적 정보를 생성하기에 충분한 데이터를 함유하는 단계
를 포함하는 방법.
70A. 제70항에 있어서, 핵산 분자의 복수 개의 군 각각에 대한 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 결합 DNA-단백질 상호 작용에 관한 상대적 정보를 생성하기 위해 서열 판독물을 분석하는 것을 추가로 포함하는 방법.
71. (a) 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계;
(b) 메틸화 상태에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계;
(c) 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계;
(d) 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계이며, 여기서 시퀀싱 판독물은 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기에 충분하고, 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 단계
를 포함하는 방법.
71A. 제71항에 있어서, 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 서열 판독물을 분석하는 것을 포함하며, 여기서 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 방법.
72. 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계;
(a) 핵산 분자의 집단을 분획화하여, 단백질 결합된 무세포 핵산을 포함하는 핵산 분자의 복수 개의 군을 생성하는 단계;
(b) 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계;
(c) 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계이며, 여기서 수득된 서열 정보가 참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하기에 충분하고; 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하기에 충분하고, 여기서 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 단계
를 포함하는 방법.
72A. 제72항에 있어서, 참조 서열 상의 하나 이상의 유전자 자리에 서열 판독물을 맵핑하는 것; 및 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하는 것을 추가로 포함하며, 여기서 하나 이상의 특징이 뉴클레오솜 위치 설정, 뉴클레오솜 변형, 또는 DNA-단백질 상호 작용을 표시하는 것인 방법.
73. 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계;
(a) 하나 이상의 특징에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계;
(b) 이러한 복수 개의 군 내의 핵산 분자를 차별적으로 태그부착하여, 하나 이상의 특징에 근거하여 복수 개의 군 각각에서의 핵산 분자를 서로 구별하는 단계;
(c) 핵산 분자의 복수 개의 군을 시퀀싱하여, 서열 판독물을 생성하는 단계이며, 여기서 수득된 서열 정보가
참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하기에 충분하고;
핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하기에 충분하며, 여기서 하나 이상의 특징이 상기 복수 개의 군으로부터의 서열 판독물의 풀에서 검출될 수 없는 것인 단계
를 포함하는 방법.
73A. 제73항에 있어서, 참조 서열 상의 하나 이상의 유전자 자리에 상기 서열 판독물을 맵핑하는 단계; 및 핵산 분자의 복수 개의 군 중 하나에서 하나 이상의 특징을 검출하기 위해 상기 서열 판독물을 분석하는 단계이며, 여기서 하나 이상의 특징이 상기 복수 개의 군으로부터의 서열 판독물의 풀에서 검출될 수 없는 것인 단계를 추가로 포함하는 방법.
74. 제70항 내지 제72항 중 어느 한 항에 있어서, 하나 이상의 특징이, 맵핑된 판독물의 정량적 특징을 포함하는 것인 방법.
75. 제69항 내지 제73항 중 어느 한 항에 있어서, 분획화가 물리적 분획화를 포함하는 것인 방법.
76. 제69항 또는 제72항에 있어서, 핵산 분자의 집단이: 메틸화 상태, 글리코실화 상태, 히스톤 변형, 길이 및 출발/정지 위치로 이루어진 군으로부터 선택된 하나 이상의 특징에 근거하여 분할되는 것인 방법.
77. 제69항 내지 제72항 중 어느 한 항에 있어서, (b)의 핵산 분자를 풀링하는 것을 추가로 포함하는 방법.
78. 제69항 또는 제72항에 있어서, 하나 이상의 특징이 메틸화인 것인 방법.
79. 제77항에 있어서, 분획화가 메틸-결합 도메인을 포함하는 단백질을 사용하여, 메틸화된 핵산을 비-메틸화된 핵산으로부터 분리시켜 다양한 정도의 메틸화를 포함하는 핵산 분자의 군을 생성하는 것을 포함하는 것인 방법.
80. 제78항에 있어서, 상기 군 중 하나가 과다메틸화된 DNA를 포함하는 것인 방법.
81. 제78항에 있어서, 적어도 하나의 군이 메틸화 정도를 특징으로 하는 것인 방법.
82. 제72항에 있어서, 분획화가 단일 가닥 DNA 분자 및/또는 이중 가닥 DNA 분자를 분리하는 것을 포함하는 것인 방법.
83. 제81항에 있어서, 이중 가닥 DNA 분자가 헤어핀 어댑터를 사용하여 분리되는 것인 방법.
84. 제69항 또는 제72항에 있어서, 분획화가 단백질 결합된 핵산을 단리하는 것을 포함하는 것인 방법.
85. 제69항 내지 제72항 중 어느 한 항에 있어서, 분획화가 모노뉴클레오솜 프로파일 상의 차이에 근거하여 분획화하는 것을 포함하는 것인 방법.
86. 제69항 내지 제72항 중 어느 한 항에 있어서, 분획화가, 정상과 비교할 때 핵산 분자의 적어도 하나의 군에 대한 상이한 모노뉴클레오솜 프로파일을 생성할 수 있는 것인 방법.
87. 제85항에 있어서, 단리하는 것이 면역침전을 포함하는 것인 방법.
88. 제69항 내지 제72항 중 어느 한 항에 있어서, 상이한 특징에 근거하여 핵산 분자의 적어도 하나의 군을 분획화하는 것을 추가로 포함하는 방법.
89. 제69항 내지 제72항 중 어느 한 항에 있어서, 분석하는 것이 하나 이상의 유전자 자리에서, 핵산 분자의 제1 군에 상응하는 제1 특징을, 핵산 분자의 제2 군에 상응하는 제2 특징과 비교하는 것을 포함하는 것인 방법.
90. 제70항 내지 제72항 중 어느 한 항에 있어서, 분석하는 것이 하나 이상의 유전자 자리에서 정상 샘플과 비교하여 특정 군에서의 하나 이상의 특징 중 특정 특징을 분석하는 것을 포함하는 것인 방법.
91. 제70항 내지 제72항 중 어느 한 항에 있어서, 하나 이상의 특징이: 참조 서열 상의 염기 위치에서의 염기 호출 빈도, 참조 서열 상의 하나의 염기 또는 서열에 맵핑하는 분자의 수, 참조 서열 상의 염기 위치에 맵핑하는 출발 부위를 갖는 분자의 수, 및 참조 서열 상의 염기 위치에 맵핑하는 정지 부위를 갖는 분자의 수, 및 참조 서열 상의 유전자 자리에 맵핑하는 분자의 길이로 이루어진 군으로부터 선택되는 것인 방법.
92. 제70항 내지 제72항 중 어느 한 항에 있어서, (f) 하나 이상의 특징에 근거하여 대상체를 분류하기 위해 훈련된 분류자를 이용하는 것을 추가로 포함하는 방법.
93. 제91항에 있어서, 훈련된 분류자가 하나 이상의 특징을 대상체 내의 조직과 연관된 것으로서 분류하는 것인 방법.
94. 제91항에 있어서, 훈련된 분류자가 하나 이상의 특징을 대상체 내의 암 유형과 연관된 것으로서 분류하는 것인 방법.
95. 제70항 내지 제72항 중 어느 한 항에 있어서, 하나 이상의 특징이 유전자 발현 또는 질환의 상태를 표시하는 것인 방법.
96. 제69항 내지 제72항 중 어느 한 항에 있어서, 핵산 분자가 순환 종양 DNA인 것인 방법.
97. 제69항 내지 제72항 중 어느 한 항에 있어서, 핵산 분자가 무세포 DNA ("cfDNA")인 것인 방법.
98. 제69항 내지 제71항 중 어느 한 항에 있어서, 하나 이상의 특징이 암 마커인 것인 방법.
99. 제69항 내지 제72항 중 어느 한 항에 있어서, 태그가 동일한 샘플 내의 상이한 분자를 구별하기 위해 사용되는 것인 방법.
100. (a) 대상체의 신체 샘플로부터 수득된 핵산 분자의 집단을 제공하는 단계;
(b) 하나 이상의 특징에 근거하여 핵산 분자의 집단을 분획화하여 핵산 분자의 복수 개의 군을 생성하는 단계이며, 여기서 복수 개의 군 각각의 핵산 분자가 별개의 식별자를 포함하는 것인 단계;
(c) 핵산 분자의 복수 개의 군을 풀링하는 단계;
(d) 이와 같이 풀링된 핵산 분자의 복수 개의 군을 시퀀싱하여 복수 개의 서열 판독물 세트를 생성하는 단계; 및
(e) 상기 식별자에 근거하여 서열 판독물을 분획화하는 단계
를 포함하는 방법.
101. 상이하게 태그부착된 핵산 분자를 포함하는 핵산 분자의 풀을 포함하는 조성물이며, 여기서 이러한 풀이 메틸화 상태, 글리코실화 상태, 히스톤 변형, 길이 및 출발/정지 위치로 이루어진 군으로부터 선택된 하나 이상의 특징에 근거하여 상이하게 태그부착되는 핵산 분자의 복수 개의 세트를 포함하고, 상기 풀이 생물학적 샘플로부터 유래되는 것인 조성물.
102. 제101항에 있어서, 복수 개의 세트가 2, 3, 4, 5개 또는 5개 초과 중 임의의 것인 조성물.
103. (a) 핵산 분자의 집단을 복수 개의 군이 되도록 분획화하는 단계이며, 복수 개의 군이 특정 특징에 의해 상이한 핵산을 포함하는 것인 단계;
(b) 복수 개의 군 각각에서의 핵산을, 이러한 복수 개의 군 각각에서의 핵산을 구별시켜 주는 태그 세트로 태그부착하여, 태그부착된 핵산의 집단을 생산하는 단계이며, 여기서 각각의 태그부착된 핵산이 하나 이상의 태그를 포함하는 것인 단계;
(c) 태그부착된 핵산의 집단을 시퀀싱하여 서열 판독물을 생성하는 단계이며, 여기서 서열 판독물이 각각의 군의 서열 판독물을 나누기 위해 하나 이상의 태그를 사용하는 것을 허용하고, 정상 샘플 또는 분류자와 비교하여 상기 군 중 적어도 하나에서의 시그널을 검출하기 위해 서열 판독물을 분석하는 것을 허용하는 것인 단계
를 포함하는 방법.
103A. 제103항에 있어서, 각각의 군의 서열 판독물을 나누기 위해 하나 이상의 태그를 사용하는 단계; 및
정상 샘플 또는 분류자와 비교하여 상기 군 중 적어도 하나에서의 시그널을 검출하기 위해 서열 판독물을 분석하는 단계
를 추가로 포함하는 방법.
104. 제102항에 있어서, 또 다른 군 또는 전체 게놈 서열에 대항하여 상기 군 중 적어도 하나에서의 시그널을 정규화하는 것을 추가로 포함하는 방법.
105. i. 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계;
ii. 비-암성 세포와 비교해서 암성 세포로부터 유래된 무세포 DNA에 상이한 수준으로 존재하는 특징에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계;
iii. 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 증폭시키는 단계; 및
iv. 이와 같이 증폭된 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱하는 단계
를 포함하는 방법.
106. 제104항에 있어서, 특징이:
i. 무세포 DNA의 메틸화 수준;
ii. 무세포 DNA의 글리코실화 수준;
iii. 무세포 DNA 단편의 길이; 또는
iv. 무세포 DNA 내에서의 단일 가닥 절단물의 존재
인 것인 방법.
107. i. 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계;
ii. 무세포 DNA의 메틸화 수준에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계;
iii. 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 증폭시키는 단계; 및
iv. 이와 같이 증폭된 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱하는 단계
를 포함하는 방법.
108. i. 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계;
ii. 무세포 DNA의 메틸화 수준에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계;
iii. 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱함으로써, 서열 판독물을 생성하는 단계; 및
iv. 상응하는 서열 판독물이 발생하는 하위 집단에 따라서 각각의 무세포 DNA에 메틸화 상태를 배정하는 단계
를 포함하는, 무세포 DNA의 메틸화 상태를 결정하는 방법.
109. i. 대상체로부터의 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계;
ii. 무세포 DNA의 메틸화 수준에 근거하여 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계;
iii. 무세포 DNA의 하위 집단을 시퀀싱함으로써, 서열 판독물을 생성하는 단계; 및
iv. 서열 판독물이 어느 하위 집단에서 발생하는 지에 따라서 대상체를 분류하기 위해 훈련된 분류자를 이용하는 단계
를 포함하는, 대상체를 분류하는 방법.
110. i. 생물학적 샘플로부터 무세포 DNA의 집단을 제공하는 단계;
ii. 무세포 DNA의 집단을 분획화함으로써, 무세포 DNA의 하위 집단을 생성하는 단계;
iii. 이러한 무세포 DNA의 하위 집단 중 적어도 하나를 시퀀싱함으로써, 서열 판독물을 생성하는 단계;
iv. 상기 서열 판독물을 참조 게놈에 정렬하는 단계; 및
v. a. 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이;
b. 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수;
c. 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 또는
d. 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수
중 임의의 수를 분석함으로써, 각각의 하위 집단 내에서의 무세포 DNA의 단편화 패턴을 결정하는 단계
를 포함하는, 무세포 DNA의 단편화 패턴을 분석하는 방법.
111. 제109항에 있어서, 무세포 DNA의 집단이 건강한 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 하나 이상의 특징에 의해 분획화되는 것인 방법.
112. 제110항에 있어서, 하나 이상의 특징이: 메틸화, 히드록시메틸화, 포르밀화, 아세틸화, 및 글리코실화로 이루어진 군으로부터 선택된 화학적 변형을 포함하는 것인 방법.
113. 전술한 항 중 어느 한 항에 있어서, DNA:비드의 비율이 1:100인 것인 방법.
114. 전술한 항 중 어느 한 항에 있어서, DNA:비드의 비율이 1:50인 것인 방법.
115. 전술한 항 중 어느 한 항에 있어서, DNA:비드의 비율이 1:20인 것인 방법.
116. 제109항에 있어서, 무세포 DNA의 집단이 무세포 DNA의 메틸화 수준에 근거하여 분획화되는 것인 방법.
117. 제109항에 있어서, 무세포 DNA의 단편화 패턴을 결정하는 것이, 참조 게놈 내의 각각의 염기 위치에 맵핑하는 서열 판독물의 수를 분석하는 것을 추가로 포함하는 것인 방법.
118. 제109항에 있어서, 참조 게놈 내의 각각의 염기 위치에 맵핑하는 서열 판독물의 수를 분석함으로써 각각의 하위 집단 내의 무세포 DNA의 단편화 패턴을 결정하는 것을 추가로 포함하는 방법.
119. 유전자 발현 또는 질환 상태를 결정하기 위해 순환 종양 DNA (ctDNA)의 분석 동안 DNA 메틸화의 정도에 근거한 물리적 분획화의 용도.
120. ctDNA의 분석 동안 ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도.
121. ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도.
122. 시퀀싱 및 임의적 하류 분석 전에, ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도.
123. 차별적 표지화/태그부착을 위하여 ctDNA를 물리적으로 분할하기 위해 정상 상태와 병이 있는 상태 간의 시그널 상의 차이를 제공하는 특징의 용도.
124. ctDNA의 분석 동안 차별적 단편화 패턴에 근거한 분획화의 용도.
125. ctDNA를 분할하기 위한 차별적 단편화 패턴의 용도.
126. 시퀀싱 및 임의적 하류 분석 전에, ctDNA를 분할하기 위한 차별적 단편화 패턴의 용도.
127. 차별적 표지화/태그부착을 위하여 ctDNA를 분할하기 위한 차별적 단편화 패턴의 용도.
128. 제123항 내지 제126항 중 어느 한 항에 있어서, 차별적 단편화 패턴이 유전자 발현 또는 질환 상태를 표시하는 것인 용도.
129. 제123항 내지 제126항 중 어느 한 항에 있어서, 차별적 단편화 패턴이:
(a) 참조 게놈 내의 각각의 염기 위치에 맵핑하는 각각의 서열 판독물의 길이;
(b) 서열 판독물의 길이의 함수로서 참조 게놈 내의 염기 위치에 맵핑하는 서열 판독물의 수;
(c) 참조 게놈 내의 각각의 염기 위치에서 출발하는 서열 판독물의 수; 및
(d) 참조 게놈 내의 각각의 염기 위치에서 종결하는 서열 판독물의 수
로 이루어진 군으로부터 선택된, 정상과 비교하여 하나 이상의 차이를 특징으로 하는 것인 용도.
130. 다양한 정도의 DNA 메틸화가 되도록 계층화하기 위해 분자 결합 도메인 (MBD)-비드에 의해 분할된 다음 차세대 시퀀싱 (NGS)에 의해 정량화되는 DNA 분자의 차별적 분자 태그부착의 용도.
131. 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하는 방법이며, 여기서 적어도 2가지 형태 각각이 복수 개의 분자를 포함하고,
(a) 상기 핵산 형태 중 적어도 하나를 적어도 하나의 태그 핵산과 연결시켜 이들 형태를 서로 구별하는 단계;
(b) 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시키는 단계이며, 여기서 이러한 핵산 및 연결된 핵산 태그가 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 단계;
(c) 태그와 연결된 복수 개의 증폭된 핵산을 시퀀싱하는 단계이며, 여기서 서열 데이터가 적어도 하나의 태그와 연결되기 전에 집단 내의 핵산의 형태를 밝히기 위해 디코딩되기에 충분한 것인 단계
를 포함하는 방법.
132. 태그부착된 핵산 분자의 풀이며, 이러한 풀 내의 각각의 핵산 분자가 복수 개의 태그 세트 중 하나로부터 선택된 분자 태그를 포함하고, 각각의 태그 세트가 복수 개의 상이한 태그를 포함하고, 여기서 어느 하나의 세트 내의 태그가 임의의 다른 세트 내의 태그와 완전히 다르고, 각각의 태그 세트가 (i) 그것이 부착되는 분자 또는 그 분자가 유래되는 모 분자의 특징을 표시하는 정보 및 (ii) 단독으로 또는 그것이 부착되는 분자로부터의 정보와 조합하여, 그것이 부착되는 분자를, 동일한 태그 세트로부터의 태그로 태그부착된 다른 분자와 독특하게 구별시켜 주는 정보를 함유하는 것인 풀.
133. 제132항에 있어서, 분자 태그가 하나 또는 복수 개의 핵산 바코드를 포함하는 것인, 태그부착된 핵산 분자의 풀.
134. 제133항에 있어서, 분자 태그가 분자의 반대쪽 끝에 부착된 2개의 핵산 바코드를 포함하는 것인, 태그부착된 핵산 분자의 풀.
135. 제134항에 있어서, 특정 세트 내의 임의의 2개의 바코드의 조합이, 임의의 다른 세트 내의 임의의 2개의 바코드의 조합과 상이한 조합된 서열을 갖는 것인, 태그부착된 핵산 분자의 풀.
136. 제133항에 있어서, 바코드가 10개 내지 30개의 뉴클레오티드의 길이인 것인, 태그부착된 핵산 분자의 풀.
137. 제132항에 있어서, 각각의 태그 세트가 태그 세트에 의해 태그부착된 분자를 독특하게 태그부착하기에 충분한 복수 개의 상이한 태그를 포함하고, 동일한 출발-정지 좌표를 가지거나 또는 동일한 뉴클레오티드 서열을 가지거나 또는 동일한 게놈 좌표에 맵핑되는 것인, 태그부착된 핵산 분자의 풀.
138. 제132항에 있어서, 복수 개의 태그 세트가 2, 3, 4, 5, 6개 또는 6개 초과인 것인, 태그부착된 핵산 분자의 풀.
139. 제132항에 있어서, 하나의 태그 세트로부터의 태그로 태그부착된 DNA 서열을 갖는 분자, 및 또 다른 태그 세트로부터의 태그로 태그부착된 cDNA 서열을 갖는 분자를 포함하는, 태그부착된 핵산 분자의 풀.
140. 제132항에 있어서, 태그 세트에 의해 표시된 분자의 특징이: DNA, RNA, 단일 가닥, 이중 가닥, 메틸화된, 비-메틸화된, 메틸화의 정도, 또는 전술된 것의 조합 중 하나 이상을 포함하는 것인, 태그부착된 핵산 분자의 풀.
141. 핵산 서열 분석기;
적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및
핵산 서열 분석기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며, 여기서 디지털 처리 장치가 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하기 위한 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함하고, 상기 적어도 2가지 형태 각각이 복수 개의 분자를 포함하고, 상기 애플리케이션이:
상기 데이터 링크를 통해 상기 핵산 서열 분석기로부터, 그 중 적어도 일부가 태그부착되는 증폭된 핵산의 서열 데이터를 수신하는 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 상기 핵산 형태 중 적어도 하나를 적어도 하나의 태그부착된 핵산과 연결시켜 이들 형태를 서로 구별해 주고, 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시킴으로써 생성되며, 여기서 이러한 핵산 및 연결된 핵산 태그가 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 소프트웨어 모듈; 및
그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그부착된 핵산 분자를 디코딩하기에 충분한 서열 정보를 수득함으로써, 상기 증폭된 핵산의 서열 데이터를 검정하는 소프트웨어 모듈
을 포함하는 것인 시스템.
142. 제141항에 있어서, 애플리케이션이, 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그부착된 핵산 분자를 디코딩하는 소프트웨어 모듈을 추가로 포함하는 것인 시스템.
143. 제141항에 있어서, 애플리케이션이, 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함하는 것인 시스템.
144. 차세대 시퀀싱 (NGS) 기기;
적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및
NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며; 여기서, 디지털 처리 장치가 하기를 포함하는 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함하는 것인 시스템:
상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하기 위한 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 인간 샘플로부터 DNA 분자를 물리적으로 분획화하여 2개 이상의 파티션을 생성시키고, 차별적 분자 태그 및 NGS 가능 어댑터를 2개 이상의 파티션 각각에 적용하여 분자 태그부착된 파티션을 생성하며, 이러한 분자 태그부착된 파티션을 NGS 기기로 검정함으로써 생성되는 것인 소프트웨어 모듈;
상기 샘플을, 차별적으로 분할시킨 분자로 디콘볼루션하기 위해 서열 데이터를 생성하기 위한 소프트웨어 모듈; 및
상기 샘플을, 차별적으로 분할시킨 분자로 디콘볼루션함으로써 서열 데이터를 분석하기 위한 소프트웨어 모듈.
145. 제144항에 있어서, 애플리케이션이, 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함하는 것인 시스템.
146. 차세대 시퀀싱 (NGS) 기기;
적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및
NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며; 여기서, 디지털 처리 장치가 MBD-비드 분획화된 라이브러리의 분자 태그 식별을 위한 하기를 포함하는 애플리케이션을 창출하기 위해 적어도 하나의 프로세서에 의해 실행 가능한 명령을 추가로 포함하는 것인 시스템:
상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하도록 설정된 소프트웨어 모듈이며, 여기서 이러한 서열 데이터는 추출된 DNA 샘플을, 메틸-결합 도메인 단백질-비드 정제 키트를 사용하여 물리적으로 분획화하여, 하류 프로세싱을 위해 모든 용출액을 모으며; 차별적 분자 태그 및 NGS 가능 어댑터 서열을 각각의 분획 또는 군에 병렬 적용하는 것을 시행하고; 모든 분자 태그부착된 분획 또는 군을 재조합하고, 어댑터-특이적 DNA 프라이머 서열을 사용하여 후속 증폭시키며; 재조합되고 증폭된 전체 라이브러리의 풍부화/혼성화를 시행하여, 관심 게놈 영역을 표적화하고; 상기 풍부화된 전체 DNA 라이브러리를 재증폭하여, 샘플 태그를 첨부하며; 상이한 샘플을 풀링하고; NGS 기기 상의 멀티플렉스에서 검정함으로써 생성되고; 여기서, 상기 기기에 의해 생산된 NGS 서열 데이터가, 독특한 분자를 확인하기 위해 사용되는 분자 태그의 서열과, 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션하기 위한 서열 데이터를 제공하는 것인 소프트웨어 모듈; 및
독특한 분자를 확인하기 위해 분자 태그를 사용하고 차별적으로 MBD-분할시킨 분자로 샘플을 디콘볼루션함으로써 서열 데이터의 분석을 수행하도록 설정된 소프트웨어 모듈.
147. 제146항에 있어서, 애플리케이션이, 통신 네트워크를 통해 상기 분석 결과를 전송하도록 설정된 소프트웨어 모듈을 추가로 포함하는 것인 시스템.
148. a) 차세대 시퀀싱 (NGS) 기기;
b) 적어도 하나의 프로세서, 실행 가능한 명령을 수행하도록 설정된 운영 체제, 및 메모리를 포함하는 디지털 처리 장치; 및
c) NGS 기기와 디지털 처리 장치를 통신 가능하게 연결하는 데이터 링크
를 포함하는 시스템이며; 여기서, 디지털 처리 장치가 하기를 포함하는 애플리케이션을 창출하도록 실행 가능한 명령을 추가로 포함하는 것인 시스템:
i) 상기 데이터 링크를 통해 NGS 기기로부터 서열 데이터를 수신하기 위한 소프트웨어 모듈이며, 여기서 서열 데이터는 핵산 집단을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시켜, 이러한 작용제와 결합된 핵산의 제1 풀을, 상기 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 변형에 대해 과소표현되는 것인 단계; 제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산을 제2 풀 내의 핵산과 구별시켜 주는 하나 이상의 핵산 태그에 연결시켜 태그부착된 핵산 집단을 생산하는 단계; 이와 같이 표지된 핵산을 증폭시키는 단계이며, 여기서 핵산 및 상기 연결된 태그가 증폭되는 것인 단계; 및 분자 태그부착된 파티션을 NGS 기기로 검정하는 단계에 의해 제조된 표지된 핵산을 부하하여 생성되는 것인 소프트웨어 모듈;
ii) 태그를 디코딩하기 위해 서열 데이터를 생성하기 위한 소프트웨어 모듈; 및
iii) 그에 대한 서열 데이터가 검정된 핵산이 제1 풀 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하기 위해 서열 데이터를 분석하기 위한 소프트웨어 모듈.
149. 제148항에 있어서, 통신 네트워크를 통해 상기 검정 결과를 전송하는 소프트웨어 모듈을 추가로 포함하는 시스템.

Claims (41)

  1. 이중 가닥 DNA, 단일 가닥 DNA 및 단일 가닥 RNA로부터 선택된 핵산의 적어도 2가지 형태를 포함하는 핵산 집단을 분석하는 방법이며, 여기서 적어도 2가지 형태 각각은 복수 개의 분자를 포함하고,
    (a) 핵산 형태 중 적어도 하나를 적어도 하나의 태그 핵산과 연결시켜 이들 형태를 서로 구별하는 단계;
    (b) 그 중 적어도 하나가 적어도 하나의 핵산 태그와 연결되는 핵산의 형태를 증폭시키는 단계이며, 여기서 핵산 및 연결된 핵산 태그는 증폭되어 증폭된 핵산이 생산되며, 그 중에서 적어도 하나의 형태로부터 증폭된 것이 태그부착되는 것인 단계;
    (c) 그 중 적어도 일부가 태그부착되는 증폭된 핵산의 서열 데이터를 검정하는 단계이며, 여기서 검정은 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하기에 충분한 서열 정보를 수득하는 것인 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 그에 대한 서열 데이터가 검정된 태그 핵산 분자에 연결된 증폭된 핵산에 대한 원래의 주형을 제공하는 집단 내의 핵산의 형태를 밝히기 위해 증폭된 핵산의 태그 핵산 분자를 디코딩하는 단계를 추가로 포함하는 방법.
  3. 제1항 또는 제2항에 있어서, 하나 이상의 다른 형태와 비교하여 형태 중 적어도 하나를 풍부화시키는 것을 추가로 포함하는 방법.
  4. 제1항 또는 제2항에 있어서, 집단 내의 각각의 형태의 핵산의 분자의 적어도 70%가 단계 (b)에서 증폭되는 것인 방법.
  5. 제1항 또는 제2항에 있어서, 적어도 3가지 형태의 핵산이 집단 내에 존재하고, 형태 중 적어도 2가지가 상이한 태그 핵산 형태와 연결되어, 3가지 형태 각각이 서로 구별되는 것인 방법.
  6. 제5항에 있어서, 집단 내의 적어도 3가지 형태의 핵산 각각이 상이한 태그와 연결되는 것인 방법.
  7. 제1항 또는 제2항에 있어서, 동일한 형태의 각각의 분자가, 동일한 식별 태그를 포함하는 태그와 연결되는 것인 방법.
  8. 제1항 또는 제2항에 있어서, 동일한 형태의 분자가 상이한 유형의 태그와 연결되는 것인 방법.
  9. 제1항 또는 제2항에 있어서, 단계 (a)가 집단을 태그부착된 프라이머로 역전사시키는 것을 포함하며, 여기서 태그부착된 프라이머가 집단 내의 RNA로부터 생성된 cDNA 내로 혼입되는 것인 방법.
  10. 제9항에 있어서, 역전사가 서열 특이적인 것인 방법.
  11. 제9항에 있어서, 역전사가 무작위인 것인 방법.
  12. 제9항에 있어서, cDNA와 듀플렉스화된 RNA를 분해하는 것을 추가로 포함하는 방법.
  13. 제5항에 있어서, 단일 가닥 DNA를 이중 가닥 DNA로부터 분리하고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함하는 방법.
  14. 제13항에 있어서, 단일 가닥 DNA가, 하나 이상의 포획 프로브와 혼성화함으로써 분리되는 것인 방법.
  15. 제5항에 있어서, 단일 가닥 DNA를 서클라이가제로 환상화시키고, 핵산 태그를 이중 가닥 DNA와 라이게이션하는 것을 추가로 포함하는 방법.
  16. 제1항에 있어서, 검정하기 전에, 상이한 형태의 핵산을 포함하는 태그부착된 핵산을 풀링하는 것을 포함하는 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 핵산 집단이 체액 샘플로부터의 것인 방법.
  18. 제17항에 있어서, 체액 샘플이 혈액, 혈청, 또는 혈장인 방법.
  19. 제1항 또는 제2항에 있어서, 핵산 집단이 무세포 핵산 집단인 방법.
  20. 제18항에 있어서, 체액 샘플이 암이 있는 것으로 의심되는 대상체로부터의 것인 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 서열 데이터가 체세포 또는 배선 변이체의 존재를 표시하는 것인 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서, 서열 데이터가 카피 수 변이의 존재를 표시하는 것인 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서, 서열 데이터가 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시하는 것인 방법.
  24. 핵산 집단을, 변형을 보유하는 핵산과 우선적으로 결합하는 작용제와 접촉시키는 단계;
    작용제와 결합된 핵산의 제1 풀을, 작용제와 결합되지 않은 핵산의 제2 풀로부터 분리시키는 단계이며, 여기서 핵산의 제1 풀이 변형에 대해 과다표현되고, 제2 풀 내의 핵산이 변형에 대해 과소표현되는 것인 단계;
    제1 풀 및/또는 제2 풀 내의 핵산을, 제1 풀 내의 핵산과 제2 풀 내의 핵산을 구별시켜 주는 하나 이상의 핵산 태그와 연결시켜, 태그부착된 핵산의 집단을 생산하는 단계;
    표지된 핵산을 증폭시키는 단계이며, 여기서 핵산 및 연결된 태그가 증폭되는 것인 단계;
    증폭된 핵산 및 연결된 태그의 서열 데이터를 검정하는 단계이며, 여기서 검정은 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하기 위한 서열 데이터를 수득하는 것인 단계
    를 포함하는, 상이한 정도의 변형을 수반하는 핵산을 포함하는 핵산 집단을 분석하는 방법.
  25. 제24항에 있어서, 그에 대한 서열 데이터가 검정된 핵산이 제1 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하는 단계를 포함하는 방법.
  26. 제25항 또는 제26항에 있어서, 변형이 단백질에 대한 핵산의 결합인 것인 방법.
  27. 제25항 또는 제26항에 있어서, 단백질이 히스톤 또는 전사 인자인 방법.
  28. 제25항 또는 제26항에 있어서, 변형이 뉴클레오티드에 대한 복제 후 변형인 방법.
  29. 제27항에 있어서, 복제 후 변형이 5-메틸-시토신이고, 핵산에 대한 작용제의 결합 정도가 핵산 내의 5-메틸-시토신의 정도에 따라 증가되는 것인 방법.
  30. 제27항에 있어서, 복제 후 변형이 5-히드록시메틸-시토신이고, 핵산에 대한 작용제의 결합 정도가 핵산 내의 5-히드록시메틸-시토신의 정도에 따라 증가되는 것인 방법.
  31. 제27항에 있어서, 복제 후 변형이 5-포르밀-시토신 또는 5-카르복실-시토신이고, 작용제의 결합 정도가 핵산 내의 5-포르밀-시토신 또는 5-카르복실-시토신의 정도에 따라 증가되는 것인 방법.
  32. 제25항 또는 제26항에 있어서, 작용제와 결합된 핵산을 세척하고, 세척물을, 제1 및 제2 풀과 비교하여 중간 정도로 복제 후 변형을 수반하는 핵산을 포함하는 제3 풀로서 수집하는 것을 추가로 포함하는 방법.
  33. 제25항 또는 제26항에 있어서, 검정하기 전에, 제1 및 제2 풀로부터 태그부착된 핵산을 풀링하는 것을 포함하는 방법.
  34. 제25항 또는 제26항에 있어서, 작용제가 5-메틸-결합 도메인 자기 비드인 방법.
  35. 제24항 내지 제34항 중 어느 한 항에 있어서, 핵산 집단이 체액 샘플로부터의 것인 방법.
  36. 제35항에 있어서, 체액 샘플이 혈액, 혈청, 또는 혈장인 방법.
  37. 제25항 또는 제26항에 있어서, 핵산 집단이 무세포 핵산 집단인 방법.
  38. 제35항에 있어서, 체액 샘플이 암이 있는 것으로 의심되는 대상체로부터의 것인 방법.
  39. 제25항 내지 제38항 중 어느 한 항에 있어서, 서열 데이터가 체세포 또는 배선 변이체의 존재를 표시하는 것인 방법.
  40. 제25항 내지 제39항 중 어느 한 항에 있어서, 서열 데이터가 카피 수 변이의 존재를 표시하는 것인 방법.
  41. 제25항 내지 제39항 중 어느 한 항에 있어서, 서열 데이터가 단일 뉴클레오티드 변이 (SNV), 삽입-결실 또는 유전자 융합의 존재를 표시하는 것인 방법.
    iv) 핵산, 여기서 핵산 및 연결된 태그가 증폭되고; 및 분자 태그부착된 파티션을 NGS 기기로 검정하는 것;
    v) 태그를 디코딩하기 위해 서열 데이터를 생성하기 위한 소프트웨어 모듈; 및
    vi) 그에 대한 서열 데이터가 검정된 핵산이 제1 풀 또는 제2 풀 내의 주형으로부터 증폭되었는지를 밝히기 위해 태그를 디코딩하기 위해 서열 데이터를 분석하기 위한 소프트웨어 모듈.
KR1020197020828A 2016-12-22 2017-12-22 핵산 분자를 분석하기 위한 방법 및 시스템 KR20190095410A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201662438240P 2016-12-22 2016-12-22
US62/438,240 2016-12-22
US201762512936P 2017-05-31 2017-05-31
US62/512,936 2017-05-31
US201762550540P 2017-08-25 2017-08-25
US62/550,540 2017-08-25
PCT/US2017/068329 WO2018119452A2 (en) 2016-12-22 2017-12-22 Methods and systems for analyzing nucleic acid molecules

Publications (1)

Publication Number Publication Date
KR20190095410A true KR20190095410A (ko) 2019-08-14

Family

ID=61006366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197020828A KR20190095410A (ko) 2016-12-22 2017-12-22 핵산 분자를 분석하기 위한 방법 및 시스템

Country Status (11)

Country Link
US (2) US11519019B2 (ko)
EP (1) EP3559270A2 (ko)
JP (2) JP7300989B2 (ko)
KR (1) KR20190095410A (ko)
CN (1) CN110325650A (ko)
AU (1) AU2017382439A1 (ko)
BR (1) BR112019012958A2 (ko)
CA (1) CA3046007A1 (ko)
IL (2) IL302912A (ko)
MX (1) MX2019007444A (ko)
WO (1) WO2018119452A2 (ko)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
PL2697397T3 (pl) 2011-04-15 2017-08-31 The Johns Hopkins University System bezpiecznego sekwencjonowania
JP6375230B2 (ja) 2012-02-27 2018-08-15 セルラー リサーチ, インコーポレイテッド 分子計数のための組成物およびキット
US11525163B2 (en) 2012-10-29 2022-12-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
KR20230074639A (ko) 2013-08-28 2023-05-30 벡톤 디킨슨 앤드 컴퍼니 대량의 동시 단일 세포 분석
EP4180535A1 (en) 2015-03-30 2023-05-17 Becton, Dickinson and Company Methods and compositions for combinatorial barcoding
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
US10301677B2 (en) 2016-05-25 2019-05-28 Cellular Research, Inc. Normalization of nucleic acid libraries
US10202641B2 (en) 2016-05-31 2019-02-12 Cellular Research, Inc. Error correction in amplification of samples
KR102638006B1 (ko) 2016-09-26 2024-02-20 셀룰러 리서치, 인크. 바코딩된 올리고뉴클레오티드 서열을 갖는 시약을 이용한 단백질 발현의 측정
CA3059370C (en) 2017-04-12 2022-05-10 Karius, Inc. Methods for concurrent analysis of dna and rna in mixed samples
JP7232476B2 (ja) 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
EP3788171B1 (en) 2018-05-03 2023-04-05 Becton, Dickinson and Company High throughput multiomics sample analysis
CA3107983A1 (en) 2018-07-23 2020-01-30 Guardant Health, Inc. Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
US20200113505A1 (en) 2018-10-11 2020-04-16 Seno Medical Instruments, Inc. Optoacoustic image analysis method and system for automatically estimating lesion traits
CA3111887A1 (en) 2018-09-27 2020-04-02 Grail, Inc. Methylation markers and targeted methylation probe panel
US11639517B2 (en) 2018-10-01 2023-05-02 Becton, Dickinson And Company Determining 5′ transcript sequences
WO2020097315A1 (en) 2018-11-08 2020-05-14 Cellular Research, Inc. Whole transcriptome analysis of single cells using random priming
US11492660B2 (en) 2018-12-13 2022-11-08 Becton, Dickinson And Company Selective extension in single cell whole transcriptome analysis
EP3898969A1 (en) * 2018-12-20 2021-10-27 Guardant Health, Inc. Methods, compositions, and systems for improving recovery of nucleic acid molecules
WO2020154247A1 (en) 2019-01-23 2020-07-30 Cellular Research, Inc. Oligonucleotides associated with antibodies
EP3914736B1 (en) * 2019-01-25 2023-12-20 Grail, LLC Detecting cancer, cancer tissue of origin, and/or a cancer cell type
AU2020216438A1 (en) 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
WO2020176659A1 (en) 2019-02-27 2020-09-03 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free dna
JP7441243B2 (ja) * 2019-05-14 2024-02-29 エフ. ホフマン-ラ ロシュ アーゲー 試料分析のための装置および方法
WO2020243722A1 (en) * 2019-05-31 2020-12-03 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
CN114051534A (zh) 2019-07-22 2022-02-15 贝克顿迪金森公司 单细胞染色质免疫沉淀测序测定
CN114269917A (zh) * 2019-08-19 2022-04-01 豪夫迈·罗氏有限公司 用于测序的dna和rna的单管制备
WO2021067484A1 (en) 2019-09-30 2021-04-08 Guardant Health, Inc. Compositions and methods for analyzing cell-free dna in methylation partitioning assays
US11773436B2 (en) 2019-11-08 2023-10-03 Becton, Dickinson And Company Using random priming to obtain full-length V(D)J information for immune repertoire sequencing
US11898199B2 (en) 2019-11-11 2024-02-13 Universal Diagnostics, S.A. Detection of colorectal cancer and/or advanced adenomas
US20210214800A1 (en) * 2019-11-26 2021-07-15 Guardant Health, Inc. Methods, compositions and systems for improving the binding of methylated polynucleotides
WO2021127208A1 (en) * 2019-12-20 2021-06-24 Accuragen Holdings Limited Methods and systems for disease detection
EP4090763A1 (en) 2020-01-13 2022-11-23 Becton Dickinson and Company Methods and compositions for quantitation of proteins and rna
GB202000747D0 (en) * 2020-01-17 2020-03-04 Institute Of Cancer Res Monitoring tumour evolution
US20210407623A1 (en) * 2020-03-31 2021-12-30 Guardant Health, Inc. Determining tumor fraction for a sample based on methyl binding domain calibration data
EP4143338A1 (en) 2020-04-30 2023-03-08 Guardant Health, Inc. Methods for sequence determination using partitioned nucleic acids
CN115715330A (zh) * 2020-05-12 2023-02-24 小利兰·斯坦福大学托管委员会 用于从无细胞dna中推断基因表达和起源组织的系统和方法
JP2023526252A (ja) 2020-05-14 2023-06-21 ガーダント ヘルス, インコーポレイテッド 相同組換え修復欠損の検出
CN115605614A (zh) 2020-05-14 2023-01-13 贝克顿迪金森公司(Us) 用于免疫组库谱分析的引物
AU2021276524A1 (en) * 2020-05-22 2023-01-05 Aqtual, Inc. Methods for characterizing cell-free nucleic acid fragments
WO2022002424A1 (en) 2020-06-30 2022-01-06 Universal Diagnostics, S.L. Systems and methods for detection of multiple cancer types
WO2023282916A1 (en) 2021-07-09 2023-01-12 Guardant Health, Inc. Methods of detecting genomic rearrangements using cell free nucleic acids
US11932901B2 (en) 2020-07-13 2024-03-19 Becton, Dickinson And Company Target enrichment using nucleic acid probes for scRNAseq
CN111826430A (zh) * 2020-07-24 2020-10-27 扬州大学 一种研究鸡PGCs中lncRNA和组蛋白甲基化酶共调控靶基因的方法
WO2022026761A1 (en) 2020-07-30 2022-02-03 Guardant Health, Inc. Methods for isolating cell-free dna
EP4205126A1 (en) 2020-08-25 2023-07-05 Guardant Health, Inc. Methods and systems for predicting an origin of a variant
US20220154285A1 (en) 2020-09-30 2022-05-19 Guardant Health, Inc. Analysis of methylated dna comprising methylation-sensitive or methylation-dependent restrictions
EP4232599A1 (en) 2020-10-23 2023-08-30 Guardant Health, Inc. Compositions and methods for analyzing dna using partitioning and base conversion
CN116438316A (zh) 2020-11-17 2023-07-14 贝克顿迪金森公司 用于肿瘤学诊断的无细胞核酸和单细胞组合分析
CN116635533A (zh) 2020-11-20 2023-08-22 贝克顿迪金森公司 高表达的蛋白和低表达的蛋白的谱分析
EP4251765A1 (en) 2020-11-30 2023-10-04 Guardant Health, Inc. Compositions and methods for enriching methylated polynucleotides
WO2022140629A1 (en) * 2020-12-23 2022-06-30 Guardant Health, Inc. Methods and systems for analyzing methylated polynucleotides
EP4291679A1 (en) 2021-02-12 2023-12-20 Guardant Health, Inc. Methods and compositions for detecting nucleic acid variants
KR20230156364A (ko) 2021-03-05 2023-11-14 가던트 헬쓰, 인크. 분자 반응을 분석하기 위한 방법 및 관련 측면
WO2022187867A1 (en) * 2021-03-05 2022-09-09 The Trustees Of Columbia University In The City Of New York Methods to analyze methylomes in tumor and plasma cell-free dna
EP4305200A1 (en) 2021-03-09 2024-01-17 Guardant Health, Inc. Detecting the presence of a tumor based on off-target polynucleotide sequencing data
WO2022192189A1 (en) * 2021-03-09 2022-09-15 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
EP4314329A1 (en) 2021-03-25 2024-02-07 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
WO2022226389A1 (en) * 2021-04-23 2022-10-27 The Translational Genomics Research Institute Analysis of fragment ends in dna
EP4348249A1 (en) 2021-05-28 2024-04-10 Guardant Health, Inc. Compositions and methods for assaying circulating molecules
WO2022271730A1 (en) 2021-06-21 2022-12-29 Guardant Health, Inc. Methods and compositions for copy-number informed tissue-of-origin analysis
WO2023288222A1 (en) * 2021-07-12 2023-01-19 The Trustees Of The University Of Pennsylvania Modified adapters for enzymatic dna deamination and methods of use thereof for epigenetic sequencing of free and immobilized dna
WO2023056065A1 (en) 2021-09-30 2023-04-06 Guardant Health, Inc. Compositions and methods for synthesis and use of probes targeting nucleic acid rearrangements
WO2023081722A2 (en) 2021-11-02 2023-05-11 Guardant Health, Inc. Quality control method
WO2023086967A1 (en) 2021-11-12 2023-05-19 Guardant Health, Inc. Method of analysis of methylated dna-binding proteins
WO2023122623A1 (en) 2021-12-21 2023-06-29 Guardant Health, Inc. Methods and systems for combinatorial chromatin-ip sequencing
WO2023122740A1 (en) 2021-12-23 2023-06-29 Guardant Health, Inc. Compositions and methods for detection of metastasis
WO2023197004A1 (en) 2022-04-07 2023-10-12 Guardant Health, Inc. Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
WO2024006908A1 (en) 2022-06-30 2024-01-04 Guardant Health, Inc. Enrichment of aberrantly methylated dna
WO2024020573A1 (en) 2022-07-21 2024-01-25 Guardant Health, Inc. Methods for detection and reduction of sample preparation-induced methylation artifacts
WO2024040006A2 (en) * 2022-08-15 2024-02-22 Bioscreening & Diagnostics Llc Ai and ml-based system to predict cancer from epigenetic data
WO2024059840A1 (en) 2022-09-16 2024-03-21 Guardant Health, Inc. Compositions and methods for analyzing soluble proteins
WO2024073508A2 (en) 2022-09-27 2024-04-04 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
US7208271B2 (en) 2001-11-28 2007-04-24 Applera Corporation Compositions and methods of selective nucleic acid isolation
US8962247B2 (en) * 2008-09-16 2015-02-24 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non invasive prenatal diagnoses
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
US9115386B2 (en) * 2008-09-26 2015-08-25 Children's Medical Center Corporation Selective oxidation of 5-methylcytosine by TET-family proteins
US20130157266A1 (en) * 2009-03-15 2013-06-20 Ribomed Biotechnologies, Inc. Abscription based molecular detection of dna methylation
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
ES2872073T3 (es) * 2011-12-13 2021-11-02 Univ Oslo Hf Procedimientos y kits de detección de estado de metilación
HUE051845T2 (hu) * 2012-03-20 2021-03-29 Univ Washington Through Its Center For Commercialization Módszerek a tömegesen párhuzamos DNS-szekvenálás hibaarányának csökkentésére duplex konszenzus szekvenálással
WO2013184930A2 (en) * 2012-06-06 2013-12-12 Trustees Of Princeton University Dna barcoding of designer mononucleosome and chromatin array libraries for the profiling of chromatin readers, writers, erasers, and modulators thereof
IL305303A (en) 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
WO2014152155A1 (en) 2013-03-14 2014-09-25 The Broad Institute, Inc. Massively multiplexed rna sequencing
EP2983693A4 (en) * 2013-04-08 2016-10-26 Univ Carmel Haifa Economic Cor SEPT4 / ARTS AS A TUMOR SUPPRESSOR IN THE DIAGNOSIS, PROGNOSIS AND TREATMENT OF HEPATIC DISORDERS
EP2805769A1 (en) * 2013-05-24 2014-11-26 European Molecular Biology Laboratory Methods for nano-scale single cell analysis
KR102429186B1 (ko) 2013-10-21 2022-08-03 베리나타 헬스, 인코포레이티드 사본수 변동을 결정함에 있어서 검출의 감수성을 향상시키기 위한 방법
FI4026917T3 (fi) 2014-04-14 2024-02-14 Yissum Research And Development Company Of The Hebrew Univ Of Jerusalem Ltd Menetelmä ja välineistö solujen tai kudoksen kuoleman tai DNA:n kudos- tai solualkuperäin määrittämiseksi DNA-metylaatioanalyysin avulla
AU2015292311B2 (en) 2014-07-25 2022-01-20 University Of Washington Methods of determining tissues and/or cell types giving rise to cell-free DNA, and methods of identifying a disease or disorder using same
WO2016040901A1 (en) 2014-09-12 2016-03-17 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
WO2017181146A1 (en) 2016-04-14 2017-10-19 Guardant Health, Inc. Methods for early detection of cancer
US11702702B2 (en) * 2016-04-15 2023-07-18 Predicine, Inc. Systems and methods for detecting genetic alterations
WO2017184707A1 (en) * 2016-04-19 2017-10-26 President And Fellows Of Harvard College Immobilization-based systems and methods for genetic analysis and other applications
US11078475B2 (en) 2016-05-03 2021-08-03 Sinai Health System Methods of capturing cell-free methylated DNA and uses of same
US10144962B2 (en) * 2016-06-30 2018-12-04 Grail, Inc. Differential tagging of RNA for preparation of a cell-free DNA/RNA sequencing library
ES2967443T3 (es) 2016-07-06 2024-04-30 Guardant Health Inc Procedimientos de perfilado de fragmentoma de ácidos nucleicos sin células
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CN111094590A (zh) 2017-07-12 2020-05-01 大学健康网络 使用甲基化组分析进行癌症检测和分类

Also Published As

Publication number Publication date
US11519019B2 (en) 2022-12-06
MX2019007444A (es) 2019-08-16
BR112019012958A2 (pt) 2019-11-26
EP3559270A2 (en) 2019-10-30
AU2017382439A1 (en) 2019-06-20
IL267424A (en) 2019-08-29
US11952616B2 (en) 2024-04-09
CN110325650A (zh) 2019-10-11
CA3046007A1 (en) 2018-06-28
JP2023089062A (ja) 2023-06-27
IL302912A (en) 2023-07-01
JP7300989B2 (ja) 2023-06-30
JP2020504606A (ja) 2020-02-13
WO2018119452A2 (en) 2018-06-28
WO2018119452A3 (en) 2018-08-09
US20190390253A1 (en) 2019-12-26
US20230332206A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
US11952616B2 (en) Methods and systems for analyzing nucleic acid molecules
US11643693B2 (en) Compositions and methods for isolating cell-free DNA
JP7256748B2 (ja) エラーが訂正された核酸配列決定への適用を伴う標的化核酸配列濃縮のための方法
JP6824973B2 (ja) 無細胞dna分析における遺伝子融合検出の方法および応用
KR102628878B1 (ko) 메틸롬 분석을 이용한 암 검출 및 분류
JP7421474B2 (ja) 腫瘍遺伝子変異量の正規化
US20230203590A1 (en) Methods and means for diagnosing lung cancer
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
WO2022073011A1 (en) Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays
JP2023526252A (ja) 相同組換え修復欠損の検出
CN115803447A (zh) 染色体邻近实验中的结构变异检测
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
CN114746560A (zh) 改进甲基化多核苷酸结合的方法、组合物和系统
JP2021502072A (ja) 脱アミノ化に誘導される配列エラーの補正
JP2023524681A (ja) 分配された核酸を使用した配列決定のための方法
EP4179111A1 (en) Methods of detecting genomic rearrangements using cell free nucleic acids
WO2023282916A1 (en) Methods of detecting genomic rearrangements using cell free nucleic acids
Neiman Methods for deep examination of DNA

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal