KR20230083269A - 핵산 분석을 위한 조성물 및 방법 - Google Patents

핵산 분석을 위한 조성물 및 방법 Download PDF

Info

Publication number
KR20230083269A
KR20230083269A KR1020237007054A KR20237007054A KR20230083269A KR 20230083269 A KR20230083269 A KR 20230083269A KR 1020237007054 A KR1020237007054 A KR 1020237007054A KR 20237007054 A KR20237007054 A KR 20237007054A KR 20230083269 A KR20230083269 A KR 20230083269A
Authority
KR
South Korea
Prior art keywords
base
polynucleotide
cytosine
identity
sequencing
Prior art date
Application number
KR1020237007054A
Other languages
English (en)
Inventor
샨커 발라수브라마니안
젠스 풀그라베
왈라 싱 고살
조안나 돈 홀브룩
시동 리우
데이빗 모를리
올리버 넨트위치
토비아스 오스트
마이클 스테워드
알버트 비엘라
니콜라스 제임스 워커
시롱 유
헬렌 레이첼 빅넬
리타 산토 산-벤토
Original Assignee
캠브리지 에피제네틱스 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캠브리지 에피제네틱스 리미티드 filed Critical 캠브리지 에피제네틱스 리미티드
Publication of KR20230083269A publication Critical patent/KR20230083269A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/125Methyl transferase, i.e. methylase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/513Winding/unwinding enzyme, e.g. helicase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/531Glycosylase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/539Deaminase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/115Characterised by chemical treatment oxidising agents
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/125Bisulfite(s)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/30Oligonucleotides characterised by their secondary structure
    • C12Q2525/301Hairpin oligonucleotides

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Ecology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본원에는 폴리뉴클레오타이드에서 염기를 결정하기 위한 방법, 시스템, 및 조성물이 제공된다. 다양한 측면에서, 본원에 제시된 방법, 시스템, 및 조성물은, 예를 들어, 액체 생검 샘플로부터의 또는 염기가 저빈도 돌연변이인 폴리뉴클레오타이드 분자의 4-염기, 5-염기, 또는 6-염기 시퀀싱을 수행하는데 유용하다.

Description

핵산 분석을 위한 조성물 및 방법
상호 참조
본 출원은 2020년 7월 30일에 출원된 미국 가출원 제 63/058,712호, 2020년 8월 4일에 출원된 미국 가출원 제 63/061,093호, 2020년 10월 26일에 출원된 미국 가출원 제 63/105,860호, 2020년 10월 28일에 출원된 미국 가출원 제 63/106,566호, 및 2021년 2월 24일에 출원된 미국 가출원 제 63/152,976호, 2021년 4월 22에 출원된 미국 가출원 제 63/178,386호, 2021년 6월 15일에 출원된 미국 가출원 제 63/210,927호, 2021년 6월 18일에 출원된 미국 가출원 제 63/212,500호, 2022년 6월 22일에 출원된 미국 가출원 제 63/213,626호, 및 2021년 6월 28일에 출원된 미국 가출원 제 63/215,752호에 관한 것이며, 이들 출원의 각각은 모든 목적에 대해 참조로 본원에 포함된다.
요약
다양한 구현예에서, 방법은: 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계; 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티(identity) 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계를 포함한다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 연결된다. 방법의 일부 구현예에서, 시퀀싱 전의 임의의 시점에서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 (i) 헤어핀을 통해 공유 연결되거나; (ii) 왓슨-크릭 염기쌍 형성을 통해 이중 가닥 폴리뉴클레오타이드로서 연결되거나; (iii) 각각 바코드에 커플링되거나; 또는 (iv) 이들의 임의의 조합이다. 일부 경우에, 정방향 폴리뉴클레오타이드는 상보적인 데옥시리보핵산(cDNA) 분자 또는 이의 앰플리콘을 포함한다. 일부 경우에, 방법은 RNA 뉴클레오타이드를 역전사효소, 이의 생물학적 활성 단편, 또는 이의 유도체와 접촉시켜서 정방향 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함한다. 일부 경우에, 원래의 폴리뉴클레오타이드는 대상체로부터 얻어진 샘플로부터 단리된 데옥시리보핵산(DNA) 폴리뉴클레오타이드를 포함한다. 일부 경우에, 원래의 폴리뉴클레오타이드는 무세포 DNA(cfDNA) 폴리뉴클레오타이드를 포함한다. 일부 경우에, 정방향 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드 또는 이의 일부분이다. 일부 경우에, 정방향 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드의 앰플리콘 복사물이다. 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합 중 어느 것으로 결정이 되면 미스콜(miscall)인 것으로 결정된다: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 티민, 티민 및 시토신, 티민 및 구아닌, 또는 티민 및 티민. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 아데닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 시토신 및 구아닌인 것으로 결정되면 시토신이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 시토신인 것으로 결정되면 구아닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 티민이다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/10,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000,000보다 높지 않다. 일부 경우에, 제2 염기의 제2 아이덴티티를 결정하는 단계는 리드(read) 폴리뉴클레오타이드를 시퀀싱하는 것을 포함하며, 리드 폴리뉴클레오타이드는 동족 폴리뉴클레오타이드의 동족 앰플리콘이다. 일부 경우에, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정된다. 일부 경우에, 샘플이 얻어진 대상체를 포함하는 집단에서 0.1% 이하의 빈도를 가지는 돌연변이는 원래의 폴리뉴클레오타이드의 유전자좌에서 450배 이하, 500배 이하, 700배 이하, 또는 1000배 이하의 유전자좌 커버리지(locus coverage)를 사용하여 적어도 90%의 민감도로 검출된다. 일부 경우에, 방법은 원래의 폴리뉴클레오타이드 또는 이의 유도체에 대해 하나 이상의 화학 반응 또는 효소 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함한다. 일부 경우에, 방법은 탈아미노화 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함한다. 일부 경우에, 탈아미노화 반응은 탈아미노효소로 수행된다. 일부 경우에, 탈아미노효소는 APOBEC 또는 이의 단편이다. 일부 경우에, 탈아미노화 반응은 나선효소 또는 이의 단편의 존재 하에 수행된다.
다양한 구현예에서, 방법은: (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계; (b) 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 중아황산염과 접촉시키는 단계; (c) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및 (d) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 아이덴티티 및 제2 염기의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계를 포함한다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 중아황산염과 접촉시키기 전에 수행된다. 일부 경우에, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNMT5이다. 일부 경우에, 정방향 폴리뉴클레오타이드는 5-메틸시토신, 5-하이드록시메틸시토신, 또는 둘 다를 포함한다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 왓슨-크릭 염기쌍 형성에 의해 연결된다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 헤어핀, 바코드, 또는 둘 다에 의해 추가로 연결된다. 일부 경우에, DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉된 후에, 동족 폴리뉴클레오타이드는 선택적으로 5-메틸시토신을 포함한다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각, 다음 조합 중 임의의 것인 것으로 결정되면 미스콜인 것으로 결정된다: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 시토신, 티민 및 시토신, 또는 티민 및 티민. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 아데닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 시토신이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 구아닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 티민이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 시토신 및 구아닌인 것으로 결정되면 메틸화된 시토신이다. 일부 경우에, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정된다. 일부 경우에, 방법은 상기 정방향 폴리뉴클레오타이드 및 상기 동족 폴리뉴클레오타이드를 사용하여 화학 또는 효소 반응을 수행하는 단계를 추가로 포함한다.
다양한 구현예에서, 방법은: (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계; (b) 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계; (c) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및 (d) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 아이덴티티 및 제2 염기의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계를 포함한다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한다. 일부 경우에, 산화제는 금속 산화물이다. 일부 경우에, 산화제는 루테늄산염이다. 일부 경우에, 산화제는 루테늄산칼륨이다. 일부 경우에, 산화제는 메틸시토신 이산소화효소이다. 일부 경우에, 정방향 폴리뉴클레오타이드는 5-메틸시토신, 5-하이드록시메틸시토신, 또는 둘 다를 포함한다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 왓슨-크릭 염기쌍 형성에 의해 연결된다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 헤어필, 바코드, 또는 둘 다에 의해 추가로 연결된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNA(시토신-5)-메틸트랜스퍼라제 5(DNMT5)로부터 선택된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 포함하며 이것은 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계 후에 수행된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 탈아미노화제와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 탈아미노화제는 탈아미노효소이다. 일부 경우에, 탈아미노효소는 APOBEC, 또는 이의 단편이다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 나선효소와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 탈아미노화제는 중아황산염이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합 중 어느 것인 것으로 결정되면 미스콜인 것으로 결정된다: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 시토신, 티민 및 시토신, 또는 티민 및 티민. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 아데닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 시토신 또는 5-하이드록시메틸시토신(5hmC)이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 구아닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 티민이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 시토신 및 구아닌인 것으로 결정되면 5-메틸시토신(5mC)이다. 일부 경우에, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정된다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/10,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000,000보다 높지 않다. 일부 경우에, 방법은 원래의 폴리뉴클레오타이드 또는 이의 유도체에 대해 하나 이상의 화학 반응 또는 효소 반응을 수행함으로써, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 포함한다.
다양한 구현예에서, 방법은: (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계; (b) 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 5-하이드록시메틸시토신(5hmC)을 특이적으로 글리코실화하는 작용제와 접촉시키는 단계; (c) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및 (d) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 아이덴티티 및 제2 염기의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계를 포함한다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있다. 일부 경우에, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNA(시토신-5)-메틸트랜스퍼라제 5(DNMT5)로부터 선택된다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 5-하이드록시메틸시토신(5hmC)을 특이적으로 글리코실화하는 작용제와 접촉시킨 후에 수행된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 탈아미노화제와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 탈아미노화제는 탈아미노효소이다. 일부 경우에, 탈아미노화제는 APOBEC, 또는 이의 단편이다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 나선효소와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 탈아미노화제는 중아황산염이다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 산화제는 메틸시토신 이산소화효소이다. 일부 경우에, 메틸시토신 이산소화효소는 10-11 전좌(TET) 효소, 또는 이의 유도체이다. 일부 경우에, 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계 후에 수행된다. 일부 경우에, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNA(시토신-5)-메틸트랜스퍼라제 5(DNMT5)로부터 선택된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 5-하이드록시메틸시토신(5hmC)을 특이적으로 글리코실화하는 작용제와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 5hmC를 특이적으로 글리코실화하는 작용제는 β-글루코실트랜스퍼라제이다. 일부 경우에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 5hmC를 특이적으로 글리코실화하는 작용제와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계 후에 수행된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 탈아미노효소와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소(APOBEC), 이중 가닥 DNA 탈아미노효소, 또는 이의 단편으로부터 선택된다. 일부 경우에, 방법은, 상기 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 APOBEC와 접촉시키는 단계 전에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드의 하나 이상의 유전자좌가 연결되지 않도록 처리하는 단계를 포함한다. 일부 경우에, 처리 단계는 제1 폴리뉴클레오타이드 또는 이의 일부를 제2 폴리뉴클레오타이드 또는 이의 일부로부터 분리시키는 것을 포함한다. 일부 경우에, 상기 분리 단계는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 나선효소와 접촉시키는 것을 포함한다. 일부 경우에, 상기 처리 단계는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 단일 가닥 DNA 결합 단백질(SSB)과 접촉시키는 것을 포함한다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각, 다음 조합 중 어느 것인 것으로 결정되면 미스콜인 것으로 결정된다: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 티민 및 시토신, 티민 및 티민, 시토신 및 구아닌이 선행되지 않는 경우 구아닌 및 시토신, 각각 구아닌 및 시토신이 뒤따르지 않는 경우 시토신 및 구아닌, 또는 각각 구아닌 및 티민이 뒤따르지 않는 경우 시토신 및 구아닌. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 아데닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 시토신이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 구아닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 티민이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 CpG 맥락에서 구아닌 및 시토신이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 5-메틸시토신(5mC)이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 CpG 맥락에서 구아닌 및 티민이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 5-하이드록시메틸시토신(5hmC)이다. 일부 경우에, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정된다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 환원제와 접촉시키는 단계를 추가로 포함한다. 일부 경우에, 상기 환원제는 보레인 또는 보레인의 유도체이다. 일부 경우에, 상기 환원제는 피리딘 보레인, 2-피콜린 보레인(pic-보레인), 보레인, 다이보레인, tert-부틸아민 보레인, 암모니아 보레인, 수소화붕소 나트륨(NaBH4), 나트륨 시아노보로하이드라이드(NaBH3CN), 에틸렌다이아민 보레인, 다이메틸아민 보레인, 나트륨 트라이아세톡시보로하이드라이드, 모르폴린 보레인, 4-메틸모르폴린 보레인, 트라이메틸아민 보레인, 다이사이클로헥실아민 보레인, 또는 수소화붕소 리튬(LiBH4), 또는 이들의 염으로부터 선택된다. 일부 경우에, 상기 환원제는 피리딘 보레인이다. 일부 경우에, 상기 환원제는 수소화 알루미늄 리튬, 나트륨 아말감, 아말감, 이산화황, 이티온산염, 티오황산염, 요오드화물, 과산화수소, 하이드라진, 다이아이소부틸알루미늄 하이드라이드, 옥살산, 일산화탄소, 시안화물, 아스코르브산, 포름산, 다이티오트레이톨, 베타-머캡토에탄올, 또는 이들의 임의의 조합을 포함한다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음의 조합 중 어느 것인 것으로 결정되면 미스콜인 것으로 결정된다: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 티민 및 시토신, 티민 및 티민, 티민 및 구아닌이 선행되지 않는 경우 구아닌 및 티민, 각각 구아닌 및 시토신이 뒤따르지 않는 경우 티민 및 구아닌, 또는 각각 구아닌 및 티민이 뒤따르지 않는 경우 티민 및 구아닌. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 아데닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 시토신이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 구아닌이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 티민이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 CpG 맥락에서 구아닌 및 시토신이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 5-메틸시토신(5mC)이다. 일부 경우에, 진정한 염기의 값은 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 CpG 맥락에서 구아닌 및 티민이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 5-하이드록시메틸시토신(5hmC)이다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/10,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100,000보다 높지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000,000보다 높지 않다. 일부 경우에, 방법은 단계 (a) 전에, 원래의 폴리뉴클레오타이드 또는 이의 유도체에 대해 하나 이상의 화학 반응 또는 효소 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함한다. 일부 경우에, 시퀀싱 전의 임의의 시점에서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 (i) 헤어핀을 통해 공유 연결되거나; (ii) 왓슨-크릭 염기쌍 형성을 통해 이중 가닥 폴리뉴클레오타이드로서 연결되거나; (iii) 각각 바코드에 커플링되거나; 또는 (iv) 이들의 임의의 조합이다. 일부 경우에, 방법은 적어도 부분적으로 유전자좌에서의 진정한 염기 변이체의 값에 기초하여 대상체의 병태를 진단하는 단계를 추가로 포함한다. 일부 경우에, 병태는 암이다. 일부 경우에, 암은 육종(sarcoma), 신경교종(glioma), 선종(adenoma), 백혈병(leukemia), 방광암(bladder cancer), 유방암(breast cancer), 대장암(colorectal cancer), 자궁내막암(endometrial cancer), 신장암(kidney cancer), 간암(liver cancer), 폐암(lung cancer), 흑색종(melanoma), 비호지킨 림프종(non-Hodgkin lymphoma), 췌장암(pancreatic cancer), 전립선암(prostate cancer), 갑상선암(thyroid cancer)으로부터 선택된다. 일부 경우에, 병태는 신경퇴행성 병태이다. 일부 경우에, 신경퇴행성 병태는 알츠하이머병(Alzheimer's disease), 전두측두엽 치매(frontotemporal dementia), 근위축성 측삭 경화증(amyotrophic lateral sclerosis), 파킨슨병(Parkinson's disease), 척수소뇌성 운동실조증(spinocerebellar ataxia), 척수성 근위축증(spinal muscle atrophy), 루이소체 치매(Lewy body dementia), 또는 헌팅턴병(Huntington's disease)으로부터 선택된다. 일부 경우에, 시퀀싱은 막삼-길버트(Maxam-Gilbert) 시퀀싱, 생거(Sanger) 시퀀싱, 또는 고처리량 시퀀싱을 포함한다. 일부 경우에, 고처리량 시퀀싱은 차세대 시퀀싱 또는 제3 세대 시퀀싱을 포함한다. 일부 경우에, 제3 세대 시퀀싱은 롱리드(long read) 시퀀싱이다.
다양한 구현예에서, 방법은: (a) 나선효소의 존재 하에 이중 가닥 폴리뉴클레오타이드의 시토신 염기를 탈아미노화하여 탈아미노화된 시토신 염기를 생성하는 단계; (b) 상기 탈아미노화된 시토신 염기 또는 이의 이중 가닥 유도체를 포함하는 상기 이중 가닥 폴리뉴클레오타이드의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 단계; 및 (c) 상기 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 상기 시토신 염기를 확인하는 단계를 포함한다. 일부 경우에, 상기 시퀀싱은 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부를 시퀀싱하는 것을 포함한다. 일부 경우에, 방법은 상기 시퀀싱 데이터를 처리하여 적어도 약 90%, 적어도 약 95%, 또는 적어도 약 99%의 정확도로 상기 시토신 염기를 확인하는 단계를 포함한다. 일부 경우에, 탈아미노화 단계는 탈아미노효소로 수행된다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스(Geobacillus sterothermophilus) Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 경우에, 방법은 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 단계를 포함한다. 일부 경우에, 방법은 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함한다. 일부 경우에, 방법은 상기 역방향 가닥으로부터 상기 정방향 가닥을 분리하는 단계를 추가로 포함한다. 일부 경우에, 방법은 핵산 연장 반응에 상기 정방향 가닥을 사용하여 상기 이중 가닥 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함한다. 일부 경우에, 상기 탈아미노화 단계는 탈아미노효소로 수행된다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 경우에, 상기 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸 시토신 염기이다. 일부 경우에, 방법은 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻고 상기 시퀀싱 데이터를 처리하여 상기 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 시토신 염기로서 확인하는 단계를 포함한다. 일부 경우에, 상기 정방향 가닥은 메틸화된 시토신 염기를 포함하고 상기 방법은 (i) 상기 메틸화된 시토신 염기를 포함하는 상기 정방향 가닥 및 (ii) 상기 시토신 염기를 포함하는 추가 역방향 가닥을 포함하는 변형된 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 상기 정방향 가닥을 사용하는 단계를 추가로 포함한다. 일부 경우에, 방법은 상기 메틸화된 시토신 염기를 글루코실화된 하이드록시메틸시토신으로 전환시키는 단계를 추가로 포함한다. 일부 경우에, 상기 메틸화된 시토신 염기는 메틸시토신 염기이고 상기 전환 단계는 상기 메틸시토신 염기를 산화 조건에 적용하여 하이드록시메틸시토신 염기를 생성하고 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다. 일부 경우에, 상기 메틸화된 시토신 염기는 하이드록시메틸시토신이고 상기 전환 단계는 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다. 일부 경우에, 상기 탈아미노화 단계는 탈아미노효소로 수행된다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 경우에, 방법은 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 얻는 단계를 추가로 포함하며, 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 단계를 포함한다. 일부 경우에, 방법은 상기 시퀀싱 데이터를 처리하여 상기 메틸화된 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 메틸화된 시토신 염기로서 확인하는 단계를 포함한다.
다양한 구현예에서, 방법은: (a) 이중 가닥 폴리뉴클레오타이드의 시토신 염기를, 나선효소의 존재 하에, 탈아미노효소로 탈아미노화하여 탈아미노화된 시토신 염기를 생성하는 단계; (b) 상기 탈아미노화된 시토신 염기 또는 이의 이중 가닥 유도체를 포함하는 상기 이중 가닥 폴리뉴클레오타이드의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 단계; 및 (c) 상기 시퀀싱 데이터를 처리하여 상기 시토신 염기를 확인하는 단계를 포함한다. 일부 경우에, 방법은 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부를 시퀀싱하는 단계를 추가로 포함한다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 경우에, 방법은 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함한다. 일부 경우에, 방법은 상기 역방향 가닥으로부터 상기 정방향 가닥을 분리하는 단계를 추가로 포함한다. 일부 경우에, 상기 분리 단계는 상기 정방향 가닥을 상기 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 적용하는 것을 포함한다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 경우에, 상기 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸 시토신 염기이다. 일부 경우에, 방법은 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 포함하며, 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 단계를 포함한다. 일부 경우에, 상기 정방향 가닥은 메틸화된 시토신 염기를 포함하고 상기 시퀀싱 단계는 (i) 상기 메틸화된 시토신 염기를 포함하는 상기 정방향 가닥 및 (ii) 상기 시토신 염기를 포함하는 추가 역방향 가닥을 포함하는 변형된 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 상기 정방향 가닥을 사용하는 것을 포함한다. 일부 경우에, 방법은 상기 메틸화된 시토신 염기를 글루코실화된 하이드록시메틸시토신으로 전환시키는 단계를 추가로 포함한다. 일부 경우에, 상기 메틸화된 시토신 염기는 메틸시토신 염기이며 상기 전환 단계는 상기 메틸시토신 염기를 산화 조건에 적용하여 하이드록시메틸시토신 염기를 생성하는 단계 및 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다. 일부 경우에, 상기 메틸화된 시토신 염기는 하이드록시메틸시토신이며 상기 전환 단계는 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 경우에, 방법은 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 단계를 포함한다.
다양한 구현예에서, 본원에는 탈아미노효소; 나선효소; 및 포장 및 그 안에 상기 키트를 사용하기 위한 설명서를 포함하는 키트가 제공된다. 일부 경우에, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 경우에, 키트는 메틸시토신 이산소화효소를 추가로 포함한다. 일부 경우에, 상기 메틸시토신 이산소화효소는 10 11 전좌(TET) 효소 또는 이의 단편을 포함한다. 일부 경우에, 키트는 데옥시리보핵산(DNA) 글루코실트랜스퍼라제를 추가로 포함한다. 일부 경우에, 상기 DNA 글루코실트랜스퍼라제는 DNA 베타-글루코실트랜스퍼라제를 포함한다. 일부 경우에, 키트는 DNA 메틸트랜스퍼라제를 추가로 포함한다. 일부 경우에, 상기 DNA 메틸트랜스퍼라제는 DNA 메틸트랜스퍼라제 1(DNMT1)을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 경우에, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
다양한 구현예에서, 방법은: (a) 염기(예컨대, 시토신 염기)를 포함하는 폴리뉴클레오타이드를, 상기 염기를 상기 염기로부터 유래된 변경된 염기로 집합적으로 변환시키는 하나 이상의 시약과 접촉시킴으로써, 상기 변경된 염기를 포함하는 변형된 폴리뉴클레오타이드를 생성하는 단계; 및 (b) 상기 변경된 염기 또는 이의 유도체를 포함하는 상기 변형된 폴리뉴클레오타이드의 적어도 일부를 시퀀싱하여 30배 이하, 25배 이하, 20배 이하, 15배 이하, 10배 이하, 5배 이하, 또는 2배 이하의 커버리지의 시퀀싱 데이터를 얻는 단계; 및 (c) 상기 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 상기 염기를 확인하는 단계를 포함한다. 일부 경우에, 상기 변형된 폴리뉴클레오타이드 또는 이의 유도체는 이중 가닥 폴리뉴클레오타이드이다. 일부 경우에, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드의 두 가닥 모두의 적어도 일부를 시퀀싱하는 것을 포함한다. 일부 경우에, 방법은 상기 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 상기 염기를 확인하는 단계를 포함한다. 일부 경우에, 상기 시토신 염기는 메틸화된 시토신 염기이다. 일부 경우에, 방법은 상기 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 상기 메틸화된 염기를 시토신으로서 확인하는 단계를 추가로 포함한다. 일부 경우에, 상기 하나 이상의 시약은 산화제를 포함한다. 일부 경우에, 상기 하나 이상의 시약은 DNA-글루코실트랜스퍼라제를 포함한다. 일부 경우에, 상기 하나 이상의 시약은 탈아미노효소를 포함한다. 일부 경우에, 상기 하나 이상의 시약은 나선효소를 포함한다. 일부 경우에, 상기 하나 이상의 시약은 DNA 메틸트랜스퍼라제를 포함한다. 일부 경우에, 방법은 상기 폴리뉴클레오타이드를 포함하는 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함한다. 일부 경우에, 방법은 상기 역방향 가닥으로부터 상기 정방향 가닥을 분리하는 단계를 추가로 포함한다. 일부 경우에, 상기 분리 단계는 상기 폴리뉴클레오타이드를 포함하는 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 상기 정방향 가닥을 사용하는 것을 포함한다. 일부 경우에, 상기 메틸화된 염기는 메틸화된 시토신 염기이다. 일부 경우에, 상기 하나 이상의 시약은 탈아미노효소 및 나선효소를 포함한다. 일부 경우에, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부를 시퀀싱하는 것을 포함한다. 일부 경우에, 방법은 상기 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 상기 메틸화된 시토신 염기를 시토신으로서 확인하는 단계를 추가로 포함한다. 일부 구현예에서, 폴리뉴클레오타이드는 폴리뉴클레오타이드의 집단으로부터 유래되고, 폴리뉴클레오타이드 집단에서 메틸화된 시토신 염기의 염기 빈도는 주어진 유전자좌에서 75% 이하, 70% 이하, 65% 이하, 60% 이하, 55% 이하, 50% 이하, 45% 이하, 40% 이하, 35% 이하, 30% 이하, 25% 이하, 20% 이하, 15% 이하, 10% 이하, 7% 이하, 5% 이하, 3% 이하, 또는 1% 이하이다.
일부 경우에, 상기 메틸화된 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸시토신 염기를 포함한다. 일부 경우에, 상기 메틸화된 시토신 염기는 메틸시토신 염기를 포함하고 상기 하나 이상의 시약은 산화제, DNA 글루코실트랜스퍼라제, 탈아미노효소 및 나선효소를 포함한다. 일부 경우에, 상기 메틸화된 시토신 염기는 하이드록시메틸시토신 염기를 포함하고 상기 하나 이상의 시약은 산화제, DNA 글루코실트랜스퍼라제, 메틸트랜스퍼라제, 탈아미노효소 및 나선효소를 포함한다. 일부 경우에, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부를 시퀀싱하는 것을 포함한다. 일부 경우에, 방법은 상기 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 상기 메틸화된 시토신 염기를 메틸시토신 또는 하이드록시메틸시토신으로서 확인하는 단계를 추가로 포함한다. 일부 경우에, 상기 폴리뉴클레오타이드는 가닥이 헤어핀을 통해 공유 연결되어 있는 이중 가닥 폴리뉴클레오타이드이다. 일부 경우에, 상기 정방향 가닥 및 상기 역방향 가닥은 헤어핀을 통해 공유 연결된다.
다양한 구현예에서, 방법은: (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계; (b) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계; (c) 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계; (d) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기 변이체의 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 제2 염기 변이체의 아이덴티티를 결정하는 단계; 및 (e) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기 변이체의 아이덴티티 및 제2 염기 변이체의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 변이체의 값을 결정하는 단계를 포함한다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계를 포함하며 이 단계는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시킨 후에 수행된다. 일부 경우에, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNMT1 또는 DNMT5이다. 일부 경우에, 상기 산화제는 10-11 전좌(TET) 효소이다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 환원제와 접촉시키는 단계를 포함한다. 일부 경우에, 상기 환원제는 보레인 또는 보레인의 유도체이다. 일부 경우에, 상기 환원제는 피리딘 보레인, 2-피콜린 보레인(pic-보레인), 보레인, 다이보레인, tert-부틸아민 보레인, 암모니아 보레인, 수소화붕소 나트륨(NaBH4), 나트륨 시아노보로하이드라이드(NaBH3CN), 에틸렌다이아민 보레인, 다이메틸아민 보레인, 나트륨 트라이아세톡시보로하이드라이드, 모르폴린 보레인, 4-메틸모르폴린 보레인, 트라이메틸아민 보레인, 다이사이클로헥실아민 보레인, 또는 수소화붕소 리튬(LiBH4), 또는 이의 염으로부터 선택된다. 일부 경우에, 상기 환원제는 피리딘 보레인이다. 일부 경우에, 상기 환원제는 수소화 알루미늄 리튬, 나트륨 아말감, 아말감, 이산화황, 이티온산염, 티오황산염, 요오드화물, 과산화수소, 하이드라진, 다이아이소부틸알루미늄 하이드라이드, 옥살산, 일산화탄소, 시안화물, 아스코르브산, 포름산, 다이티오트레이톨, 베타-머캡토에탄올, 또는 이들의 임의의 조합을 포함한다. 일부 경우에, 방법은 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시킨 후에 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 포함한다. 일부 경우에, 산화제는 루테늄산염이다. 일부 경우에, 산화제는 루테늄산칼륨이다. 일부 경우에, 진정한 염기 변이체의 값은 제1 염기 및 제2 염기의 각각 결정된 실체가 다음 조합 중 임의의 것이라면 미스콜인 것으로 결정된다: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 티민 및 시토신, 티민 및 티민, 티민 및 구아닌이 선행되지 않는 경우 구아닌 및 티민, 각각 구아닌 및 시토신, 또는 각각 구아닌 및 티민의 어느 하나가 뒤따르지 않는 경우 티민 및 구아닌. 일부 경우에, 진정한 염기 변이체의 값은 제1 및 제2 염기 변이체의 아이덴티티가 각각 아데닌 및 티민이면 아데닌이다. 일부 경우에, 진정한 염기 변이체의 값은 제1 및 제2 염기 변이체의 아이덴티티가 각각 시토신 및 구아닌이면 시토신이다. 일부 경우에, 진정한 염기 변이체의 값은 제1 및 제2 염기 변이체의 아이덴티티가 각각 구아닌 및 시토신이면 구아닌이다. 일부 경우에, 진정한 염기 변이체의 값은 제1 및 제2 염기 변이체의 아이덴티티가 각각 티민 및 아데닌이면 티민이다. 일부 경우에, 진정한 염기 변이체의 값은 제1 및 제2 염기 변이체의 아이덴티티가 각각 CpG 맥락에서 구아닌 및 티민이 뒤따르는 티민 및 구아닌이면 5-메틸시토신(5mC)이다. 일부 경우에, 진정한 염기 변이체의 값은 제1 및 제2 염기 변이체의 아이덴티티가 각각 CpG 맥락에서 구아닌 및 시토신이 뒤따르는 티민 및 구아닌이면 5-하이드록시메틸시토신(5hmC)이다. 일부 경우에, 방법은 적어도 부분적으로 유전자에서의 진정한 염기 변이체의 값에 기초하여 대상체의 병태를 진단하는 단계를 포함한다. 일부 경우에, 병태는 암이다. 일부 경우에, 암은 육종, 신경교종, 선종, 백혈병, 방광암, 유방암, 대장암, 자궁내막암, 신장암, 간암, 폐암, 흑색종, 비호지킨 림프종, 췌장암, 전립선암, 갑상선암으로부터 선택된다. 일부 경우에, 병태는 신경퇴행성 병태이다. 일부 경우에, 신경퇴행성 병태는 알츠하이머병, 전두측두엽 치매, 근위축성 측삭 경화증, 파킨슨병, 척수소뇌성 운동실조증, 척수성 근위축증, 루이소체 치매, 또는 헌팅턴병으로부터 선택된다. 일부 경우에, 시퀀싱은 막삼-길버트 시퀀싱, 생거 시퀀싱, 또는 고처리량 시퀀싱을 포함한다. 일부 경우에, 고처리량 시퀀싱은 차세대 시퀀싱 또는 제3 세대 시퀀싱을 포함한다. 일부 경우에, 제3 세대 시퀀싱은 롱리드 시퀀싱이다.
본 개시의 추가의 측면 및 장점은 본 개시의 예시적인 구현예만이 제시되고 기술되는 다음의 상세한 설명으로부터 본 기술분야에 숙련된 사람들에게 쉽게 분명해질 것이다. 이해되는 바와 같이, 본 개시는 다른 구현예 및 상이한 구현예가 가능하며, 몇몇 세부사항은 모두 본 개시로부터 벗어나지 않고 다양한 명백한 측면에서 변형될 수 있다. 따라서, 도면 및 설명은 제한하는 것이 아니라 본질적으로 예시적인 것으로 간주되어야 한다.
참조에 의한 포함
본 명세서에서 언급된 모든 출판물, 특허, 및 특허 출원은 각각의 개별적인 출판물, 특허, 또는 특허 출원이 구체적으로 및 개별적으로 참조로 포함되는 것으로 표시된 것처럼 동일한 정도로 참조로 본원에 포함된다. 참조로 포함된 출판물 및 특허 또는 특허 출원이 명세서에 포함된 개시 내용과 모순되는 정도까지, 명세서는 임의의 그러한 모순되는 자료를 대체 및/또는 우선하는 것으로 의도된다.
조성물 및 방법의 신규한 특징은 특히 첨부된 청구범위에서 제시된다. 본 발명의 조성물 및 방법의 특징 및 장점에 대한 더 나은 이해는 조성물 및 방법의 원리가 활용되는 예시적인 구현예에서 제시된 다음의 상세한 설명, 및 첨부된 도면(또한 본원의 "도면" 및 "도")을 참조로 얻어질 것이다:
도 1a1b는 구현예에 따라, 데옥시리보핵산(DNA) 서열에서 시토신, 5-메틸시토신(mC), 및 5-하이드록시메틸시토신(hmC)을 구별 및 확인하는 방법을 도시한다. 다양한 측면에서, 방법은, 예를 들어, 글루코실화, 메틸화, 및 탈아미노화를 사용할 수 있다.
도 2a, 2b, 2c,2d 구현예에 따라 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법을 도시한다. 다양한 측면에서, 방법은, 예를 들어, 글루코실화, 메틸화, 산화, 탈아미노화, 환원제로의 처리, 메틸트랜스퍼라제(MT)로의 처리, 및/또는 S-아데노실메티오닌(SAM) 유사체로의 처리를 사용할 수 있다.
도 3은 구현예에 따라 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법을 도시한다. 다양한 측면에서, 방법은, 예를 들어, 산화(예컨대, KRuO4 산화), 메틸화, 예컨대, 산화효소(예컨대, TET 효소) 또는 이의 단편을 사용하는 효소적 변형, 및 환원 모이어티, 예를 들어 보레인(예컨대, 피콜린 보레인, pic-보레인, 2-피콜린-보레인, pic-BH3)을 사용할 수 있다.
도 4는 구현예에 따라 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법을 도시한다. 다양한 측면에서, 방법은, 예를 들어, 메틸화, 예컨대, 산화효소(예컨대, TET 효소) 또는 이의 단편을 사용하는 효소적 변형, 및 환원 모이어티, 예를 들어 보레인(예컨대, 피콜린 보레인, pic-보레인, 2-피콜린-보레인, pic-BH3)을 사용할 수 있다.
도 5는 무엇보다도, 구현예에 따라 시퀀싱을 위한 DNA 서열을 제조하는 방법을 도시한다.
도 6은 무엇보다도, 구현예에 따라 시토신, mC, 또는 hmC를 포함하는 폴리뉴클레오타이드의 표적화된 포획 및 후속 처리를 포함하는 방법을 도시한다.
도 7a는 무엇보다도, 구현예에 따라 2-염기 시퀀싱 분석 및 6-문자 시퀀싱 분석과 부합하는 시토신(백색 원형), 5-메틸시토신(검은색 원형), 또는 5-하이드록시메틸시토신(적색 원형)을 포함하는 폴리뉴클레오타이드의 표적화된 포획 및 후속 처리를 도시한다.
도 7b 무엇보다도, 구현예에 따라 유형 II 제한 부위를 가진 비오티닐화된 프로브를 사용하는 방법을 도시한다.
도 8은 무엇보다도, 구현예에 따라 비오티닐화된 프로브를 사용하여 DNA 서열에서 시토신, mC, 및 hmC를 구별 또는 확인하는 변형된 방법을 도시한다.
도 9는 무엇보다도, 구현예에 따라 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 변형된 방법 및 실험 데이터 세트를 도시한다.
도 10은 무엇보다도, 구현예에 따라 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 태그부착(tagmentation)을 통합시키는 방법의 예를 도시한다.
도 11은 무엇보다도, 구현예에 따라 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 태그부착을 통합시키는 방법의 예를 도시한다.
도 12는 무엇보다도, 구현예에 따라, 롤링 써클 증폭(rolling circle amplification)을 사용하는 롱리드 시퀀싱을 위해 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법의 적응 예를 도시한다.
도 13은 무엇보다도, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 대해 평균 염기 콜(call) 정확도에 대한 계산을 도시한다.
도 14는 무엇보다도, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 대한 실험 데이터 및 염기 콜링(calling) 정확도를 도시한다.
도 15는 무엇보다도, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법을 사용하여 인간 소뇌 게놈 DNA 전체 게놈 샘플에서 확인된 염기 및 메틸화된 염기의 발생 퍼센트를 도시한다.
도 16은 무엇보다도, DNA 변형의 독립적인 측정 및 동시 측정의 기술적 가변성 사이의 관계를 도시한다.
도 17은 무엇보다도, 구현예에 따라 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 대한 PCR 유리 작업 흐름을 도시한다.
도 18은 무엇보다도, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법 전에 헤어핀 결찰 후의 4-염기 게놈에 프라이머가 어닐링되는 것을 허용할 수 있는 간단한 표적화를 사용하는 방법을 도시한다.
도 19a-19e는 구현예에 따라 폴리뉴클레오타이드에서 염기를 확인하기 위한 작업을 도시한다.
도 20a-20f는 구현예에 따라 폴리뉴클레오타이드의 염기의 값을 측정하는데 유용한 표를 도시한다.
도 21은 구현예에 따라 폴리뉴클레오타이드의 염기의 값의 측정에서 생성된 실험 데이터를 도시한다.
도 22는 구현예에 따라 고유한 분자 식별자(UMI)의 사용을 포함하는 폴리뉴클레오타이드의 염기의 값을 측정하는 방법을 도시한다.
도 23은 구현예에 따라 폴리뉴클레오타이드의 염기를 확인하기 위한 작업을 도시한다.
도 24 구현예에 따라 폴리뉴클레오타이드의 염기를 확인하기 위한 작업을 도시한다.
도 25 구현예에 따라 폴리뉴클레오타이드의 염기의 값을 측정하는데 유용한 표를 도시한다.
도 26은 구현예에 따라 폴리뉴클레오타이드의 염기의 값을 측정하는데 유용한 표를 도시한다.
도 27은 고처리량 시퀀싱 중에 발생할 수 있는 치환 오류 및 후속되는 2-염기 시퀀싱 판독 작업 중의 염기 콜링을 도시한다.
도 28은 NA24385 및 NA24631 참조 샘플로부터 얻어지고 변이체 콜링에 사용된 시퀀싱 데이터의 세부사항을 도시한다.
도 29는 NA24385 및 NA24631 참조 샘플로부터의 변이체 콜링을 평가하기 위한 예시의 성능 지표를 도시한다.
도 30은 NA24385 및 NA24631 참조 샘플로부터의 변이체 콜링의 품질을 평가하기 위한 예시의 성능 지표(performance metric)를 도시한다.
도 31은 NA24385 및 NA24631 참조 샘플로부터의 변이체 콜링 결과를 비교하는 예시의 성능 지표를 도시한다.
도 32는 NA24385 및 NA24631 참조 샘플로부터의 변이체 콜링 결과를 비교하는 예시의 성능 지표를 도시한다.
도 33a는 무엇보다도, 시퀀싱 레인 구성 및 각각 NA24631 및 NA24385 참조 샘플에 대해 생성된 천만개의 리드 쌍으로 이루어지는, 시퀀싱 리드 청크의 수를 도시한다.
도 33b는 무엇보다도, NA24385 및 NA24631 참조 샘플의 혼합으로부터 믹스인 샘플의 생성을 도시한다.
도 34는 무엇보다도, 다운 샘플링된 NA24385 샘플로부터 얻어진 시퀀싱 데이터에 대한 예시의 성능 지표를 도시한다.
도 35는 무엇보다도, 다운 샘플링된 NA24385 샘플로부터 얻어진 시퀀싱 데이터에 대한 예시의 성능 지표를 도시한다.
도 36a는 NA24385/NA24631 믹스인 샘플의 시퀀싱으로부터 얻어진 위양성 콜을 도시한다.
도 36b는 NA24385 및 NA24631 샘플의 시퀀싱으로부터 얻어진 싱글톤 오류 콜(singleton error call)을 도시한다.
도 37은 2-염기 시퀀싱 염기 콜링 방법의 오류 억제 측면을 도시한다.
도 38은 APOBEC, 또는 이의 단편 단독으로 탈아미노화된 정상 대조군 페어드 엔드(paired-end) 라이브러리 또는 2-염기 시퀀싱 라이브러리의 위양성 메틸화 콜링의 비율을 도시한다.
도 39는 APOBEC3A 및 나선효소, 또는 이들의 단편의 조합을 사용하여 탈아미노화된 2-염기 시퀀싱에서 위양성 메틸화 콜의 억제를 도시한다.
도 40은 APOBEC3A 및 나선효소, 또는 이들의 단편의 조합을 사용하여 탈아미노화된 2-염기 시퀀싱에서 위양성 메틸화 콜의 억제를 도시한다.
도 41a는 헤어핀 어댑터(우리딘을 함유함) 상에 닉(nick)을 생성하기 위해 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII의 사용을 포함하는 예시의 작업 흐름을 도시한다.
도 41b는 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII의 사용 및 우리딘이 없는 헤어핀 어댑터(그러나 3' 포스페이트가 있음) 및 5' 포스페이트가 없는 주형 DNA의 사용을 포함하지 않는 예시의 작업 흐름을 도시한다.
42a는 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII을 포함하지 않는 작업 흐름(조건 b-d)과 비교하여 그것들을 포함하는 작업 흐름(조건 a)을 사용하여 제조된 샘플로부터의 예시의 라이브러리 수율을 도시한다. 42b는 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII을 포함하지 않는 작업 흐름(조건 b-d)과 비교하여 그것들을 포함하는 작업 흐름(조건 a)을 사용하여 제조된 샘플로부터의 라이브러리 수율의 예시의 크기(염기쌍으로서의)를 도시한다.
도 43은 시퀀싱 전에 PCR(PCR의 12 주기)에서 회복된 예시의 라이브러리 크기를 도시한다.
도 44는 시퀀싱 전에 PCR(PCR의 8 주기)에서 회복된 예시의 라이브러리 크기를 도시한다.
도 45a-c는 샘플 게놈의 가닥 수준에서 메틸화 정보의 확인 및 정량화에 관여하는 작업의 개요를 도시한다. 도 45a는 참조 게놈과의 정렬의 제1 작업을 도시한다. 도 45b는 후성유전학적 코드 정보를 함유한 중간 표현 파일(intermediate representation file) 생성을 포함하는 다음 작업을 도시한다. 도 45c는 중간 표현 파일에 함유된 후성유전학적 정보의 정량화를 포함하는 다음 작업을 도시한다.
도 46a-c는 샘플 게놈의 가닥 수준에서 메틸화 정보의 확인 및 정량화에 관여하는 추가의 작업 흐름을 제공한다. 도 46a는 참조 게놈으로 샘플 시퀀싱 리드의 정렬 파일을 생성하기 위한 작업 흐름을 도시한다. 도 46b는 후성유전학적 코드 정보 및 가닥 정보를 함유하는 중간 표현 파일을 생성하는 작업을 상세하게 도시한다. 도 46c는 중간 표현 파일에 함유된 후성유전학적 정보의 정량화를 위한 상세한 작업 흐름을 제공한다.
도 47은 중간 표현 파일의 후성유전학적 코드 및 가닥 정보의 표현을 도시한다.
도 48은 게놈의 관심의 표적화된 영역에서 후성유전학적 정보의 측정을 위한 예시의 작업 흐름의 표현을 도시한다.
도 49 게놈의 관심의 표적화된 영역에서 후성유전학적 정보의 측정을 위한 예시의 작업 흐름의 표현을 도시한다.
도 50은 게놈의 관심의 표적화된 영역에서 후성유전학적 정보의 측정을 위한 예시의 작업 흐름의 표현을 도시한다.
조성물 및 방법의 다양한 구현예가 본원에서 제시되고 기술되었지만, 그러한 구현예가 단지 예로서 제공되는 것은 기술분야에 숙련된 사람들에게 명백할 것이다. 조성물 및 방법으로부터 벗어나지 않으면서 수많은 변화, 변경, 및 치환이 기술분야에 숙련된 사람들에게 일어날 수 있다. 본원에 기술된 구현예에 대한 다양한 대안이 사용될 수 있는 것이 이해되어야 한다.
본원에는 기존의 기술을 능가하는 핵산 시퀀싱의 효율성 및 정확성을 모두 유의미하게 증가시킬 수 있는 방법, 시스템, 및 조성물이 개시된다. 예를 들어, 본원에 개시된 2-염기 시퀀싱 방법 및 시스템은 시퀀싱 중에 도입된 오류를 우회할 수 있다(예컨대, 현재의 기술을 사용하여 1,000개의 시퀀싱된 염기마다 약 1의 비율로 발생할 수 있는 고품질 치환 오류를 통해). 대조적으로, 본원에 개시된 방법 및 시스템은, 예를 들어, 2-염기 시퀀싱 방법 및 시스템의 내부 논리 비교를 활용함으로써, 10,000개 염기당 약 1개의 비율로 위양성률을 유발할 수 있다. 많은 경우에, 예를 들어 개별 리드를 참조 게놈에 대해 정렬하기 전에 시퀀싱 리드에서 미스콜링된 염기를 스크리닝하는 능력은 시퀀싱 리드에서 돌연변이로 불리는 염기가 진정한 돌연변이(예컨대, 예를 들어 치환 오류로부터 발생하는 미스콜과는 반대로)라는 확신 및 리드의 시퀀싱 후 분석의 효율성을 모두 크게 증가시킬 수 있다. 본원에서 제시된 방법 및 시스템으로부터 발생된 이들 이점은 핵산 시퀀싱을 사용하는 전체 범위의 적용에 적용된다. 예를 들어, 낮은 빈도의 돌연변이(예컨대, 유병률이 0.1% 이하인 돌연변이)의 분석은 임상, 기초 과학, 또는 응용 과학 환경에서 기존의 기술보다 더 적은 크기의 리드 커버리지로 동일한 민감성에서 완료될 수 있어서, 비용 및 기술적 복잡성을 극적으로 감소시킨다. 많은 경우에, 본원에 제시된 2-염기 시퀀싱 방법 및 시스템은, 예컨대, 시퀀싱 오류(예컨대, 시퀀싱으로부터 발생하는 치환 오류)가 결과에서 차단되기 때문에(예컨대, 일부 구현예에서 미스콜의 할당된 값일 수 있는 오류 코드(예컨대, 도 20a-20f에서 도시되는 바와 같음)의 형태로) 돌연변이를 검출하는 힘을 개선시킨다. 많은 경우에, 희귀 돌연변이(예컨대, 돌연변이의 높은 신뢰도 확인을 얻기 위해 필요한 집단에서(예컨대, 샘플의 원래의 폴리뉴클레오타이드에서) 0.01% 미만의 비율로 발생하는 돌연변이)를 시퀀싱하는데 있어 커버리지의 깊이는 본원에 제시된 2-염기 시퀀싱 방법 및 시스템을 사용하여 크게 감소될 수 있다. 따라서, 낮은 복사물 샘플 공급원(예컨대, 액체 생검, 예컨대 임상 또는 전임상 말초혈 샘플)에서 희귀한 유전자 돌연변이의 고신뢰도 분석은 본원에 개시된 방법 및 시스템을 사용하여 가능하다.
일부 경우에, 본원에 개시된 방법 및 시스템은 500배 커버리지 내지 5,000배 커버리지 이하 이하의 0.1% 이하의 유병률을 가진 돌연변이의 경우, 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지 내지 25배 커버리지, 10배 커버리지 내지 50배 커버리지, 100배 커버리지 내지 500배 커버리지, 500배 커버리지 내지 1,000배 커버리지, 500배 커버리지 내지 2,500배 커버리지, 500배 커버리지 내지 4,000배 커버리지, 500배 커버리지 내지 5,000배 커버리지, 1,000배 커버리지 내지 2,500배 커버리지, 1,000배 커버리지 내지 4,000배 커버리지, 1,000배 커버리지 내지 5,000배 커버리지, 2,500배 커버리지 내지 4,000배 커버리지, 2,500배 커버리지 내지 5,000배 커버리지, 또는 4,000배 커버리지 내지 5,000배 커버리지 이하의 0.1% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지, 10배 커버리지, 25배 커버리지, 50배 커버리지, 75배 커버리지, 100배 커버리지, 200배 커버리지, 300배 커버리지, 400배 커버리지, 500배 커버리지, 750배 커버리지, 1,000배 커버리지, 2,500배 커버리지, 4,000배 커버리지, 또는 5,000배 커버리지 이하의 0.1% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다.
일부 경우에, 본원에 개시된 방법 및 시스템은 500배 커버리지 내지 5,000배 커버리지 이하의 0.01% 이하의 유병률을 가진 돌연변이의 경우, 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지 내지 25배 커버리지, 10배 커버리지 내지 50배 커버리지, 100배 커버리지 내지 500배 커버리지, 500배 커버리지 내지 1,000배 커버리지, 500배 커버리지 내지 2,500배 커버리지, 500배 커버리지 내지 4,000배 커버리지, 500배 커버리지 내지 5,000배 커버리지, 1,000배 커버리지 내지 2,500배 커버리지, 1,000배 커버리지 내지 4,000배 커버리지, 1,000배 커버리지 내지 5,000배 커버리지, 2,500배 커버리지 내지 4,000배 커버리지, 2,500배 커버리지 내지 5,000배 커버리지, 또는 4,000배 커버리지 내지 5,000배 커버리지 이하의 0.01% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지, 10배 커버리지, 25배 커버리지, 50배 커버리지, 75배 커버리지, 100배 커버리지, 200배 커버리지, 300배 커버리지, 400배 커버리지, 500배 커버리지, 750배 커버리지, 1,000배 커버리지, 2,500배 커버리지, 4,000배 커버리지, 또는 5,000배 커버리지 이하의 0.01% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다.
일부 경우에, 본원에 개시된 방법 및 시스템은 500배 커버리지 내지 5,000배 커버리지 이하의 0.001% 이하의 유병률을 가진 돌연변이의 경우, 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지 내지 25배 커버리지, 10배 커버리지 내지 50배 커버리지, 100배 커버리지 내지 500배 커버리지, 500배 커버리지 내지 1,000배 커버리지, 500배 커버리지 내지 2,500배 커버리지, 500배 커버리지 내지 4,000배 커버리지, 500배 커버리지 내지 5,000배 커버리지, 1,000배 커버리지 내지 2,500배 커버리지, 1,000배 커버리지 내지 4,000배 커버리지, 1,000배 커버리지 내지 5,000배 커버리지, 2,500배 커버리지 내지 4,000배 커버리지, 2,500배 커버리지 내지 5,000배 커버리지, 또는 4,000배 커버리지 내지 5,000배 커버리지 이하의 0.001% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지, 10배 커버리지, 25배 커버리지, 50배 커버리지, 75배 커버리지, 100배 커버리지, 200배 커버리지, 300배 커버리지, 400배 커버리지, 500배 커버리지, 750배 커버리지, 1,000배 커버리지, 2,500배 커버리지, 4,000배 커버리지, 또는 5,000배 커버리지 이하의 0.001% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다.
일부 경우에, 본원에 개시된 방법 및 시스템은 500배 커버리지 내지 5,000배 커버리지 이하의 0.0001% 이하의 유병률을 가진 돌연변이의 경우, 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지 내지 25배 커버리지, 10배 커버리지 내지 50배 커버리지, 100배 커버리지 내지 500배 커버리지, 500배 커버리지 내지 1,000배 커버리지, 500배 커버리지 내지 2,500배 커버리지, 500배 커버리지 내지 4,000배 커버리지, 500배 커버리지 내지 5,000배 커버리지, 1,000배 커버리지 내지 2,500배 커버리지, 1,000배 커버리지 내지 4,000배 커버리지, 1,000배 커버리지 내지 5,000배 커버리지, 2,500배 커버리지 내지 4,000배 커버리지, 2,500배 커버리지 내지 5,000배 커버리지, 또는 4,000배 커버리지 내지 5,000배 커버리지 이하의 0.0001% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 5배 커버리지, 10배 커버리지, 25배 커버리지, 50배 커버리지, 75배 커버리지, 100배 커버리지, 200배 커버리지, 300배 커버리지, 400배 커버리지, 500배 커버리지, 750배 커버리지, 1,000배 커버리지, 2,500배 커버리지, 4,000배 커버리지, 또는 5,000배 커버리지 이하의 0.0001% 이하의 유병률을 가진 돌연변이의 경우 적어도 90%(또는 적어도 95%, 또는 적어도 97%, 또는 적어도 99% 또는 적어도 99.9%, 또는 적어도 99.99%, 또는 적어도 99.999%)의 민감도를 달성할 수 있다.
일부 경우에, 본원에 개시된 방법 및 시스템은 1/1,000 내지 1/10,000, 1/100 내지 1/10,000, 1/1,000 내지 1/100,000, 또는 1/100 내지 1/1,000,000보다 높지 않은 위양성률을 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 1/1,000 내지 1/2,000, 1/1,000 내지 1/5,000, 1/1,000 내지 1/10,000, 1/2,000 내지 1/5,000, 1/2,000 내지 1/10,000, 또는 1/5,000 내지 1/10,000보다 높지 않은 위양성률을 달성할 수 있다. 일부 경우에, 본원에 개시된 방법 및 시스템은 1/100, 1/500, 1/1,000, 1/2,000, 1/5,000, 1/10,000, 1/50,000, 1/100,000, 1/500,000, 1/1,000,000 또는 그 이하보다 높지 않은 위양성률을 달성할 수 있다.
2-염기 시퀀싱 프레임워크를 활용할 수 있는 본원에 제시된 방법 및 시스템은 또한 4-염기 게놈 맥락(예컨대, 4개 이하의 고전적 핵산 염기: 시토신(C), 구아닌(G), 아데닌(A), 및 티민(T)을 포함하는 분석) 및 확장된 5- 및 6-염기 게놈 맥락(예컨대, 비변형 염기(예컨대, 비메틸화 시토신)로부터 변형된 염기(예컨대, 메틸화된 시토신)를 구별할 수 있는 5-염기 분석; 시토신, 5-메틸시토신(5mC)과 5-하이드록시메틸시토신(5hmC)을 서로 구별하는 것과 같이, 상이한 변형된 및 비변형 염기를 서로 구별할 수 있는 6-염기 분석)에서 모두 이용될 수 있다. 이 지점까지, 전부 6개 염기(예컨대, C, G, A, T, 5mC, 및 5hmC)를 구별하기 위한 실제 시스템은 파악하기 어려운 것으로 증명되었다. 따라서, 본원에 개시된 방법 및 시스템은 폴리뉴클레오타이드 샘플에서 후성유전학적 변형(예컨대, 메틸화된 시토신)의 존재 또는 분석을 위한 새로운 방안을 제공한다. 5-염기 분석에서, 변형된 염기는 메틸화된 시토신(mC) 또는 5-하이드록시메틸시토신(5hmC)일 수 있다.
DNA 메틸화는 유전자 발현을 조절하는데 역할을 할 수 있고, 따라서 다양한 생물학적 과정 및 질환에 영향을 줄 수 있는 후성유전학적 변형일 수 있다. 폴리뉴클레오타이드의 뉴클레오타이드에 존재하는 염기, 예를 들어 시토신 잔기의 5'에서 메틸 기의 첨가는 유전자 발현, 염색질 구조 조절, 또는 둘 다의 메커니즘일 수 있다. 유전자 프로모터에서 이런 메틸화된 뉴클레오타이드, 예컨대, 5mC(5-메틸시토신)의 기능적 존재는, 일부 경우에 구조적 염색질 변경으로 인해 전사 억제와 관련이 있을 수 있고, 한편 5mC의 부재는 전사 활성과 연결될 수 있다.
예컨대, 구아닌 잔기가 뒤따르는 시토신(예컨대, 시토신-포스페이트-구아닌 모티프, 또는 CpG)에서 5-메틸시토신(5mC 또는 mC)을 형성하기 위한 시토신의 메틸화는 포유류 발달 및 조직 특이성, 게놈 각인, 및 환경적 반응에서 중요한 역할을 하는 후성유전학적 마크일 수 있다. 5mC의 조절장애는 비정상적인 유전자 발현을 유발할 수 있고, 일부 경우에 암 위험, 진행 또는 치료 반응에 영향을 미칠 수 있다. 5-하이드록시메틸시토신(5hmC 또는 hmC)은 유전자 발현 및 발암성에 영향을 미치는 조직 특이적 분포가 있는 세포의 활성 DNA 탈메틸화 경로의 중간체일 수 있다.
제1 폴리뉴클레오타이드 상의 염기(예컨대, 시토신 또는 구아닌)는, 예컨대, CpG 맥락에서 제2 폴리뉴클레오타이드 상의 염기(예컨대, 각각 구아닌 또는 시토신)에 대해 근위에 있고, 제1 및 제2 폴리뉴클레오타이드는 혼성화된다(예컨대, 이중 가닥 DNA 폴리뉴클레오타이드에서). 일부 경우에, 제2 염기의 근위에 있는 제1 염기는, 예를 들어 두 염기가 CpG 맥락에 있는 경우 제2 염기에 인접할 수 있다(예컨대, 예를 들어, 다음에 있을 수 있다). 일부 경우에, 동족 폴리뉴클레오타이드의 제2 염기는 정방향 폴리뉴클레오타이드의 제1 염기에 상응하는 유전자좌(예컨대, 염기쌍 형성 부위)에 있는 염기에 대해 근위에(예컨대, 인접하여, 다음에) 있을 수 있다. 많은 경우에, 제1 폴리뉴클레오타이드 상의 제1 염기는, 예를 들어 제1 및 제2 폴리뉴클레오타이드가 예컨대, 이중 가닥 DNA 폴리뉴클레오타이드에서 혼성화되는 경우, 제1 염기 및 제2 폴리뉴클레오타이드 상의 제2 염기가 왓슨-크릭 염기쌍(예컨대, 아데닌-티민, 시토신-구아닌, 5hmC-구아닌, 또는 5mC-구아닌)을 이룰 수 있을 때 제2 염기와 쌍을 형성할 수 있다고 말할 수 있다.
유전자체 DNA 메틸화(본원에서 사용되는 바, 메틸화는 핵산 염기 상의 메틸 기의 첨가 또는 존재를 의미할 수 있고; 메틸 기는 산화된 상태 또는 비산화 상태일 수 있으며; 비산화 메틸 기는 예컨대, 메틸일 수 있고; 산화된 메틸 기는 하이드록시메틸, 포르밀 기, 카르복실산 기, 또는 카르복실산의 염일 수 있음)는 반복적인 DNA 요소의 침묵 및 대체 스플라이싱에서 역할을 할 수 있다. DNA 메틸화는 게놈 각인, 트랜스포존 비활성화, 줄기 세포 분화, 전사 억제, 및 염증과 같은 여러 생물학적 과정과 관련이 있을 수 있다. DNA 메틸화 프로파일은 일부 경우에 세포 분열을 통해 그리고 때때로 세대를 통해 유전될 수 있다. 메틸 마크가 생리적 및 병리적 조건에서 모두 매우 관련된 역할을 할 수 있기 때문에, 생물학적 질문에 답하기 위해 DNA 메틸화를 프로파일링하기 위한 유의미한 적용이 있을 수 있다. 더욱이, DNA 메틸화 게놈 영역을 발견하는 것은 메틸 부위가 약물학적 개입에 의해 변형될 수 있기 때문에 번역 연구에 매력적일 수 있다.
2-염기 시퀀싱 방법 및 시스템
본원에 제시된 2-염기 시퀀싱 방법 및 시스템은, 예를 들어, 염기 리드의 내부 검증을 포함하는 방법을 제공함으로써, 참조 게놈(또는 참조 핵산 서열)에 대한 정렬을 필요로 하지 않으면서 폴리뉴클레오타이드(예컨대, 원래의 DNA 폴리뉴클레오타이드)의 서열의 결정에서 불확실성 및 전체 오류율을 감소시키기 위해 사용될 수 있다. 일부 구현예에서, 이것은 제1 폴리뉴클레오타이드(예컨대, 정방향 폴리뉴클레오타이드)의 유전자좌에서 결정된 제1 염기의 값 및 제2(예컨대, 회합된) 폴리뉴클레오타이드, 예컨대 동족 폴리뉴클레오타이드(제1 폴리뉴클레오타이드의 동족 앰플리콘일 수 있음) 또는 동족 폴리뉴클레오타이드의 앰플리콘(예컨대, 리드 폴리뉴클레오타이드, 동족 폴리뉴클레오타이드의 동족 앰플리콘일 수 있음)에서 결정된 제2 염기의 값을 비교함으로써 달성될 수 있다. 그러므로 제1 및 제2 결정된 염기 값 사이의 미스매치(예컨대, 왓슨-크릭 염기쌍 형성 논리를 사용하여 평가됨)는 많은 구현예에서 중합효소 치환 오류를 나타낼 수 있다. 그러한 구현예에서, 모든 가능한 위양성 염기 콜 중 3/4 이상이 제1 폴리뉴클레오타이드의 유전자좌에서의 중합효소 오류 및 제2 폴리뉴클레오타이드의 상응하는 유전자좌에서의 제2 중합효소 오류로 인한 것일 수 있고, 제2 중합효소 오류는 위양성 염기 콜을 초래하는 역염기 변화일 수 있으며, 그것은 사라질 가능성이 거의 없는 일련의 사건이다. 예를 들어, 제1 폴리뉴클레오타이드로부터 동족 폴리뉴클레오타이드의 생성에서 시토신에서 아데닌으로의 중합효소 치환 오류는, 그러한 구현예에서 모든 가능한 위양성 염기 콜의 3/4 이상으로 위양성 염기 콜을 생성하기 위하여 리드 폴리뉴클레오타이드의 생성에서(예컨대, 리드 폴리뉴클레오타이드는 동족 폴리뉴클레오타이드의 동족 앰플리콘임) 티민에서 구아닌으로의 중합효소 치환 오류(다른 치환 오류는 없음)를 필요로 할 수 있다. 일부 경우에, 단일(예컨대, 중합효소) 치환 오류가 본원에 제시된 2-염기 시퀀싱 방법 및 시스템에서 위양성 염기 콜을 유발할 수 있는 가능성이 있는 나머지 시나리오(예컨대, 아데닌-대-구아닌 또는 구아닌-대-아데닌 치환)는 2개의 특정 치환 오류로부터 발생할 수 있고, 그것은 많은 구현예에서 1/10,000 또는 1/10,000 미만의 발생률을 가질 수 있다. 실제로, 아데닌-대-구아닌 및 구아닌-대-아데닌 치환은 많은 경우에 다른 중합효소 치환보다 더 낮은 비율로 발생한다.
많은 구현예에서, 만약 2개의 결정된 염기 값이 서로 일관된다면(예컨대, 왓슨-크릭 염기쌍 형성 논리를 적용함으로써 평가되는 바), 높은 확실성으로, 제1 염기의 결정된 값이 상응하는 유전자좌에서 원래의 폴리뉴클레오타이드의 염기의 진정한 아이덴티티와 관련하여 정확하다고 결론지을 수 있다(예컨대, 제1 및 제2 폴리뉴클레오타이드의 판독에서 치환 오류의 가장 큰 원인은 1/10,000개 염기의 크기의 비율로 발생할 수 있는 중합효소 충실도에 의해 결정되기 때문임). 많은 구현예에서, 만약 2개의 결정된 염기 값이 서로 일치하지 않는다면(예컨대, 왓슨-크릭 염기쌍 형성 논리를 적용함으로써 평가되는 바), 높은 확실성으로, 제1 염기의 결정된 값이 오류이며, 염기 콜은 오류인 것으로 결정될 수 있다고 결론지을 수 있다. 유리하게, 본원에 제시된 2-염기 시퀀싱 방법 및 시스템을 사용하여 회합된 폴리뉴클레오타이드(예컨대, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드 또는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드의 앰플리콘)로부터의 2개의 회합된 염기 콜의 비교는, 예를 들어, 치환 오류가 발생하였는지를 결정하기 위해 다른 독립적으로 생성되고 시퀀싱된 폴리뉴클레오타이드에 대해, 그리고 참조 게놈에 대해 주어진 염기 콜을 검증할 필요성을 피함으로써(예컨대, 정렬을 통해) 시퀀싱 중에 도입된 치환 오류의 문제를 효과적으로 우회할 수 있다. 이것은 (예컨대, 기존의 기술에 비교하여) 위양성률에 대한 유의미한 감소를 초래할 수 있다.
대조적으로, 기존의 시퀀싱 기술은, 예를 들어, 고비율(예컨대, 약 1/50개 염기)로 도입될 수 있는, 시퀀싱 중에 도입된 치환 오류로부터 발생하는 유의미한 오류 및 불확실성에 의해 제한될 수 있다. 그 결과로서, 또한 중합효소 치환 오류의 대상인, 기존의 기술로 얻어진 시퀀싱 리드의 염기 콜이 검증될 수 있다. 기존의 시퀀싱 기술을 사용하는 특정 유전자좌에서의 염기 콜의 검증은, 시퀀싱 방법으로부터 발생하는 치환 오류를 또한 포함할 수 있거나 포함하지 않을 수 있는, 시퀀싱된(예컨대, 고유한 분자 식별자, UMI 사용) 폴리뉴클레오타이드의 바코딩(barcoding) 및 후속되는 염기 콜의 참조 서열(예컨대, 참조 게놈)과의 정렬 및 다른 독립적으로 생성되고 시퀀싱된 폴리뉴클레오타이드로부터의 리드의 염기 콜과의 정렬에 의존한다. 그 결과로서, 깊이 있는 시퀀싱이 동일한 유전자좌에서의 주어진 염기 콜과 참조 게놈의 값 사이의 미스매치가 시퀀싱 과정으로부터 발생하는 치환 오류가 아닌 시퀀싱된 폴리뉴클레오타이드에서의 진정한 돌연변이를 나타낸다는 확신을 얻기 위해 필요하다. 예를 들어, 기존 시퀀싱 기술을 사용하여, 집단에서 0.1%의 유병률을 가진 돌연변이에 대해 1%의 민감도를 달성하기 위해 5,000배 커버리지가 필요할 수 있다.
본원에 제시된 2-염기 시퀀싱 방법은 원래의 폴리뉴클레오타이드의 염기(예컨대, 원래의 폴리뉴클레오타이드의 진정한 염기)의 값(예컨대, 아이덴티티)을 결정하기 위해 사용될 수 있다. 일부 경우에, 원래의 폴리뉴클레오타이드의 염기의 값을 결정하는 단계는 원래의 폴리뉴클레오타이드의 돌연변이를 결정하는 것을 포함한다. 예를 들어, 본원에 개시된 일부 2-염기 시퀀싱 방법은 대상체로부터 얻어진 액체 생검 샘플로부터 유래된 샘플 폴리뉴클레오타이드, 예컨대 종양 DNA 분자 또는 이의 단편의 돌연변이의 고도로 정확하고 효율적인 확인을 초래할 수 있다. 염기는 검출되거나 그렇지 않으면 결정될 수 있다. 염기(예컨대, 제1 폴리뉴클레오타이드, 예컨대 정방향 폴리뉴클레오타이드 상의 제1 염기, 또는 제2 폴리뉴클레오타이드, 예컨대 동족 폴리뉴클레오타이드 상의 제2 염기)의 값(예컨대, 아이덴티티)은 시퀀싱에 의해 결정될 수 있다. 일부 경우에, 염기(예컨대, 원래의 폴리뉴클레오타이드의 진정한 염기)의 값(예컨대, 아이덴티티)은 컴퓨터 프로그램(예컨대, 시퀀싱 데이터의 분석을 위한 및/또는 본원에 제시된 방법의 하나 이상의 작업을 수행하기 위한 설명서를 포함함, 예컨대 6-문자, 5-문자, 또는 4-문자 시퀀싱)을 사용하여 결정될 수 있다. 일부 경우에, 그러한 컴퓨터 프로그램은 컴퓨터 메모리에 저장될 수 있다. 일부 경우에, 컴퓨터는 서열분석기를 작동시키고/거나 중합효소 연쇄 반응(PCR)을 수행할 수 있는 장치(예컨대, 프로그래밍 가능한 열순환기)를 작동시키기 위한 설명서를 포함할 수 있다.
많은 경우에, 2-염기 시퀀싱은 제1 폴리뉴클레오타이드(예컨대, 정방향 폴리뉴클레오타이드 또는 역방향 폴리뉴클레오타이드) 상의 제1 염기의 아이덴티티 및 제2 폴리뉴클레오타이드(예컨대, 동족 폴리뉴클레오타이드 또는 동족 폴리뉴클레오타이드의 앰플리콘) 상의 제2 염기의 아이덴티티에 기초하여 원래의 폴리뉴클레오타이드의 염기(예컨대, 진정한 염기)의 값(예컨대, 아이덴티티)을 결정하는 것을 포함한다. 염기의 값(예컨대, 아이덴티티)은 핵산 염기일 수 있다. 예를 들어, 염기의 값(예컨대, 아이덴티티)은 아데닌, 구아닌, 티민, 시토신, 5-메틸시토신, 또는 5-하이드록시메틸시토신인 것으로 결정될 수 있다. 일부 경우에, 염기의 값은 메틸화된 시토신인 것으로 결정될 수 있다. 예를 들어, 일부 경우에, 염기의 값은 5-메틸시토신 또는 5-하이드록시메틸시토신일 수 있는(예컨대, 그리고 아데닌, 구아닌, 티민, 및 시토신과는 구별됨) 메틸화된 시토신인 것으로 결정될 수 있다. 일부 경우에, 염기의 값은 시토신 또는 5-하이드록시메틸시토신인 것으로 결정될 수 있다(예컨대, 그리고 아데닌, 구아닌, 티민, 및 5-메틸시토신과는 구별됨). 일부 경우에, 본원에 제시된 방법 및 시스템은 6개의 상이한 염기 사이를 구별하기 위해 사용될 수 있다(예컨대, 6-문자 시퀀싱). 예를 들어, 본원에 제시된 일부 방법 및 시스템은 염기: 아데닌, 구아닌, 티민, 시토신, 5-메틸시토신, 및 5-하이드록시메틸시토신 사이를 구별하기 위해 사용될 수 있다. 일부 경우에, 본원에 제시된 방법 및 시스템은 염기의 5개의 상이한 그룹 사이를 구별하기 위해 사용될 수 있다(예컨대, 5-문자 시퀀싱). 예를 들어, 산화성 중아황산염 처리(예컨대, 제1 폴리뉴클레오타이드, 및 일부 경우에 제2 폴리뉴클레오타이드, 예를 들어, 제1 폴리뉴클레오타이드의 동족 폴리뉴클레오타이드의 루테늄산염, 예컨대 루테늄산칼륨에 대한 노출을 포함할 수 있음)를 포함하는 본원에 제시된 방법 및 시스템의 일부 예는 아데닌, 구아닌, 및 티민 사이 또는 이들 염기 중 어느 것과 시토신 및 5-하이드록시메틸시토신 중 하나 사이을 구별하는 것을 허용한다. 일부 경우에, 본원에 제시된 일부 방법 및 시스템은 아데닌, 구아닌, 티민, 시토신, 및 메틸화된 시토신 사이를 구별하기 위해 사용될 수 있다(예컨대, 아데닌, 구아닌, 티민, 시토신은 서로 및 메틸화된 시토신, 예컨대 5-메틸시토신 또는 5-하이드록시메틸시토신과 구별될 수 있다). 일부 경우에, 본원에 제시된 방법 및 시스템은 4개 염기 사이를 구별하기 위해 사용될 수 있다(예컨대, 4-문자 시퀀싱). 예를 들어, 본원에 제시된 일부 방법 및 시스템은 아데닌, 구아닌, 티민, 및 시토신 사이를 구별하기 위해 사용될 수 있다. 일부 경우에, 제1 염기(예컨대, 제1 폴리뉴클레오타이드) 및 제2 염기(예컨대, 제2 폴리뉴클레오타이드)의 결정된 값은 생물학적으로 불가능한 조합으로, 치환 오류(예컨대, 시퀀싱으로부터의)를 함축할 수 있다. 오류 코드는 결정된 제1 및 제2 염기의 조합이 불가능한 조합(예컨대, 도 20a-20f에 도시됨)을 형성하는 (예컨대, 원래의 폴리뉴클레오타이드의) 염기에 대한 값으로서 할당될 수 있다. 일부 경우에, (예컨대, 원래의 폴리뉴클레오타이드의) 진정한 염기의 값은 제1 염기 및 제2 염기의 결정된 식별자가 왓슨-크릭 염기쌍 형성에 의해 예상되지 않거나 예상된 주어진 수행된 화학적 또는 효소적 변환과 같지 않은 경우 미스콜인 것으로 결정된다. 예를 들어, 본원에 제시된 2-염기 시퀀싱 방법을 사용하는 4-문자 시퀀싱에서, 다음 조합: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 시토신, 티민 및 시토신, 또는 티민 및 티민 중 어느 것이든지 오류로서 확인될 수 있다.
많은 경우에, (예컨대, 원래의 폴리뉴클레오타이드의) 염기의 아이덴티티(예컨대, 값)는 제1 폴리뉴클레오타이드, 제2 폴리뉴클레오타이드, 리드 폴리뉴클레오타이드, 및/또는 원래의 폴리뉴클레오타이드의 결정된(예컨대, 검출된) 서열이 참조 핵산 서열(예컨대, 참조 게놈 또는 이의 일부)과 정렬되기 전에 결정된다. 많은 경우에, 제1 및 제2의 핵산 서열은, 예컨대, 제2 폴리뉴클레오타이드에 상대적인 제1 폴리뉴클레오타이드의 염기쌍 형성 및 CpG 맥락의 영역을 결정하기 위하여, (예컨대, 원래의 폴리뉴클레오타이드의) 염기의 아이덴티티(예컨대, 값)를 결정하기 전에 서로 정렬된다. 일부 경우에, 본원에 제시된 방법 및 시스템은 하나 이상의 염기가 결정되기 전에 제1 폴리뉴클레오타이드 핵산 서열(또는 이의 일부), 제2 폴리뉴클레오타이드 핵산 서열(또는 이의 일부), 또는 리드 폴리뉴클레오타이드 핵산 서열(또는 이의 일부) 중 하나 이상을 정렬하는 단계를 포함할 수 있다.
시약 및 방법
본원에 제시된 방법 및 시스템은 이중 가닥(예컨대, 듀플렉스) DNA 폴리뉴클레오타이드를 제공하고/거나 (예컨대, 화학적) 처리하는 단계를 포함할 수 있다. 이중 가닥 DNA 폴리뉴클레오타이드는 본원에 기술된 제1 폴리뉴클레오타이드를 포함할 수 있다. 이중 가닥 DNA는 제2 폴리뉴클레오타이드를 포함할 수 있다. 일부 경우에, 제1 폴리뉴클레오타이드는 이중 가닥 DNA에서 제2 폴리뉴클레오타이드에 연결된다(예컨대, 혼성화된다).
많은 경우에, 제1 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드, 또는 이의 일부이다. 일부 경우에, 제1 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드, 또는 이의 일부의 증폭 생성물이다. 일부 경우에, 제1 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드, 또는 이의 일부의 앰플리콘 복사물이다. 예를 들어, 제1 폴리뉴클레오타이드는 각각의 5-프라임(5') 및 3-프라임(3') 단부에 비해 동일한 서열 방향을 가지는 원래의 폴리뉴클레오타이드(또는 이의 일부)의 복사물일 수 있다. 원래의 폴리뉴클레오타이드 및 하나 이상의 이의 앰플리콘(예컨대, 제1 폴리뉴클레오타이드)은, 예컨대, 메틸화 마크를 앰플리콘(들)에 전달하기 위해 메틸트랜스퍼라제(예컨대, DNMT1 또는 DNMT5)와 접촉될 수 있다. 일부 경우에, 제1 폴리뉴클레오타이드는 이중 가닥(예컨대, 듀플렉스화된) DNA 분자의 정방향 가닥(예컨대, 정방향 폴리뉴클레오타이드)이다. 일부 경우에, 제1 폴리뉴클레오타이드는 이중 가닥(예컨대, 듀플렉스화된) DNA 분자의 역방향 가닥(예컨대, 역방향 폴리뉴클레오타이드)이다. 제2 폴리뉴클레오타이드는 제1 폴리뉴클레오타이드 또는 이의 일부의 증폭 생성물(예컨대, 앰플리콘)일 수 있다. 많은 경우에, 제2 폴리뉴클레오타이드는 동족 폴리뉴클레오타이드이다. 제2 폴리뉴클레오타이드(예컨대, 동족 폴리뉴클레오타이드)는 제1 폴리뉴클레오타이드의 핵산 서열의 전부 또는 일부에 상보적인 핵산 서열을 가질 수 있다. 많은 경우에, 제2 폴리뉴클레오타이드(예컨대, 동족 폴리뉴클레오타이드)는, 예를 들어 제1 폴리뉴클레오타이드의 일부 또는 제1 폴리뉴클레오타이드의 단부(예컨대, 3' 단부)에 결찰된 헤어핀 폴리뉴클레오타이드(예컨대, 비오틴 태그를 포함하거나 포함하지 않을 수 있음)에 혼성화할 수 있는 핵산 프라이머(예컨대, 비오틴 태그를 포함하거나 포함하지 않을 수 있음)를 사용하여 제1 폴리뉴클레오타이드(예컨대, 정방향 폴리뉴클레오타이드)의 전부 또는 일부에 대해 중합효소 연쇄 반응을 수행함으로써 제공될 수 있다.
제1 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드 또는 이의 단편을 포함할 수 있다. 일부 경우에, 원래의 폴리뉴클레오타이드는 인공 분자이다. 일부 경우에, 원래의 폴리뉴클레오타이드는 대상체로부터 유래된다. 일부 경우에, 원래의 폴리뉴클레오타이드는 게놈 DNA를 포함한다. 일부 경우에, 원래의 폴리뉴클레오타이드는 무세포 DNA, 예를 들어, 액체 생검 샘플(예컨대, 대상체로부터 얻어짐)로부터의 무세포 DNA를 포함한다. 일부 경우에, 무세포 DNA는 샘플에 존재하는 하나 이상의 DNA 폴리뉴클레오타이드 비캡슐화된 DNA 분자(들) 또는 이의 단편(들)을 포함할 수 있다. 예를 들어, 무세포 DNA를 포함하는 원래의 폴리뉴클레오타이드는 샘플(예컨대, 액체 생검 샘플, 예컨대 혈액 샘플)로부터 얻어진 DNA 폴리뉴클레오타이드 또는 이의 단편을 포함할 수 있고, 샘플 중의 DNA 폴리뉴클레오타이드 또는 단편은 세포 내에 있지 않다. 일부 경우에, 원래의 폴리뉴클레오타이드는 종양 DNA 분자 또는 이의 단편(예컨대, 무세포 종양 DNA, 예컨대 순환 종양 DNA(ctDNA))를 포함한다. 일부 경우에, 원래의 폴리뉴클레오타이드는 세포로부터 얻어진(예컨대, 추출된) 게놈 DNA 분자 또는 이의 단편이다. 일부 경우에, 원래의 폴리뉴클레오타이드의 염기를 결정하는 방법은 단일 세포로부터의 출발 물질(예컨대, 원래의 폴리뉴클레오타이드(들))을 사용하여 수행될 수 있다.
일부 경우에, 원래의 폴리뉴클레오타이드는 길이가 10 염기쌍(bp) 내지 10,000 bp이다. 일부 경우에, 원래의 폴리뉴클레오타이드는 길이가 100 bp 내지 1,000 bp이다. 일부 경우에, 원래의 폴리뉴클레오타이드는 길이가 150 내지 250 bp이다. 일부 경우에, 원래의 폴리뉴클레오타이드는 길이가 10,000 bp보다 크다. 일부 경우에, 제1 폴리뉴클레오타이드는 길이가 10 염기쌍(bp) 내지 10,000 bp이다. 일부 경우에, 제1 폴리뉴클레오타이드는 길이가 100 bp 내지 1,000 bp이다. 일부 경우에, 제1 폴리뉴클레오타이드는 길이가 150 내지 250 bp이다. 일부 경우에, 원래의 폴리뉴클레오타이드는 길이가 10,000 bp보다 크다.
본원에는 DNA 가닥에서 뉴클레오타이드의 비메틸화 염기, 뉴클레오타이드의 메틸화된 염기 및 뉴클레오타이드의 하이드록시메틸화된 염기, 예를 들어, 시토신, 5mC, 및 5hmC 잔기를 구별 및 확인하기 위해 사용될 수 있는 방법, 시스템, 기법, 키트, 조성물, 및 시약이 제공된다. 본원의 방법은 시퀀싱을 사용할 수 있다. 예를 들어, 방법은 이중 가닥 DNA 폴리뉴클레오타이드에 대해 수행될 수 있다. 일부 경우에, 방법은 단일 가닥의 DNA 폴리뉴클레오타이드에 대해 수행될 수 있다. 이들 잔기는 본원에 제공된 하나 이상의 방법을 사용하여, 예를 들어 단일 염기쌍 분해능에서 확인될 수 있다. 뉴클레오타이드, 예컨대, 시토신, 및 이들의 또는 이의 변형된 형태는 본원에서 수행된 임의의 방법의 일부로서 서로 상이하게 나타나도록 화학적으로 또는 효소적으로 변경된다. 일부 구현예에서, 이것은 정보의 추가 비트를 얻기 위하여 제1 폴리뉴클레오타이드뿐만 아니라 제2 폴리뉴클레오타이드(예컨대, 이중 가닥 DNA 폴리뉴클레오타이드의)에 대해 수행될 수 있다. 일부 그러한 경우에, 제2 폴리뉴클레오타이드는 비변형 핵산 염기, 예컨대, 시토신을 갖는 것으로서 시작할 수 있는 한편, 제1 폴리뉴클레오타이드는, 예컨대, 분석될 샘플에서 발견되는 것과 같이, 변형된 핵산 염기, 예컨대, 변형된 시토신을 포함할 수 있다. 일부 구현예에서, 시퀀싱된 생성물(제1 폴리뉴클레오타이드, 제2 폴리뉴클레오타이드, 또는 둘 다)은 원래의 폴리뉴클레오타이드(예컨대, 제1 폴리뉴클레오타이드일 수 있음)의 시토신 잔기의 메틸화 상태를 결정하기 위하여 디코딩되거나 디콘볼루션될 수 있다. 어떤 경우에, 디코딩은 바이너리일 수 있다. 예를 들어, DNA의 이중 가닥을 분석할 때, 티민으로서 판독되는 양 가닥 상에서 서로 근접한 두 염기의 존재는 원래의 폴리뉴클레오타이드에서 시토신의 존재를 나타낼 수 있다. 어떤 경우에, DNA의 이중 가닥을 분석할 때, 시토신으로서 판독되는 양 가닥 상에서 서로 근접한 두 염기의 존재는 원래의 폴리뉴클레오타이드에서 시토신의 존재를 나타낼 수 있다. 어떤 경우에, DNA의 이중 가닥을 분석할 때, 티민으로서 판독되는 양 가닥 상에서 서로 근접한 두 염기의 존재는 원래의 폴리뉴클레오타이드에서 5mC의 존재를 나타낼 수 있다. 어떤 경우에, DNA의 이중 가닥을 분석할 때, 시토신으로서 판독되는 양 가닥 상에서 서로 근접한 두 염기의 존재는 원래의 폴리뉴클레오타이드에서 5mC의 존재를 나타낼 수 있다. 어떤 경우에, DNA의 이중 가닥을 분석할 때, 하나의 시토신 및 하나의 티민으로서 판독되는 양 가닥 상에서 서로에 대한 두 염기의 근접성은 원래의 폴리뉴클레오타이드에서 5mC의 존재를 나타낼 수 있다.
도 1a 및 1b는 시토신, 5mC, 및 5hmC가 변형될 수 있고(예컨대, 원래의 폴리뉴클레오타이드일 수 있는 제1 폴리뉴클레오타이드에서) 시퀀싱되어 원래의 폴리뉴클레오타이드에서 시토신, 5mC, 및 5hmC을 구별 및 확인할 수 있는 방법의 예를 도시한다. 그러한 구별 및 확인은 단일 염기 분해능에서 있을 수 있다. 그러한 방법은 하나 이상의 헤어핀을 이중 가닥 DNA(예컨대, 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드를 포함함)에 결찰시키고, 제1 및 제2 폴리뉴클레오타이드를 탈어닐링(예컨대, 용융)함으로써 시작될 수 있다. 일부 경우에, 헤어핀 분자의 후속 결찰을 허용하는 분자 또는 모이어티는 이중 가닥 DNA에 결찰될 수 있다. 예를 들어 베타-글루코실트랜스퍼라제(BGT) 및 우리딘다이포스페이트 글루코스(UDPG)를 사용함으로써 제1 폴리뉴클레오타이드 상에서 5 mC의 글루코실화는 제1 폴리뉴클레오타이드 상에서 5hmC를 글루코실화하기 위해 수행되어 5-글루코실하이드록시메틸시토신(5ghmC 또는 ghmC)을 생성할 수 있다. 그러한 글루코실화는 다른 작용제, 예컨대 본원에 개시된 방법 또는 시스템에서 사용된 작용제의 일부 화학적 활성으로부터 5hmC를 보호할 수 있다. 일부 경우에, 메틸트랜스퍼라제(예컨대, DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNMT5)가, 예를 들어 제2 폴리뉴클레오타이드 상의 시토신 염기를 메틸화하기 위해 사용될 수 있고, 여기서 메틸화는 적어도 부분적으로 제1 폴리뉴클레오타이드 상의 메틸화된 염기, 예를 들어 mC에 의해 지시된다. 많은 메틸트랜스퍼라제(DNTM1 및 DNMT5 포함)가 메틸화된 시토신(예컨대, 5-메틸시토신(5mC) 또는 5-하이드록시메틸시토신(5hmC))에 상응하는(예컨대, 염기쌍을 형성하는) 제1 염기에 근접한(예컨대, 인접한) 이중 가닥 DNA 폴리뉴클레오타이드의 제2 폴리뉴클레오타이드의 제2 염기(예컨대, 시토신)에 대해 작용한다. 일부 경우에, 제1 염기 및 제2 염기는, 예를 들어, 제1 폴리뉴클레오타이드의 제1 염기(예컨대, 메틸화된 시토신, 예를 들어, 5mC 또는 5hmC)가 제1 폴리뉴클레오타이드의 구아닌(예컨대, 시토신-포스페이트-구아닌)에 인접하고, 제2 폴리뉴클레오타이드 상의 시토신과 염기쌍을 형성하기 때문에(예컨대, 비메틸화) CpG 맥락에 있다고 말할 수 있다(예컨대, 메틸트랜스퍼라제 또는 이의 생물학적 활성 단편은 제1 염기의 그것에 매칭되는 5-메틸- 또는 5-하이드록시메틸- 태그를 갖도록 변형시킬 수 있다). 도 1a-1b, 2a-2d, 3, 4, 6, 9, 12, 17, 19c, 및 19e에서 도시된 제1 폴리뉴클레오타이드 상의 비메틸화 및 메틸화된 시토신 염기(및 회합된 티민, ghmC, 포르밀시토신(fC), 및 dhU 염기 변형)(예컨대, 5' 단부로 표지됨)는 위의 도면에서 제2 폴리뉴클레오타이드 상에 도시된 상응하는 염기에 근접할 수 있는 것(예컨대, CpG 맥락에서)이 주지된다. CpG 관계를 묘사하는 다양한 이미지에서 염기쌍을 형성한 구아닌은 일부 경우에 도면의 시각적 명료성 및 해석의 용이성을 개선하기 위하여 생략되었다. 본원에 제시된 일부 방법 및 시스템은 제1 폴리뉴클레오타이드 및/또는 제2 폴리뉴클레오타이드를 탈아미노화제에 노출시키는 단계를 포함한다. 탈아미노화(예컨대, 중아황산염 또는 탈아미노효소 효소로의 처리에 의한)가 수행되어 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드에서 비메틸화 시토신 잔기 대신 탈아미노화된 염기, 예를 들어 우라실이 생성되고, 두 가닥 모두 시퀀싱될 수 있다. 탈아미노화된 염기는 서열분석기에서 탈아미노화된 염기로서 판독될 수 있다. 일부 구현예에서, 우라실은 서열분석기에 의해 티민으로서 판독될 수 있다. 처리 전 제1 폴리뉴클레오타이드가 (예컨대, CpG 모이어티의 맥락에서) 비메틸화 시토신 잔기를 함유하는 경우에, 두 별도의 가닥 상의 물리적으로 근접한 두 티민 잔기가 시퀀싱 중에 판독될 수 있다. 처리 전 제1 폴리뉴클레오타이드가 5mC 잔기를 함유하는 경우에, 두 별도의 가닥 상의 물리적으로 근접한 두 시토신 잔기가 시퀀싱 중에 판독될 수 있다. 처리 전 제1 폴리뉴클레오타이드가 5hmC 잔기를 함유하는 경우에, 시토신(예컨대, 제1 폴리뉴클레오타이드 상의) 및 티민(제2 폴리뉴클레오타이드)이 시퀀싱 중에 판독될 수 있다. 방법은 중아황산염-시퀀싱 또는 산화성 중아황산염(ox-BS) 시퀀싱을 포함하는 방법보다 월등할 수 있는 결과를 생성한다. 산화성 중아황산염(ox-BS) 시퀀싱 및 산화성 중아황산염 시퀀싱에 의해 생성된 데이터의 분석을 수행하는데 유용한 방법은 국제 특허 공개 번호 WO2013017853에서 기술된다. 메틸화된 시토신(예컨대, 5-하이드록시메틸시토신)을 산화시킬 수 있는 작용제, 예컨대 루테늄산염(예컨대, 루테늄산칼륨)이 산화성 중아황산염 시퀀싱을 포함하는 방법에서 산화제로서 사용될 수 있다.
일부 경우에, 하나 이상의 시퀀싱 어댑터가, 예를 들어 도 1b에서 도시된 것과 같이, 화학적 처리 작업(예컨대, 메틸트랜스퍼라제 활성을 가진 실체와의 접촉, 산화제와의 접촉, 환원제와의 접촉, 중아황산염과의 접촉, 탈아미노화제와의 접촉) 후에 이중 가닥 DNA 분자의 하나 이상의 단부(예컨대, 5' 단부 및/또는 3' 단부)에 커플링된다(예컨대, 결찰된다). 일부 경우에, 하나 이상의 시퀀싱 어댑터가, 예를 들어 도 1b에서 도시된 것과 같이, 화학적 처리 작업(예컨대, 메틸트랜스퍼라제 활성을 가진 실체와의 접촉, 산화제와의 접촉, 환원제와의 접촉, 중아황산염과의 접촉, 탈아미노화제와의 접촉) 후에 이중 가닥 DNA 분자의 하나 이상의 단부(예컨대, 5' 단부 및/또는 3' 단부)에 커플링된다(예컨대, 결찰된다). 이중 가닥 DNA 폴리뉴클레오타이드의 제1 및/또는 제2 폴리뉴클레오타이드의 하나 이상에 대한 하나 이상의 시퀀싱 어댑터의 커플링이, 일부 경우에, 본원에 제시된 방법의 작업 사이에서 수행될 수 있는 것으로 고려된다.
도 2a-2d는 시토신, 5mC, 및 5hmC가 변형되고 시퀀싱되어 제1 폴리뉴클레오타이드에서 시토신, 5mC, 및 5hmC를 구별 및 확인할 수 있는 방법을 도시한다. 그러한 구별 및 확인은 단일 염기 분해능에서 있을 수 있다. 다양한 구현예에서, 중아황산염 처리는 필요하지 않다. 일부 구현예에서, 이런 중아황산염의 결여는 시퀀싱될 DNA를 분해 또는 손상으로부터 보호할 수 있다. 도 2a에서, 예를 들어 BGT 및 UDPG를 사용하는 제1 폴리뉴클레오타이드 상에서 5hmC의 글루코실화는 제1 폴리뉴클레오타이드 상에서 5hmC를 글루코실화하기 위해 수행되어 5-글루코실하이드록시메틸시토신(5ghmC 또는 ghmC)이 생성될 수 있다. 그러한 글루코실화는 5hmC를 일부 화학적 변환으로부터 보호할 수 있다. 일부 경우에, DNMT1은 제2 폴리뉴클레오타이드 상에서 예를 들어 시토신 염기를 메틸화하기 위해 사용될 수 있으며, 여기서 메틸화는 적어도 부분적으로 제1 폴리뉴클레오타이드 상의 메틸화된 염기, 예를 들어 mC에 의해 지시된다. 일부 구현예에서, 우라실은 서열분석기에 의해 티민으로서 판독될 수 있다. 그런 후 산화 및 글루코실화가 수행되어(예컨대, 각각 10-11 전좌 메틸시토신 이산소화효소 효소(TET) 및 BGT를 사용함) 5mC가 5ghmC로 전환될 수 있다. 티민을 생성하기 위한 시토신의 탈아미노화는, 예를 들어 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC - 예컨대, 예를 들어, APOBEC 3A) 및 나선효소, 또는 이들의 일부를 사용함으로써 수행될 수 있고, 양 가닥 모두 시퀀싱될 수 있다. 결과적으로 생성된 시퀀싱 데이터는 디코딩되어 염기가 시토신, 5mC 및 5 hmC인 것이 결정될 수 있다. 일부 구현예에서, 또 다른 시약이 나선효소 대신 또는 그에 더불어 단일 가닥 DNA를 생성하기 위해 사용될 수 있다. 그러한 시약의 예는, 예를 들어, 포름아미드 또는 수산화 나트륨(NaOH)을 포함할 수 있다. 처리 전 제1 폴리뉴클레오타이드가 비메틸화 시토신 잔기를 함유하는 경우, 제1 및 제2 폴리뉴클레오타이드 상의 물리적으로 근접한 두 티민 잔기가 시퀀싱 중에, 예컨대, CpG 맥락에서 판독될 수 있다. 처리 전 제1 폴리뉴클레오타이드가 5mC 잔기를 함유하는 경우, 두 가닥(예컨대, 제1 및 제2 폴리뉴클레오타이드) 상의 물리적으로 근접한 두 시토신 잔기가 시퀀싱 중에, 예컨대, CpG 맥락에서 판독될 수 있다. 시퀀싱 전 제1 폴리뉴클레오타이드가 5hmC 잔기를 함유하는 경우, 두 가닥(예컨대, 제1 및 제2 폴리뉴클레오타이드) 상에서 물리적으로 근접한 시토신(제1 폴리뉴클레오타이드) 및 티민(제2 폴리뉴클레오타이드)이, 예컨대, CpG 맥락에서 시퀀싱 중에 판독될 수 있다. 방법은 중아황산염-시퀀싱 또는 ox-BS 시퀀싱을 포함하는 방법보다 월등할 수 있는 결과를 생성할 수 있다.
도 2b에서, 제1 폴리뉴클레오타이드는 메틸트랜스퍼라제(MT) 및 S-아데노실 메티오닌(SAM) 유사체로 사전처리되어 비메틸화 시토신 대신 메틸 유도체 기가 첨부된 시토신이 생성될 수 있다. 일부 경우에, DNMT1은 예를 들어 제2 폴리뉴클레오타이드 상의 시토신 염기를 메틸화하기 위해 사용될 수 있고, 여기서 메틸화는 적어도 부분적으로 제1 폴리뉴클레오타이드 상의 메틸화된 염기, 예를 들어 5mC에 의해 지시된다. 일부 구현예에서, 우라실은 서열분석기에 의해 티민으로서 판독될 수 있다. 예를 들어 BGT 및 UDPG를 사용하는 제1 폴리뉴클레오타이드 상에서 5hmC의 글루코실화는 제1 폴리뉴클레오타이드 상에서 5hmC를 글루코실화하기 위해 수행되어 5-글루코실하이드록시메틸시토신(5ghmC 또는 ghmC)이 생성될 수 있다. 그러한 글루코실화는 5hmC를 일부 화학적 변환, 예컨대 메틸트랜스퍼라제(예컨대, DNMT1 또는 DNMT5) 활성으로부터 보호할 수 있다. 그런 후 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드는 MT 및 SAM 유사체로 처리되어 비메틸화 시토신 대신 SAM 유사체가 첨부되어 있는 시토신이 다시 생성될 수 있다. 핵산 염기, 예컨대, 시토신의 탈아미노화는, 예를 들어 APOBEC3A 또는 이의 단편 또는 돌연변이체를 사용하고 예를 들어 나선효소(예컨대, APOBEC3A 매개 탈아미노화를 위해 제1 및 제2 폴리뉴클레오타이드 가닥을 분리하기 위해 사용될 수 있음), 단일 가닥 DNA 결합 단백질(SSB)을 사용하여 제1 및 제2 폴리뉴클레오타이드의 적어도 일부를 분리함으로써 수행될 수 있다. 일부 경우에, 이중 가닥 탈아미노효소(예컨대, DddA, 예를 들어, 전체 내용이 참조로 본원에 포함되는 Mok, B.Y., de Moraes, M.H., Zeng, J. et al. A bacterial cytidine deaminase toxin enables CRISPR-free mitochondrial base editing. Nature 583, 631-637(2020) 참고)가 사용될 수 있는데, 그것은 제1 및 제2 폴리뉴클레오타이드가 분리되고, 제1 및 제2 폴리뉴클레오타이드가 시퀀싱될 것을 필요로 하지 않을 수 있다. 일부 경우에, 이중 가닥 DNA 폴리뉴클레오타이드의 제1 및 제2 폴리뉴클레오타이드의 분리 단계는, 예를 들어 이중 가닥 DNA 폴리뉴클레오타이드의 용융 온도를 낮추기 위하여 이중 가닥 DNA 폴리뉴클레오타이드를 삽입제(예컨대, 브롬화 에티듐)와 접촉시키는 것을 포함할 수 있다. 일부 경우에, 이중 가닥 DNA 폴리뉴클레오타이드의 제1 및 제2 폴리뉴클레오타이드의 분리 단계는 제1 및/또는 제2 폴리뉴클레오타이드를 (예컨대, NaOH로) 화학적으로 처리하는 것을 포함할 수 있다. 제2 폴리뉴클레오타이드로부터 제1 폴리뉴클레오타이드의 분리를 보조하는 그러한 방법은 이중 가닥 폴리뉴클레오타이드의 쌍을 형성한 염기 사이의 왓슨-크릭 미스매치가 예상되지 않는 경우에(예컨대, 본원에 제시된 것과 같이, 2-염기 시퀀싱 분석을 사용하여 4-문자 시퀀싱하는 어떤 경우에) 특히 유용하다. 탈아미노화된 시토신은 서열분석기를 사용하여 티민으로서 판독될 수 있다. 처리 전 제1 폴리뉴클레오타이드가 비메틸화 시토신 잔기를 함유하는 경우에, 두 시토신 잔기는 예컨대, CpG 맥락에서 시퀀싱 중에 별도의 두 가닥(예컨대, 제1 및 제2 폴리뉴클레오타이드) 상에서 물리적으로 근접하여 판독될 수 있다. 처리 전 제1 폴리뉴클레오타이드가 5mC 잔기를 함유하는 경우에, 별도의 두 가닥 상에 물리적으로 근접한 두 티민 잔기는 예컨대, CpG 맥락에서 시퀀싱 중에 별도의 두 가닥 상에서 물리적으로 근접하여 판독될 수 있다. 시퀀싱 전 제1 폴리뉴클레오타이드가 5hmC 잔기를 함유하는 경우에, 시토신(제1 폴리뉴클레오타이드) 및 티민(제2 폴리뉴클레오타이드, 예컨대, 동족 폴리뉴클레오타이드)은 예컨대, CpG 맥락에서 시퀀싱 중에 판독될 수 있다. 방법은 중아황산염-시퀀싱 또는 ox-BS 시퀀싱을 포함하는 방법보다 월등할 수 있는 결과를 생성할 수 있다.
이중 가닥 DNA 폴리뉴클레오타이드의 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드(예컨대, 도 1a-12, 및 17-19e에서 도시됨)는 연결될 수 있다(예컨대, 서로에게). 일부 경우에, 이중 가닥 DNA 폴리뉴클레오타이드의 제1 폴리뉴클레오타이드 및 이중 가닥 DNA 폴리뉴클레오타이드의 제2 폴리뉴클레오타이드는 헤어핀(예컨대, 헤어핀 폴리뉴클레오타이드)을 통해 연결된다. 일부 경우에, 이중 가닥 DNA 폴리뉴클레오타이드의 제1 폴리뉴클레오타이드 및 이중 가닥 DNA 폴리뉴클레오타이드의 제2 폴리뉴클레오타이드는 왓슨-크릭 염기쌍 형성(예컨대, 핵산 혼성화)을 통해 연결된다. 일부 경우에, 이중 가닥 DNA 폴리뉴클레오타이드의 제1 폴리뉴클레오타이드 및 이중 가닥 DNA 폴리뉴클레오타이드의 제2 폴리뉴클레오타이드는 제1 및/또는 제2 폴리뉴클레오타이드와 관련된 정보(예컨대, 제1 폴리뉴클레오타이드, 제2 폴리뉴클레오타이드, 또는 둘 다의 하나 이상의 단부에 결찰된 또는 결합된 하나 이상의 바코드(예컨대, 고유한 바코드 또는 UMI) 형태의)를 통해 연결된다. 일부 경우에, 이중 가닥 DNA 폴리뉴클레오타이드의 제1 폴리뉴클레오타이드 및 이중 가닥 DNA 폴리뉴클레오타이드의 제2 폴리뉴클레오타이드는 제1 및 제2 폴리뉴클레오타이드를 연결시키기 위한 다른 방법의 조합을 통해 연결된다. 도 1a-12, 및 17-19e가 본원에 개시된 방법, 시스템, 및 조성물의 주어진 구현예 또는 구현예 세트에 대해 이중 가닥 폴리뉴클레오타이드의 제1 및 제2 폴리뉴클레오타이드를 연결시키는 한 가지 예를 도시할 수 있지만, 제1 및 제2 폴리뉴클레오타이드의 연결은 각각의 구현예에 대해 본원에 제시된 예의 어느 것을 통해서도 달성될 수 있는 것이 주지된다. 예를 들어, 헤어핀 폴리뉴클레오타이드가 도 2a-2d, 3, 또는 4에서 도시되지 않지만, 이들 도면에 도시된 방법 및 시스템 및 조성물에서 사용된 제1 및 제2 폴리뉴클레오타이드는 헤어핀 폴리뉴클레오타이드(들)를 통해 연결될 수 있다.
도 3은 시토신, 5mC, 및 5hmC이 변형되고 시퀀싱되어 도 3에 도시된 제1 폴리뉴클레오타이드에서 시토신, 5mC, 및 5hmC를 구별하고 확인할 수 있는 추가 방법을 도시한다. 그러한 구별 및 확인은 단일 염기 분해능에서 있을 수 있다. KRuO4가 제1 폴리뉴클레오타이드에서 하이드록시메틸화된 핵산 염기, 예컨대, 5hmC를 산화시켜서, 포르밀 핵산 염기, 예컨대, 5-포르밀시토신(5fC 또는 fC)을 생성하기 위해 사용될 수 있다. 일부 경우에, DNMT1은 예를 들어 제2 폴리뉴클레오타이드 상의 시토신 염기를 메틸화하기 위해 사용될 수 있고, 여기서 메틸화는 적어도 부분적으로 제1 폴리뉴클레오타이드 상의 메틸화된 염기, 예를 들어 mC에 의해 지시된다. 그런 후 산화가 수행되어(예컨대, 산화효소 또는 이의 생물학적 활성 부분, 예컨대 TET를 사용하여) 5mC가 5-카르복실시토신(5caC 또는 caC)으로 전환될 수 있다. 폴리뉴클레오타이드(예컨대, 제1 폴리뉴클레오타이드, 제2 폴리뉴클레오타이드, 또는 이중 가닥 DNA 폴리뉴클레오타이드)의 전부 또는 일부의 산화를 포함하는 본원에 제시된 방법 및 시스템의 작동은 5-메틸시토신, 5-하이드록시메틸시토신, 및/또는 5-포르밀시토신을 산화시키는 산화효소를 사용할 수 있지만, TET가 종종 본원에서 예시의 산화제로서 사용되는 것이 주지된다. 그런 후 Pic-보레인이 시퀀싱을 위해 5caC를 DHU 잔기로 전환시키기 위해 사용될 수 있고, 두 가닥이 모두 시퀀싱될 수 있다(예컨대, DHU는 티민으로서 판독됨). 처리 전 제1 폴리뉴클레오타이드가 비메틸화 시토신 잔기를 함유하는 경우, 두 시토신 잔기는 예컨대, CpG 맥락에서 시퀀싱 중에 별도의 두 가닥(예컨대, 제1 및 제2 폴리뉴클레오타이드) 상에서 물리적으로 근접하여 판독될 수 있다. 처리 전 원래의 가닥이 5mC 잔기를 함유하는 경우, 두 티민 잔기는 예컨대, CpG 맥락에서 시퀀싱 중에 별도의 두 가닥 상에서 물리적으로 근접하여 판독될 수 있다. 시퀀싱 전 원래의 가닥이 5hmC 잔기를 함유하는 경우, 티민(제1 폴리뉴클레오타이드) 및 시토신(제2 폴리뉴클레오타이드)은 예컨대, CpG 맥락에서 시퀀싱 중에 개별 가닥(예컨대, 제1 폴리뉴클레오타이드 및/또는 제2 폴리뉴클레오타이드) 상에서 물리적으로 근접하여 판독될 수 있다. 방법은 중아황산염-시퀀싱 또는 ox-BS 시퀀싱을 포함하는 방법보다 월등할 수 있는 결과를 생성할 수 있다.
일부 구현예에서, 상이한 시약이, 예를 들어 5caC를 티민 잔기로 전환시키기 위해 사용될 수 있다. 그러한 상이한 시약은 예를 들어, pic-보레인 대신 사용될 수 있다. 일부 구현예에서, 상이한 시약은 보레인, 보레인의 유도체, 또는 pic-보레인의 유도체 또는 전구체일 수 있다. 일부 구현예에서, 상이한 시약은 pic-보레인에 대한 구조적 또는 화학적 유사성을 포함할 수 있다. 일부 구현예에서, 예를 들어, 그러한 시약(예컨대, 환원제)은 피리딘 보레인, 2-피콜린 보레인(pic-BH3 또는 pic-보레인), 보레인, tert-부틸아민 보레인, 암모니아 보레인, 수소화붕소 나트륨, 에틸렌다이아민 보레인, 다이메틸아민 보레인, 나트륨 트라이아세톡시보로하이드라이드, 모르폴린 보레인, 4-메틸모르폴린 보레인, 트라이메틸아민 보레인, 다이사이클로헥실아민 보레인, 또는 이들의 염을 포함할 수 있다. 일부 구현예에서, 5caC의 티민으로의 전환은, 예를 들어, 전체 내용이 본원에 참조로 포함되는 WO2019/13613 A1에서 제공된 것과 같이 수행될 수 있다. 일부 구현예에서, 그러한 환원 작업에 사용된 시약은 위에서 제공된 환원제와 조합되거나 대신 사용되는 상이한 환원제를 포함할 수 있다. 환원제는 수소화붕소 나트륨(NaBH4), 나트륨 시아노보로하이드라이드(NaBH3CN), NaCNBEE, 또는 수소화붕소 리튬(LiBH4)을 포함할 수 있다. 환원제는 수소화 알루미늄 리튬, 나트륨 아말감, 아말감, 다이보레인, 수소화붕소 나트륨, 이산화황, 이티온산염, 티오황산염, 요오드화물, 과산화수소, 하이드라진, 다이아이소부틸알루미늄 하이드라이드, 옥살산, 일산화탄소, 시안화물, 아스코르브산, 포름산, 다이티오트레이톨, 베타-머캡토에탄올, 또는 이들의 임의의 조합을 포함할 수 있다. 환원제는 5caC를 티민 잔기로 선택적으로 환원시키거나, 또는 선택적 환원을 개선시킬 수 있다.
일부 구현예에서, caC(예컨대, 5caC)는 본원에 제공된 방법에서, 예를 들어 우라실(U) 또는 다이하이드로우라실(DHU)로 환원될 수 있다. 이것은, 예를 들어, 본원에 제공된 방법에서 caC의 티민 잔기로의 전환 대신 수행될 수 있다. 일부 그러한 구현예에서, 이것은, 예를 들어, 전체 내용이 본원에 참조로 포함되는 참고문헌(Schuler P, Miller AK. Sequencing the sixth base(5-hydroxymethylcytosine): selective DNA oxidation enables base-pair resolution. Angew Chem Int Ed Engl. 2012;51(43):10704-10707. doi:10.1002/anie.201204768)에서 기술된 것과 같이 수행될 수 있다.
2-염기 시퀀싱 방법의 일부 구현예에서, 제1 폴리뉴클레오타이드(및/또는 제2 폴리뉴클레오타이드)는, 예를 들어, 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드가 DNA 메틸트랜스퍼라제 활성을 가진 작용제와 접촉되기 전에 베타-글루코트랜스퍼라제(bGT)와 접촉되지 않는다. 예를 들어, 6개의 핵산 염기를 구별할 수 있는 2-염기 시퀀싱 방법(예컨대, 6-문자 시퀀싱, 아데닌, 구아닌, 티민, 시토신, 5-메틸시토신, 및 5-하이드록시메틸시토신이 모두 서로 구별될 수 있음)은, 일부 경우에, 제1 폴리뉴클레오타이드(및/또는 제2 폴리뉴클레오타이드)가 bGT와 접촉되는 것을 포함하지 않을 수 있다(예컨대, 도 4에서 도시됨). 일부 경우에, 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드는 메틸화 태그를 제1 폴리뉴클레오타이드 상의 5-메틸시토신 염기로부터 제2 폴리뉴클레오타이드 상의 시토신(예컨대, 제1 폴리뉴클레오타이드 상의 5-메틸시토신의 유전자좌에 상응하는 유전자좌에 근접한(예컨대, 인접한) 제2 폴리뉴클레오타이드 상의 시토신)에 전달하기에 충분한 특이성으로 DNA 메틸트랜스퍼라제 활성을 가진 분자와 접촉된다. 예를 들어, DNA 메틸트랜스퍼라제-5(DNMT5) 또는 DNMT1은 예를 들어, 5-메틸시토신(5mC) 태그를 제2 폴리뉴클레오타이드의 시토신에 전달하기 위해 5-메틸시토신 염기 및/또는 5-하이드록시메틸시토신(5hmC) 염기를 포함하는 제1 폴리뉴클레오타이드(예컨대 제1 폴리뉴클레오타이드는, 예를 들어, 왓슨-크릭 염기쌍 형성을 통해 및/또는 헤어핀 폴리뉴클레오타이드를 통해 연결됨)를 접촉시키는 데 사용될 수 있고, 여기서 5mC 및 시토신은 CpG 맥락에 있다. 일부 경우에, 예를 들어, DNMT1 또는 DNMT5 메틸트랜스퍼라제 활성의 염기 특이성으로 인해, 동일한 제1 폴리뉴클레오타이드 상의 비보호 5hmC 염기는 DNMT5 또는 DNMT1과 접촉될 때 (예컨대, 제1 폴리뉴클레오타이드 상의 5hmC와 함께(예컨대, 그에 근접한) CpG 맥락에서 제2 폴리뉴클레오타이드 상에 표시되지 않은 시토신이 존재하더라도) 제2 폴리뉴클레오타이드 상의 시토신에 전달되지 않을 것이다. 일부 경우에, 메틸트랜스퍼라제는 제1 폴리뉴클레오타이드 상의 5-메틸시토신 염기로부터 제2 폴리뉴클레오타이드 상의 (예컨대, 연결된) 시토신(예컨대, 제1 폴리뉴클레오타이드 상의 5-메틸시토신의 유전자좌에 상응하는 유전자좌에 근접한(예컨대, 인접한) 제2 폴리뉴클레오타이드 상의 시토신)에 전달하는데 특이적이지 않을 수 있고 5-하이드록시메틸시토신은 변형을 통한, 예를 들어 (예컨대, 효소적) 글리코실화를 통한 비특이적 메틸트랜스퍼라제 활성으로부터 보호될 수 있다. 제1 및 제2 폴리뉴클레오타이드가 DNA 메틸트랜스퍼라제와 접촉된 후에, 제1 및 제2 폴리뉴클레오타이드는, 예를 들어, 제1 폴리뉴클레오타이드 및/또는 제1 및 제2 폴리뉴클레오타이드 상에 존재하는 5mC 및 5hmC 염기를 5-카르복실시토신(예컨대, 도 4에 도시된 것과 같은 "5caC" 또는 "caC")으로 전환시키기 위해 산화제(예컨대, TET, TET 유도체, 또는 이의 생물학적 활성 단편)와 접촉될 수 있다. 제1 및 제2 폴리뉴클레오타이드는, 예를 들어, caC 염기를 DHU 잔기로 전환시키기 위해 환원제(예컨대, 본원에 제시된 환원제, 예컨대 보레인)와 접촉될 수 있다. 환원제와의 접촉 후에, 제1 및/또는 제2 폴리뉴클레오타이드는 약염기 또는, 일부 경우에, 약산으로 처리될 수 있다. 일부 경우에, 제1 및 제2 폴리뉴클레오타이드는 리드 폴리뉴클레오타이드가 본원에서 기술된 것과 같이(예컨대, PCR을 사용하여) 생성되기 전에 분리된다(예컨대, 나선효소, 단일 가닥 DNA 결합 단백질, 가닥 대체 중합효소, 또는 온도의 증가를 사용함). 본원에서 기술되는 것과 같이, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드는 시퀀싱될 수 있고, 원래의 폴리뉴클레오타이드(일부 경우에, 제1 폴리뉴클레오타이드일 수 있음) 상의 진정한 염기의 값은 본원에 제시된 2-염기 시퀀싱을 사용하여 결정될 수 있다. 예를 들어, 원래의 폴리뉴클레오타이드(제1 폴리뉴클레오타이드일 수 있음) 상의 진정한 염기의 값은 제1 폴리뉴클레오타이드의 제1 염기 및 제2 폴리뉴클레오타이드의 제2 염기의 아이덴티티에 기초하여 결정될 수 있으며, 예컨대, 제2 염기는 제1 염기와 쌍을 형성하거나(예컨대, 진정한 염기의 값이 아데닌, 구아닌, 또는 티민인 것으로 결정되는 경우에서와 같이 왓슨-크릭 염기쌍 형성) 또는 제2 염기는 제1 염기와 근접한다(예컨대, CpG 맥락에서; 진정한 염기의 값이 5mC 또는 5hmC인 것으로 결정되는 경우에서와 같이).
도 57a는 본원에 제공된 방법으로 DNA를 시퀀싱하기 위해 적용될 수 있는 방법을 도시한다. 무세포 DNA(cfDNA) 또는 단편화된 DNA는 양 단부로부터 포획되어, 포크헤드(forkhead) 및 헤어핀을 이미 함유하는 서열을 생성할 수 있다. 이 DNA는 하나 이상(예컨대, 2개)의 표적화 서열을 포함할 수 있다. 일부 경우에, 포획 DNA(예컨대, 헤어핀 및 표적화 서열을 포함함)는 하나의 표적화 서열을 포함할 수 있다. 일부 경우에, 포획 DNA는 2개의 표적화 서열을 포함한다. 일부 경우에, 표적화 서열은 길이가 10 내지 200 bp일 수 있다. 일부 경우에, 표적화 서열은 길이가 20 내지 100 bp일 수 있다. 일부 경우에, 표적화 서열은 길이가 25 내지 50 bp일 수 있다. 예를 들어, DNA는 길이가 대략 50 염기쌍(bp)의 2개의 표적화 서열을 포함할 수 있다(예컨대, 포획된 cfDNA는 약 106 염기쌍을 포함할 수 있다). 일부 경우에, cfDNA는 166 염기쌍 이상 또는 166 염기쌍 미만을 포함할 수 있다. 갭은 술포로부스(sulfolobus) DNA 중합효소 IV로 선택적으로 채워질 수 있다. 일부 구현예에서, 비가닥 대체의 임의의 방법이 술포로부스 DNA 중합효소 IV 대신 또는 그에 더불어 사용될 수 있다. 일부 경우에, 그러한 과정은 가닥 대체를 초래하지 않는다. 복사된 서열에서 변형이 없는 것이 유리할 수 있고, 하부 가닥 상의 새로운 서열이 조사될 수 있다. 일부 경우에, 포크헤드 근처의 섹션이 시퀀싱될 수 있고, 비변형 CpG로서 나타날 수 있다. 이것들은 진정한 비변형 CpG일 수 있거나 그렇지 않을 수 있다. 일부 경우에, 변형이 검출된 후에, 진정한 표적 서열의 확인이 확인될 수 있다. 도 7a에 의해 예시된 것과 같이, 방법은 제1 폴리뉴클레오타이드(예컨대, 제1 폴리뉴클레오타이드는 시토신, mC, 및/또는 hmC를 포함함)를 제공하는 단계, 제1 폴리뉴클레오타이드를 이의 보체 가닥으로부터 분리하는 단계, 헤어핀 폴리뉴클레오타이드(예컨대, 헤어핀 프로브) 및 어댑터 폴리뉴클레오타이드(예컨대, 어댑터 프로브, 시퀀싱 어댑터를 포함할 수 있음)를 사용하여 표적 제1 폴리뉴클레오타이드를 포획하는 단계, 결찰 전에 제1 폴리뉴클레오타이드를 헤어핀 및 어댑터에 갭 충전하는 단계, 및 본원에 제시된 4-, 5-, 또는 6-문자 시퀀싱을 수행하는 단계(예컨대, 제1 및/또는 제2 가닥을 bGT, DNMT1, 및 탈아미노화제와 접촉시키는 것을 포함함)를 포함할 수 있다.
도 6은 서열이 BGT 및 DNMT1을 사용하여 변형되고 BS 전환/PCR 및 시퀀싱이 수행될 수 있는 방법을 도시한다. 일부 구현예에서, 그러한 방법은 도 5에 제공된 것과 같은 방법의 연속일 수 있다. 그러한 방법은 평활 단부 결찰 또는 우라실 또는 데옥시우라실이 존재하는 단일 뉴클레오타이드 갭을 생성하는 효소의 혼합물, 예컨대, 예를 들어, 우라실 DNA 글리코실라제(UDG) 및 엔도뉴클레아제 VIII의 혼합물로의 분해가 없는 것을 특징으로 할 수 있고, 그것은 낮은 수율의 기여 요인을 감소 또는 제거할 수 있다. 일부 구현예에서, 그러한 방법은 효율적인 효율적인 점착 단부 결찰을 유발할 수 있다; 예를 들어, 혼성화 및 신장은 55℃에서 또는 주변에서 수행될 수 있다. 일부 구현예에서, 혼성화 및 신장은 약 40℃, 약 45℃, 약 50℃, 약 55℃, 약 60℃, 약 65℃, 약 70℃, 또는 임의의 두 전술한 값 사이의 범위에서 수행될 수 있다. 일부 구현예에서, 긴 내지 매우 긴 포획 서열은 표적 외 포획을 감소시키거나 제거할 수 있다. 일부 구현예에서, 표적화는 천연 DNA(예컨대, C, G, A, T와 같은 4 염기 코드를 가짐) 상에서 수행될 수 있다. 일부 구현예에서, 유연한 표적화 서열은 가변적인 링커 길이를 가진 cfDNA의 포획을 허용할 수 있다. 일부 구현예에서, 그러한 방법은 예를 들어 음파처리된 DNA에서 더 많은 무작위 단편으로 인해, cfDNA와 비교된 음파처리된 DNA의 덜 효율적인 포획을 나타낼 수 있다. 일부 구현예에서, BS 전환은 cfDNA에 대한 수율에 영향을 줄 수 있는 물질의 손실을 초래할 수 있다; 일부 구현예에서, 담체 DNA가 그러한 물질 손실로부터 보호하기 위해 사용될 수 있다. 일부 구현예에서, cfDNA는 단일 프로브를 사용하는 포획의 경우 물질의 손실과 관련될 수 있는 반점 패턴(예컨대, 뉴클레오좀의)을 갖지 않을 수 있다; 일부 구현예에서, 프로브 타일링(probe tiling)이 그러한 물질 손실로부터 보호하기 위해 사용될 수 있다.
도 7b는 표적화된 시퀀싱 방법을 도시한다. 그러한 방법은 단일 포획을 특징으로 할 수 있다. 일부 구현예에서, 방법은 cfDNA 및 다른 단편화된 DNA, 예를 들어 음파처리된 DNA에 적용될 수 있다. 일부 구현예에서 고유한 분자 식별자(UMI)가 예를 들어 중복제거를 위해 프로브에 통합될 수 있다. 일부 구현예에서, 비오티닐화된 프로브/스트렙 비즈가 정화를 위해 사용될 수 있고, 그러한 프로브 또는 비즈가 없을 때보다 더 적은 배경을 초래할 수 있다. 그러한 방법은 간단하고 빠를 수 있으며, 일부 경우에 1일 작업 흐름을 유발할 수 있다. 일부 구현예에서, 그러한 방법은 싱글 엔드(single-end) T/A 결찰을 나타낼 수 있다. 3-염기 P5-특이적 PCR 프라이머가 사용될 수 있으며, 그러한 방법은 2 세트의 프라이머 또는 4-문자 염기 식별(예컨대, 4-문자 시퀀싱)에 사용된 방법보다 더 긴 올리고뉴클레오타이드를 사용할 수 있다.
도 8은 유형 II 제한 부위(일부는 희귀할 수 있고, 예를 들어 합성 생물학 방법에서 사용될 수 있음)를 가진 비오티닐화된 프로브를 사용하는 방법을 도시한다. 그러한 방법은 일반 유형 II 제한 효소와 양립할 수 있다. 일부 경우에, 그러한 방법은 전환된 DNA에 대한 임의의 프로브 어밀링을 제거할 수 있다. 초기 어댑터는 TA 클로닝 또는 다른 결찰 방법에 의해 결찰될 수 있지만, 헤어핀 어댑터 결찰이 효율적인 4-염기 오버행 및 결찰일 수 있다.
도 9는 비오티닐화된 프로브를 사용하는 변형된 접근법을 도시한다. 이 체계는 다음 중 하나 이상을 포함할 수 있다: 1) 적어도 하나의 헤어핀에 대한 조건; 2) 비오티닐화된 프로브 - 이 프로브는 엑소뉴클레아제로부터 보호될 수 있고; 3) 그러한 방법은 최종 PCR에 p5 및 p7 어댑터를 사용할 수 있고, 일부 경우에 제한 부위는 이 서열에서 대신 사용될 수 있으며; 일부 경우에, 이것은 도 8에서 예시된 것과 같이, 추가의 결찰 사건과 함께 수행될 수 있고; 그리고 4) 갭 충전 작업에서, APOBEC 또는 BS 무관한 dNTP가 사용될 수 있다. 일부 구현예에서, 그러한 방법은 개별적인 제1 폴리뉴클레오타이드(OS) 및 제2 폴리뉴클레오타이드(CS) 정보를 유지하기 위하여 시도하지 않을 수 있고 오히려, 예를 들어 표적화된 부위에서 mC 및 hmC를 디콘볼루션하기 위해 높은 깊이 커버리지에 의존할 수 있다. 일부 구현예에서, 그러한 방법은 단일 헤어핀 결찰을 포함하지 않을 수 있다.
또한 본원에는, 예를 들어 도 18에서 도시된 것과 같이, 프라이머가 4-염기 게놈에 어닐링되는 것(예컨대, 전환 전에)을 허용할 수 있는 간단한 표적화 방법이 제공된다. 일부 구현예에서, 단일 표적화 방법은 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 통합될 수 있다. 그러한 방법은, 예를 들어, (1) 단부 수복, (2) 헤어핀 결찰, (3) 우라실 또는 데옥시우라실이 존재하는 단일 뉴클레오타이드 갭을 생성하는 효소, 예컨대, 예를 들어, 효소 우라실 DNA 글리코실라제(UDG) 및 엔도뉴클레아제 VIII의 혼합물로의 분해; 및 변성, (4) 표적 프로브의 시퀀싱 어댑터로의 비오티닐화, (5) 제2 폴리뉴클레오타이드의 연장 및 제2 폴리뉴클레오타이드의 헤어핀에의 결찰, (6) 제1 폴리뉴클레오타이드로부터, 예를 들어 ssDNA 3'-5' 엑소뉴클레아제를 사용하는 오버행(예컨대, 3' 오버행)의 제거, (7) 제2 어댑터로의 프로빙 및 결찰, 및 (8) 풀다운(pull down) 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 이 작업 흐름은 본원에 제공된 방법, 예를 들어 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법이 뒤따를 수 있다. 오버행의 제거를 수행할 수 있는 엑소뉴클레아제 활성의 비제한적인 예는 전체 내용이 본원에 참조로 포함되는 참고문헌(Runnberg, R., Narayanan, S., Itriago, H. et al. Either Rap1 or Cdc13 can protect telomeric single-stranded 3' overhang from degradation in vitro. Sci Rep 9, 19181 (2019). https://doi.org/10.1038/s41598-019-55482-3)에서 제공된다.
도 9는 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드의 상대적인 물리적 위치와 무관할 수 있는 또 다른 변형된 접근법을 도시한다. 일부 구현예에서, 이 방법은 커버리지가 높을 수 있고, 단일 가닥(단일 분자 수준)에서 5mC 및 5hmC를 디콘볼루션하지 않을 수 있고 오히려 표적화된 영역의 "전반적인" 시각을 제공한다. 그러한 방법은 또한, 일부 구현예에서, 개별 가닥(예컨대, 폴리뉴클레오타이드) 정보를 포착하기 위해 UMI에 의존할 수 있다. 일부 구현예에서, 그러한 방법은 단편 정보를 유지할 수 있다. 예를 들어, 본원의 방법에서 높은 커버리지 제1 폴리뉴클레오타이드(OS) 및 제2 폴리뉴클레오타이드(CS) 리드는 도 9의 우측 패널에 도시된다. 개별 가닥 정보는 커버리지가 높을 때 유지되거나 유지되지 않을 수 있다. 일부 경우에, 그러한 방법은 개별 OS 및 CS 정보를 유지하려고 시도하지 않을 수 있고 오히려, 예를 들어 표적화된 부위에서 mC 및 hmC를 디콘볼루션하기 위해 높은 깊이 커버리지에 의존할 수 있다.
일부 구현예에서, 본원에 제공된 방법은 태그부착을 통합할 수 있다. 일부 구현예에서, 태그부착은 DNA(예컨대, 이중 가닥 DNA)가 절단되고 태그가 부착될 수 있는 과정(예컨대, DNA 분석에 사용하기 위한)일 수 있다. 일부 구현예에서, 태그부착은 DNA 샘플에 대해 수행되는 단편화 및 어댑터 결찰 작업을 포함할 수 있다. 이것은, 예를 들어, 트랜스포사제(transposase)와 복합된 트랜스포존일 수 있는 트랜스포좀(transposome)을 사용하여 수행될 수 있다. 트랜스포좀은 DNA를 절단할 수 있고(예컨대, 트랜스포사제 활성) 트랜스포좀의 일부일 수 있는 DNA 서열(예컨대, 트랜스포존 서열)을 DNA에 삽입시킬 수 있다(예컨대, 트랜스포존 활성). 일부 구현예에서, 트랜스포존 서열과 같이 DNA에 삽입된 서열은 어댑터 서열을 포함할 수 있다. 일부 구현예에서, 트랜스포좀은 DNA 및 삽입물을 절단할 수 있다. 일부 구현예에서, DNA는 절단할 수 있고, 트랜스포존 서열은 동시에 또는 본질저긍로 동시에 수행될 수 있다. 일부 구현예에서, 트랜스포존 서열은 DNA 절단 후에 삽입될 수 있다. 트랜스포존 서열의 삽입은 일부 경우에 PCR 증폭을 포함할 수 있는 정화 작업이 뒤따를 수 있다. 그러한 정화 작업은 DNA에 결합된 트랜스포좀을 제거아혀 후기 작업에 대한 간섭을 방지할 수 있다. 일부 구현예에서, 태그부착을 포함하는 방법은 DNA 단편 단부 수복 또는 어댑터 결찰 제조를 필요로 하지 않을 수 있다. 태그부착은, 예를 들어, 샘플의 세포 상태를 특성화하기 위해 사용될 수 있다. 태그부착의 통합뿐만 아니라 이의 방법의 비제한적인 예는 전체 내용이 참조로 본원에 포함되는 참고문헌(Chen C, Xing D, Tan L, et al. Single-cell whole-genome analyses by Linear Amplification via Transposon Insertion(LIANTI). Science. 2017;356(6334):189-194. doi:10.1126/science.aak9787) 및 (Raine A, Manlig E, Wahlberg P, Syvanen AC, Nordlund J. SPlinted Ligation Adapter Tagging (SPLAT), a novel library preparation method for whole genome bisulphite sequencing. Nucleic Acids Res. 2017;45(6):e36. doi:10.1093/nar/gkw1110)에서 기술된다.
태그부착이 본원에 제공된 방법, 예를 들어 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 통합될 수 있는 방법의 예는 도 10에 도시된다. 이 예에서, 각각이 트랜스포사제 및 헤어핀 서열을 포함할 수 있는 DNA 가닥 및 트랜스포사제 결합 부위를 포함하고 있는 2개의 하위유닛을 포함하는 트랜스포좀 다이머가 게놈 DNA에 적용될 수 있다. 트랜스포좀은 게놈 DNA를 절단할 수 있고 트랜스포좀 DNA는 절단된 게놈 DNA에 어닐링될 수 있다. 가닥 변성 및 p5 프로브의 결찰이 수행될 수 있고, 도시된 것과 같이, 또 다른 가닥 변성 작업 및 p7 프로브의 어닐링이 이어질 수 있다. 이것에 이어 제2 폴리뉴클레오타이드 연장(예컨대, 가닥 대체 음성) 및 결찰이 이어져서 제1 폴리뉴클레오타이드(OS) 및 제2 폴리뉴클레오타이드를 포함하는 DNA 분자가 생성될 수 있다.
태그부착이 본원에 제공된 방법, 예를 들어 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 통합될 수 있는 방법의 예는 도 11에 도시된다. 이 예에서, 2개의 Tn5 트랜스포사제 및 각각 헤어핀 서열 및 트랜스포존 결합 부위(예컨대, 트랜스포즈 결합 부위)를 포함하고 있는 2개의 핵산 분자가 조합되어 프랜스포좀 다이머가 생성될 수 있다. 이 트랜스포좀 다이머는 DNA(예컨대, 게놈 DNA, gDNA)에 적용될 수 있고, 그로써 DNA에 태그를 부착하여 트랜스포존 결합 부위 및 헤어핀 서열이 측면에 있는 게놈 DNA가 생성될 수 있다. 갭 수복은 이 태그부착된 DNA에 대해 수행될 수 있고, 결과적으로 생성된 DNA 분자는 본원에 제공된 방법, 예를 들어 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법이 적용될 수 있다.
일부 구현예에서, 본원에 기술된 방법은 게놈에서 관심의 영역을 표적화하기 위한 어댑터의 사용을 포함할 수 있다. 일부 경우에, 어댑터는 PCR 어댑터이다. 일부 경우에, 어댑터는 게놈에서 관심의 영역의 5' 또는 3' 단부를 표적화하기 위해 설계될 수 있다. 일부 경우에, PCR 어댑터는 관심의 영역의 5' 또는 3' 단부를 어닐링하는 표적화 영역을 포함할 수 있다. 일부 경우에, 제2 쌍의 표적화된 PCR 어댑터는 관심의 영역의 5' 또는 3' 단부를 표적화하기 위해 사용될 수 있다. 일부 경우에, 표적화된 PCR 어댑터는 관심의 영역의 5' 또는 3' 단부에 차세대 시퀀싱 어댑터를 첨가하기 위해 사용될 수 있다. 일부 경우에, 표적화된 PCR 어댑터는 관심의 영역에 어닐릴하는 표적화 영역 외에 차세대 시퀀싱 어댑터를 함유할 수 있다. 일부 경우에, 다중 어댑터 또는 표적화 프로브가 게놈에서 관심의 다중 영역을 표적화하기 위해 사용될 수 있다. 일부 경우에, 제3 프로브가 관심의 영역을 표적화하기 위해 사용될 수 있다. 일부 경우에, 제4 프로브가 사용될 수 있다. 일부 경우에, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 50, 56, 60, 64, 68, 72, 76, 80, 84, 88, 90, 94, 96, 또는 100개의 어댑터 또는 표적화 프로브가 사용된다.
일부 경우에, 어댑터 또는 프로브는 또한 바코드를 포함할 수 있다. 일부 경우에, 어댑터(예컨대, PCR 어댑터) 또는 표적화 프로브는 탈아미노화로부터 보호된다. 일부 경우에, 어댑터의 보호는 mC, 5hmC, fC 또는 caC 뉴클레오타이드의 통합에 의해 달성될 수 있고, 일부 경우에, PCR 어댑터는 APOBEC3A 저항성 뉴클레오타이드(ghmC, fC 또는 caC)로 전환되는 뉴클레오타이드를 함유한다. 일부 경우에, 어댑터(예컨대, PCR 어댑터)는 또한 APOBEC3A를 통해 탈아미노화로부터 보호되는 인덱스를 함유할 수 있다. 일부 경우에, 표적화 프로브는 비가닥 대체 효소와 함께 사용될 수 있다. 일부 경우에, 비가닥 대체 효소는 T4이다. 일부 경우에, ssDNA 엑소뉴클레아제가 갭 충전 후 오버행을 제거하기 위해 사용된다. 일부 경우에, 갭 충전은 APOBEC3A 저항성 뉴클레오타이드로 연장된다. 일부 경우에, 가닥 대체 음성 중합효소가 PCR 중에 갭 충전을 위해 필수로 사용된다. 일부 경우에, 갭 충전에 결찰이 이어진다. 일부 경우에, 어댑터는 탈아미노화로부터 보호된다. 일부 경우에, 헤어핀은 탈아미노화로부터 보호되는 변형된 염기를 포함할 수 있다. 일부 경우에, 어댑터의 보호는 mC, 5hmC, fC 또는 caC 뉴클레오타이드의 통합에 의해 달성될 수 있고, 일부 경우에, PCR 어댑터는 APOBEC3A 저항성 뉴클레오타이드(ghmC, fC 또는 caC)로 전환되는 뉴클레오타이드를 함유한다. 일부 경우에, 헤어핀의 보호는 예를 들어 mC, 5hmC, fC 또는 caC에 의해 달성될 수 있는데, 이것들이 APOBEC3A 저항성 뉴클레오타이드(ghmC, fC 또는 caC)로 전환될 것이기 때문이다. 일부 경우에, 헤어핀은 맞춤형 인덱스 바코드를 포함할 수 있다.
일부 경우에, 프로브는 풀다운에 적합한 분자 부착을 함유할 수 있다. 일부 경우에, 부착은 친화성 프로브이다. 일부 경우에, 친화성 프로브는 비오틴 분자이다. 일부 경우에, 친화성 프로브는 압타머이다. 일부 경우에, 친화성 프로브는 펩타이드이다. 일부 경우에, 시퀀싱은 헤어핀의 시퀀싱을 포함할 수 있다. 일부 경우에, 어댑터는 일루미나(Illumina) 플랫폼 상에서 롱리드 시퀀싱을 위해 설계될 수 있는 설계된 시퀀싱일 수 있다. 일부 경우에, 시퀀싱은 또한 헤어핀의 시퀀싱을 포함할 수 있다. 일부 경우에, 어댑터는 일루미나 플랫폼 상에서 숏리드(short read) 시퀀싱을 위해 설계될 수 있는 설계된 시퀀싱일 수 있다. 일부 경우에, 어댑터는 4 염기 프로브이다. 일부 경우에, 어댑터는 3 염기 표적화를 위해 설계된다. 일부 경우에, 어댑터는 5 bp 길이이다. 일부 경우에, 어댑터는 6 bp 길이이다. 어댑터는 7 bp 길이이다. 일부 경우에, 어댑터는 8 bp 길이이다. 일부 경우에, 어댑터는 9 bp 길이이다. 일부 경우에, 어댑터는 10 bp 길이이다.
일부 경우에, 출발 DNA 물질은 변성된다(예컨대 온도 변성이 사용됨). 일부 경우에, 관심의 영역(ROI)을 표적화하기 위하여, 표적화 프라이머가 사용된다. 일부 경우에, 표적화 프라이머는 4 염기 프로브로 설계된다. 일부 경우에, 표적화 프로브는 관심의 영역의 5' 단부를 표적화하기 위해 설계된다. 일부 경우에, 표적화 프로브는 관심의 영역의 3' 단부를 표적화하기 위해 설계된다. 일부 경우에, 표적화 프라이머는 개별적으로 포획된 가닥을 인덱싱하기 위한 일루미나 맞춤형 인덱스를 함유할 수 있다. 일부 경우에, 제2 쌍의 표적화 프로브가 ROI의 5' 단부를 표적화하기 위해 사용된다. 일부 경우에, 제2 표적화 프로브는 3 염기 프로브일 수 있다. 일부 경우에, 프로브의 쌍의 사용은 PCR 핸들을 생성하기 위해 사용된다. 일부 경우에, PCR 어댑터는 엇갈린(staggered) 듀플렉스이다. 일부 경우에, 어댑터는 또한 인덱스를 함유할 수 있다. 일부 경우에, PCR 어댑터는 ROI의 5' 단부를 프라이밍하는 표적화 서열을 가진다. 일부 예에서, ssDNA의 5' 및 3' 단부에서 ROI가 프라이밍된 후, "갭"은 (예를 들어 T4와 같은) 가닥 대체 음성 중합효소와, 이어서 결찰(예를 들어 T4 결찰효소)을 사용하여 충전될 수 있다. 일부 경우에, 후성유전학적 염기 mC는 원래의 가닥으로부터 복사된 가닥으로 복사될 수 있다. 일부 경우에, 5hmC는 bGT 효소로의 처리에 의해 탈아미노화로부터 보호될 수 있다. 일부 경우에, 구성물은 TET로 처리되어(bGT의 존재 또는 부재 하에) mC가 fC, caC 또는 ghmC로 전환된다. 일부 경우에, 헤어핀은 APOBEC3A 및 나선효소 UvrD(도 48, 실시예 18에서 추가로 기술됨), 또는 이들의 단편의 조합을 사용하여 개방된다. 관심의 다중 영역이 표적화될 때, 방법은 대량 다중화 PCR과 같은 또 다른 방법과 조합되어 사용될 수 있다.
일부 경우에, 출발 DNA 물질은 먼저 변성된다(예컨대 온도 변성이 사용됨). 일부 경우에, 어댑터 또는 프라이머 올리고뉴클레오타이드는 관심의 영역(ROI)을 표적화하기 위해 설계된다. 일부 경우에, 어댑터는 PCR 증폭을 위한 추가 서열을 함유한다. 일부 경우에, 어댑터는 4 염기 프로브이다. 일부 경우에, 어댑터는 인덱스를 함유할 수 있는 추가 서열을 포함할 수 있다. 일부 경우에, 어댑터는 일루미나 시퀀싱 어댑터를 포함할 수 있다. 일부 경우에, 어댑터는 후기 PCR 작업에서 일루미나 시퀀싱 어댑터를 추가하기 위해 사용될 수 있다. 일부 경우에, 어댑터는 탈아미노화로부터 보호된다. 일부 경우에, 어댑터는 예를 들어, APOBEC3A 저항성 염기(예컨대 hmC, fC 또는 caC)를 함유함으로써 APOBEC3A로부터의 탈아미노화로부터 보호된다. 일부 경우에, 어닐링된 프라이머 또는 어댑터는 클레노우(Klenow) 중합효소로 연장된다. 일부 경우에, 헤어핀은 제1 A 테일링에 의해 첨가된 후, T 오버행이 있는 헤어핀을 사용하고 헤어핀이 구성물에 결찰되어 2-염기 시퀀싱을 위한 구성물이 생성딘다. 일부 예에서, 후성유전학적 변형(예컨대, 메틸화)은 원래의 가닥으로부터 복사된 가닥으로 복사되었다. 일부 경우에, 5hmC는 bGT 효소로의 처리에 의해 탈아미노화로부터 보호될 수 있다. 일부 경우에, 구성물은 TET로 처리되어(bGT의 존재 하에 또는 부재 하에) mC가 fC, caC 또는 ghmC로 산환된다. 일부 경우에, 헤어핀은 그런 후 APOBEC3A 나선효소 UvrD, 또는 이들의 단편의 조합을 사용하여 처리된다. 일부 경우에, PCR 핸들이 제2 표적화 올리고뉴클레오타이드(도 49, 실시예 18에서 추가로 기술됨)와 조합되어 ROI를 증폭시키기 위해 사용될 수 있다. 일부 경우에, 제2 표적화 뉴클레오타이드는 3 염기 프로브이다. 일부 경우에, 관심의 다중 영역을 표적화하기 위한 방법이 사용될 수 있다. 일부 경우에, 방법은 대량 다중화 PCR과 같은 또 다른 방법과 조합되어 사용될 수 있다.
일부 예에서, 출발 이중 가닥 DNA는 단부 수복된다. 일부 예에서, 출발 이중 가닥 DNA은 A 테일링된다. 일부 경우에, 출발 DNA는 "TA" 결찰을 사용하여 헤어핀과 적응됨으로써 헤어핀은 헤어핀을 프라이밍하고 DNA의 어느 한 쪽에 헤어핀을 결찰시키기 위해 사용되는 T 오버행을 함유한다. 일부 경우에, 헤어핀은 U를 함유하고 그로써 우라실 또는 데옥시우라실이 존재하는 단일 뉴클레오타이드 갭을 생성하는 효소, 예컨대, 예를 들어, 효소 우라실 DNA 글리코실라제(UDG) 및 엔도뉴클레아제 VIII의 혼합물을 사용하여 절단될 수 있다. 일부 경우에, 프로브는 이제 ROI의 반대쪽에서 헤어핀의 측면에 있도록 상기 DNA 구성물의 3' 단부에 프라이밍하기 위해 사용된다. 일부 경우에, 프로브는 4 염기이다. 일부 경우에, 올리고는 APOBEC3A 탈아미노화로부터 보호된다. 일부 경우에, 올리고뉴클레오타이드 또는 어댑터는 APOBEC3A 탈아미노화로부터, 예를 들어, APOBEC3A 저항성 염기(예컨대 hmC, fC 또는 caC)를 함유함으로써 보호된다. 일부 경우에, 올리고뉴클레오타이드/어댑터의 5' 단부는 변형된 염기(예컨대 포스포로티오에이트 유도체)를 함유함으로써 엑소뉴클레아제 저항성이다. 일부 경우에, 일루미나 시퀀싱 어댑터는 추가의 PCR 처리에서 어댑터에 첨가된다. 일부 경우에, 원래의 PCR 어댑터는 PCR 핸들 서열 및 일루미나 어댑터를 함유하는 연장된 프라이머를 함유한다. 일부 경우에, 올리고뉴클레오타이드 또는 어댑터는 인덱스를 함유할 수 있다. 일부 경우에, 올리고뉴클레오타이드 또는 어댑터는 프라이밍되고 헤어핀을 대체하지 못하는 가닥 대체 음성 중합효소로 연장된다. 일부 경우에, 복사 가닥은 그런 후에 헤어핀에 결찰된다. 일부 경우에, 3' 단부에서의 잠재적 미스매치는 ssDNA 특이적 엑소뉴클레아제로 트리밍되고, 상보적인 서열이 fC 또는 caC와 같은 APOBEC3A 저항성 염기를 사용하여 중합효소로 구성된다. 일부 경우에, 후성유전학적 염기 mC가 원래의 가닥으로부터 복사된 가닥으로 복사될 수 있다. 일부 경우에, 5hmC는 탈아미노화로부터 bGT 효소로의 처리에 의해 보호될 수 있다. 일부 경우에, 구성물은 TET로 처리되어(bGT의 존재 또는 부재 하에) mC가 fC, caC 또는 ghmC로 산화된다. 일부 경우에, 헤어핀은 APOBEC3A와 나선효소 UvrD의 조합을 사용하여 개방된다. 일부 경우에, ROI는 이제 탈아미노화 저항성 PCR 핸들(도 50, 실시예 18에서 추가로 기술됨)을 사용하여 증폭될 수 있다. 일부 경우에, 방법은 관심의 다중 영역을 표적화하기 위해 사용될 수 있다. 일부 경우에, 방법은 대량 다중화 PCR과 같은 또 다른 방법과 조합되어 사용될 수 있다.
일부 구현예에서, 롱리드 기술이 본원에 제공된 방법, 예를 들어 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 통합될 수 있다. 제3 세대 시퀀싱(예컨대, 롱리드 시퀀싱)은, 예를 들어, 합성 롱리드을 생성하기 위해(예컨대, 드노보 어셈블리 및 게놈 마무리 적용을 위해), 문제의 게놈(예컨대, 고도로 반복적인 요소의 구간을 함유하는 게놈)을 시퀀싱하기 위해, 또는 전체 게놈 페이징(whole genome phasing)을 수행하기 위해(예컨대, 공동 유전된 대립유전자, 할로타입 정보, 또는 드노보 돌연변이 단계를 확인하기 위해) 사용될 수 있다. 일부 구현예에서, 예를 들어, 롱리드 기술은 롤링 써클 증폭(RCA)을 통합할 수 있다. 롤링 써클 증폭은 DNA 또는 RNA의 복수의 복사물을 신속하게 합성할 수 있는 단일방향 핵산 복제 과정일 수 있다. 일부 구현예에서, RCA는 DNA를 소량 내지 극소량의 출발 물질로부터 증폭시킬 수 있다. RCA는 중합효소가 계속해서 단일 뉴클레오타이드를 원형 주형에 어닐링된 프라이머에 첨가시킬 수 있는 등온 핵산 증폭 기법일 수 있다. 일부 구현예에서, RCA는 수십개 내지 수백개의 탠덤 반복부를 포함할 수 있는 긴 연쇄체 단일 가닥 DNA 분자(ssDNA)를 생성할 수 있다. 그러한 탠덤 반복부는 원형 주형에 상보적일 수 있다. RCA 반응에 사용된 구성요소에는 DNA 중합효소, 중합효소와 양립하는 적합한 완충제, 짧은 DNA 또는 RNA 프라이머, 원형 DNA 주형 및 데옥시뉴클레오타이드 트라이포스페이트(dNTP)가 포함될 수 있다. RCA는: (1) 주형 매개 효소적 결찰(예컨대, T4 DNA 결찰효소) 또는 특수한 DNA 결찰효소(예컨대, CircLigase)를 사용하는 주형 유리 결찰을 통해 수행될 수 있는 원형 주형 결찰, (2) 프라이머 유도 단일 가닥 DNA 신장, 및 (3) 방법에서 증폭 생성물의 사용을 포함할 수 있는 하나 이상의 작업을 포함할 수 있다. 여기서, RCA는 순환하는 유리 DNA(cfDNA)를 증폭시키기 위해 사용될 수 있어서 롱리드에서 판독될 수 있고, 동일한 cfDNA 단편의 다중 판독을 허용할 수 있다. 일부 구현예에서, 이것은 극단적인 오류 정정을 허용할 수 있다. 그러한 RCA 방법의 사용의 비제한적인 예는 전체 내용이 본원에 참조로 포함되는 참고문헌((Wilson BD, Eisenstein M, Soh HT. High-Fidelity Nanopore Sequencing of Ultra-Short DNA Targets. Anal Chem. 2019;91(10):6783-6789. doi:10.1021/acs.analchem.9b00856)에 제공된다.
여기서, 핵산 분자는 뉴클레오타이드의 사슬일 수 있는 분자일 수 있다. 본원에 기술된 핵산 분자는 리보핵산(RNA)을 포함할 수 있다. 본원에 기술된 핵산 분자는 데옥시리보핵산(DNA)을 포함할 수 있다.
RCA가 롱리드 기술을 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 통합시키기 위해 사용될 수 있는 방법의 예는 도 12에 제공된다. 일부 구현예에서, RCA는 도 12에서 도시된 것과 같이, DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법 후에 수행될 수 있다. 일부 구현예에서, 방법은 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 단계의 일부로서, 또는 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법의 임의의 2회 작업 사이에 RCA를 수행하는 단계를 포함한다. 예를 들어, 원형 프라이머 또는 자물쇠형 프로브가 시퀀싱될 DNA 가닥의 5' 단부 및 3' 단부에 어닐링될 수 있도록 적용될 수 있다. RCA가 수행되어(예컨대, 임의의 허용 가능한 중합효소, 예컨대 psi29 또는 또 다른 중합효소를 사용하여) 제1 및 제2 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드의 제1 폴리뉴클레오타이드(예컨대, 정방향 또는 역방향 폴리뉴클레오타이드) 및 제2 폴리뉴클레오타이드(예컨대, 동족 폴리뉴클레오타이드)의 n개의 복사물을 포함하는 긴 DNA 서열이 생성될 수 있다. 일부 구현예에서, n은 적어도 약 2, 적어도 약 5, 적어도 약 10, 적어도 약 20, 적어도 약 30, 적어도 약 40, 적어도 약 50, 적어도 약 100, 적어도 약 500, 또는 적어도 약 1000일 수 있다. 일부 구현예에서, n은 약 5 이하, 약 10 이하, 약 20 이하, 약 30 이하, 약 40 이하, 약 50 이하, 약 100 이하, 약 500 이하, 또는 약 1000 이하일 수 있다. 일부 구현예에서, n은 약 2, 약 5, 약 10, 약 20, 약 30, 약 40, 약 50, 약 100, 약 500, 약 1000, 또는 임의의 2개의 전술한 값 사이의 범위일 수 있다.
일부 구현예에서, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법은 대체 방법과 거의 비슷하거나 더 나은 전환율을 생성할 수 있다. 전환율에 대한 계산은, 예를 들어, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법을 사용하는 실험에서 소뇌 게놈 DNA와 함께 166-뉴클레오타이드 스파이크-인 대조군으로부터의 데이터를 사용하여 채워진, 도 13의 표에 도시될 수 있다. 특히, 일부 구현예에서 A에 대한 콜의 정확도 퍼센트는 적어도 약 97.5%일 수 있고, C에 대한 콜의 정확도 퍼센트는 적어도 약 95.6%일 수 있으며, G에 대한 콜의 정확도 퍼센트는 적어도 약 97.1%일 수 있고, T에 대한 콜의 정확도 퍼센트는 적어도 약 98.4%일 수 있으며, mC에 대한 콜의 정확도 퍼센트는 적어도 약 80.8%일 수 있고, hmC에 대한 콜의 정확도 퍼센트는 적어도 약 84.5%일 수 있으며, 그리고 CpG 맥락에서 메틸화에 대한 콜의 정확도 퍼센트는 적어도 약 83.4%일 수 있다. 일부 구현예에서 A에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있고; C에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있으며; G에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 97.5%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있고; T에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 98.5%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있으며; mC에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 82.5%, 적어도 약 85%, 적어도 약 87%, 적어도 약 89%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있고; hmC에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있으며; 그리고 CpG 맥락에서 메틸화에 대한 콜의 정확도 퍼센트는 적어도 약 80%, 적어도 약 84%, 적어도 약 85%, 적어도 약 86%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 또는 그 이상일 수 있다. 일부 구현예에서, 부정확도는 스파이크 인 합성에서 의심될 수 있다. 일부 구현예에서, 방법은 추가로 최적화되어 위에서 제공된 하나 이상의 콜 유형에 대해 더 높은 정확도 퍼센트를 생성할 수 있다.
도 14는 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 적용된 DNA 분자의 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드로부터의 시퀀싱 데이터를 도시한다. 여기서, 염기 콜 정확도 평균 및 측정이 76개 이상의 상이한 라이브러리 조제물에서 보고된다. 여기서, CpG(n=76)에 대한 염기 콜링 정확도는 약 85.2%(99%)이었고, mC(n=76)에 대한 염기 콜 정확도는 약 88.3%(94%)였으며, hmC(n=76)에 대한 염기 콜링 정확도는 약 87.8%(93%)였다. 도 14에서 도시된 전체 게놈 소되 및 게놈 DNA(gDNA) 실험에서 스파이크 인에 대한 염기 콜링 정확도는 5-메틸시토신(mC)에 대한 90.5% 정확도, 5-하이드록시메틸시토신(hmC)에 대한 89.3% 정확도, 및 (예컨대, 비메틸화) 시토신에 대한 97.2% 정확도를 반영하였다. 일부 경우에, mC에 대한 염기 콜 정확도는 85%보다 크거나, 87%보다 크거나, 또는 90%보다 클 수 있다. 일부 경우에, hmC에 대한 염기 콜 정확도는 5%보다 크거나, 87%보다 크거나, 89%보다 크거나, 또는 90%보다 클 수 있다. DNA 샘프에 대한 정확도 평균에 대한 백분율이 보고되며, 람다 파지(대조군)에 대한 백분율 정확도 평균이 괄호로 제시된다. 람다 파지 mC 전환율은 약 93.5%였다. 일부 구현예에서, 합성 프로브 내에서 오류 감소가 mC 전환율을 개선시킬 수 있다.
도 27은 시퀀싱 중에를 포함한, 본원에 기술된 구현예에서 억제되지 않는 미스콜로 이어질 수 있는 증폭(예컨대, PCR), 또는 시퀀싱 중의 예시의 G→A 및 A→G 오류를 도시한다. 도 27에서 도시된 예에서, 상부 라인(표지된 참조 게놈)은 진정한 염기를 도시한다. 다음의 두 라인(열거된 게놈 헤어핀)은 전환 화학(예컨대, 중아황산염 처리, APOBEC + 나선효소) 후 진정한 염기로부터 유래된 헤어핀의 염기를 도시한다. 하부 라인(표지된 콜)은 헤어핀이 시퀀싱되고 페어드 엔드 리드가 해결된 후(예컨대, 임의의 게놈 정렬 전) 헤어핀으로부터 콜링된 염기를 나타낸다.
헤어핀 라인에서: 진정한 염기, 예컨대 A의 경우, 정확한 염기쌍 형성(예컨대 A/T)이 도시되고(백색 원형으로) 이어서 헤어핀의 어느 한 가닥에 대한 가닥 복사, 증폭(예컨대, PCR) 또는 시퀀싱 중에 도입될 수 있는 모든 가능한 1-염기-오류(예를 들어 A/T는 C/T G/T, T/T, A/A, A/C, A/G로 다양하게 변경됨)가 도시된다(황색 원형으로). 이 예에서, 1-염기 오류가 헤어핀에 도입되는 24개의 가능한 경우 중 19개가 존재하지 않고(예컨대 A/A) 오류로서 불리는 염기쌍을 초래한다. 24개의 가능한 1-염기 오류 중 4개는 정확한 염기가 또 다른 염기로서 불리는 미스콜을 초래한다. 이들 중 2개는 A가 G로 변경되는 오류의 결과이며, 다른 2개의 오류는 G를 A로 변경시킨 것이다. 이것들은 진정한 A 염기가 G로 불리거나, 진정한 G 염기가 A로 잘못 불리거나, 진정한 C 염기가 T로 잘못 불리거나 또는 진정한 T 염기가 C로 잘못 불리는 결과를 초래한다. 24개의 가능성 중 하나는 T가 C로 변경되는 오류이며 진정한 염기 비변형 C가 변형된 C로 불리는 결과를 초래할 수 있다. 임의의 다른 유형의 미스콜(예컨대 A→C)은 헤어핀에 도입되는 두 오류(예컨대 A/T → T/G))로 인한 것일 수 있다.
일부 구현예에서, 염기 또는 메틸화된 염기의 발생 퍼센트는 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법의 실행 후 계산될 수 있다. 예를 들어(예컨대, 도 15에 제시된 실험 데이터에 의해 입증되는 바), 전체 게놈 gDNA가 전체 내용이 참조로 본원에 포함된 참고문헌(Field SF, Beraldi D, Bachman M, Stewart SK, Beck S, Balasubramanian S. Accurate measurement of 5-methylcytosine and 5-hydroxymethylcytosine in human cerebellum DNA by oxidative bisulfite on an array(OxBS-array). PLoS One. 2015;10(2):e0118202. Published 2015 Feb 23. doi:10.1371/journal.pone.0118202)에 기술된 것과 같이 인간 소뇌 샘플로부터 제조되고, 본원에 제공된 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하는 방법에 적용되었다. 대조군으로서, gDNA는 또한 질량 분석에 의한 전반적인 측정이 적용되었다. 이 샘플에서, 28.5%의 염기가 A로서 확인되었고, 28.2%의 염기가 T로서 확인되었으며, 19.69%의 염기가 G로서 확인되었고, 17.83%의 염기가 C로서 확인되었으며, 0.93%의 염기가 mC로서 확인되었고, 0.33%의 염기가 hmC로서 확인되었으며, 4.52%의 염기가 다른 염기로서 확인되었다. 여기서, 질량 분석 방법으로 샘플 중의 시토신의 4.9%가 mC로서 확인되었고 샘플 중의 시토신의 1.14%가 hmC로서 확인되었으며, 한편 본원에 제공된 방법으로는 샘플 중의 시토신의 5.2%가 mC로서 확인되었고 샘플 중의 시토신의 1.8%가 hmC로서 확인되었다. 일부 구현예에서, 데이터는 스파이크 인 대조군을 걸러냄으로써 추후에 수정될 수 있다(예컨대, 스파이크 인 대조군의 존재로 인한 과대 평가의 경우).
일부 구현예에서, DNA 변형의 독립적인 측정은 샘플링 관리 또는 기술적 오류/가변성의 증가를 초래할 수 있다. 독립적인 실험은 일부 경우에 메틸화 수준의 일관성 없는 추정으로 이어질 수 있다(예: 이중 작업 흐름). 본원에 제공된 방법은 또 다른 방법과 비교하여 유사한 시퀀싱 부피에 대한 샘플링 또는 기술적 가변성을 낮출 수 있다. 예를 들어, 이중 작업 흐름 방법을 사용하면 5hmC 평가로부터 +/- 0.12(IQR 0.2)의 표준 편차를 초래할 수 있는 한편, 본원에 제공된 방법은 동일한 샘플에 대해 5hmC에 대해 +/- 0.06(IQR 0.07)의 표준 편차를 초래할 수 있다. 이 데이터는 도 16에 도시되며, 좌측 패널에는 이중 방법의 시뮬레이션에 대한 데이터가 제시되고 우측 패널에는 본원에 제공된 방법의 시뮬레이션에 대한 데이터가 제시된다. 이중 방법 시뮬레이션은 베타-이항 분포(BetaBinomial distribution)를 통해 기술적 가변성과 조합된 OxBS 및 WGBS 샘플링의 시뮬레이션으로 구성되었다. 본원에 제공된 방법의 시뮬레이션은 본원에 제공된 애완동물의 시뮬레이션 및 디리클레 다항 분포(Dirichlet multinomial distribution)를 통한 기술적 가변성으로 구성되었다. 시뮬레이션에서 시토신 잔기에 대한 진정한 수준은 5mC = -.7, 5hmC = 0.1, 및 C = 0.2였다. 기술적 가변성은 두 검정 모두에 대해 동일한 것으로 가정되었다. 플롯의 수염은 5번째 및 95번째 백분위수를 나타낸다.
일부 구현예에서, 하나 이상의 바코드(예컨대, 하나 이상의 고유한 분자 식별자, UMI)를 포함하는 하나 이상의 폴리뉴클레오타이드가 본원에 제시된 방법 및 시스템(예컨대, 2-염기 시퀀싱을 포함함)에서 사용될 수 있다. 예를 들어, 하나 이상의 고유한 바코드가 제1 폴리뉴클레오타이드에 부착될 수 있고 하나 이상의 고유한 바코드가 제2 폴리뉴클레오타이드(및/또는 리드 폴리뉴클레오타이드)에 부착될 수 있다. 일부 경우에, 본원에 개시된 방법(예컨대, 2-염기 시퀀싱 방법)은, 예를 들어 만약 제1 및 제2 폴리뉴클레오타이드(예컨대, 및 리드 폴리뉴클레오타이드)가 바코드로 태그부착된다면(예컨대, 바코드를 폴리뉴클레오타이드(들)에 결찰시킴으로써), 제1 및 제2 폴리뉴클레오타이드를 또 다른 구조, 예컨대 헤어핀과 연결시키지 않고, 수행될 수 있다. 일부 경우에, 시퀀싱 어댑터(또는 헤어핀 폴리뉴클레오타이드)는 바코드(예컨대, UMI)를 포함할 수 있다. 일부 경우에, 바코드는 헤어핀 폴리뉴클레오타이드(또는 다른 폴리뉴클레오타이드 구조)를 결찰시킨 후 바코드를 포함하지 않는 헤어핀 부분 또는 다른 폴리뉴클레오타이드 구조를 (예컨대, 효소적으로) 제거함으로써 제1, 제2, 및/또는 리드 폴리뉴클레오타이드 상에 설치될 수 있다.
일부 경우에, 제1 폴리뉴클레오타이드와 제2 폴리뉴클레오타이드 사이의 연결은, 예를 들어, 바코딩 형태의 정보성 연결을 포함할 수 있다(예컨대, 도 22에서 도시됨). 일부 경우에, 바코드(예컨대, 고유한 분자 식별자, UMI)를 포함하는 하나 이상의 헤어핀 폴리뉴클레오타이드는 정방향 폴리뉴클레오타이드 및/또는 역방향 폴리뉴클레오타이드에 결찰될 수 있다(예컨대, 정방향 및/또는 역방향 폴리뉴클레오타이드는 샘플로부터 얻어질 수 있는 원래의 폴리뉴클레오타이드일 수 있음). 도 22에서 도시된 것과 같이, 5' 단부에 제1 UMI 핵산 서열 및 3' 단부에 제2 UMI 핵산 서열을 포함하는 헤어핀 폴리뉴클레오타이드가 정방향 및 역방향 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드에 결찰될 수 있다. 일부 경우에, 헤어핀 폴리뉴클레오타이드는 어댑터 폴리뉴클레오타이드 서열을 추가로 포함한다(예컨대, 도 22에서 도시됨, 여기서 헤어핀 폴리뉴클레오타이드는 헤어핀의 3' 단부에 p7 어댑터 서열을 포함함). 헤어핀 폴리뉴클레오타이드는 헤어핀 폴리뉴클레오타이드의 5' 단부와 그 안에 포함된 어댑터 서열(예컨대, p7 어댑터, 도 22에서 도시됨)의 5' 단부 사이에 우라실 잔기를 추가로 포함할 수 있다. 일부 경우에, 헤어핀 폴리뉴클레오타이드는 절단될 수 있다(예컨대, 효소적으로, 우라실 또는 데옥시우라실이 존재하는 단일 뉴클레오타이드 갭을 생성하는 효소, 예컨대, 예를 들어, 효소 우라실 DNA 글리코실라제(UDG) 및 엔도뉴클레아제 VIII의 혼합물을 사용하는 헤어핀 폴리뉴클레오타이드의 우라실 잔기의 분해를 통해). 헤어핀 폴리뉴클레오타이드 절단은 정방향 및 역방향 폴리뉴클레오타이드의 3' 및 5' 단부에 바코드(예컨대, UMI)를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드의 정방향 폴리뉴클레오타이드 및 역방향 폴리뉴클레오타이드를 초래할 수 있고, 정방향 및 역방향 폴리뉴클레오타이드는 더 이상 헤어핀 폴리뉴클레오타이드에 의해 연합(예컨대, 연결)되지 않는다. 정방향 및/또는 역방향 폴리뉴클레오타이드의 어댑터 서열(예컨대, p7 어댑터 서열)을 인식하는 프라이머(예컨대, p7R 서열을 포함하는 올리고뉴클레오타이드)는 어댑터 서열(들)에 혼성화될 수 있고 정방향 및/또는 역방향 폴리뉴클레오타이드의 앰플리콘(예컨대, 제2 폴리뉴클레오타이드)을 생성하기 위해 사용될 수 있다(예컨대, 가닥 대체 PCR 기법을 사용함). 일부 경우에, 앰플리콘(들)(예컨대, 제2 폴리뉴클레오타이드(들))은, 예를 들어, 주형으로서 정방향 또는 역방향 폴리뉴클레오타이드를 사용하는 PCR 연장의 결과로서 바코드(예컨대, UMI)를 포함할 수 있다(예컨대, 정방향 또는 역방향 폴리뉴클레오타이드는 예를 들어, 정방향 및/또는 역방향 폴리뉴클레오타이드의 5' 및/또는 3' 단부에 하나 이상의 바코드를 포함함). 일부 경우에, 제1 폴리뉴클레오타이드(예컨대, 정방향 및/또는 역방향 폴리뉴클레오타이드) 상의 바코드는 보호된 바코드(예컨대, 보호된 UMI, 도 22에서 도시됨)이다. 일부 경우에, 정방향 및/또는 역방향 폴리뉴클레오타이드(예컨대, 제2 폴리뉴클레오타이드)의 앰플리콘의 바코드는 보호되지 않는다. 일부 경우에, 정방향 및/또는 역방향 폴리뉴클레오타이드(예컨대, 제1 폴리뉴클레오타이드) 및 정방향 및/또는 역방향 폴리뉴클레오타이드(예컨대, 제2 폴리뉴클레오타이드)의 앰플리콘은 제1 및 제2 폴리뉴클레오타이드를 처리하기 위하여 본원에 제시된 방법 및/또는 방법의 개별 작업이 적용될 수 있다(예컨대, 방법 및/또는 방법의 개별 작업은 본원에 제시된 5- 또는 6-문자 시퀀싱 기법에 유용함). 일부 경우에, 시퀀싱 어댑터 프로브(예컨대, 도 22에서 도시된 것과 같이, 각각 제1 또는 제2 폴리뉴클레오타이드의 일부와 혼성화할 수 있는 p5 또는 p5R 시퀀싱 어댑터)는 어댑터 프로브를 (예컨대, PCR을 통해) 연장시키기 위해 사용될 수 있다. 일부 경우에, 예를 들어, 추가 라운드의 PCR 또는 추가 복사 작업이 수행되며, 생성된 앰플리콘(들)은 p5 어댑터 서열을 포함하고, 그것은 복사 가닥의 전환된 UMI(예컨대, 보호되지 않은 UMI에 대해 수행된 처리 작업 중에 전환될 수 있음)로 시퀀싱될 수 있다. 제1 및 제2 폴리뉴클레오타이드 및/또는 복사 가닥(들)(예컨대, 리드 폴리뉴클레오타이드를 포함할 수 있음)의 바코드(UMI)는 쌍을 형성할 수 있다. 일부 경우에, 단편화 패턴(예컨대, UMI 바코드와 함께 정방향 및/또는 역방향 폴리뉴클레오타이드(들)의)이 분석된 폴리뉴클레오타이드 가닥을 정보적으로 연결시키고/거나 쌍을 형성하기 위해 사용될 수 있다. 일부 경우에, 상대적으로 적은 수의 바코드(UMI)가, 예컨대, 본원에 기술된 것과 같이, 폴리뉴클레오타이드를 정보적으로 적절하기 연결하기 위해 사용된다.
본원에 제시된 2-염기 시퀀싱 방법, 시스템, 및 작업 흐름은, 예를 들어 RNA 시퀀싱에서 개선된 정확도 및 효율성을 얻기 위해 RNA 분석을 통합할 수 있다. 많은 경우에, 제1 폴리뉴클레오타이드는 RNA 분자(예컨대, 환자로부터 유래된 샘플, 예컨대 액체 생검 또는 세포 용해물 샘플로부터의)를 역전사효소(또는 이의 생물학적 활성 단편 또는 유도체)와 접촉시켜서 DNA 분자(예컨대, cDNA 분자)를 생성시킴으로써 생성될 수 있다. 일부 경우에, 본원에 제공된 방법, 시스템, 및 조성물에서 RNA의 사용은 DNA 분석이 제공할 수 없는 유전자 및 분자 세부사항, 예컨대 유전자 발현에서의 정보, 대상체 또는 조직의 다양한 생리적 상태(예컨대, 병태)에서의 DNA 스플라이싱(예컨대, 질환 상태, 특히 돌연변이를 포함하는 상태에서의 대체 DNA 스플라이싱)에 대한 통찰력을 얻을 수 있게 한다.
일부 경우에, Phred 품질 점수는 본원에 제공된 방법 및 시스템을 사용하는 중에 염기 확인의 품질을 평가하기 위해 계산될 수 있다. 일부 경우에, Phred 품질 점수 계산은 2-염기 시퀀싱 중에 생성된 두 Phred 품질 점수를 해결하는 것을 포함한다.
본원에 제시된 방법 및 시스템은 많은 유형의 시퀀싱과 부합하며, 시퀀싱의 정확도 및 효율성에 상당한 이점을 제공한다. 예를 들어, 막삼-길버트 시퀀싱, 생거 시퀀싱, 또는 고처리량 시퀀싱(예컨대, 차세대 시퀀싱(NGS)/제2 세대 시퀀싱(예컨대, 숏리드 시퀀싱) 또는 제3 세대 시퀀싱(예컨대, 롱리드 시퀀싱))이 본원에 개시된 방법 및 시스템과 함께 사용될 수 있다.
본원에 제시된 방법 및 시스템(예컨대, 2-염기 시퀀싱을 포함함)은 대상체로부터의 샘플의 폴리뉴클레오타이드에서 돌연변이를 정확하게 결정(예컨대, 확인)하는데 유용할 수 있다. 본원에서 기술된 것과 같이, 돌연변이 결정은 예를 들어 시퀀싱 방법을 사용하여 염기의 아이덴티티(예컨대, 아데닌, 시토신, 티민, 구아닌, 5-메틸시토신, 5-하이드록시메틸시토신, 메틸화된 시토신(예컨대, 아데닌, 티민, 구아닌, 또는 비메틸화 시토신과 반대로))를 결정하는 것을 포함할 수 있다. 많은 경우에, 대상체의 병태(예컨대, 생리적 병태, 예컨대 병리적 병태(예컨대, 질환 상태))가 본원에 제시된 방법, 시스템, 조성물을 사용하여 결정된 염기의 값(예컨대, 아이덴티티)을 적어도 부분적으로 토대로 하여 결정(예컨대, 진단)될 수 있다. 일부 경우에, 대상체의 병태는 본원에 제시된 방법, 시스템, 및/또는 조성물을 사용하여 결정된 폴리뉴클레오타이드(예컨대, 대상체로부터 얻어진 샘플로부터의)의 염기의 값(예컨대, 아이덴티티)을 적어도 부분적으로 토대로 하여 특정된 돌연변이에 기초하여 결정(예컨대, 진단)된다.
일부 경우에, 대상체의 병태는 신경퇴행성 질환(또는 신경퇴행성 질환에 대한 증가된 또는 감소된 위험)(예컨대, 이의 존재 또는 부재)이다. 일부 구현예에서, 신경퇴행성 병태는 알츠하이머병, 전두측두엽 치매, 근위축성 측삭 경화증, 파킨슨병, 척수소뇌성 운동실조증, 척수성 근위축증, 루이소체 치매, 또는 헌팅턴병으로부터 선택될 수 있다.
일부 경우에, 대상체의 병태는 암 또는 종양(예컨대, 암 또는 종양의 존재 또는 부재)이다. 일부 경우에, 병태는: 육종, 신경교종, 선종, 백혈병, 방광암, 유방암, 대장암, 자궁내막암, 신장암, 간암, 폐암, 흑색종, 비호지킨 림프종, 췌장암, 전립선암, 갑상선암으로부터 선택된다. 일부 경우에, 병태는: 선암종(adenocarcinoma), 부신 피질 암종(adrenal gland cortical carcinoma), 부신 신경모세포종(adrenal gland neuroblastoma), 항문 편평세포 암종(anus squamous cell carcinoma), 충수(appendix) 선암종, 방광 요로상피 암종(bladder urothelial carcinoma), 담관(bile duct) 선암종, 방광(bladder) 암종, 방광 요로상피 암종, 뼈 척색종(bone chordoma), 골수 백혈병 림프구성 만성, 골수 백혈병 비림프구성 급성 골수구성, 골수 림프 증식성 질환, 골수 다발성 골수종(bone marrow multiple myeloma), 뼈 육종, 뇌 성상세포종(brain astrocytoma), 뇌 교모세포종(brain glioblastoma), 뇌 수모세포종(brain medulloblastoma), 뇌수막종(brain meningioma), 뇌 희소돌기모교세포종(brain oligodendroglioma), 뇌 선양낭성암종(breast adenoid cystic carcinoma), 유방 암종, 유방관 암종 제자리(breast ductal carcinoma in situ), 유방 침습성 관 암종, 유방 침습성 소엽 암종, 유방 전이성 암종, 자궁경부 신경내분비 암종, 자궁경부 편평 세포 암종, 결장 선암종, 결장 유암종(carcinoid) 종양, 십이지장 선암종, 자궁내막양 종양(endometrioid tumor), 식도 선암종, 식도 및 위 암종, 눈의 안구내 흑색종, 눈의 안구내 편평 세포 암종, 눈의 눈물관 암종(eye lacrimal duct carcinoma), 나팔관 장액성 암종(fallopian tube serous carcinoma), 담낭 선암종, 담낭 사구 종양(glomus tumor), 위식도 접합부 선암종, 두경부 선양 낭성 암종(adenoid cystic carcinoma), 두경부 암종, 두경부 신경모세포종, 두경부 편평세포 암종, 신장 발색단 암종(kidney chromophore carcinoma), 신장 수질 암종(medullary carcinoma), 신장 신세포 암종, 신장 신유두성 암종(renal papillary carcinoma), 신장 육종양(sarcomtoid) 암종, 신장 요로상피 암종(urothelial carcinoma), 신장 암종, 백혈병 림프구성, 백혈병 림프구성 만성, 간 담관암종(liver cholangiocarcinoma), 간세포 암종, 간 암종, 폐 선암종, 폐 선편평세포 암종, 비정형 폐 유암종, 폐 암육종, 폐 거대 세포 신경내분비 암종, 폐 비-소세포 폐 암종, 폐 육종, 폐 육종양 암종, 폐 소세포 암종, 폐 소세포 미분화 암종, 폐 편평세포 암종, 상부 호흡소화관 편평세포 암종, 상부 호흡소화관 암종, 림프절 림프종(lymph node lymphoma) 미만성 거대 B 세포, 림프절 림프종 여포성 림프종, 림프절 림프종 종격동(mediastinal) B 세포, 림프절 림프종 형질모세포성 폐 선암종, 림프종 여포성 림프종, 림프종, 비호지킨성, 비인두 및 부비동 미분화 암종(nasopharynx and paranasal sinuses undifferentiated carcinoma), 난소 암종, 난소 암육종, 난소 투명 세포 암종, 난소 상피 암종, 난소 과립막 세포 종양(granulosa cell tumor), 난소 장액성 암종, 췌장 암종, 췌장관 선암종, 췌장 신경내분비 암종, 복막 중피종(peritoneum mesothelioma), 복막 장액성 암종, 태반 융모막암종(placenta choriocarcinoma), 흉막 중피종(pleura mesothelioma), 전립선 선포(prostate acinar) 선암종, 전립선 암종, 직장 선암종, 직장 편평세포 암종, 피부 부속기 암종(skin adnexal carcinoma), 피부 기저 세포 암종, 피부 흑색종, 피부 머클 세포 암종, 피부 편평세포 암종, 소장 선암종, 소장 위장 간질 종양(GIST), 대장/결장 암종, 대장 선암종, 연조직 혈관육종, 연조직 유잉 육종, 연조직 혈관내피종(hemangioendothelioma), 연조직 염증성 근섬유모세포성 종양(inflammatory myofibroblastic tumor), 연조직 평활근육종, 연조직 지방육종, 연조직 신경모세포종, 연조직 부신경절종(paraganglioma), 연조직 혈관주위 상피세포 종양(perivascular epitheliod cell tumor), 연조직 육종, 연조직 활막(synovial) 육종, 위 선암종, 위 선암종 미만형, 위 선암종 장형, 위 선암종 장형, 위 평활근육종, 흉선 암종, 흉선 흉선종 림프구성(thymus thymoma lymphocytic), 갑상선 유두성 암종, 알려지지 않은 원발성 선암종, 알려지지 않은 원발성 암종, 알려지지 않은 원발성 악성 신생물, 림프성 신생물, 알려지지 않은 원발성 흑색종, 알려지지 않은 원발성 육종양 암종, 알려지지 않은 원발성 편평세포 암종, 알려지지 않은 미분화 신경내분비 암종, 알려지지 않은 원발성 미분화 소세포 암종,자궁 암육종, 자궁 자궁내막(uterus endometrial) 선암종, 자궁내막 선암종 자궁내막양(endometrioid), 자궁내막 선암종 유두성 장액성, 및 자궁 평활근육종으로부터 선택된다.
또한 본원에는 PCR 유리 작업 흐름을 포함하는 방법이 제공된다. 그러한 방법은 DNA 서열에서 시토신, mC, 및 hmC를 구별 및 확인하기 위해 사용될 수 있다. PCR 유리 방법을 본원에 제공된 방법과 통합되거나 조합될 수 있는 작업 흐름에 통합시키는 단계의 비제한적인 예는 전체 내용이 참조로 본원에 포함되는 참고문헌(McInroy GR, Beraldi D, Raiber E-A, Modrzynska K, van Delft P, Billker O, et al.(2016) Enhanced Methylation Analysis by Recovery of Unsequenceable Fragments. PLoS ONE 11(3): e0152322. https://doi.org/10.1371/journal.pone.0152322)에 기술되고, 도 17의 좌측 패널에서 예시된다. 그러한 방법은 도 17의 우측 패널에서 도시된 것과 같이, 비오틴 태그를 사용할 수 있고 본원에 제공된 방법의 작업 후에 DNA 가닥의 변성을 포함할 수 있다.
여기서, DNA와 같은 핵산 분자는 구아닌(G), 아데닌(A), 티민(T), 우라실(U), 시토신(C), 또는 상보적인 뉴클레오타이드와 신뢰할 수 있게 염기쌍을 형성할 수 Dt는 염기를 포함할 수 있다. 7-데아자-아데닌, 7-데아자-구아닌, 아데닌, 구아닌, 시토신, 티민, 우라실, 2-데아자-2-티오-구아노신, 2-티오-7-데아자-구아노신, 2-티오-아데닌, 2-티오-7-데아자-아데닌, 아이소구아닌, 7-데아자-구아닌, 5,6-다이하이드로우리딘, 5,6-다이하이드로티민, 잔틴, 7-데아자-잔틴, 하이포잔틴, 7-데아자-잔틴, 2,6 다이아미노-7-데아자 퓨린, 5- 메틸-시토신, 5-하이드록시메틸시토신, 5-프로피닐-우리딘, 5-프로피닐-시티딘, 2-티오-티민 또는 2-티오-우리딘이 그러한 염기의 예이다. 올리고뉴클레오타이드는 예를 들어, LNA, PNA, UNA, 또는 모르폴리노 올리고머를 포함할 수 있다. 본원에서 사용된 올리고뉴클레오타이드는 천연 또는 비천연 뉴클레오타이드 또는 연결을 함유할 수 있다.
한 측면으로, 본 개시는 시토신 염기를 확인하는 방법을 제공한다. 방법은: a) 이중 가닥 폴리뉴클레오타이드의 시토신 염기를 나선효소의 존재 하에 탈아미노화하여 탈아미노화된 시토신 염기를 얻는 단계; b) 탈아미노화된 시토신 염기 또는 이의 이중 가닥 유도체를 포함하는 이중 가닥 폴리뉴클레오타이드의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 단계; 및 c) 시퀀싱 데이터를 처리하여 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 시토신 염기를 확인하는 단계를 포함한다. 일부 구현예에서, 시퀀싱은 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함한다.
일부 구현예에서, 탈아미노화는 탈아미노효소로 수행된다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
일부 구현예에서, 방법은 탈아미노화된 시토신 염기를 포함하는 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 단계 (c)는 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 것을 포함한다. 일부 구현예에서, 방법은 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함한다.
일부 구현예에서, 방법은 역방향 가닥으로부터 정방향 가닥을 분리하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 핵산 연장 반응에서 정방향 가닥을 사용하여 이중 가닥 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함한다. 일부 구현예에서, 탈아미노화는 탈아미노효소로 수행된다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
일부 구현예에서, 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸 시토신 염기이다. 일부 구현예에서, 방법은 탈아미노화된 시토신 염기를 포함하는 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 단계 (c)는 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 것을 포함한다. 일부 구현예에서, 단계 (c)는 시퀀싱 데이터를 처리하여 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 시토신 염기로서 확인하는 것을 포함한다.
일부 구현예에서, 정방향 가닥은 메틸화된 시토신 염기를 포함하고 방법은 (i) 메틸화된 시토신 염기를 포함하는 정방향 가닥 및 (ii) 시토신 염기를 포함하는 추가의 역방향 가닥을 포함하는 변형된 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 정방향 가닥을 사용하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 메틸화된 시토신 염기를 글루코실화된 하이드록시메틸시토신으로 전환시키는 단계를 추가로 포함한다.
일부 구현예에서, 메틸화된 시토신 염기는 메틸시토신 염기이고 전환 단계는 메틸시토신 염기를 산화 조건에 적용하여 하이드록시메틸시토신 염기를 생성하고 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다. 일부 구현예에서, 메틸화된 시토신 염기는 하이드록시메틸시토신이고 전환 단계는 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다.
일부 구현예에서, 탈아미노화는 탈아미노효소로 수행된다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
일부 구현예에서, 방법은 탈아미노화된 시토신 염기를 포함하는 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 단계 (c)는 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 것을 포함한다. 일부 구현예에서, 방법은 시퀀싱 데이터를 처리하여 메틸화된 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 메틸화된 시토신 염기로서 확인하는 단계를 추가로 포함한다.
또 다른 측면으로, 본 개시는 시토신 염기를 확인하는 방법을 제공한다. 방법은: a) 이중 가닥 폴리뉴클레오타이드의 시토신 염기를, 나선효소의 존재 하에 탈아미노효소로 탈아미노화하여 탈아미노화된 시토신 염기를 얻는 단계; b) 탈아미노화된 시토신 염기를 포함하는 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 단계; 및 c) 시퀀싱 데이터를 처리하여 시토신 염기를 확인하는 단계를 포함한다.
일부 구현예에서, 시퀀싱은 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함한다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
일부 구현예에서, 방법은 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 역방향 가닥으로부터 정방향 가닥을 분리하는 단계를 추가로 포함한다. 일부 구현예에서, 분리 단계는 정방향 가닥을 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 적용하는 것을 포함한다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
일부 구현예에서, 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸 시토신 염기이다. 일부 구현예에서, 방법은 탈아미노화된 시토신 염기를 포함하는 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하며, 단계 (c)는 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 것을 포함한다. 일부 구현예에서, 정방향 가닥은 메틸화된 시토신 염기를 포함하고 분리 단계는 (i) 메틸화된 시토신 염기를 포함하는 정방향 가닥 및 (ii) 시토신 염기를 포함하는 추가의 역방향 가닥을 포함하는 변형된 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에서 정방향 가닥을 사용하는 것을 포함한다. 일부 구현예에서, 방법은 메틸화된 시토신 염기를 글루코실화된 하이드록시메틸시토신으로 전환시키는 단계를 추가로 포함한다. 일부 구현예에서, 메틸화된 시토신 염기는 메틸시토신 염기이고 전환 단계는 메틸시토신 염기를 산화 조건에 적용하여 하이드록시메틸시토신 염기를 생성하고 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다. 일부 구현예에서, 메틸화된 시토신 염기는 하이드록시메틸시토신이고 전환 단계는 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함한다.
일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 구현예에서, 방법은 탈아미노화된 시토신 염기를 포함하는 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하고, 단계 (c)는 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 것을 포함한다.
본 개시의 추가 측면은 키트를 제공한다. 키트는 탈아미노효소; 나선효소; 및 포장 및 키트를 사용하기 위한 그 안의 설명서를 포함할 수 있다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 키트는 메틸시토신 이산소화효소를 추가로 포함한다. 일부 구현예에서, 메틸시토신 이산소화효소는 10-11 전좌(TET) 효소 또는 이의 단편을 포함한다. 일부 구현예에서, TET 효소는 TET1, TET2 또는 TET3이다. 일부 구현예에서, 키트는 데옥시리보핵산(DNA) 글루코실트랜스퍼라제를 추가로 포함한다. 일부 구현예에서, DNA 글루코실트랜스퍼라제는 DNA 베타-글루코실트랜스퍼라제를 포함한다. 일부 구현예에서, 키트는 DNA 메틸트랜스퍼라제를 추가로 포함한다. 일부 구현예에서, DNA 메틸트랜스퍼라제는 DNA 메틸트랜스퍼라제 1(DNMT1)을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
또 다른 측면으로, 본 개시는 시토신 염기를 확인하는 방법을 제공한다. 방법은: a) 시토신 염기를 포함하는 폴리뉴클레오타이드를, 시토신 염기를 시토신 염기로부터 유래된 변경된 염기로 집합적으로 변환시키는 하나 이상의 시약과 접촉시킴으로써, 변경된 염기를 포함하는 변형된 폴리뉴클레오타이드를 생성하는 단계; b) 변경된 염기를 포함하는 변형된 폴리뉴클레오타이드 또는 이의 유도체의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 30배 이하, 25배 이하, 20배 이하, 15배 이하, 또는 10배 이하, 5배 이하, 또는 2배 이하의 커버리지로 얻는 단계; 및 c) 시퀀싱 데이터를 처리하여 시토신 염기를 시토신으로서 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 확인하는 단계를 포함한다.
일부 구현예에서, 변형된 폴리뉴클레오타이드 또는 이의 유도체는 이중 가닥 폴리뉴클레오타이드이다. 일부 구현예에서, 시퀀싱은 이중 가닥 폴리뉴클레오타이드의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함한다. 일부 구현예에서, 시토신 염기는 메틸화된 시토신 염기이다. 일부 구현예에서, 방법은 시퀀싱 데이터를 처리하여 메틸화된 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 시토신으로서 확인하는 단계를 추가로 포함한다.
일부 구현예에서, 하나 이상의 시약은 산화제를 포함한다. 일부 구현예에서, 산화제는 10-11 전좌(TET) 효소 또는 이의 단편을 포함한다. 일부 구현예에서, TET 효소는 TET1, TET2 또는 TET3이다. 일부 구현예에서, 하나 이상의 시약은 DNA-글루코실트랜스퍼라제를 포함한다. 일부 구현예에서, 하나 이상의 시약은 탈아미노효소를 포함한다. 일부 구현예에서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편이다. 일부 구현예에서, 하나 이상의 시약은 나선효소를 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다. 일부 구현예에서, 하나 이상의 시약은 DNA 메틸트랜스퍼라제를 포함한다.
일부 구현예에서, 방법은 폴리뉴클레오타이드를 포함하는 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함한다. 일부 구현예에서, 방법은 역방향 가닥으로부터 정방향 가닥을 분리하는 단계를 추가로 포함한다. 일부 구현예에서, 분리 단계는 폴리뉴클레오타이드를 포함하는 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 정방향 가닥을 사용하는 것을 포함한다.
일부 구현예에서, 메틸화된 염기는 메틸화된 시토신 염기이다. 일부 구현예에서, 하나 이상의 시약은 탈아미노효소 및 나선효소를 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함한다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
일부 구현예에서, 시퀀싱은 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함한다. 일부 구현예에서, 시퀀싱 데이터는 메틸화된 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 시토신으로서 확인한다.
일부 구현예에서, 폴리뉴클레오타이드는 폴리뉴클레오타이드의 집단으로부터 유래되며, 폴리뉴클레오타이드 집단에서 메틸화된 시토신 염기의 염기 빈도는 주어진 유전자좌에서 75% 이하, 70% 이하, 65% 이하, 60% 이하, 55% 이하, 50% 이하, 45% 이하, 40% 이하, 35% 이하, 30% 이하, 25% 이하, 20% 이하, 15% 이하, 10% 이하, 7% 이하, 5% 이하, 3% 이하, 또는 1% 이하이다.
일부 구현예에서, 메틸화된 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸시토신 염기를 포함한다. 일부 구현예에서, 메틸화된 시토신 염기는 메틸시토신 염기를 포함하고 하나 이상의 시약은 본원의 다른 곳에서 제공된 그러한 시약의 예를 포함하여, 산화제, DNA 글루코실트랜스퍼라제, 탈아미노효소 및 나선효소를 포함한다. 일부 구현예에서, 메틸화된 시토신 염기는 하이드록시메틸시토신 염기를 포함하고 하나 이상의 시약은 본원의 다른 곳에서 제공된 그러한 시약의 예를 포함하여, 산화제, DNA 글루코실트랜스퍼라제, 메틸트랜스퍼라제, 탈아미노효소 및 나선효소를 포함한다. 일부 구현예에서, 시퀀싱은 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함한다.
일부 구현예에서, 시퀀싱 데이터를 처리하여 메틸화된 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 메틸시토신 또는 하이드록시메틸시토신으로서 확인한다. 일부 구현예에서, 방법은 시퀀싱 데이터를 처리하여 메틸화된 시토신 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 메틸시토신 또는 하이드록시메틸시토신으로서 확인하는 단계를 추가로 포함한다.
본원에 기술된 조성물은 주어진 유전자좌에서 염기를 검출 및 확인하고 또한 염기의 메틸화 또는 다른 변형 상태를 검출 및 확인하기 위하여 본원에 기술된 방법에서 활용될 수 있다. 예를 들어, 본원에 기술된 방법은 주어진 유전자좌에서 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 염기를 확인하기 위해 시행될 수 있다. 더욱이, 본원에 기술된 방법은 메틸화된(예컨대, 메틸화된 시토신, 예컨대 메틸시토신, 하이드록시메틸시토신) 또는 다른 변형된 염기를 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 메틸화된 또는 달리 변형된 것으로서 확인하기 위해 시행될 수 있다.
본원에 기술된 조성물은 염기의 메틸화 또는 다른 변형 상태를 30배 이하, 25배, 20배, 15배, 10배, 5배, 또는 2배 이하의 시퀀싱 커버리지로 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 검출 및 확인하기 위해 본원에 기술된 방법에 활용될 수 있다.
본원의 다른 곳에서 기술되는 것과 같이, 기술된 방법 및 조성물은 핵산 집단의 유전자좌에서 상대적으로 낮은 빈도에서 높은 정확도로 변형된 염기(예컨대, 메틸시토신 및 하이드록시메틸 시토신을 포함한 메틸화된 시토신 염기)를 검출하는 데 유용할 수 있다. 그러한 메틸화된 염기는 주어진 유전자좌에서 상대적으로 드문 빈도로 발생할 수 있다. 일부 구현예에서, 검출 및 확인되는 변형된 염기는 폴리뉴클레오타이드 집단에서 주어진 유전자좌에서 75% 이하, 70% 이하, 65% 이하, 60% 이하, 55% 이하, 50% 이하, 45% 이하, 40% 이하, 35% 이하, 30% 이하, 25% 이하, 20% 이하, 15% 이하, 10% 이하, 7% 이하, 5% 이하, 3% 이하, 또는 1% 이하의 염기 빈도를 갖는다. 그러한 변형된 염기는 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 99%, 적어도 약 99.9%, 적어도 약 99.99%, 적어도 약 99.999%, 적어도 약 99.9999% 또는 그 이상의 정확도로 검출 및 확인될 수 있다.
본원에 기술된 방법은 탈아미노화 작업에서 탈아미노효소와 조합되는 것을 포함하여, 나선효소를 사용할 수 있다. 그러한 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편의 아미노산 서열에 대해 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 93%, 적어도 약 95%, 적어도 약 97%, 또는 적어도 약 99% 상동성인 아미노산 서열을 포함할 수 있다. 일부 구현예에서, 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편이다.
본원에 기술된 방법은 탈아미노효소를 포함할 수 있다. 일부 경우에, 탈아미노효소는 시티딘 탈아미노효소이다. 시토신 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소(예컨대, APOBEC3A), 또는 이의 단편일 수 있다.
실시예
실시예 1: 2-염기 시퀀싱을 위한 폴리뉴클레오타이드의 제조
이 실시예는 헤어핀 이중 가닥 DNA 구성물을 사용하여 시퀀싱을 위한 폴리뉴클레오타이드를 제조하는 방법을 보여준다. 무세포 DNA(cfDNA)의 분석을 위해, 10 밀리리터(ml)의 말초혈 샘플을 환자로부터 뽑아내어 2000 x g에서 15분 동안 원심분리하고, cfDNA를 포함하는 혈장 분획을 수집한다. 관심의 cfDNA 폴리뉴클레오타이드(예컨대, 제1 폴리뉴클레오타이드)의 3' 단부에 상보적인 50 bp 표적화 서열을 포함하는 헤어핀 폴리뉴클레오타이드 및 관심의 cfDNA 폴리뉴클레오타이드의 5' 단부에 상보적인 50 bp 표적화 서열을 포함하는 3' 시퀀싱 어댑터를 수집한 cfDNA와 혼합하여 cfDNA 폴리뉴클레오타이드를 포획하기 위해 사용한다. 5' 시퀀싱 어댑터를 cfDNA의 5' 단부에 돌출되어 있는 3' 시퀀싱 어댑터의 일부에 혼성화하고, 술폴로부스 DNA 중합효소 IV를 사용하여 5' 시퀀싱 어댑터와 cfDNA 폴리뉴클레오타이드 사이의 갭을 충전한다. 프라이머로서 헤어핀 폴리뉴클레오타이드의 3' 단부 및 cfDNA 폴리뉴클레오타이드(예컨대, 주형으로서 제1 폴리뉴클레오타이드)를 사용하여 DNA 중합효소를 사용하여 제2 폴리뉴클레오타이드를 생성한다(예컨대, 도 5에서 도시됨).
만약 게놈 DNA가 사용되면, 이중 가닥 DNA 폴리뉴클레오타이드(정방향 폴리뉴클레오타이드 및 역방향 폴리뉴클레오타이드를 포함함)를 세포 샘플로부터 추출하고 단편화한다. 게놈 DNA의 태그부착은 Tn5 트랜스포사제 및 헤어핀의 5' 및 3' 단부에 Tn5 트랜스포사제 결합 부위를 포함하고 있는 헤어핀 폴리뉴클레오타이드를 사용하여 수행하여 2개의 헤어핀 폴리뉴클레오타이드 및 2개의 제1 폴리뉴클레오타이드(예컨대, 정방향 폴리뉴클레오타이드 및 역방향 폴리뉴클레오타이드)를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 형성한다(예컨대, 도 10에서 도시됨). 대안으로, 헤어핀 폴리뉴클레오타이드를 혼성화된 제1 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드에 직접 결찰시켜서 2개의 헤어핀 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 형성한다(예컨대, 도 19a 또는 도 19b의 작업 1001 및 1002에서 도시됨).
이중 가닥 폴리뉴클레오타이드는 헤어핀 폴리뉴클레오타이드의 3' 단부에서 효소적으로 절단되어 제1 폴리뉴클레오타이드를 포함하는 2개의 폴리뉴클레오타이드(예컨대, 각각 정방향 폴리뉴클레오타이드 및 역방향 폴리뉴클레오타이드) 및 헤어핀 폴리뉴클레오타이드를 생성한다(예컨대, 도 19a 또는 도 19b의 작업 1003 또는 도 19c의 작업 1에서 도시됨). 제2 폴리뉴클레오타이드(예컨대, 동족 폴리뉴클레오타이드)를 프라이머로서 헤어핀 폴리뉴클레오타이드의 유리 3' 단부 및 주형으로서 제1 폴리뉴클레오타이드를 사용하여 중합효소 연쇄 반응을 수행함으로써 생성한다(예컨대, 도 19a, 도 19b의 작업 1004, 및 도 19c의 작업 1에서 도시됨). 그런 후 시퀀싱 어댑터를 화학적 처리 전에 제1 폴리뉴클레오타이드의 5' 단부 및 제2 폴리뉴클레오타이드의 3' 단부에 결찰시킨다(예컨대, 실시예 3-11, 도 1b, 및 도 19b의 작업 1005 및 1006에서 제시됨). 대안으로, 시퀀싱 어댑터를 화학적 처리 후에 제1 폴리뉴클레오타이드의 5' 단부 및 제2 폴리뉴클레오타이드의 3' 단부에 결찰시킨다(예컨대, 실시예 3-11, 도 1a, 도 19b의 작업 1005 및 1006, 및 도 19c의 작업 2-4에서 제시됨).
헤어핀 폴리뉴클레오타이드, 제1 폴리뉴클레오타이드(예컨대, 정방향 또는 역방향 폴리뉴클레오타이드), 제2 폴리뉴클레오타이드(예컨대, 동족 폴리뉴클레오타이드), 및 5' 및 3' 시퀀싱 어댑터를 포함하는 이중 가닥 폴리뉴클레오타이드는 용융에 의해 개방할 수 있다. 일부 경우에, 이중 가닥 폴리뉴클레오타이드(예컨대, 헤어핀 폴리뉴클레오타이드가 있거나 없음)의 제1 폴리뉴클레오타이드는 효소적으로, 예컨대, 나선효소를 사용하여 분리될 수 있다. 제1 및 제2 폴리뉴클레오타이드는 개방된 구성물에 대해 중합효소 연쇄 반응이 적용되어 제2 폴리뉴클레오타이드에 상보적인 폴리뉴클레오타이드(예컨대, 리드 폴리뉴클레오타이드)를 포함하는 폴리뉴클레오타이드가 생성될 수 있다(예컨대, 도 19d에 도시됨). 제1 폴리뉴클레오타이드(예컨대, 리드 1) 및 리드 폴리뉴클레오타이드(예컨대, 리드 2)를 시퀀싱하여 제1 폴리뉴클레오타이드의 유전자좌에서의 제1 염기 및 제2 폴리뉴클레오타이드의 상응하는 유전자좌에 있는 또는 그에 근접한(예컨대, 상응하는 유전자좌에 대해 폴리뉴클레오타이드의 서열에서 인접한 위치에 있는) 제2 염기에 대한 값(예컨대, 아이덴티티)을 결정한다. 유전자좌에서 cfDNA 또는 게놈 DNA에 존재하는 진정한 염기에 대한 값을 결정된 제1 및 제2 염기에 기초하여 컴퓨터 프로그램을 사용하여 결정한다(예컨대, 도 20a-f에서 도시된 표 중 하나를 사용함).
실시예 2: 4-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 4-문자 염기 식별 시퀀싱 검정을 사용하여 cfDNA 분자의 염기를 평가하는 것을 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 제1 및 제2 폴리뉴클레오타이드의 5' 및 3' 단부에 결찰된 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 차세대 시퀀싱을 사용하여 서열을 분석한다.
대안으로, 제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서기술한 것과 같이 제공한다. 이중 가닥 DNA 폴리뉴클레오타이드를 이의 용융 온도로 가열함으로써 개방하고, 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드를 시퀀싱한다. 이중 가닥 DNA 폴리뉴클레오타이드의 제1 및 제2 폴리뉴클레오타이드의 분리는 이중 가닥 DNA 폴리뉴클레오타이드를 가열하는 것 외에 또는 그 대신에 이중 가닥 DNA 폴리뉴클레오타이드를 삽입제(intercalating agent), 단일 가닥 DNA 결합 단백질, 및/또는 나선효소와 접촉시킴으로써 개선할 수 있다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20a에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
실시예 3: 중아황산염 처리를 포함하는 5-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 5-문자 염기 식별(아데닌, 구아닌, 티민, 시토신, 및 메틸화된 시토신 염기) 시퀀싱 검정 및 중아황산염 전환을 사용하여 cfDNA 분자의 염기를 평가하는 것을 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA 폴리뉴클레오타이드를 중아황산염으로 처리한 후에 용융 온도로 가열함으로써 개방하고, 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드를 시퀀싱한다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20b에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
실시예 4: 산화성 중아황산염 처리를 포함하는 2-염기 시퀀싱
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 2-염기 시퀀싱에서 산화성 중아황산염 처리의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 제공된 이중 가닥 DNA 폴리뉴클레오타이드(제1 및 제2 폴리뉴클레오타이드 포함)의 집단을 두 그룹으로 나눈다: 제1 그룹을 산화제 루테늄산칼륨에 노출시키고, 제2 그룹은 산화제에 노출시키지 않는다. 그런 후 두 그룹의 이중 가닥 DNA 폴리뉴클레오타이드를 모두 중아황산염 시퀀싱을 사용하여 시퀀싱한다.
데이터를 오류에 대해 선별한 후 컴퓨터를 사용하여 도 20c에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 정렬하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타내며, 제1 폴리뉴클레오타이드의 유전자좌에서의 염기에 대해 결정된 값에서 산화성 중아황산염 시퀀싱보다 더 높은 신뢰도를 생성한다. 제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기에 대한 값을 산화성 중아황산염 시퀀싱 방법을 사용하여(예컨대, 5-하이드록시메틸시토신의 존재를 결정하기 위해 제1 그룹 및 제2 그룹으로부터의 리드의 차등 분석을 사용하고 5-메틸시토신의 존재를 결정하기 위해 제2 그룹으로부터의 시퀀싱 데이터를 사용하여) 측정한다.
대안으로, 이중 가닥 DNA 폴리뉴클레오타이드의 집단을 그룹으로 나누지 않고, 모든 이중 가닥 DNA를 산화제(루테늄산칼륨)와 접촉시킨 후 중아황산염 시퀀싱을 적용한다. 데이터를 오류에 대해 선별한 후 컴퓨터를 사용하여 도 20c에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 정렬하며, 5-메틸시토신, 아데닌, 구아닌, 및 티민은 서로, 그리고 시토신 또는 5-하이드록시메틸시토신일 수 있는 제5 염기 그룹과 구별될 수 있다(예컨대, 5-문자 시퀀싱).
실시예 5: 루테늄산칼륨으로의 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 2-염기 시퀀싱에서 루테늄산칼륨 처리의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA 폴리뉴클레오타이드(제1 및 제2 폴리뉴클레오타이드를 포함함)를 산화제 루테늄산칼륨에 노출시킨다(예컨대, 도 2d에서 도시됨). 그런 후 이중 가닥 DNA를 환원제 피리딘 보레인에 노출시킨다. 그런 후 이중 가닥 DNA를 DNMT1에 노출시킨다. 일부 경우에, DNMT5가 이 작업에서 DNMT1을 대체한다. 이중 가닥 DNA를 조작된 DNA 메틸트랜스퍼라제 및 SAM 유사체를 포함하는 용액에 노출시킨다. 그런 후 이중 가닥 DNA를 나선효소(또는 단일 가닥 DNA 결합 단백질)를 사용하여 분리하고 APOBEC3A를 사용하여 탈아미노화한다. 이중 가닥 DNA를 분리하면서 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다. 나선효소가 더 이상 존재하지 않거나/활성이 아닌 경우 PCR을 수행하기 위하여 가닥 대체 PCR 시약 및/또는 가열을 사용하여 제1 및 제2 폴리뉴클레오타이드를 분리시킬 수 있다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20d에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
실시예 6: TET 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 2-염기 시퀀싱에서 TET 처리의 사용을 포함하는 대체 방법을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA 폴리뉴클레오타이드(제1 및 제2 폴리뉴클레오타이드를 포함함)를 산화제 루테늄산칼륨에 노출시킨다(예컨대, 도 3에서 도시됨). 그런 후 이중 가닥 DNA를 DNMT1에 노출시킨다. 이중 가닥 DNA를 산화제 TET를 포함하는 용액에 노출시킨다. 일부 경우에, TET의 생물학적 활성 단편을 사용할 수 있다. 그런 후 이중 가닥 DNA를 pic-보레인에 노출시킨 다음 헤어핀 폴리뉴클레오타이드를 용융시켜서, 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20b에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
실시예 7: TET 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱의 대체 방법
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위해 글리코실화제 및 메틸트랜스퍼라제로의 처리를 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA 폴리뉴클레오타이드(제1 및 제2 폴리뉴클레오타이드를 포함함)를 DNA 메틸트랜스퍼라제-5(DNMT5)(예컨대, 도 4에서 도시됨) 또는 DNMT1에 노출시킨다. 만약 5-하이드록시메틸시토신으로부터 5-메틸시토신을 구별하는데 추가의 민감성을 적용할 수 있다면, 제1 폴리뉴클레오타이드는 이중 가닥 DNA 폴리뉴클레오타이드가 DNA 메틸트랜스퍼라제와 접촉되기 전에 b-글루코실트랜스퍼라제와 접촉될 수 있다. b-글루코실트랜스퍼라제가 사용되는 경우에, DNMT1 또는 DNMT5가 메틸트랜스퍼라제로서 사용될 수 있다. 이중 가닥 DNA 폴리뉴클레오타이드가 메틸트랜스퍼라제와 접촉된 후에 이중 가닥 DNA 폴리뉴클레오타이드를 산화제 TET를 포함하는 용액에 노출시킨다. 일부 경우에, TET의 생물학적 활성 단편이 사용될 수 있다. 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 보레인에 노출시켜서 caC 잔기를 화학적으로 환원시킨 후 약산으로 처리한다(대안으로, 약염기가 사용될 수 있음). 그러면 헤어핀 폴리뉴클레오타이드가 용융되고, 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20d에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
실시예 8: β-글루코실트랜스퍼라제 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 글리코실화제 및 메틸트랜스퍼라제로의 처리를 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA를, 도 1b에서 도시된 것과 같이(또는, 대안으로, 도 1a에서 도시됨) β-글루코실트랜스퍼라제에 노출시킨다. 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 DNMT1에 노출시켜서 보호되지 않은 5-메틸시토신 태그를 제2 폴리뉴클레오타이드 상의 상응하는 유전자좌에 근접한 시토신에 전달한다. 그런 다음 이중 가닥 DNA를 중아황산염에의 노출에 의해 탈아미노화하고 그런 후 헤어핀을 용융시키며, 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20e에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
대안으로, 진정한 염기에 대한 값은 도 20f에서 볼 수 있는 표에 따라 결정하며, "r1"은 제1 폴리뉴클레오타이드 상의 검출된 염기 값을 나타내고, "r2"는 리드 폴리뉴클레오타이드 상의 검출된 염기 값을 나타내며, "r2c"는 제2 폴리뉴클레오타이드 상의 염기 값을 나타내고, "r1/r2"는 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드에 대해 검출된 염기 값의 조합을 나타내며, "r1/r2c"는 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드에 대한 염기 값의 조합을 나타내고, "A"는 아데닌을 나타내며, "G"는 구아닌을 나타내고, "T"는 티민을 나타내며, "C"는 시토신을 나타내고, 0 내지 9의 숫자는 개별 오류 콜을 나타낸다. 이 방법을 사용하는 실험 데이터를 도 21에서 볼 수 있다. 자주색으로 도시된 것은 오류 콜을 초래한 시퀀싱 사건이고(예컨대, 미스콜로서 확인된 시퀀싱 오류); 적색으로 도시된 것은 진정한 저빈도 돌연변이로서 확인된 염기 미스매치이다. 메틸화 수준(예컨대, 하이드록시메틸화 수준)은 도 21의 표에서 정량화된다.
실시예 9: β-글루코실트랜스퍼라제 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱의 대체 방법
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 글리코실화제 및 메틸트랜스퍼라제로의 처리를 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA를 β-글루코실트랜스퍼라제(bGT)에 노출시킨다(예컨대, 도 2a에서 도시됨). 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 DNMT1에 노출시켜서 보호되지 않은 5-메틸시토신 태그를 제2 폴리뉴클레오타이드 상의 상응하는 유전자좌에 근접한 시토신에 전달한다. 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 TET로 산화시키고 bGT에 두 번째로 노출시킨다. 일부 경우에, 제1 및 제2 폴리뉴클레오타이드를 산화제(예컨대, TET)를 포함하는 용액과 접촉시키는 것이 편리할 수 있다; 그러나, 제1 및 제2 폴리뉴클레오타이드를 TET에 노출시킨 후 연속적으로 bGT에 노출시킬 수 있다. 그런 후 이중 가닥 DNA를 나선효소(또는 단일 가닥 DNA 결합 단백질)를 사용하여 분리하고 APOBEC3A, 또는 이의 단편을 사용하여 탈아미노화한다. 이중 가닥 DNA를 분리하면서 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다(예컨대, 도 19e에서 도시됨). 나선효소가 더 이상 존재하지 않거나/활성이 아닌 경우에 가닥 대체 PCR 시약 및/또는 가열을 사용하여 제1 및 제2 폴리뉴클레오타이드를 분리시켜서 PCR을 수행할 수 있다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20e에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
대안으로, 진정한 염기에 대한 값은 도 20f에서 볼 수 있는 표에 따라 결정하며, "r1"은 제1 폴리뉴클레오타이드 상의 검출된 염기 값을 나타내고, "r2"는 리드 폴리뉴클레오타이드 상의 검출된 염기 값을 나타내며, "r2c"는 제2 폴리뉴클레오타이드 상의 염기 값을 나타내고, "r1/r2"는 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드에 대해 검출된 염기 값의 조합을 나타내며, "r1/r2c"는 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드에 대한 염기 값의 조합을 나타내고, "A"는 아데닌을 나타내며, "G"는 구아닌을 나타내고, "T"는 티민을 나타내며, "C"는 시토신을 나타내고, 0 내지 9의 숫자는 개별 오류 콜을 나타낸다.
실시예 10: β-글루코실트랜스퍼라제 및 SAM 유사체 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 글리코실화제 및 메틸트랜스퍼라제로의 처리를 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA를 β-글루코실트랜스퍼라제(bGT)에 노출시킨다(예컨대, 도 2c에서 도시됨). 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 DNMT1에 노출시켜서 보호되지 않은 5-메틸시토신 태그를 제2 폴리뉴클레오타이드 상의 상응하는 유전자좌에 근접한 시토신에 전달한다. 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 S-아데노실메티오닌(SAM) 유사체 및 DNA 메틸트랜스퍼라제를 포함한 용액에 노출시킨다. 그런 후 이중 가닥 DNA를 나선효소(또는 단일 가닥 DNA 결합 단백질)을 사용하여 분리하고 APOBEC3A, 또는 이의 단편을 사용하여 탈아미노화한다. 이중 가닥 DNA를 분리하면서 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다. 나선효소가 더 이상 존재하지 않거나/활성이 아닌 경우에 가닥 대체 PCR 시약 및/또는 가열을 사용하여 제1 및 제2 폴리뉴클레오타이드를 분리하여 PCR을 수행할 수 있다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 20e에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하여 결정하며, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내고 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
대안으로, 진정한 염기에 대한 값은 도 20f에서 볼 수 있는 표에 따라 결정하며, "r1"은 제1 폴리뉴클레오타이드 상의 검출된 염기 값을 나타내고, "r2"는 리드 폴리뉴클레오타이드 상의 검출된 염기 값을 나타내며, "r2c"는 제2 폴리뉴클레오타이드 상의 염기 값을 나타내고, "r1/r2"는 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드에 대해 검출된 염기 값의 조합을 나타내며, "r1/r2c"는 제1 폴리뉴클레오타이드 및 제2 폴리뉴클레오타이드에 대한 염기 값의 조합을 나타내고, "A"는 아데닌을 나타내며, "G"는 구아닌을 나타내고, "T"는 티민을 나타내며, "C"는 시토신을 나타내고, 0 내지 9의 숫자는 개별 오류 콜을 나타낸다.
실시예 11: β-글루코실트랜스퍼라제 및 SAM 유사체 처리를 포함하는 6-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 샘플의 원래의 폴리뉴클레오타이드에서 염기의 값을 결정하기 위한 글리코실화제 및 메틸트랜스퍼라제로의 처리를 포함하는 2-염기 시퀀싱의 사용을 보여준다.
제1 폴리뉴클레오타이드(예컨대, 무세포 DNA 원래의 폴리뉴클레오타이드를 포함함), 제2 폴리뉴클레오타이드, 헤어핀 폴리뉴클레오타이드, 및 어댑터 폴리뉴클레오타이드를 포함하는 이중 가닥 DNA 폴리뉴클레오타이드를 실시예 1에서 기술한 것과 같이 제공한다. 이중 가닥 DNA 폴리뉴클레오타이드를 DNMT1에 노출시켜서 보호되지 않은 5-메틸시토신 태그를 제2 폴리뉴클레오타이드 상의 상응하는 유전자좌에 근접한 시토신에 전달한다(예컨대, 도 2b에서 도시됨). 그런 후 이중 가닥 DNA를 β-글루코실트랜스퍼라제(bGT)에 노출시킨다. 그런 후 이중 가닥 DNA 폴리뉴클레오타이드를 S-아데노실메티오닌(SAM) 유사체 및 DNA 메틸트랜스퍼라제를 포함한 용액에 노출시킨다. 그런 후 이중 가닥 DNA를 나선효소(또는 단일 가닥 DNA 결합 단백질)을 사용하여 분리하고 APOBEC3A, 또는 이의 단편을 사용하여 탈아미노화한다. 이중 가닥 DNA를 분리하면서 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 리드 폴리뉴클레오타이드를 PCR을 사용하여 생성하고, 제1 폴리뉴클레오타이드 및 리드 폴리뉴클레오타이드를 시퀀싱한다. 나선효소가 더 이상 존재하지 않거나/활성이 아닌 경우에 가닥 대체 PCR 시약 및/또는 가열을 사용하여 제1 및 제2 폴리뉴클레오타이드를 분리하여 PCR을 수행할 수 있다.
제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기 및 오류 콜링에 대한 값을 컴퓨터를 사용하여 도 2b에 따르는 시퀀싱 데이터를 처리하여 결정한다.
실시예 12: TET 처리 및 β-글루코실트랜스퍼라제 처리를 포함하는 5-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 이중 가닥 핵산을 산화제(예컨대, TET 효소), 글리코실화제(예컨대, 글루코실트랜스퍼라제, 예컨대, 예를 들어, β-글루코실트랜스퍼라제), 탈아미노화제(탈아미노효소) 및 나선효소로 처리하여 핵산 분자에서 변형된(예컨대, 메틸화된) 염기를 확인하는 것을 기술한다. 특히, 이 실시예는 메틸화된 시토신 염기(예컨대, 5-메틸시토신을 포함한 메틸시토신; 5-하이드록시메틸 시토신을 포함한 하이드록시메틸시토신)를 비메틸화 시토신 염기로부터 구별하고 확인한다. 그러한 구별 및 확인은 단일 염기 분해능에서 있을 수 있다.
일부 경우에, 도 23에서 도시된 것과 같이, 2개의 이중 가닥 폴리뉴클레오타이드(예컨대, 이중 가닥 DNA)는 함께 혼성화되고 또한 (예컨대, 하나 이상의 헤어핀 어댑터를 통해) 함께 별도로 연결되는 제1 가닥 및 제2 가닥을 포함한다. 일부 경우에, 제1 가닥은 제1 가닥의 3' 단부에서 헤어핀 어댑터에 연결되고, 헤어핀 어댑터는 제2 가닥의 5' 단부에서 제2 가닥에 연결된다(도 23의 좌측 절반 참고). 일부 경우에, 제1 가닥은 제1 가닥의 5' 단부에서 헤어핀 어댑터에 연결되고, 헤어핀 어댑터는 제2 가닥의 3' 단부에서 제2 가닥에 연결된다(도 23의 우측 절반 참고). 원래의 이중 가닥 폴리뉴클레오타이드를 포함한, 원래의 폴리뉴클레오타이드로부터 혼성화되고 연결된 가닥을 갖는 그러한 이중 가닥 폴리뉴클레오타이드를 생성하는 예는, 실시예 1, 도 1a, 도 1b, 도 19a 도 19b와 관련된 것을 포함하여, 본원의 다른 곳에서 기술된다. 도 23의 작업 1은 또한 그러한 이중 가닥 폴리뉴클레오타이드를 생성하기 위한 예시의 작업을 제공한다. 시퀀싱 어댑터는 아래에서 기술되는 처리 작업이 수행되기 전에, 중에 또는 후에 첨가될 수 있다. 이런 예에서, 도 23에서 도시된 것과 같이, 제공된 이중 가닥 폴리뉴클레오타이드(첫 번째는 도 23에서 좌측에 도시되고, 두 번째는 도 23에서 우측에 도시됨)는 메틸시토신(도 23에서 mC, 예컨대, 5-메틸시토신) 및 하이드록시메틸시토신(도 23에서 hmC, 예컨대, 5-하이드록시메틸시토신) 염기 및 그것들이 유래되는 한 가닥의 원래의 이중 가닥 폴리뉴클레오타이드를 포함한다. 메틸화된 염기는 원래의 가닥에 있다.
도 23을 참조하면, 이중 가닥 폴리뉴클레오타이드는 산화효소, 예컨대, 예를 들어, TET 효소일 수 있는 산화제에 노출된다. 일부 경우에, 산화효소(예컨대, TET)의 생물학적 활성 단편이 사용된다. 산화제는 메틸시토신 염기를 하이드록시메틸시토신으로 전환시킨다.
산화제로의 처리 전에, 동시에, 또는 후에, 이중 가닥 폴리뉴클레오타이드는, 글루코스 공급원(예컨대, 우리딘다이포스페이트 글루코스(UDPG))의 존재 하에, 하이드록시메틸시토신을 글리코실하이드록시메틸시토신(도 23에서 ghmC)으로 글리코실화할 수 있는 글리코실화제(예컨대, 도 23에서 작업 2에 도시된 β-글루코실트랜스퍼라제(bGT))에 노출된다. 그러한 글리코실화는 하이드록시메틸시토신을 아래에서 기술된 탈아미노화제를 포함한 다른 작용제의 활성으로부터 보호할 수 있다. 메틸시토신 염기는 산화제를 통해 하이드록시메틸시토신으로 변환된 후에 글리코실화될 수 있다.
다음으로, 이중 가닥 폴리뉴클레오타이드는 도 23의 작업 3에서 탈아미노화제 및 나선효소에 노출된다. 이 실시예에서, 탈아미노화제는 탈아미노효소(예컨대, 시토신 탈아미노효소), 예컨대, 예를 들어, APOBEC(예컨대, 도 23에서와 같이 APOBEC3A) 또는 이의 단편이다. 나선효소는 이중 가닥 폴리뉴클레오타이드의 가닥의 적어도 일부를 서로로부터 분리시키고 탈아미노효소는 글리코실화되지 않은 시토신 염기로부터 아민 기를 제거한다(예컨대, 원래 글리코실화된 것은 메틸시토신 또는 하이드록시메틸시토신이었음). 그러한 탈아미노화된 시토신 염기는 우라실로 변환되며, 글리코실화된 시토신 염기는 글리코실화된 시토신으로 남아 있다.
처리된 이중 가닥 폴리뉴클레오타이드는 그런 후에 시퀀싱 어댑터(이미 전에 첨가되지 않은 경우)를 첨가하기 위해 처리할 수 있고 그런 후 시퀀싱한다.일부 경우에, 처리된 이중 가닥 폴리뉴클레오타이드를, 처리 후에 추가로 처리하며, 예컨대, 예를 들어, 시퀀싱 전에 증폭시킨다.
시퀀싱 중에, 그리고 도 25에서 도시된 예로서, 한 가닥 상에 있고 다른 가닥의 구아닌 콜에 상응하는(예컨대, 물리적 근접성을 통해) 콜링된 시토신은 처리된 이중 가닥 폴리뉴클레오타이드가 유래된 원래의 이중 가닥 폴리뉴클레오타이드에서 메틸화된 시토신 염기(예컨대, 메틸시토신 또는 하이드록시메틸시토신)를 확인하기 위해 사용된다. 더욱이, 한 가닥 상에 있고 다른 가닥 상의 구아닌에 상응하는(예컨대, 물리적 근접성을 통해) 생성된 우라실 염기(일부 경우에, 이중 가닥 폴리뉴클레오타이드의 처리 후 증폭의 결과로서, 시퀀싱 중에 콜링된 티민)는 처리된 이중 가닥 폴리뉴클레오타이드가 유래된 원래의 이중 가닥 폴리뉴클레오타이드에서 메틸화되지 않은 시토신 염기를 확인하기 위해 사용된다. 가닥 사이의, 아데닌, 티민 및 구아닌 염기 콜에 대한 다른 염기 콜링 쌍형성을 또한 시퀀싱 오류를 나타내는 쌍형성과 함께 도 25에 도시한다. 콜의 쌍형성은, 본원의 다른 곳에서 기술되는 것과 같이, 시퀀싱 콜의 정확도를 개선할 수 있고 또한 그러한 개선된 정확도를 달성하기 위해 필요한 시퀀싱 깊이를 감소시킬 수 있다. 컴퓨터를 사용하여 염기 콜을 만들기 위해 시퀀싱 데이터를 분석하는 것을 도울 수 있다.
실시예 13: APOBEC 및 나선효소 처리를 포함하는 4-문자 염기 식별에 의한 2-염기 시퀀싱
이 실시예는 이중 가닥 핵산을 탈아미노화제(탈아미노효소) 및 나선효소로 처리하여 핵산 분자에서 염기를 확인하는 것을 기술한다. 염기의 확인 및 다른 염기로부터 염기의 구별은 단일 염기 분해능에 있을 수 있다.
처리 전 및 도 24에서 도시된 것과 같이, 두 이중 가닥 폴리뉴클레오타이드(예컨대, 이중 가닥 DNA)는 함께 혼성화되고 또한 별도로 함께 연결되는(예컨대, 하나 이상의 헤어핀 어댑터를 통하여) 제1 가닥 및 제2 가닥을 포함한다. 일부 경우에, 제1 가닥은 제1 가닥의 3' 단부에서 헤어핀 어댑터에 연결되고, 헤어핀 어댑터는 제2 가닥의 5' 단부에서 제2 가닥에 연결된다(도 24의 좌측 절반 참고). 일부 경우에, 제1 가닥은 제1 가닥의 5' 단부에서 헤어핀 어댑터에 연결되고, 헤어핀 어댑터는 제2 가닥의 3' 단부에서 제2 가닥에 연결된다(도 24의 우측 절반 참고). 원래의 폴리뉴클레오타이드로부터 혼성화되고 연결된 가닥을 가지는 그러한 이중 가닥 폴리뉴클레오타이드를 생성하는 예는 실시예 1, 도 1a, 도 1b, 도 19a 도 19b와 관련되는 것을 포함하여 본원의 다른 곳에서 기술된다. 도 24의 작업 1은 또한 그러한 이중 가닥 폴리뉴클레오타이드를 생성하기 위한 예시의 작업을 제공한다. 시퀀싱 어댑터를 아래에서 기술되는 처리 작업을 수행하기 전에, 중에 또는 후에 첨가할 수 있다. 이 실시예에서, 도 24에서 도시된 것과 같이, 제공된 이중 가닥 폴리뉴클레오타이드(첫 번째는 도 24의 좌측에 도시되고, 두 번째는 도 23의 우측에 도시됨)는 메틸시토신(도 24에서 mC, 예컨대, 5-메틸시토신) 및 하이드록시메틸시토신(도 24에서 hmC, 예컨대, 5-하이드록시메틸시토신) 염기 및 그것들이 유래되는 원래의 이중 가닥 폴리뉴클레오타이드의 하나의 원래 가닥을 포함한다.
도 24를 참조하면, 이중 가닥 폴리뉴클레오타이드를 도 24의 작업 24에서와 같이 탈아미노화제 및 나선효소에 노출시킨다. 이 실시예에서, 탈아미노화제는 탈아미노효소(예컨대, 시토신 탈아미노효소), 예컨대, 예를 들어, APOBEC(예컨대, 도 24에서와 같이 APOBEC3A) 또는 이의 단편이다. 나선효소는 이중 가닥 폴리뉴클레오타이드의 가닥의 적어도 일부를 서로에게서 분리시키고 탈아미노효소는 메틸화되는 것을 포함하여, 시토신 염기로부터 아민 기를 제거한다. 그러한 탈아미노화된 시토신 염기는 우라실로 변환된다.
처리된 이중 가닥 폴리뉴클레오타이드는 그런 후에 시퀀싱 어댑터(이미 전에 첨가하지 않은 경우)를 첨가한 후 시퀀싱할 수 있다. 일부 경우에, 처리된 이중 가닥 폴리뉴클레오타이드를 처리 후에, 예컨대, 예를 들어, 시퀀싱 전에 증폭에 적용하여 추가 처리한다. 메틸화된 염기를 도 24에 도시한 한편, 도 24의 예는 비메틸화 시토신 염기(들) 및 이의/이들의 검출에 똑같이 적용될 수 있다.
시퀀싱 중에, 그리고 도 26에서 도시된 예로서, 한 가닥 상에 있고 다른 가닥 상의 구아닌에 상응하는(예컨대, 물리적 근접성을 통해) 생성된 우라실 염기(일부 경우에, 이중 가닥 폴리뉴클레오타이드의 처리 후 증폭의 결과로서, 시퀀싱 중에 티민으로서 콜링됨)는 처리된 이중 가닥 폴리뉴클레오타이드가 유래된 원래의 이중 가닥 폴리뉴클레오타이드에서 메틸화된 것들을 포함하여 시토신 염기를 확인하기 위해 사용된다. 가닥 사이의, 아데닌, 티민 및 구아닌 염기 콜에 대한 다른 염기 콜링 쌍형성을 또한 시퀀싱 오류를 나타내는 쌍형성과 함께 도 26에 도시한다. 콜의 쌍형성은, 본원의 다른 곳에서 기술되는 것과 같이, 시퀀싱 콜의 정확도를 개선할 수 있고 또한 그러한 개선된 정확도를 달성하기 위해 필요한 시퀀싱 깊이를 감소시킬 수 있다. 컴퓨터를 사용하여 염기 콜을 만들기 위해 시퀀싱 데이터를 분석하는 것을 도울 수 있다.
실시예 14: 개선된 게놈 변이체 콜링을 위한 2-염기 시퀀싱 방법을 사용하는 시퀀싱 오류 억제
NA24385(아슈케나지(Ashkenazi) 유대인 아동) 및 NA24631(한족 아동) 세포주 샘플을 고처리량 시퀀싱에 대해 준비하여 NovaSeq 일루미나 시퀀싱 플랫폼 상에서 약 80X(NA24385) 및 약 90X(NA24631)의 시퀀싱 깊이로 시퀀싱하였다(도 28). 짧은 싱글 엔드 리드를 실시예 2에서 기술한 4-문자 염기 콜링 방법을 사용하여 생성하였고(NA24385 및 NA24631 샘플 모두에 대해 약 111 bp 길이), 여기서 도 20a에서 볼 수 있는 표에 따라 시퀀싱 데이터를 처리하기 위해 컴퓨터를 사용하여 제1 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기에 대한 값 및 오류 콜링을 결정하였고, "F 가닥" 및 "F" 값은 유전자좌에서 제1 폴리뉴클레오타이드의 염기의 결정된 값을 나타내며 "F' 가닥" 및 "F'" 값은 제2 폴리뉴클레오타이드 상에서 상응하는 유전자좌에서의 제2 폴리뉴클레오타이드의 염기의 결정된 값을 나타낸다.
싱글 엔드 리드에 대한 처리 파이프라인을 시퀀싱 리드 데이터로부터 게놈 변이체를 콜링하기 위하여 실행하였다. 먼저, 시퀀싱 실험으로부터 얻어진 미가공 페어드 엔드 리드의 품질을 FastQC에 의해 점검하고, 저품질 리드를 fastp에 의해 제거하였다. 그런 후 싱글 엔드 리드를 실시예 2에서 기술한 4-문자 염기 콜링 접근법을 사용하여 생성하였다. 싱글 엔드 리드(NA24385 샘플의 경우 대략 2.2 x109 리드 및 NA24631 샘플의 경우 대략 2.4 x109)을 BWA-mem v0.7.15에 의해 참조 게놈 GRCh38DH에 대해 지도화하였다(도 28). 정렬된 리드를 BAM 파일로 전환시키고 Picard 모듈을 사용하여 중복을 표시한 후 게놈 위치에 기초하여 분류하였다. 미가공 BAM 파일을 염기 품질 점수 재조정(BQSR)에 의해 2018 변이체 콜링 파이프라인 표준(https://doi.org/10.1038/s41467-018-06159-4)에서 권장된 것과 같이 Q10, Q20, Q30, 및 Q40에서 발생한 품질 점수의 비닝을 제외하고 디폴트 매개변수를 사용하여 정제하였다. 중복제거 후, NA24385 및 NA24631 샘플은 모두 약 30배 커버리지의 리드 깊이를 보였다(도 28). 생식선 변이체 콜링(SNP 및 indel)을 GATK의 하플로타입콜러(HaplotypeCaller) 모듈(버전 4.1.9.0)로 수행하였다. 변이체를 GATK 경질 여과 접근법을 사용하여 여과하였다. 다음의 필터 표시: "QD < 2.0∥FS > 30.0∥SOR > 3.0∥MQ < 40.0∥MQRankSum < -3.0∥ReadPosRankSum < -3.0"을 사용하여 설정된 한계값보다 위 또는 아래의 주석값을 가지는 변이체를 걸러내었다. 시퀀싱 결과의 추가 지표를 도 28에 제시한다.
대략 3.3 x106 SNP를 NA24385 및 NA24631 샘플에서 검출하였다. NA24385 및 NA24631 샘플에서 검출된 SNP의 97.1% 및 97.2%를 각각 dbSNP 데이터베이스에 제시하였다(도 29). SNP 검출에 대한 변이체 콜링 파이르라인의 성능을 새로운 SNP(NA24385 및 NA24631 샘플에 대해 각각 1.93 및 2.10) 및 알려진 SNP(NA24385 및 NA24631 샘플에 대해 각각 2.074 및 2.069)의 전이(Ti) 및 전환(Tv) 전환율에 기초하여 평가하였다.(도 29). Ti/Tv 비율은 게놈 전체 수준에서 SNP를 고려할 때 약 2-2.1인 것으로 예상된다.
대략 640,000개의 indel을 변이체 콜링 파이프라인에 의해 검출하였고, 그 중 NA24385에서 검출된 indel의 93.9%와 NA24631 샘플에서 검출된 indel의 약 94.2%가 dbSNP 데이터베이스의 indel과 교차하였다(도 29). 알려진 indel에 대한 삽입/결실 비율은 NA24385 및 NA24631 샘플에 대해 약 0.9였고 약 1의 비율의 예상된 값과 매칭되었다. 새로운 indel에 대한 삽입/결실 비율은 NA24385의 경우 0.93 및 NA24631 샘플의 경우 0.96이었고 이것은 약 1의 예상된 비율과 밀접하게 매칭되어, 얻어진 시퀀싱 데이터의 품질을 추가로 검증하였다(도 29).
확인된 SNP 및 indel을 NIST 데이터세트에서 정의된 황금 표준 변이체와 비교함으로써 시퀀싱 실험의 결과를평가하였다(도 30). 간단히 설명하면, NIST 데이터베이스에서 이형접합체 SNP 변이체를 NA24385 및 NA24631 샘플에서 각각 91.9% 및 94.2% 민감도로 검출하였다(도 30). NIST 데이터베이스에서 동형접합체 SNP 변이체를 NA24385 및 NA24631 샘플에서 각각 92.0% 및 94.7% 민감도로 검출하였다(도 30). 이형접합체 및 동형접합체 SNP 변이체의 검출에 대한 PPV는 NA24385 샘플에서 각각 99% 및 99.9%였다(도 30). 이형접합체 및 동형접합체 SNP 변이체의 검출에 대한 PPV는 NA24631 샘플에서 각각 98.9% 및 99.9%였다(도 30). 검출된 SNP데 대한 유전자형 일치는 NA24385 및 NA24631 샘플에 대해 모두 99.9%였다. 비참조 유전자형 일치를 NA24385 및 NA24631 샘플에 대해 각각 91.4% 및 93.8%에서 측정하였다(도 30).
비교하면, NIST 데이터베이스에서 이형접합체 indel은 NA24385 및 NA24631 샘플에서 각각 84.9% 민감도 및 88.6% 민감도로 검출되었다(도 30). NIST 데이터베이스에서 동형접합체 indel 변이체는 NA24385 및 NA24631 샘플에서 각각 84.3% 민감도 및 90.2% 민감도로 검출되었다(도 30). 동형접합체 indel의 검출에 대한 PPV는 NA24385 및 NA24631 샘플에서 각각 99.4% 및 99.3%였다. 이형접합체 indel의 검출에 대한 PPV는 NA24385 및 NA24631 샘플에서 각각 96.7% 및 97.4%였다. indel 검출에 대한 유전자형 일치는 NA24385 및 NA24631 샘플에 대해 모두 99.9%였다. 비참조 유전자형 일치는 NA24385 및 NA24631 샘플에 대해 각각 82.5% 및 87.5%에서 측정되었고, 이것은 특히 본원에서 동형접합체 대체물 및 이형접합성 유전자형을 효과적으로 포획하는 2-염기 시퀀싱 방법의 능력을 강조하였다(도 30).
SNP 검출을 위한 변이체 콜링 파이프라인의 성능을 이형접합성(Het) 및 동형접합성(Hom) 검출, 새로운 및 알려진 SNP 둘 다의 전이(Ti) 및 전환(Tv) 전환율 및 테스트 및 '황금 표준' NIST 데이터세트의 교차지점에 기초하여 한 SNP에 대한 유전자형 일치에 기초하여 추가로 평가하였다. 이형접합성 및 동형접합성 변이체의 검출에 대한 민감도 지표(진정한 양성(TP)/(진정한 양성(TP) + 위음성(FN)) 및 양성 예측값(PPV)(진정한 양성(TP)/(진정한 양성(TP) + 위양성(FP))를 계산하였다. Het/Hom 검출에 대한 민감도 지표 및 Ti/Tv 비율을 Wang 등(2014)이 기술한 것과 같이 계산하였다. TP를 NIST 데이터 세트에 존재하고 또한 파이프라인에 의해 검출되는 진정한 양성 변이체로서 정의하고; FP는 NIST 데이터 세트에 존재하지 않으며 파이프라인에 의해 검출되는 위양성 변이체이고; FN은 NIST 데이터 세트에 존재하고 파이프라인에 의해 검출되지 않는 위음성 변이체이다. 시퀀싱되고 주어진 참조 염기 위치에서 정렬된 염기의 총 수인 커버리지의 깊이를 Picard 모듈e RawWgsMetrics에 의해 계산하였다. '테스트'와 '진짜' 데이터세트의 교차지점인 유전자형(대립유전자) 일치를 Picard의 유전자형일치 모듈에 의해 측정하였다. Picard 모듈을 GATK 버전 4.1.9.0에서 실행된 Picard 도구를 사용하여 작동시켰다. 파이프라인이 비참조 유전자형 일치를 포착하는 능력, 예컨대, 동형접합체 대체물 및 이형접합성 유전자형을 포획하는 능력을 또한 계산하였다.
다음으로, 열분석 실험으로부터의 결과를 동일한 샘플에 대한 공개적으로 이용 가능한(일루미나 시퀀싱) 데이터(표시된 NIST)와 비교하였다. dbSNP 데이터베이스에서 이전에 알려진 indel과 새로운 indel에 대해 Ins/Del 비율을 계산하였다(결실 수에 대한 삽입 수의 비율을 나타내며 1 아래인 것으로 예상됨). 검출된 indel의 총 수(NA24385 및 NA24631 샘플에 대해 642K 및 639K)는 일루미나 데이터베이스에 존재하는 indel의 수(NA24385 및 NIST NA24631에 대해 각각 1.25 x106 및 1.12 x106)보다 적었고, 여기서 dbSNP 데이터베이스에 존재하는 indel과 교차하는 2-염기 방법에 의해 검출된 indel의 백분율은 공개적으로 이용 가능한 표준 데이터에 비교하여 더 높았다(도 31)(NA24385 샘플의 경우 93.9% 대비 47.5% 및 NA24631 샘플의 경우 94.2% 대비 51.6%). NIST NA24385 및 NIST NA24631 샘플의 경우, 새로운 indel에 대한 삽입/결실 비율이 훨씬 더 높았고, 이것은 본원에서 2-염기 시퀀싱 방법을 사용하여 NA24385 및 NA24631 샘플에 대해 얻어진 시퀀싱 결과가 NIST로부터 이용 가능한 표준 일루미나 데이터를 능가한 것을 시사한다(도 31).
나아가, 동일한 샘플에 대해 시퀀싱 실험으로부터의 유전자형 일치 지표를 공개적으로 이용 가능한 데이터(표준 일루미나 데이터)에 비교한 것은 2-염기 시퀀싱 방법을 사용하는 NA24385 및 NA24631 샘플에 대한 시퀀싱 결과가 NIST로부터 이용 가능한 표준 일루미나 데이터를 능가한 것을 보여주었다. 예를 들어, 본원에서 2-염기 시퀀싱 시스템을 사용하여 얻어진 비참조 SNP의 유전자형 일치는 NA24385 샘플에서 91.4%였고, NIST 데이터베이스의 NA24385 샘플에 대한 비참조 SNP의 82.2%의 유전자형 일치와 비교되었다(도 32). 유사하게, 본원에서 2-염기 시퀀싱 시스템을 사용하여 NA24385 샘플에서 얻어진 비참조 indel의 유전자형 일치는 82.5%였고, NIST 데이터베이스의 NA24385 샘플에 대한 비참조 indel의 38.3%의 유전자형 일치와 비교되었다(도 32).
본원의 2-염기 시퀀싱 방법 및 시스템의 낮은 커버리지 성능을 평가하기 위하여, Coirell 유지된 NIST 참조 물질 DNA 샘플 NA24385 및 NA24631을 실시예 8에서 예시된 작업 흐름을 사용하여 제조하고 전체 게놈을 일루미나 NovaSeq 6000 시스템을 사용하여 시퀀싱하였다. 미가공 시퀀싱 데이터를 얻은 후, 품질 제어를 수행하였고, 리드를 hg38 참조 게놈에 대해 지도화하였다. Picard를 사용하여 중복된 리드를 제거한 후, NA24385 및 NA24631의 평균 깊이는 각각 30.1X 및 29.6X였다(도 28). NA24385 밤 파일(bam file)을 6X 커버리지로 다운 샘플링하고 생식선 변이체를 GATK의 하플로타입콜러 모듈을 사용하여 콜링하였다. 다운 샘플링된 밤 파일에 대한 분석을 중복 표시가 있는 상태로(5X) 그리고 중복 표시 없이(6X) 모두 수행하였고(도 34) 변이체 콜링 분석의 상세한 정보를 도 35에 제시한다. 중복제거된 (5X) 샘플의 경우, SNP의 96.3% 및 indel의 95.7%가 dbSNP 데이터베이스에서 발견된 알려진 변이체였다.
2-염기 시퀀싱 방법이 낮은 대립유전자 분획 변이체를 검출하는 능력을 조사하기 위하여, 1% 변이체 대립유전자 분획과의 "믹스인" 샘플을 생성하였다. 구체적으로, NA24385를 약 1X 커버리지(각각의 10 x 106 리드쌍의 "청크"에 상응함)로 하위샘플링하고 전체 깊이 NA24631 샘플과 혼합하여 92.3X의 커버리지를 가진 믹스인 샘플을 생성하였다(도 33a도 33b). 체세포성 변이체 콜링 파이프라인을 GATK의 Mutect2 모듈을 사용하여 믹스인 샘플을 "종양" 샘플로서 명시하고 NA24631을 "정상" 샘플로서 명시함으로써 작동시켰다. 믹스인 샘플에 대해 만들어진 변이체 콜을 민감도(전체 NA24385에 대해 만들어진 콜과 중복하지만 전체 NA24631에 대해 만들어진 콜과 중복하지 않는 만들어진 콜의 수) 및 특이성(전체 NA24385 또는 NA24631에 대해 만들어진 콜과 중복하지 않는 만들어진 콜의 수와 관련됨)에 대해 평가하였다. 전체 NA24385에 대해 총 4,464,429개의 변이체 콜이 만들어졌고, 그 중에서 2,687,773개의 변이체 콜이 NA24631에 존재하였다(1,776,656개는 그렇지 않음). 1% 믹스인 샘플에 대해 12.3%의 민감도를 관찰하였는데, NA24385에 고유한 총 1,776,656개의 변이체 중 218,574개가 믹스인 샘플에서 콜링되었다. NA24385 또는 NA24631에서 99.999%를 초과하는 특이성을 제공하는 어떠한 리드 증거도 갖지 않은 믹스인에 대해 총 19,161개의 체세포성 콜이 있었다.
Analysis of the(1) NA24385 또는 NA24631 에서 어떠한 리드 증거도 가지 않은 믹스인 샘플로부터의 미스콜(도 36a) 및 (2) NA24385 및 NA24631 시퀀싱 리드로부터의 싱글톤 오류(도 36b)의 분석은 A↔G 및 C↔T 위양성이 어떠한 다른 오류 유형보다 더 빈번한 것을 보여주었다. 싱글톤 오류를 hg38 참조 대립유전자를 보유하는 적어도 20개 리드의 커버리지와 대체 대립유전자를 보유한 정확히 하나의 리드를 가진 게놈 부위로서 정의하였다. 2-염기 시퀀싱 분석 방법을 사용하여 분석된 시퀀싱 리드의 A↔G 및 C↔T 오류가 하나의 염기 미스콜로 인해 발생할 수 있는 한편 다른 유형의 시퀀싱 오류는 두 염기 미스콜로 인해 발생할 수 있는 것을 감안하면, 미스콜 및 싱글톤 오류 유형에서의 편향이 예상된다. 예를 들어, 여기서 2-염기 시퀀싱 방법에 의해 분해된 A 염기는 원래의 가닥에서는 A로 제공되고 복사 가닥에서는 T로 제공된다. 여기서 2-염기 시퀀싱 방법에 의해 분해된 T 염기는 원래의 가닥에서는 T로 제공되며 복사 가닥에서는 A로 제공된다. 이와 같이, A가 T로서 미스콜링되는 경우, 원래의 가닥에서 A는 T로서 미스콜링될 수 있는 한편, 동시에 복사 가닥에서 T는 A로서 미스콜링될 수 있다. 다른 한편으로, 다른 미스콜의 경우, 예컨대, A-->G 또는 C-->T는 하나의 시퀀싱 오류로 인해 발생할 수 있다. 예로서, 여기서 2-염기 시퀀싱 방법에 의해 분해된 A 염기는 원래의 가닥에서는 A로 제공되며 복사 가닥에서는 T로 제공된다. 2-염기 시퀀싱 방법에 의해 분해된 G 염기는 원래의 가닥에서는 G로 제공되며 복사 가닥에서는 T로 제공된댜. 이와 같이, A가 G로서 미스콜링되는 경우, 그것은 원래의 가닥에서, A는 G로서 미스콜링된 것을 의미한다. 그러나, 복가 가닥 상의 T가 이미 T이기 때문에, 단일 시퀀싱 오류는 A-->G 미스콜을 초래할 수 있다(도 27도 37).
실시예 15: APOBEC3A 및 나선효소의 조합을 사용하는 탈아미노화의 증가된 효율은 시퀀싱 오류의 감소로 이어진다
2-염기 시퀀싱 방법(및 중아황산염 시퀀싱)에서 메틸화 콜의 위양성률은 APOBEC 효소에 의한 불완전환 탈아미노화에 기여하는 비전환 시토신의 비율에 의해 부분적으로 측정될 수 있다. APOBEC3A 탈아미노화는 라이브러리를 단일 가닥으로 만드는 기능을 하며 분자간 또는 분자내 dsDNA의 존재에 의해 억제될 수 있고 정상적인 페어드 엔드 라이브러리 및 2-염기 시퀀싱 둘 다에 적용할 수 있다. APOBEC3A로 인한 위양성률이 문헌에서 보고된 것과 유사한 것(예를 들어, Sun, Z. et.al, 2021에서와 같인 0.25%의 FP 비율)을 확인하기 위하여, 대조군 정상 페어드 엔드 라이브러리를 소량(0.5%)의 비메틸화 pUC19 및 메틸화된 람다 파지 DNA(람다 파지 DNA의 CpG 맥락은 효소 M.SssI를 사용하여 메틸화됨)를 함유하는 100 ng의 인산 소뇌 gDNA로부터 제조하였다. NGS 어댑터를 결찰한 후 라이브러리를 TET로 처리하고 후속해서 열 및 포름아미드 처리를 사용하여 라이브러리를 변성시킨 후 3시간 동안 37℃에서 APOBEC3A 처리를 하였다. PCR, NGS 시퀀싱, 지도화 및 중복제거 후, 시토신 및 티민 리드를 시퀀싱 라이브러리의 원래의 정방향 가닥에서 분해하였다. 시퀀싱 리드를 CpG, CHH 또는 CHG 맥락에 기초하여(비-CpG 맥락에서 C=잘못된 탈아미노화인 반면 CpG 맥락에서 C=메틸화된 시토신임) MethylDackel 소프트웨어를 사용하여 해석하였다. 시퀀싱의 결과는 대조군 샘플에서 메틸화 콜링의 위양성률이 문헌에서 보고된 위양성률, 예컨대,  EM-SEQ 방법(FP 비율은 Sun, Z. et.al, 2021을 따르면 0.25%임),  중아황산염 시퀀싱(FP 비율은 Holmes. et.al, 2014를 따르면 1.7%-0.6%임) 또는 Tet 보조 피리딘-보레인 시퀀싱(FP 비율은 Liu, Y. et. al, 2019를 따르면 0.23%임)과 동등한 것을 보여주었다(예컨대 CpG 맥락에서 시토신 콜은 약 0.8%임, 도 38)(도 38).
2-염기 시퀀싱에서 발생할 수 있는 드노보 메틸화의 비율을 평가하기 위하여, 라이브러리를 위에서 언급된 것과 같이 제조하였다(라이브러리를 0.5% pUC19 및 메틸화된 람다 gDNA를 함유하는 500 ng의 소뇌 gDNA를 약 250 bp의 크기로 기계적 전단함으로써 제조함). 이들 라이브러리에서 동족 가닥이 순간 되돌아가 APOBEC3A가 라이브러리를 탈아미노화하는 것보다 더 빠르게 헤어핀을 형성하는 것을 감안하여, 나선효소를 APOBEC3A, 또는 이의 단편과 조합하여 사용할 수 있다.
나선효소와 APOBEC3A와의 조합은 헤어핀과 연합된 쌍을 형성한 원래 및 복사 가닥을 가진 시퀀싱 라이브러리를 회복하기 위해 사용할 수 있다. 나선효소, 또는 나선효소와 APOBEC3A 둘 다를 제거한 후, 결찰된 헤어핀을 갖지 않는 정상 페어드 엔드 라이브러리를 증폭시킬 수 있다. 둘 다의 첨가시, 헤어핀에 연결된 상응하는 탈아미노화된 복사 가닥과 함께 원래의 탈아미노화된 가닥을 함유하는 더 긴 라이브러리를 회복할 수 있다(시퀀싱에 의해 확인됨)(도 43). 그로써 원래의 가닥이 복사 가닥에 연결된 더 긴 탈아미노화된 라이브러리의 회복은 APOBEC3A가 연결된 듀플렉스를 탈아미노화하는 것을 허용하는 나선효소에 의한 ATP의 전환을 포함하는 활성 과정일 수 있다. ATP의 부재 하에, 정상 페어드 엔드 라이브러리(소수로 존재함)가 증폭될 수 있다(도 44).
2-염기 시퀀싱을 수행하고 탈아미노화 실패로 인한 위양성률을 결정할 수 있게 하기 위하여, 헤어핀을 적응하고, 그런 후 복사 가닥을 합성하고, 이어서 TET 및 βGT 처리를 하였다. 나선효소(예컨대 UvrD, PcrA 또는 Bad 나선효소 뉴클레아제 사멸, 예를 들어 대장균 UvrD 나선효소는 DNA에 대해 100배 몰 과량으로 존재함)와 APOBEC3A의 조합을 2.5 mM ATP의 존재 하에 3시간 동안 37℃에서 사용하였다. 지도화 및 중복제거 후, 시토신 및 티민 리드를 2-염기 시퀀싱을 위해 제조한 시퀀싱 라이브러리의 원래의 정방향 가닥에서 분해하였다. 시퀀싱 리드를 CpG, CHH 또는 CHG 맥락에 기초하여(비-CpG 맥락에서 C=잘못된 탈아미노화인 반면 CpG 맥락에서 C=메틸화된 시토신임) MethylDackel 소프트웨어를 사용하여 해석하였다. 시퀀싱의 결과는 대조군 샘플(APOBEC3A 단독으로 처리된 2-염기 시퀀싱 라이브러리 또는 APOBEC3A 단독으로 처리된 정상 페어드 엔드 라이브러리)에서 메틸화 콜링의 위양성률이 문헌에서 다른 방법에 대해 결정된 탈아미노화 비율보다 상당히 높은 것을 보여주었다(예컨대, CpG 맥락에서, 탈아미노화로 인한 위양성률은 약 0.062%임)(도 39). 그러므로, 나선효소는 APOBEC3A와 함께 탈아미노화 비율을 증가시키는 작용을 하며, 그로써 메틸화 콜의 위양성률을 생물 정보 필터링으로 달성된 수준(전체 내용이 본원에 포함된 문헌: Schutsky et. al, 2018에서 제시됨) 아래로 감소시킨다. 나선효소의 부재시, APOBEC3A는 헤어핀 라이브러리를 탈아미노화하지 못할 수 있다.
6-염기 식별을 위한 2-염기 시퀀싱 라이브러리(예컨대, 5-메틸 시토신을 5-하이드록시메틸 시토신으로부터 구별하는 2-염기 시퀀싱, 및 예컨대, DNMT1이 메틸화 마크를 원래의 가닥의 메틸화된 염기와 반대쪽에 있는 동족 가닥의 염기에 첨가함)의 제조 중에, DNMT1 효소적 처리 작업의 사용이 상이한 시퀀싱 라이브러리를 본원의 2-염기 시퀀싱 라이브러리 제조 방법(예컨대, 라이브러리 제조 중에 헤어핀을 사용하여 원래의 정방향 가닥과 동족 가닥을 연결시킴)을 사용하여 제조하였다. 라이브러리를 TET 처리 및 βGT 처리 전에 DNMT1의 존재 하에 제조하였다. 지도화 및 중복제거 후에, 시토신 및 티민 리드를 2-염기 시퀀싱을 위해 제조한 시퀀싱 라이브러리의 원래의 정방향 가닥에서 분해하였다. MethylDackel 소프트웨어를 사용하여 탈아미노화 비율을 결정하였다. 여기서, CHH 및 CHG의 탈아미노화 비율은 도 38에서의 결과와 같이 다른 비나선효소/APOBEC3A 방법을 초과하지만, CpG에서 탈아미노화는 감소한다(도 40).
실시예 16: 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII을 활용하지 않는 2-염기 시퀀싱을 위한 라이브러리의 생성에 대한 작업 흐름
이 작업 흐름에서, 게놈 DNA(gDNA) 샘플을 라이브러리 제조를 위해 다음 방식으로 제조하였다. 먼저, gDNA(0.5% pUC19 및 메틸화된 람다 gDNA를 함유함)를 마이크로튜브-50에서 Covaris M220을 사용하여 저-TE 완충액(10 mM Tris-HCl, 0.1 mM EDTA)에서 음파처리에 의하여 250 bp로 단편화하였다. gDNA를 dsDNA Qubit에 의해 정량화하고 크기 분포를 생물분석기 또는 테이프스테이션(Tapestation)을 사용하여 점검하였다. 합성 대조군(80 bp 및 166 bp)을 유입 DNA의 양의 0.5%에서 스파이킹하였다. 조건 a + b에 대해(도 42a-b), gDNA를 단부 수복하고 A 테일링하여 DNA의 5' 단부를 5'인산화함으로써 결찰할 수 있게 하였다. 조건 c + d에 대해(도 42a-b), gDNA 샘플을 5' 포스페이트가 없도록 변형시켜서 5' 단부에서 결찰할 수 없도록 하였다. 이것은 2가지 상이한 방법으로 실시하였다; c) T4 폴리뉴클레오타이드 키나제(T4 PNK)를 사용하여 단편화된 gDNA의 5'-포스페이트와 ADP 사이에서 포스페이트 기의 교환(교환 반응)을 촉매함으로써, 5' 포스페이트가 없는 gDNA 샘플을 생성하거나 또는 d) rSAP 포스페이트를 사용하여 DNA 단부로부터 임의의 포스페이트를 활성적으로 제거하였다. 그런 후 조건 c+d(도 42a-b)는 각각 단부를 수복시켰고 T4 DNA 중합효소 및 Taq를 사용하여 A 테일링하였다. 그런 후 모든 샘플을 헤어핀 어댑터 결찰로 진행하였다. 헤어핀 어댑터 결찰 반응을 단부 수복 및 A 테일링 반응과 동일한 튜브에서 조립하였다. 조건 b-d에 대해(도 42a-b) 3'포스페이트를 함유한 헤어핀을 사용하였고(도 41b), 비교 조건 a(도 42a-b)에서는 절단을 위해 우라실을 함유한 3'OH 헤어핀을 결찰하였다(도 41a). 헤어핀의 3' 단부의 단편화된 gDNA 샘플의 5' 단부에의 결찰을 헤어핀의 3'포스페이트에 의해 차단하였고(조건 b-d, 도 42a-b) 조건 c-d의 경우(도 42a-b) 또한 게놈 DNA 상의 5'OH에 의해 차단하였다(도 41b). 헤어핀의 3' 단부에 대한 결찰이 조건 b-d의 경우 차단되었기 때문에(도 42a-b), 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII을 헤어핀 어댑터에서 닉을 생성하기 위해 사용하지 않았고 이 반응의 후속 정화를 또한 수행하지 않았다. 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII 및 관련된 정화 작업의 제거는 더 간단한 작업 흐름을 허용할 수 있으며 또한 전체적으로 더 빠른 라이브러리 제조를 초래할 수 있다(도 41a도 41b).
헤어핀 결찰 DNA 혼합물을 자성 비드를 사용하여 정화하고 DNA를 열 변성시켜서 2개의 게놈 가닥을 분리한 후 복사 가닥 합성을 진행하였다. 복사 가닥 합성 작업 중에, 헤어핀 어댑터 상의 3' 포스페이트 차단을 제거하고 gDNA의 5' 단부를 반응 완충액에서 PNK 효소의 작용에 의해 5'를 인산화하였다. 나아가, 이 작업 흐름에서, 우라실 DNA 글리코실라제(UDG) 및 DNA 글리코실라제-리아제 엔도뉴클레아제 VIII의 작용으로 인한 줄기의 절단이 없기 때문에, 복사 가닥을 더 긴 줄기의 헤어핀 어댑터로부터 연장시킨다(도 41b).
복사 가닥 합성 후에, DNA 혼합물을 자성 비드를 사용하여 정화하고, 일루미나 어댑터를 시퀀싱을 위해 결찰시킨 후 DNA 샘플을 자성 비드를 사용하여 정제하였다.
다음에, 어댑터 결찰 DNA를 TET 효소로 처리하였다. 결과적으로 생성된 DNA 샘플을 산화 효소와 함께 희석된 Fe(II) 용액과 조합하고 37℃에서 1시간 동안 열순환기에서 인큐베이션한 후 중단 시약을 첨가하였다. TET 전환된 DNA를 자성 비드를 사용하여 정화한 후 탈아미노화 작업으로 진행하였다. 탈아미노화 반응에서, DNA 혼합물을 APOBEC 및 UvrD 나선효소를 함유한 반응 혼합물에서 인큐베이션하였다. 탈아미노화된 DNA를 자성 비드를 사용하여 정화하였다. 라이브러리 제조를 위해 탈아미노화된 DNA에 대해 PCR 증폭을 수행하였고 라이브러리 DNA를 자성 비드를 사용하여 정제하였다.
실시예 17: 게놈에서 정방향 및 역방향 가닥 상의 메틸화의 정량화 및 염기 콜링
도 45a-c는 4-염기 정렬을 통한 6-염기 콜링(A, T, G, C, 플러스 메틸화 및 하이드록시메틸화)에 대한 작업의 개관을 제시한다. 제1 작업에서, (A) 게놈 시퀀싱 리드의 참조 게놈에 대한 정렬이 수행되며, 이어서 (B) CpG 부위 위치에서 후성유전학적 코드 정보의 디코딩(여기서 예시의 CpG 부위는 노란색 박스로 표시됨) 및 (C) 본원에 기술된 작업에서 평가된 후성유전학적 리드(예컨대, 메틸화 또는 하이드록시메틸화)의 정량화가 이어진다.
도 46a-c는 샘플 게놈에서 메틸화 정보의 가닥 콜링에 관여하는 작업에 대한 보다 세부적인 사항을 제시한다. 제1 작업에서, 샘플 게놈으로부터의 시퀀싱 리드를 참조 게놈(HG38)에 대해 정렬한다. 리드의 참조 게놈에 대한 정렬 방향을 사용하여 리드가 얻어진 샘플 게놈의 가닥(정방향 또는 역방향)을 확인하였다. 예를 들어, 참조 게놈을 정방향 방향으로 정렬하고 만약 리드가 참조 게놈과 동일한 방향으로 정렬되면, 그것을 정방향 가닥으로서 분류한 반면, 만약 리드가 역 상보적인 방향으로 정렬되면, 리드를 게놈의 역방향 가닥으로부터 얻어진 것으로 분류하였다. 참조 게놈에 대한 정렬 위치를 함유하는 밤 파일을 생성하였다(그러나 참조 게놈 서열을 저장하지 않음). 밤 정렬 파일을 CpG 부위 및 비-CpG 부위에 대해 여과하였다(도 46a). "CpG" 부위의 위치를 찾기 위하여, 리드의 시작 및 종결 좌표를 사용하여 그 서열에서 CpG의 위치를 반환하는 데이터 구조인 "간격 트리"를 질문하였다. 그런 후 여과된 밤 파일을 게놈 좌표별로 분류하여 처리된 밤 파일을 초래하였다(도 46a).
본원에서 기술된 작업에서 확인된 CpG 부위를 샘플 게놈에서 염기 수준에서 후성유전학적 코드를 추가로 확인하기 위하여 분석하였다(도 46b). 이 작업에서 생물정보학 작업 흐름은 시퀀싱 리드에서의 염기에 상응하는 후성유전학적(메틸화 또는 하이드록시메틸화) 정보를 중간 표현 파일로 추출한 후 그것을 처리하여 상응하는 염기 위치에서의 후성유전학적 정보를 정량화한다. 예를 들어, 도 45a-b에서, 위치 31,903,150 bp 주변의 박스는 메틸화 정보의 추가 합성에 대한 CpG 부위의 예시의 위치를 표시한다. 처리된 밤 파일을 ssCALL 프로그램으로 처리하여 모든 리드에서 모든 CpG 부위에 대한 후성유전학적 코드를 추출한다. 결과적으로 생성된 tsv 파일을 다시 게놈 좌표에 의해 분류하여 중간 표현 tsv 파일을 생성하였다(도 46b). 중간 표현 파일에서 후성유전학적 코드의 열은 서열 ID, 시작 위치, 위치에 상응하는 후성유전학적 코드, 및 리드 식별자에 관련된 정보를 함유하였다. 중간 표현 파일은 또한 샘플 서열 리드의 참조 게놈에 대한 정렬 방향으로부터 확인된 가닥 정보에 관련된 정보를 함유하였다. 정방향 가닥을 (+)로 지정하고 역방향 가닥을 (-)로 지정한다(도 47).
중간 표현 파일에서 결과적으로 생성된 후성유전학적 코드 파일을 게놈의 염기 위치에서 후성유전학적 상태의 카운트를 함유하는 정량화 파일로 변환시킴으로써 게놈 전체에서 후성유전학적 상태의 빈도를 측정할 수 있게 하였다(도 46c). 비메틸화, 메틸화된, 또는 하이드록시메틸화된 상태를 함유한 것으로서 디코딩된 카운트의 비율을 사용하여 관심의 게놈에서의 위치 또는 염색체 분절에서의 이들 후성유전학적 상태의 선형 빈도 지도를 생성하였다(도 46c).
실시예 18: 관심의 하나 이상의 표적화된 게놈 영역에서 후성유전학적 정보의 측정.
구현예에서, 본원에 기술된 방법 및 조성물을 사용하여 게놈의 관심의 표적화된 영역에서 후성유전학적 정보를 측정하였다(도 48). 예를 들어, 그러한 구현예에서, 출발 DNA 물질(이중 가닥 DNA)을 먼저 변성시킨다(예컨대 온도 변성을 사용함). 관심의 영역(ROI)을 표적화하기 위하여, 4 염기 올리고를 설계하여 ROI의 3' 단부를 표적화한다. 4b 올리고를 개별적으로 포획된 가닥을 색인을 달 수 있는 일루미나 맞춤 인덱스에 부착시킨다. 제2 쌍의 표적화 올리고를 설계하여 ROI의 5' 단부를 표적화함으로써, 구성물이 탈아미노화되는 후기 작업에서 사용하기 위한 대PCR 핸들을 생성한다. 올리고는 엇갈린 듀플렉스이며, 인덱스를 함유하도록 설계되고, ROI의 5' 단부를 프라이밍하는 표적화 서열을 갖는다. ssDNA의 5' 및 3' 단부에서 ROI를 프라이밍하고, "갭"을 가닥 대체 음성 중합효소(예컨대 예를 들어 T4)를 사용하여 충전하고, 이어서 결찰(예를 들어 T4 결찰효소)함으로써, 다음 작업에서 2-염기 서열에 대한 주형으로서 사용되는 헤어핀 또는 PCR 핸들을 대체하지 않으면서 복사 가닥을 생성한다. 후성유전학적 염기 mC는 원래의 가닥으로부터 복사된 가닥으로 복사되고, 5hmC는 cGT 효소로의 처리에 의해 탈아미노화로부터 보호된다. 구성물을 TET로 처리하여(bGT의 존재 하에 또는 부재 하에) mC를 fC, caC 또는 ghmC(탈아미노화에 저항성인 염기)로 전환시킨다. 헤어핀을 APOBEC3A 및 나선효소 UvrD의 조합을 사용하여 개방한다. PCR 핸들을 사용하여 ROI를 증폭시킨다. 다중 영역을 표적화할 때, 방법을 대량 다중화 PCR과 조합할 수 있다. 한 예에서, 방법을 일루미나 시퀀싱 어댑터가 PCR 핸들에 첨가되는 추가 PCR 작업을 포함하도록 적응시킨다. 상이한 예에서, 원래의 PCR 작업을 PCR 핸들 및 또한 일루미나 어댑터를 함유하는 연장된 프라이머를 함유하도록 변형시킨다.
제2 구현예에서, 본원에 기술된 방법 및 조성물을 사용하여 게놈의 표적화된 관심 영역에서 후성유전학적 정보를 측정할 수 있다. 이 구현예에서(도 49), 출발 DNA 물질을 먼저 변성시킨다(예컨대 온도 변성을 사용함). 관심의 영역(ROI)을 표적화하기 위하여, PCR 작업에 사용할 추가 서열, 예컨대, 인덱스를 함유하는 4 염기 올리고를 설계한다. 어닐링된 4 염기 프라이머를, 예를 들어, APOBEC3A 저항성 염기(예컨대 hmC, fC 또는 caC)의 사용을 통해 탈아미노화로부터 보호한다. 어닐링된 4 염기 프라이머를 중합효소(예컨대, 클레노우 중합효소)로 연장시킨다. 헤어핀을 제1 A 테일링에 의해 첨가한 후, T 오버행이 있는 헤어핀을 사용하여 헤어핀을 구성물에 결찰시켜서 2-염기 시퀀싱을 위한 구성물을 생성하였다. 후성유전학적 염기 mC를 원래의 가닥으로부터 복사된 가닥으로 복사하고, 5hmC를 bGT 효소로의 처리에 의해 탈아미노화로부터 보호한다. 구성물을 TET로 처리하여(bGT의 존재 또는 부재 하에) mC를 fC, caC 또는 ghmC(탈아미노화에 저항성인 염기)로 산화시킨다. 헤어핀을 APOBEC3A와 나선효소 UvrD의 조합을 사용하여 개방한다. APOBEC3A PCR 핸들을 사용하여 3 염기(A, T, 및 G) 표적화 올리고와 함께 ROI를 증폭시킨다(CpG 영역 외부는 작업 흐름의 이 단계에서 탈아미노화될 수 있기 때문에, 3 염기 표적화 올리고를 사용하여 ROI를 표적화함). 다중 영역을 표적화할 때, 방법을 대량 다중화 PCR과 조합할 수 있다. 한 예에서, 방법을 일루미나 시퀀싱 어댑터가 PCR 핸들에 첨가되는 추가 PCR 작업을 포함하도록 적응시킨다. 상이한 예에서, 원래의 PCR 작업을 PCR 핸들 및 또한 일루미나 어댑터를 함유하는 연장된 프라이머를 함유하도록 변형시킨다.
제3 구현예에서, 본원에 기술된 방법 및 조성물을 사용하여 게놈의 표적화된 관심 영역에서 후성유전학적 정보를 측정할 수 있다. 이 구현예에서(도 50), 출발 DNA 물질(이중 가닥 DNA)을 먼저 단부 수복하고 A 테일링한다. 이 물질을 "TA" 결찰을 사용하여 헤어핀을 적응시킴으로써 헤어핀은 DNA의 어느 한 쪽을 프라이밍하고 헤어핀을 결찰시키는데 사용되는 T 오버행을 함유한다. 헤어핀은 분해 효소(예컨대, 효소 우라실 DNA 글리코실라제(UDG) 및 엔도뉴클레아제 VIII이 사용될 수 있음)를 사용하여 절단될 수 있는 U를 함유한다. 이제 헤어핀을 ROI의 반대쪽에서 측면에 있도록 하기 위해 프로브(4 염기 올리고)를 사용하여 상기 DNA 구성물의 3' 단부를 프라이밍한다. 올리고를 예를 들어 APOBEC3A 저항성 염기(예컨대 hmC, fC 또는 caC)를 함유함으로써 탈아미노화로부터 보호한다. 올리고의 5' 단부를 변형된 염기(예컨대 포스포로티오에이트 유도체)를 함유함으로써 엑소뉴클레아제 저항성으로 만든다. 한 구현예에서, 올리고는 인덱스를 함유할 수 있다. 프라이밍 올리고를 헤어핀을 대체하지 않은 가닥 대체 음성 중합효소로 연장시킨다. 그런 후 복사 가닥을 헤어핀에 결찰시킨다. 3' 단부에서의 잠재적 미스매치를 ssDNA 특이적 엑소뉴클레아제로 트리밍하고, 상보적인 서열을 fC 또는 caC와 같은 APOBEC3A 저항성 염기를 사용하여 중합효소로 구성하여 2-염기 시퀀싱용 구성물을 생성한다. 이제 후성유전학적 염기 mC를 원래의 가닥으로부터 복사된 가닥으로 복사할 수 있고, 5hmC를 bGT 효소로의 처리에 의해 탈아미노화로부터 보호할 수 있다. 구성물을 TET로 처리하여(bGT의 존재 또는 부재 하에) mC를 산화하여 탈아미노화에 저항성인 저 fC, caC, 또는 ghmC를 생성한다. 헤어핀을 APOBEC3A와 나선효소 UvrD의 조합을 사용하여 개방한다. 이제 ROI를 탈아미노화 저항성 PCR 핸들을 사용하여 증폭시킬 수 있다. 다중 영역을 표적화할 때, 방법을 대량 다중화 PCR과 조합할 수 있으며, 여기서 다중 프라이머를 사용한다. 한 예에서, 방법을 일루미나 시퀀싱 어댑터가 PCR 핸들에 첨가되는 추가 PCR 작업을 포함하도록 적응시킨다. 상이한 예에서, 원래의 PCR 작업을 PCR 핸들 및 또한 일루미나 어댑터를 함유하는 연장된 프라이머를 함유하도록 변형시킨다.
본 발명의 조성물 및 방법의 바람직한 구현예를 본원에 제시하고 기술하였지만, 그러한 구현예는 단지 예로서 제공되는 것이 기술분야에 숙련된 사람들에게는 명백할 것이다. 발명의 조성물 및 방법은 명세서 내에서 제공된 특정 실시예에 제한되는 것으로 의도되지 않는다. 발명의 조성물 및 방법은 전술한 명세서를 참조로 기술되었지만, 본원의 구현예의 설명 및 예시는 제한적인 의미로 해석되는 것을 의미하지 않는다. 수많은 변화, 변경, 및 치환이 이제 발명의 조성물 및 방법으로부터 벗어나지 않으면서 기술분야에 숙련된 사람들에게 발생할 것이다. 나아가, 발명의 조성물 및 방법의 모든 측면은 다양한 조건 및 변수에 따라 달라지는 본원에 제시된 특정 묘사, 형태 또는 상대적인 부분에 제한되지 않는 것이 이해되어야 한다. 본원에 기술된 발명의 조성물 및 방법의 구현예에 대한 다양한 대안이 발명의 조성물 및 방법을 실시하는데 사용될 수 있는 것이 이해되어야 한다. 그러므로 발명의 조성물 및 방법은 또한 임의의 그러한 대안, 변형, 변화 또는 동등물을 포함해햐 하는 것으로 고려된다. 다음의 청구범위는 발명의 조성물 및 방법의 범주를 정의하며 이들 청구범위 및 이의 동등물의 범주 내에 있는 방법 및 구조가 그로써 포함되는 것으로 의도된다.
SEQUENCE LISTING <110> Cambridge Epigenetix Limited <120> COMPOSITIONS AND METHODS FOR NUCLEIC ACID ANALYSIS <130> N422398WO <140> PCT/GB2021/051957 <141> 2021-07-29 <160> 39 <170> PatentIn version 3.5 <210> 1 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (5)..(5) <223> hydroxymethylcytosine <220> <221> misc_feature <222> (7)..(7) <223> methylcytosine <400> 1 ctagcgcgcg 10 <210> 2 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(3) <223> hydroxymethylcytosine <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <400> 2 cgcgcgctag 10 <210> 3 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <220> <221> misc_feature <222> (7)..(7) <223> hydroxymethylcytosine <400> 3 ctagcgcgcg cgcgcgctag 20 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(3) <223> hydroxymethylcytosine <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <400> 4 cgcgcgctag ctagcgcgcg 20 <210> 5 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <220> <221> misc_feature <222> (7)..(7) <223> glucosylhydroxymethylcytosine <400> 5 ctagcgcgcg cgcgcgctag 20 <210> 6 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(3) <223> glucosylhydroxymethylcytosine <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <400> 6 cgcgcgctag ctagcgcgcg 20 <210> 7 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <220> <221> misc_feature <222> (7)..(7) <223> glucosylhydroxymethylcytosine <400> 7 utagcgcgug ugugcgutag 20 <210> 8 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(3) <223> glucosylhydroxymethylcytosine <220> <221> misc_feature <222> (5)..(5) <223> methylcytosine <400> 8 ugcgcgutag utagcgugug 20 <210> 9 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 9 ttagcgcgtg 10 <210> 10 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(4) <223> hydroxymethylcytosine <400> 10 tgcgcgttag 10 <210> 11 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 11 gattgcgtgt 10 <210> 12 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 12 gtgtgcgatt 10 <210> 13 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 13 aaaaccccgg ggtttt 16 <210> 14 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 14 ttttggggcc ccaaaa 16 <210> 15 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 15 acgtacgtac gtacgt 16 <210> 16 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 16 tgcatgcatg catgca 16 <210> 17 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 17 tccccaccta tccaagtccg cgtgaagatg ccactgtttc ct 42 <210> 18 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 18 tccccgccta tccaagtccg cgtgaagatg ccactgtttc ct 42 <210> 19 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 19 tccccaccta tccaagt 17 <210> 20 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 20 gcgtgaagat gccactgttt cct 23 <210> 21 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 21 gaagatgcca ctgtttcct 19 <210> 22 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> synethtic nucleotide <220> <221> misc_feature <222> (8)..(8) <223> n is a, c, g, or t <400> 22 tccccacnta tccaagt 17 <210> 23 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (22)..(22) <223> n is a, c, g, or t <400> 23 tccccaccta tccaagtccg cntgaagatg ccac 34 <210> 24 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 24 tccccaccta tccaagtccg cgtgaagatg ccac 34 <210> 25 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> synethtic nucleotide <400> 25 tccccaccta tccaagtccg cgtgatgatg ccactgtttc ct 42 <210> 26 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (5)..(5) <223> glucosylhydroxymethylcytosine <220> <221> misc_feature <222> (7)..(7) <223> glucosylhydroxymethylcytosine <400> 26 ctagcgcgcg cgcgcgctag 20 <210> 27 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(3) <223> glucosylhydroxymethylcytosine <220> <221> misc_feature <222> (5)..(5) <223> glucosylhydroxymethylcytosine <400> 27 cgcgcgctag ctagcgcgcg 20 <210> 28 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (5)..(5) <223> glucosylhydroxymethylcytosine <220> <221> misc_feature <222> (7)..(7) <223> glucosylhydroxymethylcytosine <400> 28 utagcgcgug ugugugutag 20 <210> 29 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (3)..(3) <223> glucosylhydroxymethylcytosine <220> <221> misc_feature <222> (5)..(5) <223> glucosylhydroxymethylcytosine <400> 29 ugcgcgutag utagugugug 20 <210> 30 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 30 utagugugug ugugugutag 20 <210> 31 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 31 ugugugutag utagugugug 20 <210> 32 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 32 aaaaaaaccc ccccgggggg gtttttttcg cg 32 <210> 33 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 33 acgtaaatac gtttgactgg gtacgtttcg cg 32 <210> 34 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 34 tgtgtgcaaa agcatttttc agggggcatt tt 32 <210> 35 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <220> <221> misc_feature <222> (2)..(2) <223> n is a, c, g, or t <220> <221> misc_feature <222> (4)..(7) <223> n is a, c, g, or t <220> <221> misc_feature <222> (9)..(9) <223> n is a, c, g, or t <220> <221> misc_feature <222> (11)..(11) <223> n is a, c, g, or t <220> <221> misc_feature <222> (13)..(14) <223> n is a, c, g, or t <220> <221> misc_feature <222> (17)..(21) <223> n is a, c, g, or t <220> <221> misc_feature <222> (23)..(26) <223> n is a, c, g, or t <220> <221> misc_feature <222> (28)..(28) <223> n is a, c, g, or t <400> 35 angnnnncnc ntnngannnn ntnnnncncg cg 32 <210> 36 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 36 cgtaaccggt tacccggg 18 <210> 37 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 37 tgtaattggt tacccgggcc cgggtaattg gttatg 36 <210> 38 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 38 tacgtagcta gctagcta 18 <210> 39 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> synthetic nucleotide <400> 39 tatgtaguta gutagutata gttagutagu tatgta 36

Claims (236)

  1. (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계;
    (b) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및
    (c) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있는 것인 방법.
  3. 제1항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한 것인 방법.
  4. 제1항 내지 제3항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 연결되는 것인 방법.
  5. 제1항 내지 제4항 중 어느 하나의 항에 있어서, 시퀀싱 전의 임의의 시점에서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 (i) 헤어핀을 통해 공유 연결되거나; (ii) 왓슨-크릭 염기쌍 형성을 통해 이중 가닥 폴리뉴클레오타이드로서 연결되거나; (iii) 각각 바코드에 커플링되거나; 또는 (iv) 이들의 임의의 조합인 방법.
  6. 제1항에 있어서, 정방향 폴리뉴클레오타이드는 상보적인 데옥시리보핵산(cDNA) 분자 또는 이의 앰플리콘을 포함하는 것인 방법.
  7. 제1항에 있어서, RNA 뉴클레오타이드를 역전사효소, 이의 생물학적 활성 단편, 또는 이의 유도체와 접촉시켜서 정방향 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함하는 방법.
  8. 제1항 내지 제7항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드는 대상체로부터 얻어진 샘플로부터 단리된 데옥시리보핵산(DNA) 폴리뉴클레오타이드를 포함하는 것인 방법.
  9. 제1항 내지 제8항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드는 무세포 DNA(cfDNA) 폴리뉴클레오타이드를 포함하는 것인 방법.
  10. 제1항 내지 제5항, 제8항 또는 제9항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드 또는 이의 일부인 방법.
  11. 제1항 내지 제3항 또는 제6항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드는 원래의 폴리뉴클레오타이드의 앰플리콘 복사물인 방법.
  12. 제1항 내지 제11항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 티민, 티민 및 시토신, 티민 및 구아닌, 또는 티민 및 티민 중 어느 것인 것으로 결정이 되면 진정한 염기의 값은 미스콜(miscall)인 것으로 결정되는 것인 방법.
  13. 제1항 내지 제12항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 진정한 염기의 값은 아데닌인 방법.
  14. 제1항 내지 제13항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 시토신인 방법.
  15. 제1항 내지 제14항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 시토신인 것으로 결정되면 진정한 염기의 값은 구아닌인 방법.
  16. 제1항 내지 제15항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 진정한 염기의 값은 티민인 방법.
  17. 제1항 내지 제16항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100보다 높지 않은 것인 방법.
  18. 제1항 내지 제17항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000보다 높지 않은 것인 방법.
  19. 제1항 내지 제17항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/10,000보다 높지 않은 것인 방법.
  20. 제1항 내지 제17항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100,000보다 높지 않은 것인 방법.
  21. 제1항 내지 제17항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000,000보다 높지 않은 것인 방법.
  22. 제1항 내지 제21항 중 어느 하나의 항에 있어서, 제2 염기의 제2 아이덴티티를 결정하는 단계는 리드(read) 폴리뉴클레오타이드를 시퀀싱하는 것을 포함하며, 리드 폴리뉴클레오타이드는 동족 폴리뉴클레오타이드의 동족 앰플리콘인 방법.
  23. 제1항 내지 제22항 중 어느 하나의 항에 있어서, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정되는 것인 방법.
  24. 제1항 내지 제23항 중 어느 하나의 항에 있어서, 샘플이 얻어진 대상체를 포함하는 집단에서 0.1% 이하의 빈도를 가지는 돌연변이가, 원래의 폴리뉴클레오타이드의 유전자좌에서 450배 이하의 유전자좌 커버리지(locus coverage)를 사용하여 적어도 90%의 민감도로 검출되는 것인 방법.
  25. 제1항 내지 제24항 중 어느 하나의 항에 있어서, 단계 (a) 전에, 원래의 폴리뉴클레오타이드 또는 이의 유도체에 대해 하나 이상의 화학 반응 또는 효소 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함하는 방법.
  26. 제25항에 있어서, 단계 (a) 전에, 탈아미노화 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함하는 방법.
  27. 제26항에 있어서, 탈아미노화 반응은 탈아미노효소로 수행되는 것인 방법.
  28. 제27항에 있어서, 탈아미노효소는 APOBEC 또는 이의 단편인 방법.
  29. 제26항 내지 제28항 중 어느 하나의 항에 있어서, 탈아미노화 반응은 나선효소 또는 이의 단편의 존재 하에 수행되는 것인 방법.
  30. (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계;
    (b) 정방향 폴리뉴클레오타이드 및, 선택적으로 동족 폴리뉴클레오타이드를 중아황산염과 접촉시키는 단계;
    (c) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및
    (d) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 아이덴티티 및 제2 염기의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계
    를 포함하는 방법.
  31. 제30항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있는 것인 방법.
  32. 제30항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한 것인 방법.
  33. 제30항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 추가로 포함하는 방법.
  34. 제23항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 중아황산염과 접촉시키는 단계 전에 수행되는 것인 방법.
  35. 제23항 또는 제34항에 있어서, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNMT5인 방법.
  36. 제30항 내지 제35항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드는 5-메틸시토신, 5-하이드록시메틸시토신, 또는 둘 다를 포함하는 것인 방법.
  37. 제30항 내지 제36항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 왓슨-크릭 염기쌍 형성에 의해 연결되는 것인 방법.
  38. 제30항 내지 제37항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 헤어핀, 바코드, 또는 둘 다에 의해 추가로 연결되는 것인 방법.
  39. 제33항 내지 제38항 중 어느 하나의 항에 있어서, DNA 메틸트랜스퍼라제 활성을 가진 실체와의 접촉 후에, 동족 폴리뉴클레오타이드는 선택적으로 5-메틸시토신을 포함하는 것인 방법.
  40. 제30항 내지 제39항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 시토신, 티민 및 시토신, 또는 티민 및 티민 중 어느 것인 것으로 결정이 되면 진정한 염기의 값은 미스콜인 것으로 결정되는 것인 방법.
  41. 제30항 내지 제40항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 진정한 염기의 값은 아데닌인 방법.
  42. 제30항 내지 제41항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 진정한 염기의 값은 시토신인 방법.
  43. 제30항 내지 제42항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 진정한 염기의 값은 구아닌인 방법.
  44. 제30항 내지 제43항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 진정한 염기의 값은 티민인 방법.
  45. 제30항 내지 제44항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 메틸화된 시토신인 방법.
  46. 제30항 내지 제45항 중 어느 하나의 항에 있어서, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정되는 것인 방법.
  47. 제30항 내지 제46항 중 어느 하나의 항에 있어서, 단계 (b) 전 또는 후에, 상기 정방향 폴리뉴클레오타이드 및 상기 동족 폴리뉴클레오타이드를 사용하여 화학 또는 효소 반응을 수행하는 단계를 추가로 포함하는 방법.
  48. (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계;
    (b) 정방향 폴리뉴클레오타이드 및, 선택적으로 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계;
    (c) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및
    (d) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 아이덴티티 및 제2 염기의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계
    를 포함하는 방법.
  49. 제48항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있는 것인 방법.
  50. 제48항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한 것인 방법.
  51. 제48항에 있어서, 산화제는 금속 산화물인 방법.
  52. 제48항에 있어서, 산화제는 루테늄산염인 방법.
  53. 제52항에 있어서, 산화제는 루테늄산칼륨인 방법.
  54. 제48항에 있어서, 산화제는 메틸시토신 이산소화효소인 방법.
  55. 제54항에 있어서, 메틸시토신 이산소화효소는 10-11 전좌(TET) 효소, 또는 이의 유도체인 방법.
  56. 제36항 내지 제55항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드는 5-메틸시토신, 5-하이드록시메틸시토신, 또는 둘 다를 포함하는 것인 방법.
  57. 제48항 내지 제56항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 왓슨-크릭 염기쌍 형성에 의해 연결되는 것인 방법.
  58. 제48항 내지 제57항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 헤어핀, 바코드, 또는 둘 다에 의해 추가로 연결되는 것인 방법.
  59. 제48항 내지 제58 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 추가로 포함하는 방법.
  60. 제59항에 있어서, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNA(시토신-5)-메틸트랜스퍼라제 5(DNMT5)로부터 선택되는 것인 방법.
  61. 제59항 또는 제60항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계 후에 수행되는 것인 방법.
  62. 제48항 내지 제61항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 탈아미노화제와 접촉시키는 단계를 추가로 포함하는 방법.
  63. 제62항에 있어서, 탈아미노화제는 탈아미노효소인 방법.
  64. 제63항에 있어서, 탈아미노효소는 APOBEC, 또는 이의 단편인 방법.
  65. 제62항에 있어서, 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 나선효소와 접촉시키는 단계를 추가로 포함하는 방법.
  66. 제62항에 있어서, 탈아미노화제는 중아황산염인 방법.
  67. 제48항 내지 제66항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 구아닌 및 시토신, 티민 및 시토신, 또는 티민 및 티민 중 어느 것인 것으로 결정이 되면 진정한 염기의 값은 미스콜인 것으로 결정되는 것인 방법.
  68. 제48항 내지 제67항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 진정한 염기의 값은 아데닌인 방법.
  69. 제48항 내지 제68항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 진정한 염기의 값은 시토신 또는 5-하이드록시메틸시토신(5hmC)인 방법.
  70. 제48항 내지 제69항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 진정한 염기의 값은 구아닌인 방법.
  71. 제48항 내지 제70항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 진정한 염기의 값은 티민인 방법.
  72. 제48항 내지 제71항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 5-메틸시토신(5mC)인 방법.
  73. 제48항 내지 제72항 중 어느 하나의 항에 있어서, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정되는 것인 방법.
  74. 제48항 내지 제73항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100보다 높지 않은 것인 방법.
  75. 제48항 내지 제73항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000보다 높지 않은 것인 방법.
  76. 제48항 내지 제73항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/10,000보다 높지 않은 것인 방법.
  77. 제48항 내지 제73항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100,000보다 높지 않은 것인 방법.
  78. 제48항 내지 제73항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000,000보다 높지 않은 것인 방법.
  79. 제48항 내지 제78항 중 어느 하나의 항에 있어서, 단계 (a) 전에, 원래의 폴리뉴클레오타이드 또는 이의 유도체에 대해 하나 이상의 화학 반응 또는 효소 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함하는 방법.
  80. (a) 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 제공하는 단계;
    (b) 정방향 폴리뉴클레오타이드 및, 선택적으로 동족 폴리뉴클레오타이드를, 5-하이드록시메틸시토신(5hmC)을 특이적으로 글리코실화하는 작용제와 접촉시키는 단계;
    (c) 시퀀싱을 이용하여 정방향 폴리뉴클레오타이드의 유전자좌에서의 제1 염기의 제1 아이덴티티 및 동족 폴리뉴클레오타이드의 상응하는 유전자좌에서의 또는 이에 근접한 제2 염기의 제2 아이덴티티를 결정하는 단계; 및
    (d) 프로세서, 메모리, 및 거기에 저장된 명령어를 포함하는 컴퓨터를 사용하여, 실행시에, 적어도 부분적으로 제1 염기의 아이덴티티 및 제2 염기의 아이덴티티에 기초하여 정방향 폴리뉴클레오타이드의 유전자좌에 상응하는 원래의 폴리뉴클레오타이드의 유전자좌에서의 진정한 염기의 값을 결정하는 단계
    를 포함하는 방법.
  81. 제80항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 있는 것인 방법.
  82. 제80항에 있어서, 제2 염기는 동족 폴리뉴클레오타이드의 상응하는 유전자좌에 근접한 것인 방법.
  83. 제80항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계를 추가로 포함하는 방법.
  84. 제83항에 있어서, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNA(시토신-5)-메틸트랜스퍼라제 5(DNMT5)로부터 선택되는 것인 방법.
  85. 제83항 또는 제84항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 5-하이드록시메틸시토신(5hmC)을 특이적으로 글리코실화하는 작용제와 접촉시키는 단계 후에 수행되는 것인 방법.
  86. 제80항 내지 제85항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 탈아미노화제와 접촉시키는 단계를 추가로 포함하는 방법.
  87. 제86항에 있어서, 탈아미노화제는 탈아미노효소인 방법.
  88. 제87항에 있어서, 탈아미노화제는 APOBEC, 또는 이의 단편인 방법.
  89. 제86항에 있어서, 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 나선효소와 접촉시키는 단계를 추가로 포함하는 방법.
  90. 제86항에 있어서, 탈아미노화제는 중아황산염인 방법.
  91. 제80항 내지 제90항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 선택적으로 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계를 추가로 포함하는 방법.
  92. 제91항에 있어서, 산화제는 메틸시토신 이산소화효소인 방법.
  93. 제91항에 있어서, 메틸시토신 이산소화효소는 10-11 전좌(TET) 효소, 또는 이의 유도체인 방법.
  94. 제91항 내지 제93항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 DNA 메틸트랜스퍼라제 활성을 가진 실체와 접촉시키는 단계 후에 수행되는 것인 방법.
  95. 제94항에 있어서, DNA 메틸트랜스퍼라제 활성을 가진 실체는 DNA(시토신-5)-메틸트랜스퍼라제 1(DNMT1) 또는 DNA(시토신-5)-메틸트랜스퍼라제 5(DNMT5)로부터 선택되는 것인 방법.
  96. 제80항 내지 제95항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 5-하이드록시메틸시토신(5hmC)을 특이적으로 글리코실화하는 작용제와 접촉시키는 단계를 추가로 포함하는 방법.
  97. 제96항에 있어서, 5hmC를 특이적으로 글리코실화하는 작용제는 β-글루코실트랜스퍼라제인 방법.
  98. 제97항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 5hmC를 특이적으로 글리코실화하는 작용제와 접촉시키는 단계는 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 산화제와 접촉시키는 단계 후에 수행되는 것인 방법.
  99. 제80항 내지 제98항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 탈아미노효소와 접촉시키는 단계를 추가로 포함하는 방법.
  100. 제99항에 있어서, 탈아미노효소는 아포리포단백질 B mRNA 편집 효소(APOBEC), 이중 가닥 DNA 탈아미노효소, 또는 이의 단편으로부터 선택되는 것인 방법.
  101. 제100항에 있어서, 상기 정방향 폴리뉴클레오타이드 및, 선택적으로, 동족 폴리뉴클레오타이드를 APOBEC와 접촉시키는 단계 전에, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드의 하나 이상의 유전자좌가 연결되지 않도록 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 처리하는 단계를 포함하는 방법.
  102. 제101항에 있어서, 처리 단계는 제1 폴리뉴클레오타이드 또는 이의 일부를 제2 폴리뉴클레오타이드 또는 이의 일부로부터 분리시키는 것을 포함하는 것인 방법.
  103. 제102항에 있어서, 상기 분리는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 나선효소와 접촉시키는 것을 포함하는 것인 방법.
  104. 제101항 또는 제102항에 있어서, 상기 처리 단계는 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 단일 가닥 DNA 결합 단백질(SSB)과 접촉시키는 것을 포함하는 것인 방법.
  105. 제80항 내지 제104항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 티민 및 시토신, 티민 및 티민, 시토신 및 구아닌이 선행되지 않는 경우 구아닌 및 시토신, 각각 구아닌 및 시토신이 뒤따르지 않는 경우 시토신 및 구아닌, 또는 각각 구아닌 및 티민이 뒤따르지 않는 경우 시토신 및 구아닌 중 어느 것인 것으로 결정이 되면 진정한 염기의 값은 미스콜인 것으로 결정되는 것인 방법.
  106. 제80항 내지 제105항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 진정한 염기의 값은 아데닌인 방법.
  107. 제80항 내지 제106항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 진정한 염기의 값은 시토신인 방법.
  108. 제80항 내지 제107항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 진정한 염기의 값은 구아닌인 방법.
  109. 제80항 내지 제108항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 진정한 염기의 값은 티민인 방법.
  110. 제80항 내지 제109항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 CpG 맥락에서 각각 구아닌 및 시토신이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 5-메틸시토신(5mC)인 방법.
  111. 제80항 내지 제110항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 CpG 맥락에서 각각 구아닌 및 티민이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 5-하이드록시메틸시토신(5hmC)인 방법.
  112. 제80항 내지 제111항 중 어느 하나의 항에 있어서, 진정한 염기의 값은 시퀀싱 중에 생성된 데이터를 참조 핵산 서열에 대해 정렬하기 전에 결정되는 것인 방법.
  113. 제91항 내지 제95항 중 어느 하나의 항에 있어서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 환원제와 접촉시키는 단계를 추가로 포함하는 방법.
  114. 제113항에 있어서, 상기 환원제는 보레인 또는 보레인의 유도체인 방법.
  115. 제113항 또는 제114항에 있어서, 상기 환원제는 피리딘 보레인, 2-피콜린 보레인(pic-보레인), 보레인, 다이보레인, tert-부틸아민 보레인, 암모니아 보레인, 수소화붕소 나트륨(NaBH4), 나트륨 시아노보로하이드라이드(NaBH3CN), 에틸렌다이아민 보레인, 다이메틸아민 보레인, 나트륨 트라이아세톡시보로하이드라이드, 모르폴린 보레인, 4-메틸모르폴린 보레인, 트라이메틸아민 보레인, 다이사이클로헥실아민 보레인, 또는 수소화붕소 리튬(LiBH4), 또는 이들의 염으로부터 선택되는 것인 방법.
  116. 제115항에 있어서, 상기 환원제는 피리딘 보레인인 방법.
  117. 제113항에 있어서, 상기 환원제는 수소화 알루미늄 리튬, 나트륨 아말감, 아말감, 이산화황, 이티온산염, 티오황산염, 요오드화물, 과산화수소, 하이드라진, 다이아이소부틸알루미늄 하이드라이드, 옥살산, 일산화탄소, 시안화물, 아스코르브산, 포름산, 다이티오트레이톨, 베타-머캡토에탄올, 또는 이들의 임의의 조합을 포함하는 것인 방법.
  118. 제113항 내지 제117항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 다음 조합: 아데닌 및 아데닌, 아데닌 및 시토신, 아데닌 및 구아닌, 시토신 및 아데닌, 시토신 및 시토신, 시토신 및 티민, 구아닌 및 아데닌, 구아닌 및 구아닌, 티민 및 시토신, 티민 및 티민, 티민 및 구아닌이 선행되지 않는 경우 구아닌 및 티민, 각각 구아닌 및 시토신이 뒤따르지 않는 경우 티민 및 구아닌, 또는 각각 구아닌 및 티민이 뒤따르지 않는 경우 티민 및 구아닌 중 어느 것인 것으로 결정이 되면 진정한 염기의 값은 미스콜인 것으로 결정되는 것인 방법.
  119. 제113항 내지 제118항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 아데닌 및 티민인 것으로 결정되면 진정한 염기의 값은 아데닌인 방법.
  120. 제113항 내지 제119항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 구아닌인 것으로 결정되면 진정한 염기의 값은 시토신인 방법.
  121. 제113항 내지 제120항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 구아닌 및 티민인 것으로 결정되면 진정한 염기의 값은 구아닌인 방법.
  122. 제113항 내지 제121항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 각각 티민 및 아데닌인 것으로 결정되면 진정한 염기의 값은 티민인 방법.
  123. 제113항 내지 제122항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 CpG 맥락에서 각각 구아닌 및 시토신이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 5-메틸시토신(5mC)인 방법.
  124. 제113항 내지 제123항 중 어느 하나의 항에 있어서, 제1 염기의 제1 아이덴티티 및 제2 염기의 제2 아이덴티티가 CpG 맥락에서 각각 구아닌 및 티민이 뒤따르는 시토신 및 구아닌인 것으로 결정되면 진정한 염기의 값은 5-하이드록시메틸시토신(5hmC)인 방법.
  125. 제80항 내지 제124항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100보다 높지 않은 것인 방법.
  126. 제80항 내지 제124항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000보다 높지 않은 것인 방법.
  127. 제80항 내지 제124항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/10,000보다 높지 않은 것인 방법.
  128. 제80항 내지 제124항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/100,000보다 높지 않은 것인 방법.
  129. 제80항 내지 제124항 중 어느 하나의 항에 있어서, 원래의 폴리뉴클레오타이드의 유전자좌에서 진정한 염기의 아이덴티티를 결정하는데 대한 위양성률은 1/1,000,000보다 높지 않은 것인 방법.
  130. 제80항 내지 제129항 중 어느 하나의 항에 있어서, 단계 (a) 전에, 원래의 폴리뉴클레오타이드 또는 이의 유도체에 대해 하나 이상의 화학 반응 또는 효소 반응을 수행함으로써 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함하는 방법.
  131. 제80항 내지 제130항 중 어느 하나의 항에 있어서, 시퀀싱 전의 임의의 시점에서, 정방향 폴리뉴클레오타이드 및 동족 폴리뉴클레오타이드는 (i) 헤어핀을 통해 공유 연결되거나; (ii) 왓슨-크릭 염기쌍 형성을 통해 이중 가닥 폴리뉴클레오타이드로서 연결되거나; (iii) 각각 바코드에 커플링되거나; 또는 (iv) 이들의 임의의 조합인 방법.
  132. 제1항 내지 제131항 중 어느 하나의 항에 있어서, 적어도 부분적으로 유전자좌에서의 진정한 염기 변이체의 값에 기초하여 대상체의 병태를 진단하는 단계를 추가로 포함하는 방법.
  133. 제132항에 있어서, 병태는 암인 방법.
  134. 제133항에 있어서, 암은 육종, 신경교종, 선종, 백혈병, 방광암, 유방암, 대장암, 자궁내막암, 신장암, 간암, 폐암, 흑색종, 비호지킨 림프종, 췌장암, 전립선암, 갑상선암으로부터 선택되는 것인 방법.
  135. 제132항에 있어서, 병태는 신경퇴행성 병태인 방법.
  136. 제135항에 있어서, 신경퇴행성 병태는 알츠하이머병, 전두측두엽 치매, 근위축성 측삭 경화증, 파킨슨병, 척수소뇌성 운동실조증, 척수성 근위축증, 루이소체 치매, 또는 헌팅턴병으로부터 선택되는 것인 방법.
  137. 제1항 내지 제136항 중 어느 하나의 항에 있어서, 시퀀싱은 막삼-길버트 시퀀싱, 생거 시퀀싱, 또는 고처리량 시퀀싱을 포함하는 것인 방법.
  138. 제137항에 있어서, 고처리량 시퀀싱은 차세대 시퀀싱 또는 제3 세대 시퀀싱을 포함하는 것인 방법.
  139. 제138항에 있어서, 제3 세대 시퀀싱은 롱리드(long-read) 시퀀싱인 방법.
  140. (a) 나선효소의 존재 하에 이중 가닥 폴리뉴클레오타이드의 시토신 염기를 탈아미노화하여 탈아미노화된 시토신 염기를 생성하는 단계;
    (b) 상기 탈아미노화된 시토신 염기 또는 이의 이중 가닥 유도체를 포함하는 상기 이중 가닥 폴리뉴클레오타이드의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 단계; 및
    (c) 상기 시퀀싱 데이터를 처리하여 적어도 약 80%의 정확도로 상기 시토신 염기를 확인하는 단계
    를 포함하는 방법.
  141. 제140항에 있어서, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함하는 것인 방법.
  142. 제141항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 90%의 정확도로 상기 시토신 염기를 확인하는 단계를 추가로 포함하는 방법.
  143. 제142항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 시토신 염기를 확인하는 단계를 추가로 포함하는 방법.
  144. 제143항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 시토신 염기를 확인하는 단계를 추가로 포함하는 방법.
  145. 제140항에 있어서, 상기 탈아미노화 단계는 탈아미노효소로 수행되는 것인 방법.
  146. 제145항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 방법.
  147. 제140항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스(Geobacillus sterothermophilus) Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열, 또는 이의 단편을 포함하는 것인 방법.
  148. 제147항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 방법.
  149. 제140항에 있어서, 단계 (b) 전에, 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하고, 단계 (c)는 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 것을 포함하는 것인 방법.
  150. 제140항에 있어서, 단계 (a) 전에, 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함하는 방법.
  151. 제150항에 있어서, 단계 (a) 전에, 상기 정방향 가닥을 상기 역방향 가닥으로부터 분리하는 단계를 추가로 포함하는 방법.
  152. 제151항에 있어서, 핵산 연장 반응에 상기 정방향 가닥을 사용하여 상기 이중 가닥 폴리뉴클레오타이드를 생성하는 단계를 추가로 포함하는 방법.
  153. 제152항에 있어서, 상기 탈아미노화 단계는 탈아미노효소로 수행되는 것인 방법.
  154. 제153항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 방법.
  155. 제154항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열, 또는 이의 단편을 포함하는 것인 방법.
  156. 제155항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 방법.
  157. 제155항에 있어서, 상기 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸 시토신 염기인 방법.
  158. 제157항에 있어서, 단계 (b) 전에, 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하고, 단계 (c)는 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 것을 포함하는 것인 방법.
  159. 제158항에 있어서, 단계 (c)는 상기 시퀀싱 데이터를 처리하여 적어도 약 90%의 정확도로 상기 시토신 염기를 시토신 염기로서 확인하는 것을 포함하는 것인 방법.
  160. 제159항에 있어서, 단계 (c)는 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 시토신 염기를 시토신 염기로서 확인하는 것을 포함하는 것인 방법.
  161. 제160항에 있어서, 단계 (c)는 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 시토신 염기를 시토신 염기로서 확인하는 것을 포함하는 것인 방법.
  162. 제161항에 있어서, 상기 정방향 가닥은 메틸화된 시토신 염기를 포함하고 상기 방법은 (i) 상기 메틸화된 시토신 염기를 포함하는 정방향 가닥 및 (ii) 상기 시토신 염기를 포함하는 추가의 역방향 가닥을 포함하는 변형된 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에서 상기 정방향 가닥을 사용하는 단계를 추가로 포함하는 방법.
  163. 제162항에 있어서, 단계 (c) 전에, 상기 메틸화된 시토신 염기를 글루코실화된 하이드록시메틸시토신으로 전환시키는 단계를 추가로 포함하는 방법.
  164. 제163항에 있어서, 상기 메틸화된 시토신 염기는 메틸시토신 염기이고 상기 전환 단계는 상기 메틸시토신 염기를 산화 조건에 적용하여 하이드록시메틸시토신 염기를 생성하고 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함하는 것인 방법.
  165. 제163항에 있어서, 상기 메틸화된 시토신 염기는 하이드록시메틸시토신이고 상기 전환 단계는 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함하는 것인 방법.
  166. 제163항에 있어서, 상기 탈아미노화 단계는 탈아미노효소로 수행되는 것인 방법.
  167. 제166항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 방법.
  168. 제167항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열을 포함하는 것인 방법.
  169. 제168항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 방법.
  170. 제169항에 있어서, 단계 (b) 전에, 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하고, 단계 (c)는 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 것을 포함하는 것인 방법.
  171. 제170항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 80%의 정확도로 상기 메틸화된 시토신 염기를 메틸화된 시토신 염기로서 확인하는 단계를 추가로 포함하는 방법.
  172. 제171항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 90%의 정확도로 상기 메틸화된 시토신 염기를 메틸화된 시토신 염기로서 확인하는 단계를 추가로 포함하는 방법.
  173. 제172항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 메틸화된 시토신 염기를 메틸화된 시토신 염기로서 확인하는 단계를 추가로 포함하는 방법.
  174. 제173항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 메틸화된 시토신 염기를 메틸화된 시토신 염기로서 확인하는 단계를 추가로 포함하는 방법.
  175. (a) 나선효소의 존재 하에 이중 가닥 폴리뉴클레오타이드의 시토신 염기를 탈아미노효소로 탈아미노화하여 탈아미노화된 시토신 염기를 생성하는 단계;
    (b) 상기 탈아미노화된 시토신 염기 또는 이의 이중 가닥 유도체를 포함하는 상기 이중 가닥 폴리뉴클레오타이드의 적어도 일부를 시퀀싱하여 시퀀싱 데이터를 얻는 단계; 및
    (c) 상기 시퀀싱 데이터를 처리하여 상기 시토신 염기를 확인하는 단계
    를 포함하는 방법.
  176. 제175항에 있어서, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부를 시퀀싱하는 것을 포함하는 것인 방법.
  177. 제175항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 방법.
  178. 제175항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열을 포함하는 것인 방법.
  179. 제178항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 방법.
  180. 제175항에 있어서, 단계 (a) 전에, 정방향 가닥 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함하는 방법.
  181. 제180항에 있어서, 단계 (a) 전에, 상기 정방향 가닥을 상기 역방향 가닥으로부터 분리하는 단계를 추가로 포함하는 방법.
  182. 제181항에 있어서, 상기 분리 단계는 상기 정방향 가닥을 상기 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 적용하는 것을 포함하는 것인 방법.
  183. 제182항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 방법.
  184. 제183항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열을 포함하는 것인 방법.
  185. 제184항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 방법.
  186. 제185항에 있어서, 상기 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸 시토신 염기인 방법.
  187. 제186항에 있어서, 단계 (b) 전에, 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하고, 단계 (c)는 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 것을 포함하는 것인 방법.
  188. 제181항에 있어서, 상기 정방향 가닥은 메틸화된 시토신 염기를 포함하고 상기 분리 단계는 (i) 상기 메틸화된 시토신 염기를 포함하는 정방향 가닥 및 (ii) 상기 시토신 염기를 포함하는 추가의 역방향 가닥을 포함하는 변형된 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에서 상기 정방향 가닥을 사용하는 것을 포함하는 것인 방법.
  189. 제188항에 있어서, 단계 (a) 전에, 상기 메틸화된 시토신 염기를 글루코실화된 하이드록시메틸시토신으로 전환시키는 단계를 추가로 포함하는 방법.
  190. 제189항에 있어서, 상기 메틸화된 시토신 염기는 메틸시토신 염기이고 상기 전환 단계는 상기 메틸시토신 염기를 산화 조건에 적용하여 하이드록시메틸시토신 염기를 생성하고 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함하는 것인 방법.
  191. 제189항에 있어서, 상기 메틸화된 시토신 염기는 하이드록시메틸시토신이고 상기 전환 단계는 상기 하이드록시메틸시토신 염기를 글루코실화 조건에 적용하여 상기 글루코실화된 하이드록시메틸시토신을 생성하는 것을 포함하는 것인 방법.
  192. 제189항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 방법.
  193. 제192항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열을 포함하는 것인 방법.
  194. 제193항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 방법.
  195. 제194항에 있어서, 단계 (b) 전에, 상기 탈아미노화된 시토신 염기를 포함하는 상기 이중 가닥 폴리뉴클레오타이드를 하나 이상의 반응에 적용하여 상기 이의 이중 가닥 유도체를 생성하는 단계를 추가로 포함하고, 단계 (c)는 상기 이의 이중 가닥 유도체의 적어도 일부를 시퀀싱하여 상기 시퀀싱 데이터를 얻는 것을 포함하는 것인 방법.
  196. 키트로서,
    탈아미노효소;
    나선효소; 및
    포장 및 그 안에 상기 키트를 사용하기 위한 설명서
    를 포함하는 키트.
  197. 제196항에 있어서, 상기 탈아미노효소는 아포리포단백질 B mRNA 편집 효소, 촉매 폴리펩타이드 유사(APOBEC) 효소, 또는 이의 단편인 키트.
  198. 제196항에 있어서, 메틸시토신 이산소화효소를 추가로 포함하는 키트.
  199. 제198항에 있어서, 상기 메틸시토신 이산소화효소는 10-11 전좌(TET) 효소 또는 이의 단편을 포함하는 것인 키트.
  200. 제196항에 있어서, 데옥시리보핵산(DNA) 글루코실트랜스퍼라제를 추가로 포함하는 키트.
  201. 제200항에 있어서, 상기 DNA 글루코실트랜스퍼라제는 DNA 베타-글루코실트랜스퍼라제를 포함하는 것인 키트.
  202. 제196항에 있어서, DNA 메틸트랜스퍼라제를 추가로 포함하는 키트.
  203. 제202항에 있어서, 상기 DNA 메틸트랜스퍼라제는 DNA 메틸트랜스퍼라제 1(DNMT1)을 포함하는 것인 키트.
  204. 제196항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편에 대해 적어도 90% 상동성인 아미노산 서열을 포함하는 것인 키트.
  205. 제204항에 있어서, 상기 나선효소는 UvrD 나선효소, 제오바실루스 스테로써모필루스 Bad 단백질, PcrA 나선효소, 또는 이의 단편인 키트.
  206. (a) 염기를 포함하는 폴리뉴클레오타이드를, 상기 염기를 상기 염기로부터 유래된 변경된 염기로 집합적으로 변환시키는 하나 이상의 시약과 접촉시킴으로써, 상기 변경된 염기를 포함하는 변형된 폴리뉴클레오타이드를 생성하는 단계; 및
    (b) 상기 변경된 염기를 포함하는 상기 변형된 폴리뉴클레오타이드 또는 이의 유도체의 적어도 일부를 시퀀싱하여 10배 이하의 커버리지를 갖는 시퀀싱 데이터를 얻는 단계; 및
    (c) 상기 시퀀싱 데이터를 처리하여 적어도 약 90%의 정확도로 상기 염기를 확인하는 단계
    를 포함하는 방법.
  207. 제206항에 있어서, 상기 변형된 폴리뉴클레오타이드 또는 이의 유도체는 이중 가닥 폴리뉴클레오타이드인 방법.
  208. 제207항에 있어서, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드의 두 가닥 모두의 적어도 일부를 시퀀싱하는 것을 포함하는 것인 방법.
  209. 제206항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 염기를 확인하는 단계를 추가로 포함하는 방법.
  210. 제209항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 염기를 확인하는 단계를 추가로 포함하는 방법.
  211. 제206항에 있어서, 상기 염기는 시토신 염기이고 단계 (c)는 상기 시퀀싱 데이터를 처리하여 적어도 약 90%의 상기 정확도로 상기 시토신 염기를 시토신으로서 확인하는 단계를 포함하는 것인 방법.
  212. 제211항에 있어서, 상기 시토신 염기는 메틸화된 시토신 염기인 방법.
  213. 제212항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 메틸화된 염기를 시토신으로서 확인하는 단계를 추가로 포함하는 방법.
  214. 제213항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 메틸화된 염기를 시토신으로서 확인하는 단계를 추가로 포함하는 방법.
  215. 제206항에 있어서, 상기 하나 이상의 시약은 산화제를 포함하는 것인 방법.
  216. 제206항에 있어서, 상기 하나 이상의 시약은 DNA-글루코실트랜스퍼라제를 포함하는 것인 방법.
  217. 제206항에 있어서, 상기 하나 이상의 시약은 탈아미노효소를 포함하는 것인 방법.
  218. 제206항에 있어서, 상기 하나 이상의 시약은 나선효소를 포함하는 것인 방법.
  219. 제206항에 있어서, 상기 하나 이상의 시약은 DNA 메틸트랜스퍼라제를 포함하는 것인 방법.
  220. 제206항에 있어서, 단계 (a) 전에, 상기 폴리뉴클레오타이드를 포함하는 정방향 가닥, 및 역방향 가닥을 포함하는 샘플 이중 가닥 폴리뉴클레오타이드를 제공하는 단계를 추가로 포함하는 방법.
  221. 제220항에 있어서, 단계 (a) 전에, 상기 정방향 가닥을 상기 역방향 가닥으로부터 분리하는 단계를 추가로 포함하는 방법.
  222. 제221항에 있어서, 상기 분리 단계는 상기 폴리뉴클레오타이드를 포함하는 이중 가닥 폴리뉴클레오타이드를 생성하는 핵산 연장 반응에 상기 정방향 가닥을 사용하는 것을 포함하는 것인 방법.
  223. 제222항에 있어서, 상기 메틸화된 염기는 메틸화된 시토신 염기인 방법.
  224. 제223항에 있어서, 상기 하나 이상의 시약은 탈아미노효소 및 나선효소를 포함하는 것인 방법.
  225. 제224항에 있어서, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함하는 것인 방법.
  226. 제225항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 메틸화된 시토신 염기를 시토신으로서 확인하는 단계를 추가로 포함하는 방법.
  227. 제226항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 메틸화된 시토신 염기를 시토신으로서 확인하는 단계를 추가로 포함하는 방법.
  228. 제221항에 있어서, 상기 폴리뉴클레오타이드는 폴리뉴클레오타이드 집단으로부터 유래되고, 상기 폴리뉴클레오타이드 집단에서 상기 메틸화된 시토신 염기의 염기 빈도는 주어진 유전자좌에서 50% 이하인 방법.
  229. 제223항에 있어서, 상기 메틸화된 시토신 염기는 메틸시토신 염기 또는 하이드록시메틸시토신 염기를 포함하는 것인 방법.
  230. 제229항에 있어서, 상기 메틸화된 시토신 염기는 메틸시토신 염기를 포함하고 상기 하나 이상의 시약은 산화제, DNA 글루코실트랜스퍼라제, 탈아미노효소 및 나선효소를 포함하는 것인 방법.
  231. 제229항에 있어서, 상기 메틸화된 시토신 염기는 하이드록시메틸시토신 염기를 포함하고 상기 하나 이상의 시약은 산화제, DNA 글루코실트랜스퍼라제, 메틸트랜스퍼라제, 탈아미노효소 및 나선효소를 포함하는 것인 방법.
  232. 제229항에 있어서, 상기 시퀀싱 단계는 상기 이중 가닥 폴리뉴클레오타이드 또는 이의 이중 가닥 유도체의 두 가닥 모두의 적어도 일부의 시퀀싱을 포함하는 것인 방법.
  233. 제232항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 95%의 정확도로 상기 메틸화된 시토신 염기를 메틸시토신 또는 하이드록시메틸시토신으로서 확인하는 단계를 추가로 포함하는 방법.
  234. 제233항에 있어서, 상기 시퀀싱 데이터를 처리하여 적어도 약 99%의 정확도로 상기 메틸화된 시토신 염기를 메틸시토신 또는 하이드록시메틸시토신으로서 확인하는 단계를 추가로 포함하는 방법.
  235. 제208항에 있어서, 상기 폴리뉴클레오타이드는 이중 가닥 폴리뉴클레오타이드이고, 가닥은 헤어핀을 통해 공유 연결되는 것인 방법.
  236. 제220항에 있어서, 상기 정방향 가닥 및 상기 역방향 가닥은 헤어핀을 통해 공유 연결되는 것인 방법.
KR1020237007054A 2020-07-30 2021-07-29 핵산 분석을 위한 조성물 및 방법 KR20230083269A (ko)

Applications Claiming Priority (21)

Application Number Priority Date Filing Date Title
US202063058712P 2020-07-30 2020-07-30
US63/058,712 2020-07-30
US202063061093P 2020-08-04 2020-08-04
US63/061,093 2020-08-04
US202063105860P 2020-10-26 2020-10-26
US63/105,860 2020-10-26
US202063106566P 2020-10-28 2020-10-28
US63/106,566 2020-10-28
US202163152976P 2021-02-24 2021-02-24
US63/152,976 2021-02-24
US202163178386P 2021-04-22 2021-04-22
US63/178,386 2021-04-22
US202163210927P 2021-06-15 2021-06-15
US63/210,927 2021-06-15
US202163212500P 2021-06-18 2021-06-18
US63/212,500 2021-06-18
US202163213626P 2021-06-22 2021-06-22
US63/213,626 2021-06-22
US202163215752P 2021-06-28 2021-06-28
US63/215,752 2021-06-28
PCT/GB2021/051957 WO2022023753A1 (en) 2020-07-30 2021-07-29 Compositions and methods for nucleic acid analysis

Publications (1)

Publication Number Publication Date
KR20230083269A true KR20230083269A (ko) 2023-06-09

Family

ID=77338694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237007054A KR20230083269A (ko) 2020-07-30 2021-07-29 핵산 분석을 위한 조성물 및 방법

Country Status (10)

Country Link
US (3) US20220298551A1 (ko)
EP (2) EP4034676A1 (ko)
JP (1) JP2023535636A (ko)
KR (1) KR20230083269A (ko)
CN (1) CN116323977A (ko)
AU (1) AU2021319150A1 (ko)
CA (1) CA3187549A1 (ko)
IL (1) IL300238A (ko)
MX (1) MX2023001142A (ko)
WO (1) WO2022023753A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021319150A1 (en) 2020-07-30 2023-03-02 Cambridge Epigenetix Limited Compositions and methods for nucleic acid analysis
IL305155A (en) * 2021-03-15 2023-10-01 Illumina Inc Detection of methylcytosine and its derivatives using S-adenosyl-L-methionine analogues XSAMS
WO2023168300A1 (en) * 2022-03-01 2023-09-07 Guardant Health, Inc. Methods for analyzing cytosine methylation and hydroxymethylation
WO2024069581A1 (en) * 2022-09-30 2024-04-04 Illumina Singapore Pte. Ltd. Helicase-cytidine deaminase complexes and methods of use

Family Cites Families (99)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9907812D0 (en) * 1999-04-06 1999-06-02 Medical Biosystems Ltd Sequencing
DE10019058A1 (de) 2000-04-06 2001-12-20 Epigenomics Ag Detektion von Variationen des DNA-Methylierungsprofils
DE10056802B4 (de) 2000-11-14 2005-06-16 Epigenomics Ag Verfahren zur Detektion von Methylierungszuständen zur toxikologischen Diagnostik
US20040054162A1 (en) 2001-10-30 2004-03-18 Hanna Michelle M. Molecular detection systems utilizing reiterative oligonucleotide synthesis
DE10214232A1 (de) 2002-03-25 2003-10-23 Epigenomics Ag Verfahren und Vorrichtung für die DNA Methylierungsanalyse
US20050196792A1 (en) 2004-02-13 2005-09-08 Affymetrix, Inc. Analysis of methylation status using nucleic acid arrays
ES2787454T3 (es) 2004-09-30 2020-10-16 Epigenomics Ag Método para proveer fragmentos de ADN derivados de una muestra archivada
US7449297B2 (en) 2005-04-14 2008-11-11 Euclid Diagnostics Llc Methods of copying the methylation pattern of DNA during isothermal amplification and microarrays
US10731215B2 (en) 2005-04-15 2020-08-04 Epigenomics Ag Method for determining the presence or absence of methylation in a sample
US20070269824A1 (en) 2006-03-02 2007-11-22 Jeffrey Albrecht Methods and systems for evaluating health risk factors by measurement of DNA damage and DNA repair
US7820385B2 (en) 2006-03-22 2010-10-26 The United States Of America As Represented By The Department Of Health And Human Services, Centers For Disease Control And Prevention Method for retaining methylation pattern in globally amplified DNA
ES2538214T3 (es) 2006-08-08 2015-06-18 Epigenomics Ag Un método para el análisis de metilación de ácido nucleico
JP2008212009A (ja) 2007-02-28 2008-09-18 Sysmex Corp Dnaメチル化検出用試料の調製方法
WO2008109797A1 (en) 2007-03-08 2008-09-12 Rules-Based Medicine, Inc. Methods for rapid disease screening
US8852864B2 (en) 2008-01-17 2014-10-07 Sequenom Inc. Methods and compositions for the analysis of nucleic acids
JP5802952B2 (ja) 2008-06-12 2015-11-04 アンスティテュ、ナショナル、ド、ラ、サント、エ、ド、ラ、ルシェルシュ、メディカル(アンセルム)Institut National De La Sante Et De La Recherche Medical (Inserm) 造血系新生物における新規な診断および予後マーカーとしてのtet2
WO2010037001A2 (en) 2008-09-26 2010-04-01 Immune Disease Institute, Inc. Selective oxidation of 5-methylcytosine by tet-family proteins
WO2010048337A2 (en) 2008-10-22 2010-04-29 Illumina, Inc. Preservation of information related to genomic dna methylation
US9175338B2 (en) 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
WO2010068289A2 (en) 2008-12-11 2010-06-17 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
EP2376632B1 (en) 2008-12-23 2016-11-02 New England Biolabs, Inc. Compositions, methods and related uses for cleaving modified dna
LT5708B (en) 2009-04-02 2011-01-25 Biotechnologijos Inst Derivatization of biomolecules by covalent coupling of non-cofactor compounds using methyltransferases
US8986928B2 (en) 2009-04-10 2015-03-24 Pacific Biosciences Of California, Inc. Nanopore sequencing devices and methods
EP2470675B1 (en) 2009-08-25 2016-03-30 New England Biolabs, Inc. Detection and quantification of hydroxymethylated nucleotides in a polynucleotide preparation
GB2489187B (en) 2010-01-20 2015-02-11 New England Biolabs Inc Compositions, methods and related uses for cleaving modified DNA
WO2011127136A1 (en) 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
US20120064521A1 (en) 2010-09-09 2012-03-15 James Yen Detection of dna hydroxymethylation
WO2012054730A1 (en) 2010-10-22 2012-04-26 Oslo Universitetssykehus Hf Methods and kits for detection of 5-hydroxymethylcytosine
WO2012055408A1 (en) 2010-10-27 2012-05-03 Quantibact A/S Capture of target dna and rna by probes comprising intercalator molecules
US20140178873A1 (en) 2011-03-04 2014-06-26 Andreas Brachmann Novel methods for detecting hydroxymethylcytosine
US9145580B2 (en) 2011-04-02 2015-09-29 New England Biolabs, Inc. Methods and compositions for enriching either target polynucleotides or non-target polynucleotides from a mixture of target and non-target polynucleotides
US9611510B2 (en) * 2011-04-06 2017-04-04 The University Of Chicago Composition and methods related to modification of 5-methylcytosine (5-mC)
WO2012149047A1 (en) 2011-04-29 2012-11-01 Sequenom, Inc. Multimer glycosylated nucleic acid binding protein conjugates and uses thereof
BR112013033692A2 (pt) 2011-06-27 2017-01-24 Flir Systems métodos e composições para segregar ácido nucleico alvo a partir de amostras de ácido nucleico mista
BR112014001699A2 (pt) 2011-07-25 2017-06-13 Oxford Nanopore Tech Ltd método para sequenciar de um polinucleotídeo alvo de filamento duplo, kit, métodos para preparar um polinucleotídeo alvo de filamento duplo para sequenciamento e para sequenciar um polinucleotídeo alvo de filamento duplo, e, aparelho
EP2737085B1 (en) * 2011-07-29 2016-10-12 Cambridge Epigenetix Limited Methods for detection of nucleotide modification
GB201119903D0 (en) 2011-11-17 2011-12-28 Univ Vilnius Nucleic acid production and sequence analysis
CN103131754B (zh) 2011-11-24 2014-07-30 深圳华大基因科技服务有限公司 一种检测核酸羟甲基化修饰的方法及其应用
ES2872073T3 (es) 2011-12-13 2021-11-02 Univ Oslo Hf Procedimientos y kits de detección de estado de metilación
US9238836B2 (en) 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
US20140179564A1 (en) 2012-11-01 2014-06-26 Pacific Biosciences Of California, Inc. Compositions and methods for selection of nucleic acids containing modified bases
EP2825645B1 (en) 2012-03-15 2016-10-12 New England Biolabs, Inc. Methods and compositions for discrimination between cytosine and modifications thereof, and for methylome analysis
US10081827B2 (en) 2012-03-15 2018-09-25 New England Biolabs, Inc. Mapping cytosine modifications
US9200260B2 (en) 2012-03-15 2015-12-01 New England Biolabs, Inc. Compositions and methods for the transfer of a hexosamine to a modified nucleotide in a nucleic acid
WO2013163207A1 (en) 2012-04-24 2013-10-31 Pacific Biosciences Of California, Inc. Identification of 5-methyl-c in nucleic acid templates
WO2013185137A1 (en) 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
US20150285807A1 (en) 2012-06-11 2015-10-08 The Brigham And Women's Hospital, Inc. System and method for detecting cancer
GB201212047D0 (en) 2012-07-05 2012-08-22 Fermentas Uab Restriction endonucleases and their use
US10706957B2 (en) 2012-09-20 2020-07-07 The Chinese University Of Hong Kong Non-invasive determination of methylome of tumor from plasma
US9732390B2 (en) 2012-09-20 2017-08-15 The Chinese University Of Hong Kong Non-invasive determination of methylome of fetus or tumor from plasma
US20150307542A1 (en) 2012-10-03 2015-10-29 Moderna Therapeutics, Inc. Modified nucleic acid molecules and uses thereof
BR112015017354A2 (pt) 2013-01-22 2017-11-21 Centre Nat Rech Scient método para detectar pelo menos uma base modificada
WO2014152279A1 (en) 2013-03-15 2014-09-25 Promega Corporation Method for quantifying 5-hydroxymethylcytosine
US10435740B2 (en) * 2013-04-01 2019-10-08 University Of Florida Research Foundation, Incorporated Determination of methylation state and chromatin structure of target genetic loci
KR20160011670A (ko) 2013-05-28 2016-02-01 라모트 앳 텔-아비브 유니버시티 리미티드 하이드록시메틸사이토신 염기의 검출
US9879315B2 (en) 2013-06-26 2018-01-30 Universität Konstanz Direct, programmable detection of epigenetic DNA cytosine modifications using TAL effectors
US10597647B2 (en) 2013-06-28 2020-03-24 New England Biolabs, Inc. Compositions and methods for identifying hydroxymethylcytosine in a DNA
US20160194696A1 (en) 2013-08-09 2016-07-07 New England Biolabs, Inc. Detecting, Sequencing and/or Mapping 5-Hydroxymethylcytosine and 5-Formylcytosine at Single-Base Resolution
US20150167017A1 (en) 2013-12-13 2015-06-18 Moderna Therapeutics, Inc. Alternative nucleic acid molecules and uses thereof
CA2936564C (en) 2014-01-07 2022-10-18 Fundacio Privada Institut De Medicina Predictiva I Personalitzada Del Cancer Methods for generating double stranded dna libraries and sequencing methods for the identification of methylated cytosines
CN106460050A (zh) 2014-04-28 2017-02-22 西格马-奥尔德里奇有限责任公司 使用靶向核酸内切酶进行哺乳动物基因组的表观遗传修饰
WO2015196130A2 (en) 2014-06-19 2015-12-23 Moderna Therapeutics, Inc. Alternative nucleic acid molecules and uses thereof
WO2016053891A1 (en) * 2014-09-29 2016-04-07 The Regents Of The University Of California Nanopore sequencing of polynucleotides with multiple passes
WO2016077763A1 (en) * 2014-11-13 2016-05-19 The Board Of Trustees Of The University Of Illinois Bio-engineered hyper-functional "super" helicases
WO2016164363A1 (en) * 2015-04-06 2016-10-13 The Regents Of The University Of California Methods for determing base locations in a polynucleotide
EP3307755A4 (en) 2015-05-12 2018-12-26 Wake Forest University Health Sciences Identification of genetic modifications
US11396672B2 (en) 2015-08-31 2022-07-26 The University Of Chicago Composition and methods for detecting adenosine modifications
WO2017039002A1 (ja) 2015-09-04 2017-03-09 国立大学法人東京大学 5-ヒドロキシメチルシトシン酸化剤及び5-ヒドロキシメチルシトシン解析方法
AU2016323985B2 (en) 2015-09-17 2022-12-15 Novartis Ag CAR T cell therapies with enhanced efficacy
WO2017075436A1 (en) 2015-10-30 2017-05-04 New England Biolabs, Inc. Compositions and methods for determining modified cytosines by sequencing
US10260088B2 (en) 2015-10-30 2019-04-16 New England Biolabs, Inc. Compositions and methods for analyzing modified nucleotides
WO2017081689A1 (en) 2015-11-11 2017-05-18 Ramot At Tel-Aviv University Ltd. Methods of detecting 5-hydroxymethylcytosine and diagnosing of cancer
JP2018533683A (ja) 2015-11-16 2018-11-15 バロン イノベイティブ テクノロジー エルピー フロート、フロートアセンブリ、フロートアダプタおよび界面、フロート振動装置、および溝付け装置、ならびに方法
US20210214781A1 (en) 2016-02-14 2021-07-15 Abhijit Ajit Patel Measurement of nucleic acid
EP3214183B1 (en) 2016-03-01 2018-11-21 Universität Konstanz Transcription activator-like effector (tale)-based decoding of cytosine nucleobases by selective modification response
US11162139B2 (en) 2016-03-02 2021-11-02 Shanghai Epican Genetech Co. Ltd. Method for genomic profiling of DNA 5-methylcytosine and 5-hydroxymethylcytosine
AU2017246318B2 (en) 2016-04-07 2023-07-27 The Board Of Trustees Of The Leland Stanford Junior University Noninvasive diagnostics by sequencing 5-hydroxymethylated cell-free DNA
US20170298422A1 (en) 2016-04-18 2017-10-19 The Board Of Trustees Of The Leland Stanford Junior University Simultaneous single-molecule epigenetic imaging of dna methylation and hydroxymethylation
CN109804086B (zh) 2016-08-10 2023-06-13 格里尔公司 制备双标签dna库用于亚硫酸盐转化定序的方法
US11192929B2 (en) * 2016-12-08 2021-12-07 Regents Of The University Of Minnesota Site-specific DNA base editing using modified APOBEC enzymes
GB2559319B (en) 2016-12-23 2019-01-16 Cs Genetics Ltd Reagents and methods for the analysis of linked nucleic acids
US20200190581A1 (en) * 2017-01-04 2020-06-18 The University Of Chicago Methods for detecting cytosine modifications
RU2754038C2 (ru) 2017-03-08 2021-08-25 Президент Энд Фэллоуз Оф Харвард Коллидж Способы амплификации днк для сохранения статуса метилирования
WO2018165459A1 (en) 2017-03-08 2018-09-13 The University Of Chicago Method for highly sensitive dna methylation analysis
US20200063194A1 (en) 2017-04-03 2020-02-27 The Trustees Of Columbia University In The City Of New York Comprehensive single molecule enhanced detection of modified cytosines
US10155939B1 (en) 2017-06-15 2018-12-18 New England Biolabs, Inc. Method for performing multiple enzyme reactions in a single tube
WO2019013613A2 (es) 2017-07-09 2019-01-17 Hakken Enterprise Sa De Cv Métodos y kits para determinar el riesgo de cáncer
US11946043B2 (en) 2017-09-11 2024-04-02 Ludwig Institute For Cancer Research Ltd Selective labeling of 5-methylcytosine in circulating cell-free DNA
WO2019060722A2 (en) * 2017-09-22 2019-03-28 X Gen Us Co. METHODS AND COMPOSITIONS FOR USE IN PREPARING POLYNUCLEOTIDES
WO2019099081A1 (en) * 2017-11-16 2019-05-23 New England Biolabs, Inc. Mapping the location, type and strand of damaged and/or mismatched nucleotides in double-stranded dna
WO2019136413A1 (en) 2018-01-08 2019-07-11 Ludwig Institute For Cancer Research Ltd Bisulfite-free, base-resolution identification of cytosine modifications
CN112105626A (zh) 2018-02-14 2020-12-18 蓝星基因组股份有限公司 用于dna、特别是细胞游离dna的表观遗传学分析的方法
CA3136011A1 (en) * 2019-04-28 2020-11-05 The Regents Of The University Of California Methods for library preparation to enrich informative dna fragments using enzymatic digestion
GB201911515D0 (en) 2019-08-12 2019-09-25 Univ London Queen Mary Methods for generating a population of polynucleotide molecules
CN114555831A (zh) 2019-09-30 2022-05-27 合成Dna技术公司 制备双索引甲基化序列文库的方法
CA3162799A1 (en) 2019-12-23 2021-07-01 Benjamin F. DELATTE Methods and kits for the enrichment and detection of dna and rna modifications and functional motifs
JP7104770B2 (ja) 2019-12-30 2022-07-21 財團法人工業技術研究院 標的ヌクレオチド配列を増幅及び確定する方法
US11359238B2 (en) 2020-03-06 2022-06-14 Singular Genomics Systems, Inc. Linked paired strand sequencing
AU2021319150A1 (en) 2020-07-30 2023-03-02 Cambridge Epigenetix Limited Compositions and methods for nucleic acid analysis

Also Published As

Publication number Publication date
JP2023535636A (ja) 2023-08-18
EP4083231A1 (en) 2022-11-02
US11608518B2 (en) 2023-03-21
MX2023001142A (es) 2023-05-25
CA3187549A1 (en) 2022-02-03
CN116323977A (zh) 2023-06-23
IL300238A (en) 2023-03-01
WO2022023753A1 (en) 2022-02-03
US20220298551A1 (en) 2022-09-22
US20240076720A1 (en) 2024-03-07
AU2021319150A1 (en) 2023-03-02
US20220290215A1 (en) 2022-09-15
EP4034676A1 (en) 2022-08-03

Similar Documents

Publication Publication Date Title
US11519028B2 (en) Compositions and methods for identifying nucleic acid molecules
TWI797118B (zh) 用於資料庫建立及序列分析之組合物及方法
KR20230083269A (ko) 핵산 분석을 위한 조성물 및 방법
TW202012638A (zh) 用於癌症及贅瘤之評估的組合物及方法
JP2019504624A (ja) 核酸配列決定のための新規アダプターおよび使用法
EP3894600B1 (en) Method for quantifying gene fusion dna
US20240301466A1 (en) Efficient duplex sequencing using high fidelity next generation sequencing reads
JP2022544779A (ja) ポリヌクレオチド分子の集団を生成するための方法
CN114450420A (zh) 用于肿瘤学精确测定的组合物和方法
US20220307077A1 (en) Conservative concurrent evaluation of dna modifications
WO2024213788A1 (en) Method of dna sequencing

Legal Events

Date Code Title Description
A201 Request for examination