KR20220109492A - 핵산의 염기 변형의 결정 - Google Patents

핵산의 염기 변형의 결정 Download PDF

Info

Publication number
KR20220109492A
KR20220109492A KR1020227026028A KR20227026028A KR20220109492A KR 20220109492 A KR20220109492 A KR 20220109492A KR 1020227026028 A KR1020227026028 A KR 1020227026028A KR 20227026028 A KR20227026028 A KR 20227026028A KR 20220109492 A KR20220109492 A KR 20220109492A
Authority
KR
South Korea
Prior art keywords
methylation
dna
nucleic acid
nucleotide
haplotype
Prior art date
Application number
KR1020227026028A
Other languages
English (en)
Other versions
KR102658592B1 (ko
Inventor
육-밍 데니스 로
로싸 와이 콴 치우
콴 치 챵
페이용 지앙
숙 항 쳉
웬레이 펭
온 이 체
Original Assignee
더 차이니즈 유니버시티 오브 홍콩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=74567577&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20220109492(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 더 차이니즈 유니버시티 오브 홍콩 filed Critical 더 차이니즈 유니버시티 오브 홍콩
Publication of KR20220109492A publication Critical patent/KR20220109492A/ko
Application granted granted Critical
Publication of KR102658592B1 publication Critical patent/KR102658592B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/164Methylation detection other then bisulfite or methylation sensitive restriction endonucleases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/601Detection means characterised by use of a special device being a microscope, e.g. atomic force microscopy [AFM]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)

Abstract

핵산 분자를 분석하고 핵산 분자의 분석을 위한 데이터를 획득하는 데 있어서의 염기 변형의 결정을 사용하기 위한 시스템 및 방법이 본원에 기재되어 있다. 염기 변형은 메틸화를 포함할 수 있다. 염기 변형을 결정하는 방법은 시퀀싱으로부터 유래된 특징을 이용하는 것을 포함할 수 있다. 이들 특징은 염기의 시퀀싱으로부터의 광학 신호의 펄스 폭, 염기의 펄스간 기간 및 염기의 아이덴티티(identity)를 포함할 수 있다. 기계 학습 모델은 이 특징을 사용하여 염기 변형을 검출하도록 훈련될 수 있다. 일배체형 사이의 상대 변형 또는 메틸화 수준은 장애를 나타낼 수 있다. 변형 또는 메틸화 상태는 또한 키메라 분자를 검출하도록 사용될 수 있다.

Description

핵산의 염기 변형의 결정{DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS}
관련 출원의 교차 참조
본 출원은 2020년 7월 13일에 출원된 발명의 명칭이 "DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS"인 미국 임시 출원 제63/051,210호; 2020년 3월 4일에 출원된 발명의 명칭이 "DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS"인 미국 임시 출원 제 63/019,790호; 2020년 3월 19일에 출원된 발명의 명칭이 "DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS"인 미국 임시 출원 제62/991,891호; 2020년 2월 5일에 출원된 발명의 명칭이 "DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS"인 미국 임시 출원 제62/970,586호; 및 2019년 8월 16일에 출원된 발명의 명칭이 "DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS"인 미국 임시 출원 제62/887,987호의 우선권의 이익을 주장하고, 이들 모두의 전체 내용은 본원에서 모든 목적을 위해 인용되어 포함된다.
핵산에서의 염기 변형의 존재는 바이러스, 박테리아, 식물, 진균, 선충, 곤충 및 척추동물(예를 들어, 인간) 등을 포함하는 상이한 유기체에 걸쳐 변한다. 가장 흔한 염기 변형은 상이한 위치에서의 상이한 DNA 염기에 대한 메틸기의 부가, 소위 메틸화이다. 메틸화는 5mC(5-메틸시토신), 4mC(N4-메틸시토신), 5hmC(5-하이드록시메틸시토신), 5fC(5-포밀시토신), 5caC(5-카복실시토신), 1mA(N1-메틸아데닌), 3mA(N3-메틸아데닌), 7mA(N7-메틸아데닌), 3mC(N3-메틸시토신), 2mG(N2-메틸구아닌), 6mG(O6-메틸구아닌), 7mG(N7-메틸구아닌), 3mT(N3-메틸티민) 및 4mT(O4-메틸티민)와 같은 시토신, 아데닌, 티민 및 구아닌에서 발견되었다. 척추동물 게놈에서, 5mC가 염기 메틸화의 가장 흔한 유형이고, 그 다음이 구아닌에 대한 것(즉, CpG 콘텍스트(context)에서)이다.
DNA 메틸화는 포유류 개발에 필수적이고, 유전자 발현 및 침묵화, 배아 개발, 전사, 염색질 구조, X 염색체 불활성화, 반복 요소의 활성에 대한 보호, 유사분열 동안 게놈 안정성의 유지, 및 부모 기원 게놈 각인의 조절에 주목할 만한 역할을 갖는다.
DNA 메틸화는 조직화된 방식으로 프로모터 및 인핸서의 침묵에서 많은 중요한 역할을 한다(Robertson, 2005; Smith and Meissner, 2013). 많은 인간 질환은 비제한적인 예로서 발암의 과정, 각인 장애(예를 들어, 벡위트-비데만 증후군(Beckwith-Wiedemann syndrome) 및 프라더-빌리 증후군(Prader-Willi syndrome)), 반복 불안정성 질환(예를 들어, 취약 X 증후군), 자가면역 장애(예를 들어, 전신 홍반 루푸스), 대사 장애(예를 들어, I형 및 II형 당뇨병), 신경학적 장애, 노화 등을 포함하는 DNA 메틸화의 비정상과 연관된 것으로 발견되었다.
DNA 분자에서의 메틸롬 변형의 정확한 측정은 많은 임상 영향을 가질 것이다. DNA 메틸화를 측정하기 위해 하나의 널리 사용되는 방법은 바이설파이트 시퀀싱(BS-seq)의 사용을 통해 이루어진다(문헌[Lister et al., 2009; Frommer et al., 1992]). 이 접근법에서, DNA 샘플은 바이설파이트에 의해 처음에 처리되는데, 이는 비메틸화된 시토신(즉, C)을 우라실로 전환시킨다. 이에 반해서, 메틸화된 시토신은 변형되지 않은 채 있는다. 이후, 바이설파이트 변형된 DNA는 DNA 시퀀싱에 의해 분석된다. 다른 접근법에서, 바이설파이트 전환 후에, 이후 변형된 DNA는 상이한 메틸화 프로필의 바이설파이트 전환된 DNA를 구별할 수 있는 프라이머를 사용하여 중합효소 연쇄 반응(PCR: polymerase chain reaction) 증폭으로 처리된다(문헌[Herman et al., 1996]). 이 후자의 접근법은 메틸화 특이적 PCR이라 불린다.
이러한 바이설파이트 기반 접근법의 하나의 단점은 바이설파이트 전환 단계가 처리된 DNA의 대부분을 상당히 분해하는 것으로 보고된다는 것이다(문헌[Grunau, 2001]). 다른 단점은 바이설파이트 전환 단계가 강한 CG 바이어스를 생성하여서(문헌[Olova et al., 2018]), 전형적으로 불균질한 메틸화 상태를 갖는 DNA 혼합물에 대해 신호-대-노이즈 비율을 감소시킨다는 것이다. 게다가, 바이설파이트 시퀀싱은 바이설파이트 처리 동안 DNA의 분해 때문에 긴 DNA 분자를 시퀀싱할 수 없을 것이다. 따라서, 이전의 화학(예를 들어, 바이설파이트 전환) 및 핵산 증폭(예를 들어, PCR을 사용) 없이 핵산의 염기의 변형을 결정할 필요성이 있다.
본 발명자들은, 일 실시형태에서, 주형 DNA 전처리, 예컨대 효소 전환 및/또는 화학 전환, 또는 단백질 및/또는 항체 결합 없이 핵산에서의 5mC와 같은 염기 변형의 결정을 허용하는 새로운 방법을 개발하였다. 기재된 예에서 염기 변형의 결정에 이러한 주형 DNA 전처리가 필요하지 않지만, 소정의 전처리(예를 들어, 제한 효소에 의한 소화)는 본 발명의 양태를 향상시키도록 작용할 수 있다(예를 들어, 분석을 위해 CpG 부위의 농후화를 허용). 본 개시내용에 존재하는 실시형태는 예를 들어 비제한적인 예로서 4mC, 5hmC, 5fC, 및 5caC, 1mA, 3mA, 7mA, 3mC, 2mG, 6mG, 7mG, 3mT 및 4mT 등을 포함하는 상이한 유형의 염기 변형을 검출하기 위해 사용될 수 있다. 이러한 실시형태는 시퀀싱으로부터 유래된 특징, 예컨대 다양한 염기 변형에 의해 영향을 받는 동역학 특징, 및 메틸화 상태가 결정되는 표적 위치 주위의 윈도우에서의 뉴클레오타이드의 아이덴티티(identity)를 사용할 수 있다.
본 발명의 실시형태는 단일 분자 시퀀싱에 사용될 수 있지만, 이것으로 제한되지는 않는다. 단일 분자 시퀀싱의 하나의 유형은 단일 DNA 분자의 시퀀싱의 진행이 실시간으로 모니터링되는 단일 분자 실시간 시퀀싱이다. 단일 분자 실시간 시퀀싱의 하나의 유형은 단일 분자 실시간(SMRT: Single Molecule, Real-Time) 시스템을 사용하여 Pacific Biosciences에 의해 상업화된 것이다. 방법은 염기 또는 이웃하는 염기에서 변형을 검출하기 위해 염기의 시퀀싱으로부터의 신호의 펄스 폭, 염기의 펄스간 기간(IPD: interpulse duration) 및 염기의 아이덴티티를 사용할 수 있다. 다른 단일 분자 시스템은 나노기공 시퀀싱에 기초한 것이다. 나노기공 시퀀싱 시스템의 하나의 예는 Oxford Nanopore Technologies에 의해 상업화된 것이다.
본 발명자들이 개발한 방법은 비제한적인 예로서 조사 및 진단 목적을 포함하는 다양한 목적을 위해 샘플에서 메틸화 프로필을 평가하기 위해 생물학적 샘플에서 염기 변형을 검출하기 위한 도구로서 작용할 수 있다. 상이한 분석에 검출된 메틸화 프로필이 사용될 수 있다. 메틸화 프로필은 DNA의 기원(예를 들어, 모계 또는 태아, 조직, 박테리아, 또는 암 환자의 혈액으로부터 농후화된 종양 세포로부터 얻은 DNA)을 검출하도록 사용될 수 있다. 조직에서의 비정상 메틸화 프로필의 검출은 개체에서 발달 장애의 확인을 돕고, 종양 또는 악성종양을 확인하고 예측한다.
본 발명의 실시형태는 유기체의 일배체형의 상대 메틸화 수준을 분석하는 것을 포함할 수 있다. 2개의 일배체형 사이의 메틸화 수준의 불균형은 장애의 분류를 결정하도록 사용될 수 있다. 더 높은 불균형은 장애 또는 보다 심각한 장애의 존재를 나타낼 수 있다. 그 장애는 암을 포함할 수 있다.
단일 분자에서의 메틸화 패턴은 키메라 및 하이브리드 DNA를 확인할 수 있다. 키메라 및 하이브리드 분자는 2개의 상이한 유전자, 염색체, 세포소기관(예를 들어, 미토콘드리아, 핵, 엽록체), 유기체(포유류, 박테리아, 바이러스 등), 및/또는 종으로부터의 서열을 포함할 수 있다. 키메라 또는 하이브리드 DNA 분자의 접합의 검출은 암, 태아기 또는 선천성 장애를 포함하는 다양한 장애 또는 질환에 대한 유전자 융합의 검출을 허용할 수 있다.
하기 상세한 설명 및 첨부된 도면을 참고로 하여 본 발명의 실시예의 속성 및 이점에 대한 더 나은 이해가 가능할 수 있다.
도 1은 본 발명의 실시형태에 따른 염기 변형을 보유하는 분자의 SMRT 시퀀싱을 예시한다.
도 2는 본 발명의 실시형태에 따른 메틸화된 CpG 부위 및 비메틸화된 CpG 부위를 보유하는 분자의 SMRT 시퀀싱을 예시한다.
도 3은 본 발명의 실시형태에 따른 펄스간 기간 및 펄스 폭을 예시한다.
도 4는 본 발명의 실시형태에 따른 염기 변형을 검출하기 위한 DNA의 왓슨 가닥(Watson strand)의 측정 윈도우의 예를 보여준다.
도 5는 본 발명의 실시형태에 따른 염기 변형을 검출하기 위한 DNA의 클릭 가닥(Crick strand)의 측정 윈도우의 예를 보여준다.
도 6은 본 발명의 실시형태에 따른 임의의 염기 변형을 검출하기 위한 DNA의 왓슨 가닥 및 이의 상보성 클릭 가닥으로부터의 데이터의 조합에 의한 측정 윈도우의 예를 보여준다.
도 7은 본 발명의 실시형태에 따른 임의의 염기 변형을 검출하기 위한 DNA의 왓슨 가닥 및 이의 이웃한 영역의 클릭 가닥으로부터의 데이터의 조합에 의한 측정 윈도우의 예를 보여준다.
도 8은 본 발명의 실시형태에 따른 CpG 부위에서의 메틸화 상태를 결정하기 위한 왓슨 가닥, 클릭 가닥 및 가닥 둘 다의 측정 윈도우의 예를 보여준다.
도 9는 본 발명의 실시형태에 따른 염기 변형을 분류하기 위한 분석적, 컴퓨터적, 수학적 또는 통계학적 모델을 구축하는 일반 절차를 보여준다.
도 10은 본 발명의 실시형태에 따른 염기 변형을 분류하는 일반 절차를 보여준다.
도 11은 본 발명의 실시형태에 따른 왓슨 가닥의 공지된 메틸화 상태를 갖는 샘플을 사용하여 CpG 부위에서의 메틸화 상태를 분류하기 위한 분석적, 컴퓨터적, 수학적 또는 통계학적 모델을 구축하는 일반 절차를 보여준다.
도 12는 본 발명의 실시형태에 따른 비공지된 샘플에 대한 왓슨 가닥의 메틸화 상태를 분류하는 일반 절차를 보여준다.
도 13은 본 발명의 실시형태에 따른 클릭 가닥의 공지된 메틸화 상태를 갖는 샘플을 사용하여 CpG 부위에서의 메틸화 상태를 분류하기 위한 분석적, 컴퓨터적, 수학적 또는 통계학적 모델을 구축하는 일반 절차를 보여준다.
도 14는 본 발명의 실시형태에 따른 비공지된 샘플에 대한 클릭 가닥의 메틸화 상태를 분류하는 일반 절차를 보여준다.
도 15는 본 발명의 실시형태에 따른 왓슨 가닥 및 클릭 가닥 둘 다로부터의 공지된 메틸화 상태를 갖는 샘플을 사용하여 CpG 부위에서의 메틸화 상태를 분류하기 위한 통계학적 모델을 구축하는 일반 절차를 보여준다.
도 16은 본 발명의 실시형태에 따른 왓슨 가닥 및 클릭 가닥으로부터의 비공지된 샘플의 메틸화 상태를 분류하는 일반 절차를 보여준다.
도 17a도 17b는 본 발명의 실시형태에 따른 메틸화를 결정하기 위한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 18은 본 발명의 실시형태에 따른 메틸화를 결정하기 위한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 19는 본 발명의 실시형태에 따른 메틸화를 결정하기 위한 상이한 시퀀싱 깊이에서의 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 20은 본 발명의 실시형태에 따른 메틸화를 결정하기 위한 상이한 가닥에 대한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 21은 본 발명의 실시형태에 따른 메틸화를 결정하기 위한 상이한 측정 윈도우에 대한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 22는 본 발명의 실시형태에 따른 메틸화를 결정하기 위해 하류 염기만을 사용한 상이한 측정 윈도우에 대한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 23은 본 발명의 실시형태에 따른 메틸화를 결정하기 위해 상류 염기만을 사용한 상이한 측정 윈도우에 대한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 24는 본 발명의 실시형태에 따른 훈련 데이터세트에서의 비대칭 플랭킹 크기를 사용한 하류 염기 및 상류 염기와 연관된 동역학 패턴을 이용한 메틸화 분석의 수행을 보여준다.
도 25는 본 발명의 실시형태에 따른 시험 데이터세트에서의 비대칭 플랭킹 크기를 사용한 하류 염기 및 상류 염기와 연관된 동역학 패턴을 이용한 메틸화 분석의 수행을 보여준다.
도 26은 본 발명의 실시형태에 따른 CpG 부위에서의 메틸화 상태의 분류와 관련한 특징의 상대 중요성을 보여준다.
도 27은 본 발명의 실시형태에 따른 펄스 폭 신호를 사용하지 않고 메틸화 검출을 위한 모티프 기반 IPD 분석의 수행을 보여준다.
도 28은 본 발명의 실시형태에 따른 메틸화 분석으로 처리된 시토신의 2-nt 상류 및 6-nt 하류를 사용한 주성분 분석 기법의 그래프이다.
도 29는 본 발명의 실시형태에 따른 콘볼루션 신경망을 사용하여 주성분 분석 및 방법을 이용한 방법 사이의 수행 비교의 그래프이다.
도 30은 본 발명의 실시형태에 따른 메틸화를 결정하기 위해 상류 염기만을 사용한 상이한 분석적, 컴퓨터적, 수학적 또는 통계학적 모델에 대한 훈련 데이터세트 및 시험 데이터세트의 수행을 보여준다.
도 31a는 본 발명의 실시형태에 따른 전장 게놈 증폭에 의한 비메틸화된 아데닌을 갖는 분자를 생성하기 위한 하나의 접근법의 예를 보여준다.
도 31b는 본 발명의 실시형태에 따른 전장 게놈 증폭에 의한 메틸화된 아데닌을 갖는 분자를 생성하기 위한 하나의 접근법의 예를 보여준다.
도 32a도 32b는 본 발명의 실시형태에 따른 비메틸화된 데이터세트와 메틸화된 데이터세트 사이의 왓슨 가닥의 주형 DNA에서의 시퀀싱된 A 염기에 걸친 펄스간 기간(IPD) 값을 보여준다.
도 32c는 본 발명의 실시형태에 따른 왓슨 가닥에서의 메틸화를 결정하기 위한 수신자 조작 특징 곡선을 보여준다.
도 33a도 33b는 본 발명의 실시형태에 따른 비메틸화된 데이터세트와 메틸화된 데이터세트 사이의 클릭 가닥의 주형 DNA에서의 시퀀싱된 A 염기에 걸친 펄스간 기간(IPD) 값을 보여준다.
도 33c는 본 발명의 실시형태에 따른 클릭 가닥에서의 메틸화를 결정하기 위한 수신자 조작 특징 곡선을 보여준다.
도 34는 본 발명의 실시형태에 따른 왓슨 가닥의 6mA 결정을 예시한다.
도 35는 본 발명의 실시형태에 따른 클릭 가닥의 6mA 결정을 예시한다.
도 36a도 36b는 본 발명의 실시형태에 따른 측정 윈도우 기반 콘볼루션 신경망 모델을 사용한 uA 데이터세트와 mA 데이터세트 사이의 왓슨 가닥의 시퀀싱된 A 염기에 대해 메틸화되는 결정된 확률을 보여준다.
도 37은 본 발명의 실시형태에 따른 왓슨 가닥의 시퀀싱된 A 염기에 대한 측정 윈도우 기반 CNN 모델을 사용한 6mA의 검출을 위한 ROC 곡선을 보여준다.
도 38은 본 발명의 실시형태에 따른 IPD-메트릭 기반 6mA 검출과 측정 윈도우 기반 6mA 검출 사이의 수행 비교를 보여준다.
도 39a도 39b는 본 발명의 실시형태에 따른 측정 윈도우 기반 CNN 모델을 사용한 uA 데이터세트와 mA 데이터세트 사이의 클릭 가닥의 시퀀싱된 A 염기에 대해 메틸화되는 결정된 확률을 보여준다.
도 40은 본 발명의 실시형태에 따른 클릭 가닥의 시퀀싱된 A 염기에 대한 측정 윈도우 기반 CNN 모델을 사용한 6mA 검출의 수행을 보여준다.
도 41은 본 발명의 실시형태에 따른 왓슨 가닥 및 클릭 가닥을 포함하는 분자에서의 A 염기에 걸친 메틸화 상태의 예를 보여준다.
도 42는 본 명의 실시형태에 따른 10백분위보다 높은 IPD 값을 갖는 mA 데이터세트에서의 A 염기를 선택적으로 사용함으로써 향상된 훈련의 예를 보여준다.
도 43은 본 발명의 실시형태에 따른 각각의 웰에서의 하위판독물의 수에 대한 mA 데이터세트에서의 비메틸화된 아데닌의 백분율의 그래프이다.
도 44는 본 발명의 실시형태에 따른 시험 데이터세트에서의 이중 가닥 DNA 분자의 왓슨 가닥과 클릭 가닥 사이의 메틸아데닌 패턴을 보여준다.
도 45는 본 발명의 실시형태에 따른 훈련 데이터세트 및 시험 데이터세트에서의 완전히 비메틸화된 분자, 반메틸화된 분자, 완전히 메틸화된 분자 및 혼성적인 틸아데닌 패턴을 갖는 분자의 백분율을 보여주는 표이다.
도 46은 본 발명의 실시형태에 따른 아데닌 부위에 관하여 완전히 비메틸화된 분자, 반메틸화된 분자, 완전히 메틸화된 분자 및 혼성적인 틸아데닌 패턴을 갖는 분자에 의한 분자에 대한 대표적인 예를 예시한다.
도 47은 본 발명의 실시형태에 따른 (황색의 음영처리된) CpG 섬을 보유하는 긴 판독물(6,265 bp)의 예를 보여준다.
도 48은 본 발명의 실시형태에 따라 9개의 DNA 분자가 Pacific Biosciences SMRT 시퀀싱에 의해 시퀀싱되고 각인된 영역과 중첩된다는 것을 보여주는 표이다.
도 49는 본 발명의 실시형태에 따른 게놈 각인의 예를 보여준다.
도 50은 본 발명의 실시형태에 따른 각인된 영역에서의 메틸화 패턴의 결정에 대한 예를 보여준다.
도 51은 본 발명의 실시형태에 따른 새로운 접근법과 종래의 바이설파이트 시퀀싱 사이에 의해 추론된 메틸화 수준의 비교를 보여준다.
도 52는 본 발명의 실시형태에 따른 혈장 DNA의 메틸화의 검출의 수행을 보여준다. (A) 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준의 범위에 대한 메틸화의 예측된 확률 사이의 관계. (B) 10-Mb 해상에서의 본 개시내용에 존재하는 실시형태에 따른 Pacific Biosciences(PacBio) 시퀀싱에 의해 결정된 메틸화 수준(y축)과 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준(x축) 사이의 상관관계.
53은 본 발명의 실시형태에 따른 Pacific Biosciences SMRT 시퀀싱과 BS-seq 사이의 Y 염색체의 게놈 제시(GR: genomic presentation)의 상관관계를 보여준다.
도 54는 본 발명의 실시형태에 따른 일련의 CpG 부위를 각각 보유하는 CpG 블록을 사용한 메틸화의 CpG 블록 기반 검출의 예를 보여준다. 5mC: 메틸화; C: 비메틸화.
도 55는 본 발명의 실시형태에 따른 CpG 블록 기반 접근법을 이용한 인간 DNA 분자에 대한 메틸화 호출의 훈련 및 시험을 보여준다. (A) 훈련 데이터세트에서의 수행. (B) 독립 시험 데이터세트에서의 수행.
도 56a 도 56b는 본 발명의 실시형태에 따른 종양 조직에서의 카피수 변화를 보여준다.
도 57a 도 57b는 본 발명의 실시형태에 따른 종양 조직에서의 카피수 변화를 보여준다.
도 58은 본 발명의 실시형태에 따른 추론된 메틸화 수준을 사용한 임신한 여성의 혈장으로부터의 혈장 DNA 조직 맵핑의 도식적 예시를 보여준다.
도 59는 본 발명의 실시형태에 따른 Y 염색체 판독물에 의해 추론된 모계 혈장 DNA 및 추론된 태아 DNA 분획에 대한 태반 기여 사이의 상관관계를 보여준다.
도 60은 본 발명의 실시형태에 따른 상이한 인간 조직 DNA 샘플로부터의 시퀀싱 데이터를 요약하는 표를 보여준다.
도 61은 본 발명의 실시형태에 따른 메틸화 패턴을 분석하는 다양한 방식의 예시를 보여준다.
도 62a도 62b는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 정량화된 전장 게놈 수준에서의 메틸화 밀도의 비교를 보여준다.
도 63a, 도 63b도 63c는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 정량화된 전체 메틸화 수준의 상이한 상관관계를 보여준다.
도 64a도 64b는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 갖는 건강한 대조군 대상체로부터의 간세포 암종(HCC) 세포주 및 버피 코트 샘플에 대한 1-Mnt 해상에서의 메틸화 패턴을 보여준다.
도 65a도 65b는 건강한 대조군 대상체로부터의 HCC 세포주(HepG2) 및 버피 코트 샘플에 대한 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 1-Mnt 해상에서의 메틸화 수준의 산란도를 보여준다.
도 66a도 66b는 건강한 대조군 대상체로부터의 HCC 세포주(HepG2) 및 버피 코트 샘플에 대한 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 100-knt 해상에서의 메틸화 수준의 산란도를 보여준다.
도 67a도 67b는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 갖는 HCC 종양 조직 및 인접한 정상 조직에 대한 1-Mnt 해상에서의 메틸화 패턴을 보여준다.
도 68a도 68b는 HCC 종양 조직 및 인접한 정상 조직에 대한 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 1-Mnt 해상에서의 메틸화 수준의 산란도를 보여준다.
도 69a도 69b는 HCC 종양 조직 및 인접한 정상 조직에 대한 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 100-knt 해상에서의 메틸화 수준의 산란도를 보여준다.
도 70a도 70b는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 갖는 HCC 종양 조직 및 인접한 정상 조직에 대한 1-Mnt 해상에서의 메틸화 패턴을 보여준다.
도 71a도 71b는 HCC 종양 조직 및 인접한 정상 조직에 대한 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 1-Mnt 해상에서의 메틸화 수준의 산란도를 보여준다.
도 72a도 72b는 HCC 종양 조직 및 인접한 정상 조직에 대한 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 100-knt 해상에서의 메틸화 수준의 산란도를 보여준다.
도 73은 본 발명의 실시형태에 따른 종양 억제자 유전자 CDKN2A 근처의 메틸화의 비정상 패턴의 예를 보여준다.
도 74a 도 74b는 단일 분자 실시간 시퀀싱에 의해 결정된 차등적 메틸화 영역을 보여준다.
도 75는 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱을 사용한 HCC 조직과 인접한 비종양 조직 사이의 B형 간염 바이러스 DNA의 메틸화 패턴을 보여준다.
도 76a는 본 발명의 실시형태에 따른 바이설파이트 시퀀싱을 사용하여 간경변증을 갖지만 HCC가 없는 간경변증을 갖는 환자로부터의 간 조직에서의 B형 간염 바이러스 DNA의 메틸화 수준을 보여준다.
도 76b는 본 발명의 실시형태에 따른 바이설파이트 시퀀싱을 사용하여 HCC 조직에서의 B형 간염 바이러스 DNA의 메틸화 수준을 보여준다.
도 77은 본 발명의 실시형태에 따른 메틸화 일배체형 분석을 예시한다.
도 78은 본 발명의 실시형태에 따른 공통 서열로부터 결정된 시퀀싱된 분자의 크기 분포를 보여준다.
도 79a, 도 79b, 도 79c 도 79d는 본 발명의 실시형태에 따른 각인된 영역에서의 대립유전자 메틸화 패턴의 예를 보여준다.
도 80a, 도 80b, 도 80c 도 80d는 본 발명의 실시형태에 따른 비각인된 영역에서의 대립유전자 메틸화 패턴의 예를 보여준다.
도 81은 본 발명의 실시형태에 따른 대립유전자 특이적 단편의 메틸화 수준의 표를 보여준다.
도 82는 본 발명의 실시형태에 따른 메틸화 프로필을 사용한 임신에서 혈장 DNA의 태반 기원의 결정을 위한 예를 보여준다.
도 83은 본 발명의 실시형태에 따른 태아 특이적 DNA 메틸화 분석을 예시한다.
도 84a, 도 84b도 84c는 본 발명의 실시형태에 따른 SMRT-seq에 대한 상이한 시약 키트에 걸친 상이한 측정 윈도우 크기의 수행을 보여준다.
도 85a, 도 85b도 85c는 본 발명의 실시형태에 따른 SMRT-seq에 대한 상이한 시약 키트에 걸친 상이한 측정 윈도우 크기의 수행을 보여준다.
도 86a, 도 86b도 86c는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 SMRT-seq(Sequel II Sequencing Kit 2.0)에 의해 정량화된 전체 메틸화 수준의 상관관계를 보여준다.
도 87a도 87b는 본 발명의 실시형태에 따른 다양한 종양 조직과 짝을 이룬 인접한 비종양 조직 사이의 전체 메틸화 수준의 비교를 보여준다.
도 88은 본 발명의 실시형태에 따른 원형 공통 서열(CCS)로부터 결정된 서열 콘텍스트를 사용한 메틸화 상태의 결정을 보여준다.
도 89는 본 발명의 실시형태에 따른 CCS로부터 결정된 서열 콘텍스트를 사용한 메틸화된 CpG 부위의 검출을 위한 ROC 곡선을 보여준다.
도 90은 본 발명의 실시형태에 따른 CCS 정보 없이 및 기준 게놈에 대한 사전 정렬 없이 메틸화된 CpG 부위의 검출을 위한 ROC 곡선을 보여준다.
도 91은 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 대한 분자를 제조하는 예를 보여준다.
도 92는 본 발명의 실시형태에 따른 CRISPR/Cas9 시스템의 예시를 보여준다.
도 93은 본 발명의 실시형태에 따른 관심 있는 말단 차단된 분자에 이르는 2개의 절단을 도입하기 위한 Cas9 복합체의 예를 보여준다.
도 94는 바이설파이트 시퀀싱 및 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 Alu 영역의 메틸화 분포를 보여준다.
도 95는 본 발명의 실시형태에 따른 단일 분자 실시간 시퀀싱으로부터의 결과를 사용하여 모델에 의해 결정된 Alu 영역의 메틸화 분포를 보여준다.
도 96은 본 발명의 실시형태에 따른 조직 및 조직에서의 Alu 영역의 메틸화 수준을 보여준다.
도 97은 본 발명의 실시형태에 따른 Alu 반복부와 관련된 메틸화 신호를 사용한 상이한 암 유형에 대한 클러스터링 분석을 보여준다.
도 98a도 98b는 본 발명의 실시형태에 따른 전장 게놈 증폭 및 M.SsssI 처리에 관여된 시험 데이터세트에서의 전체 메틸화 수준 정량화에 대한 판독물 깊이의 효과를 보여준다.
도 99는 상이한 하위판독물 깊이 컷오프의 사용에 의한 본 발명의 실시형태에 따른 SMRT-seq(Sequel II Sequencing Kit 2.0) 및 BS-seq에 의해 결정된 전체 메틸화 수준 사이의 비교를 보여준다.
도 100은 본 발명의 실시형태에 따른 SMRT-seq(Sequel II Sequencing Kit 2.0) 및 BS-seq에 의해 결정된 2의 측정 사이의 메틸화 수준의 상관관계에 대한 하위판독물 깊이의 효과를 보여주는 표이다.
도 101은 본 발명의 실시형태에 따른 Sequel II Sequencing Kit 2.0에 의해 생성된 데이터에서의 단편 크기와 관련하여 하위판독물 깊이 분포를 보여준다.
도 102는 본 발명의 실시형태에 따른 핵산 분자에서의 뉴클레오타이드의 변형을 검출하는 방법을 보여준다.
도 103은 본 발명의 실시형태에 따른 핵산 분자에서의 뉴클레오타이드의 변형을 검출하는 방법을 보여준다.
도 104는 본 발명의 실시형태에 따른 상대 일배체형 기반 메틸화 불균형을 예시한다.
도 105a도 105b는 본 발명의 실시형태에 따른 사례 TBR3033에 대해 인접한 비종양 조직 DNA와 비교된 종양 DNA에서의 Hap I과 Hap II 사이의 차등적 메틸화 수준을 보여주는 일배체형 블록의 표이다.
도 106은 본 발명의 실시형태에 따른 사례 TBR3032에 대해 인접한 정상 조직 DNA와 비교된 종양 DNA에서의 Hap I과 Hap II 사이의 차등적 메틸화 수준을 보여주는 일배체형 블록의 표이다.
도 107a는 본 발명의 실시형태에 따른 Sequel II Sequencing Kit 2.0에 의해 생성된 데이터에 기초하여 종양 조직과 인접한 비종양 조직 사이의 2개의 일배체형 사이의 메틸화 불균형을 보여주는 일배체형 블록의 수를 요약한 표이다.
도 107b는 본 발명의 실시형태에 따른 Sequel II Sequencing Kit 2.0에 의해 생성된 데이터에 기초하여 상이한 종양 단계에 대한 종양 조직에서의 2개의 일배체형 사이의 메틸화 불균형을 보여주는 일배체형 블록의 수를 요약한 표이다.
도 108은 본 발명의 실시형태에 따른 상대 일배체형 기반 메틸화 불균형을 예시한다.
도 109는 본 발명의 실시형태에 따른 제1 일배체형 및 제2 일배체형을 갖는 유기체에서의 장애의 분류 방법을 보여준다.
도 110은 본 발명의 실시형태에 따른 인간 부분이 메틸화되고 마우스 부분이 비메틸화된 인간-마우스 하이브리드 단편의 생성을 예시한다.
도 111은 본 발명의 실시형태에 따른 인간 부분이 비메틸화되고 마우스 부분이 메틸화된 인간-마우스 하이브리드 단편의 생성을 예시한다.
도 112는 본 발명의 실시형태에 따른 결찰 후 DNA 혼합물(샘플 MIX01)에서의 DNA 분자의 길이 분포를 보여준다.
도 113은 본 발명의 실시형태에 따른 제1 DNA(A) 및 제2 DNA(B)가 함께 연결된 접합 영역을 예시한다.
도 114는 본 발명의 실시형태에 따른 DNA 혼합물에 대한 메틸화 분석을 예시한다.
도 115는 본 발명의 실시형태에 따른 샘플 MIX01에서의 CpG 부위에 대해 메틸화될 확률의 상자그림을 보여준다.
도 116은 본 발명의 실시형태에 따른 샘플 MIX02의 교차 결찰 후 DNA 혼합물에서의 DNA 분자의 길이 분포를 보여준다.
도 117은 본 발명의 실시형태에 따른 샘플 MIX02에서의 CpG 부위에 대해 메틸화될 확률의 상자그림을 보여준다.
도 118은 본 발명의 실시형태에 따른 MIX01에 대해 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화를 비교하는 표이다.
도 119는 본 발명의 실시형태에 따른 MIX02에 대해 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화를 비교하는 표이다.
도 120a도 120b는 본 발명의 실시형태에 따른 MIX01 및 MIX02에 대한 인간-단독 및 마우스-단독 DNA에 대한 5-Mb 빈에서의 메틸화 수준을 보여준다.
도 121a도 121b는 본 발명의 실시형태에 따른 MIX01 및 MIX02에 대한 인간-마우스 하이브리드 DNA 단편의 인간 부분 및 마우스 부분에 대한 5-Mb 빈에서의 메틸화 수준을 보여준다.
도 122a도 122b는 본 발명의 실시형태에 따른 단일 인간-마우스 하이브리드 분자에서의 메틸화 상태를 보여주는 대표적인 그래프이다.
도 123은 본 발명의 실시형태에 따른 생물학적 샘플에서의 키메라 분자의 검출 방법을 보여준다.
도 124는 본 발명의 실시형태에 따른 측정 시스템을 예시한다.
125는 본 발명의 실시형태에 따른 시스템 및 방법으로 사용 가능한 예시적인 컴퓨터 시스템의 블록 다이어그램을 보여준다.
도 126은 본 발명의 실시형태에 따른 DNA 말단 보수 및 A-테일링의 사용에 의한 MspI 기반 표적화된 단일 분자 실시간 시퀀싱을 보여준다.
도 127a도 127b는 본 발명의 실시형태에 따른 MspI 소화된 단편의 크기 분포를 보여준다.
도 128은 본 발명의 실시형태에 따른 소정의 선택된 크기 범위에 대한 DNA 분자의 수를 갖는 표를 보여준다.
도 129는 본 발명의 실시형태에 따른 제한 효소 소화 후 DNA 단편의 크기에 대한 CpG 섬 내의 CpG 부위의 백분율 커버리지의 그래프이다.
도 130은 본 발명의 실시형태에 따른 DNA 말단 보수 및 A-테일링의 사용 없이 MspI 기반 표적화된 단일 분자 실시간 시퀀싱을 보여준다.
도 131은 본 발명의 실시형태에 따른 어댑터 자가 결찰의 확률이 감소된 MspI 기반 표적화된 단일 분자 실시간 시퀀싱을 보여준다.
도 132는 본 발명의 실시형태에 따른 MspI 기반 표적화된 단일 분자 실시간 시퀀싱에 의해 결정된 태반과 버피 DNA 샘플 사이의 전체 메틸화 수준의 그래프이다.
도 133은 본 발명의 실시형태에 따른 MspI 기반 표적화된 단일 분자 실시간 시퀀싱에 의해 결정된 DNA 메틸화 프로필을 사용한 태반 샘플 및 버피 코트 샘플의 클러스터링 분석을 보여준다.
용어
"조직"은 기능 단위로서 함께 그룹화되는 세포 그룹에 상응한다. 1개 초과의 유형의 세포가 단일 조직에서 발견될 수 있다. 상이한 유형의 조직은 상이한 유형의 세포(예를 들어, 간세포, 폐포 세포 또는 혈액 세포)로 구성될 수 있을 뿐만 아니라, 상이한 유기체(엄마 대 태아; 이식을 받은 대상체에서의 조직; 미생물 또는 바이러스에 의해 감염된 유기체의 조직)로부터의 조직 또는 종양 세포에 대한 건강한 세포에 상응할 수 있다. "기준 조직"은 조직 특이적 메틸화 수준을 결정하는 데 사용되는 조직에 상응할 수 있다. 상이한 개체로부터의 동일한 조직 유형의 다수의 샘플은 그 조직 유형의 조직 특이적 메틸화 수준을 결정하는 데 사용될 수 있다.
"생물학적 샘플"은 인간 대상체로부터 취해진 임의의 샘플을 지칭한다. 생물학적 샘플은 조직 생검, 미세침 흡인액 또는 혈액 세포일 수 있다. 샘플은 또한 예를 들어 임신한 여성으로부터의 혈장 또는 혈청 또는 뇨일 수 있다. 대변 샘플이 또한 사용될 수 있다. 다양한 실시형태에서, 무세포 DNA에 대해 농후화된 임신한 여성으로부터의 생물학적 샘플(예를 들어, 원심분리 프로토콜을 통해 얻은 혈장 샘플) 내의 대부분의 DNA는 무세포일 수 있고, 예를 들어 50%, 60%, 70%, 80%, 90%, 95% 또는 99% 초과의 DNA가 무세포일 수 있다. 원심분리 프로토콜은 예를 들어 3,000 g x 10분에서 유체 부분의 수득 및 잔여 세포를 제거하기 위해 예를 들어 30,000 g에서 또 다른 10분 동안 재원심분리를 포함할 수 있다. 소정의 실시형태에서, 3,000 g 원심분리 단계 후에, (예를 들어, 직경 5 μm 이하의 기공 크기의 필터를 사용하여) 유체 부분의 필터링이 후행할 수 있다.
"서열 판독물"은 핵산 분자 중 임의의 일부 또는 전부로부터 시퀀싱된 뉴클레오타이드 스트링(string)을 지칭한다. 예를 들어, 서열 판독물값은 생물학적 샘플에 존재하는 핵산 단편으로부터 시퀀싱된 뉴클레오타이드(예를 들어, 20개 내지 150개)의 짧은 스트링, 핵산 단편 중 하나의 말단 또는 두 말단 모두에서 뉴클레오타이드의 짧은 스트링, 또는 전체 핵산 단편의 시퀀싱일 수 있다. 서열 판독물은 여러 가지 방식으로, 예를 들어 시퀀싱 기술을 사용하거나 예를 들어 혼성화 어레이 또는 포착 프로브에서 프로브를 사용하여, 또는 증폭 기술, 예컨대 중합효소 연쇄 반응(PCR) 또는 단일 프라이머를 사용하는 선형 증폭 또는 등온 증폭에서 수득될 수 있다.
"하위판독물"은 DNA 중합효소에 의해 하나의 인접한 가닥에서 카피된 원형화된 DNA 주형의 하나의 가닥에서의 모든 염기로부터 생성된 서열이다. 예를 들어, 하위판독물은 원형화된 DNA 주형 DNA의 하나의 가닥에 상응할 수 있다. 이러한 예에서, 원형화 후, 하나의 이중 가닥 DNA 분자는 각각의 시퀀싱 통과에 대해 하나로 2개의 하위판독물을 가질 것이다. 일부 실시형태에서, 생성된 서열은 예를 들어 시퀀싱 오류의 존재 때문에 하나의 가닥에서의 모든 염기의 하위집단을 포함할 수 있다.
"부위"("게놈 부위"로도 지칭됨)는 단일 부위에 상응하며, 이는 단일 염기 위치 또는 상관된 염기 위치의 그룹, 예를 들어 상관된 염기 위치의 CpG 부위 또는 더 큰 그룹일 수 있다. "좌위"는 다수의 부위들을 포함하는 영역에 상응할 수 있다. 좌위는 단지 하나의 부위를 포함할 수 있으며, 이는 상기 좌위를 해당 콘텍스트에서 부위에 동등하게 만들 것이다.
"메틸화 상태"는 주어진 부위에서의 메틸화의 상태를 지칭한다. 예를 들어, 부위는 메틸화, 비메틸화, 또는 일부 경우에 비결정될 수 있다.
각각의 게놈 부위(예를 들어, CpG 부위)에 대한 "메틸화 지수"는 (예를 들어, 시퀀스 판독물 또는 프로브로부터 결정된 바와 같은) DNA 단편의 비율을 지칭할 수 있고, 이는 그 부위를 커버하는 판독물의 총 수에 걸쳐 그 부위에서의 메틸화를 보여준다. "판독물"은 DNA 단편으로부터 얻은 정보(예를 들어, 부위에서의 메틸화 상태)에 상응할 수 있다. 판독물은 하나 이상의 부위에서 특정 메틸화 상태의 DNA 단편에 우선적으로 혼성화하는 시약(예를 들어, 프라이머 또는 프로브)을 사용하여 수득될 수 있다. 전형적으로, 이러한 시약은 DNA 분자의 메틸화 상태에 따라 이들 분자를 차별적으로 변형시키거나 차별적으로 인지하는 과정, 예를 들어 바이설파이트 전환, 또는 메틸화 민감성 제한 효소, 또는 메틸화 결합 단백질, 또는 항-메틸시토신 항체, 또는 메틸시토신 및 하이드록시메틸시토신을 인식하는 단일 분자 시퀀싱 기법(예를 들어, 단일 분자 실시간 시퀀싱 및 나노기공 시퀀싱(예를 들어, Oxford Nanopore Technologies로부터의))으로 처리한 후 적용된다.
영역의 "메틸화 밀도"는 영역 내의 부위를 커버하는 판독물의 총 수로 나눈 메틸화를 나타내는 영역 내의 부위에서의 판독물의 수를 지칭할 수 있다. 상기 부위는 특이적인 특징을 가질 수 있고, 예를 들어 CpG 부위이다. 따라서, 영역의 "CpG 메틸화 밀도"는 영역 내의 CpG 부위(예를 들어, 특정 CpG 부위, CpG 섬 내의 CpG 부위, 또는 더 큰 영역)를 커버하는 판독물의 총 수로 나눈 CpG 메틸화를 나타내는 판독물의 수를 지칭할 수 있다. 예를 들어, 인간 게놈에서 각각의 100 kb 빈에 대한 메틸화 밀도는, 100 kb 영역으로 맵핑된 시퀀스 판독물에 의해 커버된 모든 CpG 부위의 비율로서 CpG 부위에서 (메틸화된 시토신에 상응하는) 바이설파이트 처리 후 전환되지 않은 시토신의 총 수로부터 결정될 수 있다. 이 분석은 다른 빈 크기, 예를 들어 500 bp, 5 kb, 10 kb, 50-kb 또는 1-Mb 등에 대해 또한 수행될 수 있다. 영역은 전체 게놈 또는 염색체 또는 염색체의 일부(예를 들어, 염색체 아암(arm))일 수 있다. CpG 부위의 메틸화 지수는, 영역이 그 CpG 부위만 포함할 때, 영역에 대한 메틸화 밀도와 동일하다. "메틸화된 시토신의 비율"은, 영역에서 분석된 시토신 잔기, 즉, CpG 콘텍스트의 외부의 시토신을 포함하여 이들의 총 수에 걸쳐, 메틸화된(예를 들어, 바이설파이트 전환 후 전환되지 않는) 것으로 보이는 시토신 부위, "C"의 수를 지칭할 수 있다. 메틸화 지수, 메틸화 밀도, 하나 이상의 부위에서의 메틸화된 분자의 수, 및 하나 이상의 부위에서의 메틸화된 분자(예를 들어, 시토신)의 비율은 "메틸화 수준"의 예이다. 바이설파이트 전환 외에도, 비제한적으로 메틸화 상태에 민감한 효소(예를 들어, 메틸화 민감성 제한 효소), 메틸화 결합 단백질, 메틸화 상태에 민감한 플랫폼을 사용하는 단일 분자 시퀀싱(예를 들어, 나노포어 시퀀싱(문헌[Schreiber et al. Proc Natl Acad Sci 2013; 110: 18910-18915]) 및 단일 분자 실시간 시퀀싱(예를 들어, Pacific Biosciences로부터의 것)(문헌[Flusberg et al. Nat Methods 2010; 7: 461-465]))을 포함하여 당업자에게 알려진 다른 과정이 DNA 분자의 메틸화 상태에 대한 정보를 얻는 데 사용될 수 있다.
"메틸롬(methylome)"은 게놈에서 복수의 부위 또는 좌위에서의 DNA 메틸화의 양의 측정치를 제공한다. 메틸롬은 모든 게놈, 게놈의 실질적인 부분, 또는 게놈의 비교적 작은 부위(들)에 상응할 수 있다.
"임신 혈장 메틸롬"은 임신한 동물(예를 들어, 인간)의 혈장 또는 혈청으로부터 결정된 메틸롬이다. 혈장 및 혈청이 무세포 DNA를 포함하기 때문에 임신한 혈장 메틸롬은 무세포 메틸롬의 예이다. 임신한 혈장 메틸롬은 또한 신체 내의 상이한 장기 또는 조직 또는 세포로부터의 DNA의 혼합물이므로 혼합된 메틸롬의 예이다. 일 실시형태에서, 이러한 세포는 비제한적인 예로서 적혈구성의 세포(즉, 적혈구) 계통, 골수성 계통(예를 들어, 호중구 및 이의 전구체) 및 거핵구 계통을 포함하는 조혈 세포이다. 임신에서, 혈장 메틸롬은 태아 및 엄마로부터의 메틸롬 정보를 함유할 수 있다. "세포 메틸롬"은 환자의 세포(예를 들어, 혈액 세포)로부터 결정된 메틸롬에 상응한다. 혈액 세포의 메틸롬은 혈액 세포 메틸롬(또는 혈액 메틸롬)이라 불린다.
"메틸화 프로필"은 다수의 부위 또는 영역에 대한 DNA 또는 RNA 메틸화와 관련된 정보를 포함한다. DNA 메틸화와 관련된 정보는 CpG 부위의 메틸화 지수, 영역에서의 CpG 부위의 메틸화 밀도(생략하여 MD), 인접 영역에 걸친 CpG 부위의 분포, 1개 초과의 CpG 부위를 함유하는 영역 내의 각각의 개별 CpG 부위에 대한 메틸화의 패턴 또는 수준 및 비-CpG 메틸화를 포함할 수 있지만, 이들로 제한되지는 않는다. 일 실시형태에서, 메틸화 프로필은 하나 초과의 유형의 염기(예를 들어, 시토신 또는 아데닌)의 메틸화 또는 비메틸화의 패턴을 포함할 수 있다. 게놈의 실질적인 부분의 메틸화 프로필은 메틸롬과 동등한 것으로 여겨질 수 있다. 포유류 게놈에서 "DNA 메틸화"는 전형적으로, CpG 디뉴클레오타이드 중에서 시토신 잔기의 5' 탄소에 대한 메틸기의 첨가(즉, 5-메틸시토신)를 지칭한다. DNA 메틸화는 다른 콘텍스트, 예를 들어 CHG 및 CHH의 시토신에서 발생할 수 있으며, 여기서 H는 아데닌, 시토신 또는 티민이다. 시토신 메틸화는 또한 5-하이드록시메틸시토신의 형태일 수 있다. N6-메틸아데닌과 같은 비시토신 메틸화가 또한 보고되었다.
"메틸화 패턴"은 메틸화된 염기 및 비메틸화된 염기의 순서를 지칭한다. 예를 들어, 메틸화 패턴은 단일 DNA 가닥, 단일 이중 가닥 DNA 분자 또는 다른 유형의 핵산 분자에 기초한 메틸화된 염기의 순서일 수 있다. 일례로서, 3개의 연속적인 CpG 부위는 임의의 하기 메틸화 패턴을 가질 수 있다: UUU, MMM, UMM, UMU, UUM, MUM, MUU, 또는 MMU, 여기서 "U"는 비메틸화된 부위를 나타내고, "M"은 메틸화된 부위를 나타낸다. 이 개념을 비제한적인 예로서 메틸화를 포함하는 염기 변형으로 확장할 때, 변형된 염기 및 비변형된 염기의 순서를 지칭하는 용어 "변형 패턴"을 사용할 것이다. 예를 들어, 변형 패턴은 단일 DNA 가닥, 단일 이중 가닥 DNA 분자 또는 다른 유형의 핵산 분자에 기초한 변형된 염기의 순서일 수 있다. 일례로서, 3개의 연속적인 잠재적으로 변형 가능한 부위는 임의의 하기 변형 패턴을 가질 수 있다: UUU, MMM, UMM, UMU, UUM, MUM, MUU, 또는 MMU, 여기서 "U"는 비변형된 부위를 나타내고, "M"은 변형된 부위를 나타낸다. 메틸화에 기초하지 않은 염기 변형의 하나의 예는 8-옥소-구아닌에서와 같은 산화 변경이다.
용어 "과메틸화된" 및 "저메틸화된"는 단일 분자 메틸화 수준에 의해 측정된 바와 같은 단일 DNA 분자의 메틸화 밀도, 예를 들어 분자 내의 메틸화 가능한 염기 또는 뉴클레오타이드의 총 수로 나눈 그 분자 내의 메틸화된 염기 또는 뉴클레오타이드의 수를 지칭할 수 있다. 과메틸화된 분자는 단일 분자 메틸화 수준이 분야마다 한정될 수 있는 한계치이거나 이보다 높은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95%일 수 있다. 저메틸화된 분자는 단일 분자 메틸화 수준이 분야마다 한정될 수 있고, 분야마다 변할 수 있는 한계치이거나 이보다 낮은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95%일 수 있다.
용어 "과메틸화된" 및 "저메틸화된"은 이들 분자의 다중 분자 메틸화 수준에 의해 측정된 바와 같은 DNA 분자의 집단의 메틸화 수준을 또한 지칭할 수 있다. 분자의 과메틸화된 집단은 다중 분자 메틸화 수준이 분야마다 한정될 수 있고, 분야마다 변할 수 있는 한계치이거나 이보다 높은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95%일 수 있다. 분자의 저메틸화된 집단은 다중 분자 메틸화 수준이 분야마다 한정될 수 있는 한계치이거나 이보다 낮은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 및 95%일 수 있다. 일 실시형태에서, 분자의 집단은 하나 이상의 선택된 게놈 영역에 정렬될 수 있다. 일 실시형태에서, 선택된 게놈 영역(들)은 암, 유전 장애, 각인 장애, 대사 장애 또는 신경학적 장애와 같은 질환과 관련될 수 있다. 선택된 게놈 영역(들)은 50개의 뉴클레오타이드(nt), 100 nt, 200 nt, 300 nt, 500 nt, 1000 nt, 2 knt, 5 knt, 10 knt, 20 knt, 30 knt, 40 knt, 50 knt, 60 knt, 70 knt, 80 knt, 90 knt, 100 knt, 200 knt, 300 knt, 400 knt, 500 knt, 또는 1 Mnt의 길이를 가질 수 있다
용어 "시퀀싱 깊이"는 좌위가 그 좌위에 정렬된 서열 판독물로 포함되는 횟수를 지칭한다. 좌위는 뉴클레오타이드만큼 작거나, 염색체 아암만큼 크거나, 전체 게놈만큼 클 수 있다. 시퀀싱 깊이는 50x, 100x 등으로서 표현될 수 있고, 여기서 "x"는 좌위가 서열 판독물로 포함되는 횟수를 지칭한다. 시퀀싱 깊이는 다수의 좌위 또는 전체 게놈에 또한 적용될 수 있고, 이 경우 x는 좌위 또는 반수체 게놈, 또는 전체 게놈이 각각 시퀀싱되는 평균 횟수를 지칭할 수 있다. 울트라-딥(ultra-deep) 시퀀싱은 시퀀싱 깊이가 적어도 100x인 것을 지칭할 수 있다.
본원에 사용된 바와 같이 용어 "분류"는 샘플의 특정한 특성과 연관된 임의의 수(들) 또는 다른 특징(들)을 지칭한다. 예를 들어, "+" 부호(또는 단어 "양성")는, 샘플이 결실 또는 증폭을 갖고 있는 것으로 분류됨을 의미할 수 있을 것이다. 분류는 2진(binary)(예를 들어, 양성 또는 음성)일 수 있거나, 더 많은 수준의 분류(예를 들어, 1 내지 10, 또는 0 내지 1의 규모)를 가질 수 있다.
용어 "컷오프" 및 "한계치"는 조작 시 사용되는 미리 결정된 수를 지칭한다. 예를 들어, 컷오프 크기는 이것을 초과하는 크기의 단편이 배제되는 크기를 지칭할 수 있다. 한계치 값은 특정 분류가 초과 또는 아래로 적용되는 값일 수 있다. 이들 용어 중 어느 한 용어는 이들 콘텍스트 중 어느 한 콘텍스트에서 사용될 수 있다. 컷오프 또는 한계치는 "기준 값"일 수 있거나, 2개 이상의 분류 사이에 특정 분류를 나타내거나 구별하는 기준 값으로부터 유래될 수 있다. 이러한 기준 값은, 당업자에 의해 이해될 바와 같이, 다양한 방식으로 결정될 수 있다. 예를 들어, 메트릭은 상이한 공지된 분류를 갖는 대상체의 2개의 상이한 코호트에 대해 결정될 수 있고, 기준 값은 하나의 분류의 대표(예를 들어, 평균)로서 또는 메트릭의 2개의 클러스터(예를 들어, 원하는 민감도 및 특이성을 얻기 위해 선택된) 사이에 있는 값으로서 선택될 수 있다. 다른 예로서, 기준 값은 샘플의 통계학적 분석 또는 모의에 기초하여 결정될 수 있다.
용어 "암의 수준"은, 암이 존재하는지의 여부(즉, 존재 또는 부재), 암의 병기, 종양의 크기, 전이가 존재하는지의 여부, 신체의 총 종양 부담, 치료에 대한 암의 반응, 및/또는 암의 중증도의 다른 측정치(예를 들어, 암의 재발)를 지칭할 수 있다. 암의 수준은 숫자 또는 다른 지표, 예컨대 부호, 알파벳 문자 및 색상일 수 있다. 수준은 0일 수 있다. 암의 수준은 전악성 또는 전암성 질환(상태)을 또한 포함할 수 있다. 암의 수준은 다양한 방식으로 사용될 수 있다. 예를 들어, 스크리닝은 암을 갖는 것으로 이전에는 알려지지 않은 개체에 암이 존재하는지 확인할 수 있다. 평가는 암을 진단받은 개체를 조사하여, 시간 경과에 따른 암의 진전을 모니터링하거나, 치료법의 효능을 연구하거나, 예후를 결정할 수 있다. 일 실시형태에서, 예후는 환자가 암으로 사망할 가능성, 특정한 기간 또는 시간 후에 암이 진행되는 가능성, 또는 암이 전이될 가능성 또는 정도로서 표현될 수 있다. 검출은 '스크리닝'을 의미할 수 있거나, 암의 암시적인 특성(예를 들어, 증상 또는 다른 양성 시험)을 갖는 개체가 암을 갖는지 확인하는 것을 의미할 수 있다.
"병리학의 수준"(또는 장애의 수준)은 유기체와 연관된 병리학의 양, 정도 또는 중증도를 지칭할 수 있고, 여기서 수준은 암에 대해 상기 기재된 바와 같을 수 있다. 병태의 다른 예는 이식된 장기의 거부이다. 다른 예시적인 병태는 유전자 각인 장애, 자가면역 공격(예를 들어, 신장을 손상시키는 홍반성 신염 또는 다발성 경화증), 염증성 질환(예를 들어, 간염), 섬유증 과정(예를 들어, 경변증), 지방 침윤(예를 들어, 지방 간 질환), 퇴행성 과정(예를 들어, 알츠하이머병), 및 허혈성 조직 손상(예를 들어, 심근 경색 또는 뇌졸중)을 포함할 수 있다. 대상체의 건강한 상태는 병태가 없음의 분류로 여겨질 수 있다.
"임신 연관된 장애"는 모계 및/또는 태아 조직에서의 유전자의 비정상 상대 발현 수준을 특징으로 하는 임의의 장애를 포함한다. 이들 장애는 자간전증, 자궁내 성장 제한, 침윤성 태반형성, 조기 분만, 신생아의 용혈성 질환, 태반 불충분, 태아 수종, 태아 기형, HELLP 증후군, 전신 홍반 루푸스, 및 엄마의 다른 면역학적 질환을 포함하지만, 이들로 제한되지는 않는다.
약어 "bp"는 염기 쌍을 지칭한다. 일부 경우에, DNA 단편이 단일 가닥일 수 있고 염기 쌍을 포함하지 않지만, "bp"는 DNA 단편의 길이를 나타내도록 사용될 수 있다. 단일 가닥 DNA의 콘텍스트에서, "bp"는 뉴클레오타이드에서의 길이를 제공하는 것으로 해석될 수 있다.
약어 "nt"는 뉴클레오타이드를 지칭한다. 일부 경우에, "nt"는 염기 단위에서의 단일 가닥 DNA의 길이를 나타내도록 사용될 수 있다. 또한, "nt"는 분석되는 좌위의 상류 또는 하류와 같은 상대 위치를 나타내도록 사용될 수 있다. 기술적 개념화, 데이터 제시, 가공 및 분석에 관한 일부 콘텍스트에서, "nt" 및 "bp"는 상호교환적으로 사용될 수 있다.
용어 "서열 콘텍스트"는 DNA의 스트레치에서 염기 조성(A, C, G 또는 T) 및 염기 순서를 지칭할 수 있다. DNA의 이러한 스트레치는 염기 변형 분석으로 처리되거나 이의 표적인 둘러싼 염기일 수 있다. 예를 들어, 서열 콘텍스트는 염기 변형 분석으로 처리된 염기의 염기 상류 및/또는 하류를 지칭할 수 있다.
용어 "동역학 특징"은 단일 분자 실시간 시퀀싱을 포함하는 시퀀싱으로부터 유래된 특징을 지칭할 수 있다. 이러한 특징은 염기 변형 분석에 사용될 수 있다. 예시적인 동역학 특징은 상류 및 하류 서열 콘텍스트, 가닥 정보, 펄스간 기간, 펄스 폭 및 펄스 강도를 포함한다. 단일 분자 실시간 시퀀싱에서, DNA 주형에서 중합효소의 활성의 효과를 연속적으로 모니터링한다. 그러므로, 이러한 시퀀싱으로부터 생성된 측정은 뉴클레오타이드 서열과 같은 동역학 특징으로 여겨질 수 있다.
용어 "기계 학습 모델"은 시험 데이터를 예측하기 위한 샘플 데이터(예를 들어, 훈련 데이터)의 사용에 기초한 모델을 포함할 수 있고, 이에 따라 감독된 학습을 포함할 수 있다. 기계 학습 모델은 대개 컴퓨터 또는 프로세서를 사용하여 개발된다. 기계 학습 모델은 통계 모델을 포함할 수 있다.
용어 "데이터 분석 프레임워크"는 입력으로 데이터를 취하고 이후 예측된 결과를 출력하는 알고리즘 및/또는 모델을 포함할 수 있다. "데이터 분석 프레임워크"의 예는 통계학적 모델, 수학적 모델, 기계 학습 모델, 다른 인공 지능 모델, 및 이들의 조합을 포함한다.
용어 "실시간 시퀀싱"은 시퀀싱에 관여된 반응의 진행 동안 데이터 수집 또는 모니터링을 수반하는 기법을 지칭할 수 있다. 예를 들어, 실시간 시퀀싱은 새로운 염기를 혼입하는 DNA 중합효소의 광학 모니터링 또는 필름화를 수반할 수 있다
용어 "" 또는 "대략"은 당업자에 의해 결정된 바와 같은 특정 값에 대한 허용 가능한 오차 범위 내를 의미할 수 있으며, 이는 부분적으로는 값이 어떻게 측정되거나 결정되는지, 즉 측정 시스템의 한계에 의존할 수 있다. 예를 들어, "약"은 당업의 관행에 따라 1 이내 또는 1 초과의 표준 편차를 의미할 수 있다. 대안적으로, "약"은 주어진 값의 20% 이하, 10% 이하, 5% 이하, 또는 1% 이하의 범위를 의미할 수 있다. 대안적으로, 특히 생물학적 시스템 또는 과정에 관하여, 용어 "약" 또는 "대략"은 값의 승수 이내, 5배 이내, 보다 바람직하게는 2배 이내를 의미할 수 있다. 특정 값이 본 출원 및 청구항에 기재되어 있는 경우, 다르게 언급되지 않는 한, 특정 값에 대한 허용 가능한 오차 범위 내를 의미하는 용어 "약"이 추정되어야 한다. 용어 "약"은 당업자에 의해 보편적으로 이해되는 바와 같은 의미를 가질 수 있다. 용어 "약"은 ±10%를 지칭할 수 있다. 용어 "약"은 ±5%를 지칭할 수 있다.
상세한 설명
염기 변형의 바이설파이트-비함유 결정의 달성은 메틸화된 염기를 포함하고, 상이한 조사 노력의 대상이지만, 어느 것도 상업적으로 실행 가능하다고 나타나지 않았다. 최근에, 5mC 및 5hmC를 검출하기 위한 바이설파이트-비함유 방법이 5mC 및 5hmC 염기 전환에 대한 온화한 조건을 이용하여 공개되었다(문헌[Y. Liu et al., 2019]). 이 방법은 10-11 전좌(TET) 산화, 피리딘 보란 환원 및 PCR을 포함하는 효소 반응 및 화학 반응의 다수의 단계를 수반한다. 전환 반응 및 PCR 바이어스의 각각의 단계에 대한 효율은 5mC 분석에서 궁극적인 정확성에 부정적으로 영향을 미칠 것이다. 예를 들어, 5mC 전환율은 대략 96%인 것으로 보고되었고, 위음성률은 대략 3%이다. 이러한 수행은 게놈에서의 메틸화의 소정의 미묘한 변화를 검출하는 능력을 잠재적으로 제한할 것이다. 다른 한편, 효소 전환은 게놈에 걸쳐 동등하게 잘 수행될 수 없을 것이다. 예를 들어, 5hmC의 전환율은 5mC의 것보다 8.2%보다 낮고, 비-CpG에 대한 전환율은 CpG 콘텍스트에 대한 것보다 11.4% 낮았다(문헌[Y. Liu et al., 2019]). 따라서, 이상적인 상황은 임의의 이전의 전환(화학 또는 효소, 또는 이들의 조합) 단계 없이 및 심지어 증폭 단계 없이 자연적 DNA 분자의 염기 변형을 측정하기 위한 접근법의 개발이다.
(예를 들어, Oxford Nanopore Technologies에 의해 개발된 시스템을 사용하여) 긴 판독물 나노기공 시퀀싱 접근법에 의해 생성된 전기 신호가 심화 학습 방법의 사용에 의해 메틸화 상태를 검출하게 하는 다수의 개념 증명 연구(문헌[Q. Liu et al., 2019]; 문헌[Ni et al., 2019])가 있다. Oxford Nanopore 이외에, 긴 판독물을 허용하는 다른 단일 분자 시퀀싱 접근법이 있다. 하나의 예는 단일 분자 실시간 시퀀싱이다. 단일 분자 실시간 시퀀싱의 하나의 예는 상업화된 Pacific Biosciences SMRT 시스템이다. 단일 분자 실시간 시퀀싱(예를 들어, Pacific Biosciences SMRT 시스템)의 원칙이 (예를 들어, Oxford Nanopore Technologies에 의한) 비광학 기반 나노기공 시스템의 것과 상이하므로, 이러한 비광학 기반 나노기공 시스템에 대해 개발된 염기 변형 검출에 대한 접근법이 단일 분자 실시간 시퀀싱에 사용될 수 없다. 예를 들어, 비광학 나노기공 시스템은 (예컨대 Pacific Biosciences SMRT 시스템에 의해 단일 분자 실시간 시퀀싱에 의해 사용된) 부동화된 DNA 중합효소 기반 DNA 합성에 의해 제조된 형광 신호의 패턴을 포착하도록 설계되지 않는다. 추가의 예로서, Oxford Nanopore 시퀀싱 플랫폼에서, 각각의 측정된 전기 사건은 k합체(예를 들어, 5합체)와 연관된다(문헌[Q. Liu et al., 2019]). 그러나, Pacific Biosciences SMRT 시퀀싱 플랫폼에서, 각각의 형광 사건은 단일 혼입 염기와 일반적으로 연관된다. 게다가, 단일 DNA 분자는 왓슨 가닥 및 클릭 가닥을 포함하는 Pacific Biosciences SMRT 시퀀싱에서 수회 시퀀싱될 것이다. 반대로, Oxford Nanopore 긴 판독물 시퀀싱 접근법에 대해, 서열 판독은 각각의 왓슨 가닥 및 클릭 가닥에 대해 1회 수행된다.
중합효소 동역학이 이. 콜라이의 서열에서 메틸화 상태에 의해 영향을 받을 것이라는 것이 보고되었다(Flusberg et al., 2010). 이전의 연구는, 6mA, 4mC, 5hmC 및 8-옥소-구아닌의 검출과 비교할 때, 단일 분자에서 특정 CpG의 메틸화 상태(5mC 대 C)를 추론하기 위한 단일 분자 실시간 시퀀싱의 중합효소 동역학을 사용하는 것이 훨씬 더 도전적이라는 것을 밝혀냈다. 이유는 메틸기가 작고 주홈을 향해 배향되고 염기 페어링에 수반되지 않아서, 5mC에 의해 생긴 동역학에서 매우 미묘한 중단을 야기한다는 것이다(문헌[Clark et al., 2013]). 그러므로, 단일 분자 수준에서 시토신의 메틸화 상태를 결정하기 위한 접근법의 결핍이 있다.
Suzuki 등은 이웃하는 CpG 부위의 메틸화 상태를 확인하는 데 있어서 신뢰도를 증가시키기 위해 이 부위에 대한 펄스간 기간(IPD) 비율을 조합하려고 시도하며 알고리즘(문헌[Suzuki et al., 2016])을 개발하였다. 그러나, 이 알고리즘은 오직 완전히 메틸화된 또는 완전히 비메틸화되는 게놈 영역을 예측하게 하고, 중간 메틸화 패턴을 결정하는 능력이 결여되었다.
단일 분자 실시간 시퀀싱에 관하여, 현재의 접근법은 독립적으로 1개 또는 2개의 매개변수를 오직 사용하여, 5-메틸시토신과 시토신 사이의 측정 차이 때문에 5mC를 검출하는 데 있어서 매우 제한된 정확성을 달성한다. 예를 들어, Flusberg 등은 IPD가 N6-메틸아데노신, 5-메틸시토신 및 5-하이드록시메틸시토신을 포함하는 염기 변형에서 변경되었다는 것을 입증하였다. 그러나, 시퀀싱 동역학의 펄스 폭(PW)은 상당한 효과를 갖는 것으로 발견되지 않았다. 그러므로, 이들이 염기 변형을 예측하기 위해 사용한 방법에서, 일례로서 N6-메틸아데노신의 검출을 사용하여, PW가 아니라 오직 IPD를 사용하였다.
동일한 그룹(문헌[Clark et al., 2012]; 문헌[Clark et al. 2013])에 의한 후속 간행물에서, PW가 아니라 IPD는 5-메틸시토신의 검출을 위해 알고리즘에 도입되었다. 문헌[Clark et al. 2012]에서, 5-메틸시토신의 검출율은 이것을 5-메틸시토신으로 전환함이 없이 오직 1.9% 내지 4.3%의 범위였다. 게다가, 문헌[Clark et al. 2013]에서, 저자들은 5-메틸시토신의 동역학 서명의 세부사항을 추가로 재확인하였다. 5-메틸시토신의 검출의 낮은 민감도를 극복하기 위해, Clark 등은 5-카복실시토신에 의해 생긴 IPD의 변경이 5-메틸시토신에 의한 것보다 훨씬 더 많았으므로 5-메틸시토신의 민감도를 개선하기 위해(문헌[Clark et al. 2013]) 10-11 전좌(Tet) 단백질을 사용하여 5-메틸시토신을 5-카복실메틸시토신으로 전환시키는 방법을 추가로 개발하였다.
Blow 등에 의해 보고된 최근의 보고서에서, Flusberg 등에 의해 이전에 보고된 IPD 비율 기반 방법은 유기체마다 130배 판독물 커버리지를 갖는 217개의 박테리아 및 13개의 고세균 종에서 염기 변형을 검출하도록 사용되었다(문헌[Blow et al., 2016]). 이들이 확인한 모든 염기 변형 중에서, 불과 5%만이 5-메틸시토신을 수반하였다. 이들은 5-메틸시토신의 이 낮은 검출율을 5-메틸시토신을 검출하기 위한 단일 분자 실시간 시퀀싱의 낮은 민감도의 결과로 보았다. 대부분의 박테리아에서, 서열 모티프의 세트는 게놈에서의 이들 모티프의 거의 모두에서 메틸화에 대한 DNA 메틸전환효소(MTase)(예를 들어, 이 콜라이에서 Dam에 의해 5'-GmATC-3' 또는 Dcm에 의해 5'-CmCWGG-3')에 의해 표적화되었고, 남은 이들 모티프 부위의 오직 적은 분획이 비메틸화되었다(문헌[Beaulaurier et al. 2019]). 게다가, Tet 단백질에 의해 처리와 함께 또는 처리 없이 5'-CCWGG-3' 모티프에서의 제2 C의 메틸화 상태를 분류하기 위한 IPD 기반 방법의 사용은 각각 95.2% 및 1.9%의 5-메틸시토신의 검출 비율을 생성시켰다(문헌[Clark et al. 2013]). 전체적으로 볼 때, (예를 들어, Tet 단백질을 사용한) 이전의 염기 전환 없이 IPD 방법은 대부분의 5-메틸시토신을 지나쳤다.
상기 언급된 연구(문헌[Clark et al., 2012]; 문헌[Clark et al., 2013]; 문헌[Blow et al., 2016])에서, IPD 기반 알고리즘은 후보 염기 변형이 위치한 서열 콘텍스트의 고려 없이 사용되었다. 다른 그룹은 염기 변형의 검출을 위해 뉴클레오타이드의 서열 콘텍스트를 고려하도록 시도하였다. 예를 들어, Feng 등은 각각의 서열 콘텍스트에서의 4-메틸시토신 및 6-메틸아데노신의 검출을 위해 IPD를 분석하기 위한 계층적 모델을 사용하였다(문헌[Feng et al. 2013]). 그러나, 이 방법에서, 이들은 오직 관심 있는 염기에서의 IPD 및 그 염기에 인접한 서열 콘텍스트를 고려하였지만, 관심 있는 염기에 인접한 모든 이웃하는 염기의 IPD 정보를 사용하지 않았다. 또한, PW는 알고리즘에서 고려되지 않았고, 이들은 5-메틸시토신의 검출에서 임의의 데이터를 제시하지 않았다.
다른 연구에서, Schadt 등은 관심 있는 염기가 5-메틸시토신인지를 결정하기 위해 관심 있는 염기 및 이웃하는 염기의 IPD 정보를 분석하기 위해 조건적 랜덤 필드라 불리는 통계 방법을 개발하였다(문헌[Schadt et al., 2012]). 이 작업에서, 이들은 또한 이들 염기를 식에 입력하여 이들 염기 사이의 IPD 상호작용을 고려하였다. 그러나, 이들은 이의 식에서 뉴클레오타이드 서열, 즉 A, T, G 또는 C를 입력하지 않았다. 이들이 M.Sau3AI 플라스미드의 메틸화 상태를 결정하기 위해 상기 방법을 적용할 때, ROC 곡선 하 면적은 플라스미드 서열의 800배 서열 커버리지에서도 0.5에 가까웠다. 게다가, 이 방법에서, 이들은 분석에서 PW를 고려하지 않았다.
Beckman 등에 의한 또 다른 연구에서, 이들은, 예를 들어 전장 게놈 증폭을 통해 얻은, 표적 박테리아 게놈과 완전히 비메틸화된 게놈 사이에 게놈에서의 동일한 4-nt 또는 6-nt 모티프를 공유한 모든 서열의 IPD를 비교하였다(문헌[Beckman et al. 2014]). 이러한 분석의 목적은 오직 염기 변형에 의해 보다 빈번히 영향을 받는 모티프를 확인하는 것이다. 연구에서, 이들은 이웃하는 염기의 IPD 또는 PW가 아니라 잠재적으로 변형된 염기의 IPD를 오직 고려하였다. 이 방법은 개별 뉴클레오타이드의 메틸화 상태에 대한 정보를 주지 않았다.
요약하면, 데이터의 그룹화를 위한 이웃하는 뉴클레오타이드에서 단독으로 또는 서열 정보와 조합되어 IPD를 사용하는 것의 이들 이전의 시도는 의미 있는 또는 실질적인 정확성으로 5-메틸시토신의 염기 변형을 검출할 수 없었다. Gouil 등에 의한 최근의 보고서에서, 저자들은 낮은 신호-대-노이즈 비율 때문에 단일 분자 실시간 시퀀싱을 이용한 단일 분자에서의 5-메틸시토신의 검출이 부정확하다고 결론지었다(문헌[Gouil et al., 2019]). 이 이전의 연구에서, 이것은 이것이 게놈수준 메틸롬 분석에 대해, 특히 복합한 게놈, 예컨대 인간 게놈, 암 게놈 또는 태아 게놈에 대해 동역학 특징을 사용하는 것이 실행 가능할 수 있는지에 대해 비공지된 채 있는다.
이전의 연구와 반대로, 본 개시내용에 기재된 방법의 일부 실시형태는 측정 윈도우 내의 모든 염기에 대해 IPD, PW 및 서열 콘텍스트를 측정하고 사용하는 것에 기초한다. 본 발명자들은 본 발명자들이 다수의 메트릭의 조합을 사용하여 예를 들어 상류 및 하류 서열 콘텍스트, 가닥 정보, IPD, 펄스 폭 및 펄스 강도를 포함하는 특징을 동시에 사용할 수 있으면, 본 발명자들이 단일-염기 해상에서 염기 변형의 정확한 측정(예를 들어, mC 검출)을 달성할 수 있다고 판단하였다. 서열 콘텍스트는 DNA의 스트레치에서 염기 성분(A, C, G 또는 T) 및 염기 순서를 지칭한다. DNA의 이러한 스트레치는 염기 변형 분석의 표적이거나 이것으로 처리되는 둘러싼 염기일 수 있다. 일 실시형태에서, DNA의 스트레치는 염기 변형 분석으로 처리된 염기에 근위일 수 있다. 다른 실시형태에서, DNA의 스트레치는 염기 변형 분석으로 처리된 염기로부터 멀 수 있다. DNA의 스트레치는 염기 변형 분석으로 처리된 염기의 상류 및/또는 하류일 수 있다.
일 실시형태에서, 염기 변형 분석에 사용된 상류 및 하류 서열 콘텍스트, 가닥 정보, IPD, 펄스 폭 및 펄스 강도의 특징은 동역학 특징이라 불린다.
본 개시내용에 존재하는 실시형태는 비제한적인 예로서 세포주, 유기체로부터 얻은 샘플(예를 들어, 고형 장기, 고형 조직, 내시경검사를 통해 얻은 샘플, 임신한 여성으로부터의 혈액, 또는 혈장 또는 혈청 또는 뇨, 융모막 융모 생검 등), 환경(예를 들어, 박테리아, 세포 오염물질)으로부터 얻은 샘플, 식품(예를 들어, 육류)으로부터 얻은 DNA에 사용될 수 있다. 일부 실시형태에서, 본 개시내용에 제시된 방법은 게놈의 분획이 처음에 예를 들어 혼성화 프로브(문헌[Albert et al., 2007]; 문헌[Okou et al., 2007]; 문헌[Lee et al., 2011]) 또는 물리적 분리에 기초(예를 들어, 크기 등)한 접근법을 이용하여 농후화되는 단계 후에 또는 제한 효소 소화(예를 들어, MspI) 또는 Cas9 기반 농후화(문헌[Watson et al., 2019]) 후에 또한 적용될 수 있다. 본 발명은 일로의 효소 전환 또는 화학 전환을 필요로 하지 않지만, 소정의 실시형태에서, 이러한 전환 단계는 본 발명의 수행을 추가로 향상시키도록 포함될 수 있다.
본 개시내용의 실시형태는 염기 변형의 검출 또는 변형 수준의 측정에서 개선된 정확성 또는 실현가능성 또는 편리함을 허용한다. 상기 변형은 직접적으로 검출될 수 있다. 실시형태는 효소 전환 또는 화학 전환을 피할 수 있고, 이는 검출에 대한 모든 변형 정보를 보존하지 않을 수 있다. 추가로, 소정의 효소 전환 또는 화학 전환은 소정의 유형의 변형과 적합하지 않을 수 있다. 본 개시내용의 실시형태는 또한 PCR에 의한 증폭을 피할 수 있고, 이는 염기 변형 정보를 PCR 산물로 변환하지 않을 수 있다. 추가로, DNA의 가닥 둘 다는 함께 시퀀싱될 수 있어서, 하나의 가닥으로부터의 서열의 다른 가닥에 대한 이의 상보성 서열과의 페어링을 가능하게 한다. 이에 반해서, PCR 증폭은 이중 가닥 DNA의 2개의 가닥을 분할하여서, 서열의 이러한 페어링이 어렵다.
효소 전환 또는 화학 전환의 존재 하에 또는 부재 하에 결정된 메틸화 프로필은 생물학적 샘플을 분석하기 위해 사용될 수 있다. 일 실시형태에서, 메틸화 프로필은 세포 DNA의 기원(예를 들어, 모계 또는 태아, 조직, 바이러스 또는 종양)을 검출하기 위해 사용될 수 있다. 조직에서의 비정상 메틸화 프로필의 검출은 개체에서 발달 장애의 확인 및 종양 또는 악성종양의 확인 및 예언을 돕는다. 일배체형 사이의 메틸화 수준의 불균형은 암을 포함하는 장애를 검출하기 위해 사용될 수 있다. 단일 분자에서의 메틸화 패턴은 키메라(예를 들어, 바이러스와 인간 사이에) 및 하이브리드 DNA(예를 들어, 자연 게놈에서 보통 비융합된 2개의 유전자 사이에); 또는 2개의 종 사이(예를 들어, 유전적 또는 게놈 조작을 통해)를 확인할 수 있다.
메틸화 분석은 향상된 훈련에 의해 개선될 수 있고, 이는 훈련 세트에 사용된 데이터가 좁아지는 것을 포함할 수 있다. 특정 영역은 분석을 위해 표적화될 수 있다. 실시형태에서, 이러한 표적화는 단독으로 또는 다른 시약(들)과 조합되어 이의 서열에 기초하여 DNA 서열 또는 게놈을 절단할 수 있는 효소를 수반할 수 있다. 일부 실시형태에서, 효소는 특이적 DNA 서열(들)을 인식하고 절단하는 제한 효소이다. 다른 실시형태에서, 상이한 인식 서열을 갖는 하나 초과의 제한 효소가 조합으로 사용될 수 있다. 일부 실시형태에서, 제한 효소는 인식 서열의 메틸화 상태에 기초하여 절단되거나 절단되지 않을 수 있다. 일부 실시형태에서, 효소는 CRISPR/Cas 패밀리 내의 것이다. 예를 들어, 관심 있는 게놈 영역은 가이드 RNA(즉, 상보성 표적 DNA 서열에 결합하고 공정에서 표적 게놈 위치에서 작용하도록 효소를 지도하는 짧은 RNA 서열)에 기초하여 CRISPR/Cas9 시스템 또는 다른 시스템을 사용하여 표적화될 수 있다. 일부 경우에, 메틸화 분석은 기준 게놈에 정렬 없이 가능할 수 있다.
I. 단일 분자 실시간 시퀀싱에 의한 메틸화 검출
본 개시내용의 실시형태는 효소 전환 또는 화학 전환 없이 염기 변형의 직접 검출을 허용한다. 단일 분자 실시간 시퀀싱을 통해 얻은 동역학 특징(예를 들어, 서열 콘텍스트, IPD 및 PW)은 변형 또는 변형의 부재를 검출하는 모델을 개발하기 위해 기계 학습으로 분석될 수 있다. 변형 수준은 DNA 분자의 기원 또는 장애의 존재 또는 수준을 결정하기 위해 사용될 수 있다.
예시 목적을 위해 단일 분자 실시간 시퀀싱의 일례로서 Pacific Biosciences SMRT 시퀀싱을 이용하여, DNA 중합효소 분자는 제로-모드 도파관(ZMW: zero-mode waveguide)으로 작용하는 웰의 바닥에 위치한다. ZMW는 작은 관찰 부피에 광을 부여하는 나노광자 장치인데, 이것은 낮고 일정한 배경 신호에 대해 부동화된 중합효소에 의해 도입된 염료 표지된 뉴클레오타이드로부터의 광학 신호의 방출만이 검출 가능하도록 직경이 매우 작고 검출에 사용된 파장 범위에서 광의 전파를 허용하지 않는 홀일 수 있다(문헌[Eid et al., 2009]). DNA 중합효소는 상보성 핵산 가닥으로의 형광 표지된 뉴클레오타이드의 도입을 촉매화한다.
도 1은 단일 분자 원형 공통 시퀀싱에 의해 시퀀싱된 염기 변형을 보유하는 분자의 예를 보여준다. 분자(102, 104 및 106)는 염기 변형을 보유한다. DNA 분자(예를 들어, 분자(106))는 결찰된 분자(108)를 형성하도록 헤어핀 어댑터로 결찰될 수 있다. 이후, 결찰된 분자(108)는 원형화된 분자(110)를 형성할 수 있다. 원형화된 분자는 부동화된 DNA 중합효소에 결합할 수 있고, DNA 합성을 개시할 수 있다. 염기 변형을 보유하지 않는 분자가 또한 시퀀싱될 수 있다.
도 2는 단일 분자 실시간 시퀀싱에 의해 시퀀싱된 메틸화된 CpG 부위 및/또는 비메틸화된 CpG 부위를 보유하는 분자의 예를 보여준다. DNA 분자는 부동화된 DNA 중합효소에 결합하는 원형화된 분자를 형성하고, DNA 합성을 개시시키도록 헤어핀 어댑터로 처음에 결찰되었다. 도 2에서, DNA 분자(202)는 결찰된 분자(204)를 형성하도록 헤어핀 어댑터로 결찰된다. 이후, 결찰된 분자(204)는 원형화된 분자(206)를 형성한다. CpG 부위가 없는 분자가 또한 시퀀싱될 수 있다. 원형화된 분자(206)는 비메틸화된 CpG 부위(208)를 포함하고, 이는 계속 시퀀싱될 수 있다.
DNA 합성이 개시되면, 형광 염료 표지된 뉴클레오타이드는 원형 DNA 주형에 기초하여 부동화된 중합효소에 의해 새로 합성된 가닥으로 도입되어서, 광학 신호를 방출시킬 것이다. DNA 주형이 원형화되므로, 전체 원형 DNA 주형은 수회 중합효소를 거칠 것이다(즉, DNA 주형에서의 하나의 뉴클레오타이드는 수회 시퀀싱될 것이다). 원형화된 DNA 주형에서의 모든 염기가 전부 DNA 중합효소를 통해 통과하는 공정으로부터 생성된 서열은 하위판독물이라 불린다. 중합효소가 전체 원형 DNA 주형 주위에 수회 이어질 수 있으므로, ZMW에서의 하나의 분자는 다수의 하위판독물을 생성할 것이다. 일 실시형태에서, 하위판독물은 일 실시형태에서 시퀀싱 오류의 존재 때문에 서열의 하위집단, 염기 변형 또는 원형 DNA 주형의 다른 분자 정보를 오직 함유할 수 있다.
도 3에 예시된 것처럼, 생성된 형광 펄스의 도착 시간 및 기간은 중합효소 동역학을 측정하게 할 것이다. 펄스간 기간(IPD)은 2개의 방출 펄스 사이의 시간 기간의 길이에 대한 메트릭인데, 이들 펄스의 각각은 초기 가닥에서의 도입된 형광 표지된 뉴클레오타이드를 제시할 것이다(도 3). 도 3에 도시된 것처럼, 펄스 폭(PW)은 염기 호출과 관련된 펄스의 기간과 함께 중합효소 동역학을 반영하는 다른 메트릭이다. PW는 신호 피크의 높이(즉, 도입된 염료 표지된 뉴클레오타이드의 형광 강도)의 0%에서의 펄스의 기간일 수 있다. 일 실시형태에서, PW는 예를 들어 비제한적인 예로서 신호 피크의 높이의 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% 또는 90%에서의 펄스의 기간에 의해 한정될 수 있다. 일부 실시형태에서, PW는 신호 피크의 높이로 나눈 피크 하 면적일 수 있다.
IPD와 같은 이러한 중합효소 동역학은 합성 및 미생물 서열(예를 들어, 이. 콜라이)에서 N6-메틸아데닌(6mA), 5-메틸시토신(5mC) 및 5-하이드록시메틸시토신(5hmC)과 같은 염기 변형에 의해 영향을 받는 것을 나타났다(문헌[Flusberg et al., 2010]). Flusberg 등의 2010 문헌은 변형을 검출하기 위해 독립 입력으로서 서열 콘텍스트 및 IPD를 사용하지 않고, 이는 실제로 의미 있는 검출 정확성이 결여된 모델을 생성시켰다. Flusberg 등은 6mA가 GATC에서 발생한다는 것을 확인하기 위해 서열 콘텍스트를 오직 사용하였다. Flusberg 등은 메틸화 상태를 검출하기 위해 입력으로서 IPD와 조합되어 서열 콘텍스트를 사용하는 것에 관해 침묵한다.
메틸화 모티프 CmCWGG의 검출이 불과 1.9% 내지 4.3%의 범위라는 것이 보고되면서, 상보성 가닥에서 5-메틸시토신에 대한 새로운 염기 도입에 대해 부여된 약한 중단은 IPD 신호만을 사용할 때 비교적 단순한 미생물 게놈에 대해서도 극도로 도전적이라 불리는 메틸화를 만든다(문헌[Clark et al., 2013]). 예를 들어, Pacific Biosciences에 의해 제공된 분석 소프트웨어 패키지(SMRT Link v6.0.0)는 5mC 분석을 수행할 수 없다. 게다가, 5caC와 연관된 IPD 신호가 향상될 것이므로, SMRT Link v5.1.0의 이전의 버전은 메틸화 분석 전에 5mC를 5-카복실시토신(5caC)으로 전환하기 위해 Tet1 효소를 사용할 것을 요했다(문헌[Clark et al., 2013]). 따라서, 인간 게놈에 대해 게놈수준 방식으로 자연적 DNA를 분석하기 위해 단일 분자 실시간 시퀀싱의 사용의 실행가능성을 보여주는 연구가 없다는 것은 놀랍지 않다.
II. 측정 윈도우 패턴 및 기계 학습 모델
효소 없이 염기에서의 변형을 검출하는 기법 또는 변형 및/또는 염기의 화학 전환이 원해진다. 본원에 기재된 바대로, 표적 염기의 변형은 표적 염기를 둘러싼 염기에 대한 단일 분자 실시간 시퀀싱으로부터 얻은 동역학 특징 데이터를 사용하여 검출될 수 있다. 동역학 특징은 펄스간 기간, 펄스 폭 및 서열 콘텍스트를 포함할 수 있다. 이 동역학 특징은 표적 염기의 상류 및 하류에서 뉴클레오타이드의 소정의 수의 측정 윈도우에 얻어질 수 있다. (예를 들어, 측정 윈도우에서의 특정 위치에서) 이 특징은 기계 학습 모델을 훈련하도록 사용될 수 있다. 샘플 제조의 일례로서, DNA 분자의 2개의 가닥은 헤어핀 어댑터에 의해 연결될 수 있어서, 원형 DNA 분자를 형성한다. 원형 DNA 분자는 동역학 특징이 왓슨 가닥 및 클릭 가닥의 어느 하나 또는 둘 다에 대해 얻어지게 한다. 데이터 분석 프레임워크는 측정 윈도우에서 동역학 특징에 기초하여 개발될 수 있다. 이후, 이 데이터 분석 프레임워크는 메틸화를 포함하여 변형을 검출하도록 사용될 수 있다. 이 부문은 변형을 검출하기 위한 다양한 기법을 기재한다.
A. 단일 가닥의 사용
도 4에 도시된 것처럼, 일례로서, 본 발명자들은 염기 변형의 상태에 관한 하나의 특정 염기를 분석하기 위해 Pacific Biosciences SMRT 시퀀싱으로부터 왓슨 가닥의 하위판독물을 얻었다. 도 4에서, 염기 변형 분석으로 처리된 염기의 각각의 사이드로부터의 3개의 염기는 측정 윈도우(400)으로 정의될 것이다. 일 실시형태에서, 이들 7개의 염기(즉, 염기 변형 분석을 위한 3-뉴클레오타이드(nt) 상류 및 하류 서열 및 1개의 뉴클레오타이드)에 대한 서열 콘텍스트, IPD 및 PW는 측정 윈도우로서 2-차원(즉, 2-D) 행렬로 컴파일되었다. 도시된 예에서, 측정 윈도우(400)는 왓슨 가닥의 하나의 하위판독물에 대한 것이다. 다른 변형이 본원에 기재되어 있다.
행렬의 제1 행(402)은 연구된 서열을 나타냈다. 행렬의 제2 행(404)에서, 0의 위치는 염기 변형 분석에 대한 염기를 나타냈다. -1, -2 및 -3의 상대 위치는 염기 변형 분석으로 처리된 염기의 상류에서 각각 1-nt, 2-nt 및 3-nt 위치를 나타냈다. +1, +2 및 +3의 상대 위치는 염기 변형 분석으로 처리된 염기의 하류에서 각각 1-nt, 2-nt 및 3-nt 위치를 나타냈다. 각각의 위치는 상응하는 IPD 및 PW 값을 함유하는 2개의 열을 포함한다. 하기 4개의 행(행(408, 412, 416 및 420))은 각각 가닥(예를 들어, 왓슨 가닥)에서 4개의 유형의 뉴클레오타이드(A, C, G 및 T)에 상응하였다. 행렬에서의 IPD 및 PW 값의 존재는 어떤 상응하는 뉴클레오타이드 유형이 특정 위치에서 시퀀싱되었는지에 따라 달라졌다. 도 4에 도시된 것처럼, 0의 상대 위치에서, IPD 및 PW 값은 왓슨 가닥에서의 'G'를 나타내는 행에 도시되어 있고, 이는 그 위치에서 서열 결과에서 구아닌이 호출된다는 것을 제시한다. 시퀀싱된 염기에 상응하지 않는 열에서의 다른 그리드는 '0'으로 암호화될 것이다. 일례로서, 2-D 디지털 행렬에 상응하는 서열 정보(도 4)는 왓슨 가닥에 대해 5'-GATGACT-3'일 것이다.
도 5에 도시된 것처럼 일 실시형태에서, 측정 윈도우는 클릭 가닥으로부터의 데이터에 적용될 수 있다. 본 발명자들은 염기 변형의 상태에 관한 하나의 특정 염기를 분석하기 위해 단일 분자 실시간 시퀀싱으로부터의 클릭 가닥의 하위판독물을 얻었다. 도 5에서, 염기 변형 분석으로 처리된 염기의 각각의 사이드로부터의 3개의 염기 및 염기 변형 분석으로 처리된 염기는 측정 윈도우로 정의될 것이다. 일 실시형태에서, 이들 7개의 염기(즉, 염기 변형 분석을 위한 3-뉴클레오타이드(nt) 상류 및 하류 서열 및 1개의 뉴클레오타이드)에 대한 서열 콘텍스트, IPD, PW는 측정 윈도우로서 2-차원(즉, 2-D) 행렬로 컴파일되었다. 행렬의 제1 행은 연구된 서열을 나타냈다. 행렬의 제2 행에서, 0의 위치는 염기 변형 분석에 대한 염기를 나타냈다. -1, -2 및 -3의 상대 위치는 염기 변형 분석으로 처리된 염기의 상류에서 각각 1-nt, 2-nt 및 3-nt 위치를 나타냈다. +1, +2 및 +3의 상대 위치는 염기 변형 분석으로 처리된 염기의 하류에서 각각 1-nt, 2-nt 및 3-nt 위치를 나타냈다. 각각의 위치는 상응하는 IPD 및 PW 값을 함유하는 2개의 열을 포함한다. 하기 4개의 행은 이 가닥(예를 들어, 클릭 가닥)에서 4개의 유형의 뉴클레오타이드(A, C, G 및 T)에 상응하였다. 행렬에서의 IPD 및 PW 값의 존재는 어떤 상응하는 뉴클레오타이드 유형이 특정 위치에서 시퀀싱되었는지에 따라 달라졌다. 도 5에 도시된 것처럼, 0의 상대 위치에서, IPD 및 PW 값은 클릭 가닥에서의 'T'를 나타내는 행에 도시되어 있고, 이는 그 위치에서 서열 결과에서 티민이 호출된다는 것을 제시한다. 시퀀싱된 염기에 상응하지 않는 열에서의 다른 그리드는 '0'으로 암호화될 것이다. 일례로서, 2-D 디지털 행렬에 상응하는 서열 정보(도 5)는 클릭 가닥에 대해 5'-ACTTAGC-3'일 것이다.
B. 왓슨 가닥 및 클릭 가닥 둘 다의 사용
도 6은 측정 윈도우가 왓슨 가닥 및 이의 상보성 클릭 가닥으로부터의 데이터가 조합되는 방식으로 실행될 수 있는 실시형태를 보여준다. 도 6에 도시된 것처럼, 본 발명자들은 변형에 대한 하나의 특정 염기를 분석하기 위해 단일 분자 실시간 시퀀싱으로부터 왓슨 가닥 및 클릭 가닥의 하위판독물을 얻었다. 일 실시형태에서, 원형 DNA 주형의 클릭 가닥으로부터의 측정 윈도우는 염기 변형 분석으로 처리된 왓슨 가닥으로부터의 측정 윈도우에 상보적이었다. 도 6에서, 염기 변형 분석으로 처리된 왓슨 가닥에서의 제1 염기의 각각의 사이드로부터의 3개의 염기 및 제1 염기는 제1 측정 윈도우로 정의될 것이다. 클릭 가닥에서의 제2 염기의 각각의 사이드로부터의 3개의 염기 및 제2 염기는 제2 측정 윈도우로 정의될 것이다. 제2 염기는 제1 염기에 상보적이었다. 일 실시형태에서, 왓슨 가닥 및 클릭 가닥으로부터의 이들 7개의 염기(즉, 염기 변형 분석을 위한 3-뉴클레오타이드(nt) 상류 및 하류 서열 및 1개의 뉴클레오타이드)에 대한 서열 콘텍스트, IPD, PW는 2-차원(즉, 2-D) 행렬로 컴파일되었다. 왓슨 가닥 및 클릭 가닥으로부터의 이 측정 윈도우는 각각 제1 측정 윈도우 및 제2 측정 윈도우로 여겨진다.
왓슨 가닥 및 클릭 가닥의 행렬의 제1 행은 연구된 서열을 나타냈다. 왓슨 가닥의 행렬의 제2 행에서, 0의 위치는 염기 변형 분석에 대한 제1 염기를 나타냈다. 클릭 가닥의 행렬의 제2 행에 도시된 0의 위치는 제1 염기에 상보적인 제2 염기를 나타냈다. -1, -2 및 -3의 상대 위치는 제1 염기 및 제2 염기의 상류에서 각각 1-nt, 2-nt 및 3-nt 위치를 나타냈다. +1, +2 및 +3의 상대 위치는 제1 염기 및 제2 염기의 하류에서 각각 1-nt, 2-nt 및 3-nt 위치를 나타냈다. 왓슨 가닥 및 클릭 가닥으로부터 유래된 각각의 위치는 상응하는 IPD 및 PW 값을 함유하는 2개의 열에 상응할 것이다. 왓슨 가닥 및 클릭 가닥의 행렬에서의 하기 4개의 행은 각각 특정 가닥(예를 들어, 클릭 가닥)에서 4개의 유형의 뉴클레오타이드(A, C, G 및 T)에 상응하였다. 행렬에서의 IPD 및 PW 값의 존재는 어떤 상응하는 뉴클레오타이드 유형이 특정 위치에서 시퀀싱되었는지에 따라 달라졌다.
도 6에 도시된 것처럼, 0의 상대 위치에서, IPD 및 PW 값은 왓슨 가닥에서의 'A' 및 클릭 가닥에서의 'T'를 나타내는 행에 도시되어 있고, 이는 각각 왓슨 가닥 및 클릭 가닥의 그 위치에서 서열 결과에서 아데닌 및 티민이 호출된다는 것을 제시한다. 시퀀싱된 염기에 상응하지 않는 열에서의 다른 그리드는 '0'으로 암호화될 것이다. 일례로서, 왓슨 가닥의 2-D 디지털 행렬에 상응하는 서열 정보(도 6)는 5'-ATAAGTT-3'일 것이다. 클릭 가닥의 2-D 디지털 행렬에 상응하는 서열 정보(도 6)는 5'-AACTTAT-3'일 것이다.
이 예에서 도시된 것처럼, 왓슨 가닥 및 클릭 가닥으로부터의 데이터는 새로운 행렬을 형성하도록 조합될 수 있고, 이는 또한 측정 윈도우로 여겨질 수 있다. 이 새로운 행렬은 기계 학습 모델을 훈련하도록 사용되는 단일 샘플로서 사용될 수 있다. 따라서, 예를 들어 콘볼루션 신경망(CNN)이 사용될 때, 2D 행렬에서의 특정 배치가 영향을 미칠 수 있지만, 새로운 행렬에서의 모든 값은 별개의 특징으로 처리될 수 있다. 상이한 가닥에 대한 다양한 위치에서의 서열 콘텍스트는 행렬에서 비-0 목록을 통해 전달될 수 있다.
도 7은 측정 윈도우가 왓슨 가닥 및 클릭 가닥으로부터의 데이터가 서로에 정확히 상보성인 위치가 아니도록 실행될 수 있었다는 것을 보여준다. 도 7에 도시된 것처럼, 제1 측정 윈도우는 5'-ATAAGTT-3'이고; 제2 측정 윈도우는 5'-GTAACGC-3'이었다. 일부 실시형태에서, 왓슨 가닥 및 클릭 가닥은 위치가 상보적이 아니도록 서로로부터 이동될 수 있다.
도 8은 측정 윈도우가 CpG 부위에서의 메틸화 상태를 분석하도록 사용된다는 것을 보여준다. 0의 위치는 CpG 부위의 시토신에 상응하고, 이에 따라 C가 가닥 둘 다에 대한 0 위치에 있도록 2개의 가닥 사이에 하나의 위치만큼 이동이 있다. 따라서, 왓슨 가닥 및 클릭 가닥으로부터의 측정 윈도우에 포함된 서열의 부분만이 서로에 상보적이다. 다른 실시형태에서, 왓슨 가닥 및 클릭 가닥으로부터의 측정 윈도우에서의 서열의 모두는 서로에 상보적일 수 있다. 또 다른 실시형태에서, 왓슨 가닥 및 클릭 가닥으로부터의 측정 윈도우에서의 서열이 서로에 상보적이 아니다.
일 실시형태에서, 측정 윈도우에 대해, 염기 변형 분석으로 처리된 염기를 둘러싼 DNA 스트레치의 길이는 비대칭일 수 있었다. 예를 들어, 그 염기의 X-nt 상류 및 Y-nt 하류는 염기 변형 분석에 사용될 수 있었다. X는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, 및 10000을 포함할 수 있지만 이들로 제한되지는 않고; Y는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, 및 10000을 포함할 수 있지만 이들로 제한되지는 않는다.
C. 훈련 모델 및 변형 검출
도 9는 임의의 염기 변형을 결정하기 위해 측정 윈도우를 어떻게 사용하는지의 일반 절차를 보여준다. 비변형된 및 변형된 것으로 공지된 DNA 샘플은 단일 분자 실시간 시퀀싱으로 처리되었다. 변형된 DNA(예를 들어, 변형된 분자(902))는 염기(예를 들어, 염기(904))가 그 부위에서 변형(예를 들어, 메틸화)을 갖는다는 것을 의미한다. 비변형된 DNA(예를 들어, 비변형된 분자(906))는 염기(예를 들어, 염기(908))가 그 부위에서 변형을 갖지 않는다는 것을 의미한다. DNA의 세트 둘 다는 변형된/비변형된 DNA를 형성하기 위해 인공적으로 생성되거나 가공될 수 있다.
단계 910에서, 샘플은 이후 단일 분자 실시간 시퀀싱을 겪을 수 있다. SMRT 시퀀싱의 일부로서, 원형 분자는 반복하여 부동화된 DNA 중합효소를 통과하여 수회 시퀀싱될 수 있었다. 각각의 시간으로부터 얻은 서열 정보는 하위판독물로 여겨질 것이다. 이로써, 하나의 원형 DNA 주형은 다수의 하위판독물을 생성할 것이다. 시퀀싱 하위판독물은 예를 들어 비제한적인 예로서 BLASR을 사용하여 기준 게놈에 정렬될 수 있다(문헌[Mark J Chaisson et al, BMC Bioinformatics. 2012; 13: 238]). 다양한 다른 실시형태에서, BLAST(문헌[Altschul SF et al, J Mol Biol. 1990;215(3):403-410]), BLAT(문헌[Kent WJ, Genome Res. 2002;12(4):656-664]), BWA(문헌[Li H et al, Bioinformatics. 2010;26(5):589-595]), NGMLR(문헌[Sedlazeck FJ et al, Nat Methods. 2018;15(6):461-468]), LAST(문헌[Kielbasa SM et al, Genome Res. 2011;21(3):487-493]) 및 Minimap2(문헌[Li H, Bioinformatics. 2018;34(18):3094-3100])는 하위판독물을 기준 게놈에 정렬하도록 사용될 수 있었다. 동일한 위치에 대한 각각의 하위판독물에서의 데이터가 확인될 수 있으므로, 정렬은 다수의 하위판독물로부터의 데이터가 조합(예를 들어, 평균)되게 할 수 있다.
단계 912에서, 정렬 결과로부터, 염기 변형 분석으로 처리된 염기를 둘러싼 IPD, PW 및 서열 콘텍스트가 얻어졌다. 단계 914에서, IPD, PW 및 서열 콘텍스트는 소정의 구조, 예를 들어 비제한적인 예로서 도 9에 도시된 바와 같은 2-D 행렬에 기록되었다.
단계 916에서, 공지된 염기 변형을 갖는 기준 동역학 패턴 유래 분자를 함유하는 다수의 2-D 행렬은 분석적, 컴퓨터상, 수학적 또는 통계학적 모델(들)을 훈련시키도록 사용되었다. 단계 918에서, 훈련으로부터 생긴 통계 모델이 개발되었다. 단순함을 위해, 도 9는 단지 훈련에 의해 개발된 통계 모델을 보여주지만, 임의의 모델 또는 데이터 분석 프레임워크가 개발될 수 있다. 예시적인 데이터 분석 프레임워크는 기계 학습 모델, 통계학적 모델 및 수학적 모델을 포함한다. 통계 모델은 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 Markov 모델(HMM: hidden Markov model), 선형 구별 분석(LDA: linear discriminant analysis), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN: density-based spatial clustering of applications with noise), 랜덤 포레스트 알고리즘, 및 서포트 벡터 머신(SVM: support vector machine)을 포함할 수 있지만, 이들로 제한되지 않았다. 염기 변형 분석으로 처리된 염기를 둘러싼 DNA 스트레치는 그 염기의 X-nt 상류 및 Y-nt 하류, 즉 "측정 윈도우"일 수 있었다.
데이터 구조는 정확한 출력(즉, 변형 상태)이 공지된 것처럼 훈련 과정에 사용될 수 있다. 예를 들어, 왓슨 가닥(들) 및/또는 클릭 가닥(들)으로부터의 염기의 3-nt 상류 및 하류에 상응하는 IPD, PW 및 서열 콘텍스트는 염기 변형을 분류하기 위한 통계 모델(들)을 훈련시키기 위해 2-D 행렬을 만드는 데 사용될 수 있다. 이러한 방식으로, 훈련은 이전에 공지된 상태를 갖는 핵산의 위치에서 염기 변형을 분류할 수 있는 모델을 제공할 수 있다.
도 10은 염기 변형의 공지된 상태를 보유하는 DNA 샘플로부터 학습된 통계 모델(들)이 염기 변형을 어떻게 검출할 수 있는지의 일반 절차를 보여준다. 염기 변형의 비공지된 상태를 갖는 샘플은 SMRT 시퀀싱으로 처리되었다. 시퀀싱 하위판독물은 예를 들어 상기 언급된 기법을 이용하여 기준 게놈에 정렬되었다. 추가적으로 또는 대신에, 하위판독물은 서로에 정렬될 수 있다. 또 다른 실시형태는 정렬이 수행되지 않도록 바로 하나의 하위판독물을 사용하거나 독립적으로 이들을 분석할 수 있다.
염기 변형 분석으로 처리된 염기에 대해, 훈련 단계에 사용되는 것과 필적하고 그 염기와 연관된 측정 윈도우를 사용하여 정렬 결과에서 왓슨 가닥(들) 및/또는 클릭 가닥(들)으로부터 IPD, PW 및 서열 콘텍스트를 얻을 것이다(도 9). 다른 실시형태에서, 훈련 절차와 시험 절차 사이의 측정 윈도우가 상이할 것이다. 예를 들어, 훈련 절차와 시험 절차 사이의 측정 윈도우의 크기는 상이할 것이다. 이 IPD, PW 및 서열 콘텍스트는 2-D 행렬로 변환될 것이다. 시험 샘플의 이러한 2-D 행렬은 염기 변형을 결정하기 위해 기준 동역학 특징과 비교될 것이다. 예를 들어, 시험 샘플의 2-D 행렬은 통계 모델(들)을 통해 기준 동역학 특징과 비교될 수 있고, 이 모델은 시험 샘플에서의 핵산 분자에서의 부위에서의 염기 변형이 결정될 수 있도록 훈련 샘플로부터 학습되었다. 통계 모델은 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 Markov 모델(HMM), 선형 구별 분석(LDA), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN), 랜덤 포레스트 알고리즘 및 서포트 벡터 머신(SVM)을 포함할 수 있지만, 이들로 제한되지 않았다.
도 11은 CpG 부위에서 메틸화 상태를 분류하기 위해 상기 방법이 어떻게 이루어질 수 있는지의 일반 절차를 보여준다. CpG 부위에서 비메틸화된 및 메틸화된 것으로 공지된 DNA 샘플은 단일 분자 실시간 시퀀싱으로 처리되었다. 시퀀싱 하위판독물은 기준 게놈에 정렬되었다. 왓슨 가닥 데이터를 사용하였다.
정렬 결과로부터, 메틸화 분석으로 처리된 CpG 부위에서의 시토신을 둘러싼 IPD, PW 및 서열 콘텍스트는 소정의 구조, 예를 들어 비제한적인 예로서 도 11에 도시된 바와 같은 2-D 행렬에서 얻어지고 기록되었다. 공지된 메틸화 상태를 갖는 기준 동역학 패턴 유래 분자를 함유하는 다수의 2-D 행렬은 통계 모델(들)을 훈련하도록 사용되었다. 조사 중인 염기를 둘러싼 DNA의 스트레치는 그 염기, 즉 "측정 윈도우의 X-nt 상류 및 Y-nt 하류일 수 있다". X는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, 및 10000을 포함하지만 이들로 제한되지 않고; Y는 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 4000, 5000, 및 10000을 포함하지만 이들로 제한되지 않는다. 일 실시형태에서, 왓슨 가닥으로부터의 염기의 3-nt 상류 및 하류에 상응하는 IPD, PW 및 서열 콘텍스트는 염기 변형을 분류하기 위한 통계 모델(들)을 훈련시키기 위해 사용된 2-D 행렬을 만드는 데 사용될 수 있다.
도 12는 비공지된 샘플의 메틸화 상태를 분류하는 일반 절차를 보여준다. 비공지된 메틸화 상태를 갖는 샘플은 단일 분자 실시간 시퀀싱으로 처리되었다. 시퀀싱 하위판독물은 기준 게놈에 정렬되었다.
정렬 결과에서의 CG 부위의 시토신에 대해, 변형이 조사 중인지의 그 염기와 연관되어, 훈련 단계(도 11)에 적용된 필적하는 측정 윈도우를 사용하여 왓슨 가닥으로부터의 IPD, PW 및 서열 콘텍스트를 얻을 것이다. 이 IPD, PW 및 서열 콘텍스트는 2-D 행렬로 변환될 수 있다. 시험 샘플의 이러한 2-D 행렬은 메틸화 상태를 결정하기 위해 도 11에 예시된 기준 동역학 패턴과 비교될 것이다. X11
도 13도 14는 클릭 가닥으로부터의 동역학 특징이 왓슨 가닥에 의한 절차와 유사하게 상기 설명된 것처럼 훈련 절차 및 시험 절차에 사용될 수 있었다는 것을 보여준다. 통계 모델(들)은 동일한 모델 또는 상이한 모델일 수 있다. 상이한 모델일 때, 이들은 비교될 수 있는 독립적인 분류를 얻도록 사용될 수 있고, 예를 들어 이들이 일치하면 변형 상태가 확인된다. 이들이 일치하지 않으면, 비분류된 상태가 확인될 수 있었다. 이들이 동일한 모델일 때, 데이터는 단일 데이터 구조, 예를 들어 도 6에서의 행렬로 조합될 수 있다.
도 15도 16은 왓슨 가닥 및 클릭 가닥 둘 다로부터의 동역학 특징이 상기 설명된 것처럼 훈련 절차 및 시험 절차에 사용될 수 있었다는 것을 보여준다. CpG 부위에서 비메틸화된 및 메틸화된 것으로 공지된 DNA 샘플은 단일 분자 실시간 시퀀싱으로 처리되었다. 시퀀싱 하위판독물은 기준 게놈에 정렬되었지만, 본원에 기재된 다른 방법에 대해 수행될 수 있는 것처럼 서로에 대한 하위판독물의 정렬이 가능하다.
정렬 결과에서의 하위판독물에 대해, 메틸화 분석으로 처리된 CpG 부위의 시토신을 둘러싼 IPD, PW 및 서열 콘텍스트가 얻어졌다. DNA 분자가 (예를 들어, SMRTBell 주형 제조 프로토콜에 따른) 2개의 헤어핀 어댑터의 사용을 통해 원형화되므로, 원형 분자는 1회 초과 시퀀싱될 수 있어서, 분자의 다수의 하위판독물을 생성시켰다. 하위판독물은 원형 공통 시퀀싱(CCS) 판독물을 생성하기 위해 사용될 수 있다. 일반적으로 본원에 기재된 모든 방법에 대해, 하나의 ZMW는 다수의 하위판독물을 생성하지만, 오직 하나의 CCS 판독물에 상응한다.
일부 실시형태에서, 완전히 비메틸화된 데이터세트는 인간 DNA 단편에서 PCR에 의해 생성될 수 있었다. 예를 들어, 완전히 메틸화된 데이터세트는 CpG 메틸전환효소 M.SssI에 의해 처리된 인간 DNA 단편을 통해 생성될 수 있었고, 여기서 모든 CpG 부위는 메틸화되는 것으로 추정되었다. 다른 예에서, M.MpeI와 같은 다른 CpG 메틸전환효소가 사용될 수 있었다. 다른 실시형태에서, 공지된 메틸화 상태를 갖는 합성 서열 또는 상이한 메틸화 수준, 또는 메틸화된 및 비메틸화된 DNA 분자의 제한 효소 절단, 이어서 결찰(키메라 메틸화된/비메틸화된 DNA 분자의 비율을 생성할 것임)에 의해 생성하는 하이브리드 메틸화된 상태를 갖는 기존의 DNA 샘플은 메틸화 예측 모델 또는 분류자를 훈련하도록 사용될 수 있었다.
서열 콘텍스트, IPD 및 펄스 폭(PW)을 포함하는 동역학 패턴의 형질전환은 도 15에 예시된 것처럼 CG 부위에서의 메틸화 상태를 분석하기 위한 왓슨 가닥 및 클릭 가닥으로부터의 특징을 포함하는 2-D 행렬일 수 있다. 이 접근법은 본 발명자들이 메틸화된 시토신에 의해 생긴 미묘한 동역학 변화, 및 이의 근처의 서열 콘텍스트를 정확히 포착하도록 허용하였다. 본원에 기재된 임의의 다양한 방법에 의해, 하위판독물에 존재하는 각각의 CpG에 대해, (예를 들어, CpG 부위의 시토신의 상류 및 하류에서의 3-염기)의 측정 윈도우는 후속하는 분석에 사용될 수 있어서, 함께 분석되는 총 7개의 뉴클레오타이드(CpG 부위의 시토신을 포함)를 생성시킨다. 이 7개의 뉴클레오타이드 중에서 각각의 염기에 대한 IPD 및 PW가 계산될 수 있다. 동역학 변화에 기인하는 서열 콘텍스트를 포착하기 위해, IPD 및 PW 신호는 도 15에 도시된 바와 같이 시퀀싱 위치에 대한 특정 염기 호출 및 가닥 정보로 컴파일링될 수 있다. 이러한 데이터 구조는 단순함을 위해 동역학의 2-D 디지털 행렬로 칭해진다.
이러한 2-D 디지털 행렬은 "2-D 디지털 영상"과 유사한다. 예를 들어, 2-D 디지털 행렬의 제1 행은 그 시토신 부위의 3-nt 상류 및 하류로 메틸화 분석으로 처리된 CpG 좌위의 시토신을 둘러싸는 상대 위치를 함유하였다. 0의 위치는 메틸화가 결정되는 시토신 부위를 나타냈다. -1 및 -2의 상대 위치는 해당 시토신의 상류에서 1-nt 및 2-nt를 나타냈다. +1 및 +2의 상대 위치는 사용되는 시토신의 하류에서 1-nt 및 2-nt를 나타냈다. 각각의 위치는 상응하는 IPD 및 PW 값을 함유하는 2개의 열에 상응할 것이다. 각각의 행은 왓슨 가닥 및 클릭 가닥에서의 뉴클레오타이드의 4개의 유형(A, C, G 및 T)에 상응하였다. 행렬에서의 IPD 및 PW 값을 채우는 것을 상응하는 뉴클레오타이드 유형이 특정 위치에서 시퀀싱된 결과(즉, 하위판독물)에서 미리 조정되었는지에 따라 달라졌다.
도 15에 도시된 것처럼, 0의 상대 위치에서, IPD 및 PW 값은 왓슨 가닥에서의 'C'의 행에 도시되어 있고, 이는 그 위치에서 시토신이 호출된다는 것을 제시한다. 시퀀싱된 염기에 상응하지 않는 열에서의 다른 그리드는 '0'으로 암호화될 것이다. 일례로서, 2-D 디지털 행렬에 상응하는 서열 정보(도 15)는 각각 왓슨 가닥 및 클릭 가닥에 대해 5'-ATACGTT-3' 및 5'-TAACGTA-3'일 것이다. 이 콘텍스트에서, 왓슨 가닥 및 클릭 가닥에서의 CpG 부위의 시토신을 측접시키는 상류 및 하류 서열은 상이할 것이다. CpG 부위에서의 메틸화가 왓슨 가닥과 클릭 가닥 사이에 대칭이므로(문헌[Lister et al., 2009]), 가닥 둘 다에서의 동역학은 하나의 바람직한 실시형태에서 메틸화 예측 모델을 훈련하기 위해 사용되었다. 다른 실시형태에서, 왓슨 가닥 및 클릭 가닥은 별개로 메틸화 예측 모델을 훈련하기 위해 사용될 것이다.
단일 분자 실시간 시퀀싱의 높은 데이터 처리율을 고려하여, 일 실시형태에서 심화 학습 알고리즘(예를 들어, 콘볼루션 신경망(CNN))(문헌[LeCun et al., 1989])은 비메틸화된 CpG로부터 메틸화된 CpG를 구별하기에 적합할 수 있다. 다른 알고리즘, 예를 들어 비제한적인 예로서 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 Markov 모델(HMM), 선형 구별 분석(LDA), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN), 랜덤 포레스트 알고리즘 및 서포트 벡터 머신(SVM) 등은 추가적으로 또는 대신에 또한 사용될 수 있었다. 훈련은 도 6 내지 도 8에 기재된 바와 같이 별개로 또는 조합된 새로운 행렬에서 왓슨 가닥 및 클릭 가닥을 사용할 수 있다.
동역학 패턴의 다른 변환은 N-차원 행렬일 수 있었다. N은 예를 들어 1, 3, 4, 5, 6 및 7일 수 있었다. 예를 들어, 3-D 행렬은 분석되는 DNA 스트레치에 대한 탠덤 CG 부위의 수에 따라 계층화된 2-D 행렬의 스택일 것이고, 여기서 제3 치수는 그 DNA 스트레치에서의 탠덤 CG 부위의 수일 것이다. 펄스 강도 또는 펄스 규모(예를 들어, 펄스의 피크 높이, 또는 펄스 신호 하의 면적에 의해 측정된)는 일부 실시형태에서 행렬로 또한 도입될 것이다. 펄스 강도(펄스 피크의 진폭에 대한 메트릭, 도 3)는 원래의 2-D 행렬의 상부에 PW 및 IPD 값과 연관되어 열에 인접한 추가의 열에 부가되거나, 3-D 행렬을 형성하기 위해 제3 치수에 부가될 수 있었다.
추가의 예로서, 8(행)x21(열)의 2D 행렬은 168개의 요소를 포함하는 1-D 행렬(즉, 벡터)로 변환될 수 있다. 그리고 본 발명자들은 예를 들어 CNN 또는 다른 모델링을 수행하기 위해 이 1-D 행렬을 스캔할 수 있다. 다른 예로서, 상기 방법은 8x21 2-D 행렬을 다수의 더 작은 행렬, 예를 들어 2개의 4x21 2-D 행렬로 분할할 수 있다. 수직 방향으로 이들 2개의 더 작은 행렬을 넣는 것은 3-D 행렬(즉, x=21, y=4, z=2)을 제공한다. 방법은 기계 학습에 대한 데이터 제시를 수행하기 위해 제1 2-D 행렬 및 이어서 제2 2-D 행렬을 스캔할 수 있다. 데이터는 더 높은 차수의 행렬을 형성하도록 추가로 분할될 수 있다. 추가로, 2차 구조 정보는 2-D 행렬의 상부에 추가의 행렬(1-D 행렬)과 같이 데이터 구조에 부가될 수 있다. 이러한 추가의 행렬은 측정 윈도우 내의 각각의 염기가 2차 구조(예를 들어, 줄기-루프 구조)에 수반되는지를 암호화할 수 있고, 예를 들어 "줄기"를 수반하는 염기는 0으로 암호화되고, "루프"를 수반하는 염기는 1로 암호화된다.
일 실시형태에서, 단일 DNA 분자 내의 CpG 부위의 메틸화 상태는 "메틸화" 또는 "비메틸화"의 정량적 결과를 주기보다는 통계 모델에 기초한 메틸화될 확률로서 표현될 수 있다. 1의 확률은 통계 모델에 기초하여 CpG 부위가 메틸화된 것으로 여겨질 수 있다는 것을 나타낸다. 0의 확률은 통계 모델에 기초하여 CpG 부위가 비메틸화된 것으로 여겨질 수 있다는 것을 나타낸다. 후속하는 하류 분석에서, 컷오프 값은 특정 CpG 부위가 확률에 기초하여 "메틸화" 또는 "비메틸화"로 분류되는지를 분류하도록 사용될 수 있다. 컷오프의 가능한 값은 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%를 포함한다. 미리 결정된 컷오프보다 큰 CpG 부위에 대해 메틸화될 예측된 확률은 "메틸화"로 분류될 수 있는 반면, 미리 결정된 컷오프보다 크지 않은 CpG 부위에 대해 메틸화될 확률은 "비메틸화"로 분류될 수 있다. 원하는 컷오프는 예를 들어 수신자 조작 특징(ROC) 곡선 분석을 사용하여 훈련 데이터세트로부터 얻어질 것이다.
도 16은 왓슨 가닥 및 클릭 가닥으로부터의 비공지된 샘플의 메틸화 상태를 분류하는 일반 절차를 보여준다. 비공지된 메틸화 상태를 갖는 샘플은 단일 분자 실시간 시퀀싱으로 처리되었다. 시퀀싱 하위판독물은 주어진 위치에 대해 공통 값(예를 들어, 평균, 중앙치, 모드 또는 다른 통계 값)을 결정하기 위해 다른 방법에서처럼 기준 게놈 또는 서로에 정렬될 수 있다. 도시된 것처럼, 2개의 가닥에 대한 측정된 값은 단일 2D 행렬로 조합될 수 있다.
정렬 결과에서의 CG 부위의 시토신에 대해, 상이한 크기의 윈도우가 사용될 수 있지만, 변형이 조사 중인 그 염기와 연관되어, 훈련 단계(도 16)에 적용된 것과 필적하는 측정 윈도우(CpG 부위의 시토신의 3-nt 상류 및 하류)를 사용하여 왓슨 가닥으로부터 IPD, PW 및 서열 콘텍스트를 얻을 것이다. 시험 샘플의 이러한 2-D 행렬은 메틸화 상태를 결정하기 위해 도 19에 예시된 기준 동역학 패턴과 비교될 수 있다.
III. 메틸화의 검출을 훈련하기 위한 예시적인 모델
제안된 접근법의 실현가능성 및 유효함을 시험하기 위해, 본 발명자들은 단일 분자 실시간 시퀀싱 전에 M.SssI 처리(메틸화된 라이브러리) 및 PCR 증폭(비메틸화된 라이브러리)으로 태반 DNA 라이브러리를 준비하였다. 본 발명자들은 421,614개 및 446,285개의 원형 공통 서열(CCS)에 상응하는 각각 메틸화된 라이브러리 및 비메틸화된 라이브러리에 대한 44,799,736개 및 43,580,452개의 하위판독물을 얻었다. 그 결과, 각각의 분자는 메틸화된 라이브러리 및 비메틸화된 라이브러리에서 34배 및 32배의 중앙치로 시퀀싱되었다. 데이터세트는 Pacific Biosciences Sequel Sequencing Kit 3.0에 의해 제조된 DNA로부터 생성되었다. 이 키트는 원래의 Pacific Biosciences Sequel 시퀀서의 사용에 사용되도록 개발되었다. Sequel을 이의 계승자인 Sequel II로부터 구별하기 위해, 본원에서 본 발명자들은 원래의 Sequel을 Sequel I로 지칭한다. 그러므로, Sequel Sequencing Kit 3.0은 본원에서 Sequel I Sequencing Kit 3.0이라 칭해질 것이다. Sequel II 시퀀서에 설계된 시퀀싱 키트는 또한 본 개시내용에 기재된 Sequel II Sequencing Kit 1.0 및 Sequel II Sequencing Kit 2.0을 포함한다.
본 발명자들은 통계 모델을 훈련하기 위해 메틸화된 라이브러리 및 비메틸화된 라이브러리로부터 생성된 시퀀싱된 분자의 50%를 사용(그리고 검증을 위해 남은 50%를 사용)하였는데, 이는 이 경우에 콘볼루션 신경망(CNN) 모델이다. 일례로서, CNN 모델은 하나 이상의 콘볼루션 층(예를 들어, 1D 또는 2D 층)을 가질 수 있다. 콘볼루션 층은 하나 이상의 상이한 필터를 사용할 수 있고, 각각의 필터는 특정 행렬 요소에 국소인(예를 들어, 이웃하는 또는 둘러싼) 행렬 값에서 작동하는 커널을 사용하여서, 임의의 특정 행렬 요소에 새로운 값을 제공한다. 하나의 실행은 2개의 1D-콘볼루션 층을 사용하였다(각각 4의 커널 크기를 갖는 100개의 필터를 가짐). 필터는 별개로 적용되고, 이후 (예를 들어, 가중 평균으로) 조합될 수 있다. 생성된 행렬은 입력된 행렬보다 더 작을 수 있다.
콘볼루션 층은 ReLU(정류된 선형 단위) 층이 이어질 수 있고, 이것에 0.5의 탈락율로 탈락 층이 이어질 수 있다. ReLU는 개별 값에서 작동하여 콘볼루션 층(들)으로부터 새로운 행렬(영상)을 생성시키는 활성화 함수의 예이다. 다른 활성화 함수(예를 들어, S자형, 소프트맥스 등)가 또한 사용될 수 있다. 이러한 층의 하나 이상이 사용될 수 있다. 탈락 층은 ReLU 층 또는 최대 풀링 층에서 사용될 수 있고, 오버피팅을 방지하도록 규칙화로서 작용한다. 탈락 층은 훈련의 일부로서 수행되는 (예를 들어, 비용/손실 함수를 감소시키기 위해) 최적화 과정의 상이한 반복 동안 상이한(예를 들어, 랜덤) 값을 무시하도록 훈련 과정 동안 사용될 수 있다.
최대 풀링 층(예를 들어, 2의 풀 크기)는 ReLU 층 후에 사용될 수 있다. 최대 풀링 층은 대신에 입력과 커널 사이의 내적을 취하는 것을 제외하고는 콘볼루션 층과 유사하게 작용할 수 있고, 커널에 의해 중첩된 입력으로부터 영역의 최대가 취해질 수 있다. 추가의 콘볼루션 층(들)이 사용될 수 있다. 예를 들어, 풀링 층으로부터의 데이터는 추가로 0.5의 탈락율을 갖는 탈락 층을 사용하여 다른 2개의 1D-콘볼루션 층(예를 들어, 각각 2의 커널 크기를 갖는 128개의 필터, 이어서 ReLU 층을 가짐)에 입력될 수 있다. 2의 풀 크기를 갖는 최대 풀링 층이 사용되었다. 마지막으로, 완전히 연결된 층(예를 들어, 10개의 뉴런, 이어서 ReLU 층)이 사용될 수 있다. 하나의 뉴런을 갖는 출력 층에 S자형 층이 이어질 수 있어서, 메틸화의 확률을 생성한다. 층, 필터 및 커널 크기의 다양한 세팅이 적응될 수 있다. 이 훈련 데이터세트에서, 본 발명자들은 메틸화된 라이브러리 및 비메틸화된 라이브러리로부터 468,596개 및 432,761개의 CpG 부위를 사용하였다.
A. 훈련 데이터세트 및 시험 데이터세트의 결과
도 17a는 훈련 데이터세트에서 각각의 단일 DNA 분자에서의 각각의 CpG 부위에 메틸화될 확률을 보여준다. 메틸화의 확률은 비메틸화된 라이브러리보다 메틸화된 라이브러리에서 훨씬 더 높았다. 메틸화될 가능성에 대해 0.5의 컷오프에 대해, 비메틸화된 CpG 부위의 94.7%는 비메틸화된 것으로 정확히 예측되고, 메틸화된 CpG의 84.7%는 메틸화된 것으로 정확히 예측되었다.
도 17b는 시험 데이터세트의 수행을 보여준다. 본 발명자들은 메틸화된 라이브러리 및 비메틸화된 라이브러리로부터의 독립 시험 데이터세트에서 469,729개 및 432,024개의 CpG 부위의 메틸화 상태를 예측하기 위해 훈련 데이터세트에 의해 훈련된 모델을 사용하였다. 메틸화될 가능성에 대해 0.5의 컷오프에 대해, 비메틸화된 CpG 부위의 94.0%는 비메틸화된 것으로 정확히 예측되고, 메틸화된 CpG의 84.1%는 메틸화된 것으로 정확히 예측되었다. 이 결과는 서열 콘텍스트과 커플링된 동역학의 새로운 변환의 사용이 (예를 들어, 인간 대상체로부터의) DNA에서의 메틸화 상태의 결정이 가능하게 할 수 있다는 것을 제시하였다.
본 발명자들은 모델에서 특징의 하위집단을 포함하여 CpG의 메틸화 상태를 예측하는 데 있어서 각각의 특징(서열 상황, IPD 및 PW)의 파워를 평가하였다. 훈련 데이터세트에서, (i) 서열 콘텍스트 단독, (ii) IPD 단독 및 (iii) PW 단독을 갖는 모델은 각각 0.5, 0.74 및 0.86의 곡선 하 면적(AUC) 값을 생성시켰다. 그러는 동안 IPD와 서열 콘텍스트의 조합은 0.86의 AUC로 수행을 개선하였다. 서열 콘텍스트("Seq"), IPD 및 PW의 조합된 분석은 0.94의 AUC로 수행을 실질적으로 개선하였다(도 18a). 독립 시험 데이터세트의 수행은 훈련 데이터세트에 필적하였다(도 18b).
본 발명자들은 이것 및 이것의 둘러싼 10 bp를 커버하는 하위판독물의 평균 수로서 CpG 부위의 하위판독물 깊이를 정의하였다. 도 19a도 19b에 도시된 것처럼, CpG 부위의 하위판독물 깊이가 더 높을수록, 본 발명자들이 달성한 메틸화의 검출의 정확성이 더 높다. 예를 들어, 시험 데이터세트(도 19b)에 도시된 것처럼, 각각의 CpG 부위의 깊이가 적어도 10이면, 메틸화 상태의 예측의 AUC는 0.93일 것이다. 그러나, 각각의 CpG 부위의 하위판독물 깊이가 적어도 300이면, 메틸화 상태의 예측의 AUC는 0.98일 것이다. 다른 한편, 1의 깊이에 대해서도, 본 발명자들은 0.9의 AUC를 달성할 수 있어서, 본 발명자들의 접근법이 낮은 시퀀싱 깊이의 사용으로 메틸화 예측을 달성할 수 있었다는 것을 제시하였다.
메틸화 분석의 수행에 대한 가닥 정보의 효과를 시험하기 위해, 왓슨 가닥 및 클릭 가닥에서 기원한 서열 콘텍스트, IPD 및 PW는 각각 본 개시내용에 존재하는 실시형태에 따라 훈련하도록 사용되었다. 도 20a도 20b는 AUC가 훈련 데이터세트 및 시험 데이터세트에서 최대 0.91 및 0.87을 달성할 수 있으므로 훈련 및 시험에 대해 단일 가닥, 즉 왓슨 또는 클릭 가닥 중 어느 하나를 사용하는 것이 실행 가능하다는 것을 보여주었다. 왓슨 가닥 및 클릭 가닥을 포함하는 (예를 들어, 도 6 내지 도 8에 기재된 바와 같은) 가닥 둘 다의 사용은 최고의 성능을 생성시킬 것이고(AUC: 각각 훈련 데이터세트 및 시험 데이터세트에서의 0.94 및 0.90), 이는 가닥 정보가 최적 성능을 달성하는 데 중요할 것이라는 것을 제시한다.
본 발명자들은 추가로 이 매개변수가 본 개시내용에서 개발된 본 개시내용에 존재하는 실시형태에 따른 수행에 어떻게 영향을 미치는지를 연구하기 위해 CpG 부위의 상류 및 하류에 상이한 수의 뉴클레오타이드를 시험하였다. 도 21a도 21b는 CpG의 콘텍스트에서의 시토신의 상류 및 하류에서의 뉴클레오타이드의 수가 메틸화 예측의 정확성에 영향을 미칠 것이라는 것을 보여준다. 예를 들어, 예시 목적으로서, 분석되는 시토신의 상류 및 하류의 비제한적인 예로서 2 뉴클레오타이드(nt), 3 nt, 4 nt, 6 nt, 8 nt, 10 nt, 15 nt 및 20 nt를 고려하여, 조사되는 시토신의 상류 및 하류의 2 nt를 사용하는 방법의 AUC는 훈련 데이터세트 및 시험 데이터세트 둘 다에서 오직 0.50인 한편, 조사되는 시토신의 상류 및 하류의 15 nt를 사용하는 방법의 AUC는 훈련 데이터세트 및 시험 데이터세트에서 0.95 및 0.92로 증가할 것이다. 이 결과는 분석되는 시토신을 측접시키는 변하는 길이의 상류 및 하류 영역이 최적 수행을 이해하도록 허용할 것이라는 것을 제시하였다. 일 실시형태에서, 도 21b에 도시된 것처럼, 메틸화 상태를 결정하기 위해 시토신의 3 nt 상류 및 하류를 사용할 것이고, 이는 0.89의 AUC를 달성할 수 있었다.
일 실시형태에서, 본 개시내용에 존재하는 실시형태에 따라 분석을 수행하기 위해 조사되는 시토신을 측접시키는 비대칭 서열을 사용할 수 있었다. 예를 들어, 시토신의 1 nt, 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt 및 40 nt 하류와 조합된 2 nt 상류가 사용될 수 있었고; 시토신의 1 nt, 2 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt 및 40 nt 하류와 조합된 3 nt 상류가 사용될 수 있었고; 시토신의 1 nt, 2 nt, 3 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt 및 40 nt 하류와 조합된 4 nt 상류가 사용될 수 있었다. 다른 예로서, 시토신의 1 nt, 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt 및 40 nt 상류와 조합된 2 nt 하류가 사용될 수 있었고; 시토신의 1 nt, 2 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt 및 40 nt 상류와 조합된 3 nt 하류가 사용될 수 있었고; 시토신의 1 nt, 2 nt, 3 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 25 nt, 30 nt, 35 nt 및 40 nt 상류와 조합된 4 nt 하류가 사용될 수 있었다. 시토신의 n-nt 상류 및 m-nt 하류와 연관된 IPD, PW, 가닥 정보 및 서열 콘텍스트의 이점을 취하여 소정의 실시형태에서 메틸화 상태를 결정하는 데 있어서 개선된 정확성을 제공할 수 있었다. 이러한 변하는 측정 윈도우는 염기 변형 분석의 다른 유형, 예컨대 5hmC, 6mA, 4mC, 및 oxoG, 또는 본원에 개시된 임의의 변형에 적용될 수 있었다. 이러한 변하는 측정 윈도우는 DNA 2차 구조 분석, 예컨대 G-사중식 및 줄기-루프 구조를 포함할 수 있었다. 이러한 예는 상기 설명되어 있다. 이러한 2차 구조 정보는 또한 행렬에서의 다른 열로서 부가될 수 있었다.
도 22a도 22b는 적어도 3개의 염기의 오직 하류 염기와 연관된 동역학 패턴을 사용하여 메틸화 상태를 결정하는 것이 실행 가능하다는 것을 보여준다. 본 개시내용에 존재하는 실시형태에 따르면, 시토신 및 이의 하류 3, 4, 6, 8 및 10 염기와 연관된 특징의 사용에 의해, 훈련 데이터세트에서의 메틸화 상태의 결정의 AUC는 훈련 데이터세트에서 각각 0.91, 0.92, 0.94, 0.94 및 0.94이고; AUC는 시험 데이터세트에서 각각 0.87, 0.88, 0.90, 0.90 및 0.90이었다.
그러나, 도 23a도 23b는 상류 염기와 연관된 특징을 오직 사용할 수 있으면, 분별 능력이 메틸화 상태를 구별하는 능력에서 감소하는 것으로 나타난다는 것을 보여준다. 훈련 데이터세트 및 시험 데이터세트에서의 AUC는 2개 내지 10개의 상류 염기에 대해 모두 0.50이었다.
도 24도 25는 상류 및 하류 염기의 상이한 조합이 메틸화 상태를 결정하는 데 있어서 최적 분류 능력을 달성하게 허용한다는 것을 보여준다. 예를 들어, 시토신의 8-염기 상류 및 8-염기 하류와 연관된 특징은 각각 훈련 데이터세트 및 시험 데이터세트에서 0.94 및 0.91의 AUC로 이 데이터세트에서 최고의 수행을 달성할 것이다.
도 26은 CpG 부위에서의 메틸화 상태의 분류와 관련한 특징의 상대 중요성을 보여준다. 괄호 안의 'W' 및 'C'는 가닥 정보를 나타내고, 'W'는 왓슨 가닥을 나타내고, 'C'는 클릭 가닥을 나타낸다. 서열 콘텍스트, IPD 및 PW를 포함하는 각각의 특징의 중요성은 랜덤 포레스트를 사용하여 결정되었다. 랜덤 포레스트 나무 분석은 IPD 및 PW의 특징 중요성이 조사 중에 시토신의 하류에서 피크라는 것을 보여주어서, 분별 능력에 대한 주요 기여가 조사 중인 시토신의 하류에 IPD 및 PW라는 것을 밝혀냈다.
랜덤 포레스트는 다수의 결정 나무로 구성되었다. 결정 나무의 구성 동안, 지니(Gini) 불순물은 결정 마디에 대한 어떤 결정 로직이 취해져야 하는지를 결정하도록 사용되었다. 최종 분류 결과에 더 영향을 미치는 중요한 특징은 아마도 결정 나무의 뿌리에 더 가까운 마디에 있지만, 최종 분류 결과에 덜 영향을 미치는 비중요한 특징은 아마도 뿌리로부터 더 먼 마디에 있다. 그래서, 특징 중요성은 랜덤 포레스트에서 모든 결정 나무의 뿌리에 비해 평균 거리를 산출하여 추정될 수 있었다.
일부 실시형태에서, 왓슨 가닥과 클릭 가닥 사이의 CpG 부위에서의 메틸화 호출의 공통은 특이성을 개선하기 위해 추가로 사용될 수 있었다. 예를 들어, 메틸화됨을 보여주는 가닥 둘 다가 메틸화된 상태라 칭해지고, 비메틸화됨을 보여주는 가닥 둘 다가 비메틸화된 상태라 칭해지는 것이 필요할 수 있었다. CpG 부위에서의 메틸화가 전형적으로 대칭인 것으로 알려져 있으므로, 각각의 가닥으로부터의 확인은 특이성을 개선할 수 있다.
다양한 실시형태에서, 전체 분자로부터의 전체 동역학 특징은 메틸화 상태의 결정에 사용될 것이다. 예를 들어, 전체 분자에서의 메틸화는 단일 분자 실시간 시퀀싱 동안 전체 분자의 동역학에 영향을 미칠 것이다. IPD, PW, 단편 크기, 가닥 정보 및 서열 콘텍스트를 포함하는 전체 주형 DNA 분자의 시퀀싱 동역학의 모델링에 의해, 이것은 분자가 메틸화되거나 되지 않는지에 대해 분류의 정확성을 개선할 수 있다. 일례로서, 측정 윈도우는 전체 주형 분자일 수 있다. IPD, PW 또는 다른 동역학 특징의 통계 값(예를 들어, 평균, 중앙치, 최빈값, 백분위 등)은 전체 분자의 메틸화를 결정하기 위해 사용될 수 있다.
B. 다른 분석 기법의 제한
특정 서열 모티프에서의 특정 C에 대한 IPD에 기초한 메틸화의 검출이 불과 1.9%의 민감도와 같이 매우 낮다고 보고되었다(문헌[Clark et al., 2013]). 본 발명자들은 또한 PW 메트릭을 사용하지 않고, 바로 IPD에 대한 컷오프를 사용하고, 본원에 기재된 바와 같은 데이터 구조를 사용하지 않으며, 상이한 서열 모티프를 IPD와 조합하여 이러한 분석을 재현하도록 시도하였다. 예를 들어, 조사된 CpG를 측접시키는 3-nt 상류 및 하류를 추출하였다. 그 CpG의 IPD는 그 CpG에 중앙화된 6-nt 플랭킹 서열(즉, 각각 상류 및 하류 3 nt)의 콘텍스트에 따라 상이한 그룹(6 위치에 대한 4096 그룹)으로 계층화되었다. 동일한 서열 모티프 내의 메틸화된 CpG와 비메틸화된 CpG 사이의 IPD는 ROC를 사용하여 연구되었다. 예를 들어, 비메틸화된 "AATCGGAC" 모티프 및 메틸화된 "AATmCGGAC" 모티프에서의 CpG의 IPD가 비교되었고, 이는 0.48의 AUC를 나타낸다. 따라서, 특정 서열 그룹에서의 컷오프의 사용은 다양한 사용하는 실시형태에 비해 불량하게 수행되었다
도 27은 펄스 폭 신호를 사용하지 않고 메틸화 검출을 위한 상기 모티프 기반 IPD 분석(문헌[Beckmann et al. BMC Bioinformatics. 2014])의 수행을 보여준다. 수직 막대 도표는 연구되는 CpG 부위를 측접시키는 상이한 k합체 모티프에 걸쳐 평균의 AUC(즉, 조사되는 CpG 부위를 둘러싼 염기의 수)를 나타낸다. 도 27은 상이한 k합체 모티프(예를 들어, 당해 CpG 부위를 둘러싼 2합체, 3합체, 4합체, 6합체, 8합체, 10합체, 15합체, 20합체)에 걸쳐 메틸화된 시토신과 비메틸화된 시토신 사이의 IPD 기반 분별력에 대한 평균의 AUC가 60% 미만인 것으로 밝혀졌다는 것을 나타냈다. 이 결과는 이웃하는 뉴클레오타이드의 IPD를 고려하지 않고 주어진 모티프 콘텍스트에서의 후보 뉴클레오타이드의 IPD의 고려(문헌[Flusberg et al., 2010])가 CpG 메틸화의 결정을 위해 본원에 개시된 방법보다 열등할 것이라는 것을 제시하였다.
본 발명자들은 또한 Flusberg 등의 연구(문헌[Flusberg et al., 2010])에 존재하는 방법을 시험하였다. 본 발명자들은 메틸화 분석으로 처리된 시토신의 2-nt 상류 및 6-nt 하류인 총 5,948,348개의 DNA 분절을 분석하였다. 2,828,848개의 분절이 메틸화되고, 3,119,500개의 분절이 비메틸화되었다. 도 28에 도시된 것처럼, IPD 및 PW의 사용에 의해 주성분 분석으로부터 추론된 신호는 메틸화된 시토신(mC)과 비메틸화된 시토신(C)을 갖는 단편 사이에 매우 중첩하는 것으로 발견되었고, 이는 Flusberg 등에 의해 기재된 바와 같은 방법이 사실상 의미 있는 정확성이 결여된다는 것을 제시한다. 이 결과는 Flusberg 등의 연구(문헌[Flusberg et al., 2010])에서 사용된 바와 같은 염기 및 이웃하는 염기에서의 PW 및 IPD 값을 선형으로 조합한 주성분 분석이 5-메틸시토신 및 비메틸화된 시토신을 신뢰성 있게 또는 의미 있게 구별할 수 없었다는 것을 제시하였다.
도 29는 2개의 주성분이 IPD 및 PW를 수반하는 Flusberg 등의 연구(문헌[Flusberg et al., 2010])에 사용된 주성분 분석에 기초한 방법의 AUC가 IPD 및 PW 및 본 발명자들의 개시내용에 기재된 것과 같은 서열 콘텍스트를 수반하는 콘볼루션 신경망에 기초한 접근법(AUC: 0.94)보다 훨씬 덜 정확하다(AUC: 0.55)는 것을 보여준다.
C. 다른 수학적/통계학적 모델
다른 실시형태에서, 예를 들어 비제한적인 예로서 랜덤 포레스트 및 로지스틱 회귀를 포함하는 다른 수학적/통계 모델은 상기 개발된 특징을 적용하여 훈련될 수 있었다. CNN 모델에 대하여, 훈련 데이터세트 및 시험 데이터세트는 M.SssI 처리(메틸화된) 및 PCR 증폭(비메틸화된)에 의해 DNA로부터 구성되었고, 이들은 랜덤 포레스트를 훈련하도록 사용되었다(문헌[Breiman, 2001]). 이 랜덤 포레스트 분석에서, 본 발명자들은 6개의 특징을 갖는 각각의 뉴클레오타이드를 기재하였다: IPD, PW 및 염기 아이덴티티를 암호화하는 4-성분 이진 벡터. 이러한 2진 벡터에서, A, C, G 및 T는 각각 [1,0,0,0], [0,1,0,0], [0,0,1,0] 및 [0,0,0,1]로 암호화되었다. 분석되는 각각의 CpG 부위에 대해, 본 발명자들은 가닥 둘 다에서의 이의 10 nt 상류 및 하류의 정보를 도입하여서, 252-차수(252-D) 벡터를 형성하였고, 각각의 특징은 하나의 치수를 나타낸다. 252-D 벡터를 갖는 상기 기재된 훈련 데이터세트는 랜덤 포레스트 모델 및 로지스틱 회귀 모델을 훈련하도록 사용되었다. 훈련된 모델은 독립 시험 데이터세트에서의 메틸화 상태를 예측하도록 사용되었다. 랜덤 포레스트는 100 결정 나무로 구성되었다. 이 구성 동안에, 부트스트랩 샘플을 사용하였다. 각각의 결정 나무의 마디를 분할하면서, 지니 불순물은 최고의 분할을 결정하도록 사용되었고, 15개의 특징의 최대는 각각의 분할에 고려될 것이다. 또한, 적어도 60개의 샘플을 함유하도록 결정 나무의 각각의 잎이 필요했다.
도 30a도 30b는 메틸화 예측에 대해 랜덤 포레스트 및 로지스틱 회귀를 이용하는 방법의 수행을 보여준다. 도 30a는 CNN, 랜덤 포레스트 및 로지스틱 회귀에 대한 훈련 데이터세트에서의 AUC 값을 보여준다. 도 30b는 CNN, 랜덤 포레스트 및 로지스틱 회귀에 대한 시험 데이터세트에서의 AUC 값을 보여준다. 랜덤 포레스트를 사용하는 방법의 AUC는 각각 훈련 데이터세트 및 시험 데이터세트에서 0.93 및 0.86을 달성하였다.
동일한 252-D 벡터와 기재된 훈련 데이터세트는 로지스틱 회귀 모델을 훈련하도록 사용되었다. 훈련된 모델은 독립 시험 데이터세트에서의 메틸화 상태를 예측하도록 사용되었다. L2 규칙화를 갖는 로지스틱 회귀 모델(문헌[Ng and Y., 2004])은 훈련 데이터세트에 피팅되었다. 도 30a 및 도 30b에 도시된 것처럼, 로지스틱 회귀를 이용하는 방법의 AUC는 각각 훈련 데이터세트 및 시험 데이터세트에서 0.87 및 0.83을 달성할 것이다.
따라서, 이 결과는 CNN 이외의 소정의 모델(예를 들어, 비제한적인 예로서 랜덤 포레스트 및 로지스틱 회귀)이 본 발명자들이 본 개시내용에서 개발한 특징 및 분석 프로토콜을 사용하여 메틸화 분석에 사용될 수 있다는 것을 제시하였다. 이 결과는 또한 시험 데이터세트(도 30b)에서 0.90의 AUC로 본 개시내용에서의 실시형태에 따라 실행된 CNN이 랜덤 포레스트(AUC: 0.86) 및 로지스틱 회귀(AUC: 0.83) 둘 다보다 우수하다는 것을 제시하였다.
D. 핵산의 6mA 변형의 결정
메틸화된 CpG 이외에, 본원에 기재된 방법은 또한 다른 DNA 염기 변형을 검출할 수 있다. 예를 들어, 6mA의 형태를 포함하는 메틸화된 아데닌이 검출될 수 있다.
1. 동역학 특징 및 시퀀싱 콘텍스트를 사용한 6mA 검출
핵산의 염기 변형의 결정을 위해 개시된 실시형태의 수행 또는 이용성을 평가하기 위해, 본 발명자들은 N6-아데닌 메틸화(6mA)를 추가로 분석하였다. 일 실시형태에서, 대략 1 ng의 인간 DNA(예를 들어, 태반 조직으로부터 추출됨)는 비메틸화된 아데닌(uA), 비메틸화된 시토신(C), 비메틸화된 구아닌(G) 및 비메틸화된 티민(T)에 의한 전장 게놈 증폭을 통해 100 ng의 DNA 산물을 얻도록 증폭되었다.
도 31a는 전장 게놈 증폭에 의한 비메틸화된 아데닌을 갖는 분자를 생성하기 위한 하나의 접근법의 예를 보여준다. 도면에서, "uA"는 비메틸화된 아데닌을 나타내고, "mA"는 메틸화된 아데닌을 나타낸다. 전장 게놈 증폭은 게놈에 걸쳐 무작위로 결합하는 프라이머로서 엑소뉴클레아제 저항성 티오포스페이트 변형된 랜덤 육합체를 사용하여 수행되어서, 중합효소(예를 들어, Phi29 DNA 중합효소)가 (예를 들어, 등온 선형 증폭에 의해) DNA를 증폭하게 한다. 단계 3102에서, 이중 가닥 DNA는 변성된다. 단계 3106에서, 다수의 랜덤 육합체(예를 들어, 3110)가 변성된 주형 DNA(즉, 단일 가닥 DNA)에 어닐링될 때 증폭 반응이 개시된다. 3114에 도시된 것처럼, 가닥 3118의 육합체 매개된 DNA 합성이 5'에서 3' 방향으로 진행하고 다음의 육합체 매개된 DNA 합성 부위에 도달할 때, 중합효소는 새로 합성된 DNA 가닥(3122) 및 지속적인 가닥 연장을 대체한다. 변위된 가닥은 다시 랜덤 육합체의 결합을 위한 단일 가닥 DNA 주형이 되고, 새로운 DNA 합성을 개시할 것이다. 동온 공정에서의 반복된 육합체 어닐링 및 가닥 변위는 증폭된 DNA 산물의 고수율을 발생시킬 것이다. 여기서 기재된 이 증폭은 다중 변위 증폭(MDA)의 기법에 해당할 수 있다.
증폭된 DNA 산물은 예를 들어 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb의 크기, 또는 다른 원하는 크기 범위를 갖는 단편으로 추가로 단편화되었다. 단편화 과정은 효소 소화, 분무화, 수력학적 전단 및 음파처리 등을 포함할 수 있다. 그 결과, 6mA와 같은 원래의 염기 변형은 비메틸화된 A(uA)에 의한 전장 게놈 증폭에 의해 거의 제거될 수 있다. 도 31a는 DNA 산물의 가능한 단편(3126, 3130 및 3134)을 보여주고, 가닥 둘 다는 비메틸화된 A를 갖는다. mA가 없는 이러한 전장 게놈 증폭된 DNA 산물은 uA 데이터세트를 생성하도록 단일 분자, 실시간 시퀀싱으로 처리되었다.
도 31b는 전장 게놈 증폭에 의한 메틸화된 아데닌을 갖는 분자를 생성하기 위한 하나의 접근법의 예를 보여준다. 도면에서, "uA"는 비메틸화된 아데닌을 나타내고, "mA"는 메틸화된 아데닌을 나타낸다. 대략 1 ng의 인간 DNA는 6mA 및 비메틸화된 C, G 및 T에 의한 전장 게놈 증폭을 통해 10 ng의 DNA 산물을 얻도록 증폭되었다. 메틸화된 아데닌은 일련의 화학 반응을 통해 제조될 수 있다(문헌[J D Engel et al. J Biol Chem. 1978;253:927-34]). 도 31b에 예시된 것처럼, 전장 게놈 증폭은 게놈에 걸쳐 무작위로 결합하는 프라이머로서 엑소뉴클레아제 저항성 티오포스페이트 변형된 랜덤 육합체를 사용하여 수행되어서, 중합효소(예를 들어, Phi29 DNA 중합효소)가 도 31a와 유사하게 (예를 들어, 등온 선형 증폭에 의해) DNA를 증폭하게 한다. 엑소뉴클레아제 저항성 티오포스페이트 변형된 랜덤 육합체는 프루프리딩 DNA 중합효소의 3'→5' 엑소뉴클레아제 활성에 저항적이다. 따라서, 증폭 동안, 랜덤 육합체는 분해로부터 보호될 것이다.
다수의 랜덤 육합체가 변성된 주형 DNA(즉, 단일 가닥 DNA)에 어닐링될 때 증폭 반응이 개시된다. 육합체 매개된 DNA 합성이 5'에서 3' 방향으로 진행하고 다음의 육합체 매개된 DNA 합성 부위에 도달할 때, 중합효소는 새로 합성된 DNA 가닥을 변위시키고, 가닥 연장을 계속한다. 변위된 가닥은 다시 랜덤 육합체의 결합 및 새로운 DNA 합성의 개시를 위한 단일 가닥 DNA 주형이 되었다. 동온 공정에서의 반복된 육합체 어닐링 및 가닥 변위는 증폭된 DNA 산물의 고수율을 발생시킬 것이다.
증폭된 DNA 산물은 예를 들어 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb의 크기, 또는 길이의 다른 조합을 갖는 단편으로 추가로 단편화되었다. 도 31b에 도시된 것처럼, 증폭된 DNA 산물은 각각의 가닥에서의 아데닌 부위에 걸친 메틸화 패턴의 상이한 형태를 포함할 것이다. 예를 들어, 이중 가닥 분자의 가닥 둘 다는 아데닌(분자 I)과 관련하여 메틸화될 수 있고, 이는 2개의 가닥이 전장 게놈 증폭 동안 DNA로부터 유래될 때 생성될 것이다.
다른 예로서, 이중 가닥 분자의 하나의 가닥은 아데닌 부위에 걸쳐 혼성적인 메틸화 패턴을 함유할 수 있다(분자 II). 혼성적인 메틸화 패턴은 DNA 가닥에 존재하는 메틸화된 염기와 비메틸화된 염기의 혼합물을 포함하는 것으로서 정의된다. 하기 예에서, 본 발명자들은 DNA 가닥에 존재하는 메틸화된 아데닌과 비메틸화된 아데닌의 혼합물을 포함하는 혼성적인 아데닌 메틸화 패턴을 사용한다. 비메틸화된 아데닌을 함유하는 비메틸화된 육합체가 DNA 가닥에 결합되고 DNA 연장을 개시시켰으므로 이 유형의 이중 가닥 분자(분자 II)가 가능하게 생성될 것이다. 비메틸화된 아데닌을 갖는 육합체를 함유하는 이러한 증폭된 DNA 산물이 시퀀싱될 것이다. 대안적으로, 이러한 단편화된 DNA가 프라이머로서 DNA 가닥에 결합될 수 있으므로, 이 유형의 이중 가닥 분자(분자 II)는 비메틸화된 아데닌을 함유하는 원래의 주형 DNA로부터 단편화된 DNA에 의해 개시될 것이다. 가닥에서의 비메틸화된 아데닌을 갖는 원래의 DNA의 쌍을 함유하는 이러한 증폭된 DNA 산물은 시퀀싱될 것이다. 비메틸화된 육합체 프라이머가 생성된 DNA 가닥의 오직 적은 부분이므로, 대부분의 단편은 여전히 6mA를 함유할 것이다.
다른 예로서, 이중 가닥 DNA 분자의 하나의 가닥은 아데닌 부위에 걸쳐 메틸화될 수 있지만, 다른 가닥은 비메틸화될 수 있다(분자 III). 메틸화된 아데닌이 없는 원래의 DNA 가닥이 메틸화된 아데닌을 갖는 새로운 가닥을 제조하기 위한 주형 DNA 분자로서 제공될 때 이 유형의 이중 가닥 분자가 생성될 수 있다.
가닥 둘 다는 비메틸화될 수 있다(분자 IV). 이 유형의 이중 가닥 분자는 메틸화된 아데닌 없이 2개의 원래의 DNA 가닥의 재어닐링으로 인할 수 있다.
단편화 과정은 효소 소화, 분무화, 수력학적 전단 및 음파처리 등을 포함할 수 있다. 이러한 전장 게놈 증폭된 DNA 산물은 A 부위의 면에서 주로 메틸화될 수 있다. mA를 갖는 이 DNA는 mA 데이터세트를 생성하기 위해 단일 분자 실시간 시퀀싱으로 처리되었다.
uA 데이터세트에 대해, 본 발명자들은 단일 분자 실시간 시퀀싱을 이용하여 964 bp 길이의 중앙치를 갖는 262,608개의 분자를 시퀀싱하였다. 중앙치 하위판독물 깊이는 103 x였다. 하위판독물 중에서, 48%는 BWA 정렬장치를 사용하여 인간 기준 게놈으로 정렬될 수 있었다(문헌[Li H et al. Bioinformatics. 2009;25:1754-60]). 일례로서, 단일 분자 실시간 시퀀싱을 수행하도록 Sequel II 시스템(Pacific Biosciences)을 이용할 수 있었다. 단편화된 DNA 분자는 SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)을 사용하여 단일 분자 실시간 (SMRT) 시퀀싱 주형 구성으로 처리되었다. 시퀀싱 프라이머 어닐링 및 중합효소 결합 조건은 SMRT Link v8.0 소프트웨어(Pacific Biosciences)로 계산되었다. 간단히, 시퀀싱 프라이머 v2는 시퀀싱 주형에 어닐링되었고, 이후 중합효소는 Sequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)을 사용하여 주형에 결합되었다. 시퀀싱은 Sequel II SMRT Cell 8M에서 수행되었다. 시퀀싱 무비는 Sequel II Sequencing Kit 2.0(Pacific Biosciences)으로 30시간 동안 Sequel II 시스템에서 수집되었다.
mA 데이터세트에 대해, 본 발명자들은 단일 분자 실시간 시퀀싱을 이용하여 826 bp 길이의 중앙치를 갖는 804,469개의 분자를 시퀀싱하였다. 중앙치 하위판독물 깊이는 34 x였다. 하위판독물 중에서, 27%는 BWA 정렬장치를 사용하여 인간 기준 게놈으로 정렬될 수 있었다(문헌[Li H et al. Bioinformatics. 2009;25:1754-60]).
일 실시형태에서, 비제한적인 예로서 IPD 및 PW를 포함하는 동역학 특징은 가닥 특이적 방식으로 분석되었다. 왓슨 가닥으로부터 유래된 시퀀싱 결과에 대해, uA 데이터세트로부터 무작위로 선택된 메틸화가 없는 644,318개의 A 부위 및 mA 데이터세트로부터 무작위로 선택된 메틸화를 갖는 718,586개의 A 부위는 훈련 데이터세트를 구성하도록 사용되었다. 이러한 훈련 데이터세트는 메틸화된 아데닌과 비메틸화된 아데닌 사이를 구별하기 위한 분류 모델 및/또는 한계치를 확립하기 위해 사용되었다. 시험 데이터세트는 메틸화가 없는 639,702개의 A 부위 및 메틸화가 있는 723,320개의 A 부위로 구성되었다. 이러한 시험 데이터세트는 훈련 데이터세트로부터 추론된 모델/한계치에 대한 수행을 검출하도록 사용되었다.
본 발명자들은 왓슨 가닥에서 기원한 시퀀싱 결과를 분석하였다. 도 32a는 uA 데이터세트 및 mA 데이터세트의 훈련 데이터세트에 걸친 펄스간 기간(IPD) 값을 보여준다. 훈련 데이터세트에 대해, 시퀀싱된 A 부위에 걸친 IPD 값은 uA 데이터세트(중앙치: 0.20; 범위: 0 내지 9.52)(P 값 < 0.0001; 만 휘트니(Mann Whitney) U 시험)에서보다 mA 데이터세트 (중앙치: 1.09; 범위: 0 내지 9.52)에서 더 높은 것으로 관찰되었다.
도 32b는 uA 데이터세트 및 mA 데이터세트의 시험 데이터세트에 대한 IPD를 보여준다. 본 발명자들이 시험 데이터세트에서 시퀀싱된 A 부위에 걸쳐 IPD 값을 연구할 때, 본 발명자들은 IPD 값이 uA 데이터세트보다 mA 데이터세트에서 더 높다(중앙치 1.10 대 0.19; P 값 < 0.0001; 만 휘트니 U 시험)는 것을 관찰하였다.
도 32c는 IPD 컷오프를 사용한 수신자 작동 특징(ROC) 곡선 하 면적을 보여준다. 진양성율은 y축에 있고, 위양성율은 x축에 있다. 상응하는 IPD 값을 사용하여 메틸화를 갖는 주형 DNA 분자 및 갖지 않는 것에서의 시퀀싱된 A 염기를 구별하는 데 있어서 수신자 작동 특징 곡선 하 면적(AUC)은 훈련 데이터세트 및 시험 데이터세트 둘 다에 대해 0.86이었다.
왓슨 가닥으로부터의 결과 이외에, 본 발명자들은 클릭 가닥으로부터 기원한 시퀀싱 결과를 분석하였다. 도 33a는 uA 데이터세트 및 mA 데이터세트의 훈련 데이터세트에 걸친 IPD 값을 보여준다. 훈련 데이터세트에 대해, 시퀀싱된 A 부위에 걸친 IPD 값은 uA 데이터세트(중앙치: 0.19; 범위: 0 내지 9.52)(P 값 < 0.0001; 만 휘트니 U 시험)에서보다 mA 데이터세트(중앙치: 1.10; 범위: 0 내지 9.52)에서 더 높은 것으로 관찰되었다.
도 34b는 uA 데이터세트 및 mA 데이터세트의 시험 데이터세트에 대한 IPD 값을 보여준다. 시퀀싱된 A 부위에 걸친 더 높은 IPD 값은 uA 데이터세트와 비교하여 시험 데이터세트에 대해 mA 데이터세트에서 또한 관찰되었다(중앙치 1.10 대 0.19; P 값 < 0.0001; 만 휘트니 U 시험).
도 33c는 ROC 곡선 하 면적을 보여준다. 진양성율은 y축에 있고, 위양성율은 x축에 있다. 상응하는 IPD 값을 사용한 메틸화가 있는 주형 DNA 분자 및 없는 것을 구별하는 데 있어서 ROC 곡선 하 면적(AUC) 값은 각각 훈련 데이터세트 및 시험 데이터세트에 대해 0.86 및 0.87이었다.
도 34는 본 발명의 실시형태에 따른 측정 윈도우를 사용한 왓슨 가닥의 6mA 결정을 보여준다. 이러한 측정 윈도우는 IPD 및 PW 및 근처의 서열 콘텍스트과 같은 동역학 특징을 포함할 수 있다. 6mA의 결정은 메틸화된 CpG의 결정과 유사하게 수행될 수 있다.
도 35는 본 발명의 실시형태에 따른 측정 윈도우를 사용한 클릭 가닥의 6mA 결정을 보여준다. 이러한 측정 윈도우는 IPD 및 PW 및 근처의 서열 콘텍스트과 같은 동역학 특징을 포함할 수 있다.
일례로서, 조사된 주형 DNA에서의 시퀀싱된 A 염기의 각각의 사이드로부터의 10개의 염기는 측정 윈도우를 구성하도록 사용되었다. IPD, PW 및 서열 콘텍스트를 포함하는 특징 값은 본원에 개시된 방법에 따라 콘볼루션 신경망(CNN)를 사용하여 모델을 훈련시키도록 사용되었다. 다른 실시형태에서, 통계 모델은 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 Markov 모델(HMM), 선형 구별 분석(LDA), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN), 랜덤 포레스트 알고리즘 및 서포트 벡터 머신(SVM) 등을 포함할 수 있지만, 이들로 제한되지 않았다.
도 36a도 36b는 측정 윈도우 기반 CNN 모델을 사용한 uA 데이터세트와 mA 데이터세트 사이의 왓슨 가닥의 시퀀싱된 A 염기에 대해 메틸화되는 결정된 확률을 보여준다. 도 36a는 CNN 모델이 훈련 데이터세트로부터 학습되었다는 것을 보여준다. 일례로서, CNN 모델은 2개의 1D-콘볼루션 층(각각 4의 커널 크기를 갖는 64개의 필터, 이어서 ReLU(정류 선형 단위) 층), 이어서 0.5의 탈락율을 갖는 탈락 층을 사용하였다. 2의 풀 크기를 갖는 최대 풀링 층이 사용되었다. 이후, 이것은 추가로 0.5의 탈락율을 갖는 탈락 층을 사용하여 2개의 1D-콘볼루션 층(각각 2의 커널 크기를 갖는 128개의 필터, 이어서 ReLU 층을 가짐)으로 흘렀다. 2의 풀 크기를 갖는 최대 풀링 층이 사용되었다. 마지막으로, 10개의 뉴런을 갖는 완전히 연결된 층, 이어서 ReLU 층과 1개의 뉴런을 갖는 출력 층, 이어서 S자형 층은 메틸화의 확률을 생성하였다. 층, 필터, 커널 크기의 다른 설정은 예를 들어 다른 메틸화(예를 들어, CpG)에 대해 본원에 기재된 바대로 적응될 수 있었다. 왓슨 가닥의 시퀀싱 결과에 관한 이 훈련 데이터세트에서, 본 발명자들은 비메틸화된 라이브러리 및 메틸화된 라이브러리로부터 644,318개 및 718,586개의 A 염기를 사용하였다.
CNN 모델에 기초하여, 왓슨 가닥 관련된 데이터에 대해, mA 데이터베이스로부터의 주형 DNA 분자에서의 시퀀싱된 A 염기는 uA 데이터세트에 존재하는 이 A 염기와 비교하여 훈련 데이터세트 및 시험 데이터세트 둘 다에서 훨씬 더 높은 메틸화 확률을 생성시켰다(P 값 < 0.0001; 만 휘트니 U 시험). 훈련 데이터세트에 대해, uA 데이터세트에서의 A 부위에 대한 메틸화의 중앙치 확률은 0.13(사분 범위, IQR: 0.09 내지 0.15)인 반면, mA 데이터세트에서의 그 값은 1.000(IQR: 0.998 내지 1.000)이었다.
도 36a는 시험 데이터세트에 대해 결정된 메틸화의 확률을 보여준다. 시험 데이터세트에 대해, uA 데이터세트에서의 A 부위에 대한 메틸화의 중앙치 확률은 0.13(IQR: 0.10 내지 0.15)인 반면, mA 데이터세트에서의 그 값은 1.000(IQR: 0.997 내지 1.000)이었다. 도 36a 및 도 36b는 측정 윈도우 기반 CNN 모델이 시험 데이터세트에서 메틸화를 검출하기 위해 훈련될 수 있다는 것을 보여준다.
도 37은 왓슨 가닥의 시퀀싱된 A 염기에 대한 측정 윈도우 기반 CNN 모델을 사용한 6mA의 검출을 위한 ROC 곡선이다. 진양성율은 y축에 있고, 위양성율은 x축에 있다. 도면은 CNN 모델을 사용한 메틸화가 있는 시퀀싱된 A 부위 및 없는 것을 구별하는 데 있어서 AUC 값이 훈련 데이터세트 및 시험 데이터세트에 대해 0.94 및 0.93이고, 이는 각각 왓슨 가닥 시퀀싱 결과로 이루어졌다는 것을 보여준다. 왓슨 가닥의 데이터를 사용하여 A 부위에서 메틸화 상태를 결정하기 위해 본원에서의 개시내용을 사용하는 것이 실행 가능하다고 제시되었다. 본 발명자들이 컷오프로서 0.5의 메틸화의 결정된 확률을 사용하면, 6mA 검출에 대해 99.3% 특이성 및 82.6% 민감도가 달성될 수 있었다. 도 37은 측정 윈도우 기반 CNN 모델이 높은 특이성 및 민감도로 6mA를 검출하기 위해 사용될 수 있다는 것을 보여준다. 모델의 정확성은 오직 IPD 메트릭을 사용하여 기법과 비교될 수 있다.
도 38은 IPD 메트릭 기반 6mA 검출과 측정 윈도우 기반 6mA 검출 사이의 수행 비교를 보여준다. 민감도는 y축에 작도되고, 특이성은 x축에 작도된다. 도 38은 본원에서의 개시내용에 따른 측정 윈도우 기반 6mA 분류를 사용한 수행(AUC: 0.94)이 오직 IPD 메트릭을 사용한 종래의 방법보다 우수하다(AUC: 0.87)(P 값 < 0.0001; DeLong 시험)는 것을 보여준다. 측정 윈도우 기반 CNN 모델은 IPD 메트릭 기반 검출을 능가하였다.
도 39a도 39b는 측정 윈도우 기반 CNN 모델을 사용한 uA 데이터세트와 mA 데이터세트 사이의 클릭 가닥의 시퀀싱된 A 염기에 대해 메틸화되는 결정된 확률을 보여준다. 도 39a는 훈련 데이터세트를 보여주고, 도 39b는 시험 데이터세트를 보여준다. 도면 둘 다는 y축에 메틸화의 확률을 작도한다. 도 39a 및 도 39b는, CNN 모델에 기초하여, 클릭 가닥 관련된 데이터에 대해, mA 데이터베이스로부터의 주형 DNA 분자에서의 시퀀싱된 A 염기는 uA 데이터베이스에 존재하는 이 A 염기와 비교하여 훈련 데이터세트 및 시험 데이터세트 둘 다에서 훨씬 더 높은 메틸화 확률을 생성시켰다는 것을 보여준다(P 값 < 0.0001; 만 휘트니 U 시험).
도 40은 클릭 가닥의 시퀀싱된 A 염기에 대한 측정 윈도우 기반 CNN 모델을 사용한 6mA 검출의 수행을 보여준다. 진양성율은 y축에 있다. 위양성율은 x축에 있다. 도 40은 CNN 모델을 사용한 메틸화가 있는 시퀀싱된 A 부위 및 없는 것을 구별하는 데 있어서 AUC 값이 훈련 데이터세트 및 시험 데이터세트에 대해 0.95 및 0.94이고, 이는 각각 클릭 가닥 시퀀싱 결과로 이루어졌다는 것을 보여준다. 본원에 개시된 CNN 접근법을 이용한 수행(AUC: 0.94)은 오직 IPD 메트릭을 사용하는 것보다 우수한(0.87)(P 값 < 0.0001) 것으로 또한 나타났다. 결과는 클릭 가닥의 데이터를 사용하여 A 부위에서 메틸화 상태를 결정하기 위해 본원에서의 개시내용을 사용하는 것이 실행 가능하다고 제시하였다. 본 발명자들이 컷오프로서 0.5의 메틸화의 결정된 확률을 사용하면, 6mA 검출에 99.3% 특이성 및 83.0% 민감도가 달성될 수 있었다. 도 40은 측정 윈도우 기반 CNN 모델이 높은 특이성 및 민감도로 6mA를 검출하기 위해 사용될 수 있다는 것을 보여준다.
도 41은 왓슨 가닥 및 클릭 가닥을 포함하는 분자에서의 A 염기에 걸친 메틸화 상태의 예를 보여준다. 흰색의 점은 비메틸화된 아데닌을 나타낸다. 검정색의 점은 메틸화된 아데닌을 나타낸다. 점을 갖는 수평 선은 이중 가닥 DNA 분자의 가닥을 나타낸다. 분자 1은 왓슨 가닥 및 클릭 가닥 둘 다가 A 염기에 걸쳐 비메틸화된 것으로 결정된다는 것을 보여준다. 분자 2는 왓슨 가닥이 거의 모두 비메틸화되지만, 클릭 가닥이 거의 모두 메틸화된다는 것을 보여준다. 분자 3은 왓슨 가닥 및 클릭 가닥 둘 다가 A 염기에 걸쳐 거의 모두 메틸화된 것으로 결정되었다는 것을 보여준다.
2. 선택적인 데이터세트를 사용한 향상된 훈련
도 36a, 도 36b, 도 39a 및 도 39b에 도시된 것처럼, mA 데이터세트에서 주형 DNA 분자에서 시퀀싱된 A 염기에 걸쳐 메틸화의 확률의 이봉 분포가 있었다. 바꾸어 말하면, mA 데이터세트에서 uA 신호를 갖는 일부 분자가 존재하였다. 이는 mA 데이터세트에서 완전히 비메틸화된 분자 및 반메틸화된 분자의 존재에 의해 추가로 입증되었다(도 41). 하나의 가능한 이유는 6mA를 갖는 분자가 전장 게놈 증폭 단계 동안 DNA를 증폭시키는 것의 효율의 감소로 이어지면서 DNA 주형에서 uA를 갖는 분자가 전장 게놈 증폭 후 mA 데이터세트에서 상당한 부분을 여전히 처리할 것이라는 것일 수 있다. 이 설명은 6mA로 증폭된 1 ng의 게놈 DNA가 오직 10 ng의 DNA 산물로 이어질 것인 반면, 비메틸화된 A로 증폭된 1 ng의 게놈 DNA가 동일한 증폭 조건 하에 100 ng의 DNA 산물을 생성시킬 것이라는 사실에 의해 제시되었다. 따라서, mA 데이터세트에 대해, 아데닌이 보통 비메틸화된 원래의 주형 DNA 분자(예를 들어, 0.051%)(문헌[Xiao CL et al. Mol Cell. 2018;71:306-318])가 총 아데닌의 대략 10%를 차지할 것이다.
일 실시형태에서, mA와 uA 사이를 구별하기 위해 CNN 모델을 훈련하도록 시도할 때, mA 검출에 대한 모델의 훈련에 대한 uA 데이터의 영향을 감소시키도록 mA 데이터세트에서 비교적 더 높은 IPD 값을 갖는 A 염기를 선택적으로 사용할 것이다. IPD 값이 소정의 컷오프 값보다 높은 A 염기만이 사용될 수 있다. 컷오프 값은 백분위에 상응할 수 있다. 일 실시형태에서, 10 백분위에서의 값보다 높은 IPD 값을 갖는 mA 데이터세트에서 A 염기를 사용할 것이다. 일부 실시형태에서, IPD 값이 1, 5, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 95 백분위에서의 값을 초과하는 A를 사용할 것이다. 백분위는 기준 샘플 또는 다수의 기준 샘플들에서 모든 핵산 분자로부터의 데이터에 기초할 수 있다.
도 42는 IPD 값이 10 백분위보다 높은 mA 데이터세트에서의 A 염기를 선택적으로 사용함으로써 향상된 훈련에 의한 수행을 보여준다. 도 42는 y축에 진양성율을 보여주고 x축에 위양성율을 보여준다. 도면은, CNN 모델을 훈련시키기 위해 IPD 값이 10 백분위보다 높은 mA 데이터세트에서의 A 염기의 사용에 의해, mA 염기와 uA 염기 사이를 구별하는 데 있어서의 AUC는 0.98로 증가할 것이고, 이는 훈련 전에 IPD 값에 따라 선택 없이 데이터에 의해 훈련된 모델(AUC: 0.94)보다 우수하다는 것을 보여준다. 훈련 데이터세트를 생성하기 위해 IPD 값을 이용한 mA 부위의 선택이 분별력을 개선하는 데 도움이 될 것이라고 제시되었다.
데이터세트에서 uA 염기를 갖는 분자의 존재를 추가로 확인하기 위해, 본 발명자들은 분자에 존재하는 6mA가 6mA가 없는 분자와 비교하여 새로운 가닥을 생성할 때 중합효소 연장을 느리게 하면서 mA 데이터세트에서의 uA의 백분율이 더 많은 하위판독물을 갖는 웰에서 농후화될 것이라는 것을 가정하였다.
도 43은 각각의 웰에서의 하위판독물의 수에 대한 mA 데이터세트에서의 비메틸화된 아데닌의 백분율의 그래프를 보여준다. y축은 mA 데이터세트에서의 uA의 백분율을 보여준다. x축은 각각의 웰에서의 하위판독물의 수를 보여준다. 시험 데이터세트는 IPD 값이 10 백분위보다 낮은 A 부위의 제거 후 mA 부위의 사용에 의해 훈련된 향상된 모델을 사용하여 재분석되었다. UA의 점진적인 증가(즉, 14.6%에서 55.05%로 상승)는 시퀀싱 웰당 1개 내지 10개의 하위판독물에서 웰당 10개 내지 20개의 하위판독물, 웰당 40개 내지 50개의 하위판독물, 웰당 60개 내지 70개의 하위판독물 및 70개 초과를 포함하여 증가된 웰당 하위판독물의 수로 관찰되었다. 따라서, 높은 수의 하위판독물을 갖는 웰은 낮은 mA를 갖는 경향이 있다. A의 메틸화는 시퀀싱 반응의 진행을 지연시킬 수 있다. 그러므로, 높은 하위판독물 깊이를 갖는 시퀀싱 웰이 A와 관련하여 아마도 더 비메틸화될 것이다. 이 거동은 분자와 연관된 하위판독물의 수에 대해 컷오프 값을 사용한 비메틸화된 분자의 검출에 이용될 수 있고, 예를 들어 70개 초과의 하위판독물은 다수의 비메틸화된 것으로서 확인될 수 있다.
도 44는 시험 데이터세트에서의 이중 가닥 DNA 분자의 왓슨 가닥과 클릭 가닥 사이의 메틸아데닌 패턴을 보여준다. A의 메틸화는 비대칭이고, 이에 따라 거동은 2개의 가닥 사이에 상이하다. 대부분의 분자는 mA의 도입으로 인해 메틸화되었고, 약간의 잔류 비메틸화된 A가 있었다. y축은 클릭 가닥의 메틸아데닌 수준을 보여준다. x축은 왓슨 가닥의 메틸아데닌 수준을 보여준다. 각각의 점은 이중 가닥 분자를 나타낸다. 선택된 mA 부위에 의해 훈련된 향상된 모델을 이용하여, 이중 가닥 분자는 하기와 같이 각각의 가닥의 메틸화 수준에 따라 상이한 그룹으로 분류될 수 있다:
(a) 이중 가닥 DNA 분자에 대해, 왓슨 가닥 및 클릭 가닥의 메틸아데닌 수준은 둘 다 0.8 초과였다. 이러한 이중 가닥 분자는 아데닌 부위와 관련하여 완전히 메틸화된 분자로 정의되었다(도 44, 영역 A). 가닥의 메틸아데닌 수준은 그 가닥에서의 총 A 부위 중에서 메틸화된 것으로 결정된 A 부위의 백분율로서 정의되었다.
(b) 이중 가닥 DNA 분자에 대해, 하나의 가닥의 메틸아데닌 수준은 0.8보다 크지만, 다른 가닥은 0.2보다 낮았다. 이러한 분자는 아데닌 부위와 관련하여 반메틸화된 분자로 정의되었다(도 44, 영역 B1 및 B2).
(c) 이중 가닥 DNA 분자에 대해, 왓슨 가닥 및 클릭 가닥의 메틸아데닌 수준은 둘 다 0.2 미만이었다. 이러한 이중 가닥 분자는 아데닌 부위와 관련하여 완전히 비메틸화된 분자로 정의되었다(도 44, 영역 C).
(d) 이중 가닥 DNA 분자에 대해, 왓슨 가닥 및 클릭 가닥의 메틸아데닌 수준은 그룹 a, b 및 c에 속하지 않았다. 이러한 이중 가닥 분자는 아데닌 부위와 관련하여 혼성적인 메틸화 패턴을 갖는 분자로 정의되었다(도 44, 영역 D). 혼성적인 메틸화 패턴은 DNA 가닥에 존재하는 메틸화된 아데닌과 비메틸화된 아데닌의 혼합물로서 정의되었다.
일부 다른 실시형태에서, 비메틸화된 가닥을 정의하기 위한 메틸아데닌 수준의 컷오프는 0.01, 0.05, 0.1, 0.2, 0.3, 0.4, 및 0.5 미만일 수 있지만, 이들로 제한되지는 않는다. 메틸화된 가닥을 정의하기 위한 메틸아데닌 수준의 컷오프는 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 및 0.99 초과일 수 있지만, 이들로 제한되지는 않을 것이다.
도 45는 훈련 데이터세트 및 시험 데이터세트에서의 완전히 비메틸화된 분자, 반메틸화된 분자, 완전히 메틸화된 분자 및 혼성적인 틸아데닌 패턴을 갖는 분자의 백분율을 보여주는 표이다. 시험 데이터세트에서의 분자는 아데닌 부위, 반메틸화된 분자(9.8%), 완전히 메틸화된 분자(79.4%) 및 혼성적인 메틸아데닌 패턴을 갖는 분자(3.7%)와 관련하여 완전히 비메틸화된 분자(7.0%)로 분류될 수 있다. 이 결과는 훈련 데이터세트에서 나타난 결과와 필적하였고, 이에 대해 아데닌 부위, 반메틸화된 분자(10.0%), 완전히 메틸화된 분자(79.4%) 및 혼성적인 메틸아데닌 패턴을 갖는 분자(3.6%)와 관련하여 완전히 비메틸화된 분자(7.0%)가 있었다.
도 46은 아데닌 부위에 관하여 완전히 비메틸화된 분자, 반메틸화된 분자, 완전히 메틸화된 분자 및 혼성적인 틸아데닌 패턴을 갖는 분자에 의한 분자에 대한 대표적인 예를 예시한다. 흰색의 점은 비메틸화된 아데닌을 나타낸다. 검정색의 점은 메틸화된 아데닌을 나타낸다. 점을 갖는 수평 선은 이중 가닥 DNA 분자의 가닥을 나타낸다.
실시형태에서, CNN 모델을 훈련하기 위해 사용된 6mA 염기의 순도를 증가시켜 메틸화된 아데닌과 비메틸화된 아데닌 사이를 구별하는 데 수행을 개선할 수 있다. 이를 위해, 증가된 새로 제조된 DNA 산물이 원래의 DNA 주형으로부터 기여된 비메틸화된 아데닌의 효과를 희석할 수 있도록 DNA 증폭 반응의 시간 기간을 증가시킬 수 있다. 다른 실시형태에서, 6mA를 갖는 DNA 증폭 동안 비오티닐화 염기를 도입할 수 있다. 6mA를 갖는 새로 제조된 DNA 산물은 스트렙타비딘 코팅된 자기 비드를 사용하여 당겨지거나 농후화될 수 있다.
3. 6 mA 메틸화 프로필의 사용
DNA 6mA 변형은 박테리아, 고세균, 원생생물 및 진균의 게놈에 존재한다(문헌[Didier W et al. Nat Rev Micorbiol. 2009;4:183-192]). 6mA가 인간 게놈에 존재하여서, 총 아데닌의 0.051%를 차지한다는 것이 또한 보고되었다(문헌[Xiao CL et al. Mol Cell. 2018;71:306-318]). 인간 게놈에서의 6mA의 낮은 함량을 고려하여, 일 실시형태에서, 전장 게놈 증폭의 단계에서 dNTP 믹스(N은 비변형된 A, C, G 및 T를 나타냄)에서 6mA의 비율을 조정하여 훈련 데이터세트를 생성할 수 있다. 예를 들어, 1:10, 1:100, 1:1000, 1:10000, 1:100000, 또는 1:1000000의 6mA 대 dNTP의 비율을 사용할 수 있었다. 다른 실시형태에서, 아데닌 DNA 메틸전환효소 M. EcoGII는 6mA 훈련 데이터세트를 생성하도록 사용될 수 있다.
6mA의 양은 위암 및 간암 조직에서 낮고, 이 6mA 하향조절은 증가된 종양형성과 상관되었다(문헌[Xiao CL et al. Mol Cell. 2018;71:306-318]). 다른 한편, 더 높은 수준의 6mA가 교모세포종에 존재한다는 것이 보고되었다(문헌[Xie et al. Cell. 2018;175:1228-1243]). 따라서, 본원에 개시된 바와 같은 6mA에 대한 접근법은 암 유전체학의 연구에 유용할 것이다(문헌[Xiao CL et al. Mol Cell. 2018;71:306-318]; 문헌[Xie et al. Cell. 2018;175:1228-1243]). 또한, 6mA는 포유류 미토콘드리아 DNA에서 보다 우세하고 풍부한 것으로 발견되어서, 저산소증과의 연관을 보여준다(문헌[Hao Z et al. Mol Cell. 2020]; doi:10.1016/j.molcel.2020.02.018). 따라서, 본 개시내용에서 6mA 검출에 대한 접근법은 임신, 암 및 자가면역 질환과 같은 상이한 임상 병태 하에 미토콘드리아 스트레스 반응의 연구에 유용할 것이다.
IV. 결과 및 분야
A. 메틸화의 검출
상기 기재된 방법을 이용한 CpG 부위에서의 메틸화의 검출은 상이한 생물학적 샘플 및 게놈 영역에 수행되었다. 일례로서, 단일 분자 실시간 시퀀싱을 사용한 임신한 여성의 혈장에서의 무세포 DNA에 의한 메틸화 결정은 바이설파이트 시퀀싱을 사용한 메틸화 결정에 대해 검증되었다. 메틸화 결과는 카피수의 결정 및 장애의 진단을 포함하는 상이한 분야에 사용될 수 있다. 하기 기재된 방법은 CpG 부위로 제한되지 않고, 본원에 기재된 임의의 변형에 또한 적용될 수 있다.
1. 태반 조직에서의 긴 DNA 분자에 대한 메틸화의 검출
단일 분자 실시간 시퀀싱은 DNA 분자 킬로염기 길이를 시퀀싱할 수 있었다(문헌[Nattestad et al., 2018]). 본원에 기재된 발명을 사용한 CpG 부위에 대한 메틸화 상태의 해독은 단일 분자 실시간 시퀀싱의 긴 판독물 정보를 상승적으로 사용하여 메틸화 상태의 일배체형 정보를 추론하도록 허용할 것이다. 긴 판독물 메틸화 상태 및 이의 일배체형 정보의 추론의 실행 가능성을 입증하기 위해, 본 발명자들은 28,913,838개의 하위판독물에 의해 커버된 478,739개의 분자를 갖는 태반 조직 DNA를 시퀀싱하였다. 5 kb 크기 초과의 7개의 분자가 있었다. 각각은 평균적으로 3개의 하위판독물에 의해 커버되었다.
도 47은 ZMW 홀 번호 m54276_180626_162240/40763503으로 ZMW에서 시퀀싱되고 인간 게놈에서 chr1:113246546-113252811의 게놈 위치에 맵핑된 6,265 bp 크기를 갖는 긴 DNA 분자(즉, 일배체형 블록)에 따른 메틸화 상태를 보여준다. '-'는 비-CpG 뉴클레오타이드를 나타내고; 'U'는 CpG 부위에서의 비메틸화된 상태를 나타내고; 'M'은 CpG 부위에서의 메틸화된 상태를 나타낸다. 영역 4710은 일반적으로 비메틸화된 것으로 공지된 황색 표시된 CpG 섬 영역에서 강조되었다(도 47). 그 CpG 섬에서의 대부분의 CpG 부위는 비메틸화된 것(96%)으로 추론되었다. 이에 반해서, CpG 섬 밖의 CpG 부위의 75%는 비메틸화된 것으로 추론되었다. 이 결과는 CpG 섬 밖(예를 들어, CpG 섬 기슭/상단)의 메틸화 수준이 CpG 섬의 것보다 높다는 것을 제시하였다. 그 CpG 섬 밖의 영역에서의 일배체형 배열에서의 메틸화된 상태와 비메틸화된 상태의 혼합물이 메틸화 패턴의 가변성을 나타낼 것이다. 이러한 관찰은 일반적으로 현재의 이해와 일치하였다(문헌[Zhang et al., 2015]; 문헌[Feinberg and Irizarry, 2010]). 따라서, 본 개시내용은 메틸화 상태 및 비메틸화 상태를 포함하는 긴 분자에 걸쳐 상이한 메틸화 상태를 호출하는 것이 가능하게 하고, 이는 메틸화 상태의 일배체형 정보가 페이징될 수 있다는 것을 암시한다. 일배체형 정보는 DNA의 인접한 스트레치에 대한 CpG 부위의 메틸화 상태의 연결을 지칭한다.
일 실시형태에서, 본 발명자들은 각인된 영역을 검출하고 분석하기 위해 일배체형을 따라 메틸화 상태를 분석하기 위한 본원에서의 이 접근법을 이용할 수 있었다. 각인된 영역은 부모 기원 방식으로 메틸화 상태를 야기하는 후성적 조절로 처리된다. 예를 들어, 하나의 중요한 각인된 영역은 인간 염색체 11p15.5에 위치하고, 각인된 유전자 IGF2, H19 및 CDKN1C(P57 kip2 )를 함유하는데, 이들은 태아 성장의 강한 조절자이다(문헌[Brioude et al, Nat Rev Endocrinol. 2018;14:229-249]). 각인된 영역에서의 유전적 비정상 및 후성적 비정상은 질환과 연관될 것이다. 벡위트-비데만 증후군(BWS: Beckwith-Wiedemann syndrome)은 환자가 유아기 동안에 대설증, 비정상 벽 결함, 편측성 비대, 복부 장기 확대 및 배아 종양의 위험 증가를 대개 제시하는 과성장 증후군이다. BWS는 11p15.5 영역 내의 유전적 결함 또는 후성적 결함에 의해 생기는 것으로 여겨진다(문헌[Brioude et al, Nat Rev Endocrinol. 2018;14:229-249]). H19IGF2 사이에 배치된 ICR1(각인 제어 영역 1)이라 불리는 영역은 부계 대립유전자에 다르게 메틸화된다. ICR1은 IGF2의 기원 특이적 발현의 부모를 지시한다. 따라서, ICR1에서의 유전적 비정상 및 후성적 비정상은 BWS을 야기하는 가능한 이유 중 하나인 IGF2의 비정상 발현으로 이어질 것이다. 따라서, 각인된 영역을 따른 메틸화 상태의 검출은 임상 유의성을 가질 것이다.
본 발명자들은 현재 보고된 각인된 유전자를 큐레이트하는 공공 데이터베이스(http://www.geneimprint.org/)로부터 92개의 각인된 유전자를 다운로드하였다. 이들 각인된 유전자의 5-kb 상류 및 하류 영역은 추가의 분석에 사용되었다. 이들 영역 중에서, 160개의 CpG 섬은 이 각인된 유전자와 연관된다. 본 발명자들은 태반 샘플로부터 324,248개의 원형 공통 서열을 얻었다. CpG 섬을 갖는 낮은 품질 및 짧은 중첩된 영역(예를 들어, 그 관련 CpG 섬의 길이의 50% 미만)을 갖는 원형 공통 서열을 제거한 후, 본 발명자들은 8개의 각인된 유전자에 상응하는 9개의 CpG 섬과 중첩하는 9개의 원형 공통 서열을 얻었다.
도 48은 9개의 DNA 분자가 단일 분자 실시간 시퀀싱에 의해 시퀀싱되고 H19, WT1-AS, WT1, DLK1, MEG3, ATP10A, LRRTM1 및 MAGI2를 포함하는 각인된 영역과 중첩된다는 것을 보여주는 표이다. 제6 열은 각인된 영역을 수반하는 CpG 섬과 중첩하는 DNA 스트레치를 함유하였다. 'U'는 CpG 콘텍스트에서의 비메틸화된 시토신을 나타내고; 'M'은 CpG 콘텍스트에서의 메틸화된 시토신을 나타낸다. '*'은 시퀀싱 결과에서 커버되지 않은 CpG 부위를 나타내고; '-'는 비-CpG 부위로부터의 뉴클레오타이드를 나타내고; 유전자형은 분자가 단일 뉴클레오타이드 다형(SNP)과 중첩하면 괄호 내에 표시된다. 제7 열은 전체 분자에 대한 메틸화 상태를 나타낸다. 분자는 다수(예를 들어, 50% 초과)의 CpG 부위가 본 개시내용에 존재하는 실시형태에 따라 메틸화된 것으로 나타나면 메틸화된 것으로 칭해질 수 있고; 그렇지 않으면 이것은 비메틸화된 것으로 칭해질 것이다.
9개의 DNA 분자 중에서, 5개의 DNA 분자(55.6%)는 메틸화라 불렸고, 이것은 DNA 분자의 50%가 메틸화된다는 예상으로부터 상당히 벗어나지 않았다. 도 48의 표의 제6 열에 도시된 것처럼, 다수의 CpG 부위는 구체적인 방식으로, 즉 메틸화 일배체형으로서 메틸화 또는 비메틸화된 것으로 나타났다. 일 실시형태는 분자가 다수(예를 들어, 50% 초과)의 CpG 부위가 본 개시내용에 존재하는 실시형태에 따라 메틸화된 것으로 나타나면 메틸화된 것으로 칭해질 수 있고; 그렇지 않으면 이것이 비메틸화된 것으로 칭해질 것이라는 것이다. 분자가 메틸화되는지 또는 아닌지를 결정하기 위한 다른 컷오프가 사용될 수 있고, 예를 들어 비제한적인 예로서 분자에서의 CpG 부위의 적어도 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 및 100%는 메틸화되는 것으로 분석되었다.
다른 실시형태에서, 본 발명자들은 영역이 각인된 영역과 연관되는지 또는 공지된 각인된 유전자가 비정상(예를 들어, 각인의 소실)인지를 결정하기 위해 적어도 하나의 SNP 및 적어도 하나의 CpG 부위 분석을 동시에 포함하는 분자를 사용할 수 있었다. 예시 목적을 위해, 도 49는 각인 영역으로부터의 제1 분자가 대립유전자 'A'를 보유하고; 각인 영역으로부터의 제2 분자가 대립유전자 'G'를 보유한다는 것을 보여준다. 각인 영역이 부계로 각인됨을 추정하여, 모계 일배체형으로부터의 제1 분자는 완전히 비메틸화되고; 부계 일배체형으로부터의 제2 분자는 완전히 메틸화되었다. 일 실시형태에서, 이러한 추정은 메틸화 상태의 실측 자료를 제공하여서, 본 개시내용에 존재하는 실시형태에 따른 염기 변형 검출의 수행의 시험을 허용할 것이다.
도 49는 각인된 영역에서의 메틸화 패턴의 결정에 대한 예를 보여준다. 생물학적 샘플에서의 DNA는 원형 DNA 분자를 형성하기 위해 추출되고 헤어핀 어댑터로 결찰되었다. 이들 원형 DNA 분자에 관한 서열 정보 및 염기 변형(예를 들어, CpG 부위에서의 메틸화 상태)은 공지되지 않았다. 이 원형 DNA 분자는 단일 분자 실시간 시퀀싱으로 처리되었다. 이 원형 DNA 분자로부터 생긴 각각의 하위판독물에서의 염기에 대한 IPD, PW 및 서열 콘텍스트는 하위판독물이 기준 게놈으로 맵핑된 후 결정되었다. 또한, 이 분자의 유전자형이 결정되었다. CG 부위와 연관된 측정 윈도우에서의 IPD, PW 및 서열 콘텍스트는 각각의 CpG에 대한 메틸화 상태를 결정하기 위해 본 개시내용에 존재하는 실시형태에 따른 기준 동역학 패턴과 비교될 것이다. 상이한 대립유전자를 갖는 2개의 분자가 하나가 완전히 비메틸화되고, 다른 것이 완전히 메틸화되는 방식으로 상이한 메틸화 패턴을 나타내면, 이들 2개의 분자와 연관된 게놈 영역이 각인된 영역일 것이다. 일 실시형태에서, 이러한 게놈 영역이 예를 들어 도 49에 예시된 것처럼 공지된 각인된 영역에 발생하면, 이들 2개의 분자에 대한 메틸화 패턴은 정상 상황에서 예상된 메틸화 패턴(즉, 실측 자료)과 일치하였다. 이것은 본 개시내용에 존재하는 실시형태에 따라 메틸화 상태의 분류를 위한 방법의 정확성을 제시할 수 있다. 일 실시형태에서, 본 개시내용에 존재하는 실시형태에 따른 측정된 메틸화 패턴과 예상된 메틸화 패턴 사이의 편차는 각인의 비정상, 예를 들어 각인의 소실을 나타낼 것이다.
도 50은 각인된 영역에서의 메틸화 패턴의 결정에 대한 예를 보여준다. 일 실시형태에서, 각인 패턴은 소정의 가계 나무에 걸쳐 그 영역의 메틸화 패턴의 분석을 통해 추가로 결정될 수 있었다. 예를 들어, 부계, 모계 게놈 및 자손에 걸친 메틸화 패턴 및 대립유전자 정보의 분석이 수행될 수 있었다. 이러한 가계 나무는 부계 또는 모계 할아버지, 부계 또는 모계 할머니의 게놈 또는 다른 관련 게놈을 추가로 포함할 수 있었다. 다른 실시형태에서, 이러한 분석은 소정의 집단에서 가족 트리오(엄마, 아빠 및 아동) 데이터세트로 연장될 수 있어서, 예를 들어 본원에 제시된 실시형태에 따라 각각의 개체에 대한 메틸화 및 유전자형 정보를 얻는다.
분류 후 도시된 것처럼, 유전자형(박스에서의 대립유전자) 및 메틸화 상태 둘 다가 결정될 수 있다. 각각의 분자에 대해, 분자가 어떤 부모에서 유전되는지를 확인하기 위해 각각의 부위에서의 메틸화 패턴(예를 들어, 모든 메틸화 또는 모든 비메틸화)이 제공될 수 있다. 그렇지 않으면, 메틸화 밀도는 결정될 수 있고, 하나 이상의 컷오프는 분자가 과메틸화(예를 들어, > 80% 또는 다른 % 및 일 부모로부터) 또는 저메틸화(예를 들어, <20% 또는 다른 % 및 다른 부모로부터)되는지를 분류할 수 있다.
2. cfDNA 분자에 대한 메틸화의 검출
다른 예로서, 무세포 DNA(cfDNA) 메틸화는 비침습적 태아기 시험에 대해 중요한 분자 신호로서 또한 점점 더 인식되고 있다. 예를 들어, 본 발명자들은 조직 특이적 메틸화를 보유하는 영역으로부터의 cfDNA 분자가 임신한 여성의 혈장에서 호중구, T 세포, B 세포, 간, 태반과 같은 상이한 조직으로부터의 비례적 기여를 걸정하는 데 사용될 수 있다는 것을 보여주었다(문헌[Sun et al., 2015]). 삼염색체성 21을 검출하기 위해 임신한 여성의 혈장 DNA 메틸화를 사용하는 것의 실행 가능성이 또한 입증되었다(문헌[Lun et al., 2013]). 모계 혈장에서의 cfDNA 분자는 166 bp의 중앙치 크기로 단편화되었고, 이는 대략 500 bp 크기를 갖는 인공으로 단편화된 이. 콜라이 DNA보다 훨씬 더 짧다. cfDNA가 예컨대 태반으로부터의 조직 기원과 연관되어 혈장 DNA의 말단 모티프와 같이 비무작위로 단편화된다는 것이 보고되었다. 무세포 DNA의 이러한 특징적인 특성은 인공적으로 단편화된 이. 콜라이 DNA로부터 극도로 상이한 서열 콘텍스트를 제공한다. 따라서, 이러한 중합효소 동역학이 전형적으로 무세포 DNA 분자에 대해 메틸화 수준의 정량적 추론을 허용하는지는 비공지된 채 있다. 이 특허 출원에서의 개시내용은 예를 들어 상기 언급된 조직 DNA 분자로부터 훈련된 메틸화 예측 모델을 사용하여 임신한 여성의 혈장에서 무세포 DNA 메틸화 분석에 적용 가능하지만, 이들로 제한되지는 않을 것이다.
단일 분자 실시간 시퀀싱을 이용하여, 남성 태아를 갖는 임신한 여성의 6개의 혈장 DNA 샘플은 111,834개의 CCS(범위: 61,010개 내지 503,582개)의 중앙치에 상응하는 30,738,399개의 하위판독물(범위: 1,431,215개 내지 105,835,846개)의 중앙치로 시퀀싱되었다. 각각의 혈장 DNA는 262개(범위: 173개 내지 320개)의 중앙치로 시퀀싱되었다. 데이터세트는 Sequel I Sequencing Kit 3.0에 의해 제조된 DNA로부터 생성되었다.
cfDNA 분자에 대한 메틸화의 검출을 평가하기 위해, 본 발명자들은 임신한 여성의 상기 언급된 6개의 혈장 DNA 샘플의 메틸화를 분석하기 위해 바이설파이트 시퀀싱을 사용하였다(문헌[Jiang et al., 2014]). 본 발명자들은 6600만개의 짝을 이룬 말단 판독물(5800만개-8200만개의 짝을 이룬 말단 판독물)의 중앙치를 얻었다. 중앙치 전체 메틸화는 69.6%(67.1% 내지 72.0%)인 것으로 발견되었다.
도 51은 새로운 접근법 및 종래의 바이설파이트 시퀀싱에 의해 추론된 메틸화 수준의 비교를 보여준다. y축은 이 특허 출원에 제시된 실시형태에 따라 예측된 메틸화 수준이다. x축은 바이설파이트 시퀀싱에 의해 추론된 메틸화 수준이다. 314,675개의 CpG 부위(범위: 144,546개 내지 1,382,568개)의 중앙치는 단일 분자 실시간 시퀀싱으로부터 생성된 혈장 DNA 결과에 대해 분석되었다. 메틸화된 것으로 예측된 CpG 부위의 중앙치 비율은 64.7%이고(범위: 60.8-68.5%), 이는 바이설파이트 시퀀싱으로부터 추론된 결과와 필적하는 것으로 보였다. 도 51에 도시된 것처럼, 본 메틸화 예측 접근법에 의한 단일 분자 실시간 시퀀싱 및 바이설파이트 시퀀싱에 의해 추론된 전체 메틸화 수준 사이에 양호한 상관관계(r: 0.96, p-값=0.0023)가 있었다.
바이설파이트 시퀀싱의 얇은 깊이 때문에, 이는 인간 게놈에서 각각의 CpG에 대해 메틸화 수준(즉, 메틸화되는 시퀀싱된 CpG의 분획)을 추론하기에 튼튼하지 않을 것이다. 대신에, 본 발명자들은 임의의 2개의 연속적 CpG 부위가 50 nt 내에 있고 CpG 부위의 수가 적어도 10인 게놈 영역의 CpG 부위를 커버하는 판독물 신호를 종합하여 다수의 CpG 부위를 갖는 일부 영역에서 메틸화 수준을 계산하였다. 특정 영역에서의 CpG 부위에 걸친 시퀀싱된 시토신 및 티민의 합 중에서 시퀀싱된 시토신의 백분율은 그 영역의 메틸화 수준을 나타냈다. 그 영역은 구역상 메틸화 수준에 따라 상이한 그룹으로 분할되었다. 이전의 훈련 데이터세트(즉, 조직 DNA)로부터 학습된 모델에 의해 예측된 메틸화의 확률은 따라서 표시된 메틸화 수준으로서 상승되었다(도 52a). 이 결과는 임신한 여성에서 cfDNA 분자의 메틸화 상태를 예측하기 위해 단일 분자 실시간 시퀀싱의 실행 가능성 및 타당성을 추가로 제시하였다. 도 52b는 본 개시내용에 존재하는 실시형태에 따라 단일 분자 실시간 시퀀싱을 이용하여 추정된 10-Mb 게놈 윈도우에서의 메틸화 수준이 바이설파이트 시퀀싱에 의한 것에 의해 잘 보정된다는 것을 보여준다(r = 0.74; p-값 < 0.0001)
도 53은 단일 분자 실시간 시퀀싱에 의해 측정된 임신한 여성의 모계 혈장에서의 Y 염색체의 게놈 표시(GR)가 BS-seq에 의해 측정된 것과 잘 상관된다(r = 0.97; P-값 = 0.007)는 것을 보여주었다. 이 결과는 단일 분자 실시간 시퀀싱이 비조혈 조직, 예컨대 태반에서 기원한 DNA 분자의 정확한 정량화를 허용할 것이라는 것을 또한 제시하였고, 이의 기여된 DNA는 일반적으로 소수를 나타냈다. 바꾸어 말하면, 본 개시내용은 시퀀싱 전에 임의의 염기 전환 및 증폭 없이 자연적 분자에 대해 카피수 비정상 및 메틸화 상태를 동시에 분석하기 위한 실행 가능성을 입증하였다.
3. CpG 블록 기반 방법
일부 실시형태는 다수의 CpG 부위, 예를 들어 비제한적인 예로서 2개, 3개, 4개, 5개, 10개, 20개, 30개, 40개, 50개, 100개의 CpG 부위 등을 보유하는 다수의 게놈 영역에 대한 메틸화 분석을 수행할 수 있다. 이러한 게놈 영역의 크기는 예를 들어 50, 100, 200, 300 및 500 nt 등일 수 있지만, 이들로 제한되지는 않는다. 이 영역에서의 CpG 부위 사이의 거리는 예를 들어 10, 20, 30, 40, 50, 100, 200, 300 nt 등일 수 있지만, 이들로 제한되지는 않는다. 일 실시형태에서, 본 발명자들은 이 블록에서의 CpG 부위의 수가 10 초과이도록 CpG 블록을 형성하기 위해 50 nt 내에 임의의 2개의 연속적 CpG 부위를 통합할 수 있었다. 이러한 블록 기반 방법에서, 다수의 영역은 단일 행렬로 표시된 하나의 윈도우로 조합될 수 있어서, 영역들을 함께 효과적으로 처리할 수 있다.
일례로서, 도 54에 도시된 것처럼, CpG 블록과 연관된 모든 하위판독물의 동역학은 메틸화 분석에 사용되었다. 그 블록에서의 각각의 CpG에서 측접시키는 상류 및 하류 10 nt의 예상된 IPD 프로필은 평균 IPD 프로필을 계산하기 위해 CpG 부위에 대해 인공적으로 정렬되었다(도 54). 단어 "예상된"은 본 발명자들이 하위판독물 동역학 신호를 각각의 상응하는 해당 CpG 부위에 정렬하였다는 것을 의미한다. CpG 블록에 대한 평균 IPD 프로필은 각각의 블록에 대해 메틸화 상태를 확인하기 위해 모델(예를 들어, 인공 신경망, 간단히 ANN을 사용)을 훈련하기 위 해 사용되었다. ANN 분석은 입력 층, 2개의 은폐 층 및 출력 층을 포함하였다. 각각의 CpG 블록은 ANN에 입력되는 21개의 IPD 값의 특징 벡터를 특징으로 하였다. 제1 은폐 층은 활성화 함수로서 ReLu를 갖는 10개의 뉴런을 포함하였다. 제2 은폐 층은 활성화 함수로서 ReLu를 갖는 5개의 뉴런을 포함하였다. 마지막으로, 출력 층은 메틸화의 확률을 출력하는 활성화 함수로서 S자형으로 1개의 뉴런을 포함하였다. 메틸화 > 0.5의 확률을 보여주는 CpG 부위는 메틸화로 여겨지고, 그렇지 않으면 비메틸화로 여겨졌다. 평균 IPD 프로필은 전체 분자의 메틸화 상태를 분석하기 위해 사용될 수 있다. 한계치(예를 들어, 0, 1, 2, 3 등) 초과의 소정의 수의 부위가 메틸화되면 또는 분자가 소정의 메틸화 밀도를 가지면 전체 분자는 메틸화된다고 여겨질 수 있다.
비메틸화된 라이브러리 및 메틸화된 라이브러리에서 9,678개 및 9,020개의 CpG 블록이 있었고, 이들의 각각은 적어도 10개의 CpG 부위를 보유하였다. 이 CpG 블록은 비메틸화된 라이브러리 및 메틸화된 라이브러리에 대해 176,048개 및 162,943개의 CpG 부위를 커버하였다. 도 55a 도 55b에 도시된 것처럼, 본 발명자들은 훈련 데이터세트 및 시험 데이터세트 둘 다에서 메틸화 상태를 예측하는 데 있어서의 전체 정확성의 90% 초과를 달성할 수 있었다. 그러나, CpG 블록에 의존하는 이러한 실시형태는 평가될 수 있는 CpG의 수를 크게 감소시킬 것이다. 정의에 의하면, 가장 적은 수의 CpG 부위의 요건은 일부 특정 게놈 영역으로 메틸화 분석(예를 들어, 우선적으로 CpG 섬의 분석)을 제한할 것이다.
B. 기원 또는 장애의 결정
메틸화 프로필은 조직 기원을 검출하거나 장애의 분류를 결정하도록 사용될 수 있다. 메틸화 프로필 분석은 영상화, 종래의 혈액 패널 및 다른 의학 진단학적 정보를 포함하는 다른 임상 데이터와 함께 사용될 수 있다. 메틸화 프로필은 본원에 기재된 임의의 방법을 이용하여 결정될 수 있다.
1. 카피수 비정상의 결정
이 부문은 SMRT가 카피수를 결정하는 데 정확하고, 이에 따라 메틸화 프로필 및 카피수 프로필이 동시에 분석될 수 있다는 것을 보여준다.
카피수 비정상이 종양 조직의 시퀀싱에 의해 밝혀질 수 있는 것으로 나타났다(Chan (2013)). 여기서, 본 발명자들은 암 연관된 카피수 비정상이 단일 분자 실시간 시퀀싱을 사용한 종양 조직의 시퀀싱에 의해 확인될 수 있다는 것을 보여준다. 예를 들어, 사례 TBR3033에 대해, 본 발명자들은 각각 종양 DNA 및 이의 짝을 이룬 인접한 비종양 간 조직 DNA에 대해 589,435개 및 1,495,225개의 공통 서열(각각의 공통 서열을 작제하기 위해 사용된 하위판독물의 최소 요건은 5였음)을 얻었다. 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다. 일 실시형태에서, 게놈은 인실리코로 2-Mb 윈도우로 분할되었다. 각각의 윈도우에 맵핑된 공통 서열의 백분율은 계산되어 2-Mb 해상에서 게놈 표시(GR)를 생성시켰다. GR은 게놈에 걸쳐 총 서열 판독물에 의해 정규화된 위치에서 다수의 판독물에 의해 결정될 수 있다.
도 56a는 단일 분자 실시간 시퀀싱을 사용한 종양과 이의 짝을 이룬 인접한 비종양 조직 DNA 사이의 GR의 비를 보여준다. 종양 DNA 대 짝을 이룬 인접한 정상 조직 DNA 사이의 카피수 비는 y축에 도시되고, 염색체 1 내지 22를 포함하는 각각의 2-Mb 윈도우에 대한 게놈 빈 지수는 x축에 도시된다. 이 도면에 대해, 모든 2-Mb 윈도우의 95 백분위 초과의 GR의 비를 갖는 영역은 카피수 이득을 갖는 것으로 분류되는 반면, 모든 2-Mb 윈도우의 5 백분위 미만의 GR의 비를 갖는 영역은 카피수 소실을 갖는 것으로 분류되었다. 본 발명자들은 염색체 13은 카피수 손실을 보유하지만, 염색체 20은 카피수 이득을 보유한다는 것을 관찰하였다. 이러한 이득 및 손실은 정확한 결과이다.
도 56b는 바이설파이트 시퀀싱을 사용한 종양과 이의 짝을 이룬 인접한 비종양 조직 사이의 GR의 비를 보여준다. 종양 DNA 대 짝을 이룬 인접한 정상 조직 DNA 사이의 카피수 비는 y축에 도시되고, 염색체 1 내지 22를 포함하는 각각의 2-Mb 윈도우에 대한 게놈 빈 지수는 x축에 도시된다. 도 56a에서 단일 분자 실시간 시퀀싱에 의해 확인된 카피수 변화는 도 56b에서의 일치된 바이설파이트 시퀀싱 결과에서 검증되었다.
사례 TBR3032에 대해, 본 발명자들은 각각 종양 DNA 및 이의 짝을 이룬 인접한 비종양 조직 DNA에 대해 413,982개 및 2,396,054개의 공통 서열(각각의 공통 서열을 작제하기 위해 사용된 하위판독물의 최소 요건은 5였음)을 얻었다. 일 실시형태에서, 게놈은 인실리코로 2-Mb 윈도우로 분할되었다. 각각의 윈도우에 맵핑된 공통 서열의 백분율은 즉 2-Mb 게놈 표시(GR)로 계산되었다.
도 57a는 단일 분자 실시간 시퀀싱을 사용한 종양과 이의 짝을 이룬 인접한 비종양 조직 DNA 사이의 GR의 비를 보여준다. 종양 DNA 대 짝을 이룬 인접한 정상 조직 DNA 사이의 카피수 비는 y축에 도시되고, 염색체 1 내지 22를 포함하는 각각의 2-Mb 윈도우에 대한 게놈 빈 지수는 x축에 도시된다. 이 도면에 대해, 모든 2-Mb 윈도우의 95 백분위 초과의 GR의 비를 갖는 영역은 카피수 이득을 갖는 것으로 분류되는 반면, 모든 2-Mb 윈도우의 5 백분위 미만의 GR의 비를 갖는 영역은 카피수 소실을 갖는 것으로 분류되었다. 본 발명자들은 염색체 4, 6, 11, 13, 16 및 17은 카피수 손실을 보유하지만, 염색체 5 및 7은 카피수 이득을 보유한다는 것을 관찰하였다.
도 57b는 바이설파이트 시퀀싱을 사용한 종양과 이의 짝을 이룬 인접한 비종양 조직 사이의 GR의 비를 보여준다. 종양 DNA 대 짝을 이룬 인접한 정상 조직 DNA 사이의 카피수 비는 y축에 도시되고, 염색체 1 내지 22를 포함하는 각각의 2-Mb 윈도우에 대한 게놈 빈 지수는 x축에 도시된다. 도 57a에서 단일 분자 실시간 시퀀싱에 의해 확인된 카피수 변화는 도 57b에서의 일치된 바이설파이트 시퀀싱 결과에서 검증되었다.
따라서, 메틸화 프로필 및 카피수 프로필은 동시에 분석될 수 있다. 이 예시에서, 종양 조직의 종양 순도가 일반적으로 항상 100%가 아니므로, 증폭된 영역은 종양 DNA 기여를 비교적 증가시킬 것이지만, 결실된 영역은 종양 DNA 기여를 비교적 감소시킬 것이다. 종양 게놈이 전체 저메틸화로 규명되므로, 증폭된 영역은 결실된 영역과 비교하여 메틸화 수준을 추가로 증가시킬 것이다. 예시로서, 사례 TBR3033에 대해, 본 발명을 사용하여 측정된 바와 같은 염색체 22의 메틸화 수준(카피수 이득)은 48.2%이고, 이는 염색체 3의 것보다 낮았다(카피수 소실)(메틸화 수준: 54.0%). 사례 TBR3032에 대해, 본 발명을 사용하여 측정된 바와 같은 염색체 5p 아암의 메틸화 수준(카피수 이득)은 46.5%이고, 이는 염색체 5q 아암의 것보다 낮았다(카피수 소실)(메틸화 수준: 54.9%).
2. 임신한 여성에서 맵핑된 혈장 DNA 조직
도 58에 도시된 것처럼, 본 발명자들은 메틸화 분석의 정확성이 임신한 여성의 혈장 DNA 메틸화 프로필을 상이한 기준 조직(예를 들어, 간, 호중구, 림프구, 태반, T 세포, B 세포, 심장, 뇌 등)의 메틸화 프로필과 비교하게 할 것이라는 것을 추론하였다. 따라서, 상이한 세포 유형으로부터의 임신한 여성에서의 혈장 DNA 풀에서 DNA 기여는 하기 절차를 이용하여 추론될 수 있었다. 본 개시내용에 존재하는 실시형태에 따라 결정되는 DNA 혼합물(예를 들어, 혈장 DNA)의 CpG 메틸화 수준은 벡터 (X)에서 기록되었고, 비제한적인 예로서 바이설파이트 시퀀싱에 의해 정량화될 수 있는 상이한 조직에 걸친 검색된 기준 메틸화 수준은 행렬(M)에서 기록되었다. DNA 혼합물에 대한 상이한 조직으로부터의 부분 기여(p)는 비제한적인 예로서 이차 프로그래밍에 의해 풀릴 수 있었다. 여기서, 본 발명자들은 분석되는 DNA 혼합물에 대한 상이한 장기의 비례적 기여의 추론을 예시하도록 수학식을 사용한다. DNA 혼합물에서의 상이한 부위의 메틸화 밀도와 상이한 조직에 걸친 상응하는 부위의 메틸화 밀도 사이의 수학적 관계는 하기로서 표시될 수 있다:
Figure pat00001
여기서,
Figure pat00002
는 DNA 혼합물에서 CpG 부위 i의 메틸화 밀도를 나타내고;
Figure pat00003
는 DNA 혼합물에 대한 세포 유형 k의 부분 기여를 나타내고;
Figure pat00004
는 세포 유형 k에서의 CpG 부위 i의 메틸화 밀도를 나타낸다. 부위의 수가 장기의 수와 동일하거나 이보다 많으면, 개체의 값
Figure pat00005
가 결정될 수 있었다. 정보성을 개선하기 위해, CpG 부위는 모든 기준 조직 유형에 걸쳐 메틸화 수준의 작은 변동성이 버려진다는 것을 나타냈다. 일 실시형태에서, 본 발명자들은 분석을 수행하기 위해 CpG 부위의 특이적 세트를 사용하였다. 예를 들어, 이 CpG 부위는 30% 초과의 상이한 조직에 걸친 메틸화 수준의 변이 계수(CV) 및 25% 초과의 조직들 중에서 최대 메틸화 수준과 최소 메틸화 수준의 차이에 의해 규명되었다. 일부 다른 실시형태에서, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 80%, 90%, 100%, 110%, 200%, 300% 등의 CV가 또한 사용될 수 있었고; 5% 초과, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% 등의 조직 중에서 최대 메틸화 수준과 최소 메틸화 수준의 차이가 사용될 수 있었다.
추가의 기준은 정확성을 개선하기 위해 알고리즘에 포함될 수 있다. 예를 들어, 모든 세포 유형의 종합된 기여는 100%인 것으로 제약될 것이고, 즉
Figure pat00006
이다.
게다가, 모든 장기의 기여는 비음성이도록 요구될 것이다:
Figure pat00007
생물학적 변이로 인해, 관찰된 전체 메틸화 패턴은 조직의 메틸화로부터 추론된 메틸화 패턴과 완전히 동일하지 않을 수 있다. 이러한 상황에서, 수학적 분석은 개별 조직의 가장 그럴듯한 비례 기여를 결정하는 데 필요할 것이다. 이와 관련하여, DNA에서의 관찰된 메틸화 패턴과 조직으로부터의 추론된 메틸화 패턴 사이의 차이는 W로 표시된다:
Figure pat00008
각각의
Figure pat00009
의 가장 그럴듯한 값은 W를 최소화하여 결정될 수 있고, 이는 관찰된 메틸화 패턴과 추론된 메틸화 패턴 사이의 차이이다. 이 식은 수학적 알고리즘을 이용하여, 예를 들어 비제한적인 예로서 이차 계획법, 선형/비선형 회귀, 기대값-최대화(EM: expectation-maximization) 알고리즘, 최대 가능성 알고리즘, 최대 귀납적 추정 및 최소 자승 방법을 이용하여 해결될 수 있다.
도 59에 도시된 것처럼, 본 발명자들은 도 58에 존재하는 혈장 DNA 조직 맵핑의 방법을 이용한 남성 태아를 수태한 임신한 여성의 모계 혈장에 대한 태반 DNA 기여는 Y 염색체 판독물에 의해 추정된 태아 DNA 분획과 잘 상관된다는 것을 관찰하였다. 이 결과는 임신한 여성에서 혈장 DNA의 기원의 조직의 추적을 위한 동역학의 이용의 실행 가능성을 제시하였다.
3. 영역 메틸화 수준 정량화
이 부문은 비교적 낮은 수준의 시퀀싱을 이용하여 수행될 수 있는 선택된 게놈 영역에 대한 메틸화의 대표적인 수준을 결정하기 위한 기법을 기재한다. 메틸화 수준은 메틸화된 부위의 수 및 메틸화된 부위의 총 수를 사용하여 가닥당 또는 분자당, 또는 영역 기준당 결정될 수 있다. 다양한 조직의 메틸화 수준이 또한 분석된다.
본 발명자들은 11개의 인간 조직 DNA 샘플을 인간 기준 게놈(hg19)에 정렬될 수 있는 샘플마다 3070만개의 하위판독물(범위: 910만개 내지 8860만개)의 중앙치로 시퀀싱하였다. 각각의 샘플로부터의 하위판독물은 Pacific Biosciences Single Molecular Real-Time(SMRT) 시퀀싱 웰의 380만개의 중앙치(범위: 110만개 내지 1150만개)로부터 생성되었고, 이들의 각각은 인간 기준 게놈에 정렬될 수 있는 적어도 하나의 하위판독물을 함유하였다. 평균적으로, SMRT 웰에서의 각각의 분자는 평균 9.9배(범위: 6.5배 내지 13.4배)로 시퀀싱되었다. 인간 조직 DNA 샘플은 임신한 대상체의 1개의 모계 버피 코트 샘플, 1개의 태반 샘플, 2개의 간세포암종(HCC) 종양 조직, 2개의 이전에 언급된 HCC 조직과 짝을 이룬 2개의 인접한 비종양 조직, 건강한 대조군 대상체로부터의 4개의 버피 코트 샘플(M1 및 M2는 남성 대상체 유래; F1 및 F2는 여성 대상체 유래), 1개의 HCC 세포주(HepG2)를 포함하였다. 시퀀싱 데이터 요약의 상세내용은 도 60에 도시되어 있다.
도 60은 제1 열에 상이한 조직 그룹 및 제2 열에 샘플 명칭을 보여준다. "총 하위판독물"은 왓슨 가닥 및 클릭 가닥으로부터의 것을 포함하는 SMRT 웰로부터 생성된 서열의 총 수를 나타낸다. "맵핑된 하위판독물"은 인간 기준 게놈에 정렬될 수 있는 하위판독물의 수를 기재한다. "하위판독물 맵핑 가능성"은 인간 기준 게놈에 정렬될 수 있는 하위판독물의 비율을 지칭한다. "SMRT 웰당 평균 하위판독물 깊이"는 각각의 SMRT 웰로부터 생성된 하위판독물의 평균 수를 나타낸다. "SMRT 웰의 수"는 검출 가능한 하위판독물을 생성한 SMRT 웰의 수를 지칭한다. "맵핑 가능한 웰"은 적어도 하나의 정렬 가능한 하위판독물을 함유하는 웰의 수를 나타낸다. "맵핑 가능한 웰 속도(%)"는 적어도 하나의 정렬 가능한 하위판독물을 함유하는 웰의 백분율이다.
a) 메틸화 수준 및 패턴 분석 기법
일 실시형태에서, 단일 핵산 가닥(예를 들어, DNA 또는 RNA)의 메틸화 밀도를 측정할 수 있는데, 이는 그 가닥 내의 메틸화 가능한 염기의 총 수로 나눈 가닥 내의 메틸화된 염기의 수로 정의된다. 이 측정은 또한 "단일 가닥 메틸화 수준"이라 칭해진다. 이 단일 가닥 측정은 단일 분자 실시간 시퀀싱 플랫폼이 이중 가닥 DNA 분자의 2개의 가닥의 각각으로부터의 시퀀싱 정보를 얻을 수 있으므로 현재의 개시내용의 콘텍스트에서 특히 실행 가능하다. 이는 이중 가닥 DNA 분자의 왓슨 가닥 및 클릭 가닥이 원형 형식으로 연결되고 함께 시퀀싱되도록 시퀀싱 라이브러리를 제조하는 데 있어서 헤어핀 어댑터의 사용에 의해 수월해진다. 사실, 이 구조는 또한 임의의 이중 가닥 DNA 분자의 왓슨 가닥 및 클릭 가닥에서 상응하는 상보성 부위의 메틸화 상태가 개별적으로 결정되고 직접 비교될 수 있도록 동일한 이중 가닥 DNA 분자의 왓슨 가닥 및 클릭 가닥의 파트너화가 동일한 반응에서 시퀀싱되게 한다(예를 들어, 도 20a 및 도 20b).
이 가닥 기반 메틸화 분석은 다른 기술에 의해 용이하게 달성될 수 없었다. 왜냐하면 본 출원에 개시된 바와 같은 직접 메틸화 분석 방법의 사용 없이는, 예를 들어 바이설파이트 전환에 의해 비메틸화된 염기로부터 메틸화된 염기를 구별하기 위해 다른 수단을 적용할 필요가 있을 것이기 때문이다. 메틸화된 시토신 및 비메틸화된 시토신이 각각 시토신 및 티민으로서 구별될 수 있도록 바이설파이트 전환은 DNA가 아황산수소나트륨으로 처리될 것을 요한다. 많은 바이설파이트 전환 프로토콜의 변성 조건 하에, 이중 가닥 DNA 분자의 2개의 가닥은 서로로부터 분리된다. 많은 시퀀싱 분야에서, 예를 들어 Illumina 플랫폼을 사용하여, 바이설파이트 전환된 DNA는 이후 단일 가닥으로의 이중 가닥 DNA의 분리를 수반하는 중합효소 연쇄 반응(PCR)에 의해 증폭된다.
Illumina 시퀀싱에 의해, 바이설파이트 전환 전에 메틸화된 어댑터를 사용하여 PCR 비함유 시퀀싱 라이브러리를 제조할 수 있다. 이 전략의 사용에도 불구하고, 이중 가닥 DNA 분자의 각각의 DNA 가닥은 유세포에서의 브리지 증폭에 대해 무작위로 선택될 것이다. 시퀀싱의 무작위 성질로 인해, 동일한 DNA 분자로부터의 각각의 가닥이 동일한 반응에서 시퀀싱되지 않을 것이다. 동일한 좌위로부터의 하나 초과의 서열 판독물이 동일한 실행에서 분석되더라도, 2개의 판독물이 하나의 이중 가닥 DNA 분자의 파트너화 왓슨 가닥 및 클릭 가닥의 각각에서 유래하는지 또는 2개의 상이한 이중 가닥 DNA 분자에서 유래하는지 결정하기 위한 쉬운 수단이 없다. 이러한 고려는, 본 발명의 소정의 실시형태에서, 이중 가닥 DNA 분자의 2개의 가닥이 상이한 메틸화 패턴을 나타내므로 중요하다. 다수의 핵산 가닥(예를 들어, DNA 또는 RNA)의 단일 가닥 메틸화 밀도가 측정될 때, 도 61에서 "관심 있는 게놈 영역의 메틸화 수준"과 관련하여 개념 및 식에 기초하여 "다중 가닥 메틸화 수준"을 또한 결정할 수 있다.
도 61은 메틸화 패턴을 분석하는 다양한 방식을 보여준다. 비공지된 서열 및 메틸화 정보를 갖는 이중 가닥 DNA 분자(X)는 어댑터로 결찰되고, 이는 하나의 예에서 헤어핀-루프 구조를 형성한다. 그 결과, 왓슨 X(a) 및 클릭 X(b) 가닥 둘 다를 포함하는 DNA 분자의 2개의 단일 가닥은 이 실시예에서 원형 형태로 함께 물리적으로 파트너화된다. 왓슨 가닥 및 클릭 가닥 둘 다에서의 부위의 메틸화 상태는 (예를 들어, 동역학, 전자, 전자기, 광학 신호 또는 시퀀서로부터의 물리적 신호의 다른 유형을 사용하여) 본 개시내용에 기재된 방법을 이용하여 얻어질 수 있다. 원형화된 DNA 분자에서의 왓슨 가닥 및 클릭 가닥은 동일한 반응에서 조사될 수 있다. 시퀀싱 후, 어댑터 서열이 트리밍되어 제거된다.
상이한 메틸화 수준은 분석으로부터 결정될 수 있다. 도 61의 (I)에서, 오직 단일 가닥 분자의 메틸화 패턴, 예컨대 X(a) 또는 X(b) 중 하나가 분석될 수 있다. 이 분석은 단일 가닥 메틸화 패턴 분석으로 있다고 칭해질 수 있다. 분석은 부위의 메틸화 상태 또는 메틸화 패턴을 결정하는 것을 포함할 수 있지만, 이들로 제한되지는 않는다. 도 61에서, 단일 가닥 분자 X(a)는 메틸화 패턴 5'-UMMUU-3'를 나타내고, 여기서 "U"는 비메틸화된 부위를 나타내고, "M"은 메틸화된 부위를 나타내지만, 상보성 단일 가닥 분자 X(b)는 메틸화 패턴 3'-UMUUU-5'를 나타낸다. 따라서, X(b)는 X(a)로부터의 상이한 메틸화 패턴을 갖는다. X(a) 및 X(b)의 상응하는 단일 가닥 메틸화 수준은 각각 40% 및 20%이다.
이에 반해서, (II)에 도시된 것처럼, 단일 이중 가닥 DNA 분자 수준(즉, 왓슨 가닥 및 클릭 가닥 둘 다의 메틸화 패턴을 고려)에서 메틸화 패턴을 분석할 수 있다. 이 분석은 단일 분자, 이중 가닥 DNA 메틸화 패턴 분석으로 있다고 칭해질 수 있다. 이 예시적인 분자 X의 단일 분자, 이중 가닥 DNA 메틸화 수준은 30%이다. 왓슨 가닥 및 클릭 가닥 둘 다로부터의 동역학 신호인 이 분석의 하나의 변경은 변형을 분석하도록 조합될 것이다. 특히, CpG 부위에서의 메틸화가 일반적으로 대칭이므로, 왓슨 가닥 및 클릭 가닥으로부터의 동역학 신호는 부위의 메틸화 상태를 결정하기 전에 부위에 대해 조합될 수 있었다. 일부 상황에서, 분자의 왓슨 가닥 및 클릭 가닥으로부터 조합된 동역학 신호를 사용한 염기 변형을 결정하는 수행은 단일 가닥의 동역학 신호를 독립적으로 사용하여 것보다 우수할 것이다. 예를 들어, 도 20b에 도시된 것처럼, 왓슨 가닥 및 클릭 가닥을 포함하는 가닥 둘 다로부터의 동역학 신호의 조합된 사용은 단일 가닥의 독립 사용(AUC: 0.85)과 비교하여 시험 데이터세트에서 더 큰 AUC(0.90)를 생성시킬 것이다.
도 61의 (III)에서, 관심 있는 게놈 영역의 메틸화 수준이 결정될 수 있고, 여기서 상이한 분자 크기 및 상이한 수의 메화 가능한 부위(예를 들어, CpG 부위)를 보유하는 상이한 DNA 분자는 관심 있는 게놈 영역에 기여할 수 있다. 이 분석은 다중 가닥 메틸화 수준 분석으로 있다고 칭해질 수 있다. 용어 "다중 가닥"은 다수의 단일 가닥 DNA 분자, 또는 다수의 이중 가닥 DNA 분자, 또는 임의의 이들의 조합을 지칭할 수 있다. 이 예에서, 관임 있는 게놈 영역을 커버하는 3개의 이중 가닥 DNA 분자가 있다: 분자 "X", "Y" 및 "Z"(각각 "a" 및 "b" 가닥을 가짐). 이 영역의 상응하는 메틸화 수준은 9/28, 즉 32%이다. 분석되는 게놈 영역의 크기는 1 nt, 10 nt, 20 nt, 30 nt, 40 nt, 50 nt, 100 nt, 1 knt(킬로뉴클레오타이드, 즉 1000개의 뉴클레오타이드), 2 knt, 3 knt, 4 knt, 5 knt, 10 knt, 20 knt, 30 knt, 40 knt, 50 knt, 100 knt, 200 knt, 300 knt, 400 knt, 500 knt, 1 Mnt(메가뉴클레오타이드, 즉 100만개의 뉴클레오타이드), 2 Mnt, 3 Mnt, 4 Mnt, 5 Mnt, 10 Mnt, 20 Mnt, 30 Mnt, 40 Mnt, 50 Mnt, 100 Mnt 또는 200 Mnt의 크기를 가질 수 있다. 게놈 영역은 염색체 아암 또는 전장 게놈일 수 있다.
메틸화 패턴은 또한 분자에서의 부위에 대한 메틸화 상태를 결정하기 전에 결정될 수 있다. 예를 들어, 단일 이중 가닥 DNA 분자에서 3개의 순차적인 CpG 부위가 있는 하나의 시나리오에서, 왓슨 가닥 및 클릭 가닥의 각각에서의 메틸화 패턴은 3개의 부위에 대해 메틸화(M), 비메틸화(N) 및 메틸화(M)로서 밝혀질 수 있다. 예를 들어, 왓슨 가닥에 대한 이 패턴, MNM은 이 영역에 대해 왓슨 가닥에 대해 "메틸화 일배체형"이라 칭해질 수 있다. DNA 메틸화 유지 활성의 존재 때문에, 이중 가닥 DNA 분자의 왓슨 가닥 및 클릭 가닥의 메틸화 패턴은 서로에 상보성일 수 있다. 예를 들어, CpG 부위가 왓슨 가닥에서 메틸화되면, 클릭 가닥에서의 상보성 CpG 부위가 또한 메틸화될 수 있다. 유사하게, 왓슨 가닥에서의 비메틸화된 CpG 부위는 클릭 가닥에서의 비메틸화된 CpG 부위에 상보성일 수 있다.
일 실시형태에서, 단일 DNA 분자의 메틸화 수준을 측정할 수 있고, 이는 분자 내의 메틸화 가능한 염기 또는 뉴클레오타이드의 총 수로 나눈 그 분자 내의 메틸화된 염기 또는 뉴클레오타이드의 수로 정의된다. 이 측정은 또한 "단일 분자 메틸화 수준"이라 칭해진다. 이 단일 분자 측정은 단일 분자 실시간 시퀀싱 플랫폼에 의해 가능한 긴 판독물 길이 때문에 본 개시내용의 콘텍스트에서 특히 유용할 수 있다. 다수의 DNA 분자의 단일 분자 메틸화 수준이 측정될 때, 도 61에서의 개념 및 식에 기초하여 "다중 분자 메틸화 수준"을 또한 결정할 수 있다. 예를 들어, "다중 분자 메틸화 수준"은 단일 분자 메틸화 수준의 평균 또는 중앙치일 수 있다.
일부 실시형태에서, 하나 이상의 유전적 다형(예를 들어, 단일 뉴클레오타이드 다형(SNP))은 분자에 대한 부위의 메틸화 상태에 따라 DNA 분자에서 분석될 수 있어서, 그 분자의 유전적 정보 및 후성적 정보 둘 다를 밝혀낸다. 이러한 분석은 분석된 DNA 분자에 대해 "페이징된 메틸화 일배체형"을 밝혀낼 것이다. 페이징된 메틸화 일배체형 분석은 예를 들어 모계 혈장(모계 및 태아 유전적 및 후성적 서명을 보유하는 무세포 DNA 분자의 혼합물을 함유)에서 게놈 각인 및 무세포 핵산의 연구에 유용하다.
b) 메틸화 결과의 비교
도 60에서의 표에서의 조직의 전장 게놈 수준에서의 메틸화 밀도는 바이설파이트 시퀀싱 및 본 개시내용에 기재된 바와 같은 단일 분자 실시간 시퀀싱을 이용하여 결정된다. 도 62a는 y축에 바이설파이트 시퀀싱 및 x축에 조직 유형에 의해 정량화된 바와 같은 메틸화 밀도를 보여준다. 도 62b는 y축에 본 개시내용에 기재된 바와 같은 단일 분자 실시간 시퀀싱 및 x축에 조직 유형에 의해 정량화된 바와 같은 메틸화 밀도를 보여준다.
도 62a는 HepG2, HCC 종양 조직, HCC 종양에 인접한 일치된 정상 간 조직(즉, 인접한 정상 조직), 태반 조직 및 버피 코트 샘플을 포함하는 바이설파이트 시퀀싱을 사용하여(즉, 샘플은 바이설파이트 전환되고, 이후 Illumina 시퀀싱으로 처리됨)(문헌[Lister et al. Nature. 2009;462:315-322]) 상이한 조직에 걸친 메틸화 밀도를 보여준다. HepG2는 40.4%의 메틸화 수준으로 가장 낮은 메틸화 수준을 나타냈다. 버피 코트 샘플은 76.5%의 메틸화 수준으로 가장 높은 메틸화 수준을 나타냈다. HCC 종양 조직의 평균 메틸화 밀도(51.2%)는 일치된 인접한 정상 조직의 것(71.0%)보다 낮은 것으로 발견되었다. 이는 HCC의 종양이 인접한 정상 조직과 비교하여 게놈 수준에서 저메틸화된다는 예상과 일치한다(문헌[Ross et al. Epigenomics. 2010;2:245-69]). 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다.
동일한 조직의 부분은 단일 분자 실시간 시퀀싱 및 본 개시내용에 따른 방법을 이용하여 메틸화 분석으로 처리되었다. 결과는 도 62b에 도시되어 있다. 본 개시내용의 단일 분자 실시간 시퀀싱 방법을 이용한 메틸화 분석은 HepG2 세포주가 가장 저메틸화되고, 이후 분석된 HCC 종양 조직, 이후 이어서 태반 조직이라는 것을 보여줄 수 있었다. 인접한 비종양 간 조직 샘플은 HCC 및 태반 조직을 포함하는 다른 조직보다 더 메틸화되고, 버피 코트가 가장 과메틸화되었다.
도 63a, 도 63b도 63c는 바이설파이트 시퀀싱 및 본원에 기재된 방법에 따른 단일 분자 실시간 시퀀싱에 의해 정량화된 전체 메틸화 수준의 상관관계를 보여준다. 도 63a는 x축에 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준 및 y축에 본원에 기재된 방법을 이용하여 단일 분자 실시간 시퀀싱에 의해 정량화된 메틸화 수준을 보여준다. 검정색의 실선은 적합화된 회귀선이다. 파선은 2의 측정이 동일한 경우이다.
바이설파이트 시퀀싱과 본원에 개시된 본 발명에 따른 단일 분자 실시간 시퀀싱 사이의 메틸화 수준의 매우 높은 상관관계가 있었다(r = 0.99; P 값 < 0.0001). 이 데이터는 본원에 개시된 단일 분자 실시간 시퀀싱 방법을 이용한 메틸화 분석이 조직들 사이에 메틸화 수준을 결정하기 위한 효과적인 수단이고, 이들 조직 사이의 메틸화 상태 및 프로필의 비교가 가능하게 한다는 것을 나타냈다. 메틸화 수준의 2의 측정치에 대해, 본 발명자들은 도 63a에서의 회귀선의 기울기가 1에서 벗어난다는 것에 주의하였다. 이 결과는 2의 측정(일부 상황에서, 이 편차는 바이어스라 칭해질 수 있다) 사이에 편차가 종래의 대량 병렬 바이설파이트 시퀀싱과 비교하여 본 개시내용에 따른 단일 분자 실시간 시퀀싱을 사용하여 메틸화 수준의 결정에 존재할 것이라는 것을 제시하였다.
일 실시형태에서, 본 발명자들은 선형 회귀 또는 LOESS(국소 가중 평활화) 회귀를 이용하여 바이어스를 정량화할 수 있었다. 일례로서, 본 발명자들이 대량 병렬 바이설파이트 시퀀싱(Illumina)을 참고로 여기면, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 결과는 회귀 계수를 이용하여 변환될 수 있어서 상이한 플랫폼 사이에 판독을 조화시킨다. 도 63a에서, 선형 회귀 식은 Y=aX+b이고, 여기서 "Y"는 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 나타내고; "X" 는 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준을 나타내고; "a" 는 회귀선의 기울기(예를 들어, a= 0.62)를 나타내고; "b" 는 y축에서의 절편(예를 들어, b= 17.72)을 나타낸다. 이 상황에서, 단일 분자 실시간 시퀀싱에 의해 결정된 조화된 메틸화 값은 (Y-b)/a에 의해 계산될 것이다. 다른 실시형태에서, 2의 측정 사이의 편차( Δ M) 및 2의 측정의 상응하는 평균(
Figure pat00010
)의 관계식을 이용할 수 있었고, 이는 하기 식 (1) 및 (2)에 의해 정의되었다:
Figure pat00011
여기서, " S "는 본 발명에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 나타내고, " 바이설파이트 기반 메틸화 "는 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준을 나타낸다.
도 63b는 Δ M
Figure pat00012
사이의 관계를 보여준다. 2의 측정의 평균(
Figure pat00013
)은 x축에 작도되고, 2의 측정 사이의 편차( Δ M)는 y축에 작도된다. 파선은 0에 걸쳐 수평으로 선을 나타내고, 여기서 데이터 점은 2의 측정 사이에 차이가 없다는 것을 제시한다. 이 결과는 편차가 평균의 값에 따라 변한다는 것을 제시하였다. 2의 측정의 평균이 더 높을수록, 편차가 그 양이 더 높을 것이다. Δ M 값의 중앙치는 -8.5%(범위: -12.6% 내지 +2.5%)이고, 이는 방법 사이에 불일치가 존재한다는 것을 제시한다.
도 63c는 x축에 2의 측정(
Figure pat00014
) 및 y축에 상대 편차(RD)의 평균을 보여준다. 상대 편차는 하기 식에 의해 정의된다:
Figure pat00015
파선은 0에 걸쳐 수평으로 선을 나타내고, 여기서 데이터 점은 2의 측정 사이에 차이가 없다는 것을 제시한다. 이 결과는 상대 편차가 평균의 값에 따라 변한다는 것을 제시하였다. 2의 측정의 평균이 더 높을수록, 상대 편차가 그 양이 더 높을 것이다. RD 값의 중앙치는 -12.5%(범위: -18.1% 내지 +6.0%)였다.
종래의 전장 게놈 바이설파이트 시퀀싱(Illumina)이 특정 게놈 영역에서의 방법 사이에 메틸화 수준의 정량화에서의 실질적인 변경으로 상당히 편향된 서열 출력 및 과대평가된 전반적 메틸화를 도입하였다는 것이 보고되었다(문헌[Olova et al. Genome Biol. 2018;19:33]). 본원에 개시된 방법은 바이설파이트 전환 없이 수행될 수 있는데, 이 전환은 극적으로 DNA를 분해할 것이고, 공정을 복잡하게 할 수 있거나 메틸화 수준의 결정에 추가의 오류를 도입할 수 있는 PCR 증폭 없이 수행될 수 있다.
도 64a도 64b는 1-Mb 해상에서의 메틸화 패턴을 보여준다. 도 64a는 HCC 세포주(HepG2)에 대한 메틸화 패턴을 보여준다. 도 64b는 건강한 대조군 대상체로부터의 버피 코트 샘플에 대한 메틸화 패턴을 보여준다. 염색체 이디오그램(각각의 도면에서 최외 고리)는 시계 방향으로 pter에서 qter로 순서화된다. (중간 고리로서 또한 기재된) 외부로부터의 제2 고리는 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준을 보여준다. 최내 고리는 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 보여준다. 메틸화 수준은 5개의 등급, 즉 0-20%(연녹색), 20-40%(녹색), 40-60%(청색), 60-80%(연적색) 및 80-100%(적색)로 분류된다. 도 64a 및 도 64b에 도시된 것처럼, 1-Mb 해상에서의 메틸화 프로필은 바이설파이트 시퀀싱(중간 트랙)과 본 개시내용에 따라 단일 분자 실시간 시퀀싱(최내 트랙) 사이에 일치하였다. 모계 버피 코트 샘플의 메틸화 수준은 HCC 세포주(HepG2)보다 높은 것으로 나타났다.
도 65a도 65b는 1-Mb 해상에서 측정된 메틸화 수준의 산란도를 보여준다. 도 65a는 HCC 세포주(HepG2)에 대한 메틸화 수준을 보여준다. 도 65b는 건강한 대조군 대상체로부터의 버피 코트 샘플에 대한 메틸화 수준을 보여준다. 도 65a 및 도 65b 둘 다에 대해, 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준은 x축에 있고, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 측정된 메틸화 수준은 y축에 있다. 실선은 적합화된 회귀선이다. 파선은 2의 측정 기법이 동일한 경우이다. HCC 세포주에 대해, 1-Mb 해상에서의 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준은 바이설파이트 시퀀싱에 의해 측정된 것과 잘 상관되었다(r = 0.99; P < 0.0001)(도 65a). 버피 코트 샘플로부터의 데이터에 대해 상관관계가 또한 관찰되었다(r = 0.87, P < 0.0001)(도 65b).
도 66a도 66b는 100-kb 해상에서 측정된 메틸화 수준의 산란도를 보여준다. 도 66a는 HCC 세포주(HepG2)에 대한 메틸화 수준을 보여준다. 도 66b는 건강한 대조군 대상체로부터의 버피 코트 샘플에 대한 메틸화 수준을 보여준다. 도 66a 및 도 66b 둘 다에 대해, 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준은 x축에 있고, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 측정된 메틸화 수준은 y축에 있다. 실선은 적합화된 회귀선이다. 파선은 2의 측정 기법이 동일한 경우이다. 1-Mb(또는 1-Mnt) 해상에서 2개의 방법 사이의 메틸화 정량적 측정 사이의 높은 정도의 상관관계는 분석의 해상이 모든 100-kb(또는 100-knt) 윈도우로 증가할 때 또한 관찰되었다. 모든 이 데이터는 본 개시내용의 단일 분자, 실시간 접근법이 예를 들어 1-Mb(또는 1-Mnt) 또는 100-kb(또는 100-knt)에서의 상이한 해상 정도로 변하는 게놈 영역 내의 메틸화 수준 또는 메틸화 밀도를 정량화하기 위한 효과적인 도구라는 것을 나타낸다. 데이터는 또한 본 발명이 영역 사이의 또는 샘플 사이의 메틸화 프로필 또는 메틸화 패턴을 평가하기 위한 유용한 도구라는 것을 나타낸다.
도 67a 도 67b는 1-Mb 해상에서의 메틸화 패턴을 보여준다. 도 67a는 HCC 종양 조직(TBR3033T)에 대한 메틸화 패턴을 보여준다. 도 67b는 인접한 정상 조직(TBR3033N)에 대한 메틸화 패턴을 보여준다. 염색체 이디오그램(각각의 도면에서 최외 고리)는 시계 방향으로 pter에서 qter로 순서화된다. (중간 고리로서 또한 기재된) 외부로부터의 제2 고리는 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준을 보여준다. 최내 고리는 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 보여준다. 메틸화 수준은 5개의 등급, 즉 0-20%(연녹색), 20-40%(녹색), 40-60%(청색), 60-80%(연적색) 및 80-100%(적색)로 분류된다. 도 67a에 도시된 것처럼, 본 발명자들은 HCC 종양 조직 DNA(TBR3033T)에서 저메틸화를 검출할 수 있었고, 이는 도 67b에서 인접한 정상 간 조직 DNA(TBR3033N)로부터 구별될 수 있었다. 바이설파이트 시퀀싱(중간 트랙) 및 본 발명에 따른 단일 분자 실시간 시퀀싱(최내 트랙)에 의해 결정된 메틸화 수준 및 패턴은 일치하였다. 인접한 정상 조직 DNA의 메틸화 수준은 HCC 종양 조직 DNA의 것보다 높은 것으로 나타났다.
도 68a도 68b는 1-Mb 해상에서 측정된 메틸화 수준의 산란도를 보여준다. 도 68a는 HCC 종양 조직(TBR3033T)에 대한 메틸화 수준을 보여준다. 도 68b는 인접한 정상 조직에 대한 메틸화 수준을 보여준다. 도 68a 및 도 68b 둘 다에 대해, 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준은 x축에 있고, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 측정된 메틸화 수준은 y축에 있다. 실선은 적합화된 회귀선이다. 파선은 2의 측정 기법이 동일한 경우이다. HCC 종양 조직 DNA에 대해, 1-Mb 해상에서의 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준은 바이설파이트 시퀀싱에 의해 결정된 것과 잘 상관되었다(r = 0.96; P 값 < 0.0001)(도 68a). 인접한 정상 간 조직 샘플로부터의 데이터는 또한 상관되었다(r = 0.83, P 값 < 0.0001) (도 78b).
도 69a도 69b는 100-kb 해상에서 측정된 메틸화 수준의 산란도를 보여준다. 도 69a는 HCC 종양 조직(TBR3033T)에 대한 메틸화 수준을 보여준다. 도 69b는 인접한 정상 조직(TBR3033N)에 대한 메틸화 수준을 보여준다. 도 69a 및 도 69b 둘 다에 대해, 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준은 x축에 있고, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 측정된 메틸화 수준은 y축에 있다. 실선은 적합화된 회귀선이다. 파선은 2의 측정 기법이 동일한 경우이다. 1-Mb 해상에서 2개의 방법 사이의 메틸화 정량적 데이터의 이러한 높은 정도의 상관관계는 메틸화 수준의 측정이 더 높은 해상, 예를 들어 100-kb 윈도우에서 수행될 때 또한 관찰되었다.
도 70a도 70b는 다른 종양 조직 및 정상 조직에 대한 1-Mb 해상에서의 메틸화 패턴을 보여준다. 도 70a는 HCC 종양 조직(TBR3032T)에 대한 메틸화 패턴을 보여준다. 도 70b는 인접한 정상 조직(TBR3032N)에 대한 메틸화 패턴을 보여준다. 염색체 이디오그램(각각의 도면에서 최외 고리)는 시계 방향으로 pter에서 qter로 순서화된다. (중간 고리로서 또한 기재된) 외부로부터의 제2 고리는 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준을 보여준다. 최내 고리는 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준을 보여준다. 메틸화 수준은 5개의 등급, 즉 0-20%(연녹색), 20-40%(녹색), 40-60%(청색), 60-80%(연적색) 및 80-100%(적색)로 분류된다. 도 70a에 도시된 것처럼, 본 발명자들은 HCC 종양 조직 DNA(TBR3032T)에서 저메틸화를 검출할 수 있었고, 이는 도 70b에서 인접한 정상 간 조직 DNA(TBR3032N)로부터 구별될 수 있었다. 바이설파이트 시퀀싱(중간 트랙) 및 본 발명을 사용한 단일 분자 실시간 시퀀싱(최내 트랙)에 의해 결정된 메틸화 수준 및 패턴은 일치하였다. 인접한 정상 조직 DNA의 메틸화 수준은 HCC 종양 조직 DNA의 것보다 높은 것으로 나타났다.
도 71a도 71b는 1-Mb 해상에서 측정된 메틸화 수준의 산란도를 보여준다. 도 71a는 HCC 종양 조직(TBR3032T)에 대한 메틸화 수준을 보여준다. 도 71b는 인접한 정상 조직에 대한 메틸화 수준을 보여준다. 도 71a 및 도 71b 둘 다에 대해, 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준은 x축에 있고, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 측정된 메틸화 수준은 y축에 있다. 실선은 적합화된 회귀선이다. 파선은 2의 측정 기법이 동일한 경우이다. HCC 종양 조직 DNA에 대해, 1-Mb 해상에서의 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준은 바이설파이트 시퀀싱에 의해 결정된 것과 잘 상관되었다(r = 0.98; P < 0.0001)(도 71a). 인접한 정상 간 조직 샘플로부터의 데이터는 또한 상관되었다(r = 0.87, P < 0.0001) (도 71b).
도 72a도 72b는 100-kb 해상에서 측정된 메틸화 수준의 산란도를 보여준다. 도 72a는 HCC 종양 조직(TBR3032T)에 대한 메틸화 수준을 보여준다. 도 72b는 인접한 정상 조직(TBR3032N)에 대한 메틸화 수준을 보여준다. 도 72a 및 도 72b 둘 다에 대해, 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준은 x축에 있고, 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 측정된 메틸화 수준은 y축에 있다. 실선은 적합화된 회귀선이다. 파선은 2의 측정 기법이 동일한 경우이다. 1-Mb 해상에서 2개의 방법 사이의 메틸화 정량적 데이터의 이러한 높은 정도의 상관관계는 메틸화 수준의 측정이 더 높은 해상, 예를 들어 100-kb 윈도우에서 수행될 때 또한 관찰되었다.
4. 종양과 인접한 정상 조직 사이의 차등적 메틸화 영역
메틸롬 비정상은 대개 암 게놈의 영역에서 발견된다. 이러한 비정상의 하나의 예는 선택된 게놈 영역의 저메틸화 및 과메틸화이다(문헌[Cadieux et al. Cancer Res. 2006;66:8469-76]; 문헌[Graff et al. Cancer Res. 1995;55:5195-9]; 문헌[Costello et al. Nat Genet. 2000;24:132-8]). 다른 예는 선택된 게놈 영역에서의 메틸화된 염기 및 비메틸화된 염기의 비정상 패턴이다. 이 부문은 메틸화의 결정의 기법이 정량적 분석을 수행하는 데 사용되고, 진단학은 종양을 분석하는 데 사용될 수 있다는 것을 보여준다.
도 73은 종양 억제자 유전자 CDKN2A 근처의 메틸화의 비정상 패턴의 예를 보여준다. 좌표는 청색으로 하이라이트 표시되고, 밑줄은 CpG 섬을 나타낸다. 검정색의 채워진 점은 메틸화된 부위를 나타낸다. 채워지지 않은 점은 비메틸화된 부위를 나타낸다. 점을 갖는 각각의 수평 선의 오른쪽에서의 괄호 내의 숫자는 단편의 크기, 단일 분자 메틸화 밀도 및 CpG 부위의 수를 나타낸다. 예를 들어, (3.3 kb, MD:17.9%, CG:39)은 이 단편의 크기가 3.3 kb이고, 이 단편의 메틸화 수준이 17.9%이고, CpG 부위의 수가 39라는 것을 의미한다. MD는 메틸화 밀도를 나타낸다.
도 73에 도시된 것처럼, CDKN2A(사이클린 의존적 키나제 억제제 2A) 유전자는 종양 억제자로서 작용하는 INK4A(p16) 및 ARF(p14)를 포함하는 2개의 단백질을 암호화한다. 종양 조직에 인접한 비종양 조직에서 CDKN2A 유전자와 중첩하는 영역을 커버하는 2개의 분자(분자 7301 및 분자 7302)가 있었다. 분자 7301 및 분자 7302에 대한 단일 이중 가닥 DNA 분자의 메틸화 수준은 각각 17.9% 및 7.6%인 것으로 나타났다. 이에 반해서, 종양 조직에 존재하는 분자 7303에 대한 단일 이중 가닥 DNA 분자의 메틸화 수준은 93.9%인 것으로 발견되었고, 이는 짝을 이룬 인접한 비종양 조직에 존재하는 분자의 것보다 훨씬 더 높았다. 다른 한편, 종양 조직에 인접한 비종양 조직에 존재하는 분자 7301 및 7302를 사용하여 다중 가닥 메틸화 수준을 또한 계산할 수 있었다. 그 결과, 다중 가닥 메틸화 수준은 9.7%이고, 이는 종양 조직의 것(93.9%)보다 낮았다. 상이한 메틸화 수준은 암과 같은 질환을 검출하거나 모니터링하기 위해 단일 이중 가닥 분자 메틸화 수준 및/또는 다중 가닥 메틸화 수준을 사용할 수 있었다는 것을 제시한다.
도 74a도 74b는 단일 분자 실시간 시퀀싱에 의해 결정된 차등적 메틸화 영역을 보여준다. 도 74a는 암 게놈에서의 저메틸화를 보여준다. 도 74b는 암 게놈에서의 과메틸화를 보여준다. x축은 CpG 부위의 좌표를 나타낸다. 좌표는 청색으로 하이라이트 표시되고, 밑줄은 CpG 섬을 나타낸다. 검정색의 채워진 점은 메틸화된 부위를 나타낸다. 채워지지 않은 점은 비메틸화된 부위를 나타낸다. 점을 갖는 각각의 수평 선의 오른쪽에서의 괄호 내의 숫자는 단편의 크기, 단편 수준 메틸화 밀도 및 CpG 부위의 수를 나타낸다. 예를 들어, (3.1 kb, MD:88.9%, CG:180)은 이 단편의 크기가 3.1 kb이고, 이 단편의 메틸화 밀도가 88.9%이고, CpG 부위의 수가 180이라는 것을 의미한다.
도 74a는 인접한 정상 간 조직과 비교된 HCC 종양 조직에서의 보다 저메틸화된 단편을 보여주는 GNAS 유전자에 가까운 영역을 보여준다. 도 74b는 HCC 조직에서의 과메틸화된 단편을 나타내는 ESR1 유전자에 가까운 영역을 보여주지만, 상응하는 영역에 정렬하는 짝을 이룬 인접한 비종양 조직으로부터의 DNA 단편은 대신에 저메틸화를 보여주었다. 도 74b에 도시된 것처럼, 개별 DNA 분자의 메틸화 프로필 또는 메틸화 일배체형은 암 샘플이 비암 샘플과 비교될 때 이들 게놈 영역, 즉 GNASESR1의 비정상 메틸화 상태를 밝히기에 적절하였다.
이 데이터는 본원에 개시된 단일 분자 실시간 시퀀싱 메틸화 분석이 개별 DNA 단편에서 (메틸화되든 또는 비메틸화되든) 각각의 CpG 부위에서 메틸화 상태를 결정할 수 있었다는 것을 나타낸다. 단일 분자 실시간 시퀀싱의 판독물 길이는 전형적으로 판독물당 100-300 nt 길이에 걸친 Illumina 시퀀싱에 대한 것보다 훨씬 더 길다(킬로염기 길이의 차수)(문헌[De Maio et al. Micob Genom. 2019;5(9)]). 단일 분자 실시간 시퀀싱의 긴 판독물 길이 특성을 본 발명자들이 본원에서 개시한 메틸화 분석 방법과 조합하여, 임의의 단일 DNA 분자를 따라 존재하는 다수의 CpG 부위의 메틸화 일배체형을 용이하게 분석할 수 있었다. 메틸화 프로필은 DNA의 인접한 스트레치 내의(예를 들어, 동일한 염색체 상의, 또는 박테리아 플라스미드 내의, 또는 바이러스 게놈에서 DNA의 단일 스트레치 내의) 다른 좌표에 대한 게놈의 하나의 좌표로부터 CpG 부위의 메틸화 상태를 지칭한다.
단일 분자 실시간 시퀀싱이 이전의 증폭의 필요성 없이 개별적으로 각각의 DNA 분자를 분석하므로, 임의의 개별 DNA 분자에 결정된 메틸화 프로필은 사실 메틸화 일배체형이고, 이는 동일한 DNA 분자의 하나의 말단으로부터 다른 말단으로의 CpG 부위의 메틸화 상태를 의미한다. 하나 이상의 분자가 동일한 게놈 영역으로부터 시퀀싱되면, 게놈 영역에서의 모든 시퀀싱된 CpG 부위에 걸친 각각의 CpG 부위의 % 메틸화(즉, 메틸화 수준 또는 메틸화 밀도)는 도 61에 도시된 바와 같은 동일한 식을 이용하여 다수의 DNA 단편의 데이터로부터 합계될 수 있었다. 각각의 CpG 부위의 % 메틸화는 모든 시퀀싱된 CpG 부위에 대해 보고될 수 있었고, 이는 시퀀싱된 게놈 영역의 메틸화 프로필을 제공한다. 대안적으로, 데이터는 영역의 1% 메틸화 값을 제공하도록 시퀀싱된 게놈 영역 내에 모든 판독물 및 모든 부위로부터, 즉 1-Mb 또는 1-kb 영역에 대한 메틸화 수준이 도 64 내지 도 72에 도시된 바대로 계산되는 것과 동일한 방식으로 합계될 것이다.
5. 바이러스 DNA 메틸화 분석
이 부문은 본 개시내용의 메틸화 기법이 바이러스 DNA에서 메틸화 수준을 정확히 결정하도록 사용될 수 있다는 것을 보여준다.
도 75는 단일 분자 실시간 시퀀싱을 사용한 HCC 조직 샘플 및 인접한 비종양 조직 샘플의 2개의 쌍 사이의 B형 간염 바이러스 DNA의 메틸화 패턴을 보여준다. 각각의 화살표는 HBV 게놈에서의 유전자 주석을 나타낸다. 'P', 'S', 'X' 및 'C'에 의한 화살표는 각각 중합효소, 표면 항원, X 단백질 및 코어 단백질을 암호화하는 HBV 게놈 주위의 유전자 주석을 나타낸다. 본 발명자들은 파선 직사각형에서 강조된 2,278 내지 3,141의 HBV 게놈에 이르는 인접한 비종양 조직에서 기원한 1,183 bp 크기를 갖는 1개의 단편(분자 I)을 확인하였고, 12%의 메틸화 수준을 나타낸다. 본 발명자들은 또한 종양 조직에서 기원하는 3,215 bp, 2,961 bp 및 3,105 bp를 갖는 3개의 단편(분자 II, III 및 IV)을 확인하였다. 이들 중에서, HCC 종양에서의 2개의 단편(분자 III 및 IV)은 비종양 조직에서 분자 I에 의해 걸친 HBV 게놈 영역과 중첩하였다. 파선 직사각형(HBV 게놈 위치: 2,278 내지 3,141)에서 강조된 HBV 영역에서의 낮은 메틸화 수준(12%)과 반대로, 메틸화 수준은 HCC 조직에서 이들 단편(분자 III 및 IV)에 더 높았다(즉, 24% 및 30%). 이 결과는 단일 분자 실시간 시퀀싱을 사용한 접근법이 바이러스 게놈에서 메틸화 패턴을 결정하도록 실행 가능하고 HCC 조직과 비-HCC 조직 사이에 HBV의 차등적으로 메틸화된 영역(DMR)을 확인할 수 있다는 것을 제시하였다. 따라서, 본 개시내용에 따른 단일 분자 실시간 시퀀싱을 사용한 바이러스 게놈에 걸친 메틸화 상태의 결정은 조직 생검을 이용하여 임상 관련성을 연구하기 위한 새로운 도구를 제공할 것이다.
이 DMR 영역은 유전자 P, C 및 S와 중첩하도록 나타났다. 이 영역이 또한 HBV 감염을 갖지만 암이 없는 간 조직에서와 비교하여 HCC 조직에서 과메틸화된 것으로 나타나는 것이 보고되었다(문헌[Jain et al. Sci Rep. 2015;5:10478]; 문헌[Fernandez et al. Genome Res. 2009;19:438-51]).
본 발명자들은 경변증을 갖지만 HCC가 없는 4명의 환자로부터의 간 조직의 바이설파이트 시퀀싱 결과를 풀링하여서, 메틸화 분석에 대해 1,156개의 HBV 단편을 얻었다. 도 76a는 간경변증을 갖지만 HCC가 없는 환자로부터의 간 조직에서의 B형 간염 바이러스 DNA의 메틸화 수준을 보여준다. 또한, 본 발명자들은 15명의 환자로부터의 HCC 종양 조직의 바이설파이트 시퀀싱 결과를 풀링하여서, 메틸화 분석에 대한 736개의 HBV 단편을 얻었다. 도 76b는 HCC 종양 조직에서의 B형 간염 바이러스 DNA의 메틸화 수준을 보여준다. 도 76a 및 도 76b에 도시된 것처럼, 본 발명자들은 대량 병렬 바이설파이트 시퀀싱에 의해 경화 간 조직보다 HCC 조직에서 더 높은 메틸화 수준을 갖는 HBV의 DMR 영역(HBV 게놈 위치: 1,982 내지 2,435)을 또한 관찰하였다. 이 결과는 바이러스 게놈의 메틸화 상태를 결정하기 위한 접근법이 유효하다는 것을 제시하였다.
6. 변이체 연관된 메틸화 분석
상이한 대립유전자는 상이한 메틸화 프로필과 연관될 수 있다. 예를 들어, 각인된 유전자는 다른 대립유전자보다 더 높은 메틸화 수준을 갖는 하나의 대립유전자를 가질 수 있다. 이 부문은 메틸화 프로필이 소정의 게놈 영역에서 대립유전자를 구별하기 위해 사용될 수 있다는 것을 보여준다.
단일 DNA 주형을 함유하는 하나의 단일 분자 실시간 시퀀싱 웰은 다수의 하위판독물을 생성할 것이다. 하위판독물은 동역학 특징[예를 들어, 펄스간 기간(IPD) 및 펄스 폭(PW)] 및 뉴클레오타이드 조성을 포함한다. 일 실시형태에서, 하나의 단일 분자 실시간 시퀀싱 웰로부터의 하위판독물은 공통 서열(원형 공통 서열, CCS라고도 칭함)을 생성하도록 사용될 수 있고, 이는 시퀀싱 오류(예를 들어, 미스매치, 삽입 또는 결실)를 극적으로 감소시킬 수 있다. CCS의 추가의 상세내용은 본원에 기재된다. 일 실시형태에서, 공통 서열은 인간 기준 게놈에 정렬된 하위판독물을 사용하여 작제될 수 있다. 다른 실시형태에서, 공통 서열은 동일한 단일 분자 실시간 시퀀싱 웰에서 하위판독물을 가장 긴 하위판독물에 맵핑하여 작제될 수 있었다.
도 77은 페이징된 메틸화 일배체형 분석의 원칙을 예시한다. 채워진 막대사탕은 메틸화된 것으로 분류된 CpG 부위를 나타낸다. 채워지지 않은 막대사탕은 비메틸화된 것으로 분류된 CpG 부위를 나타낸다.
일 실시형태에서 도 77에 도시된 것처럼, 하위판독물은 인간 기준 게놈에 정렬되었다. 하나의 단일 분자 실시간 시퀀싱 웰로부터의 정렬된 하위판독물은 공통 서열을 형성하도록 붕괴되었다. 공통 서열은 일반적으로 각각의 정렬된 위치에 걸쳐 하위판독물에 존재하는 가장 빈번한 뉴클레오타이드를 사용하여 결정될 수 있었다. 따라서, 비제한적인 예로서 단일 뉴클레오타이드 변이체, 삽입 및 결실을 포함하는 뉴클레오타이드 변이체는 공통 서열로부터 확인될 수 있었다. 뉴클레오타이드 변이체에 의해 태그화된 동일한 분자에서 평균의 IPD 및 PW는 본 개시내용에 따라 메틸화 패턴을 결정하도록 사용될 수 있었다. 따라서, 본 발명자들은 변이체 연관된 메틸화 패턴을 추가로 결정할 수 있었다. 동일한 분자에서의 메틸화 상태는 메틸화 일배체형으로 여겨질 수 있었다. 2개 이상의 단편화된 짧은 DNA 분자가 원래의 단일 분자로부터 유래되거나 2개 이상의 상이한 원래의 분자에 의해 기여되는지를 구별하는 것을 허용하는 분자 마커가 없을 수 있으므로, 메틸화 일배체형은 용이하게 그리고 직접적으로 2개 이상의 짧은 DNA 분자로부터 작제되지 않을 수 있다. 합성 긴 판독물 기술(예컨대, 10X Genomics에 의해 개발된 연결된 판독물 시퀀싱)은 단일 긴 DNA 분자를 파티션(예컨대, 드랍플렛)으로 분포시키고 동일한 분자 바코드 서열에 의해 그 긴 DNA 분자에서 기원한 짧은 DNA 분자를 태그화할 가능성을 제공한다. 그러나, 이 바코딩 단계는 원래의 메틸화 상태를 보존하지 않는 PCR 증폭을 수반한다.
게다가, 긴 DNA 분자를 처리하기 위해 바이설파이트를 사용하도록 시도하면, 바이설파이트 처리 전의 제1 단계는 파괴 조건 하에 DNA 변성을 수반하여, 바이설파이트로서 단일 가닥 DNA로의 이중 가닥 DNA의 변경은 소정의 화학 조건에서 단일 가닥 DNA 분자에 오직 작용할 수 있었다. 이 DNA 변성 단계는 긴 DNA 분자를 짧은 단편으로 분해하여서, 원래의 메틸화 일배체형 정보를 소실시킬 것이다. 바이설파이트 기반 메틸화 분석의 제2 단점은 이중 가닥 DNA를 바이설파이트 전환 단계에서의 단일 가닥 DNA, 즉 왓슨 가닥 및 클릭 가닥으로 변성시킬 것이다. 분자에 대해, 왓슨 가닥의 시퀀싱이 50% 변하고, 클릭 가닥의 시퀀싱이 50% 변한다. 수백만개의 왓슨 가닥 및 클릭 가닥 중에서, 분자의 왓슨 가닥 및 클릭 가닥 둘 다를 동시에 시퀀싱할 기회가 극도로 낮다. 분자의 왓슨 가닥 및 클릭 가닥 둘 다가 시퀀싱되는 것으로 추정되더라도, 이러한 왓슨 가닥 및 클릭 가닥이 원래의 단일 단편에서 유래되거나 2개 이상의 상이한 원래의 단편에 의해 기여되는지를 확실히 결정하는 것이 여전히 불가능하다. Liu 등은 DNA를 덜 분해시키는 온화한 조건 하에 10-11 전좌(TET) 효소 기반 전환을 이용하여 메틸화된 시토신 및 하이드록시메틸시토신(문헌[Liu et al. Nat Biotechnol. 2019;37:424-429])을 검출하기 위한 바이설파이트 비함유 시퀀싱 방법을 최근에 도입하였다. 그러나, 이것은 효소 반응의 2개의 순차적인 단계를 수반한다. 효소 반응의 어느 한 단계의 낮은 전환율은 전체 전환율에 극적으로 영향을 미칠 것이다. 또한, 메틸화된 시토신을 검출하기 위한 이 바이설파이트 비함유 시퀀싱 방법에 대해서도, 시퀀싱 결과에서 분자의 왓슨 가닥 및 클릭 가닥을 구별하는 데 어려움이 여전히 존재한다.
이에 반해서, 본 발명의 실시형태에서, 분자의 왓슨 가닥 및 클릭 가닥은 원형 DNA 분자를 형성하기 위해 벨 형상의 어댑터를 통해 공유 결찰된다. 그 결과, 분자의 왓슨 가닥 및 클릭 가닥 둘 다는 동일한 반응 웰에서 시퀀싱되고, 각각의 가닥에 대한 메틸화 상태가 결정될 수 있다.
본 발명의 실시형태의 하나의 이점은 긴 인접한 DNA 분자(예를 들어, 킬로염기 또는 킬로뉴클레오타이드 길이)에 대한 메틸화 및 유전적(즉, 서열) 정보를 확인하는 능력이다. 짧은 판독물 시퀀싱 기술을 이용하여 이러한 정보를 생성하는 것이 더 어렵다. 짧은 판독물 시퀀싱 기법에 대해, 메틸화 및 유전적 정보의 긴 스트레치가 추론될 수 있도록 유전적 서명 또는 후성적 서명의 스캐폴드를 사용하여 다수의 짧은 판독물에 대한 시퀀싱 정보를 조합해야 한다. 그러나, 이것은 이러한 유전적 앵커 또는 후성적 앵커 사이의 거리로 인해 많은 시나리오에서 도전을 입증할 수 있었다. 예를 들어, 평균적으로 1 kb당 하나의 SNP가 있지만, 현재의 짧은 판독물 시퀀싱 기술이 전형적으로 판독물당 300 nt까지 시퀀싱할 수 있어서 심지어 짝을 이룬 말단 형식으로 600 nt를 생성시켰다.
일 실시형태에서, 변이체-연관된 메틸화 일배체형 분석은 각인된 유전자에서의 메틸화 패턴을 연구하도록 사용될 수 있었다. 각인된 영역은 부모 기원 방식으로 후성적 조절(예를 들어, CpG 메틸화)로 처리된다. 예를 들어, 도 60에서의 표에서의 하나의 버피 코트 DNA 샘플(M2)은 대략 15200만개의 하위판독물을 얻도록 시퀀싱되었다. 이 샘플에 대해, 단일 분자 실시간 시퀀싱 웰의 53%는 인간 기준 게놈에 정렬될 수 있는 적어도 하나의 하위판독물을 생성하였다. 각각의 SMRT 웰에 대한 평균 하위판독물 깊이는 7.7x이었다. 전체로서, 본 발명자들은 대략 300만개의 공통 서열을 얻었다. 기준 게놈의 약 91%는 적어도 1회 공통 서열에 의해 커버되었다. 커버된 영역에 대해, 시퀀싱 깊이는 7.9 x였다. 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다.
도 78은 6,289 bp(범위: 66 내지 198,109 bp)의 중앙치 크기를 갖는 공통 서열로부터 결정된 시퀀싱된 분자의 크기 분포를 보여준다. 단편 크기(bp)는 x축에 도시되고, 단편 크기와 연관된 빈도(%)는 y축에 도시되어 있다.
도 79a, 도 79b, 도 79c 도 79d는 각인된 영역에서의 대립유전자 메틸화 패턴의 예를 보여준다. x축은 CpG 부위의 좌표를 나타낸다. 좌표는 청색으로 하이라이트 표시되고, 밑줄은 CpG 섬을 나타낸다. 검정색의 채워진 점은 메틸화된 CpG 부위를 나타낸다. 채워지지 않은 점은 비메틸화된 CpG 부위를 나타낸다. 채워진 점 및 채워지지 않은 점(즉, CpG 부위)의 각각의 수평 시리즈에 따라 임베딩된 알파벳은 SNP 부위에서의 대립유전자를 나타낸다. 점의 각각의 수평 시리즈의 오른쪽에서의 괄호 내의 숫자는 단편의 크기, 단편 수준 메틸화 밀도 및 CpG 부위의 수를 나타낸다. 예를 들어, (10.0 kb, MD:79.1%, CG:139)은 상응하는 단편의 크기가 10.0 kb이고, 단편의 메틸화 밀도가 79.1%이고, CpG 부위의 수가 139라는 것을 제시하였다. 직사각형 파선은 각각의 유전자 내의 가장 다르게 메틸화된 영역을 기술한다.
도 79aSNURF 유전자에서 기원한 11.2 kb(범위: 1.3 내지 25 kb)의 중앙치 크기를 갖는 11개의 시퀀싱된 단편을 보여준다. SNURF 유전자는 모계로 각인되어서, 개체가 엄마로부터 유전된 유전자의 카피가 메틸화되고 전사로 침묵된다는 것을 의미한다. 도 79a에 도시된 것처럼, 파선 직사각형에서, C 대립유전자 연관된 단편은 고도로 메틸화되는 한편, T 대립유전자 연관된 단편은 고도로 비메틸화되었다. 고도로 메틸화된은 그 부위의 70%, 80%, 90%, 95% 또는 99% 초과가 메틸화된다는 것을 나타낼 수 있다. 대립유전자 특이적 메틸화 패턴은 PLAGL1(도 79b), NAP1L5(도 79c) 및 ZIM2(도 79d)를 포함하는 다른 각인된 유전자에서 관찰될 수 있었다. 도 79b는 PLAGL1에 의해 T 대립유전자 연관된 단편이 고도로 비메틸화되지만, C 대립유전자 연관된 단편이 고도로 메틸화된다는 것을 보여준다. 도 79cNAP1L5에 의해 C 대립유전자 연관된 단편이 고도로 비메틸화되고, T 대립유전자 연관된 단편이 고도로 메틸화된다는 것을 보여준다. 도 79dZIM2에 의해 C 대립유전자 연관된 단편이 고도로 비메틸화되고, T 대립유전자 연관된 단편이 고도로 메틸화된다는 것을 보여준다.
도 80a, 도 80b, 도 80c 도 80d는 비각인된 영역에서의 대립유전자 메틸화 패턴의 예를 보여준다. x축은 CpG 부위의 좌표를 나타낸다. 좌표는 청색으로 하이라이트 표시되고, 밑줄은 CpG 섬을 나타낸다. 검정색의 채워진 점은 메틸화된 CpG 부위를 나타낸다. 채워지지 않은 점은 비메틸화된 CpG 부위를 나타낸다. 채워진 점 및 채워지지 않은 점(즉, CpG 부위)의 각각의 수평 시리즈에 따라 임베딩된 알파벳은 단일 뉴클레오타이드 다형(SNP) 부위에서의 대립유전자를 나타낸다. 점의 각각의 수평 시리즈의 오른쪽에서의 괄호 내의 숫자는 단편의 크기, 단편 수준 메틸화 밀도 및 CpG 부위의 수를 나타낸다. 직사각형 파선은 괄호 내에 보고된 메틸화 밀도를 계산하기 위한 무작위로 선택된 영역을 나타낸다. 도 79a-도 79d에서의 결과와 반대로, 비각인된 유전자에 존재하는 이러한 관찰 가능한 대립유전자 메틸화 패턴이 없었다. 도 80a는 chr7 영역에서의 상이한 대립유전자 메틸화 패턴이 없음을 보여준다. 도 80b는 chr12 영역에서의 상이한 대립유전자 메틸화 패턴이 없음을 보여준다. 도 80c는 chr1 영역에서의 상이한 대립유전자 메틸화 패턴이 없음을 보여준다. 도 80d는 다른 chr1 영역에서의 상이한 대립유전자 메틸화 패턴이 없음을 보여준다.
도 81은 대립유전자 특이적 단편의 메틸화 수준을 갖는 표를 보여준다. 제1 열은 "각인된 유전자" 및 "무작위로 선택된 영역"의 카테고리를 기재한다. 제2 열은 특정 유전자를 기재한다. 제3 열은 유전자에서의 SNP에서의 제1 대립유전자를 기재한다. 제4 열은 유전자에서의 SNP에서의 제2 대립유전자를 기재한다. 제5 열은 제1 대립유전자에 연결된 단편에 대한 메틸화 수준을 보여준다. 제6 열은 제1 대립유전자에 연결된 단편에 대한 메틸화 수준을 보여준다. 대립유전자 2에 연결된 단편의 메틸화 수준(평균: 88.6%; 범위 84.6 내지 91.1%)은 각인된 유전자(P 값 = 0.03)에 대한 대립유전자 1에 연결된 단편(평균: 12.2%; 범위 7.6 내지 15.7%)보다 훨씬 더 높아서, 대립유전자 특이적 메틸화의 존재를 나타낸다. 이에 반해서, 이 무작위로 선택된 영역(P 값 = 1) 사이에 메틸화 수준의 상당한 변화가 없어서, 대립유전자 특이적 메틸화의 부재를 제시한다.
7. 임신에서의 무세포 DNA 분석
이 예시에서, 본원에 개시된 방법이 적어도 하나의 태아를 임신한 여성으로부터 얻은 혈장 또는 혈청에서 무세포 핵산의 분석에 적용 가능하다는 것이 입증된다. 임신 동안, 태반 세포로부터의 무세포 DNA 및 무세포 RNA 분자는 모계 순환에서 발견된다. 이러한 태반 유래 무세포 핵산 분자는 또한 모계 혈장에서의 무세포 태아 핵산 또는 순환 무세포 태아 핵산이라 칭해진다. 무세포 태아 핵산은 모계 무세포 핵산의 배경 중에서 모계 혈장에 존재한다. 예를 들어, 순환 무세포 태아 DNA 분자는 모계 혈장 및 혈청에서의 무세포 모계 DNA의 배경 중에서 소수의 종으로 존재한다.
모계 혈장 또는 혈청에서의 무세포 모계 DNA로부터 무세포 태아 DNA를 구별하기 위해, 유전적 또는 후성적 수단 또는 조합을 사용할 수 있음이 알려져 있다. 유전적으로, 태아 게놈은 부계로 유전된 태아 특이적 SNP 대립유전자, 부계로 유전된 돌연변이 또는 신생 돌연변이에 의해 모계 게놈과 다를 수 있다. 후성적으로, 태반 메틸롬은 모계 혈액 세포의 메틸롬과 비교하여 일반적으로 저메틸화된다(문헌[Lun et al. Clin Chem. 2013;59:1583-94]). 모계 혈액 세포가 모계 순환(혈장 또는 혈청)에서 무세포 모계 DNA의 주요 기여자인 반면 태반이 무세포 태아 DNA의 주요 기여자이므로, 무세포 태아 DNA 분자는 일반적으로 혈장 또는 혈청에서의 무세포 모계 DNA와 비교하여 저메틸화된다. 모계 혈액 세포와 비교하여 태반이 과메틸화된 특정 게놈 좌위가 있다. 예를 들어, RASSF1A의 프로모터 및 엑손 1 영역은 모계 혈액 세포에서보다 태반에서 보다 메틸화된다(문헌[Chiu et al. Am J Pathol. 2007;170:941-950]). 따라서, 이 RASSF1A 좌위로부터 유래된 순환 무세포 태아 DNA는 동일한 좌위로부터 순환 무세포 모계 DNA와 비교하여 과메틸화될 것이다.
실시형태에서, 무세포 태아 DNA는 순환 핵산의 2개의 풀 사이에 차등적 메틸화 상태에 기초하여 무세포 모계 DNA 분자로부터 구별될 수 있다. 예를 들어, 무세포 DNA 분자에 따른 CpG 부위는 대부분 비메틸화된 것으로 발견되고, 이 분자는 태아 기원일 것이다. 무세포 DNA 분자에 따른 CpG 부위가 대부분 메틸화된 것으로 발견되면, 이 분자는 모계 유래일 것이다. 이러한 분자가 실제로 태아 또는 모계 유래인지를 확인하기 위해 당업자에게 공지된 여러 방법이 있다. 하나의 접근법은 시퀀싱된 분자의 메틸화 패턴을 태반 또는 모계 혈액 세포에서의 상응하는 좌위의 공지된 메틸화 프로필과 비교하는 것이다.
도 82는 메틸화 프로필을 사용한 임신에서 혈장 DNA의 태반 기원의 결정을 위한 예를 보여준다. 좌표는 청색으로 하이라이트 표시되고, 밑줄은 CpG 섬을 나타낸다. 검정색의 채워진 점은 메틸화된 부위를 나타낸다. 채워지지 않은 점음 비메틸화된 부위를 나타낸다. 점을 갖는 각각의 수평 선의 근처에서의 괄호 내의 숫자는 단편의 크기, 단일 분자 메틸화 밀도 및 CpG 부위의 수를 나타낸다.
도 82에 도시된 것처럼, 모계 혈장 무세포 DNA 분자가 RASSF1A의 프로모터 영역(태반 조직에서 특이적으로 메틸화된 것으로 알려진 영역) 및 과메틸화되는 본 발명의 방법을 이용하여 생성된 시퀀싱 데이터에 정렬하면, 이 분자는 태아 또는 태반으로부터 유래될 것이다. 이에 반해서, 저메틸화를 나타내는 분자는 모계 배경 DNA(주로 조혈 기원의)로부터 유래될 것이다.
도 83은 태아 특이적 메틸화 분석에 대한 접근법을 예시한다. 그 접근법은 태아 특이적 SNP 대립유전자 또는 태아 특이적 돌연변이(예를 들어, 부계로 유전된 또는 자연계에서 신규한)를 함유하는 시퀀싱된 분자의 이용을 포함한다. 이러한 태아 특이적 유전적 특징이 확인될 때, 동일한 무세포 DNA 분자에 기초한 염기의 메틸화 상태는 무세포 태아 DNA 또는 태반 메틸롬의 메틸화 프로필을 반영한다. 혈장 무세포 DNA 시퀀싱이 (예를 들 모계 게놈 DNA를 분석하여) 모계 게놈에 존재하지 않는 대립유전자 또는 돌연변이를 밝혀낼 때, 또는 가족에서 전파되는 것으로 공지된 부계 DNA를 분석하여(예를 들어, 발단자로부터 DNA를 분석하여) 태아 특이적 유전적 특징이 발견될 수 있다.
태아 특이적 DNA 분자의 메틸화는 모계 게놈에서 동형접합성 대립유전자와 상이한 대립유전자를 보유하는 이 DNA 단편을 분석하여 결정될 수 있다. 태아 DNA 분자의 메틸화는 모계 DNA 분자의 것보다 낮을 것으로 예상될 수 있다.
일례로서, 1명의 임신한 여성의 버피 코트 DNA 및 이의 일치된 태반 DNA는 시퀀싱되어서 각각 59x 및 58x 반수체 게놈 커버리지를 얻었다. 본 발명자들은 엄마가 동형접합성이고 태아가 이형접합성인 총 822,409개의 정보제공 SNP를 확인하였다. 본 발명자들은 단일 분자 실시간 시퀀싱을 통해 모계 혈장(M13160)에서 2,652개의 태아 특이적 단편 및 24,837개의 공유된 단편(즉, 공유된 대립유전자를 보유하는 단편; 주로 모계 기원)을 발견하였다. 태아 DNA 분획은 19.3%이었다. 본 개시내용에 따르면, 이 태아 특이적 단편 및 공유된 단편의 메틸화 프로필이 추론되었다. 그 결과, 태아 특이적 단편의 메틸화 수준은 57.4%인 것으로 발견되었지만, 공유된 단편의 메틸화 수준은 69.9%이었다. 이 발견은 태아 DNA의 메틸화 수준이 임신한 여성의 혈장에서의 모계 DNA보다 더 낮다는 현재의 지식과 일치하였다(문헌[Lun et al., Clin Chem. 2013;59:1583-94]).
메틸화 패턴은 진단학적 목적 또는 모니터링 목적을 위해 사용될 수 있다. 예를 들어, 모계 혈장 샘플의 메틸화 프로필은 재태기간을 결정하기 위해 사용되었다(https://www.ncbi.nlm.nih.gov/pubmed/27979959). 하나의 분야는 품질 제어 단계로서이다. 다른 가능한 분야는 임신 "발생" 연령에 대해 "생물학적"을 모니터링하는 것이다. 이 분야는 조산의 검출 또는 위험 평가에 사용될 수 있다. 다른 실시형태는 모계 혈액에서 태아 세포의 분석에 사용될 수 있다. 또 다른 실시형태에서, 이러한 태아 세포는 항체 기반 접근법에 의해 또는 세포 마커(예를 들어, 세포 표면 상에 또는 세포질에서)를 사용한 선택적 염색에 의해 확인될 수 있거나, 유세포분석법 또는 미세조작 또는 미세해부 또는 물리적 방법(예를 들어, 챔버, 표면 또는 용기를 통한 차등 흐름 속도)에 의해 농후화될 수 있다.
C. 상이한 시약을 사용한 메틸화 검출
이 부문은 메틸화 기법이 특정 시약 시스템으로 제한되지 않는다는 것을 보여준다.
메틸화 분석은 그 기법이 적용될 수 있다는 것을 확인시켜 주기 위해 상이한 시약 시스템을 사용하여 수행되었다. 일례로서, SMRT-seq는 단일 분자 실시간 시퀀싱을 수행하도록 Sequel II System(Pacific Biosciences)을 사용하여 수행되었다. 공유된 DNA 분자는 SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)을 사용하여 단일 분자 실시간(SMRT) 시퀀싱 주형 작제로 처리되었다. 시퀀싱 프라이머 어닐링 및 중합효소 결합 조건은 SMRT Link v8.0 소프트웨어(Pacific Biosciences)로 계산되었다. 간단히, 시퀀싱 프라이머 v2는 시퀀싱 주형에 어닐링되었고, 이후 중합효소는 Sequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)을 사용하여 주형에 결합되었다. 시퀀싱은 Sequel II SMRT Cell 8M에서 수행되었다. 시퀀싱 무비는 Sequel II Sequencing Kit 2.0(Pacific Biosciences)으로 30시간 동안 Sequel II 시스템에서 수집되었다. 다른 실시형태에서, 다른 화학 시약 및 반응 완충액은 SMRT-seq에 사용될 것이다. 일 실시형태에서, 중합효소는 이의 메틸화 상태에 따라 DNA 주형 가닥에 따른 뉴클레오타이드의 혼입의 상이한 동역학 특징을 가질 것이다(문헌[Huber et al. Nucleic Acids Res. 2016;44:9881-9890]). 본 개시내용에서, 결과는 달리 표시되지 않는 한 시퀀싱 프라이머 v1을 사용하여 생성된다.
상이한 시약의 사용에 의해 본원에 기재된 개시내용에서 본 발명의 용도를 입증하기 위해, 본 발명자들은 비제한적인 예로서 Sequel I Sequencing Kit 3.0, RS II, Sequel II Sequencing Kit 1.0 및 Sequel II Sequencing Kit 2.0을 포함하는 상이한 시퀀싱 키트에 기초하여 생성된 SMRT-seq 데이터를 분석하였다. RS II는 SMRT 세포당 150,000개의 ZMW를 포함한다. Sequel은 SMRT 세포당 1,000,000개의 ZMW를 사용한다. Sequel II는 2개의 시퀀싱 키트(1.0 및 2.0)에 의해 SMRT 세포당 800만개의 ZMW를 사용한다. 이 분석은 2개의 데이터세트를 수반하였다. 제1 데이터세트는 전장 게놈 증폭 후 DNA에 기초하여 제조되어서, 비메틸화된 상태를 나타낸다. 제2 유형 데이터세트는 M.SsssI 메틸전환효소 처리 후 DNA에 기초하여 제조되어서, 메틸화된 상태를 나타낸다. 이 데이터는 Sequel 서열서에서 Sequel Sequencing Kit 3.0; 및 Sequel II 서열서에서 Sequel II Sequencing Kit 1.0 및 Sequel II Sequencing Kit 2.0을 사용하여 생성되었다. 따라서, 본 발명자들은 상이한 시약(예를 들어, 중합효소)으로 생성된 동역학 프로필로 3개의 데이터세트를 얻었다. 각각의 데이터세트는 본 개시내용에 따라 CNN 모델을 사용하여 수행을 평가하기 위해 훈련 데이터세트 및 시험 데이터세트로 분할되었다.
1. 측정 윈도우
도 84a, 도 84b도 84c는 전장 게놈 증폭된 데이터(비메틸화된 CpG 부위) 및 M.SsssI 처리된 데이터(메틸화된 CpG 부위)를 포함하는 훈련 데이터세트에서 SMRT-seq에 대한 상이한 시약 키트에 걸친 상이한 측정 윈도우 크기의 수행을 보여준다. 진양성율은 y축에 작도되고, 위양성율은 x축에 작도되었다. 도 84a는 Sequel Sequencing Kit 3.0에 기초하여 생성된 SMRT-seq 데이터를 보여준다. 도 84b는 Sequel II sequencing Kit 1.0에 기초하여 생성된 SMRT-seq 데이터를 보여준다. 도 84c는 Sequel II sequencing Kit 2.0에 기초하여 생성된 SMRT-seq 데이터를 보여준다. 도면에서, '-'는 분석되는 CpG 시토신 부위의 상류 신호를 나타냈다. '+'는 분석되는 CpG 시토신 부위의 하류 신호를 나타냈다. 예를 들어, '-6 nt'는 분석되는 CpG 시토신 부위의 6 nt 상류 신호를 나타냈다. '+6 nt'는 분석되는 CpG 시토신 부위의 6 nt 하류 신호를 나타냈다. '±6 nt'는 분석되는 CpG 시토신 부위의 6 nt 상류 신호 및 6 nt 하류 신호 둘 다를 포함한다(즉, CpG 시토신 부위를 측접시키는 총 12 nt 서열)는 것을 나타냈다.
도 84a에 도시된 바와 같은 Sequel Sequencing Kit 3.0에 기초한 훈련 데이터세트에 대해, 분석되는 CpG 시토신에 대한 신호 및 (-6 nt에 의해 표시된) 그 시토신 부위의 6 nt 상류 신호(예를 들어, IPD, PW, 상대 위치 및 서열 조성)를 포함하는 측정 윈도우를 사용하여, 0.50의 AUC 값은 비메틸화된 CpG 시토신으로부터 메틸화된 CpG 시토신을 구별하는 분별력을 제시하지 않았다. 그러나, Sequel II Sequencing Kit 1.0 및 2.0에 기초한 훈련 데이터세트에 대해, 상응하는 AUC 값은 0.62(도 84b) 및 0.75(도 84c)였다. 이 데이터는 SMRT-seq에 대해 사용된 상이한 시약에 고유한 상이한 동역학 프로필이 있었다는 것을 입증하였다. 이 데이터는 본원에 개시된 방법이 상이한 시약의 사용에 용이하게 적응된다는 것을 보여준다. 게다가, 염기 변형의 검출의 정확성은 시약의 추가의 개발, 예를 들어 상이한 중합효소 및 다른 화학의 사용에 의해 잠재적으로 개선될 수 있다.
다른 예로서, 도 84a에 도시된 바와 같은 Sequel Sequencing Kit 3.0에 기초한 훈련 데이터세트에 대해, (-10 nt에 의해 표시된) CpG 시토신 부위의 10 bp 상류 신호를 포함하는 측정 윈도우를 사용하여, 0.50의 AUC 값은 비메틸화된 CpG 시토신으로부터 메틸화된 CpG 시토신을 구별하는 분별력을 제시하지 않았다. 그러나, Sequel II Sequencing Kit 1.0 및 2.0에 기초한 훈련 데이터세트에 대해, 상응하는 AUC 값은 0.66(도 84b) 및 0.79(도 84c)였고, 이는 6 nt 상류 신호를 포함하는 측정 윈도우와 비교하여 개선됨이 나타났다. 이 데이터는 SMRT-seq에 대해 사용된 상이한 시약에 고유한 상이한 동역학 프로필이 있었다는 것을 확인시켜 주었다. 이 데이터는 본원에 개시된 방법이 상이한 시약의 사용에 용이하게 적응된다는 것을 보여준다.
상류 신호를 갖는 측정 윈도우와 반대로, 하류 신호를 갖는 측정 윈도우는 분류 수행의 더 큰 개선으로 이어질 수 있었다. 예를 들어, Sequel Sequencing Kit 3.0에 기초한 훈련 데이터세트에 대해, 도 84a에 도시된 바와 같이, CpG 시토신 부위의 6 nt 하류 신호(+6 nt)를 포함하는 측정 윈도우를 사용하여, 0.94의 AUC 값은 6 nt 상류 신호를 사용하는 것보다 훨씬 더 높았다(AUC: 0.5). Sequel II Sequencing Kit 1.0 및 2.0에 기초한 훈련 데이터세트에 대해, 상응하는 AUC 값은 각각 0.95(도 84b) 및 0.92(도 84c)였고, 이는 6 nt 상류를 포함하는 측정 윈도우와 비교하여 개선을 보여준다. 이 데이터는 서열 콘텍스트에 연결된 동역학 특징이 비제한적인 예로서 CNN 모델을 사용하여 분별력을 개선할 것이라는 것을 제시하였다. 이 데이터는 또한 본원에서의 개시내용이 측정 윈도우의 조정을 통해 상이한 시약 및 시퀀싱 조건(예를 들어, 상이한 중합효소, 다른 화학 시약, 이의 농도 및 시퀀싱 반응 매개변수(예를 들어, 기간))에 의해 생성된 데이터세트에 적용 가능할 것이라는 것을 제시하였다. 유사한 결론은 CpG 시토신 부위의 10 nt 하류 신호를 포함하는 측정 윈도우를 사용하여 분석으로부터 도출될 것이다(도 84a, 도 84b 및 도 84c).
다른 실시형태에서, 분석되는 시토신에 대한 신호, 및 그 시토신의 상류 신호 및 하류 신호 둘 다를 포함하는 측정 윈도우를 사용할 수 있었다. 예를 들어, 도 84a, 도 84b 및 도 84c에 도시된 것처럼, 6 nt 상류 신호 및 6 nt 하류 신호(±6 nt에 의해 표시된)를 포함하는 측정 윈도우를 사용하여, AUC 값은 각각 Sequel Sequencing Kit 3.0, Sequel II Sequencing Kit 1.0 및 2.0에 기초하여 훈련 데이터세트에 대해 0.94, 0.95 및 0.92인 것으로 발견되었다. (±10 nt에 의해 표시된) 10 nt 상류 신호 및 10 nt 하류 신호를 포함하는 측정 윈도우를 사용하여, AUC 값은 각각 Sequel 시퀀싱 Kit 3.0, Sequel II Sequencing Kit 1.0 및 2.0에 기초하여 훈련 데이터세트에 대해 0.94, 0.95 및 0.94인 것으로 발견되었다. 이 데이터는 본원에서의 개시내용이 상이한 시약 및 시퀀싱 반응 매개변수에 의해 생성된 데이터세트에 광범위하게 적용 가능할 것이라는 것을 제시하였다.
85a, 85b 85c는 훈련 데이터세트로부터 훈련된 CNN 모델을 적용할 때 상이한 시퀀싱 키트에 걸쳐 상이한 측정 윈도우를 갖는 시험 데이터세트로부터 결과를 얻었다는 것을 보여주었다. 진양성율은 y축에 작도되고, 위양성율은 x축에 작도되었다. 범례에서의 라벨링은 도 84a, 도 84b 및 도 84c에 사용된 라벨링과 동등하다. 도 85a는 Sequel Sequencing Kit 3.0에 기초하여 생성된 SMRT-seq 데이터를 보여준다. 도 85b는 Sequel II sequencing Kit 1.0에 기초하여 생성된 SMRT-seq 데이터를 보여준다. 도 85c는 Sequel II Sequencing Kit 2.0에 기초하여 생성된 SMRT-seq를 보여준다. 훈련 데이터세트에서 도출된 모든 결론은 훈련 과정에 수반되지 않은 이 독립 시험 데이터세트에서 검증될 수 있었다. 추가로, 3개의 독립 시험 데이터세트 중에서, Sequel II Sequencing Kit 1.0 및 2.0을 수반하는 2개의 데이터세트(2/3)에 대한 분석은 (±10 nt에 의해 표시된) 10 nt 상류 및 하류 신호를 포함하는 측정 윈도우의 사용이 다른 것을 능가했다는 것을 보여주었다.
2. 바이설파이트 시퀀싱과의 비교
도 86a, 도 86b도 86c는 바이설파이트 시퀀싱 및 SMRT-seq(Sequel II Sequencing Kit 2.0)에 의해 정량화된 전체 메틸화 수준의 상관관계를 보여준다. 도 86a는 y축에서 SMRT-seq에 의해 정량화된 백분율로서 메틸화 수준을 보여준다. 도 86b는 x축에서 바이설파이트 시퀀싱에 의해 정량화된 백분율로서 메틸화 수준을 보여준다. 검정색의 선은 적합화된 회귀선이다. 파선은 2의 측정치가 동일한 대각선이다. 도 86b는 Bland-Altman 도표를 보여준다. x축은 본 개시내용에 따른 SMRT-seq 및 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준의 평균을 나타낸다. y축은 본 개시내용에 따른 SMRT-seq와 바이설파이트 시퀀싱(즉, Pacific Biosciences 메틸화 - 바이설파이트 기반 메틸화) 사이의 메틸화 수준의 차이를 나타낸다. 파선은 0에 걸쳐 수평으로 선에 상응하고, 여기서 2의 측정 사이에 차이가 없다. 파선으로부터 벗어난 데이터 점은 측정 사이의 편차가 존재한다는 것을 제시한다. 도 86c는 바이설파이트 시퀀싱에 의해 정량화된 값에 대한 백분율 변화를 보여준다. x축은 본 개시내용에 따른 SMRT-seq 및 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준의 평균을 나타낸다. y축은 메틸화 수준의 평균에 대해 2의 측정치 사이의 메틸화 수준의 차이의 백분율을 나타낸다. 파선은 0에 걸쳐 수평으로 선에 상응하고, 여기서 2의 측정 사이에 차이가 없다. 파선으로부터 벗어난 데이터 점은 측정 사이의 편차가 존재한다는 것을 제시한다.
도 86a에 대해, 선형 회귀 식은 Y=aX+b이고, 여기서 "Y" 는 본 개시내용에 따른 SMRT-seq에 의해 결정된 메틸화 수준을 나타내고; "X" 는 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준을 나타내고; "a" 는 회귀선의 기울기(예를 들어, a = 1.45)를 나타내고; "b" 는 y축에서의 절편(예를 들어, b = -20.98)을 나타낸다. 이 상황에서, SMRT-seq에 의해 결정된 메틸화 값은 (Y-b)/a에 의해 계산될 것이다. 이 그래프는 SMRT-seq에 의해 결정된 메틸화 수준이 Sequel II Sequencing Kit 1.0에서와 같이 Sequel II Sequencing Kit 2.0에 대해 바이설파이트 시퀀싱에 의해 결정된 메틸화 수준으로 전환되고 그 반대로 같다는 것을 보여준다.
도 86b는 본 개시내용에 따른 SMRT-seq와 바이설파이트 시퀀싱 사이의 메틸화 정량화의 바이어스를 보여주는 Bland-Altman 도면이고, 여기서 x축은 본 개시내용에 따른 SMRT-seq 및 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준의 평균을 나타내고, y축은 본 개시내용에 따른 SMRT-seq 및 바이설파이트 시퀀싱에 의해 정량화된 메틸화 수준의 차이를 나타낸다. 2의 측정 사이의 중앙치 차이는 -6.85%(범위: -10.1 내지 1.7%)였다. 바이설파이트 시퀀싱에 의한 값에 대한 본 개시내용에 의해 정량화된 메틸화 수준의 중앙치 백분율 변화는 -9.96%(범위: -14,76 내지 3.21%)였다. 차이는 평균의 값에 따라 변했다. 2의 측정치의 평균이 더 높을수록, 바이어스가 더 높다.
도 86c는 2의 메틸화 수준의 평균으로 나눈 메틸화 수준의 차이를 제외하고 도 86b와 동일한 데이터를 보여준다. 도 86c는 또한 2의 측정치의 평균이 더 높을수록, 바이어스가 더 높다는 것을 보여준다.
오류는 바이설파이트 시퀀싱에 의할 수 있고, SMRT-seq에 의한 방법과 관련되지 않는다. 종래의 전장 게놈 바이설파이트 시퀀싱(Illumina)이 특정 게놈 영역에서 방법 사이에 메틸화 수준의 정량화를 실질적으로 변경하여 상당히 편향된 서열 출력 및 과대평가된 전반적 메틸화를 도입하였다는 것이 보고되었다(문헌[Olova et al. Genome Biol. 2018;19:33]). 본원에 개시된 실시형태는 다수의 예시적인 이점을 가지는데, 이로써 이것이 극적으로 DNA를 분해하는 바이설파이트 전환 없이 수행될 수 있는, PCR 증폭 없이 수행될 수 있다.
3. 조직 기원
본 발명자들은 단일 분자 실시간 시퀀싱(SMRT-seq, Pacific Biosciences)을 사용하여 본 개시내용에서의 실시형태에 따른 다양한 암 유형에 걸친 메틸화 분석을 수행하였다. SMRT-seq에 사용된 암 유형은 결장직장암(n=3), 식도암(n=2), 유방암(n=2), 신장 세포 암종(n=2), 폐암(n=2), 난소암(n=2), 전립선암(n=2), 위암(n=2) 및 췌장암(n=1)을 포함하지만, 이들로 제한되지는 않았다. 이의 일치된 인접한 비종양 조직은 또한 SMRT-seq에 포함되었다. 데이터세트는 Sequel II Sequencing Kit 2.0에 의해 제조된 DNA로부터 생성되었다.
도 87a도 87b는 다양한 종양 조직과 짝을 이룬 인접한 비종양 조직 사이의 전체 메틸화 수준의 비교를 보여준다. 백분율로서의 메틸화 수준은 y축에 있다. 도 87a에서, 메틸화 수준은 SMRT-seq에 의해 정량화된다. 도 87b에서, 메틸화 수준은 바이설파이트 시퀀싱에 의해 정량화된다. 조직의 유형(즉, 종양 조직 또는 인접한 비종양 조직)은 x축에 있다. 상이한 기호는 기원의 상이한 조직을 나타낸다.
도 87a는 유방암, 결장직장암, 식도암, 간암, 폐암, 난소암, 췌장암, 신장 세포 암종 및 위암을 포함하는 종양 조직의 전체 메틸화 수준이 각각 유방, 결장, 식도, 간, 폐, 난소, 췌장, 전립선, 신장 및 위를 포함하는 상응하는 비종양 조직보다 상당히 더 낮았다(P 값 = 0.006, 짝을 이룬 샘플 Wilcoxon 부호-순위 시험)는 것을 보여준다. 종양과 짝을 이룬 비종양 조직 사이의 메틸화 수준에서의 중앙치 차이는 -2.7(IQR: -6.4 내지 -0.8%)이었다.
도 84b는 종양 조직에서의 더 낮은 메틸화 수준을 확인시켜준다. 따라서, 이 결과는 다양한 암 유형 및 조직에 걸쳐 메틸화 패턴이 본 개시내용에 따라 SMRT-seq에 의해 정확하게 결정될 수 있다는 것을 제시하였고, 이는 조직 생검에 기초하여 암의 조기 검출, 예후, 진단 및 치료에 대해 본 개시내용의 광범위한 분야를 암시한다. 다양한 종양 유형에 걸쳐 메틸화 수준 감소의 상이한 정도는 메틸화 패턴이 암 유형과 연관되어 암의 기원의 조직의 결정을 허용한다는 것을 그럴듯하게 제시하였다.
D. 검출 및 다른 기법의 향상
일부 실시형태에서, 염기 변형(예를 들어, 메틸화)의 분석은 서열 콘텍스트, IPD 및 PW의 매개변수 중 하나 이상을 사용하여 수행될 수 있다. IPD 및 PW는 기준 게놈에 대한 정렬 없이 시퀀싱 반응으로부터 결정될 수 있다. 단일 분자 실시간 시퀀싱 접근법의 양태는 서열 콘텍스트, IPD 및 PW의 결정의 정확성을 추가로 향상시킬 수 있다. 일 양태는 원형 공통 시퀀싱의 수행이고, 여기서 시퀀싱 주형의 특정 부분은 다회 측정될 수 있어서, 서열 콘텍스트, IPD 및 PW가 이들 다수의 판독을 통해 값의 평균 또는 분포에 기초하여 측정되게 한다. 소정의 실시형태에서, 정렬 과정 없이 염기 변형의 분석은 컴퓨터 효율을 증가시키고, 턴어라운드 시간을 감소시키고, 분석 비용을 감소시킬 수 있다. 실시형태가 정렬 과정 없이 수행될 수 있지만, 또 다른 실시형태에서, 예를 들어 정렬 과정이 검출된 염기 변형의 임상학적 영향 또는 생물학적 영향을 확인하기 위해 사용되는 경우(예를 들어, 종양 억제자가 과메틸화된 경우); 또는 정렬 과정이 추가의 분석을 위해 관심 있는 소정의 게놈 영역에 상응하는 시퀀싱 데이터의 하위집단을 선택하도록 사용되는 경우 정렬 과정이 사용될 수 있고 바람직할 수 있다. 선택된 게놈 영역으로부터의 데이터가 원해지는 실시형태에 대해, 이들 실시형태는 게놈에서 관심 있는 영역에서 절단할 수 있는 하나 이상의 효소 또는 효소 기반 방법론, 예를 들어 제한 효소 또는 CRISPR-Cas9 시스템을 사용하여 이러한 영역의 표적화를 수반할 수 있다. PCR 증폭이 전형적으로 DNA의 염기 변형에 관한 정보를 보존하지 않으므로, CRISPR-Cas9 시스템은 PCR 기반 방법보다 바람직할 수 있다. 이러한 선택된(생물정보학적으로[예를 들어, 정렬을 통해] 또는 CRISPR-Cas9와 같은 방법을 통해) 영역의 메틸화 수준은 조직 기원, 태아 장애, 임신 장애 및 암에 대한 정보를 제공하도록 분석될 수 있다.
1. 기준 게놈에 대한 정렬 없이 하위판독물을 사용한 메틸화 분석
실시형태에서, 메틸화 분석은 기준 게놈에 대한 정렬 없이 하위판독물로부터 동역학 특징 및 서열 콘텍스트를 포함하는 측정 윈도우를 사용하여 수행될 수 있었다. 도 88에 도시된 것처럼, 제로모드 도파관(ZMW)에서 기원한 하위판독물은 공통 서열 8802(원형 공통 서열, CCS인 것으로도 알려짐)를 작제하도록 사용되었다. 비제한적인 예로서 PW 및 IPD 값을 포함하는 CCS에서의 각각의 위치에서의 평균 동역학 값이 계산되었다. CpG 부위를 둘러싼 서열 콘텍스트는 그 CpG 부위의 상류 서열 및 하류 서열에 기초하여 CCS로부터 결정되었다. 따라서, 본 개시내용에 정의된 바와 같은 측정 윈도우는 훈련을 위해 구성될 것이고, 측정 윈도우는 CCS에 대해 동역학 특징을 갖는 하위판독물에 따라 PW, IPD 값 및 서열 콘텍스트를 포함한다. 이 절차는 기준 게놈에 대한 하위판독물의 정렬을 제거한다.
도 88에 도시된 원칙을 시험하기 위해, 본 발명자들은 전장 게놈 증폭된 DNA에서 기원한 601,942개의 비메틸화된 CpG 부위 및 CpG 메틸전환효소(예를 들어, M.SssI) 처리된 DNA에서 기원한 163,527개의 메틸화된 CpG 부위를 사용하여서, 훈련 데이터세트를 형성하였다. 본 발명자들은 전장 게놈 증폭된 DNA에서 기원한 546,393개의 비메틸화된 CpG 부위 및 CpG 메틸전환효소(예를 들어, M.SssI) 처리된 DNA에서 기원한 193,641개의 메틸화된 CpG 부위를 사용하여서, 시험 데이터세트를 형성하였다. 데이터세트는 Sequel II Sequencing Kit 2.0에 의해 제조된 DNA로부터 생성되었다.
도 89에 도시된 것처럼, 일 실시형태에서, 메틸화를 결정하기 위한 콘볼루션 신경망(CNN) 모델을 훈련하기 위해 하위판독물 및 CCS와 연관된 동역학 특징 및 서열 콘텍스트를 이용하여, 각각 시험 데이터세트 및 훈련 데이터세트에서 비메틸화된 CpG 부위로부터 메틸화된 CpG 부위를 구별하기 위해 0.94 및 0.95의 AUC 값을 달성할 수 있었다. 다른 실시형태에서, 다른 신경망모델, 심화 학습 알고리즘, 인공 지능, 및/또는 기계 학습 알고리즘이 사용될 수 있었다.
본 발명자들이 메틸화의 확률에 대해 0.2의 컷오프를 설정하면, 본 발명자들은 메틸화된 CpG 부위를 검출하는 데 있어서 82.4% 민감도 및 91.7% 특이성을 얻을 수 있었다. 이 결과는 기준 게놈에 대한 이전의 정렬 없이 동역학 특징을 갖는 하위판독물을 사용하여 메틸화된 CpG 부위 및 비메틸화된 CpG 부위를 구별할 수 있었다는 것을 예시하였다.
다른 실시형태에서, CpG 부위에 걸쳐 메틸화 상태를 결정하기 위해, 서열 콘텍스트와 함께 CCS 정보 및 기준 게놈에 대한 이전의 정렬 없이 직접적으로 하위판독물로부터 동역학 특징을 또한 사용할 수 있었다. 본 발명자들은 메틸화 상태를 결정하기 위한 CNN 모델을 훈련하기 위해 하위판독물에 존재하는 CpG의 20-nt 상류 및 20-nt 하류에 걸친 위치에서 PW 및 IPD 값을 포함하는 동역학 특징을 사용하였다. 도 90에 도시된 것처럼, 본 개시내용에서의 실시형태에 따르면, 하위판독물과 관련된 동역학 특징을 사용한 ROC 곡선의 AUC는 각각 훈련 데이터세트 및 시험 데이터세트에서 메틸화된 CpG 부위를 검출하기 위해 0.70 및 0.69이었다. 이 데이터는 하위판독물과 연관된 동역학 특징을 사용하여 그러나 공통 서열의 이전의 정렬 및 구축 없이 DNA 분자에 대해 메틸화 패턴을 추론하기 위해 본 개시내용에서의 실시형태를 사용하는 것이 실행 가능할 것이라는 것을 제시하였다. 그러나, 이 실시형태에서의 메틸화의 결정의 수행은 본 개시내용에 기재된 바와 같은 정렬 정보 또는 공통 서열을 조합하여 사용하는 실시형태보다 열등하였다. 하위판독물 및 동역학 값을 생성하는 데 향상된 정확성이 하위판독물 및 이의 연관된 동역학 특징을 이용하여 염기 변형을 결정하는 수행을 개선할 것이라고 예상할 것이다.
2. 표적화된 단일 분자 실시간 시퀀싱을 사용한 결실된 영역의 메틸화 분석
본원에 기재된 방법은 또한 하나 이상의 선택된 게놈 영역을 분석하기 위해 적용될 수 있다. 일 실시형태에서, 관심 있는 영역(들)은 상보성 서열을 갖는 합성 올리고뉴클레오타이드로의 관심 있는 영역(들)으로부터의 DNA 분자의 혼성화를 허용하는 혼성화 방법에 의해 처음에 농후화될 수 있다. 본원에 기재된 방법을 이용한 염기 변형의 분석을 위해, 원래의 DNA 분자에서의 염기 변형 정보가 PCR 산물로 이전될 수 없으므로, 표적 DNA 분자는 시퀀싱으로 처리되기 전에 PCR에 의해 증폭될 수 없다. 여러 방법은 PCR 증폭을 수행함이 없이 이 표적 영역에 농후화되도록 개발되었다.
다른 실시형태에서, 표적 영역(들)은 CRISPR-Cas9 시스템이 사용을 통해 농후화될 수 있다(문헌[Stevens et al. PLOS One 2019;14(4):e0215441]; 문헌[Watson et al. Lab Invest 2020;100:135-146]). 일 실시형태에서, DNA 샘플에서의 DNA 분자의 말단은 처음에 탈인산회되어서 이들이 직접적으로 시퀀싱 어댑터에 대한 결찰이 쉽게 하지 않는다. 이후, 관심 있는 영역(들)은 이중 가닥 절단을 생성하기 위해 가이드 RNA(crRNA)를 갖는 Cas9 단백질에 의해 지도된다. 양측에서 이중 가닥 절단에 의해 측접된 관심 있는 영역(들)은 이후 선택된 시퀀싱 플랫폼에 의해 규정된 시퀀싱 어댑터에 결찰될 것이다. 다른 실시형태에서, Cas9 단백질에 의해 결합되지 않은 DNA 분자가 분해되도록 DNA는 엑소뉴클레아제에 의해 처리될 수 있다(문헌[Stevens et al. PLOS One 2019;14(4):e0215441]). 이 방법이 PCR 증폭을 수반하지 않으므로, 염기 변형을 갖는 원래의 DNA 분자는 시퀀싱될 수 있고, 염기 변형이 결정될 것이다. 일 실시형태에서, 이 방법은 상동성 서열을 공유하는 영역, 예를 들어 광범위 산재 핵 요소(LINE: long interspersed nuclear element) 반복부의 많은 수를 표적화하도록 사용될 수 있다. 일 예에서, 이러한 분석은 태아 이수성의 검출을 위한 모계 혈장에서의 순환 무세포 DNA의 분석에 사용될 수 있다(문헌[Kinde et al. PLOS One 2012;7(7):e41162]).
도 91에 도시된 것처럼, 표적화된 단일 분자 실시간 시퀀싱은 CRISPR(클러스터링된 규칙적인 간격을 갖는 짧은 회문 반복서열)/Cas9(CRISPR 연관된 단백질 9) 시스템을 사용하여 실행될 수 있다. 5' 포스포릴기(즉, 5'-P) 및 3' 하이드록실기(즉, 3'-OH)를 보유하는 DNA 단편(예를 들어, 분자 9102)은 5'-P가 제거되고 3'-OH가 디데옥시뉴클레오타이드(즉, ddNTP)로 결찰된 말단 차단 공정으로 처리되었다. 그러므로, 말단이 변형된 생성된 분자(예를 들어, 분자 9104)가 후속하는 DNA 라이브러리 제조를 위해 어댑터로 결찰될 수 없었다. 그러나, 말단 차단된 분자는 CRISPR/Cas9 시스템에 의해 매개된 표적 특이적 절단으로 처리되어, 5'-P 및 3'-OH 말단을 관심 있는 분자로 도입하였다. 5'-P 및 3'-OH 말단을 보유하는 이러한 새로 절단된 DNA 분자(예를 들어, 분자 9106)는 원형 분자 9108을 형성하는 헤어핀 어댑터와 결찰되는 능력을 획득하였다. 비결찰된 어댑터, 선형 DNA 및 오직 하나의 절단효소를 보유하는 분자는 엑소뉴클레아제 III 및 VII에 의한 소화로 처리되었다. 그 결과, 2개의 헤어핀 어댑터와 결찰된 분자는 농후화되고, 단일 분자 실시간 시퀀싱으로 처리되었다. 이 표적 분자는 본 개시내용에 존재하는 실시형태에 따른 염기 변형 분석(즉, 표적화된 단일 분자 실시간 시퀀싱)에 적합하였다.
도 92에 도시된 것처럼, CRISPR/Cas9 시스템에서의 Cas9 단백질은 가이드 RNA(즉, gRNA)와 상호작용하였고, 이것은 CRISPR RNA(crRNA, DNA 표적화를 담당) 및 트랜스-활성 crRNA(tracrRNA, Cas9와의 복합체의 형성을 담당)를 포함한다(문헌[Pickar-Oliver et al. Nat Rev Mol Cell biol. 2019;20:490-507]). 곡선 형상은 Cas9 단백질을 나타내고, 이는 CRISPR 서열의 하나의 부분에 상보성인 DNA의 특정 가닥을 인식하고 절단하는 가이드로서 CRISPR 서열을 사용하는 효소이다. crRNA는 tracrRNA에 어닐링되었다. 일 실시형태에서, 합성 단일 RNA 서열은 단일 가이드 RNA(sgRNA)라 불리는 crRNA 및 tracrRNA 서열 둘 다를 함유하였다. 스페이서 서열이라 명명된 crRNA에서의 분절은 표적화된 영역에 페어링하는 상보성 염기를 통해 이중 가닥 DNA(dsDNA)의 특정 가닥을 인식하고 절단하도록 Cas9 단백질을 가이드할 것이다. 일 실시형태에서, 스페이서 서열과 표적화된 dsDNA 사이의 상보성에 관여된 미스매치가 없었다. 다른 실시형태에서, 스페이서 서열과 표적화된 dsDNA 사이의 상보성 염기 페어링은 미스매치를 허용할 것이다. 예를 들어, 미스매치의 수는 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개 등이지만, 이들로 제한되지는 않는다. 일 실시형태에서, CRISPR 서열은 상이한 CRISPR/Cas 복합체 설계에 대해 절단 효율, 특이성, 민감도 및 다중화의 능력에 따라 프로그래밍될 것이다.
도 93에 예시된 것처럼, 본 발명자들은 인간 게놈에서 Alu 요소에 걸친 2개의 절단을 표적화하는 CRISPR/Cas9 복합체의 쌍을 설계하였다. 'XXX'는 Cas9 뉴클레아제 절단 부위를 측접시키는 3개의 뉴클레오타이드를 나타낸다. 'YYY'는 'XXX'에 상보성인 3개의 상응하는 뉴클레오타이드를 나타낸다. 5'-NGG는 프로토스페이서 인접 모티프(PAM: protospacer adjacent motif) 서열을 나타낸다. 다른 CRISPR/Cas 시스템에서, PAM 서열은 상이할 수 있고, Cas 뉴클레아제 절단 부위를 측접시키는 서열은 상이할 수 있다. 이 도면에서, Alu 영역은 223 bp 크기였다. 1,175,329개의 Alu 영역이 있는데, 이들은 각각 인간 게놈에서 이러한 Alu 요소에 대한 동족체를 함유한다. 5개의 CpG 부위의 중앙치는 이 Alu 요소에 있다(범위: 0 내지 34). 일례로서, 이 설계는 20-nt 스페이서 서열을 함유하는 36-nt crRNA를 함유하였다. 자세한 gRNA 서열 정보는 하기와 같이 기술되었다:
제1 절단을 도입하기 위한 제1 CRISPR/Cas9 복합체: (5'에서 3'의 모든 서열)
crRNA: GCCUGUAAUCCCAGCACUUUGUUUUAGAGCUAUGCU
tracrRNA:
AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
제2 절단을 도입하기 위한 제2 CRISPR/Cas9 복합체:
crRNA: AGGGUCUCGCUCUGUCGCCCGUUUUAGAGCUAUGCU
tracrRNA:
AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
crRNA 분자는 gRNA의 골격을 형성하도록 tracrRNA(예를 들어, 67-nt)에 어닐링되었다. 설계된 gRNA를 갖는 Cas9 뉴클레아제는 소정의 수준의 특이성을 갖는 표적화된 절단 부위를 보유하는 말단 차단된 분자의 가닥 둘 다를 절단할 수 있다. 설계된 CRISPR/Cas9 복합체에 의해 절단될 예정인 인간 게놈에서의 관심 있는 116,184개의 Alu 영역이 있었다. 따라서, Cas9 복합체에 의한 표적화된 절단 후 이 Alu 영역은 헤어핀 어댑터로 결찰될 수 있다. 헤어핀 어댑터로 결찰된 이 분자는 단일 분자 실시간 시퀀싱에 의해 시퀀싱될 수 있다. 이 Alu 영역에 대한 메틸화 패턴은 표적화된 방식으로 결정될 수 있다. 일 실시형태에서, 2개의 Cas9 복합체로부터의 스페이서 서열은 이중 가닥 DNA 기질의 동일한 가닥(예를 들어, 왓슨 가닥 또는 클릭 가닥)과 염기 쌍을 지을 수 있다. 일 실시형태에서, 2개의 Cas9 복합체로부터의 gRNA에서의 스페이서 서열은 이중 가닥 DNA 기질의 상이한 가닥과 염기 쌍을 지을 수 있다. 예를 들어, Cas9 복합체에서의 하나의 스페이서 서열이 이중 가닥 DNA 기질의 왓슨 가닥에 상보성이고, Cas9 복합체에서의 다른 스페이서 서열이 이중 가닥 DNA 기질의 클릭 가닥에 상보성이고, 그 반대도 그러하다.
일 실시형태에서, 헤어핀 어댑터와 결찰된 DNA 분자는 엑소뉴클레아제 소화에 저항적일 수 있는 원형 형태였다. 그러므로, 선형 DNA(예를 들어, 오프 타깃 DNA 분자)를 제거하기 위해 엑소뉴클레아제(예를 들어, 엑소뉴클레아제 III 및 VII)에 의해 어댑터 결찰된 DNA 산물을 처리할 수 있다. 엑소뉴클레아제의 사용에 의한 이 단계는 표적화된 분자를 추가로 농후화할 수 있다. 시퀀싱되는 표적화된 분자의 크기는 예를 들어 비제한적인 예로서 10 bp, 20 bp, 30 bp, 40 bp, 50 bp, 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 1000 bp, 2000 bp, 3000 bp, 4000 bp, 5000 bp, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 100 kb, 200 kb, 300 kb, 500 kb 및 1 Mb를 포함하는 하나 이상의 Cas9 뉴클레아제에 의해 도입된 2개의 절단 부위 사이에 다양한 크기에 따라 달라졌다.
일례로서, Alu 영역을 표적화하는 gRNA를 갖는 Cas9를 사용하여, 본 발명자들은 단일 분자 실시간 시퀀싱을 이용하여 인간 간세포 암종(HCC) 종양 조직 샘플로부터 187,010개의 분자를 시퀀싱하였다. 이들 중에서, 113,491개의 분자는 표적화된 절단을 보유하였다(즉, 온 타깃 절단율은 분자의 대략 60.7%였음). 데이터세트는 Sequel II Sequencing Kit 2.0에 의해 제조된 DNA로부터 생성되었다. 바꾸어 말하면, 이 예에서 Cas9 복합체에 의해 관심 있는 분자로 도입된 절단 부위의 특이성은 60.7%였다. 다른 실시형태에서, Cas9 또는 다른 Cas 복합체에 의해 관심 있는 분자로 도입된 절단 부위의 특이성은 비제한적인 예로서 1%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 및 100%를 포함하여 변할 것이다. 기준 게놈에 대한 정렬 없이 CCS 및 하위판독물로부터 유래된 IPD, PW 값 및 서열 콘텍스트는 Alu 서열에서 CpG 부위에서의 메틸화 상태를 결정하기 위해 사용되었다.
도 94에 도시된 것처럼, 본 발명자들은 바이설파이트 시퀀싱 및 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 수준 사이에 유사한 메틸화 분포를 관찰하였다. 도 94는 바이설파이트 시퀀싱 및 단일 분자 실시간 시퀀싱(Pacific Biosciences)에 대한 (퍼센트의) 메틸화 밀도의 히스토그램을 보여준다. y축은 x축에 도시된 특정 메틸화 밀도를 갖는 샘플에서의 분자의 비율을 나타낸다. 이 결과는 Cas9 매개된 표적화된 단일 분자 실시간 시퀀싱을 사용하여 메틸화 패턴을 결정하는 것이 실행 가능하다는 것을 제시하였다. 이 결과는 또한 기준 게놈에 대한 정렬 없이 PW 및 IPD 값을 포함하는 하위판독물 연관된 동역학 특징을 이용하여 메틸화를 결정할 수 있었다는 것을 제시하였다. 도 94에 도시된 것처럼, 본 발명자들은 저메틸화를 나타내는 상당한 양의 Alu 영역을 관찰하였고, 이는 어떠한 암 게놈이 Alu 반복 영역에서 탈메틸화되는지에 대한 이전의 지식과 일치하였다(문헌[Rodriguez et al. Nucleic Acids Res. 2008; 36:770-784]).
도 95는 y축에 본 개시내용에 따른 단일 분자 실시간 시퀀싱에 의해 결정된 바와 같은 메틸화 수준의 분포 및 x축에 바이설파이트 시퀀싱에 의해 결정된 바와 같은 메틸화 밀도를 보여준다. 도 95에 도시된 것처럼, Alu 영역에서의 메틸화 수준은 5개의 범주, 즉 바이설파이트 시퀀싱의 결과에 따라 0% 내지 20%, 20% 내지 40%, 40% 내지 60%, 60% 내지 80%, 및 80% 내지 100%로 비닝되었다. Alu 영역의 동일한 세트의 메틸화 수준은 Alu 영역의 각각의 카테고리에 대해 동역학 특징 및 서열 콘텍스트(y축)을 포함하는 측정 윈도우를 사용하여 본 발명자들의 모델에 의해 추가로 결정되었다. 본 발명자들의 모델에 의해 결정된 메틸화 수준의 분포는 비닝된 카테고리에 걸쳐 메틸화 수준의 오름차순에 따라 점진적으로 증가하였다. 다시, 이 결과는 Cas9 매개된 표적화된 단일 분자 실시간 시퀀싱을 사용하여 메틸화 패턴을 결정하는 것이 실행 가능하다는 것을 제시하였다. 기준 게놈에 대한 정렬 없이 PW 및 IPD 값을 포함하는 하위판독물 연관된 동역학 특징을 이용하여 메틸화를 결정할 수 있다.
또 다른 실시형태에서, 표적화된 단일 분자 실시간 시퀀싱을 수행하기 위해 다른 유형의 CRISPR/Cas 시스템, 예를 들어 비제한적인 예로서 Cas12a, Cas3, 및 다른 오솔로그(예를 들어, 스타필로코커스 아우레우스(Staphylococcus aureus) Cas9) 또는 조작된 Cas 단백질(향상된 아시다미노코커스 종(Acidaminococcus spp) Cas12a)을 사용할 수 있다.
일 실시형태에서, 절단 없이 표적화된 분자를 농후화하기 위한 뉴클레아제 활성이 없는 탈활성화된 Cas9(dCas9)를 사용할 수 있다. 예를 들어, 표적화된 DNA 분자는 바이오티닐화된 dCas9 및 표적 서열 특이적 gRNA를 포함하는 복합체에 의해 결합되었다. dCas9가 뉴클레아제 결핍이므로 이러한 표적화된 DNA 분자는 dCas9에 의해 절단되지 않을 수 있다. 스트렙타비딘 코팅된 자기 비드의 사용을 통해, 표적화된 DNA 분자가 농후화될 수 있다.
일 실시형태에서, Cas 단백질과의 항온처리 후 DNA 혼합물을 소화시키도록 엑소뉴클레아제를 사용할 수 있다. 엑소뉴클레아제는 Cas-단백질 비결합된 DNA 분자를 분해할 수 있는 반면, 엑소뉴클레아제는 분해하지 않을 수 있거나, Cas-단백질 결합된 DNA 분자를 분해하는 데 있어서 주로 덜 효과적일 수 있다. 그러므로, Cas 단백질에 의해 결합된 표적 분자에 관한 정보는 궁극적인 시퀀싱 결과에서 추가로 농후화될 수 있다.
도 96은 조직 및 조직에서의 Alu 영역의 메틸화 수준을 보여준다. 많은 조직은 88% 내지 92% 범위를 포함하는 85% 내지 92% 범위에서의 메틸화 수준을 보여준다. HCC 종양 조직 및 태반 조직은 80% 미만의 메틸화 수준을 나타냈다. 도 96에 도시된 것처럼, HCC 종양은 본 발명자들의 설계에 의해 표적화된 Alu 영역에서 흔히 저메틸화된 것으로 나타났다. 그러므로, 본 개시내용에 존재하는 Alu 영역의 메틸화 결정은 종양 생검 또는 다른 조직 또는 세포로부터 추출된 DNA를 사용하여 종양 진행 또는 치료 동안 암을 검출하고 병기분석하고 모니터링하기 위해 사용될 수 있다.
Alu 영역에 걸친 태반 조직의 저메틸화는 임신한 여성의 혈장 DNA를 사용하여 비침습적 태아기 시험을 수행하도록 사용될 수 있다. 예를 들어, 더 높은 정도의 저메틸화는 임신한 여성에서의 더 높은 태아 DNA 분획을 나타낼 수 있다. 다른 예에서, 여성이 염색체 이수성을 갖는 태아를 임신하면, 이 접근법에 의해 검출된 영향을 받은 염색체에서 기원하는 Alu 단편의 수는 정배수체 태아를 임신한 여성과 정량적으로 상이(즉, 증가 또는 감소 중 어느 하나)할 수 있다. 그러므로, 태아가 삼체성 21을 가지면, 이 접근법에 의해 검출된 염색체 21에서 기원한 Alu 단편의 수가 정배수체 태아를 갖는 임신한 여성과 비교할 때 증가할 수 있다. 다른 한편, 태아가 일염색체성 염색체를 가지면, 이 접근법에 의해 검출된 그 염색체에서 기원한 Alu 단편의 수가 정배수체 태아를 갖는 임신한 여성과 비교할 때 감소할 수 있다. 영향을 받지 않은 염색체와 비교하여, 혈장에서의 영향을 받은 염색체(13, 18 또는 21)의 추가의 저메틸화의 제시의 결정은 정상 태아 및 비정상 태아를 갖는 임신한 여성을 구별하기 위한 분자 표시자로서 사용될 수 있다.
3. 상이한 유형의 암에 대한 Cas9 복합체에 의해 표적화된 Alu 영역에서의 메틸화 분석
본 발명자들이 표적화한 Alu 반복부가 상이한 조직에서 고도로 메틸화되더라도, 본 발명자들은 상이한 암 유형이 이 Alu 반복부에 걸쳐 상이한 탈메틸화 패턴을 보유한다는 것을 가정하였다. 일 실시형태에서, 본원에 존재하는 개시내용에 따라 상이한 암 유형을 결정하기 위해 메틸화 패턴을 분석하기 위해 Cas9 기반 표적화된 단일 분자 실시간 시퀀싱을 사용할 수 있다.
도 97은 상이한 암 유형에 대한 Alu 반복부와 관련된 메틸화 신호의 클러스터링 분석을 보여준다. TCGA 데이터베이스(www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)로부터의 암 대상체는 마이크로어레이 기술(Infinium HumanMethylation450 BeadChip, Illumina Inc)을 사용하여 분석되는 CpG 부위에서의 메틸화 상태를 갖는다. 마이크로어레이 칩에 존재하고 CRISPR/Cas9 복합체에 의해 표적화된 Alu 영역과 중첩하는 3,024개의 CpG 부위에 걸친 메틸화 상태가 분석되었다. 환자에서 관심 있는 Alu 영역에서 기원한 다수의 CpG가 있다. 각각의 CpG의 메틸화 수준은 마이크로어레이(메틸화 지수 또는 베타 값이라고도 불림)에 의해 정량화되었다. 본 발명자들은 환자에 걸쳐 이 CpG 부위에서 다수의 메틸화 수준에 기초하여 계층적 클러스터링 분석을 수행하였다. 따라서, 이 CpG 부위에서의 메틸화 수준의 유사한 패턴을 갖는 환자가 함께 클러스터링하여 클래드를 형성할 것이다. 상이한 환자에 걸친 메틸화 패턴의 유사성은 클러스터링 계통도에서 높이 값으로 표시될 것이다. 높이는 이 실시예에서 유클리드 거리에 따라 계산되었다. 다른 실시형태에서, 비제한적인 예로서 민코프스키(Minkowski), 체비셰프(Chebychev), 마할라노비슴(Mahalanobism), 맨하튼(Manhattan), 코사인(Cosine), 상관관계, 스피어만(Spearman), 해밍(Hamming), 자카드(Jaccard) 거리 등을 포함하는 다른 거리 메트릭이 사용될 것이다. 본원에 사용된 높이는 클러스터 사이의 거리 메트릭의 값을 나타내어서, 클러스터 사이의 관련성을 반영한다. 예를 들어, 높이 x에서 통합된 2개의 클러스터를 관찰하면, 이 클러스터 사이의 거리가 x라는 것(예를 들어, 모든 클러스터간 환자 사이의 평균 거리)을 제시하였다.
CpG 부위에서 메틸화 상태의 사용에 의해 환자는 클러스터링 분석의 결과에서 암 유형에 따라 상이한 구별되는 그룹으로 클러스터링되었다. 암 유형은 방광 요로 암종(BLCA: bladder urothelial carcinoma), 유방 침윤성 암종(BRCA: breast invasive carcinoma), 난소 장액성 낭선암종(OV: ovarian serous cystadenocarcinoma), 췌장 선암(PAAD: pancreatic adenocarcinoma), HCC, 폐 선암(LUAD: lung adenocarcinoma), 위 선암 (STAD: stomach adenocarcinoma), 피부 흑색종(SKCM: skin cutaneous melanoma) 및 자궁 암육종증(UCS: uterine carcinosarcoma)을 포함하였다. 도면에서의 암 유형 뒤의 숫자는 환자를 나타낸다. 그러므로, 클러스터링은 본 발명자들이 선택한 Alu 반복부에서의 메틸화 신호가 도 97에 도시되지 않은 암 유형을 포함하는 암 유형을 분류하기 위해 정보를 제공한다는 것을 제시한다. 일 실시형태에서, 조직 생검에서의 메틸화 패턴에 기초한 원발성 종양 및 속발성 종양을 구별할 수 있다.
4. 하위판독물 깊이 및 크기 컷오프
이 부문은 하위판독물 깊이 및/또는 크기 컷오프가 메틸화 검출의 정확성 및/또는 효율을 개선하기 위해 사용될 수 있다는 것을 보여준다. 라이브러리 제제는 소정의 하위판독물 깊이 또는 크기를 시험하기 위해 변형될 수 있다.
Sequel II Sequencing Kit 2.0에 기초하여, 본 발명자들은 시험 데이터세트에서의 전체 메틸화 수준 정량화에 대한 판독물 깊이의 효과를 분석하였고, 이 데이터세트는 전장 게놈 증폭 또는 M.SsssI 처리 후에 샘플로부터 생성되었다. 본 발명자들은 적어도 소정의 컷오프, 예를 들어 비제한적인 예로서 1x 이상, 10x, 20x, 30x, 40x, 50x, 60x, 70x, 80x, 90x, 100x 등으로 하위판독물에 의해 커버된 게놈 부위를 연구하였다.
도 98a는 전장 게놈 증폭에 관여된 시험 데이터세트에서의 전체 메틸화 수준 정량화에 대한 판독물 깊이의 효과를 보여준다. 도 98b는 M.SsssI 처리에 관여된 시험 데이터세트에서의 전체 메틸화 수준 정량화에 대한 판독물 깊이의 효과를 보여준다. y축은 백분율로서의 전체 메틸화 수준을 보여준다. x축은 하위판독물 깊이를 보여준다. 파선은 전체 메틸화 수준의 예상된 값을 나타낸다.
도 98a에 도시된 것처럼, 전장 게놈 증폭을 수반하는 데이터세트에 대해, 전체 메틸화는 5.7% 내지 5.2%의 범위인 예컨대 비제한적인 예로서 1x, 10x, 20x, 40x, 50x와 같은 초기 적은 컷오프에서 감소하였다. 메틸화 수준은 50x 이상의 컷오프에서 대략 5%에서 점점 더 안정화되었다.
다른 한편, 도 98b에서, M.SsssI 처리 후 샘플로부터 생성된 데이터세트에 대해, 전체 메틸화는 70% 내지 83%의 범위의 비제한적인 예로서 1x, 10x, 20x, 40x, 50x와 같은 초기 적은 컷오프에서 증가하였다. 메틸화 수준은 50x 이상의 컷오프에서 대략 83%에서 점점 더 안정화되었다.
일 실시형태에서, 하위판독물 깊이 컷오프를 조정할 수 있어서, 상이한 분야에 걸쳐 수정 가능한 염기 변형 분석의 수행을 만든다. 다른 실시형태에서, 하류 분석에 적합한 더 많은 ZMW(즉, 분자의 수)를 얻기 위해 덜 엄격한 하위판독물 깊이 컷오프를 사용할 수 있었다. 또 다른 실시형태에서, 비제한적인 예로서 BS-seq, 디지털 드랍플렛 PCR(바이설파이트 전환된 샘플에서), 메틸화 특이적 PCR, 또는 메틸화된 시토신 결합 항체 또는 다른 단백질과 같은 제2 측정에 대해 본 개시내용에 따른 SMRT-seq에 의해 결정된 메틸화 수준의 판독을 교정할 수 있었다. 다른 실시형태에서, BS-seq, 디지털 드랍플렛 PCR(바이설파이트 전환된 샘플에서), 메틸화 특이적 PCR, 또는 메틸-CpG 결합 도메인(MBD) 단백질-농후화된 게놈 시퀀싱(MBD-seq)에 대한 5mC-보유된 전장 게놈 증폭 후에 DNA 분자를 처리하여 제2 측정이 얻어질 것이다. 일례로서, 5mC-보유된 전장 게놈 증폭은 DNA 프리마아제 TthPrimPol, 중합효소 phi29 및 DNMT1(DNA 메틸전환효소 1)에 의해 매개될 수 있었다.
본 발명자들은 상이한 하위판독물 깊이에 대해 다양한 암 유형 및 비종양 조직에 걸쳐 메틸화 수준을 분석하였다. 본 개시내용에 따른 SMRT-seq에 의해 결정된 메틸화 수준은 또한 BS-seq 시퀀싱 결과와 비교되었다. Sequel II Sequencing Kit 2.0을 사용하여, 본 발명자들은 4300만개의 하위판독물(사분 범위(IQR): 3000만개 내지 5200만개)의 중앙치를 얻었고, 이것은 인간 기준 게놈(IQR: 280만개 내지 580만개)에 정렬된 460만개의 원형 공통 서열(CCS)의 중앙치의 생성을 허용하였다. 이들 샘플 중에서, 22개의 샘플은 또한 메틸화 패턴을 결정하기 위한 잘 확립된 대량 병렬 바이설파이트 시퀀싱(BS-seq)으로 처리되어 메틸화 수준의 비교를 위한 제2 측정을 제공한다.
도 99는 본 개시내용에 따른 SMRT-seq(Sequel II Sequencing Kit 2.0) 및 상이한 하위판독물 깊이 컷오프의 사용에 의한 BS-seq에 의해 결정된 전체 메틸화 수준 사이의 비교를 보여준다. SMRT-seq에 의해 결정된 백분율로서의 메틸화 수준은 y축에 도시되어 있다. 바이설파이트 시퀀싱에 결정된 백분율로서의 메틸화 수준은 x축에 있다. 기호는 1x, 10x 및 30x의 상이한 하위판독물 깊이를 나타낸다. 3개의 대각선은 상이한 하위판독물 깊이에 대한 적합화된 선을 보여준다.
도 99는 본 개시내용에 따른 SMRT-seq에 의해 결정된 CpG 부위에서의 메틸화 수준이, 적어도 1회(즉, 하위판독물 깊이 컷오프 ≥ 1x) 하위판독물에 의해 커버된 게놈 부위를 분석할 때, BS-seq에 의해 결정된 것과 잘 상관되었다(r = 0.8; P 값 < 0.0001)는 것을 보여주었다. 이 결과는 본 개시내용에 제시된 실시형태가 비제한적인 예로서 결장직장암, 결장직장 조직, 식도암, 식도 조직, 유방암, 비암성 유방 조직, 신장 세포 암종, 신장 조직, 폐암 및 폐 조직을 포함하는 상이한 조직 유형에 대해 메틸화 수준을 측정하기 위해 사용될 수 있었다는 것을 제시하였다. 본 발명자들은 또한 하위판독물 깊이 컷오프가 각각 10x 및 30x로 증가하면서 이들 2의 측정 사이의 상관관계가 0.87(P 값 < 0.0001) 및 0.95(P 값 < 0.0001)로 개선되었다는 것을 관찰하였다. 일부 실시형태에서, 하위판독물 깊이의 증가 또는 더 많은 하위판독물의 커버리지를 갖는 게놈 영역의 선택은 본 개시내용에 따른 SMRT-seq 기반 메틸화 결정의 수행을 개선할 것이다.
도 100은 SMRT-seq(Sequel II Sequencing Kit 2.0) 및 BS-seq에 의해 결정된 2의 측정 사이의 메틸화 수준의 상관관계에 대한 하위판독물 깊이의 효과를 보여주는 표이다. 제1 열은 하위판독물 깊이 컷오프를 보여준다. 제2 열은 피어슨 r인 상관관계 계수를 보여준다. 제3 열은 괄호 내의 부위의 수의 범위로 컷오프와 연관된 CpG 부위의 수를 보여준다.
도 100에 도시된 것처럼, SMRT-seq 및 BS-seq에 의한 2의 측정 사이의 메틸화 수준의 상관관계는 상이한 하위판독물 깊이 컷오프에 따라 변했다. 일 실시형태에서, 비메틸화된 시토신으로부터 메틸화된 시토신을 구별하기 위한 하위판독물 깊이의 최적 컷오프를 결정하기 위해 하위판독물 깊이 컷오프 사이의 관계 및 2의 측정 사이의 상관 계수(예를 들어, 피어슨 상관 계수)를 사용할 수 있었다. 도 100은 30x(즉, ≥ 30x)의 하위판독물 깊이 컷오프에서 본 개시내용에 따른 SMRT-seq에 의해 측정된 메틸화 수준이 BS-seq에 의해 생성된 결과와 가장 높은 상관관계(피어슨 r = 0.952)를 제공한다는 것을 보여주었다. 다른 실시형태에서, 1x, 10x, 30x, 40x, 50x, 60x, 70x, 80x, 900x, 100x, 200x, 300x, 400x, 500x, 600x, 700x, 800x 등의 하위판독물 깊이 컷오프를 사용하지만, 이들로 제한되지는 않는다.
메틸화 분석에 사용된 CpG 부위의 수는 도 100에 도시된 것처럼 하위판독물 깊이의 컷오프의 증가에 따라 감소한다. 100x의 하위판독물 깊이 컷오프에 의해, 더 낮은 상관관계(피어슨 r = 0.875)는 30x의 하위판독물 깊이 컷오프(피어슨 r = 0.952)와 비교하여 메틸화 수준의 2의 측정 사이에 관찰되었다. 더 높은 하위판독물 컷오프에 대한 더 낮은 상관관계는 보다 엄격한 하위판독물 깊이 컷오프를 충족시키는 더 작은 수의 CpG 부위의 결과일 수 있다. 일 실시형태에서, 메틸화 분석에 사용될 수 있는 분자의 수와 하위판독물 깊이의 필요 사이에 균형을 고려할 수 있다. 예를 들어, 메틸화 패턴에 대해 전장 게놈을 스캔하도록 목표하면, 더 많은 분자가 바람직할 수 있다. 표적화된 SMRT-seq를 사용하여 특정 영역에 집중하면, 그 영역에 대해 메틸화 패턴을 얻기 위해 더 높은 하위판독물 깊이가 원해질 수 있다.
도 101은 Sequel II Sequencing Kit 2.0에 의해 생성된 데이터에서의 단편 크기와 관련하여 하위판독물 깊이 분포를 보여준다. 하위판독물 깊이는 y축에 도시되어 있고, DNA 분자의 길이는 x축에 도시되어 있다. DNA 분자의 길이는 원형 공통 서열(CCS)의 크기로부터 추론되었다.
하위판독물 깊이가 SMRT-seq 데이터를 사용하여 메틸화 결정의 수행에 영향을 미칠 수 있고, 하위판독물 깊이가 시퀀싱된 DNA 분자의 길이의 기능이므로, DNA 분자의 크기는 샘플에서 메틸화 패턴을 분석하기 위해 최적 하위판독물 깊이를 얻는 것에 중요할 것이다. 도 101에 도시된 것처럼, DNA가 더 길수록, 하위판독물 깊이가 더 낮다. 예를 들어, 1 kb 크기인 분자의 집단에 대해, 중앙치 하위판독물 깊이는 50x였다. 10 kb 크기인 분자의 집단에 대해, 중앙치 하위판독물 깊이는 15x였다.
일 실시형태에서, 도 100에 도시된 것처럼, 하위판독물 깊이의 최적 컷오프는 적어도 30x일 수 있고, 이는 가장 높은 상관관계 계수를 생성시킨다. 30x의 최적 하위판독물 깊이 컷오프를 충족시키는 분자의 처리량을 추가로 개선하기 위해, DNA 주형 분자의 길이와 하위판독물 깊이 사이의 관계를 사용할 수 있다. 예를 들어, 도 101에서, 30x는 약 4 kb의 길이를 갖는 분자에 대해 중앙치 하위판독물 깊이이다. 따라서 SMRT-seq 라이브러리 제조 전에 4-kb DNA 분자를 분별화하고 4-kb DNA 분자에 대한 시퀀싱을 제한할 수 있다. 다른 실시형태에서, 비제한적인 예로서 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 500 kb, 1 Mb, 또는 크기 컷오프의 상이한 조합을 포함하는, DNA 분자 단편화에 대한 다른 크기 컷오프를 사용할 수 있다.
5. 제한 효소 기반 표적화된 단일 분자 실시간 시퀀싱
이 부문은 변형의 검출의 실행 가능성 및/또는 처리량 및/또는 비용 효과를 개선하기 위해 제한 효소를 사용하는 것을 기재한다. 제한 효소로 생성된 DNA 단편은 샘플의 기원을 결정하도록 사용될 수 있다.
a) DNA 분자를 소화시키기 위한 제한 효소의 사용
실시형태에서, (예를 들어, Pacific Biosciences 시스템을 이용하여) 단일 분자 실시간 시퀀싱 전에 DNA 분자를 소화시키기 위해 하나 이상의 제한 효소를 사용할 수 있다. 제한 효소의 인식 부위의 분포가 인간 게놈에 불균등하게 존재하므로, 제한 효소에 의해 소화된 DNA가 왜곡된 크기 분포를 생성할 수 있다. 제한 효소의 보다 많은 인식 부위를 갖는 게놈 영역은 더 작은 단편으로 소화될 수 있는 반면, 제한 효소의 더 적은 인식 부위를 갖는 게놈 영역은 더 긴 단편으로 소화될 수 있다. 실시형태에서, 크기 범위에 따르면, 하나 이상의 제한 효소의 유사한 절단 패턴을 갖는 하나 이상의 영역에서 기원한 DNA 분자를 선택적으로 얻을 수 있다. 크기 선택에 대한 원하는 크기 범위는 하나 이상의 제한 효소에 대한 인실리코 절단 분석에 의해 결정될 수 있다. 기준 게놈(예를 들어, 인간 기준 게놈)에서 관심 있는 제한 효소의 인식 부위의 수를 결정하도록 컴퓨터 프로그램을 사용할 수 있다. 이러한 기준 게놈은 이 인식 부위에 따라 단편으로 인실리코 전단되었고, 이는 관심 있는 게놈 영역에 대한 크기 정보를 제공하였다.
도 126은 DNA 말단 보수 및 A-테일링의 사용에 의한 MspI 기반 표적화된 단일 분자 실시간 시퀀싱의 방법을 보여준다. 실시형태에서, 도 126에 도시된 것처럼, 유기체의 DNA 샘플, 예를 들어 비제한적인 예로서 인간 DNA 샘플을 소화시키기 위해 5'C^CGG3' 부위를 인식하는 MspI를 사용할 수 있다. 5' CG 오버행을 갖는 소화된 DNA 단편은 크기 선택으로 처리되어서, CpG 섬에서 기원한 DNA 분자를 농후화한다. G 및 C 잔기(GC 함량으로도 불림)로 농후화된 게놈 영역은 더 짧은 단편을 생성시킬 수 있다. 따라서, 관심 있는 영역의 GC 함량에 기초하여 선택을 수행하도록 단편 크기의 범위를 결정할 수 있다. 비제한적인 예로서 겔 전기영동, 크기 배제 전기영동, 모세관 전기영동, 크로마토그래피, 질량 분광법, 여과 접근법, 침전 기반 접근법, 마이크로유체학 및 나노유체학을 포함하는 다양한 DNA 단편 크기 선택 도구는 당업자에 이용 가능하다. 원하는 DNA 산물이 5' T 오버행을 보유하는 헤어핀 어댑터와 결찰되어 원형 DNA 주형을 형성할 수 있도록 크기 분별화된 DNA 분자는 DNA 말단 보수 및 A-테일링으로 처리되었다.
예를 들어 비제한적인 예로서 엑소뉴클레아제(예를 들어, 엑소뉴클레아제 III 및 VII)를 사용하여 비결찰된 어댑터, 선형 DNA 및 비완전한 원형 DNA의 제거 후, 헤어핀 어댑터로 결찰된 DNA 분자는 본원에 개시된 바와 같은 메틸화 프로필을 결정하는 데 IPD, PW 및 서열 콘텍스트를 결정하기 위해 단일 분자 실시간 시퀀싱에 사용될 수 있다. CpG가 농후화된 게놈 영역을 분석하여, 상이한 조직 또는 상이한 질환 및/또는 생리학적 병태 또는 생물학적 샘플을 갖는 조직으로부터 얻은 DNA는 본 개시내용의 시퀀싱 데이터 분석 방법에 의해 결정된 이의 메틸화 프로필에 의해 구별되고 분류될 수 있다.
도 126에서의 크기 선택을 수반하는 단계에 대해, 실시형태에서, 원하는 크기 범위는 MspI의 인실리코 절단 분석에 의해 결정될 수 있다. 본 발명자들은 인간 기준에서 총 2,286,541개의 MspI 절단 부위를 결정하였다. 인간 기준 게놈은 이 MspI 절단 부위에 따라 단편으로 인실리코로 전단되었다. 본 발명자들은 총 2,286,565개의 단편을 얻었다. 각각의 개별 단편 크기는 그 단편의 뉴클레오타이드의 총 수에 의해 결정되었다.
도 127a도 127bMspI 소화된 단편의 크기 분포를 보여준다. 이 도면에 대한 y축은 단편의 특정 크기에 대한 백분율의 빈도이다. 도 127a는 50 내지 500,000 bp의 범위의 x축에 대한 로그 눈금을 갖는다. 도 127b는 50 내지 1,000 bp의 범위의 x축에 대한 선형 눈금을 갖는다.
도 127a 및 도 127b에 도시된 것처럼, MspI 소화된 DNA 분자는 왜곡된 크기 분포를 갖는다. MspI 소화된 단편의 중앙치 크기는 404 bp(IQR: 98 내지 1,411 bp)였다. 이 MspI 소화된 단편의 약 53%는 1 kb 미만이었다. 반복 요소에 의해 생기는 크기 프로필에서 일련의 스파이킹된 피크가 있었다. 소정의 반복 요소는 MspI 절단 부위의 유사한 패턴을 공유할 수 있어서, 유사한 단편 크기를 보유하는 MspI 소화로부터 유래된 분자의 세트를 발생시킨다. 예를 들어, 가장 높은 빈도(즉, 총 49,079개)를 갖는 스파이킹된 피크는 64 bp의 크기에 상응하였다. 이들 중에서, 45,894개(94%)는 Alu 반복부와 중첩하였다. Alu 반복부에서 기원한 DNA 분자를 농후화하기 위해 64 bp의 크기를 갖는 DNA 분자를 선택할 수 있다. 데이터는 크기 선택이 본 개시내용에 따라 하류 메틸화 분석을 위해 원하는 DNA 분자를 농후화하기 위해 사용될 수 있다는 것을 제시한다.
도 128은 소정의 선택된 크기 범위에 대한 DNA 분자의 수를 갖는 표를 보여준다. 제1 열은 염기 쌍에서의 크기 범위를 보여준다. 제2 열은 총 단편에 대한 크기 범위 내의 분자의 백분율을 보여준다. 제3 열은 CpG 섬과 중첩하는 크기 범위 내의 분자의 수를 보여준다. 제4 열은 CpG 섬과 중첩하는 크기 범위 내의 분자의 백분율을 보여준다. 제5 열은 시퀀싱되는 CpG 부위의 수를 보여준다. 제6 열은 CpG 섬 내에 해당하는 CpG 부위의 수를 보여준다. 제7 열은 크기 선택에 의해 표적화되고 CpG 섬 내에 해당하는 CpG 부위의 백분율을 보여준다. 도 128에 도시된 것처럼, MspI 소화로 처리된 인간 게놈으로부터 생성된 DNA 분자의 양은 해당하는 상이한 크기 범위에 따라 변했다. CpG 섬과 중첩하는 DNA 분자의 수는 상이한 크기 범위로 변했다.
CCGG 모티프가 우선적으로 CpG 섬에서 발생하므로, 소정의 컷오프 미만의 크기를 갖는 분자의 선택은 CpG 섬에서 기원하는 DNA 분자의 농후화를 허용할 수 있다. 예를 들어, 50 내지 200 bp의 크기 범위에 대해, 분자의 수는 526,543개였고, 이는 MspI 소화로 처리된 인간 게놈에서 유래된 총 DNA 단편의 23.03%를 차지하였다. 526,543개의 DNA 분자들 중에서, 104,079개(19.76%)는 CpG 섬과 중첩되었다. 600 내지 800 bp의 크기 범위에 대해, 분자의 수는 133,927개였고, 이는 MspI 소화로 처리된 인간 게놈에서 유래된 총 DNA 단편의 5.86%를 차지하였다. 133,927개의 분자들 중에서, 3,673개(2.74%)의 분자는 CpG 섬과 중첩되었다. 일례로서, CpG 섬에서 기원한 DNA 단편을 농후화하도록 50 내지 200 bp의 크기를 선택할 수 있다.
MspI 기반 표적화된 단일 분자 실시간 시퀀싱을 통해 CpG 섬과 중첩하는 CpG 부위의 농후화의 정도를 계산하기 위해, 본 발명자들은 음파처리에 의해 전단된 DNA에 대한 모의를 수행하였고, 본 발명자들은 정상 분포에 기초하여 200 bp의 평균 크기 및 20 bp의 표준 편차를 갖는 ZMW로부터 생성된 526,543개의 단편을 모의하였다. CpG 섬과 중첩하는 오직 0.88%의 DNA 분자가 있었다. 총 71,495개의 CpG 부위는 CpG 섬과 중첩되었다. 도 128에 도시된 것처럼, 50 내지 200 bp의 범위의 MspI 소화된 단편의 선택은 CpG 섬과 중첩하는 19.8%의 단편을 생성시킬 것이다. 따라서, 이 데이터는 MspI 소화에 의해 제조된 DNA가 음파처리에 의해 제조된 DNA와 비교하여 CpG 섬에서 기원한 DNA 단편의 22.5배 농후화를 가질 수 있다는 것을 제시하였다. 게다가, 본 발명자들은 MspI 소화를 통해 CpG 섬에서 농후화되는 CpG 부위를 분석하였다. 50 내지 200 bp의 범위의 MspI 소화된 단편의 선택이 CpG 섬과 중첩하는 885,041개의 CpG 부위를 생성시킬 수 있고, 그 크기 범위 내에 시퀀싱된 단편으로부터 총 CpG 부위의 37.5%를 차지한다. 음파처리에 의해 제조된 DNA의 것과 비교하여 CpG 섬과 중첩하는 CpG 부위의 12.3배(즉, 885,041개/71,495개) 농후화가 있었다. 도 128에 도시된 정보에 기초하여, 적합한 크기 범위는 CpG 섬 내의 바람직한 수의 CpG 부위 및 CpG 부위의 바람직한 배수 농후화를 포함하도록 선택될 수 있다.
도 129는 제한 효소 소화 후 DNA 단편의 크기에 대한 CpG 섬 내의 CpG 부위의 백분율 커버리지의 그래프이다. y축은 주어진 크기를 갖는 단편에 의해 커버된 CpG 섬 내의 CpG 부위의 백분율을 보여준다. X축은 제한 효소 소화 후 DNA 단편의 크기 범위의 상한을 보여준다. 도 129는 크기 선택 범위를 넓혀서 커버된 CpG 섬 내에 CpG 부위의 백분율을 보여주었다. 도 129에서, 크기 범위는 50 bp에서 x축에 도시된 크기이다. 다른 실시형태에서, 크기 범위의 하한, 예를 들어 비제한적인 예로서 0 bp, 70 bp, 80 bp, 90 bp, 100 bp, 200 bp, 300 bp, 400 bp 및 500 bp가 맞춤될 수 있다. 상부 크기 제한을 증가시켜 크기 범위의 확대에 의해, 본 발명자들은 CpG 섬 내의 CpG 부위의 백분율 커버리지가 점진적으로 증가하고 65%에서 안정상태라는 것을 관찰할 수 있다. CpG 부위의 일부가 50 bp 밑의 DNA 단편 내에 있거나 극도로 긴 분자(예를 들어, >100,000 bp) 내에 단편 내에 있으므로 이들은 커버되지 않는다.
일부 실시형태에서, DNA 샘플은 CpG 섬 내에 CpG 부위의 커버리지를 증가시키도록 (상이한 제한 부위를 갖는) 2개 이상의 상이한 제한 효소를 사용하여 분석될 수 있다. 상이한 효소에 의한 DNA 샘플의 소화는 각각의 반응에서 오직 하나의 제한 효소가 있도록 개별 반응에서 수행될 수 있다. 예를 들어, CG^CG 부위를 인식하는 AccII는 CpG 섬에서 우선적으로 절단하도록 사용될 수 있다. 다른 실시형태에서, 인식 부위의 일부로서 CG 뉴클레오타이드를 갖는 다른 제한 효소를 사용할 수 있다. 인간 게놈 내에, 678,669개의 AccII 절단 부위가 있었다. 본 발명자들은 AccII 제한을 이용하여 인간 기준 게놈의 인실리코 절단을 수행하고, 총 678,693개의 단편을 얻었다. 이후, 본 발명자들은 이들 단편의 인실리코 크기 선택을 수행하고, MspI 소화에 대해 상기 기재된 방법에 따라 CpG 섬 내의 CpG 부위의 백분율 커버리지를 계산하였다. 본 발명자들은 크기 선택 범위의 확대로 CpG 부위 커버리지의 백분율의 점진적인 증가를 관찰할 수 있다. 백분율은 대략 50%에서의 안정상태를 다룬다. CpG 부위의 커버리지는 2의 효소 소화 실험, 즉 MspI 소화 및 AccII 소화로부터의 조합 데이터 내에 추가로 증가한다. CpG 섬 내의 CpG 부위의 80%는 크기가 50 bp 내지 400 bp인 DNA 단편의 선택을 통해 커버된다. 이 백분율은 임의의 2개의 효소 단독에 의한 소화 실험에 대한 각각의 수보다 높다. 커버리지는 다른 제한 효소를 사용하여 DNA 샘플의 분석을 통해 추가로 증가할 수 있다. DNA 샘플이 2개의 액적으로 분할되면, 하나의 액적은 MspI 로 소화되고, 다른 것은 AccII로 소화된다. 2개의 소화된 DNA 샘플은 등몰로 함께 혼합되고, 500만개의 ZMW로 단일 분자 실시간 시퀀싱을 사용하여 시퀀싱된다. 인실리코 분석에 기초하여, CpG 섬 내의 CpG 부위의 83%(즉, 1,734,345개)는 원형 공통 서열의 면에서 적어도 4배 시퀀싱될 것이다.
도 130은 DNA 말단 보수 및 A-테일링의 사용 없이 MspI 기반 표적화된 단일 분자 실시간 시퀀싱을 보여준다. 실시형태에서, 소화된 DNA 분자와 헤어핀 어댑터 사이의 결찰은 DNA 말단 보수 및 A-테일링의 과정 없이 수행될 수 있다. 5' CG 오버행을 보유하는 소화된 DNA 분자를 5' CG 오버행을 보유하는 헤어핀 어댑터에 직접 결찰하여, 단일 분자 실시간 시퀀싱에 대해 원형 DNA 주형을 형성할 수 있다. 비결찰된 어댑터 및 자가 결찰된 어댑터 이합체의 세정 후, 및 일부 실시형태에서 비결찰된 어댑터, 선형 DNA 및 비완전한 원형 DNA의 제거 후, 헤어핀 어댑터로 결찰된 DNA 분자는 IPD, PW 및 서열 콘텍스트를 얻기 위해 단일 분자 실시간 시퀀싱에 적합할 수 있다. 단일 분자의 메틸화 프로필은 본 개시내용에 따라 IPD, PW 및 서열 콘텍스트를 이용하여 결정될 것이다.
도 131은 어댑터 자가 결찰의 확률이 감소된 MspI 기반 표적화된 단일 분자 실시간 시퀀싱을 보여준다. 밑에 있는 시토신 염기는 5' 포스페이트기가 없는 염기를 나타낸다. 일부 실시형태에서, 어댑터 결찰의 공정 동안 발생할 수 있는 자가 결찰된 어댑터 이합체의 형성의 가능성을 최소화하기 위해, 이 MspI 소화된 DNA 분자로 어댑터 결찰을 수행하기 위해 탈인산화된 헤어핀 어댑터를 사용할 수 있다. 이 탈인산화된 헤어핀 어댑터는 5' 포스페이트기의 결여 때문에 자가 결찰된 어댑터 이합체를 형성하지 않을 수 있다. 결찰 후, 산물은 헤어핀 어댑터로 결찰된 DNA 분자를 정제하기 위해 어댑터 세정 단계로 처리되었다. 닉을 보유할 수 있는 헤어핀 어댑터로 결찰된 DNA 분자는 인산화(예를 들어, T4 폴리뉴클레오타이드 키나제) 및 DNA 리가제(예를 들어, T4 DNA 리가제)에 의한 닉 실링으로 추가로 처리되었다. 실시형태에서, 비결찰된 어댑터, 선형 DNA 및 비완전한 원형 DNA의 제거를 추가로 수행할 수 있다. 헤어핀 어댑터로 결찰된 DNA 분자는 IPD, PW 및 서열 콘텍스트를 얻기 위해 단일 분자 실시간 시퀀싱에 적합하였다. 단일 분자의 메틸화 프로필은 본 개시내용에 따라 IPD, PW 및 서열 콘텍스트를 이용하여 결정될 것이다.
MspI 이외에, 인식 부위 CCCGGG를 갖는 SmaI와 같은 다른 제한 효소가 또한 사용될 수 있다.
일부 실시형태에서, 원하는 크기 선택 과정은 DNA 말단-보수 단계 후에 수행될 수 있다. 일부 실시형태에서, 원하는 크기 선택 과정은 크기 선택 결과에 대한 헤어핀 어댑터의 효과가 결정될 때 헤어핀 어댑터의 결찰 후에 수행될 수 있다. 이들 및 다른 실시형태에서, MspI 기반 표적화된 단일 분자 실시간 시퀀싱에 관여된 절차상 단계의 순서는 실험 상황에 따라 변할 수 있다.
실시형태에서, 크기 선택은 겔 전기영동 기반 및/또는 자기 비드 기반 방법을 이용하여 수행될 것이다. 실시형태에서, 제한 효소는 BgIII, EcoRI, EcoRII, BamHI, HindIII, TaqI, NotI, HinFI, PvuII, Sau3AI, SmaI, HaeIII, HgaI, HpaII, AluI, EcoRV, EcoP15I, KpnI, PstI, SacI, SalI, ScaI, SpeI, SphI, StuI, XbaI, 및 이들의 조합을 포함할 수 있지만, 이들로 제한되지는 않는다.
b) 메틸화를 갖는 생물학적 샘플 유형의 구별
이 부문은 상이한 생물학적 샘플 사이의 구별을 수월하게 하기 위해 제한 효소 소화에 의해 생성된 단편을 사용하여 결정된 메틸화 프로필을 사용하는 것을 기재한다.
본 발명자들은 본 개시내용에서의 실시형태에 따른 MspI 기반 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 프로필을 이용하여 생물학적 샘플 사이의 메틸화 프로필에서의 차이를 평가하였다. 본 발명자들은 일례로서 태반 조직 DNA 및 버피 코트 DNA 샘플을 취했다. 본 발명자들은 MspI 기반 표적화된 단일 분자 실시간 시퀀싱에 기초하여 태반 DNA 샘플 및 버피 코트 DNA 샘플에 관한 데이터를 생성하기 위한 컴퓨터 모의를 수행하였다. 모의는 Sequel II Sequencing Kit 1.0을 사용하여 전장 게놈 커버리지로의 태반 조직 DNA 및 버피 코트 DNA의 SMRT 시퀀싱에 의해 이전에 생성된 각각의 뉴클레오타이드에 대해 IPD 및 PW를 포함하는 동역학 값에 기초하였다. 본 발명자들은 이후 태반 DNA 및 버피 코트 DNA 샘플이 MspI 소화로 처리되고, 50 내지 200 bp의 크기 범위를 사용하여 겔 기반 크기 선택이 되는 조건을 모의하였다. 선택된 DNA 분자는 원형 DNA 주형을 형성하기 위해 헤어핀 어댑터로 결찰되었다. 원형 DNA 주형은 IPD, PW 및 서열 콘텍스트에 관한 정보를 얻도록 단일 분자 실시간 시퀀싱으로 처리되었다.
SMRT 시퀀싱 하위판독물을 생성하는 500,000개의 ZMW가 있음을 가정하여, 이 하위판독물에 표 1에 기재된 바와 같은 50 내지 200 bp의 크기 범위 범위 내의 MspI 소화된 단편의 게놈 분포가 이어졌다. 하위판독물 깊이는 태반 DNA 샘플 및 버피 코트 DNA 샘플 둘 다에 대해 30x인 것으로 추정되었다. 본 발명자들은 각각 태반 DNA 샘플 및 버피 코트 DNA 샘플에 대해 10회 모의를 반복하였다. 따라서, 총 10개의 태반 DNA 샘플과 10개의 버피 코트 DNA 샘플을 포함한 MspI 소화된 표적화된 단일 분자 실시간 시퀀싱에 의해 인실리코 생성된 데이터세트를 얻었다. 데이터세트는 CNN에 의해 추가로 분석되어 본 개시내용에 따라 각각의 샘플에 대해 메틸화 프로필을 결정하였다. 본 발명자들은 CpG 섬으로부터 9,198개의 CpG 부위의 중앙치(범위: 5,497 내지 13,928)를 얻었고, 이는 총 시퀀싱된 CpG 부위(범위: 45,304 내지 90,762)의 13.6%를 차지하였다. 각각의 분자에서의 각각의 CpG 부위에 대한 메틸화 상태는 본 개시내용에 따라 CNN 모델에 의해 결정되었다.
도 132MspI 기반 표적화된 단일 분자 실시간 시퀀싱에 의해 결정된 태반 DNA 샘플과 버피 DNA 샘플 사이의 전체 메틸화 수준의 그래프이다. y축은 백분율로서의 메틸화 수준이다. 샘플의 유형은 x축에 기재되어 있다. 도 132는 전체 메틸화 수준(중앙치: 57.6%; 범위: 56.9% 내지 59.1%)이 버피 코트 샘플과 비교하여 태반 샘플에서 더 낮았다는 것을 보여준다(중앙치: 69.5%; 범위: 68.9% 내지 70.4%) (P 값 < 0.0001, 만-휘트니 U 시험). 이 결과는 MspI 기반 단일 분자 실시간 시퀀싱에 의해 결정된 메틸화 프로필이 이의 메틸화 차이에 기초하여 조직 샘플 또는 생물학적 샘플을 구별하는 데 사용될 수 있다는 것을 제시하였다. 이 데이터는 태반으로부터의 DNA가 MspI 기반 단일 분자 실시간 시퀀싱에 의해 검출된 이의 메틸화 차이로 인해 버피 코트 DNA로부터 구별될 수 있다는 것을 보여주므로, 이 방법을 모계 혈장에서 태아 DNA 분획의 측정에 적용할 수 있다. 모계 혈장 또는 모계 혈청에서의 태아 DNA가 태반 기원이지만 샘플에서의 남은 DNA 분자가 대부분 모계 버피 코트 세포 유래이므로, 태아 DNA 분획은 메틸화를 사용하여 측정될 수 있다. 실시형태에서, 이 기술은 상이한 조직 또는 상이한 질환 및/또는 생리학적 병태 또는 생물학적 샘플을 갖는 조직을 구별하기 위한 유용한 도구일 것이다.
CpG 섬의 메틸화 프로필을 사용하여 태반 DNA 샘플과 버피 코트 DNA 샘플 사이의 클러스터링 분석을 수행하기 위해, 본 발명자들은 CpG 섬의 것의 총 CpG 부위 중에서 메틸화로서 분류된 CpG 부위의 비율을 사용하여 CpG 섬의 DNA 메틸화 수준을 계산하였다. 본 발명자들은 예시 목적을 위해 클러스터링 분석을 수행하기 위해 CpG 섬 영역으로부터의 메틸화 수준을 사용하였다.
도 133MspI 기반 표적화된 단일 분자 실시간 시퀀싱에 의해 결정된 DNA 메틸화 프로필을 사용한 태반 샘플 및 버피 코트 샘플의 클러스터링 분석을 보여준다. 상이한 환자에 걸친 CpG 섬으로부터의 메틸화 패턴의 유사성은 클러스터링 계통도에서 높이 값으로 표시된다. 높이는 이 실시예에서 유클리드 거리에 따라 계산된다. 일 실시형태에서, 클러스터링 나무를 2개의 그룹으로 절단하기 위해 높이 컷오프 100을 사용할 수 있어서, 100%의 민감도 및 특이성으로 태반 샘플 및 버피 코트 샘플의 구별을 허용한다. 다른 실시형태에서, 비제한적인 예로서 50, 60, 70, 80, 90, 120, 130, 140 및 150 등을 포함하는 다른 높이 컷오프를 사용할 수 있다. 도 133은 10개의 태반 DNA 샘플 및 10개의 버피 코트 DNA 샘플이 본 개시내용에 따른 MspI 기반 단일 분자 실시간 시퀀싱에 의해 결정된 CpG 섬의 메틸화 프로필을 사용하여 2개의 그룹으로 별개로 명확히 클러스터링되었다는 것을 보여주었다.
V. 훈련 및 검출을 위한 방법
이 부문은 염기 변형의 검출을 위한 기계 학습 모델의 훈련 및 염기 변형을 검출하기 위한 기계 학습 모델의 사용의 예시적인 방법을 보여준다.
A. 모델 훈련
도 102는 핵산 분자에서의 뉴클레오타이드의 변형을 검출하는 예시적인 방법 1020을 보여준다. 예시적인 방법 1020은 변형을 검출하기 위한 모델의 훈련의 방법일 수 있다. 변형은 메틸화를 포함할 수 있다. 메틸화는 본원에 기재된 임의의 메틸화를 포함할 수 있다. 변형은 잠재적으로 메틸화의 유형을 기술하는 메틸화 및 비메틸화의 별개의 상태를 가질 수 있다. 따라서, 뉴클레오타이드의 2개 초과의 상태(분류)가 있을 수 있다.
블록 1022에서, 복수의 제1 데이터 구조가 수신된다. 데이터 구조의 다양한 예는 여기서, 예를 들어 도 4 내지 도 16에 기재되어 있다. 제1 복수의 제1 데이터 구조의 각각의 제1 데이터 구조는 복수의 제1 핵산 분자의 각각의 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응할 수 있다. 제1 복수의 데이터 구조와 연관된 각각의 윈도우는 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 또는 이것 초과의 연속적 뉴클레오타이드를 포함하는 4 또는 이것 초과의 연속적 뉴클레오타이드를 포함할 수 있다. 각각의 윈도우는 동일한 수의 연속적 뉴클레오타이드를 가질 수 있다. 윈도우는 중첩일 수 있다. 각각의 윈도우는 제1 핵산 분자의 제1 가닥에서의 뉴클레오타이드 및 제1 핵산 분자의 제2 가닥에서의 뉴클레오타이드를 포함할 수 있다. 제1 데이터 구조는 또한 윈도우 내의 각각의 뉴클레오타이드에 대해 가닥 특성의 값을 포함할 수 있다. 가닥 특성은 존재하는 뉴클레오타이드 또는 제1 가닥 또는 제2 가닥 중 어느 하나를 나타낼 수 있다. 윈도우는 제1 가닥에서 상응하는 위치에서 뉴클레오타이드에 상보성이 아닌 제2 가닥에서의 뉴클레오타이드를 포함할 수 있다. 일부 실시형태에서, 제2 가닥에서의 모든 뉴클레오타이드는 제1 가닥에서의 뉴클레오타이드에 상보성이다. 일부 실시형태에서, 각각의 윈도우는 제1 핵산 분자의 오직 하나의 가닥에서 뉴클레오타이드를 포함할 수 있다.
제1 핵산 분자는 원형 DNA 분자일 수 있다. 원형 DNA 분자는 절단된 이중 가닥 DNA 분자를 형성하기 위해 Cas9 복합체를 사용하여 이중 가닥 DNA 분자를 절단하여 형성될 수 있다. 헤어핀 어댑터는 절단된 이중 가닥 DNA 분자의 말단에 결찰될 수 있다. 실시형태에서, 이중 가닥 DNA 분자의 말단 둘 다는 절단되고 결찰될 수 있다. 예를 들어, 절단, 결찰 및 후속하는 분석은 도 91에 기재된 바대로 진행할 수 있다.
제1 복수의 제1 데이터 구조는 5,000 내지 10,000, 10,000 내지 50,000, 50,000 내지 100,000, 100,000 내지 200,000, 200,000 내지 500,000, 500,000 내지 1,000,000, 또는 1,000,000 또는 이것 초과의 제1 데이터 구조를 포함할 수 있다. 복수의 제1 핵산 분자는 적어도 1,000, 10,000, 50,000, 100,000, 500,000, 1,000,000, 5,000,000, 또는 이것 초과의 핵산 분자를 포함할 수 있다. 추가의 예로서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개의 서열 판독물이 생성될 수 있다.
각각의 제1 핵산 분자는 뉴클레오타이드에 상응하는 신호에서의 펄스를 측정하여 시퀀싱된다. 신호는 형광 신호, 또는 다른 유형의 광학 신호(예를 들어, 화학발광, 광도측정)일 수 있다. 신호는 뉴클레오타이드 또는 뉴클레오타이드와 연관된 태그로부터 생길 수 있다.
변형은 각각의 제1 핵산 분자의 각각의 윈도우에서의 표적 위치에서의 뉴클레오타이드에서의 공지된 제1 상태를 갖는다. 제1 상태는 변형이 뉴클레오타이드에 부재하는 것일 수 있거나, 변형이 뉴클레오타이드에 존재하는 것일 수 있다. 변형은 제1 핵산 분자에 부재하는 것으로 공지될 수 있거나, 제1 핵산 분자는 변형이 부재하도록 처리를 겪을 수 있다. 변형은 제1 핵산 분자에 존재하는 것으로 공지될 수 있거나, 제1 핵산 분자는 변형이 존재하도록 처리를 겪을 수 있다. 제1 상태가 변형이 부재하는 것이면, 변형은 각각의 제1 핵산 분자의 각각의 윈도우에 부재하고, 오직 표적 위치에서 부재하지 않을 수 있다. 공지된 제1 상태는 제1 데이터 구조의 제1 부분에 대한 메틸화된 상태 및 제1 데이터 구조의 제2 부분에 대한 비메틸화된 상태를 포함할 수 있다.
표적 위치는 각각의 윈도우의 중앙일 수 있다. 짝수의 뉴클레오타이드에 걸친 윈도우에 대해, 표적 위치는 윈도우의 중앙의 바로 상류 또는 바로 하류의 위치일 수 있다. 일부 실시형태에서, 표적 위치는 제1 위치 또는 마지막 위치를 포함하는 각각의 윈도우의 임의의 다른 위치에 있을 수 있다. 예를 들어, 윈도우가 제1 위치로부터 n번째 위치(상류 또는 하류 중 어느 하나)로 하나의 가닥의 n개의 뉴클레오타이드에 걸치면, 표적 위치는 제1 위치로부터 n번째 위치의 하나 하나에 있을 수 있다.
각각의 제1 데이터 구조는 윈도우 내의 특성을 위한 값을 포함한다. 특성은 윈도우 내의 각각의 뉴클레오타이드에 대한 것일 수 있다. 특성은 뉴클레오타이드의 아이덴티티를 포함할 수 있다. 아이덴티티는 염기(예를 들어, A, T, C 또는 G)를 포함할 수 있다. 특성은 또한 각각의 윈도우 내의 표적 위치와 관련하여 뉴클레오타이드의 위치를 포함할 수 있다. 예를 들어, 그 위치는 표적 위치에 대한 뉴클레오타이드 길이일 수 있다. 하나의 방향에서 표적 위치로부터 먼 하나의 뉴클레오타이드일 때 위치는 +1일 수 있고, 반대의 방향에서 표적 위치로부터 먼 하나의 뉴클레오타이드일 때 위치는 -1일 수 있다.
특성은 뉴클레오타이드에 상응하는 펄스의 폭을 포함할 수 있다. 펄스의 폭은 펄스의 최대 값의 절반에서의 펄스의 폭일 수 있다. 특성은 뉴클레오타이드에 상응하는 펄스와 이웃하는 뉴클레오타이드에 상응하는 펄스 사이의 시간을 나타내는 펄스간 기간(IPD)을 추가로 포함할 수 있다. 펄스간 기간은 뉴클레오타이드와 연관된 펄스의 최대 값과 이웃하는 뉴클레오타이드와 연관된 펄스의 최대 값 사이의 시간일 수 있다. 이웃하는 뉴클레오타이드는 인접한 뉴클레오타이드일 수 있다. 특성은 또한 윈도우 내의 각각의 뉴클레오타이드에 상응하는 펄스의 높이를 포함할 수 있다. 특성은 가닥 특성의 값을 추가로 포함할 수 있는데, 이는 뉴클레오타이드가 제1 핵산 분자의 제1 가닥 또는 제2 가닥에 존재하는지를 나타낸다. 가닥의 표시는 도 6에 도시된 행렬과 유사할 수 있다.
복수의 제1 데이터 구조의 각각의 데이터 구조는 컷오프 값 아래의 IPD 또는 폭을 갖는 제1 핵산 분자를 배제할 수 있다. 예를 들어, IPD 값이 10 백분위(또는 1, 5, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 95 백분위) 초과인 제1 핵산 분자만이 사용될 수 있다. 백분위는 기준 샘플 또는 기준 샘플들에서 모든 핵산 분자로부터의 데이터에 기초할 수 있다. 폭의 컷오프 값은 또한 백분위에 상응할 수 있다.
블록 1024에서, 복수의 제1 훈련 샘플이 저장된다. 각각의 제1 훈련 샘플은 제1 복수의 제1 데이터 구조 및 제1 라벨 중 하나를 포함하고, 이는 표적 위치에서의 뉴클레오타이드의 변형에 대한 제1 상태를 나타낸다.
블록 1026에서, 제2 복수의 제2 데이터 구조가 수신된다. 블록 1026은 선택적일 수 있다. 제2 복수의 제2 데이터 구조의 각각의 제2 데이터 구조는 복수의 제2 핵산 분자의 각각의 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응한다. 제2 복수의 핵산 분자는 복수의 제1 핵산 분자와 동일하거나 상이할 수 있다. 변형은 각각의 제2 핵산 분자의 각각의 윈도우 내의 표적 위치에서의 뉴클레오타이드에서의 공지된 제2 상태를 갖는다. 제2 상태는 제1 상태와 상이한 상태이다. 예를 들어, 제1 상태가 변형이 존재하는 것이면, 제2 상태는 변형이 부재한 것이고, 그 반대도 그러하다. 각각의 제2 데이터 구조는 제1 복수의 제1 데이터 구조와 동일한 특성에 대한 값을 포함한다.
복수의 제1 훈련 샘플은 다중 변위 증폭(MDA)을 이용하여 생성될 수 있다. 일부 실시형태에서, 복수의 제1 훈련 샘플은 뉴클레오타이드의 세트를 사용하여 제1 복수의 핵산 분자를 증폭시켜 생성될 수 있다. 뉴클레오타이드의 세트는 규정된 비율로 제1 유형의 메틸화(예를 들어, 6mA 또는 임의의 다른 메틸화[예를 들어, CpG])를 포함할 수 있다. 규정된 비율은 비메틸화된 뉴클레오타이드에 대해 1:10, 1:100, 1:1000, 1:10000, 1:100000, 또는 1:1000000을 포함할 수 있다. 복수의 제2 핵산 분자는 제1 유형의 비메틸화된 뉴클레오타이드에 의한 다중 변위 증폭을 이용하여 생성될 수 있다.
블록 1028에서, 복수의 제2 훈련 샘플이 저장된다. 블록 1028은 선택적일 수 있다. 각각의 제2 훈련 샘플은 제2 복수의 제2 데이터 구조 및 제2 라벨 중 하나를 포함하고, 이는 표적 위치에서의 뉴클레오타이드의 변형에 대한 제2 상태를 나타낸다.
블록 1029에서, 모델은 복수의 제1 훈련 샘플 및 선택적으로 복수의 제2 훈련 샘플을 사용하여 훈련된다. 제1 복수의 제1 데이터 구조 및 선택적으로 제2 복수의 제2 데이터 구조가 모델에 입력될 때, 제1 라벨 및 선택적으로 제2 라벨의 상응하는 라벨과 일치하는 또는 일치하지 않는 모델의 출력에 기초하여 모델의 매개변수를 최적화하는 것에 의해 훈련이 수행된다. 모델의 출력은 각각의 윈도우에서의 표적 위치에서의 뉴클레오타이드가 변형을 갖는지를 기술한다. 상기 방법은, 모델이 제1 상태와 상이한 상태인 것으로 이상점을 확인할 수 있으므로 복수의 제1 훈련 샘플만을 포함할 수 있다. 상기 모델은 기계 학습 모델이라고도 칭하는 통계 모델일 수 있다.
일부 실시형태에서, 모델의 출력은 복수의 상태의 각각에 있을 확률을 포함할 수 있다. 가장 높은 확률을 갖는 상태는 상태로 취해질 수 있다.
상기 모델은 콘볼루션 신경망(CNN)을 포함할 수 있다. CNN은 제1 복수의 데이터 구조 및 선택적으로 제2 복수의 데이터 구조를 필터링하도록 구성된 콘볼루션 필터의 세트를 포함할 수 있다. 필터는 본원에 기재된 임의의 필터일 수 있다. 각각의 층에 대한 필터의 수는 10개 내지 20개, 20개 내지 30개, 30개 내지 40개, 40개 내지 50개, 50개 내지 60개, 60개 내지 70개, 70개 내지 80개, 80개 내지 90개, 90개 내지 100개, 100개 내지 150개, 150개 내지 200개, 또는 이것 초과일 수 있다. 필터에 대한 커널 크기는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 15 내지 20, 20 내지 30, 30 내지 40, 또는 이것 초과일 수 있다. CNN은 필터링된 제1 복수의 데이터 구조 및 선택적으로 여과된 제2 복수의 데이터 구조를 수신하도록 구성된 입력 층을 포함할 수 있다. CNN은 또한 복수의 마디를 포함하는 복수의 은폐 층을 포함할 수 있다. 복수의 은폐 층의 제1 층은 유입 층에 커플링된다. CNN은 복수의 은폐 층의 마지막 층에 커플링되고 출력 데이터 구조를 출력시키도록 구성된 출력 층을 추가로 포함할 수 있다. 출력 데이터 구조는 특성을 포함할 수 있다.
상기 모델은 감독된 학습 모델을 포함할 수 있다. 감독된 학습 모델은 분석적 학습, 인공 신경망, 역전파, 부스팅(메가-알고리즘), 베이지안 통계(Bayesian statistics), 사례 기반 합리화, 결정 나무 학습, 귀납 논리 프로그래밍, 가우시안 프로세스 회귀, 유전적 프로그래밍, 데이터 취급의 그룹 방법, 커널 평가자, 학습 오토마타, 학습 분류기 시스템, 최소 메시지 길이(결정 나무, 결정 그래프 등), 다중선형 하위공간 학습, 나이브 베이지 분류(naive Bayes classifier), 최대 엔트로피 분류, 조건적 랜덤 필드, 근접 이웃 알고리즘, 확률 대략 정확 학습(PAC: probably approximately correct learning) 학습, 리플 다운 규칙, 지식 획득 방법론, 기호 기계 학습 알고리즘, 준기호 기계 학습 알고리즘, 서포트 벡터 머신, 최소 복합 기계(MCM: Minimum Complexity Machine), 랜덤 포레스트, 분류기의 앙상블, 서수 분류, 데이터 예비프로세싱, 불균형 데이터세트의 취급, 통계 관련 학습, 또는 Proaftn, 다기준 분류 알고리즘을 포함하는 상이한 접근법 및 알고리즘을 포함할 수 있다. 상기 모델은 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 Markov 모델(HMM), 선형 구별 분석(LDA), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN), 랜덤 포레스트 알고리즘, 서포트 벡터 머신(SVM), 또는 본원에 기재된 임의의 모델일 수 있다.
기계 학습 모델의 훈련의 일부로서, 기계 학습 모델의 매개변수(예컨대, 가중, 한계치, 예를 들어 신경망 등에서 활성화 함수에 사용될 수 있는 것처럼)는 표적 위치에서의 뉴클레오타이드의 변형을 분류하는 데 최적화된 정확성을 제공하도록 훈련샘플(훈련 세트)에서 최적화될 수 있다. 다양한 형태의 최적화는 예를 들어 역전파, 경험적 위험 최소 및 구조적 위험 최소화가 수행될 수 있다. 샘플의 검증 세트(데이터 구조 및 라벨)는 모델의 정확성을 검증하도록 사용될 수 있다. 교차 검증은 훈련 및 검증에 대해 훈련 세트의 다양한 부분을 사용하여 수행될 수 있다. 모델은 복수의 하위모델을 포함할 수 있어서, 앙상블 모델을 제공한다. 하위모델은 조합되면 보다 정확한 최종 모델을 제공하는 더 약한 모델일 수 있다.
일부 실시형태에서, 키메라 핵산 분자 또는 하이브리드 핵산 분자는 모델을 검출하도록 사용될 수 있다. 복수의 제1 핵산 분자의 적어도 일부는 각각 제1 기준 서열에 상응하는 제1 부분 및 및 제2 기준 서열에 상응하는 제2 부분을 포함한다. 제1 기준 서열은 제2 기준 서열과 상이한 염색체, 조직 (예를 들어, 종양 또는 비종양), 유기체 또는 종 유래일 수 있다. 제1 기준 서열은 인간일 수 있고, 제2 기준 서열은 상이한 동물 유래일 수 있다. 각각의 키메라 핵산 분자는 제1 기준 서열에 상응하는 제1 부분 및 제2 기준 서열에 상응하는 제2 부분을 포함할 수 있다. 제1 부분은 제1 메틸화 패턴을 가질 수 있고, 제2 부분은 제2 메틸화 패턴을 가질 수 있다. 제1 부분은 메틸라아제로 처리될 수 있다. 제2 부분은 메틸라아제로 처리되지 않을 수 있고, 제2 기준 서열의 비메틸화된 부분에 상응할 수 있다.
B. 변형의 검출
도 103은 핵산 분자에서의 뉴클레오타이드의 변형을 검출하는 방법 1030을 보여준다. 변형은 도 102의 방법 1020과 기재된 임의의 변형일 수 있다.
블록 1032에서, 입력 데이터 구조가 수신된다. 입력 데이터 구조는 샘플 핵산 분자에서 시퀀싱된 뉴클레오타이드의 윈도우에 상응할 수 있다. 샘플 핵산 분자는 뉴클레오타이드에 상응하는 광학 신호에서의 펄스를 측정하여 시퀀싱될 수 있다. 윈도우는 도 102에서 블록 1022로 기재된 임의의 윈도우일 수 있고, 시퀀싱은 도 102에서 블록 1022로 기재된 임의의 시퀀싱일 수 있다. 입력 데이터 구조는 도 102에서 블록 1022와 기재된 동일한 특성에 대한 값을 포함할 수 있다. 방법 1030은 샘플 핵산 분자의 시퀀싱을 포함할 수 있다.
윈도우 내의 뉴클레오타이드는 기준 게놈에 정렬될 수 있거나 정렬되지 않을 수 있다. 윈도우 내의 뉴클레오타이드는 기준 게놈에 대한 시퀀싱된 뉴클레오타이드의 정렬 없이 원형 공통 서열(CCS)을 사용하여 결정될 수 있다. 각각의 윈도우에서의 뉴클레오타이드는 기준 게놈에 정렬되기보다는 CCS에 의해 확인될 수 있다. 일부 실시형태에서, 윈도우는 CCS 없이 그리고 기준 게놈에 대한 시퀀싱된 뉴클레오타이드의 정렬 없이 결정될 수 있다.
윈도우 내의 뉴클레오타이드는 농후화되거나 필터링될 수 있다. 농후화는 Cas9를 수반하는 접근법에 의할 수 있다. Cas9 접근법은 도 91과 유사한 절단된 이중 가닥 DNA 분자를 형성하기 위해 Cas9 복합체를 사용하여 이중 가닥 DNA 분자를 절단하는 단계 및 헤어핀 어댑터를 절단된 이중 가닥 DNA 분자의 말단에 결찰하는 단계를 포함할 수 있다. 필터링은 크기 범위 내의 크기를 갖는 이중 가닥 DNA 분자를 선택하여 될 수 있다. 뉴클레오타이드는 이들 이중 가닥 DNA 분자로부터일 수 있다. 분자의 메틸화 상태를 보존하는 다른 방법이 사용될 수 있다(예를 들어, 메틸-결합 단백질).
블록 1034에서, 입력 데이터 구조는 모델로 입력된다. 상기 모델은 도 102에서 방법 1020에 의해 훈련될 수 있다.
일부 실시형태에서, 키메라 핵산 분자는 모델을 검증하도록 사용될 수 있다. 복수의 제1 핵산 분자의 적어도 일부는 각각 제1 기준 서열에 상응하는 제1 부분 및 제1 기준 서열에서 해체된 제2 기준 서열에 상응하는 제2 부분을 포함한다. 제1 기준 서열은 제2 기준 서열과 상이한 염색체, 조직(예를 들어, 종양 또는 비종양), 세포소기관(예를 들어, 미토콘드리아, 핵, 엽록체), 유기체(포유류, 바이러스, 박테리아 등) 또는 종 유래일 수 있다. 제1 기준 서열은 인간일 수 있고, 제2 기준 서열은 상이한 동물 유래일 수 있다. 각각의 키메라 핵산 분자는 제1 기준 서열에 상응하는 제1 부분 및 제2 기준 서열에 상응하는 제2 부분을 포함할 수 있다. 제1 부분은 제1 메틸화 패턴을 가질 수 있고, 제2 부분은 제2 메틸화 패턴을 가질 수 있다. 제1 부분은 메틸라아제로 처리될 수 있다. 제2 부분은 메틸라아제로 처리되지 않을 수 있고, 제2 기준 서열의 비메틸화된 부분에 상응하지 않을 수 있다.
블록 1036에서, 변형이 입력 데이터 구조에서의 윈도우 내의 표적 위치에서의 뉴클레오타이드에 존재하는지는 모델을 사용하여 결정된다.
입력 데이터 구조는 복수의 입력 데이터 구조의 하나의 입력 데이터 구조일 수 있다. 각각의 입력 데이터 구조는 복수의 샘플 핵산 분자의 각각의 샘플 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응할 수 있다. 복수의 샘플 핵산 분자는 대상체의 생물학적 샘플로부터 얻어질 수 있다. 생물학적 샘플은 본원에 기재된 임의의 생물학적 샘플일 수 있다. 방법 1030은 각각의 입력 데이터 구조에 대해 반복될 수 있다. 상기 방법은 복수의 입력 데이터 구조의 수신을 포함할 수 있다. 복수의 입력 데이터 구조는 모델로 입력될 수 있다. 변형이 각각의 입력 데이터 구조의 각각의 윈도우에서의 표적 위치에서의 뉴클레오타이드에 존재하는지는 모델을 이용하여 결정될 수 있다.
복수의 샘플 핵산 분자의 각각의 샘플 핵산 분자는 컷오프 크기보다 큰 크기를 가질 수 있다. 예를 들어, 컷오프 크기는 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 9 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 500 kb 또는 1 Mb일 수 있다. 크기 컷오프를 가짐은 더 높은 하위판독물 깊이를 생성시킬 수 있고, 이들 중 어느 하나는 변형 검출의 정확성을 증가시킬 수 있다. 일부 실시형태에서, 상기 방법은 DNA 분자를 시퀀싱하기 전에 소정의 크기에 대해 DNA 분자의 단편화를 포함할 수 있다.
복수의 샘플 핵산 분자는 복수의 게놈 영역에 정렬될 수 있다. 복수의 게놈 영역의 각각의 게놈 영역에 대해, 다수의 샘플 핵산 분자는 게놈 영역에 정렬될 수 있다. 샘플 핵산 분자의 수는 컷오프 수보다 클 수 있다. 컷오프 수는 하위판독물 깊이 컷오프일 수 있다. 하위판독물 깊이 컷오프 수는 1x, 10x, 30x, 40x, 50x, 60x, 70x, 80x, 900x, 100x, 200x, 300x, 400x, 500x, 600x, 700x 또는 800x일 수 있다. 하위판독물 깊이 컷오프 수는 정확성을 개선하거나 최적화하도록 결정될 수 있다. 하위판독물 깊이 컷오프 수는 복수의 게놈 영역의 수와 관련될 수 있다. 예를 들어, 하위판독물 깊이 컷오프 수가 더 클수록, 복수의 게놈 영역의 수가 더 적다.
변형은 하나 이상의 뉴클레오타이드에 존재하는지 결정될 수 있다. 장애의 분류는 하나 이상의 뉴클레오타이드에서의 변형의 존재를 사용하여 결정될 수 있다. 장애의 분류는 변형의 수의 사용을 포함할 수 있다. 변형의 수는 한계치와 비교될 수 있다. 대안적으로 또는 추가로, 분류는 하나 이상의 변형의 위치를 포함할 수 있다. 하나 이상의 변형의 위치는 핵산 분자의 서열 판독물을 기준 게놈에 정렬하여 결정될 수 있다. 장애와 상관된 것으로 공지된 소정의 위치가 변형을 갖는 것으로 나타나면 장애가 결정될 수 있다. 예를 들어, 메틸화된 부위의 패턴은 장애에 대한 기준 패턴과 비교될 수 있고, 장애의 결정은 비교에 기초할 수 있다. 기준 패턴과의 일치 또는 기준 패턴과의 실질적인 일치(예를 들어, 80%, 90%, 또는 95% 또는 초과)는 장애 또는 장애의 높은 가능성을 나타낼 수 있다. 장애는 본원에 기재된 암 또는 임의의 장애(예를 들어, 임신 연관된 장애, 자가면역 질환)일 수 있다.
통계적으로 유의미한 수의 핵산 분자는 장애, 조직 기원 또는 임상적으로 관련된 DNA 분획의 정확한 결정을 제공하도록 분석될 수 있다. 일부 실시형태에서, 적어도 1,000개의 핵산 분자가 분석된다. 다른 실시형태에서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개 이상의 핵산 DNA 분자가 분석될 수 있다. 추가의 예로서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개의 서열 판독물이 생성될 수 있다.
상기 방법은 장애의 분류가 대상체가 장애를 갖는다는 것을 결정하는 단계를 포함할 수 있다. 분류는 변형의 수 및/또는 변형의 부위를 사용하여 장애의 수준을 포함할 수 있다.
임상적으로 관련된 DNA 분획, 태아 메틸화 프로필, 모계 메틸화 프로필, 각인 유전자 영역의 존재 또는 기원의 조직(예를 들어, 상이한 세포 유형의 혼합물을 함유하는 샘플로부터의)은 하나 이상의 뉴클레오타이드에서의 변형의 존재를 사용하여 결정될 수 있다. 임상적으로 관련된 DNA 분획은 태아 DNA 분획, 종양 DNA 분획(예를 들어, 종양 세포와 비종양 세포의 혼합물을 함유하는 샘플로부터) 및 이식 DNA 분획(예를 들어, 공여자 세포와 수혜자 세포의 혼합물을 함유하는 샘플로부터)을 포함하지만, 이들로 제한되지는 않는다.
상기 방법은 장애를 치료하는 단계를 추가로 포함할 수 있다. 치료는 장애의 결정된 수준, 확인된 변형, 및/또는 (예를 들어, 암 환자의 순환으로부터 단리된 종양 세포의) 기원 조직에 따라 제공될 수 있다. 예를 들어, 확인된 변형은 특정 약물 또는 화학요법으로 표적화될 수 있다. 기원 조직은 수술 또는 임의의 다른 형태의 치료를 안내하기 위해 사용될 수 있다. 그리고, 장애의 수준은 임의의 유형의 치료에 얼마나 공격적인지를 결정하는 데 사용될 수 있다.
실시형태는 환자에서 장애의 수준을 결정한 후 환자에서 장애를 치료하는 것을 포함할 수 있다. 치료는 본원에서 언급된 참조문헌에 기재된 임의의 치료를 비롯하여 임의의 적합한 치료법, 약물, 화학요법, 방사선 또는 수술을 포함할 수 있다. 참조문헌에서의 치료에 대한 정보는 참조에 의해 본원에 포함된다.
VI. 일배체형 분석
2개의 일배체형 사이의 메틸화 프로필의 차이는 종양 조직의 샘플에서 발견되었다. 일배체형 사이의 메틸화 불균형은 따라서 암 또는 다른 장애의 수준의 분류를 결정하도록 사용될 수 있다. 일배체형의 불균형은 또한 태아에 의해 일배체형의 유전성을 확인하도록 사용될 수 있다. 태아 장애는 또한 일배체형 사이의 메틸화 불균형의 분석을 통해 확인될 수 있다. 세포 DNA는 일배체형의 메틸화 수준을 분석하기 위해 사용될 수 있다.
A. 일배체형 연관된 메틸화 분석
단일 분자 실시간 시퀀싱 기술은 개별 SNP의 확인을 허용한다. 단일 분자 실시간 시퀀싱 웰(예를 들어, 수 킬로염기까지)로부터 제조된 긴 판독물은 각각의 공통 판독물에 존재하는 일배체형 정보를 레버리징하여 게놈에서의 변이체의 페이징을 허용할 것이다(문헌[Edge et al. Genome Res. 2017;27:801-812]; 문헌[Wenger et al. Nat Biotechnol. 2019;37:1155-1162]). 일배체형의 메틸화 프로필은 도 77에 예시된 것처럼 각각의 일배체형에서 CCS에 의해 대립유전자에 연결된 CpG 부위의 메틸화 수준으로부터 분석될 수 있었다. 이 페이징된 메틸화 일배체형 분석은 상동성 염색체의 2개 이상의 카피가 암과 같은 상이한 임상 관련 병태에서 유사하거나 상이한 메틸화 패턴을 공유하는지에 대한 의문을 해결하도록 사용될 수 있었다. 일 실시형태에서, 일배체형 메틸화는 그 일배체형에 배정된 다수의 DNA 단편으로부터 기여된 합계된 메틸화 수준일 것이다. 일배체형은 비제한적인 예로서 50 nt, 100 nt, 200 nt, 300 nt, 400 nt, 500 nt, 1 knt, 2knt, 3knt, 4knt, 5 knt, 10 knt, 20 knt, 30 knt, 40 knt, 50 knt, 100 knt, 200 knt, 300 knt, 400 knt, 500 knt, 1 Mnt, 2 Mnt 및 3 Mnt를 포함하는 상이한 크기의 블록일 수 있었다.
B. 상대 일배체형 기반 메틸화 불균형 분석
도 104는 상대 일배체형 기반 메틸화 불균형 분석을 예시한다. 일배체형(즉, Hap I 및 Hap II)은 단일 분자 실시간 시퀀싱 결과를 분석하여 결정될 수 있다. 각각의 일배체형에 연결된 메틸화 패턴은 일배체형 연관된 단편을 사용하여 결정될 수 있었고, 이의 메틸화 프로필은 도 77에 기재된 접근법에 따라 결정되었다. 이로써, Hap I과 Hap II 사이의 메틸화 패턴이 비교될 수 있다.
Hap I과 Hap II 사이의 메틸화의 차이를 정량화하기 위해, Hap I과 Hap II 사이의 메틸화 수준의 차이(ΔF)가 계산되었다. 차이 ΔF는 하기로서 계산된다:
Figure pat00016
여기서, ΔF는 Hap I과 Hap II 사이의 메틸화 수준의 차이를 나타내고,
Figure pat00017
Figure pat00018
는 각각 Hap I 및 Hap II의 메틸화 수준을 나타낸다. ΔF의 양의 값은 Hap II와 비교된 Hap I에 대한 DNA의 더 높은 메틸화 수준을 제시하였다.
C. HCC 종양 DNA에 대한 상대 일배체형 기반 메틸화 불균형 분석
일 실시형태에서, 일배체형 메틸화 분석은 암 게놈에서의 메틸화 비정상을 검출하는 데 유용할 수 있다. 예를 들어, 게놈 영역 내의 2개의 일배체형 사이의 메틸화 변화가 분석될 것이다. 게놈 영역 내의 일배체형은 일배체형 블록으로 정의된다. 일배체형 블록은 페이징된 염색체에 대한 대립유전자의 세트로 여겨질 수 있다. 일부 실시형태에서, 일배체형 블록은 염색체에서 물리적으로 연결된 2개의 대립유전자를 지지하는 서열 정보의 세트에 따라 가능한 길게 연장될 것이다. 사례 3033에 대해, 본 발명자들은 인접한 정상 조직 DNA의 시퀀싱 결과로부터의 97,475개의 일배체형 블록을 얻었다. 일배체형 블록의 중앙치 크기는 2.8 kb였다. 일배체형 블록의 25%는 8.2 kb 크기보다 컸다. 일배체형 블록의 최대 크기는 282.2 kb였다. 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다.
예시 목적을 위해, 본 발명자들은 인접한 비종양 조직 DNA와 비교된 종양 DNA에서의 Hap I과 Hap II 사이의 차등적 메틸화를 나타내는 잠재적인 일배체형 블록을 확인하기 위해 다수의 기준을 사용하였다. 기준은 하기와 같았다: (1) 분석되는 일배체형 블록은 각각 3개의 시퀀싱 웰로부터 제조된 적어도 3개의 CCS 서열을 함유함; (2) 인접한 비종양 조직 DNA에서의 Hap I과 Hap II 사이의 메틸화 수준의 절대 차이는 5% 미만임; (3) 종양 조직 DNA에서의 Hap I과 Hap II 사이의 메틸화 수준에서의 절대 차이는 30% 초과임. 본 발명자들은 상기 기준을 충족시키는 73개의 일배체형 블록을 확인하였다.
도 105a도 105b는 사례 TBR3033에 대해 인접한 비종양 조직 DNA와 비교된 HCC 종양 DNA에서의 Hap I과 Hap II 사이의 차등적 메틸화 수준을 보여주는 73개의 일배체형 블록의 표이다. 제1 열은 일배체형 블록과 연관된 염색체를 보여준다. 제2 열은 염색체 내의 일배체형 블록의 출발 좌표를 보여준다. 제3 열은 일배체형 블록의 말단 좌표를 보여준다. 제4 열은 일배체형 블록의 길이를 보여준다. 제4 열은 일배체형 블록 id를 기재한다. 제5 열은 종양 조직에 인접한 비종양 조직에서의 Hap I의 메틸화 수준을 보여준다. 제6 열은 비종양 조직에서의 Hap II의 메틸화 수준을 보여준다. 제7 열은 종양 조직에서의 Hap I의 메틸화 수준을 보여준다. 제8 열은 종양 조직에서의 Hap II의 메틸화 수준을 보여준다.
종양 조직 DNA에 대해 일배체형 사이의 메틸화 수준에서의 30% 초과의 차이를 보여주는 73개의 일배체형 블록과 반대로, 오직 하나의 일배체형 블록은 비종양 조직 DNA에 대해 30% 초과의 차이, 그러나 종양 조직 DNA에서 5% 미만의 차이를 나타냈다. 일부 실시형태에서, 기준의 다른 세트는 차등적 메틸화를 나타내는 일배체형 블록을 확인하기 위해 사용될 수 있었다. 다른 최대 및 최소 한계치 차이가 사용될 수 있다. 예를 들어, 최소 한계치 차이는 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 또는 초과일 수 있다. 최대 한계치 차이는 일례로서 1%, 5%, 10%, 15%, 20% 또는 30%일 수 있다. 이 결과는 일배체형 사이의 메틸화 차이의 변경이 암 진단, 검출, 모니터링, 예언 및 치료에 대한 지도를 위한 새로운 바이오마커로서 작용할 수 있다는 것을 제시하였다.
일부 실시형태에서, 긴 일배체형 블록은 메틸화 패턴을 연구할 때 더 작은 블록으로 인실리코 분배될 것이다.
사례 3032에 대해, 본 발명자들은 인접한 비종양 조직 DNA의 시퀀싱 결과로부터의 61,958개의 일배체형 블록을 얻었다. 일배체형 블록의 중앙치 크기는 9.3 kb였다. 일배체형 블록의 25%는 27.6 kb 크기보다 컸다. 일배체형 블록의 최대 크기는 717.8 kb였다. 예시로서, 본 발명자들은 인접한 정상 조직 DNA와 비교된 종양 DNA에서의 Hap I과 Hap II 사이의 차등적 메틸화를 나타내는 잠재적인 일배체형 블록을 확인하기 위해 상기 기재된 동일한 3개의 기준을 사용하였다. 본 발명자들은 상기 기준을 충족시키는 20개의 일배체형 블록을 확인하였다. 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다.
도 106은 사례 TBR3032에 대해 인접한 정상 조직 DNA와 비교된 종양 DNA에서의 Hap I과 Hap II 사이의 차등적 메틸화 수준을 보여주는 20개의 일배체형 블록의 표이다. 제1 열은 일배체형 블록과 연관된 염색체를 보여준다. 제2 열은 염색체 내의 일배체형 블록의 출발 좌표를 보여준다. 제3 열은 일배체형 블록의 말단 좌표를 보여준다. 제4 열은 일배체형 블록의 길이를 보여준다. 제4 열은 일배체형 블록 id를 기재한다. 제5 열은 종양 조직에 인접한 비종양 조직에서의 Hap I의 메틸화 수준을 보여준다. 제6 열은 비종양 조직에서의 Hap II의 메틸화 수준을 보여준다. 제7 열은 종양 조직에서의 Hap I의 메틸화 수준을 보여준다. 제8 열은 종양 조직에서의 Hap II의 메틸화 수준을 보여준다.
도 106에서의 HCC 종양 조직에서의 차이를 보여주는 20개의 일배체형 블록과 반대로, 오직 하나의 일배체형 블록은 비종양 조직에서 30% 초과, 그러나 종양 조직에서 5% 미만의 차이를 나타냈다. 이 결과는 일배체형 사이의 메틸화 차이의 변경이 암 진단, 검출, 모니터링, 예언 및 치료에 대한 지도를 위한 새로운 바이오마커로서 작용할 것이라는 것을 추가로 제시한다. 다른 실시형태에서, 다른 기준은 차등적 메틸화를 나타내는 일배체형 블록을 확인하기 위해 사용될 수 있다.
D. 다른 종양 유형으로부터의 DNA에 대한 상대 일배체형 기반 메틸화 불균형 분석
상기 기술된 바대로, 일배체형 사이의 메틸화 수준의 분석은 HCC 종양 조직이 짝을 이룬 인접한 비종양 조직과 비교하여 메틸화 불균형을 나타내는 더 많은 일배체형 블록을 보유한다는 것을 밝혀냈다. 일례로서, 종양 조직에서 메틸화 불균형을 보여주는 일배체형 블록에 대한 기준은 하기와 같았다: (1) 분석되는 일배체형 블록은 3개의 시퀀싱 웰로부터 제조된 적어도 3개의 CCS 서열을 함유함; (2) 역사학적 데이터에 기초한 인접한 비종양 조직 DNA 또는 정상 조직 DNA에서의 Hap I과 Hap II 사이의 메틸화 수준의 절대 차이는 5% 미만임; (3) 종양 조직 DNA에서의 Hap I과 Hap II 사이의 메틸화 수준에서의 절대 차이는 30% 초과임. 메틸화 수준에서의 일배체형 불균형을 보여주는 비종양/정상 조직이 종양 영역보다 각인된 영역을 나타낼 수 있으므로, 기준 (2)가 포함되었다. 비종양 조직에서 메틸화 불균형을 보여주는 일배체형 블록에 대한 기준은 하기와 같았다: (1) 분석되는 일배체형 블록은 3개의 시퀀싱 웰로부터 제조된 적어도 3개의 CCS 서열을 함유함; (2) 역사학적 데이터에 기초한 인접한 비종양 조직 DNA 또는 정상 조직 DNA에서의 Hap I과 Hap II 사이의 메틸화 수준의 절대 차이는 30% 초과임; (3) 종양 조직 DNA에서의 Hap I과 Hap II 사이의 메틸화 수준에서의 절대 차이는 5% 미만임.
다른 실시형태에서, 다른 기준이 사용될 수 있다. 예를 들어, 불균형 일배체형 I 암 게놈을 확인하기 위해, Hap I과 Hap II 사이의 메틸화 수준에서의 차이는 비종양 조직에서 1%, 5%, 10%, 20%, 40%, 50% 또는 60% 미만 등일 수 있지만, Hap I과 Hap II 사이의 메틸화 수준에서의 차이는 종양 조직에서 1%, 5%, 10%, 20%, 40%, 50% 또는 60% 초과 등일 수 있다. 불균형 일배체형 I 비암 게놈을 확인하기 위해, Hap I과 Hap II 사이의 메틸화 수준에서의 차이는 비종양 조직에서 1%, 5%, 10%, 20%, 40%, 50% 또는 60% 초과 등일 수 있지만, Hap I과 Hap II 사이의 메틸화 수준에서의 차이는 종양 조직에서 1%, 5%, 10%, 20%, 40%, 50% 또는 60% 미만 등일 수 있다.
도 107a는 Sequel II Sequencing Kit 2.0에 의해 생성된 데이터에 기초하여 종양 조직과 인접한 비종양 조직 사이의 2개의 일배체형 사이의 메틸화 불균형을 보여주는 일배체형 블록의 수를 요약한 표이다. 제1 열은 조직 유형을 기재한다. 제2 열은 종양 조직에서 2개의 일배체형 사이의 메틸화 불균형을 보여주는 일배체형 블록의 수를 기재한다. 제3 열은 짝을 이룬 인접한 비종양 조직에서 2개의 일배체형 사이의 메틸화 불균형을 보여주는 일배체형 블록의 수를 기재한다. 행은 짝을 이룬 인접한 비종양 조직보다 2개의 일배체형 사이의 메틸화 불균형을 보여주는 더 많은 일배체형 블록을 갖는 종양 조직을 보여준다.
이 분석에 관여된 일배체형 블록의 중앙치 길이는 15.7 kb(IQR: 10.3 내지 26.1 kb)였다. 간에 대한 HCC 결과를 포함하여, 데이터는 종양 조직이 메틸화 불균형을 갖는 더 많은 일배체형 블록을 보유하는 7개의 조직 유형을 보여준다. 간 이외에, 다른 조직은 결장, 유방, 신장, 폐, 전립선 및 위 조직을 포함한다. 따라서, 일부 실시형태에서, 환자가 종양 또는 암을 갖는지를 검출하기 위해 메틸화 불균형을 보유하는 일배체형 블록의 수를 사용할 수 있었다.
도 107b는 Sequel II Sequencing Kit 2.0에 의해 생성된 데이터에 기초하여 상이한 종양 단계에 대한 종양 조직에서의 2개의 일배체형 사이의 메틸화 불균형을 보여주는 일배체형 블록의 수를 요약한 표이다. 제1 열은 종양을 갖는 조직 유형을 보여준다. 제2 열은 종양 조직에서 2개의 일배체형 사이의 메틸화 불균형을 갖는 일배체형 블록의 수를 보여준다. 제3 열은 악성 종양의 TNM 분류를 사용한 종양 병기 정보를 기재한다. T3 및 T3a는 T2보다 더 큰 크기의 종양이다.
표는 유방 및 신장 둘 다에 대한 더 큰 종양에 대한 메틸화 불균형을 보여주는 더 많은 일배체형 블록을 보여준다. 예를 들어, 유방 조직에 대해, 종양 등급 T3(TNM 병기), ER 양성으로 분류되고, ERBB2 증폭을 나타내는 조직은 종양 등급 T2(TNM 병기), PR(프로게스테론 수용체)/ER(에스트로겐 수용체) 양성 및 무 ERBB2 증폭으로 분류된 조직에 대해 일배체형 블록(18)보다 메틸화 불균형을 보여주는 더 많은 일배체형 블록(57)을 가졌다. 신장 조직에 대해, 종양 등급 T3a로 분류된 조직은 종양 등급 T2로 분류된 조직에 대해 일배체형 블록(0)보다 메틸화 불균형을 보여주는 더 많은 일배체형 블록(68)을 가졌다.
일부 실시형태에서, 종양의 분류를 위해 그리고 이의 임상 거동(예를 들어, 진행, 예후 또는 치료 반응)과 상관시키기 위해 메틸화 불균형을 보여주는 일배체형 블록을 사용할 수 있다. 이 데이터는 일배체형 기반 메틸화 불균형의 정도가 종양의 분류자로 작용할 수 있고, 임상 연구 또는 실험 또는 궁극적인 임상 서비스에 도입될 수 있다는 것을 제시하였다. 종양의 분류는 크기 및 중증도를 포함할 수 있다.
E. 모계 혈장 무세포 DNA의 일배체형 기반 메틸화 분석
양 부모 또는 어느 한 부모의 일배체형이 결정될 수 있다. 할로타이핑 방법은 긴 판독물 단일 분자 시퀀싱, 연결된 짧은 판독물 시퀀싱(예를 들어, 10x 유전체학), 긴 범위 단일 분자 PCR 또는 집단 추론을 포함할 수 있다. 부계 일배체형이 공지되면, 무세포 태아 DNA 메틸롬은 부계 일배체형을 따라 존재하는 적어도 하나의 부계 특이적 SNP 대립유전자를 각각 함유하는 다수의 무세포 DNA 분자의 메틸화 프로필을 연결하여 조립될 수 있다. 바꾸어 말하면, 부계 일배체형은 태아 특이적 판독물 서열을 연결하도록 스캐폴드로서 사용된다.
도 108은 상대 메틸화 불균형에 대한 일배체형의 분석을 예시한다. 모계 일배체형이 공지되면, 2개의 일배체형(즉, Hap I 및 Hap II) 사이의 메틸화 불균형은 태아로 유전된 모계 일배체형을 결정하도록 사용될 수 있다. 도 108에 도시된 것처럼, 임신한 여성으로부터의 혈장 DNA 분자는 단일 분자 실시간 시퀀싱 기술을 이용하여 시퀀싱된다. 메틸화 및 대립유전자 정보는 본원에서의 개시내용에 따라 결정될 수 있다. 일 실시형태에서, 질환 야기 유전자에 연결된 SNP는 Hap I로서 정렬된다. 태아가 Hap I이 유전되면, Hap I의 대립유전자를 보유하는 더 많은 단편은 Hap II의 대립유전자를 보유하는 것과 비교하여 모계 혈장에 존재할 것이다. 태아로부터 유래된 DNA 단편의 저메틸화는 Hap II의 것과 비교하여 Hap I의 메틸화 수준을 낮출 것이다. 그 결과, Hap I의 메틸화가 Hap II보다 더 낮은 메틸화 수준을 보여주면, 태아는 모계 Hap I를 더 유전받을 것이다. 그렇지 않으면, 태아는 모계 Hap II가 더 유전될 것이다. 임상 실행에서, 일배체형 기반 메틸화 불균형 분석은 태어나지 않은 태아가 유전 장애, 예를 들어 비제한적인 예로서 X 취약 증후군, 근이영양증, 헌팅턴병 또는 베타-지중해빈혈을 포함하는 단일 유전자 장애와 연관된 모계 일배체형이 유전되는지를 결정하기 위해 사용될 수 있다.
F. 예시적인 장애 분류 방법
도 109는 제1 일배체형 및 제2 일배체형을 갖는 유기체에서의 장애의 분류의 예시적인 방법 1090을 보여준다. 방법 1090은 2개의 일배체형 사이의 상대 메틸화 수준의 비교를 수반한다.
블록 1091에서, 생물학적 샘플로부터의 DNA 분자는 유기체에 상응하는 기준 게놈에서의 이의 위치를 확인하도록 분석된다. DNA 분자는 세포 DNA 분자일 수 있다. 예를 들어, DNA 분자는 서열 판독물을 수득하기 위해 시퀀싱될 수 있고, 서열 판독물은 기준 게놈에 맵핑(정렬)될 수 있다. 유기체가 인간인 경우, 기준 게놈은 잠재적으로는 특정 하위집단으로부터의 기준 인간 게놈일 것이다. 다른 예로서, DNA 분자는 (예를 들어, PCR 또는 다른 증폭 후) 상이한 프로브로 분석될 수 있으며, 여기서 각각의 프로브는 하기 기재된 바와 같은 이형접합성 및 하나 이상의 CpG 부위를 커버할 수 있는 게놈 위치에 상응한다.
추가로, DNA 분자는 DNA 분자의 각각의 대립유전자를 결정하기 위해 분석될 수 있다. 예를 들어, DNA 분자의 대립유전자는 시퀀싱으로부터 또는 DNA 분자에 혼성화하는 특정 프로브로부터 얻은 서열 판독물로부터 결정될 수 있고, 여기서 기법 둘 다는 서열 판독물을 제공할 수 있다(예를 들어, 프로브는 혼성화가 있을 때 서열 판독물로 처리될 수 있음). 하나 이상의 부위(예를 들어, CpG 부위)의 각각에서의 메틸화 상태는 DNA 분자에 대해 결정될 수 있다.
블록 1092에서, 제1 염색체 영역의 제1 부분의 하나 이상의 이형접합성 좌위가 확인된다. 각각의 이형접합성 좌위는 제1 일배체형에서 상응하는 제1 대립유전자 및 제2 일배체형에서 상응하는 제2 대립유전자를 포함할 수 있다. 하나 이상의 이형접합성 좌위는 제1 복수의 이형접합성 좌위일 수 있고, 여기서 제2 복수의 이형접합성 좌위는 상이한 염색체 영역에 상응할 수 있다.
블록 1093에서, 복수의 DNA 분자의 제1 세트가 확인된다. 복수의 DNA 분자의 각각은 블록 1096으로부터의 이형접합성 좌위 중 어느 하나에 위치하고, 상응하는 제1 대립유전자를 포함하여서, DNA 분자는 제1 일배체형에 상응하는 것으로 확인될 수 있다. DNA 분자는 하나 초과의 이형접합성 좌위에 위치하는 것이 가능하지만, 전형적으로 판독물은 하나의 이형접합성 좌위를 오직 포함할 것이다. DNA 분자의 제1 세트의 각각은 또한 N 게놈 부위의 적어도 하나를 포함하고, 여기서 게놈 부위는 메틸화 수준을 측정하도록 사용된다. N은 예를 들어 1, 2, 3, 4, 5, 10, 20, 50, 100, 200, 500, 1,000, 2,000 또는 5,000 이상의 정수이다. 따라서, DNA 분자의 판독물은 1 부위, 2 부위 등의 커버리지를 나타낼 수 있다. 1개의 게놈 부위는 CpG 뉴클레오타이드가 존재하는 부위를 포함할 수 있다.
블록 1094에서, 제1 일배체형의 제1 부분의 제1 메틸화 수준은 복수의 DNA 분자의 제1 세트를 사용하여 결정된다. 제1 메틸화 수준은 본원에 기재된 임의의 방법에 의해 결정될 수 있다. 제1 부분은 단일 부위에 상응하거나 많은 부위를 포함할 수 있다. 제1 일배체형의 제1 부분은 1 kb 이상일 수 있다. 예를 들어, 제1 일배체형의 제1 부분은 1 kb, 5 kb, 10 kb, 15 kb 또는 20 kb 이상일 수 있다. 메틸화 데이터는 세포 DNA로부터의 데이터일 수 있다.
일부 실시형태에서, 복수의 제1 메틸화 수준은 제1 일배체형의 복수의 위치에 대해 결정될 수 있다. 각각의 부분은 5 kb 이상의 길이 또는 제1 일배체형의 제1 부분에 대해 본원에 개시된 임의의 크기를 가질 수 있다.
블록 1095에서, 복수의 DNA 분자의 제2 세트가 확인된다. 복수의 DNA 분자의 각각은 블록 1096으로부터의 이형접합성 좌위 중 어느 하나에 위치하고, 상응하는 제2 대립유전자를 포함하여서, DNA 분자는 제2 일배체형에 상응하는 것으로 확인될 수 있다. DNA 분자의 제2 세트의 각각은 또한 N 게놈 부위의 적어도 하나를 포함하고, 여기서 게놈 부위는 메틸화 수준을 측정하도록 사용된다.
블록 1096, 제2 일배체형의 제1 부분의 제2 메틸화 수준은 복수의 DNA 분자의 제2 세트를 사용하여 결정된다. 제2 메틸화 수준은 본원에 기재된 임의의 방법에 의해 결정될 수 있다. 제2 일배체형의 제1 부분은 1 kb 또는 제1 일배체형의 제1 부분에 대해 임의의 크기보다 길거나 이와 동일할 수 있다. 제1 일배체형의 제1 부분은 제2 일배체형의 제1 부분에 상보성일 수 있다. 제1 일배체형의 제1 부분 및 제2 일배체형의 제1 부분은 원형 DNA 분자를 형성할 수 있다. 제1 일배체형의 제1 부분의 제1 메틸화 수준은 원형 DNA 분자로부터의 데이터를 사용하여 결정될 수 있다. 예를 들어, 원형 DNA의 분석은 도 1, 도 2, 도 4, 도 5, 도 6, 도 7, 도 8, 도 50 또는 도 61과 기재된 분석을 포함할 수 있다.
원형 DNA 분자는 절단된 이중 가닥 DNA 분자를 형성하기 위해 Cas9 복합체를 사용하여 이중 가닥 DNA 분자를 절단하여 형성될 수 있다. 헤어핀 어댑터는 절단된 이중 가닥 DNA 분자의 말단에 결찰될 수 있다. 실시형태에서, 이중 가닥 DNA 분자의 말단 둘 다는 절단되고 결찰될 수 있다. 예를 들어, 절단, 결찰 및 후속하는 분석은 도 91에 기재된 바대로 진행할 수 있다.
일부 실시형태에서, 복수의 제2 메틸화 수준은 제2 일배체형의 복수의 위치에 대해 결정될 수 있다. 제2 일배체형의 복수의 위치의 각각의 부분은 제1 일배체형의 복수의 위치의 부분에 상보성일 수 있다.
블록 1097에서, 매개변수의 값은 제1 메틸화 수준 및 제2 메틸화 수준을 사용하여 계산된다. 매개변수는 분리 값에 의할 수 있다. 분리 값은 2의 메틸화 수준 사이의 차이 또는 2의 메틸화 수준의 비율일 수 있다.
제2 일배체형의 복수의 부분이 사용되면, 제2 일배체형의 복수의 부분의 각각의 부분에 대해, 분리 값은 제2 일배체형의 부분의 제2 메틸화 수준 및 제1 일배체형의 상보성 부분을 사용한 제1 메틸화 수준을 사용하여 계산될 수 있다. 분리 값은 컷오프 값과 비교될 수 있다.
컷오프 값은 장애를 갖지 않는 조직으로부터 결정될 수 있다. 매개변수는 분리 값이 컷오프 값을 초과하는 경우 제2 일배체형의 부분의 수일 수 있다. 예를 들어, 분리 값이 컷오프 값을 초과하는 경우 제2 일배체형의 부분의 수는 도 105a, 도 105b, 및 도 106에서 30% 초과의 차이를 갖는 도시된 영역의 수와 유사할 수 있다. 도 105a, 도 105b 및 도 106에 의해, 분리 값은 비율이고, 컷오프 값은 30%이다. 일부 실시형태에서, 컷오프 값은 장애를 갖는 조직으로부터 결정될 수 있다.
다른 예에서, 각각의 부분에 대한 분리 값은 합산, 예를 들어 합계될 수 있고, 이는 각각의 분리 값의 함수의 가중 합 또는 합에 의해 수행될 수 있다. 이러한 합산은 매개변수의 값을 제공할 수 있다.
블록 1098에서, 매개변수의 값은 기준 값과 비교된다. 기준 값은 장애가 없는 기준 조직을 사용하여 결정될 수 있다. 기준 값은 분리 값일 수 있다. 예를 들어, 기준 값은 2개의 일배체형의 메틸화 수준 사이의 유의차가 없어야 한다는 것을 나타낼 수 있다. 예를 들어, 기준 값은 0의 통계 차이 또는 약 1의 비율일 수 있다. 복수의 부분이 사용될 때, 기준 값은 건강한 유기체에서 다수의 부분일 수 있고, 여기서 2개의 일배체형은 컷오프 값을 초과하는 분리 값을 보여준다. 일부 실시형태에서, 기준 값은 장애를 갖는 기준 조직을 사용하여 결정될 수 있다.
블록 1099에서, 유기체에서의 장애의 분류는 기준 값에 대한 매개변수의 값의 비교를 이용하여 결정된다. 장애는 존재하는 것으로 또는 더욱 아마도 매개변수의 값이 기준 값을 초과하는지 결정될 수 있다. 장애는 암을 포함할 수 있다. 암은 본원에 기재된 임의의 암일 수 있다. 장애의 분류는 장애의 가능성일 수 있다. 장애의 분류는 장애의 중증도를 포함할 수 있다. 예를 들어, 일배체형 불균형을 갖는 더 많은 수의 부분을 나타내는 더 높은 매개변수 값은 더 중증의 암 형태를 나타낼 수 있다.
도 109와 기재된 방법이 장애의 분류를 수반하지만, 유사한 방법은 일배체형 사이의 메틸화 수준에서의 불균형으로부터 생길 수 있는 임의의 조건 또는 특징을 결정하기 위해 사용될 수 있다. 예를 들어, 태아 DNA로부터의 일배체형의 메틸화 수준은 모계 DNA로부터의 일배체형의 메틸화보다 낮을 수 있다. 메틸화 수준은 모계 또는 태아인 것으로 핵산을 분류하도록 사용될 수 있다.
장애가 암일 때, 종양의 상이한 염색체 영역은 메틸화에서 이러한 차이를 나타낼 수 있다. 어떤 영역이 영향을 받는지에 따라, 상이한 치료가 제공될 수 있다. 추가로, 메틸화에서 이러한 차이를 나타내는 상이한 영역을 갖는 대상체는 상이한 예후를 가질 수 있다.
충분한 분리를 갖는(예를 들어, 컷오프 값보다 높은) 염색체 영역(부분)은 비정상으로(또는 비정상 분리를 갖는 것으로) 확인될 수 있다. 비정상 영역의 패턴(잠재적으로 어떤 일배체형이 다른 것보다 높은지를 설명하기 위해)은 (예를 들어, 암, 잠재적으로 특정 유형의 암을 갖는 대상체 또는 건강한 대상체로부터 결정된 바대로) 기준 패턴과 비교될 수 있다. 2개의 패턴이 특정 분류를 갖는 기준 패턴보다 한계치(예를 들어, 상이한 영역/부분의 규정된 수보다 적음) 내에 동일하면, 대상체는 장애에 대해 그 분류를 갖는 것으로 확인될 수 있다. 이러한 분류는 예를 들어, 본원에 기재된 바와 같은 각인 장애를 포함할 수 있다.
VII. 하이브리드 분자에 대한 단일 분자 메틸화 분석
핵산의 염기 변형의 결정과 관련하여 본원에 개시된 실시형태의 수행 및 이용을 추가로 평가하기 위해, 본 발명자들은 인간 부분이 메틸화되고 마우스 부분이 비메틸화된, 또는 그 반대인 인간 및 마우스 하이브리드 DNA 단편을 인공으로 생성하였다. 하이브리드 또는 키메라 DNA 분자의 접합의 결정은 암을 포함하는 다양한 장애 또는 질환에 대한 유전자 융합의 검출을 허용할 수 있다.
A. 인간 및 마우스 하이브리드 DNA 단편을 생성하는 방법
이 부문은 하이브리드 DNA 단편의 생성 및 이후 단편의 메틸화 프로필의 결정에 대한 절차를 기재한다.
일 실시형태에서, 전장 게놈 증폭이 메틸화 상태를 보존하지 않으므로 인간 게놈에서의 원래의 메틸화 서명이 제거되도록 인간 DNA는 전장 게놈 증폭을 통해 증폭되었다. 전장 게놈 증폭은 열 사이클링 없이 DNA를 증폭하기 위해 프라이머로서 엑소뉴클레아제 저항성 티오포스페이트 변형된 축퇴성 육합체를 사용하여 수행되었고, 이 프라이머는 게놈에 걸쳐 무작위로 결합하여 중합효소(예를 들어, Phi29 DNA 중합효소)를 허용한다. 증폭된 DNA 산물은 비메틸화될 것이다. 증폭된 인간 DNA 분자는 M.SssI, CpG 메틸전환효소로 추가로 처리되었고, 이는 이론에서 이중 가닥, 비메틸화된 또는 반메틸화된 DNA에서 CpG 콘텍스트에서 모든 시토신을 완전히 메틸화할 것이다. 따라서, M.SssI에 의해 처리된 이러한 증폭된 인간 DNA는 메틸화된 DNA 분자가 될 것이다.
이에 반해서, 비메틸화된 마우스 DNA 단편이 생성되도록 마우스 DNA는 전장 게놈 증폭으로 처리되었다.
도 110은 인간 부분이 메틸화되고 마우스 부분이 비메틸화된 인간-마우스 하이브리드 DNA 단편의 생성을 예시한다. 채워진 막대사탕은 메틸화된 CpG 부위를 나타낸다. 채워지지 않은 막대사탕은 비메틸화된 CpG 부위를 나타낸다. 대각선 줄무늬를 갖는 두꺼운 막대 11010은 메틸화된 인간 부분을 나타낸다. 수직 줄무늬를 갖는 두꺼운 막대 11020은 비메틸화된 마우스 부분을 나타낸다.
하이브리드 인간-마우스 DNA 분자의 생성을 위해, 일 실시형태에서, 전장 게놈 증폭된 및 M.SssI 처리된 DNA 분자는 하류 결찰의 수월함을 위해 점착성 말단을 생성하기 위해 HindIII 및 NcoI로 추가로 소화되었다. 일 실시형태에서, 메틸화된 인간 DNA 단편은 등몰 범위로 비메틸화된 마우스 DNA 단편과 추가로 혼합되었다. 이러한 인간-마우스 DNA 혼합물은 결찰 과정으로 처리되었고, 이는 일 실시형태에서 20℃에서 15분 동안 DNA 리가제에 의해 매개되었다. 도 110에 도시된 것처럼, 이 결찰 반응은 인간-마우스 하이브리드 DNA 분자(a: 인간-마우스 하이브리드 단편); 인간-단독 DNA 분자(b: 인간-인간 결찰, 및 c: 결찰이 없는 인간 DNA); 및 마우스-단독 DNA 분자(d: 마우스-마우스 결찰 및 e: 결찰이 없는 마우스 DNA)를 포함하는 3가지 유형의 생성된 분자를 생성할 것이다. 결찰 후 DNA 산물은 단일 분자 실시간 시퀀싱으로 처리되었다. 시퀀싱 결과는 메틸화 상태를 결정하기 위해 본원에 제공된 개시내용에 따라 분석되었다.
도 111은 인간 부분이 비메틸화되고 마우스 부분이 메틸화된 인간-마우스 하이브리드 DNA 단편의 생성을 예시한다. 채워진 막대사탕은 메틸화된 CpG 부위를 나타낸다. 채워지지 않은 막대사탕은 비메틸화된 CpG 부위를 나타낸다. 대각선 줄무늬를 갖는 두꺼운 막대 11110은 메틸화된 마우스 부분을 나타낸다. 수직 줄무늬를 갖는 두꺼운 막대 11120은 비메틸화된 인간 부분을 나타낸다.
도 111에서의 실시형태에 대해, 마우스 게놈에서의 원래의 메틸화가 제거되도록 마우스 DNA 분자는 전장 게놈 증폭을 통해 증폭되었다. 증폭된 DNA 산물은 비메틸화될 것이다. 증폭된 마우스 DNA는 M.SssI로 추가로 처리될 것이다. 따라서, M.SssI에 의해 처리된 이러한 증폭된 마우스 DNA는 메틸화된 DNA 분자가 될 것이다. 이에 반해서, 비메틸화된 인간 단편이 얻어지도록 인간 DNA 단편은 전장 게놈 증폭으로 처리되었다. 일 실시형태에서, 메틸화된 인간 단편은 등몰 범위로 비메틸화된 단편과 추가로 혼합되었다. 이러한 인간-마우스 DNA 혼합물은 DNA 리가제에 의해 매개된 결찰 과정으로 처리되었다. 도 111에 도시된 것처럼, 이 결찰 반응은 인간-마우스 하이브리드 DNA 분자(a: 인간-마우스 하이브리드 단편); 인간-단독 DNA 분자(b: 인간-인간 결찰, 및 c: 결찰이 없는 인간 DNA); 및 마우스-단독 DNA 분자(d: 마우스-마우스 결찰 및 e: 결찰이 없는 마우스 DNA)를 포함하는 3가지 유형의 생성된 분자를 생성할 것이다. 결찰 후 DNA 산물은 단일 분자 실시간 시퀀싱으로 처리되었다. 시퀀싱 결과는 메틸화 상태를 결정하기 위해 본원에 제공된 개시내용에 따라 분석되었다.
도 110에 도시된 실시형태에 따르면, 본 발명자들은 인간 연관된 DNA 분자가 메틸화되지만 마우스 DNA 분자가 비메틸화된 인간-마우스 하이브리드 DNA 분자, 인간-단독 DNA 및 마우스-단독 DNA를 포함하는 인공 DNA 혼합물(샘플 MIX01이라 명명)을 제조하였다. 샘플 MIX01에 대해, 본 발명자들은 인간 또는 마우스 기준 게놈 중 어느 하나에, 또는 인간 게놈에 부분적으로 및 마우스 게놈에 부분적으로 정렬된 16600만개의 하위판독물을 얻었다. 이들 하위판독물은 대략 500만개의 Pacific Biosciences Single Molecular Real-Time(SMRT) 시퀀싱 웰로부터 생성되었다. 단일 분자 실시간 시퀀싱 웰에서의 각각의 분자는 평균 32배(범위: 1 내지 881배)로 시퀀싱되었다.
하이브리드 단편에서 인간 DNA 및 마우스 DNA 부분을 결정하기 위해, 본 발명자들은 처음에 웰에서 모든 관련 하위판독물로부터 뉴클레오타이드 정보를 조합하여 공통 서열을 작제하였다. 전체로서, 본 발명자들은 샘플 MIX01에 대한 3,435,657개의 공통 서열을 얻었다. 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다.
공통 서열은 인간 및 마우스 기준 둘 다를 포함하는 기준 게놈에 정렬되었다. 본 발명자들은 320만개의 정렬된 공통 서열을 얻었다. 이들 중에서, 이들 중 39.6%는 인간-단독 DNA 유형으로서 분류되고; 이들 중 26.5%는 마우스-단독 DNA 유형으로서 분류되고, 이들 중 30.2%는 인간-마우스 하이브리드 DNA로 분류되었다.
도 112는 결찰 후 DNA 혼합물(샘플 MIX01)에서의 DNA 분자의 길이 분포를 보여준다. x축은 DNA 분자의 길이를 보여준다. y축은 DNA 분자의 길이와 연관된 빈도를 보여준다. 도 112에 도시된 것처럼, 인간-마우스 하이브리드 DNA 분자는 이들이 적어도 2가지 유형의 분자의 조합이라는 사실과 일치한 더 긴 길이 분포를 가졌다.
도 113은 제1 DNA(A) 및 제2 DNA(B)가 함께 연결된 접합 영역을 예시한다. DNA(A) 및 DNA(B)는 제한 효소로 소화될 수 있다. 일 실시형태에서, 비틀린 말단을 사용하여 결찰의 효율을 개선하기 위해, 본 발명자들은 제한 효소 HindIII NcoI를 사용하였고, 이들은 결찰의 단계 전에 인간 및 마우스 DNA를 소화시키기 위해 각각 A^AGCTT 및 C^CATGG 부위를 인식한다. 이후, DNA(A) 및 DNA(B)는 결찰될 수 있다. 접합 영역을 보유하는 698,492개의 인간-마우스 하이브리드 DNA 분자들 중에서, 본 발명자들은 A^AGCTT 및 C^CATGG의 효소 인식 부위를 보유하는 인간-마우스 하이브리드 DNA 분자의 88%가 발생했다는 것을 발견하였고, 이는 인간 DNA 단편과 마우스 DNA 단편 사이의 결찰을 추가로 제시한다. 상기 접합 영역은 제1 DNA 단편 및 제2 DNA 단편이 함께 물리적으로 연결된 영역 또는 부위로 정의된다. 접합이 DNA(A) 및 DNA(B) 둘 다에 흔한 서열을 포함하므로, 접합에 상응하는 하나의 가닥의 부분은 서열 단독에 의해 DNA(A) 또는 DNA(B) 중 어느 하나의 부분인 것으로 결정될 수 없다. 접합에 상응하는 하나의 가닥의 부분의 메틸화 패턴 또는 밀도의 분석은 그 부분이 DNA(A) 또는 DNA(B) 유래인지를 결정하기 위해 사용될 수 있다. 일례로서, DNA(A)는 바이러스 DNA일 수 있고, DNA(B)는 인간 DNA일 수 있다. 정확한 접합의 결정은 이러한 통합된 DNA가 단백질 구조를 파괴하는지 그리고 어떻게 그러는지를 알려줄 수 있다.
도 114는 DNA 혼합물에 대한 메틸화 분석을 예시한다. 대각선 줄무늬를 갖는 막대 11410은 결찰 전에 제한 효소 처리에 의해 도입된 정렬 분석에서 관찰된 접합 영역을 나타낸다. "RE 부위"는 제한 효소(RE) 인식 부위를 나타낸다.
도 114에 도시된 것처럼, 일 실시형태에서, 정렬된 공통 서열은 하기와 같은 3가지 범주로 그룹화되었다:
(1) 시퀀싱된 DNA는 하나 이상의 정렬 기준을 참조하여 오직 인간 기준 게놈에 정렬되지만 마우스 게놈에 정렬되지 않았다. 일 실시형태에서, 하나의 정렬 기준은 비제한적인 예로서 시퀀싱된 DNA의 인접한 뉴클레오타이드의 100%, 95%, 90%, 80%, 70%, 60%, 50% 40%, 30%, 또는 20%가 인간 기준에 정렬되는 것으로 정의될 수 있었다. 일 실시형태에서, 하나의 정렬 기준은 인간 기준에 정렬하지 않은 시퀀싱된 단편의 남은 부분이 마우스 기준 게놈에 정렬될 수 없다는 것일 것이다. 일 실시형태에서, 하나의 정렬 기준은 시퀀싱된 DNA가 기준 인간 게놈에서 단일 영역에 정렬될 수 없다는 것이었다. 일 실시형태에서, 정렬은 완벽할 수 있었다. 또 다른 실시형태에서, 정렬은 삽입, 미스매치 및 결실을 포함하는 뉴클레오타이드 불일치를 수용할 수 있고, 단 이러한 불일치는 비제한적인 예로서 정렬된 서열의 길이의 1%, 2%, 3%, 4%, 5%, 10%, 20% 또는 30%와 같이 소정의 한계치보다 낮았다. 다른 실시형태에서, 기준 게놈에서의 하나 초과의 위치에 정렬될 수 있었다. 또 다른 실시형태에서, 기준 게놈에서의 하나 이상의 부위에 대한 정렬은 확률론적 방식(예를 들어, 잘못된 정렬의 기회를 나타냄)으로 기술될 수 있고, 확률 측정은 후속하는 프로세싱에 사용될 수 있다.
(2) 시퀀싱된 DNA는 하나 이상의 정렬 기준을 참조하여 오직 마우스 기준 게놈에 정렬되지만 인간 기준 게놈에 정렬되지 않았다. 일 실시형태에서, 하나의 정렬 기준은 비제한적인 예로서 시퀀싱된 DNA의 인접한 뉴클레오타이드의 100%, 95%, 90%, 80%, 70%, 60%, 50% 40%, 30% 또는 20%가 마우스 기준에 정렬되는 것으로 정의될 수 있었다. 일 실시형태에서, 하나의 정렬 기준은 남은 부분이 인간 기준 게놈에 정렬될 수 없다는 것일 것이다. 일 실시형태에서, 하나의 정렬 기준은 시퀀싱된 DNA가 기준 마우스 게놈에서 단일 영역에 정렬될 수 없다는 것이었다. 일 실시형태에서, 정렬은 완벽할 수 있었다. 또 다른 실시형태에서, 정렬은 삽입, 미스매치 및 결실을 포함하는 뉴클레오타이드 불일치를 수용할 수 있고, 단 이러한 불일치는 비제한적인 예로서 정렬된 서열의 길이의 1%, 2%, 3%, 4%, 5%, 10%, 20% 또는 30%와 같이 소정의 한계치보다 낮았다. 다른 실시형태에서, 기준 게놈에서의 하나 초과의 위치에 정렬될 수 있다. 또 다른 실시형태에서, 기준 게놈에서의 하나 이상의 부위에 대한 정렬은 확률론적 방식(예를 들어, 잘못된 정렬의 기회를 나타냄)으로 기술될 수 있고, 확률 측정은 후속하는 프로세싱에 사용될 수 있다.
(3) 시퀀싱된 DNA의 하나의 일부는 인간 기준 게놈에 고유하게 정렬되는 한편, 다른 일부는 마우스 기준 게놈에 고유하게 정렬되었다. 일 실시형태에서, 제한 효소가 결찰 전에 사용되면, 접합 영역은 제한 효소 절단 부위에 상응하여 정렬 분석에서 관찰될 것이다. 일부 실시형태에서, 인간 및 마우스 DNA 부분 사이의 접합 영역은 시퀀싱 및 정렬 오류 때문에 소정의 영역 내에 오직 대략 결정될 수 있었다. 일부 실시형태에서, 제한 효소 인식 부위는 결찰이 제한 효소의 절단이 없이 분자를 수반하면(예를 들어, 무딘 말단 결찰이 있으면) 인간-마우스 하이브리드 DNA 단편의 접합 영역에서 관찰 가능하지 않을 것이다.
CpG 부위를 둘러싼 펄스간 기간(IPD), 펄스 폭(PW) 및 서열 콘텍스트를 공통 서열에 상응하는 이 하위판독물로부터 얻었다. 이로써, 인간-단독, 마우스-단독 및 인간-마우스 하이브리드 DNA를 포함하는 각각의 DNA 분자에 대한 메틸화는 본 개시내용에 존재하는 실시형태에 따라 결정될 수 있었다.
B. 메틸화 결과
이 부문은 하이브리드 DNA 단편에 대한 메틸화 결과를 기재한다. 메틸화 밀도는 하이브리드 DNA 단편의 상이한 부분을 확인하기 위해 사용될 수 있다.
도 115는 샘플 MIX01에서의 CpG 부위에 대해 메틸화될 확률의 상자그림을 보여준다. x축은 샘플 MIX01에 존재하는 3개의 상이한 분자를 보여준다: 인간-단독 DNA, 마우스-단독 DNA 및 인간-마우스 하이브리드 DNA(인간 부분 및 마우스 부분 둘 다를 포함). y축은 메틸화되는 특정 단일 DNA 분자의 CpG 부위의 확률을 보여준다. 이 검정은 인간 DNA가 보다 메틸화되는 반면 마우스 DNA가 보다 비메틸화되는 방식으로 수행되었다.
도 115에 도시된 것처럼, 인간-단독 DNA에서의 CpG 부위에 대해 메틸화될 확률(중앙치: 0.66; 범위: 0 내지 1)은 마우스-단독 DNA에 대한 확률(중앙치: 0.06; 범위: 0 내지 1)보다 상당히 더 높았다(P-값 < 0.0001). 이 결과는 검정 설계와 일치하였고, 메틸화가 전장 게놈 증폭 동안 보존되지 않으므로 CpG 메틸전환효소 M.SssI의 처리 때문에 인간 DNA가 보다 메틸화되지만, 마우스 DNA가 보다 비메틸화되었다. 게다가, 인간-마우스 하이브리드 DNA 분자에서의 인간 DNA 부분 내의 CpG 부위는 마우스 DNA 부분 내의 것(중앙치: 0.06; 범위: 0 내지 1)(P-값 < 0.0001)과 비교하여 메틸화될 더 높은 확률(중앙치: 0.69; 범위: 0 내지 1)을 보여주었다. 이 데이터는 개시된 방법이 DNA 분자 내의 DNA 분자 및 분절의 메틸화 상태를 정확히 결정할 수 있다는 것을 나타낸다.
메틸화의 확률은 사용된 통계 모델에 기초하여 단일 분자 내의 특정 CpG 부위의 추정된 확률을 지칭한다. 1의 확률은, 통계 모델에 기초하여, 측정된 매개변수(IPD, PW 및 서열 콘텍스트를 포함)를 사용하여 CpG 부위의 100%가 메틸화될 것이라는 것을 나타낸다. 0의 확률은, 통계 모델에 기초하여, 측정된 매개변수(IPD, PW 및 서열 콘텍스트를 포함)를 사용하여 CpG 부위의 0%가 메틸화될 것이라는 것을 나타낸다. 바꾸어 말하면, 측정된 매개변수를 사용한 모든 CpG 부위는 비메틸화될 것이다. 도 115는 마우스 대응물보다 인간-단독 DNA 및 인간 부분에 대한 더 넓은 분포로 메틸화 확률의 분포를 보여준다. 바이설파이트 시퀀싱은 메틸화가 완료되지 않는다는 것을 확인하기 위해 유사한 샘플의 메틸화를 측정하도록 사용되고, 그 결과는 하기 기재되어 있다. 도 115는 마우스 DNA에 대한 인간에서의 메틸화 사이의 유의미한 차이를 보여준다.
도 111에 도시된 실시형태에 따르면, 본 발명자들은 인간 부분이 비메틸화되지만, 마우스 부분이 메틸화된 인간-마우스 하이브리드 DNA 분자, 인간-단독 DNA 및 마우스-단독 DNA를 포함하는 인공 DNA 혼합물(샘플 MIX02라 명명)을 제조하였다. 샘플 MIX02에 대해, 본 발명자들은 인간 또는 마우스 기준 게놈 중 어느 하나에, 또는 인간 게놈에 부분적으로 및 마우스 게놈에 부분적으로 정렬된 14000만개의 하위판독물을 얻었다. 이 하위판독물은 대략 500만개의 Pacific Biosciencees Single Molecule, Real-Time(SMRT) 시퀀싱 웰로부터 생성되었다. 단일 분자 실시간 시퀀싱 웰에서의 각각의 분자는 평균 32배(범위: 1 내지 1028배)로 시퀀싱되었다.
본 발명자들은 또한 웰에서 모든 관련 하위판독물로부터 뉴클레오타이드 정보를 조합하여 공통 서열을 작제하였다. 전체로서, 본 발명자들은 샘플 MIX02에 대한 3,265,487개의 공통 서열을 얻었다. 공통 서열은 BWA를 사용하여 인간 및 마우스 기준 둘 다를 포함하는 기준 게놈에 정렬되었다(문헌[Li H et al., Bioinformatics. 2010;26(5):589-595]). 본 발명자들은 300만개의 정렬된 공통 서열을 얻었다. 이들 중에서, 30.5%는 인간-단독 DNA 유형으로서 분류되고; 32.2%는 마우스-단독 DNA 유형으로서 분류되고, 33.8%는 인간-마우스 하이브리드 DNA로 분류되었다. 데이터세트는 Sequel II Sequencing Kit 1.0에 의해 제조된 DNA로부터 생성되었다.
도 116은 샘플 MIX02의 교차 결찰 후 DNA 혼합물에서의 DNA 분자의 길이 분포를 보여준다. x축은 DNA 분자의 길이를 보여준다. y축은 DNA 분자의 길이와 연관된 빈도를 보여준다. 도 116에 도시된 것처럼, 인간-마우스 하이브리드 DNA 분자는, 이들이 하나 초과의 분자의 결찰을 통해 생성되었다는 사실과 일치하는, 더 긴 길이 분포를 가졌다.
도 117은 샘플 MIX02에서의 CpG 부위에 대해 메틸화될 확률의 상자그림을 보여준다. 메틸화 상태는 본원에 기재된 방법에 따라 결정되었다. x축은 샘플 MIX01에 존재하는 3개의 상이한 분자를 보여준다: 인간-단독 DNA, 마우스-단독 DNA 및 인간-마우스 하이브리드 DNA(인간 부분 및 마우스 부분 둘 다를 포함). y축은 메틸화되는 CpG 부위의 확률을 보여준다. 이 검정은 인간 DNA가 비메틸화되는 반면 마우스 DNA가 메틸화되는 방식으로 수행되었다.
도 117에 도시된 것처럼, 인간-단독 DNA에서의 CpG 부위에 대해 메틸화될 확률(중앙치: 0.06; 범위: 0 내지 1)은 마우스-단독 DNA에 대한 확률(중앙치: 0.93; 범위: 0 내지 1)보다 상당히 더 낮았다(P-값 < 0.0001). 이 결과는 검정 설계와 일치하였고, 메틸화가 전장 게놈 증폭 동안 보존되지 않으므로 인간 DNA가 보다 비메틸화되지만, CpG 메틸전환효소 M.SssI의 처리 때문에 마우스 DNA가 보다 메틸화되었다. 게다가, 인간-마우스 하이브리드 DNA 분자에서의 인간 DNA 부분 내의 CpG 부위는 마우스 DNA 부분 내의 것(중앙치: 0.93; 범위: 0 내지 1)(P-값 < 0.0001)과 비교하여 메틸화될 더 낮은 확률(중앙치: 0.07; 범위: 0 내지 1)을 보여주었다. 이 데이터는 개시된 방법이 DNA 분자 내의 DNA 분자 및 분절의 메틸화 상태를 정확히 결정할 수 있다는 것을 나타낸다.
바이설파이트 시퀀싱은 본 개시내용에서의 실시형태에 따라 메틸화 패턴이 단일 분자 실시간 시퀀싱에 의해 결정되는 인간-마우스 하이브리드 단편의 메틸화를 측정하도록 사용되었다. 샘플 MIX01(인간 DNA는 메틸화되고, 마우스 DNA는 비메틸화됨) 및 MIX02(인간 DNA는 비메틸화되고, 마우스 DNA는 메틸화됨)는 공유되어서 음파처리를 통해 196 bp(사분위수 범위: 161 내지 268)의 중앙치 DNA 단편 크기를 갖는 혼합물을 생성시켰다. 판독물 길이 300 bp x2를 갖는 MiSeq 플랫폼(Illumina)에서의 페어링된-말단 바이설파이트 시퀀싱(BS-Seq)이 이후 수행되었다. 본 발명자들은 각각 MIX01 및 MIX02에 대해 370만개 및 290만개의 시퀀싱된 단편을 얻었고, 이것은 인간 또는 마우스 기준 게놈, 또는 부분적으로 인간 게놈 및 부분적으로 마우스 게놈에 정렬되었다. MIX01에 대해, 정렬된 단편의 41.6%는 인간-단독 DNA로서 분류되고, 56.6%는 마우스-단독 DNA로서 분류되고, 1.8%는 인간-마우스 하이브리드 DNA로로서 분류되었다. MIX02에 대해, 정렬된 단편의 61.8%는 인간-단독 DNA로서 분류되고, 36.3%는 마우스-단독 DNA로서 분류되고, 1.9%는 인간-마우스 하이브리드 DNA로로서 분류되었다. BS-Seq에서 인간-마우스 하이브리드 DNA인 것으로 결정된 시퀀싱된 단편의 백분율(2% 미만)은 Pacific Biosciences 시퀀싱 결과(30% 초과)에서 관찰된 것보다 훨씬 더 낮았다. 특히, 긴 단편(약 2 kb의 중앙치)은 Pacific Biosciences 시퀀싱에 의해 시퀀싱되었고, 긴 단편은 MiSeq에 적합한 짧은 단편(약 196 bp의 중앙치)으로 전단되었다. 이러한 전단 과정은 인간-마우스 하이브리드 단편을 크게 희석할 것이다.
도 118은 MIX01에 대해 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화를 비교하는 표를 보여준다. 표의 가장 왼쪽 부분은 DNA의 유형을 보여준다: 1) 인간-단독; 2) 마우스-단독; 및 3) 인간 부분 및 마우스 부분으로 나뉜 인간-마우스 하이브리드. 표의 중간 부문은 CG 부위 및 메틸화 밀도의 수를 포함하여 바이설파이트 시퀀싱으로부터의 상세내용을 보여준다. 표의 최우 부문은 CG 부위 및 메틸화 밀도의 수를 포함하여 바이설파이트 시퀀싱으로부터의 상세내용을 보여준다.
도 118에 도시된 것처럼, 인간-단독 DNA는 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱 결과 둘 다에서 MIX01에 대해 마우스-단독 DNA보다 더 높은 메틸화 밀도를 지속적으로 나타냈다. 인간-마우스 하이브리드 단편에 대해, 인간 부분 및 마우스 부분의 메틸화 수준은 바이설파이트 시퀀싱 결과에서 각각 46.8% 및 2.3%인 것으로 결정되었다. 이 결과는 본 개시내용에 따라 Pacific Biosciences 시퀀싱에 의해 결정된 바대로 마우스 부분과 비교하여 인간 부분에 더 높은 메틸화 밀도를 확인시켜주었다. Pacific Biosciences 시퀀싱에 의해, 57.4%의 메틸화 밀도가 인간 부분에서 관찰되었고, 12.1%의 더 낮은 메틸화 밀도가 마우스 부분에서 관찰되었다. 이 결과는 본 개시내용에 따라 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화가 실행 가능할 수 있다는 것을 제시한다. 특히, Pacific Biosciences 시퀀싱은 다른 부분보다 더 높은 메틸화 밀도를 갖는 부분을 갖는 DNA에서를 포함하여 상이한 메틸화 밀도를 결정하기 위해 사용될 수 있다. 본 발명자들은 본 개시내용에 따른 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화 밀도가 바이설파이트 시퀀싱에 비해 더 높다는 것을 관찰하였다. 이러한 추정은 본 기술에 걸친 결과를 비교하기 위해 이들 2의 기술에 의해 결정된 결과 사이의 차이를 이용하여 조정될 수 있다.
도 119는 MIX02에 대해 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화를 비교하는 표를 보여준다. 표의 가장 왼쪽 부분은 DNA의 유형을 보여준다: 1) 인간-단독; 2) 마우스-단독; 및 3) 인간 부분 및 마우스 부분으로 나뉜 인간-마우스 하이브리드. 표의 중간 부문은 CG 부위 및 메틸화 밀도의 수를 포함하여 바이설파이트 시퀀싱으로부터의 상세내용을 보여준다. 표의 최우 부문은 CG 부위 및 메틸화 밀도의 수를 포함하여 바이설파이트 시퀀싱으로부터의 상세내용을 보여준다.
도 119에 도시된 것처럼, 인간-단독 DNA는 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱 결과 둘 다에서 MIX02에 대해 마우스-단독 DNA보다 더 낮은 메틸화 밀도를 지속적으로 나타냈다. 인간-마우스 하이브리드 단편에 대해, 인간 부분 및 마우스 부분의 메틸화 수준은 바이설파이트 시퀀싱 결과에서 각각 1.8% 및 67.4%인 것으로 결정되었다. 이 결과는 본 개시내용에 따라 Pacific Biosciences 시퀀싱에 의해 결정된 바대로 마우스 부분과 비교하여 인간 부분에 더 낮은 메틸화 밀도를 추가로 확인시켜주었다. Pacific Biosciences 시퀀싱에 의해, 본 개시내용에 따른 Pacific Biosciences 시퀀싱에 결정된 바대로 13.1%의 메틸화 밀도가 인간 부분에서 관찰되었고, 72.2%의 더 높은 메틸화 밀도가 마우스 부분에서 관찰되었다. 이것은 본 개시내용에 따른 Pacific Biosciences 시퀀싱에 의한 메틸화의 결정이 실행 가능하다는 것을 또한 제시하였다. 특히, Pacific Biosciences 시퀀싱은 다른 부분보다 더 낮은 메틸화 밀도를 갖는 부분을 갖는 DNA에서를 포함하여 상이한 메틸화 밀도를 결정하기 위해 사용될 수 있다. 본 발명자들은 또한 본 개시내용에 따른 Pacific Biosciences 시퀀싱에 의해 결정된 메틸화 밀도가 바이설파이트 시퀀싱에 비해 더 높다는 것을 관찰하였다. 이러한 추정은 본 기술에 걸친 결과를 비교하기 위해 이들 2의 기술에 의해 결정된 결과 사이의 차이를 이용하여 조정될 수 있다.
도 120a는 MIX01에 대한 인간-단독 및 마우스-단독 DNA에 대한 5-Mb 빈에서의 메틸화 수준을 보여준다. 도 120b는 MIX02에 대한 인간-단독 및 마우스-단독 DNA에 대한 5-Mb 빈에서의 메틸화 수준을 보여준다. 도면 둘 다에서, 백분율의 메틸화 수준은 y축에 도시되어 있다. 각각의 인간-단독 DNA 및 마우스-단독 DNA에 대한 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱은 x축에 도시되어 있다.
본 개시내용에 따라 Pacific Biosciences 시퀀싱에 의해 결정된 도 120a 및 도 120b에서의 결과는 샘플 MIX01 및 MIX02 둘 다에서 빈에 걸쳐 전신으로 더 높은 것으로 발견되었다.
도 121a는 MIX01에 대한 인간-마우스 하이브리드 DNA 단편의 인간 부분 및 마우스 부분에 대한 5-Mb 빈에서의 메틸화 수준을 보여준다. 도 121b는 MIX02에 대한 인간-마우스 하이브리드 DNA 단편의 인간 부분 및 마우스 부분에 대한 5-Mb 빈에서의 메틸화 수준을 보여준다. 도면 둘 다에서, 백분율의 메틸화 수준은 y축에 도시되어 있다. 각각의 인간 부분 DNA 및 마우스 부분 DNA에 대한 바이설파이트 시퀀싱 및 Pacific Biosciences 시퀀싱은 x축에 도시되어 있다.
도 121a 및 도 121b 둘 다는 바이설파이트 시퀀싱과 비교하여 Pacific Biosciences 시퀀싱이 사용될 때 메틸화 수준에서의 증가를 보여준다. 이 증가는 도 120a 및 도 120b에서 인간-단독 DNA 및 마우스-단독 DNA에 의해 보인 Pacific Biosciences 시퀀싱에 의한 메틸화 수준의 증가와 유사하다. 하이브리드 단편에 대한 바이설파이트 시퀀싱 결과에 존재하는 5-Mb 빈에 걸친 메틸화 수준의 변동성의 증가는 분석에 사용된 CpG 부위의 더 낮은 수 때문일 것이다.
도 122a도 122b는 단일 인간-마우스 하이브리드 분자에서의 메틸화 상태를 보여주는 대표적인 그래프이다. 도 122a는 샘플 MIX01에서의 인간-마우스 하이브리드 단편을 보여준다. 도 122b는 샘플 MIX02에서의 인간-마우스 하이브리드 단편을 보여준다. 채워진 원은 메틸화된 부위를 나타내고, 채워지지 않은 원은 비메틸화된 부위를 나타낸다. 이 단편에서의 메틸화 상태는 본원에 기재된 실시형태에 따라 결정되었다.
도 122a에 도시된 것처럼, 샘플 MIX01로부터의 하이브리드 분자의 인간 부분은 더 메틸화된 것으로 결정되었다. 이에 반해서, 마우스 DNA 부분은 보다 저메틸화된 것으로 결정되었다. 이에 반해서, 도 122b는 샘플 MIX02로부터의 하이브리드 분자의 인간 부분이 보다 저메틸화된 것으로 결정되는 반면, 마우스 DNA 부분이 보다 메틸화된 것으로 결정되었다는 것을 보여준다.
이 결과는 본 개시내용에 존재하는 실시형태가 분자의 상이한 부분에서 상이한 메틸화 패턴을 갖는 단일 DNA 분자에서의 메틸화 변화를 결정하게 허용한다는 것을 입증하였다. 일 실시형태에서, 유전자 또는 게놈 영역의 상이한 부분이 상이한 메틸화 상태(예를 들어, 프로모터대 유전자 바디)를 나타내는 유전자 또는 다른 게놈 영역의 메틸화 상태가 측정될 수 있다. 다른 실시형태에서, 본원에 제시된 방법은 인간-마우스 하이브리드 단편을 검출할 수 있어서, 기준 게놈과 관련하여 비인접한 단편(즉, 키메라 분자)을 함유하는 DNA 분자를 검출하기 위한 그리고 이의 메틸화 상태를 분석하기 위한 유전적 접근법을 제공한다. 예를 들어, 본 발명자들은 비제한적인 예로서 유전자 융합, 게놈 재배열, 번역, 역위, 중복, 구조 변이, 바이러스 DNA 통합, 감수분열 재조합 등을 분석하기 위해 이 접근법을 이용할 수 있었다.
일부 실시형태에서, 이 하이브리드 단편은 표적 DNA 농후화에 대해 프로브 기반 혼성화 방법 또는 CRISPR-Cas 시스템 또는 이들의 변이체 접근법을 이용하여 시퀀싱 전에 농후화될 수 있었다. 최근에, 시아노박테리아, 사이토네마 호프마니(Scytonema hofmanni)로부터의 CRISPR 연관된 트랜스포사제가 관심 있는 표적화된 부위 근처의 영역으로 DNA 분절을 삽입할 수 있었다는 것이 보고되었다(문헌[Strecker et al. Science. 2019;365:48-53]). CRISPR 연관된 트랜스포사제는 Tn7 매개된 전위와 같이 작용할 수 있었다. 일 실시형태에서, 본 발명자들은 gRNA에 의해 가이드된 하나 이상의 관심 있는 게놈 영역에 예를 들어 비오틴으로 표지된 코멘트 서열을 삽입하기 위해 이 CRISPR 연관된 트랜스포사제를 조정할 수 있었다. 본 발명자들은 코멘트 서열을 포획하기 위해 예를 들어 스트렙타비딘으로 코팅된 자기 비드를 사용할 수 있어서, 본 개시내용에서의 실시형태에 따른 시퀀싱 및 메틸화 분석을 위한 표적화된 DNA 서열을 동시에 당길 수 있었다.
일부 실시형태에서, 단편은 본원에 개시된 임의의 제한 효소를 포함할 수 있는 제한 효소를 사용하여 농후화될 수 있다.
C. 예시적인 키메라 분자 검출 방법
도 123은 생물학적 샘플에서의 키메라 분자의 검출 방법 1230을 보여준다. 키메라 분자는 2개의 상이한 유전자, 염색체, 세포소기관(예를 들어, 미토콘드리아, 핵, 엽록체), 유기체(포유류, 박테리아, 바이러스 등), 및/또는 종으로부터의 서열을 포함할 수 있다. 방법 1230은 생물학적 샘플로부터의 복수의 DNA 분자의 각각에 적용될 수 있다. 일부 실시형태에서, 복수의 DNA 분자는 세포 DNA일 수 있다. 다른 실시형태에서, 복수의 DNA 분자는 임신한 여성의 혈장으로부터의 무세포 DNA 분자일 수 있다.
블록 1232에서, DNA 분자의 단일 분자 시퀀싱은 각각의 N 부위에서 메틸화 상태를 제공하는 서열 판독물을 얻도록 수행될 수 있다. N은 5 내지 10, 10 내지 15, 15 내지 20, 또는 20 초과를 포함하여 5 또는 초과일 수 있다. 서열 판독물의 메틸화 상태는 메틸화 패턴을 형성할 수 있다. DNA 분자는 복수의 DNA 분자의 하나의 DNA 분자일 수 있고, 방법 1230은 복수의 DNA 분자에서 수행될 수 있다. 메틸화 패턴은 다양한 형태를 취할 수 있다. 예를 들어, 패턴은 N(예를 들어, 2, 3, 4 등)개의 메틸화된 부위, 이어서 N개의 비메틸화된 부위일 수 있거나, 또는 그 반대도 그러하다. 이러한 메틸화 변화는 접합을 나타낼 수 있다. 메틸화된 인접한 부위의 수는 비메틸화된 인접한 부위의 수와 상이할 수 있다.
블록 1234에서, 메틸화 패턴은 기준 인간 게놈의 2개의 부분으로부터 2개의 부분을 갖는 키메라 분자에 상응하는 하나 이상의 기준 패턴에 걸쳐 슬라이딩될 수 있다. 기준 패턴은 접합을 나타내는 일치 패턴을 확인하기 위해 필터로서 작용할 수 있다. 기준 패턴과 일치하는 부위의 수는 일치 위치가 일치 부위의 최대 수(즉, 메틸화 상태가 기준 패턴과 일치하는 수)에 상응하도록 추적될 수 있다. 기준 인간 게놈의 2개의 부분은 기준 인간 게놈의 불연속 부분일 수 있다. 기준 인간 게놈의 2개의 부분은 1 kb, 5 kb, 10 kb, 100 kb, 1 Mb, 5 Mb, 또는 10 Mb 초과로 분리될 수 있다. 2개의 부분은 2개의 상이한 염색체 아암 또는 염색체 유래일 수 있다. 하나 이상의 기준 패턴은 메틸화된 상태와 비메틸화된 상태 사이의 변화를 포함할 수 있다.
블록 1236에서, 일치 위치는 메틸화 패턴과 하나 이상의 기준 패턴의 제1 기준 패턴 사이에 확인될 수 있다. 일치 위치는 서열 판독물에서 기준 인간 게놈의 2개의 부분 사이에 접합을 확인할 수 있다. 일치 위치는 기준 패턴과 메틸화 패턴 사이의 중첩 함수에서의 최대에 상응할 수 있다. 중첩 함수는 다수의 기준 패턴을 사용할 수 있고, 출력은 가능하게는 그룹 함수에 걸쳐 최대(즉, 출력 값에 기여하는 각각의 기준 패턴) 또는 기준 패턴에 걸쳐 확인된 단일 최대이다.
블록 1238에서, 접합은 키메라 분자에서 유전자 융합의 위치에서 산출될 수 있다. 유전자 융합의 위치는 암을 포함하는 다양한 장애 또는 질환에 대한 유전자 융합의 기준 위치와 비교될 수 있다. 생물학적 샘플이 얻어진 유기체는 장애 또는 질환에 치료될 수 있다.
일치 위치는 정렬 함수에 출력될 수 있다. 유전자 융합의 위치는 개선될 수 있다. 유전자 융합의 위치의 개선은 서열 판독물의 제1 부분을 기준 인간 게놈의 제1 부분에 정렬함을 포함할 수 있다. 제1 부분은 접합 전일 수 있다. 유전자 융합의 위치의 개선은 서열 판독물의 제2 부분을 기준 인간 게놈의 제2 부분에 정렬함을 포함할 수 있다. 제2 부분은 접합 후일 수 있다. 기준 인간 게놈의 제1 부분은 인간 기준 게놈의 제2 부분과 적어도 1 kb 떨어질 수 있다. 예를 들어, 기준 인간 게놈의 제1 부분 및 인간 기준 게놈의 제2 부분은 1.0 내지 1.5 kb, 1.5 내지 2.0 kb, 2.0 내지 2.5 kb, 2.5 내지 3.0 kb, 3 내지 5 kb, 또는 5 kb 초과 떨어질 수 있다.
다수의 키메라 분자의 접합은 유전자 융합의 위치를 확인하도록 서로와 비교될 수 있다.
VIII. 결론
본 발명자들은 단일 염기 해상에서 핵산의 염기 변형(예를 들어, 메틸화) 수준을 예측하기 위한 효율적인 접근법을 개발하였다. 이 새로운 접근법은 조사되는 염기, 서열 콘텍스트 및 가닥 정보를 둘러싸는 중합효소 동역학을 동시에 포획하기 위한 새로운 체계를 실행한다. 동역학의 이러한 새로운 변환은 동역학 펄스에서 생기는 미묘한 간섭이 확인되고 모델링되게 하였다. IPD만을 사용한 이전의 방법과 비교하여, 이 특허 출원에 존재하는 새로운 접근법은 메틸화 분석에서 해상 및 정확성을 훨씬 개선하였다. 이 새로운 체계는 다른 목적, 예를 들어 5hmC(5-하이드록시메틸시토신), 5fC(5-포밀시토신), 5caC(5-카복실시토신), 4mC(4-메틸시토신), 6mA(N6-메틸아데닌), 8oxoG(7,8-디하이드로-8-옥소구아닌), 8oxoA(7,8-디하이드로-8-옥소아데닌) 및 염기 변형의 다른 형태, 및 DNA 손상의 검출을 위해 쉽게 확대 수 있었다. 다른 실시형태에서, 이 새로운 체계(예를 들어, 본 출원에 존재하는 2-D 디지털 행렬과 유사한 동역학 변환)는 나노기공 시퀀싱 시스템의 사용과 함께 염기 변형 분석에 사용될 수 있었다.
메틸화 검출의 이 실행은 상이한 소스로부터의 핵산 샘플, 예를 들어 세포 핵산, 환경 샘플링(예를 들어, 세포 오염물질)으로부터의 핵산, 병원균(예를 들어, 박테리아 및 진균)으로부터의 핵산 및 임신한 여성의 혈장에서의 cfDNA에 사용될 수 있었다. 이것은 비침습적 태아기 시험, 암 검출 및 이식 모니터링과 같은 게놈 조사 및 분자 진단에 대한 많은 새로운 가능성을 열 것이다. cfDNA 기반 비침습적 태아기 진단을 위해, 이 새로운 발명은 시퀀싱 전에 PCR 및 실험적 전환 없이 진단에서 각각의 분자에 대한 카피수 비정상, 크기, 돌연변이, 단편 말단 및 염기 변형의 동시의 사용이 실행 가능하게 하여 민감도를 향상시킨다. 일배체형 사이의 메틸화 수준의 불균형은 본원에 기재된 방법을 이용하여 검출될 수 있다. 이러한 불균형은 DNA 분자(예를 들어, 장애로부터 추출된, 예컨대 암 환자의 혈액으로부터 단리된 암 세포) 또는 장애의 기원을 나타낼 수 있다.
IX. 예시적인 시스템
도 124는 본 발명의 실시형태에 따른 측정 시스템(12400)을 예시한다. 도시된 바와 같은 시스템은 샘플(12405), 예컨대 샘플 홀더(12410) 내의 DNA 분자를 포함하고, 상기 샘플(12405)은 검정물(12408)과 접촉되어, 물리적 특징(12415)의 신호를 제공할 수 있다. 샘플 홀더의 일례는, 검정물의 프로브 및/또는 프라이머 또는 액적이 이동하는 관(상기 액적은 검정물을 포함함)을 포함하는 유동 세포일 수 있다. 샘플로부터의 물리적 특징(12415)(예를 들어, 형광 강도, 전압 또는 전류)은 검출기(12420)에 의해 검출된다. 검출기(12402)는 간격(예를 들어, 주기적 간격)을 둔 측정을 행하여, 데이터 신호를 구성하는 데이터 점을 얻을 수 있다. 일 실시형태에서, 아날로그-대-디지털 전환기는 검출기로부터의 아날로그 신호를 복수의 시점에서 디지털 형태로 전환시킨다. 샘플 홀더(12401) 및 검출기(12402)는 검정 장치, 예를 들어 본원에 기재된 실시형태에 따른 시퀀싱을 수행하는 시퀀싱 장치를 형성할 수 있다. 데이터 신호(12425)는 검출기(12402)로부터 로직 시스템(12403)으로 전송된다. 데이터 신호(12425)는 로컬 메모리(12435), 외장 메모리(12404) 또는 저장 장치(12445)에 저장될 수 있다.
로직 시스템(12403)은 컴퓨터 시스템, ASIC, 마이크로프로세서 등일 수 있거나 이를 포함할 수 있다. 상기 시스템은 또한 디스플레이(예를 들어, 모니터, LED 디스플레이 등) 및 사용자 입력 장치(예를 들어, 마우스, 키보드, 버튼 등)를 포함하거나 이들과 커플링될 수 있다. 로직 시스템(12403) 및 다른 구성요소는 독립형 또는 네트워크 연결 컴퓨터 시스템의 일부일 수 있거나, 이들은 검출기(12402) 및/또는 샘플 홀더(12401)를 포함하는 장치(예를 들어, 시퀀싱 장치)에 직접적으로 부착되거나 상기 장치에 통합될 수 있다. 로직 시스템(12403)은 또한 프로세서(12405)에서 실행하는 소프트웨어를 포함할 수 있다. 로직 시스템(12403)은 본원에 기재된 임의의 방법을 수행하도록 시스템(12400)을 제어하는 명령을 저장하는 컴퓨터 판독 가능한 매체를 포함할 수 있다. 예를 들어, 로직 시스템(12403)은, 시퀀싱 또는 다른 물리적 작동이 수행되도록, 샘플 홀더(12401)를 포함하는 시스템에 명령을 제공할 수 있다. 이러한 물리적 작동은 특정 순서로 수행될 수 있으며, 예를 들어 시약이 특정 순서로 첨가되고 제거된다. 이러한 물리적 작동은 샘플을 수득하고 검정을 수행하는 데 사용될 수 있는 바와 같이 예를 들어 로봇 팔을 포함하는 로봇공학 시스템에 의해 수행될 수 있다.
본 명세서에 언급된 컴퓨터 시스템 중 임의의 것이 임의의 적합한 수의 하위시스템을 이용할 수 있다. 이러한 서브시스템의 예는 도 125에서 컴퓨터 시스템(10)에 도시된다. 일부 실시형태에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하며, 여기서 서브시스템은 컴퓨터 장치의 구성요소일 수 있다. 다른 실시형태에서, 컴퓨터 시스템은 내부 구성요소와 함께, 각각 서브시스템인 다수의 컴퓨터 장치를 포함할 수 있다. 컴퓨터 시스템은 데스크탑 및 랩탑 컴퓨터, 태블릿, 이동 전화 및 다른 모바일 장치 및 클라우드 기반 시스템을 포함할 수 있다.
도 125에 도시된 서브시스템은 시스템 버스(시스템 버스)(75)를 통해 서로 연결되어 있다. 디스플레이 어댑터(82)에 커플링된, 프린터(74), 키보드(78), 저장 장치(들)(79), 모니터(76)(예를 들어, 디스플레이 스크린, 예컨대 LED)와 같은 추가의 서브시스템, 및 다른 것이 도시되어 있다. 입력/출력(I/O) 컨트롤러(71)에 커플링된, 주변 및 입력/출력(I/O) 장치는, 입력/출력(I/O) 포트(77)와 같이, 관련 기술 분야에 공지된 임의의 수의 수단(예를 들어, USB, FireWire®)에 의해 컴퓨터 시스템에 연결될 수 있다. 예를 들어, I/O 포트(77) 또는 외부 인터페이스(81)(예를 들어, 이더넷, Wi-Fi 등)는 컴퓨터 시스템(10)을 인터넷, 마우스 입력 장치 또는 스캐너와 같은 광범위 네트워크에 연결시키도록 사용될 수 있다. 시스템 버스(75)를 통한 상호연결은 중앙 처리 장치(73)가 각각의 서브시스템과 통신하도록 하고 시스템 메모리(72) 또는 저장 장치(들)(79)(예를 들어, 고정 디스크, 예컨대 하드 드라이브 또는 광 디스크)로부터의 복수의 명령어의 실행, 및 또한 서브시스템들 사이의 정보의 교환을 제어할 수 있도록 한다. 시스템 메모리(72) 및/또는 저장 장치(들)(79)는 컴퓨터 판독 가능한 매체를 구현할 수 있다. 또 다른 서브시스템은 데이터 수집 장치(85), 예컨대 카메라, 마이크로폰, 가속도계 등이다. 본 명세서에 언급된 데이터 중 임의의 것이 하나의 성분으로부터 또 다른 성분으로 출력될 수 있고, 사용자에게 출력될 수 있다.
컴퓨터 시스템은, 예를 들어 외부 인터페이스(81)에 의해, 내부 인터페이스에 의해, 또는 하나의 구성요소로부터 다른 구성요소로 연결되거나 제거될 수 있는 제거 가능한 저장 장치를 통해 함께 연결되는, 복수의 동일한 구성요소 또는 서브시스템을 포함할 수 있다. 일부 실시형태에서, 컴퓨터 시스템, 하위시스템 또는 장치는 네트워크를 통해 통신할 수 있다. 이러한 예에서, 하나의 컴퓨터는 클라이언트로 여겨질 수 있고, 또 다른 컴퓨터는 서버로 여겨질 수 있으며, 여기서 각각은 동일한 컴퓨터 시스템의 부분일 수 있다. 클라이언트 및 서버는 각각 다중 시스템, 서브시스템 또는 구성요소를 포함할 수 있다.
실시형태의 양태는 하드웨어 회로(예를 들어, 특정 용도 지향 집적 회로 또는 필드 프로그램 가능 게이트 어레이)를 사용하여 및/또는 모듈 방식 또는 집적 방식으로 일반적으로 프로그램 가능한 프로세서를 갖는 컴퓨터 소프트웨어를 사용하여 제어 로직의 형태로 실행될 수 있다. 본원에 사용된 바대로, 프로세서는 전용 하드웨어뿐만 아니라, 단일 코어 처리 장치, 동일한 집적 칩 상의 멀티 코어 처리 장치, 또는 단일 회로 기판 상의 또는 네트워크화된 다수의 프로세싱 유닛을 포함할 수 있다. 본원에 제공된 개시내용 및 교시내용에 기초하여, 당업자는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본 발명의 실시형태를 실행하는 다른 방식 및/또는 방법을 알고 인지할 것이다.
본 출원에 기술된 소프트웨어 구성요소 또는 기능 중 임의의 것은 예를 들어, 종래의 또는 객체 지향 기술을 사용하여, 예를 들어 자바, C, C++, C#, 오브젝티브(Objective)-C, 스위프트(Swift), 또는 펄(Perl)이나 파이썬(Python)과 같은 스크립팅 언어와 같은 임의의 적합한 컴퓨터 언어를 사용하여 프로세서에 의해 실행되는 소프트웨어 코드로서 실행될 수 있다. 소프트웨어 코드는 저장 및/또는 전송을 위해 컴퓨터 판독 가능한 매체 상에 일련의 명령 또는 지령으로서 저장될 수 있다. 적합한 비일시적 컴퓨터 판독 가능한 매체는 임의 접근 메모리(RAM: random access memory), 읽기 전용 메모리(ROM: read only memory), 하드-드라이브 또는 플로피 디스크와 같은 자기 매체, 또는 컴팩트 디스크(CD) 또는 DVD(디지털 다기능 디스크) 또는 블루-레이 디스크(Blu-ray disk), 플래쉬 메모리 등과 같은 광학 매체를 포함할 수 있다. 컴퓨터 판독 가능한 매체는 이러한 저장 또는 전송 장치의 임의의 조합일 수 있다.
이러한 프로그램은 또한 인터넷을 포함하여 다양한 프로토콜에 따른 유선, 광학 및/또는 무선 네트워크를 통한 전송을 위해 채택된 캐리어 신호를 사용하여 암호화되고 전송될 수 있다. 이와 같이, 컴퓨터 판독 가능한 매체는 이러한 프로그램으로 암호화된 데이터 신호를 사용하여 생성될 수 있다. 프로그램 코드로 암호화된 컴퓨터 판독 가능한 매체는 호환 장치와 함께 (예를 들어, 인터넷 다운로드를 통해) 패키징될 수 있거나 다른 장치로부터 별도로 제공될 수 있다. 임의의 이러한 컴퓨터 판독 가능한 매체는 단일 컴퓨터 제품(예를 들어, 하드 드라이브, CD 또는 전체 컴퓨터 시스템) 상에 또는 그 내에 있을 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 제품 상에 또는 그 내에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터, 또는 본원에 언급된 결과 중 임의의 결과를 사용자에게 제공하기에 적합한 다른 디스플레이를 포함할 수 있다.
본원에 기재된 방법 중 임의의 방법은, 단계를 수행하도록 구성될 수 있는, 하나 이상의 프로세서를 포함하는 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 수행될 수 있다. 그러므로, 실시형태는, 잠재적으로는 각각의 단계 또는 단계의 각각의 그룹을 수행하는 상이한 구성요소와 함께, 본원에 기재된 방법 중 임의의 방법의 단계를 수행하도록 구성된 컴퓨터 시스템에 관한 것일 수 있다. 번호 매긴 단계로서 제시되더라도, 본원의 방법의 단계는 동시에 또는 상이한 시간에 또는 상이한 순서로 수행될 수 있다. 추가로, 이들 단계의 일부는 다른 방법으로부터의 다른 단계의 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택적일 수 있다. 추가로, 임의의 방법 중 임의의 단계는 이들 단계를 수행하기 위한 시스템의 모듈, 유닛, 회로 또는 다른 수단에 의해 수행될 수 있다.
특정 실시형태의 구체적인 세부사항은 본 발명의 실시형태의 사상 및 범주 내에서 임의의 적합한 방식으로 조합될 수 있다. 그러나, 본 발명의 다른 실시형태는 각각의 개별적인 양태, 또는 이들 개별적인 양태의 특정 조합에 관한 특정 실시형태에 관한 것일 수 있다.
본 개시내용의 예시적인 실시형태의 상기 설명은 예시 및 설명의 목적으로 제시되었다. 이것은 철저하거나 본 개시내용을 설명된 정확한 형태로 제한하도록 의도되지 않으며, 상기의 교시내용에 비추어 많은 수정 및 변형이 가능하다.
단수형의 인용은 구체적으로 반대로 나타내지 않은 한, "하나 이상"을 의미하는 것으로 의도된다. "또는"의 사용은 "포함하거나 또는"을 의미하고, 구체적으로 다르게 나타내지 않는 한 "배제하거나 또는"을 의미하도록 의도되지 않는다. "제1" 구성요소에 대한 언급은 반드시 제2 구성요소가 제공되어야 함을 요구하지는 않는다. 더욱이, "제1" 구성요소 또는 "제2" 구성요소에 대한 언급은 명시적으로 언급되지 않는 한 언급된 구성요소를 특정 위치로 제한하지 않는다. "기초하여"라는 용어는 "적어도 부분적으로 기초하여"를 의미하는 것으로 의도된다.
본원에 언급된 모든 특허, 특허 출원, 공보 및 설명은 모든 목적을 위해서 그 전체가 인용되어 포함된다. 어느 것도 선행 기술로서 인정하는 것은 아니다.
참고문헌
Albert, T.J. et al. (2007) Direct selection of human genomic loci by microarray hybridization. Nat. Methods, 4, 903-905.
Beckmann et al. (2014) Detecting epigenetic motifs in low coverage and metagenomics settings. BMC Bioinformatics, 15(Suppl 9): S16.
Beaulaurier, J. et al. (2019) Deciphering bacterial epigenomes using modern sequencing technologies. Nature Reviews Genetics, 20:157-172.
Blow, M.J. et al. (2016) The Epigenomic Landscape of Prokaryotes. PLOS Genet., 12, e1005854.
Breiman, L. (2001) Random Forests. Mach. Learn., 45, 5-32.
Chan, K.C.A. et al. (2013) Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc. Natl. Acad. Sci. U. S. A., 110, 18761-8.
Clark, T.A. et al. (2013) Enhanced 5-methylcytosine detection in single-molecule, real-time sequencing via Tet1 oxidation. BMC Biol., 11, 4.
Clark, T.A. et al. (2012) Characterization of DNA methyltransferase specificities using single-molecule, real-time DNA sequencing. Nucleic Acids Res., 40:e29.
Eid, J. et al. (2009) Real-Time DNA Sequencing from Single Polymerase Molecules. Science 323, 133-138.
Feinberg, A.P. and Irizarry, R.A. (2010) Stochastic epigenetic variation as a driving force of development, evolutionary adaptation, and disease. Proc. Natl. Acad. Sci., 107, 1757-1764.
Feng, Z. et al. (2013) Detecting DNA modifications from SMRT sequencing data by modeling sequence context dependence of polymerase kinetic. PLoS Comput Biol., 9:e1002935.
Flusberg, B.A. et al. (2010) Direct detection of DNA methylation during single-molecule, real-time sequencing. Nat. Methods, 7, 461-465.
Frommer, M. et al. (1992) A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands. Proc. Natl. Acad. Sci., 89, 1827-1831.
Gai, W. et al. (2018) Liver- and colon-specific DNA methylation markers in plasma for investigation of colorectal cancers with or without liver metastases. Clin. Chem., 64, 1239-1249.
Gouil, Q. et al. (2019) Latest techniques to study DNA methylation. Essays Biochem. 63(6):639-648.
Grunau, C. (2001) Bisulfite genomic sequencing: systematic investigation of critical experimental parameters. Nucleic Acids Res., 29, 65e - 65.
Herman, J.G. et al. (1996) Methylation-specific PCR: a novel PCR assay for methylation status of CpG islands. Proc. Natl. Acad. Sci. U. S. A., 93, 9821-9826.
Jiang, P. et al. (2014) Methy-Pipe: An Integrated Bioinformatics Pipeline for Whole Genome Bisulfite Sequencing Data Analysis. PLoS One, 9, e100360.
LeCun, Y. et al. (1989) Backpropagation Applied to Handwritten Zip Code Recognition. Neural Comput., 1, 541-551.
Lee, E.-J. et al. (2011) Targeted bisulfite sequencing by solution hybrid selection and massively parallel sequencing. Nucleic Acids Res., 39, e127-e127.
Lehmann-Werman, R. et al. (2016) Identification of tissue-specific cell death using methylation patterns of circulating DNA. Proc. Natl. Acad. Sci., 113, E1826-E1834.
Lister, R. et al. (2009) Human DNA methylomes at base resolution show widespread epigenomic differences. Nature, 462, 315-322.
Liu, Q. et al. (2019) Detection of DNA base modifications by deep recurrent neural network on Oxford Nanopore sequencing data. Nature Commun., 10, 2449.
Liu, Y. et al. (2019) Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution. Nat. Biotechnol., 37, 424-429.
Lun, F.M.F. et al. (2013) Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA. Clin. Chem., 59, 1583-1594.
Nattestad, M. et al. (2018) Complex rearrangements and oncogene amplifications revealed by long-read DNA and RNA sequencing of a breast cancer cell line. Genome Res., 28, 1126-1135.
Ng, A.Y. (2004) Feature selection, L 1 vs. L 2 regularization, and rotational invariance. In, Twenty-first International Conference on Machine Learning - ICML '04. ACM Press, New York, New York, USA, p. 78.
Ni, P. et al. (2019) DeepSignal: detecting DNA methylation state from Nanopore sequencing reads using deep-learning. Bioinformatics,35, 4586-4595
Okou, D.T. et al. (2007) Microarray-based genomic selection for high-throughput resequencing. Nat. Methods, 4, 907-909.
Olova, N. et al. (2018) Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data. Genome Biol., 19, 33.
Robertson, K.D. (2005) DNA methylation and human disease. Nat. Rev. Genet., 6, 597-610.
Smith, Z.D. and Meissner, A. (2013) DNA methylation: roles in mammalian development. Nat. Rev. Genet., 14, 204-20.
Schadt, E.E. et al. (2013) Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases. Genome Res., 23(1):129-41.
Sun, K. et al. (2015) Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc. Natl. Acad. Sci., 112, E5503-E5512.
Suzuki, Y. et al. (2016) AgIn: measuring the landscape of CpG methylation of individual repetitive elements. Bioinformatics, 32, 2911-2919.
Watson, C.M. et al. (2019) Cas9-based enrichment and single-molecule sequencing for precise characterization of genomic duplications. Lab. Investig, 100, 135-146.
Zhang, W. et al. (2015) Predicting genome-wide DNA methylation using methylation marks, genomic position, and DNA regulatory elements. Genome Biol., 16, 14.
SEQUENCE LISTING <110> THE CHINESE UNIVERSITY OF HONG KONG <120> DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS <130> 080015-028410US-1199353 <140> 16/995,607 <141> 2020-08-17 <150> 63/051,210 <151> 2020-07-13 <150> 63/019,790 <151> 2020-05-04 <150> 62/991,891 <151> 2020-03-19 <150> 62/970,586 <151> 2020-02-05 <150> 62/887,987 <151> 2019-08-16 <160> 5 <170> PatentIn version 3.5 <210> 1 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 1 gccuguaauc ccagcacuuu guuuuagagc uaugcu 36 <210> 2 <211> 67 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 2 agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg 60 gugcuuu 67 <210> 3 <211> 36 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 3 agggucucgc ucugucgccc guuuuagagc uaugcu 36 <210> 4 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 4 atacgtacgt 10 <210> 5 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 5 atacgtacgt 10

Claims (69)

  1. 핵산 분자에서 뉴클레오타이드의 변형을 검출하는 방법으로서,
    입력 데이터 구조를 수신하는 단계이되, 입력 데이터 구조는 샘플 핵산 분자에서 시퀀싱된 뉴클레오타이드의 윈도우에 상응하고, 샘플 핵산 분자는 뉴클레오타이드에 상응하는 광학 신호에서의 펄스를 측정하여 시퀀싱되고, 입력 데이터 구조는
    윈도우 내의 각각의 뉴클레오타이드에 대해:
    뉴클레오타이드의 아이덴티티(identity),
    각각의 윈도우 내의 표적 위치와 관련하여 뉴클레오타이드의 위치,
    뉴클레오타이드에 상응하는 펄스의 폭, 및
    뉴클레오타이드에 상응하는 펄스와 이웃하는 뉴클레오타이드에 상응하는 펄스 사이의 시간을 나타내는 펄스간 기간의 특성에 대한 값을 포함하는, 단계;
    입력 데이터 구조를 모델로 입력하는 단계이되, 모델은
    제1 복수의 제1 데이터 구조를 수신하는 것이되, 제1 복수의 데이터 구조의 각각의 제1 데이터 구조는 복수의 제1 핵산 분자의 각각의 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응하고, 각각의 제1 핵산 분자는 뉴클레오타이드에 상응하는 신호에서 펄스를 측정하여 시퀀싱되고, 변형은 각각의 제1 핵산 분자의 각각의 윈도우에서의 표적 위치에서 뉴클레오타이드에서의 공지된 제1 상태를 갖고, 각각의 제1 데이터 구조는 입력 데이터 구조와 동일한 특성에 대한 값을 포함하는 것,
    복수의 제1 훈련 샘플을 저장하는 것이되, 각각은 표적 위치에서의 뉴클레오타이드의 제1 상태를 나타내는 제1 복수의 제1 데이터 구조 및 제1 라벨 중 하나를 포함하는 것, 및
    복수의 제1 훈련 샘플을 사용하여, 제1 복수의 제1 데이터 구조가 모델에 입력될 때 제1 라벨의 상응하는 라벨과 일치하는 또는 일치하지 않는 모델의 출력에 기초하여 모델의 매개변수를 최적화하는 것에 의해 훈련하되, 모델의 출력은 각각의 윈도우에서의 표적 위치에서의 뉴클레오타이드가 변형을 갖는지를 기술하는, 단계,
    상기 모델을 사용하여, 변형이 입력 데이터 구조에서의 윈도우 내의 표적 위치에서의 뉴클레오타이드에 존재하는지를 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    입력 데이터 구조는 복수의 입력 데이터 구조의 하나의 입력 데이터 구조이고,
    샘플 핵산 분자는 복수의 샘플 핵산 분자의 하나의 샘플 핵산 분자이고,
    복수의 샘플 핵산 분자는 대상체의 생물학적 샘플로부터 얻어지고,
    각각의 입력 데이터 구조는 복수의 샘플 핵산 분자의 각각의 샘플 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응하고,
    상기 방법은
    복수의 입력 데이터 구조를 수신하는 단계,
    복수의 입력 데이터 구조를 모델로 입력하는 단계, 및
    상기 모델을 사용하여, 변형이 각각의 입력 데이터 구조의 각각의 윈도우에서의 표적 위치에서의 뉴클레오타이드에 존재하는지를 결정하는 단계를 추가로 포함하는, 방법.
  3. 제2항에 있어서,
    변형이 하나 이상의 뉴클레오타이드에 존재하는지를 결정하는 단계, 및
    하나 이상의 뉴클레오타이드에서의 변형의 존재를 사용하여 장애의 분류를 결정하는 단계를 추가로 포함하는, 방법.
  4. 제3항에 있어서, 장애는 암을 포함하는, 방법.
  5. 제3항에 있어서,
    장애의 분류가 대상체가 장애를 갖는다는 것을 결정하는 단계, 및
    장애에 대해 대상체를 치료하는 단계를 추가로 포함하는, 방법.
  6. 제3항에 있어서, 장애의 분류의 결정은 변형의 수 또는 변형의 부위를 사용하는, 방법.
  7. 제2항에 있어서,
    변형이 하나 이상의 뉴클레오타이드에 존재하는지를 결정하는 단계, 및
    하나 이상의 뉴클레오타이드에서의 변형의 존재를 사용하여 임상적으로 관련된 DNA 분획, 태아 메틸화 프로필, 모계 메틸화 프로필, 각인 유전자 영역의 존재 또는 기원의 조직을 결정하는 단계를 추가로 포함하는, 방법.
  8. 제2항에 있어서, 복수의 샘플 핵산 분자의 각각의 샘플 핵산 분자는 컷오프 크기보다 큰 크기를 갖는, 방법.
  9. 제2항에 있어서,
    복수의 샘플 핵산 분자는 복수의 게놈 영역에 정렬하고,
    복수의 게놈 영역의 각각의 게놈 영역에 대해:
    다수의 샘플 핵산 분자는 게놈 영역에 정렬되고,
    샘플 핵산 분자의 수는 컷오프 수보다 큰, 방법.
  10. 제1항에 있어서, 샘플 핵산 분자를 시퀀싱하는 단계를 추가로 포함하는, 방법.
  11. 제1항에 있어서, 상기 모델은 기계 학습 모델, 주성분 분석, 콘볼루션 신경망 또는 로지스틱 회귀를 포함하는, 방법.
  12. 제1항에 있어서,
    입력 데이터 구조에 상응하는 뉴클레오타이드의 윈도우는 샘플 핵산 분자의 제1 가닥에서의 뉴클레오타이드 및 샘플 핵산 분자의 제2 가닥에서의 뉴클레오타이드를 포함하고,
    입력 데이터 구조는 윈도우 내의 각각의 뉴클레오타이드에 대해 가닥 특성의 값을 추가로 포함하고, 가닥 특성은 제1 가닥 또는 제2 가닥 중 어느 하나에 존재하는 뉴클레오타이드를 나타내는, 방법.
  13. 제12항에 있어서, 샘플 핵산 분자는
    절단된 이중 가닥 DNA 분자를 형성하기 위해 Cas9 복합체를 사용하여 이중 가닥 DNA 분자를 절단하는 것, 및
    헤어핀 어댑터를 절단된 이중 가닥 DNA 분자의 말단에 결찰하는 것에 의해 형성된 원형 DNA 분자인, 방법.
  14. 제1항에 있어서, 윈도우 내의 뉴클레오타이드는 원형 공통 서열을 사용하여 기준 게놈에 대한 시퀀싱된 뉴클레오타이드의 정렬 없이 결정되는, 방법.
  15. 제1항에 있어서, 윈도우 내의 각각의 뉴클레오타이드는 농후화되고 필터링된, 방법.
  16. 제15항에 있어서, 윈도우 내의 각각의 뉴클레오타이드는
    절단된 이중 가닥 DNA 분자를 형성하기 위해 Cas9 복합체를 사용하여 이중 가닥 DNA 분자를 절단하는 것, 및 헤어핀 어댑터를 절단된 이중 가닥 DNA 분자의 말단에 결찰하는 것에 의해 농후화되거나,
    크기 범위를 갖는 크기를 갖는 이중 가닥 DNA 분자를 선택하는 것에 의해 여과되는, 방법.
  17. 제1항에 있어서, 윈도우 내의 뉴클레오타이드는 원형 공통 서열을 사용하지 않고 기준 게놈에 대한 시퀀싱된 뉴클레오타이드의 정렬 없이 결정되는, 방법.
  18. 핵산 분자에서 뉴클레오타이드의 변형을 검출하는 방법으로서,
    제1 복수의 제1 데이터 구조를 수신하는 단계이되, 제1 복수의 제1 데이터 구조의 각각의 제1 데이터 구조는 복수의 제1 핵산 분자의 각각의 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응하고, 각각의 제1 핵산 분자는 뉴클레오타이드에 상응하는 광학 신호에서 펄스를 측정하여 시퀀싱되고, 변형은 각각의 제1 핵산 분자의 각각의 윈도우에서의 표적 위치에서 뉴클레오타이드에서의 공지된 제1 상태를 갖고, 각각의 제1 데이터 구조는
    윈도우 내의 각각의 뉴클레오타이드에 대해:
    뉴클레오타이드의 아이덴티티,
    각각의 윈도우 내의 표적 위치와 관련하여 뉴클레오타이드의 위치,
    뉴클레오타이드에 상응하는 펄스의 폭, 및
    뉴클레오타이드에 상응하는 펄스와 이웃하는 뉴클레오타이드에 상응하는 펄스 사이의 시간을 나타내는 펄스간 기간의 특성에 대한 값을 포함하는 단계,
    복수의 제1 훈련 샘플을 저장하는 단계이되, 각각은 표적 위치에서의 뉴클레오타이드의 변형에 대한 제1 상태를 나타내는 제1 복수의 제1 데이터 구조 및 제1 라벨 중 하나를 포함하는 단계, 및
    제1 복수의 제1 데이터 구조가 모델에 입력될 때 제1 라벨의 상응하는 라벨과 일치하는 또는 일치하지 않는 모델의 출력에 기초하여 모델의 매개변수를 최적화하여 복수의 제1 훈련 샘플을 사용하여 모델을 훈련하는 단계이되, 모델의 출력은 각각의 윈도우에서의 표적 위치에서의 뉴클레오타이드가 변형을 갖는지를 기술하는 단계를 포함하는, 방법.
  19. 제18항에 있어서,
    제2 복수의 제2 데이터 구조를 수신하는 단계이되, 제2 복수의 제2 데이터 구조의 각각의 제2 데이터 구조는 복수의 제2 핵산 분자의 각각의 핵산 분자에서 시퀀싱된 뉴클레오타이드의 각각의 윈도우에 상응하고, 변형은 각각의 제2 핵산 분자의 각각의 윈도우 내에 표적 위치에서의 뉴클레오타이드에서의 공지된 제2 상태를 갖고, 각각의 제2 데이터 구조는 제1 복수의 제1 데이터 구조와 동일한 특성에 대한 값을 포함하는 단계;
    복수의 제2 훈련 샘플을 저장하는 단계이되, 각각은 표적 위치에서의 뉴클레오타이드의 제2 상태를 나타내는 제2 복수의 제2 데이터 구조 및 제2 라벨 중 하나를 포함하는 단계를 추가로 포함하고;
    여기서 훈련에서
    제1 상태 또는 제2 상태는 그 변형이 존재한다는 것이고, 다른 상태는 그 변형이 부재한다는 것이고,
    상기 모델은 제2 복수의 제2 데이터 구조가 모델에 입력될 때 제2 라벨의 상응하는 라벨과 일치하는 또는 일치하지 않는 모델의 출력에 기초하여 모델의 매개변수를 최적화하여 복수의 제2 훈련 샘플을 사용하는 것을 추가로 포함하는, 방법.
  20. 제19항에 있어서, 복수의 제1 핵산 분자는 복수의 제2 핵산 분자와 동일한, 방법.
  21. 제19항에 있어서, 변형은 메틸화를 포함하고, 복수의 제1 핵산 분자는 제1 유형의 메틸화된 뉴클레오타이드에 의한 다중 변위 증폭을 이용하여 생성되고, 복수의 제2 핵산 분자는 제1 유형의 비메틸화된 뉴클레오타이드에 의한 다중 변위 증폭을 이용하여 생성되는, 방법.
  22. 제18항에 있어서, 광학 신호는 염료 표지된 뉴클레오타이드로부터의 형광 신호인, 방법.
  23. 제18항에 있어서, 제1 복수의 데이터 구조와 연관된 각각의 윈도우는 각각의 제1 핵산 분자의 제1 가닥에서 4개의 연속적 뉴클레오타이드를 포함하는, 방법.
  24. 제23항에 있어서, 제1 복수의 데이터 구조와 연관된 윈도우는 동일한 수의 연속적 뉴클레오타이드를 포함하는, 방법.
  25. 제18항에 있어서,
    제1 복수의 데이터 구조와 연관된 각각의 윈도우는 제1 핵산 분자의 제1 가닥에서의 뉴클레오타이드 및 제1 핵산 분자의 제2 가닥에서의 뉴클레오타이드를 포함하고,
    각각의 제1 데이터 구조는 윈도우 내의 각각의 뉴클레오타이드에 대해 가닥 특성의 값을 추가로 포함하고, 가닥 특성은 제1 가닥 또는 제2 가닥 중 어느 하나에 존재하는 뉴클레오타이드를 나타내는, 방법.
  26. 제18항에 있어서, 이웃하는 뉴클레오타이드는 인접한 뉴클레오타이드인, 방법.
  27. 제18항에 있어서, 펄스의 폭은 펄스의 최대 절반 값에서의 펄스의 폭인, 방법.
  28. 제18항에 있어서, 펄스간 기간은 뉴클레오타이드와 연관된 펄스의 최대 값과 이웃하는 뉴클레오타이드와 연관된 펄스의 최대 값 사이의 시간인, 방법.
  29. 제18항에 있어서, 상기 모델은
    제1 복수의 데이터 구조를 필터링하도록 구성된 콘볼루션 필터의 세트,
    필터링된 제1 복수의 데이터 구조를 수신하도록 구성된 입력 층,
    복수의 마디를 포함하는 복수의 은폐 층으로서, 복수의 은폐 층의 제1 층은 입력 층에 커플링된 복수의 은폐 층; 및
    복수의 은폐 층의 마지막 층에 커플링되고 출력 데이터 구조를 출력하도록 구성된 출력 층으로서, 출력 데이터 구조는 특성을 포함하는 출력 층을 포함하는 콘볼루션 신경망을 포함하는, 방법.
  30. 제18항에 있어서, 변형은 표적 위치에서의 뉴클레오타이드의 메틸화를 포함하는, 방법.
  31. 제30항에 있어서, 공지된 제1 상태는 제1 데이터 구조의 제1 부분에 대한 메틸화된 상태 및 제1 데이터 구조의 제2 부분에 대한 비메틸화된 상태를 포함하는, 방법.
  32. 제30항에 있어서, 메틸화는 4mC(N4-메틸시토신), 5mC(5-메틸시토신), 5hmC(5-하이드록시메틸시토신), 5fC(5-포밀시토신), 5caC(5-카복실시토신), 1mA(N1-메틸아데닌), 3mA(N3-메틸아데닌), 6mA(N6-메틸아데닌), 7mA(N7-메틸아데닌), 3mC(N3-메틸시토신), 2mG(N2-메틸구아닌), 6mG(O6-메틸구아닌), 7mG(N7-메틸구아닌), 3mT(N3-메틸티민) 또는 4mT(O4-메틸티민)를 포함하는, 방법.
  33. 제18항에 있어서, 변형은 산화 변경을 포함하는, 방법.
  34. 제18항에 있어서, 각각의 데이터 구조는 윈도우 내에 각각의 뉴클레오타이드에 상응하는 펄스의 높이에 대한 값을 추가로 포함하는, 방법.
  35. 제18항에 있어서, 뉴클레오타이드에 상응하는 광학 신호는 뉴클레오타이드 또는 뉴클레오타이드와 연관된 태그로부터 생기는, 방법.
  36. 제18항에 있어서, 각각의 표적 위치는 각각의 윈도우의 중심인, 방법.
  37. 제18항에 있어서, 변형은 각각의 제1 핵산 분자의 각각의 윈도우에 부재하는, 방법.
  38. 제18항에 있어서,
    복수의 제1 데이터 구조의 각각의 제1 데이터 구조는 펄스간 기간 또는 펄스의 폭이 컷오프 값 아래인 제1 핵산 분자를 배제하는, 방법.
  39. 제18항에 있어서,
    변형은 메틸화를 포함하고,
    복수의 제1 훈련 샘플은
    뉴클레오타이드의 세트를 사용하여 복수의 핵산 분자를 증폭시켜 생성되고, 뉴클레오타이드의 세트는 특정 비로 6mA를 포함하는, 방법.
  40. 제39항에 있어서, 메틸화는 6mA(N6-메틸아데닌)를 포함하는, 방법.
  41. 제1항 또는 제18항에 있어서, 복수의 제1 핵산 분자의 적어도 일부는 각각 제1 기준 서열에 상응하는 제1 부분 및 제1 기준 서열에서 해체된 제2 기준 서열에 상응하는 제2 부분을 포함하는, 방법.
  42. 제1항 또는 제18항에 있어서,
    복수의 키메라 핵산 분자를 사용하여 모델을 검증하는 단계이되, 각각은 제1 기준 서열에 상응하는 제1 부분 및 제2 기준 서열에 상응하는 제2 부분을 포함하고, 제1 부분은 제1 메틸화 패턴을 갖고, 제2 부분은 제2 메틸화 패턴을 갖는 단계를 추가로 포함하는, 방법.
  43. 제41항 또는 제42항에 있어서, 제1 부분은 메틸라아제로 처리된, 방법.
  44. 제43항에 있어서, 제2 부분은 제2 기준 서열의 비메틸화된 부분에 상응하는, 방법.
  45. 제41항 또는 제42항에 있어서, 제1 기준 서열은 인간이고, 제2 기준 서열은 상이한 동물 유래인, 방법.
  46. 제1 염색체 영역에서 제1 일배체형 및 제2 일배체형을 갖는 유기체의 DNA 분자를 포함하는 생물학적 샘플을 분석하는 방법으로서,
    생물학적 샘플로부터 복수의 DNA 분자를 분석하는 단계이되, DNA 분자를 분석하는 단계는
    기준 인간 게놈에서 DNA 분자의 위치를 확인하는 것;
    DNA 분자의 각각의 대립유전자를 결정하는 것; 및
    DNA 분자가 하나 이상의 게놈 부위에서 메틸화되는지를 결정하는 것을 포함하는 단계;
    제1 염색체 영역의 제1 부분의 하나 이상의 이형접합성 좌위를 확인하는 단계이되, 각각의 이형접합성 좌위는 제1 일배체형에서의 상응하는 제1 대립유전자 및 제2 일배체형에서의 상응하는 제2 대립유전자를 포함하는 단계;
    복수의 DNA 분자의 제1 세트를 확인하는 단계이되, 각각은
    하나 이상의 이형접합성 좌위의 어느 하나에 위치하고,
    이형접합성 좌위의 상응하는 제1 대립유전자를 포함하고,
    N이 1 이상의 정수인 N 게놈 부위의 적어도 하나를 포함하는 단계;
    복수의 DNA 분자의 제1 세트를 사용하여 제1 일배체형의 제1 부분의 제1 메틸화 수준을 결정하는 단계;
    복수의 DNA 분자의 제2 세트를 확인하는 단계이되, 각각은
    하나 이상의 이형접합성 좌위의 어느 하나에 위치하고,
    이형접합성 좌위의 상응하는 제2 대립유전자를 포함하고,
    N 게놈 부위의 적어도 하나를 포함하는 단계;
    복수의 DNA 분자의 제2 세트를 사용하여 제2 일배체형의 제1 부분의 제2 메틸화 수준을 결정하는 단계;
    제1 메틸화 수준 및 제2 메틸화 수준을 사용하여 매개변수의 값을 계산하는 단계;
    매개변수의 값을 기준 값과 비교하는 단계; 및
    기준 값에 대한 매개변수의 값의 비교를 이용하여 유기체에서의 장애의 분류를 결정하는 단계를 포함하는, 방법.
  47. 제46항에 있어서, 제1 메틸화 수준은 복수의 DNA 분자의 제1 세트의 단일 가닥 메틸화 수준을 사용하여 결정되고, 제2 메틸화 수준은 복수의 DNA 분자의 제2 세트의 단일 가닥 메틸화 수준을 사용하여 결정되는, 방법.
  48. 제46항에 있어서, 제1 메틸화 수준은 복수의 DNA 분자의 제1 세트의 단일 분자, 이중 가닥 DNA 메틸화 수준을 사용하여 결정되고, 제2 메틸화 수준은 복수의 DNA 분자의 제2 세트의 단일 분자, 이중 가닥 DNA 메틸화를 사용하여 결정되는, 방법.
  49. 제46항에 있어서, 장애는 암인, 방법.
  50. 제46항에 있어서, 매개변수는 분리 값인, 방법.
  51. 제46항에 있어서,
    제1 일배체형의 복수의 위치에 대해 복수의 제1 메틸화 수준을 결정하는 단계,
    제2 일배체형의 복수의 위치에 대해 복수의 제2 메틸화 수준을 결정하는 단계이되, 제2 일배체형의 복수의 위치의 각각의 부분은 제1 일배체형의 복수의 위치의 부분에 상보성인 단계,
    제2 일배체형의 복수의 부분의 각각의 부분에 대해:
    제2 일배체형의 부분의 제2 메틸화 수준 및 제1 일배체형의 상보성 부분의 제1 메틸화 수준을 사용하여 분리 값을 계산하는 단계, 및
    분리 값을 컷오프 값과 비교하는 단계를 추가로 포함하고,
    제1 일배체형의 제1 부분은 제2 일배체형의 제1 부분에 상보성이고,
    매개변수는 분리 값이 컷오프 값을 초과하는 경우 제2 일배체형의 부분의 수를 포함하는, 방법.
  52. 제51항에 있어서, 컷오프 값은 장애를 갖지 않는 조직으로부터 결정되는, 방법.
  53. 제51항에 있어서, 제1 일배체형의 복수의 부분의 각각의 부분은 5 kb 이상의 길이를 갖는, 방법.
  54. 제46항에 있어서,
    제1 일배체형의 복수의 위치에 대해 복수의 제1 메틸화 수준을 결정하는 단계,
    제2 일배체형의 복수의 위치에 대해 복수의 제2 메틸화 수준을 결정하는 단계이되, 제2 일배체형의 복수의 위치의 각각의 부분은 제1 일배체형의 복수의 위치의 부분에 상보성인 단계,
    제2 일배체형의 복수의 부분의 각각의 부분에 대해:
    제2 일배체형의 부분의 제2 메틸화 수준 및 제1 일배체형의 상보성 부분의 제1 메틸화 수준을 사용하여 분리 값을 계산하는 단계를 추가로 포함하고,
    제1 일배체형의 제1 부분은 제2 일배체형의 제1 부분에 상보성이고,
    매개변수는 분리 값의 합을 포함하는, 방법.
  55. 제46항에 있어서,
    제1 일배체형의 복수의 위치에 대해 복수의 제1 메틸화 수준을 결정하는 단계,
    제2 일배체형의 복수의 위치에 대해 복수의 제2 메틸화 수준을 결정하는 단계이되, 제2 일배체형의 복수의 위치의 각각의 부분은 제1 일배체형의 복수의 위치의 부분에 상보성인 단계,
    제2 일배체형의 복수의 부분의 각각의 부분에 대해:
    제2 일배체형의 부분의 제2 메틸화 수준 및 제1 일배체형의 상보성 부분의 제1 메틸화 수준을 사용하여 분리 값을 계산하는 단계, 및
    그 부분이 제1 메틸화 수준과 제2 메틸화 수준 사이의 비정상 분리를 갖는지를 확인하기 위해 분리 값을 컷오프 값과 비교하는 단계를 추가로 포함하고,
    유기체에서의 장애의 분류의 결정은 비정상 분리를 갖는 부분의 패턴을 기준 패턴과 비교하는 것을 포함하는, 방법.
  56. 제46항에 있어서, 장애의 분류는 장애의 가능성인, 방법.
  57. 제46항에 있어서,
    제1 일배체형의 제1 부분 및 제2 일배체형의 제1 부분은 원형 DNA 분자를 형성하고,
    제1 일배체형의 제1 부분의 제1 메틸화 수준의 결정은 원형 DNA 분자로부터의 데이터를 사용하는 것을 포함하는, 방법.
  58. 제57항에 있어서, 원형 DNA 분자는
    절단된 이중 가닥 DNA 분자를 형성하기 위해 Cas9 복합체를 사용하여 이중 가닥 DNA 분자를 절단하는 것, 및
    헤어핀 어댑터를 절단된 이중 가닥 DNA 분자의 말단에 결찰하는 것에 의해 형성된, 방법.
  59. 제46항에 있어서,
    제1 일배체형의 제1 부분은 1 kb 이상인, 방법.
  60. 제46항에 있어서, 기준 값은 장애가 없는 기준 조직을 사용하여 결정되는, 방법.
  61. 제46항에 있어서, 장애는 각인 장애인, 방법.
  62. 생물학적 샘플에서 키메라 분자를 검출하는 방법으로서,
    생물학적 샘플로부터의 복수의 DNA 분자의 각각에 대해:
    N이 5 이상인 각각의 N 부위에서 메틸화 상태를 제공하는 서열 판독물을 얻기 위해 DNA 분자의 단일 분자 시퀀싱을 수행하는 단계이되, 서열 판독물의 메틸화 상태는 메틸화 패턴을 형성하는 단계;
    기준 인간 게놈의 2개의 부분으로부터 2개의 부분을 갖는 키메라 분자에 상응하는 하나 이상의 기준 패턴에 걸쳐 메틸화 패턴을 이동시키는 단계이되, 하나 이상의 기준 패턴은 메틸화된 상태와 비메틸화된 상태 사이의 변화를 포함하는 단계; 및
    메틸화 패턴과 하나 이상의 기준 패턴의 제1 기준 패턴 사이에 일치 위치를 확인하는 단계이되, 일치 위치는 서열 판독물에서 기준 인간 게놈의 2개의 부분 사이에 접합부를 확인하는 단계; 및
    키메라 분자에서 유전자 융합의 위치로서 접합부를 출력하는 단계를 포함하는, 방법.
  63. 제62항에 있어서, 일치 위치는 정렬 기능에 입력되고,
    유전자 융합의 위치를 개선하는 단계이되, 상기 단계는
    서열 판독물의 제1 부분을 기준 인간 게놈의 제1 부분에 정렬하는 것이되, 제1 부분은 접합 전인 것; 및
    서열 판독물의 제2 부분을 기준 인간 게놈의 제2 부분에 정렬하는 것이되, 제2 부분은 접합 후인 것에 의하고, 기준 인간 게놈의 제1 부분은 인간 기준 게놈의 제2 부분과 적어도 1 kb 떨어져 있는 단계를 추가로 포함하는, 방법.
  64. 제62항에 있어서, 유전자 융합의 위치를 확인하도록 서로에 대한 키메라 분자의 접합의 비교를 추가로 포함하는, 방법.
  65. 컴퓨터 제품으로서, 실행될 때 제1항 내지 제64항 중 어느 한 항에 따른 방법을 수행하도록 컴퓨터 시스템을 제어하는 복수의 명령을 저장하는 비일시적 컴퓨터 판독 가능한 매체를 포함하는 컴퓨터 제품.
  66. 시스템으로서,
    제65항의 컴퓨터 제품; 및
    컴퓨터 판독 가능한 매체 상에 저장된 명령을 실행하기 위한 하나 이상의 프로세서를 포함하는, 시스템.
  67. 제1항 내지 제64항 중 어느 한 항의 방법을 수행하기 위한 수단을 포함하는 시스템.
  68. 제1항 내지 제64항 중 어느 한 항의 방법을 수행하도록 구성된 하나 이상의 프로세서를 포함하는 시스템.
  69. 제1항 내지 제64항 중 어느 한 항의 방법의 단계를 각각 수행하는 모듈을 포함하는 시스템.
KR1020227026028A 2019-08-16 2020-08-17 핵산의 염기 변형의 결정 KR102658592B1 (ko)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
US201962887987P 2019-08-16 2019-08-16
US62/887,987 2019-08-16
US202062970586P 2020-02-05 2020-02-05
US62/970,586 2020-02-05
US202062991891P 2020-03-19 2020-03-19
US62/991,891 2020-03-19
US202063019790P 2020-05-04 2020-05-04
US63/019,790 2020-05-04
US202063051210P 2020-07-13 2020-07-13
US63/051,210 2020-07-13
KR1020217006378A KR102427319B1 (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정
PCT/CN2020/109602 WO2021032060A1 (en) 2019-08-16 2020-08-17 Determination of base modifications of nucleic acids

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217006378A Division KR102427319B1 (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정

Publications (2)

Publication Number Publication Date
KR20220109492A true KR20220109492A (ko) 2022-08-04
KR102658592B1 KR102658592B1 (ko) 2024-04-17

Family

ID=74567577

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020227026029A KR20220109493A (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정
KR1020227026028A KR102658592B1 (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정
KR1020227026030A KR20220109494A (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정
KR1020217006378A KR102427319B1 (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227026029A KR20220109493A (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020227026030A KR20220109494A (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정
KR1020217006378A KR102427319B1 (ko) 2019-08-16 2020-08-17 핵산의 염기 변형의 결정

Country Status (18)

Country Link
US (4) US11091794B2 (ko)
EP (3) EP4357461A2 (ko)
JP (3) JP7264534B2 (ko)
KR (4) KR20220109493A (ko)
CN (5) CN116855595A (ko)
AU (4) AU2020323958B2 (ko)
BR (2) BR122021009560B1 (ko)
CA (1) CA3110884A1 (ko)
DK (1) DK3827092T3 (ko)
GB (13) GB2590854B (ko)
IL (3) IL280270B (ko)
MX (3) MX2021000931A (ko)
NZ (6) NZ796695A (ko)
PH (1) PH12021550223A1 (ko)
SG (1) SG11202101070QA (ko)
TW (5) TWI783820B (ko)
WO (1) WO2021032060A1 (ko)
ZA (1) ZA202100887B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230148447A9 (en) 2008-12-11 2023-05-11 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
DK3827092T3 (da) 2019-08-16 2024-04-22 Univ Hong Kong Chinese Detektion af metylering af nukleotider i nukleinsyrer.
US11920190B2 (en) 2019-12-30 2024-03-05 Industrial Technology Research Institute Method of amplifying and determining target nucleotide sequence
US20220237502A1 (en) * 2021-01-25 2022-07-28 Paypal, Inc. Systems and methods for training and modifying a computer-based model to perform classification
IL307398A (en) * 2021-04-12 2023-12-01 Univ Hong Kong Chinese Base change analysis using electrical signals
CN113409885B (zh) * 2021-06-21 2022-09-20 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN113981548B (zh) * 2021-11-24 2023-07-11 竹石生物科技(苏州)有限公司 Dna甲基化测序文库的制备方法和甲基化检测方法
WO2023183907A2 (en) * 2022-03-25 2023-09-28 The Penn State Research Foundation Analysis of genomic word frameworks on genomic methylation data
WO2023225004A1 (en) * 2022-05-16 2023-11-23 Bioscreening & Diagnostics Llc Prediction of alzheimer's disease
WO2024015138A1 (en) * 2022-07-15 2024-01-18 Massachusetts Institute Of Technology Mixture deconvolution method for identifying dna profiles
WO2024031097A2 (en) * 2022-08-05 2024-02-08 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for cancer screening
US20240127906A1 (en) * 2022-10-11 2024-04-18 Illumina, Inc. Detecting and correcting methylation values from methylation sequencing assays
CN116168761B (zh) * 2023-04-18 2023-06-30 珠海圣美生物诊断技术有限公司 核酸序列特征区域确定方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010027484A2 (en) * 2008-09-05 2010-03-11 Pacific Biosciences Of California, Inc. Engineering polymerases and reaction conditions for modified incorporation properties
WO2010068289A2 (en) * 2008-12-11 2010-06-17 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
US20110183320A1 (en) * 2008-12-11 2011-07-28 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002214811B2 (en) * 2000-11-13 2004-09-09 Human Genetic Signatures Pty Ltd Detection of methylated DNA molecules
AU2003900368A0 (en) * 2003-01-24 2003-02-13 Human Genetic Signatures Pty Ltd Assay for nucleic acid molecules
CA2537810C (en) * 2003-09-04 2012-12-18 Human Genetic Signatures Pty Ltd Nucleic acid detection assay
PT2183693E (pt) 2007-07-23 2014-01-14 Univ Hong Kong Chinese Diagnóstico de aneuploidia cromossómica fetal utilizando sequenciação genómica
US8486630B2 (en) * 2008-11-07 2013-07-16 Industrial Technology Research Institute Methods for accurate sequence data and modified base position determination
PT3241914T (pt) 2009-11-05 2019-04-30 Sequenom Inc Análise genómica fetal a partir de uma amostra biológica materna
WO2012112606A1 (en) 2011-02-15 2012-08-23 Bio-Rad Laboratories, Inc. Detecting methylati0n in a subpopulation of genomic dna
US9016970B2 (en) * 2011-06-08 2015-04-28 United States Postal Service Elastomeric force mitigating joint
US9238836B2 (en) 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
US9175348B2 (en) 2012-04-24 2015-11-03 Pacific Biosciences Of California, Inc. Identification of 5-methyl-C in nucleic acid templates
SG11201407515RA (en) * 2012-05-14 2014-12-30 Bgi Diagnosis Co Ltd Method, system and computer readable medium for determining base information in predetermined area of fetus genome
WO2013185137A1 (en) 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
JP2015522260A (ja) * 2012-06-15 2015-08-06 ハリー スティリ, 疾患または状態を検出する方法
WO2014153757A1 (zh) * 2013-03-28 2014-10-02 深圳华大基因研究院 确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质
CN105593683B (zh) 2013-10-01 2018-11-30 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
WO2015054080A1 (en) 2013-10-07 2015-04-16 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
EP3169813B1 (en) * 2014-07-18 2019-06-12 The Chinese University Of Hong Kong Methylation pattern analysis of tissues in dna mixture
AU2016295712B2 (en) * 2015-07-20 2022-06-02 The Chinese University Of Hong Kong Methylation pattern analysis of haplotypes in tissues in DNA mixture
US10465232B1 (en) 2015-10-08 2019-11-05 Trace Genomics, Inc. Methods for quantifying efficiency of nucleic acid extraction and detection
DK3827092T3 (da) 2019-08-16 2024-04-22 Univ Hong Kong Chinese Detektion af metylering af nukleotider i nukleinsyrer.

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010027484A2 (en) * 2008-09-05 2010-03-11 Pacific Biosciences Of California, Inc. Engineering polymerases and reaction conditions for modified incorporation properties
WO2010068289A2 (en) * 2008-12-11 2010-06-17 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
US20110183320A1 (en) * 2008-12-11 2011-07-28 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
US9175338B2 (en) * 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
B. A. Flusberg 외, 'Direct detection of DNA methylation during single-moledule, real-time sequencing', Nature Methods, 7(6):461-465. (2010.05.09.) *

Also Published As

Publication number Publication date
GB2590573A (en) 2021-06-30
TWI832482B (zh) 2024-02-11
GB2619217B (en) 2024-05-08
AU2022231719A1 (en) 2022-10-06
CN112752853B (zh) 2023-06-30
KR20210068396A (ko) 2021-06-09
TWI783821B (zh) 2022-11-11
US20230193360A1 (en) 2023-06-22
EP3827092A1 (en) 2021-06-02
GB202201821D0 (en) 2022-03-30
GB202102808D0 (en) 2021-04-14
GB2606945B (en) 2023-06-28
KR20220109494A (ko) 2022-08-04
JP7369492B2 (ja) 2023-10-26
GB2619466A (en) 2023-12-06
GB2620069B (en) 2024-05-08
NZ796185A (en) 2024-01-26
AU2020323958A1 (en) 2021-03-04
MX2021000931A (es) 2022-02-10
TW202321463A (zh) 2023-06-01
JP7462993B2 (ja) 2024-04-08
AU2022231719B9 (en) 2023-05-18
GB2615272B (en) 2024-03-20
IL294153B2 (en) 2023-09-01
CA3110884A1 (en) 2021-02-25
AU2023210593A1 (en) 2023-08-24
CN116694746A (zh) 2023-09-05
GB2609830A (en) 2023-02-15
CN116694745A (zh) 2023-09-05
KR102658592B1 (ko) 2024-04-17
IL302199B1 (en) 2024-02-01
JP2023098964A (ja) 2023-07-11
US20210047679A1 (en) 2021-02-18
GB2590032B (en) 2021-12-08
TW202212569A (zh) 2022-04-01
IL280270A (en) 2021-03-01
US11466308B2 (en) 2022-10-11
EP3827092B1 (en) 2024-01-31
GB2620069A (en) 2023-12-27
GB2615272A (en) 2023-08-02
GB2590854B (en) 2022-03-30
BR112021003815A2 (pt) 2022-03-29
GB2608713A (en) 2023-01-11
GB202210631D0 (en) 2022-08-31
GB2608713B (en) 2023-09-06
TWI832483B (zh) 2024-02-11
WO2021032060A1 (en) 2021-02-25
NZ788335A (en) 2023-02-24
IL302199A (en) 2023-06-01
GB2590854A (en) 2021-07-07
GB202210633D0 (en) 2022-08-31
SG11202101070QA (en) 2021-03-30
GB202216178D0 (en) 2022-12-14
BR122021009560B1 (pt) 2023-11-28
GB202313739D0 (en) 2023-10-25
JP2024001198A (ja) 2024-01-09
AU2022202791B2 (en) 2022-06-16
TW202124728A (zh) 2021-07-01
NZ772327A (en) 2022-03-25
US11091794B2 (en) 2021-08-17
AU2022202791C1 (en) 2022-11-03
IL280270B (en) 2022-07-01
GB2600650B (en) 2022-12-28
JP7264534B2 (ja) 2023-04-25
MX2022001470A (es) 2022-02-22
GB2600650A (en) 2022-05-04
GB202103003D0 (en) 2021-04-14
TWI783820B (zh) 2022-11-11
KR20220109493A (ko) 2022-08-04
BR122021009560A2 (pt) 2022-04-19
GB2600649A8 (en) 2022-05-25
ZA202100887B (en) 2022-09-28
TWI752593B (zh) 2022-01-11
AU2022202791A1 (en) 2022-05-19
NZ784999A (en) 2022-08-26
NZ786186A (en) 2022-08-26
PH12021550223A1 (en) 2021-10-11
GB2620315A (en) 2024-01-03
CN116855595A (zh) 2023-10-10
EP3827092A4 (en) 2021-11-24
GB2606945A (en) 2022-11-23
CN116875669A (zh) 2023-10-13
GB2609830B (en) 2023-10-25
AU2022231719B2 (en) 2023-05-04
GB202103010D0 (en) 2021-04-14
US20240018570A1 (en) 2024-01-18
GB2590573B (en) 2021-12-22
JP2022540966A (ja) 2022-09-21
GB2590032A (en) 2021-06-16
KR102427319B1 (ko) 2022-08-01
AU2020323958B2 (en) 2022-02-03
DK3827092T3 (da) 2024-04-22
IL294153B1 (en) 2023-05-01
IL294153A (en) 2022-08-01
GB2620315B (en) 2024-05-08
GB202201811D0 (en) 2022-03-30
TW202214872A (zh) 2022-04-16
GB2600649A (en) 2022-05-04
GB2619217A (en) 2023-11-29
CN112752853A (zh) 2021-05-04
US20210363571A1 (en) 2021-11-25
TW202330935A (zh) 2023-08-01
GB2600649B (en) 2023-01-25
GB202314385D0 (en) 2023-11-01
EP4365307A2 (en) 2024-05-08
AU2023210593B2 (en) 2024-03-21
NZ796695A (en) 2024-02-23
MX2022001469A (es) 2022-02-22
EP4357461A2 (en) 2024-04-24
NZ786185A (en) 2022-08-26
GB202306697D0 (en) 2023-06-21

Similar Documents

Publication Publication Date Title
KR102427319B1 (ko) 핵산의 염기 변형의 결정
JP2024075667A (ja) 核酸の塩基修飾の決定

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant