TW202330935A - 核酸鹼基修飾的測定 - Google Patents

核酸鹼基修飾的測定 Download PDF

Info

Publication number
TW202330935A
TW202330935A TW111138490A TW111138490A TW202330935A TW 202330935 A TW202330935 A TW 202330935A TW 111138490 A TW111138490 A TW 111138490A TW 111138490 A TW111138490 A TW 111138490A TW 202330935 A TW202330935 A TW 202330935A
Authority
TW
Taiwan
Prior art keywords
methylation
dna
molecule
nucleic acid
nucleotides
Prior art date
Application number
TW111138490A
Other languages
English (en)
Other versions
TWI832482B (zh
Inventor
煜明 盧
慧君 趙
君賜 陳
培勇 江
淑恒 鄭
彭文磊
安儀 謝
Original Assignee
香港中文大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=74567577&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=TW202330935(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 香港中文大學 filed Critical 香港中文大學
Publication of TW202330935A publication Critical patent/TW202330935A/zh
Application granted granted Critical
Publication of TWI832482B publication Critical patent/TWI832482B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/164Methylation detection other then bisulfite or methylation sensitive restriction endonucleases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/601Detection means characterised by use of a special device being a microscope, e.g. atomic force microscopy [AFM]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)

Abstract

本文描述使用鹼基修飾之測定分析核酸分子及獲取核酸分子分析資料的系統及方法。鹼基修飾可包括甲基化。測定鹼基修飾之方法可包括使用自定序獲得之特徵。此等特徵可包括來自定序鹼基之光信號的脈衝寬度、鹼基之脈衝間持續時間及鹼基之標識。可訓練機器學習模型以使用此等特徵檢測鹼基修飾。單倍型之間的相對修飾或甲基化程度可指示病症。修飾或甲基化狀態亦可用於檢測嵌合分子。

Description

核酸鹼基修飾的測定
核酸中鹼基修飾的存在在包括病毒、細菌、植物、真菌、線蟲、昆蟲及脊椎動物(例如人類)等的不同生物體中各不相同。最常見的鹼基修飾為將甲基添加至不同位置的不同DNA鹼基,亦即所謂的甲基化。在胞嘧啶、腺嘌呤、胸腺嘧啶及鳥嘌呤上均已發現甲基化,諸如5mC(5-甲基胞嘧啶)、4mC(N4-甲基胞嘧啶)、5hmC(5-羥甲基胞嘧啶)、5fC(5-甲醯基胞嘧啶)、5caC(5-羧基胞嘧啶)、1mA(N1-甲基腺嘌呤)、3mA(N3-甲基腺嘌呤)、7mA(N7-甲基腺嘌呤)、3mC(N3-甲基胞嘧啶)、2mG(N2-甲基鳥嘌呤)、6mG(O6-甲基鳥嘌呤)、7mG(N7-甲基鳥嘌呤)、3mT(N3-甲基胸腺嘧啶)及4mT(O4-甲基胸腺嘧啶)。在脊椎動物基因體中,5mC為最常見的鹼基甲基化類型,其次為鳥嘌呤(亦即在CpG情況下)。
DNA甲基化對哺乳動物的發育至關重要,且在基因表現及沉默、胚胎發育、轉錄、染色質結構、X染色體失活、防止重複元件的活性、維持有絲分裂過程中基因體的穩定性及調控親源基因體印記的方面具有顯著作用。
DNA甲基化在啟動子及強化子的沉默中以協調的方式發揮著許多重要作用(Robertson, 2005;Smith及Meissner, 2013)。已發現許多人類疾病與DNA甲基化的畸變有關,包括但不限於致癌過程、印記病症(例如貝克威思-威德曼症候群(Beckwith-Wiedemann syndrome)及普瑞德威利症候群(Prader-Willi syndrome))、重複不穩定性疾病(例如X脆折症候群)、自體免疫性病症(例如全身性紅斑狼瘡)、代謝障礙(例如I型及II型糖尿病)、神經病症、衰老等。
準確量測DNA分子上之甲基化體修飾將具有許多臨床意義。一種廣泛使用的量測DNA甲基化之方法為經由使用亞硫酸氫鹽定序(BS-seq)(Lister等人, 2009;Frommer等人, 1992)。在此方法中,DNA樣本首先用亞硫酸氫鹽處理,將未甲基化胞嘧啶(以及C)轉化為尿嘧啶。相反,甲基化胞嘧啶保持不變。隨後藉由DNA定序分析經亞硫酸氫鹽修飾之DNA。在另一種方法中,在亞硫酸氫鹽轉化之後,接著使用可區分具有不同甲基化概況之經亞硫酸氫鹽轉化之DNA的引子對經修飾之DNA進行聚合酶鏈反應(PCR)擴增(Herman等人, 1996)。後一種方法稱為甲基化特異性PCR。
此類基於亞硫酸氫鹽之方法的一個缺點為,據報導亞硫酸氫鹽轉化步驟會顯著降解大多數經處理之DNA(Grunau, 2001)。另一個缺點為亞硫酸氫鹽轉化步驟會產生強烈的CG偏差(Olova等人, 2018),導致具有異質甲基化狀態之DNA混合物典型的信雜比降低。此外,由於在亞硫酸氫鹽處理期間DNA的降解,亞硫酸氫鹽定序將無法對長DNA分子進行定序。因此,需要在不事先進行化學處理(例如亞硫酸氫鹽轉化)及核酸擴增(例如使用PCR)的情況下測定核酸鹼基的修飾。
吾等已開發一種新方法,在一個實施例中,該方法允許在沒有模板DNA預 處理(諸如酶促及/或化學轉化,或蛋白質及/或抗體結合)之情況下測定核酸中之鹼基修飾,諸如5mC。儘管此類模板DNA預處理對於鹼基修飾的測定並非必需的,但在所示的實例中,某些預處理(例如用限制酶消化)可能有助於增強本發明之態樣(例如允許富集CpG位點進行分析)。本揭示案中存在之實施例可用於檢測不同類型的鹼基修飾,例如,包括但不限於4mC、5hmC、5fC及5caC、1mA、3mA、7mA、3mC、2mG、6mG、7mG、3mT及4mT等。此類實施例可利用由定序獲得之特徵,諸如動力學特徵,其受各種鹼基修飾,以及確定甲基化狀態之目標位置周圍窗口中核苷酸之標識的影響。
本發明之實施例可用於但不限於單分子定序。一種類型的單分子定序為單分子即時定序,其中即時監測單個DNA分子之定序進度。一種類型的單分子即時定序係由Pacific Biosciences使用其單分子即時(SMRT)系統商業化之定序。方法可使用定序鹼基信號之脈衝寬度、鹼基之脈衝間持續時間(IPD)及鹼基之標識,以便檢測鹼基或相鄰鹼基中之修飾。另一種單分子系統係基於奈米孔定序之系統。奈米孔定序系統之一個實例係由Oxford Nanopore Technologies商業化之系統。
吾等開發之方法可充當檢測生物樣本中鹼基修飾之工具,以評定樣本中之甲基化概況,用於各種目的,包括但不限於研究及診斷目的。檢測到的甲基化概況可用於不同的分析。甲基化概況可用於檢測DNA之來源(例如母體或胎兒、組織、細菌或自癌症患者血液中富集之腫瘤細胞獲得的DNA)。檢測組織中之異常甲基化概況有助於鑑別個體之發育障礙、鑑別及預測腫瘤或惡性腫瘤。
本發明之實施例可包括分析生物體之單倍型的相對甲基化程度。兩個單倍型之間甲基化程度的不平衡可用於確定病症之分類。較高的不平衡性可表明存在病症或更嚴重的病症。該病症可包括癌症。
單個分子中之甲基化模式可鑑別嵌合體及雜合DNA。嵌合及雜合分子可包括來自兩個不同基因、染色體、胞器(例如粒線體、細胞核、葉綠體)、生物體(哺乳動物、細菌、病毒等)及/或物種之序列。檢測嵌合或雜合DNA分子之接合點可允許檢測各種病症或疾病,包括癌症、產前或先天性病症之基因融合。
可參考以下詳細描述及隨附圖式來獲得對本發明實施例之性質及優勢的較佳理解。
相關申請案之交叉引用
本申請案主張2020年7月13日申請之名稱為「核酸鹼基修飾的測定」之美國臨時申請案第63/051,210號;2020年5月4日申請之名稱為「核酸鹼基修飾的測定」之美國臨時申請案第63/019,790號;2020年3月19日申請之名稱為「核酸鹼基修飾的測定」之美國臨時申請案第62/991,891號;2020年2月5日申請之名稱為「核酸鹼基修飾的測定」之美國臨時申請案第62/970,586號;及2019年8月16日申請之名稱為「核酸鹼基修飾的測定」之美國臨時申請案第62/887,987號的優先權,該等臨時申請案之全部內容均以引用的方式併入本文中,用於所有目的。
實現無亞硫酸氫鹽測定鹼基修飾(包括甲基化鹼基)為不同研究工作的主題,但沒有一個經證明為商業上可行的。最近,已公開一種無亞硫酸氫鹽檢測5mC及5hmC之方法(Y. Liu等人, 2019),其使用溫和的條件進行5mC及5hmC鹼基轉化。此方法涉及多個步驟的酶促及化學反應,包括十-十一易位(TET)氧化、吡啶硼烷還原及PCR。轉化反應各步驟之效率以及PCR偏差均會對5mC分析之最終準確性產生不利影響。舉例而言,據報導5mC轉化率為約96%,假陰性率為約3%。此表現將有可能限制吾人檢測基因體中甲基化之某些細微變化的能力。另一方面,酶促轉化將無法在整個基因體中表現同樣出色。舉例而言,5hmC之轉化率比5mC之轉化率低8.2%,非CpG之轉化率比CpG情形之轉化率低11.4%(Y. Liu等人, 2019)。因此,理想的情況為開發用於量測天然DNA分子之鹼基修飾的方法,該方法無需任何事先轉化(化學或酶促或其組合)步驟,甚至無需擴增步驟。
存在許多概念驗證研究(Q. Liu等人, 2019;Ni等人, 2019),其中藉由長讀段奈米孔定序方法(例如使用由Oxford Nanopore Technologies開發之系統)產生的電信號使吾人能夠使用深度學習方法檢測甲基化狀態。除Oxford Nanopore之外,存在其他單分子定序方法可用於長讀段。一個實例為單分子即時定序。單分子即時定序之一個實例為將Pacific Biosciences SMRT系統商業化。由於單分子即時定序(例如Pacific Biosciences SMRT系統)之原理與非光學型奈米孔系統(例如Oxford Nanopore Technologies)之原理不同,因此針對此類非光學型奈米孔系統開發的鹼基修飾檢測方法不能用於單分子即時定序。舉例而言,非光學奈米孔系統並非設計用於捕捉基於固定化DNA聚合酶之DNA合成(由單分子即時定序,諸如Pacific Biosciences SMRT系統採用)所產生的螢光信號的模式。作為另一個實例,在Oxford Nanopore定序平台中,每個量測的電事件均與k聚體(例如5聚體)相關(Q. Liu等人, 2019)。然而,在Pacific Biosciences SMRT定序平台中,每個螢光事件通常與單個併入的鹼基相關。此外,單個DNA分子將在Pacific Biosciences SMRT定序中多次定序,包括瓦生股及克立克股。相反,對於Oxford Nanopore長讀段定序方法,對瓦生股及克立克股各進行一次序列讀出。
據報導,聚合酶動力學將受大腸桿菌序列中甲基化狀態的影響(Flusberg等人, 2010)。以往的研究表明,當與6mA、4mC、5hmC及8-側氧基-鳥嘌呤之檢測相比時,使用單分子即時定序之聚合酶動力學來推導單分子中特定CpG之甲基化狀態(5mC與C)更具挑戰性。原因在於甲基小且朝向大溝,不參與鹼基配對,導致5mC引起的動力學非常微妙的中斷(Clark等人, 2013)。因此,缺乏在單分子水準上確定胞嘧啶甲基化狀態的方法。
Suzuki等人開發一種算法(Suzuki等人, 2016),試圖結合相鄰CpG位點在脈衝間持續時間(IPD)比率,以提高鑑別彼等位點之甲基化狀態的可信度。然而,此算法僅允許吾人預測基因體區域為完全甲基化或完全未甲基化,但缺乏確定中間甲基化模式的能力。
關於單分子即時定序,目前的方法僅獨立使用一或兩個參數,由於5-甲基胞嘧啶與胞嘧啶之間的量測差異,在檢測5mC時獲得的準確性非常有限。舉例而言,Flusberg等人證明IPD在包括N6-甲基腺苷、5-甲基胞嘧啶及5-羥甲基胞嘧啶之鹼基修飾中被改變。然而,未發現定序動力學之脈衝寬度(PW)具有顯著影響。因此,在他們用於預測鹼基修飾之方法中,以檢測N6-甲基腺苷為例,僅使用IPD而未使用PW。
在同一小組的後續出版物中(Clark等人, 2012;Clark等人2013),在檢測5-甲基胞嘧啶之算法中併入IPD而非PW。在Clark等人2012中,在不轉化為5-甲基胞嘧啶的情況下,5-甲基胞嘧啶之檢測率僅在1.9%至4.3%之範圍內。此外,在Clark等人2013中,作者進一步重申5-甲基胞嘧啶動力學特徵的微妙性。為了克服檢測5-甲基胞嘧啶之靈敏度低,Clark等人進一步開發一種方法,該方法使用十-十一易位(Tet)蛋白將5-甲基胞嘧啶轉化為5-羧甲基胞嘧啶,以提高5-甲基胞嘧啶之靈敏度(Clark等人2013),因為5-羧基胞嘧啶引起之IPD改變比5-甲基胞嘧啶引起之IPD改變多得多。
在Blow等人最近的報告中,使用Flusberg等人先前描述之基於IPD比率之方法來檢測217種細菌及13種古細菌物種的鹼基修飾,每個生物體的讀取覆蓋率為130倍(Blow等人, 2016)。在他們鑑別之所有鹼基修飾中,僅5%涉及5-甲基胞嘧啶。他們將5-甲基胞嘧啶之此低檢測率歸因於單分子即時定序檢測5-甲基胞嘧啶之靈敏度低。在大多數細菌中,DNA甲基轉移酶(MT酶)靶向一組序列基元進行甲基化(例如在大腸桿菌中Dam之5'-GmATC-3'或Dcm之5'-CmCWGG-3'),在基因體中幾乎所有此等基元處,此等基元位點僅一小部分保持未甲基化(Beaulaurier等人2019)。此外,使用基於IPD之方法對經Tet蛋白處理或未經Tet蛋白處理之5'-CCWGG-3'基元中第二個C之甲基化狀態進行分類,得出的5-甲基胞嘧啶之檢測率分別為95.2%及1.9%(Clark等人2013)。總體而言,沒有事先進行鹼基轉化(例如使用Tet蛋白)之IPD方法遺漏大多數5-甲基胞嘧啶。
在上述研究中(Clark等人, 2012;Clark等人, 2013;Blow等人, 2016),使用基於IPD之算法,而不考慮候選鹼基修飾所在的序列上下文。其他小組已嘗試考慮核苷酸之序列上下文來檢測鹼基修飾。舉例而言,Feng等人使用階層式模型來分析IPD,以在各別序列上下文中檢測4-甲基胞嘧啶及6-甲基腺苷(Feng等人2013)。然而,在他們的方法中,他們僅考慮所關注鹼基處之IPD及與該鹼基相鄰的序列上下文,但沒有使用與所關注鹼基相連的所有鄰近鹼基的IPD資訊。另外,算法中未考慮PW,且他們沒有提供關於5-甲基胞嘧啶檢測之任何資料。
在另一項研究中,Schadt等人開發一種稱為條件隨機場之統計方法,用於分析所關注鹼基及鄰近鹼基的IPD資訊,以確定所關注鹼基是否為5-甲基胞嘧啶(Schadt等人, 2012)。在此項工作中,他們亦藉由將此等鹼基輸入方程式中來考慮此等鹼基之間的IPD相互作用。然而,他們沒有在方程式中輸入核苷酸序列,亦即A、T、G或C。當他們應用該方法確定M.Sau3AI質體之甲基化狀態時,即使在質體序列之800倍序列覆蓋率下,ROC曲線下面積仍接近0.5。此外,在他們的方法中,他們在分析中沒有考慮PW。
在Beckman等人之另一項研究中,他們比較目標細菌基因體與例如經由全基因體擴增獲得之完全未甲基化基因體之間在基因體中共享相同4-nt或6-nt基元之所有序列的IPD(Beckman等人2014)。此類分析之目的僅在於鑑別會更頻繁地受鹼基修飾影響之基元。在研究中,其僅考慮潛在修飾鹼基之IPD,而沒有考慮鄰近鹼基之IPD或PW。他們的方法不能提供關於單個核苷酸甲基化狀態之資訊。
總而言之,此等先前僅利用IPD或結合鄰近核苷酸中之序列資訊來對資料進行分組的嘗試均無法以有意義或實際的準確性確定5-甲基胞嘧啶之鹼基修飾。在Gouil等人的最新綜述中,作者推斷由於信雜比低,使用單分子即時定序檢測單分子中之5-甲基胞嘧啶為不準確的(Gouil等人, 2019)。在此等先前的研究中,使用動力學特徵進行全基因體甲基化體分析是否可行尚不明確,尤其是對於複雜的基因體,諸如人類基因體、癌症基因體或胎兒基因體。
與先前的研究相反,本揭示案中描述之一些實施例係基於量測及利用量測窗口內每個鹼基的IPD、PW及序列上下文。吾等推理,若吾等可使用多個度量之組合,例如同時利用包括上游及下游序列上下文、股資訊、IPD、脈衝寬度以及脈衝強度之特徵,則吾等可能能夠實現單鹼基解析度下鹼基修飾之精確量測(例如mC檢測)。序列上下文係指一段DNA中之鹼基組成(A、C、G或T)及鹼基順序。此段DNA可圍繞進行鹼基修飾分析或作為鹼基修飾分析目標的鹼基。在一個實施例中,該段DNA可靠近進行鹼基修飾分析之鹼基。在另一個實施例中,該段DNA可遠離進行鹼基修飾分析之鹼基。該段DNA可為進行鹼基修飾分析之鹼基的上游及/或下游。
在一個實施例中,用於鹼基修飾分析之上游及下游序列上下文、股資訊、IPD、脈衝寬度以及脈衝強度之特徵稱為動力學特徵。
本揭示案中存在之實施例可用於自但不限於細胞株、生物體樣本(例如實體器官、實體組織、經由內視鏡檢獲得之樣本、血液、或孕婦之血漿或血清或尿液、絨毛膜絨毛生檢等)、自環境獲得之樣本(例如細菌、細胞污染物)、食物(例如肉類)獲得之DNA。在一些實施例中,本揭示案中存在之方法亦可在首先例如使用雜交探針(Albert等人, 2007;Okou等人, 2007;Lee等人, 2011),或基於物理分離(例如基於大小等)之方法或在限制酶消化(例如MspI)後,或基於Cas9之富集(Watson等人, 2019)富集基因體之一部分的步驟之後應用。儘管本發明不需要酶促或化學轉化來其作用,但在某些實施例中,可包括此類轉化步驟以進一步增強本發明之效能。
本揭示案之實施例允許提高檢測鹼基修飾或量測修飾程度之準確性或實用性或便利性。可直接檢測修飾。實施例可避免酶促或化學轉化,其可能無法保留所有修飾資訊以供檢測。另外,某些酶促或化學轉化可能與某些類型之修飾不相容。本揭示案之實施例亦可避免藉由PCR擴增,其可能不會將鹼基修飾資訊轉移至PCR產物。另外,DNA之兩股可一起定序,從而使一股之序列與其互補序列配對至另一股。相比之下,PCR擴增會分開雙股DNA之兩股,因此此類序列配對為困難的。
在有或沒有酶促或化學轉化之情況下確定的甲基化概況可用於分析生物樣本。在一個實施例中,甲基化概況可用於檢測細胞DNA之來源(例如母體或胎兒、組織、病毒或腫瘤)。檢測組織中之異常甲基化概況有助於鑑別個體之發育障礙以及鑑別及預測腫瘤或惡性腫瘤。單倍型之間甲基化程度的不平衡可用於檢測病症,包括癌症。單分子中之甲基化模式可鑑別嵌合(例如在病毒與人類之間)及雜合DNA(例如在天然基因體中正常未融合之兩個基因之間);或在兩個物種之間(例如經由基因或基因體操縱)。
甲基化分析可藉由增強訓練來改進,其可包括縮小訓練集中使用的資料。可針對特定區域進行分析。在實施例中,此類靶向可涉及一種酶,該酶單獨或與其他試劑組合可基於其序列切割DNA序列或基因體。在一些實施例中,該酶為識別及切割特定DNA序列之限制酶。在其他實施例中,可組合使用一種以上具有不同識別序列之限制酶。在一些實施例中,限制酶可基於識別序列之甲基化狀態切割或不切割。在一些實施例中,該酶為CRISPR/Cas家族中之一種。舉例而言,可使用CRISPR/Cas9系統或其他基於引導RNA(亦即短RNA序列,其與互補的目標DNA序列結合且在過程中引導酶作用於目標基因體位置)之系統來靶向所關注之基因體區域。在一些情況下,無需與參考基因體進行排比即可進行甲基化分析。 使用單分子即時定序之甲基化檢測
本揭示案之實施例允許直接檢測鹼基修飾,而無需酶促或化學轉化。經由單分子即時定序獲得之動力學特徵(例如序列上下文、IPD及PW)可用機器學習進行分析,以開發模型來檢測修飾或不存在修飾。修飾程度可用於確定DNA分子之來源或病症之存在或程度。
使用Pacific Biosciences SMRT定序作為單分子即時定序之實例進行說明,將DNA聚合酶分子置於充當零模波導(ZMW)之孔的底部。ZMW為一種奈米光子器件,用於將光限制於小的觀察體積中,該觀察體積可為直徑極小的孔洞且不允許光在用於檢測之波長範圍內傳播,使得僅固定化聚合酶併入之染料標記核苷酸的光信號的發射可針對低且恆定的背景信號進行檢測(Eid等人, 2009)。DNA聚合酶催化經螢光標記之核苷酸併入互補核酸股中。
1展示藉由單分子環形一致性定序對攜帶鹼基修飾之分子進行定序的實例。分子102、104及106攜帶鹼基修飾。DNA分子(例如分子106)可與髮夾轉接子連接以形成連接分子108。連接分子108可隨後形成環化分子110。環化分子可與固定化DNA聚合酶結合,且可啟動DNA合成。亦可對不攜帶鹼基修飾之分子進行定序。
2展示藉由單分子即時定序對攜帶甲基化及/或未甲基化之CpG位點之分子進行定序的實例。DNA分子首先與髮夾轉接子連接以形成環化分子,該等環化分子將與固定化DNA聚合酶結合且啟動DNA合成。在圖2中,DNA分子202與髮夾轉接子連接以形成連接分子204。連接分子204隨後形成環化分子206。亦可對無CpG位點之分子進行定序。環化分子206包括未甲基化之CpG位點208,其仍可進行定序。
一旦啟動DNA合成,經螢光染料標記之核苷酸將基於環形DNA模板藉由固定化聚合酶併入新合成之股中,從而導致光信號的發射。因為DNA模板已經環化,所以整個環形DNA模板將多次經過聚合酶(亦即DNA模板中之一個核苷酸將被多次定序)。由該過程產生的序列稱為子讀段,其中環化DNA模板中之所有鹼基全部通過DNA聚合酶。ZMW中之一個分子將產生多個子讀段,因為聚合酶可圍繞整個環形DNA模板繼續多次。在一個實施例中,子讀段可僅含有環形DNA模板之序列、鹼基修飾或其他分子資訊之子集,因為在一個實施例中,存在定序錯誤。
3所示,所得螢光脈衝之到達時間及持續時間將允許吾人量測聚合酶動力學。脈衝間持續時間(IPD)為兩個發射脈衝之間的時間段長度的度量,每個發射脈衝將暗示新生股中併入之經螢光標記之核苷酸(圖3)。如圖3所示,脈衝寬度(PW)為反映聚合酶動力學之另一度量,其與鹼基判讀有關之脈衝的持續時間相關聯。PW可為在信號峰高度之0%處的脈衝持續時間(亦即併入之經染料標記之核苷酸的螢光強度)。在一個實施例中,PW可由例如但不限於信號峰高度之5%、10%、20%、30%、40%、50%、60%、70%、80%或90%處的脈衝持續時間定義。在一些實施例中,PW可為峰下面積除以信號峰高度。
已證明此類聚合酶動力學諸如IPD受合成及微生物序列(例如大腸桿菌)中諸如N6-甲基腺嘌呤(6mA)、5-甲基胞嘧啶(5mC)及5-羥甲基胞嘧啶(5hmC)之鹼基修飾影響(Flusberg等人, 2010)。Flusberg等人2010並未使用序列上下文及IPD作為獨立的輸入來檢測修飾,從而導致模型缺乏實際有意義的檢測準確性。Flusberg等人僅使用序列上下文來確認GATC中出現6mA。Flusberg等人未提及有關使用序列上下文與IPD結合作為輸入來檢測甲基化狀態。
由於互補股中5-甲基胞嘧啶之新鹼基併入所引起的弱中斷使得在僅使用IPD信號時,即使用於相對簡單的微生物基因體,甲基化判讀仍極具挑戰性,據報導甲基化基元CmCWGG之檢測率僅在1.9%至4.3%之範圍內(Clark等人, 2013)。舉例而言,Pacific Biosciences所提供之分析套裝軟體(SMRT Link v6.0.0)無法進行5mC分析。此外,先前版本SMRT Link v5.1.0要求吾人在甲基化分析之前使用Tet1酶將5mC轉化為5-羧基胞嘧啶(5caC),因為與5caC相關之IPD信號將會增強(Clark等人, 2013)。因此,毫不奇怪,沒有研究表明使用單分子即時定序以全基因體方式分析人類基因體之天然DNA的可行性。 量測窗口模式及機器學習模型
需要在不進行酶促或化學轉化修飾及/或鹼基之情況下檢測鹼基中之修飾的技術。如本文所述,目標鹼基中之修飾可使用自單分子即時定序獲得之目標鹼基周圍鹼基的動力學特徵資料來檢測。動力學特徵可包括脈衝間持續時間、脈衝寬度及序列上下文。此等動力學特徵可針對目標鹼基上游及下游一定數量的核苷酸的量測窗口獲得。此等特徵(例如在量測窗口中之特定位置)可用於訓練機器學習模型。作為樣本製備之一個實例,DNA分子之兩股可由髮夾轉接子連接,從而形成環形DNA分子。環形DNA分子允許獲得瓦生股及克立克股中任一者或兩者之動力學特徵。可基於量測窗口中之動力學特徵開發資料分析框架。此資料分析框架可隨後用於檢測修飾,包括甲基化。該部分描述檢測修飾之各種技術。 使用單股
4所示,舉例而言,吾等自Pacific Biosciences SMRT定序獲得瓦生股之子讀段,以分析一個特定鹼基關於鹼基修飾之狀態。在圖4中,進行鹼基修飾分析之鹼基每一側的3個鹼基定義為量測窗口400。在一個實施例中,此7個鹼基(亦即3個核苷酸(nt)上游及下游序列及一個用於鹼基修飾分析之核苷酸)的序列上下文、IPD及PW編譯為2維(亦即2-D)矩陣作為量測窗口。在所示實例中,量測窗口400係針對瓦生股之一個子讀段。其他變型描述於本文中。
矩陣之第一列402指示所研究之序列。在矩陣之第二列404中,位置0表示用於鹼基修飾分析之鹼基。相對位置-1、-2及-3分別指示進行鹼基修飾分析之鹼基上游的位置1-nt、2-nt及3-nt。相對位置+1、+2及+3分別指示進行鹼基修飾分析之鹼基下游的位置1-nt、2-nt及3-nt。每個位置包括2行,其含有相應的IPD及PW值。下面4列(列408、412、416及420)分別對應於股(例如瓦生股)中4種類型之核苷酸(A、C、G及T)。矩陣中IPD及PW值之存在取決於在特定位置對哪種對應的核苷酸類型進行定序。如圖4所示,在相對位置0處,IPD及PW值顯示在瓦生股中指示『G』之列中,表明在該位置之序列結果中判讀鳥嘌呤。行中不對應於定序鹼基之其他網格將編碼為『0』。舉例而言,對應於2-D數位矩陣(圖4)之序列資訊對於瓦生股將為5'-GATGACT-3'。
5中描繪之一個實施例所示,量測窗口可應用於克立克股之資料。吾等自單分子即時定序獲得克立克股之子讀段,以分析一個特定鹼基關於鹼基修飾之狀態。在圖5中,進行鹼基修飾分析之鹼基每一側的3個鹼基及進行鹼基修飾分析之鹼基將定義為量測窗口。在一個實施例中,此7個鹼基(亦即3個核苷酸(nt)上游及下游序列及一個用於鹼基修飾分析之核苷酸)的序列上下文、IPD及PW編譯為2維(亦即2-D)矩陣作為量測窗口。矩陣之第一列指示所研究之序列。在矩陣之第二列中,位置0表示用於鹼基修飾分析之鹼基。相對位置-1、-2及-3分別指示進行鹼基修飾分析之鹼基上游的位置1-nt、2-nt及3-nt。相對位置+1、+2及+3分別指示進行鹼基修飾分析之鹼基下游的位置1-nt、2-nt及3-nt。每個位置包括2行,其含有相應的IPD及PW值。下面的4列對應於此股(例如克立克股)中4種類型之核苷酸(A、C、G及T)。矩陣中IPD及PW值之存在取決於在特定位置對哪種對應的核苷酸類型進行定序。如圖5所示,在相對位置0處,IPD和PW值顯示在克立克股中指示『T』之列中,表明在該位置之序列結果中判讀胸腺嘧啶。行中不對應於定序鹼基之其他網格將編碼為『0』。舉例而言,對應於2-D數位矩陣(圖5)之序列資訊對於克立克股將為5'-ACTTAGC-3'。 使用瓦生股及克立克股
6展示一個實施例,其中量測窗口可以可結合來自瓦生股及其互補克立克股之資料的方式實現。如圖6所示,吾等自單分子即時定序獲得瓦生股及克立克股之子讀段,以分析一個特定鹼基之修飾。在一個實施例中,來自環形DNA模板之克立克股的量測窗口與來自瓦生股之量測窗口互補,對其進行鹼基修飾分析。在圖6中,瓦生股中進行鹼基修飾分析之第一鹼基每一側的3個鹼基及第一鹼基將定義為第一量測窗口。克立克股中第二鹼基每一側的3個鹼基及第二鹼基將定義為第二量測窗口。第二鹼基與第一鹼基互補。在一個實施例中,來自瓦生股及克立克股之此7個鹼基(亦即3個核苷酸(nt)上游及下游序列及一個用於鹼基修飾分析之核苷酸)的序列上下文、IPD、PW編譯為2維(亦即2-D)矩陣。來自瓦生股及克立克股之此等量測窗口分別視為第一及第二量測窗口。
瓦生股及克立克股矩陣之第一列指示所研究之序列。在瓦生股矩陣之第二列中,位置0表示用於鹼基修飾分析之第一鹼基。克立克股矩陣之第二列中所示之位置0表示與第一鹼基互補之第二鹼基。相對位置-1、-2及-3分別指示第一及第二鹼基上游之位置1-nt、2-nt及3-nt。相對位置+1、+2及+3分別指示第一及第二鹼基下游之位置1-nt、2-nt及3-nt。自瓦生股及克立克股得出之每個位置將對應於含有相應IPD及PW值之2行。瓦生股及克立克股矩陣中之下面4列分別對應於特定股(例如克立克股)中4種類型之核苷酸(A、C、G及T)。矩陣中IPD及PW值之存在取決於在特定位置對哪種對應的核苷酸類型進行定序。
如圖6所示,在相對位置0處,IPD及PW值顯示在瓦生股中指示『A』之列及克立克股中指示『T』之列,表明在瓦生股及克立克股之該位置的序列結果中分別判讀腺嘌呤及胸腺嘧啶。行中不對應於定序鹼基之其他網格將編碼為『0』。舉例而言,對應於瓦生股之2-D數位矩陣(圖6)的序列資訊將為5'-ATAAGTT-3'。對應於克立克股之2-D數位矩陣(圖6)的序列資訊將為5'-AACTTAT-3'。
如此實例中所示,來自瓦生股及克立克股之資料可組合形成新矩陣,該矩陣亦可視為量測窗口。此新矩陣可作為用於訓練機器學習模型之單個樣本使用。因此,新矩陣中之所有值均可視為單獨的特徵,儘管在2D矩陣中之特定位置可能會產生影響,例如在使用卷積神經網路(CNN)時。不同股在各個位置處的序列上下文可經由矩陣中之非零項目來傳達。
7展示量測窗口可以來自瓦生股及克立克股之資料並非彼此完全互補之位置的方式來實現。如圖7所示,第一量測窗口為5'-ATAAGTT-3';且第二量測窗口為5'-GTAACGC-3'。在一些實施例中,瓦生股及克立克股可彼此移位,以使得位置不互補。
8展示量測窗口可用於分析CpG位點之甲基化狀態。位置0對應於CpG位點之胞嘧啶,且因此在兩股之間存在一個位置的位移,使得C在兩股之0位置處。因此,來自瓦生股及克立克股之量測窗口中包括之序列僅一部分彼此互補。在其他實施例中,來自瓦生股及克立克股之量測窗口中的所有序列可彼此互補。在其他實施例中,來自瓦生股及克立克股之量測窗口中的序列均不彼此互補。
在一個實施例中,對於量測窗口,圍繞進行鹼基修飾分析之鹼基的DNA序列段長度可為不對稱的。舉例而言,該鹼基之上游X-nt及下游Y-nt可用於鹼基修飾分析。X可包括但不限於0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000及10000;Y可包括但不限於0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000及10000。 訓練模型及檢測修飾
9展示關於如何使用量測窗口確定任何鹼基修飾之一般程序。對已知未修飾及經修飾之DNA樣本進行單分子即時定序。經修飾之DNA(例如經修飾之分子902)意謂鹼基(例如鹼基904)在該位點具有修飾(例如甲基化)。未修飾之DNA(例如未修飾之分子906)意謂鹼基(例如鹼基908)在該位點不具有修飾。兩組DNA均可人工創建或處理以形成經修飾/未修飾之DNA。
在階段910,樣本可隨後進行單分子即時定序。作為SMRT定序之一部分,環形分子可藉由反覆通過固定化DNA聚合酶而多次定序。每次獲得之序列資訊將視為子讀段。因此,一個環形DNA模板將產生多個子讀段。可使用例如但不限於BLASR(Mark J Chaisson等人, 《BMC生物資訊學(BMC Bioinformatics)》. 2012; 13: 238)將定序子讀段與參考基因體進行排比。在各種其他實施例中,BLAST(Altschul SF等人, 《分子生物學雜誌(J Mol Biol)》. 1990;215(3):403-410)、BLAT(Kent WJ, 《基因體研究(Genome Res.)》 2002;12(4):656-664)、BWA(Li H等人, 《生物資訊學(Bioinformatics.)》2010;26(5):589-595)、NGMLR(Sedlazeck FJ等人, 《自然-方法》2018;15(6):461-468)、LAST(Kielbasa SM等人, 《基因體研究》 2011;21(3):487-493)及Minimap2(Li H, 《生物資訊學》2018;34(18):3094-3100)可用於將子讀段與參考基因體進行排比。排比可允許來自多個子讀段之資料組合(例如平均),因為可鑑別每個子讀段中相同位置的資料。
在階段912,自排比結果獲得進行鹼基修飾分析之鹼基周圍的IPD、PW及序列上下文。在階段914,將IPD、PW及序列上下文記錄在特定結構中,例如但不限於如圖9所示的2-D矩陣。
在階段916,使用含有參考動力學模式衍生之具有已知鹼基修飾之分子的許多2-D矩陣來訓練分析、計算、數學或統計模型。在階段918,開發由訓練產生之統計模型。為了簡單起見,圖9僅展示由訓練開發之統計模型,但可開發任何模型或資料分析框架。例示性資料分析框架包括機器學習模型、統計模型及數學模型。統計模型可包括但不限於線性回歸、邏輯回歸、深度循環神經網路(例如長短期記憶,LSTM)、貝葉斯分類器(Bayes classifier)、隱式馬爾可夫模型(hidden Markov model,HMM)、線性判別分析(LDA)、k均值聚類、具有雜訊之基於密度之空間聚類應用(DBSCAN)、隨機森林算法及支持向量機(SVM)。進行鹼基修飾分析之鹼基周圍的DNA段可為該鹼基上游X-nt及下游Y-nt,亦即「量測窗口」。
由於已知正確的輸出(亦即修飾狀態),因此資料結構可用於訓練過程。舉例而言,瓦生及/或克立克股之對應於鹼基上游及下游3-nt的IPD、PW及序列上下文可用於構築2-D矩陣,以用於訓練對鹼基修飾進行分類之統計模型。以此方式,訓練可提供一種模型,該模型可對具有先前已知狀態之核酸之位置處的鹼基修飾進行分類。
10展示關於自攜帶已知鹼基修飾狀態之DNA樣本習得的統計模型如何可檢測鹼基修飾的一般程序。對具有未知鹼基修飾狀態之樣本進行SMRT定序。使用例如上述技術將定序子讀段與參考基因體進行排比。另外或替代地,子讀段可彼此進行排比。其他實施例可僅使用一個子讀段或獨立地對其進行分析,從而不進行排比。
對於進行鹼基修飾分析之鹼基,吾人將使用與訓練步驟(圖9)中所用相當的量測窗口在排比結果中獲得瓦生及/或克立克股之IPD、PW及序列上下文,並與該鹼基相關聯。在另一個實施例中,訓練與測試程序之間的量測窗口將為不同的。舉例而言,訓練與測試程序之間的量測窗口大小可能有所不同。彼等IPD、PW及序列上下文將轉換為2-D矩陣。測試樣本之此類2-D矩陣將與參考動力學特徵進行比較,以確定鹼基修飾。舉例而言,測試樣本之2-D矩陣可經由自訓練樣本習得之統計模型與參考動力學特徵進行比較,從而可確定測試樣本中核酸分子之位點的鹼基修飾。統計模型可包括但不限於線性回歸、邏輯回歸、深度循環神經網路(例如長短期記憶,LSTM)、貝葉斯分類器、隱式馬爾可夫模型(HMM)、線性判別分析(LDA)、k均值聚類、具有雜訊之基於密度之空間聚類應用(DBSCAN)、隨機森林算法及支持向量機(SVM)。
11展示關於如何使該方法對CpG位點處之甲基化狀態進行分類的一般程序。對已知在CpG位點未甲基化及甲基化之DNA樣本進行單分子即時定序。將定序子讀段與參考基因體進行排比。使用瓦生股資料。
自排比結果獲得進行甲基化分析之CpG位點之胞嘧啶周圍的IPD、PW及序列上下文,且記錄在特定結構中,例如但不限於如圖11所示的2-D矩陣。將含有參考動力學模式衍生之具有已知甲基化狀態之分子的許多2-D矩陣用於訓練統計模型。受詢問鹼基周圍之一段DNA可為該鹼基上游X-nt及下游Y-nt,亦即「量測窗口」。X可包括但不限於0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000及10000;Y可包括但不限於0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、100、150、200、300、400、500、1000、2000、4000、5000及10000。在一個實施例中,瓦生股之對應於鹼基上游及下游3-nt之IPD、PW及序列上下文可用於構築2-D矩陣,該矩陣用於訓練統計模型以對鹼基修飾進行分類。
12展示對未知樣本之甲基化狀態進行分類的一般程序。對具有未知甲基化狀態之樣本進行單分子即時定序。將定序子讀段與參考基因體進行排比。
對於排比結果中CG位點之胞嘧啶,吾人將使用在訓練步驟(圖11)中應用、與修飾受詢問之鹼基相關聯之相當的量測窗口獲得瓦生股之IPD、PW及序列上下文。彼等IPD、PW及序列上下文可轉換為2-D矩陣。測試樣本之此類2-D矩陣將與圖11中所示之參考動力學模式進行比較,以確定甲基化狀態。X11
13 14展示來自克立克股之動力學特徵可用於如上詳述之訓練及測試程序,類似於瓦生股之程序。統計模型可為相同或不同的模型。當模型不同時,其可用於獲得獨立的分類,該等分類可進行比較,例如若分類一致,則鑑別為修飾狀態。若分類不一致,則可鑑別為未分類狀態。當模型相同時,可將資料組合成單個資料結構,例如圖6中之矩陣。
15 16展示來自瓦生股及克立克股之動力學特徵可用於如上詳述之訓練及測試程序。對已知在CpG位點未甲基化及甲基化之DNA樣本進行單分子即時定序。將定序子讀段與參考基因體進行排比,儘管子讀段相互進行排比為可能的,如本文所述之其他方法可實現。
對於排比結果中之子讀段,獲得進行甲基化分析之CpG位點之胞嘧啶周圍的IPD、PW及序列上下文。由於DNA分子經由使用兩個髮夾轉接子環化(例如遵循SMRTBell模板製備方案),因此環形分子可定序一次以上,從而生成一個分子之多個子讀段。子讀段可用於生成環形一致性定序(CCS)讀段。一般而言,對於本文所述之所有方法,一個ZMW可生成多個子讀段,但僅對應於一個CCS讀段。
在一些實施例中,完全未甲基化資料集可藉由對人類DNA片段進行PCR創建。舉例而言,完全甲基化資料集可經由CpG甲基轉移酶M.SssI處理之人類DNA片段產生,其中假定所有CpG位點均經甲基化。在其他實例中,可使用另一種CpG甲基轉移酶,諸如M.MpeI。在其他實施例中,可使用具有已知甲基化狀態之合成序列或預先存在的具有不同甲基化程度之DNA樣本,或藉由限制酶切割甲基化及未甲基化之DNA分子,隨後進行連接(其將產生一定比例的嵌合甲基化/未甲基化DNA分子)產生之雜合甲基化狀態來訓練甲基化預測模型或分類器。
包括序列上下文、IPD及脈衝寬度(PW)之動力學模式的轉換可為2-D矩陣,其包含瓦生股及克立克股之特徵,用於分析CG位點處之甲基化狀態,如圖15所示。此方法使吾等能夠準確地捕捉由甲基化胞嘧啶以及其附近的序列上下文引起之細微動力學變化。與本文所述之各種方法中之任一者一樣,對於子讀段中存在之每個CpG,(例如CpG位點之胞嘧啶上游及下游的3個鹼基)之量測窗口可用於後續分析,從而致使總共7個核苷酸(包括CpG位點之胞嘧啶)被一起分析。可計算該7個核苷酸中每個鹼基的IPD及PW。為了捕捉歸因於動力學變化之序列上下文,可將IPD及PW信號編譯成特定的鹼基判讀、相對定序位置及股資訊,如圖15所示。為了簡單起見,此類資料結構稱為動力學之2-D數位矩陣。
此類2-D數位矩陣類似於「2-D數位影像」。舉例而言,2-D數位矩陣之第一列含有進行甲基化分析之CpG基因座之胞嘧啶周圍的相對位置,亦即該胞嘧啶位點上游及下游3-nt。位置0表示待測定甲基化之胞嘧啶位點。相對位置-1及-2指示所討論之胞嘧啶上游的1-nt及2-nt。相對位置+1及+2指示將使用之胞嘧啶下游的1-nt及2-nt。每個位置將對應於2行,其含有相應的IPD及PW值。每一列對應於瓦生股及克立克股中4種類型之核苷酸(A、C、G及T)。矩陣中IPD及PW值之填充取決於在定序結果(亦即子讀段)中在特定位置預設哪種對應的核苷酸類型。
如圖15所示,在相對位置0,IPD及PW值顯示在瓦生股之『C』列中,表明在該位置判讀胞嘧啶。行中不對應於定序鹼基之其他網格將編碼為『0』。舉例而言,對應於2-D數位矩陣(圖15)之序列資訊對於瓦生股及克立克股分別為5'-ATACGTT-3'及5'-TAACGTA-3'。在此情形下,瓦生股及克立克股中CpG位點之胞嘧啶側翼的上游及下游序列將為不同的。由於CpG位點處之甲基化在瓦生股及克立克股之間為對稱的(Lister等人, 2009),因此在一個較佳實施例中,將兩股中之動力學用於訓練甲基化預測模型。在另一個實施例中,瓦生股及克立克股可分別用於訓練甲基化預測模型。
考慮到單分子即時定序之高資料吞吐量,在一個實施例中,深度學習算法(例如卷積神經網路(CNN))(LeCun等人, 1989)可能適合於區分甲基化CpG與未甲基化CpG。另外或替代地,亦可使用其他算法,例如但不限於線性回歸、邏輯回歸、深度循環神經網路(例如長短期記憶,LSTM)、貝葉斯分類器、隱式馬爾可夫模型(HMM)、線性判別分析(LDA)、k均值聚類、具有雜訊之基於密度之空間聚類應用(DBSCAN)、隨機森林算法及支持向量機(SVM)等。訓練可單獨或在組合的新矩陣中使用瓦生股及克立克股,如圖6-8中所述。
動力學模式之另一種轉換可為N維矩陣。N可為例如1、3、4、5、6及7。舉例而言,3-D矩陣將為根據所分析之DNA段之串聯CG位點的數目分層的2-D矩陣之堆疊,其中第3維度將為該DNA段之串聯CG位點的數目。在一些實施例中,脈衝強度或脈衝幅度(例如藉由脈衝之峰值高度或脈衝信號下的面積來量測)亦可併入矩陣中。可將脈衝強度(脈衝峰值幅度之度量,圖3)添加至在原2-D矩陣之基礎上與PW和IPD值相關聯之行相鄰的額外行,或添加至第3維度以形成3-D矩陣。
作為其他實例,可將8(列)×21(行)之2D矩陣轉換為包含168個元素之1-D矩陣(亦即向量)。吾等可掃描此1-D矩陣,例如以進行CNN或其他模型化。作為另一個實例,方法可將8×21 2-D矩陣拆分為多個較小矩陣,例如兩個4×21 2-D矩陣。將此兩個較小的矩陣以垂直方向放在一起,得到一個3-D矩陣(亦即x=21,y=4,z=2)。方法可掃描第1個2-D矩陣,且隨後掃描第2個2-D矩陣,以形成用於機器學習之資料呈現。可進一步拆分資料以形成更高維度的矩陣。另外,可將二級結構資訊添加至資料結構中,例如在2-D矩陣基礎上之額外矩陣(1-D矩陣)。此類額外矩陣可編碼量測窗口內之每個鹼基是否參與二級結構(例如莖-環結構),例如將參與「莖」之鹼基編碼為0且將參與「環」之鹼基編碼為1。
在一個實施例中,單個DNA分子內CpG位點之甲基化狀態可基於統計模型表示為甲基化之概率,而非給出「甲基化」或「未甲基化」之定性結果。概率為1表示,基於統計模型,CpG位點可視為甲基化的。概率為0表示,基於統計模型,CpG位點可視為未甲基化的。在後續的下游分析中,可基於概率用閾值對特定CpG位點分類為「甲基化」抑或「未甲基化」進行分類。閾值之可能值包括5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或95%。CpG位點甲基化之預測概率大於預定義之閾值可分類為「甲基化」,而CpG位點甲基化之概率不大於預定義之閾值可分類為「未甲基化」。所需閾值將使用例如接收者操作特徵(ROC)曲線分析自訓練資料集獲得。
圖16展示對來自瓦生股及克立克股之未知樣本的甲基化狀態進行分類的一般程序。對具有未知甲基化狀態之樣本進行單分子即時定序。定序子讀段可與參考基因體進行排比或與其他方法一樣相互進行排比,以確定給定位置之一致性值(例如平均值、中位數、眾數或其他統計值)。如圖所示,兩股之量測值可組合成單個2D矩陣。
對於排比結果中CG位點之胞嘧啶,吾人將使用與訓練步驟(圖16)中所應用相當的量測窗口(CpG位點之胞嘧啶上游及下游的3-nt)獲得瓦生股之IPD、PW及序列上下文,且與修飾受詢問之鹼基相關聯,儘管可使用不同大小的窗口。測試樣本之此類2-D矩陣可與圖16中所示之參考動力學模式進行比較,以確定甲基化狀態。 用於甲基化檢測之例示性模型訓練
為了測試所提出方法的可行性及有效性,吾等藉由M.SssI處理(甲基化文庫)及PCR擴增(未甲基化文庫)製備胎盤DNA文庫,隨後進行單分子即時定序。吾等獲得甲基化及未甲基化文庫之44,799,736及43,580,452個子讀段,分別對應於421,614及446,285個環形一致序列(CCS)。因此,每個分子在甲基化及未甲基化文庫中定序之中位數為34及32次。資料集係由Pacific Biosciences Sequel Sequencing Kit 3.0製備之DNA產生。此套組係為使用原始的Pacific Biosciences Sequel定序儀而開發使用的。為了區分Sequel與其後續的Sequel II,吾等在本文中將原始Sequel稱為Sequel I。因此Sequel Sequencing Kit 3.0在本文中將稱為Sequel I Sequencing Kit 3.0。為Sequel II定序儀設計之定序套組包括Sequel II Sequencing Kit 1.0及Sequel II Sequencing Kit 2.0,其亦描述於本揭示案中。
吾等使用自甲基化及未甲基化文庫生成之50%之定序分子來訓練統計模型(且使用剩餘的50%進行驗證),在此情況下,該模型為卷積神經網路(CNN)模型。舉例而言,CNN模型可具有一或多個卷積層(例如1D或2D層)。卷積層可使用一或多個不同的濾波器,每個濾波器使用內核,該內核對特定矩陣元素局部(例如在鄰近或周圍)之矩陣值進行運算,從而為特定矩陣元素提供新的值。一種實現方式使用兩個1D卷積層(每個層具有100個內核大小為4的濾波器)。濾波器可單獨應用,且隨後組合(例如在加權平均中)。所得矩陣可小於輸入矩陣。
卷積層之後可為ReLU(整流線性單元)層,其後可為丟棄率為0.5之丟棄層。ReLU為激活函數之實例,其可對各個值進行運算,從而自卷積層產生新的矩陣(影像)。亦可使用其他激活函數(例如sigmoid、softmax等)。可使用此類層中之一或多者。丟棄層可在ReLU層上或在最大池化層上使用,且充當防止過度擬合之正則化。丟棄層可在訓練過程中使用,以在作為訓練之一部分執行的最佳化程序(例如減少成本/損失函數)之不同迭代期間忽略不同(例如隨機)的值。
在ReLU層之後可使用最大池化層(例如,池大小為2)。最大池化層之作用可類似於卷積層,但不是取輸入與內核之間的點積,而是取輸入與內核重疊的區域的最大值。可使用其他卷積層。舉例而言,來自池化層之資料可輸入至另兩個1D卷積層(例如,每個卷積層包含128個內核大小為2的濾波器,隨後為ReLU層),進一步使用丟棄率為0.5之丟棄層。使用池大小為2的最大池化層。最後,可使用全連接層(例如,具有10個神經元,隨後為ReLU層)。具有一個神經元之輸出層之後可為sigmoid層,從而產生甲基化之概率。可調整層、濾波器及內核大小之各種設置。在此訓練資料集中,吾等使用來自甲基化及未甲基化文庫之468,596及432,761個CpG位點。 訓練及測試資料集之結果
17A展示訓練資料集中每個單個DNA分子中每個CpG位點甲基化之概率甲基化文庫中甲基化之概率遠高於未甲基化文庫。對於甲基化概率之閾值為0.5,正確預測94.7%之未甲基化CpG位點為未甲基化的,且正確預測84.7%之甲基化CpG為甲基化的。
17B展示測試資料集之效能。吾等使用由訓練資料集訓練之模型來預測來自甲基化及未甲基化文庫之獨立測試資料集中469,729及432,024個CpG位點之甲基化狀態。對於甲基化概率之閾值為0.5,正確預測94.0%之未甲基化CpG位點為未甲基化的,且正確預測84.1%之甲基化CpG為甲基化的。此等結果表明,使用新穎的動力學轉換結合序列上下文可實現DNA(例如來自人類個體)中甲基化狀態之測定。
吾等藉由在模型中包括特徵之子集,評估每個特徵(序列上下文、IPD及PW)在預測CpG甲基化狀態方面的能力。在訓練資料集中,具有(i)僅序列上下文、(ii)僅IPD及(iii)僅PW之模型分別給出0.5、0.74及0.86之曲線下面積(AUC)值。同時結合IPD及序列上下文提高效能,AUC為0.86。對序列上下文(「Seq」)、IPD及PW之組合分析顯著提高效能,AUC為0.94( 18A)。獨立測試資料集之效能與訓練資料集相當( 18B)。
吾等將CpG位點之子讀段深度定義為覆蓋其及其周圍10 bp之子讀段的平均數。如 19A 19B所示,CpG位點之子讀段深度愈高,吾等實現之甲基化檢測的準確性愈高。舉例而言,如測試資料集( 19B)中所示,若每個CpG位點之深度為至少10,則預測甲基化狀態之AUC將為0.93。然而,若每個CpG位點之子讀段深度為至少300,則預測甲基化狀態之AUC將為0.98。另一方面,即使深度為1,吾等仍可達到0.9之AUC,表明吾等方法可在使用低定序深度之情況下實現甲基化預測。
為了測試股資訊對甲基化分析效能之影響,根據本揭示案中存在之實施例,分別使用源自瓦生股及克立克股之序列上下文、IPD及PW進行訓練。 20A 20B顯示,使用單一股,亦即瓦生或克立克股進行訓練及測試為可行的,因為在訓練及測試資料集中AUC可達到高達0.91及0.87。使用包括瓦生股及克立克股之兩股(例如,如圖6-8中所述)將產生最佳效能(AUC:在訓練及測試資料集中分別為0.94及0.90),表明股資訊將對實現最佳效能至關重要。
吾等進一步測試CpG位點上游及下游核苷酸之不同數目,以研究此參數如何影響根據本揭示案中開發之本揭示案中存在之實施例的效能。 21A 21B顯示,在CpG之情形下,胞嘧啶上游及下游之核苷酸數目會影響甲基化預測之準確性。舉例而言,出於說明目的,考慮但不限於所分析之胞嘧啶上游及下游的2個核苷酸(nt)、3 nt、4 nt、6 nt、8 nt、10 nt、15 nt及20 nt,在訓練及測試資料集中使用所詢問之胞嘧啶上游及下游2 nt之方法的AUC將僅為0.50,而在訓練及測試資料集中使用所詢問之胞嘧啶上游及下游15 nt之方法的AUC將增加至0.95及0.92。此等結果表明,改變所分析之胞嘧啶側翼之上游及下游區域的長度將允許找出最佳效能。在一個實施例中,如圖21B所示,吾人將使用胞嘧啶上游及下游之3 nt來確定甲基化狀態,其可達到0.89之AUC。
在一個實施例中,吾人可使用所詢問之胞嘧啶側翼的不對稱序列來根據本揭示案中存在之實施例進行分析。舉例而言,可使用胞嘧啶上游2 nt與下游1 nt、3 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt、10 nt、11 nt、12 nt、13 nt、14 nt、15 nt、16 nt、17 nt、18 nt、19 nt、20 nt、25 nt、30 nt、35 nt及40 nt之組合;可使用胞嘧啶上游3 nt與下游1 nt、2 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt、10 nt、11 nt、12 nt、13 nt、14 nt、15 nt、16 nt、17 nt、18 nt、19 nt、20 nt、25 nt、30 nt、35 nt及40 nt之組合;可使用胞嘧啶上游4 nt與1 nt、2 nt、3 nt、5 nt、6 nt、7 nt、8 nt、9 nt、10 nt、11 nt、12 nt、13 nt、14 nt、15 nt、16 nt、17 nt、18 nt、19 nt、20 nt、25 nt、30 nt、35 nt及40 nt之組合。作為另一個實例,可使用胞嘧啶下游2 nt與上游1 nt、3 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt、10 nt、11 nt、12 nt、13 nt、14 nt、15 nt、16 nt、17 nt、18 nt、19 nt、20 nt、25 nt、30 nt、35 nt及40 nt之組合;可使用胞嘧啶下游3 nt與上游1 nt、2 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt、10 nt、11 nt、12 nt、13 nt、14 nt、15 nt、16 nt、17 nt、18 nt、19 nt、20 nt、25 nt、30 nt、35 nt及40 nt之組合;可使用胞嘧啶下游4 nt與上游1 nt、2 nt、3 nt、5 nt、6 nt、7 nt、8 nt、9 nt、10 nt、11 nt、12 nt、13 nt、14 nt、15 nt、16 nt、17 nt、18 nt、19 nt、20 nt、25 nt、30 nt、35 nt及40 nt之組合。藉由利用與胞嘧啶上游n-nt及下游m-nt相關聯之IPD、PW、股資訊及序列上下文,可在某些實施例中提供提高的確定甲基化狀態之準確性。此類不同的量測窗口可應用於其他類型的鹼基修飾分析,諸如5hmC、6mA、4mC及oxoG,或本文所揭示之任何修飾。此類不同的量測窗口可包括DNA二級結構分析,諸如G-四聯體及莖環結構。此類實例闡述於上文。此類二級結構資訊亦可作為矩陣中之另一行添加。
22A 22B顯示,使用僅與至少3個鹼基之下游鹼基相關聯的動力學模式來確定甲基化狀態為可行的。根據本揭示案中存在之實施例,在使用與胞嘧啶及其下游3、4、6、8及10個鹼基相關聯之特徵的情況下,在訓練資料集中確定甲基化狀態之AUC分別為0.91、0.92、0.94、0.94及0.94;在測試資料集中AUC分別為0.87、0.88、0.90、0.90及0.90。
然而, 23A 23B顯示,若吾人僅使用與上游鹼基相關聯之特徵,則分類能力似乎會降低其區分甲基化狀態之能力。在訓練資料集及測試資料集中,2至10個上游鹼基之AUC均為0.50。
24 25顯示,上游及下游鹼基之不同組合將使吾人在確定甲基化狀態時達到最佳分類能力。舉例而言,與胞嘧啶上游8個鹼基及下游8個鹼基相關聯之特徵將在此資料集中實現最佳效能,在訓練及測試資料集中AUC分別為0.94及0.91。
26展示特徵在CpG位點處之甲基化狀態分類方面的相對重要性。括號中之『W』及『C』表示股資訊,『W』表示瓦生股且『C』表示克立克股。使用隨機森林確定包括序列上下文、IPD及PW之每個特徵的重要性。隨機森林樹分析顯示,IPD及PW之特徵重要性在受詢問之胞嘧啶的下游達到峰值,表明對分類能力之主要貢獻為受詢問之胞嘧啶下游的IPD及PW。
隨機森林由多個決策樹構成。在決策樹之構築過程中,使用基尼不純度(Gini impurity)來確定決策節點應採用哪種決策邏輯。對最終分類結果影響較大之重要特徵很可能出現在距離決策樹根較近的節點中,而對最終分類結果影響較小之不重要特徵很可能出現在距根較遠的節點中。因此,可藉由計算相對於隨機森林中所有決策樹之根的平均距離來估計特徵重要性。
在一些實施例中,可進一步使用瓦生股及克立克股之間CpG位點處甲基化判讀之一致性來提高特異性。舉例而言,可要求將顯示甲基化之兩股稱為甲基化狀態,且將顯示未甲基化之兩股稱為未甲基化狀態。由於已知CpG位點處之甲基化通常為對稱的,因此自各股進行確認可提高特異性。
在各種實施例中,來自全分子之整體動力學特徵可用於確定甲基化狀態。舉例而言,在單分子即時定序期間,全分子中之甲基化將影響全分子之動力學。藉由將整個模板DNA分子之定序動力學(包括IPD、PW、片段大小、股資訊及序列上下文)模型化,可提高關於分子是否甲基化之分類準確性。舉例而言,量測窗口可為整個模板分子。IPD、PW或其他動力學特徵之統計值(例如,平均值、中位數、眾數、百分位數等)可用於確定全分子之甲基化。 其他分析技術之侷限性
據報導,基於IPD對特定序列基元中特定C之甲基化檢測非常低,例如靈敏度僅為1.9%(Clark等人, 2013)。吾等亦試圖藉由將不同的序列基元與IPD組合來重新此類分析,而不使用PW度量,且僅使用IPD之閾值而非如本文所述之資料結構。舉例而言,提取所詢問之CpG側翼的上游及下游3-nt。該CpG之IPD根據以該CpG為中心之6-nt側翼序列(亦即上游及下游分別3 nt)的上下文而分層為不同的組(6個位置,4096組)。使用ROC研究同一序列基元內甲基化及未甲基化CpG之間的IPD。舉例而言,比較未甲基化之「AATCGGAC」基元及甲基化之「AAT mCGGAC」基元中CpG之IPD,顯示AUC為0.48。因此,使用特定序列組中之閾值相對於使用不同的實施例而言表現不佳。
27展示上述基於基元之IPD分析(Beckmann等人《BMC生物資訊學》2014)在不使用脈衝寬度信號之情況下進行甲基化檢測的效能。垂直條形圖表示所研究之CpG位點側翼的不同k聚體基元的平均AUC(亦即所詢問之CpG位點周圍的鹼基數)。圖27顯示,在不同的k聚體基元(例如所討論之CpG位點周圍的2聚體、3聚體、4聚體、6聚體、8聚體、10聚體、15聚體、20聚體)中,甲基化及未甲基化胞嘧啶之間基於IPD之鑑別力的平均AUC被發現小於60%。此等結果表明,在給定的基元上下文中考慮候選核苷酸之IPD而不考慮鄰近核苷酸之IPD(Flusberg等人, 2010)將不如本文揭示之用於測定CpG甲基化之方法。
吾等亦測試Flusberg等人研究(Flusberg等人, 2010)中存在之方法。吾等分析總共5,948,348個DNA區段,其為進行甲基化分析之胞嘧啶上游2-nt及下游6-nt。存在2,828,848個甲基化區段及3,119,500個未甲基化區段。如 28所示,發現使用IPD及PW自主成分分析中推導出之信號在具有甲基化胞嘧啶(mC)及未甲基化胞嘧啶(C)之片段之間基本上重疊,表明Flusberg等人所述之方法缺乏實際有意義的準確性。此等結果表明,如Flusberg等人之研究(Flusberg等人, 2010)中所用之主成分分析將鹼基及鄰近鹼基處之PW及IPD值線性組合,無法可靠或有意義地區分5-甲基胞嘧啶及未甲基化胞嘧啶。
29顯示,在Flusberg等人之研究(Flusberg等人, 2010)中使用涉及IPD及PW之兩個主成分的基於主成分分析之方法的AUC(AUC:0.55)準確度遠低於吾等揭示內容中所示的涉及IPD及PW以及序列上下文之基於卷積神經網路之方法(AUC:0.94)。 其他數學/統計模型
在另一個實施例中,其他數學/統計模型,例如包括但不限於隨機森林及邏輯回歸,可藉由適應上述開發之特徵來訓練。至於CNN模型,訓練及測試資料集係由經M.SssI處理(甲基化)及PCR擴增(未甲基化)之DNA構築,其用於訓練隨機森林(Breiman, 2001)。在此隨機森林分析中,吾等用6個特徵描述每個核苷酸:IPD、PW及編碼鹼基標識之4組分二進制向量。在此類二進制向量中,A、C、G及T分別用[1,0,0,0]、[0,1,0,0]、[0,0,1,0]及[0,0,0,1]編碼。對於每個所分析之CpG位點,吾等將其上游及下游10 nt之資訊併入兩股中,形成252維(252 -D)向量,每個特徵代表一個維度。上述具有252-D向量之訓練資料集用於訓練隨機森林模型以及邏輯回歸模型。經訓練之模型用於預測獨立測試資料集中之甲基化狀態。隨機森林由100個決策樹構成。在樹的構築過程中,使用自助樣本。在拆分每個決策樹之節點時,採用基尼不純度來確定最佳拆分,且在每個拆分中最多考慮15個特徵。另外,要求決策樹之每片葉子含有至少60個樣本。
30A 30B展示使用隨機森林及邏輯回歸進行甲基化預測之方法的效能圖30A展示CNN、隨機森林及邏輯回歸之訓練資料集中的AUC值。圖30B展示CNN、隨機森林及邏輯回歸之測試資料集中的AUC值。使用隨機森林之方法在訓練及測試資料集中的AUC分別達到0.93及0.86。
用相同的252-D向量描述之訓練資料集用於訓練邏輯回歸模型。經訓練之模型用於預測獨立測試資料集中之甲基化狀態。將具有L2正則化之邏輯回歸模型(Ng及Y., 2004)與訓練資料集擬合。如圖30A及圖30B所示,使用邏輯回歸之方法在訓練及測試資料集中的AUC將分別達到0.87及0.83。
因此,此等結果表明,使用吾等在本揭示案中開發之特徵及分析方案,除CNN以外之某些模型(例如但不限於隨機森林及邏輯回歸)可用於甲基化分析。此等結果亦表明,根據本揭示案中之實施例實施的CNN在測試資料集(圖30B)中之AUC為0.90,優於隨機森林(AUC:0.86)及邏輯回歸(AUC:0.83)。 測定核酸之6mA修飾
除甲基化之CpG之外,本文所述之方法亦可檢測其他DNA鹼基修飾。舉例而言,可檢測甲基化腺嘌呤,包括呈6mA之形式。 使用動力學特徵及定序上下文進行6mA檢測
為了評估所揭示之用於測定核酸鹼基修飾之實施例的效能及實用性,吾等進一步分析N6-腺嘌呤甲基化(6mA)。在一個實施例中,經由全基因體擴增,用未甲基化腺嘌呤(uA)、未甲基化胞嘧啶(C)、未甲基化鳥嘌呤(G)及未甲基化胸腺嘧啶(T)擴增大約1 ng人類DNA(例如自胎盤組織提取),以獲得100 ng DNA產物。
31A展示藉由全基因體擴增生成具有未甲基化腺嘌呤之分子之一種方法的實例。在圖中,「uA」表示未甲基化腺嘌呤,「mA」表示甲基化腺嘌呤。使用抗外切核酸酶之經硫代磷酸酯修飾之無規六聚體作為引子進行全基因體擴增,該等引子在基因體上隨機結合,從而允許聚合酶(例如Φ29 DNA聚合酶)擴增DNA(例如,藉由等溫線性擴增)。在階段3102,使雙股DNA變性。在階段3106,當許多無規六聚體(例如3110)與變性的模板DNA(亦即單股DNA)黏接時,引發擴增反應。如3114所示,當股3118之六聚體介導之DNA合成沿5'至3'方向進行且到達下一個六聚體介導之DNA合成位點時,聚合酶置換新合成之DNA股(3122)且繼續股延伸。經置換之股成為單股DNA模板,供無規六聚體再次結合,且可能啟動新的DNA合成。在等溫過程中重複之六聚體黏接及股置換將導致擴增之DNA產物的高產率。本文所述之此擴增可能屬於多重置換擴增(MDA)技術。
將擴增的DNA產物進一步片段化為例如但不限於大小為100 bp、200 bp、300 bp、400 bp、500 bp、600 bp、700 bp、800 bp、900 bp、1 kb、5 kb、10 kb、20 kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、100 kb或其他所需大小範圍之片段。片段化方法可包括酶解、霧化、流體動力剪切及音波處理等。因此,原始鹼基修飾諸如6mA可藉由用未甲基化之A(uA)進行全基因體擴增而幾乎消除。圖31A展示DNA產物之可能片段(3126、3130及3134),其中兩股均具有未甲基化之A。對此類全基因體擴增之無mA的DNA產物進行單分子即時定序,以產生uA資料集。
31B展示藉由全基因體擴增生成具有甲基化腺嘌呤之分子之一種方法的實例。在圖中,「uA」表示未甲基化腺嘌呤,「mA」表示甲基化腺嘌呤。經由全基因體擴增,用6mA及未甲基化之C、G及T擴增大約1 ng人類DNA,以獲得10 ng DNA產物。甲基化腺嘌呤可經由一系列化學反應產生(J D Engel等人 《生物化學雜誌(J Biol Chem.)》 1978;253:927-34)。如圖31B所示,使用抗外切核酸酶之經硫代磷酸酯修飾之無規六聚體作為引子進行全基因體擴增,該等引子在基因體上隨機結合,從而允許聚合酶(例如Φ29 DNA聚合酶)擴增DNA(例如藉由等溫線性擴增),類似於圖31A。抗外切核酸酶之經硫代磷酸酯修飾之無規六聚體對校對DNA聚合酶之3'→5'外切核酸酶活性具有抗性。因此,在擴增期間,將保護無規六聚體免於降解。
當許多無規六聚體與變性的模板DNA(亦即單股DNA)黏接時,引發擴增反應。當六聚體介導之DNA合成沿5'至3'方向進行且到達下一個六聚體介導之DNA合成位點時,聚合酶置換新合成之DNA股且繼續股延伸。經置換之股成為單股DNA模板,供無規六聚體再次結合,且啟動新的DNA合成。在等溫過程中重複之六聚體黏接及股置換將導致擴增之DNA產物的高產率。
將擴增的DNA產物進一步片段化為例如但不限於大小為100 bp、200 bp、300 bp、400 bp、500 bp、600 bp、700 bp、800 bp、900 bp、1 kb、5 kb、10 kb、20 kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、100 kb或其他長度組合之片段。如圖31B所示,擴增的DNA產物將在每股之腺嘌呤位點上包括不同形式之甲基化模式。舉例而言,雙股分子之兩股可相對於腺嘌呤甲基化(分子I),當兩股在全基因體擴增期間自DNA合成衍生而來時,將產生該分子。
作為另一個實例,雙股分子之一股可含有遍及腺嘌呤位點之交錯甲基化模式(分子II)。交錯甲基化模式定義為包括DNA股中存在之甲基化及未甲基化鹼基之混合物的模式。在以下實例中,吾等使用交錯的腺嘌呤甲基化模式,該模式包括DNA股中存在之甲基化及未甲基化腺嘌呤之混合物。此類型之雙股分子(分子II)將可能生成,因為含有未甲基化腺嘌呤之未甲基化六聚體與DNA股結合且啟動DNA延伸。將對此類擴增的DNA產物進行定序,該產物含有具未甲基化腺嘌呤之六聚體。或者,此類型之雙股分子(分子II)將由來自含有未甲基化腺嘌呤之原始模板DNA的片段化DNA啟動,因為此類片段化DNA可作為引子結合至DNA股。將對此類擴增的DNA產物進行定序,該產物含有股中具有未甲基化腺嘌呤之原始DNA的一部分。由於未甲基化之六聚體引子僅為所得DNA股之一小部分,因此大多數片段仍將含有6mA。
作為另一個實例,雙股DNA分子之一股可在腺嘌呤位點上甲基化,但另一股可為未甲基化的(分子III)。當提供無甲基化腺嘌呤之原始DNA股作為模板DNA分子以產生具有甲基化腺嘌呤之新股時,可生成此類型之雙股分子。
兩股可為未甲基化的(分子IV)。此類型之雙股分子可由於無甲基化腺嘌呤之兩個原始DNA股重新黏接而產生。
片段化方法可包括酶解、霧化、流體動力剪切及音波處理等。此類全基因體擴增之DNA產物可主要以A位點甲基化。對此具有mA之DNA進行單分子即時定序,以生成mA資料集。
對於uA資料集,吾等使用單分子即時定序對262,608個長度中位數為964 bp之分子進行定序。中位子讀段深度為103 x。在子讀段中,48%可使用BWA排比器與人類參考基因體進行排比(Li H等人《生物資訊學》2009;25:1754-60)。舉例而言,吾人可採用Sequel II System(Pacific Biosciences)進行單分子即時定序。使用SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)對片段化之DNA分子進行單分子即時(SMRT)定序模板構築。用SMRT Link v8.0軟體(Pacific Biosciences)計算定序引子黏接及聚合酶結合條件。簡言之,使定序引子v2與定序模板黏接,且隨後使用Sequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)使聚合酶與模板結合。在Sequel II SMRT Cell 8M上進行定序。用Sequel II Sequencing Kit 2.0(Pacific Biosciences)在Sequel II系統上收集定序影片30小時。
對於mA資料集,吾等使用單分子即時定序對804,469個長度中位數為826 bp之分子進行定序。中位子讀段深度為34 x。在子讀段中,27%可使用BWA排比器與人類參考基因體進行排比(Li H等人《生物資訊學》2009;25:1754-60)。
在一個實施例中,以股特異性方式分析包括但不限於IPD及PW之動力學特徵。對於源自瓦生股之定序結果,使用自uA資料集隨機選取之644,318個無甲基化之A位點及自mA資料集隨機選取之718,586個有甲基化之A位點構成訓練資料集。此類訓練資料集用於建立分類模型及/或臨限值,以區分甲基化及未甲基化腺嘌呤。測試資料集由639,702個無甲基化之A位點及723,320個有甲基化之A位點構成。此類測試資料集用於驗證自訓練資料集推導出之模型/臨限值的效能。
吾等分析源自瓦生股之定序結果。 32A展示uA及mA資料集之訓練資料集的脈衝間持續時間(IPD)值。對於訓練資料集,在mA資料集中觀察到的經定序A位點之IPD值(中位數:1.09;範圍:0-9.52)高於uA資料集(中位數:0.20;範圍:0-9.52)( P值<0.0001;Mann Whitney U檢驗)。
32B展示uA及mA資料集之測試資料集的IPD。當吾等研究測試資料集中經定序A位點之IPD值時,吾等觀察到mA資料集中之IPD值高於uA資料集(中位數1.10對0.19; P值<0.0001;Mann Whitney U檢驗)。
32C展示使用IPD閾值之接收者操作特徵(ROC)曲線下面積。真陽性率在y軸上,假陽性率在x軸上。使用相應的IPD值區分模板DNA分子中具有及不具有甲基化之經定序A鹼基時,訓練及測試資料集兩者之接收者操作特徵曲線下面積(AUC)為0.86。
除了來自瓦生股之結果外,吾等分析源自克立克股之定序結果。 33A展示uA及mA資料集之訓練資料集的IPD值。對於訓練資料集,在mA資料集中觀察到的經定序A位點之IPD值(中位數:1.10;範圍:0-9.52)高於uA資料集(中位數:0.19;範圍:0-9.52)( P值<0.0001;Mann Whitney U檢驗)。
34B展示uA及mA資料集之測試資料集的IPD值。與uA資料集相比,在測試資料集之mA資料集中亦觀察到經定序A位點之IPD值較高(中位數1.10對0.19; P值<0.0001;Mann Whitney U檢驗)。
33C展示ROC曲線下面積。真陽性率在y軸上,假陽性率在x軸上。使用相應的IPD值區分模板DNA分子中具有及不具有甲基化之經定序A鹼基時,訓練及測試資料集之ROC曲線下面積(AUC)值分別為0.86及0.87。
34展示根據本發明之實施例,使用量測窗口對瓦生股進行6mA測定的圖示。此類量測窗口可包括動力學特徵,諸如IPD及PW及附近的序列上下文。6mA之測定可與甲基化CpG之測定類似地進行。
35展示根據本發明之實施例,使用量測窗口對克立克股進行6mA測定的圖示。此類量測窗口可包括動力學特徵,諸如IPD及PW及附近的序列上下文。
舉例而言,將自所詢問之模板DNA中經定序A鹼基每一側的10個鹼基用於構築量測窗口。將包括IPD、PW及序列上下文之特徵值用於根據本文所揭示之方法使用卷積神經網路(CNN)訓練模型。在其他實施例中,統計模型可包括但不限於線性回歸、邏輯回歸、深度循環神經網路(例如長短期記憶,LSTM)、貝葉斯分類器、隱式馬爾可夫模型(HMM)、線性判別分析(LDA)、k均值聚類、具有雜訊之基於密度之空間聚類應用(DBSCAN)、隨機森林算法及支持向量機(SVM)等。
36A 36B展示使用基於量測窗口之CNN模型所確定的uA及mA資料集之間瓦生股之經定序A鹼基的甲基化概率。圖36A展示自訓練資料集習得的CNN模型。舉例而言,CNN模型使用兩個1D卷積層(每個卷積層具有64個內核大小為4的濾波器,隨後為ReLU(整流線性單元)層),隨後為丟棄率為0.5之丟棄層。使用池大小為2的最大池化層。隨後流入兩個1D卷積層(每個卷積層具有128個內核大小為2的濾波器,隨後為ReLU層),進一步使用丟棄率為0.5之丟棄層。使用池大小為2的最大池化層。最後,具有10個神經元之全連接層,隨後為ReLU層,具有一個神經元之輸出層,隨後為sigmoid層,從而得出甲基化概率。層、濾波器、內核大小之其他設置可進行調整,例如,如本文針對其他甲基化(例如CpG)所述。在此關於瓦生股定序結果之訓練資料集中,吾等使用來自未甲基化及甲基化文庫之644,318及718,586個A鹼基。
基於CNN模型,對於瓦生股相關資料,與uA資料集中存在之彼等A鹼基相比,mA資料庫之模板DNA分子中經定序之A鹼基在訓練及測試資料集中均引起高得多的甲基化概率( P值<0.0001;Mann Whitney U檢驗)。對於訓練資料集,uA資料集中A位點甲基化之中位概率為0.13(四分位數範圍,IQR:0.09-0.15),而mA資料集中該值為1.000(IQR:0.998-1.000)。
圖36A展示針對測試資料集所確定之甲基化概率。對於測試資料集,uA資料集中A位點甲基化之中位概率為0.13(IQR:0.10-0.15),而mA資料集中該值為1.000(IQR:0.997-1.000)。圖36A及36B顯示,可訓練基於量測窗口之CNN模型以檢測測試資料集中之甲基化。
37為使用基於量測窗口之CNN模型對瓦生股之經定序A鹼基進行6mA檢測的ROC曲線。真陽性率在y軸上,假陽性率在x軸上。該圖顯示,對於由瓦生股定序結果組成之訓練及測試資料集,使用CNN模型區分具有及不具有甲基化之經定序A位點的AUC值分別為0.94及0.93。其表明,使用本文揭示內容利用瓦生股之資料確定A位點之甲基化狀態為可行的。若吾等使用確定的甲基化概率0.5作為閾值,則6mA檢測可達到99.3%之特異性及82.6%之靈敏度。圖37顯示,可使用基於量測窗口之CNN模型以高特異性及靈敏度來檢測6mA。該模型之準確性可與僅使用IPD度量之技術進行比較。
38展示基於IPD度量之6mA檢測與基於量測窗口之6mA檢測之間的效能比較。靈敏度標繪在y軸上,特異性標繪在x軸上。圖38顯示,根據本文揭示內容使用基於量測窗口之6mA分類的效能(AUC:0.94)優於僅使用IPD度量之習知方法(AUC:0.87)(P值<0.0001;DeLong檢驗)。基於量測窗口之CNN模型優於基於IPD度量之檢測。
39A39B展示使用基於量測窗口之CNN模型確定之在uA及mA資料集之間的克立克股之彼等經定序A鹼基的甲基化概率。圖39A展示訓練資料集,圖39B展示測試資料集。兩幅圖均在y軸上標繪甲基化概率。圖39A及39B顯示,基於CNN模型,對於克立克股相關資料,mA資料庫之模板DNA分子中之經定序A鹼基在訓練及測試資料集中產生的甲基化概率比uA資料庫中存在之彼等A鹼基高得多(P值<0.0001;Mann-Whitney U檢驗)。
40展示使用基於量測窗口之CNN模型對克立克股之經定序A鹼基進行6mA檢測的效能。真陽性率在y軸上。假陽性率在x軸上。圖40顯示,對於由克立克股定序結果組成之訓練及測試資料集,使用CNN模型區分具有及不具有甲基化之經定序A位點的AUC值分別為0.95及0.94。亦證明使用本文所揭示之CNN方法的效能(AUC:0.94)優於僅使用IPD度量的效能(0.87)( P值<0.0001)。結果表明,使用本文揭示內容利用瓦生股之資料確定A位點之甲基化狀態為可行的。若吾等使用確定的甲基化概率0.5作為閾值,則6mA檢測可達到99.3%之特異性及83.0%之靈敏度。圖40顯示,可使用基於量測窗口之CNN模型以高特異性及靈敏度來檢測6mA。
41展示包括瓦生股及克立克股之分子中A鹼基之甲基化狀態的實例。白點表示未甲基化之腺嘌呤。黑點表示甲基化之腺嘌呤。帶點的水平線表示雙股DNA分子之股。分子1顯示,瓦生股及克立克股均確定為A鹼基未甲基化。分子2顯示,瓦生股幾乎全部未甲基化,而克立克股幾乎全部甲基化。分子3顯示,瓦生股及克立克股均確定為A鹼基幾乎全部甲基化。 使用選擇性資料集進行增強訓練
如圖36A、36B、39A及39B所示,在mA資料集中,模板DNA分子中經定序之A鹼基的甲基化概率存在雙峰分佈。換言之,mA資料集中存在一些具有uA信號之分子。此點藉由mA資料集中存在完全未甲基化之分子及半甲基化之分子進一步證明(圖41)。一個可能的原因可為DNA模板中具有uA之分子在全基因體擴增後之mA資料集中仍會占相當大的比例,因為具有6mA之分子會導致全基因體擴增步驟期間擴增DNA的效率降低。此解釋得到以下事實的支持:在相同的擴增條件下,用6mA擴增之1 ng基因體DNA僅會產生10 ng DNA產物,而用未甲基化之A擴增的1 ng基因體DNA將產生100 ng DNA產物。因此,對於mA資料集,腺嘌呤通常未甲基化(例如0.051%)之原始模板DNA分子(Xiao CL等人,《分子細胞學(Mol Cell.)》2018;71:306-318)將占總腺嘌呤之大約10%。
在一個實施例中,當吾人試圖訓練用於區分mA與uA之CNN模型時,吾人將選擇性地使用mA資料集中彼等具有相對較高IPD值的A鹼基,以減少uA資料對訓練mA檢測模型之影響。僅可使用IPD值高於某一閾值的A鹼基。閾值可對應於百分位數。在一個實施例中,吾人將使用mA資料集中IPD值大於第10百分位數處之值的彼等A鹼基。在一些實施例中,吾人將使用IPD值大於第1、5、15、20、30、40、50、60、70、80、90或95百分位數處之值的彼等A。百分位數可基於參考樣本或多個參考樣本中所有核酸分子之資料。
42展示藉由選擇性地使用mA資料集中IPD值大於其第10百分位數之A鹼基進行增強訓練的效能。圖42展示y軸上之真陽性率及x軸上之假陽性率。該圖顯示,藉由使用mA資料集中IPD值大於第10百分位數之A鹼基訓練CNN模型,區分mA鹼基與uA鹼基之AUC將增加至0.98,優於訓練前不根據IPD值進行選擇之資料訓練的模型(AUC:0.94)。其表明使用IPD值選擇mA位點來創建訓練資料集將有助於提高鑑別力。
為了進一步證實mA資料集中存在具有uA鹼基之分子,吾等假設mA資料集中uA之百分比會富集在彼等具有較多子讀段之孔中,因為與無6mA之分子相比,分子中存在之6mA會減緩聚合酶生成新股時的延伸。
43展示mA資料集中未甲基化腺嘌呤之百分比與各孔中子讀段數目的圖式。y軸顯示mA資料集中uA之百分比。x軸顯示各孔中之子讀段數目。使用增強的模型重新分析測試資料集,該模型藉由在移除IPD值低於第10百分位數之A位點後使用mA位點進行訓練。隨著每孔子讀段數目的增加,包括每個定序孔1至10個子讀段至每孔10至20個子讀段、至每孔40至50個子讀段、每孔60至70個子讀段及70個以上,觀察到uA逐漸增加(亦即自14.6上升至55.05%)。因此,具有大量子讀段之孔往往具有低mA。A之甲基化可延緩定序反應之進展。因此,具有高子讀段深度之定序孔更可能對A未甲基化。可利用此行為,使用與分子相關聯之子讀段數目的閾值檢測未甲基化之分子,例如大於70個子讀段可鑑別為多數未甲基化。
44顯示測試資料集中雙股DNA分子之瓦生股及克立克股之間的甲基腺嘌呤模式。A之甲基化為不對稱的,且因此兩股之間的行為不同。大多數分子由於併入mA而甲基化,仍有一些殘餘的未甲基化之A。y軸顯示克立克股之甲基腺嘌呤水準。x軸顯示瓦生股之甲基腺嘌呤水準。每個點代表一個雙股分子。使用由所選mA位點訓練的增強模型,雙股分子可根據各股之甲基化程度分為以下不同的組:
對於雙股DNA分子,瓦生股及克立克股之甲基腺嘌呤水準均大於0.8。此類雙股分子定義為關於腺嘌呤位點之完全甲基化分子(圖44,A區)。一股之甲基腺嘌呤水準定義為確定為甲基化之A位點在該股之總A位點中的百分比。
對於雙股DNA分子,一股之甲基腺嘌呤水準大於0.8,而另一股小於0.2。此類分子定義為關於腺嘌呤位點之半甲基化分子(圖44,區域B1及B2)。
對於雙股DNA分子,瓦生股及克立克股之甲基腺嘌呤水準均小於0.2。此類雙股分子定義為關於腺嘌呤位點之完全未甲基化分子(圖44,C區)。
對於雙股DNA分子,瓦生股及克立克股之甲基腺嘌呤水準不屬於a、b及c組。此類雙股分子定義為具有關於腺嘌呤位點之交錯甲基化模式的分子(圖44,D區)。交錯甲基化模式定義為存在於DNA股中之甲基化及未甲基化腺嘌呤的混合物。
在一些其他實施例中,用於定義未甲基化股之甲基腺嘌呤水準的閾值可為但不限於小於0.01、0.05、0.1、0.2、0.3、0.4及0.5。用於定義甲基化股之甲基腺嘌呤水準之閾值將為但不限於大於0.5、0.6、0.7、0.8、0.9、0.95及0.99。
45為顯示訓練及測試資料集中完全未甲基化分子、半甲基化分子、完全甲基化分子及具有交錯甲基腺嘌呤模式之分子之百分比的表格。測試資料集中之分子可分類為關於腺嘌呤位點之完全未甲基化分子(7.0%)、半甲基化分子(9.8%)、完全甲基化分子(79.4%)及具有交錯甲基腺嘌呤模式之分子(3.7%)。此等結果與訓練資料集中所示之結果相當,在該資料集中存在關於腺嘌呤位點之完全未甲基化分子(7.0%)、半甲基化分子(10.0%)、完全甲基化分子(79.4%)及具有交錯甲基腺嘌呤模式之分子(3.6%)。
46展示關於腺嘌呤位點之完全未甲基化分子、半甲基化分子、完全甲基化分子及具有交錯甲基腺嘌呤模式之分子的代表性分子實例。白點表示未甲基化之腺嘌呤。黑點表示甲基化之腺嘌呤。帶點的水平線表示雙股DNA分子之股。
在實施例中,吾人可藉由增加用於訓練CNN模型之6mA鹼基的純度來改良區分甲基化及未甲基化腺嘌呤的效能。為此,吾人可增加DNA擴增反應之持續時間,使得增加的新產生的DNA產物可稀釋由原始DNA模板貢獻之未甲基化腺嘌呤的影響。在其他實施例中,吾人可在用6mA進行DNA擴增期間併入生物素化鹼基。用6mA新產生的DNA產物可使用抗生蛋白鏈菌素包被之磁珠拉下且富集。 6 mA甲基化概況之用途
DNA 6mA修飾存在於細菌、古菌、原生生物及真菌之基因體中(Didier W等人《自然綜述微生物(Nat Rev Micorbiol.)》2009;4:183-192)。亦據報導,6mA存在於人類基因體中,佔總腺嘌呤之0.051%(Xiao CL等人《分子細胞學》2018;71:306-318)。考慮到6mA在人類基因體中之含量低,在一個實施例中,吾人可藉由在全基因體擴增步驟中調整6mA在dNTP混合物(N代表未修飾之A、C、G及T)中之比率來創建訓練資料集。舉例而言,吾人可使用的6mA與dNTP之比率為1:10、1:100、1:1000、1:10000、1:100000或1:1000000。在另一個實施例中,腺嘌呤DNA甲基轉移酶M. EcoGII可用於創建6mA訓練資料集。
胃癌及肝癌組織中6mA之量較低,且此6mA下調與腫瘤發生之增加相關(Xiao CL等人《分子細胞學》2018;71:306-318)。另一方面,據報導膠質母細胞瘤中存在較高水準之6mA(Xie等人《細胞(Cell)》2018;175:1228-1243)。因此,如本文所揭示之用於6mA之方法將可用於研究癌症基因體學(Xiao CL等人《分子細胞學》2018;71:306-318;Xie等人《細胞》2018;175:1228-1243)。另外,發現6mA在哺乳動物粒線體DNA中更為普遍及豐富,顯示與低氧相關聯(Hao Z等人《分子細胞學》2020; doi:10.1016/j.molcel.2020.02.018)。因此,本揭示案中用於6mA檢測之方法將可用於研究在不同臨床條件諸如妊娠、癌症及自體免疫疾病下之粒線體應激反應。 結果與應用 檢測甲基化
對於不同的生物樣本及基因體區域,使用上述方法檢測CpG位點之甲基化。舉例而言,使用單分子即時定序對孕婦血漿中之游離DNA進行甲基化測定,相對於使用亞硫酸氫鹽定序進行的甲基化測定進行驗證。甲基化結果可用於不同的應用,包括確定複本數及診斷病症。下述方法不限於CpG位點,且亦可應用於本文所述之任何修飾。 胎盤組織中長DNA分子之甲基化檢測
單分子即時定序可對長度為千鹼基之DNA分子進行定序(Nattestad等人, 2018)。使用本文所述之發明對CpG位點之甲基化狀態的解密將允許吾人藉由協同使用單分子即時定序之長讀段資訊推斷甲基化狀態之單倍型資訊。為了證明推斷長讀段甲基化狀態以及其單倍型資訊的可行性,吾等對胎盤組織DNA進行定序,得到478,739個分子,該等分子由28,913,838個子讀段覆蓋。存在7個大小大於5 kb之分子。每個分子平均由3個子讀段覆蓋。
47展示沿著大小為6,265 bp之長DNA分子(亦即單倍型區塊)之甲基化狀態,該分子在ZMW孔號為m54276_180626_162240/40763503之ZMW中定序且相對於人類基因體中chr1:113246546-113252811的基因體位置進行定位。『-』代表非CpG核苷酸;『U』代表CpG位點之未甲基化狀態;且『M』代表CpG位點之甲基化狀態。以黃色突出顯示之區域4710指示CpG島區域,該區域已知一般為未甲基化的(圖47)。該CpG島中之大多數CpG位點經推導為未甲基化的(96%)。相比之下,CpG島外之75%的CpG位點經推導為未甲基化的。此等結果表明,CpG島外(例如CpG島岸/島架)之甲基化程度高於CpG島之甲基化程度。在該CpG島外的區域中,以單倍型排列之甲基化及未甲基化狀態的混合物將表明甲基化模式之變化。此類觀察結果大體上與當前的理解一致(Zhang等人, 2015;Feinberg及Irizarry, 2010)。因此,本揭示案使吾人能夠沿著長分子判讀不同的甲基化狀態,包括甲基化及未甲基化狀態,其意味著甲基化狀態之單倍型資訊可為階段性的。單倍型資訊係指一段連續的DNA上CpG位點之甲基化狀態的連接。
在一個實施例中,吾等可使用此本文中之方法來分析沿著單倍型之甲基化狀態,以檢測及分析印記區域。對印記區域進行表觀遺傳調控,以親源方式引起甲基化狀態。舉例而言,一個重要的印記區域位於人類染色體11p15.5上,且含有印記基因 IGF2、H19及 CDKN1CP57 kip2 ),其為胎兒生長之強調節因子(Brioude等人, 《自然綜述內分泌學(Nat Rev Endocrinol.)》2018;14:229-249)。印記區域之遺傳及表觀遺傳畸變將與疾病相關聯。貝克威思-威德曼症候群(BWS)為一種過度生長症候群,患者在兒童早期常常表現為巨舌畸形、腹壁缺損、偏側發育過度、腹腔器官增大及胚胎腫瘤之風險增加。BWS被認為由11p15.5區域內之遺傳或表觀遺傳缺陷引起(Brioude等人, 《自然綜述內分泌學》2018;14:229-249)。位於 H19IGF2之間的一個稱為ICR1(印記控制區1)之區域在父本對偶基因上有差異地甲基化。ICR1指導 IGF2之親源特異性表現。因此,ICR1之遺傳及表觀遺傳畸變將導致 IGF2之異常表現,其為導致BWS之可能原因之一。因此,沿著印記區域檢測甲基化狀態將具有臨床意義。
吾等自公共資料庫下載92個印記基因之資料,該公共資料庫展出當前報告之印記基因(http://www.geneimprint.org/)。此等印記基因上游及下游5-kb之區域用於進一步分析。在此等區域中,160個CpG島與此等印記基因相關聯。吾等自胎盤樣本獲得324,248個環形一致序列。移除質量低且與CpG島重疊區域短(例如小於該相關CpG島之長度的50%)之環形一致序列後,吾等獲得與9個CpG島重疊之9個環形一致序列,其對應於8個印記基因。
48為顯示9個DNA分子之表格,該等分子藉由單分子即時定序來定序且與印記區域重疊,該等印記區域包括H19、WT1-AS、WT1、DLK1、MEG3、ATP10A、LRRTM1及MAGI2。第6行含有與涉及印記區域之CpG島重疊的DNA段。『U』代表CpG上下文之未甲基化胞嘧啶;『M』代表CpG上下文之甲基化胞嘧啶。『*』代表定序結果未覆蓋之CpG位點;『-』代表非CpG位點之核苷酸;若分子與單核苷酸多形現象(SNP)重疊,則在括號中註明基因型。第7行指示整個分子之甲基化狀態。若根據本揭示案中存在之實施例顯示大部分CpG位點(例如大於50%)經甲基化,則可將分子稱為甲基化的;否則將其稱為未甲基化的。
在9個DNA分子中,5個DNA分子(55.6%)稱為甲基化的,其沒有顯著偏離50%之DNA分子將甲基化之預期。如圖48之表格的第6行中所示,大部分CpG位點顯示為以一致的方式甲基化或未甲基化,亦即作為甲基化單倍型。一個實施例為,若根據本揭示案中存在之實施例顯示大部分CpG位點(例如大於50%)經甲基化,則將分子稱為甲基化的,否則將其稱為未甲基化的。可使用其他閾值來確定分子是否甲基化,例如但不限於分子中至少10%、20%、30%、40%、50%、60%、70%、80%、90%及100%之CpG位點經分析被認為經甲基化。
在另一個實施例中,吾等可使用同時包含至少一個SNP及至少一個CpG位點分析之分子來確定區域是否可能與印記區域相關聯,或已知的印記基因是否可能為異常的(例如印記喪失)。出於說明之目的, 49展示來自印記區域之第一分子攜帶對偶基因『A』;而來自印記區域之第二分子攜帶對偶基因『G』。假設印記區域為父本印記的,來自母本單倍型之第一分子為完全未甲基化的;而來自父本單倍型之第二分子為完全甲基化的。在一個實施例中,此類假設將提供甲基化狀態之實況,從而允許根據本揭示案中存在之實施例測試鹼基修飾檢測之效能。
圖49展示測定印記區域中甲基化模式之實例。提取生物樣本中之DNA且與髮夾轉接子連接以形成環形DNA分子。關於彼等環形DNA分子之序列資訊及鹼基修飾(例如CpG位點之甲基化狀態)為未知的。對彼等環形DNA分子進行單分子即時定序。在將子讀段相對於參考基因體進行定位之後,確定源自彼等環形DNA分子之每個子讀段中鹼基的IPD、PW及序列上下文。另外,已確定彼等分子之基因型。與CG位點相關聯之量測窗口中的IPD、PW及序列上下文將與根據本揭示案中存在之實施例的參考動力學模式進行比較,以確定每個CpG之甲基化狀態。若具有不同對偶基因之兩個分子以一個完全未甲基化且另一個完全甲基化之方式顯示不同的甲基化模式,則與此兩個分子相關聯之基因體區域將為印記區域。在一個實施例中,若此類基因體區域恰好為已知的印記區域,例如,如圖49所示,則此兩個分子之甲基化模式與正常情形下之預期甲基化模式(亦即實況)一致。其可表明根據本揭示案中存在之實施例之甲基化狀態分類方法的準確性。在一個實施例中,根據本揭示案中存在之實施例所量測之甲基化模式與預期的甲基化模式之間的推導將表明印記之畸變,例如印記之喪失。
50展示測定印記區域中甲基化模式之實例。在一個實施例中,可經由分析該區域在某一譜系樹上之甲基化模式來進一步確定印記模式。舉例而言,可進行跨父本、母本基因體及後代之甲基化模式及對偶基因資訊的分析。此類譜系樹可進一步包括父本或母本祖父、父本或母本祖母的基因體或其他相關基因體。在另一個實施例中,此類分析可擴展至特定人群中的家庭三人組(母親、父親及孩子)資料集,例如根據本文中存在之實施例獲得每個個體的甲基化及基因型資訊。
如分類後所示,可確定基因型(對偶基因在盒中)及甲基化狀態。對於每一個分子,可提供每個位點之甲基化模式(例如,全部甲基化或全部未甲基化),以鑑別分子遺傳自哪個親本。或者,可確定甲基化密度,且一或多個閾值可對分子為高甲基化(例如,>80%或其他%且來自一個親本)抑或低甲基化(例如,<20%或其他%且來自另一個親本)進行分類。 cfDNA分子之甲基化檢測
作為另一個實例,游離DNA(cfDNA)甲基化亦已愈來愈多地視為非侵入性產前檢測之重要分子信號。舉例而言,吾等已證明,來自攜帶組織特異性甲基化區域之cfDNA分子可用於確定孕婦血漿中不同組織諸如嗜中性白血球、T細胞、B細胞、肝臟、胎盤之貢獻比例(Sun等人, 2015)。亦已證明使用孕婦血漿DNA甲基化檢測第21對染色體三體症之可行性(Lun等人, 2013)。母本血漿中之cfDNA分子經片段化以使得中位數大小為166 bp,比大小大約500 bp之人工片段化的大腸桿菌DNA短得多。據報導,cfDNA為非隨機片段化的,例如,血漿DNA之末端基元與組織起源諸如來自胎盤相關聯。游離DNA之此類特性使其序列上下文與人工片段化之大腸桿菌DNA極為不同。因此,通常對於游離DNA分子而言,尚不清楚此類聚合酶動力學是否能夠定量地推導甲基化程度。本專利申請案中之揭示內容將適用於但不限於孕婦血漿中之游離DNA甲基化分析,例如藉由使用自上述組織DNA分子訓練之甲基化預測模型。
使用單分子即時定序,對懷有男胎之孕婦的六個血漿DNA樣本進行定序,中位數為30,738,399個子讀段(範圍:1,431,215-105,835,846),對應於中位數111,834 CCS(範圍:61,010-503,582)。每個血漿DNA之定序中位數為262次(範圍:173-320)。資料集由Sequel I Sequencing Kit 3.0製備之DNA生成。
為了評估cfDNA分子之甲基化檢測,吾等使用亞硫酸氫鹽定序(Jiang等人, 2014)分析上述6個孕婦血漿DNA樣本之甲基化。吾等獲得6600萬個配對末端讀段之中位數(5800-8200萬個配對末端讀段)。發現總甲基化中位數為69.6%(67.1%-72.0%)。
51展示藉由新方法及習知亞硫酸氫鹽定序推導之甲基化程度的比較。y軸為根據本專利申請案中存在之實施例預測的甲基化程度。x軸為藉由亞硫酸氫鹽定序推導之甲基化程度。對單分子即時定序生成之血漿DNA結果進行中位數314,675個CpG位點(範圍:144,546-1,382,568)的分析。預測經甲基化之CpG位點的中位比例為64.7%(範圍:60.8-68.5%),其似乎與亞硫酸氫鹽定序推導之結果相當。如圖51所示,採用本發明甲基化預測方法之單分子即時定序及亞硫酸氫鹽定序推導之總體甲基化程度之間存在良好的相關性(r:0.96,p值=0.0023)。
由於亞硫酸氫鹽定序之深度較淺,其可能不適合推導人類基因體中每個CpG之甲基化程度(亦即經定序之CpG的甲基化分數)。取而代之的是,吾等藉由彙總覆蓋基因體區域之CpG位點的讀取信號來計算一些具有多個CpG位點之區域的甲基化程度,其中任何兩個連續的CpG位點在50 nt內且CpG位點之數目為至少10。在一個區域之CpG位點上經定序之胞嘧啶及胸腺嘧啶之和中,經定序之胞嘧啶的百分比指示該區域之甲基化程度。根據區域甲基化程度將區域分為不同的組。隨著甲基化程度增加,自先前訓練資料集(亦即組織DNA)習得之模型所預測的甲基化概率相應地升高( 52A)。此等結果進一步表明使用單分子即時定序預測孕婦cfDNA分子甲基化狀態的可行性及有效性。 52B顯示,根據本揭示案中存在之實施例,使用單分子即時定序估計之10-Mb基因體窗口的甲基化程度藉由亞硫酸氫鹽定序之甲基化程度很好地校正(r=0.74;p值<0.0001)。
53顯示,藉由單分子即時定序量測之孕婦母本血漿中Y染色體之基因體呈現(GR)與藉由BS-seq量測之基因體呈現很好地相關(r=0.97;P值=0.007)。此等結果表明,單分子即時定序亦能夠準確定量源自非造血組織諸如胎盤之DNA分子,該等組織貢獻的DNA一般占少數。換言之,本揭示案證明在定序之前不進行任何鹼基轉化及擴增之情況下,同時分析天然分子之複本數畸變及甲基化狀態的可行性。 基於CpG塊之方法
一些實施例可對許多基因體區域進行甲基化分析,該等基因體區域具有多個CpG位點,例如但不限於2、3、4、5、10、20、30、40、50、100個CpG位點等。此類基因體區域之大小可為例如但不限於50、100、200、300及500 nt等。此區域中CpG位點之間的距離可為例如但不限於10、20、30、40、50、100、200、300 nt等。在一個實施例中,吾等可合併50 nt內之任何兩個連續CpG位點,形成CpG塊,使得此塊中之CpG位點數超過10個。在此類基於塊之方法中,可將多個區域合併成一個窗口,該窗口表示為單個矩陣,有效地將該等區域一起處理。
舉例而言,如 54所示,將與CpG塊相關聯之所有子讀段的動力學用於甲基化分析。將該塊中每個CpG側翼的上游及下游10 nt的投射IPD概況相對於CpG位點進行人工排比,以計算平均IPD概況( 54)。「投射」一詞意謂吾等已將子讀段動力學信號與所討論之每個相應的CpG位點進行排比。CpG塊之平均IPD概況用於訓練模型(例如使用人工神經網路,簡稱ANN)以鑑別每塊之甲基化狀態。ANN分析包括一個輸入層、兩個隱藏層及一個輸出層。每個CpG塊之特徵為21個IPD值之特徵向量,其將輸入ANN中。第一隱藏層包括10個以ReLu作為激活函數之神經元。第二隱藏層包括5個以ReLu作為激活函數之神經元。最後,輸出層包括1個以Sigmoid作為激活函數之神經元,其將輸出甲基化概率。顯示甲基化概率>0.5之CpG位點被視為甲基化,否則視為未甲基化。平均IPD概況可用於分析整個分子之甲基化狀態。若高於臨限值(例如0、1、2、3等)之一定數量的位點經甲基化,或若分子具有一定的甲基化密度,則可認為整個分子經甲基化。
在未甲基化及甲基化文庫中存在9,678及9,020個CpG塊,每一塊含有至少10個CpG位點。彼等CpG塊覆蓋未甲基化及甲基化文庫之176,048及162,943個CpG位點。如 55A 55B所示,在訓練資料集及測試資料集中,吾等在預測甲基化狀態方面可達到大於90%之總體準確度。然而,此類依賴於CpG塊之實施例將大大減少能夠評定之CpG的數量。根據定義,對最少數量CpG位點之要求會將甲基化分析限制於一些特定的基因體區域(例如優先分析CpG島)。 確定起源或疾病
甲基化概況可用於檢測組織來源或確定病症之分類。甲基化概況分析可與其他臨床資料結合使用,包括影像學、習知血液檢查及其他醫學診斷資訊。甲基化概況可使用本文所述之任何方法確定。 確定複本數畸變
此部分表明,SMRT對於測定複本數為準確的,且因此可同時分析甲基化概況及複本數概況。
已顯示,複本數畸變可藉由對腫瘤組織進行定序來揭露(Chan (2013))。此處,吾等表明,癌症相關之複本數畸變可藉由使用單分子即時定序對腫瘤組織進行定序來鑑別。舉例而言,對於病例TBR3033,吾等分別獲得腫瘤DNA及其配對的相鄰非腫瘤肝組織DNA的589,435及1,495,225個一致序列(用於構築每個一致序列之子讀段的最低要求為5)。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。在一個實施例中,基因體經由電腦分為2-Mb窗口。計算相對於每個窗口進行定位之一致序列的百分比,從而得到2-Mb解析度之基因體呈現(GR)。GR可由一個位置之許多讀段來確定,該等讀段由整個基因體之總序列讀段標準化。
56A展示使用單分子即時定序之腫瘤與其配對的相鄰非腫瘤組織DNA之間的GR比率。腫瘤DNA與配對的相鄰正常組織DNA之間的複本數比率顯示在y軸上,包括第1至22號染色體之每個2-Mb窗口的基因體面元指數顯示在x軸上。對於此圖,將GR比率高於所有2-Mb窗口之第95百分位數的區域分類為具有複本數增加,而將GR比率低於所有2-Mb窗口之第5百分位數的區域分類為具有複本數損失。吾等觀察到第13號染色體之複本數損失,而第20號染色體之複本數增加。此類增加及損失均為正確的結果。
56B展示使用亞硫酸氫鹽定序之腫瘤與其配對的相鄰非腫瘤組織之間的GR比率。腫瘤DNA與配對的相鄰正常組織DNA之間的複本數比率顯示在y軸上,包括第1至22號染色體之每個2-Mb窗口的基因體面元指數顯示在x軸上。圖56A中藉由單分子即時定序鑑別之複本數變化在圖56B中匹配之亞硫酸氫鹽定序結果中得到驗證。
對於病例TBR3032,吾等分別獲得腫瘤DNA及其配對的相鄰非腫瘤組織DNA的413,982及2,396,054個一致序列(用於構築每個一致序列之子讀段的最低要求為5)。在一個實施例中,基因體經由電腦分為2-Mb窗口。計算相對於每個窗口進行定位之一致序列的百分比,亦即2-Mb基因體呈現(GR)。
57A展示使用單分子即時定序之腫瘤與其配對的相鄰非腫瘤組織DNA之間的GR比率。腫瘤DNA與配對的相鄰正常組織DNA之間的複本數比率顯示在y軸上,包括第1至22號染色體之每個2-Mb窗口的基因體面元指數顯示在x軸上。對於此圖,將GR比率高於所有2-Mb窗口之第95百分位數的區域分類為具有複本數增加,而將GR比率低於所有2-Mb窗口之第5百分位數的區域分類為具有複本數損失。吾等觀察到第4、6、11、13、16及17號染色體之複本數損失,而第5及7號染色體之複本數增加。
57B展示使用亞硫酸氫鹽定序之腫瘤與其配對的相鄰非腫瘤組織之間的GR比率。腫瘤DNA與配對的相鄰正常組織DNA之間的複本數比率顯示在y軸上,包括第1至22號染色體之每個2-Mb窗口的基因體面元指數顯示在x軸上。圖57A中藉由單分子即時定序鑑別之複本數變化在圖57B中匹配之亞硫酸氫鹽定序結果中得到驗證。
因此,可同時分析甲基化概況及複本數概況。在此例證中,由於腫瘤組織之腫瘤純度一般未必總是100%,因此擴增區域會相對增加腫瘤DNA貢獻,而缺失區域將相對降低腫瘤DNA貢獻。由於腫瘤基因體之特徵在於全局性低甲基化,因此與缺失區域相比,擴增區域將進一步降低甲基化程度。作為例證,對於病例TBR3033,使用本發明所量測之第22號染色體(複本數增加)的甲基化程度為48.2%,低於第3號染色體(複本數損失)的甲基化程度(甲基化程度:54.0%)。對於病例TBR3032,使用本發明所量測之染色體5p臂(複本數增加)的甲基化程度為46.5%,低於染色體5q臂(複本數損失)的甲基化程度(甲基化程度:54.9%)。 孕婦血漿DNA組織圖譜
58所示,吾等推理,甲基化分析之準確性將使吾等能夠將孕婦之血漿DNA甲基化概況與不同參考組織(例如肝臟、嗜中性白血球、淋巴細胞、胎盤、T細胞、B細胞、心臟、大腦等)之甲基化概況進行比較。因此,孕婦血漿DNA池中來自不同細胞類型之DNA貢獻可使用以下程序來推導。將根據本揭示案中存在之實施例確定的DNA混合物(例如血漿DNA)之CpG甲基化程度記錄在向量(X)中,且將檢索到的不同組織之參考甲基化程度記錄在矩陣(M)中,該矩陣可藉由但不限於亞硫酸氫鹽定序來定量。不同組織對DNA混合物之貢獻比例( p)可藉由但不限於二次規劃來求解。此處,吾等使用數學方程式來說明不同器官對所分析之DNA混合物的貢獻比例的推論。DNA混合物中不同位點之甲基化密度與不同組織中相應位點之甲基化密度的數學關係可表示為: , 其中 代表DNA混合物中CpG位點 i之甲基化密度; 代表細胞類型 k對DNA混合物之貢獻比例; 代表細胞類型 k中CpG位點 i之甲基化密度。當位點數目等於或大於器官數目時,可確定單個 之值。為了提高資訊量,棄去在所有參考組織類型中顯示甲基化程度變異性小的CpG位點。在一個實施例中,吾等使用一組特定的CpG位點來進行分析。舉例而言,彼等CpG位點之特徵為不同組織中甲基化程度的變異係數(CV)大於30%,且組織間最大及最小甲基化程度之間的差異大於25%。在一些其他實施例中,亦可使用5%、10%、20%、30%、40%、50%、60%、80%、90%、100%、110%、200%、300%等之CV;且可使用組織間最大及最小甲基化程度之間的差異大於5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、100%等。
可在算法中包括額外準則以提高準確性。舉例而言,所有細胞類型之總貢獻將被限制為100%,亦即 。 此外,所有器官之貢獻均必須為非負的:
由於生物學變異,觀察到的總體甲基化模式可能與自組織甲基化推導之甲基化模式不完全相同。在此類情況下,需要進行數學分析,以確定各個組織最可能的貢獻比例。在此方面,DNA中觀察到的甲基化模式與自組織推導之甲基化模式之間的差異由W表示:
每個 之最有可能之值可藉由將W降至最低來確定,W為觀察到的甲基化模式與推導的甲基化模式之間的差異。此方程式可使用數學算法來求解,例如藉由但不限於使用二次規劃、線性/非線性回歸、期望最大化(EM)算法、最大似然算法、最大後驗估計及最小平方法。
59所示,吾等觀察到,使用圖58中存在之血漿DNA組織作圖方法,懷有男胎之孕婦的母本血漿中胎盤DNA貢獻與Y染色體讀段估計之胎兒DNA分數有很好的相關性。此結果表明使用動力學追蹤孕婦血漿DNA之來源組織的可行性。 區域甲基化程度量化
此部分描述用於確定所選基因體區域之代表性甲基化程度的技術,其可使用相對較低水準之定序來完成。可使用甲基化位點之數量及甲基化位點之總數來確定每股或每分子或每個區域的甲基化程度。亦分析各種組織之甲基化程度。
吾等對11個人類組織DNA樣本進行定序,每個樣本之中位數為3070萬個子讀段(範圍:910萬-8860萬),可與人類參考基因體(hg19)進行排比。每個樣本之子讀段由中位數380萬個Pacific Biosciences單分子即時(SMRT)定序孔(範圍:110萬-1150萬)產生,每個孔含有至少一個可與人類參考基因體進行排比之子讀段。平均而言,SMRT孔中每個分子平均定序9.9次(範圍:6.5-13.4次)。人類組織DNA樣本包括1個妊娠個體之母本白血球層樣本、1個胎盤樣本、2個肝細胞癌(HCC)腫瘤組織、2個與2個先前提及之HCC組織配對的相鄰非腫瘤組織、4個健康對照個體之白血球層樣本(M1及M2來自男性個體;F1及F2來自女性個體)、1個HCC細胞株(HepG2)。定序資料彙總之詳情顯示於 60中。
圖60展示第一行中之不同組織組及第二行中之樣本名稱。「總子讀段」指示自SMRT孔產生之序列總數,包括來自瓦生股及克立克股之序列。「經定位之子讀段」列出可與人類參考基因體進行排比之子讀段的數量。「子讀段可定位性」係指可與人類參考基因體進行排比之子讀段的比例。「每個SMRT孔之平均子讀段深度」指示由每個SMRT孔產生之子讀段的平均數量。「SMRT孔之數量」係指產生可檢測子讀段之SMRT孔的數量。「可定位孔」指示含有至少一個可排比子讀段之孔的數量。「可定位孔率(%)」為含有至少一個可排比子讀段之孔的百分比。 甲基化程度及模式分析技術
在一個實施例中,吾人可量測單個核酸股(例如DNA或RNA)之甲基化密度,其定義為股內甲基化鹼基數除以股內可甲基化鹼基總數。此量測亦稱為「單股甲基化程度」。此單股量測在本揭示案之上下文中特別可行,因為單分子即時定序平台可自雙股DNA分子之兩股中之每一者獲得定序資訊。此舉藉由在製備定序文庫時使用髮夾轉接子,使雙股DNA分子之瓦生股及克立克股以環形形式連接且一起定序來促進。實際上,此結構亦可使同一雙股DNA分子之配對瓦生股及克立克股在同一反應中定序,從而可單獨確定且直接比較任何雙股DNA分子之瓦生股及克立克股上相應互補位點的甲基化狀態(例如圖20A及20B)。
此等基於股之甲基化分析無法用其他技術輕易實現。因為在不使用如本申請案所揭示之直接甲基化分析方法的情況下,吾人將需要應用另一種手段來區分甲基化鹼基與未甲基化鹼基,例如藉由亞硫酸氫鹽轉化。亞硫酸氫鹽轉化需要用亞硫酸氫鈉處理DNA,以便可將甲基化胞嘧啶及未甲基化胞嘧啶分別區分為胞嘧啶及胸腺嘧啶。在許多亞硫酸氫鹽轉化方案之變性條件下,雙股DNA分子之兩股相互解離。在許多定序應用中,使用例如Illumina平台,亞硫酸氫鹽轉化之DNA隨後藉由聚合酶鏈反應(PCR)進行擴增,聚合酶鏈反應涉及將雙股DNA解離成單股。
藉由Illumina定序,吾人可在亞硫酸氫鹽轉化之前使用甲基化轉接子製備無PCR定序文庫。即使使用此策略,雙股DNA分子之每個DNA股將被隨機選擇在流動槽中進行橋式擴增。由於定序之無規性,來自同一DNA分子之每股不太可能在同一反應中定序。即使在同一運行中分析來自同一基因座之一個以上序列讀段,亦不存在簡單的手段來確定兩個讀段來自一個雙股DNA分子之配對瓦生股及克立克股中之每一者,抑或來自兩個不同的雙股DNA分子。此類考慮為重要的,因為在本發明之某些實施例中,雙股DNA分子之兩股可表現出不同的甲基化模式。當量測多個核酸股(例如DNA或RNA)之單股甲基化密度時,吾人亦可基於 61中關於「所關注之基因體區域的甲基化程度」的概念及方程式來確定「多股甲基化程度」。
圖61展示分析甲基化模式之各種方式。將具有未知序列及甲基化資訊之雙股DNA分子(X)用轉接子連接,在一個實例中形成髮夾環結構。因此,在此實例中,包括瓦生X(a)股及克立克X(b)股之DNA分子的兩個單股以環形形式以物理方式配對在一起。瓦生股及克立克股中之位點的甲基化狀態可使用本揭示案中所描述之方法(例如,使用來自定序儀之動力學信號、電子信號、電磁信號、光信號或其他類型之物理信號)獲得。環化DNA分子中之瓦生股及克立克股可在同一反應中進行詢問。定序後,修剪掉轉接子序列。
可藉由分析確定不同的甲基化程度。在圖61之(I)中,可分析僅單股分子諸如X(a)或X(b)的甲基化模式。此分析可稱為單股甲基化模式分析。該分析可包括但不限於確定位點之甲基化狀態或甲基化模式。在圖61中,單股分子X(a)顯示甲基化模式5'-UMMUU-3',其中「U」表示未甲基化之位點且「M」表示甲基化之位點,而互補的單股分子X(b)顯示甲基化模式3'-UMUUU-5'。因此,X(b)具有與X(a)不同的甲基化模式。X(a)及X(b)之相應的單股甲基化程度分別為40%及20%。
相比之下,如(II)所示,吾人可在單個雙股DNA分子水準上分析甲基化模式(亦即考慮瓦生股及克立克股之甲基化模式。此分析可稱為單分子、雙股DNA甲基化模式分析。此範例分子X之單分子、雙股DNA甲基化程度為30%。此分析之一種變化形式為將來自瓦生股及克立克股之動力學信號組合起來分析修飾。特別地,由於CpG位點上之甲基化一般為對稱的,因此在確定位點之甲基化狀態之前,可將來自瓦生股及克立克股之動力學信號組合用於位點。在一些情形中,使用自分子之瓦生股及克立克股組合之動力學信號確定鹼基修飾的效能將優於獨立使用單股動力學信號的效能。舉例而言,如圖20B所示,與獨立使用單股(AUC:0.85)相比,組合使用來自包括瓦生股及克立克股之兩股的動力學信號將在測試資料集中產生較大AUC(0.90)。
在圖61之(III)中,確定所關注之基因體區域的甲基化程度,其中攜帶不同分子大小及不同數目之可甲基化位點(例如CpG位點)的不同DNA分子可對所關注之基因體區域作出貢獻。此分析可稱為多股甲基化程度分析。術語「多股」可指多個單股DNA分子,或多個雙股DNA分子,或其任何組合。在此實例中,存在三個雙股DNA分子覆蓋所關注之基因體區域:分子「X」、「Y」及「Z」,每個分子具有「a」及「b」股。此區域之相應甲基化程度為9/28,亦即32%。待分析之基因體區域的大小可具有1 nt、10 nt、20 nt、30 nt、40 nt、50 nt、100 nt、1 knt(千核苷酸,亦即一千個核苷酸)、2 knt、3 knt、4 knt、5 knt、10 knt、20 knt、30 knt、40 knt、50 knt、100 knt、200 knt、300 knt、400 knt、500 knt、1 Mnt(兆核苷酸,亦即100萬個核苷酸)、2 Mnt、3 Mnt、4 Mnt、5 Mnt、10 Mnt、20 Mnt、30 Mnt、40 Mnt、50 Mnt、100 Mnt或200 Mnt。基因體區域可為染色體臂或整個基因體。
在確定分子中各位點之甲基化狀態後,亦可確定甲基化模式。舉例而言,在一種情境中,在單個雙股DNA分子上存在三個連續的CpG位點,瓦生股及克立克股各自的甲基化模式可揭露為三個位點之甲基化(M)、非甲基化(N)及甲基化(M)。例如瓦生股之此模式MNM可稱為瓦生股此區域之「甲基化單倍型」。由於DNA甲基化維持活性之存在,雙股DNA分子之瓦生股及克立克股的甲基化模式可為彼此互補的。舉例而言,若瓦生股上之CpG位點經甲基化,則克立克股上之互補CpG位點亦可經甲基化。類似地,瓦生股上之非甲基化CpG位點可與克立克股上之非甲基化CpG位點互補。
在一個實施例中,吾人可量測單個DNA分子之甲基化程度,其定義為分子內甲基化鹼基或核苷酸之數目除以該分子內可甲基化鹼基或核苷酸之總數。此量測亦稱為「單分子甲基化程度」。此單分子量測在本揭示案之上下文中可能特別有用,因為單分子即時定序平台可能具有長讀取長度。當量測多個DNA分子之單分子甲基化程度時,吾人亦可基於圖61中之概念及方程式確定「多分子甲基化程度」。舉例而言,「多分子甲基化程度」可為單分子甲基化程度之平均值或中位數。
在一些實施例中,可對DNA分子上之一或多個遺傳多形現象(例如單核苷酸多形現象(SNP))以及分子上某一位點之甲基化狀態進行分析,從而揭露該分子之遺傳及表觀遺傳資訊。此類分析將揭示所分析之DNA分子的「分階段甲基化單倍型」。分階段甲基化單倍型分析可用於例如母本血漿(含有攜帶母本及胎兒遺傳及表觀遺傳特徵之游離DNA分子的混合物)中之基因體印記及游離核酸的研究中。 甲基化結果比較
圖60之表格中組織之全基因體水準的甲基化密度係使用亞硫酸氫鹽定序及使用如本揭示案中所述之單分子即時定序來確定。 62A在y軸上顯示藉由亞硫酸氫鹽定序量化之甲基化密度,在x軸上顯示組織類型。 62B在y軸上顯示藉由如本揭示案所述之單分子即時定序量化的甲基化密度,在x軸上顯示組織類型。
圖62A展示使用亞硫酸氫鹽定序(亦即樣本經亞硫酸氫鹽轉化且隨後進行Illumina定序)之不同組織的甲基化密度(Lister等人《自然》2009;462:315-322),包括HepG2、HCC腫瘤組織、與HCC腫瘤相鄰的匹配正常肝組織(亦即相鄰的正常組織)、胎盤組織及白血球層樣本。HepG2呈現最低的甲基化程度,甲基化程度為40.4%。白血球層樣本呈現最高的甲基化程度,甲基化程度為76.5%。發現HCC腫瘤組織之平均甲基化密度(51.2%)低於匹配的相鄰正常組織之平均甲基化密度(71.0%)。此與HCC腫瘤與相鄰正常組織相比在全基因體水準上處於低甲基化的預期一致(Ross等人《表觀基因體學(Epigenomics)》2010;2:245-69)。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。
使用單分子即時定序及根據本揭示案之方法對相同組織的部分進行甲基化分析。結果顯示於圖62B中。使用本揭示案之單分子即時定序方法進行甲基化分析能夠展示HepG2細胞株之甲基化程度最低,其次為所分析之HCC腫瘤組織,隨後為胎盤組織。相鄰的非腫瘤肝組織樣本之甲基化程度高於包括HCC及胎盤組織之其他組織,其中白血球層之甲基化程度最高。
63A63B63C顯示根據本文所述之方法藉由亞硫酸氫鹽定序及單分子即時定序量化的總體甲基化程度的相關性。圖63A在x軸上顯示藉由亞硫酸氫鹽定序量化之甲基化程度,在y軸上顯示使用本文所述之方法藉由單分子即時定序量化之甲基化程度。黑色實線為擬合的回歸線。虛線為兩個量測值相等的地方。
根據本文所揭示之發明,亞硫酸氫鹽定序與單分子即時定序之間的甲基化程度存在非常高的相關性(r = 0.99; P值<0.0001)。此等資料表明,使用特此揭示之單分子即時定序方法進行甲基化分析為確定組織間甲基化程度的有效手段,且能夠比較此等組織間的甲基化狀態及概況。對於甲基化程度之兩個量測值,吾等注意到圖63A中回歸線之斜率偏離1。此等結果表明,與習知大規模平行亞硫酸氫鹽定序相比,在使用根據本揭示案之單分子即時定序測定甲基化程度時,兩個量測值之間可能存在偏差(在某些情況下,此偏差可稱為偏倚)。
在一個實施例中,吾等可使用線性或LOESS(局部加權平滑)回歸來量化偏差。舉例而言,若吾等將大規模平行亞硫酸氫鹽定序(Illumina)視為參考,則根據本揭示案之單分子即時定序確定的結果可使用回歸係數進行轉換,從而調和不同平台之間的讀取結果。在圖63A中,線性回歸公式為Y=aX+b,其中「 Y」表示根據本揭示案之單分子即時定序確定的甲基化程度;「 X」表示亞硫酸氫鹽定序確定的甲基化程度;「 a」表示回歸線之斜率(例如a=0.62);「 b」表示y軸之截距(例如b=17.72)。在此情況下,由單分子即時定序確定之調和甲基化值將由( Y- b)/ a計算。在另一個實施例中,吾人可使用兩個量測值之間的偏差( M)與兩個量測值的相應平均值( )的關係,其由以下公式(1)及(2)定義: ,(1) ,(2) 其中「 S 」表示根據本發明之單分子即時定序確定的甲基化程度,「 基於亞硫酸氫鹽之甲基化 」表示亞硫酸氫鹽定序確定的甲基化程度。
圖63B展示 之間的關係。兩個量測值之平均值( )標繪在x軸上,兩個量測值之間的偏差( M)標繪在y軸上。虛線代表一條水平過零的線,在該線上資料點表明兩個量測值之間沒有差異。此等結果表明,偏差根據平均值而變化。兩個量測值之平均值愈高,偏差之幅度就愈大。 值之中位數為-8.5%(範圍:-12.6%至+2.5%),表明方法之間存在差異。
圖63C在x軸上顯示兩個量測值之平均值( ),在y軸上顯示相對偏差( RD)。相對偏差由以下公式定義: ,(3)。 虛線代表一條水平過零的線,在該線上資料點表明兩個量測值之間沒有差異。此等結果表明,偏差根據平均值而變化。兩個量測值之平均值愈大,相對推導之幅度就愈大。 RD值之中位數為-12.5%(範圍:-18.1%至+6.0%)。
據報導,習知全基因體亞硫酸氫鹽定序(Illumina)引入顯著的偏向性序列輸出且高估全局甲基化,在特定基因體區域,不同方法之間的甲基化程度量化存在顯著變化(Olova等人《基因體生物學(Genome Biol.)》2018;19:33)。本文所揭示之方法可在沒有亞硫酸氫鹽轉化之情況下進行,亞硫酸氫鹽轉化會急劇降解DNA,且可在沒有PCR擴增之情況下進行,PCR擴增可能會使過程複雜化,或可能會在確定甲基化程度時引入額外的誤差。
64A64B展示在1-Mb解析度下之甲基化模式。圖64A展示HCC細胞株(HepG2)之甲基化模式。圖64B展示來自健康對照個體之白血球層樣本的甲基化模式。染色體表意文字(每個圖中之最外環)以順時針方向自短臂末端至長臂末端排列。自外部之第二環(亦描述為中間環)顯示亞硫酸氫鹽定序確定的甲基化程度。最內環顯示根據本揭示案之單分子即時定序確定的甲基化程度。甲基化程度分類為5個等級,亦即0-20%(淺綠色)、20-40%(綠色)、40-60%(藍色)、60-80%(淺紅色)及80-100%(紅色)。如圖64A及64B所示,亞硫酸氫鹽定序(中間軌道)與根據本揭示案之單分子即時定序(最內側軌道)之間在1-Mb解析度下的甲基化概況為一致的。顯示母本白血球層樣本之甲基化程度高於HCC細胞株(HepG2)。
65A65B展示在1-Mb解析度下量測之甲基化程度的散點圖。圖65A展示HCC細胞株(HepG2)之甲基化程度。圖65B展示來自健康對照個體之白血球層樣本的甲基化程度。對於圖65A及圖65B,藉由亞硫酸氫鹽定序量化之甲基化程度在x軸上,而藉由根據本揭示案之單分子即時定序量測的甲基化程度在y軸上。實線為擬合的回歸線。虛線為兩種量測技術相等的地方。對於HCC細胞株,藉由單分子即時定序以1-Mb解析度測定之甲基化程度與藉由亞硫酸氫鹽定序量測之甲基化程度有良好的相關性(r=0.99;P<0.0001)(圖65A)。亦觀察到來自白血球層樣本之資料的相關性(r=0.87,P<0.0001)(圖65B)。
66A66B展示以100-kb解析度量測之甲基化程度的散點圖。圖66A展示HCC細胞株(HepG2)之甲基化程度。圖66B展示來自健康對照個體之白血球層樣本的甲基化程度。對於圖66A及圖66,藉由亞硫酸氫鹽定序量化之甲基化程度在x軸上,而藉由根據本揭示案之單分子即時定序量測的甲基化程度在y軸上。實線為擬合的回歸線。虛線為兩種量測技術相等的地方。當分析之解析度增加至每100-kb(或100-knt)窗口時,亦觀察到在1-Mb(或1-Mnt)解析度下兩種方法在甲基化定量量測之間的高度相關性。所有此等資料表明,本揭示案之單分子即時方法為量化基因體區域內甲基化程度或甲基化密度的有效工具,其解析度不同,例如在1-Mb(或1-Mnt)下或在100-kb(或100-knt)下。資料亦表明,本發明為評定區域間或樣本間甲基化概況或甲基化模式的有效工具。
67A67B展示在1-Mb解析度下之甲基化模式。圖67A展示HCC腫瘤組織(TBR3033T)之甲基化模式。圖67B展示相鄰正常組織(TBR3033N)之甲基化模式。染色體表意文字(每個圖中之最外環)以順時針方向自短臂末端至長臂末端排列。自外部之第二環(亦描述為中間環)顯示亞硫酸氫鹽定序確定的甲基化程度。最內環顯示根據本揭示案之單分子即時定序確定的甲基化程度。甲基化程度分類為5個等級,亦即0-20%(淺綠色)、20-40%(綠色)、40-60%(藍色)、60-80%(淺紅色)及80-100%(紅色)。如圖67A所示,吾等可檢測HCC腫瘤組織DNA(TBR3033T)之低甲基化,其可與圖67B中之相鄰正常肝組織DNA(TBR3033N)區分開。藉由亞硫酸氫鹽定序(中間軌道)及根據本揭示案之單分子即時定序(最內側軌道)確定的甲基化程度及模式為一致的。顯示相鄰正常組織DNA的甲基化程度高於HCC腫瘤組織DNA的甲基化程度。
68A68B展示以1-Mb解析度量測之甲基化程度的散點圖。圖68A展示HCC腫瘤組織(TBR3033T)之甲基化程度。圖68B展示相鄰正常組織之甲基化程度。對於圖68A及圖68B,藉由亞硫酸氫鹽定序量化之甲基化程度在x軸上,而藉由根據本揭示案之單分子即時定序量測的甲基化程度在y軸上。實線為擬合的回歸線。虛線為兩種量測技術相等的地方。對於HCC腫瘤組織DNA,藉由單分子即時定序以1-Mb解析度量測之甲基化程度與藉由亞硫酸氫鹽定序測定之甲基化程度有良好的相關性(r=0.96; P值<0.0001)(圖68A)。來自相鄰正常肝組織樣本之資料亦為相關的(r=0.83, P值<0.0001)(圖68B)。
69A69B展示以100-kb解析度量測之甲基化程度的散點圖。圖69A展示HCC腫瘤組織(TBR3033T)之甲基化程度。圖69B展示相鄰正常組織(TBR3033N)之甲基化程度。對於圖69A及圖69B,藉由亞硫酸氫鹽定序量化之甲基化程度在x軸上,而藉由根據本揭示案之單分子即時定序量測的甲基化程度在y軸上。實線為擬合的回歸線。虛線為兩種量測技術相等的地方。當以更高的解析度(例如以100-kb窗口)進行甲基化程度之量測時,亦觀察到兩種方法在1-Mb解析度下甲基化定量資料之如此高程度的相關性。
70A70B展示其他腫瘤組織及正常組織在1-Mb解析度下之甲基化模式。圖70A展示HCC腫瘤組織(TBR3032T)之甲基化模式。圖70B展示相鄰正常組織(TBR3032N)之甲基化模式。染色體表意文字(每個圖中之最外環)以順時針方向自短臂末端至長臂末端排列。自外部之第二環(亦描述為中間環)顯示亞硫酸氫鹽定序確定的甲基化程度。最內環顯示根據本揭示案之單分子即時定序確定的甲基化程度。甲基化程度分類為5個等級,亦即0-20%(淺綠色)、20-40%(綠色)、40-60%(藍色)、60-80%(淺紅色)及80-100%(紅色)。如圖70A所示,吾等可檢測HCC腫瘤組織DNA(TBR3032T)之低甲基化,其可與圖70B中之相鄰正常肝組織DNA(TBR3032N)區分開。藉由亞硫酸氫鹽定序(中間軌道)及使用本發明之單分子即時定序(最內側軌道)確定的甲基化程度及模式為一致的。顯示相鄰正常組織DNA的甲基化程度高於HCC腫瘤組織DNA的甲基化程度。
71A71B展示以1-Mb解析度量測之甲基化程度的散點圖。圖71A展示HCC腫瘤組織(TBR3032T)之甲基化程度。圖71B展示相鄰正常組織之甲基化程度。對於圖71A及圖71B,藉由亞硫酸氫鹽定序量化之甲基化程度在x軸上,而藉由根據本揭示案之單分子即時定序量測的甲基化程度在y軸上。實線為擬合的回歸線。虛線為兩種量測技術相等的地方。對於HCC腫瘤組織DNA,藉由單分子即時定序以1-Mb解析度量測之甲基化程度與藉由亞硫酸氫鹽定序測定之甲基化程度有良好的相關性(r=0.98;P<0.0001)(圖71A)。來自相鄰正常肝組織樣本之資料亦為相關的(r=0.87,P<0.0001)(圖71B)。
72A72B展示以100-kb解析度量測之甲基化程度的散點圖。圖72A展示HCC腫瘤組織(TBR3032T)之甲基化程度。圖72B展示相鄰正常組織(TBR3032N)之甲基化程度。對於圖72A及圖72B,藉由亞硫酸氫鹽定序量化之甲基化程度在x軸上,而藉由根據本揭示案之單分子即時定序量測的甲基化程度在y軸上。實線為擬合的回歸線。虛線為兩種量測技術相等的地方。當以更高的解析度(例如以100-kb窗口)進行甲基化程度之量測時,亦觀察到兩種方法在1-Mb解析度下甲基化定量資料之如此高程度的相關性。 腫瘤與相鄰正常組織之間的甲基化差異區域
在癌症基因體之區域中經常發現甲基化體畸變。此類畸變之一個實例為所選基因體區域之低甲基化及高甲基化(Cadieux等人《癌症研究(Cancer Res.)》2006;66:8469-76;Graff等人《癌症研究》1995;55:5195-9;Costello等人《自然遺傳學(Nat Genet.)》2000;24:132-8)。另一個實例為所選基因體區域中甲基化及未甲基化鹼基的異常模式。此部分表明,測定甲基化之技術可用於進行定量分析及分析腫瘤之診斷。
圖73展示腫瘤抑制基因 CDKN2A附近之甲基化異常模式的實例。用藍色突出顯示並加下劃線的座標表示CpG島。黑色填充點表示甲基化之位點。未填充之點表示未甲基化之位點。每條帶點的水平線右側括號內的數字表示片段的大小、單分子甲基化密度及CpG位點的數量。舉例而言,(3.3 kb, MD:17.9%, CG:39)意謂此片段之大小為3.3 kb,此片段之甲基化程度為17.9%且CpG位點之數量為39。MD代表甲基化密度。
如圖73所示, CDKN2A(細胞週期素依賴性激酶抑制劑2A)基因編碼包括INK4A(p16)及ARF(p14)之兩種蛋白質,充當腫瘤抑制劑。在與腫瘤組織相鄰的非腫瘤組織中,有兩個分子(分子7301及分子7302)覆蓋 CDKN2A基因之重疊區域。分子7301及分子7302之單個雙股DNA分子的甲基化程度分別顯示為17.9%及7.6%。相反,發現腫瘤組織中存在之分子7303之單個雙股DNA分子的甲基化程度為93.9%,遠高於配對的相鄰非腫瘤組織中存在之分子的甲基化程度。另一方面,吾人亦可使用與腫瘤組織相鄰的非腫瘤組織中存在之分子7301及7302來計算多股甲基化程度。結果,多股甲基化程度為9.7%,低於腫瘤組織的甲基化程度(93.9%)。不同的甲基化程度表明,吾人可使用單個雙股分子甲基化程度及/或多股甲基化程度來檢測或監測疾病,諸如癌症。
74A74B展示根據本發明實施例之藉由單分子即時定序檢測之差異性甲基化區域。圖74A展示癌症基因體中之低甲基化。圖74B展示癌症基因體中之高甲基化。x軸表示CpG位點之座標。用藍色突出顯示並加下劃線的座標表示CpG島。黑色填充點表示甲基化之位點。未填充之點表示未甲基化之位點。每條帶點的水平線右側括號內的數字表示片段的大小、片段級甲基化密度及CpG位點的數量。舉例而言,(3.1 kb, MD:88.9%, CG:180)意謂此片段之大小為3.1 kb,此片段之甲基化密度為88.9%且CpG位點之數量為180。
圖74A展示接近 GNAS基因之區域,與相鄰的正常肝組織相比,HCC腫瘤組織中呈現更多的低甲基化片段。圖74B展示接近 ESR1基因之區域,其在HCC組織中呈現高甲基化片段,但與相應區域進行排比的來自配對相鄰非腫瘤組織的DNA片段反而顯示出低甲基化。如圖74B所示,當癌症樣本與非癌症樣本進行比較時,個別DNA分子之甲基化概況或甲基化單倍型足以揭示彼等基因體區域,亦即 GNASESR1之異常甲基化狀態。
此等資料表明,特此揭示之單分子即時定序甲基化分析可確定個別DNA片段上每個CpG位點之甲基化狀態(無論甲基化或未甲基化)。單分子即時定序之讀取長度比Illumina定序之讀取長度長得多(大約千鹼基長),Illumina定序每次讀取通常可跨越100-300 nt長度(De Maio等人《微生物基因體學(Micob Genom.)》2019;5(9))。將單分子即時定序之長讀取長度特性與吾等特此揭示之甲基化分析方法相結合,吾人可容易地確定沿著任何單個DNA分子存在的多個CpG位點的甲基化單倍型。甲基化概況係指自基因體之一個座標至一段連續DNA(例如在同一染色體上,或在細菌質體內,或在病毒基因體之單個DNA段內)內之另一個座標的CpG位點的甲基化狀態。
由於單分子即時定序無需事先進行擴增即可單獨分析每個DNA分子,因此對任何單個DNA分子確定之甲基化概況實際上為甲基化單倍型,意味著同一DNA分子自一端至另一端之CpG位點的甲基化狀態。若自同一基因體區域對一或多個分子進行定序,則可使用如圖61所示之相同公式,自多個DNA片段之資料彙總基因體區域內所有經定序CpG位點中每個CpG位點的甲基化%(亦即甲基化程度或甲基化密度)。對於所有經定序CpG位點,可報告每個CpG位點之甲基化%,從而提供經定序基因體區域之甲基化概況。或者,可自經定序基因體區域內之所有讀段及所有位點彙總資料,提供該區域之一個甲基化%值,亦即以與圖64至72所示之1-Mb或1-kb區域之甲基化程度計算方式相同的方式。 病毒DNA甲基化分析
此部分表明,本揭示案之甲基化技術可用於準確測定病毒DNA之甲基化程度。
75展示使用單分子即時定序之兩對HCC組織樣本與相鄰非腫瘤組織樣本之間的B型肝炎病毒DNA的甲基化模式。每個箭頭代表HBV基因體中之一個基因註釋。帶有『P』、『S』、『X』及『C』之箭頭表示關於HBV基因體之基因註釋:分別編碼聚合酶、表面抗原、X蛋白及核心蛋白。吾等鑑別出一個大小為1,183 bp之片段(分子I),其來源於相鄰的非腫瘤組織,跨度為2,278至3,141的HBV基因體,以虛線矩形突出顯示,顯示甲基化程度為12%。吾等亦鑑別出三個片段(分子II、III及IV),分別為3,215 bp、2,961 bp及3,105 bp,均來源於腫瘤組織。其中,HCC腫瘤中之兩個片段(分子III及IV)與非腫瘤組織中分子I所跨越的HBV基因體區域重疊。與虛線矩形中突出顯示之HBV區域(HBV基因體位置:2,278 -3,141)的低甲基化程度(12%)相比,HCC組織中彼等片段(分子III及IV)之甲基化程度更高(亦即24%及30%)。此等結果表明,使用單分子即時定序之方法為可行的,可確定病毒基因體中之甲基化模式,且能夠鑑別HCC與及HCC組織之間HBV的差異甲基化區域(DMR)。因此,根據本揭示案,使用單分子即時定序確定整個病毒基因體的甲基化狀態將提供一種使用組織活檢體研究臨床相關性的新工具。
此DMR區域恰好與基因P、C及S重疊。據報導,與具有HBV感染但無癌症之肝組織相比,此區域在HCC組織中亦被證明為高甲基化的(Jain等人《科學報告(Sci Rep.)》 2015;5:10478;Fernandez等人《基因體研究》 2009;19:438-51)。
吾等將四名患有肝硬化但無HCC之患者之肝組織的亞硫酸氫鹽定序結果進行彙總,獲得1,156個HBV片段用於甲基化分析。 76A顯示患有肝硬化但無HCC之患者的肝組織中B型肝炎病毒DNA的甲基化程度。另外,吾等將15名患者之HCC腫瘤組織的亞硫酸氫鹽定序結果進行彙總,獲得736個HBV片段用於甲基化分析。 76B展示HCC腫瘤組織中B型肝炎病毒DNA的甲基化程度。如圖76A及圖76B所示,吾等亦藉由大規模平行亞硫酸氫鹽定序觀察到HBV之DMR區域(HBV基因體位置:1,982 - 2,435)在HCC組織中之甲基化程度高於肝硬化肝組織。此等結果表明,確定病毒基因體甲基化狀態之方法為有效的。 變體相關之甲基化分析
不同的對偶基因可能與不同的甲基化概況相關聯。舉例而言,印記基因可具有一個對偶基因之甲基化程度高於另一個對偶基因。此部分表明,甲基化概況可用於區分某些基因體區域之對偶基因。
一個含有單個DNA模板之單分子即時定序孔將產生許多子讀段。子讀段包括動力學特徵[例如脈衝間持續時間(IPD)及脈衝寬度(PW)]及核苷酸組成。在一個實施例中,來自一個單分子即時定序孔之子讀段可用於產生一致序列(亦稱為環形一致序列,CCS),其可顯著減少定序錯誤(例如錯配、插入或缺失)。本文描述CCS之其他細節。在一個實施例中,可使用與人類參考基因體進行排比之彼等子讀段構築一致序列。在另一個實施例中,一致序列可藉由將子讀段相對於同一單分子即時定序孔中之最長子讀段進行定位來構築。
77說明分階段甲基化單倍型分析之原理。填充的棒棒糖代表分類為甲基化之CpG位點。未填充的棒棒糖代表分類為未甲基化之CpG位點。
如圖77中之一個實施例所示,將子讀段與人類參考基因體進行排比。將來自一個單分子即時定序孔之經排比子讀段進行摺疊以形成一致序列。一致序列一般可使用存在於每個排比位置之子讀段中的最頻繁的核苷酸來確定。因此,核苷酸變體,包括但不限於單核苷酸變體、插入及缺失,可自一致序列中鑑別出。根據本揭示案,可使用由核苷酸變體標記之同一分子中的平均IPD及PW來確定甲基化模式。因此,吾等可進一步確定變體相關之甲基化模式。同一分子中之甲基化狀態可視為甲基化單倍型。甲基化單倍型可能不容易直接由兩個或更多個短DNA分子構築,因為可能沒有分子標記可區分兩個或更多個片段化之短DNA分子是來源於原始單個分子還是由兩個或更多個不同的原始分子貢獻。合成長讀段技術(諸如10X Genomics開發之連鎖讀段定序)提供一種可能性,亦即將單個長DNA分子分佈至一個分區(諸如液滴)中,且用相同的分子條形碼序列標記源自該長DNA分子之短DNA分子。然而,此條形碼步驟涉及不會保留原始甲基化狀態之PCR擴增。
此外,若吾人試圖使用亞硫酸氫鹽處理長DNA分子,則亞硫酸氫鹽處理前的第一步涉及在破壞性條件下之DNA變性,將雙股DNA變為單股DNA,因為亞硫酸氫鹽僅可在某些化學條件下作用於單股DNA分子。此DNA變性步驟將使長的DNA分子降解為短的片段,導致原始甲基化單倍型資訊的丟失。基於亞硫酸氫鹽之甲基化分析的第二個缺點將使雙股DNA在亞硫酸氫鹽轉化步驟中變性為單股DNA,亦即瓦生股及克立克股。對於一個分子,有50%的幾率對瓦生股進行定序,50%的幾率對克立克股進行定序。在數以百萬計的瓦生股及克立克股中,同時對一個分子之瓦生股及克立克股進行定序的幾率極低。即使假設一個分子之瓦生股及克立克股均已經定序,但仍無法明確判定此類瓦生股及克立克股是來源於原始的單個片段還是由兩個或更多個不同的原始片段貢獻。Liu等人最近介紹一種不含亞硫酸氫鹽之定序方法,用於檢測甲基化胞嘧啶及羥甲基胞嘧啶(Liu等人《自然生物技術(Nat Biotechnol.)》2019;37:424-429),該方法在溫和的條件下使用基於十-十一易位(TET)酶之轉化,導致DNA的降解較少。然而,其涉及酶促反應之兩個連續步驟。酶促反應之任一步驟的轉化率低均會顯著影響總體轉化率。另外,即使對於此不含亞硫酸氫鹽之檢測甲基化胞嘧啶的定序方法,定序結果中仍存在區分分子之瓦生股及克立克股的困難。
相反,在本發明之實施例中,分子之瓦生股及克立克股經由鐘形轉接子共價連接以形成環形DNA分子。因此,分子之瓦生股及克立克股均在同一反應孔中定序,且可確定各股之甲基化狀態。
本發明實施例之一個優點為能夠確定長的連續DNA分子(例如長度為千鹼基或千核苷酸)之甲基化及遺傳(亦即序列)資訊。使用短讀段定序技術產生此類資訊較為困難。對於短讀段定序技術,吾人必須使用遺傳或表觀遺傳特徵的支架將多個短讀段之定序資訊結合起來,從而可推斷出一長段的甲基化及遺傳資訊。然而,由於此類遺傳或表觀遺傳錨點之間的距離,此舉在許多情形中可證明具有挑戰性。舉例而言,平均每1 kb就有一個SNP,而目前的短讀段定序技術通常可對每個讀段進行至多300 nt的定序,即使在成對末端的格式中亦產生600 nt。
在一個實施例中,變體相關之甲基化單倍型分析可用於研究印記基因之甲基化模式。印記區域以親源方式經受表觀遺傳調控(例如CpG甲基化)。舉例而言,對圖60之表格中之一個白血球層DNA樣本(M2)進行定序,獲得約1.52億個子讀段。對於此樣本,53%之單分子即時定序孔產生至少一個可與人類參考基因體進行排比的子讀段。每個SMRT孔之平均子讀段深度為7.7倍。吾等總共獲得約300萬個一致序列。約91%之參考基因體由一致序列覆蓋至少一次。對於覆蓋區域,定序深度為7.9倍。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。
78展示根據一致序列確定之定序分子的大小分佈,中位數大小為6,289 bp(範圍:66-198,109 bp)。片段大小(bp)顯示在x軸上,與片段大小相關的頻率(%)顯示在y軸上。
79A79B79C79D展示印記區域中對偶基因甲基化模式的實例。x軸表示CpG位點之座標。用藍色突出顯示並加下劃線的座標表示CpG島。黑色填充點表示甲基化之CpG位點。未填充之點表示未甲基化之CpG位點。每個水平系列之填充及未填充之點(亦即CpG位點)當中嵌入之字母表示SNP位點之對偶基因。每個水平系列點右側括號內的數字表示片段的大小、片段級甲基化密度及CpG位點的數量。舉例而言,(10.0 kb, MD:79.1%, CG:139)表明相應片段之大小為10.0 kb,片段之甲基化密度為79.1%且CpG位點之數量為139。虛線矩形勾勒出每個基因內甲基化差異最大的區域。
79A展示11個定序片段,中位數大小為11.2 kb(範圍:1.3-25 kb),源自 SNURF基因。 SNURF基因為母本印記的,意味著個體自母親繼承之基因複本經甲基化且為轉錄沉默的。如圖79A所示,在虛線矩形中, C 對偶基因相關片段為高度甲基化的,而 T 對偶基因相關片段為高度未甲基化的。高度甲基化可表明超過70%、80%、90%、95%或99%之位點經甲基化。對偶基因特異性甲基化模式可在其他印記基因中觀察到,包括 PLAGL1 79B)、 NAP1L5 79C)及 ZIM2 79D)。圖79B顯示,對於 PLAGL1 T 對偶基因相關片段為高度未甲基化的,而 C 對偶基因相關片段為高度甲基化的。 79C顯示,對於 NAP1L5 C 對偶基因相關片段為高度未甲基化的,而 T 對偶基因相關片段為高度甲基化的。 79D顯示,對於 ZIM2 C 對偶基因相關片段為高度未甲基化的,而 T 對偶基因相關片段為高度甲基化的。
80A80B80C80D展示非印記區域中對偶基因甲基化模式的實例。x軸表示CpG位點之座標。用藍色突出顯示並加下劃線的座標表示CpG島。黑色填充點表示甲基化之CpG位點。未填充之點表示未甲基化之CpG位點。每個水平系列之填充及未填充之點(亦即CpG位點)當中嵌入之字母表示單核苷酸多形現象(SNP)位點之對偶基因。每個水平系列點右側括號內的數字表示片段的大小、片段級甲基化密度及CpG位點的數量。虛線矩形表示隨機選擇的區域,用於計算括號中報告的甲基化密度。與圖79A-79D中之結果相反,在非印記基因中不存在此類可觀察的對偶基因甲基化模式。圖80A顯示在chr7區域中沒有不同的對偶基因甲基化模式。圖80B顯示在chr12區域中沒有不同的對偶基因甲基化模式。圖80C顯示在chr1區域中沒有不同的對偶基因甲基化模式。圖80D顯示在另一個chr1區域中沒有不同的對偶基因甲基化模式。
81展示對偶基因特異性片段之甲基化程度的表格。第一行列出「印記基因」及「隨機選擇的區域」的類別。第二行列出特定基因。第三行列出基因中SNP之第一個對偶基因。第四行列出基因中SNP之第二個對偶基因。第五行顯示與第一個對偶基因相連之片段的甲基化程度。第六行顯示與第二個對偶基因相連之片段的甲基化程度。對於彼等印記基因,與對偶基因2相連之片段的甲基化程度(平均值:88.6%;範圍84.6-91.1%)遠高於彼等與對偶基因1相連之片段(平均值:12.2%;範圍7.6-15.7%)( P值=0.03),表明存在對偶基因特異性甲基化。相比之下,彼等隨機選擇的區域之間的甲基化程度沒有顯著變化( P值=1),表明不存在對偶基因特異性甲基化。 妊娠期游離DNA分析
在此例證中,證明特此揭示之方法適用於分析自懷有至少一個胎兒之婦女獲得之血漿或血清中的游離核酸。在妊娠期間,在母體循環中發現來自胎盤細胞之游離DNA及游離RNA分子。此類胎盤來源之游離核酸分子亦稱為母體血漿中之游離胎兒核酸或循環游離胎兒核酸。游離胎兒核酸存在於母體血漿中之母體游離核酸之背景中。舉例而言,循環游離胎兒DNA分子作為少量物種存在於母體血漿及血清中之游離母體DNA背景中。
為了區分母體血漿或血清中之游離胎兒DNA與游離母體DNA,眾所周知,吾人可使用遺傳或表觀遺傳手段或結合使用。在遺傳學上,胎兒基因體可藉由父本遺傳的胎兒特異性SNP對偶基因、父本遺傳的突變或重生突變而與母本基因體不同。表觀遺傳學上,與母體血細胞之甲基化體相比,胎盤甲基化體一般為低甲基化的(Lun等人《臨床化學(Clin Chem.)》2013;59:1583-94)。由於胎盤為游離胎兒DNA之主要貢獻者,而母體血細胞為母體循環(血漿或血清)中游離母體DNA之主要貢獻者,因此與血漿或血清中游離母體DNA相比,游離胎兒DNA分子一般為低甲基化的。存在特定的基因體基因座,其中與母體血細胞相比,胎盤為高甲基化的。舉例而言, RASSF1A之啟動子及外顯子1區域在胎盤中的甲基化程度高於母體血細胞(Chiu等人《美國病理學雜誌(Am J Pathol.)》2007;170:941-950)。因此,與來自同一基因座之循環游離母體DNA相比,來源於此 RASSF1A基因座之循環游離胎兒DNA將為高甲基化的。
在實施例中,可基於兩個循環核酸池之間的差異性甲基化狀態,將游離胎兒DNA與游離母體DNA分子區分開。舉例而言,發現沿著游離DNA分子之CpG位點大部分為未甲基化的,此分子可能來自胎兒。若發現沿著游離DNA分子之CpG位點大部分甲基化,則此分子可能來自母親。本領域中熟習此項技術者已知有數種方法來確定此類分子是否確實來自胎兒或母親。一種方法為將定序分子之甲基化模式與胎盤或母體血細胞中相應基因座之已知甲基化概況進行比較。
82展示使用甲基化概況確定妊娠中血漿DNA之胎盤來源的實例。用藍色突出顯示並加下劃線的座標表示CpG島。黑色填充點表示甲基化之位點。未填充之點表示未甲基化之位點。每條帶點的水平線附近括號內的數字表示片段的大小、單分子甲基化密度及CpG位點的數量。
如圖82所示,若母體血漿游離DNA分子與 RASSF1A之啟動子區域(已知在胎盤組織中特異性甲基化之區域)進行排比且使用本發明方法生成之定序資料為高甲基化的,則此分子可能來源於胎兒或胎盤。相反,顯示低甲基化之分子可能來源於母體背景DNA(主要為造血來源)。
83展示用於胎兒特異性甲基化分析之方法。該方法包括利用含有胎兒特異性SNP對偶基因或胎兒特異性突變(例如父本遺傳的或自然界中重生的)的定序分子。當鑑別出此類胎兒特異性遺傳特徵時,存在於同一游離DNA分子上之鹼基的甲基化狀態反映游離胎兒DNA或胎盤甲基化體的甲基化概況。當血漿游離DNA定序揭露母本基因體中不存在之對偶基因或突變時(例如藉由分析母本基因體DNA),或藉由分析父本DNA或已知在家族中傳播的DNA(例如藉由分析先證者之DNA),可發現胎兒特異性遺傳特徵。
胎兒特異性DNA分子之甲基化可藉由分析彼等攜帶與母本基因體中同型接合對偶基因不同的對偶基因的DNA片段來確定。可預期胎兒DNA分子之甲基化低於母體DNA分子之甲基化。
舉例而言,對一名孕婦之白血球層DNA及其匹配的胎盤DNA進行定序,分別獲得59x及58x單倍體基因體覆蓋率。吾等鑑別出總共822,409個資訊性SNP,其中母親為同型接合子且胎兒為異型接合子。吾等經由單分子即時定序,在母體血漿(M13160)中發現2,652個胎兒特異性片段及24,837個共享片段(亦即攜帶共享對偶基因之片段;主要來源與母體)。胎兒DNA分數為19.3%。根據本揭示案,推導出彼等胎兒特異性片段及共享片段之甲基化概況。結果發現,胎兒特異性片段之甲基化程度為57.4%,而共享片段之甲基化程度為69.9%。此發現與目前孕婦血漿中胎兒DNA之甲基化程度低於母體DNA的認識一致(Lun等人, 《臨床化學》2013;59:1583-94)。
甲基化模式可用於診斷或監測目的。舉例而言,母體血漿樣本之甲基化概況已用於確定胎齡(https://www.ncbi.nlm.nih.gov/pubmed/27979959)。一種應用為作為品質控制步驟。另一種潛在應用為監測妊娠之「生物」與「時間」年齡。此應用可用於早產之檢測或風險評估。其他實施例可用於分析母體血液中之胎兒細胞。在其他實施例中,此類胎兒細胞可藉由基於抗體之方法或藉由使用細胞標誌物(例如,在細胞表面上或在細胞質中)之選擇性染色來鑑別,或藉由流動式細胞測量術或顯微操縱或顯微解剖或物理方法(例如,經由腔室、表面或容器之差異性流速)來富集。 使用不同試劑進行甲基化檢測
此部分表明,甲基化技術不限於特定的試劑系統。
使用不同的試劑系統進行甲基化分析,以確認技術可應用。舉例而言,使用Sequel II System(Pacific Biosciences)進行SMRT-seq,以進行單分子即時定序。使用SMRTbell Express Template Prep Kit 2.0(Pacific Biosciences)對剪切的DNA分子進行單分子即時(SMRT)定序模板構築。用SMRT Link v8.0軟體(Pacific Biosciences)計算定序引子黏接及聚合酶結合條件。簡言之,使定序引子v2與定序模板黏接,且隨後使用Sequel II Binding and Internal Control Kit 2.0(Pacific Biosciences)使聚合酶與模板結合。在Sequel II SMRT Cell 8M上進行定序。用Sequel II Sequencing Kit 2.0(Pacific Biosciences)在Sequel II系統上收集定序影片30小時。在其他實施例中,其他化學試劑及反應緩衝液將用於SMRT-seq。在一個實施例中,聚合酶將根據其甲基化狀態具有沿著DNA模板股併入核苷酸之不同動力學特徵(Huber等人《核酸研究(Nucleic Acids Res.)》2016;44:9881-9890)。在本揭示案中,除非另外指出,否則使用定序引子v1生成結果。
為了證明在本文所述之揭示內容中本發明在使用不同試劑之情況下的用途,吾等分析基於不同定序套組產生之SMRT-seq資料,該等套組包括但不限於Sequel I Sequencing Kit 3.0、RS II、Sequel II Sequencing Kit 1.0及Sequel II Sequencing Kit 2.0。RS II包括每個SMRT細胞150,000 ZMW。Sequel每個SMRT細胞使用1,000,000 ZMW。Sequel II每個SMRT細胞使用800萬ZMW,且具有兩個定序套組(1.0及2.0)。此分析涉及兩個資料集。第一資料集係基於全基因體擴增後之DNA製備的,代表未甲基化狀態。第二類型資料集係基於M.SsssI甲基轉移酶處理後之DNA製備的,代表甲基化狀態。此等資料使用Sequel定序儀中之Sequel Sequencing Kit 3.0;Sequel II定序儀中之Sequel II Sequencing Kit 1.0及Sequel II Sequencing Kit 2.0生成。因此,吾等獲得具有不同試劑(例如聚合酶)產生之動力學概況的三個資料集。將每個資料集分成一個訓練資料集及一個測試資料集,用於評估使用根據本揭示案之CNN模型的效能。 量測窗口
84A84B84C展示SMRT-seq之不同試劑套組的不同量測窗口大小在包含全基因體擴增資料(未甲基化之CpG位點)及M.SsssI處理之資料(甲基化之CpG位點)之訓練資料集中的效能。真陽性率標繪在y軸上,假陽性率標繪在x軸上。圖84A展示基於Sequel Sequencing Kit 3.0生成之SMRT-seq資料。圖84B展示基於Sequel II sequencing Kit 1.0生成之SMRT-seq資料。圖84C展示基於Sequel II Sequencing Kit 2.0生成之SMRT-seq資料。在圖中,『-』表示所分析之CpG胞嘧啶位點的上游信號。『+』表示所分析之CpG胞嘧啶位點的下游信號。舉例而言,『-6 nt』表示所分析之CpG胞嘧啶位點的6 nt上游信號。『+6 nt』表示所分析之CpG胞嘧啶位點的6 nt下游信號。『±6 nt』表示包括所分析之CpG胞嘧啶位點的6 nt上游信號及6 nt下游信號(亦即CpG胞嘧啶位點側翼總共12 nt序列)。
對於基於Sequel Sequencing Kit 3.0之訓練資料集,如圖84A所示,使用包含所分析之CpG胞嘧啶上的信號及該胞嘧啶位點之6 nt上游信號(由-6 nt表示)(例如IPD、PW、相對位置及序列組成)的量測窗口,AUC值為0.50,表明沒有區分甲基化之CpG胞嘧啶與未甲基化之CpG胞嘧啶的鑑別力。然而,對於基於Sequel II Sequencing Kit 1.0及2.0之訓練資料集,相應的AUC值為0.62(圖84B)及0.75(圖84C)。此等資料證明,SMRT-seq中使用的不同試劑具有不同的固有動力學概況。此等資料表明,本文所揭示之方法易於適應不同試劑的使用。此外,隨著試劑的進一步發展,例如使用不同的聚合酶及其他化學試劑,可潛在地提高檢測鹼基修飾之準確性。
作為另一個實例,對於基於Sequel Sequencing Kit 3.0之訓練資料集,如圖84A所示,使用包含CpG胞嘧啶位點之10 bp上游信號(由-10 nt表示)的量測窗口,AUC值為0.50,表明沒有區分甲基化之CpG胞嘧啶與未甲基化之CpG胞嘧啶的鑑別力。然而,對於基於Sequel II Sequencing Kit 1.0及2.0之訓練資料集,相應的AUC值為0.66(圖84B)及0.79(圖84C),其表明與包含6 nt上游信號之量測窗口相比有所改進。此等資料證實,用於SMRT-seq之不同試劑具有不同的固有動力學概況。此等資料表明,本文所揭示之方法易於適應不同試劑的使用。
與具有上游信號之量測窗口相比,具有下游信號之量測窗口可導致分類效能之更大改進。舉例而言,對於基於Sequel Sequencing Kit 3.0之訓練資料集,如圖84A所示,使用包含CpG胞嘧啶位點之6 nt下游信號(+6 nt)的量測窗口,AUC值為0.94,遠大於使用6 nt上游信號的AUC值(AUC:0.5)。對於基於Sequel II Sequencing Kit 1.0及2.0之訓練資料集,相應的AUC值分別為0.95(圖84B)及0.92(圖84C),表明與包含上游6 nt之量測窗口相比有所改進。此等資料表明,與序列上下文相關聯之動力學特徵將改良使用但不限於CNN模型之分類能力。此等資料亦表明,經由調整量測窗口,本文中之揭示內容將適用於由不同試劑及定序條件(例如不同聚合酶、其他化學試劑、其濃度及定序反應參數(例如持續時間))產生的資料集。使用包括CpG胞嘧啶位點之10 nt下游信號的量測窗口進行分析將得出類似的結論(圖84A、84B及84C)。
在另一個實施例中,吾人可使用包含所分析之胞嘧啶上的信號以及該胞嘧啶之上游及下游信號的量測窗口。舉例而言,如圖84A、84B及84C所示,使用包含6 nt上游信號及6 nt下游信號(由±6 nt表示)之量測窗口,發現基於Sequel Sequencing Kit 3.0、Sequel II Sequencing Kit 1.0及2.0之訓練資料集的AUC值分別為0.94、0.95及0.92。使用包含10 nt上游信號及10 nt下游信號(由±10 nt表示)之量測窗口,發現基於Sequel Sequencing Kit 3.0、Sequel II Sequencing Kit 1.0及2.0之訓練資料集的AUC值分別為0.94、0.95及0.94。此等資料表明,本文中之揭示內容將廣泛適用於由不同試劑及定序反應參數產生之資料集。
85A85B85C顯示,當應用自訓練資料集訓練之CNN模型時,自具有不同定序套組之不同量測窗口的測試資料集獲得結果。真陽性率標繪在y軸上,假陽性率標繪在x軸上。圖例中之標註相當於圖84A、84B及84C中使用的標註。圖85A展示基於Sequel Sequencing Kit 3.0生成之SMRT-seq資料。圖85B展示基於Sequel II sequencing Kit 1.0生成之SMRT-seq資料。圖85C展示基於Sequel II Sequencing Kit 2.0生成之SMRT-seq。所有在訓練資料集中得出的結論均可在沒有參與訓練過程之此等獨立測試資料集中得到驗證。另外,在三個獨立的測試資料集中,對涉及Sequel II Sequencing Kit 1.0及2.0之兩個資料集(2/3)之分析表明,使用包括10 nt上游和下游信號(由±10 nt表示)之量測窗口優於其他資料集。 與亞硫酸氫鹽定序之比較
86A86B86C展示藉由亞硫酸氫鹽定序及SMRT-seq(Sequel II Sequencing Kit 2.0)量化之總體甲基化程度的相關性。圖86A在y軸上顯示藉由SMRT-seq量化之百分比形式的甲基化程度。圖86B在x軸上顯示藉由亞硫酸氫鹽定序量化之百分比形式的甲基化程度。黑線為擬合的回歸線。虛線為兩個量測值相等的對角線。圖86B展示布蘭德-奧特曼圖(Bland-Altman plot)。x軸表示根據本揭示案之SMRT-seq及亞硫酸氫鹽定序量化之甲基化程度的平均值。y軸表示根據本揭示案之SMRT-seq與亞硫酸氫鹽定序之間甲基化程度的差異(亦即Pacific Biosciences甲基化-基於亞硫酸氫鹽之甲基化)。虛線對應一條水平過零的線,在該線上兩個量測值之間沒有差異。偏離虛線之資料點表明量測值之間存在偏差。圖86C展示相對於藉由亞硫酸氫鹽定序量化之值的百分比變化。x軸表示根據本揭示案之SMRT-seq及亞硫酸氫鹽定序量化之甲基化程度的平均值。y軸表示兩個量測值之間的甲基化程度差異相對於甲基化程度平均值的百分比。虛線對應一條水平過零的線,在該線上兩個量測值之間沒有差異。偏離虛線之資料點表明量測值之間存在偏差。
對於圖86A,線性回歸公式為Y=aX+b,其中「 Y」代表根據本揭示案之SMRT-seq確定的甲基化程度;「 X」代表藉由亞硫酸氫鹽定序確定之甲基化程度;「 a」代表回歸線之斜率(例如a=1.45);「 b」代表y軸上之截距(例如b= -20.98)。在此情況下,SMRT-seq確定之甲基化值將由( Y- b)/ a計算。該圖顯示,對於Sequel II Sequencing Kit 2.0,與Sequel II Sequencing Kit 1.0一樣,藉由SMRT-seq確定之甲基化程度可轉換為藉由亞硫酸氫鹽定序確定之甲基化程度,反之亦然。
圖86B為顯示根據本揭示案之SMRT-seq與亞硫酸氫鹽定序之間甲基化定量的偏差的布蘭德-奧爾特曼圖,其中x軸表示根據本揭示案之SMRT-seq及亞硫酸氫鹽定序量化之甲基化程度的平均值,y軸表示根據本揭示案之SMRT-seq及亞硫酸氫鹽定序量化之甲基化程度的差異。兩個量測值之間的中位數差異為-6.85%(範圍:-10.1-1.7%)。藉由本揭示案量化之甲基化程度相對於藉由亞硫酸氫鹽定序之值的中位數百分比變化為-9.96%(範圍:-14,76 - 3.21%)。差異視平均值而變化。兩個量測值的平均值愈高,偏差愈大。
圖86C顯示與圖86B相同的資料,但甲基化程度的差異除以兩個甲基化程度的平均值。圖86C亦顯示,兩個量測值的平均值愈高,偏差愈大。
誤差可能與亞硫酸氫鹽定序有關,而與SMRT-seq的方法無關。據報導,習知全基因體亞硫酸氫鹽定序(Illumina)引入明顯偏向的序列輸出且高估全局甲基化,不同方法在特定基因體區域的甲基化程度量化存在很大差異(Olova等人《基因體生物學》2018;19:33)。本文所揭示之實施例具有許多例示性優點,由此其可在沒有會使DNA急劇降解的亞硫酸氫鹽轉化的情況下進行,且可在沒有PCR擴增的情況下進行。 組織起源
吾等根據本揭示案中之實施例,使用單分子即時定序(SMRT-seq,Pacific Biosciences)對各種癌症類型進行甲基化分析。用於SMRT-seq之癌症類型包括但不限於結腸直腸癌(n=3)、食道癌(n=2)、乳癌(n=2)、腎細胞癌(n=2)、肺癌(n=2)、卵巢癌(n=2)、前列腺癌(n=2)、胃癌(n=2)及胰臟癌(n=1)。其匹配的相鄰非腫瘤組織亦納入SMRT-seq。資料基由Sequel II Sequencing Kit 2.0製備之DNA生成。
87A87B展示各種腫瘤組織與配對的相鄰非腫瘤組織之間總體甲基化程度的比較。y軸上為百分比形式的甲基化程度。在圖87A中,甲基化程度藉由SMRT-seq量化。在圖87B中,甲基化程度藉由亞硫酸氫鹽定序量化。組織的類型(亦即腫瘤組織或相鄰的非腫瘤組織)在x軸上。不同的符號代表不同的起源組織。
圖87A顯示,包括乳癌、結腸直腸癌、食道癌、肝癌、肺癌、卵巢癌、胰臟癌、腎細胞癌及胃癌之腫瘤組織的總體甲基化程度分別顯著低於相應的非腫瘤組織( P值=0.006,配對樣本Wilcoxon符號秩檢驗),包括乳房、結腸、食道、肝臟、肺、卵巢、胰臟、前列腺、腎臟及胃。腫瘤與配對的非腫瘤組織之間甲基化程度的中位數差異為-2.7%(IQR:-6.4 ~ - 0.8%)。
圖84B證實腫瘤組織中較低的甲基化程度。因此,此等結果表明,根據本揭示案之SMRT-seq可準確地測定各種癌症類型及組織的甲基化模式,意味著本揭示案在組織活檢的基礎上,在癌症的早期檢測、預後、診斷及治療方面有廣泛的應用。各種腫瘤類型之甲基化程度降低的程度不同,可能表明甲基化模式與癌症類型相關,從而可確定癌症的起源組織。 增強檢測及其他技術
在一些實施例中,鹼基修飾(例如甲基化)之分析可使用以下一或多個參數來進行:序列上下文、IPD及PW。IPD及PW可自定序反應中確定,而無需與參考基因體進行排比。單分子即時定序方法之態樣可進一步提高確定序列上下文、IPD及PW之準確性。一個態樣為環形一致性定序之效能,其中可多次量測定序模板之特定部分,因此允許基於經由此等多次讀出之值的平均值或分佈來量測序列上下文、IPD及PW。在某些實施例中,在沒有排比過程的情況下對鹼基修飾之分析可提高計算效率,減少周轉時間且可降低分析成本。儘管可在沒有排比過程的情況下執行實施例,但在其他實施例中,可使用排比過程且可為較佳的,例如,若排比過程用於確定檢測到的鹼基修飾之臨床或生物學含義(例如,若腫瘤抑制因子為高甲基化的);或若排比過程用於選擇對應於某些所關注之基因體區域之定序資料的子集,以進行進一步分析。對於需要來自所選基因體區域之資料的實施例,此等實施例可能需要使用一或多種能夠在基因體中所關注區域中裂解的酶或基於酶之方法論,例如限制酶或CRISPR-Cas9系統來靶向此類區域。CRISPR-Cas9系統可能優於基於PCR之方法,因為PCR擴增通常不保存有關DNA鹼基修飾之資訊。可分析此類所選(生物資訊學[例如經由排比]或經由諸如CRISPR-Cas9之方法)區域的甲基化程度,得到關於組織起源、胎兒病症、妊娠病症及癌症之資訊。 使用子讀段進行甲基化分析,無需與參考基因體進行排比
在實施例中,可使用包含子讀段之動力學特徵及序列上下文的量測窗口進行甲基化分析,而無需與參考基因體進行排比。如圖88所示,源自零模式波導(ZMW)之子讀段用於構築一致序列8802(亦稱為環形一致序列,CCS)。計算CCS中每個位置之平均動力學值,包括但不限於PW及IPD值。基於CpG位點之上游及下游序列,自CCS確定該CpG位點周圍的序列上下文。因此,將構築如本揭示案中所定義之量測窗口進行訓練,其中該量測窗口包括根據相對於CCS具有動力學特徵之子讀段的PW、IPD值及序列上下文。此程序避免子讀段與參考基因體之排比。
為了測試圖88所示的原理,吾等使用源自全基因體擴增之DNA的601,942個未甲基化之CpG位點及源自CpG甲基轉移酶(例如M.SssI)處理之DNA的163,527個甲基化之CpG位點,形成訓練資料集。吾等使用源自全基因體擴增之DNA的546,393個未甲基化之CpG位點及源自CpG甲基轉移酶(例如M.SssI)處理之DNA的193,641個甲基化之CpG位點,形成測試資料集。資料集由Sequel II Sequencing Kit 2.0製備之DNA生成。
89所示,在一個實施例中,使用與子讀段及CCS相關聯之動力學特徵及序列上下文訓練用於確定甲基化之卷積神經網路(CNN)模型,吾人可實現在測試及訓練資料集中區分甲基化之CpG位點與未甲基化之CpG位點的AUC值分別為0.94及0.95。在其他實施例中,可使用其他神經網路模型、深度學習算法、人工智慧及/或機器學習算法。
若吾等為甲基化概率設置0.2之閾值,則吾等可在檢測甲基化之CpG位點時獲得82.4%的靈敏度及91.7%的特異性。此等結果說明,吾人可使用具有動力學特徵之子讀段區分甲基化及未甲基化之CpG位點,而無需事先與參考基因體進行排比。
在另一個實施例中,為了確定CpG位點之甲基化狀態,吾人亦可使用直接來自子讀段之動力學特徵以及序列上下文,而無需CCS資訊及事先與參考基因體進行排比。吾等使用動力學特徵,包括跨越子讀段中存在之CpG上游20-nt及下游20-nt位置的PW及IPD值,來訓練確定甲基化狀態之CNN模型。如圖90所示,根據本揭示案中之實施例,在訓練及測試資料集中,使用與子讀段相關之動力學特徵檢測甲基化之CpG位點之ROC曲線的AUC分別為0.70及0.69。此等資料表明,使用本揭示案中之實施例來使用與子讀段相關聯之動力學特徵來推斷DNA分子之甲基化模式為可行的,但無需事先排比及構築一致序列。然而,此實施例中確定甲基化之效能不如組合利用如本揭示案中所述之排比資訊或一致序列的實施例。吾等會設想,在生成子讀段及動力學值方面增強的精度將改進使用子讀段及其相關動力學特徵確定鹼基修飾的效能。 使用靶向的單分子即時定序對缺失區域進行甲基化分析
本文所述之方法亦可應用於分析一或多個所選基因體區域。在一個實施例中,所關注之區域可首先藉由雜交方法進行富集,該方法允許來自所關注之區域的DNA分子與具有互補序列之合成寡核苷酸雜交。對於使用本文所述之方法分析鹼基修飾,目標DNA分子不能在進行定序之前藉由PCR擴增,因為原始DNA分子中之鹼基修飾資訊不會轉移至PCR產物。已開發數種方法來富集此等目標區域,而無需進行PCR擴增。
在另一個實施例中,可經由使用CRISPR-Cas9系統來富集目標區域(Stevens等人 《公共科學圖書館·綜合(PLOS One)》 2019;14(4):e0215441;Watson等人 《實驗室研究(Lab Invest)》 2020;100:135-146)。在一個實施例中,首先將DNA樣本中DNA分子之末端去磷酸化,以使其不易直接連接至定序轉接子。隨後,所關注之區域由Cas9蛋白與引導RNA(crRNA)引導,以產生雙股切口。隨後將雙股切口兩側側翼之所關注區域連接至所選定序平台指定的定序轉接子。在另一個實施例中,可用外切核酸酶處理DNA,以使Cas9蛋白未結合之DNA分子降解(Stevens等人《公共科學圖書館·綜合》2019;14(4):e0215441)。由於此等方法不涉及PCR擴增,因此可對具有鹼基修飾之原始DNA分子進行定序,且確定鹼基修飾。在一個實施例中,此方法可用於靶向大量共享同源序列之區域,例如長散佈核元件(LINE)重複序列。在一個實例中,此類分析可用於分析母體血漿中之循環游離DNA,以檢測胎兒非整倍體(Kinde等人《公共科學圖書館·綜合》2012;7(7):e41162。
91所示,可藉由使用CRISPR(成簇規律間隔短回文重複序列)/Cas9(CRISPR相關蛋白9)系統來實現靶向的單分子即時定序。對攜帶5'磷醯基(亦即5'-P)及3'羥基(亦即3'-OH)之DNA片段(例如分子9102)進行末端封閉處理,由此移除5'-P且將3'-OH與雙脫氧核苷酸(亦即ddNTP)連接。因此,末端已經修飾之所得分子(例如分子9104)無法與轉接子連接,用於隨後的DNA文庫製備。然而,末端封閉之分子受到CRISPR/Cas9系統介導之目標特異性裂解,將5'-P及3'-OH末端引入所關注之分子。攜帶5'-P及3'-OH末端之此類新裂解之DNA分子(例如分子9106)獲得與髮夾轉接子連接之能力,以形成環形分子9108。用外切核酸酶III及VII消化未連接之轉接子、線性DNA及僅進行一次裂解之分子。結果,與兩個髮夾轉接子連接之分子被富集,且進行單分子即時定序。此等目標分子適合於根據本揭示案中存在之實施例進行鹼基修飾分析(亦即靶向的單分子即時定序)。
92所示,CRISPR/Cas9系統中之Cas9蛋白與引導RNA(亦即gRNA)相互作用,引導RNA包括CRISPR RNA(crRNA,負責DNA靶向)及反式激活crRNA(tracrRNA,負責與Cas9形成複合物)(Pickar-Oliver等人《自然分子細胞生物學綜述(Nat Rev Mol Cell biol.)》2019;20:490-507)。彎曲的形狀代表Cas9蛋白,其為一種使用CRISPR序列作為引導來識別及切割與CRISPR序列之一部分互補之DNA的特定股的酶。crRNA與tracrRNA黏接。在一個實施例中,合成的單個RNA序列含有crRNA及tracrRNA序列,稱為單引導RNA(sgRNA)。crRNA中之一個區段命名為間隔序列,將經由與目標區域之互補鹼基配對引導Cas9蛋白識別且切割雙股DNA(dsDNA)之特定股。在一個實施例中,間隔序列與靶向dsDNA之間的互補性中不涉及錯配。在另一個實施例中,間隔序列與靶向dsDNA之間的互補鹼基配對將允許錯配。舉例而言,錯配之數量為但不限於1、2、3、4、5、6、7、8等。在一個實施例中,CRISPR序列將為可程式化的,視不同的CRISPR/Cas複合物設計之切割效率、特異性、靈敏度及多工能力而定。
93所示,吾等設計一對CRISPR/Cas9複合物,靶向跨越人類基因體中Alu元件的兩個切口。『XXX』表示Cas9核酸酶切割位點側翼的三個核苷酸。『YYY』表示與『XXX』互補的三個相應核苷酸。5'-NGG表示前間隔序列鄰近基元(PAM)序列。在其他CRISPR/Cas系統中,PAM序列可為不同的,且Cas核酸酶切割位點側翼的序列可為不同的。在該圖中,Alu區域之大小為223 bp。在人類基因體中,存在1,175,329個Alu區域,每個區域均含有此類Alu元件之同源物。此Alu元件中存在5個CpG位點的中位數(範圍:0-34)。舉例而言,此設計含有36-nt crRNA,其含有20-nt間隔序列。詳細的gRNA序列資訊如下所示:
用於引入第一切口之第一CRISPR/Cas9複合物:(所有序列自5'至3') crRNA:GCCUGUAAUCCCAGCACUUUGUUUUAGAGCUAUGCU tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
用於引入第二切口之第二CRISPR/Cas9複合物: crRNA:AGGGUCUCGCUCUGUCGCCCGUUUUAGAGCUAUGCU tracrRNA:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU
將crRNA分子與tracrRNA(例如67-nt)黏接以形成gRNA之骨架。具有經設計之gRNA的Cas9核酸酶可以一定水準之特異性裂解具有靶向切割位點之末端封閉分子的兩股。人類基因體中存在116,184個所關注之Alu區域,該等區域應該被所設計之CRISPR/Cas9複合物切割。因此,Cas9複合物靶向切割後之彼等Alu區域可與髮夾轉接子連接。與髮夾轉接子連接之彼等分子可藉由單分子即時定序進行定序。可有針對性地確定彼等Alu區域之甲基化模式。在一個實施例中,來自兩個Cas9複合物之間隔序列可與雙股DNA受質之同一股(例如瓦生股或克立克股)鹼基配對。在一個實施例中,來自兩個Cas9複合物之gRNA中的間隔序列可與雙股DNA受質的不同股鹼基配對。舉例而言,Cas9複合物中之一個間隔序列與雙股DNA受質之瓦生股互補,而Cas9複合物中之另一間隔序列與雙股DNA受質之克立克股互補,反之亦然。
在一個實施例中,與髮夾轉接子連接之DNA分子為環形,其將對外切核酸酶消化具有抗性。因此,吾人可用外切核酸酶(例如外切核酸酶III及VII)處理轉接子連接之DNA產物,以移除線性DNA(例如脫靶的DNA分子)。此使用外切核酸酶之步驟可進一步富集靶向的分子。待定序之靶向的分子的大小取決於由一或多個Cas9核酸酶引入之兩個切割位點之間的跨度大小,例如,包括但不限於10 bp、20 bp、30 bp、40 bp、50 bp、100 bp、200 bp、300 bp、400 bp、500 bp、1000 bp、2000 bp、3000 bp、4000 bp、5000 bp、10 kb、20 kb、30 kb、40 kb、50 kb、100 kb、200 kb、300 kb、500 kb及1 Mb。
舉例而言,使用具有靶向Alu區域之gRNA的Cas9,吾等使用單分子即時定序對人類肝細胞癌(HCC)腫瘤組織樣本中之187,010個分子進行定序。其中,113,491個分子攜帶靶向切口(亦即目標裂解率為約60.7%之分子)。資料集由Sequel II Sequencing Kit 2.0製備之DNA生成。換言之,在此實例中由Cas9複合物引入所關注分子中之切割位點的特異性為60.7%。在其他實施例中,由Cas9或其他Cas複合物引入所關注分子中之切割位點的特異性將為變化的,包括但不限於1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%及100%。自CCS及未與參考基因體進行排比之子讀段獲得的IPD、PW值及序列上下文用於確定Alu序列中CpG位點之甲基化狀態。
94所示,吾等觀察到藉由亞硫酸氫鹽定序及根據本揭示案之單分子即時定序確定之甲基化程度之間的類似甲基化分佈。圖94展示亞硫酸氫鹽定序及單分子即時定序(Pacific Biosciences)之甲基化密度(以百分比計)的直方圖。y軸表示樣本中具有x軸上所示之特定甲基化密度之分子的比例。此結果表明,使用Cas9介導之靶向單分子即時定序來確定甲基化模式為可行的。此結果亦表明,吾人可使用子讀段相關之動力學特徵(包括PW及IPD值)來確定甲基化,而無需與參考基因體進行排比。如圖94所示,吾等觀察到大量Alu區域顯示低甲基化,其與癌症基因體將在Alu重複區域中去甲基化之先前知識一致(Rodriguez等人《核酸研究》2008; 36:770-784)。
95在y軸上顯示根據本揭示案之單分子即時定序確定之甲基化程度的分佈,在x軸上顯示亞硫酸氫鹽定序確定之甲基化密度。如圖95所示,根據亞硫酸氫鹽定序之結果,將Alu區域之甲基化程度分為5個類別,亦即0 - 20%、20 - 40%、40 - 60%、60 - 80%及80 - 100%。吾等模型使用量測窗口進一步確定同一組Alu區域之甲基化程度,該等量測窗口包括每一類Alu區域之動力學特徵及序列上下文(y軸)。吾等模型所確定之甲基化程度的分佈按照各分組類別之甲基化程度的升序逐漸增加。同樣,此等結果表明,使用Cas9介導之靶向單分子即時定序來確定甲基化模式為可行的。吾人可使用子讀段相關之動力學特徵(包括PW及IPD值)來確定甲基化,而無需與參考基因體進行排比。
在另一個實施例中,吾人可使用其他類型的CRISPR/Cas系統,例如但不限於Cas12a、Cas3及其他直系同源物(例如金黃色葡萄球菌Cas9)或經工程改造之Cas蛋白(增強型胺基酸球菌屬Cas12a)來進行靶向單分子即時定序。
吾人可使用無核酸酶活性之去活化的Cas9(dCas9)來富集靶向的分子,而無需裂解。舉例而言,靶向的DNA分子由包含生物素化之dCas9及目標序列特異性gRNA之複合物結合。此類靶向的DNA分子可能不會被dCas9切割,因為dCas9為核酸酶缺陷的。經由使用抗生蛋白鏈菌素包覆之磁珠,可富集靶向的DNA分子。
在一個實施例中,吾人可使用外切核酸酶來消化與Cas蛋白一起培育後的DNA混合物。外切核酸酶可降解Cas蛋白未結合之DNA分子,而外切核酸酶可不降解或可大大降低降解Cas蛋白結合之DNA分子的效率。因此,在最終的定序結果中,有關Cas蛋白結合之目標分子的資訊可能會進一步豐富。
96展示組織及組織中Alu區域之甲基化程度的表格。許多組織顯示甲基化程度在85-92%之範圍內,包括在88%至92%之範圍內。HCC腫瘤組織及胎盤組織顯示甲基化程度低於80%。如圖96中所見,HCC腫瘤在吾等設計所針對之Alu區域中顯示出頻繁的低甲基化。因此,本揭示案中存在之Alu區域的甲基化測定可用於使用自腫瘤活檢體或其他組織或細胞提取之DNA在腫瘤進展或治療期間檢測、分期及監測癌症。
胎盤組織在整個Alu區域之低甲基化可用於使用孕婦血漿DNA進行非侵入性產前檢測。舉例而言,較高程度的低甲基化可表明孕婦之胎兒DNA分數較高。在另一個實例中,若女性懷有染色體非整倍體之胎兒,則藉由此方法檢測到的源自受影響染色體之Alu片段的數量可能與懷有整倍體胎兒之女性在數量上有所不同(亦即增加或減少)。因此,若胎兒患有第21對染色體三體症,則當與懷有整倍體胎兒之女性相比時,藉由此方法檢測到的源自第21號染色體之Alu片段的數量可能會增加。另一方面,若胎兒具有單體染色體,則當與懷有整倍體胎兒之女性相比時,藉由此方法檢測到的源自該染色體之Alu片段的數量可能會減少。與未受影響之染色體相比,測定血漿中受影響染色體(13、18或21)之額外低甲基化的呈現可用作區分懷有正常胎兒及異常胎兒之女性的分子指標。 Cas9複合物靶向的Alu區域針對不同類型癌症的甲基化分析
即使吾等靶向的Alu重複序列在不同的組織中高度甲基化,吾等假設不同的癌症類型在彼等Alu重複序列中具有不同的去甲基化模式。在一個實施例中,根據本文呈現之解釋內容,吾人可使用基於Cas9之靶向單分子即時定序來分析甲基化模式,以確定不同的癌症類型。
97展示不同癌症類型之與Alu重複序列相關之甲基化信號的聚類分析。使用微陣列技術(Infinium HumanMethylation450 BeadChip, Illumina Inc)分析來自TCGA資料庫(www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga)之癌症個體之CpG位點的甲基化狀態。分析微陣列晶片中存在的且與CRISPR/Cas9複合物靶向之Alu區域重疊的3,024個CpG位點的甲基化狀態。有許多患者之CpG源自所關注之Alu區域。藉由微陣列量化每個CpG之甲基化程度(亦稱為甲基化指數,或β值)。吾等基於彼等CpG位點之甲基化程度在患者中的數量進行階層式聚類分析。因此,彼等CpG位點之甲基化程度模式類似的患者會聚在一起,形成一個分枝系。不同患者中甲基化模式之相似性將由聚類樹狀圖中的高度值來表示。在此實例中,高度係根據歐幾里得距離(Euclidean distance)來計算。在其他實施例中,將使用其他距離度量,包括但不限於閔可夫斯基(Minkowski)距離、切比雪夫(Chebychev)距離、馬氏(Mahalanobism)距離、曼哈頓(Manhattan)距離、餘弦距離、相關距離、斯皮爾曼(Spearman)距離、漢明(Hamming)距離、傑卡德(Jaccard)距離等。本文所用之高度表示聚類之間距離度量的值,反映聚類之間的相關性。舉例而言,若吾人觀察到兩個聚類合併的高度為x,則表明彼等聚類之間的距離為x(例如所有聚類間患者之間的平均距離)。
藉由使用CpG位點之甲基化狀態,在聚類分析之結果中,根據癌症類型將患者聚類為不同的不同組。癌症類型包括膀胱尿道上皮癌(BLCA)、乳房侵襲性癌(BRCA)、卵巢漿液性囊腺癌(OV)、胰臟腺癌(PAAD)、HCC、肺腺癌(LUAD)、胃腺癌(STAD)、皮膚黑素瘤(SKCM)及子宮癌肉瘤(UCS)。圖中癌症類型之後的數字表示患者。因此,聚類表明,吾等選擇之Alu重複序列中的甲基化信號為分類癌症類型(包括圖97中未顯示之癌症類型)提供資訊。在一個實施例中,吾人可基於組織活檢中之甲基化模式來區分原發性及繼發性腫瘤。 子讀段深度及大小閾值
此部分顯示,子讀段深度及/或大小閾值可用於提高甲基化檢測之準確性及/或效率。為了測試某些子讀段深度或大小,可修改文庫製備。
基於Sequel II Sequencing Kit 2.0,吾等分析測試資料集中讀段深度對總體甲基化程度量化的影響,該等資料集由全基因體擴增或M.SsssI處理後之樣本產生。吾等研究之基因體位點由至少具有一定閾值之子讀段覆蓋,例如但不限於≥1x、10x、20x、30x、40x、50x、60x、70x、80x、90x、100x等。
98A展示在涉及全基因體擴增之測試資料集中,讀段深度對總體甲基化程度量化的影響。 98B展示在涉及M.SsssI處理之測試資料集中,讀段深度對整體甲基化程度量化的影響。y軸顯示百分比形式的總體甲基化程度。x軸顯示子讀段深度。虛線表示總體甲基化程度的預期值。
如圖98A所示,對於涉及全基因體擴增之資料集,在最初的幾個閾值,諸如但不限於1x、10x、20x、40x、50x,總體甲基化下降,範圍介於5.7%至5.2%。在50x或更高的閾值,甲基化程度逐漸穩定在5%左右。
另一方面,在圖98B中,對於由M.SsssI處理後之樣本產生的資料集,在最初的幾個閾值,諸如但不限於1x、10x、20x、40x、50x,整體甲基化增加,範圍介於70%至83%。在50x或更高的閾值,甲基化程度逐漸穩定在83%左右。
在一個實施例中,吾人可調整子讀段深度閾值,使得鹼基修飾分析之效能適合於不同的應用。在其他實施例中,吾人可使用較不嚴格的子讀段深度閾值來獲得更多適合下游分析的ZMW(亦即分子數)。在另一個實施例中,吾人可將根據本揭示案之SMRT-seq確定的甲基化程度的讀數校準為第二量測,例如但不限於BS-seq、數位液滴PCR(在亞硫酸氫鹽轉化之樣本上)、甲基化特異性PCR或甲基化胞嘧啶結合抗體或其他蛋白質。在另一個實施例中,藉由對5mC保留之全基因體擴增後的DNA分子進行BS-seq、數位液滴PCR(在亞硫酸氫鹽轉化之樣本上)、甲基化特異性PCR或甲基-CpG結合域(MBD)蛋白質富集之基因體定序(MBD-seq)來獲得第二量測。舉例而言,5mC保留之全基因體擴增可由DNA引子酶TthPrimPol、聚合酶Φ29及DNMT1(DNA甲基轉移酶1)介導。
吾等分析各種癌症類型及非腫瘤組織之不同子讀段深度的甲基化程度。根據本揭示案之SMRT-seq確定的甲基化程度亦與BS-seq定序結果進行比較。使用Sequel II Sequencing Kit 2.0,吾等獲得4300萬個子讀段的中位數(四分位數範圍(IQR):3000萬-5200萬),從而可生成與人類參考基因體進行排比的460萬個環形一致序列(CCS)的中位數(IQR:280萬-580萬)。在彼等樣本中,亦對22個樣本進行完善的大規模平行亞硫酸氫鹽定序(BS-seq),以確定甲基化模式,為甲基化程度的比較提供第二量測。
99展示在使用不同子讀段深度閾值的情況下,藉由根據本揭示案之SMRT-seq(Sequel II Sequencing Kit 2.0)及BS-seq確定之總體甲基化程度之間的比較。藉由SMRT-seq確定之百分比形式的甲基化程度顯示在y軸上。藉由亞硫酸氫鹽定序確定之百分比形式的甲基化程度在x軸上。符號表示1x、10x及30x之不同子讀段深度。三條對角線表示不同子讀段深度的擬合線。
圖99顯示,當分析由子讀段覆蓋至少一次的基因體位點時(亦即子讀段深度閾值≥1x),根據本揭示案之SMRT-seq確定之CpG位點之甲基化程度與BS-seq確定之CpG位點之甲基化程度具有良好的相關性(r = 0.8; P值<0.0001)。此等結果表明,本揭示案中存在之實施例可用於量測不同組織類型之甲基化程度,包括但不限於結腸直腸癌、結腸直腸組織、食道癌、食道組織、乳癌、非癌性乳房組織、腎細胞癌、腎組織、肺癌及肺組織。吾等亦觀察到,隨著子讀段深度閾值增加至10x及30x,此兩個量測值之間的相關性分別提高至0.87( P值<0.0001)及0.95( P值<0.0001)。在一些實施例中,增加子讀段深度或選擇覆蓋更多子讀段之基因體區域將改良根據本揭示案之基於SMRT-seq之甲基化測定的效能。
100為顯示子讀段深度對藉由SMRT-seq(Sequel II Sequencing Kit 2.0)及BS-seq之兩次量測之間甲基化程度相關性之影響的表格。第一行展示子讀段深度閾值。第二行展示Pearson's r,亦即相關係數。第三行展示與閾值相關聯之CpG位點的數量,括號內為位點數量的範圍。
如圖100所示,藉由SMRT-seq及BS-seq之兩次測量之間甲基化程度的相關性根據不同的子讀段深度閾值而變化。在一個實施例中,吾人可利用子讀段深度閾值與兩次測量之間的相關係數(例如Pearson相關係數)之間的關係來確定用於區分甲基化胞嘧啶與未甲基化胞嘧啶之最佳子讀段深度閾值。圖100顯示,在子讀段深度閾值為30x(亦即≥30x)時,根據本揭示案之SMRT-seq量測的甲基化程度與BS-seq產生的結果具有最高的相關性(Pearson's r=0.952)。在其他實施例中,吾人可使用但不限於1x、10x、30x、40x、50x、60x、70x、80x、900x、100x、200x、300x、400x、500x、600x、700x、800x等之子讀段深度閾值。
如圖100所示,用於甲基化分析之CpG位點的數量隨著子讀段深度閾值的增加而減少。在子讀段深度閾值為100x的情況下,與子讀段深度閾值為30x(Pearson's r=0.952)相比,觀察到甲基化程度的兩次測量之間的相關性較低(Pearson's r=0.875)。較高的子讀取閾值的較低相關性可歸因於滿足更嚴格的子讀段深度閾值之CpG位點的數量較少。在一個實施例中,吾人可考慮子讀段深度之要求與可用於甲基化分析之分子數量之間的權衡。舉例而言,若吾人旨在掃描全基因體之甲基化模式,則可能需要更多的分子。若吾人使用靶向SMRT-seq專注於特定區域,則可能需要更高的子讀段深度以獲得該區域之甲基化模式。
101展示Sequel II Sequencing Kit 2.0生成之資料中相對於片段大小的子讀段深度分佈。子讀段深度顯示在y軸上,DNA分子之長度顯示在x軸上。DNA分子之長度由環形一致序列(CCS)的大小推導得出。
由於子讀段深度可能會影響使用SMRT-seq資料進行甲基化測定的效能,且子讀段深度為經定序之DNA分子之長度的函數,因此DNA分子之大小對於獲得用於分析樣本中甲基化模式之最佳子讀段深度可能至關重要。如圖101所示,DNA愈長,子讀段深度愈低。舉例而言,對於大小為1 kb之分子群體,中位數子讀段深度為50x。對於大小為10 kb之分子群體,中位數子讀段深度為15x。
在一個實施例中,如圖100所示,子讀段深度之最佳閾值可為至少30x,其導致最高的相關係數。為了進一步提高將滿足30x之最佳子讀段深度閾值之分子的通量,吾人可利用子讀段深度與DNA模板分子長度之間的關係。舉例而言,在圖101中,30x為長度為約4 kb之分子的中位數子讀段深度。因此,吾人可在SMRT-seq文庫製備之前分級分離4-kbDNA分子,且將定序限制於4-kb DNA分子。在其他實施例中,可使用用於DNA分子分級分離之其他大小閾值,包括但不限於100 bp、200 bp、300 bp、400 bp、500 bp、600 bp、700 bp、800 bp、900 bp、1 kb、2 kb、3 kb、4 kb、5 kb、6 kb、7 kb、9 kb、10 kb、20 kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、100 kb、500 kb、1 Mb或大小閾值之不同組合。 基於限制酶之靶向單分子即時定序
此部分描述使用限制酶來提高檢測修飾之實用性及/或通量及/或成本效益。用限制酶生成之DNA片段可用於確定樣本之來源。 使用限制酶消化DNA分子
在實施例中,吾人可在單分子即時定序(例如使用Pacific Biosciences系統)之前,使用一或多種限制酶消化DNA分子。因為限制酶之識別位點的分佈會不均勻地存在於人類基因體中,所以由限制酶消化之DNA可能會產生傾斜的大小分佈。具有較多限制酶識別位點之基因體區域可消化成較小的片段,而具有較少限制酶識別位點之基因體區域可消化成較長的片段。在實施例中,根據大小範圍,吾人可選擇性獲得源自一或多個區域之DNA分子,該等區域具有類似的一或多種限制酶之切割模式。可藉由對一或多種限制酶之電腦切割分析來確定用於大小選擇之所需大小範圍。吾人可使用電腦程式來確定參考基因體(例如人類參考基因體)中所關注之限制酶的識別位點數量。根據彼等識別位點,將此類參考基因體電腦模擬剪切成片段,從而提供所關注之基因體區域的大小資訊。
126展示一種基於 MspI之靶向單分子即時定序的方法,該方法使用DNA末端修復及A加尾。在如圖126所示之實施例中,吾人可使用識別5'C^CGG3'位點之 MspI消化生物體之DNA樣本,例如但不限於人類DNA樣本。對消化後具有5' CG突出端之DNA片段進行大小選擇,富集源自CpG島之DNA分子。富集G及C殘基之基因體區域(亦稱為GC含量)可產生較短的片段。因此,吾人可基於所關注區域之GC含量確定片段大小的範圍以進行選擇。本領域中熟習此項技術者可使用各種DNA片段大小選擇工具,包括但不限於凝膠電泳、尺寸排阻電泳、毛細管電泳、層析、質譜分析、過濾方法、基於沈澱之方法、微流體及奈米流體。對經大小分級之DNA分子進行DNA末端修復及A加尾,使得所需DNA產物可與攜帶5' T突出端之髮夾轉接子連接,形成環形DNA模板。
在例如但不限於使用外切核酸酶(例如外切核酸酶III及VII)移除未連接之轉接子、線性DNA及不完全環形DNA後,與髮夾轉接子連接之DNA分子可用於單分子即時定序,以確定IPD、PW及序列上下文,從而確定如本文所揭示之甲基化概況。藉由分析富集CpG之基因體區域,可藉由本揭示案之定序資料分析方法確定之甲基化概況,對自不同組織或不同疾病及/或生理條件之組織或生物樣本獲得的DNA進行區分及分類。
對於圖126中涉及大小選擇之步驟,在實施例中,所需的大小範圍可藉由 MspI之電腦模擬切割分析來確定。吾等確定人類參考物中總共2,286,541個 MspI切割位點。根據彼等 MspI切割位點,將人類參考基因體電腦模擬剪切成片段。吾等獲得總共2,286,565個片段。每個單個片段的大小藉由該片段之核苷酸總數來確定。
127A127B展示經 MspI消化之片段的大小分佈。此等圖之y軸為特定大小片段之頻率(百分比)。圖127A之x軸具有50至500,000 bp之對數標度。圖127B之x軸具有50至1,000 bp之線性標度。
如圖127A及127B所示,經 MspI消化之DNA分子具有傾斜的大小分佈。經 MspI消化之片段的中位數大小為404 bp(IQR:98 - 1,411 bp)。約53%之彼等經 MspI消化之片段小於1 kb。大小概況中存在一系列可能由重複元件引起的尖峰。某些重複元件可能具有相似的 MspI切割位點模式,導致由 MspI消化衍生出的一組分子擁有相似的片段大小。舉例而言,頻率最高的尖峰(亦即總共49,079個)對應的大小為64 bp。其中,45,894個(94%)與Alu重複序列重疊。吾人可選擇大小為64 bp之DNA分子來富集源自Alu重複序列之DNA分子。該資料表明,大小選擇可用於富集根據本揭示案之下游甲基化分析所需的DNA分子。
128展示具有某些選定大小範圍之DNA分子數量的表格。第一行顯示以鹼基對為單位的大小範圍。第二行顯示大小範圍內之分子相對於總片段的百分比。第三行顯示大小範圍內與CpG島重疊的分子數量。第四行顯示大小範圍內之分子與CpG島重疊的百分比。第五行顯示經定序之CpG位點的數量。第六行顯示落入CpG島內之CpG位點的數量。第七行顯示藉由大小選擇靶向且落入CpG島內之CpG位點的百分比。如圖128所示,自人類基因體進行 MspI消化產生之DNA分子的數量根據所討論之不同大小範圍而變化。與CpG島重疊之DNA分子的數量隨不同的大小範圍而變化。
由於CCGG基元優先出現在CpG島中,因此選擇大小小於特定閾值之分子可使源自CpG島之DNA分子富集。舉例而言,大小範圍為50至200 bp之分子的數量為526,543個,占經 MspI消化之人類基因體衍生之總DNA片段的23.03%。在526,543個DNA分子中,有104,079個(19.76%)與CpG島重疊。大小範圍為600至800 bp之分子的數量為133,927個,占經 MspI消化之人類基因體衍生之總DNA片段的5.86%。在133,927個分子中,有3,673個(2.74%)分子與CpG島重疊。舉例而言,吾人可選擇50至200 bp之大小來富集源自CpG島之DNA片段。
為了經由基於 MspI之靶向單分子即時定序計算與CpG島重疊之CpG位點的富集程度,吾等對藉由音波處理剪切之DNA進行模擬,吾等在正態分佈的基礎上模擬ZMW產生之526,543個片段,平均大小為200 bp,標準差為20 bp。僅有0.88%之DNA分子與CpG島重疊。共有71,495個CpG位點與CpG島重疊。如圖128所示,選擇範圍介於50至200 bp之經 MspI消化之片段將導致19.8%之片段與CpG島重疊。因此,此等資料表明,與藉由音波處理製備之DNA相比,藉由 MspI消化製備之DNA可能具有22.5倍的源自CpG島之DNA片段富集。此外,吾等分析經由 MspI消化在CpG島中富集之CpG位點。選擇範圍介於50至200 bp之經 MspI消化之片段可產生885,041個CpG位點與CpG島重疊,占該大小範圍內經定序片段之總CpG位點的37.5%。與藉由音波處理製備之DNA相比,與CpG島重疊之CpG位點有12.3倍(亦即885,041/71,495)的富集。基於圖128中所示之資訊,可選擇適合之大小範圍,以包括CpG位點之期望數量及CpG島內CpG位點之期望倍數富集。
129為限制酶消化後CpG島內CpG位點之覆蓋率百分比與DNA片段大小的圖。y軸顯示由具有給定大小之片段覆蓋的CpG島內CpG位點的百分比。x軸顯示限制酶消化後之DNA片段的大小範圍的上限。圖129展示藉由擴大大小選擇範圍覆蓋之CpG島內CpG位點的百分比。在圖129中,大小範圍為50 bp至x軸所示之大小。在其他實施例中,大小範圍之下限可自定義,例如但不限於60 bp、70 bp、80 bp、90 bp、100 bp、200 bp、300 bp、400 bp及500 bp。隨著藉由增加大小上限來擴大大小範圍,吾等可觀察到CpG島內CpG位點之覆蓋率百分比逐漸增加且穩定在65%。一些CpG位點未經覆蓋,因為其位於50 bp以下之DNA片段內,或其位於極長分子(例如>100,000 bp)內之片段內。
在一些實施例中,可使用兩種或更多種不同的限制酶(具有不同的限制位點)來分析DNA樣本,以便增加CpG島內CpG位點之覆蓋率。藉由不同的酶消化DNA樣本可在單獨的反應中進行,因此每個反應中僅存在一種限制酶。舉例而言,可使用識別CG^CG位點之 AccII在CpG島上優先切割。在其他實施例中,可使用具有CG二核苷酸作為識別位點之一部分的其他限制酶。在人類基因體內,有678,669個 AccII切割位點。吾等使用 AccII限制性對人類參考基因體進行電腦模擬切割,獲得總共678,693個片段。隨後,吾等根據上文關於 MspI消化所述之方法,對此等片段進行電腦模擬大小選擇,且計算CpG島內CpG位點之覆蓋率百分比。吾等可觀察到隨著大小選擇範圍的擴大,CpG位點之覆蓋率百分比逐漸增加。覆蓋率百分比在50%左右趨於平穩。結合兩個酶消化實驗(亦即 MspI消化及 AccII消化)之資料,CpG位點之覆蓋率進一步增加。經由選擇大小為50 bp至400 bp之DNA片段,覆蓋CpG島內80%之CpG位點。此百分比高於單獨使用該兩種酶中之任一者進行消化實驗的相應數字。經由使用其他限制酶分析DNA樣本,可進一步提高覆蓋率。若將DNA樣本分成兩個等分試樣。一個等分試樣用 MspI消化,另一個用 AccII消化。將兩個經消化之DNA樣本以等莫耳混合在一起,且使用單分子即時定序以500萬個ZMW進行定序。基於電腦模擬分析,就環形一致序列而言,CpG島內83%之CpG位點(亦即1,734,345個)將定序至少4次。
130展示不使用DNA末端修復及A加尾之基於 MspI之靶向單分子即時定序。在實施例中,經消化之DNA分子與髮夾轉接子之間的連接可在無DNA末端修復及A加尾過程之情況下進行。吾人可直接將攜帶5' CG突出端之經消化之DNA分子與攜帶5' CG突出端之髮夾轉接子進行連接,形成用於單分子即時定序之環形DNA模板。在清除未連接之轉接子及自連接之轉接子二聚體之後,且在一些實施例中,在移除未連接之轉接子、線性DNA及不完全環形DNA之後,與髮夾轉接子連接之DNA分子可適用於單分子即時定序,以獲得IPD、PW及序列上下文。根據本揭示案,將使用IPD、及序列上下文來確定單分子之甲基化概況。
131展示轉接子自連接之概率降低的基於 MspI之靶向單分子即時定序。加下劃線的胞嘧啶鹼基表示沒有5'磷酸基團之鹼基。在一些實施例中,為了使在轉接子連接過程中可能發生的自連接之轉接子二聚體之形成的可能性降至最低,吾人可使用去磷酸化之髮夾轉接子與彼等經 MspI消化之DNA分子進行轉接子連接。彼等去磷酸化之髮夾轉接子可能不會形成自連接之轉接子二聚體,因為缺乏5'磷酸基團。連接後,對產物進行轉接子清除步驟,以純化與髮夾轉接子連接之DNA分子。與髮夾轉接子連接之可能攜帶缺口的DNA分子進一步進行磷酸化(例如T4多核苷酸激酶)及DNA連接酶(例如T4 DNA連接酶)之缺口密封。在實施例中,吾人可進一步進行未連接之轉接子、線性DNA及不完全環形DNA之移除。與髮夾轉接子連接之DNA分子適用於單分子即時定序,以獲得IPD、PW及序列上下文。根據本揭示案,將使用IPD、及序列上下文來確定單分子之甲基化概況。
MspI之外,亦可使用其他限制酶,諸如 SmaI,具有識別位點CCCGGG。
在一些實施例中,可在DNA末端修復步驟之後進行所需的大小選擇過程。在一些實施例中,當確定髮夾轉接子對大小選擇結果之影響時,可在髮夾轉接子連接之後進行所需的大小選擇過程。在此等及其他實施例中,基於 MspI之靶向單分子即時定序中所涉及之程序步驟的順序可根據實驗情況而改變。
在實施例中,將使用基於凝膠電泳及/或基於磁珠之方法進行大小選擇。在實施例中,限制酶可包括但不限於 BgIII、 EcoRI、 EcoRII、 BamHI、 HindIII、 TaqI、 NotI、 HinFI、 PvuII、 Sau3AI、 SmaI、 HaeIII、 HgaI、 HpaII、 AluI、 EcoRV、 EcoP15I、 KpnI、 PstI、 SacI、 SalI、 ScaI、 SpeI、 SphI、 StuI、 XbaI及其組合。 用甲基化區分生物樣本類型
此部分描述使用藉由限制酶消化生成之片段確定的甲基化概況,以便於區分不同的生物樣本。
吾等根據本揭示案中之實施例,使用基於 MspI之單分子即時定序確定之甲基化概況評定生物樣本之間甲基化概況的差異。吾等以胎盤組織DNA及白血球層DNA樣本為例。吾等在基於 MspI之靶向單分子即時定序的基礎上,進行電腦模擬,以生成有關胎盤及白血球層DNA樣本之資料。該模擬係基於先前使用Sequel II Sequencing Kit 1.0藉由SMRT對胎盤組織DNA及白血球層DNA進行定序達到全基因體覆蓋生成之每個核苷酸的動力學值,包括IPD及PW。隨後,吾等模擬對胎盤DNA及白血球層DNA樣本進行 MspI消化之條件,隨後使用50至200 bp之大小範圍進行基於凝膠之大小選擇。將所選DNA分子與髮夾轉接子連接,形成環形DNA模板。對環形DNA模板進行單分子即時定序,以獲得有關IPD、PW及序列上下文之資訊。
假設有500,000個ZMW產生SMRT定序子讀段,彼等子讀段遵循經 MspI消化之片段在50至200 bp大小範圍內之基因體分佈,如表1所示。假定胎盤及白血球層DNA樣本之子讀段深度為30x。吾等分別對胎盤DNA樣本及白血球層DNA樣本重複模擬10次。因此,獲得藉由經 MspI消化之靶向單分子即時定序電腦模擬生成的資料集,其包含總共10個胎盤DNA樣本及10個白血球層DNA樣本。根據本揭示案,藉由CNN對資料集進行進一步分析,確定每個樣本之甲基化概況。吾等獲得來自CpG島之9,198個CpG位點的中位數(範圍:5,497 - 13,928),占總定序之CpG位點的13.6%(範圍:45,304- 90,762)。每個分子中每個CpG位點之甲基化狀態藉由根據本揭示案之CNN模型來確定。
132為藉由基於 MspI之靶向單分子即時定序確定之胎盤與白血球DNA樣本之間的總體甲基化程度的圖。y軸為百分比形式的甲基化程度。x軸上列出樣本類型。圖132顯示,與白血球層樣本(中位數:69.5%;範圍:68.9%-70.4%)相比,胎盤樣本之總體甲基化程度(中位數:57.6%;範圍:56.9%-59.1%)較低( P值<0.0001,Mann-Whitney U檢驗)。此等結果表明,藉由基於 MspI之單分子即時定序確定的甲基化概況可用於基於組織樣本或生物樣本之甲基化差異對其進行區分。由於此等資料表明,胎盤DNA可與白血球層DNA因其藉由基於 MspI之單分子即時定序檢測到的甲基化差異而區分開,因此吾人可應用此方法量測母體血漿中之胎兒DNA分數。由於母體血漿或母體血清中之胎兒DNA來自胎盤,而樣本中之其餘DNA分子主要來源於母體白血球層細胞,因此可使用甲基化來量測胎兒DNA分數。在實施例中,此技術將為區分不同組織或具有不同疾病及/或生理條件之組織或生物樣本的有用工具。
為了使用CpG島之甲基化概況進行胎盤DNA樣本與白血球層DNA樣本之間的聚類分析,吾等使用分類為甲基化之CpG位點在該CpG島之總CpG位點中的比例來計算CpG島之DNA甲基化程度。出於說明之目的,吾等使用CpG島區域之甲基化程度進行聚類分析。
133展示使用基於 MspI之靶向單分子即時定序確定的DNA甲基化概況對胎盤及白血球層樣本進行聚類分析。不同患者中CpG島之甲基化模式的相似性由聚類樹狀圖中的高度值來表示。在此實例中,高度係根據歐幾里得距離來計算。在一個實施例中,吾人可使用高度閾值100將聚類樹切割成兩組,從而可以100%之靈敏度及特異性區分胎盤及白血球層樣本。在其他實施例中,吾人可使用其他高度閾值,包括但不限於50、60、70、80、90、120、130、140及150等。圖133顯示,使用根據本揭示案之基於 MspI之單分子即時定序確定之CpG島的甲基化概況,將10個胎盤DNA樣本及10個白血球層DNA樣本分別清晰地聚類為兩組。 訓練及檢測方法
此部分展示訓練用於檢測鹼基修飾之機器學習模型及使用機器學習模型檢測鹼基修飾的例示性方法。 模型訓練
102展示檢測核酸分子中核苷酸之修飾的例示性方法1020。例示性方法1020可為訓練用於檢測修飾之模型的方法。該修飾可包括甲基化。甲基化可包括本文所述之任何甲基化。該修飾可具有離散狀態,諸如甲基化及未甲基化,且可能指定甲基化之類型。因此,核苷酸可能有兩個以上的狀態(分類)。
在方塊1022,接收複數個第一資料結構。本文描述資料結構之各種實例,例如在圖4-16中。第一複數個第一資料結構中之每個第一資料結構可對應於複數個第一核酸分子之各別核酸分子中定序之核苷酸的各別窗口。與第一複數個資料結構相關聯之每個窗口可包括4個或更多個連續核苷酸,包括5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21或更多個連續核苷酸。每個窗口可具有相同數量之連續核苷酸。窗口可為重疊的。每個窗口可包括第一核酸分子之第一股上的核苷酸及第一核酸分子之第二股上的核苷酸。第一資料結構亦可為窗口內之每個核苷酸包括股特性之值。股特性可指示核苷酸存在於第一股或第二股。窗口可包括第二股中與第一股中對應位置之核苷酸不互補的核苷酸。在一些實施例中,第二股上之所有核苷酸均與第一股上之核苷酸互補。在一些實施例中,每個窗口可包括第一核酸分子之僅一股上的核苷酸。
第一核酸分子可為環形DNA分子。環形DNA分子可藉由使用Cas9複合物切割雙股DNA分子形成經切割之雙股DNA分子來形成。可將髮夾轉接子連接至經切割之雙股DNA分子的末端。在實施例中,雙股DNA分子之兩端可經切割及連接。舉例而言,切割、連接及後續分析可如圖91所述進行。
第一複數個第一資料結構可包括5,000至10,000、10,000至50,000、50,000至100,000、100,000至200,000、200,000至500,000、500,000至1,000,000或1,000,000或更多個第一資料結構。複數個第一核酸分子可包括至少1,000、10,000、50,000、100,000、500,000、1,000,000、5,000,000或更多個核酸分子。作為另一個實例,可產生至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個序列讀段。
藉由量測與核苷酸對應之信號中的脈衝,對第一核酸分子中之每一者進行定序。該信號可為螢光信號,或其他類型的光信號(例如化學發光、光度)。該信號可由核苷酸或與核苷酸相關之標籤產生。
修飾在每個第一核酸分子之每個窗口之目標位置的核苷酸中具有已知的第一狀態。第一狀態可為核苷酸中不存在修飾,或可為核苷酸中存在修飾。可已知第一核酸分子中不存在修飾,或可對第一核酸分子進行處理以使得修飾不存在。可已知修飾存在於第一核酸分子中,或可對第一核酸分子進行處理以使得修飾存在。若第一狀態為不存在修飾,則修飾可在每個第一核酸分子之每個窗口中不存在,而非僅在目標位置不存在。已知的第一狀態可包括第一資料結構之第一部分的甲基化狀態及第一資料結構之第二部分的未甲基化狀態。
目標位置可為各別窗口之中心。對於具有跨越偶數個核苷酸之窗口,目標位置可為緊靠窗口中心的上游或緊靠下游的位置。在一些實施例中,目標位置可在各別窗口之任何其他位置,包括第一位置或最後位置。舉例而言,若窗口跨越一股之n個核苷酸,自第1位至第n位(上游或下游),則目標位置可在第1位至第n位的任何位置。
每個第一資料結構包括窗口內之特性的值。該等特性可為針對窗口內之每個核苷酸的。該等特性可包括核苷酸之標識。該標識可包括鹼基(例如,A、T、C或G)。該等特性亦可包括核苷酸相對於各別窗口內之目標位置的位置。舉例而言,位置可為相對於目標位置之核苷酸距離。當核苷酸在一個方向上距離目標位置一個核苷酸時,位置可為+1,而當核苷酸在相反方向上距離目標位置一個核苷酸時,位置可為-1。
該等特性可包括對應於核苷酸之脈衝的寬度。脈衝之寬度可為脈衝最大值一半時的寬度。該等特性可進一步包括脈衝間持續時間(IPD),其表示對應於核苷酸之脈衝與對應於鄰近核苷酸之脈衝之間的時間。脈衝間持續時間可為與核苷酸相關聯之脈衝的最大值及與鄰近核苷酸相關聯之脈衝的最大值之間的時間。鄰近核苷酸可為相鄰核苷酸。該等特性亦可包括對應於窗口內之每個核苷酸之脈衝的高度。該等特性可進一步包括股特性之值,其指示核苷酸存在於第一核酸分子之第一股抑或第二股上。股之指示可類似於圖6中所示之矩陣。
複數個第一資料結構中之每個資料結構可排除IPD或寬度低於閾值的第一核酸分子。舉例而言,可僅使用IPD值大於第10百分位數(或第1、第5、第15、第20、第30、第40、第50、第60、第70、第80、第90或第95百分位數)的第一核酸分子。百分位數可基於一或多個參考樣本中所有核酸分子之資料。寬度之閾值亦可對應於百分位數。
在方塊1024,儲存複數個第一訓練樣本。每個第一訓練樣本包括第一複數個第一資料結構中之一者及指示目標位置之核苷酸之修飾的第一狀態的第一標記。
在方塊1026,接收第二複數個第二資料結構。方塊1026可為視情況選用的。第二複數個第二資料結構中之每個第二資料結構對應於複數個第二核酸分子之各別核酸分子中定序之核苷酸的各別窗口。第二複數個核酸分子可與複數個第一核酸分子相同或不同。修飾在每個第二核酸分子之每個窗口內的目標位置的核苷酸中具有已知的第二狀態。第二狀態為與第一狀態不同的狀態。舉例而言,若第一狀態為存在修飾,則第二狀態為不存在修飾,反之亦然。每個第二資料結構包括與第一複數個第一資料結構相同之特性的值。
複數個第一訓練樣本可使用多重置換擴增(MDA)生成。在一些實施例中,複數個第一訓練樣本可藉由使用一組核苷酸擴增第一複數個核酸分子來生成。該組核苷酸可包括指定比率之第一類型的甲基化(例如,6mA或任何其他甲基化[例如CpG])。指定比率可包括相對於未甲基化核苷酸之1:10、1:100、1:1000、1:10000、1:100000或1:1000000。複數個第二核酸分子可使用多重置換擴增由第一類型之未甲基化核苷酸生成。
在方塊1028,儲存複數個第二訓練樣本。方塊1028可為視情況選用的。每個第二訓練樣本包括第二複數個第二資料結構中之一者及指示目標位置之核苷酸之修飾的第二狀態的第二標記。
在方塊1029,使用複數個第一訓練樣本及視情況選用之複數個第二訓練樣本訓練模型。當將第一複數個第一資料結構及視情況選用之第二複數個第二資料結構輸入至模型時,藉由基於模型之輸出匹配或不匹配第一標記及視情況選用之第二標記的相應標記使模型之參數最佳化來進行訓練。模型之輸出指定在各別窗口中目標位置之核苷酸是否具有修飾。該方法可僅包括複數個第一訓練樣本,因為模型可將離群值鑑別為與第一狀態不同的狀態。該模型可為統計模型,亦稱為機器學習模型。
在一些實施例中,模型之輸出可包括處於複數個狀態中之每一者的概率。可將具有最高概率之狀態視為狀態。
該模型可包括卷積神經網路(CNN)。CNN可包括一組卷積濾波器,其經組態以過濾第一複數個資料結構及視情況選用之第二複數個資料結構。過濾器可為本文所述之任何過濾器。每層之濾波器的數量可為10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至150、150至200或更多。濾波器之內核大小可為2、3、4、5、6、7、8、9、10、11、12、13、14、15、15至20、20至30、30至40或更多。CNN可包括經組態以接收經過濾之第一複數個資料結構及視情況選用之經過濾之第二複數個資料結構的輸入層。CNN亦可包括複數個隱藏層,其包括複數個節點。複數個隱藏層中之第一層耦合至輸入層。CNN可進一步包括輸出層,其耦合至複數個隱藏層之最後一層且經組態以輸出輸出資料結構。輸出資料結構可包括特性。
該模型可包括監督學習模型。監督學習模型可包括不同的方法及算法,包括分析學習、人工神經網路、反向傳播、提昇(元算法)、貝氏統計(Bayesian statistics)、基於病例之推理、決策樹學習、歸納邏輯程式化、高斯過程回歸(Gaussian process regression)、遺傳程式化、資料處理之分組方法、內核估計器、學習自動機、學習分類器系統、最小訊息長度(決策樹、決策圖等)、多線子空間學習、樸素貝葉斯分類器(naive Bayes classifier)、最大熵分類器、條件隨機場、最近鄰算法、可能近似正確學習(PAC)學習、鏈波下降規則、知識獲取方法、符號機器學習算法、亞符號機器學習算法、支持向量機、最小複雜度機器(MCM)、隨機森林、分類器集成、有序分類、資料預處理、處理不平衡資料集、統計關係學習或Proaftn(一種多準則分類算法)。該模型可為線性回歸、邏輯回歸、深度循環神經網路(例如長短期記憶,LSTM)、貝葉斯分類器、隱式馬爾可夫模型(HMM)、線性判別分析(LDA)、k均值聚類、具有雜訊之基於密度之空間聚類應用(DBSCAN)、隨機森林算法、支持向量機(SVM)或本文所述之任何模型。
作為訓練機器學習模型之一部分,機器學習模型之參數(諸如權重、臨限值,例如可用於神經網路中之激活函數等)可基於訓練樣本(訓練集)而經最佳化,以提供對目標位置之核苷酸的修飾進行分類之經最佳化之精度。可進行各種形式之最佳化,例如反向傳播、經驗風險最小化及結構風險最小化。可使用驗證樣本集(資料結構及標記)來驗證模型之準確性。可使用訓練集中用於訓練及驗證之各個部分來進行交叉驗證。該模型可包含複數個子模型,從而提供集合模型。子模型可為較弱的模型,一旦組合就提供更精確的最終模型。
在一些實施例中,嵌合或雜合核酸分子可用於驗證模型。複數個第一核酸分子中之至少一些各自包括對應於第一參考序列之第一部分及對應於第二參考序列之第二部分。第一參考序列可來自與第二參考序列不同的染色體、組織(例如腫瘤或非腫瘤)、生物體或物種。第一參考序列可為人類的,且第二參考序列可來自不同的動物。每個嵌合核酸分子可包括對應於第一參考序列之第一部分及對應於第二參考序列之第二部分。第一部分可具有第一甲基化模式,第二部分可具有第二甲基化模式。第一部分可用甲基化酶處理。第二部分可不用甲基化酶處理,且可對應於第二參考序列之未甲基化部分。 修飾之檢測
103展示用於檢測核酸分子中核苷酸之修飾的方法1030。該修飾可為圖102之方法1020描述的任何修飾。
在方塊1032,接收輸入資料結構。輸入資料結構可對應於樣本核酸分子中定序之核苷酸的窗口。樣本核酸分子可藉由量測對應於核苷酸之光信號中的脈衝來定序。窗口可為圖102之方塊1022描述的任何窗口,且定序可為圖102之方塊1022描述的任何定序。輸入資料結構可包括圖102之方塊1022描述的相同特性之值。方法1030可包括對樣本核酸分子進行定序。
窗口內之核苷酸可或可不與參考基因體進行排比。窗口內之核苷酸可使用環形一致序列(CCS)確定,而無需將經定序之核苷酸與參考基因體進行排比。每個窗口中之核苷酸可藉由CCS而非與參考基因體進行排比來鑑別。在一些實施例中,可在沒有CCS且沒有將經定序之核苷酸與參考基因體進行排比的情況下確定窗口。
窗口內之核苷酸可經富集或過濾。富集可藉由涉及Cas9之方法來進行。Cas9方法可包括使用Cas9複合物切割雙股DNA分子以形成經切割之雙股DNA分子,且將髮夾轉接子連接至經切割之雙股DNA分子的末端,類似於圖91。過濾可藉由選擇大小在大小範圍內之雙股DNA分子來進行。核苷酸可來自此等雙股DNA分子。可使用保留分子之甲基化狀態的其他方法(例如甲基結合蛋白)。
在方塊1034,將輸入資料結構輸入至模型中。該模型可藉由圖102中之方法1020來訓練。
在一些實施例中,嵌合核酸分子可用於驗證模型。複數個第一核酸分子中之至少一些各自包括對應於第一參考序列之第一部分及對應於與第一參考序列不相接之第二參考序列之第二部分。第一參考序列可來自與第二參考序列不同的染色體、組織(例如腫瘤或非腫瘤)、胞器(例如粒線體、細胞核、葉綠體)、生物體(哺乳動物、病毒、細菌等)或物種。第一參考序列可為人類的,且第二參考序列可來自不同的動物。每個嵌合核酸分子可包括對應於第一參考序列之第一部分及對應於第二參考序列之第二部分。第一部分可具有第一甲基化模式,第二部分可具有第二甲基化模式。第一部分可用甲基化酶處理。第二部分可不用甲基化酶處理,且可對應於第二參考序列之未甲基化部分。
在方塊1036,使用模型確定修飾是否存在於輸入資料結構中窗口內之目標位置處的核苷酸中。
輸入資料結構可為複數個輸入資料結構中之一個輸入資料結構。每個輸入資料結構可對應於複數個樣本核酸分子之各別樣本核酸分子中定序之核苷酸的各別窗口。複數個樣本核酸分子可自個體之生物樣本獲得。生物樣本可為本文所述之任何生物樣本。可針對每個輸入資料結構重複方法1030。該方法可包括接收複數個輸入資料結構。可將複數個輸入資料結構輸入至模型中。可使用模型確定在每個輸入資料結構之各別窗口中目標位置處之核苷酸中是否存在修飾。
複數個樣本核酸分子中之每個樣本核酸分子的大小可大於閾值大小。舉例而言,閾值大小可為100 bp、200 bp、300 bp、400 bp、500 bp、600 bp、700 bp、800 bp、900 bp、1 kb、2 kb、3 kb、4 kb、5 kb、6 kb、7 kb、9 kb、10 kb、20 kb、30 kb、40 kb、50 kb、60 kb、70 kb、80 kb、90 kb、100 kb、500 kb或1 Mb。具有大小閾值可導致更高的子讀段深度,其中之任一者均可增加修飾檢測之準確性。在一些實施例中,該方法可包括在對DNA分子進行定序之前,針對特定的大小對DNA分子進行分級分離。
複數個樣本核酸分子可與複數個基因體區域進行排比。對於複數個基因體區域中之每個基因體區域,可將許多樣本核酸分子與基因體區域進行排比。樣本核酸分子之數量可大於閾值數量。閾值數量可為子讀段深度閾值。子讀段深度閾值數可為1x、10x、30x、40x、50x、60x、70x、80x、900x、100x、200x、300x、400x、500x、600x、700x或800x。可確定子讀段深度閾值數以提高或優化準確性。子讀段深度閾值數可與複數個基因體區域之數量相關。舉例而言,子讀段深度閾值數愈高,複數個基因體區域之數量愈低。
可確定修飾存在於一或多個核苷酸處。可使用在一或多個核苷酸處之修飾的存在來確定病症之分類。病症之分類可包括使用修飾之數量。可將修飾之數量與臨限值進行比較。替代或另外地,分類可包括一或多個修飾之位置。一或多個修飾之位置可藉由將核酸分子之序列讀段與參考基因體進行排比來確定。若已知與病症相關之某些位置顯示為具有修飾,則可確定病症。舉例而言,甲基化位點之模式可與病症之參考模式進行比較,且可基於比較確定病症。與參考模式之匹配或與參考模式之實質性匹配(例如,80%、90%或95%或更高)可指示病症或病症之可能性較高。該病症可為癌症或本文所述之任何病症(例如,妊娠相關病症、自體免疫疾病)。
可分析統計學上顯著數量之核酸分子,以便為病症、組織起源或臨床相關之DNA分數提供準確的測定。在一些實施例中,分析至少1000個核酸分子。在其他實施例中,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個核酸分子或更多。作為另一個實例,可產生至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個序列讀段。
該方法可包括確定病症之分類為個體患有該病症。分類可包括使用修飾之數量及/或修飾之位點的病症等級。
臨床相關之DNA分數、胎兒甲基化概況、母體甲基化概況、印記基因區域之存在或起源組織(例如,來自含有不同細胞類型混合物之樣本)可使用一或多個核苷酸處之修飾的存在來確定。臨床相關之DNA分數包括但不限於胎兒DNA分數、腫瘤DNA分數(例如,來自含有腫瘤細胞及非腫瘤細胞混合物之樣本)及移植DNA分數(例如來自含有供體細胞及受體細胞混合物之樣本)。
該方法可進一步包括治療病症。可根據所確定之病症等級、經鑑別之修飾及/或起源來源(例如,自癌症患者之循環中分離的腫瘤細胞)提供治療。舉例而言,可用特定的藥物或化學療法靶向經鑑別之修飾。起源組織可用於指導手術或任何其他形式之治療。並且,病症等級可用於確定用任何類型之治療的積極性。
實施例可包括在確定患者之病症等級之後治療患者之病症。治療可包括任何適合之療法、藥物、化學療法、放療或手術,包括本文提及之參考文獻中所述之任何治療。參考文獻中關於治療之資訊以引用之方式併入本文中。 單倍型分析
在腫瘤組織樣本中發現兩個單倍型之間的甲基化概況存在差異。因此,單倍型之間的甲基化不平衡可用於確定癌症或其他病症的等級分類。單倍型之不平衡亦可用於鑑別胎兒對單倍型之遺傳。胎兒病症亦可經由分析單倍型之間的甲基化不平衡來鑑別。細胞DNA可用於分析單倍型之甲基化程度。 單倍型相關之甲基化分析
單分子即時定序技術可鑑別個別SNP。自單分子即時定序孔產生之長讀段(例如長達數千鹼基)允許藉由利用每個一致讀段中存在之單倍型資訊對基因體中之變異進行分期(Edge等人 《基因體研究》 2017;27:801-812;Wenger等人 《自然生物技術》 2019;37:1155-1162)。如圖77所示,可自CCS與各別單倍型上之對偶基因相連之CpG位點的甲基化程度來分析單倍型之甲基化概況。此分期甲基化單倍型分析可用於解決關於同源染色體之兩個複本在不同的臨床相關病況(諸如癌症)中是否具有相似或不同的甲基化模式的問題。在一個實施例中,單倍型甲基化將為由分配給該單倍型之許多DNA片段貢獻的總甲基化程度。單倍型可為不同大小的塊,包括但不限於50 nt、100 nt、200 nt、300 nt、400 nt、500 nt、1 knt、2 knt、3 knt、4 knt、5 knt、10 knt、20 knt、30 knt、40 knt、50 knt、100 knt、200 knt、300 knt、400 knt、500 knt、1 Mnt、2 Mnt及3 Mnt。 基於單倍型之相對甲基化不平衡分析
104展示基於單倍型之相對甲基化不平衡分析。藉由分析單分子即時定序結果確定單倍型(亦即Hap I及Hap II)。使用彼等根據圖77中所述之方法確定甲基化概況的單倍型相關片段,可確定與每個單倍型相關之甲基化模式。從而,可比較Hap I與Hap II之間的甲基化模式。
為了量化Hap I與Hap II之間的甲基化差異,計算Hap I與Hap II之間甲基化程度的差異(10}∆F)。差異∆F計算如下: 其中∆F代表Hap I與Hap II之間甲基化程度的差異, 分別代表Hap I及Hap II之甲基化程度。∆F為正值表明Hap I之DNA甲基化程度高於Hap II。 基於單倍型之HCC腫瘤DNA的相對甲基化不平衡分析
在一個實施例中,單倍型甲基化分析可用於檢測癌症基因體中之甲基化畸變。舉例而言,將分析基因體區域內之兩個單倍型之間的甲基化變化。基因體區域內之單倍型定義為單倍型區塊。單倍型區塊可視為染色體上已定相之一組對偶基因。在一些實施例中,單倍型區塊將根據支持染色體上兩個對偶基因物理連接之一組序列資訊儘可能地延長。對於病例3033,吾等自相鄰正常組織DNA之定序結果中獲得97,475個單倍型區塊。單倍型區塊的中位數大小為2.8 kb。25%之單倍型區塊的大小大於8.2 kb。單倍型區塊的最大大小為282.2 kb。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。
出於說明之目的,吾等使用許多準則來鑑別潛在的單倍型區塊,該等單倍型區塊表現出與相鄰的非腫瘤組織DNA相比,腫瘤DNA中Hap I與Hap II之間的差異性甲基化。準則為:(1)所分析之單倍型區塊含有至少3個三個CCS序列,其分別自三個定序孔產生;(2)相鄰非腫瘤組織DNA中Hap I與Hap II之間甲基化程度的絕對差異小於5%;(3)腫瘤組織DNA中Hap I與Hap II之間甲基化程度的絕對差異大於30%。吾等鑑別出73個符合上述準則之單倍型區塊。
105A105B為病例TBR3033之73個單倍型區塊的表格,顯示與相鄰非腫瘤組織DNA相比,HCC腫瘤DNA中Hap I與Hap II之間的差異性甲基化程度。第一行顯示與單倍型區塊相關聯之染色體。第二行顯示染色體內單倍型區塊之起始座標。第三行顯示單倍型區塊之結束座標。第四行展示單倍型區塊之長度。第四行列出單倍型區塊id。第五行顯示與腫瘤組織相鄰的非腫瘤組織中Hap I的甲基化程度。第六行顯示非腫瘤組織中Hap II的甲基化程度。第七行顯示腫瘤組織中Hap I的甲基化程度。第八行顯示腫瘤組織中Hap II的甲基化程度。
與73個單倍型區塊顯示腫瘤組織DNA之單倍型之間的甲基化程度差異大於30%相反,僅一個單倍型區塊顯示非腫瘤組織DNA之差異大於30%,但腫瘤組織DNA之差異小於5%。在一些實施例中,可使用另一組準則來鑑別呈現差異性甲基化之單倍型區塊。可使用其他最大及最小臨限值差異。舉例而言,最小臨限值差異可為10%、15%、20%、25%、30%、35%、40%、45%、50%或更多。作為實例,最大臨限值差異可為1%、5%、10%、15%、20%或30%。此等結果表明,單倍型之間甲基化差異的變化可充當一種新的生物標誌物,用於癌症診斷、檢測、監測、預後及指導治療。
在一些實施例中,當研究甲基化模式時,長的單倍型區塊將電腦模擬分割成較小的塊。
對於病例3032,吾等自相鄰非腫瘤組織DNA之定序結果中獲得61,958個單倍型區塊。單倍型區塊的中位數大小為9.3 kb。25%之單倍型區塊的大小大於27.6 kb。單倍型區塊的最大大小為717.8 kb。作為說明,吾等使用上述相同的三個準則來鑑別潛在的單倍型區塊,該等單倍型區塊表現出與相鄰的正常組織DNA相比,腫瘤DNA中Hap I與Hap II之間的差異性甲基化。吾等鑑別出20個符合上述準則之單倍型區塊。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。
106為病例TBR3032之20個單倍型區塊的表格,顯示與相鄰正常組織DNA相比,腫瘤DNA中Hap I與Hap II之間的差異性甲基化程度。第一行顯示與單倍型區塊相關聯之染色體。第二行顯示染色體內單倍型區塊之起始座標。第三行顯示單倍型區塊之結束座標。第四行展示單倍型區塊之長度。第四行列出單倍型區塊id。第五行顯示與腫瘤組織相鄰的非腫瘤組織中Hap I的甲基化程度。第六行顯示非腫瘤組織中Hap II的甲基化程度。第七行顯示腫瘤組織中Hap I的甲基化程度。第八行顯示腫瘤組織中Hap II的甲基化程度。
與圖106中20個單倍型區塊顯示HCC腫瘤組織中之差異相反,僅一個單倍型區塊顯示在非腫瘤組織中之差異大於30%,但在腫瘤組織中之差異小於5%。此等結果進一步表明,單倍型之間甲基化差異的變化將充當一種新的生物標誌物,用於癌症診斷、檢測、監測、預後及指導治療。對於其他實施例,可使用其他準則來鑑別呈現差異性甲基化之單倍型區塊。 基於單體型之其他腫瘤類型DNA的相對甲基化不平衡分析
如上所述,單倍型之間甲基化程度的分析顯示,與配對的相鄰非腫瘤組織相比,HCC腫瘤組織具有更多表現出甲基化不平衡的單倍型區塊。作為一個實例,腫瘤組織中顯示甲基化不平衡之單倍型區塊的準則為:(1)所分析之單倍型區塊含有至少三個CCS序列,其自三個定序孔產生;(2)相鄰非腫瘤組織DNA或基於歷史資料之正常組織DNA中Hap I與Hap II之間甲基化程度的絕對差異小於5%;(3)腫瘤組織DNA中Hap I與Hap II之間甲基化程度的絕對差異大於30%。納入準則(2)係因為非腫瘤/正常組織在甲基化程度上顯示單倍型不平衡可能指示印記區域而非腫瘤區域。非腫瘤組織中顯示甲基化不平衡之單倍型區塊的準則為:(1)所分析之單倍型區塊含有至少三個CCS序列,其自三個定序孔產生;(2)相鄰非腫瘤組織DNA或基於歷史資料之正常組織DNA中Hap I與Hap II之間甲基化程度的絕對差異大於30%;(3)腫瘤組織DNA中Hap I與Hap II之間甲基化程度的絕對差異小於5%。
在其他實施例中,可使用其他準則。舉例而言,為了鑑別不平衡單倍型I癌症基因體,非腫瘤組織中Hap I與Hap II之間的甲基化程度差異可小於1%、5%、10%、20%、40%、50%或60%等,而腫瘤組織中Hap I與Hap II之間的甲基化程度差異可大於1%、5%、10%、20%、40%、50%或60%等。為了鑑別不平衡單倍型I非癌症基因體,非腫瘤組織中Hap I與Hap II之間的甲基化程度差異可大於1%、5%、10%、20%、40%、50%或60%等,而腫瘤組織中Hap I與Hap II之間的甲基化程度差異可小於1%、5%、10%、20%、40%、50%或60%等。
107A為基於Sequel II Sequencing Kit 2.0生成之資料,總結腫瘤與相鄰非腫瘤組織之間顯示兩個單倍型之間甲基化不平衡之單倍型區塊的數量的表格。第一行列出組織類型。第二行列出腫瘤組織中顯示兩個單倍型之間甲基化不平衡之單倍型區塊的數量。第三行列出配對的相鄰非腫瘤組織中顯示兩個單倍型之間甲基化不平衡之單倍型區塊的數量。列顯示腫瘤組織比配對的相鄰非腫瘤組織具有更多的顯示兩個單倍型之間甲基化不平衡的單倍型區塊。
此分析中涉及之單倍型區塊的中位數長度為15.7 kb(IQR:10.3-26.1 kb)。包括肝臟之HCC結果,資料顯示7種組織類型之腫瘤組織具有更多的具有甲基化不平衡之單倍型區塊。除肝臟之外,其他組織包括結腸、乳房、腎臟、肺、前列腺及胃組織。因此,在一些實施例中,吾人可使用具有甲基化不平衡之單倍型區塊的數量檢測患者是否患有腫瘤或癌症。
107B為基於Sequel II Sequencing Kit 2.0生成之資料,總結不同腫瘤階段之腫瘤組織中顯示兩個單倍型之間之甲基化不平衡之單倍型區塊的數量的表格。第一行顯示具有腫瘤之組織類型。第二行顯示腫瘤組織中兩個單倍型之間甲基化不平衡之單倍型區塊的數量。第三行列出使用惡性腫瘤之TNM分類的腫瘤分期資訊。T3及T3a為大小大於T2之腫瘤。
該表顯示更多的單倍型區塊,顯示乳房及腎臟之較大腫瘤的甲基化不平衡。舉例而言,對於乳腺組織,分類為腫瘤等級T3(TNM分期)、ER陽性且表現出 ERBB2擴增之組織的顯示甲基化不平衡之單倍型區塊(57)比分類為腫瘤等級T2(TNM分期)、PR(孕酮受體)/ER(雌激素受體)陽性且無 ERBB2擴增之組織的單倍型區塊(18)更多。對於腎臟組織,分類為腫瘤等級T3a之組織之顯示甲基化不平衡的單倍型區塊(68)比分類為腫瘤等級T2之組織的單倍型區塊(0)更多。
在一些實施例中,吾人可利用顯示甲基化不平衡之單倍型區塊對腫瘤進行分類,且與其臨床行為(例如進展、預後或治療反應)相關。此等資料表明,基於單倍型之甲基化不平衡程度可充當腫瘤之分類器,且可併入臨床研究或試驗或最終的臨床服務中。腫瘤之分類可包括大小及嚴重程度。 基於單倍型之母體血漿游離DNA的甲基化分析
可確定父母雙方或父母一方的單倍型。單倍型分析方法可包括長讀段單分子定序、連鎖短讀段定序(例如10x基因體學)、長程單分子PCR或群體推斷。若已知父本單倍型,則可藉由連接多個游離DNA分子之甲基化概況來組裝游離胎兒DNA甲基化體,每個游離DNA分子含有至少一個沿著父本單倍型存在之父本特異性SNP對偶基因。換言之,父本單倍型用作連接胎兒特異性讀段序列之骨架。
108展示單倍型之相對甲基化不平衡的分析。若已知母本單倍型,則兩個單倍型(亦即Hap I及Hap II)之間的甲基化不平衡可用於確定胎兒遺傳之母本單倍型。如圖108所示,使用單分子即時定序技術對來自孕婦之血漿DNA分子進行定序。根據本文之揭示內容可確定甲基化及對偶基因資訊。在一個實施例中,與致病基因相關之SNP指定為Hap I。若胎兒遺傳Hap I,則與攜帶Hap II對偶基因之片段相比,母體血漿中會存在更多攜帶Hap I對偶基因之片段。來源於胎兒之DNA片段的低甲基化會使Hap I之甲基化程度低於Hap II之甲基化程度。因此,若Hap I之甲基化程度顯示低於Hap II,則胎兒遺傳母本Hap I之可能性較大。否則,胎兒遺傳母本Hap II之可能性較大。在臨床實踐中,基於單倍型之甲基化不平衡分析可用於確定未出生的胎兒是否遺傳與遺傳病症相關聯之母本單倍型,該等遺傳病症例如但不限於單基因病症,包括X脆折症候群、肌肉營養不良、亨廷頓氏病(Huntington disease)或β-地中海貧血症。 例示性病症分類方法
109展示對具有第一單倍型及第二單倍型之生物體的病症進行分類的例示性方法1090。方法1090涉及比較兩個單倍型之間的相對甲基化程度。
在方塊1091,分析來自生物樣本之DNA分子,以鑑別其在對應於生物體之參考基因體中的位置。DNA分子可為細胞DNA分子。舉例而言,可對DNA分子進行定序以獲得序列讀段,且可將序列讀段相對於參考基因體進行定位(排比)。若生物體為人類,則參考基因體將為參考人類基因體,可能來自特定亞群。作為另一個實例,可用不同的探針(例如按照PCR或其他擴增方法)分析DNA分子,其中每個探針對應於基因體位置,該位置可覆蓋異型接合子及一或多個CpG位點,如下所述。
此外,可分析DNA分子以確定DNA分子之各別對偶基因。舉例而言,DNA分子之對偶基因可自定序獲得之序列讀段或自與DNA分子雜交之特定探針來確定,其中兩種技術均可提供序列讀段(例如,當存在雜交時,探針可視為序列讀段)。可確定DNA分子之一或多個位點(例如CpG位點)中之每一者的甲基化狀態。
在方塊1092,鑑別第一染色體區域之第一部分的一或多個異型接合基因座。每個異型接合基因座可包括第一單倍型中之相應第一對偶基因及第二單倍型中之相應第二對偶基因。一或多個異型接合基因座可為第一複數個異型接合基因座,其中第二複數個異型接合基因座可對應於不同的染色體區域。
在方塊1093,鑑別第一組複數個DNA分子。複數個DNA分子中之每一者均位於方塊1096之異型接合基因座中之任一者,且包括相應的第一對偶基因,因此DNA分子可鑑別為對應於第一單倍型。DNA分子有可能位於一個以上的異型接合基因座,但是通常一個讀段將僅包括一個異型接合基因座。第一組DNA分子中之每一者亦包括N個基因體位點中之至少一者,其中該等基因體位點用於量測甲基化程度。N為整數,例如大於或等於1、2、3、4、5、10、20、50、100、200、500、1,000、2,000或5,000。因此,DNA分子之讀段可表示覆蓋1個位點、2個位點等。1個基因體位點可包括存在CpG核苷酸之位點。
在方塊1094,使用第一組複數個DNA分子確定第一單倍型之第一部分的第一甲基化程度。第一甲基化程度可藉由本文所述之任何方法確定。第一部分可對應於單個位點或包括許多位點。第一單倍型之第一部分可長於或等於1 kb。舉例而言,第一單倍型之第一部分可長於或等於1 kb、5 kb、10 kb、15 kb或20 kb。甲基化資料可為來自細胞DNA之資料。
在一些實施例中,可針對第一單倍型之複數個部分確定複數個第一甲基化程度。每一部分之長度可大於或等於5 kb或本文所揭示之第一單倍型之第一部分的任何大小。
在方塊1095,鑑別第二組複數個DNA分子。複數個DNA分子中之每一者均位於方塊1096之異型接合基因座中之任一者,且包括相應的第二對偶基因,因此DNA分子可鑑別為對應於第二單倍型。第二組DNA分子中之每一者亦包括N個基因體位點中之至少一者,其中該等基因體位點用於量測甲基化程度。
在方塊1096,使用第二組複數個DNA分子確定第二單倍型之第一部分的第二甲基化程度。第二甲基化程度可藉由本文所述之任何方法確定。第二單倍型之第一部分可長於或等於1 kb或第一單倍型之第一部分的任何大小。第一單倍型之第一部分可與第二單倍型之第一部分互補。第一單倍型之第一部分及第二單倍型之第一部分可形成環形DNA分子。第一單倍型之第一部分的第一甲基化程度可使用來自環形DNA分子之資料來確定。舉例而言,環形DNA之分析可包括圖1、圖2、圖4、圖5、圖6、圖7、圖8、圖50或圖61所述之分析。
環形DNA分子可藉由使用Cas9複合物切割雙股DNA分子形成經切割之雙股DNA分子來形成。可將髮夾轉接子連接至經切割之雙股DNA分子的末端。在實施例中,雙股DNA分子之兩端可經切割及連接。舉例而言,切割、連接及後續分析可如圖91所述進行。
在一些實施例中,可針對第二單倍型之複數個部分確定複數個第二甲基化程度。第二單倍型之複數個部分中的每一部分可與第一單倍型之複數個部分中的一部分互補。
在方塊1097,使用第一甲基化程度及第二甲基化程度計算參數之值。該參數可為分離值。分離值可為兩個甲基化程度之間的差或兩個甲基化程度之比率。
若使用第二單倍型之複數個部分,則對於第二單倍型之複數個部分中之每一部分,可使用第二單倍型之一部分的第二甲基化程度及使用第一單倍型之互補部分的第一甲基化程度計算分離值。可將分離值與閾值進行比較。
閾值可自未患病症之組織確定。參數可為第二單倍型之分離值超過閾值之部分的數量。舉例而言,第二單倍型之分離值超過閾值之部分的數量可類似於圖105A、圖105B及圖106中所示之具有大於30%之差異的區域的數量。在圖105A、圖105B及圖106中,分離值為比率,且閾值為30%。在一些實施例中,閾值可自患有病症之組織確定。
在另一個實例中,可對每一部分之分離值進行彙總,例如求和,其可藉由加權和或各個分離值之函數之和來完成。此類彙總可提供參數之值。
在方塊1098,將參數之值與參考值進行比較。參考值可使用無病症之參考組織來確定。參考值可為分離值。舉例而言,參考值可表示兩個單倍型之甲基化程度之間應不存在顯著差異。舉例而言,參考值可為0之統計差異或約1之比率。當使用複數個部分時,參考值可為健康生物體中兩個單倍型顯示超過閾值之分離值之部分的數量。在一些實施例中,參考值可使用患有病症之參考組織來確定。
在方塊1099,使用參數之值與參考值之比較確定生物體中病症之分類。若參數之值超過參考值,則可確定該病症存在或更可能存在。該病症可包括癌症。癌症可為本文所述之任何癌症。病症之分類可為病症之可能性。病症之分類可包括病症之嚴重程度。舉例而言,指示具有單倍型不平衡之部分數量較大的較大參數值可指示更嚴重的癌症形式。
雖然圖109所述之方法涉及病症之分類,但類似的方法可用於確定可能由單倍型之間甲基化程度的不平衡導致的任何病況或特徵。舉例而言,來自胎兒DNA之單倍型的甲基化程度可能低於來自母體DNA之單倍型的甲基化。甲基化程度可用於將核酸分類為母體或胎兒的。
當病症為癌症時,腫瘤之不同染色體區域可能表現出甲基化之此類差異。視哪些區域受影響而定,可提供不同的治療。此外,具有表現出此類甲基化差異之不同區域的個體可具有不同的預後。
具有足夠分離(例如,大於閾值)之染色體區域(部分)可鑑別為異常(或具有異常分離)。可將異常區域之模式(潛在地說明哪種單倍型高於另一種單倍型)與參考模式(例如,自患有癌症、可能為特定類型之癌症之個體或健康個體確定)進行比較。若兩個模式在臨限值內(例如,小於指定數量之區域/部分不同)與具有特定分類之參考模式相同,則可將個體鑑別為具有該分類之病症。此類分類可包括印記病症,例如,如本文所述。 雜合分子之單分子甲基化分析
為了進一步評估本文所揭示之關於測定核酸之鹼基修飾之實施例的效能及效用,吾等人為地創建人類及小鼠雜合DNA片段,其中人類部分為甲基化的,而小鼠部分為未甲基化的,反之亦然。確定雜合或嵌合DNA分子之接合點可允許檢測包括癌症之各種病症或疾病的基因融合。 創建人類及小鼠雜合DNA片段之方法
此部分描述創建雜合DNA片段,且隨後描述確定片段之甲基化概況的程序。
在一個實施例中,人類DNA係經由全基因體擴增而擴增,從而將消除人類基因體中之原始甲基化特徵,因為全基因體擴增將不會保留甲基化狀態。全基因體擴增可使用抗外切核酸酶之硫代磷酸酯修飾的簡併六聚體作為引子來進行,該等引子可在基因體上隨機結合,從而使聚合酶(例如Φ29 DNA聚合酶)無需熱循環即可擴增DNA。經擴增之DNA產物將為未甲基化的。經擴增之人類DNA分子用M.SssI(一種CpG甲基轉移酶)進一步處理,該酶理論上將使雙股、非甲基化或半甲基化的DNA中CpG上下文處之所有胞嘧啶完全甲基化。因此,此類由M.SssI處理之經擴增之人類DNA將變成甲基化之DNA分子。
相比之下,對小鼠DNA進行全基因體擴增,因此將產生未甲基化之小鼠DNA片段。
110展示創建人類-小鼠雜合DNA片段,其中人類部分為甲基化的,而小鼠部分為未甲基化的。經填充之棒棒糖代表甲基化之CpG位點。未填充之棒棒糖代表未甲基化之CpG位點。帶對角線條紋之粗條11010代表甲基化之人類部分。帶垂直條紋之粗條11020代表未甲基化之小鼠部分。
為了產生雜合人類-小鼠DNA分子,在一個實施例中,將全基因體擴增且經M.SssI處理之DNA分子進一步用 HindIII及 NcoI消化,產生黏性末端以便於下游連接。在一個實施例中,將甲基化之人類DNA片段與未甲基化之小鼠DNA片段進一步以等莫耳比混合。對此類人類-小鼠DNA混合物進行連接過程,在一個實施例中,該過程由DNA連接酶在20℃下介導15分鐘。如圖110所示,此連接反應將產生3種類型之所得分子,包括人類-小鼠雜合DNA分子(a:人類-小鼠雜合片段);僅人類DNA分子(b:人類-人類連接,及c:未連接之人類DNA);及僅小鼠DNA分子(d:小鼠-小鼠連接及e:未連接之小鼠DNA)。對連接後之DNA產物進行單分子即時定序。根據本文提供之揭示內容分析定序結果,以確定甲基化狀態。
111展示創建人類-小鼠雜合DNA片段,其中人類部分為未甲基化的,而小鼠部分為甲基化的。經填充之棒棒糖代表甲基化之CpG位點。未填充之棒棒糖代表未甲基化之CpG位點。帶對角線條紋之粗條11110代表甲基化之小鼠部分。帶垂直條紋之粗條11120代表未甲基化之人類部分。
對於圖111中之實施例,小鼠DNA分子係經由全基因體擴增而擴增,從而將消除小鼠基因體中之原始甲基化。經擴增之DNA產物將為未甲基化的。經擴增之小鼠DNA將用M.SssI進一步處理。因此,此類由M.SssI處理之經擴增之小鼠DNA將變成甲基化之DNA分子。相反,對人類DNA片段進行全基因體擴增,從而將獲得未甲基化之人類片段。在一個實施例中,將甲基化之人類片段與未甲基化之片段進一步以等莫耳比混合。對此類人類-小鼠DNA混合物進行由DNA連接酶介導之連接過程。如圖111所示,此連接反應將產生3種類型之所得分子,包括人類-小鼠雜合DNA分子(a:人類-小鼠雜合片段);僅人類DNA分子(b:人類-人類連接,及c:未連接之人類DNA);及僅小鼠DNA分子(d:小鼠-小鼠連接及e:未連接之小鼠DNA)。對連接後之DNA產物進行單分子即時定序。根據本文提供之揭示內容分析定序結果,以確定甲基化狀態。
根據圖110所示之實施例,吾等製備人工DNA混合物(命名為樣本MIX01),其包含人類-小鼠雜合DNA分子、僅人類DNA及僅小鼠DNA,其中人類相關之DNA分子為甲基化的,而小鼠DNA分子為未甲基化的。對於樣本MIX01,吾等獲得1.66億個子讀段,其可與人類或小鼠參考基因體進行排比,或部分與人類基因體進行排比且部分與小鼠基因體進行排比。此等子讀段係自大約500萬個Pacific Biosciences單分子即時(SMRT)定序孔中產生。單分子即時定序孔中之每個分子平均定序32次(範圍:1-881次)。
為了確定雜合片段中之人類DNA及小鼠DNA部分,吾等首先藉由組合孔中所有相關子讀段之核苷酸資訊來構築一致序列。吾等總共獲得樣本MIX01之3,435,657個一致序列。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。
將一致序列與包含人類及小鼠參考基因體之參考基因體進行排比。吾等獲得320萬個排比的一致序列。其中,39.6%之序列分類為僅人類DNA類型;26.5%之序列分類為僅小鼠DNA類型,且30.2%之序列分類為人類-小鼠雜合DNA。
圖112展示連接後之DNA混合物(樣本MIX01)中DNA分子之長度分佈。x軸顯示DNA分子之長度。y軸顯示與DNA分子長度相關聯之頻率。如圖112所示,人類-小鼠雜合DNA分子具有較長的長度分佈,其與該等分子為至少兩種類型分子之組合的事實一致。
113展示將第一DNA(A)及第二DNA(B)接合在一起之接合區域。DNA(A)及DNA(B)可用限制酶消化。在一個實施例中,為了提高使用交錯末端之連接效率,吾等使用分別識別A^AGCTT及C^CATGG位點的限制酶 HindIII及 NcoI,在連接步驟之前消化人類及小鼠DNA。隨後可連接DNA(A)及DNA(B)。在698,492個具有接合區域之人類-小鼠雜合DNA分子中,吾等發現88%之人類-小鼠雜合DNA分子攜帶A^AGCTT及C^CATGG之酶識別位點,進一步表明人類及小鼠DNA片段之間已發生連接。該接合區域定義為第一DNA片段及第二DNA片段以物理方式接合在一起的區域或位點。由於接合點包括DNA(A)及DNA(B)共同的序列,因此不能僅藉由序列來確定對應於接合點之一股的一部分為DNA(A)或DNA(B)之一部分。分析對應於接合點之一股之一部分的甲基化模式或密度可用於確定該部分係來自DNA(A)抑或DNA(B)。舉例而言,DNA(A)可為病毒DNA,DNA(B)可為人類DNA。精確接合點之測定可告知此類整合DNA是否以及如何破壞蛋白質結構。
114展示DNA混合物之甲基化分析。帶對角線條紋之條11410指示在排比分析中觀察到的接合區域,該區域將在連接之前藉由限制酶處理引入。「RE位點」表示限制酶(RE)識別位點。
如圖114所示,在一個實施例中,將排比之一致序列分為如下三個類別:
(1)參照一或多個排比準則,經定序之DNA僅與人類參考基因體進行排比,而不與小鼠參考基因體進行排比。在一個實施例中,一個排比準則可定義為但不限於經定序之DNA之100%、95%、90%、80%、70%、60%、50%、40%、30%或20%的連續核苷酸可與人類參考基因體進行排比。在一個實施例中,一個排比準則將為未與人類參考基因體進行排比之經定序片段的剩餘部分不能與小鼠參考基因體進行排比。在一個實施例中,一個排比準則為經定序之DNA可與人類參考基因體中之單個區域進行排比。在一個實施例中,排比可為完美的。在其他實施例中,排比可容納核苷酸差異,包括插入、錯配及缺失,其限制條件為此類差異小於某些臨限值,諸如但不限於排比序列長度之1%、2%、3%、4%、5%、10%、20%或30%。在另一個實施例中,排比可為參考基因體中一個以上的位置。在其他實施例中,與參考基因體中一或多個位點之排比可以概率方式(例如指示錯誤排比之幾率)陳述,且概率量測可用於後續處理。
(2)參照一或多個排比準則,經定序之DNA僅與小鼠參考基因體進行排比,而不與人類參考基因體進行排比。在一個實施例中,一個排比準則可定義為但不限於經定序之DNA之100%、95%、90%、80%、70%、60%、50%、40%、30%或20%的連續核苷酸可與小鼠參考基因體進行排比。在一個實施例中,一個排比準則將為剩餘部分不能與人類參考基因體進行排比。在一個實施例中,一個排比準則為經定序之DNA可與小鼠參考基因體中之單個區域進行排比。在一個實施例中,排比可為完美的。在其他實施例中,排比可容納核苷酸差異,包括插入、錯配及缺失,其限制條件為此類差異小於某些臨限值,諸如但不限於排比序列長度之1%、2%、3%、4%、5%、10%、20%或30%。在另一個實施例中,排比可為參考基因體中一個以上的位置。在其他實施例中,與參考基因體中一或多個位點之排比可以概率方式(例如指示錯誤排比之幾率)陳述,且概率量測可用於後續處理。
(3)經定序之DNA的一部分與人類參考基因體進行唯一排比,而另一部分與小鼠參考基因體進行唯一排比。在一個實施例中,若在連接之前使用限制酶,則在排比分析中會觀察到接合區域,對應於限制酶切割位點。在一些實施例中,由於定序及排比誤差,人類及小鼠DNA部分之間的接合區域僅可在一定區域內大致確定。在一些實施例中,若連接涉及無限制酶切割之分子(例如,若存在平端連接),則限制酶識別位點將無法在人類-小鼠雜合DNA片段之接合區域中觀察到。
脈衝間持續時間(IPD)、脈衝寬度(PW)及CpG位點周圍的序列上下文係自對應於一致序列之彼等子讀段獲得。從而,可根據本揭示案中存在之實施例確定每個DNA分子之甲基化,包括僅人類、僅小鼠及人類-小鼠雜合DNA。 甲基化結果
此部分描述雜合DNA片段之甲基化結果。甲基化密度可用於鑑別雜合DNA片段之不同部分的起源。
115展示樣本MIX01中CpG位點之甲基化概率的盒狀圖。x軸顯示樣本MIX01中存在之三種不同的分子:僅人類DNA、僅小鼠DNA及人類-小鼠雜合DNA(包括人類部分及小鼠部分)。y軸顯示特定單個DNA分子之CpG位點的甲基化概率。此分析係以人類DNA甲基化程度較高而小鼠DNA未甲基化程度較高之方式來進行。
如圖115所示,僅人類DNA中CpG位點之甲基化概率(中位數:0.66;範圍:0-1)顯著高於僅小鼠DNA中CpG位點之甲基化概率(中位數:0.06;範圍:0-1)( P值<0.0001)。此等結果與分析設計一致,其中人類DNA由於CpG甲基轉移酶M.SssI之處理而甲基化程度較高,而小鼠DNA由於在全基因體擴增期間不能保留甲基化而未甲基化程度較高。此外,人類-小鼠雜合DNA分子之人類DNA部分內的CpG位點與小鼠DNA部分內的CpG位點(中位數:0.06;範圍:0-1)相比,顯示甲基化概率較高(中位數:0.69;範圍:0-1)( P值<0.0001)。此等資料表明,所揭示之方法可準確地確定DNA分子以及DNA分子內之區段的甲基化狀態。
甲基化概率係指基於所使用之統計模型估計的單分子內特定CpG位點之概率。概率為1表示,基於統計模型,使用所測得參數(包括IPD、PW及序列上下文)之100%的CpG位點將被甲基化。概率為0表示,根據統計模型,使用所測得參數(包括IPD、PW及序列上下文)之0%的CpG位點將被甲基化。換言之,使用所測得參數之所有CpG位點將為未甲基化的。圖115展示甲基化概率之分佈,僅人類DNA及人類部分之分佈比小鼠對應物更寬。亞硫酸氫鹽定序用於量測類似樣本之甲基化,以確認甲基化不完全,結果如下所示。圖115展示人類與小鼠DNA中甲基化之間的顯著差異。
根據圖111所示之實施例,吾等製備人工DNA混合物(命名為樣本MIX02),其包含人類-小鼠雜合DNA分子、僅人類DNA及僅小鼠DNA,其中人類部分為未甲基化的,而小鼠部分為甲基化的。對於樣本MIX02,吾等獲得1.4億個子讀段,其可與人類或小鼠參考基因體進行排比,或部分與人類基因體進行排比且部分與小鼠基因體進行排比。此等子讀段係自大約500萬個Pacific Biosciences單分子即時(SMRT)定序孔中產生。單分子即時定序孔中之每個分子平均定序27次(範圍:1-1028次)。
吾等亦藉由組合孔中所有相關子讀段之核苷酸資訊來構築一致序列。吾等總共獲得樣本MIX02之3,265,487個一致序列。使用BWA將一致序列與包含人類及小鼠參考基因體之參考基因體進行排比(Li H等人, 《生物資訊學》2010;26(5):589-595)。吾等獲得300萬個排比的一致序列。其中,30.5%分類為僅人類DNA類型;32.2%分類為僅小鼠DNA類型,33.8%分類為人類-小鼠雜合DNA。資料集由Sequel II Sequencing Kit 1.0製備之DNA生成。
116展示樣本MIX02交叉連接後DNA混合物中DNA分子之長度分佈。x軸顯示DNA分子之長度。y軸顯示與DNA分子長度相關聯之頻率。如圖116所示,人類-小鼠雜合DNA分子具有較長的長度分佈,其與該等分子經由一個以上分子連接產生的事實一致。
117展示樣本MIX02中CpG位點之甲基化概率的盒狀圖。根據本文所述之方法確定甲基化狀態。x軸顯示樣本MIX01中存在之三種不同的分子:僅人類DNA、僅小鼠DNA及人類-小鼠雜合DNA(包括人類部分及小鼠部分)。y軸顯示CpG位點之甲基化概率。此分析係以人類DNA未甲基化而小鼠DNA甲基化之方式來進行。
如圖117所示,僅人類DNA中CpG位點之甲基化概率(中位數:0.06;範圍:0-1)顯著低於僅小鼠DNA中CpG位點之甲基化概率(中位數:0.93;範圍:0-1)( P值<0.0001)。此等結果與分析設計一致,其中人類DNA由於在全基因體擴增期間不能保留甲基化而未甲基化程度較高,而小鼠DNA由於CpG甲基轉移酶M.SssI之處理而甲基化程度較高。此外,人類-小鼠雜合DNA分子之人類DNA部分內的CpG位點與小鼠DNA部分內的CpG位點(中位數:0.93;範圍:0-1)相比,顯示甲基化概率較低(中位數:0.07;範圍:0-1)( P值<0.0001)。此等資料表明,所揭示之方法可準確地確定DNA分子以及DNA分子內之區段的甲基化狀態。
根據本揭示案中之實施例,亞硫酸氫鹽定序用於量測人類-小鼠雜合片段之甲基化,其甲基化模式由單分子即時定序確定。將樣本MIX01(人類DNA經甲基化而小鼠DNA未甲基化)及MIX02(人類DNA未甲基化而小鼠DNA經甲基化)經由音波處理剪切,得到中位數DNA片段大小為196 bp(四分位數範圍:161-268)之混合物。隨後在MiSeq平台(Illumina)進行雙端亞硫酸氫鹽定序(BS-Seq),讀段長度為300 bp x2。吾等分別獲得MIX01及MIX02之370萬及290萬個定序片段,該等片段與人類或小鼠參考基因體進行排比,或部分與人類基因體進行排比且部分與小鼠基因體進行排比。對於MIX01,41.6%之排比片段分類為僅人類DNA,56.6%分類為僅小鼠DNA,1.8%分類為人類-小鼠雜合DNA。對於MIX02,61.8%之排比片段分類為僅人類DNA,36.3%分類為僅小鼠DNA,1.9%分類為人類-小鼠雜合DNA。在BS-Seq中確定為人類-小鼠雜合DNA之定序片段的百分比(<2%)遠低於Pacific Biosciences定序結果中觀察到的百分比(>30%)。值得注意的是,長片段(中位數為約2 kb)係藉由Pacific Biosciences定序來定序,而長片段共享成適於MiSeq之短片段(中位數為約196 bp)。此類剪切過程會極大地稀釋人類-小鼠雜合片段。
118展示比較藉由亞硫酸氫鹽定序及Pacific Biosciences定序確定之MIX01之甲基化的表格。該表之最左側部分展示DNA之類型:1)僅人類;2)僅小鼠;及3)人類-小鼠雜合,分為人類部分及小鼠部分。該表之中間部分展示亞硫酸氫鹽定序之詳情,包括CG位點之數量及甲基化密度。該表之最右側部分展示Pacific Biosciences定序之詳情,包括CG位點之數量及甲基化密度。
如圖118所示,在亞硫酸氫鹽定序及Pacific Biosciences定序結果中,對於MIX01,僅人類DNA始終顯示出比僅小鼠DNA更高的甲基化密度。對於人類-小鼠雜合片段,在亞硫酸氫鹽定序結果中,確定人類部分及小鼠部分之甲基化程度分別為46.8%及2.3%。此等結果證實,如根據本揭示案之Pacific Biosciences定序所確定,與小鼠部分相比,人類部分之甲基化密度更高。藉由Pacific Biosciences定序,觀察到人類部分之甲基化密度為57.4%,且觀察到小鼠部分之甲基化密度較低,為12.1%。此等結果表明,根據本揭示案藉由Pacific Biosciences定序確定之甲基化可能為可行的。特定言之,Pacific Biosciences定序可用於確定不同的甲基化密度,包括在DNA中具有比另一部分更高的甲基化密度的部分。吾等觀察到,根據本揭示案藉由Pacific Biosciences定序確定之甲基化密度相對於亞硫酸氫鹽定序更高。此類估計可使用此兩種技術確定的結果之間的差異進行調整,以便比較各個技術的結果。
119展示比較藉由亞硫酸氫鹽定序及Pacific Biosciences定序確定之MIX02之甲基化的表格。該表之最左側部分展示DNA之類型:1)僅人類;2)僅小鼠;及3)人類-小鼠雜合,分為人類部分及小鼠部分。該表之中間部分展示亞硫酸氫鹽定序之詳情,包括CG位點之數量及甲基化密度。該表之最右側部分展示Pacific Biosciences定序之詳情,包括CG位點之數量及甲基化密度。
如圖119所示,在亞硫酸氫鹽定序及Pacific Biosciences定序結果中,對於MIX02,僅人類DNA始終顯示出比僅小鼠DNA更低的甲基化密度。對於人類-小鼠雜合片段,在亞硫酸氫鹽定序結果中,確定人類部分及小鼠部分之甲基化程度分別為1.8%及67.4%。此等結果進一步證實,如根據本揭示案之Pacific Biosciences定序所確定,與小鼠部分相比,人類部分之甲基化密度更低。藉由Pacific Biosciences定序,如根據本揭示案藉由Pacific Biosciences定序所確定,觀察到人類部分之甲基化密度為13.1%,且觀察到小鼠部分之甲基化密度較高,為72.2%。其亦表明,根據本揭示案藉由Pacific Biosciences定序確定甲基化為可行的。特定言之,Pacific Biosciences定序可用於確定不同的甲基化密度,包括在DNA中具有比另一部分更低的甲基化密度的部分。吾等亦觀察到,根據本揭示案藉由Pacific Biosciences定序確定之甲基化密度相對於亞硫酸氫鹽定序更高。此類估計可使用此兩種技術確定的結果之間的差異進行調整,以便比較各個技術的結果。
120A展示MIX01之僅人類及僅小鼠DNA在5-Mb面元中之甲基化程度。 120B展示MIX02之僅人類及僅小鼠DNA在5-Mb面元中之甲基化程度。在兩圖中,百分比形式之甲基化程度顯示在y軸上。僅人類DNA及僅小鼠DNA中之每一者的亞硫酸氫鹽定序及Pacific Biosciences定序顯示在x軸上。
發現根據本揭示案藉由Pacific Biosciences定序確定之圖120A及圖120B中之結果在樣本MIX01及MIX02中跨面元系統性較高。
121A展示MIX01之人類-小鼠雜合DNA片段之人類部分及小鼠部分在5-Mb面元中之甲基化程度。 121B展示MIX02之人類-小鼠雜合DNA片段之人類部分及小鼠部分在5-Mb面元中之甲基化程度。在兩圖中,百分比形式之甲基化程度顯示在y軸上。人類部分DNA及小鼠部分DNA中之每一者的亞硫酸氫鹽定序及Pacific Biosciences定序顯示在x軸上。
圖121A及圖121B均顯示,當使用Pacific Biosciences定序時,與亞硫酸氫鹽定序相比,甲基化程度增加。此增加與圖120A及圖120B中用僅人類DNA及僅小鼠DNA所見的Pacific Biosciences定序之甲基化程度的增加相似。雜合片段之亞硫酸氫鹽定序結果中存在的跨5-Mb面元之甲基化程度的變異性增加可能係由於用於分析之CpG位點數量較少。
122A122B為顯示單個人類-小鼠雜合分子中甲基化狀態的代表性圖。圖122A展示樣本MIX01中之人類-小鼠雜合片段。圖122B展示樣本MIX02中之人類-小鼠雜合片段。經填充之圓圈指示甲基化之位點,未填充之圓圈指示未甲基化之位點。根據本文所述之實施例確定此等片段中之甲基化狀態。
如圖122A所示,確定來自樣本MIX01之雜合分子的人類部分甲基化程度更高。相反,確定小鼠DNA部分之甲基化程度更低。相反,圖122B顯示,確定來自樣本MIX02之雜合分子的人類部分甲基化程度更低,而確定小鼠DNA部分甲基化程度更高。
此等結果表明,本揭示案中存在之實施例允許吾人確定單個DNA分子中之甲基化變化,其中在分子之不同部分中甲基化模式不同。在一個實施例中,可量測基因或其他基因體區域之甲基化狀態,其中基因或基因體區域之不同部分會表現出不同的甲基化狀態(例如啟動子與基因主體)。在另一個實施例中,本文提出之方法可檢測人類-小鼠雜合片段,提供一種通用的方法來檢測相對於參考基因體含有非連續片段之DNA分子(亦即嵌合分子),且分析其甲基化狀態。舉例而言,吾等可使用此方法來分析但不限於基因融合、基因體重排、轉譯、倒位、重複、結構變異、病毒DNA整合、減數分裂重組等。
在一些實施例中,此等雜合片段可在定序之前使用基於探針之雜交方法或CRISPR-Cas系統或其用於目標DNA富集之變異方法來富集。最近,據報導,來自藍細菌,亦即霍氏雙歧藍細菌( Scytonema hofmanni)之CRISPR相關轉座酶能夠將DNA區段插入所關注之靶位點附近的區域(Strecker等人《科學》2019;365:48-53)。CRISPR相關轉座酶可像Tn7介導之轉座一樣其作用。在一個實施例中,吾等可調整此CRISPR相關之轉座酶,以在gRNA的引導下,將例如用生物素標記之註釋序列插入一或多個所關注之基因體區域。吾等可使用塗覆有例如抗生蛋白鏈菌素之磁珠來捕捉註釋序列,從而根據本揭示案中之實施例同時拉下目標DNA序列進行定序及甲基化分析。
在一些實施例中,片段可藉由使用限制酶富集,該等限制酶可包括本文所揭示之任何限制酶。 例示性嵌合分子檢測方法
123展示檢測生物樣本中之嵌合分子的方法1230。嵌合分子可包括來自兩個不同基因、染色體、胞器(例如粒線體、細胞核、葉綠體)、生物體(哺乳動物、細菌、病毒等)及/或物種之序列。方法1230可應用於來自生物樣本之複數個DNA分子中之每一者。在一些實施例中,複數個DNA分子可為細胞DNA。在其他實施例中,複數個DNA分子可為來自孕婦血漿之游離DNA分子。
在方塊1232,可對DNA分子進行單分子定序,以獲得提供N個位點中之每一者的甲基化狀態的序列讀段。N可為5或更多,包括5至10、10至15、15至20或大於20。序列讀段之甲基化狀態可形成甲基化模式。DNA分子可為複數個DNA分子中之一個DNA分子,且可對複數個DNA分子進行方法1230。甲基化模式可採取各種形式。舉例而言,模式可為N(例如2、3、4等)個甲基化位點,隨後為N個未甲基化位點,反之亦然。此類甲基化變化可指示接合點。經甲基化之連續位點的數量可不同於未甲基化之連續位點的數量。
在方塊1234,甲基化模式可滑移至一或多個參考模式上,該等參考模式對應於具有來自參考人類基因體之兩部分的兩個部分的嵌合分子。參考模式可充當過濾器,以鑑別指示接合點之匹配模式。可跟蹤與參考模式匹配之位點的數量,以使得匹配位置對應於最大數量之匹配位點(亦即,甲基化狀態與參考模式匹配的數量)。參考人類基因體之兩部分可為參考人類基因體之不連續部分。參考人類基因體之兩部分可相隔超過1kb、5kb、10kb、100kb、1 Mb、5 Mb或10 Mb。該兩部分可來自兩個不同的染色體臂或染色體。一或多個參考模式可包括甲基化狀態與未甲基化狀態之間的變化。
在方塊1236,可在甲基化模式與一或多個參考模式之第一參考模式之間鑑別匹配位置。匹配位置可鑑別序列讀段中參考人類基因體之兩部分之間的接合點。匹配位置可對應於參考模式與甲基化模式之間的重疊函數中的最大值。重疊函數可使用多個參考模式,其中輸出可能為集合函數上的最大值(亦即,每個參考模式對輸出值有貢獻)或跨參考模式鑑別之單個最大值。
在方塊1238,接合點可輸出為嵌合分子中基因融合之位置。基因融合之位置可與包括癌症之各種病症或疾病之基因融合的參考位置進行比較。自其中獲得生物樣本之生物體可對病症或疾病進行治療。
匹配位置可輸出至排比函數。基因融合之位置可經細化。細化基因融合之位置可包括將序列讀段之第一部分與參考人類基因體之第一部分進行排比。第一部分可在接合點之前。細化基因融合之位置可包括將序列讀段之第二部分與參考人類基因體之第二部分進行排比。第二部分可在接合點之後。參考人類基因體之第一部分可與人類參考基因體之第二部分相隔至少1 kb。舉例而言,參考人類基因體之第一部分及人類參考基因體之第二部分可相隔1.0至1.5 kb、1.5至2.0 kb、2.0至2.5 kb、2.5至3.0 kb、3至5 kb或5 kb以上。
多個嵌合分子之接合點可相互比較,以確認基因融合之位置。 結論
吾等已開發一種有效的方法來預測單鹼基解析度下核酸之鹼基修飾(例如甲基化)程度。此新方法實施一種新的方案,用於同時捕捉所詢問之鹼基周圍的聚合酶動力學、序列上下文及股資訊。此類新的動力學轉換使得動力學脈衝中出現的細微中斷可經鑑別及模型化。與先前僅使用IPD之方法相比,本專利申請案中提出的新方法大大提高甲基化分析之解析度及準確性。此新方案可容易地擴展用於其他目的,例如檢測5hmC(5-羥甲基胞嘧啶)、5fC(5-甲醯基胞嘧啶)、5caC(5-羧基胞嘧啶)、4mC(4-甲基胞嘧啶)、6mA(N6-甲基腺嘌呤)、8oxoG(7,8-二氫-8-側氧基鳥嘌呤)、8oxoA(7,8-二氫-8-側氧基腺嘌呤)及其他形式之鹼基修飾以及DNA損傷。在另一個實施例中,此新方案(例如類似於本申請案中存在之2-D數位矩陣的動力學轉換)可用於使用奈米孔定序系統進行鹼基修飾分析。
甲基化檢測之此實現方式可用於不同來源的核酸樣本,例如細胞核酸、環境採樣(例如細胞污染物)的核酸、病原體(例如細菌及真菌)的核酸及孕婦血漿中之cfDNA。其將為基因體研究及分子診斷打開許多新的可能性,諸如非侵入性產前檢測、癌症檢測及移植監測。對於基於cfDNA之非侵入性產前診斷,此項新發明使得在診斷中同時使用每個分子之複本數畸變、大小、突變、片段末端及鹼基修飾成為可行,而不需要在定序前進行PCR及實驗轉換,從而提高靈敏度。可使用本文所述之方法檢測單倍型之間甲基化程度的不平衡。此類不平衡可表明DNA分子之起源(例如,自病症提取,諸如自癌症患者血液中分離的癌細胞)或病症之起源。 例示性系統
124展示根據本發明之一個實施例的量測系統12400。如圖所示之系統包括樣本固持器12410內之樣本12405,諸如DNA分子,其中樣本12405可與分析法12408接觸,以提供物理特徵12415的信號。樣本固持器之一實例可為包括分析法之探針及/或引子的流槽或液滴藉以移動之管(其中液滴包括分析法)。偵測器12420檢測樣本之物理特徵12415(例如,螢光強度、電壓或電流)。偵測器12402可按時間間隔(例如,週期性時間間隔)進行量測,獲得構成資料信號之資料點。在一個實施例中,類比/數位轉換器在複數個時間將來自偵測器之類比信號轉換為數位形式。樣本固持器12401及偵測器12402可以形成分析法裝置,例如根據本文所述之實施例進行定序的定序裝置。資料信號12425自偵測器12402發送至邏輯系統12403。資料信號12425可以儲存在本地記憶體12435、外部記憶體12404或儲存裝置12445中。
邏輯系統12403可為或可包括電腦系統、ASIC、微處理器等。其亦可包括顯示器(例如,監視器、LED顯示器等)及使用者輸入裝置(例如,滑鼠、鍵盤、按鈕等)或與其耦接。邏輯系統12403及其他組件可以係獨立的或網路連接的電腦系統之一部分,或者其可以直接連接至或併入至包括偵測器12402及/或樣本固持器12401之裝置(例如定序裝置)中。邏輯系統12403亦可包括在處理器12405中執行之軟體。邏輯系統12403可包括電腦可讀媒體,該電腦可讀媒體儲存用於控制系統12400以執行本文所述之任何方法的指令。舉例而言,邏輯系統12403可以向包括樣本固持器12401之系統提供命令,從而執行定序或其他物理操作。可按特定順序執行此類物理操作,例如,以特定順序添加及移除試劑。此類物理操作可由機器人系統(例如包括機器人臂)執行,如可用於獲得樣本並執行分析法。
本文中提及之任何電腦系統均可利用任何適合數目之子系統。此類子系統之實例展示於 125中之電腦系統10中。在一些實施例中,電腦系統包括單一電腦設備,其中子系統可為電腦設備之組件。在其他實施例中,電腦系統可包括具有內部組件之多個電腦設備,其各自為一個子系統。電腦系統可包括桌上型及膝上型電腦、平板電腦、行動電話、其他移動裝置及基於雲端之系統。
圖125中所示之子系統經由系統匯流排75互連。示出附加的子系統,諸如印表機74、鍵盤78、儲存裝置79、監測器76(例如,顯示屏幕,諸如LED),其耦接至顯示器配接器82,及其他子系統。耦接至輸入/輸出(I/O)控制器71之周邊裝置及I/O裝置可利用本領域中已知的任何數目的手段(諸如輸入/輸出(I/O)埠77(例如USB、FireWire ®))連接至電腦系統。舉例而言,I/O埠77或外部介面81(例如,乙太網、Wi-Fi等)可用於將電腦系統10連接至廣域網路,諸如網際網路、滑鼠輸入裝置或掃描儀。經由系統匯流排75之互連允許中央處理器73與每個子系統通信並控制來自系統記憶體72或儲存裝置79(例如,固接磁碟,諸如硬碟機或光碟)之複數個指令之執行,以及子系統之間的資訊交換。系統記憶體72及/或儲存裝置79可體現為電腦可讀媒體。另一子系統為資料收集裝置85,諸如照相機、麥克風、加速計及其類似物。本文中所提及之資料中之任一者可自一個組件輸出至另一組件且可輸出至使用者。
電腦系統可包括複數個相同的組件或子系統,例如,利用外部介面81、利用內部介面或經由可卸除式儲存裝置連接在一起,該等可卸除式儲存裝置可自一個組件連接至另一組件或將一個組件自另一組件卸除。在一些實施例中,電腦系統、子系統或設備可經由網路進行通信。在此等情況下,可將一台電腦視為用戶端且另一台電腦視為伺服器,其中每一者可為同一電腦系統之一部分。用戶端及伺服器可各自包括多個系統、子系統或組件。
實施例之各態樣可使用硬體電路(例如,特殊應用積體電路或場可程式化閘陣列)及/或使用具有一般可程式化處理器之電腦軟體以模組化或積體方式以控制邏輯的形式來實施。如本文所用,處理器可包括單核處理器、同一個積體晶片上之多核處理器或單一電路板或網路硬體以及專用硬體上之多個處理單元。基於本文所提供之揭示內容及教示,本領域中一般熟習此項技術者將知曉及瞭解使用硬體及硬體與軟體之組合來實施本發明之實施例的其他方式及/或方法。
描述於本申請案中之任何軟體組件或功能可作為待由處理器執行的使用任何適合之電腦語言(諸如Java、C、C++、C#、Objective-C、Swift)或腳本語言(諸如Perl或Python)的軟體程式碼使用例如習知或物件導向技術來執行。軟體程式碼可以一系列指令或命令形式儲存於電腦可讀媒體上以用於儲存及/或傳輸。適合的非暫時性電腦可讀媒體可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒體(諸如硬碟機或軟碟機)或光學媒體,諸如光碟(CD)或DVD(數位化通用光碟)或藍光碟、快閃記憶體及其類似者。電腦可讀媒體可為此等儲存或傳輸裝置之任何組合。
此類程式亦可使用適用於經由符合多種協定之有線、光學及/或無線網路(包括網際網路)傳輸的載波信號來編碼及傳輸。因此,電腦可讀媒體可使用以此類程式編碼之資料信號建立。可將用程式碼編碼之電腦可讀媒體與相容裝置封裝在一起,或者與其他裝置分開提供(例如,經由網際網路下載)。任何此類電腦可讀媒體可駐留在單個電腦產品(例如,硬碟機、CD或整個電腦系統)上或內部,且可存在於系統或網路內之不同電腦產品上或內部。電腦系統可包括用於向使用者提供本文所提及之任何結果的監測器、印表機、或其他適合的顯示器。
本文所描述之任何方法可完全或部分地使用電腦系統來進行,該電腦系統包括一或多個處理器,該一或多個處理器可經組態以進行該等步驟。因此,實施例可針對於經組態以執行本文所描述之任何方法之步驟的電腦系統,潛在地用不同組件執行各別步驟或各別步驟組。儘管以帶編號之步驟形式呈現,但本文中之方法之步驟可同時或在不同時間或以不同順序執行。另外,此等步驟之各部分可與其他方法之其他步驟之各部分一起使用。另外,步驟之全部或各部分可視情況選用。此外,任何方法之任何步驟可使用用於進行此等步驟之系統的模組、單元、電路或其他構件來進行。
可在不脫離本發明之實施例的精神及範疇的情況下以任何合適方式組合特定實施例之特定細節。然而,本發明之其他實施例可針對與每一個別態樣或此等個別態樣之特定組合相關的特定實施例。
為了說明及描述之目的,已呈現本發明之實例實施例的以上描述。其並不意欲為詳盡的或將本揭示案限於所描述之精確形式,且鑒於以上教示,許多修改及變化為可能的。
除非有相反的特定說明,否則「一(a/an)」或「該(the)」之敍述意欲意謂「一或多個(種)」。除非有相反的特定說明,否則「或」之使用意欲意謂「包含性的或」,而非「互斥性的或」。提及「第一」組件不一定需要提供第二組件。此外,除非明確陳述,否則對「第一」或「第二」組件之提及不將所提及之組件限制在特定位置。術語「基於」意欲意謂「至少部分地基於」。
本文所提及之所有專利、專利申請案、公開案及描述均以全文引用之方式併入用於所有目的。不承認任一者為先前技術。 參考文獻Albert, T.J.等人(2007)藉由微陣列雜交直接選擇人類基因體基因座.《自然方法( Nat. Methods)》, 4, 903-905。 Beckmann等人(2014)在低覆蓋率及宏基因體學設置中檢測表觀遺傳基元.《BMC生物資訊學》, 15(增刊9): S16。 Beaulaurier, J.等人(2019) 使用現代定序技術破譯細菌表觀基因體.《自然綜述遺傳學( Nature Reviews Genetics)》, 20:157-172。 Blow, M.J.等人(2016) 原核生物之表觀遺傳學前景.《公共科學圖書館•遺傳學( PLOS Genet.)》, 12, e1005854。 Breiman, L.(2001)隨機森林。《機器學習( Mach. Learn.)》, 45, 5-32。 Chan, K.C.A.等人(2013) 藉由血漿DNA亞硫酸氫鹽定序對癌症相關之全基因體低甲基化及複本數畸變進行非侵入性檢測.《美國科學學院學報( Proc. Natl. Acad. Sci. U. S. A.)》, 110, 18761-8。 Clark, T.A.等人(2013) 經由Tet1氧化在單分子即時定序中增強5-甲基胞嘧啶檢測.《BMC生物學( BMC Biol.)》, 11, 4。 Clark, T.A.等人(2012) 使用單分子即時DNA定序表徵DNA甲基轉移酶特異性.《核酸研究》, 40:e29。 Eid, J.等人(2009) 自單一聚合酶分子進行即時DNA定序.《科學》 323, 133-138。 Feinberg, A.P.及Irizarry, R.A.(2010) 隨機表觀遺傳變異作為發展、進化適應及疾病之驅動力.《美國科學學院學報》, 107, 1757-1764。 Feng, Z.等人(2013) 藉由對聚合酶動力學之序列上下文依賴性模型化自SMRT定序資料檢測DNA修飾.《公共科學圖書館·計算生物學( PLoS Comput Biol.)》, 9:e1002935。 Flusberg, B.A.等人(2010) 在單分子即時定序期間直接檢測DNA甲基化.《自然方法》, 7, 461-465。 Frommer, M.等人(1992) 在個別DNA股中產生5-甲基胞嘧啶殘基之陽性顯示的基因體定序方案.《美國科學學院學報》, 89, 1827-1831。 Gai, W.等人(2018) 用於研究具有或不具有肝轉移之結腸直腸癌的血漿中肝臟及結腸特異性DNA甲基化標記.《臨床化學》, 64, 1239-1249。 Gouil, Q.等人(2019) 研究DNA甲基化之最新技術.《生物化學短評( Essays Biochem.)》63(6):639-648. Grunau, C.(2001) 亞硫酸氫鹽基因體定序:關鍵實驗參數之系統研究.《核酸研究》, 29, 65e – 65。 Herman, J.G.等人(1996) 甲基化特異性PCR:CpG島甲基化狀態之新穎PCR分析法.《美國科學學院學報》, 93, 9821-9826。 Jiang, P.等人(2014) 甲基管道:用於全基因體亞硫酸氫鹽定序資料分析之整合式生物資訊學管道.《公共科學圖書館》, 9, e100360。 LeCun, Y.等人(1989) 應用於手寫郵遞區號識別之反向傳播.《神經計算( Neural Comput.)》, 1, 541-551。 Lee, E.-J.等人(2011) 藉由溶液雜合選擇及大規模平行定序進行有針對性的亞硫酸氫鹽定序.《核酸研究》, 39, e127-e127。 Lehmann-Werman, R.等人(2016) 使用循環DNA之甲基化模式鑑別組織特異性細胞死亡.《美國科學學院學報》, 113, E1826-E1834。 Lister, R.等人(2009) 鹼基解析度下之人類DNA甲基化體顯示廣泛的表觀基因體差異.《自然》, 462, 315-322。 Liu, Q.等人(2019) 藉由深度循環神經網路在牛津奈米孔定序資料上檢測DNA鹼基修飾.《自然通訊( Nature Commun.)》, 10, 2449。 Liu, Y.等人(2019) 鹼基解析度下無亞硫酸氫鹽直接檢測5-甲基胞嘧啶及5-羥甲基胞嘧啶.《自然生物技術》, 37, 424-429。 Lun, F.M.F.等人(2013) 藉由母體血漿DNA之全基因體亞硫酸氫鹽定序進行非侵入性產前甲基化體分析.《臨床化學》 59, 1583-1594。 Nattestad, M.等人(2018) 藉由乳癌細胞株之長讀段DNA及RNA定序揭露複雜的重排及致癌基因擴增.《基因體研究》, 28, 1126-1135 Ng, A.Y.(2004) 特徵選擇,L 1與L 2正則化以及旋轉不變性.第二十一屆機器學習國際會議 - ICML ’04.ACM Press, New York, New York, USA, 第78頁。 Ni, P.等人(2019) 深度信號:使用深度學習自奈米孔定序讀段檢測DNA甲基化狀態.《生物資訊學》, 35, 4586-4595 Okou, D.T.等人(2007) 高通量再定序之基於微陣列之基因體選擇.《自然方法》, 4, 907-909。 Olova, N.等人(2018) 全基因體亞硫酸氫鹽定序文庫製備策略之比較鑑別影響DNA甲基化資料之偏差來源.《基因體生物學》, 19, 33。 Robertson, K.D.(2005) DNA甲基化與人類疾病.《自然綜述遺傳學》, 6, 597-610。 Smith, Z.D.及Meissner, A.(2013) DNA甲基化:在哺乳動物發育中的作用.《自然綜述遺傳學》, 14, 204-20。 Schadt, E.E.等人(2013) 第三代DNA定序資料中模型化動力學速率變化以檢測對DNA鹼基之推定修飾.《基因體研究》, 23(1):129-41。 Sun, K.等人(2015) 藉由全基因體甲基化定序之血漿DNA組織定位用於非侵入性產前、癌症及移植評定.《美國科學學院學報》, 112, E5503-E5512。 Suzuki, Y.等人(2016) AgIn:量測個別重複元件之CpG甲基化態勢.《生物資訊學》, 32, 2911-2919。 Watson, C.M.等人(2019) 基於Cas9之富集及單分子定序對基因體重複進行精確表徵.《實驗室研究( Lab.Investig)》, 100, 135-146。 Zhang, W.等人(2015)使用甲基化標記、基因體位置及DNA調控元件預測全基因體DNA甲基化.《基因體生物學》, 16, 14。
10:電腦系統 71:輸入/輸出(I/O)控制器 72:系統記憶體 73:中央處理器 74:印表機 75:系統匯流排 76:監測器 77:輸入/輸出(I/O)端口 78:鍵盤 79:存儲裝置 81:外部介面 82:顯示器配接器 85:資料收集裝置 102:分子 104:分子 106:分子 108:分子 110:環化分子 202:DNA分子 204:連接分子 206:環化分子 208:未甲基化之CpG位點 400:量測窗口 402:矩陣之第一列 404:矩陣之第二列 408:列 412:列 416:列 420:列 902:經修飾之分子 904:鹼基 906:未修飾之分子 908:鹼基 910:階段 912:階段 914:階段 916:階段 918:階段 3102:階段 3106:階段 3110:無規六聚體 3114:股置換擴增 3118:股 3122:新合成之DNA股 3126:可能片段 3130:可能片段 3134:可能片段 4710:區域 7301:非腫瘤組織中存在之分子 7302:非腫瘤組織中存在之分子 7303:腫瘤組織中存在之分子 9102:分子 9104:分子 9106:分子 1020:方法 1022:方塊 1024:方塊 1026:方塊 1028:方塊 1029:方塊 1030:方法 1032:方塊 1034:方塊 1036:方塊 1090:方法 1091:方塊 1092:方塊 1093:方塊 1094:方塊 1095:方塊 1096:方塊 1097:方塊 1098:方塊 1099:方塊 1230:方法 1232:方塊 1234:方塊 1236:方塊 1238:方塊 11010:帶對角線條紋之粗條 11020:帶垂直條紋之粗條 11110:帶對角線條紋之粗條 11120:帶垂直條紋之粗條 11410:帶對角線條紋之條 12400:量測系統 12401:樣本固持器 12402:偵測器 12403:邏輯系統 12404:外部記憶體 12405:樣本 12408:分析法 12415:物理特徵 12425:資料信號 12435:本地記憶體 12445:存儲裝置
1展示根據本發明實施例之攜帶鹼基修飾之分子的SMRT定序。
2展示根據本發明實施例之攜帶甲基化及未甲基化CpG位點之分子的SMRT定序。
3展示根據本發明實施例之脈衝間持續時間及脈衝寬度。
4展示根據本發明實施例之用於檢測鹼基修飾之DNA之瓦生股的量測窗口的實例。
5展示根據本發明實施例之用於檢測鹼基修飾之DNA之克立克股的量測窗口的實例。
6展示根據本發明實施例之藉由組合來自DNA之瓦生股及其互補克立克股之資料來檢測任何鹼基修飾的量測窗口的實例。
7展示根據本發明實施例之藉由組合來自DNA之瓦生股及其附近區域之克立克股之資料來檢測任何鹼基修飾的量測窗口的實例。
8展示根據本發明實施例之用於確定CpG位點處之甲基化狀態之瓦生股、克立克股及兩股的量測窗口的實例。
9展示根據本發明實施例之構築用於對鹼基修飾進行分類之分析、計算、數學或統計模型的一般程序。
10展示根據本發明實施例之對鹼基修飾進行分類的一般程序。
11展示根據本發明實施例之使用具有已知的瓦生股甲基化狀態之樣本構築用於對CpG位點處之甲基化狀態進行分類之分析、計算、數學或統計模型的一般程序。
12展示根據本發明實施例之對未知樣本之瓦生股甲基化狀態進行分類的一般程序。
13展示根據本發明實施例之使用具有已知的克立克股甲基化狀態之樣本構築用於對CpG位點處之甲基化狀態進行分類之分析、計算、數學或統計模型的一般程序。
14展示根據本發明實施例之對未知樣本之克立克股甲基化狀態進行分類的一般程序。
15展示根據本發明實施例之使用來自瓦生股及克立克股之具有已知甲基化狀態之樣本構築用於對CpG位點處之甲基化狀態進行分類之統計模型的一般程序。
16展示根據本發明實施例之對來自瓦生股及克立克股之未知樣本的甲基化狀態進行分類的一般程序。
17A17B展示根據本發明實施例之用於確定甲基化之訓練資料集及測試資料集的效能。
18A18B展示根據本發明實施例之用於確定甲基化之訓練資料集及測試資料集的效能。
19A19B展示根據本發明實施例之用於確定甲基化之不同定序深度的訓練資料集及測試資料集的效能。
20A20B展示根據本發明實施例之用於確定甲基化之不同股的訓練資料集及測試資料集的效能。
21A21B展示根據本發明實施例之用於確定甲基化之不同量測窗口的訓練資料集及測試資料集的效能。
22A22B展示根據本發明實施例之僅使用下游鹼基確定甲基化之不同量測窗口的訓練資料集及測試資料集的效能。
23A23B展示根據本發明實施例之僅使用上游鹼基確定甲基化之不同量測窗口的訓練資料集及測試資料集的效能。
24展示根據本發明實施例之在訓練資料集中使用與下游及上游鹼基相關之動力學模式,使用不對稱側翼大小進行甲基化分析的效能。
25展示根據本發明實施例之在測試資料集中使用與下游及上游鹼基相關之動力學模式,使用不對稱側翼大小進行甲基化分析的效能。
26展示根據本發明實施例之關於CpG位點處之甲基化狀態分類之特徵的相對重要性。
27展示根據本發明實施例之基於基元之IPD分析在不使用脈衝寬度信號之情況下進行甲基化檢測的效能。
28為根據本發明實施例之使用進行甲基化分析之胞嘧啶上游2-nt及下游6-nt之主成分分析技術的圖。
29為根據本發明實施例之使用主成分分析之方法及使用卷積神經網路之方法之間的效能比較圖。
30A30B展示根據本發明實施例之僅使用上游鹼基確定甲基化之不同分析、計算、數學或統計模型的訓練資料集及測試資料集的效能。
31A展示根據本發明實施例之藉由全基因體擴增生成具有未甲基化腺嘌呤之分子的一種方法的實例。
31B展示根據本發明實施例之藉由全基因體擴增生成具有甲基化腺嘌呤之分子的一種方法的實例。
32A32B展示根據本發明實施例之在未甲基化與甲基化資料集之間瓦生股之模板DNA中經定序A鹼基的脈衝間持續時間(IPD)值。
32C展示根據本發明實施例之用於確定瓦生股中之甲基化的接收者操作特徵曲線。
33A33B展示根據本發明實施例之在未甲基化與甲基化資料集之間克立克股之模板DNA中經定序A鹼基的脈衝間持續時間(IPD)值。
33C展示根據本發明實施例之用於確定克立克股中之甲基化的接收者操作特徵曲線。
34展示根據本發明實施例之瓦生股的6mA測定。
35展示根據本發明實施例之克立克股的6mA測定。
36A 36B展示根據本發明實施例之使用基於量測窗口之卷積神經網路模型在uA與mA資料集之間所確定的瓦生股之經定序A鹼基的甲基化概率。
37展示根據本發明實施例之使用基於量測窗口之CNN模型對瓦生股之經定序A鹼基進行6mA檢測的ROC曲線。
38展示根據本發明實施例之基於IPD度量之6mA檢測及基於量測窗口之6mA檢測之間的效能比較。
39A39B展示根據本發明實施例之使用基於量測窗口之CNN模型在uA及mA資料集之間所確定的克立克股之彼等經定序A鹼基的甲基化概率。
40展示根據本發明實施例之使用基於量測窗口之CNN模型對克立克股之經定序A鹼基進行6mA檢測的效能。
41展示根據本發明實施例之包括瓦生股及克立克股之分子中A鹼基之甲基化狀態的實例。
42展示根據本發明實施例之藉由選擇性使用mA資料集中IPD值大於其第10個百分位數的A鹼基進行增強訓練的實例。
43為根據本發明實施例之mA資料集中未甲基化腺嘌呤之百分比相對於各孔中子讀段之數目的圖。
44展示根據本發明實施例之測試資料集中雙股DNA分子之瓦生股及克立克股之間的甲基腺嘌呤模式。
45為顯示根據本發明實施例之訓練及測試資料集中完全未甲基化分子、半甲基化分子、完全甲基化分子及具有交錯甲基腺嘌呤模式之分子的百分比的表格。
46展示根據本發明實施例之關於腺嘌呤位點之完全未甲基化分子、半甲基化分子、完全甲基化分子及具有交錯甲基腺嘌呤模式之分子的代表性分子實例。
47展示根據本發明實施例之具有CpG島(以黃色陰影表示)之長讀段(6,265 bp)的實例。
48為顯示根據本發明實施例之藉由Pacific Biosciences SMRT定序進行定序且與印記區域重疊之9種DNA分子的表格。
49展示根據本發明實施例之基因體印記的實例。
50展示根據本發明實施例之確定印記區域中之甲基化模式的實例。
51展示根據本發明實施例之新方法與習知亞硫酸氫鹽定序之間推導的甲基化程度的比較。
52A52B展示根據本發明實施例之血漿DNA之甲基化檢測的效能。(A)預測之甲基化概率與藉由亞硫酸氫鹽定序量化之甲基化程度範圍之間的關係。(B)根據本揭示案中存在之實施例藉由Pacific Biosciences(PacBio)定序確定之甲基化程度(y軸)與藉由亞硫酸氫鹽定序量化之甲基化程度(x軸)之間的相關性,解析度為10-Mb。
53展示根據本發明實施例之Pacific Biosciences SMRT定序與BS-seq之間Y染色體之基因體呈現(GR)的相關性。
54展示根據本發明實施例之使用CpG塊之基於CpG塊之甲基化檢測的實例,每個CpG塊具有一系列CpG位點。5mC:甲基化;C:未甲基化。
55A55B展示根據本發明實施例之使用基於CpG塊之方法對人類DNA分子進行甲基化判讀的訓練及測試。(A)在訓練資料集中之效能。(B)在獨立測試資料集中之效能。
56A56B展示根據本發明實施例之腫瘤組織中之複本數變化。
57A57B展示根據本發明實施例之腫瘤組織中之複本數變化。
58展示使用根據本發明實施例推導之甲基化程度自孕婦血漿繪製的血漿DNA組織圖譜的示意圖。
59展示根據本發明實施例之胎盤對推導之母體血漿DNA的貢獻與藉由Y染色體讀數推導之胎兒DNA分數之間的相關性。
60展示根據本發明實施例之彙總不同人類組織DNA樣本之定序資料的表格。
61展示根據本發明實施例之分析甲基化模式之各種方式的圖示。
62A62B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序量化之全基因體水準之甲基化密度的比較。
63A63B63C展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序量化之總體甲基化程度的不同相關性。
64A64B展示根據本發明實施例之肝細胞癌(HCC)細胞株及來自健康對照個體之白血球層樣本在1-Mnt解析度下之甲基化模式,其中甲基化程度藉由亞硫酸氫鹽定序及單分子即時定序來確定。
65A65B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之HCC細胞株(HepG2)及來自健康對照個體之白血球層樣本在1-Mnt解析度下之甲基化程度的散點圖。
66A66B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之HCC細胞株(HepG2)及來自健康對照個體之白血球層樣本在100-knt解析度下之甲基化程度的散點圖。
67A67B展示根據本發明實施例之HCC腫瘤組織及相鄰正常組織在1-Mnt解析度下之甲基化模式,其中甲基化程度藉由亞硫酸氫鹽定序及單分子即時定序來確定。
68A68B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之HCC腫瘤組織及相鄰正常組織在1-Mnt解析度下之甲基化程度的散點圖。
69A69B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之HCC腫瘤組織及相鄰正常組織在100-knt解析度下之甲基化程度的散點圖。
70A70B展示根據本發明實施例之HCC腫瘤組織及相鄰正常組織在1-Mnt解析度下之甲基化模式,其中甲基化程度藉由亞硫酸氫鹽定序及單分子即時定序來確定。
71A71B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之HCC腫瘤組織及相鄰正常組織在1-Mnt解析度下之甲基化程度的散點圖。
72A72B展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之HCC腫瘤組織及相鄰正常組織在100-knt解析度下之甲基化程度的散點圖。
73展示根據本發明實施例之腫瘤抑制基因 CDKN2A附近甲基化之異常模式的實例。
74A74B展示根據本發明實施例之藉由單分子即時定序檢測之差異性甲基化區域。
75展示根據本發明實施例之使用單分子即時定序在HCC組織與相鄰非腫瘤組織之間的B型肝炎病毒DNA的甲基化模式。
76A展示根據本發明實施例之使用亞硫酸氫鹽定序之來自患有肝硬化但無HCC之患者之肝臟組織中B型肝炎病毒DNA的甲基化程度。
76B展示根據本發明實施例之使用亞硫酸氫鹽定序之HCC組織中B型肝炎病毒DNA的甲基化程度。
77展示根據本發明實施例之甲基化單倍型分析。
78展示根據本發明實施例之自一致序列確定之定序分子的大小分佈。
79A79B79C79D展示根據本發明實施例之印記區域中之對偶基因甲基化模式的實例。
80A80B80C80D展示根據本發明實施例之非印記區域中之對偶基因甲基化模式的實例。
81展示根據本發明實施例之對偶基因特異性片段之甲基化程度的表格。
82展示根據本發明實施例之使用甲基化概況確定妊娠中血漿DNA之胎盤來源的實例。
83展示根據本發明實施例之胎兒特異性DNA甲基化分析。
84A84B84C展示根據本發明實施例之SMRT-seq之不同試劑套組之不同量測窗口大小的效能。
85A85B85C展示根據本發明實施例之SMRT-seq之不同試劑套組之不同量測窗口大小的效能。
86A86B86C展示根據本發明實施例之藉由亞硫酸氫鹽定序及SMRT-seq(Sequel II Sequencing Kit 2.0)量化之總體甲基化程度的相關性。
87A87B展示根據本發明實施例之各種腫瘤組織與成對的相鄰非腫瘤組織之間的總體甲基化程度的比較。
88展示根據本發明實施例之使用自環形一致序列(CCS)確定之序列上下文確定甲基化狀態。
89展示根據本發明實施例之使用自CCS確定之序列上下文檢測甲基化CpG位點的ROC曲線。
90展示根據本發明實施例之在沒有CCS資訊且沒有事先與參考基因體進行排比的情況下檢測甲基化CpG位點的ROC曲線。
91展示根據本發明實施例之製備用於單分子即時定序之分子的實例。
92展示根據本發明實施例之CRISPR/Cas9系統的圖示。
93展示根據本發明實施例之用於引入跨越所關注之末端封閉分子之兩個切口的Cas9複合物的實例。
94展示根據本發明實施例之藉由亞硫酸氫鹽定序及單分子即時定序確定之Alu區的甲基化分佈。
95展示根據本發明實施例之藉由使用單分子即時定序結果之模型確定的Alu區的甲基化程度分佈。
96展示根據本發明實施例之組織及組織中Alu區之甲基化程度的表格。
97展示根據本發明實施例之使用與Alu重複序列相關之甲基化信號對不同癌症類型的聚類分析。
98A98B展示根據本發明實施例之在涉及全基因體擴增及M.SsssI處理之測試資料集中,讀段深度對總體甲基化程度量化的影響。
99展示根據本發明實施例之在使用不同子讀段深度閾值的情況下,藉由SMRT-seq(Sequel II Sequencing Kit 2.0)及BS-seq確定之總體甲基化程度之間的比較。
100為顯示根據本發明實施例之藉由SMRT-seq(Sequel II Sequencing Kit 2.0)及BS-seq之兩次量測之間的子讀段深度對甲基化程度相關性的影響的表格。
101展示根據本發明實施例之由Sequel II Sequencing Kit 2.0生成的資料中相對於片段大小的子讀段深度分佈。
102展示根據本發明實施例之檢測核酸分子中核苷酸之修飾的方法。
103展示根據本發明實施例之檢測核酸分子中核苷酸之修飾的方法。
104展示根據本發明實施例之基於單倍型之相對甲基化不平衡分析。
105A105B為根據本發明實施例之病例TBR3033之單倍型區塊的表格,其顯示與相鄰非腫瘤組織DNA相比,腫瘤DNA中Hap I與Hap II之間的差異性甲基化程度。
106為根據本發明實施例之病例TBR3032之單倍型區塊的表格,其顯示與相鄰正常組織DNA相比,腫瘤DNA中Hap I與Hap II之間的差異性甲基化程度。
107A為根據本發明實施例之基於由Sequel II Sequencing Kit 2.0生成之資料,彙總顯示腫瘤與相鄰非腫瘤組織之間的兩個單倍型之間的甲基化不平衡的單倍型區塊的數量的表格。
107B為根據本發明實施例之基於由Sequel II Sequencing Kit 2.0生成之資料,彙總顯示在不同腫瘤階段之腫瘤組織中的兩個單倍型之間的甲基化不平衡的單倍型區塊的數量的表格。
108展示根據本發明實施例之基於單倍型之相對甲基化不平衡分析。
109展示根據本發明實施例之對具有第一單倍型及第二單倍型之生物體的病症進行分類的方法。
110展示根據本發明實施例創建人類-小鼠雜合片段,其中人類部分經甲基化,而小鼠部分未甲基化。
111展示根據本發明實施例創建人類-小鼠雜合片段,其中人類部分未甲基化,而小鼠部分經甲基化。
112展示根據本發明實施例,在連接後DNA混合物(樣本MIX01)中DNA分子之長度分佈。
113展示根據本發明實施例將第一DNA(A)及第二DNA(B)接合在一起的接合區。
114展示根據本發明實施例之DNA混合物的甲基化分析。
115展示根據本發明實施例之樣本MIX01中CpG位點的甲基化概率的盒狀圖。
116展示根據本發明實施例,在樣本MIX02交叉連接後DNA混合物中DNA分子的長度分佈。
117展示根據本發明實施例之樣本MIX02中CpG位點的甲基化概率的盒狀圖。
118為根據本發明實施例比較藉由亞硫酸氫鹽定序及Pacific Biosciences定序確定之MIX01的甲基化的表格。
119為根據本發明實施例比較藉由亞硫酸氫鹽定序及Pacific Biosciences定序確定之MIX02的甲基化的表格。
120A120B展示根據本發明實施例之MIX01及MIX02之僅人類及僅小鼠DNA的5-Mb面元中的甲基化程度。
121A121B展示根據本發明實施例之MIX01及MIX02之人類-小鼠雜合DNA片段之人類部分及小鼠部分的5-Mb面元中的甲基化程度。
122A122B為顯示根據本發明實施例之單個人類-小鼠雜合分子之甲基化狀態的代表圖。
123展示根據本發明實施例之檢測生物樣本中之嵌合分子的方法。
124展示根據本發明實施例之量測系統。
125展示可與根據本發明實施例之系統及方法一起使用的實例電腦系統的方塊圖。
126展示根據本發明實施例之使用DNA末端修復及A加尾之基於 MspI之靶向單分子即時定序。
127A127B展示根據本發明實施例之 MspI消化片段的大小分佈。
128展示根據本發明實施例之某些選定大小範圍的DNA分子數的表格。
129為根據本發明實施例,在限制酶消化後,CpG島內CpG位點之覆蓋率百分比與DNA片段大小的圖。
130展示根據本發明實施例之不使用DNA末端修復及A加尾之基於 MspI之靶向單分子即時定序。
131展示根據本發明實施例之基於 MspI之靶向單分子即時定序,其中轉接子自連接的概率降低。
132為根據本發明實施例之藉由基於 MspI之靶向單分子即時定序確定之胎盤及白血球DNA樣本藉由來測定之間的總體甲基化程度的圖。
133展示根據本發明實施例之使用基於 MspI之靶向單分子即時定序確定之DNA甲基化概況對胎盤及白血球層樣本的聚類分析。 術語
組織」對應於一組細胞,其共同歸類為一個功能單元。可在單一組織中找到超過一種類型之細胞。不同類型的組織可由不同類型的細胞(例如肝細胞、肺泡細胞或血細胞)組成,但亦可對應於來自不同生物體之組織(母親與胎兒;接受移植之個體的組織;經微生物或病毒感染之生物體的組織)或健康細胞與腫瘤細胞。「參考組織」可對應於用於確定組織特異性甲基化程度之組織。來自不同個體之同一組織類型之多個樣本可用於確定該組織類型之組織特異性甲基化程度。
生物樣本」係指取自人類個體之任何樣本。生物樣本可為組織生檢、細針抽吸物或血細胞。樣本亦可為例如孕婦的血漿或血清或尿液。糞便樣本亦可使用。在各種實施例中,已富集游離DNA之來自孕婦之生物樣本(例如經由離心方案獲得之血漿樣本)中的大多數DNA可為游離的,例如大於50%、60%、70%、80%、90%、95%或99%之DNA可為游離的。離心方案可包括例如3,000 g×10分鐘獲得流體部分,及例如30,000 g再離心另外10分鐘以移除殘餘細胞。在某些實施例中,在3,000 g離心步驟之後,吾人可接著對流體部分進行過濾(例如使用孔徑為5 μm或更小的過濾器)。
序列讀段」係指自核酸分子之任何部分或全部定序之核苷酸串。舉例而言,序列讀段可為自核酸片段定序之短核苷酸串(例如20-150)、位於核酸片段之一端或兩端的短核苷酸串或存在於生物樣本中之整個核酸片段之定序。序列讀段可以多種方式獲得,例如使用定序技術或使用探針,例如雜交陣列或捕獲探針,或擴增技術,諸如聚合酶鏈反應(PCR)或使用單一引子的線性擴增或等溫擴增。
子讀段」為由環化DNA模板之一股中的所有鹼基生成的序列,其已藉由DNA聚合酶複製在一連續股中。舉例而言,子讀段對應於環化DNA模板DNA之一股。在此實例中,在環化後,一個雙股DNA分子將具有兩個子讀段:每個定序通道一個。在一些實施例中,生成的序列可包括一股中所有鹼基之子集,例如因為存在定序錯誤。
位點」(亦稱為「 基因體位點」)對應於單個位點,其可為單個鹼基位置或一組相關的鹼基位置,例如CpG位點或較大的一組相關的鹼基位置。「基因座」可對應於包括多個位點之區域。一個基因座可僅包括一個位點,此將使得基因座在該情形下等效於一個位點。
甲基化狀態」係指給定位點處之甲基化狀態。舉例而言,位點可為甲基化的、未甲基化的或在一些情況下為不確定的。
各基因體位點(例如CpG位點)之「 甲基化指數」可指在該位點顯示甲基化之DNA片段(例如,自序列讀段或探針所確定)相比於覆蓋該位點之讀段總數之比例。「讀段」可對應於獲自DNA片段之資訊(例如位點處之甲基化狀態)。可使用優先與一或多個位點處具有特定甲基化狀態之DNA片段雜交的試劑(例如引子或探針)獲得讀段。通常,此類試劑在用根據DNA分子之甲基化狀態而有差異地修飾或有差異地識別DNA分子之方法處理後施用,該方法例如亞硫酸氫鹽轉化,或甲基化敏感限制酶,或甲基化結合蛋白,或抗甲基胞嘧啶抗體,或識別甲基胞嘧啶及羥甲基胞嘧啶之單分子定序技術(例如單分子即時定序及奈米孔定序(例如來自Oxford Nanopore Technologies))
區域之「 甲基化密度」可指區域內顯示甲基化之位點處的讀段數目除以覆蓋該區域中之位點的讀段總數。位點可具有特異性特徵,例如為CpG位點。因此,區域之「CpG甲基化密度」可指顯示CpG甲基化之讀段數目除以覆蓋該區域中之CpG位點(例如特定CpG位點、CpG島或較大區域內之CpG位點)之讀段總數。舉例而言,人類基因體中每100-kb面元之甲基化密度可自亞硫酸氫鹽處理之後在CpG位點處未轉化之胞嘧啶(其對應於甲基化胞嘧啶)的總數占相對於100-kb區域進行定位之序列讀段所覆蓋的所有CpG位點的比例來確定。亦可以針對其他面元尺寸執行此分析,例如500 bp、5 kb、10 kb、50-kb或1-Mb等。區域可為整個基因體或染色體或染色體之一部分(例如染色體臂)。當區域僅包括CpG位點時,該CpG位點之甲基化指數與該區域之甲基化密度相同。「甲基化胞嘧啶之比例」可指區域中相較於所分析的胞嘧啶殘基總數(亦即包括CpG情形之外的胞嘧啶)的顯示為經甲基化(例如在亞硫酸氫鹽轉化後未轉化)之胞嘧啶位點「C's」數目。甲基化指數、甲基化密度、一或多個位點處甲基化之分子計數及一或多個位點處甲基化之分子(例如胞嘧啶)的比例為「 甲基化程度」之實例。除亞硫酸氫鹽轉化以外,可使用本領域中熟習此項技術者已知的其他方法來查詢DNA分子之甲基化狀態,包括但不限於對甲基化狀態敏感的酶(例如甲基化敏感限制酶)、甲基化結合蛋白、使用對甲基化狀態敏感之平台的單分子定序(例如奈米孔定序(Schreiber等人 《國家科學院院刊(Proc Natl Acad Sci)》 2013; 110: 18910-18915)及藉由單分子即時定序(例如來自Pacific Biosciences)(Flusberg等人 《自然-方法(Nat Methods)》 2010; 7: 461-465))。
甲基化體」提供基因體中複數個位點或基因座之DNA甲基化量的量度。甲基化體可對應於基因體之全部、基因體之很大一部分或基因體之相對較小部分。
妊娠血漿甲基化體」為自妊娠動物(例如人類)之血漿或血清確定的甲基化體。妊娠血漿甲基化體為游離甲基化體之實例,因為血漿及血清包括游離DNA。妊娠血漿甲基化體亦為混合甲基化體之實例,因為其為來自體內不同器官或組織或細胞之DNA的混合物。在一個實施例中,此類細胞為造血細胞,包括但不限於紅血球系(亦即紅血球)、骨髓系(例如嗜中性白血球及其前體)及巨核細胞系之細胞。在妊娠期,血漿甲基化體可含有來自胎兒及母親之甲基化體資訊。「細胞甲基化體」對應於自患者之細胞(例如血球)確定之甲基化體。血細胞之甲基化體稱為血球甲基化體(或血液甲基化體)。
甲基化概況」包括與多個位點或區域之DNA或RNA甲基化相關的資訊。與DNA甲基化相關之資訊可包括但不限於CpG位點之甲基化指數、區域中CpG位點之甲基化密度(簡稱MD)、CpG位點在相連區域上之分佈、含有一個以上CpG位點之區域內每個單獨CpG位點的甲基化模式或程度及非CpG甲基化。在一個實施例中,甲基化概況可包括一種以上類型之鹼基(例如胞嘧啶或腺嘌呤)之甲基化或非甲基化的模式。基因體相當大一部分之甲基化概況可視為等同於甲基化體。哺乳動物基因體中之「DNA甲基化」通常係指在CpG二核苷酸中胞嘧啶殘基(亦即5-甲基胞嘧啶)之5'碳上添加甲基。DNA甲基化可發生在其他情形下之胞嘧啶中,例如CHG及CHH,其中H為腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化亦可呈5-羥甲基胞嘧啶形式。亦已報導非胞嘧啶甲基化,諸如N 6-甲基腺嘌呤。
甲基化模式」係指甲基化及非甲基化鹼基之順序。舉例而言,甲基化模式可為單個DNA股、單個雙股DNA分子或另一類型之核酸分子上甲基化鹼基之順序。舉例而言,三個連續CpG位點可具有以下甲基化模式中之任一者:UUU、MMM、UMM、UMU、UUM、MUM、MUU或MMU,其中「U」表示未甲基化位點且「M」表示甲基化位點。當吾人將此概念擴展至包括但不限於甲基化之鹼基修飾時,吾人將使用術語「 修飾模式」,其係指經修飾及未修飾之鹼基的順序。舉例而言,修飾模式可為單個DNA股、單個雙股DNA分子或另一類型之核酸分子上經修飾之鹼基的順序。舉例而言,三個連續的潛在可修飾位點可具有以下修飾模式中之任一者:UUU、MMM、UMM、UMU、UUM、MUM、MUU或MMU,其中「U」表示未修飾之位點且「M」表示經修飾之位點。不基於甲基化之鹼基修飾的一個實例為氧化變化,諸如在8-側氧基-鳥嘌呤中。
術語「 高甲基化」及「 低甲基化」可指單個DNA分子之甲基化密度,如藉由其單分子甲基化程度所量測,例如分子內甲基化鹼基或核苷酸之數目除以分子內可甲基化鹼基或核苷酸之總數。高甲基化分子為單分子甲基化程度等於或高於臨限值的分子,該臨限值可根據不同的應用而定義。該臨限值可為5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或95%。低甲基化分子為單分子甲基化程度等於或低於臨限值的分子,該臨限值可根據不同的應用而定義,且可隨不同的應用而變化。該臨限值可為5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或95%。
術語「高甲基化」及「低甲基化」亦可指DNA分子群之甲基化程度,如藉由此等分子之多分子甲基化程度所量測。高甲基化分子群為多分子甲基化程度等於或高於臨限值的分子群,該臨限值可根據不同的應用而定義,且可隨不同的應用而變化。該臨限值可為5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或95%。低甲基化分子群為多分子甲基化程度等於或低於臨限值的分子群,該臨限值可根據不同的應用而定義。該臨限值可為5%、10%、20%、30%、40%、50%、60%、70%、80%、90%及95%。在一個實施例中,分子群可與一或多個選定的基因體區域進行排比。在一個實施例中,選定的基因體區域可與諸如癌症、遺傳病症、印記病症、代謝病症或神經病症之疾病相關。選定的基因體區域之長度可為50個核苷酸(nt)、100 nt、200 nt、300 nt、500 nt、1000 nt、2 knt、5 knt、10 knt、20 knt、30 knt、40 knt、50 knt、60 knt、70 knt、80 knt、90 knt、100 knt、200 knt、300 knt、400 knt、500 knt或1 Mnt。
術語「 定序深度」係指基因座由與基因座進行排比之序列讀段覆蓋之次數。基因座可與核苷酸一樣小,或與染色體臂一樣大,或與整個基因體一樣大。定序深度可表示為50×、100×等,其中「×」係指基因座由序列讀段覆蓋之次數。定序深度亦可應用於多個基因座或全基因體,在此情況下,×可指基因座或單倍體基因體或全基因體分別定序之平均次數。超深度定序可指定序深度為至少100×。
如本文所用之術語「 分類」係指與樣本之特定性質相關之任何數字或其他字符。舉例而言,符號「+」(或詞語「正」)可表示樣本被分類為具有缺失或擴增。分類可為二元的(例如正或負)或具有更多的分類等級(例如自1至10或自0至1的標度)。
術語「 閾值」及「 臨限值」係指操作中所用之預定數字。舉例而言,閾值尺寸可指一種尺寸,大於此尺寸則排除片段。臨限值可為一種值,高於或低於此值,則特定分類適用。此等術語中之任一者可用於此等情形中之任一者。閾值或臨限值可為代表特定分類或在兩種或更多種分類之間進行區別的「參考值」或自參考值導出。如本領域技術人員將理解的,可以各種方式確定此參考值。例如,可針對具有不同已知分類的兩個不同群組的個體確定度量,且可選擇參考值作為一個分類的代表(例如平均值)或介於度量的兩個集群之間的值(例如經選擇以獲得所需的靈敏度及特異性)。作為另一實例,參考值可基於對樣本之統計分析或模擬而確定。
術語「 癌症等級」可指癌症是否存在(亦即存在或不存在)、癌症分期、腫瘤尺寸、是否存在轉移、身體之總腫瘤負荷、癌症對治療之反應及/或癌症嚴重程度之其他量度(例如癌症復發)。癌症等級可為數字或其他標誌,諸如符號、字母及顏色。等級可為零。癌症等級亦可包括惡化前或癌變前病況(狀態)。可以各種方式使用癌症等級。舉例而言,篩查可檢查先前未知患癌之某人是否存在癌症。評定可調查已經診斷患有癌症之某人以監測癌症隨時間推移之進展,研究療法有效性或確定預後。在一個實施例中,預後可用患者死於癌症之機率或特定期限或時間之後癌症進展之機率或癌症轉移之機率或程度表示。檢測可能意謂「篩檢」,或可能意謂檢查具有癌症提示性特徵(例如症狀或其他陽性測試)的某人是否患有癌症。
病理等級」(或病症等級)可指與生物體相關之病理的量、程度或嚴重性,其中等級可如上文針對癌症所描述。病理之另一實例為移植器官之排斥。其他實例病理可包括基因印記病症、自體免疫攻擊(例如損害腎臟之狼瘡性腎炎或多發性硬化症)、炎性疾病(例如肝炎)、纖維化過程(例如肝硬化)、脂肪浸潤(例如脂肪性肝病)、退行性過程(例如阿茲海默氏病(Alzheimer's disease))及缺血性組織損傷(例如心肌梗塞或中風)。個體之健康狀態可視為無病理之分類。
妊娠相關病症」包括以母體及/或胎兒組織中基因之相對表現水準異常為特徵的任何病症。此等病症包括但不限於先兆子癇、宮內發育遲緩、侵入性胎盤形成、早產、新生兒溶血性疾病、胎盤功能不全、胎兒水腫、胎兒畸形、HELLP症候群、全身性紅斑狼瘡及母親之其他免疫性疾病。
縮寫「 bp」係指鹼基對。在一些情況下,「bp」可用於表示DNA片段之長度,即使該DNA片段可為單股的且不包括鹼基配對。在單股DNA之上下文中,「bp」可解釋為提供核苷酸長度。
縮寫「nt」係指核苷酸。在一些情況下,「nt」可用於表示以鹼基為單位之單股DNA的長度。另外,「nt」可用於表示相對位置,諸如所分析之基因座的上游或下游。在涉及技術概念化、資料呈現、處理及分析之一些上下文中,「nt」及「bp」可互換使用。
術語「 序列上下文」可指一段DNA中之鹼基組成(A、C、G或T)及鹼基順序。此段DNA可圍繞進行鹼基修飾分析或作為鹼基修飾分析目標的鹼基。舉例而言,序列上下文可指進行鹼基修飾分析之鹼基的上游及/或下游的鹼基。
術語「 動力學特徵」可指源自定序,包括源自單分子即時定序之特徵。此類特徵可用於鹼基修飾分析。例示性動力學特徵包括上游及下游序列上下文、股資訊、脈衝間持續時間、脈衝寬度及脈衝強度。在單分子即時定序中,吾人連續監測聚合酶活性對DNA模板之影響。因此,由此類定序生成之量測結果可視為動力學特徵,例如核苷酸序列。
術語「 機器學習模型」可包括基於使用樣本資料(例如訓練資料)對測試資料進行預測的模型,且因此可包括監督學習。機器學習模型通常使用電腦或處理器開發。機器學習模型可包括統計模型。
術語「 資料分析框架」可包括可將資料作為輸入且隨後輸出預測結果的算法及/或模型。「資料分析框架」之實例包括統計模型、數學模型、機器學習模型、其他人工智慧模型及其組合。
術語「 即時定序」可指涉及在定序所涉及之反應進展期間進行資料收集或監測的技術。舉例而言,即時定序可涉及光學監測或拍攝DNA聚合酶併入新鹼基。
術語「 」或「 大約」可意謂在如本領域中一般熟習此項技術者所測定之特定值的可接受誤差範圍內,此將部分取決於如何量測或測定該值,亦即,量測系統之極限。舉例而言,根據本領域中之實踐,「約」可意謂在1個或大於1個標準差之範圍內。或者,「約」可意謂既定值之至多20%、至多10%、至多5%或至多1%之範圍。或者,尤其關於生物系統或方法,術語「約」或「大約」可意謂在值之一定數量級內、在5倍內且更佳在2倍內。當特定值描述於本申請案與申請專利範圍中時,除非另行說明,否則應假定術語「約」意謂在特定值之可接受誤差範圍內。術語「約」可具有如本領域中一般熟習此項技術者通常所理解之含義。術語「約」可以指±10%。術語「約」可指±5%。
           
          <![CDATA[<110> 香港中文大學(THE CHINESE UNIVERSITY OF HONG KONG)]]>
          <![CDATA[<120> 核酸鹼基修飾的測定]]>
          <![CDATA[<150> US 63/051,210]]>
          <![CDATA[<151> 2020-07-13]]>
          <![CDATA[<150> US 63/019,790]]>
          <![CDATA[<151> 2020-05-04]]>
          <![CDATA[<150> US 62/991,891]]>
          <![CDATA[<151> 2020-03-19]]>
          <![CDATA[<150> US 62/970,586]]>
          <![CDATA[<151> 2020-02-05]]>
          <![CDATA[<150> US 62/887,987]]>
          <![CDATA[<151> 2019-08-16]]>
          <![CDATA[<160> 5     ]]>
          <![CDATA[<170> PatentIn version 3.5]]>
          <![CDATA[<210> 1]]>
          <![CDATA[<211> 36]]>
          <![CDATA[<212> RNA]]>
          <![CDATA[<213> 人工序列]]>
          <![CDATA[<220>]]>
          <![CDATA[<223> 人工序列之描述:合成寡核苷酸]]>
          <![CDATA[<400> 1]]>
          gccuguaauc ccagcacuuu guuuuagagc uaugcu                                 36
          <![CDATA[<210> 2]]>
          <![CDATA[<211> 67]]>
          <![CDATA[<212> RNA]]>
          <![CDATA[<213> 人工序列]]>
          <![CDATA[<220>]]>
          <![CDATA[<223> 人工序列之描述:合成寡核苷酸]]>
          <![CDATA[<400> 2]]>
          agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg       60
          gugcuuu                                                                 67
          <![CDATA[<210> 3]]>
          <![CDATA[<211> 36]]>
          <![CDATA[<212> RNA]]>
          <![CDATA[<213> 人工序列]]>
          <![CDATA[<220>]]>
          <![CDATA[<223> 人工序列之描述:合成寡核苷酸]]>
          <![CDATA[<400> 3]]>
          agggucucgc ucugucgccc guuuuagagc uaugcu                                 36
          <![CDATA[<210> 4]]>
          <![CDATA[<211> 10]]>
          <![CDATA[<212> DNA]]>
          <![CDATA[<213> 人工序列]]>
          <![CDATA[<220>]]>
          <![CDATA[<223> 人工序]]>列之描述:合成寡核苷酸
          <![CDATA[<400> 4]]>
          atacgtacgt                                                              10
          <![CDATA[<210> 5]]>
          <![CDATA[<211> 10]]>
          <![CDATA[<212> DNA]]>
          <![CDATA[<213> 人工序列]]>
          <![CDATA[<220>]]>
          <![CDATA[<223> 人工序列之描述:合成寡核苷酸]]>
          <![CDATA[<400> 5]]>
          atacgtacgt                                                              10
          
Figure 12_A0101_SEQ_0001
Figure 12_A0101_SEQ_0002
400:量測窗口
402:矩陣之第一列
404:矩陣之第二列
408:列
412:列
416:列
420:列

Claims (69)

  1. 一種用於檢測核酸分子中核苷酸之修飾的方法,該方法包含: 接收輸入資料結構,該輸入資料結構對應於樣本核酸分子中定序之核苷酸的窗口,其中該樣本核酸分子係藉由量測對應於該等核苷酸之光信號中的脈衝來定序,該輸入資料結構包含以下特性之值: 對於該窗口內之每個核苷酸: 該核苷酸之標識, 該核苷酸相對於該各別窗口內目標位置的位置, 對應於該核苷酸之脈衝的寬度,及 脈衝間持續時間,其表示對應於該核苷酸之脈衝與對應於鄰近核苷酸之脈衝之間的時間; 將該輸入資料結構輸入至模型中,該模型如下進行訓練: 接收第一複數個第一資料結構,該第一複數個資料結構中之每個第一資料結構對應於複數個第一核酸分子之各別核酸分子中定序之核苷酸的各別窗口,其中該等第一核酸分子中之每一者係藉由量測對應於該等核苷酸之信號中的脈衝來定序,其中該修飾在每個第一核酸分子之每個窗口中之目標位置處之核苷酸中具有已知的第一狀態,每個第一資料結構包含與該輸入資料結構相同特性之值, 儲存複數個第一訓練樣本,每個樣本包括該第一複數個第一資料結構中之一者及指示該目標位置處之核苷酸之第一狀態的第一標記,及 當將該第一複數個第一資料結構輸入至該模型時,使用該複數個第一訓練樣本,基於該模型之輸出匹配或不匹配該等第一標記之相應標記來使該模型之參數最佳化,其中該模型之輸出指定該各別窗口中目標位置處之核苷酸是否具有該修飾, 使用該模型確定該修飾是否存在於該輸入資料結構中之該窗口內之目標位置處的核苷酸中。
  2. 如請求項1之方法,其中: 該輸入資料結構為複數個輸入資料結構中之一個輸入資料結構, 該樣本核酸分子為複數個樣本核酸分子中之一個樣本核酸分子, 該複數個樣本核酸分子係自個體之生物樣本獲得,及 每個輸入資料結構對應於該複數個樣本核酸分子之各別樣本核酸分子中定序之核苷酸的各別窗口,及 該方法進一步包含: 接收該複數個輸入資料結構, 將該複數個輸入資料結構輸入至該模型中,及 使用該模型確定在每個輸入資料結構之各別窗口中之目標位置處之核苷酸中是否存在修飾。
  3. 如請求項2之方法,其進一步包含: 確定該修飾存在於一或多個核苷酸處,及 使用在一或多個核苷酸處之該修飾的存在來確定病症之分類。
  4. 如請求項3之方法,其中該病症包含癌症。
  5. 如請求項3之方法,其進一步包含: 確定該病症之分類為該個體患有該病症,及 治療該個體之該病症。
  6. 如請求項3之方法,其中確定該病症之分類使用修飾之數量或該等修飾之位點。
  7. 如請求項2之方法,其進一步包含: 確定該修飾存在於一或多個核苷酸處,及 使用在一或多個核苷酸處之該修飾的存在確定臨床相關之DNA分數、胎兒甲基化概況、母體甲基化概況、印記基因區域之存在或起源組織。
  8. 如請求項2之方法,其中該複數個樣本核酸分子中之每個樣本核酸分子的大小大於閾值大小。
  9. 如請求項2之方法,其中: 該複數個樣本核酸分子與複數個基因體區域進行排比, 對於該複數個基因體區域中之每個基因體區域: 許多樣本核酸分子與該基因體區域進行排比, 樣本核酸分子之數量大於閾值數量。
  10. 如請求項1之方法,其進一步包含對該樣本核酸分子進行定序。
  11. 如請求項1之方法,其中該模型包括機器學習模型、主成分分析、卷積神經網路或邏輯回歸。
  12. 如請求項1之方法,其中: 對應於該輸入資料結構之核苷酸的窗口包含該樣本核酸分子之第一股上的核苷酸及該樣本核酸分子之第二股上的核苷酸,及 該輸入資料結構進一步包含對於該窗口內之每個核苷酸之股特性的值,該股特性指示該核苷酸存在於該第一股或該第二股上。
  13. 如請求項12之方法,其中該樣本核酸分子為藉由以下形成之環形DNA分子: 使用Cas9複合物切割雙股DNA分子,形成經切割之雙股DNA分子,及 將髮夾轉接子連接至該經切割之雙股DNA分子的末端。
  14. 如請求項1之方法,其中該窗口內之該等核苷酸係使用環形一致序列確定的,且無需將經定序之核苷酸與參考基因體進行排比。
  15. 如請求項1之方法,其中該窗口內之每個核苷酸均經富集或過濾。
  16. 如請求項15之方法,其中該窗口內之每個核苷酸藉由以下富集: 使用Cas9複合物切割雙股DNA分子,形成經切割之雙股DNA分子,且將髮夾轉接子連接至該經切割之雙股DNA分子的末端,或 藉由以下過濾: 選擇具有大小範圍內之大小的雙股DNA分子。
  17. 如請求項1之方法,其中該窗口內之核苷酸無需使用環形一致序列且無需將經定序之核苷酸與參考基因體進行排比即可確定。
  18. 一種用於檢測核酸分子中核苷酸之修飾的方法,該方法包含: 接收第一複數個第一資料結構,該第一複數個第一資料結構中之每個第一資料結構對應於複數個第一核酸分子之各別核酸分子中定序之核苷酸的各別窗口,其中該等第一核酸分子中之每一者係藉由量測對應於該等核苷酸之光信號中的脈衝來定序,其中該修飾在每個第一核酸分子之每個窗口中之目標位置處之核苷酸中具有已知的第一狀態,每個第一資料結構包含以下特性之值: 對於該窗口內之每個核苷酸: 該核苷酸之標識, 該核苷酸相對於該各別窗口內該目標位置的位置, 對應於該核苷酸之脈衝的寬度,及 脈衝間持續時間,其表示對應於該核苷酸之脈衝與對應於鄰近核苷酸之脈衝之間的時間, 儲存複數個第一訓練樣本,每個樣本包括該第一複數個第一資料結構中之一者及指示該目標位置處之核苷酸之修飾的第一狀態的第一標記;及 當將該第一複數個第一資料結構輸入至模型時,藉由基於該模型之輸出匹配或不匹配該等第一標記之相應標記來使該模型之參數最佳化,從而使用該複數個第一訓練樣本對該模型進行訓練,其中該模型之輸出指定該各別窗口中該目標位置處之核苷酸是否具有該修飾。
  19. 如請求項18之方法,其進一步包含: 接收第二複數個第二資料結構,該第二複數個第二資料結構中之每個第二資料結構對應於複數個第二核酸分子之各別核酸分子中定序之核苷酸的各別窗口,其中該修飾在每個第二核酸分子之每個窗口內之目標位置處之核苷酸中具有已知的第二狀態,每個第二資料結構包含與該第一複數個第一資料結構相同的特性之值; 儲存複數個第二訓練樣本,每個樣本包括該第二複數個第二資料結構中之一者及指示該目標位置處之核苷酸之第二狀態的第二標記; 其中訓練: 該第一狀態或該第二狀態為存在該修飾,而另一狀態為不存在該修飾, 該模型進一步包含當將該第二複數個第二資料結構輸入至該模型時,藉由基於該模型之輸出匹配或不匹配該等第二標記之相應標記使該模型之參數最佳化來使用該複數個第二訓練樣本。
  20. 如請求項19之方法,其中該複數個第一核酸分子與該複數個第二核酸分子相同。
  21. 如請求項19之方法,其中該修飾包含甲基化,其中該複數個第一核酸分子係使用第一類型之甲基化核苷酸的多重置換擴增產生,且其中該複數個第二核酸分子係使用第一類型之未甲基化核苷酸的多重置換擴增產生。
  22. 如請求項18之方法,其中該光信號為來自染料標記之核苷酸的螢光信號。
  23. 如請求項18之方法,其中與該第一複數個資料結構相關聯之每個窗口包含每個第一核酸分子之第一股上的4個連續核苷酸。
  24. 如請求項23之方法,其中與該第一複數個資料結構相關聯之該等窗口包含相同數量之連續核苷酸。
  25. 如請求項18之方法,其中: 與該第一複數個資料結構相關聯之每個窗口包含該第一核酸分子之第一股上的核苷酸及該第一核酸分子之第二股上的核苷酸,及 每個第一資料結構進一步包含對於該窗口內之每個核苷酸之股特性的值,該股特性指示該核苷酸存在於該第一股或該第二股上。
  26. 如請求項18之方法,其中該鄰近核苷酸為相鄰核苷酸。
  27. 如請求項18之方法,其中該脈衝之寬度為該脈衝之最大值一半時該脈衝之寬度。
  28. 如請求項18之方法,其中該脈衝間持續時間為與該核苷酸相關聯之脈衝的最大值及與該鄰近核苷酸相關聯之脈衝的最大值之間的時間。
  29. 如請求項18之方法,其中該模型包含卷積神經網路,該卷積神經網路包含: 一組卷積濾波器,其經組態以過濾該第一複數個資料結構, 一輸入層,其經組態以接收經過濾之第一複數個資料結構, 複數個隱藏層,其包括複數個節點,該複數個隱藏層中之第一層耦合至該輸入層;及 一輸出層,其耦合至該複數個隱藏層中之最後一層且經組態以輸出一輸出資料結構,該輸出資料結構包含該等特性。
  30. 如請求項18之方法,其中該修飾包含在該目標位置處之核苷酸的甲基化。
  31. 如請求項30之方法,其中該等已知的第一狀態包括該等第一資料結構之第一部分的甲基化狀態及該等第一資料結構之第二部分的未甲基化狀態。
  32. 如請求項30之方法,其中該甲基化包含4mC(N4-甲基胞嘧啶)、5mC(5-甲基胞嘧啶)、5hmC(5-羥甲基胞嘧啶)、5fC(5-甲醯基胞嘧啶)、5caC(5-羧基胞嘧啶)、1mA(N1-甲基腺嘌呤)、3mA(N3-甲基腺嘌呤)、6mA(N6-甲基腺嘌呤)、7mA(N7-甲基腺嘌呤)、3mC(N3-甲基胞嘧啶)、2mG(N2-甲基鳥嘌呤)、6mG(O6-甲基鳥嘌呤)、7mG(N7-甲基鳥嘌呤)、3mT(N3-甲基胸腺嘧啶)或4mT(O4-甲基胸腺嘧啶)。
  33. 如請求項18之方法,其中該修飾包含氧化變化。
  34. 如請求項18之方法,其中每個資料結構進一步包含對應於該窗口內每個核苷酸之脈衝高度的值。
  35. 如請求項18之方法,其中對應於該等核苷酸之該光信號由該等核苷酸或與該等核苷酸相關聯之標籤產生。
  36. 如請求項18之方法,其中每個目標位置為該各別窗口之中心。
  37. 如請求項18之方法,其中該修飾在每個第一核酸分子之每個窗口均不存在。
  38. 如請求項18之方法,其中: 該複數個第一資料結構中之每個第一資料結構排除脈衝間持續時間或脈衝寬度低於閾值的第一核酸分子。
  39. 如請求項18之方法,其中: 該修飾包含甲基化,及 該複數個第一訓練樣本係藉由以下生成: 使用一組核苷酸擴增複數個核酸分子,其中該組核苷酸包括指定比率之6mA。
  40. 如請求項39之方法,其中該甲基化包含6mA(N6-甲基腺嘌呤)。
  41. 如請求項1或請求項18之方法,其中該複數個第一核酸分子中之至少一些各自包括對應於第一參考序列之第一部分及對應於與該第一參考序列不相接之第二參考序列之第二部分。
  42. 如請求項1或請求項18之方法,其進一步包含: 使用複數個嵌合核酸分子驗證該模型,每個嵌合核酸分子包括對應於第一參考序列之第一部分及對應於第二參考序列之第二部分,其中該第一部分具有第一甲基化模式且該第二部分具有第二甲基化模式。
  43. 如請求項41或請求項42之方法,其中該第一部分用甲基化酶處理。
  44. 如請求項43之方法,其中該第二部分對應於該第二參考序列之未甲基化部分。
  45. 如請求項41或請求項42之方法,其中該第一參考序列為人類的,且其中該第二參考序列來自不同的動物。
  46. 一種分析在第一染色體區域中具有第一單倍型及第二單倍型之生物體之生物樣本的方法,該生物樣本包括DNA分子,該方法包含: 分析來自該生物樣本之複數個DNA分子,其中分析DNA分子包括: 鑑別該DNA分子在參考人類基因體中之位置; 確定該DNA分子之各別對偶基因;及 確定該DNA分子在一或多個基因體位點處是否甲基化; 鑑別該第一染色體區域之第一部分的一或多個異型接合基因座,每個異型接合基因座包括該第一單倍型中之相應第一對偶基因及該第二單倍型中之相應第二對偶基因; 鑑別第一組該複數個DNA分子,其中每個DNA分子: 位於該一或多個異型接合基因座中之任一者, 包括該異型接合基因座之該相應第一對偶基因,及 包括N個基因體位點中之至少一者,N為大於或等於1之整數; 使用該第一組該複數個DNA分子確定該第一單倍型之該第一部分的第一甲基化程度; 鑑別第二組該複數個DNA分子,其中每個DNA分子: 位於該一或多個異型接合基因座中之任一者, 包括該異型接合基因座之該相應第二對偶基因,及 包括該N個基因體位點中之至少一者; 使用該第二組該複數個DNA分子確定該第二單倍型之該第一部分的第二甲基化程度; 使用該第一甲基化程度及該第二甲基化程度計算參數之值; 將該參數之值與參考值進行比較;及 使用該參數之值與該參考值之比較,確定該生物體之病症的分類。
  47. 如請求項46之方法,其中該第一甲基化程度係使用該第一組該複數個DNA分子之單股甲基化程度來確定,且其中該第二甲基化程度係使用該第二組該複數個DNA分子之單股甲基化程度來確定。
  48. 如請求項46之方法,其中該第一甲基化程度係使用該第一組該複數個DNA分子之單分子雙股DNA甲基化程度來確定,且其中該第二甲基化程度係使用該第二組該複數個DNA分子之單分子雙股DNA甲基化來確定。
  49. 如請求項46之方法,其中該病症為癌症。
  50. 如請求項46之方法,其中該參數為分離值。
  51. 如請求項46之方法,其進一步包含: 確定該第一單倍型之複數個部分的複數個第一甲基化程度, 確定該第二單倍型之複數個部分的複數個第二甲基化程度,該第二單倍型之複數個部分的每一部分與該第一單倍型之該複數個部分的一部分互補, 對於該第二單倍型之該複數個部分的每一部分: 使用該第二單倍型之該部分的該第二甲基化程度及該第一單倍型之互補部分的該第一甲基化程度計算分離值,及 將該分離值與閾值進行比較, 其中: 該第一單倍型之第一部分與該第二單倍型之第一部分互補,及 該參數包括該第二單倍型之該分離值超過該閾值之部分的數量。
  52. 如請求項51之方法,其中該閾值係由不具有該病症之組織確定。
  53. 如請求項51之方法,其中該第一單倍型之該複數個部分的每一部分的長度大於或等於5 kb。
  54. 如請求項46之方法,其進一步包含: 確定該第一單倍型之複數個部分的複數個第一甲基化程度, 確定該第二單倍型之複數個部分的複數個第二甲基化程度,該第二單倍型之該複數個部分的每一部分與該第一單倍型之該複數個部分的一部分互補, 對於該第二單倍型之該複數個部分的每一部分: 使用該第二單倍型之該部分的該第二甲基化程度及該第一單倍型之互補部分的該第一甲基化程度計算分離值, 其中: 該第一單倍型之該第一部分與該第二單倍型之該第一部分互補,及 該參數包括該等分離值之總和。
  55. 如請求項46之方法,其進一步包含: 確定該第一單倍型之複數個部分的複數個第一甲基化程度, 確定該第二單倍型之複數個部分的複數個第二甲基化程度,該第二單倍型之該複數個部分的每一部分與該第一單倍型之該複數個部分的一部分互補, 對於該第二單倍型之該複數個部分的每一部分: 使用該第二單倍型之該部分的該第二甲基化程度及該第一單倍型之互補部分的該第一甲基化程度計算分離值,及 將該分離值與閾值進行比較,以鑑別該部分是否在該第一甲基化程度與該第二甲基化程度之間具有異常分離, 其中確定該生物體中該病症之分類包括將具有異常分離之部分的模式與參考模式進行比較。
  56. 如請求項46之方法,其中該病症之該分類為該病症之可能性。
  57. 如請求項46之方法,其中: 該第一單倍型之該第一部分及該第二單倍型之該第一部分形成環形DNA分子,及 確定該第一單倍型之該第一部分的該第一甲基化程度包含使用來自該環形DNA分子之資料。
  58. 如請求項57之方法,其中該環形DNA分子係藉由以下形成: 使用Cas9複合物切割雙股DNA分子,形成經切割之雙股DNA分子,及 將髮夾轉接子連接至該經切割之雙股DNA分子的末端。
  59. 如請求項46之方法,其中: 該第一單倍型之該第一部分長於或等於1 kb。
  60. 如請求項46之方法,其中該參考值係使用無該病症之參考組織確定。
  61. 如請求項46之方法,其中該病症為印記病症。
  62. 一種檢測生物樣本中之嵌合分子的方法,該方法包含: 對於來自該生物樣本之複數個DNA分子中之每一者: 對該DNA分子進行單分子定序,以獲得序列讀段,該序列讀段提供N個位點中之每一者的甲基化狀態,N為5或更多,其中該序列讀段之該等甲基化狀態形成甲基化模式; 將該甲基化模式滑移至一或多個參考模式上,該等參考模式對應於具有來自參考人類基因體之兩部分的兩個部分的嵌合分子,該一或多個參考模式包括甲基化狀態與未甲基化狀態之間的變化;及 鑑別該甲基化模式與該一或多個參考模式之第一參考模式之間的匹配位置,該匹配位置鑑別該序列讀段中該參考人類基因體之該兩部分之間的接合點;及 輸出該接合點作為嵌合分子中基因融合之位置。
  63. 如請求項62之方法,其中該匹配位置輸出至排比函數,該方法進一步包含: 藉由以下細化該基因融合之位置: 將該序列讀段之第一部分與該參考人類基因體之第一部分進行排比,該第一部分在該接合點之前;及 將該序列讀段之第二部分與該參考人類基因體之第二部分進行排比,該第二部分在該接合點之後,其中該參考人類基因體之該第一部分與該人類參考基因體之該第二部分相隔至少1 kb。
  64. 如請求項62之方法,其進一步包含將該等嵌合分子之該等接合點相互比較,以確認該基因融合之位置。
  65. 一種電腦產品,其包含儲存複數個指令之非暫時性電腦可讀媒體,該等指令在執行時控制電腦系統執行如前述請求項中任一項之方法。
  66. 一種系統,其包含: 如請求項65之電腦產品;及 一或多個處理器,用於執行儲存於該電腦可讀取媒體上之指令。
  67. 一種系統,其包含執行上述方法中之任一者的構件。
  68. 一種系統,其包含一或多個經組態以執行上述方法中之任一者的處理器。
  69. 一種系統,其包含分別執行上述方法中之任一者之步驟的模組。
TW111138490A 2019-08-16 2020-08-17 核酸鹼基修飾的測定 TWI832482B (zh)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US201962887987P 2019-08-16 2019-08-16
US62/887,987 2019-08-16
US202062970586P 2020-02-05 2020-02-05
US62/970,586 2020-02-05
US202062991891P 2020-03-19 2020-03-19
US62/991,891 2020-03-19
US202063019790P 2020-05-04 2020-05-04
US63/019,790 2020-05-04
US202063051210P 2020-07-13 2020-07-13
US63/051,210 2020-07-13

Publications (2)

Publication Number Publication Date
TW202330935A true TW202330935A (zh) 2023-08-01
TWI832482B TWI832482B (zh) 2024-02-11

Family

ID=74567577

Family Applications (5)

Application Number Title Priority Date Filing Date
TW109127986A TWI752593B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定
TW110146625A TWI783821B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定
TW110146624A TWI783820B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定
TW111138490A TWI832482B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定
TW111138492A TWI832483B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定

Family Applications Before (3)

Application Number Title Priority Date Filing Date
TW109127986A TWI752593B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定
TW110146625A TWI783821B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定
TW110146624A TWI783820B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW111138492A TWI832483B (zh) 2019-08-16 2020-08-17 核酸鹼基修飾的測定

Country Status (18)

Country Link
US (4) US11091794B2 (zh)
EP (2) EP3827092B1 (zh)
JP (4) JP7264534B2 (zh)
KR (4) KR102658592B1 (zh)
CN (5) CN116694746A (zh)
AU (4) AU2020323958B2 (zh)
BR (2) BR112021003815A2 (zh)
CA (1) CA3110884A1 (zh)
DK (1) DK3827092T3 (zh)
GB (13) GB2590032B (zh)
IL (3) IL302199B2 (zh)
MX (3) MX2021000931A (zh)
NZ (5) NZ796695A (zh)
PH (1) PH12021550223A1 (zh)
SG (1) SG11202101070QA (zh)
TW (5) TWI752593B (zh)
WO (1) WO2021032060A1 (zh)
ZA (1) ZA202100887B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230148447A9 (en) 2008-12-11 2023-05-11 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
CN116694746A (zh) 2019-08-16 2023-09-05 香港中文大学 测定核酸的碱基修饰
TWI771847B (zh) * 2019-12-30 2022-07-21 財團法人工業技術研究院 擴增和確定目標核苷酸序列的方法
US20220237502A1 (en) * 2021-01-25 2022-07-28 Paypal, Inc. Systems and methods for training and modifying a computer-based model to perform classification
CN117545855A (zh) * 2021-04-12 2024-02-09 香港中文大学 使用电信号的碱基修饰分析
CN113409885B (zh) * 2021-06-21 2022-09-20 天津金域医学检验实验室有限公司 一种自动化数据处理以及作图方法及系统
CN113981548B (zh) * 2021-11-24 2023-07-11 竹石生物科技(苏州)有限公司 Dna甲基化测序文库的制备方法和甲基化检测方法
WO2023183907A2 (en) * 2022-03-25 2023-09-28 The Penn State Research Foundation Analysis of genomic word frameworks on genomic methylation data
WO2023225004A1 (en) * 2022-05-16 2023-11-23 Bioscreening & Diagnostics Llc Prediction of alzheimer's disease
WO2024015138A1 (en) * 2022-07-15 2024-01-18 Massachusetts Institute Of Technology Mixture deconvolution method for identifying dna profiles
WO2024031097A2 (en) * 2022-08-05 2024-02-08 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for cancer screening
US20240127906A1 (en) * 2022-10-11 2024-04-18 Illumina, Inc. Detecting and correcting methylation values from methylation sequencing assays
WO2024129712A1 (en) * 2022-12-12 2024-06-20 Flagship Pioneering Innovations, Vi, Llc Phased sequencing information from circulating tumor dna
CN116168761B (zh) * 2023-04-18 2023-06-30 珠海圣美生物诊断技术有限公司 核酸序列特征区域确定方法、装置、电子设备及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002214811B2 (en) * 2000-11-13 2004-09-09 Human Genetic Signatures Pty Ltd Detection of methylated DNA molecules
AU2003900368A0 (en) * 2003-01-24 2003-02-13 Human Genetic Signatures Pty Ltd Assay for nucleic acid molecules
US7846693B2 (en) * 2003-09-04 2010-12-07 Human Genetic Signatures Pty. Ltd. Nucleic acid detection assay
KR20160113145A (ko) 2007-07-23 2016-09-28 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
AU2009288696A1 (en) * 2008-09-05 2010-03-11 Pacific Biosciences Of California, Inc. Sequencing by cognate sampling
US8486630B2 (en) 2008-11-07 2013-07-16 Industrial Technology Research Institute Methods for accurate sequence data and modified base position determination
US9175338B2 (en) * 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
EP2370598B1 (en) 2008-12-11 2017-02-15 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
PL3241914T3 (pl) 2009-11-05 2019-08-30 The Chinese University Of Hong Kong Analiza genomowa płodu z matczynej próbki biologicznej
US20120208193A1 (en) 2011-02-15 2012-08-16 Bio-Rad Laboratories, Inc. Detecting methylation in a subpopulation of genomic dna
US9016970B2 (en) * 2011-06-08 2015-04-28 United States Postal Service Elastomeric force mitigating joint
US9238836B2 (en) 2012-03-30 2016-01-19 Pacific Biosciences Of California, Inc. Methods and compositions for sequencing modified nucleic acids
WO2013163207A1 (en) 2012-04-24 2013-10-31 Pacific Biosciences Of California, Inc. Identification of 5-methyl-c in nucleic acid templates
AU2012380221B2 (en) * 2012-05-14 2016-09-29 Bgi Genomics Co., Ltd Method, system and computer readable medium for determining base information in predetermined area of fetus genome
GB2559073A (en) 2012-06-08 2018-07-25 Pacific Biosciences California Inc Modified base detection with nanopore sequencing
KR20150035821A (ko) * 2012-06-15 2015-04-07 해리 스타일리 질환 또는 병태를 검출하는 방법
WO2014153757A1 (zh) 2013-03-28 2014-10-02 深圳华大基因研究院 确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质
CN105593683B (zh) 2013-10-01 2018-11-30 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
EP3495496B1 (en) 2013-10-07 2020-11-25 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
EP3889272A1 (en) * 2014-07-18 2021-10-06 The Chinese University of Hong Kong Methylation pattern analysis of tissues in dna mixture
HUE059407T2 (hu) 2015-07-20 2022-11-28 Univ Hong Kong Chinese Szövetekben lévõ haplotípusok metilációs mintázatelemzése DNS-keverékekben
US10465232B1 (en) 2015-10-08 2019-11-05 Trace Genomics, Inc. Methods for quantifying efficiency of nucleic acid extraction and detection
CN116694746A (zh) 2019-08-16 2023-09-05 香港中文大学 测定核酸的碱基修饰

Also Published As

Publication number Publication date
US20210047679A1 (en) 2021-02-18
AU2022231719B9 (en) 2023-05-18
BR112021003815A2 (pt) 2022-03-29
AU2023210593A1 (en) 2023-08-24
CN112752853B (zh) 2023-06-30
PH12021550223A1 (en) 2021-10-11
IL302199B1 (en) 2024-02-01
GB2590854B (en) 2022-03-30
US20210363571A1 (en) 2021-11-25
EP4357461A3 (en) 2024-07-03
US20230193360A1 (en) 2023-06-22
GB2590032B (en) 2021-12-08
GB202201821D0 (en) 2022-03-30
TW202321463A (zh) 2023-06-01
NZ786186A (en) 2022-08-26
DK3827092T3 (da) 2024-04-22
JP2023098964A (ja) 2023-07-11
KR20220109492A (ko) 2022-08-04
IL302199A (en) 2023-06-01
GB202102808D0 (en) 2021-04-14
GB202313739D0 (en) 2023-10-25
KR102658592B1 (ko) 2024-04-17
GB2620069A (en) 2023-12-27
GB2620315A (en) 2024-01-03
EP4365307A2 (en) 2024-05-08
GB2619217A (en) 2023-11-29
AU2022231719B2 (en) 2023-05-04
US11091794B2 (en) 2021-08-17
GB2600649B (en) 2023-01-25
TWI783821B (zh) 2022-11-11
TWI832483B (zh) 2024-02-11
AU2020323958B2 (en) 2022-02-03
BR122021009560A2 (pt) 2022-04-19
NZ784999A (en) 2022-08-26
GB202216178D0 (en) 2022-12-14
EP4357461A2 (en) 2024-04-24
MX2022001470A (es) 2022-02-22
GB202201811D0 (en) 2022-03-30
US11466308B2 (en) 2022-10-11
CN116875669A (zh) 2023-10-13
JP7264534B2 (ja) 2023-04-25
IL294153B1 (en) 2023-05-01
NZ772327A (en) 2022-03-25
EP3827092A1 (en) 2021-06-02
GB2606945A (en) 2022-11-23
NZ788335A (en) 2023-02-24
AU2022202791A1 (en) 2022-05-19
MX2022001469A (es) 2022-02-22
WO2021032060A1 (en) 2021-02-25
IL302199B2 (en) 2024-06-01
NZ796185A (en) 2024-01-26
GB2590032A (en) 2021-06-16
TW202124728A (zh) 2021-07-01
GB2600650A (en) 2022-05-04
ZA202100887B (en) 2022-09-28
TWI752593B (zh) 2022-01-11
US20240018570A1 (en) 2024-01-18
GB2615272B (en) 2024-03-20
KR102427319B1 (ko) 2022-08-01
CN116694746A (zh) 2023-09-05
GB202306697D0 (en) 2023-06-21
EP3827092B1 (en) 2024-01-31
KR20220109493A (ko) 2022-08-04
AU2022231719A1 (en) 2022-10-06
AU2022202791C1 (en) 2022-11-03
JP2024075667A (ja) 2024-06-04
GB202103010D0 (en) 2021-04-14
IL280270B (en) 2022-07-01
JP7369492B2 (ja) 2023-10-26
KR20220109494A (ko) 2022-08-04
GB2608713B (en) 2023-09-06
AU2022202791B2 (en) 2022-06-16
CN116694745A (zh) 2023-09-05
TW202214872A (zh) 2022-04-16
KR20210068396A (ko) 2021-06-09
CN116855595A (zh) 2023-10-10
GB2609830A (en) 2023-02-15
AU2023210593B2 (en) 2024-03-21
JP2022540966A (ja) 2022-09-21
GB202210631D0 (en) 2022-08-31
GB2609830B (en) 2023-10-25
JP2024001198A (ja) 2024-01-09
GB2619466B (en) 2024-06-12
GB2600650B (en) 2022-12-28
GB2619217B (en) 2024-05-08
TWI832482B (zh) 2024-02-11
TW202212569A (zh) 2022-04-01
GB202103003D0 (en) 2021-04-14
SG11202101070QA (en) 2021-03-30
IL280270A (en) 2021-03-01
GB2590573B (en) 2021-12-22
GB2606945B (en) 2023-06-28
IL294153A (en) 2022-08-01
GB2600649A (en) 2022-05-04
TWI783820B (zh) 2022-11-11
GB2620315B (en) 2024-05-08
CN112752853A (zh) 2021-05-04
JP7462993B2 (ja) 2024-04-08
GB202210633D0 (en) 2022-08-31
IL294153B2 (en) 2023-09-01
GB2615272A (en) 2023-08-02
NZ796695A (en) 2024-02-23
GB2590854A (en) 2021-07-07
GB2608713A (en) 2023-01-11
GB2600649A8 (en) 2022-05-25
EP3827092A4 (en) 2021-11-24
GB2620069B (en) 2024-05-08
GB2590573A (en) 2021-06-30
AU2020323958A1 (en) 2021-03-04
GB2619466A (en) 2023-12-06
NZ786185A (en) 2022-08-26
MX2021000931A (es) 2022-02-10
GB202314385D0 (en) 2023-11-01
CA3110884A1 (en) 2021-02-25
BR122021009560B1 (pt) 2023-11-28

Similar Documents

Publication Publication Date Title
TWI783820B (zh) 核酸鹼基修飾的測定