TW202012636A - 用於測量游離(cell-free)混合物之特性之經尺寸標記之偏好末端及取向感知分析 - Google Patents

用於測量游離(cell-free)混合物之特性之經尺寸標記之偏好末端及取向感知分析 Download PDF

Info

Publication number
TW202012636A
TW202012636A TW108115457A TW108115457A TW202012636A TW 202012636 A TW202012636 A TW 202012636A TW 108115457 A TW108115457 A TW 108115457A TW 108115457 A TW108115457 A TW 108115457A TW 202012636 A TW202012636 A TW 202012636A
Authority
TW
Taiwan
Prior art keywords
dna molecules
free dna
dna
value
tissue
Prior art date
Application number
TW108115457A
Other languages
English (en)
Inventor
煜明 盧
慧君 趙
君賜 陳
江培勇
孫坤
Original Assignee
香港中文大學
美商格瑞爾公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港中文大學, 美商格瑞爾公司 filed Critical 香港中文大學
Publication of TW202012636A publication Critical patent/TW202012636A/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6881Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Cell Biology (AREA)

Abstract

游離DNA(如血漿DNA和血清DNA)的片段化模式有多種應用場景。舉例而言,DNA片段之末端位置可用於各種應用。短及長DNA分子之片段化模式可與稱為經尺寸標記之偏好末端的不同偏好DNA末端位置相關。在另一實例中,分析與組織特異性開放染色質區域相關之片段化模式,可在來自不同組織類型之游離DNA的混合物中確定特定組織類型之貢獻比例的分類。另外,可確定特定組織類型之特性,例如就一組織類型在特定區域中是否存在序列不平衡或就該組織類型是否存在病理學相關特徵。

Description

用於測量游離(CELL-FREE)混合物之特性之經尺寸標記之偏好末端及取向感知分析
人類血漿中循環游離DNA (cell-free DNA,cfDNA)之存在最先由Mandel及Metais (86)報導。隨後,孕婦血漿中來自胎兒之DNA (82)、器官移植患者中來自供體之DNA (83)及癌症患者中來自腫瘤之DNA (100)的發現打開了基於血漿DNA之非侵入性產前測試(108)、移植監測(97)及癌症液體活檢(57, 91, 61)之門。CfDNA因此已變為在全球範圍內積極研究之生物標記類別。
全球均關注在人類血漿中採用循環游離DNA分析以用於分子診斷及監測。孕婦血漿中胎兒DNA (1)、器官移植患者中供體特異性DNA (2)及癌症患者中腫瘤來源之DNA (3)的發現已實現非侵入性產前測試、癌症液體活檢、移植監測及器官損傷評估(4-8)之技術。儘管有許多臨床應用,但血漿DNA之生物學特徵尚未得到充足的研究關注。
應用游離DNA (例如血漿DNA及血清DNA)之相關片段化模式分析(例如診斷應用)的多個實施例。舉例而言,DNA片段(分子)之末端位置可用於各種應用。一些實施例可在來自不同組織類型之游離DNA的混合物中確定特定組織類型之貢獻比例。舉例而言,可確定特定百分比、百分比範圍或貢獻比例是否高於指定百分比作為分類依據。在其他實施例中,可確定特定組織類型之特性,例如就一組織類型在特定區域中是否存在序列不平衡或就該組織類型是否存在病理學相關特徵。
在一個實例中,分析不同尺寸之游離DNA分子的片段化模式。短及長DNA分子可與稱為經尺寸標記之偏好末端的不同偏好DNA末端位置相關聯。短偏好DNA末端位置與某些組織類型(例如胎兒、腫瘤或移植組織)相關。可鑑別短(及可能長)DNA分子之偏好末端位置且可在各種應用中使用末端位於此類位置處之DNA分子。
在一些實施例中,末端位於短DNA分子之偏好末端位置上之游離DNA分子的相對豐度可用於例如藉由與貢獻比例已知的校準樣品中之類似量測值比較,來確定測試混合物中之第一組織類型之貢獻比例。
在其他實施例中,可分析末端位於短DNA分子之偏好末端位置上且位於特定染色體區域中的一組游離DNA分子以確定該組之值(例如計數、尺寸分佈之統計值或甲基化水準)。該值可用於偵測序列不平衡(例如複本數畸變,諸如非整倍性、缺失或擴增,及基因型之差異)。當在該染色體區域中存在序列不平衡時,該值將展示與參考值之統計顯著偏差。
在另一實例中,分析與組織特異性開放染色質區域相關之片段化模式。可使用相對於第一組織類型之組織特異性開放染色質區域之中心的一組基因組位置。詳言之,DNA片段在此組基因組位置處(例如相對於特定組織類型之開放染色質區域之中心)是否具有上游末端抑或下游末端之信息可用於定量分析中。舉例而言,可使用具有上游及下游末端之DNA分子之數目(例如差值或比率)來做分離。
在一些實施例中,分離值可用於例如藉由與貢獻比例已知的校準樣品中之類似量測值比較,來確定測試混合物中之第一組織類型之貢獻比例。在其他實施例中,分離值可用作第一組織類型中之病理學的指示,例如當與參考值存在統計顯著偏差時。該種病理學之實例包括來自第一組織類型之游離DNA的異常高分數濃度、第一組織類型之移植器官之排斥或癌症。
本發明之此等及其他實施例將在下文中詳細地描述。舉例而言,其他實施例可以是與本文所述方法相關之系統、裝置及電腦可讀媒體。
可參考以下實施方式及附圖來獲得對本發明實施例之性質及優勢的較佳理解。
相關申請案之交叉引用
本申請案主張2018年9月17日申請之題為「Size-Tagged Preferred Ends And Orientation-Aware Analysis For Measuring Properties Of Cell-Free Mixtures」之美國臨時申請案第62/732,509號及2018年5月3日申請之題為「Size-Tagged Preferred Ends For Measuring Properties Of Cell-Free Mixtures」之美國臨時申請案第62/666,574號的優先權且為其PCT申請案,該等臨時申請案之全部內容係以引用之方式併入本文中用於所有目的。 術語
組織 」對應於一組細胞,其共同歸類為一個功能單元。單一組織中可發現超過一種類型之細胞。不同類型的組織可由不同類型的細胞(例如肝細胞、肺泡細胞或血細胞)組成,而且可對應於來自不同生物體(母親相對於胎兒)的組織或對應於健康細胞相對於腫瘤細胞。「參考組織」可對應於用於測定組織特異性甲基化水準之組織。來自不同個體之相同組織類型之多個樣品可用於測定該組織類型之組織特異性甲基化水準。
生物樣品 」是指獲自個體(例如人類,諸如孕婦、患有癌症者或懷疑患有癌症者、器官移植接受者,或懷疑具有牽涉器官之疾病過程(例如心肌梗塞之心臟,或中風之腦,或貧血之造血系統)的個體)且含有所關注之一或多種核酸分子的任何樣品。生物樣品可為體液,諸如血液、血漿、血清、尿液、陰道液、來自(例如睪丸)水囊腫之液體、陰道沖洗液、胸膜液、腹水、腦脊髓液、唾液、汗液、淚液、痰液、支氣管肺泡灌洗液、乳頭排出液、來自身體不同部位(例如甲狀腺、乳房)之抽吸液等。亦可使用糞便樣品。在各種實施例中,游離DNA富集之生物樣品(例如經由離心方案獲得的血漿樣品)中的大部分DNA可為游離的,例如大於50%、60%、70%、80%、90%、95%或99%的DNA可為游離的。離心方案可包括例如3,000 g×10分鐘獲得流體部分,及例如30,000 g再離心另外10分鐘以移除殘餘細胞。
如本文所用之術語「單倍型 」是指同一染色體或染色體區域上一起傳遞的多個基因座上之對偶基因的組合。單倍型可指少至一對基因座,或指染色體區域,或指整個染色體。術語「對偶基因 」係指在同一實體基因組基因座處之替代性DNA序列,其可或可不導致不同表型性狀。在具有各染色體之兩個複本(除男性人類個體中之性別染色體之外)的任何特定二倍體生物中,各基因之基因型包含在該基因座處存在之對偶基因對,其在同型接合子中相同而在異型接合子中不同。生物之群體或物種通常在各個個體中在各基因座處包括多個對偶基因。在群體中發現超過一種對偶基因的基因組基因座稱為多形位點。在基因座處之對偶基因變異可量測為群體中存在之對偶基因之數目(亦即多形現象之程度)或異型接合子之比例(亦即異型接合性比率)。
如本文所用,術語「片段 」(例如DNA片段)可指包含至少3個連續核苷酸的多核苷酸或多肽序列之一部分。核酸片段可保留親本多肽之生物活性及/或一些特徵。核酸片段可為雙股或單股的、甲基化或未甲基化的、完整或帶切口的、與其他大分子(例如脂質粒子、蛋白質)複合或未複合的。片段可源自特定組織類型,例如胎兒、腫瘤、移植器官等。
術語「分析法 」一般指用於確定核酸特性之技術。分析法(例如第一分析法或第二分析法)一般指用於確定樣品中核酸之量、樣品中核酸之基因組一致性、樣品中核酸之複本數變異、樣品中核酸之甲基化狀態、樣品中核酸之片段尺寸分佈、樣品中核酸之突變狀態或樣品中核酸之片段化模式的技術。一般熟習此項技術者已知的任何分析法均可用於偵測本文提及之核酸的任何特性。核酸之特性包括序列、量、基因組一致性、複本數、一或多個核苷酸位置處之甲基化狀態、核酸之尺寸、一或多個核苷酸位置處核酸之突變及核酸之片段化模式(例如核酸片段化之核苷酸位置)。術語「分析法」可與術語「方法」互換使用。分析法或方法可具有特定的靈敏度及/或特異性,且其作為診斷工具之相對有用性可使用ROC-AUC統計學來量測。
序列讀數 」指在核酸分子之任何部分或全部中所定序的核苷酸串。舉例而言,序列讀數可為存在於生物樣品中之整個核酸片段。亦作為一實例,序列讀數可為在核酸片段中定序之短核苷酸串(例如20-150個鹼基)、位於核酸片段之一或兩個末端的短核苷酸串,或存在於生物樣品中之整個核酸片段之定序。成對序列讀數可與可提供一定長度之片段的參考基因組比對。可以多種方式獲得序列讀數,例如使用定序技術或使用探針,例如在雜交陣列或捕捉探針中,或擴增技術,諸如聚合酶鏈反應(PCR)或使用單一引子之線性擴增或等溫擴增,或基於生物物理學量測,諸如質譜。序列讀數可自單分子定序獲得。「單分子定序 」指對單模板DNA分子進行定序以獲得序列讀數,而不需要解讀來自模板DNA分子之純系複本之鹼基序列資訊。單分子定序可對DNA分子之整個分子或僅一部分進行定序。可對大部分,例如大於50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或99%之DNA分子定序。
臨床上相關 」DNA之實例包括母親血漿中之胎兒DNA及患者血漿中之腫瘤DNA。另一實例包括移植患者的血漿中之移植相關DNA之量的量測。另一實例包括個體的血漿中之造血及非造血DNA之相對量的量測。此後一實施例可用於偵測或監測或預測涉及造血及/或非造血組織之病理過程或傷害。
末端位置 ( ending position ) 」或「末端位置 ( end position ) 」(或僅「末端 」)可指游離DNA分子(例如血漿DNA分子)之最外部鹼基(亦即位於末端)的基因組座標或基因組身分或核苷酸身分。末端位置可對應於DNA分子的任一末端。以此方式,若其指DNA分子的始端與末端,則兩者均對應於末端位置。實務上,一個末端位置為在游離DNA分子之一個末端之最外部鹼基的基因組座標或核苷酸身分,其藉由分析方法偵測或確定,諸如(但不限於)大規模並行定序或下一代定序、單分子定序、雙股或單股DNA定序文庫製備方案、聚合酶鏈反應(PCR)或微陣列。此類活體外技術可改變游離DNA分子之真實活體內實體末端。因此,每個可偵測末端可代表生物學上的真實末端或末端為向內的一或多個核苷酸或自分子之原始末端延伸的一或多個核苷酸,例如藉由克列諾片段(Klenow fragment)對非鈍端雙股DNA分子之突出端進行的5'鈍化及3'填充。末端位置之基因組身分或基因組座標可利用序列讀數與參考基因組(例如hg19或其他人類參考基因組)之比對結果獲得。其可自表示人類基因組之原始座標的索引或代碼目錄獲得。其可指藉由(但不限於)標靶特異性探針、小型定序、DNA擴增法讀取之游離DNA分子上的位置或核苷酸身分。
偏好末端 」(或「多次出現的末端位置 」)指一種末端,其在具有生理(例如懷孕)或病理(疾病)狀態(例如癌症)之生物樣品中呈現或盛行(例如如藉由比率所量測)的程度高於不具有此類狀態的生物樣品或在不同時間點或階段(例如治療前或治療後)具有相同病理或生理狀態的生物樣品。因此,相對於其他狀態,偏好末端在相關生理或病理狀態下偵測到的可能性或機率增加。可例如在患有癌症及未患癌症之患者中比較病理狀態與非病理狀態之間增加的機率,且將其定量為似然比或相對機率。似然比可基於在測試樣品中偵測到至少臨限數目個偏好末端之機率或基於與無此類病況之患者相比在患有此類病況之患者中偵測到偏好末端之機率來確定。似然比臨限值之實例包括(但不限於) 1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80及100。該等似然比可藉由對具有與不具有相關狀態之樣品的相對豐度值進行比較來量測。由於偵測相關生理或疾病狀態下出現偏好末端的機率較高,因此在超過一個具有該相同生理或疾病狀態之個體中發現此類偏好末端位置。隨著機率的增加,即使當所分析之游離DNA分子的數目遠小於基因組之尺寸時,仍可偵測到多於一個游離DNA分子末端位於相同的偏好末端位置。因此,偏好或多次出現的末端位置亦稱為「頻繁末端位置」。在一些實施例中,可使用定量臨限值的要求是,在相同樣品或相同樣品等分試樣內至少多次(例如3、4、5、6、7、8、9、10、15、20或50次)偵測到的末端視為偏好末端。相關生理狀態可包括當人員健康、無疾病或無所關注之疾病時的狀態。類似地,「偏好末端窗 」對應於一組鄰接的偏好末端位置。
末端位於一位置之DNA分子的「比率 」指DNA分子末端位於該位置的頻率多大。該比率可基於末端位於針對所分析之DNA分子數目標準化之位置的DNA分子之數目。相應地,該比率對應於多少個DNA分子末端位於一位置的頻率,且並非指末端位於該位置之DNA分子之數目中具有局域最大值之位置的週期性。
校準樣品 」可對應於組織特異性DNA分數已知或經由校準方法(例如使用組織特有的對偶基因)測定的生物樣品。作為另一實例,校準樣品可對應於可供確定偏好末端位置的樣品。校準樣品可用於兩種目的。
校準資料點 」包括「校準值 」及所關注之DNA (亦即特定組織類型之DNA)的經量測或已知之比例分佈。校準值可為相對豐度,如針對組織類型之比例分佈已知的校準樣品所測定。校準資料點可包括校準值(例如使用經尺寸標記之末端位置或取向感知片段化量測)及組織類型之已知(量測)的比例分佈。校準資料點可以多種方式定義,例如作為離散點或作為校準函數(亦稱為校準曲線或校準表面)。校準函數可利用校準資料點之額外數學轉換來獲得。校準函數可為線性或非線性的。
位點 」(亦稱為「基因組位點 」)對應於單個位點,其可為單個鹼基位置或一組相關鹼基位置,例如尺寸偏好位點、CpG位點或較大組之相關鹼基位置。「基因座 」可對應於包括多個位點之區域。基因座可僅包括一個位點,此將使得基因座在該背景下等效於一位點。
哺乳動物基因組中之「DNA 甲基化 」通常指添加甲基至CpG二核苷酸當中之胞嘧啶殘基的5'碳(亦即5-甲基胞嘧啶)。DNA甲基化可在例如CHG及CHH之其他情況下發生於胞嘧啶中,其中H為腺嘌呤、胞嘧啶或胸腺嘧啶。胞嘧啶甲基化亦可呈5-羥甲基胞嘧啶形式。亦有非胞嘧啶甲基化的報導,諸如N6-甲基腺嘌呤。
各基因組位點(例如CpG位點)之「甲基化指數 」可指在該位點展示甲基化之DNA片段(例如如自序列讀數或探針測定)相對於覆蓋該位點之讀數總數的比例。「讀數」可對應於獲自DNA片段之資訊(例如位點處之甲基化狀態)。讀數可使用優先雜交至特定甲基化狀態之DNA片段之試劑(例如引子或探針)獲得。通常,此類試劑在用視DNA分子之甲基化狀態(例如亞硫酸氫鹽轉化,或甲基化敏感限制酶,或甲基化結合蛋白,或抗甲基胞嘧啶抗體)而差異修飾或差異識別該等DNA分子之方法處理後施用。在另一實施例中,識別甲基胞嘧啶及羥甲基胞嘧啶之單分子定序技術可用於闡明甲基化狀態及用於測定甲基化指數。
區域之「甲基化密度 」可指展示甲基化之區域內之位點處之讀數數目除以覆蓋區域中之位點之讀數總數。位點可具有特異性特徵,例如為CpG位點。因此,區域之「CpG甲基化密度」可指展示CpG甲基化之讀數數目除以覆蓋區域中之CpG位點(例如特定CpG位點、CpG島或較大區域內之CpG位點)之讀數總數。舉例而言,人類基因組中每100 kb面元(bin)之甲基化密度可自亞硫酸氫鹽處理之後於CpG位點處未轉化之胞嘧啶(其對應於甲基化胞嘧啶)的總數測定為映射至100 kb區域之序列讀數所覆蓋之所有CpG位點的比例。亦可對其他面元尺寸進行此分析,例如500 bp、5 kb、10 kb、50-kb或1-Mb等。區域可為整個基因組或染色體或染色體之一部分(例如染色體臂)。當區域僅僅包括一CpG位點時,該CpG位點之甲基化指數與區域之甲基化密度相同。「甲基化胞嘧啶之比例」可指展示為甲基化(例如在亞硫酸氫鹽轉化之後未經轉化)之胞嘧啶位點「C」之數目相對於分析之胞嘧啶殘基之總數,亦即包括區域中除CpG背景之外的胞嘧啶。甲基化指數、甲基化密度及甲基化胞嘧啶之比例為「甲基化水準 」之實例,其可包括其他涉及位點處甲基化讀數之計數之比率。除亞硫酸氫鹽轉化之外,熟習此項技術者已知之其他方法可用於查詢DNA分子之甲基化狀態,包括(但不限於)對甲基化狀態敏感之酶(例如甲基化敏感限制酶)、甲基化結合蛋白、使用對甲基化狀態敏感之平台之單分子定序(例如奈米孔定序(Schreiber等人 Proc Natl Acad Sci 2013; 110: 18910-18915)及藉由Pacific Biosciences單分子實時分析(Flusberg等人 Nat Methods 2010; 7: 461-465))。
甲基化感知定序 」指允許在定序方法期間確定DNA分子之甲基化狀態的任何定序方法,包括(但不限於)亞硫酸氫鹽定序、或預先經甲基化敏感限制酶消化之DNA之定序、使用抗甲基胞嘧啶抗體或甲基化結合蛋白之免疫沈澱或允許闡明甲基化狀態之單分子定序。「甲基化感知分析法 」或「甲基化敏感分析法 」可包括基於定序及非定序之方法,諸如MSP、基於探針之查詢、雜交、限制酶消化繼之以密度量測、抗甲基胞嘧啶免疫分析法、甲基化胞嘧啶或羥甲基胞嘧啶之比例之質譜查詢、未繼之以定序之免疫沈澱等。
術語「定序深度」係指基因座經與基因座比對之序列讀數覆蓋之次數。基因座可與核苷酸一樣小,或與染色體臂一樣大,或與整個基因組一樣大。定序深度可以50x、100x等表示,其中「x」係指基因座經序列讀數覆蓋之次數。定序深度亦可應用於多個基因座或全基因組,在此情況下,x可指基因座或單倍體基因組或全基因組分別定序之平均次數。超深度定序可指定序深度為至少100x。
分離值 」(或相對豐度)對應於涉及兩個值(例如DNA分子之兩個量、兩個貢獻分數或兩個甲基化水準,諸如樣品(混合物)甲基化水準及參考甲基化水準)之差值或比率。分離值可為簡單的差值或比率。作為實例,直接比率x/y以及x/(x+y)為分離值。分離值可包括其他因子,例如倍增因子。作為其他實例,可使用該等值之函數的差值或比率,例如兩個值之自然對數(ln)的差值或比率。分離值可包括差值及/或比率。
「相對豐度」為一種分離值類型,其使末端位於一個基因組位置窗內之游離DNA分子的量(一個值)與末端位於另一基因組位置窗內之游離DNA分子的量(另一值)關聯。兩個窗可重疊,但具有不同尺寸。在其他實施例中,兩個窗不重疊。此外,該等窗可具有一個核苷酸之寬度,且因此等效於一個基因組位置。「分離值 」及「相對豐度 」為提供在不同分類(狀態)之間不同的樣品量度之參數(亦稱為度量值)的兩個實例,且因此可用於確定不同分類。
如本文所用,術語「分類 」指與樣品之特定特性相關之任何數字或其他字符。舉例而言,「+」符號(或詞語「陽性」)可表示樣品分類為具有缺失或擴增。分類可為二元(例如陽性或陰性)或具有更多分類層級(例如量表1至10或0至1)。
術語「截止值 」及「臨限值 」指操作中所用之預定數字。舉例而言,截止尺寸可指一尺寸,大於此尺寸則排除片段。臨限值可為一值,在高於或低於其時適用特定分類,例如病況之分類,諸如個體是否患有病況或病況之嚴重度。截止值或臨限值可為代表特定分類或在兩種或更多種分類之間進行區別的「參考值」或源自參考值。該種參考值可以各種方式確定,例如在輸出測試資料之後且基於輸出測試資料選擇,如技術人員將瞭解。舉例而言,可確定具有不同已知分類之兩個不同個體群組的度量值,且參考值可選擇為代表兩個度量值簇之間的一種分類(例如,平均值)或值。因此,具有已知分類之一或多個病況及所量測特徵值(例如,甲基化水準、統計大小值或計數)的參考個體可用於確定參考水準以在不同病況及/或病況分類(例如,個體是否患有病況)之間進行區別。作為另一實例,參考值可基於樣品之統計模擬而確定。此等術語中之任一者可用於此等情形中之任一者中。如熟習此項技術者將瞭解,截止值可經選擇以達成所需靈敏度及特異性。
如本文所用之術語「染色體非整倍性 」意謂染色體之定量與二倍體基因組之定量的差異。該差異可為增加或丟失。其可涉及整一條染色體或染色體之某個區域。染色體區域可對應於整一條染色體,或染色體之臂,或更小區域,例如50 kb、500 kb、1 Mb、2 Mb、5 Mb或10 Mb。
如本文所用,術語「序列不平衡 」或「畸變 」意謂如臨床相關染色體區域(亦即,所測試區域)之量與參考量相比之至少一個截止值所定義的任何顯著偏差。序列不平衡可包括染色體量不平衡、對偶基因不平衡、突變量不平衡、複本數不平衡、單倍型量不平衡及其他類似不平衡。作為一實例,對偶基因不平衡可在腫瘤基因組中之兩個對偶基因中的一個對偶基因之基因缺失或一個對偶基因之基因擴增或差異擴增,從而引起樣品中之特定基因座不平衡時出現。作為另一實例,患者可能具有腫瘤抑制基因的遺傳性突變。患者可能隨後繼續發展出腫瘤,其中腫瘤抑制基因之非突變對偶基因缺失。因此,在腫瘤內,存在突變量不平衡。當腫瘤之DNA釋放至患者血漿中時,腫瘤DNA將與患者之組成性DNA (來自正常細胞)在血漿中混合。經由使用本文所述之方法,可偵測到血漿中之此DNA混合物之突變量不平衡。畸變可包括染色體區域缺失或擴增。
術語「癌症等級 」(或更一般而言,「疾病等級 」、「病理學等級 」或「病況等級 」)可指是否存在癌症(亦即,存在或不存在)、癌症階段、腫瘤尺寸、是否存在轉移、身體總腫瘤負荷、癌症對治療之反應、及/或癌症嚴重度之其他量度(例如癌症復發)。癌症等級可為數字(例如,機率)或其他記號,諸如符號、字母及色彩。等級可為零。癌症等級亦可包括惡化前或癌變前病況(狀態)。可以各種方式使用癌症水準。舉例而言,篩選可檢查先前未知患癌之某人是否存在癌症。評定可調查已經診斷患有癌症之某人以隨時間推移監測癌症之進展,研究療法有效性或確定預後。在一個實施例中,預後可以患者死於癌症之機率或特定持續時間或時間之後癌症進展之機率或癌症轉移之機率表示。偵測可意謂『篩選』或可意謂檢查暗示有癌症特徵(例如症狀或其他陽性測試)的某人是否患有癌症。各種實施例可確定肝癌、肺癌、胰臟癌、腦癌、結腸直腸癌、鼻咽癌、卵巢癌、胃癌及血癌之癌症等級。
術語「對照」、「對照樣品」、「參考」、「參考樣品」、「正常」及「正常樣品」可互換使用,以大體上描述不具有特定病況或以其他方式健康的樣品。在一實例中,可對患有腫瘤之個體進行如本文所揭示之方法,其中參考樣品為取自於個體之健康組織的樣品。在另一實例中,參考樣品為取自於具有疾病(例如癌症或特定癌症階段)之個體的樣品。參考樣品可獲自個體或資料庫。參考一般係指用於映射對來自個體之樣品進行定序所獲得之序列讀數的參考基因組。參考基因組一般係指可比對及比較來自生物樣品及組成樣品之序列讀數的單倍體或二倍體基因組。對於單倍體基因組,各基因座僅存在一個核苷酸。對於二倍體基因組,可鑑別出異型接合基因座,此類基因座具有兩個對偶基因,其中任一對偶基因可允許匹配以與基因座比對。
如本文所用,片語「健康」一般指個體具有良好的健康狀況。此類個體證實沒有任何惡性或非惡性疾病。「健康個體」可能患有與所分析之病況無關的其他疾病或病況,通常可能不視為「健康的」。
術語「癌症」或「腫瘤」可互換使用,且一般指組織之異常腫塊,其中腫塊生長超越正常組織生長且與正常組織生長不協調。癌症或腫瘤可定義為「良性」或「惡性」,其視以下特徵而定:細胞分化程度(包括形態及功能)、生長速率、局部侵襲及轉移。「良性」腫瘤一般分化良好,生長典型地比惡性腫瘤更慢,且保持侷限於原發部位。另外,良性腫瘤不具有浸潤、侵襲或轉移至遠端部位之能力。「惡性」腫瘤一般分化不良(退行發育),典型地快速生長伴隨著漸進性浸潤、侵襲及破壞周圍組織。此外,惡性腫瘤具有轉移至遠端部位之能力。「階段」可用於描述惡性腫瘤發展的程度。與晚期惡性病相比,早期癌症或惡性病與體內腫瘤負荷較少相關聯,一般症狀較輕,預後較佳且治療結果較佳。晚期癌症或惡性病通常與遠端轉移及/或淋巴擴散相關。
術語「假陽性」(FP)可指個體沒有病況。假陽性一般指個體沒有腫瘤、癌症、癌變前病況(例如癌變前病變)、局部或轉移癌症、非惡性疾病,或在其他方面健康。術語假陽性一般指個體沒有病況,但藉由本發明之分析法或方法鑑別為患有病況。
術語「靈敏度」或「真陽性率」(TPR)可指真陽性之數目除以真陽性及假陰性之數目的總和。靈敏度可表徵分析法或方法正確鑑別真正患有病況之群體之比例的能力。舉例而言,靈敏度可表徵方法正確鑑別患有癌症之群體內之個體數目的能力。在另一實例中,靈敏度可表徵方法正確鑑別指示癌症之一或多個標記的能力。
術語「特異性」或「真陰性率」(TNR)可指真陰性之數目除以真陰性及假陽性之數目的總和。特異性可表徵分析法或方法正確鑑別真正沒有病況之群體之比例的能力。舉例而言,特異性可表徵方法正確鑑別沒有癌症之群體內之個體數目的能力。在另一實例中,特異性可表徵方法正確鑑別指示癌症之一或多個標記的能力。
術語「ROC」或「ROC曲線」可指接受者操作特徵曲線。ROC曲線可為二元分類器系統效能之圖形表示。對於任何給定方法,ROC曲線可藉由在各種臨限值設定下將靈敏度對特異性繪圖來生成。用於偵測個體存在腫瘤之方法的靈敏度及特異性可在個體之血漿樣品中腫瘤來源的核酸的各種濃度下來確定。此外,提供三個參數(例如靈敏度、特異性及臨限值設定)中之至少一者,ROC曲線可確定任何未知參數之值或期望值。未知參數可使用擬合成ROC曲線之曲線來確定。術語「AUC」或「ROC-AUC」一般係指接受者操作特徵曲線下的面積。此度量值可提供方法之診斷效用的量度,同時考慮方法之靈敏度及特異性。一般而言,ROC-AUC範圍介於0.5至1.0,其中更接近0.5之值表明該方法具有有限的診斷效用(例如較低靈敏度及/或特異性)且更接近1.0之值表明該方法具有較大的診斷效用(例如較高靈敏度及/或特異性)。參見例如Pepe等人, 「Limitations of the Odds Ratio in Gauging the Performance of a Diagnostic, Prognostic, or Screening Marker」, Am. J. Epidemiol 2004, 159 (9): 882-890,其以全文引用的方式併入本文中。使用似然函數、優勢比、資訊理論、預測值、校準(包括擬合優度)及重新分類量測以表徵診斷效用之額外方法根據Cook, 「Use and Misuse of the Receiver Operating Characteristic Curve in Risk Prediction」, Circulation 2007, 115: 928-935加以彙總,其以全文引用的方式併入本文中。
術語「約」或「大致」可意謂在如藉由一般熟習此項技術者所確定的特定值之可接受誤差範圍內,其將部分視該值如何量測或測定(亦即,量測系統之限制)而定。舉例而言,根據此項技術中之實踐,「約」可意謂在1或大於1個標準偏差內。或者,「約」可意謂既定值之至多20%、至多10%、至多5%或至多1%之範圍。或者,特別是關於生物系統或方法,術語「約」或「大致」可意謂在值之一定數量級內、在5倍內且更佳在2倍內。在特定值描述於本申請案與申請專利範圍中時,除非另行說明,否則應假定術語「約」意謂在特定值的可接受誤差範圍內。術語「約」可具有如一般熟習此項技術者通常所理解之含義。術語「約」可指±10%。術語「約」可指±5%。
人類血漿中之游離DNA的片段化是非隨機的且反映全基因組核小體組構。換言之,cfDNA分子具有與其組織來源相關之資訊。引起來自特定組織之細胞死亡的病理學會導致來自受影響器官之DNA之相對分佈擾動。該組織來源分析特別適用於開發液體生檢用於癌症、產前測試及移植監測。因此同時、準確地確定血漿DNA庫的各個組織之相對貢獻具有價值。
非隨機片段化之各種新穎態樣可確定且可用於實際應用,諸如生物學量測。舉例而言,量測片段化(包括DNA片段末端處之偏好位置)與DNA片段之尺寸的關係。此關係可用於實際應用,諸如量測特定組織類型(例如,胎兒、腫瘤或移植組織)之貢獻比例及偵測特定組織類型之染色體區域中的序列不平衡。作為另一實例,量測片段化與組織特異性開放染色質區域之關係,包括DNA片段之何種末端(上游或下游)處於接近於組織特異性開放染色質區域。上游末端相對於下游末端之定量模式可用於實際應用,諸如量測特定組織類型之貢獻比例及偵測特定組織類型中之病理學特徵。
在尺寸分析中,吾人對血漿DNA之片段化模式執行深入研究且探索片段化機理是否與血漿DNA之尺寸型態相關。因此,吾人研究此類偏好末端位點是否可攜有與血漿DNA之片段長度的任何關係。吾人將此類末端位點稱為『經尺寸標記之偏好末端』。吾人鑑別優先與長及短血漿DNA分子相關聯之偏好末端位點。短及長血漿DNA分子通常與不同偏好DNA末端位點相關聯。吾人發現,此等『經尺寸標記之』末端在胎兒DNA分數估算(貢獻比例)及增強非侵入性胎兒第21對染色體三體症(序列不平衡)測試方面展示改良之準確性,因為孕婦之血漿展現具有偏好末端位點之非隨機片段化。此類『經尺寸標記之』末端可用於其他組織類型(例如,腫瘤或移植)以估算特定組織類型之貢獻比例或偵測序列不平衡。
進一步分析顯示,胎兒及母親偏好末端由核小體結構內之不同位置產生。胎兒DNA常常在核小體核心內切割,而母親DNA大多在連接子區域內切割。吾人進一步展現,胎盤細胞中核小體可達性高於白血球,此可以解釋切割位置之差異及母親血漿中的胎兒DNA之偏短。有趣地是,覆蓋自短讀數發掘的偏好末端之血漿DNA分子即使在非懷孕健康個體中通常亦短於覆蓋自長讀數發掘的偏好末端之血漿DNA分子;因為此等樣品不含胎兒DNA,所以資料表明,偏好DNA末端、染色質可達性及血漿DNA尺寸型態之相互關係有可能為通用相互關係,延伸超出懷孕之情況。血漿DNA片段末端模式因此已闡明產生機理且展示在基於血漿DNA之非侵入性分子診斷的未來開發中之效用。
吾人亦研究DNA片段末端之定位與核小體結構之關係。在開放染色質區域中,cfDNA分子展示由定序覆蓋不平衡反映的特徵性片段化模式及有差異地定相之片段末端信號。後者指對應於cfDNA分子之上游及下游末端相對於參考基因組之取向的序列之讀數密度之差異。此類cfDNA片段化模式傾向於在向血漿中貢獻DNA之組織之特異性開放染色質區域中出現。此類信號之定量分析允許量測各種組織對血漿DNA庫之相對貢獻,以及偵測特定組織類型中之病理學特徵。此等研究結果藉由獲自孕婦、器官移植接受者及癌症患者之血漿DNA定序資料驗證。取向感知血漿DNA片段化分析因此在非侵入性產前測試、器官移植監測及癌症液體活檢中具有診斷應用。 I. 片段化之概述及技術
已證實,血漿DNA之片段化並非隨機。高解析度血漿DNA尺寸型態分析顯示在166 bp處存在主峰,同時低於150 bp處存在10 bp週期性(9)。已有研究提出此尺寸型態與核小體結構密切相關(9)。就此而言,核小體由4個核心組蛋白(形成由具有約10 bp螺旋重複序列的147 bp DNA包裹之「核小體核心」) 之八聚物、連接子組蛋白及連接子DNA (平均尺寸約20 bp)構成(10)。此外,已發現母親血漿中之胎兒DNA (大多來源於胎盤組織(11))短於母親DNA (大多來源於造血系統(12-14))。胎兒及母親DNA分子之尺寸差異已用於非侵入性產前測試,允許胎兒DNA分數估算、胎兒染色體非整倍性偵測及胎兒甲基化組分析(15-19)。然而,循環胎兒DNA相對短的機理性基礎仍未得到充分理解(9, 14, 20)。
近期研究進一步探索了血漿DNA之末端模式。孕婦中之血漿DNA之超深度定序顯示胎兒及母親DNA存在特異性偏好末端位點(21)。儘管此等偏好末端位點展現出可能用於非侵入性產前測試之前景,但其存在之分子基礎基本上為未知的。另外,一般認為血漿DNA來自細胞凋亡過程(22),表明片段化模式與核小體結構及染色質狀態相關(23-25)。
在本發明中,吾人顯示存在游離DNA之非隨機片段化過程。非隨機片段化過程在一定程度上發生於各種類型之含有游離DNA的生物樣品中,例如血漿、血清、尿液、唾液、腦脊髓液、胸膜液、羊膜液、腹膜液及腹水。此外,非隨機片段化在不同尺寸之DNA片段中都有發現。游離DNA天然以短片段形式存在。游離DNA片段化指藉以使高分子量DNA (諸如細胞核中之DNA)裂解、斷裂或消化成短片段(此時產生或釋放游離DNA分子)的過程。
並非所有的游離DNA分子具有相同長度。一些分子比其他分子短。已有研究顯示,游離DNA (諸如血漿DNA)在開放染色質域內(包括轉錄起始位點周圍,及核小體核心之間的位置,諸如連接子位置)通常較短且不太完整,亦即完整機率不良或完整性較不良(Straver等人,Prenat Diagn 2016, 36:614-621)。每種不同組織具有其特徵性基因表現型態,其特徵性基因表現型態又受到包括染色質結構及核小體定位之方式的調節。因此,游離DNA (諸如血漿DNA)在某些基因組位置之完整機率或完整性模式為此DNA分子之組織來源的標籤或標誌。類似地,當疾病過程(例如癌症)改變細胞之基因組之基因表現型態及功能時,來源於具有疾病之細胞的游離DNA完整機率型態將為對此等細胞之反映。因此游離DNA型態將提供疾病存在的證據或標誌。
一些實施例進一步增強研究游離DNA片段化型態之解析度。吾人研究個別游離DNA分子(尤其是血漿DNA分子)之實際末端位置或末端,而非僅對核苷酸區段上的讀數求和以鑑別具有較高或較低完整機率或完整性的區域。明顯地,吾等資料揭露游離DNA分子被切割之特定位置為非隨機的。活體外剪切或音波處理高分子量基因組組織DNA顯示,處理後之DNA分子之末端位置在基因組上隨機分散。然而,諸如血漿之樣品內高度呈現的游離DNA分子存在某些富集之末端位置。此類末端位置之出現或呈現次數在統計學上顯著高於預期的機率。此等資料使吾人對游離DNA片段化之瞭解超過區域完整性之變化(Snyder等人,Cell 2016, 164: 57-68)。在此,吾人顯示游離DNA片段化過程精確到特定的核苷酸切割或裂解位置。吾人將游離DNA末端位置之此等非隨機位置稱為偏好末端位置或偏好末端。
在本發明中,吾人展示,有游離DNA末端位置通常出現在不同生理狀態或疾病狀態之個體中且對於某些尺寸之片段出現。舉例而言,有共同偏好末端由短DNA片段(例如,60-155個鹼基)、長DNA片段(例如,170-250個鹼基)、懷孕及非懷孕個體共有,由懷孕及癌症患者共有,及與有或無癌症之個體共有。另一方面,有偏好末端大多僅出現於短DNA片段、長DNA片段中,或孕婦中,或僅出現於癌症患者中,或僅出現於未患癌症之非懷孕個體中。有趣的是,此等懷孕特異性或癌症特異性或疾病特異性末端亦高度呈現於具有類似生理或疾病狀態之其他個體中。舉例而言,一位孕婦之血漿中所鑑別出的偏好末端可在其他孕婦之血漿中偵測到。
此類偏好末端(例如短片段相關)之比例量與孕婦之血漿中之胎兒DNA分數相關。此類偏好末端實際上與懷孕或胎兒有關,因為其量在非懷孕血漿樣品中大幅度減少。類似地,在癌症中,一位癌症患者之血漿中所鑑別出的偏好末端可在另一位癌症患者的血漿偵測到。此外,此類偏好末端之比例之量可與癌症患者之血漿中腫瘤DNA分數相關。此類偏好末端與癌症相關,因為其量在癌症治療(例如手術切除)之後減少。
存在許多用於游離DNA尺寸偏好(經尺寸標記之)末端之分析的應用或效用。其可提供關於孕婦中之胎兒DNA分數及於此相關之胎兒健康的資訊。舉例而言,已報導多種懷孕相關病症(例如,先兆子癇、早產、宮內發育遲緩(IUGR)、胎兒染色體非整倍性及其他)與胎兒DNA之分數濃度(亦稱為胎兒DNA分數、胎兒分數或胎兒組織之貢獻比例)與胎齡匹配對照懷孕相比呈現出擾動。因此,胎兒DNA之分數濃度之臨限值可自此類對照懷孕確定。新樣品中量測之胎兒DNA分數濃度可與臨限值相比較以確定懷孕相關病症之分類。因此,胎兒DNA分數使用尺寸偏好末端之量測對於此類懷孕相關病症具有效用。
與短DNA片段相關之游離血漿DNA偏好末端亦可展現血漿樣品中腫瘤DNA分數或分數濃度。知曉腫瘤DNA分數可提供關於癌症階段、預後的資訊且有助於監測治療功效或癌症復發。
與特定生理狀態或病理狀態(或與不同片段尺寸)相關之偏好末端之目錄可藉由比較具有不同生理或病理狀態(或不同片段尺寸)之個體當中的偏好末端之游離DNA型態,例如非懷孕與懷孕樣品比較、癌症與非癌症樣品比較或未患癌症之孕婦之型態與非懷孕癌症患者之型態比較,進行鑑別。另一方法為比較游離DNA之偏好末端在生理(例如懷孕)或病理(例如癌症)過程之不同時間的型態。此類時間點之實例包括懷孕之前及之後、胎兒分娩之前及之後、在懷孕期間跨越不同胎齡所收集的樣品、癌症治療(例如靶向療法、免疫療法、化學療法、手術)之前及之後、癌症診斷之後的不同時間點、癌症進展之前及之後、轉移出現之前及之後、疾病嚴重度增加之前及之後、或併發症出現之前及之後。
當偏好末端有較高可能性或機率(比率)在一生理或病理狀態(或某一片段尺寸)下偵測到時,其可被視為與該生理或疾病狀態(或片段尺寸)相關。在其他實施例中,與其他狀態相比,偏好末端具有更高的可能性在相關生理或病理狀態下偵測到。由於在相關生理或疾病狀態下偵測到偏好末端的機率較高,因此可在超過一個具有該相同生理或疾病狀態的個體中發現此類偏好或多次出現的末端(或末端位置)。高機率亦使得此類偏好或多次出現的末端可在相同個體之相同游離DNA樣品或等分試樣中多次偵測到。在一些實施例中,定量臨限值可設定為限制包括在相同樣品或相同樣品等分試樣內至少指定次數(例如,5次、10次、15次、20次等)偵測到之末端視為偏好末端。
在確立任何生理或病理狀態(或不同尺寸)下的游離DNA偏好末端之目錄後,靶向或非靶向方法可用於偵測其在游離DNA樣品(例如血漿)或其他個體中之存在以確定具有類似健康、生理或疾病狀態之其他測試個體之分類。游離DNA偏好末端可藉由隨機非靶向定序來偵測。需考慮定序深度,以便可達成鑑別相關偏好末端之全部或一部分的合理機率。或者,可遵循(但不限於)定序偵測、微陣列或PCR,對游離DNA樣品中之偏好末端密度較高的基因座進行雜交捕捉,以富集樣品中的具有此類偏好末端之游離DNA分子。或者可使用基於擴增之方法(例如逆向PCR、滾環擴增)特異性擴增及富集具有該等偏好末端的游離DNA分子。擴增產物可藉由熟習此項技術者已知之定序、微陣列、螢光探針、凝膠電泳及其他標準方法鑑別。
實務上,一個末端位置可為在游離DNA分子之一個末端之最外部鹼基的基因組座標或核苷酸身分,其可藉由分析方法偵測或確定,諸如(但不限於)大規模並行定序或次代定序、單分子定序、雙股或單股DNA定序文庫製備方案、PCR、用於DNA擴增(例如等溫擴增)之其他酶方法或微陣列。此類活體外技術有可能改變游離DNA分子之真實活體內實體末端。因此,每個可偵測末端可代表生物學真實末端或末端為向內或自分子之原始末端延伸的一或多個核苷酸。舉例而言,在藉由5'突出端鈍化及3'突出端填充進行的DNA定序文庫建構期間,使用克列諾片段產生鈍端雙股DNA分子。儘管此類程序可揭露與生物學末端不一致的游離DNA末端位置,但仍然可確立臨床相關性。此原因在於,與特定生理或病理狀態相關或有關之偏好的鑑別可基於相同的實驗室方案或方法原理,其導致校準樣品與測試樣品中之游離DNA末端發生一致且可再現的改變。另有許多DNA定序方案使用單股DNA文庫(Snyder等人, Cell 2016, 164: 57-68)。單股文庫之序列讀數的末端比雙股DNA文庫的末端可更向內或進一步延伸。
末端位置之基因組身分或基因組座標可利用個體之序列讀數與參考基因組(例如hg19或其他人類參考基因組)之比對結果獲得。其可自表示人類基因組之原始座標的索引或代碼目錄獲得。雖然一末端為位於游離DNA分子之一或兩個末端的核苷酸,但可經由識別血漿DNA分子上之其他核苷酸或其他核苷酸片段來偵測該末端。舉例而言,結合至具有偏好末端中間鹼基的螢光探針偵測之擴增子的血漿DNA分子的陽性擴增。舉例而言,可藉由結合至血漿DNA分子之中段上之一些鹼基的螢光探針之陽性雜交來鑑別末端,其中片段尺寸已知。以此方式,可藉由算出多少個鹼基在具有已知序列及基因組身分的螢光探針外部來確定末端的基因組身分或基因組座標。換言之,可經由偵測相同血漿DNA分子上的其他鹼基來鑑別或偵測末端。末端可為游離DNA分子上之位置或核苷酸身分,其可藉由(但不限於)靶特異性探針、小型定序及DNA擴增來讀取。其他細節可見於PCT公開案WO2017/012592中,該公開案以引用的方式併入用於所有目的。 II. 短及長片段之片段化
吾人對血漿DNA尺寸及偏好DNA末端位點進行整合分析。吾人觀測到短DNA片段與長DNA片段之末端位置之間的差異,從而說明這些末端“經尺寸標記”。可使用短及長DNA片段之各種定義,例如可使用各種長度範圍。舉例而言,短DNA片段對應於最小值及/或最大值小於長DNA片段之範圍之最小值及/或最大值的範圍。儘管實例可使用血漿,但可使用其他游離樣品,因為樣品中之游離DNA亦隨天然片段化過程產生。 A. 經尺寸標記之偏好末端位點.
在母親血漿中胎兒來源之DNA分子通常短於母親來源之DNA分子(9, 14)。吾人使用成對末端定序及與參考基因組比對來對母親血漿中之DNA分子進行尺寸型態分析,亦可對整個DNA片段進行定序。吾人將先前公開的兩個母親血漿樣品之血漿DNA成對末端定序資料(20)混合在一起以獲得總共約470倍之人類單倍體基因組覆蓋。吾人將血漿DNA讀數分為短及長類別,如本文所描述。吾人隨後使用基於泊松分佈(Poisson distribution)之統計模型確定人類基因組中之某些位置是否可具有顯著增加之機率存在於短及/或長類別中的血漿DNA分子之一末端處,如下文所描述。可使用其他分佈,例如二項分佈、負二項分佈、常態分佈及γ分佈。
圖1展示根據本發明之實施例,血漿DNA片段之末端位點的分析。S組及L組分別包括短及長血漿DNA分子之偏好末端位點。中間的重疊組110包括短及長血漿DNA分子兩者之共同偏好末端位點。如下文更詳細地描述,具有對應於S組之末端位置的游離DNA分子之定量量測可用於表徵特定組織類型,例如測定一組織類型之貢獻比例或該組織類型之序列不平衡。
吾人分別獲得短及長類別之8,832,009及12,889,647個偏好末端。在此等偏好末端當中,發現1,649,575個末端由兩種類別共有。吾人隨後收集整個基因組中的僅出現於短類別(n = 7,182,434)或長類別(n = 11,240,072)中且其分別定義為S組及L組之偏好末端。此等兩個組含有經尺寸標記之偏好末端位點,亦可使用S組及/或L組之子組。
可對其他類別之個體,例如,患有癌症或具有移植器官、具有通常短於來自健康組織之DNA片段的組織類型(例如,腫瘤或移植)之個體執行類似方法。然而,尺寸偏好末端位點可應用於各類別之個體中。短及長之不同定義可用於不同類別之個體。 B. 鑑別偏好末端位點
在胎兒分析中,吾人將先前公開的兩位孕婦之血漿DNA定序資料(21)混合在一起,此獲得總共約470倍之人類單倍體基因組覆蓋。吾人隨後基於DNA分子之尺寸將定序讀數分為兩種類別:一種類別為在60 bp至155 bp之尺寸範圍內的讀數(表示為短)且另一類別為在170 bp至250 bp之尺寸範圍內的讀數(表示為長)。尺寸範圍設定之確切選擇可包括兩種類別中之表觀胎兒DNA分數的差值與兩種類別之資料的定序深度之間的權衡。混合資料中分別有約30%及約35%讀數在短及長類別中,分別響應於約140及165倍人類單倍體基因組覆蓋。吾人收集此等讀數且將其用於以下分析中。
短DNA分子之其他實例包括70-145 bp、80-145 bp、90-145 bp、80-135 bp、90-135 bp等。長DNA分子之其他實例包括160-210 bp、160-220 bp、160-230 bp、160-240 bp、180-260 bp、160-260 bp等。此外,範圍可重疊,例如短為60-155 bp且長為150-230 bp,或短為90-185 bp且長為170-250 bp。在此類重疊情況下,第一尺寸範圍仍小於第二尺寸範圍在於第一尺寸範圍之第一最大值小於第二尺寸範圍之第二最大值。作為甚至另一實例,長片段可為所有片段長度。
對於各尺寸類別中之讀數,吾人以全基因組方式篩選全部核苷酸位置以搜索展示顯著過度呈現為血漿DNA分子之末端的基因座。對於各核苷酸位置,吾人例如使用1,000 bp之窗對血漿DNA末端之出現計數且將結果與來自彼等位置周圍之位置的結果比較,但可使用其他窗尺寸,諸如500 bp或更大。窗可在所分析之位置具有中心。
計算基於泊松分佈之p值以確定特定位置是否有顯著增加機率為該等讀數之末端,亦即偏好末端位點: P值= Poisson(N實際 , N預測 ) 其中Poisson()為泊松機率函數,N實際 為終止於特定核苷酸(基因組位置)之分子的實際數目,且N預測 為相鄰1,000 bp窗內(例如,集中圍繞特定核苷酸)之讀數總數除以彼窗之DNA片段的平均片段尺寸(或通常在樣品中之DNA片段的平均尺寸)。在各個實例中,當整個片段在窗內時或僅當片段部分在窗內時,讀數可定義為在窗內。在其他實施例中,基因組位置之N預測 可為覆蓋彼位置之讀數的數目除以平均或預期片段尺寸。因此,實施例可確定全局參數且將全部位點與全局參數而非局部窗比較。N預測 為用於確定末端位於一位置上之短(或長)DNA分子之比率是否高於臨限值的參考值(參考比率)(例如,確定與參考值相比是否存在統計顯著差異)之一實例。此類實例說明參考值係使用末端位於集中圍繞特定基因組位置的窗之多個DNA片段除以游離DNA分子之平均尺寸確定。
P值可使用本傑明方法(Benjamini method)進一步調節。0.01之p值用於指示統計顯著末端位點的閾值。該種p值為用於確定末端位於該等位置之游離DNA分子之比率是否足夠高以視為偏好末端的臨限值之一實例。
在其他實例中,可追蹤短DNA分子末端位置之相對量且可確定分佈中之峰,例如如後面的圖中所示。峰之追蹤可以通過比較特定末端之數目相對於充當參考值的末端位於其他位置之數目。
根據本文中以上實例及其他實例,參考值(亦稱為參考比率)可由末端位於特定基因組位置(或圍繞彼位置之小窗)之外部之基因組位置的第二複數個游離DNA分子之數目確定。以此方式,可確定與圍繞其他位置(例如圍繞該特定位置)相比,統計顯著量更多的DNA片段末端位於特定位置。此將包括鑑別在相對於末端位於圍繞特定基因組位置之窗內之基因組位置的DNA片段之數目的峰之特定基因組位置。
因此,在各個實例中,某一尺寸(例如,短)之游離DNA分子之末端以高於臨限值之比率出現之第一組基因組位置可按以下方式鑑別。第一組織類型可與短DNA片段相關聯,且因此亦與短DNA片段之偏好末端位置相關聯。校準樣品可以與測試樣品類似的方式分析,其中已知兩個相同類型(例如,血漿、血清、尿液等)之樣品及校準樣品包括第一組織類型(例如,來自懷孕女性之樣品的胎兒組織或HCC患者之肝的腫瘤組織)。末端位於(例如,一或多個寬度之)基因組窗中之多種游離DNA分子可與參考值相比較以確定末端位置之比率是否高於彼位置之臨限值。在一些實施例中,若比率超過參考值,則第一基因組窗內之每個基因組位置可根據比率高於臨限值來鑑別,此時對應數目超過參考值。該種方法可鑑別包括偏好末端位置的偏好末端窗。
參考值可使得僅前N個基因組窗具有高於臨限值的比率。舉例而言,第一組基因組位置可具有關於相應數目之最高N值。作為實例,N可為至少10,000;50,000;100,000;500,000;1,000,000;或5,000,000。
作為另一實例,參考值可為根據樣品中之游離DNA分子之機率分佈及平均長度,末端位於基因組窗內之游離DNA分子的預期數目,以如上文所描述之類似方式。P值可使用對應數目及預期數目來確定,其中臨限值對應於截止p值(例如0.01)。P值小於截止p值表示比率高於臨限值。作為又另一實例,參考值可包括末端位於來自鑑別為具有減少量之第一組織類型的樣品之基因組窗內之游離DNA分子的量測數目。 III. 經尺寸標記之偏好末端位點的胎兒用途
偏好末端位點可用於量測具有與健康DNA不同之片段化模式的臨床上相關DNA,例如胎兒DNA、腫瘤DNA或供者DNA。偏好末端位點可自來源於臨床上相關樣品之歷史資料集發掘。技術在後續樣品或試樣上之實踐可基於在各測試樣品中搜索存在或不存在或定量這些偏好末端位點。此部分描述經尺寸標記之偏好末端位點在非侵入性產前測試中的應用。
為研究經尺寸標記之偏好末端位點在非侵入性產前測試中之潛在應用,吾人重新分析吾人先前已由26位妊娠頭三月孕婦產生的母親血漿DNA定序資料集(21)。在各情況下,吾人檢查末端分別位於S組及L組偏好末端之讀數。
圖2展示24個母親血漿樣品中覆蓋S組偏好末端位點之血漿DNA讀數(紅色)對比覆蓋L組偏好末端位點之血漿DNA讀數(藍色)的尺寸分佈。X軸表示片段尺寸(bp)且Y軸表示頻率(%)。吾人觀測到,在全部此等情況下,覆蓋S組偏好末端位點之血漿DNA讀數短於覆蓋L組偏好末端位點之血漿DNA讀數。
圖3展示根據本發明之實施例,一個母親血漿樣品中覆蓋S組及L組偏好末端位點之血漿DNA讀數的尺寸分佈。如圖2,X軸表示片段尺寸(bp)且Y軸表示頻率(%)。覆蓋S組末端位點尺寸在約80 bp至約150 bp之間之讀數之尺寸分佈具有定義明確的週期性。各峰為大致每隔10 bp。 A. 測定胎兒分數
圖4A展示26個母親血漿樣品中具有經尺寸標記之偏好末端位點的血漿DNA分子之相對豐度(S/L比率)與胎兒DNA分數之間的相關性。相對豐度可藉由對末端位於S組位點中之一者之第一數目個游離DNA分子計數且除以末端位於L組位點中之一者之第二數目個游離DNA分子確定。各校準資料點405對應於相對豐度及胎兒DNA分數確定的差異樣品。胎兒DNA分數可使用胎兒特異性標記(例如父親特異性對偶基因、Y染色體標記)或胎兒特異性表觀遺傳標記(諸如甲基化)測定。
在具有S組對比L組偏好末端位點之血漿DNA的相對豐度[表示為S/L比率]與胎兒DNA分數之間觀測到正相關性(R = 0.79,P < 0.001,皮爾森相關性(Pearson correlation))。可使用相對豐度之其他值,例如第一數目除以第一數目及第二數目之總和或第一數目除以全部讀數。亦可使用分離值之其他實例,例如如以上術語部分中所定義。
為測定新樣品之胎兒DNA分數,系統可確定末端位於一組短偏好末端位置之游離DNA分子與其他游離DNA分子(例如,末端位於一組長偏好末端位置之游離DNA分子)相比的相對豐度。隨後,新量測之相對豐度可與校準資料點405中之一或多者相比較。舉例而言,校準函數410可擬合至校準資料點405,其中新量測之相對豐度可用作校準函數410之輸入,其提供胎兒DNA分數之輸出。其他組織類型之貢獻比例可以類似方式量測。
值得注意地,此R值高於由使用基於SNP之方法發掘的偏好末端位點獲得之R值(其為0.66) (21)。值得重視地,經尺寸標記之偏好末端位點的發掘不需要關於母、胎遺傳信息之知識。另一方面,吾等團隊先前已證明,單獨的尺寸資訊可指示血漿DNA中之胎兒DNA分數(17)。吾人因此在不選擇具有特異性末端之分子的情況下計算母親血漿DNA之尺寸比率且評估其與胎兒DNA分數之關係作為對照。
圖4B展示26個母親血漿樣品中尺寸比率(短讀數比長讀數之數目)與胎兒DNA分數之間的相關性。尺寸比率與胎兒DNA分數正相關(R = 0.67,P < 0.001,皮爾森相關性)。雖然R值與先前研究(17)之R值相當,但其低於基於經尺寸標記之偏好末端的相關性。總之,結果表明,經尺寸標記之偏好末端提供改良的血漿DNA中之胎兒DNA分數估算。
因此,使用短DNA分子之偏好末端位置可藉由對相對豐度與由一或多個校準樣品確定的一或多個校準值進行比較來提供胎兒組織之貢獻比例的分類,該等校準樣品中之胎兒組織的貢獻比例已知。如本文所述,分類可為特定百分比或百分比範圍。對於其他組織類型,諸如腫瘤組織,分類可為是否量測到任何腫瘤組織,或至少可觀量(例如,高於偵測之最小臨限值)。
在一些實施例中,經尺寸標記之偏好末端位置可延伸以包括鄰近核苷酸。因此,一組短偏好末端位置可包括一擴展S組之末端位點。在任一情況下,末端位於短偏好位置(S組或擴展S組)之多個DNA片段可使用第二數目個DNA片段標準化以獲得相對豐度,該等DNA片段中之至少一些末端位於短偏好組之外部的位置。第二數目可包括短偏好組之第一數目。在一個實例中,基於窗之相對豐度(例如,比率)可在末端位於窗A (較小)內之片段與末端位於窗之外部或位於圍繞短偏好末端位置之較大窗B內的片段之數目之間獲取,因此包括一些非偏好位置。可調整窗A及窗B之尺寸以達成所需效能。不同窗尺寸之效能可以實驗方式獲得。窗A之尺寸可加以設定,例如(但不限於) 2 bp、3 bp、4 bp、5 bp、6 bp、7 bp、8 bp、9 bp、10 bp、15 bp、20 bp、25 bp及30 bp。窗B之尺寸大於窗A之尺寸且可加以設定,例如(但不限於) 20 bp、25 bp、30 bp、40 bp、50 bp、60 bp、70 bp、80 bp、100 bp、120 bp、140 bp、160 bp、180 bp及200 bp。 B. 胎兒非整倍性偵測
另外,吾人研究經尺寸標記之偏好末端位點是否可用於偵測染色體區域的胎兒組織中之序列不平衡,例如以偵測複本數畸變。末端位於經尺寸標記之偏好末端位點的DNA分子將比隨機選擇任何DNA片段有更高機率來自胎兒。胎兒DNA之此類富集可增加執行非侵入性產前測試之技術的準確性。作為實例,此類技術可使用末端位於短偏好末端位點之游離DNA分子之量,以及此類游離DNA分子之尺寸分佈或甲基化水準之統計值,其隨後可與參考值相比較。
為此目的,吾人研究經尺寸標記之偏好末端位點是否可改良胎兒第21對染色體三體症之非侵入性產前測試。為此,吾人自吾等先前研究收集資料集,該先前研究含有36個第21對染色體三體症例及108個對照例(17)。吾人在此分析中利用覆蓋S組偏好末端之讀數。值得注意地,此等樣品中具有S組偏好末端之讀數的中值數目為133,702 (範圍:52,072 - 353,260)。
一些實施例可使用基於Z記分之方法(26)由具有映射至全部常染色體之S組偏好末端之第二數目個讀數標準化映射至chr21之第一數目個此類讀數,以獲得可與在兩種分類之間進行區別的參考值相比較之參數值。在此情況下,參考值可由整倍體例確定,標準偏差為3或其他適合偏差。因此,參考值可由對照樣品確定。標準化可考慮樣品(例如測試樣品及對照樣品)尺寸之差異,因為可分析不同數目個DNA分子。任何適合標準化技術可用於任何組織類型之任何應用,例如藉由分析樣品中的相同數目個序列讀數。
基於計數之技術的其他參數值可包括各種比率,包括區域之第一數目(諸如S/L比率)除以一或多個參考區域的第二數目(例如,S/L比率)。一或多個參考區域可包括預期不具有序列不平衡(例如,具有兩個染色體複本)之至少一個其他區域。僅使用末端位於短偏好末端之DNA片段為一種富集胎兒DNA之方式,且因此獲得更大準確性,例如,因為胎兒DNA將為樣品之更大百分比且將出現與參考值相比之更大百分比偏差。
圖5A展示根據本發明之實施例,對照例與第21對染色體三體症例之間chr21讀數之相對豐度的比較。在此分析中僅考慮覆蓋S組偏好末端位點之讀數(中值讀數數目:133,702)。如圖5A中所示,第21對染色體三體症例與對照例相比展示顯著提昇的具有S組偏好末端之標準化chr21讀數(P < 0.001,曼-惠特尼秩-和測試(Mann-Whitney rank-sum test))。
圖5B展示根據本發明之實施例,第21對染色體三體症測試中覆蓋S組偏好末端位點之讀數與隨機讀數之間的ROC比較。隨機讀數分析僅使用任何讀數,與偏好末端位點過濾相對。使用接收者操作特徵(ROC)曲線分析,吾人獲得0.97之曲線下面積(AUC)值。為實現關於讀數數目之公平比較,吾人藉由隨機選擇與覆蓋S組偏好末端位點之彼等相等數目的讀數且再計算降取樣之資料集中的標準化chr21讀數數目而對各樣品之定序資料進行降取樣。因此,隨機讀數在第21對染色體三體症偵測中與覆蓋S組偏好末端位點之讀數相比展示更低之AUC值(0.93) (P = 0.033,DeLong測試(27);圖5B)。此等結果表明,S組偏好末端位點可能在經設計以利用其特徵之分析中增強第21對染色體三體症測試(參見討論)。
除染色體複本之缺失或擴增所導致的胎兒非整倍性以外,可偵測到其他複本數畸變,例如特定區域之擴增或缺失。舉例而言,可偵測數Mb之微缺失或微擴增。此類序列不平衡在兩種單倍型之間出現,例如,複製之單倍型導致其過度呈現或單倍型之缺失導致其不足呈現。 C. 確定胎兒基因型
鑒於短偏好末端位置可與特定組織類型相關,末端位於此類偏好末端位置之游離DNA分子有較高可能性來自該組織(例如,胎兒、癌症或移植)。在一些情形下,游離DNA混合物中的特定組織類型在特定基因組位置可具有不同於其他組織類型的基因型。舉例而言,胎兒組織或腫瘤組織可具有不同基因型。因為末端位於短偏好位點之游離DNA分子有較高可能性來自感興趣的組織類型,所以可分析末端位於該種位置之游離DNA分子以確定彼位置處組織類型之基因型。以此方式,尺寸偏好末端位置可用作過濾器用於鑑別來自組織類型的DNA。
關於游離DNA片段(例如,自血漿定序)之尺寸偏好末端位置之資訊可用於確定何種母親對偶基因已由胎兒自孕婦遺傳。在此,吾人使用假想實例說明此方法之原理。吾人假定母親、父親及胎兒之基因型分別為AT、TT及TT。為了確定胎兒基因型,吾人需要確定胎兒已繼承母親的A抑或T對偶基因。吾人先前已描述一種方法,稱為相對突變劑量(RMD)分析(Lun等人, Proc Natl Acad Sci USA 2008; 105:19920-5)。在此方法中,比較母親血漿中之兩個母親對偶基因的劑量。若胎兒已繼承母親T對偶基因,則胎兒的T對偶基因為同型接合的。在此情境下,與A對偶基因相比,T對偶基因過度呈現於母親血漿中。另一方面,若胎兒已自母親繼承A對偶基因,則胎兒的基因型為AT。在此情境下,A及T對偶基因以大致相同劑量存在於母親血漿中,因為母親與胎兒的AT均為異型接合的。因此,在RMD分析中,比較母親血漿中之兩個母親對偶基因的相對劑量。
可分析讀數之末端位置以便改良RMD方法之準確性。舉例而言,讀數可經過濾以僅包括末端位於短偏好位點且覆蓋經基因分型之位置。
在一說明性實例中,末端位於短偏好末端位置之兩個分子攜帶T對偶基因(例如,在偏好末端位置或在由兩個相應讀數覆蓋之鄰近位置)。在一個實施例中,當僅末端位於短偏好末端位置的兩個分子用於下游分析時,胎兒基因型推導為TT。因此,僅T相關讀數之序列不平衡(或高百分比,例如大於70%)可指示均質基因型。序列平衡(例如,對於任一對偶基因小於60%)可指示異型接合基因型。
在另一實施例中,攜帶T對偶基因之兩個胎源分子在RMD分析中被賦予較高權重,因為此兩個分子末端位於短偏好末端位置。可向末端位於短偏好末端位置的分子賦予不同權重,例如(但不限於) 1.1、1.2、1.3、1.4、1.5、2、2.5、3及3.5。
作為一實例,確定基因座是否為異型接合之準則可為兩個對偶基因之臨限值,該等對偶基因各自以至少預定百分比(例如30%或40%)之讀數比對至基因座而呈現。若一個核苷酸以足夠百分比(例如70%或更大)呈現,則基因座可在特定組織中確定為同型接合的。
可對具有腫瘤之個體執行類似技術。可鑑別且分析末端位於短偏好末端位置的游離DNA分子。可確定此組之各游離DNA分子的與此位置(或由DNA片段覆蓋之鄰近測試位置)對應(例如,比對)之鹼基,且可計算各鹼基的總鹼基之百分比。舉例而言,可測定末端位於該位置之游離DNA分子上可見的在測試位置之C百分比。在鑑別足夠數目的C,例如高於臨限數目(此可視樣品中之量測腫瘤DNA分數而定)時,若C在個體之健康組織中不可見,則C可鑑別為突變。 D. 健康個體相對於懷孕個體中之經尺寸標記之偏好末端
以上分析表明,S組偏好末端位點實際上反映胎源DNA之片段化模式。然而,此等末端位點是來自胎兒及母親DNA分子之混合物發掘。因此,為測試此等偏好末端位點是否僅反映胎兒特異性片段化模式,吾人擷取來自吾等團隊之先前研究之含有32位健康(非懷孕)個體的資料集(28)且搜索此等樣品中攜帶S組偏好末端位點之血漿DNA讀數。有趣地,具有S組偏好末端位點之一些血漿DNA讀數實際上存在於健康個體之血漿中,且此類血漿DNA分子亦短於覆蓋L組偏好末端位點之讀數。
圖6展示24位健康個體中覆蓋S組偏好末端位點之血漿DNA讀數對比覆蓋L組偏好末端位點之血漿DNA讀數的尺寸分佈。紅及藍線分別為覆蓋S組及L組偏好末端位點之讀數。X軸表示片段尺寸(bp)且Y軸表示頻率(%)。末端位於S組偏好末端位點之游離DNA分子平均短於末端位於L組之彼等。
圖7A展示根據本發明之實施例,健康個體中覆蓋S組及L組偏好末端位點之血漿DNA讀數的尺寸分佈。圖7A展示典型尺寸分佈之情況。
圖7B展示根據本發明之實施例,孕婦及健康個體中具有S組對比L組偏好末端位點之血漿DNA讀數之相對豐度(S/L比率)的比較。此等健康個體與孕婦相比展示更低S/L比率。因此,末端位於S組之讀數相對於其他末端位置組(例如L組或整個基因組)具有增加的胎兒DNA比例。
此顯示,S/L可用於參數值以便增加偵測序列不平衡之準確性,例如當針對一或多個參考區域之S/L標準化時。更一般而言,S組之末端位置可用作過濾器以僅使用某些鑑別之DNA分子,導致胎兒DNA富集。末端位於區域內之S組的DNA分子(胎兒DNA富集)可用於偵測胎兒DNA是否存在序列不平衡。作為實例,參數值可包括測試區域之S/L與一或多個參考區域之S/L的比率,或僅末端位於測試區域中之短偏好末端之第一數目個DNA分子與末端位於一或多個參考區域中之短偏好末端之第二數目個DNA分子的比率。
資料因此表明,經尺寸標記之偏好末端位點為血漿中之短及長DNA分子之通用足跡,無關於其來源(例如胎兒對比母親)。此外,胎兒DNA分子與母親DNA相比展示更高的覆蓋S組偏好末端位點之分子之比例。因此,測試區域及一或多個參考區域之S/L值的比率可用作參數值,該參數值與參考值相比較以在序列不平衡之分類之間進行區別。 IV. 經尺寸標記之偏好末端位點的腫瘤用途
可對包括腫瘤DNA之樣品進行類似量測,如以下資料所展示。舉例而言,可測定游離樣品中之腫瘤DNA之貢獻比例,或可測定序列不平衡。 A. 腫瘤DNA之片段化
圖8展示根據本發明之實施例,肝細胞癌(HCC)患者中覆蓋S組及L組偏好末端位點之血漿DNA讀數的尺寸分佈。X軸表示片段尺寸(bp)且Y軸表示頻率(%)。圖8展示典型尺寸分佈之情況。儘管HCC用作測試例,但其他癌症亦展現短游離DNA片段,此技術同樣適用於其他類型之癌症。
圖9展示代表組24位肝細胞癌患者中覆蓋S組偏好末端位點之血漿DNA讀數對比覆蓋L組偏好末端位點之血漿DNA讀數的尺寸分佈。紅及藍線分別為覆蓋S組及L組偏好末端位點之讀數。X軸表示片段尺寸(bp)且Y軸表示頻率(%)。總體而言,吾人分析了90位HCC患者且他們表現出相似的尺寸分佈,如圖9中所示。 B. 測定腫瘤分數
圖10展示根據本發明之實施例,血漿中腫瘤DNA分數高於1%的72位肝細胞癌患者中具有經尺寸標記之偏好末端位點之血漿DNA分子之相對豐度(S/L比率)與腫瘤DNA分數之間的相關性。使用與圖1相同的S組及L組位點。在具有S組對比L組偏好末端位點之血漿DNA的相對豐度[表示為S/L比率]與腫瘤DNA分數之間觀測到正相關性(R = 0.58,P < 0.001,皮爾森相關性)。
圖10展示與圖4A類似的行為。舉例而言,相對豐度可藉由對末端位於S組位點中之一者之第一數目個游離DNA分子計數且除以末端位於L組位點中之一者之第二數目個游離DNA分子確定。各校準資料點1005對應於相對豐度及腫瘤DNA分數確定的差異樣品。腫瘤DNA分數可使用腫瘤特異性標記(例如腫瘤特異性對偶基因,諸如異型接合性丟失(LOH))測定。
如同胎兒量測,為測定新樣品之腫瘤DNA分數,系統可確定末端位於一組短偏好末端位置之游離DNA分子與其他游離DNA分子(例如,末端位於一組長偏好末端位置之游離DNA分子)相比的相對豐度。隨後,新量測之相對豐度可與校準資料點1005中之一或多者相比較。舉例而言,校準函數1010可擬合至校準資料點1005,其中新量測之相對豐度可用作校準函數1010之輸入,其提供腫瘤DNA分數之輸出。
組織類型(例如,腫瘤組織)之貢獻比例的分類可對應於除百分比或百分比範圍以外之值。舉例而言,分類可對應於癌症偵測,更特定言之,對應於腫瘤負荷。
圖11展示健康個體及肝細胞癌患者當中具有經尺寸標記之偏好末端位點之血漿DNA分子的相對豐度(S/L比率)。肝細胞癌患者基於血漿中之腫瘤DNA分數分為4個組。S/L比率愈高,腫瘤負荷愈高。4個組對應於不同百分比範圍之腫瘤DNA分數。<1個組中之下降是由於腫瘤較小時,周圍壞死組織中之較長DNA勝過來自腫瘤之短DNA。
因此,分類可為是否量測到任何腫瘤組織,或至少可觀量(例如,高於偵測之最小臨限值)。因此,貢獻比例之分類可為偵測到癌症。視靈敏度或特異性而定,作為實例,實施例可使用約0.5、0.51、0.52或0.53之偵測臨限值。
可使用相對豐度之其他值(除比率S/L以外),例如如上文所描述測定胎兒分數之方法。舉例而言,標準化可使用所獲得讀數之總數目,其將包括末端位於任何短偏好窗外部之位置的讀數。該種總數目為包括末端不位於短偏好位置的讀數之第二數目個讀數的一實例。分析來自一種樣品與另一樣品的相同數目個讀數提供與藉由讀數之總數目或其他第二數目標準化相同的結果,且因此由此類標準化包括在內。 C. 偵測由腫瘤引起之序列不平衡
序列不平衡亦可在腫瘤組織之染色體區域中偵測。舉例而言,擴增及缺失典型地出現於腫瘤組織中。因此,序列不平衡將出現且導致一種單倍型相對於另一單倍型過度呈現。此類複本數畸變可在不同尺寸之區域(諸如染色體臂)中複數個區域(例如,全部相同尺寸之區域,諸如1 Mb)中測試。
在以下實例中,為了偵測來自具有腫瘤之個體的游離樣品之序列不平衡,吾人研究染色體區域1p、1q、8p及8q,因為已知其常常受HCC中之CNA影響。末端位於此等區域之一中的短偏好位置之第一數目個游離DNA分子可用作參數值用於偵測區域中之序列不平衡。末端位於一或多個參考區域中的短偏好位置之第二數目個游離DNA分子可用於標準化第一數目,例如以便可考量樣品之尺寸。可已知或假定一或多個第二區域不具有序列不平衡。
在以下實例中,一或多個參考區域包括全部常染色體,且因此包括末端位於常染色體中之短偏好位點的全部DNA片段。因此,全部常染色體經組合以充當對照以標準化末端位於S組位置中之一者的讀數之計數。末端位於一組特定位置(例如,S組)之DNA分子的標準化計數可與參考值(例如,不存在序列不平衡時的期望值)相比較,其可包括與截止值進行比較以確定與參考值相比是否存在統計顯著偏差。
圖12展示根據本發明之實施例,健康個體、有或無肝硬化之HBV帶原者及HCC患者當中覆蓋chr1p上之S組末端的標準化讀數計數。圖12展示各類別個體之盒狀圖,中值展示為條且上及下四分位數展示為須。各資料點對應於既定樣品的chr1p區域之標準化讀數計數,其中樣品在四種類別之一中。標準化讀數計數可確定為在chr1p區域中之S組末端中之一者具有末端位置的讀數之數目除以在S組末端中之一者具有末端位置的讀數之總數目。
複本數畸變資訊亦被加入分析中,因為某些樣品已經被標記為展現增加(擴增)、丟失(缺失)或正常。一般而言,預期在非癌症個體中有相對少的畸變,但在有肝硬化之HBV個體中存在若干,此可為HCC之前兆。如所展示,具有複本數丟失之區域通常具有低於中值的值。與中值或特定百分比值相比的充足偏差可用作臨限值或參考值以確定區域存在序列不平衡。該等區域之增加及丟失使用(28)確定。
圖13展示根據本發明之實施例,健康個體、有或無肝硬化之HBV帶原者及HCC患者當中覆蓋chr1q上之S組末端的標準化讀數計數。複本數畸變資訊(增加、丟失或正常)亦被加入分析中。圖13展示與圖12類似的圖,但複本數增加為chr1q之主要畸變,與丟失為chr1p之主要畸變相對。
圖14展示根據本發明之實施例,健康個體、有或無肝硬化之HBV帶原者及HCC患者當中覆蓋chr8p上之S組末端的標準化讀數計數。複本數畸變資訊亦被加入分析中。圖14展示與圖12類似的圖,複本數丟失為chr8p之主要畸變。
圖15展示根據本發明之實施例,健康個體、有或無肝硬化之HBV帶原者及HCC患者當中覆蓋chr8q上之S組末端的標準化讀數計數。複本數畸變資訊亦被加入分析中。圖15展示與圖12類似的圖,但複本數增加為chr8q之主要畸變,與丟失為chr1p之主要畸變相對。
如部分III.C中所描述,序列不平衡可包括確定組織之基因型。例如,可鑑別末端位於短偏好位點之一組DNA分子,因為他們通常對應於腫瘤DNA片段。可分析既定基因座處由所鑑別組之DNA片段覆蓋的對偶基因以確定該基因座處之基因型。舉例而言,可測定具有第一對偶基因之組中的第一數目個DNA片段與具有第二對偶基因之組中的第二數目個DNA片段之間的差值或比率。差值或比率為所鑑別組之游離DNA分子之值的實例。該值可與參考值相比較以確定是否存在序列不平衡,例如若不存在序列不平衡,則基因型對於腫瘤組織中之兩種對偶基因為異型接合的,且當確實存在序列不平衡時,基因型對於主要對偶基因(可能為組中之唯一對偶基因)為同型接合的。 V. 染色質中之末端位點之位置 A. 經尺寸標記之偏好末端位點之基因組註解
為探索經尺寸標記之偏好末端位點如何在基因組中產生,吾人分別研究S組及L組中之任兩個最接近偏好末端位點之間的分離(以bp為單位)。
圖16展示根據本發明之實施例,S組及L組偏好末端位點中之任兩個最接近偏好末端位點之間的距離之分佈。距離為S組資料之最接近之兩個位點之間,及L組資料之最接近之兩個位點之間的距離。對於S組偏好末端位點,存在強10 bp週期性直至約150 bp。另一方面,對於L組偏好末端位點,在約170 bp處存在一個峰,而未觀測到10 bp週期性。此分離模式因此與血漿DNA之尺寸特徵及核小體結構高度一致,表明S組偏好末端位點可位於核小體核心內,而L組偏好末端可位於連接子區域中。
為探索此假說,吾人研究圍繞具有良好定位的核小體之區域的經尺寸標記之偏好末端位點之分佈。特定言之,吾人研究chr12p11.1中之偏好末端型態,已知該區域在幾乎全部組織類型中均具有良好定位的核小體(29, 30)。
圖17A展示根據本發明之實施例,血漿DNA覆蓋、S組及L組偏好末端位點之快照。chr12p11.1區域上的核小體陣列之圖解亦有展示。核小體陣列1720包括核小體核心1705及連接子區域1710。DNA覆蓋1730展示覆蓋各基因組位置之讀數數量,水平軸對應於基因組位置。如圖17A中所示,L組偏好末端大多位於連接子區域1710中,而S組偏好末端大多位於核小體核心1705內,或者核心之邊緣上。
另外,亦已知圍繞開放染色質區域之核小體(例如,啟動子及增強子)具有良好定位(30),所以吾人研究圍繞開放染色質區域之偏好末端位點的定位。已知母親血漿中之胎兒及母親DNA分子分別大多來源於胎盤組織及造血系統(12, 31)。因此,吾人自RoadMap Epigenomics專案(32)下載胎盤及所選造血組織的去氧核糖核酸酶I超敏性之數據。值得重視地,當前並沒有嗜中性白血球之去氧核糖核酸酶I之數據,因此吾人使用T細胞代表其他造血細胞。RoadMap專案顯示,若干造血細胞譜系(亦即,T細胞、B細胞、自然殺手細胞、單核球、嗜中性白血球及造血幹細胞)之間的表觀基因組型態類似(32)。吾人將由胎盤及T細胞共有之開放染色質區域稱為共同開放染色質區域,然後確定經尺寸標記之偏好末端位點在這些區域的分佈。
圖17B展示根據本發明之實施例,胎盤組織及T細胞共有之共同開放染色質區域周圍的偏好末端位點之分佈。核小體位置之圖解亦有展示。因為資料用於全部共同開放染色質區域,所以偏好末端位點之數目比圖17A多得多,且可見到分佈具有一定的模式。
如X軸上繪製的比對之核小體位置是相對於表示為區域1770的共同開放染色質區域之中心。長偏好位點之標準化末端計數展示為1750且短偏好位點之標準化末端計數展示為1760。在圖17B中,一位置處之末端計數藉由共同開放染色質區域內(亦即展示於圖17B中之基因組座標內)存在的短及長偏好位點之總數目標準化。兩個資料集1750及1760以相同方式標準化。
如圖17B中所示,可在任一資料集之峰之間觀測到約190 bp之週期性模式,此與核小體定相模式一致且表示核小體之間的距離(29)。此外,偏好末端位點在開放染色質區域之中心不太豐富。已報導,開放染色質區域中常佔有轉錄因子結合(33)且因此可能防止DNA切割。另外,S組及L組偏好末端位點之峰不位於相同位置。此等峰間隔約25 bp,其約為連接子區域之尺寸。總之,此等資料表明,經尺寸標記之偏好末端位點之位置與核小體結構緊密相關。因此,血漿DNA末端位點之位置與核小體結構相關。開放染色質區域之後緊接在第一核小體之後的高峰是由於開放染色質區域周圍之兩個核小體比鄰近者具有更嚴格地定相,此使得偏好末端在其連接子中更可預測(亦即,峰更高)。
為以全基因組方式進一步驗證經尺寸標記之偏好末端位點與核小體結構的關係,吾人自Snyder等人(24)下載註解之「核小體軌跡(nucleosome track)」,其含有對於全部組織使用計算方法推導的約一千三百萬個核小體中心(亦即,具有最大核小體保護之基因座)之位置。對於S組及L組偏好末端位點,吾人使各偏好末端位點與其最接近核小體中心相關。吾人隨後對偏好末端位點距核小體中心之距離的分佈進行型態分析。
圖18A展示根據本發明之實施例,懷孕血漿DNA中之經尺寸標記之偏好末端位點相對於核小體結構的分佈。水平軸為相對於核小體中心之基因組位置,且垂直軸為兩種類別之經尺寸標記之偏好末端的標準化末端計數,其中各組值使用其對應尺寸偏好末端位點之各別總數目單獨地標準化。
紅色剪刀1805及藍色剪刀1810分別表示將生成S組及L組偏好末端位點之切割事件。如圖18A中所示,S組及L組偏好末端位點分別在±73 bp及±95 bp展示主峰,此擬合包裹核小體核心之DNA之尺寸及基因組中之核小體間隔模式。使用Straver等人(23)的另一計算推導之核小體軌跡之註解顯示類似結果。
圖18B展示根據本發明之實施例,由Straver等人(23)預測的經尺寸標記之偏好末端位點相對於核小體中心的分佈。如X軸上繪製的比對之核小體位置係相對於核小體中心。資料與圖16一致且證明,S組偏好末端位點位於核小體核心內,而L組偏好末端位點位於連接子區域中。圖18B與圖18A不同在於,來自獨立組之另外的核小體位置用於證實圖18A中之結果。
另外,吾人亦研究健康個體中之全部常染色體的片段末端。
圖19展示根據本發明之實施例,健康非懷孕個體中之短及長DNA分子之常染色體片段末端相對於核小體結構的分佈。紅色1905及藍色1910剪刀分別表示將產生短及長片段之切割事件。如X軸上繪製的比對之核小體位置係相對於核小體中心(23)。
標準化末端計數為末端位於特定位置之DNA片段之數目(例如短DNA片段之數目1920及長DNA片段之數目1930)除以對應尺寸類別之總讀數數目。分別地,短DNA之峰出現在±73 bp且長DNA之峰出現在±95 bp。短DNA片段對應於60-155個鹼基,且長DNA片段對應於170-250個鹼基。
如圖19中所示,短DNA分子展示與S組偏好末端類似的分佈且長DNA分子展示與L組偏好末端類似的分佈。資料因此表明,在健康個體中,短DNA分子大多在核小體核心內切割,而長DNA分子大多在連接子區域內切割。 B. 胎兒及母親特異性末端位點之特徵.
考慮到S組及L組偏好末端位點均自胎兒及母親DNA之混合物發掘,吾人自吾等先前研究(21)進一步研究胎兒及母親特異性偏好末端位點之核小體定位。此等偏好末端位點使用攜帶胎兒特異性及母親特異性SNP對偶基因之母親血漿中的DNA分子發掘。因此,吾人對胎兒特異性、母親特異性血漿DNA末端位點及chrY片段末端位點進行分析。
圖20A展示核小體結構之圖解。圖20B展示核小體結構中胎兒及母親特異性偏好末端位點的分佈。圖20C展示核小體結構中之懷孕例及健康男性個體之chrY片段末端的分佈。圖20D展示懷孕例中核小體結構中之短及長DNA分子之chrY片段末端的分佈。圖20E展示健康個體中核小體結構中之短及長DNA分子之chrY片段末端的分佈。
如X軸上繪製的比對之核小體位置係相對於核小體中心(23)。垂直軸為標準化末端計數。各圖展示兩組資料,提供各資料集之標準化末端或讀數計數。
如圖20B中所示,胎兒特異性偏好末端位點大多位於核小體核心內,而母親特異性末端位點大多位於連接子區域中。此等胎兒及母親特異性偏好末端是先前研究中使用胎兒及母親特異性SNP位點發掘(55)。此類似於短偏好末端位點大多位於核小體核心內(如圖18A中所示)且長偏好末端位點位於連接子區域中。標準化末端計數對應於位置之數目除以既定組之總數目。因此,兩個組(胎兒偏好及母親偏好)經過單獨地標準化。
在懷有男胎之孕婦之血漿中,chrY讀數的來源是胎兒。另一方面,在健康男性個體中,chrY讀數主要來源於造血系統。吾人研究懷有男胎之孕婦之血漿及健康男性之血漿中的全部chrY讀數之末端位點。
圖20C展示總體末端位點分佈。標準化末端計數對應於樣品中末端位於相對於核小體中心的位置之游離DNA片段之數目,標準化基於樣品中分析之DNA片段之總數目。類似於來源於圖20B之觀測結果,懷孕樣品中chrY分子展示更多末端位點定位於核小體核心內,而健康男性個體之血漿中之chrY分子展示更多末端位點在核小體核心以外。
吾人進一步將孕婦及健康男性個體兩者中之chrY讀數分為短及長類別。
圖20D及20E分別展示懷孕例及健康個體中之末端位點的分佈。有趣地,懷孕及非懷孕樣品兩者中之短DNA分子末端位點展示類似的核小體定位。此觀測結果表明有可能用於產生此類短DNA分子之機理相似。類似地,懷孕及非懷孕樣品兩者中之長DNA分子對於其末端位點亦展示類似的核小體定位,因此很可能在其產生中共有類似的機理。另一方面,產生短及長DNA分子之偏好在胎兒及母親來源之DNA中不同。
總之,在懷孕之情形下,胎兒DNA常常在核小體核心內切割(亦即,S組偏好末端位點),且母親DNA大多在連接子區域內切割(亦即,L組偏好末端位點)。 C. 胎盤及造血細胞中之核小體可達性.
吾人疑惑胎兒DNA為何常常在核小體核心內切割。在體細胞組織中,核酸內切酶更難在核小體核心(與連接子區域相比)內切割DNA,因為核小體核心內之DNA由組蛋白結合(34)。吾人因此假設,胎盤細胞與體細胞組織不同在於,核小體核心內之DNA更可達且因此可更易於切割。
為測試此假說,對兩個胎盤組織樣品(一個融合細胞滋養層樣品及一個細胞營養層樣品)及兩個母親白血球層樣品執行ATAC-seq (使用定序之用於轉座酶可達的染色質分析法)實驗(35),其已有報導可以用於探索核小體可達性(36)。ATAC-seq實驗利用切割無核小體之DNA的轉座酶以研究開放染色質區域及鄰近核小體之定位(35)。先前對體細胞組織執行之ATAC-seq實驗(35, 37, 38)中的DNA插入物尺寸模式展示約200 bp之強週期性模式。此模式表明,開放染色質區域間隔200 bp區域且有可能由完整核小體結合(35)。吾等ATAC-seq實驗之插入物尺寸分佈展示於圖21A及21B中。
圖21A及21B展示來自(A)白血球層樣品及(B)胎盤組織之ATAC-seq資料的片段尺寸分佈。量測由轉座酶切割產生之DNA片段之尺寸,且隨後確定頻率直方圖。21A及21B中染色質結構之不同區段亦有標記。
在白血球層樣品中,轉座酶大多切割非核小體結合DNA (例如,連接子區域)。作為對比,轉座酶能夠在胎盤組織中之核小體內切割,表明胎盤組織中之核小體封裝不如白血球層樣品中密閉。藍色及紅色剪刀分別指示白血球層樣品及胎盤組織中之可能切割事件。
白血球層樣品中ATAC-seq獲得之DNA尺寸分佈(圖21A)類似於先前研究(35, 37, 38)中的觀測。尺寸型態中約200及約400 bp處之峰為受整數倍之核小體保護之DNA (37),表明在白血球層樣品中轉座酶大多切割非核小體結合DNA (例如,連接子區域)。另一方面,胎盤組織樣品展示出大幅改變之尺寸分佈,其中不存在約200 bp之峰(圖21B)。實際上,胎盤樣品之ATAC-seq獲得之DNA尺寸分佈展示出更多的短DNA,表明轉座酶能夠在核小體內切割,表明胎盤組織中之核小體封裝不如如白血球層樣品中密閉。因此,資料顯示,與白血球層DNA相比,胎盤DNA與更可達的染色質相關聯。 VI. 使用經尺寸標記之末端位置的技術
如上文所描述,各種實施例可使用短偏好末端位置以測定與短游離DNA片段相關聯之特定組織類型(例如,腫瘤、移植或胎兒組織)的DNA分數之貢獻比例。各種實施例亦可確定第一組織類型是否存在序列不平衡。第一組織類型(例如,腫瘤、移植或胎兒組織)可基於特定個體來鑑別。舉例而言,若個體先前患有肝癌,則可進行篩選以檢查肝癌是否復發,此會使得腫瘤組織的貢獻比例增加。作為另一實例,若個體為懷孕女性,則第一組織類型可為胎兒組織。此類選擇標準適用於本文所述之其他方法。 A. 經尺寸標記之偏好末端之實例結果的概述
吾人對血漿DNA中之尺寸型態分析及偏好DNA末端位點進行整合分析。與使用基因型資訊推導胎兒及母親特異性偏好末端位點相比,本文所描述之經尺寸標記之方法使吾人可發掘能夠改良血漿DNA中之胎兒DNA分數估算的尺寸偏好末端位點。對於估算胎兒DNA分數,此類經尺寸標記之偏好末端位點亦展示比單獨使用尺寸型態分析(17)更好的效能,如圖4A及4B中所示。此外,吾人展示,覆蓋經尺寸標記之偏好末端位點的讀數在第21對染色體三體症之非侵入性產前測試中提供與使用隨機讀數相比改良的效能(圖5B)。此等資料使得有可能開發靶向方法以特異性富集具有經尺寸標記之偏好末端位點的血漿DNA分子。此類富集方法可能降低非侵入性胎兒非整倍性偵測之定序深度需求。
另外,吾人關聯在核小體結構之情形下經尺寸標記之偏好末端位點的位置,例如如圖17A中所示。吾人發現,S組偏好末端位點位於核小體核心內,而L組偏好末端位點位於連接子區域中。有趣地,吾人發現對於研究之全部孕婦及健康非懷孕個體,覆蓋S組偏好末端位點之讀數均短於覆蓋L組偏好末端位點之讀數,如圖2、3、6及7A中所示。此觀測結果表明,S組及L組偏好末端位點與短及長血漿DNA分子相關聯,無關於其組織來源,因為長度相關性亦存在於健康非懷孕個體中。
對來自孕婦血漿之chrY讀數的進一步分析展示一致結果。儘管母親血漿中之胎兒DNA相對較短在2004年初次就有報導(14),但此現象之機理仍未得到解答。此處,吾人提出以下理論,胎盤組織中之核小體可達性高於母親體細胞組織(例如,血球),從而使得核酸內切酶在細胞死亡過程(例如細胞凋亡)期間在核小體核心內切割。吾等ATAC-seq實驗顯示,核小體核心更易由胎盤細胞(與血球相比)中之轉座酶接達,如圖21A及21B中所示。雖然此可達性之分子基礎仍不清楚,但吾人提出DNA甲基化可為一種貢獻因素。在人類基因組中,DNA甲基化型態展示核小體結合DNA上之10 bp週期性,此與血漿DNA之尺寸模式一致(39)。
事實上,吾人及其他人已證明,血漿DNA之片段尺寸與DNA甲基化水準正相關(40, 41)。另外,在懷孕期間,胎盤基因組之DNA甲基化逐漸地增加且母親血漿中之胎源DNA之片段尺寸亦隨胎齡增加(42)。全部此等研究均表明,DNA甲基化可影響片段化過程且可能藉由改變染色質可達性進行。與體細胞組織相比,已知胎盤組織展現全基因組低甲基化(43)。先前研究已證明,DNA甲基化可誘導圍繞伴隨組蛋白的DNA之更緊密包裹(44)且增加核小體緊密度、剛度及穩定性(45, 46)。此外,DNA甲基化亦可調節組蛋白修飾以及異染色質形成(47, 48),其與核小體展開、分解及穩定性相關(49)。全部此等研究均表明,胎盤組織中之較高核小體可達性可能與其低甲基化有關。
雖然吾人使用循環游離胎兒DNA及來自胎盤組織之DNA以獲得對胎兒DNA片段化之機理性洞察,但該概念適用於非胎兒來源之游離DNA。非懷孕個體之血漿中之短及長DNA分子的偏好末端位點相對於核小體結構展現相同定位模式,例如如圖20D及20E中所示。此等資料表明,一組類似機理可促成短或長DNA分子向懷孕及非懷孕個體之血漿中的釋放。然而,短與長DNA分子之比率在懷孕樣品中高於來自非懷孕個體之血漿,如圖7B中所示。此外,癌症患者與孕婦之血漿DNA型態之間存在顯著類似性。血漿中之腫瘤來源之DNA分子更短(28)且腫瘤基因組亦展現全基因組低甲基化(50, 51)。吾人因此認為,腫瘤來源之DNA之短可歸因於類似機理(52)。因此,經尺寸標記之末端位點可適用於非侵入性癌症測試,如本文所描述。
吾人已在發掘游離DNA中之偏好末端位點中併入尺寸特徵,且展現此類經尺寸標記之位點在非侵入性產前及癌症測試中的效用。吾人進一步展示,偏好末端與核小體結構高度相關,因此機理性理解游離DNA之產生機理及母親血漿中的胎兒DNA之相對短。
此外,吾人使用短尺寸及片段末端特徵以富集臨床上相關DNA分子。此處,實施例使用此等特徵以鑑別相關之游離DNA分子的子組。測試樣品並不需要廣泛及深度定序,且可能僅需要廣泛及深度定序以自歷史樣品鑑別此等特徵。臨床上相關DNA之此類富集樣品(例如,胎兒、腫瘤及移植)可用於以較高準確性偵測序列不平衡。 B. 測定特定組織類型之DNA分數
圖22展示末端位於經短標記之末端位置上之游離DNA分子的相對豐度(例如,短/長)與藉由有已知比例濃度之DNA來自組織A的兩個或更多個校準樣品之分析確定的組織A對混合物中之DNA之貢獻比例之間的關係。在所示實例中,分析組織A之貢獻比例為x1 及x2 的兩個樣品。兩個樣品之相對豐度值分別測定為y1 及y2 。相對豐度與A之貢獻比例之間的關係可基於x1 、x2 、y1 及y2 之值確定。本文描述末端位於經短標記之末端位置之游離DNA分子的相對豐度之各種實例。
值y1及y2為校準值之實例。資料點(x1,y1)及(x2,y2)為校準資料點之實例。可將校準資料點與函數擬合以獲得校準曲線(例如2210,其可為線性的。當量測新樣品的新相對豐度時,可對新相對豐度與至少一個校準值進行比較以確定新樣品之貢獻比例的分類。可以多種方式與校準值進行比較。舉例而言,校準曲線可用於查找對應於新相對豐度的貢獻比例x。作為另一實例,新相對豐度可與第一校準資料點之校準值y1相比較以確定新樣品有大於抑或小於x1的貢獻比例。
在其他實施例中,可類似地分析含有超過兩種組織類型之混合物中之組織A的貢獻比例,只要其他組織之相對豐度相對恆定。此類方法實際上適用於分析不同臨床情形,例如(但不限於)癌症偵測、移植監測、創傷監測、感染及產前診斷。
在胎兒分析中,目標可為提供貢獻比例的定量值或證實存在最小百分比之胎兒DNA。舉例而言,方法可用於測定母親血漿中之胎兒DNA濃度。在母親血漿中,攜帶胎兒基因型的DNA分子通常來源於胎盤。
對於癌症,可能需要其他分類。舉例而言,短偏好位置處之相對豐度可經測定且與正常健康個體相比較。經由類似於圖22與校準曲線比較,可確定特定組織(例如,胎兒、腫瘤或移植)之貢獻。所測試例之相對豐度之值可與健康個體肝臟之貢獻範圍進行比較。
類似地,可藉由此方法確定已接受器官移植之患者之所移植器官的貢獻。在先前研究中,顯示具有排斥反應之患者將導致所移植器官釋放DNA增加,使得來自所移植器官之DNA在血漿中的濃度升高。所移植器官之相對豐度的分析將為偵測及監測器官排斥之有用方式。此類分析所用的區域可變化,此視所移植的器官而定。
圖23為根據本發明之實施例,分析生物樣品以確定混合物中之第一組織類型之貢獻比例的分類之方法2300之流程圖。生物樣品包括來自包括第一組織類型之複數種組織類型的游離DNA分子之混合物。如同本文所述之其他方法,方法2300可使用電腦系統。第一組織類型之實例包括胎兒組織、移植組織及腫瘤組織。
在方塊2310,鑑別含有第一組織類型之樣品中的短游離DNA分子之末端以高於第一臨限值之第一比率出現的第一組基因組位置。短游離DNA可具有指定第一尺寸,例如60-155個鹼基,本文所述之其他範圍,或小於長游離DNA片段之其他範圍。範圍不一定必須為連續的,例如60-120及125-155。作為一實例,長DNA片段可為170-250個鹼基及本文所述之其他範圍。較高比率可在至少一個其他樣品中(例如,校準樣品中)確定。關於方塊2310之其他細節可見於部分II.B及本發明中別處。
在一些實施例中,鑑別第一組基因組位置可包括分析來自至少一個其他樣品的第二複數個游離DNA分子以鑑別第二複數個游離DNA分子的末端位置。至少一個其他樣品可已知包括第一組織類型且樣品類型與生物樣品相同。舉例而言,其他樣品可來自懷孕女性、具有移植器官之個體或具有腫瘤之個體。對於複數個基因組窗之各基因組窗,末端位於基因組窗之第二複數個游離DNA分子的對應數目可經計算且與參考值進行比較以確定末端位於基因組窗內之一或多個基因組位置之游離DNA分子的比率是否高於臨限值。
在方塊2320,分析得自個體生物樣品之第一複數個游離DNA分子。分析游離DNA分子可包括確定參考基因組中之對應於游離DNA分子之至少一個末端的基因組位置(末端位置)。因此,可確定兩個末端位置,或游離DNA分子的僅一個末端位置。
在一些實施例中,分析第一複數個游離DNA分子可包括對第一複數個游離DNA分子定序以獲得序列讀數,及將序列讀數與該參考基因組比對以確定第一複數個游離DNA分子之基因組位置。在其他實施例中,分析第一複數個游離DNA分子可包括對第一組基因組位置處的第一複數個游離DNA分子進行雜交捕捉或擴增。
末端位置可以不同方式確定,如本文所述。舉例而言,游離DNA分子可經定序以獲得序列讀數,且可將該等序列讀數與參考基因組映射(比對)。若生物體為人類,則參考基因組將為潛在地來自特定亞群之參考人類基因組。作為另一實例,可用不同探針(例如,在PCR或其他擴增之後)分析游離DNA分子,其中各探針對應於基因組位置,其可覆蓋至少一個基因組區域。
可分析統計顯著數目個游離DNA分子以便對第一組織類型的貢獻比例提供準確的測定。在一些實施例中,分析至少1,000個游離DNA分子。在其他實施例中,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或更多個游離DNA分子。作為另一實例,可產生至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個序列讀數。
在方塊2330,確定末端位於複數個窗之一內之第一複數個游離DNA分子的第一數目。確定可基於在方塊2320中對第一複數個游離DNA分子的分析進行。舉例而言,游離DNA分子之末端之基因組位置可自分析(例如,比對或使用特定探針)已知。每個窗包括第一組基因組位置中的至少一者。如部分II.A中所描述,第一組基因組位置可自初始組鑑別,且隨後擴展以包括圍繞初始組之窗。因此,一組短偏好末端位置可包括一擴展S組之末端位點。作為實例,窗之寬度可為1 bp、2 bp、3 bp、4 bp、5 bp、6 bp、7 bp、8 bp、9 bp、10 bp、15 bp、20 bp、25 bp及30 bp。窗可或可不具有全部相同寬度。提及bp及鹼基可視為寬度或長度之等效單位。
在方塊2340,計算末端位於複數個窗之一內之第一複數個游離DNA分子的相對豐度。可藉由使用游離DNA分子的第二數目標準化第一複數個游離DNA分子的第一數目來測定相對豐度。第二數目個游離DNA分子可包括末端位於第二組基因組位置之游離DNA分子,第二組基因組位置位於包括第一組基因組位置之複數個窗的外部。作為一實例,相對豐度可包括第一數目及第二數目之比率。
在各種實施例中,第二組基因組位置可為對於長游離DNA片段偏好之末端位置或生物樣品中確定之任何末端位置。第二組基因組位置可為使得在至少一個其他樣品中長游離DNA分子之末端以高於臨限值之第二比率出現。長游離DNA將具有大於第一尺寸之第二尺寸。第一尺寸可具有第一尺寸範圍,且第二尺寸可具有第二尺寸範圍。第一尺寸範圍可小於第二尺寸範圍在於,第一尺寸範圍之第一最大值小於第二尺寸範圍之第二最大值。如本文所述,第一尺寸範圍可與第二尺寸範圍重疊。在另一實施例中,第二組基因組位置可包括對應於第一複數個游離DNA分子中之至少一者之末端的所有基因組位置,從而包括可能以隨機方式取樣的各種基因組位置。
相對豐度值之另一實例為末端位於基因組窗之游離DNA分子的比例,例如作為末端位於偏好末端位置之所定序DNA片段之比例來量測。因此,第二組基因組位置可包括對應於第一複數個游離DNA分子中之至少一者之末端的所有基因組位置。在另外的實例中,第二組基因組位置可對應於大於用於界定第一組基因組位置的窗之窗,從而包括不在第一組中之額外基因組位置。兩組窗之寬度可經調節以實現所需效能。作為實例,第二組窗之寬度可為20 bp、25 bp、30 bp、40 bp、50 bp、60 bp、70 bp、80 bp、100 bp、120 bp、140 bp、160 bp、180 bp及200 bp。
在方塊2350,藉由對相對豐度與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定第一組織類型之貢獻比例的分類,該等校準樣品中之第一組織類型的貢獻比例已知。實例對於胎兒組織為第一組織類型而言展示於圖4A及4B中且對於腫瘤DNA展示於圖10及11中。作為一實例,貢獻比例之分類可對應於高於指定百分比之範圍。作為另一實例,分類可對應於指定準確性範圍內之特定百分比或對應於指定精確度。作為其他實例,分類可為對應於範圍之本文分類,諸如低、中及高。
如上文所描述,與校準值之比較可經由已使用在校準樣品中量測之校準資料點確定的校準函數進行,該等校準樣品中之貢獻比例係經由其他技術量測,例如在特定組織之特定位點相對於其他組織使用組織特異性標記(例如,對於胎兒、移植或腫瘤組織)(諸如組織特異性對偶基因)或組織特異性表觀遺傳標記(諸如低甲基化或高甲基化)。因此,對相對豐度與一或多個校準值進行比較可使用擬合至校準點之校準函數,該等校準點包含複數個校準樣品中所量測之第一組織類型的貢獻比例及複數個校準樣品中測定之各別相對豐度。
當第一組織類型為腫瘤時,分類可選自由以下組成之群:個體中之腫瘤組織之量、個體中之腫瘤之尺寸、個體中之腫瘤之階段、個體中之腫瘤負荷、及個體中之腫瘤轉移的存在。
對於癌症,若貢獻比例較高,則可進行進一步行動,諸如對個體進行治療性干預或成像(例如若第一組織類型對應於腫瘤)。舉例而言,研究可使用成像模式,例如可對個體(完整個體或身體的特定部分(例如胸部或腹部),或尤其候選器官)進行電腦化斷層攝影(CT)掃描或磁共振成像(MRI)以證實或排除個體中之腫瘤的存在。若證實腫瘤存在,則可進行治療,例如手術(藉由手術刀或藉由輻射)或化學療法。
治療可根據所確定的癌症等級、所鑑別的突變及/或組織來源來提供。舉例而言,所鑑別之突變(例如在多形性實施例中)可使用特定藥物或化學療法靶向。組織來源可用於導引手術或任何其他治療形式。且癌症等級可用於確定任何類型之治療多具侵襲性,其亦可基於癌症等級確定。 C. 測定序列不平衡
圖24為根據本發明之實施例,分析生物樣品以確定第一組織類型在游離DNA分子的混合物中之染色體區域中是否展現序列不平衡之方法2400之流程圖。序列不平衡可涉及染色體區域中之各種量測值,例如在區域中之基因座處的非整倍性、擴增/缺失或對第一組織類型之基因分型。舉例而言,第一組織之基因型可與複數個組織類型之其他組織類型不同。染色體區域可為整個染色體。第一組織類型之實例包括胎兒組織及腫瘤組織。
在方塊2410,鑑別含有第一組織類型之樣品中的短游離DNA分子之末端以高於第一臨限值之第一比率出現的第一組基因組位置。短游離DNA可具有第一尺寸,其可為一或多個範圍。方塊2410可以與圖23之方塊2310類似之方式執行。
在方塊2420,分析得自個體生物樣品之第一複數個游離DNA分子。分析游離DNA分子包括確定參考基因組中之對應於游離DNA分子之至少一個末端的基因組位置。方塊2420可以與圖23之方塊2320類似之方式執行。
在方塊2430,基於對第一複數個游離DNA分子的分析,鑑別末端位於複數個窗之一內的一組游離DNA分子。各窗包括該組基因組位置中之至少一者且位於染色體區域中。藉由選擇末端位於短DNA片段偏好的此組基因組位置之特定游離DNA分子,此組游離DNA分子對於第一組織類型可有效地富集,例如腫瘤DNA或胎兒DNA。此外,覆蓋或末端位於該組基因組位置之游離混合物中的DNA片段可經擴增或捕捉以提供進一步富集。
方塊2430可以與圖23之方塊2330類似之方式執行,例如關於鑑別末端位於該組基因組位置之一內之DNA分子。藉由具有在染色體區域內之窗,該組游離DNA分子可充當彼染色體區域之代表組。因此,此組游離DNA分子(對於第一組織類型富集)可使用非侵入性分析之現有技術分析。
在各種實施例中,可針對特定單倍型選擇組。末端位於複數個窗之一內的另一組游離DNA分子可對應於其他單倍型。或,該組之子組可對應於一種單倍型且該組之另一子組可對應於其他單倍型。對應於單倍型之DNA分子可基於匹配特定單倍型之特定對偶基因的DNA分子之對偶基因(例如,藉由定序或探針確定)而確定。方法2400之後續方塊可分析兩個組以比較兩種單倍型之特性,例如以測定序列不平衡。
在方塊2440,測定該組游離DNA分子之值。值可以各種方式測定。舉例而言,組中之游離DNA分子的數目可例如如美國專利公開案第2009/0087847號、第2009/0029377號、第2011/0105353號、第2013/0040824號及第2016/0201142號中所描述測定。作為另一實例,值可為該組游離DNA分子之尺寸分佈之統計值,例如如美國專利公開案第2011/0276277號、第2013/0040824號及第2016/0201142號中所描述,其皆以全文引用之方式併入本文中。作為另一實例,值可為該組游離DNA分子之甲基化密度,例如在由此等游離DNA分子覆蓋之CpG位點。因此,在各種實施例中,該組游離DNA分子之值可為該組游離DNA分子之量、該組游離DNA分子之尺寸分佈之統計值或該組游離DNA分子之甲基化水準。關於使用甲基化偵測序列不平衡之其他細節可見於PCT公開案WO 2017/012544。
該組游離DNA分子之值可經標準化,例如以考慮差異樣品中之DNA分子之不同數目。舉例而言,該組之值可藉由(例如,除以)來自一或多個參考區域之另一組游離DNA分子之值或樣品中之游離DNA分子之總數目標準化。作為另一實例,可分析相同數目之游離DNA分子,其為藉由樣品中之游離DNA分子之總數目進行的一類型之標準化。
在方塊2450,基於對該值與參考值進行比較來確定在個體之該染色體區域中序列不平衡是否存在於第一組織類型中的分類。參考值可以各種方式確定,例如由健康個體,由具有癌症或懷孕之個體,由自樣品中不具有不平衡之其他區域測定的一或多個值,或由染色體區域中之另一單倍型(例如,以確定為何種基因型)。基因型可藉由對於一個基因座處之不同對偶基因或對於各單倍型分析讀數之不平衡確定,例如如關於部分III.C所描述。比較可包括確定該值是否在統計上不同於參考值(例如,超過截止值,諸如特定數目個標準偏差,如由一群體確定)。
作為一實例,末端位於第一染色體區域(所測試之臨床上相關區域)中之第一窗之一中的第一數目個游離DNA分子可與末端位於一或多個參考染色體區域中之第二窗之一的第二數目個游離DNA分子相比較,其中第一及第二窗包括該組基因組位置中之至少一者。該種比較可包括使用第一數目及第二數目確定分離值(例如,差值或比率),其中分離值可與參考值相比較以偵測序列不平衡。類似地,可測定第一及第二單倍型之第一及第二數目。
作為另一實例,可確定該組游離DNA分子之尺寸分佈。可確定尺寸分佈之統計值,例如平均或中值尺寸,或短DNA分子比長DNA分子之量。可確定染色體區域之第一統計值與一或多個參考染色體區域之尺寸分佈的第二統計值之間的分離值,其中分離值可與參考值相比較以偵測序列不平衡。類似地,可測定第一及第二單倍型之第一及第二統計值。
作為又另一實例,甲基化水準可使用由該組游離DNA分子覆蓋之複數個位點處的甲基化狀態(甲基化或未甲基化)測定。該組之甲基化水準可與對應於一或多個參考染色體區域的另一組之另一甲基化水準相比較。可確定兩個甲基化水準之間的分離值,其中分離值可與參考值相比較以偵測序列不平衡。類似地,可測定第一及第二單倍型之兩個甲基化水準。在另一實例中,可測定區域中之不同位點的多個甲基化水準,且可如WO 2017/012544中使用反卷積技術測定貢獻分數。貢獻分數將為在方塊2440中測定的該組之值之一實例。
因此,在單倍型分析中,該組之值可使用對應於第一單倍型之第一子組、對應於染色體區域中之第二單倍型之第二子組測定。可確定第一單倍型值與第二單倍型值(實例在上文提供)之間的分離值且將其與參考值相比較。
對於區域當中的比較(如上文所描述),參考值可藉由鑑別末端位於複數個參考窗之一內的參考組游離DNA分子確定,各參考窗包括該組基因組位置中之至少一者且位於一或多個參考染色體區域中,可已知或假定該或該等參考染色體區域不具有序列不平衡(例如,擴增或缺失)。隨後,參考值可由參考組游離DNA分子確定。參考值可與該值具有相同類型(例如,量、統計大小值或甲基化水準)。該值與參考值之間的分離值可隨後與分離存在序列不平衡與不存在序列不平衡之分類的截止值相比較,例如如圖5A中所示。
對於序列不平衡為第一組織類型之基因型與其他組織類型不同的結果(例如,如在部分III.C中所描述)時之實例,該組游離DNA分子之值可為組中在該基因座處具有第一對偶基因的游離DNA分子之第一數目與在該基因座處具有第二對偶基因的游離DNA分子之第二數目之間的相對豐度。當其他組織類型在染色體區域中之該基因座處為異型接合時,序列不平衡之分類可為第一對偶基因過多,表明第一組織類型對於第一對偶基因為同型接合的。當其他組織類型在染色體區域中之該基因座處為異型接合時,分類可為不存在不平衡,表明第一組織類型對於第一對偶基因及第二對偶基因為異型接合的。
若序列不平衡與癌症相關(擴增或缺失),則可確定癌症等級(例如,基於具有序列不平衡之多個區域)。可隨後提供治療,例如如本文諸如在方法2300中所述。 VII. 開放染色質區域中之取向感知血漿游離DNA片段化分析
近期研究已展現cfDNA分析用於靈敏的癌症篩選之臨床可行性(56, 57, 61)。對於此領域之未來,開發一種在陽性液體生檢測試之後定位腫瘤之部位的穩定方法會有益處。利用組織之間的DNA甲基化模式之差異,吾人先前已證實,母親血漿中的循環胎兒來源之DNA主要來源於胎盤(58)。此研究基於未甲基化SERPINB5 序作為胎盤標記來檢測為母親血漿DNA(58)。最近,已有方法應用於偵測來源於腦(78)、紅血球譜系細胞(75)、心臟(109)及肝臟(64, 77)之cfDNA。
吾人已進一步開發一種通用的基於DNA甲基化之方法用於測定多種組織類型對cfDNA庫之貢獻,吾人將該方法命名為「血漿DNA組織映射」(102)。此原理亦已由其他研究者用於預測腫瘤之組織來源(72, 79)。此等公開之方法使用全基因組亞硫酸氫鹽定序(BS-seq) (80, 54, 85)。然而,BS-seq具有以下缺點,亞硫酸氫鹽轉化引起DNA之降解(65)且亦引入GC含量變化,其會在定序資料中引起偏差(89)。
除DNA甲基化以外,近期研究已證實,cfDNA分子保留其核小體來源之標籤,展示具有166 bp處之主峰及約10 bp週期性的尺寸分佈(81)。CfDNA攜帶非隨機片段化之模式,其向整個基因組中表觀遺傳調節提供研究思路(67)。考慮到整個基因組中核小體定位與細胞身分高度相關(92),此類片段化模式因此有可能回溯cfDNA分子之組織來源。Snyder等人證實,血漿DNA分子攜帶核小體足跡(98)。作者進一步構築「核小體軌跡」且發現核小體間隔模式可用於推斷cfDNA之組織來源。其亦證實此方法可能用於預測癌症患者中之腫瘤來源。在另一研究中,Ulz等人報導,啟動子中血漿DNA之覆蓋可用於預測基因表達(106)。吾等團隊已證實組織特異性偏好末端位點在cfDNA中存在,其在預測母親血漿中之胎兒DNA分數中展示臨床效用(55)。
在本發明中,吾人進一步探索片段化模式在追蹤cfDNA分子之組織來源中的臨床前景。吾人首先對圍繞已知良好定位的核小體陣列及開放染色質區域之覆蓋及cfDNA片段末端標籤進行型態分析。在分析期間,吾人將血漿DNA片段末端分為兩個組,其中考慮取向資訊,亦即相對於參考基因組,末端位於血漿DNA片段之上游抑或下游側。吾人證明在此等區域中,血漿DNA展示特徵性片段化模式,包括定序覆蓋不平衡及上游與下游片段末端信號之間的差異。吾人隨後分析各種組織特異性開放染色質區域中之血漿DNA片段化模式且進一步定量各種臨床情形中之片段化模式以研究推斷cfDNA之組織來源的可行性,包括預測癌症患者中之腫瘤位置。 A. 概念構架及命名
圖25A-25F展示吾等方法之概念構架。圖25A展示基因組中核小體定位的圖解。核小體2505經DNA 2510 (黃線)包裹。亦展示DNA之其他部分:連接子DNA 2512 (棕線)及在開放染色質區域中之活性調節元件2514 (綠線)。亦展示核小體定位之抽象及在細胞凋亡期間切割事件(剪刀)之圖解。
在真核染色質中,核小體為DNA封裝之基本單元,其由圍繞組蛋白包裹之DNA區段組成。核小體通常藉由相對短的連接子DNA彼此連接,除了在活性調節元件(例如,開放染色質區域)中,其中核小體遷移且鄰近核小體將由長得多的DNA區段連接。據相信,顯著比例之cfDNA分子是由細胞凋亡之後釋放(68, 81)。在細胞凋亡DNA片段化期間,核酸內切酶偏好切割核小體間DNA (94, 103)。
圖25B展示由細胞凋亡DNA片段化產生之cfDNA的圖解。圍繞核小體包裹之DNA部分2520保留,而連接子及開放染色質區域中DNA片段2522裂解為小片(灰線),其無法有效地定序。因此,當cfDNA分子經受定序時,包裹於組蛋白上之DNA部分2520保留。另一方面,來源於連接子及活性調節元件(因為其相對未受保護)之DNA將裂解為小DNA片2522 (灰線)且無法高效地定序(圖25C) (69, 98, 106)。
圖25C為定序讀數及兩個末端提取的圖解。紅色末端2530及藍色末端2532分別表示U (上游)及D (下游)血漿DNA末端。DNA片2522未示出,因為其沒有被定序。因此,cfDNA之基因組覆蓋在核小體中將較高,且在連接子及開放染色質區域中將較低(圖25D)。
圖25D展示基因組覆蓋。水平軸對應於基因組座標。垂直軸對應於覆蓋各座標(位置)讀數之數目。在此理想化繪圖中,在連接子及開放染色質區域中覆蓋為零(或接近於零),但在核小體區域中覆蓋較多且均一。
圖25E展示相對於基因組座標的cfDNA之U及D片段末端型態。吾人利用cfDNA片段末端之取向資訊且基於其與參考基因組之比對信息定義cfDNA片段末端。上游(U)末端2530表示在基因組座標中具有較低值(lower value)之末端,而下游(D)末端2532表示在基因組座標中具有較高值(higher value)之末端。因此,包裹於核小體上之DNA將導致一對U及D末端分別在核小體之上游及下游邊界。
DNA之上游末端2530及下游末端2532之實例位置展示於圖25E中。上游U信號2550位於上游末端2530之末端位置處。下游D信號2552位於下游末端2532之末端位置處。U信號2550及D信號2552都包含一些隨機擾動,因為並非每個片段均在相同位置處切割。該種位置窗可對應於上文關於尺寸偏好末端位點所描述的窗。
連接子及開放染色質區域可基於U信號2550及D信號2552鑑別。對於連接子或開放染色質區域,將有D末端側接其上游邊界,且U末端側接其下游邊界。就此而言,U及D末端信號可用於推斷核小體、連接子及開放染色質區域之定位(圖25F)。
圖25F展示經平滑處理的cfDNA末端信號及推導的核小體定位。此類平滑的末端為實際資料之實例,因為DNA片段之末端將由於切割DNA中所涉及之隨機過程而展示出一定分佈。上游分佈2560集中圍繞圖25E中之U信號2550。下游分佈2562集中圍繞圖25E中之D信號2552。
不同區域在平滑的cfDNA末端信號下鑑別。 紫線2575表示核小體。棕線2572表示連接子區域。綠線2574表示開放染色質區域。 B. 展示差異定相之結果
以上概念構架之假說藉由分析基因組之各種部分,例如管家基因之活性啟動子、非活性啟動子及組織特異性開放染色質區域,來進行測試。 1. cfDNA片段末端在核小體陣列中的差異定相
為在人類基因組區域中說明以上概念,吾人首先檢查chr12p11.1,已知該區域在幾乎全部組織類型中均具有良好定位的核小體(107, 63, 98)。為此,吾人混合來自吾等先前研究的32位健康非懷孕個體之血漿DNA資料(70)且對此區域中之覆蓋及片段末端進行型態分析。
圖26A及26B展示根據本發明之實施例,混合健康非懷孕個體中之chr12p11.1區域中之血漿DNA片段化模式。圖26A展示基因組覆蓋2605、上游U末端位置2607及下游D末端位置2609之原始信號。X軸為基因組座標。Y軸為基因組覆蓋之標準化密度,以便任何座標處之平均值為1。基因組覆蓋2605對應於與各基因組比對的讀數之數目。上游末端位置2607及下游末端位置2609之資料為末端位於彼等位置之DNA片段之數目的標準化計數。因為吾人僅對不同位置上的末端之相對計數有興趣,所以原始計數以一種方式標準化以匹配此圖中之Y軸。
如圖26A中所示,血漿DNA覆蓋2605展示約190 bp之強週期性模式,且具有較高及較低覆蓋之區域分別對應於核小體及連接子(98)。U末端位置2607及D末端位置2609展示類似週期性模式且均在連接子中富集,亦即,連接子區中存在比核小體中更多的U及D末端。覆蓋信號藉由用原始信號除以此區域中之平均信號標準化;末端信號經線性調節以擬合至圖中。圖26A、26B、26C及26D中之覆蓋與末端信號之間的此等非通用標準化程序僅用於說明片段化模式目的。
圖26B展示經平滑處理的信號及推導的核小體定位。U及D末端信號隨後使用LOWESS (局部加權散點圖平滑化)算法(60)平滑化以用於進一步分析。如圖26B中所示,任何D末端峰(例如,2610)距其最接近的上游U末端峰(例如,2620)之間的距離為約170 bp,其大致為核小體之尺寸(101)。任何D末端峰(例如,2610)距其最接近的下游U末端峰(例如,2630)之間的距離為約20 bp,其大致為連接子之尺寸(101)。在圖下方,核小體2640及連接子2650為在對應於圖中資料的位置。
該資料因此與吾等概念構架(圖25A-25F)高度一致且顯示,有差異定相之血漿DNA片段末端實際上反映此區域中之核小體定位。值得注意地,在U及D末端分離之情況下,吾人能夠確定核小體及連接子兩者之定位,此方法優於先前研究之進展。先前研究大多聚焦於預測核小體中心之位置(亦即,具有最大核小體保護之基因座)(63, 90, 98)。
除chr12p11.1區域以外,圍繞活性啟動子之核小體亦已知為良好定位(69)。為探索圍繞活性啟動子之片段化模式,吾人自文獻中獲取一系列人類管家基因(62)。
圖26C展示圍繞管家基因之活性啟動子的血漿DNA覆蓋及末端信號。該圖展示位於華生股(Watson strand)上之管家基因的血漿DNA覆蓋2660、U末端信號2662及D末端信號2664。X軸為相對於管家基因之轉錄起始位點(TSS)的基因組座標。Y軸為血漿DNA覆蓋2660、U末端信號2662及D末端信號2664之標準化密度。TSS展示在開放染色質區域之中心2670,其在兩組核小體陣列之間。
位於克里克股(Crick strand)上之管家基因展示幾乎相同的、鏡像的模式。血漿DNA覆蓋2660圍繞啟動子展示「V」形模式。然而,末端型態2662及2664展示強週期性且定相U與D末端之間的差異,此與圍繞轉錄起始位點(TSS)及鄰近良好定位的核小體陣列之核小體空乏區域一致。另外,可在TSS與+1核小體2680 (亦即,TSS下游之第一個核小體)之間觀測到約60 bp距離,此與人類中之典型基因結構一致(69)。
此外,吾人亦自表現圖譜(Expression Atlas)發掘於主要人類體細胞組織中不表達的一系列基因(73),以研究圍繞不存在此類核小體空乏模式的非活性啟動子之片段化模式。
圖26D展示圍繞非活性啟動子的血漿DNA覆蓋及末端信號。圍繞非活性啟動子,發現血漿DNA末端均勻分佈,且圍繞此等不表達之基因之啟動子不展示具有特異性的核小體定位模式。因此,特定類型細胞之非表達基因之啟動子為非活性的且並不具有指示開放染色質區域之結構。此等結果與先前基於微球菌核酸酶或轉座酶消化之後的DNA片段末端分析的研究得到的核小體定位一致,(96, 95)。總之,吾等結果表明,有差異定相之血漿DNA片段末端實際上可在活性啟動子中傳達核小體定位模式。 2. 組織特異性開放染色質區域中的有差異定相之血漿DNA片段末端
開放染色質區域為已知在中心核小體缺失且由良好定相之核小體陣列側接的調節元件(63, 95)。因此,吾人假設,來源於此類區域之cfDNA亦可展現有差異定相之片段末端信號。因此,吾人首先研究由T細胞及肝臟共有之共同開放染色質區域,考慮到此等組織在多種臨床情形下為血漿DNA庫之重要貢獻者。具體來說,來源於T細胞之DNA為自造血系統釋放之血漿DNA之一實例(103),其為健康個體中之血漿DNA之主要來源(84)。肝臟為健康個體以及肝移植接受者及肝癌患者中之血漿DNA之另一主要來源(83, 64, 77)。
吾人自RoadMap Epigenomics專案(93)及ENCODE專案(104)獲得T細胞及肝臟之開放染色質資料(參見材料及方法)。吾人將由T細胞及肝臟共有之開放染色質區域鑑別為共同開放染色質區域。吾人隨後對混合血漿DNA資料中之此等區域進行片段化分析。
圖27A、27B及27C展示根據本發明之實施例,混合健康非懷孕個體中之血漿DNA片段化模式。開放染色質區域中及附近之DNA片段化使用上游及下游末端信號與基因組覆蓋一起分析。
圖27A展示T細胞及肝細胞共有之共同開放染色質區域中之模式(亦繪製推導的核小體定位)。X軸為與共同開放染色質區域之中心的相對位置。Y軸為基因組覆蓋2705、上游末端信號2707及下游末端信號2709之標準化密度。開放染色質區域2710在如上文展示,且在任一側上標註了兩個核小體。覆蓋及末端信號均藉由除以其對應總信號標準化,隨後藉由恆定數字因子1000擴增,使得覆蓋及末端信號之平均值均勻地調節至5。此標準化適用於展示圍繞開放染色質區域之覆蓋及末端信號的所有圖(亦即,圖27至29)。
下游峰與核小體之下游末端一致,且上游峰與核小體之上游末端一致。兩個峰之間的差異之程度指示兩個核小體之間是否存在連接子或是否存在開放染色質區域。
如圖27A中所示,可觀測到血漿DNA之特徵性片段化模式,包括覆蓋不平衡及有差異定相之片段末端。覆蓋不平衡由座標0 (亦即共同開放染色質區域之中心)處之覆蓋下降說明。差異定相之片段末端在連接子區域2716之峰之間展示為小分離(例如,2712),且對於開放染色質區域2710展示為較大分離(例如,2714)。此等結果為在開放染色質區域之中心中的核小體空乏區域及存在鄰近良好定相之核小體的結果。此等結果因此顯示,有差異地定相之血漿DNA片段末端可在開放染色質區域中傳達核小體定位模式。
圖27B展示胚胎幹細胞(ESC)特異性開放染色質區域中之模式。作為陰性對照,吾人使用相同資料集分析圍繞對胚胎幹細胞(ESC)具有特異性的開放染色質區域之血漿DNA片段化模式。吾人推論,健康成人中無血漿DNA來自ESC。實際上,吾人發現,核小體定位模式(例如,開放染色質區域之中心中的核小體空乏)不可見於ESC特異性開放染色質區域中。
吾人進一步假設,cfDNA將僅在對應組織向血漿中貢獻DNA的開放染色質區域處展示片段化模式。為測試此假說,除T細胞及肝臟以外,吾人發掘5種其他主要人類組織(亦即,胎盤、肺臟、卵巢、乳房及小腸;參見下文材料及方法部分)之組織特異性開放染色質區域。此等組織之選擇基於資料可用性及其在所選臨床情形中將向血漿中貢獻DNA之先前知識。在先前研究中,研究者已展示,胎盤、肺臟、卵巢及乳房來源之DNA分別可見於孕婦、肺癌、卵巢癌及乳癌患者之血漿中(82, 58, 59, 66, 88)。另外,結腸DNA可見於結腸直腸癌患者之血漿中(99)。因為結腸組織不存在公開可用的開放染色質資料,所以吾人在本發明研究中使用來自小腸之資料代表胃腸系統且將小腸特異性開放染色質區域視為結腸特異性開放染色質區域的替代物。此等開放染色質區域在此後稱為「腸特異性」。吾人相信,吾等決定為合理的,因為小腸及結腸之表觀基因組型態共有許多相似性(93)。
對於各組織類型總計獲得中值約26,000個組織特異性開放染色質區域(範圍:7,540-55,537)。組織特異性開放染色質區域可如後續部分中所描述來鑑別。吾人隨後研究健康個體之血漿中之此等組織特異性開放染色質區域中的血漿DNA片段化模式。
圖28A-28G展示根據本發明之實施例,健康個體中之組織特異性開放染色質區域中的血漿DNA片段化模式。各圖展示對應於一種組織類型的組織特異性開放染色質區域之結果:圖28A T細胞;圖28B肝臟;圖28C胎盤;圖28D肺臟;圖28E卵巢;圖28F乳房;圖28G腸。X軸展示相對於開放染色質區域之對應中心的位置。Y軸為基因組覆蓋、U末端及D末端之標準化密度。
正如所料,血漿DNA在T細胞及肝臟特異性開放染色質區域中展示核小體空乏及良好定相之核小體陣列,但在其他組織特異性開放染色質區域中則沒有。良好定相之核小體陣列可指基因組中之區域,其中核小體之位置在相同組織類型之近似全部細胞中極可再現及可預測。此等結果與造血系統及肝臟為健康個體中之血漿DNA之主要貢獻者的事實一致(84, 102, 78)。 C. 定量血漿DNA片段化模式
吾人探索了圍繞開放染色質區域的血漿DNA片段化模式之定量。為定量圍繞組織特異性開放染色質區域之血漿DNA片段化模式,吾人聚焦於中心處之核小體空乏信號,因為其為此模式之關鍵特徵之一(69)。在此核小體空乏信號中,上游(U)及下游(D)末端在不同方向上在與開放染色質區域之中心相距偏移(例如,60 bp)處展現最高讀數密度(圖27C)。
圖27C為OCF (取向感知cfDNA片段化)值之概念圖解。X軸為與開放染色質區域之中心的相對位置。Y軸展示上游末端信號2727及下游末端信號2729之標準化密度。分析聚焦於開放染色質區域之中心中的U及D末端且量測陰影區域2737及2739中之U與D信號2727與2729之間的分離值(例如,差值或比率)為組織特異性開放染色質區域中之OCF值。
如吾人可見,D末端峰在左側上,而U末端峰在右側上。如圖28A-28G及其他中可見,組織類型存在與上游與下游信號之間的定相差異有關。此定相差異可使用關於峰位置之差異的資訊量測,其可提供特定基因組位置用於量測U及D末端。該種位置差異將導致與下游位置相比更多上游末端出現在一個位置或位置窗(例如,區域2737中)。舉例而言,在區域2737中,上游峰2747對應於彼區域中比D末端信號2757更多的U末端。類似地,在區域2739中,下游峰2749對應於彼區域中比U末端信號2759更多的D末端。鑒於大多數組織特異性開放染色質區域大致為類似尺寸,對於各種組織,區域可在相對於中心的對稱位置處進行選擇。
在一些實例中,定相差異藉由圍繞峰的兩個窗(例如,20 bp)中U與D末端之讀數密度之差異定量如下:
Figure 02_image001
峰為距開放染色質區域之中心之距離,且倉為區域之寬度。如圖27C中所示,峰距中心60個鹼基,且為約10個鹼基寬。
此類別之參數稱為OCF (取向感知CfDNA片段化)值。在各種實施例中,可存在一或兩項,且可使用不同峰偏移值。在一些實施例中,吾人在定量中使用(但不限於) 60 bp作為峰且10 bp作為倉尺寸。其他實例峰偏移值為40、45、50、55、65、70及75 bp。其他實例窗值為2、3、4、5、6、7、8、9、15、20、25及30 bp。在預期更多下游末端位置時,一個峰可鑑別為下游峰。在預期更多上游末端位置時,另一峰可鑑別為上游峰。在各情況下,單獨地使用其組織特異性開放染色質區域計算在此研究中研究的7種組織類型之OCF值。 D. 應用
此等以上結果顯示,有差異定相之血漿DNA片段末端可用於推斷cfDNA之組織來源。此類結果顯示,cfDNA片段化型態與開放染色質區域中之核小體定位有關係。其他結果顯示,特定組織特異性開放染色質區域的有差異定相之血漿DNA片段末端之定量量測可用於偵測組織類型中之病理學。亦可使用除血漿以外之其他游離樣品。 1. 有差異定相之血漿DNA片段末端的定量
為探索在推斷血漿DNA庫中之各種組織之相對貢獻中的可能性,吾人開發一新穎方法以量測組織特異性開放染色質區域中之上游(U)與下游(D)片段末端的差異定相。吾人通常將此策略稱為取向感知CfDNA片段化(OCF)分析,其中可使用各種OCF值。OCF值可基於在感興趣的組織中之相關開放染色質區域,相對中心的偏移位置處U與D末端信號之差異。愈多DNA來自感興趣的組織,差異愈大,該差異例如一或多個偏移區域中之下游峰2749與U末端信號2759之間的差異。
如圖27A中所示,對於向血漿中貢獻DNA之組織,可預期許多血漿DNA片段化已出現在對應組織特異性開放染色質區域之中心中的核小體空乏區域。在該種區域中,U及D末端在距中心約60 bp處展現最高讀數密度(亦即,峰),U及D末端之峰分別位於右側及左側上。在一些實例中,吾人在組織特異性開放染色質區域中量測圍繞峰之20 bp窗(例如,圖27C中之陰影區域)中U及D末端信號之差異為對應組織之OCF值。相反地,對於對應組織不向血漿中貢獻DNA之組織特異性開放染色質區域並不預期此模式(例如,圖27B中之ESC)。
因此,對於向血漿中貢獻DNA之組織,將預期對應組織特異性開放染色質區域之正OCF值。否則,OCF值應為零或負的。當然,OCF值之不同定義可具有相反關係(亦即,在存在測試組織時預期負值)。使用正值為指示之定義,負值可由有雜訊之末端信號產生,其可涉及定序偏差(例如,GC偏差),導致此等區域中之DNA略多(當其不具有開放染色質結構時)。
圖30展示根據本發明之實施例,健康非懷孕個體群組中之各種組織當中的血漿DNA片段化模式(OCF值)之定量。圖31展示根據本發明之實施例,健康個體中之各組織類型的OCF值之表。
32位健康個體中7種組織類型之OCF值展示於圖30及圖31中。所有個體對於T細胞及肝臟均展示正OCF值;另外,在所有情況下,T細胞之OCF值均高於肝臟之OCF值(P<0.001,威爾卡遜符號秩測試(Wilcoxon signed-rank test))。其他組織類型之OCF值低得多且接近或低於零。此等結果與先前資料一致,表明在健康個體中,大部分血漿DNA來源於造血系統及肝臟,前者為最主要來源(84, 102)。吾等結果因此展示OCF值在量測不同組織對cfDNA庫之相對貢獻中的效用。 2. 在非侵入性產前測試中之應用
為展現吾等方法在非侵入性產前測試中之效用,吾人自先前研究(55)擷取母親血漿DNA定序資料。如先前論述,孕婦血漿中之循環胎兒DNA大多來源於胎盤(58)。圖32A-32D展示根據本發明之實施例,血漿DNA片段化模式分析在非侵入性產前測試中之應用。圖33展示根據本發明之實施例,懷孕個體中之各組織類型的OCF值之表。
圖32A展示末三月懷孕例中之胎盤特異性開放染色質區域中的血漿DNA片段化模式。軸與類似圖類似。可觀測到與健康非懷孕個體中之共同開放染色質區域之模式(圖27A)類似的強核小體定位模式。此等觀測結果表明,血漿DNA片段化模式分析可實際上偵測母親血漿中之胎盤DNA之存在。
吾人使用來自26個頭三月懷孕例之群組的先前公開資料(55)進一步研究血漿DNA片段化模式。此群組中之各例均懷有男胎。因此,血漿DNA中之胎兒DNA分數可藉由分析與Y染色體比對之讀數來測定。吾人分析胎盤(在懷孕例中較高)及T細胞之血漿DNA片段化,其在懷孕中應隨來自母親之百分比降低而減少。
圖32B展示健康非懷孕個體與孕婦之間的T細胞之OCF值之比較。圖32C展示健康非懷孕個體與孕婦之間的胎盤之OCF值之比較。總共25,223個開放染色質區域用於T細胞,且55,537個用於胎盤。當與來自非懷孕健康個體之結果相比時,T細胞之OCF值在懷孕樣品中顯著降低, (圖32B;P<0.001,曼-惠特尼秩-和測試;圖33),僅胎盤之OCF值展示顯著提高(圖32C;P<0.001,曼-惠特尼秩-和測試)。因此,OCF值與胎盤DNA之間的相關性指示,OCF值可用於量測游離樣品中之胎兒DNA分數。
圖32D展示26位孕婦之群組中的胎盤之OCF值與胎兒DNA分數之間的相關性。在胎盤之OCF值與胎兒DNA分數之間觀測到強正相關性(圖32D;R=0.77,P<0.001,皮爾森相關性)。值得注意地,此R值高於藉由吾等先前胎兒特異性偏好末端位點方法獲得之R值(其為0.66) (55)。胎兒DNA分數為影響非侵入性產前測試之效能的最重要參數之一。此等結果因此證實有差異定相之血漿DNA片段末端在非侵入性產前測試中之潛在效用。 3. 在肝移植及肝細胞癌患者中之應用
為研究血漿DNA片段化模式分析在預測肝臟組織之貢獻中的效能,擷取來自先前報導的14位肝移植患者之群組之血漿DNA定序結果(64)。在各情況下,供者及接受者均進行基因分型,使得供者特異性資訊性SNP位點可經鑑別以推導血漿中之供者DNA分數(64)。供者特異性資訊性SNP位點具有對供者具有特異性且不在接受者中的對偶基因。圖34展示根據本發明之實施例,肝移植患者中之各組織類型的OCF值之表。最後一欄展示如使用供者特異性資訊性SNP位點測定之供者DNA分數。肝臟之OCF值與供者DNA分數之間存在相關性。
圖35A展示肝移植患者中的肝之OCF值與供者DNA分數之間的相關性。當對此資料集執行血漿DNA片段化模式分析時,可在肝臟之OCF值與供者DNA分數之間觀測到正相關性(R=0.74,P=0.0022,皮爾森相關性)。
另外,吾人亦自先前公開的肝細胞癌(HCC)患者之群組擷取血漿DNA定序資料(70)。對於此等HCC患者,血漿DNA中之腫瘤DNA分數藉由複本數畸變分析估算(70),但可使用其他技術,諸如腫瘤特異性對偶基因。經由此類分析,74個HCC血漿樣品展示血漿中存在腫瘤DNA之證據。值得注意地,在此等HCC患者中,腫瘤來源之cfDNA分子視為來源於肝臟,因為其僅在肝臟中具有腫瘤(102, 64)。
圖35B展示HCC例中之腫瘤DNA分數。圖36A-36D展示根據本發明之實施例,肝細胞癌患者中之各組織類型的OCF值之表。在肝臟之OCF值與腫瘤DNA分數之間觀測到正相關性(R=0.36,P=0.0017,皮爾森相關性)。
此外,吾人基於腫瘤DNA分數將HCC患者分為兩個子組:「低腫瘤DNA負荷」組含有腫瘤DNA負荷低於10%之患者且其餘例為「高腫瘤DNA負荷」組。此分離基於肝臟在健康個體中貢獻約10%血漿DNA (102)。
圖35C展示健康個體及HCC例(基於血漿中之腫瘤DNA負荷分成2個組)當中的T細胞之OCF值之比較。如圖35C中所示,當與健康個體相比時,兩個HCC患者組的T細胞之OCF值均顯著降低(低及高腫瘤DNA負荷組分別為P=0.0035及P<0.001,曼-惠特尼秩-和測試)。如本文中所解釋,當其他組織(在此情況下為肝臟)出現顯著貢獻變化時,T細胞之貢獻將下降。
圖35D展示健康個體及HCC例(基於血漿中之腫瘤DNA負荷分成2個組)當中的肝之OCF值之比較。圖35D中的肝臟之OCF值在低腫瘤DNA負荷組患者中未展示統計差異(P=0.080,曼-惠特尼秩-和測試),而在高腫瘤DNA負荷組患者中顯著提昇(P<0.001,曼-惠特尼秩-和測試)。綜合而言,此等結果顯示,本發明技術可應用於肝移植監測及癌症測試。 4. 在結腸直腸癌及肺癌患者中之應用
在此研究中新招募11位結腸直腸癌(CRC)患者之群組。在各情況下,血漿DNA經亞硫酸氫鹽定序(參見材料及方法部分),使得結腸貢獻可使用血漿DNA組織映射方法測定(102)。此等結果使吾人可探索cfDNA片段化模式分析在BS-seq資料中之使用。在此類個體之血漿DNA中,吾人觀測腸特異性開放染色質區域(其對應於中心中的核小體空乏及鄰近良好定相之核小體陣列)中之特徵性片段化模式。
圖29A展示根據本發明之實施例,一位CRC患者中之腸特異性開放染色質區域中的血漿DNA片段化模式。當存在具有所測試開放染色質區域之組織時,基因組覆蓋2905以與圖27A、28A及28B中類似的方式在開放染色質區域之中心展示下降。此外,U末端信號2907及D末端信號2909展示定相差異,其將產生正OCF值。
圖37A展示健康個體與CRC患者之間的T細胞之OCF值之比較。圖37B展示健康個體與CRC患者之間的腸之OCF值之比較。圖39展示根據本發明之實施例,結腸直腸癌患者中之各組織類型的OCF值之表。結腸DNA貢獻亦提供於圖39中。
CRC患者的T細胞之OCF值降低,如當另一組織之貢獻增加時所預期。圖37B展示腸開放染色質區域(使用28,456個)之OCF值之對應增加。因此,當與健康個體相比時,在CRC患者中T細胞之OCF值顯著降低,而腸之OCF值顯著提昇(圖37A及37B;均P<0.001,曼-惠特尼秩-和測試)。
圖37C展示CRC患者中的腸之OCF值與結腸DNA分數(藉由血漿DNA組織映射方法推導)之間的相關性。結腸貢獻使用血漿DNA組織映射方法測定(102)。在腸之OCF值與結腸貢獻(如使用血漿DNA組織映射方法所量測(102))之間可觀測到正相關性(圖37C;R=0.89,P<0.001,皮爾森相關性)。
另外,自Snyder等人(98)生成之資料集擷取9位肺癌患者之血漿DNA定序資料。吾人發現,血漿DNA在此等患者中之肺臟特異性開放染色質區域中展示由良好定相之核小體陣列側接之中心核小體空乏區域的特徵性片段化,亦即,有差異定相之末端標籤。
圖29B展示根據本發明之實施例,一位肺癌患者中之肺臟特異性開放染色質區域中的血漿DNA片段化模式。當存在具有所測試開放染色質區域之組織時,基因組覆蓋2955以與圖27A、28A及28B中類似的方式在開放染色質區域之中心展示下降。此外,U末端信號2957及D末端信號2959展示定相差異,其將產生正OCF值。
圖37D展示健康個體與肺癌患者之間的T細胞之OCF值之比較。圖37E展示健康個體與肺癌患者之間的肺之OCF值之比較。圖38展示根據本發明之實施例,肺癌患者中之各組織類型的OCF值之表。
肺癌患者的T細胞之OCF值降低,如當另一組織之貢獻增加時所預期。圖37E展示肺臟開放染色質區域(使用19,701個)之OCF值之對應增加。因此,與健康個體相比,T細胞之OCF值降低,而肺臟之OCF值提昇(T細胞及肺臟分別為P<0.001及0.025,曼-惠特尼秩-和測試)。 E. 取向感知技術
如上文所描述,提供使用開放染色質區域之取向感知分析進行核小體定位型態分析的技術,以及藉由此類片段化模式分析定量測定血漿DNA中之各種組織的相對貢獻。吾人亦展現在非侵入性產前測試、器官移植監測以及癌症測試中使用組織特異性開放染色質區域之取向感知分析的診斷性能力。吾人證實,血漿DNA片段化模式分析可研究核小體空乏區域及圍繞開放染色質區域之良好定相之核小體陣列中的特徵性型態。 1. 取向感知分析之實例結果之概述
追蹤cfDNA之組織來源之能力在液體活檢中,尤其在預測癌症患者中腫瘤來源中受到極大關注。吾人證實,藉由定量癌症患者中之血漿DNA片段化模式,T細胞之OCF值將降低,而腫瘤之組織來源之OCF值將增加(例如,圖32B、32C、35C、35D、37A、37B、37D及37E)。此等觀測結果與以下事實一致,在此等患者中,腫瘤組織(及瘤周組織)釋放DNA至血漿中,此:(i)將增加癌症之彼組織來源之貢獻,及(ii)將稀釋造血系統之貢獻。另外,CRC例之結果(圖37C)顯示,吾等方法與血漿DNA組織映射方法(102)高度一致。
有趣的是,血漿DNA片段化模式在亞硫酸氫鹽轉化之DNA當中保留。此有可能部分與吾等文庫製備方案相關,其中定序接附子在亞硫酸氫鹽處理之前首先連接至血漿DNA分子(85)。一些實施例可藉由以協同方式使用OCF量測及基於甲基化之組織映射兩者提供相加值以進一步增強組織來源分析之效能。此處,吾人證實,OCF分析為在不依賴甲基化分析之情況下提供組織來源資訊的一方法。此可實現成本節約。與亞硫酸氫鹽定序(BS-seq)相比,標準DNA定序實驗更便宜且包括更簡單的方案。
關於進一步效率改良,Ulz等人已證實血漿DNA覆蓋模式分析可能用於推斷基因表現,因此展現癌症患者中之腫瘤之組織來源(105)。然而,Ulz等人估算,出於此目的可能需要血漿中腫瘤DNA分數達到75% (105),此在大多數臨床情況中難以實現。相比之下,本發明技術可適用於感興趣的組織之DNA分數低得多的情況。舉例而言,在CRC例中,當結腸貢獻為僅5%時,腸之OCF值高於健康個體已經顯而易見,如圖37A、37B及39中可見。因此,此等結果表明,此等技術可適用於相對早期癌症情況,在該等情況中血漿中之腫瘤DNA負荷可能不高。
實施例可與靶向大規模並行定序技術(87)整合以分析血漿DNA。因為組織特異性開放染色質區域僅考量極小比例之人類基因組,所以經由設計雜交探針捕捉此等區域,成本可大大地降低。
實施例可包括在確定患者中疾病或病況的等級之後治療患者之疾病或病況。治療可包括任何適合療法、藥物、化學療法、輻射或手術,包括本文提及之參考文獻中描述之任何治療。參考文獻中關於治療之資訊以引用之方式併入本文中。 2. 測定組織類型之貢獻比例
圖40為根據本發明之實施例,分析生物樣品以確定混合物中第一組織類型之貢獻比例的分類之方法4000之流程圖。生物樣品包括來自包括第一組織類型之複數種組織類型的游離DNA分子之混合物。如同本文所述之其他方法,方法4000可使用電腦系統。第一組織類型之實例包括胎兒組織、腫瘤組織及來自移植器官之組織。方法4000之態樣可以與方法2300及2400類似之方式執行。
在方塊4010,鑑別距對應於第一組織類型的一或多個組織特異性開放染色質區域之中心具有指定距離的第一組基因組位置。組織特異性開放染色質區域可藉由分析第一組織類型(例如肝臟、T細胞、結腸、卵巢、乳房等)之組織樣品來鑑別。該組基因組位置可指定為距離範圍。作為實例,組織特異性開放染色質區域之數目可為至少500、1000、2000、5000、10,000、20,000、30,000、40,000、50,000或更大。
作為實例,指定距離可為距中心+/- X個鹼基對,包括值之範圍(窗),如本文所描述。因此,指定距離可包括中心之前的第一距離範圍且包括中心之後的第二距離範圍。該種組可藉由自中心之偏移及圍繞偏移之窗定義。實例偏移值為40、45、50、55、60、65、70及75 bp。其他實例窗值為2、3、4、5、6、7、8、9、10、15、20、25及30 bp。範圍可為不對稱或對稱的。
在方塊4020,分析得自個體生物樣品之第一複數個游離DNA分子。分析游離DNA分子可包括確定參考基因組中對應於游離DNA分子之兩個末端的基因組位置(末端位置)。分析亦可包括基於何種末端具有基因組位置之下限值將一個末端分類為上游末端且另一末端分類為下游末端,例如如參考基因組中所定義。各種比對/映射程序可用於確定末端之基因組位置。方塊4020之態樣可以與方法2300之方塊2320類似的方式進行。
在方塊4030,測定上游末端在第一組基因組位置之一者處之第一複數個游離DNA分子的第一數目。基於第一複數個游離DNA分子的分析來進行測定。考慮到第一組位置可定義為參考基因組中之特異性基因組座標,一旦比對DNA片段之序列讀數,上游末端位置可與第一組相比較以確定彼末端位置是否屬於第一組內。
在方塊4040,測定下游末端在第一組基因組位置之一者處之第一複數個游離DNA分子的第二數目。基於第一複數個游離DNA分子的分析來進行測定。考慮到第一組位置可定義為參考基因組中之特異性基因組座標,一旦比對DNA片段之序列讀數,下游末端位置可與第一組相比較以確定彼末端位置是否屬於第一組內。
在方塊4050,使用第一數目及第二數目計算分離值。分離值可以多種方式確定且可包括比率及/或差值。分離值可由多個貢獻構成。在使用兩個範圍(例如,在對應於第一組織類型的組織特異性開放染色質區域中心之任一側)之實施例中,分離值可具有就第一範圍以第一方式(例如,第一式)確定的對分離值之第一貢獻及就第二範圍以第二方式(例如,第二式)確定的對分離值之第二貢獻。
在一個實例中,分離值可為OCF值,例如如由以下所定義:
Figure 02_image003
,其中D為下游數目且U為上游數目。峰位置可對應於自中心之偏移且倉值對應於圍繞峰之窗尺寸。可對各位置進行加和。該種和可以任何次序進行,例如確定一個峰之總D及彼峰之總U。可確定圍繞各中心之一或兩個峰的貢獻。在預期更多下游末端位置時,一個峰可鑑別為下游峰。在預期更多上游末端位置時,另一峰可鑑別為上游峰。當使用兩個峰時,可確定及使用兩個下游及兩個上游數目,例如如以上式中。作為另一實例,可確定各位置之分離值,指定式用於彼位置,例如視該位置與何種峰相關聯而定,不同式可用於彼位置。因此,第一組之各位置可具有由一式界定之貢獻,該式包括在彼位置具有上游末端之游離DNA片段的第一數目及在彼位置具有下游末端之游離DNA片段的第二數目。
在一特定實施例中,第一範圍在比中心左移50與70個鹼基之間且第二範圍在右移50與70個鹼基之間,且其中分離值包括:
Figure 02_image005
,其中U為第一數目且D為第二數目。
第一數目可為第一組中之一個位置(例如,第一範圍或第二範圍中之特定位置)處之值U且第二數目可為彼相同位置處之值D。作為另一實例,第一數目可為第一範圍(例如,對應於上游或下游峰)中具有上游末端之游離DNA的數目之和,且第二數目可為相同第一範圍中之游離DNA的數目之和。分離值可使用來自每一個範圍之數目對確定。舉例而言,可測定在第二範圍(例如,以上OCF式中之第二求和貢獻)中之一位置具有上游末端的游離DNA之第三數目,且可測定在第二範圍中之一位置具有下游末端的游離DNA之第四數目。對分離值之第二貢獻可使用例如如上文所提供之第三及第四數目確定。
其他實例分離值可包括和之比率而非差值。舉例而言,峰區域中之D末端之和除以峰區域中之U末端之和,或兩個數目之其他比率,諸如分子或分母為峰區域中之具有任一末端的讀數之總量。舉例而言,分離值可包括第一數目與第二數目之比率。當使用多於一個峰時,可以不同方式確定各峰之比率(或其他函數)。
在方塊4060,第一組織類型之貢獻比例的分類藉由對分離值與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定,該等校準樣品中之第一組織類型的貢獻比例已知。胎兒組織為第一組織類型之實例展示於圖32D中,來自移植肝器官之供者DNA之實例展示於圖35A中,且肝臟為第一組織類型之腫瘤DNA之實例展示於圖35B中。作為一實例,貢獻比例之分類可對應於高於指定百分比之範圍。另一實例可對應於存在癌症以及如本文關於方塊2350所提供之其他實例,以及如本文所描述之進一步動作,諸如治療。方塊4060之態樣可以與方塊2350類似之方式執行,例如涉及用於分類之值及與校準值比較,以及後續治療步驟。 3. 測定病理學
圖41為根據本發明之實施例,分析生物樣品以確定對於混合物中之第一組織類型是否存在病理學的分類之方法4100之流程圖。生物樣品包括來自包括第一組織類型之複數種組織類型的游離DNA分子之混合物。如同本文所述之其他方法,方法4100可使用電腦系統。第一組織類型之實例包括腫瘤組織及來自移植器官之組織。方法4100之態樣可以與方法2300、2400及4100類似之方式執行。
在方塊4110,鑑別距對應於第一組織類型的一或多個組織特異性開放染色質區域之中心具有指定距離的第一組基因組位置。方塊4110可以與圖40之方塊4010類似之方式執行。
在方塊4120,分析得自個體生物樣品之第一複數個游離DNA分子。分析游離DNA分子可包括確定參考基因組中之對應於游離DNA分子之兩個末端的基因組位置(末端位置)。分析亦可包括基於何種末端具有基因組位置之下限值將一個末端分類為上游末端且另一末端分類為下游末端,例如如參考基因組中所定義。方塊4120可以與圖40之方塊4020類似之方式執行。
在方塊4130,測定上游末端在第一組基因組位置中之一者處之第一複數個游離DNA分子的第一數目。方塊4130可以與圖40之方塊4030類似之方式執行。
在方塊4140,測定下游末端在第一組基因組位置中之一者處之第一複數個游離DNA分子的第二數目。方塊4140可以與圖40之方塊4040類似之方式執行。
在方塊4150,使用第一數目及第二數目計算分離值。方塊4150可以與圖40之方塊4050類似之方式執行。
在方塊4160,基於對分離值與參考值進行比較來確定對於個體之第一組織類型是否存在該病理學的分類。作為實例,方塊4160可使用具有已知分類之訓練樣品確定的參考值,已量測該等樣品之分離值(例如,OCF)。圖37B及37E提供一組實例訓練樣品,其中病理學為來自特定組織(亦即肺臟)之癌症。因此,病理學可為第一組織類型之癌症。癌症之等級亦可更具體地確定,例如如圖35C或35D中所示。
因此,參考值可由不具有病理學之一或多個對照樣品及/或由確實具有病理學之一或多個對照樣品確定。
病理學之另一實例為移植器官之排斥。若移植器官受排斥,則來自彼器官之DNA之分數濃度將升高至異常水準。病理學之另一實例為來自第一組織類型之游離DNA的異常高分數濃度。其他實例病理學可包括自體免疫攻擊(例如,損傷腎臟之狼瘡性腎炎)、發炎性疾病(例如,肝炎)及缺血組織損傷(例如,心肌梗塞)。個體之健康狀態可視為無病理學之分類。 VIII. 材料及方法 A. 樣品處理.
將外周血液收集於含EDTA之管中且在4℃以1,600×g離心10分鐘。血漿部分在4℃以16,000×g再離心10分鐘以獲得游離血漿且儲存於-80℃下。將白及紅血球部分在室溫下用ACK溶解緩衝液(Gibco)以1:10比率處理5分鐘以移除紅血球。混合物在4℃以300×g離心10分鐘。丟棄具有溶解之紅血球的上清液且將白血球集結粒用磷酸鹽緩衝生理食鹽水(Gibco)洗滌。白血球部分在4℃以300×g再離心10分鐘以移除殘餘紅血球。約50,000個細胞用於下游ATAC-seq文庫製備。
收集來自胎盤之組織且將其用磷酸鹽緩衝生理食鹽水(Gibco)洗滌,且隨後藉由Medimachine (BD Biosciences)分解為單一細胞溶液。來自胎盤組織的融合細胞滋養層及細胞滋養層之陽性選擇分別用針對CD105之抗體(Miltenyi Biotec)及針對HAI-I之抗體(Abcam)處理。將均質化胎盤細胞藉由用磷酸鹽緩衝生理食鹽水(Gibco)稀釋MACS BSA儲備溶液(Miltenyi Biotec)再懸浮於80 μL 0.5%牛血清白蛋白緩衝液中。為分離融合細胞滋養層,添加20 μL CD105微珠粒(MicroBeads) (Miltenyi Biotec)且將其在4℃下培育15分鐘。在融合細胞滋養層結合至經抗體塗佈之珠粒上之後,吾人藉由添加2 mL緩衝液洗滌細胞且以200×g離心10分鐘。將經標記細胞再懸浮於500 μL緩衝液中用於分離步驟。為分離細胞滋養層,添加20 μL HAI-I抗體(Abcam)及80 μL緩衝液至均質化胎盤組織且將其在4℃下培育15分鐘。在培育之後,添加2 mL緩衝液以藉由以200×g離心10分鐘洗掉過量初級抗體。將細胞再懸浮於80 μL緩衝液中且添加20 μL二級抗小鼠IgG微珠粒(Miltenyi Biotec),且將其在4℃下培育15分鐘。類似於第一抗體,添加2 mL緩衝液以藉由以200×g離心10分鐘洗掉過量初級抗體。將經標記細胞再懸浮於500 μL緩衝液中用於分離步驟。各細胞類型之各樣品使用一個MS管柱(Miltenyi Biotec)。吾人在施加經標記細胞之前用500 μL緩衝液沖洗管柱。藉由將細胞施加至管柱中,經標記細胞連接至管柱中之磁性珠粒上且未標記細胞留在流過物中。吾人每次用500 μL緩衝液洗滌管柱3次。將分選的融合細胞滋養層及細胞滋養層溶離於1 mL緩衝液中且藉由血球計計數以等分50,000個細胞/樣品用於ATAC-seq。 B. ATAC-seq文庫製備及定序.
ATAC-seq如所描述進行(35)。簡言之,將50,000個細胞在4℃以500×g旋轉5分鐘,且隨後使用冷溶解緩衝液(10 mM Tris-HCl,pH 7.4 (Ambion),10 mM NaCl (Ambion),3 mM MgCl2 (Ambion)及0.1% IGEPAL CA-630 (Sigma))進行細胞溶解。混合物立即在4℃以500×g離心10分鐘。將細胞核再懸浮於轉座酶反應混合物中,該混合物含有25 μL 2× TD緩衝液、2.5 μL來自Nextera DNA文庫製備套組(Illumina)之轉座酶及22.5 μL無核酸酶水。轉座及標記化在37℃下進行30分鐘。在轉座之後立即用Qiagen MinElute套組(Qiagen)根據製造商之說明書純化樣品。將純化之DNA片段使用以下條件與1× NEBnext PCR主混合物(New England BioLabs)及1.25 μM用於PCR擴增之Nextera PCR引子1及2 (IDT)混合:72℃持續5分鐘;98℃持續30秒;98℃持續10秒、63℃持續30秒及72℃持續1分鐘的15個循環之熱循環。將文庫用Qiagen PCR提純套組(Qiagen)純化。將文庫藉由2100生物分析儀(Agilent)分析且藉由KAPA文庫定量套組(Kapa Biosystems)定量,隨後定序。在Hi-Seq 2500 (Illumina)上進行2×75成對末端定序。 C. 定序資料之比對.
在實例中,使用SOAP2比對器(53)以成對末端模式將成對末端讀數映射至參考人類基因組(NCBI37/hg19)。在比對過程中每個讀數允許兩個錯配。僅兩個末端與相同染色體以正確取向比對且成對末端讀數跨越≤ 600 bp用於下游分析。可使用其他比對技術(軟體),諸如BLAST、BLAT、BWA、Bowtie、STAR等。若對整個DNA片段定序,則不需要成對末端模式。此外,錯配之數目可視所需準確性而改變。 D. 血漿DNA資料收集及可用性
健康個體、HCC患者及懷孕例之血漿資料自European Genome-Phenome Archive (EGA;寄存編號EGAS00001001024及EGAS00001001882)擷取(70, 55)。吾等先前研究中所描述的肝移植患者之血漿DNA定序資料(64)已寄存在EGA (寄存編號EGAS00001003116)。肺癌例之血漿DNA定序資料獲自Gene Expression Omnibus (GEO;寄存編號GSE71378) (98)。
結腸直腸癌患者為此研究中新招募。將外周血液樣品收集至含EDTA之管中。血液樣品在4℃以1,600×g離心10分鐘。收集血漿部分且在4℃以16,000×g再離心10分鐘以移除血球。亞硫酸氫鹽轉化係如先前所描述執行(85)。DNA文庫係使用KAPA HTP文庫製備套組(Kapa Biosystems)根據製造商之說明書製備(56)且在HiSeq 2000系統(Illumina)上以75 × 2 (成對末端模式)循環模式用TruSeq SBS套組v3 (Illumina)定序。如先前所描述對BS-seq資料進行分析,包括品質控制、序列比對、甲基化狀態測定及結腸貢獻推斷(71, 102)。此等樣品之中值定序深度為3.2× (範圍:0.6-6.4×;圖39)單倍體人類基因組覆蓋。 E. 組織特異性開放染色質區域
開放染色質區域為基因組中之重要調節元件且為高度組織特異性的。活性啟動子為開放染色質區域之一種類型。其他類型包括增強子及絕緣子。開放染色質區域可使用感興趣的組織之公開Dnase-seq資料確定。Dnase-seq為使用去氧核糖核酸酶I核酸內切酶處理細胞基因組DNA之實驗程序,其偏好切割非核小體結合DNA。因此,開放染色質區域中之DNA經切割及收集用於定序。因此,吾人可將此等DNA座標鑑別為開放染色質區域,例如如圖25D中所示。對於各區域,獲得其起點及末端之基因組座標,且中間座標(亦即,(起點+末端)/2)可用作中心。
在自Dnase-seq資料獲得各組織類型之開放染色質區域之後,開放染色質區域可在組織類型中相互比較,其中僅為一種組織類型特有者保留且定義為「組織特異性」開放染色質區域用於進一步分析,如本文所描述。對於此等組織特異性開放染色質區域,核小體僅良好定位在對應組織類型中,因此使得可測定血漿DNA中之貢獻比例。除Dnase-seq以外,鑑別開放染色質區域之其他實例方法包括FAIRE-seq、ATAC-seq、MNASE-seq及CTCF轉錄因子上之ChIP-seq。
在一些實施例中,吾人使用公開可用之DNase-seq (去氧核糖核酸酶I超敏性位點定序)資料發掘開放染色質區域。T細胞、胎盤、肺臟、卵巢、乳房及小腸之DNase-seq資料獲自RoadMap Epigenomics專案(93)。肝臟及ESC之DNase-seq資料獲自ENCODE專案(104)。對於各組織類型,下載原始定序資料,且使用bowtie比對軟體(1.1.1版)將其與參考人類基因組(UCSC hg19)比對(76)。隨後,使用MACS (用於ChIP-Seq的基於模型之分析)軟體(2.0.9版)確定開放染色質區域(110, 74)。可使用其他參考基因組及比對軟體。
在此類分析中,ChIP-seq (染色質免疫共沉澱以及大規模並行DNA定序)對照組資料用作陰性對照,且0.01之Q值(亦即,反映假髮現率之調節P值)用作臨限值以判讀峰。對於肺臟,吾人分析IMR90 (人類胎兒肺臟)及HLF (人類肺臟纖維母細胞)細胞株兩者之DNase-seq資料,且僅鑑別存在於兩種樣品中之峰。隨後,對於各組織類型,吾人將其峰與所有其他組織比較且僅保留此組織類型特有且在50-200 bp之尺寸範圍內的彼等作為最終組織特異性開放染色質區域。 IX. 例示性系統
圖42說明根據本發明之一實施例的量測系統4200。如所展示,系統在樣品固持器4210內包括樣品4205,諸如游離DNA分子,其中樣品4205可與分析法4208接觸以提供物理特徵4215之信號。樣品固持器之一實例可為包括分析法之探針及/或引子的流槽或液滴藉以移動之管(在包括液滴之分析法的情況下)。用偵測器4220偵測樣品之物理特徵4215 (例如,螢光強度、電壓或電流)。偵測器可按時間間隔(例如,週期性時間間隔)進行量測,獲得構成資料信號之資料點。在一個實施例中,類比至數位轉換器以複數倍將來自偵測器之類比信號轉化成數位形式。樣品固持器4210及偵測器4220可形成分析裝置,例如根據本文所描述之實施例執行定序之定序裝置。資料信號4225係自偵測器4220發送至邏輯系統4230。資料信號4225可儲存於局部記憶體4235、外部記憶體4240或儲存裝置4245中。
邏輯系統4230可為或可包括電腦系統、ASIC、微處理器等。其亦可包括或耦接至顯示器(例如,監視器、LED顯示器等)及使用者輸入裝置(例如,滑鼠、鍵盤、按鈕等)。邏輯系統4230及其他組件可為獨立或網路連接的電腦系統之一部分,或其可直接連接至或併入包括偵測器4220及/或樣品固持器4210之裝置(例如,定序裝置)。邏輯系統4230亦可包括在處理器4250中執行的軟體。邏輯系統4230可包括電腦可讀媒體,其儲存用於控制系統4200執行本文所描述之方法中之任一者的指令。舉例而言,邏輯系統4230可向包括樣品固持器4210之系統提供命令,使得定序或其他物理操作得以執行。此類物理操作可以特定次序執行,例如以特定次序添加及移除試劑。此類物理操作可由可用以獲得樣品及執行分析法的例如包括機器人臂之機器人系統執行。
本文所提及之任何電腦系統(例如,邏輯系統4230)可利用任何適合數目個子系統。此類子系統之實例顯示於圖43中之電腦系統10中。在一些實施例中,電腦系統包括單個電腦設備,其中子系統可為電腦設備之組件。在其他實施例中,電腦系統可包括具有內部組件之多個電腦設備,其各自為一個子系統。電腦系統可包括桌上型及膝上型電腦、平板電腦、移動電話及其他移動裝置。
圖43中所示之子系統經由系統匯流排75互連。其他子系統,諸如列印機74、鍵盤78、儲存裝置79、與顯示配接器82耦接之監視器76亦有顯示。耦接至I/O控制器71之外圍裝置及輸入/輸出(I/O)裝置可藉由任何數目之在此項技術中已知的構件(諸如輸入/輸出(I/O)埠77 (例如,USB、FireWire® ))連接至電腦系統。舉例而言,I/O埠77或外部介面81 (例如乙太網路(Ethernet)、Wi-Fi等)可用於將電腦系統10連接至廣域網路(諸如網際網路)、滑鼠輸入裝置或掃描儀。經由系統匯流排75之互連使得中央處理器73與各子系統連通,且控制來自系統記憶體72或儲存裝置79 (例如,固定磁碟,諸如硬碟機,或光碟)之複數個指令的執行,以及子系統之間的資訊交換。系統記憶體72及/或儲存裝置79可包括電腦可讀媒體。另一子系統為資料收集裝置85,諸如照相機、麥克風、加速計及其類似物。本文所提及之任何資料可自一個組件輸出至另一組件且可輸出至使用者。
電腦系統可包括複數個相同組件或子系統,例如藉由外部介面81、藉由內部介面、或經由可自一個組件至另一組件連接及移除的可移除儲存裝置連接在一起。在一些實施例中,電腦系統、子系統或設備可經網路通信。在此等情況下,可將一台電腦視為用戶端且另一台電腦視為伺服器,其中每一者可為同一電腦系統之一部分。用戶端及伺服器各自可包括多個系統、子系統或組件。
實施例之態樣可以控制邏輯形式使用硬體電路(例如特殊應用積體電路或場可程式化閘陣列)及/或使用具有通常可程式化處理器之電腦軟體以模組化或整合式方式實施。如本文所用,處理器可包括單核處理器、同一個積體晶片上之多核處理器或單一電路板或網路硬體以及專用硬體上之多個處理單元。基於本發明及本文所提供之教示,一般熟習此項技術者將知道及瞭解使用硬體及硬體與軟體之組合來實施本發明之實施例的其他方式及/或方法。
本申請案中描述之任何軟體組件或功能可實施為待由使用任何適合之電腦語言(諸如,Java、C、C++、C#、Objective-C、Swift)或腳本語言(諸如Perl或Python)的處理器使用(例如)習知或目標定向技術來執行的軟體程式碼。軟體程式碼可以一系列指令或命令形式儲存於電腦可讀媒體上以用於儲存及/或傳輸。適合的非暫時性電腦可讀媒體可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒體(諸如硬碟機或軟碟機),或光學媒體,諸如光盤(CD)或DVD (數位化通用光碟)、快閃記憶體,及其類似物。電腦可讀媒體可為此類儲存或傳輸裝置之任何組合。
該等程序亦可使用適用於經由有線、光學及/或符合多種協定之無線網路(包括網際網路)傳輸的載波信號來編碼及傳輸。因此,電腦可讀媒體可使用以此類程式編碼的資料信號建立。以程式碼編碼之電腦可讀媒體可與相容裝置一起封裝或與其他裝置分開提供(例如經由網際網路下載)。任何此類電腦可讀媒體可存在於單個電腦產品(例如硬碟機、CD或整體電腦系統)之上或之內,且可存在於系統或網路內不同電腦產品之上或之內。電腦系統可包括用於向使用者提供本文所提及之任何結果的監視器、列印機或其他適合顯示器。
本文所描述之任何方法可完全或部分地使用電腦系統來進行,該電腦系統包括一或多個處理器,該或該等處理器可經組態以執行該等步驟。因此,實施例可針對於經組態以執行本文所描述之任何方法之步驟的電腦系統,潛在地用不同組件執行各別步驟或各別步驟組。儘管以帶編號之步驟形式呈現,但本文中之方法之步驟可同時或在不同時間或以不同順序執行。另外,此等步驟之一部分可與其他方法之其他步驟之一部分一起使用。另外,步驟之全部或一部分可視情況存在。另外,任何方法中之任何步驟可使用用於執行此等步驟的模組、單元、電路或其他構件來執行。
可在不脫離本發明之實施例之精神及範疇的情況下以任何適合之方式組合特定實施例之特定細節。然而,本發明之其他實施例可針對於與各個別態樣或此等個別態樣之特定組合相關的特定實施例。
已出於說明及描述之目的呈現本發明之實施例的上文描述。該描述並不意欲為窮舉的或將本發明限制於所描述之精確形式,且鑒於以上教示,許多修改及變化為可能的。
除非特別指示,否則「一(a/an)」或「該(the)」之敍述意謂「一或多個(種)」。除非特別指示,否則「或」之使用意欲意謂「包括性的或」,而非「互斥性的或」。提及「第一」組件不一定需要提供第二組件。此外,除非有明確陳述,否則提及「第一」或「第二」組件不會將所提及組件限於特定位置。術語「基於」意欲意謂「至少部分地基於」。
本文所提及之所有專利、專利申請案、公開案及描述均以全文引用之方式併入用於所有目的。不承認任一者為先前技術。 X. 參考文獻 1. Lo YMD, et al. (1997) Presence of fetal DNA in maternal plasma and serum. Lancet 350(9076):485-487. 2. Lo YMD, et al. (1998) Presence of donor-specific DNA in plasma of kidney and liver-transplant recipients. Lancet 351(9112):1329-1330. 3. Ulz P, Heitzer E, Geigl JB, & Speicher MR (2017) Patient monitoring through liquid biopsies using circulating tumor DNA. Int J Cancer 141(5):887-896. 4. Cohen JD, et al. (2018) Detection and localization of surgically resectable cancers with a multi-analyte blood test. Science 359(6378):926-930. 5. Schutz E, et al. (2017) Graft-derived cell-free DNA, a noninvasive early rejection and graft damage marker in liver transplantation: A prospective, observational, multicenter cohort study. PLoS Med 14(4):e1002286. 6. Chan KCA, et al. (2017) Analysis of plasma Epstein-Barr virus DNA to screen for nasopharyngeal cancer. N Engl J Med 377(6):513-522. 7. Lehmann-Werman R, et al. (2016) Identification of tissue-specific cell death using methylation patterns of circulating DNA. Proc Natl Acad Sci U S A 113(13):E1826-1834. 8. van Opstal D, et al. (2017) Origin and clinical relevance of chromosomal aberrations other than the common trisomies detected by genome-wide NIPS: results of the TRIDENT study. Genet Med Oct 2. doi: 10.1038/gim.2017.132. 9. Lo YMD, et al. (2010) Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus. Sci Transl Med 2(61):61ra91. 10. Struhl K & Segal E (2013) Determinants of nucleosome positioning. Nat Struct Mol Biol 20(3):267-273. 11. Chim SSC, et al. (2005) Detection of the placental epigenetic signature of the maspin gene in maternal plasma. Proc Natl Acad Sci U S A 102(41):14753-14758. 12. Sun K, et al. (2015) Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. Proc Natl Acad Sci U S A 112(40):E5503-5512. 13. Lui YYN, et al. (2002) Predominant hematopoietic origin of cell-free DNA in plasma and serum after sex-mismatched bone marrow transplantation. Clin Chem 48(3):421-427. 14. Chan KCA, et al. (2004) Size distributions of maternal and fetal DNA in maternal plasma. Clin Chem 50(1):88-92. 15. Sun K, et al. (2018) Noninvasive reconstruction of placental methylome from maternal plasma DNA: potential for prenatal testing and monitoring. Prenat Diagn 38(3):196-203. 16. Sun K, et al. (2017) COFFEE: control-free noninvasive fetal chromosomal examination using maternal plasma DNA. Prenat Diagn 37(4):336-340. 17. Yu SCY, et al. (2014) Size-based molecular diagnostics using plasma DNA for noninvasive prenatal testing. Proc Natl Acad Sci U S A 111(23):8583-8588. 18. Cirigliano V, Ordonez E, Rueda L, Syngelaki A, & Nicolaides KH (2017) Performance of the neoBona test: a new paired-end massively parallel shotgun sequencing approach for cell-free DNA-based aneuploidy screening. Ultrasound Obstet Gynecol 49(4):460-464. 19. Zhang L, Zhu Q, Wang H, & Liu S (2017) Count-based size-correction analysis of maternal plasma DNA for improved noninvasive prenatal detection of fetal trisomies 13, 18, and 21. Am J Transl Res 9(7):3469-3473. 20. Yu SCY, et al. (2013) High-resolution profiling of fetal DNA clearance from maternal plasma by massively parallel sequencing. Clin Chem 59(8):1228-1237. 21. Chan KCA, et al. (2016) Second generation noninvasive fetal genome analysis reveals de novo mutations, single-base parental inheritance, and preferred DNA ends. Proc Natl Acad Sci U S A 113(50):E8159-E8168. 22. Jahr S, et al. (2001) DNA fragments in the blood plasma of cancer patients: quantitations and evidence for their origin from apoptotic and necrotic cells. Cancer Res 61(4):1659-1665. 23. Straver R, Oudejans CB, Sistermans EA, & Reinders MJ (2016) Calculating the fetal fraction for noninvasive prenatal testing based on genome-wide nucleosome profiles. Prenat Diagn 36(7):614-621. 24. Snyder MW, Kircher M, Hill AJ, Daza RM, & Shendure J (2016) Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues-of-origin. Cell 164(1-2):57-68. 25. Ivanov M, Baranova A, Butler T, Spellman P, & Mileyko V (2015) Non-random fragmentation patterns in circulating cell-free DNA reflect epigenetic regulation. BMC Genomics 16 Suppl 13:S1. 26. Chiu RWK, et al. (2008) Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma. Proc Natl Acad Sci U S A 105(51):20458-20463. 27. DeLong ER, DeLong DM, & Clarke-Pearson DL (1988) Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 44(3):837-845. 28. Jiang P, et al. (2015) Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients. Proc Natl Acad Sci U S A 112(11):E1317-1325. 29. Valouev A, et al. (2011) Determinants of nucleosome organization in primary human cells. Nature 474(7352):516-520. 30. Gaffney DJ, et al. (2012) Controls of nucleosome positioning in the human genome. PLoS Genet 8(11):e1003036. 31. Lam WKJ, et al. (2017) DNA of erythroid origin is present in human plasma and informs the types of anemia. Clin Chem 63(10):1614-1623. 32. Roadmap Epigenomics Consortium, et al. (2015) Integrative analysis of 111 reference human epigenomes. Nature 518(7539):317-330. 33. Jiang C & Pugh BF (2009) Nucleosome positioning and gene regulation: advances through genomics. Nat Rev Genet 10(3):161-172. 34. Horlbeck MA, et al. (2016) Nucleosomes impede Cas9 access to DNA in vivo and in vitro. Elife 5:e12677. 35. Buenrostro JD, Giresi PG, Zaba LC, Chang HY, & Greenleaf WJ (2013) Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA-binding proteins and nucleosome position. Nat Methods 10(12):1213-1218. 36. Mueller B, et al. (2017) Widespread changes in nucleosome accessibility without changes in nucleosome occupancy during a rapid transcriptional induction. Genes Dev 31(5):451-462. 37. Buenrostro JD, Wu B, Chang HY, & Greenleaf WJ (2015) ATAC-seq: a method for assaying chromatin accessibility genome-wide. Curr Protoc Mol Biol 109:21.29.1-9. 38. Schep AN, et al. (2015) Structured nucleosome fingerprints enable high-resolution mapping of chromatin architecture within regulatory regions. Genome Res 25(11):1757-1770. 39. Chodavarapu RK, et al. (2010) Relationship between nucleosome positioning and DNA methylation. Nature 466(7304):388-392. 40. Jensen TJ, et al. (2015) Whole genome bisulfite sequencing of cell-free DNA and its cellular contributors uncovers placenta hypomethylated domains. Genome Biol 16:78. 41. Lun FMF, et al. (2013) Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA. Clin Chem 59(11):1583-1594. 42. Jiang P, et al. (2017) Gestational age assessment by methylation and size profiling of maternal plasma DNA: a feasibility study. Clin Chem 63(2):606-608. 43. Schroeder DI, et al. (2013) The human placenta methylome. Proc Natl Acad Sci U S A 110(15):6037-6042. 44. Lee JY & Lee TH (2012) Effects of DNA methylation on the structure of nucleosomes. J Am Chem Soc 134(1):173-175. 45. Choy JS, et al. (2010) DNA methylation increases nucleosome compaction and rigidity. J Am Chem Soc 132(6):1782-1783. 46. Collings CK, Waddell PJ, & Anderson JN (2013) Effects of DNA methylation on nucleosome stability. Nucleic Acids Res 41(5):2918-2931. 47. Rose NR & Klose RJ (2014) Understanding the relationship between DNA methylation and histone lysine methylation. Biochim Biophys Acta 1839(12):1362-1372. 48. Soppe WJ, et al. (2002) DNA methylation controls histone H3 lysine 9 methylation and heterochromatin assembly in Arabidopsis. EMBO J 21(23):6549-6559. 49. Simon M, et al. (2011) Histone fold modifications control nucleosome unwrapping and disassembly. Proc Natl Acad Sci U S A 108(31):12711-12716. 50. Ehrlich M (2009) DNA hypomethylation in cancer cells. Epigenomics 1(2):239-259. 51. Chan KCA, et al. (2013) Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing. Proc Natl Acad Sci U S A 110(47):18761-18768. 52. Holtan SG, Creedon DJ, Haluska P, & Markovic SN (2009) Cancer and pregnancy: parallels in growth, invasion, and immune modulation and implications for cancer therapeutic agents. Mayo Clin Proc 84(11):985-1000. 53. Li R, et al. (2009) SOAP2: an improved ultrafast tool for short read alignment. Bioinformatics 25(15):1966-1967. 54. Chan KCA, Jiang P, Chan CW, Sun K, Wong J, Hui EP, Chan SL, Chan WC, Hui DS, Ng SS et al. 2013a. Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc Natl Acad Sci U S A 110 (47): 18761-18768. 55. Chan KCA, Jiang P, Sun K, Cheng YK, Tong YK, Cheng SH, Wong AI, Hudecova I, Leung TY, Chiu RWK et al. 2016. Second generation noninvasive fetal genome analysis reveals de novo mutations, single-base parental inheritance, and preferred DNA ends.Proc Natl Acad Sci U S A 113 (50): E8159-E8168. 56. Chan KCA, Jiang P, Zheng YW, Liao GJ, Sun H, Wong J, Siu SS, Chan WC, Chan SL, Chan AT et al. 2013b. Cancer genome scanning in plasma: detection of tumor-associated copy number aberrations, single-nucleotide variants, and tumoral heterogeneity by massively parallel sequencing.Clin Chem 59 (1): 211-224. 57. Chan KCA, Woo JKS, King A, Zee BCY, Lam WKJ, Chan SL, Chu SWI, Mak C, Tse IOL, Leung SYM et al. 2017. Analysis of plasma Epstein-Barr virus DNA to screen for nasopharyngeal cancer.N Engl J Med 377 (6): 513-522. 58. Chim SSC, Tong YK, Chiu RW, Lau TK, Leung TN, Chan LY, Oudejans CB, Ding C, Lo YM. 2005. Detection of the placental epigenetic signature of the maspin gene in maternal plasma.Proc Natl Acad Sci U S A 102 (41): 14753-14758. 59. Christie EL, Fereday S, Doig K, Pattnaik S, Dawson SJ, Bowtell DDL. 2017. Reversion of BRCA1/2 germline mutations detected in circulating tumor DNA from patients with high-grade serous ovarian cancer.J Clin Oncol 35 (12): 1274-1280. 60. Cleveland WS. 1979. Robust locally weighted regression and smoothing scatterplots.Journal of the American Statistical Association 74 (368): 829-836. 61. Cohen JD, Li L, Wang Y, Thoburn C, Afsari B, Danilova L, Douville C, Javed AA, Wong F, Mattox A et al. 2018. Detection and localization of surgically resectable cancers with a multi-analyte blood test.Science 359 (6378): 926-930. 62. Eisenberg E, Levanon EY. 2013. Human housekeeping genes, revisited.Trends Genet 29 (10): 569-574. 63. Gaffney DJ, McVicker G, Pai AA, Fondufe-Mittendorf YN, Lewellen N, Michelini K, Widom J, Gilad Y, Pritchard JK. 2012. Controls of nucleosome positioning in the human genome.PLoS Genet 8 (11): e1003036. 64. Gai W, Ji L, Lam WKJ, Sun K, Jiang P, Chan AWH, Wong J, Lai PBS, Ng SSM, Ma BBY et al. 2018. Liver- and colon-specific DNA methylation markers in plasma for investigation of colorectal cancers with or without liver metastases.Clin Chem (doi: 10.1373/clinchem.2018.290304). 65. Grunau C, Clark SJ, Rosenthal A. 2001. Bisulfite genomic sequencing: systematic investigation of critical experimental parameters.Nucleic Acids Res 29 (13): E65-65. 66. Hulbert A, Jusue-Torres I, Stark A, Chen C, Rodgers K, Lee B, Griffin C, Yang A, Huang P, Wrangle J et al. 2017. Early detection of lung cancer using DNA promoter hypermethylation in plasma and sputum.Clin Cancer Res 23 (8): 1998-2005. 67. Ivanov M, Baranova A, Butler T, Spellman P, Mileyko V. 2015. Non-random fragmentation patterns in circulating cell-free DNA reflect epigenetic regulation.BMC Genomics 16 Suppl 13 : S1. 68. Jahr S, Hentze H, Englisch S, Hardt D, Fackelmayer FO, Hesch RD, Knippers R. 2001. DNA fragments in the blood plasma of cancer patients: quantitations and evidence for their origin from apoptotic and necrotic cells.Cancer Res 61 (4): 1659-1665. 69. Jiang C, Pugh BF. 2009. Nucleosome positioning and gene regulation: advances through genomics.Nat Rev Genet 10 (3): 161-172. 70. Jiang P, Chan CW, Chan KC, Cheng SH, Wong J, Wong VW, Wong GL, Chan SL, Mok TS, Chan HL et al. 2015. Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients.Proc Natl Acad Sci U S A 112 (11): E1317-1325. 71. Jiang P, Sun K, Lun FMF, Guo AM, Wang H, Chan KCA, Chiu RWK, Lo YMD, Sun H. 2014. Methy-pipe: an integrated bioinformatics pipeline for whole genome bisulfite sequencing data analysis.PLoS One 9 (6): e100360. 72. Kang S, Li Q, Chen Q, Zhou Y, Park S, Lee G, Grimes B, Krysan K, Yu M, Wang W et al. 2017. CancerLocator: non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA.Genome Biol 18 (1): 53. 73. Kapushesky M, Emam I, Holloway E, Kurnosov P, Zorin A, Malone J, Rustici G, Williams E, Parkinson H, Brazma A. 2010. Gene expression atlas at the European bioinformatics institute.Nucleic Acids Res 38 (Database issue): D690-698. 74. Koohy H, Down TA, Spivakov M, Hubbard T. 2014. A comparison of peak callers used for DNase-Seq data.PLoS One 9 (5): e96303. 75. Lam WKJ, Gai W, Sun K, Wong RSM, Chan RWY, Jiang P, Chan NPH, Hui WWI, Chan AWH, Szeto CC et al. 2017. DNA of erythroid origin is present in human plasma and informs the types of anemia.Clin Chem 63 (10): 1614-1623. 76. Langmead B, Trapnell C, Pop M, Salzberg SL. 2009. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome.Genome Biol 10 (3): R25. 77. Lehmann-Werman R, Magenheim J, Moss J, Neiman D, Abraham O, Piyanzin S, Zemmour H, Fox I, Dor T, Grompe M et al. 2018. Monitoring liver damage using hepatocyte-specific methylation markers in cell-free circulating DNA.JCI Insight 3 (12). 78. Lehmann-Werman R, Neiman D, Zemmour H, Moss J, Magenheim J, Vaknin-Dembinsky A, Rubertsson S, Nellgard B, Blennow K, Zetterberg H et al. 2016. Identification of tissue-specific cell death using methylation patterns of circulating DNA.Proc Natl Acad Sci U S A 113 (13): E1826-1834. 79. Li W, Li Q, Kang S, Same M, Zhou Y, Sun C, Liu CC, Matsuoka L, Sher L, Wong WH et al. 2018. CancerDetector: ultrasensitive and non-invasive cancer detection at the resolution of individual reads using cell-free DNA methylation sequencing data.Nucleic Acids Res (doi: 10.1093/nar/gky423). 80. Lister R, O'Malley RC, Tonti-Filippini J, Gregory BD, Berry CC, Millar AH, Ecker JR. 2008. Highly integrated single-base resolution maps of the epigenome in Arabidopsis.Cell 133 (3): 523-536. 81. Lo YMD, Chan KCA, Sun H, Chen EZ, Jiang P, Lun FM, Zheng YW, Leung TY, Lau TK, Cantor CR et al. 2010. Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus.Sci Transl Med 2 (61): 61ra91. 82. Lo YMD, Corbetta N, Chamberlain PF, Rai V, Sargent IL, Redman CW, Wainscoat JS. 1997. Presence of fetal DNA in maternal plasma and serum.Lancet 350 (9076): 485-487. 83. Lo YMD, Tein MS, Pang CC, Yeung CK, Tong KL, Hjelm NM. 1998. Presence of donor-specific DNA in plasma of kidney and liver-transplant recipients.Lancet 351 (9112): 1329-1330. 84. Lui YYN, Chik KW, Chiu RW, Ho CY, Lam CW, Lo YM. 2002. Predominant hematopoietic origin of cell-free DNA in plasma and serum after sex-mismatched bone marrow transplantation.Clin Chem 48 (3): 421-427. 85. Lun FMF, Chiu RWK, Sun K, Leung TY, Jiang P, Chan KC, Sun H, Lo YM. 2013. Noninvasive prenatal methylomic analysis by genomewide bisulfite sequencing of maternal plasma DNA.Clin Chem 59 (11): 1583-1594. 86. Mandel P, Metais P. 1948. Les acides nucléiques du plasma sanguin chez l'homme.C R Seances Soc Biol Fil 142 (3-4): 241-243. 87. Mertes F, Elsharawy A, Sauer S, van Helvoort JM, van der Zaag PJ, Franke A, Nilsson M, Lehrach H, Brookes AJ. 2011. Targeted enrichment of genomic DNA regions for next-generation sequencing.Brief Funct Genomics 10 (6): 374-386. 88. O'Leary B, Hrebien S, Morden JP, Beaney M, Fribbens C, Huang X, Liu Y, Bartlett CH, Koehler M, Cristofanilli M et al. 2018. Early circulating tumor DNA dynamics and clonal selection with palbociclib and fulvestrant for breast cancer.Nat Commun 9 (1): 896. 89. Olova N, Krueger F, Andrews S, Oxley D, Berrens RV, Branco MR, Reik W. 2018. Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data.Genome Biol 19 (1): 33. 90. Pedersen JS, Valen E, Velazquez AM, Parker BJ, Rasmussen M, Lindgreen S, Lilje B, Tobin DJ, Kelly TK, Vang S et al. 2014. Genome-wide nucleosome map and cytosine methylation levels of an ancient human genome.Genome Res 24 (3): 454-466. 91. Phallen J, Sausen M, Adleff V, Leal A, Hruban C, White J, Anagnostou V, Fiksel J, Cristiano S, Papp E et al. 2017. Direct detection of early-stage cancers using circulating tumor DNA.Sci Transl Med 9 (403). 92. Radman-Livaja M, Rando OJ. 2010. Nucleosome positioning: how is it established, and why does it matter?Dev Biol 339 (2): 258-266. 93. Roadmap Epigenomics Consortium, Kundaje A, Meuleman W, Ernst J, Bilenky M, Yen A, Heravi-Moussavi A, Kheradpour P, Zhang Z, Wang J et al. 2015. Integrative analysis of 111 reference human epigenomes.Nature 518 (7539): 317-330. 94. Samejima K, Earnshaw WC. 2005. Trashing the genome: the role of nucleases during apoptosis.Nat Rev Mol Cell Biol 6 (9): 677-688. 95. Schep AN, Buenrostro JD, Denny SK, Schwartz K, Sherlock G, Greenleaf WJ. 2015. Structured nucleosome fingerprints enable high-resolution mapping of chromatin architecture within regulatory regions.Genome Res 25 (11): 1757-1770. 96. Schones DE, Cui K, Cuddapah S, Roh TY, Barski A, Wang Z, Wei G, Zhao K. 2008. Dynamic regulation of nucleosome positioning in the human genome.Cell 132 (5): 887-898. 97. Schutz E, Fischer A, Beck J, Harden M, Koch M, Wuensch T, Stockmann M, Nashan B, Kollmar O, Matthaei J et al. 2017. Graft-derived cell-free DNA, a noninvasive early rejection and graft damage marker in liver transplantation: A prospective, observational, multicenter cohort study.PLoS Med 14 (4): e1002286. 98. Snyder MW, Kircher M, Hill AJ, Daza RM, Shendure J. 2016. Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues-of-origin.Cell 164 (1-2): 57-68. 99. Strickler JH, Loree JM, Ahronian LG, Parikh AR, Niedzwiecki D, Pereira AAL, McKinney M, Korn WM, Atreya CE, Banks KC et al. 2018. Genomic landscape of cell-free DNA in patients with colorectal cancer.Cancer Discov 8 (2): 164-173. 100. Stroun M, Anker P, Maurice P, Lyautey J, Lederrey C, Beljanski M. 1989. Neoplastic characteristics of the DNA found in the plasma of cancer patients.Oncology 46 (5): 318-322. 101. Struhl K, Segal E. 2013. Determinants of nucleosome positioning.Nat Struct Mol Biol 20 (3): 267-273. 102. Sun K, Jiang P, Chan KCA, Wong J, Cheng YK, Liang RH, Chan WK, Ma ES, Chan SL, Cheng SH et al. 2015. Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments.Proc Natl Acad Sci U S A 112 (40): E5503-5512. 103. Sun K, Jiang P, Wong AIC, Cheng YKY, Cheng SH, Zhang H, Chan KCA, Leung TY, Chiu RWK, Lo YMD. 2018. Size-tagged preferred ends in maternal plasma DNA shed light on the production mechanism and show utility in noninvasive prenatal testing.Proc Natl Acad Sci U S A 115 (22): E5106-E5114. 104. The ENCODE Project Consortium. 2012. An integrated encyclopedia of DNA elements in the human genome.Nature 489 (7414): 57-74. 105. Ulz P, Heitzer E, Geigl JB, Speicher MR. 2017. Patient monitoring through liquid biopsies using circulating tumor DNA.Int J Cancer 141 (5): 887-896. 106. Ulz P, Thallinger GG, Auer M, Graf R, Kashofer K, Jahn SW, Abete L, Pristauz G, Petru E, Geigl JB et al. 2016. Inferring expressed genes by whole-genome sequencing of plasma DNA.Nat Genet 48 (10): 1273-1278. 107. Valouev A, Johnson SM, Boyd SD, Smith CL, Fire AZ, Sidow A. 2011. Determinants of nucleosome organization in primary human cells.Nature 474 (7352): 516-520. 108. van Opstal D, van Maarle MC, Lichtenbelt K, Weiss MM, Schuring-Blom H, Bhola SL, Hoffer MJV, Huijsdens-van Amsterdam K, Macville MV, Kooper AJA et al. 2017. Origin and clinical relevance of chromosomal aberrations other than the common trisomies detected by genome-wide NIPS: results of the TRIDENT study.Genet Med 20 (5): 480-485. 109. Zemmour H, Planer D, Magenheim J, Moss J, Neiman D, Gilon D, Korach A, Glaser B, Shemer R, Landesberg G et al. 2018. Non-invasive detection of human cardiomyocyte death using methylation patterns of circulating DNA.Nat Commun 9 (1): 1443. 110. Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W et al. 2008. Model-based analysis of ChIP-Seq (MACS).Genome Biol 9 (9): R137.
10:電腦系統 71:I/O控制器 72:系統記憶體 73:中央處理器 74:列印機 75:系統匯流排 76:監視器 77:I/O埠 78:鍵盤 79:儲存裝置 81:外部介面 82:顯示配接器 85:資料收集裝置 110:重疊組 405:校準資料點 410:校準函數 1005:校準資料點 1010:校準函數 1705:核小體核心 1710:連接子區域 1720:核小體陣列 1730:DNA覆蓋 1750:長偏好位點之標準化末端計數/資料集 1760:短偏好位點之標準化末端計數/資料集 1770:區域/共同開放染色質區域之中心 1805:紅色剪刀 1810:藍色剪刀 1905:紅色剪刀 1910:藍色剪刀 1920:短DNA片段之數目 1930:長DNA片段之數目 2210:校準曲線 2300:方法 2310:方塊 2320:方塊 2330:方塊 2340:方塊 2350:方塊 2400:方法 2410:方塊 2420:方塊 2430:方塊 2440:方塊 2450:方塊 2505:核小體 2510:DNA 2512:連接子DNA 2514:活性調節元件 2520:DNA部分 2522:極小DNA片/小DNA片/ DNA片 2530:紅色末端/上游(U)末端 2532:藍色末端/下游(D)末端 2550:上游U信號 2552:下游D信號 2560:上游分佈 2562:下游分佈 2572:棕線 2574:綠線 2575:紫線 2605:基因組覆蓋/血漿DNA覆蓋 2607:上游U末端位置 2609:下游D末端位置 2610:D末端峰 2620:最接近的上游U末端峰 2630:最接近的下游U末端峰 2640:核小體 2650:連接子 2660:血漿DNA覆蓋 2662:U末端信號 2664:D末端信號 2670:開放染色質區域之中心 2680:+1核小體 2705:基因組覆蓋 2707:上游末端信號 2709:下游末端信號 2710:開放染色質區域 2712:小分離 2714:較大分離 2716:連接子區域 2727:上游末端信號/U信號 2729:下游末端信號/D信號 2737:陰影區域/區域 2739:陰影區域/區域 2747:上游峰 2749:下游峰 2757:D末端信號 2759:U末端信號 2905:基因組覆蓋 2907:U末端信號 2909:D末端信號 2955:基因組覆蓋 2957:U末端信號 2959:D末端信號 4000:方法 4010:方塊 4020:方塊 4030:方塊 4040:方塊 4050:方塊 4060:方塊 4100:方法 4110:方塊 4120:方塊 4130:方塊 4140:方塊 4150:方塊 4160:方塊 4200:量測系統 4205:樣品 4208:分析法 4210:樣品固持器 4215:物理特徵 4220:偵測器 4225:資料信號 4230:邏輯系統 4235:局部記憶體 4240:外部記憶體 4245:儲存裝置 4250:處理器
圖1展示根據本發明之實施例,血漿DNA片段之末端位點的分析。
圖2展示24個母親血漿樣品中覆蓋S組偏好末端位點之血漿DNA讀數(紅色)對比覆蓋L組偏好末端位點之血漿DNA讀數(藍色)的尺寸分佈。
圖3展示根據本發明之實施例,一個母親血漿樣品中覆蓋S組及L組偏好末端位點之血漿DNA讀數的尺寸分佈。
圖4A展示26個母親血漿樣品中具有經尺寸標記之偏好末端位點的血漿DNA分子之相對豐度(S/L比率)與胎兒DNA豐度之間的相關性。圖4B展示26個母親血漿樣品中尺寸比率(短讀數比長讀數之數目)與胎兒DNA豐度之間的相關性。
圖5A展示根據本發明之實施例,對照例與第21對染色體三體症(trisomy 21)例之間chr21讀數之相對豐度的比較。圖5B展示根據本發明之實施例,第21對染色體三體症測試中覆蓋S組偏好末端位點之讀數與隨機讀數之間的ROC比較。
圖6展示24位健康個體中覆蓋S組偏好末端位點之血漿DNA讀數對比覆蓋L組偏好末端位點之血漿DNA讀數的尺寸分佈。
圖7A展示根據本發明之實施例,健康個體中覆蓋S組及L組偏好末端位點之血漿DNA讀數的尺寸分佈。圖7B展示根據本發明之實施例,孕婦及健康個體中具有S組對比L組偏好末端位點之血漿DNA讀數之相對豐度(S/L比率)的比較。
圖8展示根據本發明之實施例,肝細胞癌(HCC)患者中覆蓋S組及L組偏好末端位點之血漿DNA讀數的尺寸分佈。
圖9展示具有代表性的24位肝細胞癌患者中覆蓋S組偏好末端位點之血漿DNA讀數對比覆蓋L組偏好末端位點之血漿DNA讀數的尺寸分佈。
圖10展示根據本發明之實施例,血漿中腫瘤DNA負荷高於1%的72位肝細胞癌患者中具有經尺寸標記之偏好末端位點之血漿DNA分子之相對豐度(S/L比率)與腫瘤DNA負荷之間的相關性。
圖11展示健康個體及肝細胞癌患者當中具有經尺寸標記之偏好末端位點之血漿DNA分子的相對豐度(S/L比率)。
圖12展示根據本發明之實施例,健康個體、無或有肝硬化之HBV帶原者及HCC患者當中覆蓋chr1p上之S組末端的標準化讀數計數。
圖13展示根據本發明之實施例,健康個體、無或有肝硬化之HBV帶原者及HCC患者當中覆蓋chr1q上之S組末端的標準化讀數計數。
圖14展示根據本發明之實施例,健康個體、無或有肝硬化之HBV帶原者及HCC患者當中覆蓋chr8p上之S組末端的標準化讀數計數。
圖15展示根據本發明之實施例,健康個體、無或有肝硬化之HBV帶原者及HCC患者當中覆蓋chr8q上之S組末端的標準化讀數計數。
圖16展示根據本發明之實施例,S組及L組偏好末端位點中之任兩個最接近偏好末端位點之間的距離之分佈。
圖17A展示根據本發明之實施例,在chr12上的一個特定位點中,血漿DNA覆蓋、S組及L組偏好末端位點之快照。圖17B展示根據本發明之實施例,胎盤組織及T細胞之共同開放染色質區域周圍的偏好末端位點之分佈。
圖18A展示根據本發明之實施例,懷孕血漿DNA中經尺寸標記之偏好末端位點相對於核小體結構的分佈。圖18B展示根據本發明之實施例,經尺寸標記之偏好末端位點相對於Straver等人(23)預測的核小體中心的分佈。
圖19展示根據本發明之實施例,健康非懷孕個體中染色體之短及長DNA分子片段末端相對於核小體結構的分佈。
圖20A展示核小體結構之圖解。圖20B展示核小體結構中胎兒及母親特異性偏好末端位點的分佈。圖20C展示核小體結構中懷孕例及健康男性個體之chrY片段末端的分佈。圖20D展示懷孕例中核小體結構中短及長DNA分子之chrY片段末端的分佈。圖20E展示健康個體中核小體結構中短及長DNA分子之chrY片段末端的分佈。
圖21A及21B展示來自(A)白血球層樣品及(B)胎盤組織之ATAC-seq資料的片段尺寸分佈。
圖22展示末端位於經短標記之末端位置上之游離DNA分子的相對豐度與藉由有已知比例濃度之DNA來自組織A的兩個或更多個校準樣品之分析確定的組織A對混合物中之DNA之貢獻比例之間的關係。
圖23為根據本發明之實施例,分析生物樣品以確定混合物中之第一組織類型之貢獻比例的分類之方法之流程圖。
圖24為根據本發明之實施例,分析生物樣品以確定第一組織類型在游離DNA分子的混合物中之染色體區域中是否展現序列不平衡之方法之流程圖。
圖25A-25F展示根據本發明之實施例,游離DNA (cfDNA)片段化分析之概念構架。圖25A為包裹在核小體裡的DNA (黃線)、連接子(棕線)及活性調節元件(綠線)的圖解。圖25B展示由細胞凋亡DNA片段化產生之cfDNA的圖解。圖25C為兩個末端之定序讀數及提取的圖解。紅色及藍色分別表示U (上游)及D (下游)血漿DNA末端。圖25D展示基因組覆蓋。圖25E展示相對於基因組座標的cfDNA之U及D片段末端型態。圖25F展示平滑的血漿DNA末端信號及推導的核小體定位。
圖26A及26B展示根據本發明之實施例,健康非懷孕個體(多個樣本混合)中chr12p11.1區域中血漿DNA片段化模式。圖26A展示原始信號。圖26B展示平滑的信號及推導的核小體定位。圖26C展示圍繞管家基因之活性啟動子的血漿DNA覆蓋及末端信號。圖26D展示圍繞非活性啟動子的血漿DNA覆蓋及末端信號。
圖27A、27B及27C展示根據本發明之實施例,健康非懷孕個體(多個樣本混合)中血漿DNA片段化模式。圖27A展示T細胞及肝細胞之共同開放染色質區域中之模式(亦繪製推導的核小體定位)。圖27B展示胚胎幹細胞(ESC)特異性開放染色質區域中之模式。圖27C為OCF (取向感知cfDNA片段化)值之概念之圖解。
圖28A-28G展示根據本發明之實施例,健康個體中之組織特異性開放染色質區域中的血漿DNA片段化模式。各圖展示對應於一種組織類型的組織特異性開放染色質區域之結果:圖28A T細胞;圖28B肝臟;圖28C胎盤;圖28D肺臟;圖28E卵巢;圖28F乳房;圖28G腸。
圖29A展示根據本發明之實施例,一位CRC患者中之腸特異性開放染色質區域中的血漿DNA片段化模式。
圖29B展示根據本發明之實施例,一位肺癌患者中之肺臟特異性開放染色質區域中的血漿DNA片段化模式。
圖30展示根據本發明之實施例,健康非懷孕個體群組中之各種組織當中的血漿DNA片段化模式(OCF值)之定量。
圖31展示根據本發明之實施例,健康個體中之各組織類型的OCF值之表。
圖32A-32D展示根據本發明之實施例,血漿DNA片段化模式分析在非侵入性產前測試中之應用。圖32A展示一個懷孕例中胎盤特異性開放染色質區域中的血漿DNA片段化模式。圖32B展示健康非懷孕個體與孕婦之間的T細胞之OCF值之比較。圖32C展示健康非懷孕個體與孕婦之間的胎盤之OCF值之比較。圖32D展示26位孕婦之群組中的胎盤之OCF值與胎兒DNA分數之間的相關性。
圖33展示根據本發明之實施例,懷孕個體中之各組織類型的OCF值之表
圖34展示根據本發明之實施例,肝移植患者中之各組織類型的OCF值之表。
圖35A、35B及35C展示根據本發明之實施例,血漿DNA片段化模式分析在肝移植及HCC患者中之應用。圖35A展示肝移植患者中的肝之OCF值與供者DNA分數之間的相關性。圖35B展示HCC例中之腫瘤DNA負荷。圖35C展示健康個體及HCC例(基於血漿中之腫瘤DNA負荷分成2個組)當中的T細胞之OCF值之比較。圖35D展示健康個體及HCC例(基於血漿中之腫瘤DNA負荷分成2個組)當中的肝之OCF值之比較。
圖36A-36D展示根據本發明之實施例,肝細胞癌患者中之各組織類型的OCF值之表。
圖37A-37E展示根據本發明之實施例,血漿DNA片段化模式分析在CRC及肺癌患者中之應用。圖37A展示健康個體與CRC患者之間的T細胞之OCF值之比較。圖37B展示健康個體與CRC患者之間的腸之OCF值之比較。圖37C展示CRC患者中的腸之OCF值與結腸DNA豐度(藉由血漿DNA組織映射方法推導)之間的相關性。圖37D展示健康個體與肺癌患者之間的T細胞之OCF值之比較。圖37E展示健康個體與肺癌患者之間的肺之OCF值之比較。
圖38展示根據本發明之實施例,肺癌患者中之各組織類型的OCF值之表。
圖39展示根據本發明之實施例,結腸直腸癌患者中之各組織類型的OCF值之表。
圖40為根據本發明之實施例,分析生物樣品以確定混合物中之第一組織類型之貢獻比例的分類之方法之流程圖。
圖41為根據本發明之實施例,分析生物樣品以確定對於混合物中之第一組織類型是否存在病理學的分類之方法之流程圖。
圖42說明根據本發明之一實施例的量測系統。
圖43展示可與根據本發明之實施例的系統及方法一起使用的一實例電腦系統的方塊圖。
2300:方法
2310:方塊
2320:方塊
2330:方塊
2340:方塊
2350:方塊

Claims (56)

  1. 一種分析生物樣品的方法,該生物樣品來自包括第一組織類型之複數個組織類型之游離DNA (cell-free DNA)分子的混合物,以確定該混合物中之該第一組織類型之貢獻比例的分類,該方法包含: 鑑別含有該第一組織類型之樣品中的短游離DNA分子之末端以高於第一臨限值之第一比率出現的第一組基因組位置,其中該等短游離DNA分子具有第一尺寸; 分析來自個體之該生物樣品之第一複數個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中對應於該游離DNA分子之至少一個末端的基因組位置; 基於對該第一複數個游離DNA分子的分析,確定末端位於複數個窗之一內之該第一複數個游離DNA分子的第一數目,每個窗包括該第一組基因組位置中之至少一者; 藉由使用游離DNA分子的第二數目標準化該第一複數個游離DNA分子的該第一數目來計算末端位於該複數個窗之一內之該第一複數個游離DNA分子的相對豐度,其中該第二數目個游離DNA分子包括末端位於第二組基因組位置的游離DNA分子,該第二組基因組位置位於包括該第一組基因組位置之該複數個窗的外部;及 藉由對該相對豐度與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定該第一組織類型之該貢獻比例的該分類,該等校準樣品中之該第一組織類型的貢獻比例已知。
  2. 如請求項1之方法,其中該複數個窗之寬度為1 bp。
  3. 如請求項1之方法,其中該相對豐度包括該第一數目與該第二數目之比率。
  4. 如請求項1之方法,其中該貢獻比例的分類對應於高於指定百分比的範圍。
  5. 如請求項1之方法,其中該第一組織類型為腫瘤,且其中該分類選自以下組成之群:該個體中之腫瘤組織之量、該個體中之該腫瘤之尺寸、該個體中之該腫瘤之階段、該個體中之腫瘤負荷、及該個體中之腫瘤轉移的存在。
  6. 如請求項1之方法,其中鑑別該第一組基因組位置包括: 利用電腦系統分析來自至少一個其他樣品的第二複數個游離DNA分子以鑑別該第二複數個游離DNA分子的末端位置,其中該至少一個其他樣品已知包括該第一組織類型且樣品類型與該生物樣品相同;及 對於複數個基因組窗之每個基因組窗而言: 計算末端位於該基因組窗之該第二複數個游離DNA分子的對應數目;及 比較該對應數目與參考值以確定末端位於該基因組窗內之一或多個基因組位置之游離DNA分子的比率是否高於該第一臨限值。
  7. 如請求項6之方法,其中該參考值由末端位於該基因組窗之外部之基因組位置的第二複數個游離DNA分子之數目確定。
  8. 如請求項7之方法,其中當特定基因組位置相對於末端位於圍繞該特定基因組位置之窗內之該等基因組位置的第二複數個游離DNA分子之數目位於峰時,該特定基因組位置經鑑別在該第一組基因組位置中。
  9. 如請求項6之方法,其中該參考值為使用末端位於集中圍繞該基因組窗之特定基因組位置之窗的第二複數個游離DNA分子之數目除以游離DNA分子之平均尺寸確定。
  10. 如請求項6之方法,其中該參考值為末端位於該基因組窗內之游離DNA分子的預期數目,其根據至少一個其他樣品中之游離DNA分子的機率分佈及平均長度確定。
  11. 如請求項6之方法,其中至少一個其他樣品為該一或多個校準樣品。
  12. 如請求項1之方法,其進一步包含: 鑑別長游離DNA分子之末端以高於第二臨限值之第二比率出現的該第二組基因組位置,其中該等長游離DNA分子具有大於該第一尺寸之第二尺寸。
  13. 如請求項12之方法,其中該第一尺寸為第一尺寸範圍,且其中該第二尺寸為第二尺寸範圍。
  14. 如請求項13之方法,其中該第一尺寸範圍小於該第二尺寸範圍在於,該第一尺寸範圍之第一最大值小於該第二尺寸範圍之第二最大值。
  15. 如請求項14之方法,其中該第一尺寸範圍與該第二尺寸範圍重疊。
  16. 如請求項1之方法,其中第二組基因組位置包括對應於該第一複數個游離DNA分子中至少一者之末端的所有基因組位置。
  17. 如請求項1之方法,其中對該相對豐度與該一或多個校準值進行比較使用擬合至校準點之校準函數,該等校準點包含複數個校準樣品中所量測之該第一組織類型的貢獻比例及該複數個校準樣品中測定之各別相對豐度。
  18. 一種分析個體之生物樣品的方法,該生物樣品來自包括第一組織類型之複數個組織類型之游離DNA分子的混合物,以確定該第一組織類型在游離DNA分子的該混合物中之染色體區域中是否展現序列不平衡,該方法包含: 鑑別含有該第一組織類型之樣品中的短游離DNA分子之末端以高於第一臨限值之第一比率出現的一組基因組位置,其中該等短游離DNA分子具有第一尺寸; 利用電腦系統分析來自該生物樣品之第一複數個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中之對應於該游離DNA分子之至少一個末端的基因組位置; 基於對該第一複數個游離DNA分子的分析,鑑別末端位於複數個窗之一內的一組游離DNA分子,每個窗包括該組基因組位置中之至少一者且位於該染色體區域中; 測定該組游離DNA分子之值;及 基於對該組游離DNA分子之該值與參考值進行比較來確定在該個體之該染色體區域中該序列不平衡是否存在於該第一組織類型中的分類。
  19. 如請求項18之方法,其中該參考值由不具有序列不平衡之一或多個對照樣品確定。
  20. 如請求項18之方法,其中鑑別該組基因組位置包括: 利用電腦系統分析來自至少一個其他樣品的第二複數個游離DNA分子以鑑別該第二複數個游離DNA分子的末端位置,其中該至少一個其他樣品已知包括該第一組織類型且樣品類型與該生物樣品相同;及 對於複數個基因組窗之每個基因組窗而言: 計算末端位於該基因組窗之該第二複數個游離DNA分子的對應數目;及 比較該對應數目與參考比率以確定末端位於該基因組窗內之一或多個基因組位置之游離DNA分子的比率是否高於該第一臨限值。
  21. 如請求項18之方法,其中該組游離DNA分子之該值使用該第一複數個游離DNA分子之總數目標準化。
  22. 如請求項18之方法,其中該組游離DNA分子之該值使用一或多個參考區域之另一組游離DNA分子之值標準化。
  23. 如請求項18之方法,其中該序列不平衡為在該染色體區域中之基因座處的非整倍性、擴增/缺失或該第一組織類型之基因型與該複數個組織類型之其他組織類型不同的結果。
  24. 如請求項23之方法,其中該序列不平衡為該第一組織類型之該基因型與該複數個組織類型之其他組織類型不同的結果,且其中該組游離DNA分子之該值為該組中在該基因座處具有第一對偶基因的游離DNA分子之第一數目與在該基因座處具有第二對偶基因的游離DNA分子之第二數目之間的相對豐度。
  25. 如請求項24之方法,其中其他組織類型在該染色體區域中之該基因座處為異型接合的,且其中該序列不平衡的該分類為該第一對偶基因過多,表明該第一組織類型對於該第一對偶基因為同型接合的。
  26. 如請求項24之方法,其中該等其他組織類型在該染色體區域中之該基因座處為異型接合的,且其中該分類為不存在不平衡表明該第一組織類型對於該第一對偶基因及該第二對偶基因為異型接合的。
  27. 如請求項18之方法,其中該組游離DNA分子之該值具有該組游離DNA分子之量、該組游離DNA分子之尺寸分佈之統計值或該組游離DNA分子之甲基化水準。
  28. 如請求項27之方法,其中測定該組游離DNA分子之該值包括: 鑑別末端位於複數個窗之一內的該組游離DNA分子之第一子組,該第一子組對應於該染色體區域中之第一單倍型; 測定該第一子組游離DNA分子之第一單倍型值; 鑑別末端位於複數個窗之一內的該組游離DNA分子之第二子組,該第二子組對應於該染色體區域中之第二單倍型; 測定該第二子組游離DNA分子之第二單倍型值;及 使用該第一單倍型值及該第二單倍型值確定分離值,該分離值為該組游離DNA分子之該值。
  29. 如請求項27之方法,其進一步包含: 藉由以下方式確定該參考值: 鑑別末端位於複數個參考窗之一內的參考組游離DNA分子,每個參考窗包括該組基因組位置中之至少一者且位於一或多個參考染色體區域中;及 確定該參考組游離DNA分子之該參考值,該參考值為該參考組游離DNA分子之量、該參考組游離DNA分子之尺寸分佈之統計值或該參考組游離DNA分子之甲基化水準。
  30. 如請求項29之方法,其中該值與該參考值之該比較包括: 使用該組游離DNA分子之該值及該參考組游離DNA分子之該參考值確定分離值;及 對該分離值與截止值進行比較,該截止值分離存在序列不平衡及不存在序列不平衡的分類。
  31. 如請求項18之方法,其中該染色體區域為一染色體。
  32. 一種分析生物樣品的方法,該生物樣品來自包括第一組織類型之複數個組織類型之游離DNA分子的混合物,以確定該混合物中之該第一組織類型之貢獻比例的分類,該方法包含: 鑑別對應於該第一組織類型的一或多個組織特異性開放染色質區域之中心具有指定距離的第一組基因組位置; 分析來自個體之該生物樣品之第一複數個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中對應於該游離DNA分子之兩個末端的基因組位置;及 基於何種末端具有該基因組位置之下限值將一個末端分類為上游末端且另一末端分類為下游末端; 測定上游末端在該第一組基因組位置中之一者處之該第一複數個游離DNA分子的第一數目; 測定下游末端在該第一組基因組位置中之一者處之該第一複數個游離DNA分子的第二數目; 計算該第一數目與該第二數目之間的分離值;及 藉由對該分離值與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定該第一組織類型之該貢獻比例的該分類,該等校準樣品中之該第一組織類型的貢獻比例已知。
  33. 如請求項32之方法,其中對該分離值與該一或多個校準值進行比較使用擬合至校準點之校準函數,該等校準點包含複數個校準樣品中所量測之該第一組織類型的貢獻比例及該複數個校準樣品中測定之各別相對豐度。
  34. 18或32中任一項之方法,其中該第一組織類型為胎兒組織。
  35. 一種分析生物樣品的方法,該生物樣品來自包括第一組織類型之複數個組織類型之游離DNA分子的混合物,以確定對於該混合物中之該第一組織類型是否存在病理學的分類,該方法包含: 鑑別對應於該第一組織類型的一或多個組織特異性開放染色質區域之中心具有指定距離的第一組基因組位置; 分析來自個體之該生物樣品之第一複數個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中對應於該游離DNA分子之兩個末端的基因組位置;及 基於何種末端具有該基因組位置之下限值將一個末端分類為上游末端且另一末端分類為下游末端; 測定上游末端在該第一組基因組位置中之一者處之該第一複數個游離DNA分子的第一數目; 測定下游末端在該第一組基因組位置中之一者處之該第一複數個游離DNA分子的第二數目; 使用該第一數目及該第二數目計算分離值;及 基於對該分離值與參考值進行比較來確定對於該個體之該第一組織類型是否存在該病理學的該分類。
  36. 如請求項32或35之方法,其中該一或多個組織特異性開放染色質區域包括對應於該第一組織類型的至少500個組織特異性開放染色質區域。
  37. 如請求項32或35之方法,其中該分離值包括比率及/或差值。
  38. 如請求項32或35之方法,其中該指定距離包括距離範圍。
  39. 如請求項38之方法,其中該指定距離包括該中心之前的第一距離範圍且包括該中心之後的第二距離範圍。
  40. 如請求項39之方法,其中就該第一範圍對該分離值之第一貢獻以第一方式確定,且其中就該第二範圍對該分離值之第二貢獻以第二方式確定。
  41. 如請求項40之方法,其中該分離值確定為
    Figure 03_image007
    ,其中峰位置對應於自該中心之偏移且倉值對應於圍繞該峰位置之窗尺寸,且其中第一數目U為該第一組中基因組位置之一者的值,第二數目D為該第一組中基因組位置之一者的值。
  42. 如請求項35之方法,其中該參考值由不具有該病理學之一或多個對照樣品確定。
  43. 如請求項35之方法,其中該參考值由確實具有該病理學之一或多個對照樣品確定。
  44. 如請求項35之方法,其中該病理學為來自該第一組織類型之游離DNA的異常高分數濃度。
  45. 如請求項35之方法,其中該病理學為移植器官之排斥。
  46. 如請求項35之方法,其中該病理學為該第一組織類型之癌症。
  47. 如請求項46之方法,其中該癌症為肝癌、結腸癌或肺癌。
  48. 18、32或35中任一項之方法,其中該第一組織類型為腫瘤。
  49. 18、32或35中任一項之方法,其中該第一組織類型為移植組織。
  50. 18、32或35中任一項之方法,其中分析該第一複數個游離DNA分子包括: 對該第一複數個游離DNA分子定序以獲得序列讀數;及 將該等序列讀數與該參考基因組比對以確定該第一複數個游離DNA分子之基因組位置。
  51. 18、32或35中任一項之方法,其中分析該第一複數個游離DNA分子包括: 對該第一組基因組位置處的該第一複數個游離DNA分子進行雜交捕捉或擴增。
  52. 一種包含電腦可讀媒體的電腦產品,該電腦可讀媒體儲存用於控制電腦系統執行任一種上述方法之操作的複數個指令。
  53. 一種系統,其包含: 如請求項52之電腦產品;及 一或多個處理器,用於執行儲存於該電腦可讀媒體上的指令。
  54. 一種包含用於執行任一種上述方法之構件的系統。
  55. 一種包含經組態以執行任一種上述方法之一或多個處理器的系統。
  56. 一種包含分別執行任一種上述方法之步驟之模組的系統。
TW108115457A 2018-05-03 2019-05-03 用於測量游離(cell-free)混合物之特性之經尺寸標記之偏好末端及取向感知分析 TW202012636A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862666574P 2018-05-03 2018-05-03
US62/666,574 2018-05-03
US201862732509P 2018-09-17 2018-09-17
US62/732,509 2018-09-17

Publications (1)

Publication Number Publication Date
TW202012636A true TW202012636A (zh) 2020-04-01

Family

ID=68385476

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108115457A TW202012636A (zh) 2018-05-03 2019-05-03 用於測量游離(cell-free)混合物之特性之經尺寸標記之偏好末端及取向感知分析

Country Status (8)

Country Link
US (1) US20190341127A1 (zh)
EP (1) EP3788172A4 (zh)
KR (1) KR20210014111A (zh)
CN (1) CN112292458A (zh)
AU (1) AU2019263869A1 (zh)
CA (1) CA3105349A1 (zh)
TW (1) TW202012636A (zh)
WO (1) WO2019210873A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11061026B2 (en) * 2017-02-17 2021-07-13 MFB Fertility, Inc. System of evaluating corpus luteum function by recurrently evaluating progesterone non-serum bodily fluids on multiple days
US20200199656A1 (en) 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics
US20210238668A1 (en) * 2020-01-08 2021-08-05 The Chinese University Of Hong Kong Biterminal dna fragment types in cell-free samples and uses thereof
US20210265007A1 (en) 2020-02-05 2021-08-26 The Chinese University Of Hong Kong Molecular analyses using long cell-free fragments in pregnancy
CN111724860B (zh) * 2020-06-18 2021-03-16 深圳吉因加医学检验实验室 一种基于测序数据识别染色质开放区域的方法及装置
WO2021262770A1 (en) * 2020-06-22 2021-12-30 Children's Hospital Medical Center De novo characterization of cell-free dna fragmentation hotspots in healthy and early-stage cancers
CN111833967B (zh) * 2020-07-10 2022-05-20 华中农业大学 基于k-tree优化贝叶斯网络的上位性位点挖掘方法
GB202205710D0 (en) 2022-04-19 2022-06-01 Univ Of Essex Enterprises Limited Cell-free DNA-based methods
US20240011105A1 (en) * 2022-07-08 2024-01-11 The Chinese University Of Hong Kong Analysis of microbial fragments in plasma
CN115439473B (zh) * 2022-11-04 2023-04-07 北京精诊医疗科技有限公司 一种基于交互分组注意机制的多期相占位分类方法
US20240182982A1 (en) * 2022-11-29 2024-06-06 Centre For Novostics Fragmentomics in urine and plasma
CN116312774B (zh) * 2023-05-22 2024-03-15 臻和(北京)生物科技有限公司 基于cfDNA的癌症预测模型及其构建方法和应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2900927C (en) 2007-07-23 2018-08-14 The Chinese University Of Hong Kong Diagnosing fetal chromosomal aneuploidy using genomic sequencing
ES2720282T3 (es) 2009-11-05 2019-07-19 Univ Hong Kong Chinese Análisis genómico fetal a partir de una muestra biológica materna
MX357692B (es) 2009-11-06 2018-07-19 Univ Hong Kong Chinese Analisis genomico a base de tamaño.
EP4269623A3 (en) 2010-11-30 2024-03-06 The Chinese University Of Hong Kong Analysis of a biological sample of an organism for chromosomal deletions or amplifications associated with cancer
EP2728014B1 (en) * 2012-10-31 2015-10-07 Genesupport SA Non-invasive method for detecting a fetal chromosomal aneuploidy
US10364467B2 (en) 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
ES2911613T3 (es) 2015-07-20 2022-05-20 Univ Hong Kong Chinese Análisis de patrones de metilación de haplotipos en tejidos en una mezcla de ADN
CA2993362A1 (en) * 2015-07-23 2017-01-26 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free dna

Also Published As

Publication number Publication date
AU2019263869A1 (en) 2020-11-26
US20190341127A1 (en) 2019-11-07
CN112292458A (zh) 2021-01-29
CA3105349A1 (en) 2019-11-07
EP3788172A1 (en) 2021-03-10
KR20210014111A (ko) 2021-02-08
WO2019210873A1 (en) 2019-11-07
EP3788172A4 (en) 2022-01-19

Similar Documents

Publication Publication Date Title
JP6683752B2 (ja) 血漿による胎児または腫瘍のメチロームの非侵襲的決定
TW202012636A (zh) 用於測量游離(cell-free)混合物之特性之經尺寸標記之偏好末端及取向感知分析
Sun et al. Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin
TWI703216B (zh) Dna混合物中之組織甲基化模式分析
TWI817187B (zh) 偵測突變以用於癌症篩選分析
TW201718872A (zh) 游離dna(cell-free dna)之片段化模式分析
TW202205300A (zh) Dna混合物中組織之單倍型甲基化模式分析
TW202144583A (zh) 血漿粒線體dna分析之應用
TW202217009A (zh) 游離核酸之核酸酶相關末端標籤分析
BR122021021820B1 (pt) Método para determinar um perfil de metilação de uma amostra biológica de um organismo e meio de armazenamento legível por computador