相關申請案之交叉參考
本申請案為主張以下各案之優先權的PCT申請案:2013年6月3日申請且標題為「Tumor Detection In Plasma Using Methylation Status And Copy Number」之美國臨時專利申請案第61/830,571號;及2013年3月15日申請且標題為「Non-Invasive Determination Of Methylome Of Fetus Or Tumor From Plasma」之美國申請案第13/842,209號,該申請案為2012年9月20日申請且標題為「Method Of Determining The Whole Genome DNA Methylation Status Of The Placenta By Massively Parallel Sequencing Of Maternal Plasma」之美國臨時專利申請案第61/703,512號之非臨時申請案且主張其權益,各案係出於所有目的而以全文引用的方式併入本文中。
表觀遺傳機制在胚胎及胎兒發育中起重要作用。然而,人類胚胎及胎兒組織(包括胎盤組織)不容易獲得(美國專利6,927,028)。某些實施例已藉由分析具有母體循環中所存在之細胞游離胎兒DNA分子之樣品而解決此問題。可用多種方式推斷胎兒甲基化模式組。舉例而言,可將母體血漿甲基化模式組與細胞甲基化模式組(來自母親之血細胞)相比較且顯示差異與胎兒甲基化模式組相關。作為另一實例,胎兒特異性等位基因可用於測定特異性基因座處之胎兒甲基化模式組之甲基化。另外,在顯示大小與甲基化百分比之間的相關性時,片段大小可用作甲基化百分比之指標。
在一個實施例中,使用全基因組亞硫酸氫鹽定序來分析單一核苷酸解析度下母體血漿DNA之甲基化概況(部分或整個甲基化模式組)。藉由利用母親與胎兒之間的多態性差異,可由母體血液樣品收集胎兒甲基化模式組。在另一實施例中,未使用多態性差異,但可使用血漿甲基化模式組與血細胞甲基化模式組之間的差異。
在另一實施例中,藉由利用腫瘤基因組與非腫瘤基因組之間的單一核苷酸變化及/或複本數畸變及來自血漿(或其他樣品)之定序資料,可在疑似或已知患有癌症之患者之樣品中進行腫瘤之甲基化概況分析。當與一個健康對照或一組健康對照之血漿甲基化程度相比較時,測試個體之血漿樣品中之甲基化程度差異可允許測試個體鑑別為患有癌症。另外,甲基化概況可充當顯示該人士已罹患之癌症之類型(例如,來自何種器官)及是否已發生轉移的標誌。
由於該方法之非侵入性,吾等能夠連續評定來自在前三個月、後三個月及分娩後收集之母體血液樣品之胎兒及母體血漿甲基化模式組。觀測到妊娠相關之變化。該方法亦可應用於在中三個月期間獲得之樣品。由妊娠期間之母體血漿推斷之胎兒甲基化模式組類似於胎盤甲基化模式組。由母體血漿資料鑑別印記基因及差異性甲基化區域。
因此,吾等已開發一種用於非侵入性、連續且全面研究胎兒甲基化模式組之方法,因此提供鑑別生物標記或直接測試妊娠相關病變之可能性。實施例亦可用以非侵入性、連續且全面研究腫瘤甲基化模式組,以便篩選或偵測個體是否罹患癌症、監測癌症患者之惡性疾病及預測。實施例可應用於任何癌症類型,包括(但不限於)肺癌、乳癌、結腸直腸癌、前列腺癌、鼻咽癌、胃癌、睾丸癌、皮膚癌(例如黑色素瘤)、影響神經系統之癌症、骨癌、卵巢癌、肝癌(例如肝細胞癌)、血液科惡性疾病、胰臟癌、子宮內膜癌、腎癌、子宮頸癌、膀胱癌等。
首先論述如何測定甲基化模式組或甲基化概況之說明,且隨後描述不同的甲基化模式組(諸如胎兒甲基化模式組、腫瘤甲基化模式組、母親或患者之甲基化模式組及混合甲基化模式組,例如來自血漿)。隨後使用胎兒特異性標記物或藉由比較混合甲基化概況與細胞甲基化概況來描述胎兒甲基化概況之測定。藉由比較甲基化概況來測定胎兒甲基化標記物。論述大小與甲基化之間的關係。亦提供甲基化概況用於偵測癌症之用途。
I. 測定甲基化模式組
已使用無數方法來研究胎盤甲基化模式組,但各方法均具有其限制。舉例而言,可將未甲基化胞嘧啶殘基修飾成尿嘧啶且留下甲基化胞嘧啶不變的化合物亞硫酸氫鈉將胞嘧啶甲基化之差異轉化成基因序列差異供進一步查詢。研究胞嘧啶甲基化之黃金標準法係基於用亞硫酸氫鈉處理組織DNA,隨後對經亞硫酸氫鹽轉化之DNA分子之個別純系直接定序。在分析多個DNA分子純系之後,可獲得每個CpG位點之胞嘧啶甲基化模式及定量概況。然而,選殖亞硫酸氫鹽定序為不能容易地應用於全基因組規模之低產量且勞動密集性程序。
通常消化未甲基化的DNA之甲基化敏感性限制酶提供一種用於研究DNA甲基化之低成本方法。然而,由該等研究產生之資料受限於具有酶識別基元之基因座且結果並非定量的。由抗甲基化胞嘧啶抗體結合之DNA之免疫沈澱可用於調查基因組之較大區段,但趨向於由於結合於該等區域之抗體的較高強度而向具有緻密甲基化之基因座偏移。基於微陣列之方法視查詢探針之先驗設計及該等探針與靶DNA之間的雜交效率而定。
為全面查詢甲基化模式組,一些實施例使用大規模平行定序(MPS)基於每個核苷酸及每個等位基因提供全基因組資訊及甲基化程度之定量評定。近來,亞硫酸氫鹽轉化隨後進行全基因組MPS已具有可行性(R Lister等人2008 Cell; 133: 523-536)。
在應用全基因組亞硫酸氫鹽定序來研究人類甲基化模式組之少數已公開研究(R Lister等人2009 Nature; 462: 315-322;L Laurent等人2010 Genome Res; 20: 320-331;Y Li等人2010 PLoS Biol; 8: e1000533;及M Kulis等人2012 Nat Genet; 44: 1236-1242)中,兩項研究聚焦於胚胎幹細胞及胎兒纖維母細胞(R Lister等人2009 Nature; 462: 315-322;L Laurent等人2010 Genome Res; 20: 320-331)。兩項研究均分析來源於細胞株之DNA。
A. 全基因組亞硫酸氫鹽定序某些實施例可克服上述挑戰並且使得能夠全面、非侵入性並且連續查詢胎兒甲基化模式組。在一個實施例中,使用全基因組亞硫酸氫鹽定序來分析在孕婦循環中發現之細胞游離胎兒DNA分子。儘管血漿DNA分子具有較低豐度及片段化性質,但吾等能夠由母體血漿收集高解析度胎兒甲基化模式組且連續觀測隨妊娠進展之變化。鑒於強烈關注非侵入性產前測試(NIPT),實施例可為胎兒生物標記發現提供有效新工具或充當用於達成對胎兒或妊娠相關疾病之NIPT的直接平台。現提供來自對各種樣品之全基因組亞硫酸氫鹽定序之資料,由其可獲得胎兒甲基化模式組。在一個實施例中,該技術可應用於併發子癇先兆或子宮內生長停滯或早產之妊娠中的甲基化概況分析。對於該等有併發症之妊娠,該技術由於其非侵入性而可連續使用,從而允許監測及/或預測及/或對治療之反應。
圖1A展示根據本發明實施例之母體血液、胎盤及母體血漿之定序結果之表100。在一個實施例中,對使用甲基化DNA文庫接附子(Illumina)製備(R Lister等人2008 Cell; 133: 523-536)之前三個月收集之血液樣品之血細胞、CVS、妊娠期收集之胎盤組織、在前三個月及後三個月及產後期過程中收集之母體血漿樣品之經亞硫酸氫鹽轉化之DNA文庫進行完整基因組定序。亦分析獲自一個成年男性及一個成年未妊娠女性之血細胞及血漿DNA樣品。在此研究中產生總計95億對原始序列讀段。各樣品之定序覆蓋率示於表100中。
對於前三個月、後三個月及分娩後母體血漿樣品,可唯一定位於人類參考基因組之序列讀段分別達到平均單倍體基因組覆蓋率之50倍、34倍及28倍。對於獲自妊娠之樣品,基因組中之CpG位點之覆蓋率在81%至92%範圍內。對於前三個月、後三個月及分娩後母體血漿樣品,跨越CpG位點之序列讀段分別總計達平均單倍體覆蓋率之每股33倍、每股23倍及每股19倍。所有樣品之亞硫酸氫鹽轉化效率均>99.9% (表100)。
在表100中,含糊率(標記為「a」)係指定位於參考人類基因組之沃森(Watson)及克立克(Crick)股兩者上之讀段的比例。λ轉化率係指內部λ DNA對照中藉由亞硫酸氫鹽修飾轉化成「胸嘧啶」殘基之未甲基化胞嘧啶之比例。H一般等於A、C或T。「a」係指可定位於特定基因組基因座但不能指派至沃森或克立克股之讀段。「b」係指具有一致起點及終點座標之配對讀段。對於「c」,在亞硫酸氫鹽轉化之前將λ DNA摻入各樣品中。λ轉化率係指在亞硫酸氫鹽轉化之後仍呈胞嘧啶形式之胞嘧啶核苷酸之比例且用作成功亞硫酸氫鹽轉化率之指示。「d」係指存在於參考人類基因組中且在亞硫酸氫鹽轉化後仍呈胞嘧啶序列形式的胞嘧啶核苷酸之數目。
在亞硫酸氫鹽修飾期間,將未甲基化胞嘧啶轉化成尿嘧啶且隨後在PCR擴增後轉化成胸嘧啶,而甲基化胞嘧啶將保持完整(M Frommer等人1992 Proc Natl Acad Sci USA;89:1827-31)。在CpG情形下,在定序並比對後,可因此根據胞嘧啶殘基處之甲基化序列讀段「M」(甲基化)之計數及未甲基化序列讀段「U」(未甲基化)之計數來推斷個別CpG位點之甲基化狀態。使用亞硫酸氫鹽定序資料,構築母體血液、胎盤及母體血漿之整個甲基化模式組。可使用以下等式計算母體血漿中特定基因座之平均甲基化CpG密度(亦稱為甲基化密度
MD):
其中
M為基因座內CpG位點處之甲基化讀段之計數且U為未甲基化讀段之計數。若基因座內存在超過一個CpG位點,則M及U對應於所有位點之計數。
B. 各種技術如上文所述,可使用對經亞硫酸氫鹽轉化之血漿DNA之大規模平行定序(MPS)進行甲基化概況分析。經亞硫酸氫鹽轉化之血漿DNA之MPS可用隨機或鳥槍方式進行。定序深度可根據相關區域之大小而變化。
在另一實施例中,可首先使用基於溶液相或固體相雜交之製程捕捉經亞硫酸氫鹽轉化之血漿DNA中之相關區域,隨後進行MPS。大規模平行定序可使用以下進行:諸如Illumina之邊合成邊定序(sequencing-by-synthesis)平台、諸如得自Life Technologies之SOLiD平台之邊接合邊定序(sequencing-by-ligation)平台、諸如得自Life Technologies之Ion Torrent或Ion Proton平台之基於半導體之定序系統、或諸如Helicos系統或Pacific Biosciences系統或基於奈米孔之定序系統之單一分子定序系統。基於奈米孔之定序包括使用例如脂質雙層及蛋白質奈米孔構築之奈米孔及固態奈米孔(諸如基於石墨烯之奈米孔)。因為所選單一分子定序平台將允許在不進行亞硫酸氫鹽轉化的情況下直接闡明DNA分子(包括N6-甲基腺嘌呤、5-甲基胞嘧啶及5-羥甲基胞嘧啶)之甲基化狀態(BA Flusberg等人2010 Nat Methods; 7: 461-465;J Shim等人2013 Sci Rep; 3:1389. doi: 10.1038/srep01389),故使用該等平台將允許分析未經亞硫酸氫鹽轉化之樣品DNA (例如血漿DNA)之甲基化狀態。
除定序以外,亦可使用其他技術。在一個實施例中,甲基化概況分析可以藉由以下方式進行:進行甲基化特異性PCR或甲基化敏感性限制酶消化,隨後進行PCR或連接酶鏈式反應,隨後進行PCR。在其他實施例中,PCR為單一分子或數位PCR形式(B Vogelstein等人1999 Proc Natl Acad Sci USA; 96: 9236-9241)。在其他實施例中,PCR可為即時PCR。在其他實施例中,PCR可為多路PCR。
II. 分析甲基化模式組
一些實施例可使用整個基因組亞硫酸氫鹽定序來測定血漿DNA之甲基化概況。胎兒之甲基化概況可藉由對母體血漿DNA樣品進行定序來測定,如下文所述。因此,在妊娠期間非侵入性地獲得胎兒DNA分子(及胎兒甲基化模式組),且隨著妊娠進展連續監測變化。由於定序資料之全面性,故吾等能夠在單一核苷酸解析度下以全基因組規模研究母體血漿甲基化模式組。
因為定序讀段之基因組座標為已知的,故此等資料使得吾人能夠研究基因組中之甲基化模式組或任何相關區域之總體甲基化程度並且在不同基因元件之間進行比較。另外,多個序列讀段覆蓋各CpG位點或基因座。現提供用於量測甲基化模式組之一些量度的描述。
A. 血漿 DNA 分子之甲基化DNA分子以較低濃度且呈長度通常類似於單核小體單元之片段化形式存在於人類血漿中(YMD Lo等人2010 Sci Transl Med; 2: 61ra91;及YW Zheng等人2012 Clin Chem; 58: 549-558)。儘管存在此等限制,但全基因組亞硫酸氫鹽定序渠道能夠分析血漿DNA分子之甲基化。在其他實施例中,由於所選單一分子定序平台將允許在不進行亞硫酸氫鹽轉化的情況下直接闡明DNA分子之甲基化狀態(BA Flusberg等人2010 Nat Methods; 7: 461-465;J Shim等人2013 Sci Rep; 3:1389. doi: 10.1038/srep01389),故使用該等平台將允許使用未經亞硫酸氫鹽轉化之血漿DNA來測定血漿DNA之甲基化程度或測定血漿甲基化模式組。該等平台可偵測N6-甲基腺嘌呤、5-甲基胞嘧啶及5-羥甲基胞嘧啶,由此可提供與不同甲基化形式之不同生物功能相關之經改良結果(例如經改良敏感性或特異性)。當應用實施例來偵測或監測特定病症,例如子癇先兆或特定類型癌症時,該等經改良結果可適用。
亞硫酸氫鹽定序亦可辯別不同甲基化形式。在一個實施例中,可包括可區分5-甲基胞嘧啶與5-羥甲基胞嘧啶之附加步驟。一種此類方法為氧化性亞硫酸氫鹽定序(oxBS-seq),其可在單鹼基解析度下闡述5-甲基胞嘧啶及5-羥甲基胞嘧啶之位置(MJ Booth等人2012 Science; 336: 934-937;MJ Booth等人2013 Nature Protocols; 8: 1841-1851)。在亞硫酸氫鹽定序中,5-甲基胞嘧啶及5-羥甲基胞嘧啶兩者均讀作胞嘧啶且因此無法鑑別。另一方面,在oxBS-seq中,藉由用高釕酸鉀(KRuO
4)處理將5-羥甲基胞嘧啶特異性氧化成5-甲醯基胞嘧啶,隨後使用亞硫酸氫鹽轉化將新形成之5-甲醯基胞嘧啶轉化成尿嘧啶將允許區分5-羥甲基胞嘧啶與5-甲基胞嘧啶。因此,5-甲基胞嘧啶之讀出可獲自單次oxBS-seq運作,且藉由與亞硫酸氫鹽定序結果比較來推斷5-羥甲基胞嘧啶含量。在另一實施例中,可使用Tet輔助之亞硫酸氫鹽定序(TAB-seq)來區分5-甲基胞嘧啶與5-羥甲基胞嘧啶(M Yu等人2012 Nat Protoc; 7: 2159-2170)。TAB-seq可在單一鹼基解析度下鑑別5-羥甲基胞嘧啶以及測定其在各修飾位點處之豐度。此方法涉及β-葡糖基轉移酶介導之5-羥甲基胞嘧啶保護(葡糖基化)及重組小鼠Tet1 (mTet1)介導之5-甲基胞嘧啶氧化成5-羧基胞嘧啶。在隨後進行亞硫酸氫鹽處理及PCR擴增後,將胞嘧啶及5-羧基胞嘧啶(衍生自5-甲基胞嘧啶)兩者轉化成胸嘧啶(T),而5-羥甲基胞嘧啶將讀作C。
圖1B展示根據本發明實施例之經定序樣品之1 Mb窗口中之甲基化密度。圖150為描繪基因組上之1 Mb窗口中之母體血漿及基因組DNA之甲基化密度的Circos圖。自外向內:染色體表意文字可在順時針方向上呈pter-qter定向(著絲點以紅色顯示),母體血液(紅色)、胎盤(黃色)、母體血漿(綠色)、母體血漿中之共有讀段(藍色)及母體血漿中之胎兒特異性讀段(紫色)。母體血細胞、胎盤及母體血漿之總體CpG甲基化程度(亦即,密度水準)可見於表100中。在整個基因組上,母體血細胞之甲基化程度一般高於胎盤之甲基化程度。
B. 比較亞硫酸氫鹽定序與其他技術吾等使用大規模平行亞硫酸氫鹽定序來研究胎盤甲基化模式組。另外,吾等使用覆蓋人類基因組中之約480,000個CpG位點之寡核苷酸陣列平台(Illumina)來研究胎盤甲基化模式組(M Kulis等人2012 Nat Genet; 44: 1236-1242;及C Clark等人2012 PLoS One; 7: e50233)。在使用基於微珠晶片之基因型分析及甲基化分析之一個實施例中,使用Illumina HumanOmni2.5-8基因型分析陣列根據製造商方案進行基因型分析。使用Genome Studio軟體(Illumina)之GenCall演算法來檢出基因型。檢出率(call rate)高於99%。對於基於微陣列之甲基化分析,使用Zymo EZ DNA甲基化套組(Zymo Research, Orange, CA, USA)根據製造商關於Illumina Infinium甲基化分析之推薦用亞硫酸氫鈉處理基因組DNA (500至800 ng)。
根據Infinium HD甲基化分析方案在50 ng/µl下對4 µl經亞硫酸氫鹽轉化之基因組DNA進行甲基化分析。在Illumina iScan儀器上掃描雜交微珠晶片。藉由GenomeStudio (v2011.1)甲基化模組(v1.9.0)軟體,藉由針對內部對照進行標準化並且減去背景來分析DNA甲基化資料。個別CpG位點之甲基化指數由β值(β)表示,該值係使用甲基化與未甲基化等位基因之間的螢光強度比來計算:
對於表示於陣列上且定序至至少10倍之覆蓋率的CpG位點,吾等比較由陣列獲得之β值與藉由對同一位點進行定序而測定之甲基化指數。β值表示呈覆蓋同一CpG位點之甲基化與未甲基化的探針之組合強度之比例形式的甲基化探針強度。各CpG位點之甲基化指數係指甲基化讀段相對於覆蓋該CpG之讀段總數的比例。
圖2A至2C展示可藉由兩個平台查詢之藉由Illumina Infinium人類甲基化450K微珠晶片陣列測定之β值相對於藉由對相應CpG位點之全基因組亞硫酸氫鹽定序測定之甲基化指數的圖:(A)母體血細胞;(B)絨毛膜絨毛樣品;(C)足月胎盤組織。來自兩個平台之資料高度一致且母體血細胞、CVS及足月胎盤組織之皮爾遜相關係數(Pearson correlation coefficient)分別為0.972、0.939及0.954,且R
2值分別為0.945、0.882及0.910。
吾等進一步比較吾等之定序資料與使用覆蓋約27,000個CpG位點之寡核苷酸陣列研究12對CVS及母體血細胞DNA樣品之甲基化概況之Chu等人所報導之資料(T Chu等人2011 PLoS One; 6: e14723)。CVS及母體血細胞DNA及先前研究中之12對樣品中之每一者的定序結果之間的相關性資料得到母體血液之平均皮爾森係數(0.967)及R
2(0.935)以及CVS之平均皮爾森係數(0.943)及R
2(0.888)。在兩個陣列上所表示之CpG位點中,吾等之資料與公開資料高度相關。母體血細胞、CVS及胎盤組織之非CpG甲基化率<1% (表100)。此等結果與以下當前信念一致:相當大量之非CpG甲基化主要侷限於多能細胞(R Lister等人2009 Nature; 462: 315-322;L Laurent等人2010 Genome Res; 20: 320-331)。
C. 比較未妊娠個體之血漿與血液甲基化模式組圖3A及3B展示自成年男性及未妊娠成年女性收集之血漿及血細胞中之甲基化CpG位點之百分比的直方圖:(A)常染色體;(B)染色體X。該圖展示男性及未妊娠女性之血漿與血液甲基化模式組之間的相似性。男性及未妊娠女性血漿樣品中甲基化之CpG位點之總體比例與相應血細胞DNA幾乎相同(表100及圖2A及2B)。
吾等接下來以基因座特異性方式研究血漿及血細胞樣品之甲基化概況之相關性。吾等藉由測定CpG位點處未轉化胞嘧啶總數與定位於100 kb區域之序列讀段所覆蓋之所有CpG位點之比例來測定人類基因組中各100 kb區間的甲基化密度。男性血漿樣品及相應血細胞DNA以及女性樣品之間的甲基化密度高度一致。
圖4A及4B展示血細胞DNA及血漿DNA中之相應基因座之甲基化密度的圖:(A)未妊娠成年女性;(B)成年男性。未妊娠女性樣品之皮爾遜相關係數及R
2值分別為0.963及0.927,且男性樣品之皮爾遜相關係數及R
2值分別為0.953及0.908。此等資料與基於同種異體造血幹細胞移植接受者之血漿DNA分子之基因型評定之先前發現一致,該先前發現顯示造血細胞為人類血漿中之DNA之主要來源(YW Zheng等人2012 Clin Chem; 58: 549-558)。
D. 整個甲基化模式組之甲基化程度吾等接下來研究母體血漿DNA、母體血細胞及胎盤組織之DNA甲基化程度以測定甲基化程度。測定重複序列區域、非重複序列區域及總體之程度。
圖5A及5B展示自妊娠收集之樣品中之甲基化CpG位點之百分比的直方圖:(A)常染色體;(B)染色體X。對於前三個月及後三個月母體血漿樣品,甲基化CpG之總體比例分別為67.0%及68.2%。與獲自未妊娠個體之結果不同,此等比例低於前三個月母體血細胞樣品但高於CVS及足月胎盤組織樣品(表100)。應注意,分娩後母體血漿樣品中之甲基化CpG之百分比為73.1%,該值類似於血細胞資料(表100)。在分佈於所有常染色體以及染色體X上且跨越人類基因組之非重複序列區域及多類重複序列元件之CpG中觀測到此等趨勢。
發現胎盤中之重複序列及非重複序列元件相對於母體血細胞經低甲基化。該等結果與文獻中之以下發現一致:胎盤相對於其他組織(包括周邊血液細胞)經低甲基化。
介於71%至72%之間的經定序CpG位點在來自孕婦、非孕婦及成年男性之血細胞DNA中經甲基化(圖1之表100)。此等資料與Y Li等人2010 PLoS Biol; 8: e1000533所報導之血液單核細胞之68.4% CpG位點之報導相當。與關於胎盤組織之低甲基化性質之先前報導一致,CVS及足月胎盤組織中分別55%及59% CpG位點經甲基化(表100)。
圖6展示母體血液、胎盤及母體血漿之人類基因組之不同重複序列類別之甲基化程度的直方圖。重複序列類別如UCSC基因組瀏覽器所定義。所顯示之資料係來自前三個月樣品。與表明主要在基因組之某些重複序列類別中觀測到胎盤組織之低甲基化性質的早期資料(B Novakovic等人2012 Placenta; 33: 959-970)不同,在此吾等展示參考血細胞,胎盤實際上在大部分基因組元件類別中經低甲基化。
E. 甲基化模式組之相似性實施例可使用同一平台來測定胎盤組織、血細胞及血漿之甲基化模式組。因此,可直接比較該等生物樣品類型之甲基化模式組。男性及未妊娠女性之血細胞與血漿甲基化模式組之間以及母體血細胞與分娩後母體血漿樣品之間的高度類似性進一步證實造血細胞為人類血漿中之主要DNA來源(YW Zheng等人2012 Clin Chem; 58: 549-558)。
就甲基化CpG在基因組中之總體比例以及血細胞DNA及血漿DNA中之相應基因座之間的甲基化密度高度相關性兩者而言,類似性顯而易見。又,當與母體血細胞資料或分娩後母體血漿樣品相比較時,前三個月及後三個月母體血漿樣品中之甲基化CpG之總體比例降低。妊娠期間甲基化程度降低係由於母體血漿中所存在之胎兒DNA分子之低甲基化性質。
分娩後母體血漿樣品中之甲基化概況逆轉從而變得與母體血細胞更類似表明胎兒DNA分子已自母體循環中移除。基於胎兒之SNP標記物計算胎兒DNA濃度實際上顯示濃度自分娩前之33.9%變化至分娩後樣品中之僅4.5%。
F. 其他應用實施例已經由血漿DNA之MPS分析而成功收集DNA甲基化模式組。能夠自母體血漿測定胎盤或胎兒甲基化模式組提供一種非侵入性方法以測定、偵測及監測與妊娠相關病狀(諸如子癇先兆、子宮內生長限制、早產及其他)相關之異常甲基化概況。舉例而言,偵測疾病特異性異常甲基化標誌允許篩選、診斷及監測該等妊娠相關病狀。量測母體血漿甲基化程度允許篩選、診斷及監測該等妊娠相關病狀。除直接應用於妊娠相關病狀之研究以外,該方法可應用於血漿DNA分析相關之其他藥物領域。舉例而言,可由癌症患者之血漿DNA測定癌症之甲基化模式組。如本文所述,由血漿分析癌症甲基化模式組可能為一種由血漿分析癌症基因組之協同技術(KCA Chan等人2013 Clin Chem; 59: 211-224;及RJ Leary等人2012 Sci Transl Med; 4:162ra154)。
舉例而言,測定血漿樣品之甲基化程度可用於篩選癌症。當血漿樣品之甲基化程度與健康對照相比顯示異常程度時,可疑似患有癌症。隨後可藉由測定不同基因組基因座處之血漿甲基化概況或藉由血漿基因組分析以偵測腫瘤相關複本數畸變、染色體易位及單一核苷酸變異體來進一步確定及評估癌症類型或癌症之組織來源。實際上,在本發明之一個實施例中,可同時進行血漿癌症甲基化模式組及基因組概況分析。或者,基於血漿甲基化程度分析,放射性及成像研究(例如電腦斷層攝影術、磁共振成像、正電子發射斷層攝影術)或內視鏡檢法(例如上胃腸道內視鏡檢法或結腸鏡檢法)可用於進一步研究疑似患有癌症之個體。
對於癌症篩選或偵測,測定血漿(或其他生物學)樣品之甲基化程度可與諸如前列腺特定性抗原量測(例如針對前列腺癌)、癌胚抗原(例如針對結腸直腸癌、胃癌、胰臟癌、肺癌、乳癌、甲狀腺髓質癌)、甲胎蛋白(例如針對肝癌或生殖細胞腫瘤)、CA125 (例如針對卵巢癌及乳癌)及CA19-9 (例如針對胰臟癌)之其他癌症篩選或偵測用模態聯合使用。
另外,可對其他組織進行定序以獲得細胞甲基化模式組。舉例而言,可分析肝組織以測定對肝臟之甲基化模式特異性,該對肝臟之甲基化模式特異性可用於鑑別肝臟病變。亦可加以分析之其他組織包括腦細胞、骨、肺、心臟、肌肉及腎等。各種組織之甲基化概況可時常變化,例如,由於發育、老化、疾病過程(例如發炎或肝硬化或自體免疫過程(諸如在全身性紅斑狼瘡中))或治療(例如用諸如5-氮雜胞嘧啶核苷及5-氮雜脫氧胞嘧啶核苷之脫甲基劑治療)。DNA甲基化之動態性質使得此種分析可能對監測生理及病理過程非常有價值。舉例而言,若在個體血漿甲基化模式組中偵測到與當其健康時所獲得之基線值相比有所變化,則隨後可偵測器官中對血漿DNA有貢獻之疾病過程。
此外,可由器官移植接受者之血漿DNA測定移植器官之甲基化模式組。如本發明中所述,由血漿分析移植物甲基化模式組可能為一種由血漿分析移植物基因組之協同技術(YW Zheng等人, 2012;YMD Lo等人1998 Lancet; 351: 1329-1330;及TM Snyder等人2011 Proc Natl Acad Sci USA; 108: 6229-6234)。由於血漿DNA一般被視為細胞死亡之標記物,故自移植器官釋放之DNA之血漿含量增加可用作該器官之細胞死亡增加的標記物,諸如排斥反應發作或涉及該器官之其他病理過程(例如感染或膿腫)。在成功實行抗排斥療法之情況下,預期由移植器官釋放之DNA之血漿含量將減少。
III. 使用SNP測定胎兒或腫瘤甲基化模式組
如上所述,血漿甲基化模式組對應於未妊娠正常人之血液甲基化模式組。然而,對於妊娠女性,甲基化模式組不同。在大多數母體DNA背景中,胎兒DNA分子在母體血漿中循環(YMD Lo等人1998 Am J Hum Genet; 62: 768-775)。因此,對於妊娠女性,血漿甲基化模式組在很大程度上為胎盤甲基化模式組與血液甲基化模式組之複合物。因此,可自血漿提取胎盤甲基化模式組。
在一個實施例中,使用母親與胎兒之間的單核苷酸多態性(SNP)差異來鑑別母體血漿中之胎兒DNA分子。一個目的在於鑑別母親為同型組合但胎兒為異型組合的SNP基因座;胎兒特異性等位基因可用於測定何種DNA片段來自胎兒。使用SNP基因型分析陣列Illumina HumanOmni2.5-8來分析來自母體血細胞之基因組DNA。另一方面,對於母親為異型組合且胎兒為同型組合的SNP基因座,則可使用母親特異性SNP等位基因來測定何種血漿DNA片段來自母親。該等DNA片段之甲基化程度將體現母親中相關基因組區域的甲基化程度。
A. 胎兒特異性讀段之甲基化與胎盤甲基化模式組之相關性由生物樣品之定序結果鑑別具有兩個不同等位基因之基因座,其中一個等位基因(B)之量顯著少於另一等位基因(A)。覆蓋B等位基因之讀段被認為具胎兒特異性(胎兒特異性讀段)。確定母親為A同型組合且胎兒為A/B異型組合,且因此覆蓋A等位基因之讀段由母親及胎兒共有(共有讀段)。
在所分析之用於說明本發明中之若干概念的一種妊娠情況中,發現妊娠母親在常染色體上之1,945,516個基因座處為同型組合。檢驗覆蓋此等SNP之母體血漿DNA定序讀段。在107,750個基因座處偵測到攜帶非母體等位基因之讀段,且此等被視為資訊基因座。在各資訊SNP處,並非來自母親之等位基因稱為胎兒特異性等位基因,而另一等位基因稱為共有等位基因。
可測定母體血漿中之部分胎兒/腫瘤DNA濃度(亦稱為胎兒DNA百分比)。在一個實施例中,母體血漿中之部分胎兒DNA濃度
f係由以下等式測定:
其中
p為具有胎兒特異性等位基因之定序讀段的數目且
q為具有母親與胎兒之間的共有等位基因之定序讀段的數目(YMD Lo等人2010 Sci Transl Med; 2: 61ra91)。發現前三個月、後三個月及分娩後母體血漿樣品中之胎兒DNA比例分別為14.4%、33.9%及4.5%。亦使用與染色體Y比對之讀段之數目來計算胎兒DNA比例。基於染色體Y資料,在前三個月、後三個月及分娩後母體血漿樣品中,結果分別為14.2%、34.9%及3.7%。
藉由獨立地分析胎兒特異性或共有定序讀段,實施例顯示循環胎兒DNA分子之低甲基化程度比背景DNA分子大得多。胎兒特異性母體血漿讀段中相應基因座之甲基化密度與前三個月及後三個月兩者之胎盤組織資料的比較顯示高度相關性。與基於來源於所選基因座之資訊的先前證據相比,此等資料提供胎盤為母體血漿中來源於胎兒之DNA分子之主要來源的基因組含量證據且向進了一大步。
吾等使用覆蓋與資訊SNP相鄰之CpG位點的胎兒特異性或共有讀段來測定基因組中之各1 Mb區域之甲基化密度。自母體血漿序列讀段收集之胎兒及非胎兒特異性甲基化模式組可顯示於例如Circos圖中(M Krzywinski等人2009 Genome Res; 19: 1639-1645)。亦測定母體血細胞及胎盤組織樣品之每1 Mb區間之甲基化密度。
圖7A展示前三個月樣品之Circos圖700。圖7B展示後三個月樣品之Circos圖750。圖700及750展示每1 Mb區間之甲基化密度。染色體表意文字(最外環)在順時針方向上呈pter-qter定向(著絲點以紅色顯示)。第二最外部軌道顯示相應1 Mb區域中之CpG位點數。紅色條之標度顯示為每1 Mb區間多達20,000個位點。基於中心所示之色彩方案,在其他軌道中展示相應1 Mb區域之甲基化密度。
對於前三個月樣品(圖7A),由內向外,軌道為:絨毛膜絨毛樣品、母體血漿中之胎兒特異性讀段、母體血漿中之母體特異性讀段、母體血漿中之胎兒與非胎兒組合讀段及母體血細胞。對於後三個月樣品(圖7B),軌道為:足月胎盤組織、母體血漿中之胎兒特異性讀段、母體血漿中之母體特異性讀段、母體血漿中之胎兒與非胎兒組合讀段、分娩後母體血漿及母體血細胞(來自前三個月血液樣品)。可瞭解對於前三個月及後三個月血漿樣品兩者,胎兒甲基化模式組之低甲基化程度大於非胎兒特異性甲基化模式組。
胎兒甲基化模式組之總體甲基化概況更緊密類似CVS或胎盤組織樣品。相反,血漿中之共有讀段(主要為母體DNA)之DNA甲基化概況更緊密類似於母體血細胞。吾等隨後對母體血漿DNA讀段與母體或胎兒組織之甲基化密度進行系統性逐基因座比較。吾等測定作為資訊SNP存在於同一序列讀段上且覆蓋至少5個母體血漿DNA序列讀段之CpG位點之甲基化密度。
圖8A至8D展示比較資訊性單核苷酸多態性周圍之CpG位點之基因組組織DNA相對於母體血漿DNA之甲基化密度的圖。圖8A展示前三個月母體血漿樣品中胎兒特異性讀段之甲基化密度相對於CVS樣品中讀段之甲基化密度。如可見,胎兒特異性值良好對應於CVS值。
圖8B展示後三個月母體血漿樣品中胎兒特異性讀段之甲基化密度相對於足月胎盤組織中讀段之甲基化密度。密度組又良好對應,表明可藉由分析具有胎兒特異性等位基因之讀段來獲得胎兒甲基化概況。
圖8C展示前三個月母體血漿樣品中共有讀段之甲基化密度相對於母體血細胞中讀段之甲基化密度。鑒於大部分共有讀段來自母親,故兩組值良好對應。圖8D展示後三個月母體血漿樣品中共有讀段之甲基化密度相對於母體血細胞中讀段之甲基化密度。
對於母體血漿中之胎兒特異性讀段,前三個月母體血漿與CVS之間的斯皮爾曼相關係數(Spearman correlation coefficient)為0.705 (
P<2.2×e-16);且後三個月母體血漿與足月胎盤組織之間的斯皮爾曼相關係數為0.796 (
P<2.2×e-16) (圖8A及8B)。對母體血漿與母體血細胞資料中之共有讀段進行類似比較。前三個月血漿樣品之皮爾遜相關係數為0.653 (
P<2.2×e-16)且後三個月血漿樣品之皮爾遜相關係數為0.638 (
P<2.2×e-16) (圖8C及8D)。
B. 胎兒甲基化模式組在一個實施例中,為自母體血漿中收集胎兒甲基化模式組,吾等淘選跨越至少一個資訊性胎兒SNP位點且在同一讀段內含有至少一個CpG位點的序列讀段。顯示胎兒特異性等位基因之讀段包括在胎兒甲基化模式組之集合中。顯示共有等位基因,亦即非胎兒特異性等位基因之讀段包括在主要包含來源於母體之DNA分子的非胎兒特異性甲基化模式組之集合中。
對於前三個月母體血漿樣品,胎兒特異性讀段覆蓋常染色體上之218,010個CpG位點。後三個月及分娩後母體血漿樣品之相應個數分別為263,611及74,020。平均而言,共有讀段分別平均覆蓋33.3、21.7及26.3倍該等CpG位點。對於前三個月、後三個月及分娩後母體血漿樣品,胎兒特異性讀段分別覆蓋3.0、4.4及1.8倍該等CpG位點。
胎兒DNA代表母體血漿中之微量群體,且因此胎兒特異性讀段對該等CpG位點之覆蓋率與樣品之胎兒DNA百分比成比例。對於前三個月母體血漿樣品,甲基化CpG在胎兒讀段中之總體百分比為47.0%,而共有讀段為68.1%。對於後三個月母體血漿樣品,胎兒讀段之甲基化CpG之百分比為53.3%,而共有讀段為68.8%。此等資料顯示,母體血漿中之胎兒特異性讀段之低甲基化程度大於母體血漿中之共有讀段。
C. 方法上述技術亦可用於測定腫瘤甲基化概況。現描述用於測定胎兒及腫瘤甲基化概況之方法。
圖9為說明根據本發明實施例之用於測定生物體之生物樣品之第一甲基化概況之方法900的流程圖。方法900可根據母體血漿之甲基化概況構築胎兒之表觀遺傳圖譜。該生物樣品包括細胞游離DNA,該細胞游離DNA包含來源於第一組織及第二組織之細胞游離DNA之混合物。作為實例,第一組織可來自胎兒、腫瘤或移植器官。
在方塊910處,分析來自生物樣品之複數個DNA分子。分析DNA分子可包括測定DNA分子在生物體基因組中之位置、測定DNA分子之基因型及測定DNA分子是否在一或多個位點甲基化。
在一個實施例中,使用DNA分子之序列讀段來分析DNA分子,其中定序獲知甲基化。因此,序列讀段包括來自生物樣品之DNA分子之甲基化狀態。甲基化狀態可包括特定胞嘧啶殘基是5-甲基胞嘧啶或是5-羥甲基胞嘧啶。序列讀段可獲自各種定序技術、PCR技術、陣列及適用於鑑別片段之序列的其他技術。可如本文所述獲得序列讀段之位點之甲基化狀態。
在方塊920處,鑑別複數個第一基因座,其中第一組織之第一基因組對於各別第一等位基因及各別第二等位基因為異型組合且第二組織之第二基因組對於各別第一等位基因為同型組合。舉例而言,可在複數個第一基因座處鑑別胎兒特異性讀段。或者,可在複數個第一基因座處鑑別腫瘤特異性讀段。可由第二等位基因之序列讀段之百分比處於特定範圍(例如約3%至25%)內的定序讀段中鑑別組織特異性讀段,藉此指示來自該基因座處之異型組合基因組之DNA片段之少數群體及來自該基因座處之同型組合基因組之多數群體。
在方塊930處,分析位於各第一基因座之一或多個位點處的DNA分子。測定在某一位點處經甲基化且對應於基因座之各別第二等位基因的許多DNA分子。每個基因座可存在超過一個位點。舉例而言,SNP可指示片段具胎兒特異性,且該片段可具有多個甲基化狀態已測定之位點。可測定各位點處經甲基化之讀段的數目,且可測定基因座之甲基化讀段之總數。
基因座可由特定數目之位點、一組特定位點或包含組織特異性等位基因之變化形式周圍之區域的特定大小定義。基因座可僅具有一個位點。該等位點可具有特異性,例如,作為CpG位點。測定許多未甲基化的讀段為等效的,且涵蓋在測定甲基化狀態內。
在方塊940處,對於各第一基因座,基於在基因座之一或多個位點處經甲基化且對應於基因座之各別第二等位基因之DNA分子之數目來計算甲基化密度。舉例而言,可測定對應於基因座之CpG位點的甲基化密度。
在方塊950處,由第一基因座之甲基化密度產生第一組織之第一甲基化概況。第一甲基化概況可對應於特定位點,例如CpG位點。甲基化概況可針對具有胎兒特異性等位基因之所有基因座或僅針對該等基因座中之一些。
IV. 使用血漿與血液甲基化模式組之差異
上文顯示來自血漿之胎兒特異性讀段與胎盤甲基化模式組相關。因為母體血漿甲基化模式組之母體組分主要由血細胞貢獻,故血漿甲基化模式組與血液甲基化模式組之間的差異可用於測定所有基因座之胎盤甲基化模式組,而不僅是胎兒特異性等位基因之位置。血漿甲基化模式組與血液甲基化模式組之間的差異亦可用以測定腫瘤之甲基化模式組。
A. 方法圖10為說明根據本發明實施例之用於測定生物體之生物樣品之第一甲基化概況之方法1000的流程圖。生物樣品(例如血漿)包括細胞游離DNA,該細胞游離DNA包含來源於第一組織及第二組織之細胞游離DNA之混合物。第一甲基化概況對應於第一組織(例如,胎兒組織或腫瘤組織)之甲基化概況。方法1200可由母體血漿推斷差異性甲基化區域。
在方塊1010處,接收生物樣品。在機器(例如,定序機器)處簡單地接收生物樣品。生物樣品可呈取自生物體之形式或可呈經處理形式,例如,樣品可為自血液樣品提取之血漿。
在方塊1020處,獲得對應於第二組織之DNA的第二甲基化概況。可自記憶體讀取第二甲基化概況,因為其可能先前已測定。可由第二組織測定第二甲基化概況,例如僅含有或主要含有第二組織之細胞的不同樣品。第二甲基化概況可對應於細胞甲基化概況且獲自細胞DNA。作為另一實例,可由在妊娠之前或在癌症發展之前收集之血漿樣品測定第二概況,因為未患癌症之非妊娠人士之血漿甲基化模式組極類似於血細胞之甲基化模式組。
第二甲基化概況可提供生物體基因組中之複數個基因座中之每一者處的甲基化密度。特定基因座處之甲基化密度對應於第二組織之甲基化DNA之比例。在一個實施例中,甲基化密度為CpG甲基化密度,其中與基因座相關之CpG位點用於測定甲基化密度。若基因座存在一個位點,則甲基化密度可等於甲基化指數。甲基化密度亦對應於未甲基化密度,因為該兩個值互補。
在一個實施例中,藉由對來自生物體樣品之細胞DNA進行可獲知甲基化之定序來獲得第二甲基化概況。可獲知甲基化之定序之一個實例包括用亞硫酸氫鈉處理DNA且隨後進行DNA定序。在另一實例中,可獲知甲基化之定序可在不使用亞硫酸氫鈉的情況下藉由以下方式來進行:使用單一分子定序平台,該定序平台將在不進行亞硫酸氫鹽轉化的情況下直接闡明DNA分子(包括N6-甲基腺嘌呤、5-甲基胞嘧啶及5-羥甲基胞嘧啶)之甲基化狀態(AB Flusberg等人2010 Nat Methods; 7: 461-465;J Shim等人2013 Sci Rep; 3:1389. doi: 10.1038/srep01389);或藉由甲基化胞嘧啶之免疫沈澱,例如藉由使用針對甲基胞嘧啶之抗體或藉由使用甲基化DNA結合蛋白或肽(LG Acevedo等人2011 Epigenomics; 3: 93-101),隨後定序;或藉由使用甲基化敏感性限制酶,隨後定序。在另一實施例中,使用非定序技術,諸如陣列、數位PCR及質譜。
在另一實施例中,可預先自個體或其他個體之對照樣品獲得第二組織之第二甲基化密度。來自另一個體之甲基化密度可充當具有參考甲基化密度之參考甲基化概況。可自多個樣品測定參考甲基化密度,其中基因座處之不同甲基化密度之平均程度(或其他統計值)可用作該基因座處之參考甲基化密度。
在方塊1030處,自混合物之細胞游離DNA測定細胞游離甲基化概況。細胞游離甲基化概況提供複數個基因座中之每一者處的甲基化密度。可藉由接收來自細胞游離DNA之定序的序列讀段來測定細胞游離甲基化概況,其中甲基化資訊係利用序列讀段獲得。可用與細胞甲基化模式組相同之方式測定細胞游離甲基化概況。
在方塊1040處,測定來自生物樣品中之第一組織之細胞游離DNA之百分比。在一個實施例中,第一組織為胎兒組織,且相應DNA為胎兒DNA。在另一實施例中,第一組織為腫瘤組織,且相應DNA為腫瘤DNA。可用多種方式測定百分比,例如使用胎兒特異性等位基因或腫瘤特異性等位基因。複本數亦可用於測定百分比,例如,如2013年3月13日申請之標題為「Mutational Analysis Of Plasma DNA For Cancer Detection」之美國專利申請案13/801,748中所述,該申請案係以引用的方式併入本文中。
在方塊1050處,鑑別複數個基因座以供測定第一甲基化模式組。此等基因座可對應於用於測定細胞游離甲基化概況及第二甲基化概況之基因座中每一者。因此,複數個基因座可對應。有可能可使用更多基因座來測定細胞游離甲基化概況及第二甲基化概況。
在一些實施例中,例如可使用母體血細胞鑑別第二甲基化概況中經高甲基化或經低甲基化之基因座。為鑑別母體血細胞中經高甲基化之基因座,可自染色體之一端掃描甲基化指數≥X% (例如80%)之CpG位點。隨後可在下游區域內(例如,在下游200 bp內)搜尋下一CpG位點。若下一下游CpG位點之甲基化指數亦≥X% (或其他規定量),則可將第一及第二CpG位點分組。分組可持續,直至下一下游區域內無其他CpG位點;或下一下游CpG位點之甲基化指數<X%。若經分組CpG位點之區域含有至少五個緊密相鄰之高甲基化CpG位點,則該區域可報導為在母體血細胞中經高甲基化。可進行類似分析以在母體血細胞中經低甲基化之基因座中搜尋甲基化指數≤20%之CpG位點。可計算候選基因座之第二甲基化概況之甲基化密度且用於推斷相應基因座之第一甲基化概況(例如胎盤組織甲基化密度),例如根據母體血漿亞硫酸氫鹽定序資料。
在方塊1060處,藉由計算差異性參數(包括複數個基因座中每一者之第二甲基化概況之甲基化密度與細胞游離甲基化概況之甲基化密度之間的差異)來測定第一組織之第一甲基化概況。該差異以百分比定標。
在一個實施例中,第一(例如胎盤)組織中之基因座之第一甲基化密度(
D)係使用以下等式推斷:
(1)
其中
mbc表示基因座(例如候選基因座,如母體血細胞亞硫酸氫鹽定序資料中所測定)處之第二甲基化概況之甲基化密度;
mp表示母體血漿亞硫酸氫鹽定序資料中相應基因座之甲基化密度;
f表示來自第一組織之細胞游離DNA之百分比(例如,部分胎兒DNA濃度),且CN表示該基因座處之複本數(例如,相對於正常情況,較高擴增值或較低缺失數)。若第一組織中不存在擴增或缺失,則CN可為一。對於三體性(或腫瘤或胎兒中之區域複製),CN將為1.5 (因為自2個複本增至3個複本)且單體性將具有0.5。較高擴增可以0.5之增量增加。在此實例中,D可對應於差異性參數。
在方塊1070處,轉換第一甲基化密度以獲得第一組織之經修正第一甲基化密度。該轉換可解決第一組織之差異性參數與實際甲基化概況之間的固定差異。舉例而言,該等值可相差固定常數或某一斜率。該轉換可為線性或非線性的。
在一個實施例中,發現推斷值
D之分佈低於胎盤組織之實際甲基化程度。舉例而言,推斷值可使用來自CpG島之資料進行線性轉換,該等CpG島為過度呈現CpG位點之基因組區段。本研究中所使用之CpG島之基因組位置係獲自UCSC基因組瀏覽器資料庫(NCBI版本36/hg18) (PA Fujita等人2011 Nucleic Acids Res; 39: D876-882)。舉例而言,CpG島可定義為GC含量≥50%、基因組長度>200 bp且觀測/預期CpG數之比率>0.6的基因組區段(M Gardiner-Garden等人1987 J Mol Biol; 196: 261-282)。
在一個實施例中,為導出線性轉換等式,定序樣品中可包括具有至少4個CpG位點且每個CpG位點之平均讀取深度≥5的CpG島。在確定CVS或妊娠期胎盤中之CpG島之甲基化密度與推斷值
D之間的線性關係之後,使用以下等式來測定預測值:
前三個月預測值 =
D× 1.6 + 0.2
後三個月預測值 =
D× 1.2 + 0.05
B. 胎兒實例如上文所提及,方法1000可用於由母體血漿推斷胎盤之甲基化型態。血漿中之循環DNA主要來源於造血細胞。由其他內臟貢獻之細胞游離DNA之比例仍為未知的。此外,來源於胎盤之細胞游離DNA佔母體血漿中之總DNA之約5%-40%,其平均值為約15%。因此,可假定母體血漿中之甲基化程度等效於現存背景甲基化加妊娠期間之胎盤貢獻,如上文所述。
母體血漿甲基化程度
MP可使用以下等式測定:
其中
BKG為來源於血細胞及內臟之血漿中的背景DNA甲基化程度,
PLN為胎盤之甲基化程度,且
f為母體血漿中之部分胎兒DNA濃度。
在一個實施例中,胎盤之甲基化程度理論上可由以下等式推斷:
(2)
當CN等於一、D等於PLN且BKG等於mbc時,等式(1)及(2)等效。在另一實施例中,部分胎兒DNA濃度可假定或設定為規定值,例如,作為所存在之最小
f之假定值的一部分。
獲取母體血液之甲基化程度來代表母體血漿之背景甲基化。除母體血細胞中經高甲基化或低甲基化之基因座以外,吾等進一步研究藉由聚焦於具有臨床相關性之所定義區域(例如人類基因組中之CpG島)的推斷方法。
常染色體及chrX上之總計27,458個CpG島(NCBI版本36/hg18)之平均甲基化密度來源於母體血漿及胎盤之定序資料。在所有分析樣品中,包括胎盤、母體血液及母體血漿,僅選擇覆蓋≥10個CpG位點且每個所覆蓋CpG位點之平均讀取深度≥5的CpG島。因此,26,698個CpG島(97.2%)仍有效,且使用血漿甲基化資料及部分胎兒DNA濃度根據以上等式推斷其甲基化程度。
應注意,在胎盤組織中,推斷
PLN值之分佈低於CpG島之實際甲基化程度。因此,在一個實施例中,推斷
PLN值或簡單推斷值(
D)用作任意單位以評估胎盤中之CpG島之甲基化程度。在轉換後,推斷值呈線性且其分佈更類似於實際資料集。經轉換推斷值稱為甲基化預測值(MPV)且隨後用於預測胎盤中之基因座之甲基化程度。
在此實例中,將CpG島基於其在胎盤中之甲基化密度分為3類:低(≤0.4)、中間(>0.4-<0.8)及高(≥0.8)。使用推斷等式,吾等計算同一組CpG島之MPV且隨後使用該值以相同截止值將其分為3類。藉由比較實際與推斷資料集,吾等發現根據其MPV,75.1%之候選CpG島可與組織資料中之相同類別正確匹配。約22%之CpG島被指派至具有1級差異(高相對於中間,或中間相對於低)之群組,且小於3%將為完全錯分類(高相對於低) (圖12A)。亦測定總體分級效能:正確地將胎盤中甲基化密度≤0.4、>0.4-<0.8及≥0.8之CpG島中之86.1%、31.4%及68.8%推斷為「低」、「中間」及「高」(圖12B)。
圖11A及11B展示根據本發明實施例之使用母體血漿資料及部分胚胎DNA濃度之預測演算法之效能的圖式。圖11A為展示使用MPV正確分類(推斷類別準確匹配實際資料集)、1級差異(推斷類別與實際資料集相差1級)及錯分類(推斷類別與實際資料集相對)之CpG島分類準確度的圖式1100。圖11B為展示分類於各推斷類別中之CpG島之比例的圖式1150。
鑒於母體背景甲基化在各別基因組區域中較低,循環中存在來源於高甲基化胎盤之DNA將使總體血漿甲基化程度增加一定程度,視部分胎兒DNA濃度而定。當所釋放之胎兒DNA完全甲基化時,可觀測到顯著變化。相反,當母體背景甲基化較高時,若釋放低甲基化胎兒DNA,則血漿甲基化程度之變化程度將變得更顯著。因此,當推斷已知在母體背景與胎盤之間互異之基因座的甲基化程度時,推斷流程可能更實際,尤其是對於胎盤中之高甲基化及低甲基化標記物。
圖12A為展示根據本發明實施例之用於甲基化預測之15個所選基因組基因座之詳情的表1200。為確定技術,吾等選擇先前已研究之15個差異性甲基化基因組基因座。推斷所選區域之甲基化程度且與先前研究之15個差異性甲基化之基因座相比較(RWK Chiu等人2007 Am J Pathol; 170: 941-950;S.S.C. Chim等人2008 Clin Chem; 54: 500-511;SSC Chim等人2005 Proc Natl Acad Sci U S A; 102: 14753-14758;DWY Tsui等人2010 PLoS One; 5: e15069)。
圖12B為展示15個所選基因組基因座之推斷類別及其在胎盤中之相應甲基化程度的圖式1250。推斷甲基化類別為:低,≤0.4;中間,>0.4-<0.8;高,≥0.8。表1200及圖式1300顯示可正確推斷其在胎盤中之甲基化程度,但以下若干個除外:RASSF1A、CGI009、CGI137及VAPA。在該4個標記物中,僅CGI009與實際資料集展示顯著差異。其他僅稍微錯分類。
在表1200中,「1」係指藉由以下等式計算之推斷值(
D):
,其中
f為部分胎兒DNA濃度。標記「2」係指甲基化預測值(MPV)指代使用以下等式獲得之經線性轉換之推斷值:
MPV=
D× 1.6 + 0.25。標記「3」係指推斷值之分類截止值:低,≤0.4;中(中等),>0.4-<0.8;高,≥0.8。標記「4」係指實際胎盤資料集之分類截止值:低,≤0.4;中(中等),>0.4-<0.8;高,≥0.8。標記「5」表示胎盤狀態係指胎盤之甲基化狀態相對於母體血細胞之甲基化狀態。
C. 計算胎兒 DNA 之部分濃度在一個實施例中,來自第一組織之胎兒DNA之百分比可使用男性胎兒之Y染色體。母體血漿樣品中之染色體Y序列之比例(chrY%)為來源於男性胎兒之染色體Y讀段及錯指派至染色體Y之母體(女性)讀段之數目的組合(RWK Chiu等人2011 BMJ; 342: c7401)。因此,樣品中之chrY%與部分胎兒DNA濃度(
f)之間的關係可由以下等式獲得:
其中chrY
男性%係指含有100%男性DNA之血漿樣品中被指派為染色體Y之讀段的比例;且chrY
女性%係指含有100%女性DNA之血漿樣品中被指派為染色體Y之讀段的比例。
可由來自懷有男性胎兒之女性之樣品中被指派至染色體Y且無錯配之讀段(例如,其中該等讀段來自經亞硫酸氫鹽轉化之樣品)確定chrY%。chrY
男性%值可獲自對兩個成年男性血漿樣品之亞硫酸氫鹽定序。chrY
女性%值可獲自對兩個未妊娠成年女性血漿樣品之亞硫酸氫鹽定序。
在其他實施例中,胎兒DNA百分比可由常染色體上之胎兒特異性等位基因確定。作為另一實例,表觀遺傳標記物可用於測定胎兒DNA百分比。亦可使用測定胎兒DNA百分比之其他方式。
D. 使用甲基化確定複本數之方法胎盤基因組之低甲基化程度大於母體基因組。如上文所論述,孕婦血漿之甲基化視母體血漿中來源於胎盤之胎兒DNA之部分濃度而定。因此,藉由分析染色體區域之甲基化密度,可偵測胎兒組織對母體血漿之貢獻差異。舉例而言,在懷有三體性胎兒(例如罹患第21對染色體三體症或第18對染色體三體症或第13對染色體三體症)之孕婦中,當與二體性染色體相比時,胎兒將由三體性染色體向母體血漿貢獻額外量之DNA。在此情形下,三體性染色體(或具有擴增之任何染色體區域)之血漿甲基化密度將低於二體性染色體。可藉由數學計算藉由考慮血漿樣品中之部分胎兒DNA濃度來預測差異程度。血漿樣品中之部分胎兒DNA濃度愈高,三體性與二體性染色體之間的甲基化密度差異將愈大。對於具有缺失之區域,甲基化密度將較高。
當女性胎兒將僅具有一個染色體X複本時,缺失之一個實例為特納氏症候群(Turner syndrome)。在此情形下,對於懷有罹患特納氏症候群之胎兒的孕婦,其血漿DNA中之染色體X之甲基化密度將高於懷有具有正常數目染色體X之女性胎兒之相同孕婦的情形。在此策略之一個實施例中,可首先分析母體血漿中存在或不存在染色體Y序列(例如,使用基於MPS或PCR之技術)。若存在染色體Y序列,則胎兒可分類為男性且將不需要進行以下分析。另一方面,若母體血漿中不存在染色體Y序列,則胎兒可分類為女性。在此情形下,可隨後分析母體血漿中之染色體X之甲基化密度。染色體X甲基化密度高於正常將指示胎兒具有高特納氏症候群風險。此方法亦可應用於其他性別染色體非整倍性。舉例而言,對於受XYY影響之胎兒,母體血漿中Y染色體之甲基化密度將低於母體血漿中具有類似含量之胎兒DNA之正常XY胎兒。作為另一實例,對於罹患克萊恩費特氏症候群(Klinefelter syndrome)之胎兒(XXY),染色體Y序列存在於母體血漿中,但母體血漿中之染色體X之甲基化密度將低於母體血漿中具有類似含量之胎兒DNA之正常XY胎兒。
根據先前論述,二體性染色體之血漿甲基化密度(MP
非非整倍體)可計算為:
,其中
BKG為來源於血細胞及內臟之血漿中的背景DNA甲基化程度,
PLN為胎盤之甲基化程度,且
f為母體血漿中之部分胎兒DNA濃度。
三體性染色體之血漿甲基化密度(MP
非整倍體)可計算為:
,其中1.5對應於複本數CN且再增加一個染色體為50%增加。三體性與二體性染色體之間的差異(MP
差異)將為:
。
在一個實施例中,比較潛在非整倍體染色體(或染色體區域)與一或多個其他假定非非整倍體染色體之甲基化密度或基因組之總體甲基化密度可用於有效標準化血漿樣品中之胎兒DNA濃度。該比較可經由計算兩個區域之甲基化密度之間的參數(例如,涉及比率或差異)以獲得標準化甲基化密度。該比較可移除對所得甲基化程度之依賴性(例如,確定為來自兩種甲基化密度之參數)。
若潛在非整倍體染色體之甲基化密度未針對一或多個其他染色體或體現部分胎兒DNA濃度之其他參數進行標準化,則部分濃度將為影響血漿中之甲基化密度的主要因素。舉例而言,懷有第21對染色體三體症胎兒且部分胎兒DNA濃度為10%之孕婦之染色體21之血漿甲基化密度將與懷有整倍體胎兒且部分胎兒DNA濃度為15%之孕婦相同,而標準化甲基化密度將顯示差異。
在另一實施例中,潛在非整倍體染色體之甲基化密度可針對部分胎兒DNA濃度進行標準化。舉例而言,可應用以下等式以標準化甲基化密度:
,其中MP
標準化為經血漿中之部分胎兒DNA濃度標準化之甲基化密度,MP
未標準化為量測之甲基化密度,BKG為來自母體血細胞或組織之背景甲基化密度,PLN為胎盤組織中之甲基化密度,且
f為部分胎兒DNA濃度。BKG及PLN之甲基化密度可基於先前由獲自健康妊娠之母體血細胞及胎盤組織確定之參考值。不同的遺傳及表觀遺傳方法可用於測定血漿樣品中之部分胎兒DNA濃度,例如藉由使用大規模平行定序或PCR對未經亞硫酸氫鹽轉化之DNA量測來自染色體Y之序列讀段之百分比。
在一個實施例中,潛在非整倍體染色體之標準化甲基化密度可與由懷有整倍體胎兒之孕婦組成之參考組相比。可測定參考組之標準化甲基化密度之平均值及SD。隨後,測試病例之標準化甲基化密度可表示為z評分,該z評分指示得自參考組之平均值的SD數值:
,其中MP
標準化為測試病例之標準化甲基化密度,平均值為參考病例之標準化甲基化密度之平均值,且SD為參考病例之標準化甲基化密度之標準差。若染色體顯著低甲基化,則截止值,例如z評分<-3,可用於分類,且因此,用於確定樣品之非整倍性狀態。
在另一實施例中,MP
差異可用作標準化甲基化密度。在該實施例中,可推斷PLN,例如使用方法1000。在一些實施例中,參考甲基化密度(其可使用f標準化)可由非非整倍體區域之甲基化程度確定。舉例而言,平均值可由相同樣品之一或多個染色體區域確定。截止值可藉由f定標,或僅設定為足夠程度,只要存在最小濃度即可。
因此,區域之甲基化程度與截止值之比較可用各種方式實現。該比較可涉及標準化(例如,如上所述),該標準化可等效地對甲基化程度或截止值進行,視如何界定該等值而定。因此,區域之所測定甲基化程度是否在統計上不同於參考程度(由相同樣品或其他樣品測定)可用多種方式確定。
以上分析可應用於分析染色體區域,該等染色體區域可包括完整染色體或部分染色體,包括染色體之連續或不連貫亞區。在一個實施例中,潛在非整倍體染色體可分成許多區間。該等區間可具有相同或不同的大小。各區間之甲基化密度可針對樣品之部分濃度或一或多個假定非非整倍體染色體之甲基化密度或基因組之總體甲基化密度進行標準化。各區間之標準化甲基化密度可隨後可與參考組相比較以確定其是否顯著低甲基化。隨後可測定顯著低甲基化之區間之百分比。顯著低甲基化之區間之截止值,例如大於5%、10%、15%、20%或30%,可用於對病例之非整倍性狀態進行分類。
當測試擴增或缺失時,可比較甲基化密度與可能對所測試之特定區域具有特異性的參考甲基化密度。各區域可具有不同的參考甲基化密度,因為甲基化可能因區域而各異,特定言之視區域之大小而定(例如,區域愈小,將展示愈多變化)。
如上文所提及,一或多個各自懷有整倍體胎兒之孕婦可用於定義相關區域之甲基化密度之正常範圍或兩個染色體區域之間的甲基化密度差異。亦可測定PLN之正常範圍(例如,藉由直接量測或藉由方法1000推斷)。在其他實施例中,可使用兩種甲基化密度之間的比率,例如,潛在非整倍體染色體及非非整倍體染色體之甲基化密度比率可用於該分析來替代其差異。此甲基化分析方法可與序列讀段計數方法(RWK Chiu等人2008 Proc Natl Acad Sci USA;105:20458-20463)及涉及血漿DNA之大小分析之方法(美國專利2011/0276277)組合以測定或確定非整倍性。與甲基化分析組合使用之序列讀段計數方法可使用隨機定序(RWK Chiu等人2008 Proc Natl Acad Sci USA;105:20458-20463;DW Bianchi DW等人2012 Obstet Gynecol 119:890-901)或靶向定序(AB Sparks等人2012 Am J Obstet Gynecol 206:319.e1-9;B Zimmermann等人2012 Prenat Diagn 32:1233-1241;GJ Liao等人2012 PLoS One; 7:e38154)來進行。
使用BKG可解決樣品之間的背景的變化。舉例而言,一個女性可能具有與另一女性不同的BKG甲基化程度,但在該等情形下,在樣品之間可使用BKG與PLN之間的差異。不同染色體區域之截止值可不同,例如,當基因組之一個區域之甲基化密度相對於基因組之另一區域有所不同時。
此方法可經通用化以偵測胎兒基因組中之任何染色體畸變,包括缺失及擴增。另外,此分析之解析度可調節至所要程度,例如基因組可分成10 Mb、5 Mb、2 Mb、1 Mb、500 kb、100 kb區間。因此,此技術亦可用於偵測亞染色體複製或亞染色體缺失。此技術將因此允許非侵入性獲得產前胎兒分子核型。當以此方式使用時,此技術可與基於分子計數之非侵入性產前測試方法(A Srinivasan等人2013 Am J Hum Genet;92:167-176;SCY Yu等人2013 PLoS One 8: e60968)組合使用。在其他實施例中,區間之大小不需要一致。舉例而言,區間之大小可經調節以使得各區間含有一致數目之CpG二核苷酸。在此情況下,區間之實際大小將不同。
等式可重寫如下以應用於不同類型之染色體畸變:
。此處CN表示受影響區域處複本數變化之數目。CN在獲得1個染色體複本時等於1,在獲得2個染色體複本時等於2,且在損失兩個同源染色體之一時(例如,偵測其中女性胎兒損失一個X染色體,從而產生XO核型的胎兒特納氏症候群時)等於-1。當區間之大小變化時,此等式不需要變化。然而,當使用較小區間大小時,敏感性及特異性可能降低,因為較小數目之CpG二核苷酸(或在胎兒DNA與母體DNA之間顯示差異性甲基化的其他核苷酸組合)將存在於較小區間中,從而在量測甲基化密度時增加隨機變化。在一個實施例中,所需要之讀段之數目可藉由分析甲基化密度之變化係數及所要敏感性程度來確定。
為證明此方法之可行性,吾等已分析來自9個孕婦之血漿樣品。在五個孕婦中,各自懷有整倍體胎兒,且其他四人各自懷有第21對染色體三體症(T21)胎兒。隨機選擇五個整倍體妊娠中之三個以形成參考組。使用此方法分析其餘兩個整倍體妊娠病例(Eu1及Eu2)及四個T21病例(T21-1、T21-2、T21-3及T21-4)以測試潛在T21狀態。使用Illumina HiSeq2000平台對血漿DNA進行亞硫酸氫鹽轉化及定序。在一個實施例中,計算個別染色體之甲基化密度。隨後確定染色體21與其他21對常染色體之平均值之間的甲基化密度差異以獲得標準化甲基化密度(表1)。參考組之平均值及SD用於計算六個測試病例之z評分。
| Eu1
| Eu2
| T21-1
| T21-2
| T21-3
| T21-4
|
染色體21與其他常染色體之間的MP
差異之z評分
| -1.48
| 1.09
| -4.46
| -5.30
| -8.06
| -5.69
|
表 1:使用<-3之z評分截止值將樣品分類為T21,對所有整倍體及T21病例之分類均正確。
在另一實施例中,將基因組分成1 Mb區間且測定各1 Mb區間之甲基化密度。潛在非整倍體染色體上之所有區間之甲基化密度可利用位於假定非非整倍體染色體上之所有區間之中值甲基化密度標準化。在一個實施例中,對於各區間,可計算與非非整倍體區間之中值相距之甲基化密度差異。可使用參考組之平均值及SD值來計算此等值之z評分。可確定顯示低甲基化之區間之百分比(表2)且與截止百分比相比較。
| Eu1
| Eu2
| T21-1
| T21-2
| T21-3
| T21-4
|
染色體21上具有MP
差異<-3之z評分之區間的百分比
| 0%
| 0%
| 33.3%
| 58.3%
| 19.4%
| 52.8%
|
表 2:針對染色體21上顯著更低甲基化之區間使用5%作為截止值,對於T21狀態,所有病例均正確分類。
此種用於偵測胎兒染色體或亞染色體畸變之基於DNA甲基化之方法可與基於分子計數之方法聯合使用,諸如藉由DNA分子之定序(RWK Chiu等人2008 Proc Natl Acad Sci USA; 105: 20458-20463)或數位PCR (YMD Lo等人2007 Proc Natl Acad Sci USA; 104: 13116-13121)或大小分析(美國專利公開案2011/0276277)。該組合(例如DNA甲基化加分子計數,或DNA甲基化加大小分析,或DNA甲基化加分子計數加大小分析)將具有協同效應,該協同效應在臨床處置中將為有利的,例如改良敏感性及/或特異性。舉例而言,可減少將需要例如藉由定序加以分析之DNA分子數目而不會不利地影響診斷準確性。此特徵將允許該等測試更經濟地進行。作為另一實例,對於指定數目之所分析DNA分子,組合方法將允許在較低部分胎兒DNA濃度下偵測胎兒染色體或亞染色體畸變。
圖13為偵測來自生物體之生物樣品之染色體異常的方法1300的流程圖。生物樣品包括細胞游離DNA,該細胞游離DNA包含來源於第一組織及第二組織之細胞游離DNA之混合物。第一組織可來自胎兒或腫瘤且第二組織可來自妊娠女性或患者。
在方塊1310處,分析來自生物樣品之複數個DNA分子。分析DNA分子可包括測定DNA分子在生物體基因組中之位置及測定DNA分子是否在一或多個位點處經甲基化。該分析可藉由接收來自可獲知甲基化之定序的序列讀段來進行,且因此可僅對先前獲自DNA之資料進行分析。在其他實施例中,該分析可包括實際定序或獲得該資料之其他有效步驟。
位置之測定可包括將DNA分子定位(例如經由定序讀段)於人類基因組之各別部分,例如定位於特定區域。在一個實施例中,若讀段未定位於相關區域,則該讀段可忽略。
在方塊基因處,對於複數個位點中之每一者,測定該位點處經甲基化之DNA分子之各別數目。在一個實施例中,位點為CpG位點,且可僅為某些CpG位點,如使用本文所提及之一或多個準則所選擇。甲基化DNA之數目等效於在使用特定位點處所分析之DNA分子總數(例如,定序讀段之總數)進行標準化後測定未甲基化數目。
在方塊1330處,基於第一染色體區域內之位點處之經甲基化DNA分子之各別數目來計算第一染色體區域之第一甲基化程度。第一染色體區域可具有任何大小,例如,上文所提及之大小。甲基化程度可說明指派至第一染色體區域之DNA分子總數,例如作為標準化程序之一部分。
第一染色體區域可具有任何大小(例如,整個染色體)且可由不連貫亞區構成,亦即,亞區彼此分開。可測定各亞區之甲基化程度且組合為例如平均值或中值以測定第一染色體區域之甲基化程度。
在方塊1340處,將第一甲基化程度與截止值相比較。截止值可為參考甲基化程度或係關於參考甲基化程度(例如,與正常程度相距規定距離)。截止值可由懷有第一染色體區域中無染色體異常之胎兒的其他女性妊娠個體、無癌症個體之樣品、或已知與非整倍性無關之生物體基因座(亦即,二體性區域)測定。
在一個實施例中,截止值可定義為與參考甲基化程度相比具有差異
,其中BKG為女性背景(或來自其他個體之平均值或中值),
f為來源於第一組織之細胞游離DNA之部分濃度,且CN為所測試之複本數。CN為對應於一種異常類型(缺失或複製)之標度因子之實例。CN 1之截止值可用於初步測試所有擴增,且隨後可使用其他截止值來測定擴增程度。截止值可基於來源於第一組織之細胞游離DNA之部分濃度以測定基因座之預期甲基化程度,例如在不存在複本數畸變的情況下。
在方塊1350處,第一染色體區域之異常之分類係基於比較而確定。統計上顯著之程度差異可指示胎兒具有染色體異常之風險增加。在各種實施例中,染色體異常可為第21對染色體三體症、第18對染色體三體症、第13對染色體三體症、特納氏症候群或克萊恩費特氏症候群。其他實例為亞染色體缺失、亞染色體複製或狄喬治氏症候群(DiGeorge syndrome)。
V. 測定標記物
如上所述,胎兒基因組之某些部分以不同於母體基因組之方式經甲基化。此等差異在整個妊娠中可為常見的。不同甲基化之區域可用於鑑別來自胎兒之DNA片段。
A. 用於測定來自胎盤組織及母體組織之 DMR 的方法胎盤具有組織特異性甲基化標誌。已基於在胎盤組織與母體血細胞之間差異性甲基化之基因座而開發出胎兒特異性DNA甲基化標記物用於母體血漿偵測及非侵入性產前診斷應用(SSC Chim等人2008 Clin Chem; 54: 500-511;EA Papageorgiou等人2009 Am J Pathol; 174: 1609-1618;及T Chu等人2011 PLoS One; 6: e14723)。提供基於全基因組搜尋該等差異性甲基化區域(DMR)之實施例。
圖14為根據本發明實施例之用於藉由比較胎盤甲基化概況與母體甲基化概況(例如,由血細胞測定)來鑑別甲基化標記物之方法1400的流程圖。方法1400亦可用於藉由比較腫瘤甲基化概況與對應於健康組織之甲基化概況來測定腫瘤標記物。
在方塊1410處,獲得胎盤甲基化模式組及血液甲基化模式組。可由胎盤樣品,例如CVS或妊娠期胎盤測定胎盤甲基化模式組。甲基化模式組應理解為可包括僅部分基因組之甲基化密度。
在方塊1420處,鑑別包括規定量之位點(例如,5個CpG位點)且已獲得足夠數目之讀段的區域。在一個實施例中,鑑別始於各染色體之一端以定位含有至少五個合格CpG位點之前500 bp區域。若CpG位點被至少五個序列讀段覆蓋,則可認為該位點合格。
在方塊1430處,計算各位點之胎盤甲基化指數及血液甲基化指數。舉例而言,對於各500 bp區域內之所有合格CpG位點,個別地計算甲基化指數。
在方塊1440處,比較母體血細胞與胎盤樣品之間的甲基化指數以確定指數集彼此之間是否不同。舉例而言,使用例如曼-惠特尼檢驗(Mann-Whitney test)比較母體血細胞與CVS或妊娠期胎盤之間的甲基化指數。例如
P值≤0.01被視為統計上顯著不同,但可使用其他值,其中較低數字將減少假陽性區域。
在一個實施例中,若合格CpG位點數目小於五或曼-惠特尼檢驗為非顯著,則500 bp區域向下游位移100 bp。該區域繼續向下游位移直至曼-惠特尼檢驗對500 bp區域變得顯著。隨後將考慮下一500 bp區域。若曼惠特尼檢驗發現下一區域展現統計顯著性,則將其加入當前區域,只要組合連續區域不大於1,000 bp即可。
在方塊1450處,可合併統計上顯著不同(例如,藉由曼-惠特尼檢驗)之相鄰區域。注意:該差異在兩個樣品之甲基化指數之間。在一個實施例中,若相鄰區域彼此在規定距離(例如1,000 bp)內且若其顯示類似甲基化概況,則將其合併。在一個實施例中,相鄰區域之間的甲基化概況之相似性可使用以下任一者來定義:(1)胎盤組織中展現與母體血細胞相同之趨勢,例如胎盤組織中兩個區域之甲基化程度大於血細胞中;(2)胎盤組織中之相鄰區域之甲基化密度差異小於10%;及(3)母體血細胞中相鄰區域之甲基化密度差異小於10%。
在方塊1460處,計算該等區域處來自母體血細胞DNA之血液甲基化模式組及胎盤樣品(例如CVS或足月胎盤組織)之甲基化密度。可如本文所述測定甲基化密度。
在方塊1470處,確定該區域中所有位點處之總胎盤甲基化密度及總血液甲基化密度在統計上顯著不同之假定DMR。在一個實施例中,對合併區域內之所有合格CpG位點進行χ
2檢驗。χ
2檢驗評定所合併區域內所有合格CpG位點中之甲基化胞嘧啶數目(呈甲基化及未甲基化胞嘧啶之比例形式)在母體血細胞與胎盤組織之間是否在統計上顯著不同。在一個實施例中,對於χ
2檢驗,
P值≤0.01可視為統計上顯著不同。藉由χ
2檢驗顯示顯著性之合併區段被視為假定DMR。
在方塊1480處,鑑別母體血細胞DNA之甲基化密度高於高截止值或低於低截止值之基因座。在一個實施例中,鑑別母體血細胞DNA之甲基化密度≤20%或≥80%之基因座。在其他實施例中,可使用除母體血液以外的體液,包括(但不限於)唾液、來自女性生殖道之子宮或子宮頸灌洗液、淚液、汗液、唾液及尿液。
成功開發在母體血漿中具胎兒特異性之DNA甲基化標記物之關鍵可為母體血細胞之甲基化狀態為儘可能高度甲基化或儘可能未甲基化。由此可降低(例如減至最小)具有母體DNA分子之概率,該等母體DNA分子干擾對顯示相對甲基化概況之來源於胎盤之胎兒DNA分子進行分析。因此,在一個實施例中,藉由進一步過濾來選擇候選DMR。候選低甲基化基因座為顯示在母體血細胞中之甲基化密度≤20%且在胎盤組織中之甲基化密度高出至少20%的低甲基化基因座。候選高甲基化基因座為顯示在母體血細胞中之甲基化密度≥80%且在胎盤組織中之甲基化密度低至少20%的高甲基化基因座。可使用其他百分比。
在方塊1490處,隨後藉由比較與臨限值之差異來鑑別胎盤甲基化密度顯著不同於血液甲基化密度之基因座子集中的DMR。在一個實施例中,該臨限值為20%,故甲基化密度與母體血細胞之甲基化密度相差至少20%。因此,可計算所鑑別之各基因座處胎盤甲基化密度與血液甲基化密度之間的差異。該差異可為簡單減法。在其他實施例中,定標因數及其他函數可用於確定該差異(例如,該差異可為應用於簡單減法之函數之結果)。
在一個實施例中,使用此方法,自前三個月胎盤樣品中鑑別11,729個高甲基化及239,747個低甲基化基因座。前100個高甲基化基因座列於附錄之表S2A中。前100個低甲基化基因座列於附錄之表S2B中。表S2A及S2B列出染色體、起始及結束位置、區域大小、母體血液中之甲基化密度、胎盤樣品中之甲基化密度、P值(均極小)及甲基化差異。該等位置對應於參考基因組hg18,該基因組可見於hgdownload.soe.ucsc.edu/goldenPath/hg18/chromosomes。
自後三個月胎盤樣品中鑑別11,920個高甲基化及204,768個低甲基化基因座。後三個月之前100個高甲基化基因座列於表S2C中,且前100個低甲基化基因座列於表S2D中。據先前報導在母體血細胞與前三個月胎盤組織之間經差異性甲基化之三十三個基因座用於驗證吾等之前三個月候選者之清單。藉由使用吾等之演算法,33個基因座中有79%已鑑別為DMR。
圖15A為展示使用前三個月資料參考33個先前報導之前三個月標記物之DMR鑑別演算法之效能的表1500。在該表中,「a」指示基因座1至15先前描述於(RWK Chiu等人2007 Am J Pathol; 170:941-950;及SSC Chim等人2008 Clin Chem; 54:500-511)中;基因座16至23先前描述於(KC Yuen, 2007年論文, The Chinese University of Hong Kong, Hong Kong)中;且基因座24至33先前描述於(EA Papageorgiou等人2009 Am J Pathol; 174:1609-1618)中。「b」指示此等資料來源於以上公開文獻。「c」指示可由本研究中產生之定序資料中但基於原始研究所提供之基因組座標觀測出母體血細胞及絨毛膜絨毛樣品之甲基化密度及其差異。「d」指示使用方法1400之實施例在不參考以上所引用之Chiu等人(2007)、Chim等人(2008)、Yuen (2007)及Papageorgiou等人(2009)之公開文獻的情況下在亞硫酸氫鹽定序資料上鑑別關於基因座之資料。基因座之跨度包括先前報導之基因組區域,但一般跨越更大區域。「e」指示基於在母體血細胞及絨毛膜絨毛樣品中之DMR之對應基因組座標之甲基化密度之間觀測到>0.20差異的必要條件將候選DMR分類為真陽性(TP)或假陰性(FN)。
圖15B為展示使用後三個月資料且與分娩時所獲得之胎盤樣品相比較之DMR鑑別演算法之效能的表1550。「a」指示使用與圖17A中所述相同之33個基因座之清單。「b」指示由於33個基因座係先前自早期妊娠樣品中鑑別,故其可能不適用於後三個月資料。因此,查閱本研究中基於原始研究所提供之基因組座標產生之關於足月胎盤組織之亞硫酸氫鹽定序資料。母體血細胞與足月胎盤組織之間的甲基化密度差異>0.20用於確定基因座在後三個月中確實為真DMR。「c」指示使用方法1400在不參考先前所引用之Chiu等人(2007)、Chim等人(2008)、Yuen (2007)及Papageorgiou等人(2009)之公開文獻的情況下在亞硫酸氫鹽定序資料上鑑別關於基因座的資料。基因座之跨度包括先前報導之基因組區域,但一般跨越更大區域。「d」指示基於在母體血細胞及足月胎盤組織中之DMR之對應基因組座標之甲基化密度之間觀測到>0.20差異的必要條件將含有由於在後三個月中在差異性甲基化時合格之基因座的候選DMR分類為真陽性(TP)或假陰性(FN)。對於在後三個月中在差異性甲基化時未合格之基因座,其不存在於DMR清單中或存在含有該基因座但顯示甲基化差異<0.20之DMR被視為真陰性(TN) DMR。
B. 來自母體血漿定序資料之 DMR應能夠由母體血漿DNA亞硫酸氫鹽定序資料直接鑑別胎盤組織DMR,其限制條件為樣品之部分胎兒DNA濃度亦為已知的。可能因為胎盤為母體血漿中之胎兒DNA之主要來源(SSC Chim等人2005 Proc Natl Acad Sci USA 102, 14753-14758),且吾等在此研究中展示母體血漿中之胎兒特異性DNA之甲基化狀態與胎盤甲基化模式組相關。
因此,可實施方法1400之態樣以使用血漿甲基化模式組替代使用胎盤樣品來測定推斷胎盤甲基化模式組。因此,可組合方法1000及方法1400以測定DMR。方法1000可用於測定胎盤甲基化概況之預測值且將其用於方法1400。對於此分析,實例亦聚焦於母體血細胞中≤20%或≥80%甲基化之基因座。
在一個實施例中,為推斷胎盤組織相對於母體血細胞中經高甲基化之基因座,吾等在血細胞甲基化密度與預測值之間相差至少50%的情況下淘選母體血細胞中根據預測值顯示≤20%甲基化及≥60%甲基化之基因座。為推斷胎盤組織相對於母體血細胞中經低甲基化之基因座,吾等在血細胞甲基化密度與預測值之間相差至少50%的情況下淘選母體血細胞中根據預測值顯示≥80%甲基化及≤40%甲基化之基因座。
圖16為展示基於直接分析母體血漿亞硫酸氫鹽定序資料而預測為高甲基化或低甲基化之位點之數目的表1600。「N/A」意謂不適用。「a」指示搜尋高甲基化基因座自顯示母體血細胞中之甲基化密度<20%之基因座之清單起始。「b」指示搜尋低甲基化基因座自顯示母體血細胞中之甲基化密度>80%之基因座之清單起始。「c」指示來自絨毛膜絨毛樣品之亞硫酸氫鹽定序資料用於驗證前三個月母體血漿資料,且足月胎盤組織用於驗證後三個月母體血漿資料。
如表1600中所示,大多數非侵入性推斷基因座在組織中顯示預期甲基化模式且與得自組織資料且存在於先前部分中之DMR重疊。附錄列出自血漿中鑑別之DMR。表S3A列出由前三個月母體血漿亞硫酸氫鹽定序資料推斷為高甲基化之前100個基因座。表S3B列出由前三個月母體血漿亞硫酸氫鹽定序資料推斷為低甲基化之前100個基因座。表S3C列出由後三個月母體血漿亞硫酸氫鹽定序資料推斷為高甲基化之前100個基因座。表S3D列出由後三個月母體血漿亞硫酸氫鹽定序資料推斷為低甲基化之前100個基因座。
C. 胎盤及胎兒甲基化模式組之妊娠期變化CVS中之甲基化CpG之總體比例為55%,而在妊娠期胎盤中為59% (圖1之表100)。與妊娠期胎盤相比,可自CVS中鑑別出更多低甲基化DMR,而兩種組織之高甲基化DMR數目相似。因此,顯然CVS之低甲基化程度大於妊娠期胎盤。此妊娠期趨勢在母體血漿資料中亦顯而易見。在前三個月母體血漿中,甲基化CpG相對於胎兒特異性讀段之比例為47.0%,但在後三個月母體血漿中為53.3%。在前(1,457個基因座)及後三個月(1,279個基因座)母體血漿樣品中,驗證高甲基化基因座數目相似,但與後三個月樣品(12,677個基因座)相比,前三個月樣品(21,812個基因座)中存在實質上更多的低甲基化基因座(圖16之表1600)。
D. 標記物之用途差異性甲基化標記物或DMR適用於若干態樣。母體血漿中存在該等標記物指示並且證實存在胎兒或胎盤DNA。此證實可用作非侵入性產前測試之品質控制。DMR可充當母體血漿中之通用胎兒DNA標記物,且與依賴於母親與胎兒之間的基因型差異之標記物相比具有諸多優勢,諸如基於多態性之標記物或基於染色體Y之標記物。DMR為適用於所有妊娠之通用胎兒標記物。基於多態性之標記物僅適用於其中胎兒已繼承來自其父親之標記物且母親之基因組中不具有此標記物的妊娠子集。另外,可藉由定量來源於該等DMR之DNA分子來量測母體血漿樣品中之胎兒DNA濃度。藉由獲知正常妊娠所預期之DMR概況,妊娠相關併發症,尤其涉及胎盤組織變化者,可藉由觀測母體血漿DMR概況或甲基化概況與正常妊娠所預期之母體血漿DMR概況或甲基化概況的偏差來偵測。涉及胎盤組織變化之妊娠相關併發症包括(但不限於)胎兒染色體非整倍性。實例包括第21對染色體三體症、子癇先兆、子宮內生長停滯及早產。
E. 使用標記物之套組實施例可提供用於實踐本文所述之方法及其他可應用方法之組合物及套組。套組可用於進行分析以分析母體血漿中之胎兒DNA,例如,細胞游離胎兒DNA。在一個實施例中,套組可包括至少一種適用於與本文所鑑別之一或多個基因座進行特異性雜交之寡核苷酸。套組亦可包括至少一種適用於與一或多個參考基因座進行特異性雜交之寡核苷酸。在一個實施例中,量測胎盤高甲基化標記物。測試基因座可為母體血漿中之甲基化DNA且參考基因座可為母體血漿中之甲基化DNA。可構成類似套組以分析血漿中之腫瘤DNA。
在一些情況下,套組可包括至少兩種寡核苷酸引子,該等引子可用於擴增標靶基因座(例如,附錄中之基因座)及參考基因座之至少一個區段。替代引子或除引子之外,套組可包括用於偵測對應於標靶基因座及參考基因座之DNA片段的經標記探針。在各種實施例中,套組之一或多個寡核苷酸對應於附錄之表中的基因座。通常,套組亦提供使用手冊以指導使用者分析測試樣品且評定測試個體中之生理學或病理學狀態。
在各種實施例中,提供用於分析含有胎兒DNA與來自懷有胎兒之女性個體之DNA之混合物的生物樣品中之胎兒DNA之套組。套組可包含一或多個與表S2A、S2B、S2C、S2D、S3A、S3B、S3C及S3D中所列出之基因組區域之至少一個區段特異性雜交之寡核苷酸。因此,可使用來自該等表之許多寡核苷酸僅來自一個表的情況。該等寡核苷酸可充當引子,且可組織為成對引子,其中一對對應於來自該等表之特定區域。
VI. 大小與甲基化密度之關係
已知血漿DNA分子以短分子形式存在於循環中,其中大多數分子之長度為約160 bp (YMD Lo等人2010 Sci Transl Med; 2: 61ra91;YW Zheng等人2012 Clin Chem; 58: 549-558)。令人感興趣的是,吾等之資料顯示血漿DNA分子之甲基化狀態與大小之間的關係。因此,血漿DNA片段長度與DNA甲基化程度相關聯。血漿DNA分子之特徵大小概況表明大多數與可能來源於細胞凋亡期間之酶促降解的單核小體相關。
循環DNA本質上經片段化。詳言之,循環胎兒DNA比母體血漿樣品中來源於母體之DNA短(KCA Chan等人2004 Clin Chem; 50: 88-92)。由於配對端對準使得能夠對經亞硫酸氫鹽處理之DNA進行大小分析,故可直接評定血漿DNA分子之大小與其各別甲基化程度之間是否存在任何相關性。吾等在母體血漿以及未妊娠成年女性對照血漿樣品中研究此相關性。
對各DNA分子之兩端進行配對端定序(其包括定序整個分子)可用於分析此研究中之各樣品。藉由比對各DNA分子之末端序列對與參考人類基因組並且標註定序讀段最末端之基因組座標,可確定定序DNA分子之長度。將血漿DNA分子自然地片段化成小分子且通常在無任何片段化步驟的情況下製備血漿DNA定序文庫。因此,藉由定序推斷之長度代表原始血漿DNA分子之大小。
在先前研究中,吾等測定母體血漿中之胎兒及母體DNA分子之大小概況(YMD Lo等人2010 Sci Transl Med; 2: 61ra91)。吾等證明血漿DNA分子之大小類似於單核小體且胎兒DNA分子比母體的短。在此研究中,吾等已確定血漿DNA分子之甲基化狀態與其大小之關係。
A. 結果圖17A為展示母體血漿、未妊娠女性對照血漿、胎盤及周邊血液DNA之大小分佈的圖1700。對於母體樣品及未妊娠女性對照血漿,兩種經亞硫酸氫鹽處理之血漿樣品顯示與先前所報導相同之特徵大小分佈(YMD Lo等人2010 Sci Transl Med; 2: 61ra91),其中長度為166-167 bp之總序列及比143 bp短之DNA分子之10 bp區間性最豐富。
圖17B為母體血漿、成年女性對照血漿、胎盤組織及成年女性對照血液之大小分佈及甲基化概況之圖1750。對於相同大小且含有至少一個CpG位點之DNA分子,計算其平均甲基化密度。吾等隨後將DNA分子之大小與其甲基化密度之間的關係繪圖。特定言之,對於覆蓋至少1個CpG位點之定序讀段,針對50 bp至多達180 bp範圍內之各片段長度測定平均甲基化密度。令人感興趣的是,甲基化密度隨血漿DNA大小而增加且在約166-167 bp處達到峰值。然而,在使用超音波處理器系統片段化之胎盤及對照血液DNA樣品中未觀測到此模式。
圖18展示血漿DNA分子之甲基化密度及大小的圖。圖18A為前三個月母體血漿之圖1800。圖18B為後三個月母體血漿之圖1850。關於覆蓋至少一個CpG位點之所有定序讀段的資料由藍色曲線1805表示。關於亦含有胎兒特異性SNP等位基因之讀段的資料由紅色曲線1810表示。關於亦含有母體特異性SNP等位基因之讀段的資料由綠色曲線1815表示。
含有胎兒特異性SNP等位基因之讀段被視為來源於胎兒DNA分子。含有母體特異性SNP等位基因之讀段被視為來源於母體DNA分子。一般而言,具有高甲基化密度之DNA分子的大小較長。此趨勢存在於前三個月與後三個月兩者中之胎兒與母體DNA分子兩者中。如先前所報導,胎兒DNA分子之總體大小比母體的短。
圖19A展示成年未妊娠女性之定序讀段之甲基化密度及大小的圖1900。來自成年未妊娠女性之血漿DNA樣品亦顯示相同的DNA分子之大小與甲基化狀態之間的關係。另一方面,在MPS分析之前藉由超音波處理步驟將基因組DNA樣品片段化。如圖1900中所示,來自血細胞及胎盤組織樣品之資料未顯示相同趨勢。因為細胞之片段化為人工的,故將預期大小與密度無關。因為血漿中之自然片段化之DNA分子確實顯示對大小之依賴性,故可假定較低甲基化密度使得分子更可能斷裂成較小片段。
圖19B為展示母體血漿中之胎兒特異性及母體特異性DNA分子之大小分佈及甲基化概況的圖1950。胎兒特異性及母體特異性血漿DNA分子亦展現相同的片段大小與甲基化程度之間的相關性。來源於胎盤之DNA及母體循環細胞游離DNA之片段長度均隨甲基化程度而增加。此外,其甲基化狀態之分佈彼此不重疊,表明該現象不論循環DNA分子之來源之原始片段長度如何均存在。
B. 方法因此,大小分佈可用於評估血漿樣品之總甲基化百分比。隨後可在妊娠期間、在癌症監測期間或在藉由連續量測血漿DNA之大小分佈進行治療期間根據圖18A及18B中所示之關係追蹤此甲基化量測。甲基化量測亦可用於探尋DNA自相關器官或組織中釋放之增加或減少。舉例而言,可特異性探尋對特定器官(例如肝臟)具特異性之DNA甲基化標誌且量測此等標誌在血漿中之濃度。由於DNA在細胞死亡時釋放至血漿中,故含量增加可意謂細胞死亡增加或該特定器官或組織損傷。特定器官之含量降低可意謂用於對抗該器官中之損傷或病理過程之治療在控制之下。
圖20為根據本發明實施例之用於評估生物體之生物樣品中之DNA甲基化程度之方法2000的流程圖。可估計基因組之特定區域或整個基因組之甲基化程度。若需要特定區域,則可使用僅來自該特定區域之DNA片段。
在方塊2010處,量測對應於各種大小之DNA片段之量。對於複數個大小之各大小,可量測來自生物樣品之對應於該大小之複數個DNA片段之量。舉例而言,可量測長度為140個鹼基之DNA片段之數目。該等量可另存為直方圖。在一個實施例中,量測來自生物樣品之複數個核酸中之每一者的大小,該量測可基於個體(例如,藉由對整個分子或僅分子末端進行單一分子定序)或基於群組(例如,經由電泳)來進行。大小可對應於範圍。因此,量可針對大小在特定範圍內之DNA片段。當進行配對端定序時,定位(對準)於特定區域之DNA片段(如藉由配對序列讀段所確定)可用於測定該區域之甲基化程度。
在方塊2020處,基於多種大小DNA片段之量計算第一參數之第一值。在一個態樣中,第一參數提供生物樣品中之DNA片段之大小概況之統計度量(例如直方圖)。該參數可稱為大小參數,因為其係由複數個DNA片段之大小確定。
第一參數可具有各種形式。一個參數為特定大小或大小範圍之DNA片段相對於所有DNA片段或相對於另一大小或範圍之DNA片段之百分比。該參數為特定大小之DNA片段數目除以片段總數,該片段總數可獲自直方圖(提供特定大小之片段的絕對或相對計數的任何資料結構)。作為另一實例,參數可為特定大小或在特定範圍內之片段之數目除以另一大小或範圍之片段的數目。除法可充當標準化以說明對不同樣品分析不同數目之DNA片段。標準化可藉由對各樣品分析相同數目之DNA片段來實現,由此在除以所分析片段之總數時有效提供相同結果。參數及關於大小分析之其他實例可見於美國專利申請案13/789,553中,該申請案係出於所有目的而以引用的方式併入。
在方塊2030處,比較第一大小值與參考大小值。可根據參考樣品之DNA片段計算參考大小值。為測定參考大小值,可計算並且定量參考樣品之甲基化概況以及第一大小參數值。因此,當比較第一大小值與參考大小值時,可測定甲基化程度。
在方塊2040處,基於該比較評估甲基化程度。在一個實施例中,可確定第一參數之第一值是高於或是低於參考大小值,且藉此確定本發明樣品之甲基化程度是高於或是低於參考大小值之甲基化程度。在另一實施例中,藉由將第一值輸入校準函數中來實現該比較。校準函數可藉由鑑別對應於第一值之曲線上的點來有效比較第一值與校準值(參考大小值集)。隨後提供所評估之甲基化程度作為校準函數之輸出值。
因此,可校準大小參數與甲基化程度。舉例而言,可量測甲基化程度且其與該樣品之特定大小參數相關。隨後可將來自各種樣品之資料點擬合於校準函數。在一個實施例中,不同的校準函數可用於不同的DNA子集。因此,可基於關於特定DNA子集之甲基化與大小之間的關係的先前知識進行某種形式的校準。舉例而言,對胎兒及母體DNA之校準可不同。
如上所示,當與母體血液相比較時,胎盤之低甲基化程度更大,且因此胎兒DNA由於甲基化程度較低而較小。因此,樣品之片段之平均大小(或其他統計值)可用於評估甲基化密度。由於片段大小可使用配對端定序而非潛在技術上更複雜之獲知甲基化之定序來量測,故此方法在臨床使用時將可能為成本有效的。此方法可用於監測與妊娠進展相關或與妊娠相關病症(諸如子癇先兆)、早產及胎兒病症(諸如由染色體或基因異常或子宮內生長停滯導致之病症)相關之甲基化變化。
在另一實施例中,此方法可用於偵測並監測癌症。舉例而言,在成功治療癌症之情況下,如使用此基於大小之方法所量測之血漿或另一體液中之甲基化概況將向未患癌症之健康個體之血漿或另一體液中之甲基化概況變化。反之,在癌症正在進展之情況下,則血漿或另一體液中之甲基化概況將偏離未患癌症之健康個體之血漿或另一體液中之甲基化概況。
總之,在血漿中,低甲基化分子比高甲基化分子短。在胎兒及母體DNA分子兩者中觀測到相同趨勢。因為已知DNA甲基化影響核小體包裝,因此吾等之資料表明低甲基化DNA分子或許密度較低地與組蛋白一起包裝且因此更容易酶促降解。另一方面,圖18A及18B中所呈現之資料亦顯示儘管胎兒DNA之低甲基化程度比母體讀段低得多,但胎兒與母體DNA之大小分佈並未彼此完全分開。在圖19B中,可見即使對於相同大小類別,胎兒及母體特異性讀段之甲基化程度亦彼此不同。此觀測結果表明,胎兒DNA之低甲基化狀態並非造成其相對於母體DNA相對較短的唯一因素。
VII. 基因座之壓印狀態
可偵測母體血漿中與母親共有相同基因型但具有不同表觀遺傳標誌之來源於胎兒之DNA分子(LLM Poon等人2002 Clin Chem; 48: 35-41)。為顯示定序方法在收集母體血漿中來源於胎兒之DNA分子時具敏感性,吾等應用相同策略來偵測母體血漿樣品中之印記胎兒等位基因。鑑別兩個基因組印記區域:H19 (chr11:1,977,419-1,977,821,NCBI版本36/hg18)及MEST (chr7:129,917,976-129,920,347,NCBI版本36/hg18)。兩個區域均含有資訊性SNP以用於區分母體與胎兒序列。對於H19,即母體表現之基因,對於該區域中之SNP rs2071094 (chr11:1,977,740),母親為同型組合(A/A)且胎兒為異型組合(A/C)。母體A等位基因中之一者完全甲基化且另一者未甲基化的。然而,在胎盤中,A等位基因未甲基化的,而自父體繼承之C等位基因完全甲基化。吾等在母體血漿中偵測兩個對應於來源於胎盤之印記父體等位基因之具有C基因型之甲基化讀段。
MEST,亦稱為PEG1,為父體表現之基因。對於印記基因座內之SNP rs2301335 (chr7:129,920,062),母親與胎兒均為(A/G)。在母體血液中,G等位基因經甲基化,而A等位基因未甲基化。該甲基化模式在胎盤中逆轉,其中母體A等位基因經甲基化且父體G等位基因未甲基化。母體血漿中可偵測來源於父體之三個未甲基化G等位基因。相比之下,VAV1,即染色體19上之未印記基因座(chr19:6,723,621-6,724,121)在組織以及血漿DNA樣品中未顯示任何等位基因甲基化模式。
因此,甲基化狀態可用於測定何種DNA片段來自胎兒。舉例而言,當母親為GA異型組合時,僅偵測母體血漿中之A等位基因不能用作胎兒標記物。但若區分血漿中A分子之甲基化狀態,則甲基化A分子為胎兒特異性,而未甲基化A分子為母體特異性,或反之亦然。
吾等接下來聚焦於胎盤組織中之據報導顯示基因組印記之基因座。基於Woodfine等人(2011 Epigenetics Chromatin; 4: 1)所報導之基因座清單,吾等進一步淘選印記控制區域內含有SNP的基因座。四個基因座滿足該準則且其為H19、KCNQ10T1、MEST及NESP。
關於母體血細胞樣品之針對H19及KCNQ10T1之讀段,母體讀段針對SNP為同型組合,且存在近似相等比例之甲基化及未甲基化讀段。CVS及足月胎盤組織樣品顯示胎兒就兩個基因座而言為異型組合且各等位基因排他性地經甲基化或未甲基化,亦即顯示單等位基因甲基化。在母體血漿樣品中,針對兩個基因座偵測自父體繼承之胎兒DNA分子。對於H19,自父體繼承之分子由含有胎兒特異性等位基因之定序讀段表示且經甲基化。對於KCNQ10T1,自父體繼承之分子由含有胎兒特異性等位基因之定序讀段表示且未甲基化。
另一方面,對於MEST及NESP,母親為異型組合。對於MEST,就SNP而言,母親及胎兒均為GA雜合子。然而,如自母體血細胞及胎盤組織之華生股資料顯而易見,與SNP相鄰之CpG之甲基化狀態在母親與胎兒中相對。在母親之DNA中,A等位基因未甲基化,但在胎兒之DNA中經甲基化。對於MEST,母體等位基因經甲基化。因此,可查明該胎兒已自其母親(在CVS中甲基化)繼承A等位基因且該母親已自其父親(母體血細胞中未甲基化)繼承A等位基因。令人感興趣的是,在母體血漿樣品中,可容易地區分所有四組分子,包括兩種母親等位基因中之每一者及兩種胎兒等位基因中之每一者。因此,藉由組合印記基因座處之基因型資訊與甲基化狀態,吾等可容易地區分自母體繼承之胎兒DNA分子與背景母體DNA分子(LLM Poon等人2002 Clin Chem; 48: 35-41)。
此方法可用於偵測單親二體性。舉例而言,若已知此胎兒之父親就G等位基因而言為同型組合,則無法偵測母體血漿中之未甲基化G等位基因表示缺乏父體等位基因之貢獻。另外,在該情況下,當在此妊娠之血漿中偵測到甲基化G等位基因及甲基化A等位基因兩者時,將表明胎兒具有來自母親之單親異二體,亦即自母親繼承兩個不同的等位基因,而未自父親繼承等位基因。或者,若在母體血漿中偵測到甲基化A等位基因(自母親繼承之胎兒等位基因)及未甲基化A等位基因(自母方祖父繼承之母體等位基因)兩者而無未甲基化G等位基因(應由胎兒繼承之父體等位基因),則將表明胎兒具有來自母親之單親同二體,亦即自母親繼承兩個一致等位基因,而未自父親繼承等位基因。
對於NESP,母親在SNP處為GA異型組合子,而胎兒就G等位基因而言為同型組合。父體等位基因就NESP而言經甲基化。在母體血漿樣品中,可容易地區分經甲基化之自父體繼承之胎兒G等位基因與未甲基化之背景母體G等位基因。
VIII. 癌症/供體
一些實施例可用於使用循環血漿/血清DNA之甲基化分析來偵測、篩選、監測(例如用於復發、減輕或對治療之反應(例如存在或不存在))、分期、分類(例如用於輔助選擇最適當之治療模態)及預測癌症。
已知癌症DNA顯示異常DNA甲基化(JG Herman等人2003 N Engl J Med; 349: 2042-2054)。舉例而言,當與非癌細胞相比較時,基因(例如腫瘤抑制基因)之CpG島啟動子經高甲基化,而基因體中之CpG位點經低甲基化。鑒於癌細胞之甲基化概況可使用本文所述之方法由來源於腫瘤之血漿DNA分子之甲基化概況來體現,吾等預期當與未患癌症之健康個體相比較時或當與癌症已治癒之個體相比較時,血漿中之總體甲基化概況在患有癌症之個體之間將有所不同。甲基化概況之差異類型可在於基因組甲基化密度及/或基因組區段之甲基化密度之定量差異方面。舉例而言,由於來自癌症組織之DNA之一般低甲基化性質(Gama-Sosa MA等人1983 Nucleic Acids Res; 11: 6883-6894),將在癌症患者之血漿中觀測到血漿甲基化模式組或基因組區段之甲基化密度降低。
血漿甲基化模式組資料亦應體現甲基化概況之定性變化。舉例而言,當與來源於相同基因但在健康對照之樣品中之血漿DNA分子相比較時,來源於僅在癌細胞中高甲基化基因之血漿DNA分子將顯示在癌症患者之血漿中高甲基化。因為大部分癌症中發生異常甲基化,因此本文所述之方法可應用於偵測具有異常甲基化之所有惡性疾病形式,例如(但不限於)肺、乳房、結腸直腸、前列腺、鼻咽、胃、睾丸、皮膚、神經系統、骨、卵巢、肝臟、血液組織、胰臟、子宮、腎臟、膀胱、淋巴組織等中之惡性疾病。惡性疾病可具有多種組織學亞型,例如癌瘤、腺癌、肉瘤、纖維腺癌、神經內分泌亞型及未分化亞型等。
另一方面,吾等預期可區分來源於腫瘤之DNA分子與來源於背景非腫瘤之DNA分子,因為來源於腫瘤之DNA之總體較短大小概況著重於來源於具有腫瘤相關異常低甲基化之基因座之DNA分子,該腫瘤相關異常低甲基化對DNA分子之大小具有額外作用。此外,可使用與腫瘤DNA相關之多種特徵性特徵來區分來源於腫瘤之血漿DNA分子與來源於背景非腫瘤之血漿DNA分子,包括(但不限於)單一核苷酸變異體、複本數得失、易位、倒置、異常高甲基化或低甲基化及大小概況分析。由於所有此等變化均可獨立地發生,故組合使用此等特徵可對血漿中之癌症DNA之敏感性及特異性偵測提供額外優勢。
A. 大小及癌症血漿中來源於腫瘤之DNA分子之大小亦類似於單核小體單元之大小且比共存於癌症患者之血漿中的來源於背景非腫瘤之DNA分子短。大小參數已顯示與癌症有關,如美國專利申請案13/789,553中所述,該申請案係出於所有目的而以引用的方式併入。
因為血漿中來源於胎兒及來源於母體之DNA均顯示分子大小與甲基化狀態之間的關係,因此預期來源於腫瘤之DNA分子展現相同趨勢。舉例而言,在癌症患者之血漿中或在篩選癌症之個體中,低甲基化分子將比高甲基化分子短。
B. 癌症患者中之不同組織之甲基化密度在此實例中,吾等分析肝細胞癌(HCC)患者之血漿及組織樣品。可在腫瘤手術切除之前及之後1週自HCC患者收集血液樣品。在血液樣品離心後收集血漿及白血球層。收集切除之腫瘤及相鄰非腫瘤肝組織。使用大規模平行定序在進行或不進行先前亞硫酸氫鹽處理的情況下分析自血漿及組織樣品提取之DNA樣品。亦分析來自未患癌症之四個健康個體之血漿DNA作為對照。DNA樣品之亞硫酸氫鹽處理將未甲基化胞嘧啶殘基轉化成尿嘧啶。在下游聚合酶鏈式反應及定序中,此等尿嘧啶殘基將充當胸苷。另一方面,亞硫酸氫鹽處理不會將甲基化胞嘧啶殘基轉化成尿嘧啶。在大規模平行定序後,藉由Methy-Pipe (P Jiang等人在IEEE生物資訊學與生物醫學國際研討會(IEEE International Conference on Bioinformatics and Biomedicine Workshops) (香港, 2010年12月18至21日)上提出之論文Methy-Pipe: An integrated bioinformatics data analysis pipeline for whole genome methylome analysis)分析定序讀段以確定所有CG二核苷酸位置(亦即CpG位點)處之胞嘧啶殘基之甲基化狀態。
圖21A為展示HCC患者之手術前血漿及組織樣品之甲基化密度的表2100。相關區域(例如CpG位點、啟動子或重複序列區域等)之CpG甲基化密度係指顯示CpG甲基化之讀段相對於覆蓋基因組CpG二核苷酸之讀段總數的比例。白血球層及非腫瘤肝組織之甲基化密度相似。基於所有常染色體之資料,腫瘤組織之總體甲基化密度比白血球層及非腫瘤肝組織低25%。低甲基化在各個別染色體中一致。血漿之甲基化密度介於非惡性組織之值與癌症組織之值之間。此觀測結果與以下事實一致:癌症與非癌症組織均將對癌症患者之循環DNA有貢獻。已顯示造血系統為無活性惡性病狀之個體中之循環DNA之主要來源(YYN Lui等人2002 Clin Chem; 48: 421-7)。吾等因此亦分析獲自四個健康對照之血漿樣品。每個樣品之序列讀段之數目及所達到之定序深度示於圖21B之表2150中。
圖22為展示健康對照之血漿樣品中之常染色體甲基化密度(在71.2%至72.5%範圍內)的表220。此等資料顯示獲自不具有腫瘤DNA來源之個體之血漿樣品中之預期DNA甲基化程度。在癌症患者中,腫瘤組織亦將向循環中釋放DNA (KCA Chan等人2013 Clin Chem; 59: 211-224);RJ Leary等人2012 Sci Transl Med; 4: 162ra154)。由於HCC腫瘤之低甲基化性質,當與健康對照之血漿含量相比較時,患者之手術前血漿中存在來源於腫瘤及非腫瘤之DNA兩者導致甲基化密度降低。實際上,手術前血漿樣品之甲基化密度介於腫瘤組織與健康對照之血漿之甲基化密度之間。原因係因為癌症患者之血漿DNA之甲基化程度將受腫瘤組織之異常甲基化(在此情況下為低甲基化)之程度及循環中來源於腫瘤之DNA之部分濃度影響。腫瘤組織之甲基化密度較低及循環中來源於腫瘤之DNA之部分濃度較高將導致癌症患者中之血漿DNA之甲基化密度較低。據報導大部分腫瘤顯示整體低甲基化(JG Herman等人2003 N Engl J Med; 349: 2042-2054;MA Gama-Sosa等人1983 Nucleic Acids Res; 11: 6883-6894)。因此,HCC樣品中所見之當前觀測結果亦應適用於其他腫瘤類型。
在一個實施例中,當已知腫瘤組織之甲基化程度時,血漿DNA之甲基化密度可用於確定血漿/血清樣品中來源於腫瘤之DNA之部分濃度。若可獲得腫瘤樣品或可利用腫瘤之活組織檢查,則可獲得腫瘤組織之甲基化程度(例如甲基化密度)。在另一實施例中,關於腫瘤組織之甲基化程度的資訊可獲自對相似類型之腫瘤群組中之甲基化程度之調查,且使用本發明中所述之技術將此資訊(例如平均程度或中值程度)應用於欲分析之患者。腫瘤組織之甲基化程度可藉由分析患者之腫瘤組織來確定,或由分析具有相同或相似癌症類型之其他患者之腫瘤組織來推斷。腫瘤組織之甲基化可使用一定範圍之可獲知甲基化之平台來測定,包括(但不限於)大規模平行定序、單一分子定序、微陣列(例如寡核苷酸陣列)或質譜(諸如Epityper, Sequenom, Inc.分析)。在一些實施例中,可在該等分析之前進行對DNA分子之甲基化狀態敏感之程序,包括(但不限於)胞嘧啶免疫沈澱及可獲知甲基化之限制酶消化。當已知腫瘤之甲基化程度時,可在血漿甲基化模式組分析後計算癌症患者之血漿中之腫瘤DNA之部分濃度。
血漿甲基化程度P與部分腫瘤DNA濃度
f及腫瘤組織甲基化程度TUM之間的關係可描述為:P=BKG×(1-
f)+TUM×
f,其中BKG為來源於血細胞及其他內臟之血漿中的背景DNA甲基化程度。舉例而言,據顯示,在獲自此HCC患者之腫瘤活組織檢查組織中,所有常染色體之總體甲基化密度為42.9%,亦即此情況下之TUM值。來自四個健康對照之血漿樣品之平均甲基化密度為71.6%,亦即此情況下之BKG值。手術前血漿之血漿甲基化密度為59.7%。使用此等值,
f估計為41.5%。
在另一實施例中,當已知血漿樣品中來源於腫瘤之DNA之部分濃度時,可基於血漿甲基化模式組資料非侵入性地評估腫瘤組織之甲基化程度。可藉由其他基因分析來測定血漿樣品中來源於腫瘤之DNA之部分濃度,例如先前所述之全基因組等位基因損失分析(GAAL)及單一核苷酸突變分析(美國專利申請案13/308,473;KCA Chan等人2013 Clin Chem; 59: 211-24)。該計算係基於與上述相同之關係,但在此實施例中,
f值為已知的且TUM值為未知的。類似於對由母體血漿資料測定胎盤組織甲基化程度之情形所觀測之資料,可對整個基因組或基因組之部分進行推斷。
在另一實施例中,可使用甲基化密度之區間間變化或概況來區分患有癌症之個體與未患癌症之個體。可藉由將基因組分成特定大小之區間(例如1 Mb)來進一步增加甲基化分析之解析度。在該實施例中,對於所收集之樣品,例如白血球層、切除之HCC組織、與腫瘤相鄰之非腫瘤肝組織及腫瘤切除術前後所收集之血漿,計算各1 Mb區間之甲基化密度。在另一實施例中,區間大小不需要保持恆定。在一個實施例中,各區間內之CpG位點數目保持恆定,而區間自身之大小可變化。
圖23A及23B展示HCC患者之白血球層、腫瘤組織、非腫瘤肝組織、手術前血漿及手術後血漿之甲基化密度。圖23A為染色體1之結果的圖2300。圖23B為染色體2之結果的圖2350。
對於大部分1 Mb窗口,白血球層及與腫瘤相鄰之非腫瘤肝組織之甲基化密度相似,而腫瘤組織之甲基化密度較低。手術前血漿之甲基化密度介於腫瘤與非惡性組織之甲基化密度之間。可使用手術前血漿之甲基化資料及部分腫瘤DNA濃度來推斷腫瘤組織中之所查詢基因組區域之甲基化密度。該方法與使用所有常染色體之甲基化密度值之上述方法相同。所述推斷腫瘤甲基化亦可使用血漿DNA之此更高解析度甲基化資料來進行。亦可使用其他區間大小,諸如300 kb、500 kb、2 Mb、3 Mb、5 Mb或大於5 Mb。在一個實施例中,區間大小不需要保持恆定。在一個實施例中,各區間內之CpG位點數目保持恆定,而區間自身之大小可變化。
C. 比較癌症患者與健康個體之間的血漿甲基化密度如2100中所示,手術前血漿DNA之甲基化密度低於癌症患者之非惡性組織之甲基化密度。此現象可能由存在來自腫瘤組織之低甲基化DNA造成。此較低血漿DNA甲基化密度可潛在地用作偵測及監測癌症之生物標記。對於癌症監測,若癌症正在進展,則血漿中來源於癌症之DNA之量將隨時間增加。在此實例中,血漿中來源於癌症之循環DNA之量增加將在全基因組層面上進一步降低血漿DNA甲基化密度。
反之,若癌症響應於治療,則血漿中來源於癌症之DNA之量將隨時間降低。在此實例中,血漿中來源於癌症之DNA之量降低將導致血漿DNA甲基化密度增加。舉例而言,若已用靶向療法(例如酪胺酸激酶抑制)治療具有表皮生長因子受體突變之肺癌患者,則血漿DNA甲基化密度增加將表示反應。隨後,抗酪胺酸激酶抑制之腫瘤純系之出現將與血漿DNA甲基化密度降低相關,其將指示復發。
可連續進行血漿甲基化密度量測,且可計算該等量測之變化率並且用於預測臨床進展或減輕或預後,或與臨床進展或減輕或預後相關。對於在癌症組織中經高甲基化且在正常組織中經低甲基化之所選基因組基因座,例如許多腫瘤抑制基因之啟動子區域,癌症進展與有利治療反應之間的關係將與上述模式相對。
為證明此方法之可行性,吾等比較在手術移除腫瘤前後自癌症患者收集之血漿樣品與獲自四個健康對照個體之血漿DNA之DNA甲基化密度。
表2200展示癌症患者之手術前及手術後血漿樣品及四個健康對照個體之各常染色體之DNA甲基化密度及所有常染色體之組合值。對於所有染色體,手術前血漿DNA樣品之甲基化密度低於手術後樣品及來自四個健康個體之血漿樣品。手術前及手術後樣品之間的血漿DNA甲基化密度差異提供手術前血漿樣品中之較低甲基化密度係由於存在來自HCC腫瘤之DNA的支持性證據。
手術後血漿樣品中之DNA甲基化密度逆轉至類似於健康對照之血漿樣品之程度表明大部分來源於腫瘤之DNA已由於手術移除來源(亦即腫瘤)而消失。此等資料表明,如使用可獲自較大基因組區域(諸如所有常染色體或個別染色體)之資料確定之手術前血漿之甲基化密度與健康對照相比具有較低甲基化程度,從而允許鑑別(亦即診斷或篩選)測試病例患有癌症。
手術前血漿之資料亦顯示比手術後血漿低得多的甲基化程度,表明血漿甲基化程度亦可用於監測腫瘤負荷,因此用於預測及監測患者之癌症進展。可由健康對照或有癌症風險但目前未患癌症之人士之血漿測定參考值。有HCC風險之人士包括患有慢性B型肝炎或C型肝炎感染者、患有血色素沈著症者及患有肝硬化者。
基於參考值,超過(例如低於)所定義之截止值的血漿甲基化密度值可用於評定未妊娠人士之血漿是否具有或不具有腫瘤DNA。為偵測低甲基化循環腫瘤DNA之存在,截止值可定義為低於對照群體之值的5%或1%,或基於比對照之平均甲基化密度值低一定數目的標準差,例如2或3個標準差(SD),或基於測定多個中值(MoM)。對於高甲基化腫瘤DNA,截止值可定義為高於對照群體之值的95%或99%,或基於比對照之平均甲基化密度值高出一定數目的標準差,例如2或3個標準差(SD),或基於測定多個中值(MoM)。在一個實施例中,對照群體在年齡方面與測試個體相匹配。年齡匹配不需要精確,且可在多個年齡段(例如30至40歲,針對35歲之測試個體)中進行。
吾等接下來比較癌症患者與四個對照個體之血漿樣品之間的1 Mb區間之甲基化密度。出於說明目的,展示染色體1之結果。
圖24A為展示得自HCC患者之手術前血漿之甲基化密度的圖2400。圖24B為展示得自HCC患者之手術後血漿之甲基化密度的圖2450。藍色點表示對照個體之結果,紅色點表示HCC患者之血漿樣品之結果。
如圖24A中所示,對於大部分區間而言,來自HCC患者之手術前血漿之甲基化密度低於對照個體。對於其他染色體,觀測到類似模式。如圖24B中所示,對於大部分區間而言,來自HCC患者之手術後血漿之甲基化密度與對照個體類似。對於其他染色體,觀測到類似模式。
為評定測試個體是否患有癌症,將測試個體之結果與參考組之值相比較。在一個實施例中,參考組可包含許多健康個體。在另一實施例中,參考組可包含患有非惡性病狀(例如慢性B型肝炎感染或肝硬化)之個體。隨後可定量測試個體與參考組之間的甲基化密度差異。
在一個實施例中,參考範圍可來源於對照組之值。隨後測試個體之結果距參考組之上限或下限之偏差可用於確定個體是否具有腫瘤。此量將受血漿中來源於腫瘤之DNA之部分濃度及惡性與非惡性組織之間的甲基化程度差異影響。血漿中來源於腫瘤之DNA之部分濃度較高將導致測試血漿樣品與對照之間的甲基化密度差異較大。惡性及非惡性組織之甲基化程度之差異程度較大亦與測試血漿樣品與對照之間的較大甲基化密度差異相關。在另一實施例中,對於不同年齡範圍之測試個體,選擇不同的參考組。
在另一實施例中,針對各1 Mb區間計算四個對照個體之甲基化密度之平均值及SD。隨後對於對應區間,計算HCC患者之甲基化密度與對照個體之平均值之間的差異。在一個實施例中,此差異隨後除以對應區間之SD以確定z評分。換言之,z評分代表測試與對照血漿樣品之間的甲基化密度差異,其表示為相對於對照個體之平均值之SD之數目。區間之z評分>3指示在該區間中HCC患者之血漿DNA之高甲基化程度比對照個體大3個SD,而區間中之z評分<-3指示在該區間中HCC患者之血漿DNA之低甲基化程度比對照個體大3個SD。
圖25A及25B展示使用四個健康對照個體之血漿甲基化模式組資料作為參考針對染色體1對HCC患者之手術前(圖2500)及手術後(圖2550)血漿樣品之血漿DNA甲基化密度的z評分。各點表示一個1 Mb區間之結果。黑色點表示z評分在-3與3之間的區間。紅色點表示z評分<-3的區間。
圖26A為展示手術前及手術後血漿之z評分之資料的表2600。在手術前血漿樣品中,染色體1上之大部分區間(80.9%)之z評分<-3,表明HCC患者之手術前血漿DNA之低甲基化程度顯著大於對照個體。相反,在手術後血漿樣品中紅色點之數目實質上降低(染色體1上之區間中之8.3%),表明大部分腫瘤DNA已由於手術切除循環腫瘤DNA之來源而自循環中移除。
圖26B為展示使用四個健康對照個體作為參考針對由所有常染色體分析之1 Mb區間對HCC患者之手術前及手術後血漿樣品之血漿DNA甲基化密度之z評分的Circos圖2620。最外環顯示人類常染色體之表意文字。中間環顯示手術前血漿樣品之資料。最內環顯示手術後血漿樣品之資料。各點表示一個1 Mb區間之結果。黑色點表示z評分在-3與3之間的區間。紅色點表示z評分<-3的區間。綠色點表示z評分>3之區間。
圖26C為展示HCC患者之手術前及手術後血漿樣品兩者中之整個基因組之1 Mb區間之z評分之分佈的表2640。結果指示在整個基因組中,對於大多數區域(1 Mb區間中之85.2%),HCC患者之手術前血漿DNA之低甲基化程度大於對照。相反,手術後血漿樣品中之大多數區域(1 Mb區間中之93.5%)顯示與對照相比無顯著高甲基化或低甲基化。此等資料指示此HCC之大部分腫瘤DNA (本質上主要經低甲基化)不再存在於手術後血漿樣品中。
在一個實施例中,z評分<-3之區間之數目、百分比或比例可用於指示是否存在癌症。舉例而言,如表2640中所示,在手術前血漿中,2734個所分析區間中之2330個(85.2%)顯示z評分<-3,而在手術後血漿中,2734個所分析區間中僅171個(6.3%)顯示z評分<-3。資料指示手術前血漿中之腫瘤DNA負載比手術後血漿中高得多。
可使用統計方法確定區間數目之截止值。舉例而言,基於正態分佈,將預期約0.15%區間之z評分<-3。因此,區間之截止數目可為所分析之區間總數之0.15%。換言之,若來自未妊娠個體之血漿樣品顯示多於0.15%之區間之z評分<-3,則血漿中存在低甲基化DNA來源,亦即癌症。舉例而言,吾等在此實例中已分析之2734個1 Mb區間中之0.15%為約4個區間。使用此值作為截止值,手術前及手術後血漿樣品均含有來源於腫瘤之低甲基化DNA,但該量在手術前血漿樣品中比手術後血漿樣品中高得多。對於四個健康對照個體,無一個區間顯示顯著高甲基化或低甲基化。可使用其他截止值(例如1.1%),且其可視所使用之分析要求而變化。作為其他實例,截止百分比可基於統計分佈以及所要敏感性及可接受之特異性而變化。
在另一實施例中,截止數目可藉由接受者工作特徵(receiver operator characteristic,ROC)曲線分析藉由分析許多癌症患者及未患癌症個體來確定。為進一步驗證此方法之特異性,分析來自尋求非惡性病狀之醫學諮詢之患者的血漿樣品(C06)。1.1%區間之z評分<-3。在一個實施例中,可使用不同的臨限值對不同程度之疾病狀態進行分類。可使用較低百分比臨限值來區分健康狀態與良性病狀,且較高百分比臨限值用於區分良性病狀與惡性疾病。
使用大規模平行定序之血漿低甲基化分析之診斷效能似乎優於使用基於聚合酶鏈式反應(PCR)之擴增特定類別重複序列元件所獲得的效能,例如長散佈核元件1 (LINE-1) (P Tangkijvanich等人2007 Clin Chim Acta; 379:127-133)。此觀測結果之一種可能解釋為儘管低甲基化在腫瘤基因組中非常普遍,但其在一個基因組區域與下一個之間具有一定程度的異質性。
實際上,吾等觀測到參考個體之平均血漿甲基化密度在整個基因組上變化(圖56)。圖56中之各紅色點顯示32個健康個體中之一個1 Mb區間之平均甲基化密度。該圖展示整個基因組上所分析之所有1 Mb區間。各方框內之數字表示染色體數目。吾等觀測到平均甲基化密度因區間而各異。
基於PCR之簡單分析將不能夠在其診斷演算法中考慮到該區域-區域異質性。該異質性將拓寬健康個體中所觀測到之甲基化密度之範圍。被視為顯示低甲基化之樣品則需要甲基化密度之較大降低幅度。由此將導致測試敏感性降低。
相比之下,基於大規模平行定序之方法將基因組分成1 Mb區間(或其他大小之區間)且個別地量測該等區間之甲基化密度。此方法減小該等變化在不同基因組區域之基線甲基化密度中之影響,因為在測試樣品與對照之間比較各區域。實際上,在同一區間內,32個健康對照之個體間變化相對較小。在32個健康對照中,95%區間之變異係數(CV)≤1.8%。又,為進一步增強對癌症相關低甲基化之偵測敏感性,該比較可在多個基因組區域之間進行。敏感性將藉由測試多個基因組區域來增強,因為此舉將在僅測試一個區域時在癌症樣品之特定區域碰巧不顯示低甲基化時避免生物學變化之效應。
比較對照與測試樣品之間的等效基因組區域之甲基化密度(例如獨立地測試各基因組區域,且隨後可能梳理該等結果)且對多個基因組區域進行此比較的方法在偵測與癌症相關之低甲基化時具有較高信雜比。以說明之方式展示此大規模平行定序方法。可測定多個基因組區域之甲基化密度且允許比較對照與測試樣品之間的對應區域之甲基化密度的其他方法學據預測將達成類似效應。舉例而言,可設計出可靶向來源於特定基因組區域之血漿DNA分子以及測定該區域之甲基化程度的雜交探針或分子倒置探針以達成所要效應。
在另一實施例中,所有區間之z評分之總和可用於確定癌症是否存在或用於監測血漿DNA甲基化程度之連續變化。由於腫瘤DNA之總體低甲基化性質,故自患有癌症之個體收集之血漿中的z評分之總和將低於健康對照。HCC患者之手術前及手術後血漿樣品之z評分之總和分別為-49843.8及-3132.13。
在其他實施例中,其他方法可用於調查血漿DNA之甲基化程度。舉例而言,可使用質譜(ML Chen等人2013 Clin Chem; 59: 824-832)或大規模平行定序來測定甲基化胞嘧啶殘基相對於胞嘧啶殘基總含量之比例。然而,作為大部分胞嘧啶殘基不在CpG二核苷酸中之情形,當與CpG二核苷酸情形下所估計之甲基化程度相比較時,甲基化胞嘧啶相對於總胞嘧啶殘基之比例將相對較小。吾等測定獲自HCC患者之組織及血漿樣品以及四個獲自健康對照之血漿樣品的甲基化程度。在CpG情形下、任何胞嘧啶、在CHG及CHH情形下使用全基因組大規模平行定序資料量測甲基化程度。H係指腺嘌呤、胸嘧啶或胞嘧啶殘基。
圖26D為展示當使用CHH及CHG情形時與一些對照血漿樣品重疊之腫瘤組織及手術前血漿樣品之甲基化程度的表2660。當與白血球層、非腫瘤肝組織、手術後血漿樣品及健康對照血漿樣品相比較時,在CpG及未規定胞嘧啶兩者中,腫瘤組織及手術前血漿樣品之甲基化程度一貫較低。然而,基於甲基化CpG之資料,亦即甲基化密度,與基於甲基化胞嘧啶之資料相比顯示較寬動態範圍。
在其他實施例中,血漿DNA之甲基化狀態可藉由使用針對甲基化胞嘧啶之抗體的方法,例如甲基化DNA免疫沈澱(MeDIP)來測定。然而,預期此等方法之精確度因為抗體結合之變異性而次於基於定序之方法。在另一實施例中,可測定血漿DNA中之5-羥甲基胞嘧啶之含量。就此而言,已發現5-羥甲基胞嘧啶之含量降低為某些癌症(例如黑色素瘤)之表觀遺傳特徵(CG Lian等人2012 Cell; 150: 1135-1146)。
除HCC以外,吾等亦研究此方法是否可應用於其他類型癌症。吾等分析來自以下患者之血漿樣品:2個肺腺癌患者(CL1及CL2)、2個鼻咽癌患者(NPC1及NPC2)、2個結腸直腸癌患者(CRC1及CRC2)、1個轉移性神經內分泌腫瘤患者(NE1)及1個轉移性平滑肌肉瘤患者(SMS1)。此等個體之血漿DNA經亞硫酸氫鹽轉化且使用Illumina HiSeq2000平台在一端針對50 bp進行定序。以上所提及之四個健康對照個體用作參考組以分析此8個患者。使用一端之50 bp序列讀段。將整個基因組分成1 Mb區間。使用來自參考組之資料計算各區間之甲基化密度之平均值及SD。隨後將8個癌症患者之結果表示為z評分,該等z評分表示距參考組之平均值之SD數目。正值指示測試病例之甲基化密度低於參考組之平均值,且負值指示測試病例之甲基化密度高於參考組之平均值。每個樣品之序列讀段之數目及所達到之定序深度示於圖27I之表2780中。
圖27A至27H展示根據本發明實施例之8個癌症患者之甲基化密度的Circos圖。各點表示1 Mb區間之結果。黑色點表示z評分在-3與3之間的區間。紅色點表示z評分<-3的區間。綠色點表示z評分>3之區間。兩條連續線之間的間隔表示z評分差異為20。
在大部分類型癌症(包括肺癌、鼻咽癌、結腸直腸癌及轉移性神經內分泌腫瘤)患者之基因組中的多個區域中觀測到顯著低甲基化。令人感興趣的是,除低甲基化以外,在患有轉移性平滑肌肉瘤之病例中之基因組中的多個區域中觀測到顯著高甲基化。平滑肌肉瘤之胚胎來源為中胚層,而其餘7個患者中之其他類型癌症之胚胎來源為外胚層。因此,有可能肉瘤之DNA甲基化模式可不同於癌瘤。
如由此情況可見,血漿DNA之甲基化模式亦可用於區分不同類型癌症,在此實例中為區分癌瘤及肉瘤。此等資料亦表明該方法可用於偵測與惡性疾病相關之異常高甲基化。對於所有此8種情況,僅利用血漿樣品且未分析腫瘤組織。此表明即使不存在腫瘤組織之先前甲基化概況或甲基化程度,亦可使用所述方法容易地偵測血漿中來源於腫瘤之DNA。
圖27J為表2790,該表為展示患有不同惡性疾病之患者血漿中之整個基因組之1 Mb區間之z評分之分佈的表。展示各病例下z評分<‑3、-3至3及>3之區間的百分比。在所有病例下,超過5%區間之z評分<-3。因此,若吾等使用5%區間顯著低甲基化之截止值將樣品分類為對癌症呈陽性,則所有此等病例將分類為對癌症呈陽性。吾等之結果顯示低甲基化可能為不同類型癌症之一般現象,且血漿甲基化模式組分析將適用於偵測不同類型癌症。
D. 方法圖28為根據本發明實施例分析生物體之生物樣品以確定癌症程度分類之方法2800的流程圖。生物樣品包括來源於正常細胞之DNA且可潛在地包括來自與癌症相關之細胞之DNA。至少一些DNA在生物樣品中可為細胞游離DNA。
在方塊2810處,分析來自生物樣品之複數個DNA分子。分析DNA分子可包括測定DNA分子在生物體基因組中之位置及測定DNA分子是否在一或多個位點處經甲基化。該分析可藉由接收來自可獲知甲基化之定序的序列讀段來進行,且因此可僅對先前獲自DNA之資料進行分析。在其他實施例中,該分析可包括實際定序或獲得該資料之其他有效步驟。
在方塊2820處,對於複數個位點中之每一者,測定該位點處經甲基化之DNA分子之各別數目。在一個實施例中,該等位點為CpG位點,且可僅為某些CpG位點,如使用本文所提及之一或多個準則所選擇。甲基化DNA分子之數目等效於在使用特定位點處所分析之DNA分子之總數,例如序列讀段之總數進行標準化後確定未甲基化之數目。舉例而言,區域之CpG甲基化密度增加等效於同一區域之未甲基化CpG之密度降低。
在方塊2830處,基於複數個位點處經甲基化之DNA分子之各別數目來計算第一甲基化程度。第一甲基化程度可對應於基於對應於該複數個位點之DNA分子數目而確定的甲基化密度。該等位點可對應於複數個基因座或僅一個基因座。
在方塊2840處,將第一甲基化程度與第一截止值相比較。該第一截止值可為參考甲基化程度或係關於參考甲基化程度(例如,與正常程度相距規定距離)。參考甲基化程度可由來自未患癌症之個體或已知與生物體之癌症無關聯之基因座或生物體之樣品來測定。該第一截止值可由該生物體之在測試該生物樣品前所獲得之先前生物樣品測定之參考甲基化程度確定。
在一個實施例中,該第一截止值為距由獲自健康生物體之生物樣品確定之參考甲基化程度之規定距離(例如,規定數目之標準差)。該比較可藉由確定第一甲基化程度與參考甲基化程度之間的差異,且隨後比較該差異與對應於該第一截止值之臨限值(例如,以確定甲基化程度是否在統計上不同於參考甲基化程度)來進行。
在方塊2850處,基於該比較來確定癌症程度之分類。癌症程度之實例包括個體是否患有癌症或惡化前病狀,或發生癌症之可能性增加。在一個實施例中,該第一截止值可由來自個體之先前獲得之樣品確定(例如,可由該先前樣品確定參考甲基化程度)。
在一些實施例中,該第一甲基化程度可對應於甲基化程度超過臨限值之許多區域。舉例而言,可鑑別生物體之基因組之複數個區域。可使用本文所提及之例如某些長度或某些位點數之準則來鑑別該等區域。可在各區域內鑑別一或多個位點(例如CpG位點)。可計算各區域之區域甲基化程度。第一甲基化程度係針對第一區域。將各區域甲基化程度與各別區域截止值相比較,該各別區域截止值相對於多個區域可能相同或有所變化。第一區域之區域截止值為第一截止值。各別區域截止值可為距參考甲基化程度之規定量(例如0.5),藉此僅計數與參考具有顯著差異之區域,該參考可由非癌症個體測定。
可確定區域甲基化程度超過各別區域截止值之區域之第一數目,且與臨限值相比較以確定分類。在一個實施例中,該臨限值為百分比。比較第一數目與臨限值可包括在與臨限值相比較之前將區域之第一數目除以區域之第二數目(例如,所有區域),例如,作為標準化過程之一部分。
如上所述,生物樣品中之腫瘤DNA之部分濃度可用於計算第一截止值。該部分濃度可簡單評估為大於最小值,而部分濃度低於最小值之樣品可標記為例如不適於分析。該最小值可基於腫瘤之甲基化程度相對於參考甲基化程度之預期差異而確定。舉例而言,若差異為0.5 (例如,用作截止值),則將需要某一腫瘤濃度足夠高以發現此差異。
來自方法1300之特異性技術可應用於方法2800。在方法1300中,可測定腫瘤之複本數變化(例如,其中可測試腫瘤之第一染色體區域相對於腫瘤之第二染色體區域具有複本數變化)。因此,方法1300可假定存在腫瘤。在方法2800中,可測試樣品究竟是否存在任何腫瘤之指示,而不考慮任何複本數特徵。該兩種方法之一些技術可相似。然而,與相對於癌症DNA與一些區域可能具有複本數變化之非癌症DNA之混合物之參考甲基化程度之差異相對,對於非癌症DNA,方法2800之截止值及甲基化參數(例如標準化甲基化程度)可偵測相對於參考甲基化程度之統計差異。因此,方法2800之參考值可由未患癌症之樣品測定,諸如未患癌症之生物體或同一患者之非癌症組織(例如,得到已知不具有癌症之樣品之前或同時獲取之血漿,該癌症可由細胞DNA確定)。
E. 使用血漿 DNA 甲基化分析預測欲偵測之腫瘤 DNA 之最小部分濃度用於使用血漿DNA之甲基化程度量測該方法偵測癌症之敏感性的一種方式係關於來源於腫瘤之DNA之最小部分濃度,其要求當與對照比較時顯示血漿DNA甲基化程度之變化。測試敏感性亦視腫瘤組織與健康對照之基線血漿DNA甲基化程度或血細胞DNA之間的DNA甲基化之差異程度而定。血細胞為健康個體之血漿中之主要DNA來源。該差異愈大,愈可容易辨別癌症患者與非癌症個體,且將體現為血漿中來源於腫瘤之偵測下限較低且偵測癌症患者時之臨床敏感性較高。另外,健康個體或不同年齡之個體中之血漿DNA甲基化之變化(G Hannum等人2013 Mol Cell; 49: 359-367)亦將影響偵測與存在癌症相關之甲基化變化之敏感性。健康個體中之血漿DNA甲基化之變化較小將使得更容易偵測由存在少量來源於癌症之DNA所致之變化。
圖29A為展示參考個體中之甲基化密度分佈的圖2900,假定此分佈遵循正態分佈。此分析係基於各血漿樣品僅提供一個甲基化密度值,例如,所有常染色體或特定染色體之甲基化密度。其說明分析之特異性將如何受影響。在一個實施例中,使用比參考個體之平均DNA甲基化密度低3個SD之截止值來確定測試樣品之低甲基化程度是否顯著大於來自參考個體之樣品。當使用此截止值時,預期約0.15%非癌症個體將具有被分類為患有癌症之假陽性結果,從而獲得99.85%之特異性。
圖29B為展示參考個體及癌症患者中之甲基化密度分佈的圖2950。該截止值比參考個體之甲基化密度平均值低3個SD。若癌症患者之甲基化密度平均值比該截止值低2個SD (亦即,比參考個體之平均值低5個SD),則將預期97.5%癌症個體具有低於該截止值之甲基化密度。換言之,若針對各個體提供一個甲基化密度值,例如當分析整個基因組、所有常染色體或特定染色體之總甲基化密度時,預期敏感性將為97.5%。兩個群體之平均甲基化密度之間的差異受兩個因素影響,亦即癌症與非癌症組織之間的甲基化程度之差異程度及血漿樣品中來源於腫瘤之DNA之部分濃度。此兩個參數之值愈大,此兩個群體之甲基化密度值之差異愈大。另外,兩個群體之甲基化密度分佈之SD愈低,兩個群體之甲基化密度分佈之重疊愈少。
此處吾等使用假想實例來說明此概念。假定腫瘤組織之甲基化密度為約0.45且健康個體之血漿DNA之甲基化密度為約0.7。此等假定值類似於獲自吾等之HCC患者之值,其中對於來自健康對照之血漿樣品,常染色體之總體甲基化密度為42.9%,且常染色體之平均甲基化密度為71.6%。假定量測整個基因組之血漿DNA甲基化密度之CV為1%,該截止值將為0.7×(100%-3×1%)=0.679。為達成97.5%之敏感性,癌症患者血漿DNA之平均甲基化密度需為約0.679-0.7×(2×1%)=0.665。以
f表示血漿樣品中來源於腫瘤之DNA之部分濃度。則
f可計算為(0.7-0.45)×
f=0.7-0.665。因此,
f為約14%。根據此計算,據估計,若使用整個基因組之總甲基化密度作為診斷參數,則為了達成97.5%之診斷敏感性,血漿中可偵測到之最小部分濃度為14%。
接下來吾等對獲自HCC患者之資料進行此分析。關於此說明,基於由所有常染色體評估之值,僅對各樣品進行一次甲基化密度量測。在獲自健康個體之血漿樣品中,平均甲基化密度為71.6%。此四個樣品之甲基化密度之SD為0.631%。因此,血漿甲基化密度之截止值將需要為71.6%-3×0.631%=69.7%以達到z評分<-3且特異性為99.85%。為達成97.5%之敏感性,癌症患者之平均血漿甲基化密度將需要比截止值低2個SD,亦即68.4%。因為腫瘤組織之甲基化密度為42.9%且使用下式:P=BKG×(1-
f)+TUM×
f,故
f將需要為至少11.1%。
在另一實施例中,可獨立地分析不同基因組區域之甲基化密度,例如,如圖25A或26B中所示。換言之,多次量測各樣品之甲基化程度。如下文所示,可在低得多的部分腫瘤DNA濃度下在血漿中偵測到顯著低甲基化,且因此血漿DNA甲基化分析用於癌症偵測之診斷效能將得到增強。可對相對於參考群體顯示顯著甲基化密度偏差之基因組區域之數目進行計數。隨後可將基因組區域之數目與截止值相比較以確定所調查之基因組區域群體(例如,整個基因組之1 Mb區間)中是否存在血漿DNA之總體顯著低甲基化。可藉由分析未患癌症之參考個體群組確定截止值,或以數學方式,例如根據正態分佈函數獲得截止值。
圖30為展示健康個體及癌症患者之血漿DNA之甲基化密度分佈的圖3000。比較各1 Mb區間之甲基化密度與參考組之相應值。確定顯示顯著低甲基化(比參考組之平均值低3個SD)之區間之百分比。10%顯著低甲基化之截止值用於確定血漿樣品中是否存在來源於腫瘤之DNA。根據測試之所要敏感性及特異性,亦可使用其他截止值,諸如5%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%或90%。
舉例而言,為將樣品分類為含有來源於腫瘤之DNA,吾等可使用10% 1 Mb區間顯示顯著低甲基化(z評分<-3)作為截止值。若超過10%區間之低甲基化程度顯著大於參考組,則將該樣品分類為對癌症測試呈陽性。對於各1 Mb區間,比參考組之平均甲基化密度低3個SD之截止值用於將樣品定義為低甲基化程度顯著更大。對於各1 Mb區間,若癌症患者之平均血漿DNA甲基化密度比參考個體之平均血漿DNA甲基化密度低1.72個SD,則癌症患者之任何特定區間之甲基化密度值將低於截止值(亦即,z評分<-3)且獲得陽性結果的概率為10%。隨後,若吾等觀察整個基因組之所有1 Mb區間,則將預期約10%區間顯示具有顯著較低甲基化密度之陽性結果(亦即z評分<-3)。假定健康個體之血漿DNA之總體甲基化密度為約0.7且量測各1 Mb區間之血漿DNA甲基化密度之變異係數(CV)為1%,則癌症患者之血漿DNA之平均甲基化密度將需要為0.7×(100%-1.72×1%)=0.68796。以
f為血漿中來源於腫瘤之DNA之部分濃度,以便達成此平均血漿DNA甲基化密度。假定腫瘤組織之甲基化密度為0.45,則可使用以下等式計算
f:
,
其中
表示參考個體中之血漿DNA之平均甲基化密度;
M 腫瘤 表示癌症患者中之腫瘤組織之甲基化密度;且
表示癌症患者中之血漿DNA之平均甲基化密度。
使用此等式,(0.7-0.45)×
f=0.7-0.68796。因此,最小部分濃度可使用此方法偵測,將推斷為4.8%。藉由降低低甲基化程度顯著較大之區間之截止百分比,例如自10%至5%,可進一步增強敏感性。
如以上實例中所示,此方法之敏感性係由癌症與非癌症組織(例如血細胞)之間的甲基化程度差異之程度決定。在一個實施例中,僅選擇顯示非癌症個體之血漿DNA與腫瘤組織之間的甲基化密度差異較大的染色體區域。在一個實施例中,僅選擇甲基化密度差異>0.5之區域。在其他實施例中,0.4、0.6、0.7、0.8或0.9之差異可用於選擇適合區域。在另一實施例中,基因組區域之物理大小不固定。作為替代,例如基於固定讀取深度或固定CpG位點數目來定義基因組區域。對於各樣品,評定多個此等基因組區域之甲基化程度。
圖31為展示健康個體之血漿DNA平均值與HCC患者之腫瘤組織之間的甲基化密度差異之分佈的圖3100。正值表示甲基化密度高於健康個體之血漿DNA,且負值表示甲基化密度高於腫瘤組織。
在一個實施例中,可選擇癌症與非癌症組織之間的甲基化密度差異最大,例如差異>0.5的區間,而不考慮此等區間之腫瘤是低甲基化或是高甲基化。鑒於血漿中來源於腫瘤之DNA之部分濃度相同,因為癌症與非癌症個體之間的血漿DNA甲基化程度分佈之間的差異較大,故可藉由聚焦於此等區間而降低血漿中來源於腫瘤之DNA之部分濃度的偵測極限。舉例而言,若僅使用差異>0.5之區間且採用10%區間之低甲基化程度顯著較大之截止值用於確定測試個體是否患有癌症,則所偵測之來源於腫瘤之DNA之最小部分濃度(
f)可使用以下等式計算:
,其中
表示參考個體之血漿DNA之平均甲基化密度;
表示癌症患者之腫瘤組織之甲基化密度;且
表示癌症患者之血漿DNA之平均甲基化密度。
儘管參考個體之血漿與腫瘤組織之間的甲基化密度差異為至少0.5。隨後吾等得到0.5×
f=0.7-0.68796及
f=2.4%。因此,藉由聚焦於癌症與非癌症組織之間具有較高甲基化密度差異之區間,部分來源於腫瘤之DNA之下限可自4.8%降至2.4%。關於何種區間將在癌症與非癌症組織(例如血細胞)之間顯示較大程度之甲基化差異的資訊可由獲自其他個體之同一器官或同一組織學類型之腫瘤組織測定。
在另一實施例中,參數可來源於所有區間之血漿DNA甲基化密度且考慮癌症與非癌症組織之間的甲基化密度差異。具有較大差異之區間可給予較大權重。在一個實施例中,若特定區間用於計算最終參數,則各區間之癌症與非癌症組織之間的甲基化密度差異可直接用作權重。
在另一實施例中,不同類型之癌症可在腫瘤組織中具有不同的甲基化模式。癌症特異性權重概況可來源於特定類型癌症之甲基化程度。
在另一實施例中,可在患有及未患癌症之個體中測定甲基化密度之區間間關係。在圖8中,吾等觀測到在較少數目之區間中,腫瘤組織之甲基化程度大於參考個體之血漿DNA。因此,可選擇具有最大差異極值,例如差異>0.5及差異<0之區間。此等區間之甲基化密度之比率隨後可用於指示測試個體是否患有癌症。在其他實施例中,不同區間之甲基化密度之差及商可用作指示區間間關係之參數。
吾等進一步評定如藉由獲自HCC患者之資料所說明,使用多個基因組區域之甲基化密度來偵測或評定腫瘤之方法的偵測敏感性。首先,吾等混合來自手術前血漿之讀段與獲自健康對照之血漿樣品之讀段以模擬含有在20%至0.5%範圍內之部分腫瘤DNA濃度之血漿樣品。吾等隨後用等效於z評分<-3之甲基化密度對1 Mb區間(自整個基因組中之2,734個區間中)之百分比進行評分。當血漿中之部分腫瘤DNA濃度為20%時,80.0%區間顯示顯著低甲基化。關於血漿中部分腫瘤DNA濃度10%、5%、2%、1%及0.5%之相應資料分別為67.6%、49.7%、18.9%、3.8%及0.77%區間顯示低甲基化。因為對照樣品中顯示z評分<-3之區間數目之理論極限為0.15%,故吾等之資料顯示更多區間(0.77%)超過理論截止極限,即使當腫瘤部分濃度僅為0.5%時。
圖32A為展示當血漿樣品含有5%或2%腫瘤DNA時降低定序深度之效應的表3200。當平均定序深度僅為單倍體基因組之0.022倍時,仍可偵測到較高比例之區間(>0.15%)顯示顯著低甲基化。
圖32B為展示四個健康對照個體之血漿、HCC患者之白血球層、正常肝組織、腫瘤組織、手術前血漿及手術後血漿樣品中之重複序列元件及非重複序列區域之甲基化密度的圖式3250。可觀測到重複序列元件之甲基化程度(甲基化密度)大於(高於)癌症及非癌症組織中之非重複序列區域。然而,當與腫瘤組織相比較時,重複序列元件與非重複序列區域之間的甲基化差異大於非癌症組織及健康個體之血漿DNA。
因此,癌症患者之血漿DNA在重複序列元件之甲基化密度方面與非重複序列區域相比具有較大降低。對於重複序列元件及非重複序列區域,四個健康對照之平均值與HCC患者之間的血漿DNA甲基化密度差異分別為0.163及0.088。關於手術前及手術後血漿樣品之資料亦顯示甲基化密度變化之動態範圍在重複序列中大於非重複序列區域。在一個實施例中,重複序列元件之血漿DNA甲基化密度可用於確定患者是否受癌症影響或用於監測疾病進展。
如上文所論述,參考個體之血漿中之甲基化密度變化亦將影響區分癌症患者與非癌症個體之準確性。甲基化密度分佈愈緊密(亦即,標準差愈小),將能愈準確地區分癌症與非癌症個體。在另一實施例中,在參考組中,1 Mb區間之甲基化密度之變異係數(CV)可用作選擇具有較低血漿DNA甲基化密度變化性之區間的準則。舉例而言,僅選擇CV<1%之區間。其他值,例如0.5%、0.75%、1.25%及1.5%亦可用作選擇具有較低甲基化密度變化性之區間的準則。在另一實施例中,選擇準則可包括區間之CV及癌症與非癌症組織之間的甲基化密度差異兩者。
當已知腫瘤組織之甲基化密度時,甲基化密度亦可用於評估血漿樣品中來源於腫瘤之DNA之部分濃度。此資訊可藉由分析患者之腫瘤或調查許多患有同一類型癌症之患者之腫瘤而獲得。如上文所論述,血漿甲基化密度(P)可使用以下等式表示:
,其中BKG為血細胞及其他器官之背景甲基化密度,TUM為腫瘤組織之甲基化密度,且f為血漿樣品中來源於腫瘤之DNA之部分濃度。此等式可重寫為:
。
BKG之值可藉由在不存在癌症之時間點分析患者之血漿樣品或調查未患癌症之個體之參考組來測定。因此,在量測血漿甲基化密度之後,可確定f。
F. 與其他方法組合本文所述之甲基化分析方法可與基於血漿中來源於腫瘤之DNA之基因變化的其他方法組合使用。該等方法之實例包括分析血漿中之癌症相關染色體畸變(KCA Chan等人2013 Clin Chem; 59:211-224;RJ Leary等人2012 Sci Transl Med; 4:162ra154)及癌症相關單一核苷酸變化(KCA Chan等人2013 Clin Chem; 59:211-224)。與該等基因方法相比,甲基化分析方法存在優勢。
如圖21A中所示,腫瘤DNA之低甲基化為涉及跨越幾乎整個基因組分佈之區域的整體現象。因此,來自所有染色體區域之DNA片段關於來源於腫瘤之低甲基化DNA對患者血漿/血清DNA之潛在貢獻將具資訊性。相比之下,染色體畸變(染色體區域之擴增或缺失)僅存在於一些染色體區域中,且腫瘤組織中來自無染色體畸變之區域的DNA片段在分析中將不具資訊性(KCA Chan等人2013 Clin Chem; 59: 211-224)。同樣,在各癌症基因組中僅觀測到數千單一核苷酸變化(KCA Chan等人2013 Clin Chem; 59: 211-224)。不與此等單一核苷酸變化重疊之DNA片段在確定血漿中是否存在來源於腫瘤之DNA時將不具資訊性。因此,與用於偵測循環中之癌症相關變化之該等基因方法相比,此甲基化分析方法可能更具成本有效性。
在一個實施例中,可藉由增濃最具資訊性之區域(例如癌症與非癌症組織之間的差異性甲基化差異最高的區域)之DNA片段來進一步增強血漿DNA甲基化分析之成本有效性。增濃此等區域之方法的實例包括使用雜交探針(例如Nimblegen SeqCap系統及Agilent SureSelect標靶增濃系統)、PCR擴增及固相雜交。
G. 組織特異性分析 / 供體來源於腫瘤之細胞侵入並轉移至相鄰或遠端器官。經侵入組織或轉移性病灶由於細胞死亡而向血漿中貢獻DNA。藉由分析癌症患者之血漿中之DNA甲基化概況及偵測組織特異性甲基化標誌之存在,可偵測涉及疾病過程之組織的類型。此方法提供涉及癌症過程之組織之非侵入性解剖掃描以輔助鑑別作為原發性及轉移性位點之所涉及器官。監測血漿中之所涉及器官之甲基化標誌的相對濃度亦將允許評定該等器官之腫瘤負荷且確定該器官中之癌症過程是劣化或是改良或已治癒。舉例而言,若在肝臟中基因X經特異性甲基化。則預期癌症(例如結腸直腸癌)對肝臟之轉移性涉及將增加血漿中來自基因X之甲基化序列之濃度。亦將存在與基因X具有類似甲基化特徵之另一序列或序列群組。隨後可組合來自該等序列之結果。類似考慮適用於其他組織,例如腦、骨、肺及腎臟等。
另一方面,已知來自不同器官之DNA展現組織特異性甲基化標誌(BW Futscher等人2002 Nat Genet; 31:175-179;SSC Chim等人2008 Clin Chem; 54: 500-511)。因此,血漿中之甲基化概況可用於闡明來自各種器官之組織對血漿之貢獻。闡明該貢獻可用於評定器官損傷,因為據信當細胞死亡時釋放血漿DNA。舉例而言,諸如肝炎(例如由病毒、自體免疫過程等所致)或由藥物所致之肝毒性(例如藥物過度劑量(諸如由撲熱息痛(paracetamol)引起)或毒素(諸如由酒精引起))之肝臟病理學與肝細胞損傷相關,且將預期與血漿中來源於肝臟之DNA之含量增加相關。舉例而言,若在肝臟中基因X經特異性甲基化。則將預期肝臟病理學增加血漿中來自基因X之甲基化序列之濃度。反之,若在肝臟中基因Y經特異性低甲基化。則將預期肝臟病理學降低血漿中來自基因Y之甲基化序列之濃度。在其他實施例中,基因X或Y可經可能不為基因且在體內不同組織中展現差異性甲基化之任何基因組序列置換。
本文所述之技術亦可應用於評定器官移植接受者之血漿中來源於供體之DNA (YMD Lo等人1998 Lancet; 351:1329-1330)。供體與接受者之間的多態性差異已用於區分血漿中來源於供體之DNA與來源於接受者之DNA (YW Zheng等人2012 Clin Chem; 58: 549-558)。吾等提議移植器官之組織特異性甲基化標誌亦可用作偵測接收者血漿中之供體DNA的方法。
藉由監測供體DNA之濃度,可非侵入性地評定移植器官之狀態。舉例而言,當與當患者處於穩定病狀時之時間相比較時或當與其他穩定移植物接受者或未進行移植之健康對照相比較時,移植物排斥反應與較高細胞死亡速率相關且因此接收者血漿(或血清)中之供體DNA濃度(如移植器官之甲基化標誌所反映)將增加。類似於關於癌症所描述,可藉由偵測所有或一些特徵性特徵,包括多態性差異、針對移植固體器官之大小較短之DNA (YW Zheng等人2012 Clin Chem; 58: 549-558)及組織特異性甲基化概況來鑑別移植接受者之血漿中來源於供體之DNA。
H. 基於大小標準化甲基化如上文及Lun等人(FMF Lun等人Clin. Chem. 2013; doi:10.1373/clinchem.2013.212274)所述,甲基化密度(例如血漿DNA之甲基化密度)與DNA片段之大小相關。較短血漿DNA片段之甲基化密度分佈顯著低於較長片段。吾等提議一些具有異常血漿DNA片段化模式之非癌症病狀(例如,全身性紅斑狼瘡(SLE))可由於存在更豐富之較少甲基化之短血漿DNA片段而展現明顯血漿DNA低甲基化。換言之,血漿DNA之大小分佈可為血漿DNA甲基化密度之混淆因素。
圖34A展示SLE患者SLE04之血漿DNA之大小分佈。九個健康對照個體之大小分佈顯示為灰色虛線,且SLE04之大小分佈顯示為黑色實線。與九個健康對照個體中相比,SLE04中之短血漿DNA片段更豐富。由於較短DNA片段一般較少甲基化,故此大小分佈模式可混淆對血漿DNA之甲基化分析且引起更明顯之低甲基化。
在一些實施例中,所量測之甲基化程度可經標準化以減少大小分佈對血漿DNA甲基化分析之混淆效應。舉例而言,可量測複數個位點處之DNA分子之大小。在各種實施例中,該量測可提供DNA分子之特定大小(例如長度)或簡單確定該大小處於特定範圍內,該範圍亦可對應於大小。隨後可比較標準化甲基化程度與截止值。存在若干種用於進行標準化之方式以減少大小分佈對血漿DNA甲基化分析之混淆效應。
在一個實施例中,可進行DNA (例如血漿DNA)之大小分級。大小分級可確保用與截止值一致的方式使用類似大小之DNA片段來確定甲基化程度。作為大小分級之一部分,可選擇具有第一大小(例如,第一長度範圍)之DNA片段,其中該第一截止值對應於該第一大小。可藉由僅使用所選DNA片段計算甲基化程度來達成標準化。
可用各種方式達成大小分級,例如藉由物理分離不同大小之DNA分子(例如藉由基於電泳或微流體之技術,或基於離心之技術)或藉由電子雜交分析達成。對於電子雜交分析,在一個實施例中,可進行血漿DNA分子之配對末端大規模平行定序。隨後可藉由將血漿DNA分子之兩個末端中之每一者的位置與參考人類基因組相比較來推斷定序分子之大小。隨後,可藉由選擇匹配一或多個大小選擇準則(例如,大小在規定範圍內之準則)的定序DNA分子來進行後續分析。因此,在一個實施例中,可分析具有類似大小(例如在規定範圍內)之片段的甲基化密度。可基於相同大小範圍內之片段來確定截止值(例如,在方法2800之方塊2840中)。舉例而言,可由已知患有癌症或未患癌症之樣品確定甲基化程度,且可由此等甲基化程度確定截止值。
在另一實施例中,可確定循環DNA之甲基化密度與大小之間的函數關係。該函數關係可由函數之資料點或係數來定義。該函數關係可提供對應於各別大小之標度值(例如,較短大小可具有甲基化之相應增加)。在各種實施例中,該標度值可介於0與1之間或大於1。
該標準化可基於平均大小來進行。舉例而言,可計算對應於用於計算第一甲基化程度之DNA分子之平均大小,且該第一甲基化程度可乘以相應標度值(亦即,對應於平均大小)。作為另一實例,各DNA分子之甲基化密度可根據DNA分子之大小及DNA大小與甲基化之間的關係而加以標準化。
在另一實施例中,標準化可基於每個分子來進行。舉例而言,可獲得特定位點處之DNA分子之各別量(例如,如上所述),且可由該函數關係鑑別對應於各別大小之標度值。對於非標準化計算,將在測定該位點處之甲基化指數時同樣地對各分子進行計數。對於標準化計算,分子對甲基化指數之貢獻可藉由對應於分子大小之定標因數加權。
圖34B及34C展示對來自SLE患者SLE04 (圖34B)及HCC患者TBR36 (圖34C)之血漿DNA之甲基化分析。外部圓顯示未進行電子雜交大小分級時血漿DNA之Z
甲基化結果。內部圓顯示130 bp或更長血漿DNA之Z
甲基化結果。對於SLE患者SLE04,在未進行電子雜交大小分級的情況下,84%區間顯示低甲基化。當僅分析130 bp或更長片段時,顯示低甲基化之區間之百分比降至15%。對於HCC患者TBR36,在進行及未進行電子雜交大小分級的情況下,分別98.5%及98.6%區間顯示血漿DNA低甲基化。此等結果表明電子雜交大小分級可有效減少與血漿DNA片段化增加相關之假陽性低甲基化結果,例如在患有SLE之患者中或在其他發炎性病狀中。
在一個實施例中,可比較進行及未進行大小分級之分析的結果以指示大小是否對甲基化結果存在任何混淆效應。因此,另外或替代標準化,計算特定大小之甲基化程度可用於確定當進行或不進行大小分級的情況下高於截止值之區間百分比有所不同時是否存在假陽性之可能性,或是否僅特定甲基化程度有所不同。舉例而言,進行及未進行大小分級之樣品的結果之間存在顯著差異可用於指示由於異常片段化模式所致之假陽性結果之可能性。用於確定差異是否顯著之臨限值可經由分析一群癌症患者及一群非癌症對照個體來確定。
I. 分析血漿中之全基因組 CpG 島高甲基化除一般低甲基化以外,癌症中通常亦觀測到CpG島高甲基化(SB Baylin等人2011 Nat Rev Cancer; 11: 726-734;PA Jones等人2007, Cell; 128: 683-692;M Esteller等人2007 Nat Rev Genet 2007; 8: 286-298;M Ehrlich等人2002 Oncogene 2002; 21: 5400-5413)。在此部分中,吾等描述使用CpG島高甲基化之全基因組分析來偵測並監測癌症。
圖35為根據本發明實施例之基於CpG島之高甲基化確定癌症程度分類之方法3500的流程圖。方法2800之複數個位點可包括CpG位點,其中該等CpG位點被組織成複數個CpG島,各CpG島包括一或多個CpG位點。各CpG島之甲基化程度可用於確定癌症程度之分類。
在方塊3510處,鑑別欲分析之CpG島。在此分析中,作為一個實例,吾等首先定義一組欲分析之CpG島,該等CpG島係用健康參考個體之血漿中之相對較低甲基化密度加以表徵。在一個態樣中,參考組中之甲基化密度之變化可相對較小,以便允許更容易地偵測癌症相關之高甲基化。在一個實施例中,該等CpG島之平均甲基化密度小於參考組之第一百分比,且該參考組中之甲基化密度之變異係數小於第二百分比。
作為一個實例,出於說明目的,使用以下準則來鑑別適用CpG島:
i. 參考組(例如健康個體)中之CpG島之平均甲基化密度<5%
ii. 用於分析參考組(例如健康個體)之血漿中之甲基化密度的變異係數<30%。
此等參數可經調節以用於特定應用。根據吾等之資料集,基因組中之454個CpG島滿足此等準則。
在方塊3520處,計算各CpG島之甲基化密度。甲基化密度可如本文所述來測定。
在方塊3530處,確定各CpG島是否經高甲基化。舉例而言,為分析測試病例之CpG島高甲基化,可比較各CpG島之甲基化密度與參考組之相應資料。可將甲基化密度(甲基化程度之一個實例)與一或多個截止值相比較以確定特定島是否經高甲基化。
在一個實施例中,第一截止值可對應於參考組之甲基化密度平均值加規定百分比。另一截止值可對應於參考組之甲基化密度平均值加規定數目之標準差。在一個實施例中,計算z評分(
Z 甲基化 )且與截止值相比較。舉例而言,若測試個體(例如針對癌症篩選之個體)中之CpG島滿足以下準則,則其被認為顯著高甲基化:
i. 其甲基化密度比參考組之平均值高出2%;及
ii.
Z 甲基化 >3
此等參數亦可經調節以用於特定應用。
在方塊3540處,高甲基化CpG島之甲基化密度(例如z評分)用於確定累積評分。舉例而言,在鑑別所有顯著高甲基化之CpG島之後,可計算涉及所有高甲基化CpG島之z評分之總和或z評分之函數的評分。評分之一個實例為累積機率(CP)評分,如另一部分中所述。累積機率評分使用
Z 甲基化 來確定根據概率分佈(例如,具有3個自由度之史都登氏
t概率分佈(Student's
tprobability distribution))偶然獲得該觀測結果的機率。
在方塊3550處,將累積評分與累積臨限值相比較以確定癌症程度之分類。舉例而言,若所鑑別之CpG島中之總高甲基化足夠大,則該生物體可鑑別為患有癌症。在一個實施例中,該累積臨限值對應於該參考組之最高累積評分。
IX. 甲基化及 CNA如上文所提及,本文所述之甲基化分析方法可與基於血漿中來源於腫瘤之DNA之基因變化的其他方法組合使用。該等方法之實例包括分析癌症相關之染色體畸變(KCA Chan等人2013 Clin Chem; 59: 211-224;RJ Leary等人2012 Sci Transl Med; 4: 162ra154)。複本數畸變(CNA)之態樣描述於美國專利申請案第13/308,473號中。
A. CNA複本數畸變可藉由對與基因組之特定部分比對之DNA片段進行計數、標準化該計數且比較該計數與截止值來偵測。在各種實施例中,可藉由與該基因組之同一部分之另一單倍體比對之DNA片段之計數(相對單倍體劑量(RHDO))或與該基因組之另一部分比對之DNA片段之計數來進行標準化。
RHDO方法依賴於使用異型組合基因座。此部分中所述之實施例亦可藉由比較兩個區域而非同一區域之兩個單倍體而用於同型組合基因座,且因此為非單倍體特異性的。在相對染色體區域劑量方法中,將來自一個染色體區域之片段之數目(例如,如藉由對與該區域比對之序列讀段進行計數所測定)與預期值(其可來自參考染色體區域或來自已知健康之另一樣品中之相同區域)相比較。以此方式,將對片段之染色體區域進行計數,而不考慮定序標籤來自何種單倍體。因此,仍可使用不含異型組合基因座之序列讀段。為進行比較,一個實施例可在比較之前標準化該標籤計數。各區域係由至少兩個基因座(彼此分開)定義,且此等基因座處之片段可用於獲得關於該區域之集體值。
可藉由將與該區域比對之定序讀段之數目除以可與整個基因組比對之定序讀段之總數來計算特定區域之定序讀段(標籤)之標準化值。此標準化標籤計數允許比較來自一個樣品之結果與另一樣品之結果。舉例而言,標準化值可為預期來自特定區域之定序讀段之比例(例如,百分比或分數),如上文所述。在其他實施例中,其他標準化方法為可能的。舉例而言,可藉由將一個區域之計數之數目除以參考區域之計數之數目來進行標準化(在以上情況下,參考區域剛好為整個基因組)。隨後可比較此標準化標籤計數與可由一或多個未展現癌症之參考樣品測定之臨限值。
隨後將測試病例之標準化標籤計數與一或多個參考個體(例如未患癌症者)之標準化標籤計數相比較。在一個實施例中,該比較係藉由計算該病例之特定染色體區域之z評分來進行。z評分可使用以下等式計算:z評分=(該病例之標準化標籤計數-平均值)/SD,其中「平均值」為與參考樣品之特定染色體區域比對之平均標準化標籤計數;且SD為與參考樣品之特定區域比對之標準化標籤計數之數目的標準差。因此,z評分為測試病例之染色體區域之標準化標籤計數與一或多個參考個體之相同染色體區域之平均標準化標籤計數相距的標準差數目。
在當測試生物體患有癌症時的情形下,腫瘤組織中經擴增之染色體區域將在血漿DNA中過度呈現。由此將產生z評分之正值。另一方面,腫瘤組織中缺失之染色體區域將在血漿DNA中呈現不足。由此將產生z評分之負值。z評分之量值係由若干因素決定。
一個因素為生物樣品(例如血漿)中來源於腫瘤之DNA之部分濃度。樣品(例如血漿)中來源於腫瘤之DNA之部分濃度愈高,測試病例與參考病例之標準化標籤計數之間的差異將愈大。因此,將產生較大量值之z評分。
另一因素為一或多個參考病例中之標準化標籤計數之變化。在測試病例之生物樣品(例如血漿)中之染色體區域具有相同程度之過度呈現時,參考組中之標準化標籤計數之變化愈小(亦即,標準差愈小),z評分將愈高。同樣,在測試病例之生物樣品(例如血漿)中之染色體區域具有相同程度之呈現不足時,參考組中之標準化標籤計數之標準差愈小,z評分之負值愈大。
另一因素為腫瘤組織中之染色體畸變之量值。染色體畸變之量值係指特定染色體區域之複本數目變化(得/失)。腫瘤組織中之複本數目變化愈大,血漿DNA中特定染色體區域之過度呈現或呈現不足程度愈大。舉例而言,與損失染色體之兩個複本之一相比,染色體之兩個複本均損失將引起血漿DNA中之染色體區域之呈現不足程度更大,且因此產生負值更大的z評分。通常,癌症中存在多個染色體畸變。各癌症中之染色體畸變可進一步改變其性質(亦即擴增或缺失)、其程度(單一或多個複本得失)及其程度(畸變相對於染色體長度之大小)。
量測標準化標籤計數之精確度受所分析之分子之數目影響。吾等預期當部分濃度分別為約12.5%、6.3%及3.2%時,將需要分析15,000、60,000及240,000個分子以偵測在一個複本變化(得/失)下的染色體畸變。不同染色體區域之用於偵測癌症之標籤計數之其他細節描述於Lo等人之標題為「Diagnosing Fetal Chromosomal Aneuploidy Using Massively Parallel Genomic Sequencing」之美國專利公開案第2009/0029377號中,該公開案之全文係出於所有目的以引用的方式併入本文中。
實施例亦可使用大小分析作為標籤計數法之替代方案。亦可使用大小分析作為標準化標籤計數之替代方案。大小分析可使用如本文及美國專利申請案第12/940,992號中所提及之各種參數。舉例而言,可使用來自上文之Q或F值。該等大小值不需要藉由來自其他區域之計數進行標準化,因為此等值未用讀段之數目定標。單倍體特異性方法(諸如上文及美國專利申請案第13/308,473號中更詳細描述之RHDO方法)之技術亦可用於非特異性方法。舉例而言,可使用涉及區域之深度及改進之技術。在一些實施例中,當比較兩個區域時可考慮特定區域之GC偏移。因為RHDO方法使用同一區域,故不需要進行此修正。
雖然某些癌症通常可與特定染色體區域中之畸變一起存在,但該等癌症不會始終與該等區域中之畸變一起排他性地存在。舉例而言,其他染色體區域可顯示畸變,且該等其他區域之位置可能為未知的。此外,當篩選患者以鑑別早期癌症時,可能希望鑑別可顯示整個基因組中存在畸變之較寬範圍之癌症。為處理此等情形,實施例可以系統方式分析複數個區域以確定何種區域顯示畸變。畸變數目及其位置(例如其是否連續)可用於例如基於展現畸變之各種區域之數目及位置確定畸變、確定癌症階段、提供癌症診斷(例如若該數目大於臨限值)及提供預後。
因此,實施例可基於顯示畸變之區域之數目來鑑別生物體是否患有癌症。因此,可測試複數個區域(例如3,000個)以鑑別許多展現畸變之區域。該等區域可覆蓋整個基因組或僅基因組之數個部分,例如非重複序列區域。
圖36為根據本發明實施例之使用複數個染色體區分析生物體之生物樣品之方法3600的流程圖。生物樣品包括核酸分子(亦稱為片段)。
在方塊3610處,鑑別生物體基因組之複數個區域(例如不重疊區域)。各染色體區域包括複數個基因座。區域可為1 Mb大小,或一些其他相等大小。對於區域為1 Mb大小之情形,整個基因組則可包括約3,000個區域,各區域具有預定大小及位置。該等預定區域可變化以適應欲使用之特定染色體之長度或規定數目之區域及本文所提及之任何其他準則。若區域具有不同長度,則該等長度可用於標準化結果,例如,如本文所述。可基於特定生物體之某些準則及/或基於所測試癌症之知識特異性地選擇該等區域。亦可任意地選擇該等區域。
在方塊3620處,對於複數個核酸分子中之每一者,鑑別生物體之參考基因組中之核酸分子之位置。可用本文所提及之任何方式測定位置,例如藉由對片段進行定序以獲得定序標籤且比對定序標籤與參考基因組。對於單倍體特異性方法,亦可測定分子之特定單倍體。
對該等染色體區域中之每一者進行方塊3630至3650。在方塊3630處,基於所鑑別之位置將核酸分子之各別群組鑑別為來自該染色體區域。各別群組可包括至少一個位於該染色體區域之複數個基因座中之每一者處的核酸分子。在一個實施例中,該群組可為與該染色體區域之特定單倍體比對(例如,如以上RHDO方法中)之片段。在另一實施例中,該群組可具有與該染色體區域比對之任何片段。
在方塊3640處,電腦系統計算核酸分子之各別群組之各別值。各別值定義各別群組之核酸分子之性質。各別值可為本文所提及之值中的任何一者。舉例而言,該值可為該群組中之片段數目或該群組中之片段之大小分佈的統計值。各別值亦可為標準化值,例如,區域之標籤計數除以樣品標籤計數之總數或參考區域之標籤計數之數目。該各別值亦可為相對於另一值(例如,在RHDO中)之差異或比率,藉此提供該區域之差異性質。
在方塊3650處,將各別值與參考值比較以確定第一染色體區域是否展現缺失或擴增之分類。此參考值可為本文所述之任何臨限值或參考值。舉例而言,該參考值可為對正常樣品測定之臨限值。對於RHDO,該各別值可為兩個單倍體之標籤計數之差異或比率,且該參考值可為用於確定存在統計上顯著之偏差的臨限值。作為另一實例,該參考值可為另一單倍體或區域之標籤計數或大小值,且該比較可包括獲取差異或比率(或其函數)且隨後確定該差異或比率是否大於臨限值。
該參考值可基於其他區域之結果而變化。舉例而言,若鄰近區域亦顯示偏差(但與一個臨限值,例如,z評分3相比較小),則可使用較低臨限值。舉例而言,若三個連續區域均大於第一臨限值,則較可能為癌症。因此,此第一臨限值可低於自非連續區域鑑別癌症所需之另一臨限值。具有三個即使具有較小偏差之區域(或多於三個)亦可具有足夠低的可保持敏感性及特異性之概率效應的機率。
在方塊3660處,測定分類為展現缺失或擴增之基因組區域之量。所計數之染色體區域可具有限制。舉例而言,僅可計數與至少一個其他區域連續之區域(或可需要連續區域具有某一大小,例如4個或4個以上區域)。對於區域不相等之實施例,數目亦可說明各別長度(例如,數目可為異常區域之總長度)。
在方塊3670處,將該量與量臨限值比較以確定樣品之分類。作為實例,該分類可為生物體是否患有癌症、癌症之階段及癌症之預後。在一個實施例中,對所有異常區域進行計數且使用單一臨限值,而不考慮區域出現在何處。在另一實施例中,臨限值可基於所計數之區域之位置及大小而變化。舉例而言,可將特定染色體或染色體臂上之區域之量與特定染色體(或臂)之臨限值相比較。可使用多個臨限值。舉例而言,特定染色體(或臂)上之異常區域之量必須大於第一臨限值,且基因組中之異常區域之總量必須大於第二臨限值。該臨限值可為被確定為展現缺失或擴增之區域的百分比。
區域之量的此臨限值亦可視所計數之區域之不平衡的強烈程度而定。舉例而言,用作確定癌症分類之臨限值的區域之量可視用於偵測各區域中之畸變的特異性及敏感性(異常臨限值)而定。舉例而言,若異常臨限值較低(例如z評分2),則量臨限值可選擇為較高(例如150)。但,若異常臨限值較高(例如z評分3),則量臨限值可能較低(例如50)。顯示畸變之區域之量亦可為加權值,例如一個顯示較高不平衡之區域與僅顯示極小不平衡之區域(亦即,對於畸變存在多於僅陽性及陰性之分類)相比可具有較高權重。作為一個實例,可使用z評分之總和,藉此使用加權值。
因此,顯示標準化標籤計數(或群組之性質的其他各別值)之顯著過度呈現或呈現不足之染色體區域之量(其可包括數目及/或大小)可用於體現疾病之嚴重程度。具有異常標準化標籤計數之染色體區域之量可由兩個因素決定,即腫瘤組織中之染色體畸變之數目(或大小)及生物樣品(例如血漿)中來源於腫瘤之DNA之部分濃度。較晚期癌症趨向於展現較多(及較大)染色體畸變。因此,樣品(例如血漿)中將可能偵測到較多癌症相關之染色體畸變。在患有較晚期癌症之患者中,較高腫瘤負荷將引起血漿中來源於腫瘤之DNA之部分濃度較高。因此,血漿樣品中將更容易偵測到腫瘤相關之染色體畸變。
一種在不犧牲特異性的情況下改良敏感性之可能之方法將考慮相鄰染色體區段之結果。在一個實施例中,z評分之截止值仍為>2及<-2。然而,僅當兩個連續區段將顯示相同類型畸變,例如兩個區段之z評分>2時,將染色體區域分類為可能異常。在其他實施例中,可使用較高截止值將鄰近區段之z評分加和在一起。舉例而言,可對三個連續區段之z評分進行求和且可使用截止值5。此概念可延伸至三個以上連續區段。
量與異常臨限值之組合亦可視分析目的及生物體之任何先前知識(或其缺乏)而定。舉例而言,若針對癌症篩選正常健康群體,則通常將可能在區域之量(亦即,區域數目之高臨限值)與當區域鑑別為具有畸變時之異常臨限值兩方面使用高特異性。但在具有較高風險之患者(例如,申訴腫塊或家族史之患者、吸菸者、慢性人類乳頭狀瘤病毒(HPV)攜帶者、肝炎病毒攜帶者或其他病毒攜帶者)中,則臨限值可能較低以便具有較高敏感性(較少假陰性)。
在一個實施例中,若在偵測染色體畸變時使用1 Mb解析度及來源於腫瘤之DNA之6.3%較低偵測極限,則各1 Mb區段中之分子數目將需要為60,000。對於整個基因組,此需要將轉變為約18000萬(60,000個讀段/Mb×3,000 Mb)可比對讀段。
區段大小愈小,用於偵測較小染色體畸變之解析度將愈高。然而,由此將增加對所分析之分子總數之需求。較大區段大小將以解析度為代價減少分析所需之分子數目。因此,僅可偵測較大畸變。在一個實施例中,可使用較大區域,可將顯示畸變之區段再劃分,且分析此等亞區以獲得較佳解析度(例如,如上文所述)。若獲得欲偵測之缺失或擴增之大小(或欲偵測之最小濃度)之估計值,則可確定欲分析之分子數目。
B. 基於經亞硫酸氫鹽處理之血漿 DNA 之定序的 CNA在腫瘤組織中往往可觀測到全基因組低甲基化及CNA。此處,吾等證明可由血漿DNA之亞硫酸氫鹽定序同時獲得CNA及癌症相關之甲基化變化之資訊。因為可對同一資料集進行兩種類型分析,故實際上CNA分析無額外成本。其他實施例可使用不同程序來獲得甲基化資訊及基因資訊。在其他實施例中,可結合CNA分析對癌症相關之高甲基化進行類似分析。
圖37A展示對患者TBR36之腫瘤組織、未經亞硫酸氫鹽(BS)處理之血漿DNA及經亞硫酸氫鹽處理之血漿DNA (由內至外)的CNA分析。圖37A展示對患者TBR36之腫瘤組織、未經亞硫酸氫鹽(BS)處理之血漿DNA及經亞硫酸氫鹽處理之血漿DNA (由內至外)的CNA分析。最外環展示染色體表意文字。各點表示1 Mb區域之結果。綠色、紅色及灰色點分別表示具有複本數獲得、複本數損失及無複本數變化之區域。對於血漿分析,展示z評分。兩個同軸線之間存在差異5。對於腫瘤組織分析,展示複本數。兩個同軸線之間存在一個複本差異。圖38A展示對患者TBR34之腫瘤組織、未經亞硫酸氫鹽(BS)處理之血漿DNA及經亞硫酸氫鹽處理之血漿DNA (由內至外)的CNA分析。在經亞硫酸氫鹽及未經亞硫酸氫鹽處理之血漿樣品中所偵測到之CNA模式一致。
在腫瘤組織、未經亞硫酸氫鹽處理之血漿及經亞硫酸氫鹽處理之血漿中所偵測到之CNA模式一致。為進一步評估經亞硫酸氫鹽及未經亞硫酸氫鹽處理之血漿之結果之間的一致性,建構散點圖。圖37B為展示針對患者TBR36使用1 Mb區間之經亞硫酸氫鹽及未經亞硫酸氫鹽處理之血漿進行CNA偵測之z評分之間的關係的散點圖。觀測到兩種分析之z評分之間的正相關性(r=0.89,p<0.001,皮爾森相關性(Pearson correlation))。圖38B為展示針對患者TBR34使用1 Mb區間之經亞硫酸氫鹽處理及未經亞硫酸氫鹽處理之血漿進行CNA偵測之z評分之間的關係的散點圖。觀測到兩種分析之z評分之間的正相關性(r=0.81,p<0.001,皮爾森相關性)。
C. 癌症相關之 CNA 及甲基化變化的協同分析如上所述,CNA分析可涉及對各1 Mb區域中之序列讀段之數目進行計數,而甲基化密度分析可涉及偵測經甲基化之CpG二核苷酸處之胞嘧啶殘基之比例。此兩種分析之組合可獲得關於癌症偵測之協同資訊。舉例而言,甲基化分類及CNA分類可用於確定癌症程度之第三分類。
在一個實施例中,存在癌症相關之CNA或甲基化變化可用於指示可能存在癌症。在該實施例中,當測試個體之血漿中存在CNA或甲基化變化時,可增加偵測癌症之敏感性。在另一實施例中,存在兩種變化可用於指示存在癌症。在該實施例中,可改良測試特異性,因為一些非癌症個體中可能偵測到兩種變化類型中之任一者。因此,僅當該第一分類及該第二分類均指示癌症時,該第三分類可對癌症呈陽性。
徵募26個HCC患者及22個健康個體。自各個體收集血液樣品且在亞硫酸氫鹽處理後對血漿DNA進行定序。對於HCC患者,在診斷時收集血液樣品。舉例而言,存在大量CNA定義為有>5%區間顯示z評分<-3或>3。存在大量癌症相關之低甲基化定義為有>3%區間顯示z評分<-3。作為實例,區域(區間)之量可表示為原始區間計數、百分比及區間長度。
表3展示對經亞硫酸氫鹽處理之血漿DNA使用大規模平行定序在26個HCC患者之血漿中偵測到大量CNA及甲基化變化。
|
| CNA
|
|
| 存在
| 不存在
|
甲基化變化
| 存在
| 12
| 6
|
不存在
| 1
| 7
|
表 3癌症相關之甲基化變化及CNA之偵測率分別為69%及50%。若任一準則之存在用於指示可能存在癌症,則檢測率(亦即,診斷敏感性)改良至73%。
據顯示,兩個患者之結果顯示存在CNA (圖39A)或甲基化變化(圖39B)。圖39A為展示對HCC患者TBR240之經亞硫酸氫鹽處理之血漿之CNA (內環)及甲基化分析(外環)的Circos圖。對於CNA分析,綠色、紅色及灰色點分別表示具有染色體獲得、損失及無複本數變化之區域。對於甲基化分析,綠色、紅色及灰色點分別表示具有高甲基化、低甲基化及正常甲基化之區域。在此患者中,在血漿中偵測到癌症相關之CNA,而甲基化分析未顯示大量癌症相關之低甲基化。圖39B為展示對HCC患者TBR164之經亞硫酸氫鹽處理之血漿之CNA (內環)及甲基化分析(外環)的Circos圖。在此患者中,在血漿中偵測癌症相關之低甲基化。然而,無法觀測到大量CNA。顯示存在CNA及甲基化變化兩者之兩個患者之結果示於圖48A (TBR36)及49A (TBR34)中。
表4展示對經亞硫酸氫鹽處理之血漿DNA使用大規模平行定序在22個對照個體之血漿中偵測到大量CNA及甲基化變化。使用自展法(亦即留一法)來評估各對照個體。因此,當評估特定個體時,使用其他21個個體來計算對照組之平均值及SD。
|
| CNA
|
|
| 存在
| 不存在
|
甲基化變化
| 存在
| 1
| 2
|
不存在
| 1
| 18
|
表 4偵測大量甲基化變化及CNA之特異性分別為86%及91%。若需要存在兩種準則以指示可能存在癌症,則特異性改良至95%。
在一個實施例中,CNA及/或低甲基化陽性樣品被視為對癌症呈陽性,且當兩者均不可偵測時樣品被視為陰性。使用「或」邏輯提供較高敏感性。在另一實施例中,僅CNA及低甲基化陽性樣品被視為對癌症呈陽性,藉此提供較高特異性。在另一實施例中,可使用三級分類。將個體分類為i. 均正常;ii. 一項異常;iii. 均異常。
不同後續策略可用於此三個分類。舉例而言,可對(iii)之個體進行最密集之後續方案,例如涉及整體成像;可對(ii)之個體進行較不密集之後續方案,例如在若干週之相對較短時間間隔後重複血漿DNA定序;且可對(i)之個體進行最不密集之後續方案,諸如在許多年後再測試。在其他實施例中,甲基化及CNA量測可與其他臨床參數(例如成像結果或血清生物化學)聯合用於進一步改進該分類。
D. 出於治癒性目的之治療後血漿 DNA 分析之預測值血漿中存在癌症相關之CNA及/或甲基化變化將指示癌症患者之循環中存在來源於腫瘤之DNA。將預期在治療(例如,手術)後減少或清除此等癌症相關之變化。另一方面,治療後血漿中之此等變化持續存在可能指示所有腫瘤細胞自體內不完全移除,且可為疾病復發之適用預測物。
在出於治癒性目的手術切除腫瘤後一週,自兩個HCC患者TBR34及TBR36收集血液樣品。對經亞硫酸氫鹽處理之治療後血漿樣品進行CNA及甲基化分析。
圖40A展示對在HCC患者TBR36手術切除腫瘤之前(內環)及之後(外環)收集之經亞硫酸氫鹽處理之血漿DNA之CNA分析。各點表示1 Mb區域之結果。綠色、紅色及灰色點分別表示具有複本數獲得、複本數損失及無複本數變化之區域。在治療前觀測到之CNA中的大部分在腫瘤切除術消失。顯示z評分<-3或>3之區間的比例自25%降至6.6%。
圖40B展示對HCC患者TBR36手術切除腫瘤之前(內環)及之後(外環)收集之經亞硫酸氫鹽處理之血漿DNA之甲基化分析。綠色、紅色及灰色點分別表示具有高甲基化、低甲基化及正常甲基化之區域。顯示顯著低甲基化之區間之比例自90%顯著降至7.9%,且低甲基化程度亦顯示顯著降低。此患者在腫瘤切除術之後22個月具有完全臨床減輕。
圖41A展示對HCC患者TBR34手術切除腫瘤之前(內環)及之後(外環)收集之經亞硫酸氫鹽處理之血漿DNA之CNA分析。雖然在手術切除腫瘤之後顯示CNA之區間之數目及受影響區間中之CNA之量值均有所減少,但在手術後血漿樣品中可觀測到殘餘CNA。紅色圓突出顯示殘餘CNA最明顯之區域。顯示z評分<-3或>3之區間的比例自57%降至12%。
圖41B.展示對HCC患者TBR34手術切除腫瘤之前(內環)及之後(外環)收集之經亞硫酸氫鹽處理之血漿DNA之甲基化分析。腫瘤切除術後低甲基化量值降低,其中低甲基化區間之平均z評分自-7.9降至
-4.0。然而,z評分<-3之區間的比例顯示相對變化,自41%增至85%。此觀測結果可能指示治療後存在殘餘癌細胞。臨床上,在腫瘤切除術後3個月在其餘未切除肝臟中偵測到多個腫瘤節結病灶。在手術後4個月觀測到肺轉移。患者在手術後8個月死於局部復發及轉移性疾病。
此兩個患者(TBR34及TBR36)中之觀測結果表明存在CNA及低甲基化之殘餘癌症相關變化可用於在出於治癒目的之治療後監測及預測癌症患者。資料亦顯示所偵測之血漿CNA量之變化程度可與評定血漿DNA低甲基化程度之變化程度一起協同使用以預測及監測治療效力。
因此,在一些實施例中,在治療之前獲得一個生物樣品且在治療(例如手術)之後獲得第二生物樣品。針對第一樣品獲得第一值,諸如區域之z評分(例如,區域甲基化程度及CNA之標準化值)及顯示低甲基化及CNA (例如擴增或缺失)之區域之數目。可針對第二樣品獲得第二值。在另一實施例中,可在治療後獲得第三或甚至其他樣品。顯示低甲基化及CNA (例如擴增或缺失)之區域之數目可獲自第三或甚至其他樣品。
如關於圖40A及41A所描述,可將第一樣品中顯示低甲基化之區域之第一數目與第二樣品中顯示低甲基化之區域之第二量相比較。如關於圖40B及41B所描述,可將第一樣品中顯示低甲基化之區域之第一量與第二樣品中顯示低甲基化之區域之第二量相比較。比較第一量與第二量及第一數目與第二數目可用於確定治療之預後。在各種實施例中,僅一個比較對預後可為決定性的,或可使用兩個比較。在獲得第三或甚至其他樣品之實施例中,此等樣品中之一或多者可獨立地或與第二樣品聯合用於確定治療之預後。
在一個實施例中,當第一量與第二量之間的第一差異低於第一差異臨限值時預測預後較糟。在另一實施例中,當第一數目與第二數目之間的第二差異低於第二差異臨限值時預測預後較糟。臨限值可相同或不同。在一個實施例中,第一差異臨限值及第二差異臨限值為零。因此,對於以上實例,甲基化值之間的差異將指示患者TBR34之預後較糟。
若第一差異及/或第二差異高於同一臨限值或各別臨限值,則預後可較佳。預後分類可視差異高於或低於臨限值的程度而定。可使用多個臨限值來提供各種分類。較大差異可預測較佳結果,且較小差異(及甚至負值)可預測較糟結果。
在一些實施例中,亦注意獲取各種樣品之時間點。藉由該等時間參數,可確定量之動力學或變化率。在一個實施例中,血漿中腫瘤相關之低甲基化快速降低及/或血漿中腫瘤相關之CNA快速降低將預示良好預後。反之,血漿中腫瘤相關之低甲基化靜止或快速增加及/或腫瘤相關之CNA靜止或快速增加將預示不良預後。甲基化及CNA量測可與其他臨床參數(例如成像結果或血清生物化學或蛋白質標記物)聯合用於預測臨床結果。
實施例可使用除血漿以外的其他樣品。舉例而言,可由癌症患者血液中循環之腫瘤細胞、細胞游離DNA或尿液、大便、唾液、痰液、膽液、胰液、子宮頸拭棉、生殖道(例如陰道)分泌物、腹水、胸膜液、精液、汗液及淚液中之腫瘤細胞量測腫瘤相關之甲基化畸變(例如低甲基化)及/或腫瘤相關之CNA。
在各種實施例中,可由患有乳癌、肺癌、結腸直腸癌、胰臟癌、卵巢癌、鼻咽癌、子宮頸癌、黑色素瘤、腦腫瘤等之患者的血液或血漿偵測腫瘤相關之甲基化畸變(例如低甲基化)及/或腫瘤相關之CNA。實際上,因為甲基化及基因變化(諸如CNA)在癌症中為普遍現象,故所描述之方法可用於所有癌症類型。甲基化及CNA量測可與其他臨床參數(例如成像結果)聯合用於預測臨床結果。實施例亦可用於篩選並監測患有瘤前期病變(例如腺瘤)之患者。
因此,在一個實施例中,在治療前獲取生物樣品,且在治療後重複CNA及甲基化量測。量測可產生被確定為展現缺失或擴增之區域的隨後第一量,且可產生被確定為區域甲基化程度超過各別區域截止值之區域的隨後第二量。可比較該第一量與該隨後第一量,且可比較該第二量與該隨後第二量,以確定該生物體之預後。
用於確定生物體之預後的比較可包括確定第一量與隨後第一量之間的第一差異,且可比較該第一差異與一或多個第一差異臨限值以確定預後。用於確定生物體之預後的比較亦可包括確定第二量與隨後第二量之間的第二差異,且可比較該第二差異與一或多個第二差異臨限值。該等臨限值可為零或另一數值。
與當第一差異高於第一差異臨限值時相比,當第一差異低於第一差異臨限值時可預測預後較糟。與當第二差異高於第二差異臨限值時相比,當第二差異低於第二差異臨限值時可預測預後較糟。治療之實例包括免疫療法、手術、放射線療法、化學療法、基於抗體之療法、基因療法、表觀遺傳療法或靶向療法。
E. 效能現針對CNA及甲基化分析描述不同數目之序列讀段及區間大小之診斷效能。
1. 序列讀段之數目根據一個實施例,吾等分析32個健康對照個體、26個罹患肝細胞癌之患者及20個罹患其他類型癌症(包括鼻咽癌、乳癌、肺癌、神經內分泌癌及平滑肌肉瘤)之患者的血漿DNA。隨機選擇32個健康個體中的二十二個作為參考組。此22個參考個體之平均值及標準差(SD)用於測定甲基化密度及基因組呈現之正常範圍。使用Illumina配對末端定序套組,使用自各個體之血漿樣品提取之DNA進行定序文庫建構。隨後對定序文庫進行亞硫酸氫鹽處理,由此將未甲基化之胞嘧啶殘基轉化成尿嘧啶。使用Illumina HiSeq2000定序器之一個泳道對各血漿樣品之經亞硫酸氫鹽轉化之定序文庫進行定序。
在鹼基檢出之後,移除片段末端上之接附序列及低品質鹼基(亦即品質評分<5)。隨後藉由稱為Methy-Pipe之甲基化資料分析渠道處理呈FASTQ格式之經修切讀段(P Jiang等人2010, IEEE生物資訊學與生物醫學國際會議, doi:10.1109/BIBMW.2010.5703866)。為比對經亞硫酸氫鹽轉化之定序讀段,吾等首先使用參考人類基因組(NCBI版本36/hg19)將沃森股及克立克股上之所有胞嘧啶殘基獨立地電子雜交轉化成胸嘧啶。隨後,吾等將所有經處理讀段中之各胞嘧啶電子雜交轉化成胸嘧啶,且保存各經轉化殘基之位置資訊。使用SOAP2來比對經轉化之讀段與兩個轉化前參考人類基因組(R Li等人2009 Bioinformatics 25:1966-1967),其中各比對讀段最多允許兩個錯配。僅可定位於獨特基因組位置之讀段用於下游分析。含糊讀段定位於沃森股及克立克股兩者,且移除複製之(純系)讀段。CpG二核苷酸情形下之胞嘧啶殘基用於下游甲基化分析。在比對後,基於電子雜交轉化期間保存之位置資訊恢復最初存在於定序讀段上之胞嘧啶。將CpG二核苷酸中之經恢復胞嘧啶評分為甲基化。將CpG二核苷酸中之胸嘧啶評分為未甲基化。
對於甲基化分析,將基因組分成相等大小之區間。所測試區間之大小包括50 kb、100 kb、200 kb及1 Mb。各區間之甲基化密度計算為CpG二核苷酸情形下之甲基化胞嘧啶之數目除以CpG位置處之胞嘧啶之總數。在其他實施例中,區間大小在基因組上可為不相等的。在一個實施例中,在多個個體之間比較該等具有不相等大小之區間中之各區間。
為確定測試病例之血漿甲基化密度是否正常,將甲基化密度與參考組之結果相比較。隨機選擇32個健康個體中之二十二個作為參考組用於計算甲基化z評分(
Z 甲基化 )。
其中
為測試病例之特定1 Mb區間之甲基化密度;
為參考組之對應區間之平均甲基化密度;且
為參考組之對應區間之甲基化密度之SD。
對於CNA分析,確定定位於各1 Mb區間之定序讀段之數目(KCA Chan等人2013 Clin Chem 59:211-24)。在使用如先前所述(EZ Chen等人2011 PLoS One 6: e21791)之局部加權散點圖平滑回歸(Locally Weighted Scatter Plot Smoothing regression)修正GC偏移後測定各區間之定序讀段密度。對於血漿分析,將測試病例之定序讀段密度與參考組相比較以計算CNA z評分(
Z
CNA ):
其中
為測試病例之特定1 Mb區間之定序讀段密度;
為參考組之對應區間之平均定序讀段密度;且
為參考組之對應區間之定序讀段密度之SD。若區間之
Z
CNA <-3或>3,則該區間定義為展現CNA。
每個病例平均獲得9300萬個比對讀段(範圍:3900萬至14200萬)。為評估定序讀段之數目減少對診斷效能之效應,吾等自各病例隨機選擇1000萬個比對讀段。對於定序讀段有所減少之資料集,使用同一參考個體集來確定各1 Mb區間之參考範圍。對於各病例,測定顯示顯著低甲基化,亦即
Z 甲基化 <-3之區間的百分比及具有CNA,亦即
Z
CNA <-3或>3之區間的百分比。使用接受者工作特徵(ROC)曲線來說明具有來自1個泳道之所有定序讀段及1000萬個讀段/病例之資料集之全基因組低甲基化及CNA分析之診斷效能。在ROC分析中,所有32個健康個體均用於分析。
圖42展示利用不同數目之定序讀段進行全基因組低甲基化分析之診斷效能的圖式。對於低甲基化分析,分析來自一個泳道之所有定序讀段及1000萬個讀段/病例之兩個資料集之間的ROC曲線之曲線下面積無顯著不同(P=0.761)。對於CNA分析,診斷效能劣化,其中當定序讀段之數目自使用一個泳道之資料減至1000萬時曲線下面積顯著減小(P<0.001)。
2. 使用不同區間大小之效應除將基因組分成1 Mb區間以外,吾等亦研究是否可使用較小區間大小。理論上,使用較小區間可能降低區間內之甲基化密度之變化性。此係因為不同基因組區域之間的甲基化密度可廣泛變化。當區間較大時,包括具有不同甲基化密度之區域的概率將增加,且因此,將導致區間之甲基化密度之變化性總體增加。
雖然使用較小區間大小可能降低與區域間差異相關之甲基化密度之變化性,但另一方面由此將減少定位於特定區間之定序讀段之數目。定位於個別區間之讀段減少將增加由於取樣變化所致之變化性。對於特定診斷應用之需求,例如每個樣品之定序讀段總數及所使用之DNA定序器類型,可產生甲基化密度之最低總體變化性之最佳區間大小可以實驗方式測定。
圖43為展示基於全基因組低甲基化分析在不同區間大小(50 kb、100 kb、200 kb及1 Mb)下偵測癌症之ROC曲線的圖式。所示P值係針對在1 Mb區間大小下進行的曲線下面積比較。當區間大小自1 Mb降至200 kb時,可見改良趨勢。
F. 累積機率評分甲基化及CNA之區域之量可為各種值。以上實例描述許多區域超過截止值或該等顯示顯著低甲基化或CNA之區域之百分比作為對樣品是否與癌症相關進行分類的參數。該等方法不考慮個別區間之畸變量值。舉例而言,
Z 甲基化 為-3.5之區間將與
Z 甲基化 為-30之區間相同,因為兩者均將歸類為具有顯著低甲基化。然而,血漿中之低甲基化變化程度,亦即
Z 甲基化 值之量值,受樣品中與癌症相關之DNA之量影響,且因此,可補充顯示畸變之區間之百分比之資訊以體現腫瘤負荷。血漿樣品中之腫瘤DNA之部分濃度較高將引起較低甲基化密度且此結果將轉變為較低
Z 甲基化 值。
1. 作為診斷參數之累積機率評分為使用來自畸變量值之資訊,吾等開發出一種稱為累積機率(CP)評分之方法。基於正態分佈概率函數,將各
Z 甲基化 值轉變為偶然具有該觀測結果之機率。
對於
Z 甲基化 <-3之區間(i),CP評分計算為:
其中Prob
i為根據具有3個自由度之史都登氏
t分佈區間(i)之
Z 甲基化 的機率,且log為自然對數函數。在另一實施例中,可使用以10 (或其他數字)為基數之對數。在其他實施例中,可應用其他分佈,例如但不限於正態分佈及γ分佈,將z評分轉換成CP。
較大CP評分指示正態群體中偶然具有該偏離甲基化密度之機率較低。因此,高CP評分將指示樣品中具有異常低甲基化之DNA,例如存在癌症相關之DNA的概率較高。
與顯示畸變之區間的百分比相比,CP評分量測具有較高動態範圍。雖然不同患者之間的腫瘤負荷可廣泛變化,但較大CP值範圍將適用於體現具有相對較高及相對較低腫瘤負荷之患者的腫瘤負荷。另外,使用CP評分可能對偵測血漿中之腫瘤相關之DNA之濃度變化更敏感。此有利於監測治療反應及預測。因此,治療期間CP評分降低指示對治療之良好反應。治療期間缺乏CP評分降低或甚至增加將指示不良反應或缺乏反應。對於預測,較高CP評分指示較高腫瘤負荷且表明不良預後(例如死亡或腫瘤進展之概率較高)。
圖44A展示具有畸變之區間之累積機率(CP)及百分比之診斷效能。該兩種類型診斷演算法之曲線下面積之間無顯著差異(P=0.791)。
圖44B展示整體低甲基化、CpG島高甲基化及CNA之血漿分析之診斷效能。在每個樣品一個定序泳道(對於低甲基化分析為200 kb區間大小,對於CNA為1 Mb區間大小,且CpG島係根據加利福尼亞州大學聖克魯斯分校(The University of California, Santa Cruz,UCSC)主持之資料庫定義)的情況下,所有三種類型分析之曲線下面積均大於0.90。
在後續分析中,對於三種類型分析中之每一種,將對照個體中之最高CP評分用作截止值。此等截止值之選擇得到100%診斷特異性。一般低甲基化、CpG島高甲基化及CNA分析之診斷敏感性分別為78%、89%及52%。在46個癌症患者中的43個中,偵測三種類型畸變中之至少一種,因此產生93.4%敏感性及100%特異性。吾等之結果指示該三種類型分析可協同用於偵測癌症。
圖45展示肝細胞癌患者中之整體低甲基化、CpG島高甲基化及CNA之結果的表。該三種類型分析之CP評分截止值分別為960、2.9及211。正CP評分結果呈粗體且加下劃線。
圖46展示罹患除肝細胞癌以外之癌症的患者中之整體低甲基化、CpG島高甲基化及CNA之結果的表。該三種類型分析之CP評分截止值分別為960、2.9及211。正CP評分結果呈粗體且加下劃線。
2. 應用 CP 評分進行癌症監測在治療前後自HCC患者TBR34收集系統樣品。分析樣品之整體低甲基化。
圖47展示病例TBR34之血漿甲基化之系列分析。最內環展示白血球層(黑色)及腫瘤組織(紫色)之甲基化密度。對於血漿樣品,展示各1 Mb區間之
Z 甲基化 。兩條線之間的差異表示
Z 甲基化 差異為5。紅色及灰色點表示低甲基化及甲基化密度與參考組相比無變化之區間。自第2個內環向外分別為治療前、腫瘤切除術後3天及2個月時獲取之血漿樣品。治療前,在血漿中可觀測到高度低甲基化且超過18.5%區間具有<-10之
Z 甲基化 。在腫瘤切除術後3天時,可觀測到血漿中之低甲基化程度降低,其中無區間具有<-10之
Z 甲基化 。
病例編號 | 時間點 | 甲基化分析 |
顯示顯著低甲基化之區間的百分比
| 累積機率(CP)評分
| 累積z評分
|
TBR34
| OT之前
| 62.6%
| 37,573
| 14,285
|
OT之後3天
| 80.5%
| 17,777
| 9,195
|
OT之後2個月
| 40.1%
| 15,087
| 5,201
|
表 5表5顯示雖然手術切除腫瘤後3天時低甲基化變化之量值降低,但展現畸變之區間的百分比顯示反常增加。另一方面,CP評分更準確地顯示血漿中之低甲基化程度之降低,且可進一步體現腫瘤負荷之變化。
在OT後2個月時,仍存在顯著百分比的顯示低甲基化變化之區間。CP評分亦在約15,000處保持靜止。隨後將此患者診斷為在手術後3個月時在仍未切除之肝臟中具有多病灶腫瘤沈積(先前手術時未知)且指示在手術後4個月時具有多個肺轉移。該患者在手術後8個月時死於轉移性疾病。此等結果表明對於體現腫瘤負荷,CP評分可能比具有畸變之區間之百分比更有效。
總體而言,CP可適用於需要量測血漿中之腫瘤DNA之量的應用。該等應用之實例包括:預測及監測癌症患者(例如觀測對治療之反應,或觀測腫瘤進展)。
累加z評分為z評分之直接和,亦即,未轉化成機率。在此實例中,累加z評分與CP評分顯示相同特性。在其他情況中,對於監測殘餘疾病而言,由於CP評分之動態範圍較大,故CP可比累加z評分更敏感。
X. CNA 對甲基化之影響使用CNA及甲基化確定癌症程度之各別分類描述於上文,其中將該等分類組合以提供第三分類。除該組合以外,CNA可用於改變甲基化分析之截止值及藉由比較具有不同CNA特徵之區域群組的甲基化程度來鑑別假陽性。舉例而言,可將過度豐度之甲基化程度(例如,Z
CNA>3)與正常豐度之甲基化程度(例如,-3<Z
CNA<3)相比較。首先,描述CNA對甲基化程度之影響。
A. 改變具有染色體得失之區域處的甲基化密度由於腫瘤組織一般顯示總體低甲基化,故癌症患者之血漿中存在來源於腫瘤之DNA將引起甲基化密度當與非癌症個體比較時有所降低。癌症患者血漿中之低甲基化程度理論上與血漿樣品中來源於腫瘤之DNA之部分濃度成比例。
對於腫瘤組織中顯示染色體獲得之區域,將有額外劑量之腫瘤DNA自經擴增之DNA區段釋放至血漿中。腫瘤DNA對血漿之此種增加貢獻理論上將引起受影響區域之血漿DNA之低甲基化程度較高。額外因素為將預期顯示擴增之基因組區域可賦予腫瘤細胞以生長優勢,且因此將預期得以表現。該等區域一般經低甲基化。
相比之下,對於腫瘤組織中顯示染色體損失的區域,腫瘤DNA對血漿之貢獻減少將引起與無複本數變化之區域相比較低程度之低甲基化。另一因素為腫瘤細胞中缺失之基因組區域可含有腫瘤抑制基因且可有利於腫瘤細胞使該等區域沉默。因此,預期該等區域經高甲基化之概率較高。
在此,吾等使用兩個HCC患者(TBR34及TBR36)之結果來說明此效應。圖48A (TBR36)及49A (TBR34)具有突出顯示具有染色體得失之區域及相應甲基化分析之圓。圖48B及49B分別展示患者TBR36及TBR34之損失、正常及獲得之甲基化z評分的圖。
圖48A展示顯示HCC患者TBR36之經亞硫酸氫鹽處理之血漿DNA中之CNA (內環)及甲基化變化(外環)的Circos圖。紅色圓突出顯示具有染色體得失之區域。展示染色體獲得之區域之低甲基化程度大於無複本數變化之區域。展示染色體損失之區域之低甲基化程度小於無複本數變化之區域。圖48B為HCC患者TBR36之具有染色體得失之區域及無複本數變化之區域的甲基化z評分的圖。與無複本變化之區域相比較,具有染色體獲得之區域具有負值較大之z評分(低甲基化程度較大),且具有染色體損失之區域具有負值較小之z評分(低甲基化程度較小)。
圖49A展示顯示HCC患者TBR34之經亞硫酸氫鹽處理之血漿DNA中之CNA (內環)及甲基化變化(外環)的Circos圖。圖49B為HCC患者TBR34之具有染色體得失之區域及無複本數變化之區域的甲基化z評分的圖。患者TBR36中具有染色體得失之區域之間的甲基化密度差異大於患者TBR34中,因為前一患者中來源於腫瘤之DNA之部分濃度較高。
在此實例中,用於測定CNA之區域與用於測定甲基化之區域相同。在一個實施例中,各別區域截止值視各別區域是否展現缺失或擴增而定。在一個實施例中,當各別區域展現擴增時,與當未展現擴增時相比,各別區域截止值(例如,用於測定低甲基化之z評分截止值)具有較大量值(例如,該量值可大於3,且可使用小於-3之截止值)。因此,為測試低甲基化,當各別區域展現擴增時,與當未展現擴增時相比,各別區域截止值可具有較大負值。預期該實施例可改良用於偵測癌症之測試的特異性。
在另一實施例中,當各別區域展現缺失時,與當未展現缺失時相比,各別區域截止值具有較小量值(例如小於3)。因此,為測試低甲基化,當各別區域展現缺失時,與當未展現缺失時相比,各別區域截止值可具有較小負值。預期該實施例可改良用於偵測癌症之測試的敏感性。以上實施例中之截止值之調節可視特定診斷情形之所要敏感性及特異性而變化。在其他實施例中,甲基化及CNA量測可與其他臨床參數(例如成像結果或血清生物化學)聯合用於預測癌症。
B. 使用 CNA 來選擇區域如上所述,吾等已展示腫瘤組織中具有複本數畸變之區域中的血漿甲基化密度將改變。在腫瘤組織中具有複本數獲得之區域處,低甲基化腫瘤DNA對血漿之貢獻增加將引起與無複本數畸變之區域相比血漿DNA之低甲基化程度較大。反之,在腫瘤組織中具有複本數損失之區域處,來源於癌症之低甲基化DNA對血漿之貢獻減少將引起血漿DNA之低甲基化程度較小。血漿DNA之甲基化密度與相對呈現之間的此種關係可能用於區分與存在癌症相關之DNA相關之低甲基化結果與血漿DNA低甲基化之其他非癌症病因(例如SLE)。
為說明此方法,吾等分析兩個肝細胞癌(HCC)患者及兩個無癌症SLE患者之血漿樣品。此兩個SLE患者(SLE04及SLE10)顯示血漿中明顯存在低甲基化及CNA。對於患者SLE04,84%區間顯示低甲基化且11.2%區間顯示CNA。對於患者SLE10,10.3%區間顯示低甲基化且5.7%區間顯示CNA。
圖50A及50B展示SLE患者SLE04及SLE10之血漿低甲基化及CNA分析之結果。外部圓展示1 Mb解析度下之甲基化z評分(Z
甲基化)。甲基化Z
甲基化<-3之區間呈紅色,且Z
甲基化>-3之區間呈灰色。內部圓展示CNA z評分(Z
CNA)。綠色、紅色及灰色點分別表示Z
CNA>3、<3及介於
-3至3之間的區間。在此兩個SLE患者中,在血漿中觀測到低甲基化及CNA變化。
為確定甲基化及CNA之變化是否與血漿中存在來源於癌症之DNA一致,吾等比較Z
CNA>3、<-3及介於-3至3之間的區域的Z
甲基化。對於由血漿中來源於癌症之DNA所貢獻之甲基化變化及CNA,將預期Z
CNA<-3之區域具有較小甲基化程度及負值較小之Z
甲基化。相比之下,將預期Z
CNA>3之區域具有較大低甲基化程度及負值較大之Z
甲基化。出於說明目的,吾等應用單側秩和檢驗來比較具有CNA之區域(亦即Z
CNA<-3或>3的區域)與無CNA之區域(亦即Z
CNA介於-3與3之間的區域)的Z
甲基化。在其他實施例中,可使用其他統計檢驗,例如但不限於史都登氏t檢驗、方差分析(ANOVA)檢驗及克魯斯凱-沃利斯檢驗(Kruskal-Wallis test)。
圖51A及51B展示對兩個HCC患者(TBR34及TBR36)之血漿之有CNA區域及無CNA區域的Z
甲基化分析。Z
CNA<-3及>3之區域分別表示血漿中呈現不足及過度呈現之區域。在TBR34及TBR36兩者中,與血漿中正常呈現之區域(亦即,Z
CNA介於-3與3之間的區域)相比,血漿中呈現不足之區域(亦即Z
CNA<-3之區域)具有顯著較高Z
甲基化(P值<10
-5,單側秩和檢驗)。正常呈現對應於預期整倍體基因組。對於血漿中過度呈現之區域(亦即Z
CNA>3之區域),與血漿中正常呈現之區域相比,其具有顯著較低Z
甲基化(P值<10
-5,單側秩和檢驗)。所有此等變化與血漿樣品中存在低甲基化腫瘤DNA一致。
圖51C及51D展示對兩個SLE患者(SLE04及SLE10)之血漿之有CNA區域及無CNA區域的Z
甲基化分析。Z
CNA<-3及>3之區域分別表示血漿中呈現不足及過度呈現之區域。對於SLE04,與血漿中正常呈現之區域(亦即Z
CNA介於-3與3之間的區域)相比,血漿中呈現不足之區域(亦即Z
CNA<-3之區域)不具有顯著較高之Z
甲基化(P值=0.99,單側秩和檢驗),且與血漿中正常呈現之區域相比,血漿中過度呈現之區域(亦即Z
CNA>3之區域)不具有顯著較低之Z
甲基化(P值=0.68,單側秩和檢驗)。此等結果由於血漿中存在來源於腫瘤之低甲基化DNA而不同於預期變化。同樣,對於SLE10,與Z
CNA介於-3與3之間的區域相比,Z
CNA<-3之區域不具有顯著較高之Z
甲基化(P值=0.99,單側秩和檢驗)。
SLE患者中之Z
甲基化與Z
CNA之間不具有典型癌症相關模式之原因在於在SLE患者中,CNA不存在於亦展現低甲基化之特定細胞類型中。作為替代,觀測到明顯存在CNA及低甲基化係由於SLE患者中之循環DNA之大小分佈有所改變。大小分佈改變可能改變不同基因組區域之定序讀段密度,從而引起明顯CNA,因為參考來源於健康個體。如先前部分中所述,循環DNA片段之大小與其甲基化密度之間存在相關性。因此,大小分佈改變亦可引起異常甲基化。
雖然Z
CNA>3之區域之甲基化程度稍低於Z
CNA介於-3與3之間的區域,但該比較之p值遠高於在兩個癌症患者中所觀測到的。在一個實施例中,p值可用作用以確定測試病例患有癌症之機率的參數。在另一實施例中,具有正常及異常呈現之區域之間的Z
甲基化差異可用作用於指示存在癌症之機率的參數。在一個實施例中,可使用一組癌症患者來確定Z
甲基化與Z
CNA之間的相關性並且確定不同參數之臨限值,以便指示該等變化與測試血漿樣品中存在來源於癌症之低甲基化DNA一致。
因此,在一個實施例中,可進行CNA分析以確定均展現以下中之一者的區域的第一集:缺失、擴增或正常呈現。舉例而言,第一區域集可均展現缺失,或均展現擴增,或均展現正常呈現(例如具有正常第一量之區域,諸如正常Z
甲基化)。可測定此第一區域集之甲基化程度(例如,方法2800之第一甲基化程度可對應於第一區域集)。
CNA分析可測定第二區域集,該等區域均展現以下中之另一者:缺失、擴增或正常呈現。第二區域集與第一集相比將以不同方式展現。舉例而言,若第一區域集正常,則第二區域集可展現缺失或擴增。可基於該第二區域集中之位點處之甲基化DNA分子之各別數目來計算第二甲基化程度。
隨後可計算第一甲基化程度與第二甲基化之間的參數。舉例而言,可計算差異或比率並且與截止值比較。該差異或比率亦可經歷機率分佈(例如,作為統計檢驗之一部分)以確定獲得該值之機率,且可將此機率與截止值比較以基於甲基化程度確定癌症程度。可選擇該截止值以區分患有癌症之樣品與未患癌症之樣品(例如SLE)。
在一個實施例中,可測定第一區域集或區域混合物(亦即,顯示擴增、缺失及正常之區域的混合物)之甲基化程度。隨後可將此甲基化程度與第一截止值比較作為第一分析階段之一部分。若超過截止值,藉此指示癌症可能性,則可進行以上分析以確定該指示是否為假陽性。癌症程度之最終分類因此可包括比較兩種甲基化程度之參數與第二截止值。
第一甲基化程度可為針對第一區域集之各區域計算的區域甲基化程度之統計值(例如平均值或中值)。第二甲基化程度亦可為針對第二區域集之各區域計算的區域甲基化程度的統計值。作為實例,可使用單側秩和檢驗、史都登氏t檢驗、方差分析(ANOVA)檢驗或克魯斯凱-沃利斯檢驗來確定該等統計值。
XI. 癌症類型分類除確定生物體是否患有癌症以外,實施例可鑑別與樣品相關之癌症類型。此鑑別癌症類型可使用整體低甲基化、CpG島高甲基化及/或CNA之模式。該等模式可涉及使用所量測之區域甲基化程度、區域之各別CNA值及CpG島之甲基化程度對具有已知診斷之患者進行叢集分析。以下結果顯示具有類似癌症類型之生物體具有類似區域及CpG島值,以及非癌症患者具有類似值。在叢集分析中,區域或島之各值可為叢集分析過程中之獨立維度。
已知相同癌症類型將共有相似基因及表觀遺傳變化(E Gebhart等人2004 Cytogenet Genome Res; 104: 352-358;PA Jones等人2007 Cell; 128: 683-692)。以下,吾等描述血漿中所偵測之CNA及甲基化變化模式如何適用於推斷癌症之來源或類型。使用例如階層式叢集分析對來自HCC患者、非HCC患者及健康對照個體之血漿DNA樣品進行分類。該分析係使用例如R指令碼套件中之heatmap.2功能(cran.r-project.org/web/
packages/gplots/gplots.pdf)進行。
為說明此方法之潛力,吾等使用兩組準則(A組及B組)作為實例來鑑別適用於對血漿樣品進行分類之特徵(參見表6)。在其他實施例中,可使用其他準則來鑑別該等特徵。所使用之特徵包括1 Mb解析度下之整體CNA、1 Mb解析度下之整體甲基化密度及CpG島甲基化。
| 1 Mb解析度下之整體甲基化
|
| A組準則
| B組準則
|
準則
| >20個癌症病例具有>3或<-3之z評分
| >20個癌症病例具有>2.5或<-2.5之z評分
|
所鑑別之特徵數目
| 584
| 1,911
|
| CNA特徵
|
| A組準則
| B組準則
|
準則
| >10個癌症病例具有>3或<-3之z評分
| >10個癌症病例具有>2.5或<-2.5之z評分
|
所鑑別之特徵數目
| 355
| 759
|
| CpG島甲基化
|
| A組準則
| B組準則
|
準則
| >5個癌症病例在特定CpG島處之甲基化密度與參考之平均值相差2%
| >1個癌症病例在特定CpG島處之甲基化密度與參考之平均值相差2%
|
所鑑別之特徵數目
| 110
| 191
|
表 6在前兩個實例中,吾等使用所有CNA、1 Mb解析度下之整體甲基化及CpG島甲基化特徵進行分類。在其他實施例中,可使用其他準則,例如但不限於量測參考組之血漿中之特徵的精確度。
圖52A展示使用所有1,130個A組特徵(包括355個CNA、1 Mb解析度下之584個整體甲基化特徵及110個CpG島之甲基化狀態)對來自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品進行階層式叢集分析。上側色彩條表示樣品群組:綠色、藍色及紅色分別表示健康個體、HCC及非HCC癌症患者。一般而言,三組個體趨向於叢集在一起。縱軸表示分類特徵。將不同個體中具有類似模式之特徵叢集在一起。此等結果表明CpG島甲基化變化、1 Mb解析度下之全基因組甲基化變化及血漿中之CNA之模式可能用於確定具有未知原發性之患者中的癌症來源。
圖52B展示使用所有2,780個B組特徵(包括759個CNA、1 Mb解析度下之1,911個整體甲基化及191個CpG島之甲基化狀態)對來自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品進行階層式叢集分析。上側色彩條表示樣品群組:綠色、藍色及紅色分別表示健康個體、HCC及非HCC癌症患者。一般而言,三組個體趨向於叢集在一起。縱軸表示分類特徵。將不同個體中具有類似模式之特徵叢集在一起。此等結果表明不同組CpG島甲基化變化、1 Mb解析度下之全基因組甲基化變化及血漿中之CNA之模式可用於確定具有未知原發性之患者中的癌症來源。分類特徵之選擇可針對特定應用加以調節。另外,可根據個體對不同癌症類型之先前機率對癌症類型預測加權。舉例而言,患有慢性病毒性肝炎之患者易於發生肝細胞癌且長期吸菸者易於發生肺癌。因此,可使用例如但不限於邏輯、多重或叢集回歸來計算癌症類型之加權機率。
在其他實施例中,單一類型特徵可用於分類分析。舉例而言,在以下實例中,僅1 Mb解析度下之整體甲基化、CpG島高甲基化或1 Mb解析度下之CNA用於階層式叢集分析。當使用不同特徵時,差異力可能不同。進一步改進分類特徵可能改良分類準確性。
圖53A展示使用A組CpG島甲基化特徵對得自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品之階層式叢集分析。一般而言,將癌症患者叢集在一起且非癌症個體處於另一叢集中。然而,與使用所有三種類型特徵相比較,HCC及非HCC患者相隔較小。
圖53B展示使用A組1 Mb解析度下之整體甲基化密度作為分類特徵對得自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品之階層式叢集分析。觀察到HCC及非HCC患者優先叢集。
圖54A展示使用A組1 Mb解析度下之整體CNA作為分類特徵對得自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品之階層式叢集分析。可見HCC及非HCC患者優先叢集。
圖54B展示使用B組CpG島甲基化密度作為分類特徵對得自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品之階層式叢集分析。可觀察到HCC及非HCC癌症患者優先叢集。
圖55A展示使用B組1 Mb解析度下之整體甲基化密度作為分類特徵對得自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品之階層式叢集分析。可觀察到HCC及非HCC癌症患者優先叢集。
圖55B展示使用B組1 Mb解析度下之整體CNA作為分類特徵對得自HCC患者、非HCC癌症患者及健康對照個體之血漿樣品之階層式叢集分析。可觀察到HCC及非HCC癌症患者優先叢集。
血漿樣品之此等階層式叢集結果表明不同特徵之組合可能用於鑑別原發性癌症類型。進一步改進選擇準則可能進一步改良分類準確性。
因此,在一個實施例中,當甲基化分類指示生物體存在癌症時,可藉由比較甲基化程度(例如,來自方法2800之第一甲基化或任何區域甲基化程度)與自其他生物體(亦即相同類型之其他生物體,諸如人類)測定之相應值來鑑別與該生物體相關之癌症類型。相應值可針對計算甲基化程度之相同區域或位點集。其他生物體中之至少兩個鑑別為患有不同類型之癌症。舉例而言,相應值可組織成叢集,其中兩個叢集與不同的癌症相關。
此外,當CNA及甲基化一起用於獲得癌症程度之第三分類時,可將CNA及甲基化特徵與來自其他生物體之相應值比較。舉例而言,可將展現缺失或擴增之區域之第一量(例如,來自圖36)與由其他生物體測定之相應值比較以鑑別與生物體相關之癌症類型。
在一些實施例中,甲基化特徵為基因組之複數個區域之區域甲基化程度。可使用據測定具有超過各別區域截止值之區域甲基化程度的區域,例如,可將生物體之區域甲基化程度與其他生物體之基因組之相同區域之區域甲基化程度比較。該比較可允許區分癌症類型,或僅提供額外過濾以確定癌症(例如鑑別假陽性)。因此,可基於該比較確定生物體是患有第一類型癌症、不存在癌症或是第二類型癌症。
可使用區域甲基化程度對其他生物體(以及測試生物體)進行叢集分析。因此,比較區域甲基化程度可用於確定生物體屬於何種叢集。叢集分析亦可使用被確定為展現缺失或擴增之區域之CNA標準化值,如上文所述。且叢集分析可使用高甲基化CpG島之各別甲基化密度。
為說明此方法之原理,吾等展示對兩個未知樣品之分類使用邏輯回歸之實例。此分類之目的在於確定此兩個樣品是為HCC或是為非HCC癌症。彙集包括自HCC患者收集之23個血漿樣品及來自罹患非HCC之癌症之患者的18個樣品的訓練樣品組。因此,訓練組中存在總計41個病例。在此實例中,選擇13個特徵,包括五個關於CpG島甲基化之特徵(X1至X5)、六個關於1 Mb區域甲基化之特徵(X6至X11)及2個關於1 Mb區域CNA之特徵(X12至X13)。基於訓練組中至少15個病例具有>3或<-3之z評分的準則來選擇CpG甲基化特徵。基於訓練組中至少39個病例具有>3或<-3之z評分的準則來選擇1 Mb甲基化特徵。基於至少20個病例具有>3或<-3之z評分的準則來選擇CNA特徵。對此訓練組之樣品進行邏輯回歸以測定各特徵(X1至X13)之回歸係數。回歸係數具有較大量值(不論其是正或負意義)之特徵可較佳辨別HCC與非HCC樣品。對於各別特徵,各病例之z評分用作獨立變量之輸入值。隨後針對13個特徵分析兩個血漿樣品,一個來自HCC患者(TBR36),且一個來自罹患肺癌之患者(TBR177)。
在此癌症類型分類分析中,假定此兩個樣品收集自罹患未知來源之癌症的患者。對於各樣品,將各別特徵之z評分輸入邏輯回歸方程以確定比值比之自然對數(ln(比值比)),其中該比值比表示患有HCC之機率與未患有HCC之機率的比率(HCC/非HCC)。
表7展示邏輯回歸方程之13個特徵之回歸係數。亦展示兩個測試病例(TBR36及TBR177)之各別特徵之z評分。TBR36及TBR177之HCC之ln(比值比)分別為37.03及-4.37。由此等比值比,自HCC患者收集之血漿樣品之機率計算分別為>99.9%及1%。簡短言之,TBR36為來自HCC患者之樣品的可能性較高,而TBR177為來自HCC患者之樣品的可能性較低。
特徵 | 回歸係數 | 各別特徵之z 評分 |
TBR36 | TBR177 |
X1 | -2.9575
| 14.8
| 0
|
X2 | 2.2534
| 21.3
| 0
|
X3 | -1.5099
| 6.1
| 0
|
X4 | -0.236
| 34.0
| 0
|
X5 | 0.7426
| 17.3
| 0
|
X6 | -0.6682
| -26.3
| -1.5
|
X7 | -0.2828
| -13.9
| -2.6
|
X8 | -0.7281
| -9.4
| -4.4
|
X9 | 1.0581
| -7.8
| -3.7
|
X10 | 0.3877
| -20.8
| -4.3
|
X11 | 0.3534
| -15.5
| -3.1
|
X12 | -1.1826
| 4.8
| 3.3
|
X13 | -0.3805
| -11.7
| -1.4
|
| ln(比值比)
| 37.03
| -4.37463
|
表 7在其他實施例中,階層式叢集回歸、分類樹分析及其他回歸模型可用於確定癌症之可能原發性來源。
XII. 材料及方法 A. 製備經亞硫酸氫鹽處理之 DNA 文庫並定序藉由Covaris S220系統(Covaris)將添加有0.5% (w/w)未甲基化的λ DNA (Promega)之基因組DNA (5 µg)片段化至長度為約200 bp。使用配對末端定序樣品製備套組(Illumina)根據製造商之說明書製備DNA文庫,但改將甲基化接附子(Illumina)接合至DNA片段。在使用AMPure XP磁性珠粒(Beckman Coulter)進行兩輪純化之後,接合產物分成2個部分,用EpiTect亞硫酸氫鹽套組(Qiagen)對其中一個進行2輪亞硫酸氫鹽修飾。插入物中之CpG位點處之未甲基化胞嘧啶轉化成尿嘧啶,而甲基化胞嘧啶保持不變。使用以下配方藉由10個PCR循環增濃經接附子接合之DNA分子(經亞硫酸氫鈉處理或未經亞硫酸氫鈉處理):含2.5 U PfuTurboCx hotstart DNA聚合酶(Agilent Technologies)、1×PfuTurboCx反應緩衝液、25 µM dNTPs、1 µl PCR引子PE 1.0及1 µl PCR引子PE 2.0 (Illumina)之50 µl反應物。熱循環概況為:95℃/2分鐘,98℃/30秒,隨後10循環之98℃/15秒,60℃/30秒,及72℃/4分鐘,最終步驟為72℃/10分鐘(R Lister等人2009 Nature; 462: 315-322)。使用AMPure XP磁性珠粒純化PCR產物。
向自3.2至4 ml母體血漿樣品中提取之血漿DNA中摻入片段化λ DNA (每毫升血漿25 pg)且如上所述進行文庫建構(RWK Chiu等人2011 BMJ; 342: c7401)。在接合於甲基化接附子之後,將接合產物分成2半,且對一部分進行2輪亞硫酸氫鹽修飾。隨後藉由如上所述進行10個PCR循環來增濃經亞硫酸氫鹽處理或未經處理之接合產物。
在HiSeq2000儀器(Illumina)上用配對末端格式針對75 bp對經亞硫酸氫鹽處理或未經處理之DNA文庫進行定序。在cBot儀器(Illumina)上用配對末端叢集產生套組v3產生DNA叢集。使用HiSeq控制軟體(HCS) v1.4及即時分析(RTA)軟體v1.13 (Illumina)進行即時影像分析及鹼基檢出,其中自動化基質及相計算係基於用DNA文庫定序之摻入PhiX對照v3。
B. 序列比對及鑑別甲基化胞嘧啶在鹼基檢出之後,移除片段末端上之接附序列及低品質鹼基(亦即品質評分<20)。隨後藉由稱為Methy-Pipe之甲基化資料分析渠道處理呈FASTQ格式之經修切讀段(P Jiang等人在IEEE生物資訊學與生物醫學國際研討會(香港, 2010年12月18至21日)上提出之論文Methy-Pipe: An integrated bioinformatics data analysis pipeline for whole genome methylome analysis)。為比對經亞硫酸氫鹽轉化之定序讀段,吾等首先使用參考人類基因組(NCBI版本36/hg18)將沃森股及克立克股上之所有胞嘧啶殘基獨立地電子雜交轉化成胸嘧啶。吾等隨後將所有經處理讀段中之各胞嘧啶電子雜交轉化成胸嘧啶,且保存各經轉化殘基之位置資訊。使用SOAP2 (R Li等人2009 Bioinformatics; 25: 1966-1967)來比對經轉化之讀段與兩個轉化前參考人類基因組,其中各比對讀段最多允許兩個錯配。僅選擇可定位於獨特基因組位置之讀段。移除定位於沃森股及克立克股兩者之含糊讀段及具有相同起始及結束基因組位置之複製(純系)讀段。保留插入物大小≤600 bp之定序讀段用於甲基化及大小分析。
CpG二核苷酸情形下之胞嘧啶殘基為下游DNA甲基化研究之主要標靶。在比對後,基於電子雜交轉化期間保存之位置資訊恢復最初存在於定序讀段上之胞嘧啶。將CpG二核苷酸中之經恢復胞嘧啶評分為甲基化。將CpG二核苷酸中之胸嘧啶評分為未甲基化。所包括之未甲基化的λ DNA在文庫製備期間充當評估亞硫酸氫鈉修飾效率之內部對照。若亞硫酸氫鹽轉化效率為100%,則λ DNA上之所有胞嘧啶均應已轉化成胸嘧啶。
XIII. 概述利用本文所述之實施例,可使用例如個體之血漿來非侵入性地篩選、偵測、監測或預測癌症。亦可藉由自母體血漿推斷胎兒DNA之甲基化概況來對胎兒進行產前篩選、診斷、研究或監測。為說明該方法之效率,吾等展示可自母體血漿直接評定習知經由胎盤組織研究獲得之資訊。舉例而言,基因座之印記狀態、鑑別在胎兒與母體DNA之間具有差異性甲基化之基因座及基因座之甲基化概況之妊娠期變化係藉由直接分析母體血漿DNA來達成。吾等之方法的主要優勢在於可在妊娠期間全面評定胎兒甲基化模式組而不破壞妊娠或不需要對胎兒組織進行侵入性取樣。鑒於DNA甲基化狀態改變與許多妊娠相關病狀之間的已知關聯性,本研究中所述之方法可充當研究該等病狀之病理生理學及鑑別該等病狀之生物標記的重要工具。藉由聚焦於印記基因座,吾等證明可由母體血漿評定父體傳遞以及母體傳遞之胎兒甲基化概況。此方法可能適用於研究印記疾病。實施例亦可直接應用於胎兒或妊娠相關疾病之產前評估。
吾等已證明全基因組亞硫酸氫鹽定序可應用於研究胎盤組織之DNA甲基化概況。人類基因組中存在約28M CpG位點(C Clark等人2012 PLoS One; 7: e50233)。吾等之CVS及足月胎盤組織樣品之亞硫酸氫鹽定序資料覆蓋超過80% CpG。此代表實質上比使用其他高產量平台可達成之覆蓋率更廣泛之覆蓋率。舉例而言,用於先前胎盤組織研究之Illumina Infinium人類甲基化27K微珠晶片陣列(T Chu等人2011 PLoS One; 6: e14723)僅覆蓋基因組中之0.1% CpG。近年來可利用之Illumina Infinium人類甲基化450K微珠晶片陣列僅覆蓋1.7% CpG (C Clark等人2012 PLoS One; 7: e50233)。因為MPS方法不存在與探針設計、雜交效率或抗體捕捉強度相關之限制,故可評定CpG島內外及大部分序列情形下之CpG。
XIV. 電腦系統本文中所提及之任何電腦系統皆可利用任何適合數目之子系統。該等子系統之實例示於圖33中之電腦設備3300中。在一些實施例中,電腦系統包括單一電腦設備,其中子系統可為電腦設備之組件。在其他實施例中,電腦系統可包括多個具有內部組件之電腦設備,各電腦設備為子系統。
圖33中所示之子系統經由系統匯流排3375互連。顯示其他子系統,諸如印表機3374、鍵盤3378、儲存裝置3379、耦合於顯示器配接器3382之監視器3376及其他。耦合於I/O控制器3371之周邊裝置及輸入/輸出(I/O)裝置可藉由此項技術中已知的許多手段連接於電腦系統,諸如串聯埠3377。舉例而言,串聯埠3377或外部介面3381 (例如乙太網路(Ethernet)、Wi-Fi等)可用於將電腦系統3300連接於廣域網路,諸如網際網路、滑鼠輸入設備或掃描器。經由系統匯流排3375互連允許中央處理器3373與各子系統通信並且控制來自系統記憶體3372或儲存裝置3379 (例如固接磁碟)之指令的執行以及子系統之間的資訊交換。系統記憶體3372及/或儲存裝置3379可具體化為電腦可讀媒體。本文中所提及之任何值皆可自一個組件輸出至另一組件且可輸出至使用者。
電腦系統可包括例如由外部界面3381或由內部界面連接在一起的複數個相同組件或子系統。在一些實施例中,電腦系統、子系統或設備可經網路進行通信。在該等情況下,一個電腦可被視為用戶端且另一電腦可被視為伺服器,其中各自可為同一電腦系統之一部分。用戶端及伺服器可各包括多個系統、子系統或組件。
應瞭解本發明實施例中之任一者可使用硬體(例如特殊應用積體電路或場可程式化閘陣列)以控制邏輯形式實施及/或使用具有電腦軟體利用一般可程式化處理器以模組或積體方式實施。如本文中所使用,處理器包括處於同一積體晶片上之多核心處理器或處於單一電路板上或形成網路之多個處理單元。基於本發明及本文中所提供之教示,一般熟習此項技術者將已知且瞭解其他使用硬體及硬體與軟體之組合實施本發明之實施例的方式及/或方法。
使用任何適合電腦語言(諸如Java、C++或使用例如習知或物件導向技術之Perl),本申請案中所述之任何軟體組件或函數皆可作為欲由處理器執行之軟體代碼來實施。軟體代碼可在用於儲存及/或傳輸之電腦可讀媒體上儲存為一系列指令或命令,適合媒體包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、諸如硬碟機或軟碟之磁性媒體或諸如壓縮光碟(CD)或DVD(數位化通用光碟)之光學媒體、快閃記憶體及其類似物。電腦可讀媒體可為該等儲存或傳輸裝置之任何組合。
該等程式亦可使用適合經由符合包括網際網路在內之多種協定的有線、光學及/或無線網路傳輸之載波信號來編碼及傳輸。因此,根據本發明之一實施例的電腦可讀媒體可使用以該等程式編碼之資料信號產生。以程式代碼編碼之電腦可讀媒體可與相容裝置一起封裝或由其他裝置(例如經由網際網路下載)單獨提供。任何該電腦可讀媒體皆可駐留於單一電腦程式產品(例如硬碟機、CD或整個電腦系統)之上或之內,且可存在於系統或網路內之不同電腦程式產品之上或之內。電腦系統可包括監測器、印表機或向使用者提供本文中所提及之任何結果的其他適合顯示器。
本文所述之方法中之任一者均可完全或部分用包括一或多個處理器之電腦系統執行,該一或多個處理器可經組態以執行該等步驟。因此,實施例可針對經組態以執行本文中所述之任何方法之步驟的電腦系統,可能用不同組件執行各別步驟或各別步驟組。儘管本文方法之步驟呈編號步驟形式呈現,但可同時或以不同次序執行。另外,此等步驟之部分可與其他方法之其他步驟之部分一起使用。亦可視情況選用步驟之全部或部分。另外,任何方法之任何步驟皆可用執行此等步驟之模組、電路或其他構件來執行。
在不背離本發明實施例之精神及範疇的情況下,特定實施例之特定細節可以任何適合方式組合。然而,本發明之其他實施例可針對與各個別態樣或此等個別態樣之特定組合相關的特定實施例。
已出於說明及描述之目的呈現本發明之例示性實施例之以上描述。該描述不欲為詳盡的或將本發明限制於所描述之精確形式,且根據以上教示,許多修改及變化為可能的。選擇並描述該等實施例,以便最佳地說明本發明之原理及其實際應用,以藉此使其他熟習此項技術者能夠在各種實施例中且在進行適合於預期特定用途之各種修改的情況下最佳地利用本發明。
除非相反地特別指示,否則「一(a/an)」或「該(the)」之敍述欲意謂「一或多」。
本文所提及之所有專利、專利申請案、公開案及描述係處於所有目的而以全文引用的方式併入。不承認任一者為先前技術。