TW201718872A

TW201718872A - 游離ｄｎａ（ｃｅｌｌ－ｆｒｅｅｄｎａ）之片段化模式分析

Info

Publication number: TW201718872A
Application number: TW105123553A
Authority: TW
Inventors: 煜明盧; 慧君趙; 君賜陳; 江培勇
Original assignee: 香港中文大學
Priority date: 2015-07-23
Filing date: 2016-07-25
Publication date: 2017-06-01
Also published as: US11615865B2; JP2023109862A; AU2016295616B2; TW202332776A; EP3967775A1; HUE057821T2; US10453556B2; EP4279612A2; US20200005897A1; TWI730973B; US11605445B2; JP2018524991A; TWI802886B; US20200005896A1; DK3325664T3; WO2017012592A1; AU2022224861A1; PT3967775T; TW202142697A; CN108026572B

Abstract

本發明描述影響游離DNA(例如血漿DNA)之片段化模式的因素及游離DNA片段化模式分析的應用，包括分子診斷學應用。多種應用可利用片段化模式特性確定特定組織類型的貢獻比例、確定特定組織類型(例如母親樣品中之胚胎組織或癌症患者樣品中之腫瘤組織)的基因型，及/或鑑別特定組織類型的偏好末端位置，其接著可用於確定特定組織類型的貢獻比例。

Description

游離DNA(CELL-FREE DNA)之片段化模式分析

相關申請案之交叉參考

本申請案主張2015年7月23日申請之美國臨時申請案第62/196,250號及2016年2月12日申請之美國臨時申請案第62/294,948號及2016年2月14日申請之PCT申請案第PCT/CN2016/073753號的優先權，該等案的全部內容以引用的方式併入本文用於所有目的。

在先前研究中，顯示血漿DNA主要由小於200bp的短片段組成(Lo等人，Sci Transl Med 2010；2(61)：61ra91)。在血漿DNA的尺寸分佈中，可在166bp觀測到峰。另外觀測到，對母親血漿DNA定序時，定序標記密度將以約180bp(接近於轉錄起始位點(transcriptional start sites；TSS))之週期性變化(Fan等人，PNAS 2008；105：16266-71)。此等結果為血漿DNA片段化可不為隨機過程的一組證據。然而，DNA於血漿中片段化的確切模式以及控制該等模式的因素尚未明確。另外，利用DNA片段化的實際應用尚未完全實現。

多個實施例係關於游離DNA(例如血漿DNA及血清DNA)片段化模式分析的應用(例如診斷應用)。一種應用的實施例可利用來自不同組織類型的游離DNA混合物確定特定組識類型的貢獻比例分類。舉例而言，可確定特定百分比、百分比範圍或貢獻比例是否高於指定百分比作為分類依據。在一個實例中，可鑑別特定組織類型的偏好末端位置，且末端位於偏好末端位置之游離DNA分子的相對豐度可用於提供貢獻比例的分類。在另一實例中，可使用特定組織類型特有之區域中之片段化模式的幅度(例如末端位於基因組位置之游離DNA分子的數目)。

另一種應用之實施例可利用來自不同組織類型之游離DNA混合物確定特定組織類型的基因型。在一個實例中，可鑑別特定組織類型的偏好末端位置，且可利用末端位於偏好末端位置之游離DNA分子來確定基因型。

另一種應用之實施例可藉由對游離DNA分子之左端之局域最大值與游離DNA分子之右端之局域最大值進行比較來鑑別偏好末端位置。當相應局域最大值得到充分分離時，可鑑別出偏好末端位置。另外，為了確定組織類型的貢獻比例，可對末端位於左/右端之局域最大值之游離DNA分子的量與分離較低之局域最大值之游離DNA分子的量進行比較。

其他實施例係關於與本文所述方法相關之系統、可攜式消費者裝置及電腦可讀媒體。

可參考以下實施方式及附圖來獲得對本發明實施例之性質及優點的較好理解。

術語

「組織」對應於一組細胞，其共同歸類為一個功能單元。單一組織中可發現超過一種類型的細胞。不同類型的組織可由不同類型的細胞(例如肝細胞、肺泡細胞或血細胞)組成，而且可對應於來自不同生物體(母親相對於胎兒)的組織或對應於健康細胞相對於腫瘤細胞。

「生物樣品」係指獲自個體(例如人類，諸如孕婦、癌症患者或懷疑患有癌症者、器官移植接受者，或懷疑具有牽涉器官之疾病過程(例如心肌梗塞之心臟，或中風之腦，或貧血之造血系統)的個體且含有所關注之一或多種核酸分子的任何樣品。生物樣品可為體液，諸如血液、血漿、血清、尿液、陰道流體、來自水囊腫(例如睪丸)之流體、陰道沖洗液、胸膜液、腹水液、腦脊髓液、唾液、汗液、淚液、痰、支氣管肺泡灌洗液、乳頭排放液、來自身體不同部分(例如甲狀腺、乳房)之抽吸流體等。亦可使用糞便樣品。在各種實施例中，游離DNA已增濃之生物樣品(例如經由離心方案獲得的血漿樣品)中的大部分DNA可不含細胞，例如大於50%、60%、70%、80%、90%、95%或99%的DNA可不含細胞。離心方案可包括例如3,000g×10分鐘獲得流體部分，及例如30,000g再離心另外10分鐘以移除殘餘細胞。

「癌症相關變化」或「癌症特異性變化」包括(但不限於)癌症衍生之突變(包括單核苷酸突變、核苷酸之缺失或插入、基因或染色體區段之缺失、易位、反轉)、基因、基因區段或染色體區段擴增、病毒相關序列(例如病毒游離基因體及病毒插入)、異常甲基化特徵或腫瘤特異性甲基化標記、游離DNA異常尺寸特徵、異常組蛋白修飾標記及其他表觀遺傳修飾，及癌症相關或癌症特異性的游離DNA片段之末端位置。

「具有信息量的癌症DNA片段(Informative cancer DNA fragment)」對應於具有或攜帶癌症相關或癌症特異性變化或突變中之任一者或多者的DNA片段。「具有信息量的胚胎DNA片段」對應於攜帶的突變在親代之任一基因組中未發現的胚胎DNA片段。「具有信息量的DNA片段」可指上述類型之DNA片段中之任一者。

「序列讀數」(sequence read)係指在核酸分子之任何部分或全部中所定序的核苷酸串。舉例而言，序列讀數可為在核酸片段中定序之短核苷酸串(例如約20-150)、位於核酸片段之一或兩個末端的短核苷酸串，或存在於生物樣品中之整個核酸片段之定序。序列讀數可以多種方式獲得，例如使用定序技術或使用探針，例如雜交陣列或捕捉探針，或擴增技術，諸如聚合酶鏈反應(PCR)或使用單一引子的線性擴增或等溫擴增。

「末端位置(ending position)」或「末端位置(end position)」(或僅「末端」)可指游離DNA分子(例如血漿DNA分子)之最外面的鹼基(亦即位於末端)的基因組座標或基因組身分或核苷酸身分。末端位置可對應於DNA分子的任一末端。以此方式，若其係指DNA分子的始端與末端，則兩者均對應於末端位置。實務上，一個末端位置為游離DNA分子之一個末端之最外面的鹼基的基因組座標或核苷酸身分，其係藉由分析方法偵測或確定，諸如(但不限於)大規模並行定序或下一代定序、單一分子定序、雙股或單股DNA定序庫製備方案、聚合酶鏈反應(PCR)或微陣列。此類活體外技術可改變游離DNA分子的真實活體內實體末端。因此，每個可偵測末端可代表生物學上的真實末端或末端為向內的一或多個核苷酸或自分子之原始末端延伸的一或多個核苷酸，例如藉由克列諾片段(Klenow fragment)對非鈍端雙股DNA分子之突出端進行的5'鈍化及3'填充。末端位置之基因組身分或基因組座標可利用序列讀數與人類參考基因組(例如hg19)之比對結果獲得。其可自表示人類基因組之原始座標的索引或代碼目錄獲得。其可指藉由(但不限於)標靶特異性探針、小型定序、DNA擴增法讀取之游離DNA分子上的位置或核苷酸身分。

「偏好末端」(或「多次出現的末端位置」)係指一種末端，其在具有生理學(例如懷孕)或病理學(疾病)狀態(例如癌症)之生物樣品中呈現或盛行(例如如藉由比率所量測)的程度高於不具有此類狀態的生物樣品或在不同時間點或階段(例如治療前或治療後)具有相同病理學或生理學狀態的生物樣品。因此，相對於其他狀態，偏好末端在相關生理學或病理學狀態下偵測到的可能性或機率增加。增加的機率可在病理學狀態與非病理學狀態之間加以比較，例如在患有癌症及未患癌症之患者中，且以似然比或相對機率定量。似然比可基於偵測測試樣品中出現至少臨限數目個偏好末端之機率來確定或基於偵測患有此類病狀之患者相較於無此類病狀之患者中出現偏好末端的機率來確定。似然比臨界值之實例包括(但不限於)1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80及100。此類似然比可藉由對具有與不具有相關狀態之樣品的相對豐度值進行比較來量測。由於偵測相關生理學或疾病狀態下出現偏好末端的機率較高，因此在超過一個具有該相同生理學或疾病狀態之個體中發現此類偏好末端位置。在機率增加的情況下，可偵測到超過一個游離DNA分子的末端位於相同偏好末端位置，即使所分析的游離DNA分子數目遠小於基因組尺寸。因此，偏好或多次出現的末端位置亦稱為「頻繁末端位置」。在一些實施例中，可使用定量臨界值的要求是，在相同樣品或相同樣品等分試樣內至少多次(例如3、4、5、 6、7、8、9、10、15、20或50次)偵測到的末端視為偏好末端。相關生理學狀態可包括當人員健康、無疾病或無所關注之疾病時的狀態。類似地，「偏好末端窗」對應於一組鄰接的偏好末端位置。

末端位於一種位置之DNA分子的「比率」係指DNA分子末端位於該位置的頻率多大。該比率可基於末端位於針對所分析之DNA分子數目標準化之位置的DNA分子之數目。相應地，該比率對應於多少個DNA分子末端位於一種位置的頻率，且並非指末端位於該位置之DNA分子之數目中具有局域最大值之位置的週期性。

「校準樣品」可對應於其組織特異性DNA含量已知或經由校準方法(例如使用組織特有的等位基因)測定的生物樣品。作為另一實例，校準樣品可對應於可供確定偏好末端位置的樣品。校準樣品可用於兩種目的。

「校準資料點」包括「核準值」及所關注之DNA(亦即特定組織類型之DNA)的經量測或已知之比例分佈。校準值可為相對豐度，如針對組織類型之比例分佈已知的校準樣品所測定。校準資料點可以多種方式定義，例如作為離散點或作為校準函數(亦稱為校準曲線或校準表面)。校準函數可利用校準資料點之額外數學轉換來獲得。

術語「定序深度」係指基因座被與基因座比對之序列讀數所覆蓋之次數。基因座可與核苷酸一樣小，或與染色體臂一樣大，或與整個基因組一樣大。定序深度可以50x、100x等表示，其中「x」係指基因座被序列讀數覆蓋之次數。定序深度亦可應用於多個基因座或全基因組，在此情況下，x可指基因座或單倍體基因組或全基因組分別定序的平均次數。超深度定序可指定序深度為至少100x。

「分離值」對應於牽涉兩個值的差值或比率。分離值可為簡單差值或比率。作為實例，直接比率x/y以及x/(x+y)為分離值。分離值可包括其他係數，例如相乘係數。作為其他實例，可使用該等值之函數的差值或比率，例如兩個值之自然對數(ln)的差值或比率。分離值可包括差值及比率。

「相對豐度」為一種分離值類型，其使末端位於一個基因組位置窗內之游離DNA分子的量(一個值)與末端位於另一個基因組位置窗內之游離DNA分子的量(另一個值)關聯。兩個窗可重疊，但具有不同尺寸。在其他實施例中，兩個窗不重疊。另外，該等窗可具有一個核苷酸之寬度，且因此等效於一個基因組位置。

如本文所用，術語「分類」係指與樣品之具體特性相關之任何數字或其他字符。舉例而言，「+」符號(或詞語「陽性」)可表示樣品歸類為具有缺失或擴增。分類可為二元(例如陽性或陰性)或具有更多分類層級(例如量表1至10或0至1)。術語「截止值(cutoff)」及「臨界值(threshold)」係指使用於操作之預定數字。舉例而言，截止值尺寸可指一種尺寸，高於此尺寸則排除片段。臨界值可為一種值，高於或低於此值，則特定分類適用。可在此等情形之任一者中使用此等術語中之任一者。

術語「癌症等級」可指是否存在癌症、癌症階段、腫瘤尺寸、是否存在轉移、身體總腫瘤負荷，及/或癌症嚴重度之其他度量(例如癌症復發)。癌症等級可為數字或其他標誌，諸如符號、字母表字母及顏色。等級可為零。癌症等級亦包括與突變或多種突變相關的惡化前或癌前期病狀(狀態)。癌症等級可以多種方式使用。舉例而言，篩選可檢查先前未知患癌之某人是否存在癌症。評估可調查已診斷患有癌症之某人以監測癌症隨時間之進展，研究治療有效性或確定預後。在一個實施例中，預後可用患者死於癌症之機率或特定期限或時間之後癌症進展之機率或癌症轉移之機率表示。偵測可意謂‘篩選’或可意謂檢查暗示有癌症特徵(例如症狀或其他陽性測試)的某人是否患有癌症。

「局域最大值」可指一種基因組位置(例如核苷酸)，在該位置，當與相鄰位置比較時獲得所關注參數之最大值；或可指所關注之參數在此基因組位置的值。作為實例，相鄰位置可在50bp至2000bp範圍內。所關注之參數的實例包括(但不限於)末端位於基因組位置之片段數目、與該位置重疊之片段數目，或大於臨限尺寸之涵蓋基因組位置之片段的比例。當所關注之參數具有週期性結構時，可出現多個局域最大值。全域最大值為局域最大值之一特例。類似地，「局域最小值」可指一種基因組位置，在該位置，當與相鄰位置時獲得所關注參數之最小值；或可指所關注之參數在此基因組位置的值。

10‧‧‧電腦設備/電腦系統

71‧‧‧I/O控制器

72‧‧‧控制系統記憶體

73‧‧‧中央處理器

74‧‧‧列印機

75‧‧‧系統匯流排

76‧‧‧監視器

77‧‧‧輸入/輸出(I/O)埠

78‧‧‧鍵盤

79‧‧‧儲存裝置

81‧‧‧外部介面

82‧‧‧顯示器配接器

85‧‧‧資料收集裝置

500‧‧‧分析

510‧‧‧步驟

520‧‧‧步驟

530‧‧‧步驟

540‧‧‧步驟

550‧‧‧步驟

560‧‧‧步驟

570‧‧‧步驟

1300‧‧‧方法

1310‧‧‧步驟

1320‧‧‧步驟

1330‧‧‧步驟

1340‧‧‧步驟

1350‧‧‧步驟

1360‧‧‧步驟

1370‧‧‧步驟

1380‧‧‧步驟

1500‧‧‧方法

1510‧‧‧步驟

1520‧‧‧步驟

1530‧‧‧步驟

1540‧‧‧步驟

1550‧‧‧步驟

1560‧‧‧步驟

1570‧‧‧步驟

3600‧‧‧方法

3610‧‧‧步驟

3620‧‧‧步驟

3630‧‧‧步驟

3640‧‧‧步驟

3650‧‧‧步驟

3800‧‧‧方法

3810‧‧‧步驟

3820‧‧‧步驟

3830‧‧‧步驟

3840‧‧‧步驟

3850‧‧‧步驟

圖1根據本發明之實施例顯示完整機率(P_I)之定義的說明性實例。

圖2A及圖2B根據本發明之實施例顯示使用25作為z值，跨越染色體6之一區段之P_I的變化。

圖3顯示母親血漿中之母源及胎源DNA之P_I同步變化的圖解。

圖4顯示母親血漿中之母源及胎源DNA之P_I異步變化的圖解。

圖5是流程圖，其顯示母親DNA與胚胎DNA分子之P_I變化是否同步的分析。

圖6顯示根據母親血漿中之母源DNA片段(紅色/灰色)及胎源DNA片段(藍色/黑色)之P_I變化對兩個母親血漿樣品(S24及S26)的分析。

圖7顯示P_I變化幅度的圖解。

圖8A顯示作為去氧核糖核酸酶超敏位點、而非TSS之區域的P_I變化模式。圖8B顯示作為TSS、而非去氧核糖核酸酶超敏位點之區域的P_I變化模式。

圖9顯示自不同組織釋放之DNA比例之量測原理的圖解。

圖10顯示組織A之FR_A與組織A對混合物中之DNA之貢獻比例(利用來自組織A之DNA的已知比例濃度，根據兩個或多於兩個校準樣品的分析所確定)之間的關係。

圖11顯示母親血漿中之FR_胎盤與胚胎DNA百分比之間的相關性。

圖12顯示母親血漿中之FR_血液與胚胎DNA濃度之間的相關性。

圖13為根據本發明之實施例分析生物樣品以確定第一組織類型之貢獻比例之分類的方法1300的流程圖。

圖14顯示瘤源或胎源DNA之循環DNA片段之差異的原理圖解。

圖15為分析生物樣品之方法的流程圖，該生物樣品包括來自複數種組織類型之游離DNA分子的混合物，組織類型包括第一組織類型。

圖16為文氏圖(Venn diagram)，其顯示HCC個案特有、孕婦特有及兩種個案所共有之頻繁末端位點之數目。

圖17顯示校準曲線，其顯示末端位於癌症特異性末端位置之所定序DNA片段之比例與血漿中之腫瘤DNA含量已知之癌症患者之血漿中之腫瘤DNA含量之間的關係。

圖18顯示攜帶胚胎特異性等位基因及母親與胎兒共有之等位基因之血漿DNA之非隨機片段化模式的說明性實例。

圖19顯示基因組座標為跨越具有資訊性單核苷酸多形現象(SNP)之區域之母親血漿DNA片段之末端位置之機率的圖。

圖20顯示跨越SNP之血漿DNA片段之末端位置的分析，該等SNP在母親中為純合接合子且在胎兒中為雜合接合子。

圖21顯示跨越SNP之血漿DNA片段之末端位置的分析，該等SNP在胎兒中為純合接合子且在母親中為雜合接合子。

圖22顯示具有多次出現的胚胎(A組)及母親(X組)末端之血漿DNA分子之相對豐度(比率(F/M))與胚胎DNA含量之間的相關性。

圖23A至圖23E顯示關於末端位於胚胎偏好末端位置之片段及末端位於母親偏好末端位置之片段之血漿DNA尺寸分佈的資料。

圖24A至圖24E顯示關於末端位於胚胎偏好末端位置之片段及末端位於母親偏好末端位置之片段在26位前三個月孕婦之混合血漿DNA樣品中之血漿DNA尺寸分佈的資料。

圖25顯示HCC患者血漿DNA之非隨機片段化模式的一個說明性實例。

圖26為基因組座標成為跨越具有突變位點之區域之血漿DNA片段之末端位置的機率之圖。

圖27A顯示跨越基因組位置之血漿DNA片段之末端位置的分析，其中突變存在於腫瘤組織中。

圖27B顯示71位HCC患者血漿中之比率_M/WT與腫瘤DNA含量之間的相關性。

圖28A顯示孕婦及HCC患者之血漿DNA之偏好末端位置的數目。P組含有孕婦中偏好的2900萬個末端位置。

圖28B顯示71位HCC患者血漿之比率_HCC/Preg與腫瘤DNA含量之間觀測到正相關性。

圖29A顯示偏好末端終止比率(PETR)之概念的圖解。每條線代表一個血漿DNA片段。

圖29B顯示11位HCC患者之血漿中之腫瘤DNA含量與H組位置之PETR之間的相關性。

圖30顯示在末端位於HCC偏好末端、HBV偏好末端或所共有末端之血漿DNA分子當中所偵測到之短DNA(<150bp)的比例。

圖31A顯示w-PETR之原理說明。w-PETR值係依末端位於窗A與窗B內之DNA片段數目之間的比率計算。

圖31B顯示11位HCC患者之腫瘤DNA含量與w-PETR值之間的相關性。

圖32顯示與臍帶血漿樣品(210x單倍體基因組覆蓋率)相比，每個研究樣品之血漿樣品中所偵測到之一般共有偏好末端位置的比例。

圖33顯示文氏圖，其顯示在兩個或多於兩個樣品中通常觀測到之偏好末端位置之數目以及僅在任一個樣品中觀測到之數目。

圖34A顯示血漿之胚胎DNA含量與經由「分娩前」血漿DNA樣品與「分娩後」血漿DNA樣品之間的比較所鑑別之一組位置之平均PETR之間的相關性。圖34B顯示血漿之胚胎DNA含量與經由「分娩前」血漿DNA樣品與「分娩後」血漿DNA樣品之間之比較所鑑別之一組位置上之平均w-PETR之間的相關性。

圖35A顯示在妊娠18週(懷孕個體1)及妊娠38週(懷孕個體2)之兩位孕婦當中最頻繁觀測到之前1百萬個血漿DNA偏好末端位置。

圖35B顯示在兩位孕婦之血漿中最頻繁觀測到之前1百萬個偏好末端位置之PETR值的比較。

圖36為根據本發明之實施例分析生物樣品以確定第一組織類型在混合物中之貢獻比例之分類的方法流程圖。

圖37顯示攜帶不同等位基因(其與接近胚胎偏好末端位置之參考基因組比對時)之母親血漿DNA分子。

圖38為根據本發明之實施例分析生物樣品以確定第一組織類型之基因型之方法3800的流程圖。

圖39顯示可與根據本發明實施例的系統及方法一起使用的一個實例電腦系統10的方塊圖。

本發明描述影響游離DNA(例如血漿DNA)之片段化模式的因素及游離DNA片段化模式分析的應用，包括分子診斷學應用。多種應用可利用片段化模式特性確定特定組織類型的貢獻比例、確定特定組織類型(例如母親樣品中之胚胎組織或癌症患者樣品中之腫瘤組織)的基因型，及/或特定組織類型的偏好末端位置，其接著可用於確定特定組織類型的貢獻比例。在一些實施例中，特定組織的偏好末端位置亦可用於量測樣品中之特定組織類型的絕對作用，例如每單位體積(例如每毫升)之基因組數目。

貢獻比例之分類實例包括特定百分比、百分比範圍，或貢獻比例高於指定百分比是否可確定為一種分類。為了確定貢獻比例之分類，一些實施例可鑑別對應於特定組織類型(例如胚胎組織或腫瘤組織)的偏好末端位置。此類偏好末端位置可以多種方式確定，例如分析游離DNA分子末端位於基因組位置之比率、比較此類比率與其他樣品(例如不具有相關病狀)，及對不同病狀的不同組織及/或不同樣品之游離DNA分子之末端之出現比率較高的各組基因組位置進行比較。末端位於偏好末端位置之游離DNA分子相對於末端位於其他基因組位置之游離DNA分子的相對豐度可與利用特定組織類型之貢獻比例已知之一或多個校準生物樣品所測定之一或多個校準值進行比較。本文提供的資料顯示樣品中之相對豐度之不同度量與不同組織之貢獻比例之間正相關。

為了確定貢獻比例之分類，一些實施例可使用片段化模式(例如末端位於基因組位置之游離DNA分子的數目)之幅度。舉例而言，一或多個局域最小值及一或多個局域最大值可藉由分析末端位於複數個基因組位置之游離DNA分子的數目來鑑別。處於一或多個局域最大值之第一數目個游離DNA分子及處於一或多個局域最小值之第二數目個游離DNA分子的分離值(例如比率)顯示與特定組織類型的貢獻比例正相關。

在一些實施例中，所關注組織之濃度可相對於游離DNA樣品之體積或重量來量測。舉例而言，可使用定量PCR量測單位體積或單位重量之所萃取之游離DNA樣品中的末端位於一或多個偏好末端之游離DNA分子之數目。可對校準樣品進行類似量測，且因此貢獻比例可以貢獻比例確定，因為作用為每單位體積或單位重量之濃度。

為了確定來自不同組織類型之游離DNA之混合物中的特定組織類型(例如胚胎組織或腫瘤組織)之基因型，一些實施例可鑑別特定組織類型之偏好末端位置。對於末端位於偏好末端位置之一組游離DNA分子中的每個游離DNA分子而言，可確定存在於偏好末端位置的相應鹼基。相應鹼基可用於確定偏好末端位置之基因型，例如依據所發現之不同鹼基的百分比。在各種實施例中，僅一個鹼基的高百分比(例如高於90%)可表示該鹼基的基因型為純合接合子，而具有類似百分比(例如30%至70%)的兩個鹼基可確定基因型為雜合接合子。

為了鑑別偏好末端位置，一些實施例可對游離DNA分子之左端的局域最大值與游離DNA分子之右端的局域最大值進行比較。當相應局域最大值得到充分分離時，可鑑別出偏好末端位置。另外，為了確定組織類型的貢獻比例，可對末端位於左/右端之局域最大值之游離DNA分子的量與分離較低之局域最大值之游離DNA分子的量進行比較。

在下文描述中，首先描述片段化及技術之概要，隨後描述片段化模式之細節及其定量實例，及關於確定貢獻比例、鑑別偏好末端位置及確定基因型的進一步描述。

I.片段化及技術之概要

在本發明中，吾等顯示游離DNA存在非隨機片段化過程。非隨機片段化過程在一定程度上發生於各種類型之含有游離DNA的生物樣品中，例如血漿、血清、尿液、唾液、腦脊髓液、胸膜液、羊膜液、腹膜液及腹水液。游離DNA天然以短片段形式存在。游離DNA片段化係指藉以使高分子量DNA(諸如細胞核中之DNA)裂解、斷裂或消化成短片段(此時產生或釋放游離DNA分子)的過程。

並非所有的游離DNA分子具有相同長度。一些分子比其他分子短。已顯示，游離DNA(諸如血漿DNA)在開放染色質域內(包括轉錄起始位點周圍，及核小體核之間的位置，諸如連接子位置)通常較短且不太完整，亦即完整機率不良或完整性較不良(Straver等人，Prenat Diagn 2016,36：614-621)。每種不同組織具有其特徵性基因表現型態，其特徵性基因表現型態又受到包括染色質結構及核小體定位之方式的調節。因此，游離DNA(諸如血漿DNA)在某些基因組位置之完整機率或完整性模式為彼等DNA分子之組織來源的標籤或標誌。類似地，當疾病過程(例如癌症)改變細胞基因組之基因表現型態及功能時，疾病細胞所產生的游離DNA完整機率型態將反映彼等細胞。因此游離DNA型態將提供疾病存在的證據或為疾病存在的標誌。

一些實施例為研究游離DNA片段化型態進一步增強決心。吾等研究個別游離DNA分子(尤其是血漿DNA分子)之實際末端位置或末端，而非僅對核苷酸區段上的讀數求和以鑑別具有較高或較低完整機率或完整性的區域。明顯地，吾等資料揭露游離DNA分子被切割之特定位置為非隨機的。活體外剪切或音波處理高分子量基因組組織DNA顯示，具有末端位置的DNA分子在基因組上隨機分散。然而，諸如血漿之樣品內高度呈現的游離DNA分子存在某些末端位置。此類末端位置之出現或呈現次數在統計學上顯著高於單獨預期機率。此等資料使吾等瞭解游離DNA片段化一個步驟超過完整性之區域變化(Snyder等人，Cell 2016,164：57-68)。在此，吾等顯示游離DNA片段化過程平滑地配合至特定的核苷酸切割或裂解位置。吾等稱游離DNA末端位置中之此等非隨機位置為偏好末端位置或偏好末端。

在本發明中，吾等顯示在不同生理學狀態或疾病狀態之個體中共同存在游離DNA末端位置。舉例而言，懷孕個體與非懷孕個體共有、孕婦與癌症患者共有、患有癌症之個體與未患癌症之個體共有共同的偏好末端。另一方面，偏好末端主要僅存在於孕婦中、僅存在於癌症患者中，或僅存在於未患癌症之非懷孕個體中。有趣的是，此等懷孕特異性或癌症特異性或疾病特異性末端亦高度呈現於具有類似生理學或疾病狀態之其他個體中。舉例而言，孕婦之血漿中所鑑別出的偏好末端可在其他孕婦之血漿中偵測到。另外，此類偏好末端的比例數量與其他孕婦之血漿中的胚胎DNA含量相關。此類偏好末端實際上與懷孕或胎兒有關，原因為其數量在分娩後母親血漿樣品中大幅度減少。類似地，在癌症中，一位癌症患者之血漿中所鑑別出的偏好末端可在另一位癌症患者的血漿偵測到。另外，此類偏好末端的比例數量與其他癌症患者之血漿中的腫瘤DNA含量相關。此類偏好末端與癌症相關，原因為其數量在癌症治療(例如手術切除)之後減少。

游離DNA偏好末端的分析存在許多應用或效用。其可提供關於孕婦中之胚胎DNA含量及因此胎兒健康的資訊。舉例而言，與妊娠齡匹配對照孕婦相比，已報導許多孕婦相關病症(諸如子癇前症、早產、子宮內生長限制(IUGR)、胚胎染色體非整倍性及其他)與胚胎DNA之分率濃度(亦即胚胎DNA含量或胚胎分率)的擾動有關。與癌症有關之血漿游離DNA偏好末端揭露血漿樣品中之腫瘤DNA含量或分率濃度。知曉腫瘤DNA含量可提供關於癌症階段、預後的資訊且有助於監測治療功效或癌症復發。游離DNA偏好末端的型態亦將揭露含有游離DNA之生物樣品(例如血漿)中之對DNA有貢獻之組織的組成。因此能夠鑑別癌症或其他病理學(例如腦血管意外(亦即中風)、全身性紅斑狼瘡之器官表現)之組織來源。

藉由比較具有不同生理學或病理學狀態之個體之游離DNA偏好末端型態(例如比較非懷孕樣品與懷孕樣品、比較癌症樣品與非癌症樣品，或比較無癌症孕婦之型態與非懷孕癌症患者之型態)，可鑑別與特定生理學狀態或病理學狀態相關之偏好末端的目錄。另一種方法為比較游離DNA之偏好末端在生理學(例如懷孕)或病理學(例如癌症)過程之不同時間的型態。此類時間點之實例包括懷孕之前及之後、胎兒分娩之前及之後、在懷孕期間跨越不同妊娠年齡所收集的樣品、癌症治療之前及之後(例如標靶療法、免疫療法、化學療法、手術)、癌症診斷之後的不同時間點、癌症進展之前及之後、轉移出現之前及之後、疾病嚴重度增加之前及之後，或併發症出現之前及之後。

另外，可使用特定組織相關的遺傳標記鑑別偏好末端。舉例而言，含有胚胎特異性SNP等位基因的游離DNA分子將適用於鑑別諸如母親血漿之樣品中的胚胎特異性偏好末端。反之亦然，含有母親特異性SNP等位基因的血漿DNA分子將適用於鑑別母親血漿中的母親特異性偏好末端。含有腫瘤特異性突變的血漿DNA分子可用於鑑別與癌症相關的偏好末端。在器官移植之情形下含有供者或接受者特異性SNP 等位基因的血漿DNA分子適用於鑑別所移植或非移植器官中的偏好末端。舉例而言，供者特有的SNP等位基因將適用於鑑別代表所移植器官的偏好末端。

當偏好末端在生理學或病理學狀態下被偵測到的可能性或機率較高時，可考慮該偏好末端與該生理學或疾病狀態相關。在其他實施例中，與其他狀態相比，偏好末端具有一定的機率更可能在相關生理學或病理學狀態下偵測到。由於在相關生理學或疾病狀態下偵測到偏好末端的機率較高，因此將在超過一個具有該相同生理學或疾病狀態的個體中發現此類偏好或多次出現的末端(或末端位置)。高機率亦使得此類偏好或多次出現的末端可在相同個體之相同游離DNA樣品或等分試樣中多次偵測到。在一些實施例中，可設定定量臨界值以限制視為偏好末端之末端的納入，該等末端在相同樣品或相同樣品等分試樣內可偵測到至少指定次數(例如5、10、15、20次等)。

針對任何生理學或病理學狀態之游離DNA偏好末端之目錄建立之後，可利用靶向或非靶向方法偵測其於游離DNA樣品(例如血漿)或其他個體中的存在，以確定具有類似健康、生理學或疾病狀態之其他所測試個體的分類。游離DNA偏好末端可藉由隨機非靶向定序來偵測。需考慮定序深度，以便可達成鑑別相關偏好末端之全部或一部分的合理機率。或者，可利用(但不限於)定序偵測、微陣列或PCR，對游離DNA樣品中之偏好末端密度較高的基因座進行雜交捕捉，以富集樣品中的具有此類偏好末端之游離DNA分子。然而，或者，可使用基於擴增的方法(例如逆向PCR、滾動圓擴增)特異性擴增及富集具有偏好末端的游離DNA分子。擴增產物可藉由熟習此項技術者已知之定序、微陣列、螢光探針、凝膠電泳及其他標準方法鑑別。

實務上，一個末端位置可為位於游離DNA分子之一個末端之最外面的鹼基的基因組座標或核苷酸身分，其藉由分析方法偵測或確定，諸如(但不限於)大規模並行定序或下一代定序、單一分子定序、雙股或單股DNA定序庫製備方案、PCR、用於DNA擴增(例如等溫擴增)或微陣列的其他酶方法。此類活體外技術可改變游離DNA分子的真實活體內實體末端。因此，每個可偵測末端可代表生物學真實末端或末端為向內或自分子之原始末端延伸的一或多個核苷酸。舉例而言，在藉由5'突出端鈍化及3'突出端填充進行的DNA定序庫建構期間，使用克列諾片段產生鈍端雙股DNA分子。儘管此類程序可揭露與生物學末端不一致的游離DNA末端位置，但仍然可確立臨床相關性。此原因在於，與特定生理學或病理學狀態相關或有關之偏好末端的鑑別可基於相同的實驗室方案或方法原理，其導致校準樣品與測試樣品中之游離DNA末端發生恆定且可再現的改變。許多DNA定序方案係使用單股DNA庫(Snyder等人，Cell 2016,164：57-68)。單股庫之序列讀數的末端比雙股DNA庫的末端可更向內或進一步延伸。

末端位置的基因組身分或基因組座標可根據序列讀數與人類參考基因組(例如hg19)之比對結果獲得。其可利用表示人類基因組之原始座標之索引或代碼目錄獲得。雖然一個末端為位於游離DNA分子之一或兩個末端的核苷酸，但可經由識別血漿DNA分子上之其他核苷酸或其他核苷酸片段來偵測該末端。舉例而言，具有偏好末端之血漿DNA分子的正向擴增係經由結合至擴增子之中間鹼基的螢光探針偵測。舉例而言，可藉由結合至血漿DNA分子之中段上之一些鹼基的螢光探針之正向雜交來鑑別末端，其中片段尺寸已知。以此方式，可藉由算出多少個鹼基在具有已知序列及基因組身分的螢光探針外部來確定末端的基因組身分或基因組座標。換而言之，可經由偵測相同血漿DNA分子上的其他鹼基來鑑別或偵測末端。末端可為藉由(但不限於)標靶特異性探針、小型定序及DNA擴增法讀取之游離DNA分子上的位置或核苷酸身分。

II.血漿DNA之片段化模式

為了分析母親血漿DNA之片段化模式，吾等對來自孕婦的血漿DNA進行定序，該孕婦募自婦產科部(Department of Obstetrics and Gynaecology)，妊娠年齡為12週(Lo等人，Sci Transl Med 2010；2(61)：61ra91)。使用Illumina基因組分析儀平台對獲自母親的血漿DNA進行大規模並行定序。可使用其他大規模並行或單一分子定序儀。對血漿DNA分子進行配對末端定序。每個分子在每一端定序50bp，因此每個分子總計100bp。使用SOAP2程式(Li R等人，Bioinformatics 2009,25：1966-7)，將每個序列的兩個末端與參考人類基因組(Hg18 NCBI.36)比對。亦自父親及母親之白血球層樣品以及CVS樣品提取DNA。使用Affymetrix全基因組人類SNP陣列6.0系統確定此等DNA樣品的基因型。

A.片段化定量實例

為了反映片段化模式，可基於母親血漿DNA的定序結果來確定基因組中之每個核苷酸的完整機率(P_I)。

其中N_z為在標靶核苷酸之兩側(5'與3')涵蓋至少z個核苷酸(nt)之全長定序讀數的數目；且N_T為涵蓋標靶核苷酸之定序讀數的總數。

P_I值可反映完整DNA分子以特定位置為中心的機率，該特定位置的長度為兩倍的z值加1(2z+1)。完整機率(P_I)的值愈高，血漿DNA愈不大可能在特定核苷酸位置片段化。為了對此作進一步說明，在圖1中說明完整機率之定義。

圖1顯示完整機率(P_I)之定義的一個說明性實例。T為藉以計算P_I之標靶核苷酸的位置。A及B分別為位於T之z個核苷酸(nt)上游(5')及z個核苷酸下游(3')的兩個位置。標記a至j的黑線代表來自母親血漿的定序血漿DNA片段。片段a至d涵蓋所有三個位置A、B及T。因此，在標靶核苷酸之兩側(5'與3')涵蓋至少z個核苷酸之片段的數目(N_z)為4。另外，片段e、f及g亦涵蓋位置T，但其不涵蓋位置A與B。因此，涵蓋位置T的片段總共為7個(N_T=7)。片段h及j涵蓋A或B，但不涵蓋T。此等片段未計入N_z或N_T。因此，此特定實例中的P_I為4/7(57%)。

在一個實施例中，P_I可使用25作為z值來計算。因此，完整的血漿DNA片段定義為涵蓋標靶位置上游至少25個核苷酸至標靶位置下游25個核苷酸的片段。在其他實施例中，可使用其他z值，例如(但不限於)10、15、20、30、35、40、45、50、55、60、65、70、75及80。

P_I為末端位於基因組位置窗內之游離DNA分子之相對豐度的實例。可使用其他度量標準，例如P_I的倒數，其與具有完整DNA分子的機率呈相反關係。P_I倒數值較高表示成為末端位置或末端窗的機率較高。其他實例為末端DNA片段量測數目相對於末端DNA片段預期數目的p值、末端位於所有比對DNA片段外部之DNA片段的比例，或偏好末端終止比率(PETR)的比例，以上所有者更詳細地描述於下文。相對豐度的所有此類度量標準係量測游離DNA片段末端位於窗內的比率，例如寬度為2z+1的窗，其中z可為零，藉此使得該窗等效於基因組位置。

B.片段化模式之週期性

基因組的某些區域容易使特定組織中之染色體區域的斷裂比率(頻率)較高，且因此使得末端位於該區域之窗內的游離DNA片段比率較高。相對豐度圖顯示可具有週期性結構的片段化模式。週期性結構顯示最大值末端位置(高裂解)的位置及最小值末端位置(低裂解)的位置。當使用P_I時，最大值對應於低裂解窗，因為與裂解機率相反，P_I度量完整機率(末端位置機率)，其彼此間具有倒數關係。

圖2A及圖2B根據本發明之實施例顯示使用25作為z值，跨越染色體6之一區段之P_I的變化。在圖2A中，P_I的變化係不同灰色強度呈現，如左側檢索表所示。在圖2B中，P_I的變化顯現於較短區段中。x軸為核苷酸(nt)的基因組座標且y軸為P_I。P_I的變化具有約180bp的表觀週期性。

C.母親血漿中之母親DNA及胚胎DNA之P _I 的同步變化

雖然整個基因組的P_I係以約180bp的週期性變化，但吾等進一步調查P_I的變化是否與胎源及母源血漿DNA分子同步。在整個基因組中或在基因組之比例足夠高之部分中，同步變化意謂PI的峰值(最大值)及谷值(最小值)出現於同一相對核苷酸位置。用於界定比例足夠高的臨界值可根據特定應用來調整，例如(但不限於)>20%、>25%、>30%、>35%、>40%、>45%、>50%、>55%、>60%、>65%、>70%、>75%、>80%、>85%、>90%及>95%。下文兩個圖(圖3及圖4)顯示母親血漿中之母源DNA與胎源DNA之P_I變化之間的兩種可能關係。

圖3顯示母親血漿中之母源及胎源DNA之P_I同步變化的圖解。在整個基因組中，或在基因組的大部分中，P_I之峰值及谷值出現於母親DNA及胚胎DNA之同一相對位置。若區域中存在同步變化，則胎源DNA與母源DNA具有相同片段化模式，從而有礙於利用片段化模式在該區域中的週期性作為組織類型之一的標記。

圖4顯示母親血漿中之母源及胎源DNA之P_I異步變化的圖解。在整個基因組中，母親及胚胎DNA之P_I之峰值與谷值不具有恆定的相對關係。在區域I，母親DNA之P_I峰值與胚胎DNA之峰值一致。在區域II，母親DNA之P_I峰值與胚胎DNA之谷值一致。在區域III及IV，母親DNA之P_I峰值在胚胎DNA之峰值與谷值之間。若變化不同步，則胚胎與母親片段化模式之此差異可作為標記用於可能來自胎兒或母親的DNA。另外，此差異可用於確定胚胎或母親組織的貢獻比例，如下文更詳細地描述。舉例而言，末端位於區域II之峰值之一的DNA片段更可能為胚胎DNA，且末端位於此峰值之DNA片段相較於其他基因組位置的相對豐度將隨著胚胎DNA含量增加而增加。

圖5是流程圖，其顯示母親DNA與胚胎DNA分子之P_I變化是否同步的分析500。分析500調查母親血漿中之母源DNA與胎源DNA的PI變化是否同步。分析500可使用電腦系統。雖然分析500使用如上文所述的定序進行，但可使用其他技術，例如如本文所述。

在步驟510，分析500鑑別其中孕婦為純合接合子(AA)且胎兒為雜合接合子(AB)的SNP。此等SNP稱為具有信息量的SNP。B等位基因為胚胎特異性等位基因。此類具有信息量的SNP可藉由分析僅為母親來源或主要為母親來源的母親樣品來鑑別。舉例而言，可使用血液樣品的白血球層，因為白血球主要來自母親。出現僅一個核苷酸(或高百分比的一個核苷酸，例如高於80%，此可視胚胎DNA含量而定)的基因組位置可鑑別為母親之純合接合子。可分析血漿以鑑別母親中之純合接合子位置，其中鑑別足夠百分比之DNA片段具有所鑑別之另一個等位基因。

在步驟520，鑑別具有胚胎特異性等位基因B的血漿DNA分子。作為鑑別等位基因B的結果，可鑑別此等DNA分子對應於胚胎組織。

在步驟530，測定母親血漿中之游離DNA的P_I值。P_I之此等值包括胚胎及母親DNA。藉由分析與參考基因組之該基因組位置比對的序列讀數來獲得所指定基因組位置之P_I值。

在步驟540，藉由分析步驟530之輸出來測定P_I峰值。可以多種方式鑑別峰值，且每個峰值可限於僅一個基因組位置或允許對應於超過一個基因組位置。吾等觀測到對於母親血漿中之大部分母源DNA而言，全基因組的P_I以正弦波樣模式發生變化，週期性為約180bp。

在步驟550，測定總母親血漿之具有信息量的SNP與最近P_I(步驟 540)之間的距離。吾等鑑別SNP相對於總血漿DNA之P_I變化之最近峰值的位置，總血漿DNA主要來源於孕婦自身。

在步驟560，聚集所有胎源DNA片段。聚集所有攜帶胚胎特異性等位基因的所偵測血漿DNA片段以便計算胎源DNA之P_I。接著參考總母親血漿DNA之最近P_I峰值的位置，計算所聚集之胎源DNA片段的P_I。以類似於計算總母親血漿DNA之P_I的方式計算胎源DNA的P_I。

在步驟570，測定胎源DNA片段之P_I相對於總母親血漿DNA之P_I的變化。變化顯示於圖6中。

圖6顯示根據母親血漿樣品中之胎源DNA片段(紅色/灰色)及總DNA片段(藍色/黑色)之P_I變化對兩個母親血漿樣品(S24及S26)的分析。豎軸以百分比顯示P_I。水平軸顯示具有信息量的SNP與最近P_I峰值之間的距離(鹼基對(bp))。

總值包括胚胎及母親DNA的比重。聚集跨越所有峰值P_I的總值。如所見，SNP愈接近峰值P_I，則P_I值愈高。實際上，對於胎源DNA片段而言，峰值P_I位於約位置0。因此，母源及胎源DNA片段的P_I在約相同位置達到峰值。依據此等資料，吾等得出結論：母源DNA與胎源DNA的P_I變化同步。

雖然片段化模式似乎同步，但下文描述顯示除週期性之外的其他特性可用於區分片段化模式，藉此允許作為待確定之特定組織類型的標記。舉例而言，已發現某些基因組區域之峰值及谷值幅度之差異，藉此允許彼等區域內之某些位置用於確定組織特異性片段化模式。

D.影響血漿DNA之片段化模式之變化的因素

在先前研究中，顯示血漿DNA之片段化並非隨機接近於TSS(Fan等人，PNAS 2008；105：16266-71)。末端位於特定核苷酸之任何血漿DNA的機率將以約核小體尺寸之週期性、隨相對於TSS的距離而變化。通常咸信此片段化模式為DNA之細胞凋亡降解的結果。因此，血漿DNA尺寸通常類似於與組蛋白複合物相關之DNA的尺寸。

在先前研究中，亦顯示血漿DNA之尺寸通常類似於與核小體相關之DNA的尺寸(Lo等人，Sci Transl Med 2010；2(61)：61ra91)。咸信血漿DNA係經由細胞DNA(核DNA及粒線體DNA)之細胞凋亡降解而產生。循環中之粒線體DNA缺乏此核小體模式進一步支持此觀點，因為粒線體DNA與細胞中之組蛋白不相關。雖然顯示血漿DNA片段末端所在的核苷酸位置並非隨機接近於轉錄起始位點(Fan等人，PNAS 2008；105：16266-71)，但控制血漿DNA片段化模式的確切機制仍然不明確。

最近，已進一步顯示血漿DNA尺寸在具有不同序列背景的區域中為不同的(Chandrananda等人，BMC Med Genomics 2015；8：29)。後者資料亦支持先前假設：游離DNA片段的始端及末端更可能位於核小體連接子區，而非位於核小體核心。此等發現與完整機率因核苷酸而異之吾等發現(如先前章節中所論述)一致。在此，吾等進一步假設完整機率之變化幅度將跨越不同基因組區域而變化。片段化可變性之此區域性變化尚未在任何先前研究中得到充分研究或定量。下圖說明P_I之局域及區域變化的概念。

圖7顯示P_I變化幅度的圖解。在先前章節中，吾等已證明DNA之短片段存在正弦波樣的P_I變化模式。在此，吾等進一步分析跨越較大基因組區域之變化幅度。變化幅度係指具有指定尺寸之特定區域之P_I之最高峰值變化與谷值變化之間的P_I差異。在一個實施例中，特定區域的尺寸可為1000bp。在其他實施例中，可使用其他尺寸，例如(但不限於)600bp、800bp、1500bp、2000bp、3000bp、5000bp及10000bp。

如圖7中所示，區域1之幅度高於區域2之幅度。此行為發現於下文資料中。若不同組織在不同基因組區域出現此類高幅度，則可利用幅度量測來確定組織類型的貢獻比例，此時分析在組織類型之間幅度不同的區域。舉例而言，若不同組織類型的幅度不同，則貢獻比例將隨著來自特定組織類型(例如胚胎組織或腫瘤組織)之DNA的量增加而依比例變化。因此，幅度的度量將對應於特定的貢獻比例。實施例可利用來自樣品的校準資料，其中貢獻比例係經由其他技術(例如分析等位基因、甲基化標記、擴增/缺失程度)量測，如美國專利公開案第2009/0087847號、第2011/0276277號、第2011/0105353號、第2013/0237431號及第2014/0100121號中所述，該等案以全文引用之方式併入本文中。

在吾等定序資料中，吾等觀測到P_I變化幅度在不同基因組區域中不同。吾等假設P_I變化幅度與染色質在細胞凋亡期間對降解的可及性有關。因此，吾等調查出基因組中之變化幅度與去氧核糖核酸酶超敏位點之間的可能關係。在先前研究中，觀測到血漿DNA的片段化模式受其與TSS的相對位置影響。在吾等分析中，吾等調查出TSS及去氧核糖核酸酶超敏位點對血漿DNA片段化模式之影響的相對重要性。可使用幅度與所測試組織對應的其他位點。此類型位點的一個實例為使用針對轉座酶可近接染色質之分析聯合高處理量定序(ATAC-Seq)所鑑別的位點(Buenrostro等人，Nat Methods 2013；10：1213-1218)。此類型位點之另一實例為使用微球菌核酸酶(MNase)所鑑別的位點。

吾等比較以下兩種類型之基因組區域的P_I變化幅度：ii.為TSS、但不為去氧核糖核酸酶超敏位點的區域；及iii.為去氧核糖核酸酶超敏位點、但不為TSS的區域。

TSS及去氧核糖核酸酶超敏位點的座標係自ENCODE資料庫(genome.ucsc.edu/ENCODE/downloads.html)檢索。

使用以下方法剖析圍繞TSS及去氧核糖核酸酶I位點的P_I模式。

1)檢索圍繞參考靶點的上游及下游2kb區域。

2)接著根據相對於參考位點的距離，按比例再調整絕對基因組座標。舉例而言，若尺寸為60bp的特定窗在上游方向上距離參考位點50bp，則將其標記為-50。否則，若尺寸為60bp的特定窗在下游方向上距離參考位點50bp，則將其標記為+50。

3)具有按比例再調整之相同新座標的特定窗之P_I值將使用完整片段及與該窗重疊之所有片段的計數重新計算。

圖8A顯示作為去氧核糖核酸酶超敏位點、而非TSS之區域的P_I變化模式。圖8B顯示作為TSS、而非去氧核糖核酸酶超敏位點之區域的P_I變化模式。如所示，作為去氧核糖核酸酶超敏位點、但非TSS的區域之變化幅度比作為TSS、但非去氧核糖核酸酶超敏位點的區域高得多。此等觀測結果表明，影響血漿DNA片段化模式的一個因素為經受片段化之區域與去氧核糖核酸酶超敏位點的相對位置。

III.使用峰值及谷值確定組織比例

在已證明去氧核糖核酸酶超敏位點的相對位置為控制血漿DNA片段化模式之重要因素的情況下，吾等調查此觀測結果是否可轉變成臨床應用。已觀測到去氧核糖核酸酶超敏位點的型態在不同類型的組織中是不同的。型態對應於位點的基因組位置；去氧核糖核酸酶超敏位點的位置因組織不同而不同。因此，吾等推理自不同類型組織中釋放的血漿DNA將展現組織特異性片段化模式。以類似方式，可使用其中區域之幅度因組織而異的其他區域。

A.去氧核糖核酸酶超敏位點之實例

圖9顯示自不同組織釋放之DNA比例之量測原理的圖解。來源於組織A的血漿DNA在具有高P_I(峰值，由P表示)之核苷酸位置片段化的機率較低。因此，來源於組織A之血漿DNA的末端位於此等核苷酸位置的機率較低。相比之下，來源於組織A之血漿DNA的末端位於具有低P_I(谷值，由T表示)之核苷酸位置的機率較高。另一方面，由於此位點不為組織B的去氧核糖核酸酶超敏位點，因此來源於組織B之血漿DNA的P_I變化幅度較低。因此，來自組織B之血漿DNA之末端位於位置P與位置T的機率相似(至少相對於針對組織A所發現的變化量而言)。

吾等定義作為組織A之去氧核糖核酸酶超敏位點之區域的片段末端比率(FR_A)如下：

其中N_T為末端位於P_I谷值之核苷酸位置之血漿DNA片段的數目且N_P為末端位於P_I峰值之核苷酸位置之血漿DNA片段的數目。FR_A為分離值之一個實例，且更特定言之，末端位於谷值相對於末端位於峰值之DNA片段之相對豐度的一個實例。在其他實施例中，可測定相鄰谷值(局域最小值)與峰值(局域最大值)之各別比率，且可測定各別比率之平均值。

對於組織A而言，由於N_T大於N_P，因此FR_A大於1。對於組織B而言，由於N_T與N_P相似，因此FR_A為約1。因此，在含有來源於組織A與組織B之血漿DNA的混合物中，FR_A值與組織A的貢獻比例正相關。實務上，組織B之FR_A不必需為1。只要組織B之FR_A不同於組織A之FR_A，則兩種組織類型之貢獻比例可依據FR_A確定。

在此類區域中，DNA片段末端位於谷值之可能性的高度變化將導致末端位於此類位置之DNA片段的數目高於末端位於峰值(注意對於不同定義的相對豐度值而言，峰值出現的可能性較高)。當來自組織類型A的DNA片段更多時，末端位於谷值與峰值之DNA片段之數目差異更大。因此，隨著組織A的貢獻比例增加，末端位於谷值之DNA片段之數目與末端位於峰值之DNA片段之數目之間的分離更大。此分離值對應於圖9中針對組織A所示之似然函數的高幅度。

B.相對豐度與貢獻比例之間的關係

圖10顯示組織A之FR_A與組織A對混合物中之DNA之貢獻比例(利用來自組織A之DNA的已知比例濃度，根據兩個或多於兩個校準樣品的分析所確定)之間的關係。在所示實例中，分析組織A之貢獻比例為x₁及x₂的兩個樣品。兩個樣品之FR_A值分別測定為y₁及y₂。A之FR_A與貢獻比例之間的關係可基於x₁、x₂、y₁及y₂值確定。

值y1及y2為校準值之實例。資料點(x1,y1)及(x2,y2)為校準資料點之實例。可將校準資料點與函數擬合以獲得校準曲線1010，校準曲線1010可為線性的。當量測新樣品的新FR_A(或其他相對豐度值)時，可對新FR_A與至少一個校準值進行比較以確定新樣品之貢獻比例的分類。可以多種方式與校準值進行比較。舉例而言，校準曲線可用於找到對應於新FR_A之貢獻比例x。作為另一實例，可對新FR_A與第一校準資料點的校準值y1進行比較，以確定新樣品的貢獻比例是否大於或小於x1。

在其他實施例中，可類似地分析含有超過兩種組織類型之混合物中之組織A的貢獻比例，只要其他組織之FR_A相對恆定。此類方法實際上適用於分析不同臨床情形，例如(但不限於)癌症偵測、移植監測、創傷監測、感染及產前診斷。

在一個實施例中，可測定所影響組織在癌症患者血漿中的分率濃度。舉例而言，在肝癌患者中，可經由分析肝臟特異性開放染色質區域(例如去氧核糖核酸酶超敏位點)來測定肝臟DNA的作用分率。在一個實施例中，此可使用去氧核糖核酸酶-Seq進行(Boyle等人，Cell 2008；132：311-322；Madrigal等人，Front Genet 2012；16：123-131)。在另一個實施例中，此可藉由甲醛促進式調節元件分離(FAIRE)-Seq(Giresi等人，Genome Res 2007；17：877-885)進行。在又另一個實施例中，此可藉由ATAC-Seq(Buenrostro等人，Nat Methods 2013；10：1213-1218)進行。可測定此等位點的FR_肝且與正常健康個體進行比較。在肝臟特異性去氧核糖核酸酶超敏位點，峰值與谷值區域之間的P_I變化主要由肝臟引起。經由與類似於圖10之校準曲線的比較，可確定肝臟的作用。可將所測試個案之FR_肝值與健康個體肝臟之作用範圍進行比較。可使用末端位於基因組位置之DNA片段之似然函數在混合物中之不同組織之間具有高變化幅度的其他區域。此類其他區域之實例更詳細地描述於下文章節中。

類似地，可藉由此方法確定已接受器官移植之患者之所移植器官的作用。在先前研究中，顯示具有排斥反應之患者將導致所移植器官釋放DNA增強，使得來自所移植器官之DNA在血漿中的濃度升高。所移植器官之FR的分析為適用於偵測及監測器官排斥反應的方式。此類分析所用的區域可變化，此視所移植的器官而定。

在另一個實施例中，此方法可用於測定母親血漿中之胚胎DNA濃度。在母親血漿中，攜帶胚胎基因型的DNA分子實際上來源於胎盤。因此，若吾等關注胎盤特有、但不存在於血球中的去氧核糖核酸酶超敏位點，則吾等能夠經由FR_胎盤的分析來確定胎盤對血漿DNA的貢獻比例。

圖11根據本發明之實施例顯示母親血漿中之FR_胎盤與胚胎DNA百分比之間的相關性。豎軸對應於FR_胎盤，如利用位於一或多個去氧核糖核酸酶超敏位點的一或多個局域最大值及局域最小值所測定。水平軸為使用各別量測技術所量測的胚胎DNA含量。如所發現，FR_胎盤值與胚胎DNA含量相關。在此實例中，胚胎DNA含量係基於胚胎特異性等位基因在SNP的比例來確定，該等SNP對於母親而言為純合接合子且胎兒而言為雜合接合子。因此，可使用FR_胎盤、基於母親血漿DNA之定序結果估算胚胎DNA百分比。

或者，由於母親血漿中的兩種關鍵組分為來源於胎盤的DNA及來源於血球(不同組織類型)的DNA，吾等推論FR_血液與血漿中之胚胎DNA含量濃度負相關。從而，鑑別除血球特有的去氧核糖核酸酶超敏位點且測定FR_血液。

圖12顯示母親血漿中之FR_血液與胚胎DNA濃度之間的相關性。豎軸對應於FR_血液，如利用位於一或多個去氧核糖核酸酶超敏位點的一或多個局域最大值及局域最小值所測定。水平軸為胚胎DNA含量，其基於母親血漿中之胚胎特異性等位基因的比例所量測。FR_血液與胚胎DNA百分比之間觀測到負相關性。因此，可使用FR_血液、基於母親血漿DNA之定序結果估算胚胎DNA百分比。因此，基因組區域可具有多種組織類型所特有的片段化模式，例如一些組織的正相關性及其他組織的負相關性。

C.使用最大值及最小值的方法

圖13為根據本發明之實施例分析生物樣品以確定第一組織類型之貢獻比例之分類的方法1300的流程圖。生物樣品包括來自包括第一組織類型之複數種組織類型的游離DNA分子之混合物。如同本文所述之其他方法，方法1300可使用電腦系統。第一組織類型(例如肝臟組織或胚胎組織)可基於特定個體來選擇。舉例而言，若個體先前患有肝癌，則可進行篩選以檢查肝癌是否復發，此會使得肝臟組織的貢獻比例增加。此類選擇標準適用於本文所述之其他方法。

在步驟1310，鑑別具有第一組織類型所特有之片段化模式的至少一個基因組區域。作為實例，至少一個基因組區域可包括一或多個去氧核糖核酸酶超敏位點。具有第一組織類型所特有之片段化模式的至少一個基因組區域中的每一者可包括存在於至少一種其他樣品中的一或多個第一組織特異性等位基因，例如如章節VI中所述。作為另一實例，至少一個基因組區域可包括一或多個ATAC-seq或微球菌核酸酶位點。第一組織類型可對應於特定器官或甚至對應於器官之特定癌症。

在步驟1320，分析來自生物樣品的複數個游離DNA分子。分析游離DNA分子包括確定參考基因組中之對應於游離DNA分子之至少一個末端的基因組位置(末端位置)。從而，可確定兩個末端位置，或游離DNA分子的僅一個末端位置。

末端位置可以不同方式確定，如本文所述。舉例而言，游離DNA分子可經定序以獲得序列讀數，且可將該等序列讀數與參考基因組映射(比對)。若生物體為人類，則參考基因組將為潛在地來自特定亞群之參考人類基因組。作為另一實例，可利用不同探針(例如利用PCR或其他擴增)分析游離DNA分子，其中各探針對應於可涵蓋至少一個基因組區域的基因組位置。

可分析統計顯著數目個游離DNA分子以便對第一組織類型的貢獻比例提供準確的測定。在一些實施例中，分析至少1,000個游離DNA分子。在其他實施例中，可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或超過5,000,000個游離DNA分子。

在步驟1330，鑑別第一組第一基因組位置。具有游離DNA分子之末端之局域最小值的每個第一基因組位置對應於第一基因組位置。多個相鄰基因組位置可定義為局域極值(最大值或最小值)，且因此局域最大值不限於僅一個位置。

在一些實施例中，可測定複數個基因組位置中之每一者的比率。可確定末端位於基因組位置且在基因組位置之兩側延伸至少指定數目個核苷酸之游離DNA分子的第一量，例如如針對圖1所述。位於基因組位置之游離DNA分子的第二量可結合第一量使用以測定比率。可鑑別該等比率中的複數個局域最小值及複數個局域最大值，例如經由該等比率值分級以鑑別存在於每一個極值(最大值或最小值)處的一或多個鄰接基因組位置。

在步驟1340，鑑別第二組第二基因組位置。具有游離DNA分子之末端之局域最大值的每個第二基因組位置對應於第二基因組位置。第二組可以類似於第一組的方式鑑別。

在步驟1350，確定末端位於至少一個基因組區域中之任一者中之任一個第一基因組位置之游離DNA分子的第一數目。第一數目可以多種方式確定，例如作為跨越所有第一基因組位置的總和。作為另一實例，可確定每個基因組位置處的各別量。因此，確定游離DNA分子的第一數目可包括確定末端位於每個第一基因組位置的游離DNA分子之第一量，藉此確定複數個第一量。

在步驟1360，確定末端位於至少一個基因組區域中之任一者中之任一個第二基因組位置之游離DNA分子的第二數目。第二數目可以類似於第一數目的方式確定。因此，確定游離DNA分子的第二數目可包括確定末端位於每個第二基因組位置之游離DNA分子的第二量，藉此確定複數個第二量。

在步驟1370，使用第一數目及第二數目計算分離值。分離值可以多種方式計算，例如根據第一數目與第二數目的比率，如章節III.A中所述。在使用多個最大值及最小值的另一實施例中，可確定每個此類基因組位置處的量。計算分離值可包括確定複數個各別比率：複數個第一量之一及複數個第二量之一的每個各別比率。分離值可使用複數個各別比率確定，例如各別比率的平均值或中值。

在步驟1380，第一組織類型之貢獻比例的分類係藉由對分離值與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定，該等校準樣品中之第一組織類型的貢獻比例已知。

D.無擴增分析

步驟1310中之對游離DNA分子的分析可為無擴增分析。使用PCR 時，定序深度(亦即涵蓋特定核苷酸或末端位於參考基因組中之特定核苷酸的序列讀數之數目)不直接反映分析多少個涵蓋特定核苷酸之血漿DNA分子。此係因為一個血漿DNA分子在PCR過程中可產生多個複製物，且多個序列讀數可來源於單一血漿DNA分子。此複製問題在以下情況下變得更重要：i)用於擴增定序庫之PCR循環次數較高；ii)定序深度增加，及iii)原始血漿樣品中之DNA分子數目較少(例如血漿體積較小)。

此外，PCR步驟引入其他錯誤(Kinde等人，Proc Natl Acad Sci USA 2011；108：9530-9535)，原因為DNA聚合酶之保真度不為100%，且PCR子系股中偶爾會併入錯誤核苷酸。若此PCR錯誤出現在早期PCR循環期間，則會產生顯示相同錯誤之子代分子之純系。錯誤鹼基之分率濃度可在來自相同基因座之其他DNA分子中達到如此高之比例以致將錯誤誤譯為例如胎源或瘤源突變。無PCR方案之實例包括：Berry Genomics(investor.illumina.com/mobile.view？c=121127&v=203&d=1&id=1949110)；Illumina(www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)，及多種單一分子定序技術。無擴增分析之其他細節可見於PCT申請案第PCT/CN2016/073753號。

因此，一些實施例可包括自所分析的生物樣品獲得模板DNA分子；使用模板DNA分子製備可分析DNA分子的定序庫，該製備可分析DNA分子的定序庫不包括對模板DNA分子進行DNA擴增的步驟；對可分析DNA分子的定序庫進行定序以獲得對應於第一複數個游離DNA分子的複數個序列讀數。分析第一複數個游離DNA分子可包括在電腦系統上接收複數個序列讀數及藉由電腦系統對複數個序列讀數與參考基因組進行比對以確定複數個序列讀數的基因組位置。

IV.左核苷酸及右核苷酸之相對豐度

圖14顯示瘤源或胎源DNA之循環DNA片段之差異的原理圖解。在先前研究中，已顯示循環DNA尺寸緊密類似於核小體DNA尺寸。血漿DNA尺寸分佈之主峰166bp代表與組蛋白複合物之核心相關的DNA以及連接兩個連續組蛋白複合物的連接子DNA。

在癌症患者及孕婦之血漿中亦已觀測到胎源及瘤源DNA分子尺寸分佈比非瘤源DNA及非胎源DNA尺寸分佈短(Lo等人，Sci Transl Med 2010；2(61)：61ra91及Jiang等人，Proc Natl Acad Sci U S A 2015；112：E1317-25.)。就血漿中的瘤源DNA及胎源DNA尺寸分佈而言，166bp的峰減少且144bp的峰更顯著。144bp的峰可能歸因於連接兩個連續組蛋白複合物之約20bp連接子DNA的降解。

為了說明此方法的原理，吾等使用癌症患者情形作為實例。接著可將相同原理應用於其他情形，包括分析懷孕母親血漿中之循環中之胚胎DNA，及分析已接受移植之患者的血漿。實施例可分析血漿DNA分子之末端，在圖14中標示為左端及右端。

當來自非惡性組織的DNA片段化且釋放至血漿中時，兩個分子的連接末端均位於核苷酸位置A。換而言之，對於分子右側而言，最左側核苷酸剛好緊鄰核苷酸位置A。對於分子左側而言，最右側核苷酸亦剛好緊鄰核苷酸位置A。當末端位於特定核苷酸之分子的相對豐度相對於核苷酸座標作圖時，對於與此區域映射之左及最右側核苷酸而言，末端的豐度峰位於位置A。對於來源於腫瘤細胞的DNA分子而言，片段化過程之後，自分子中移除20bp片段。

因此，右邊分子之左側與左邊分子之右側之間存在20bp之間隙。當末端位於特定核苷酸之分子的相對豐度相對於核苷酸座標作圖時，最右側核苷酸的峰值(位於B)與最左側核苷酸的峰值(位於C)相隔20bp。因此，末端位於核苷酸位置B及C之分子的豐度與末端位於位置A之分子的豐度之間的比率代表血漿樣品中之瘤源DNA的分率濃度。

相同原理可應用於定量具有差異性尺寸分佈的DNA種類，例如(但不限於)量測孕婦血漿中之胚胎DNA及量測來自所移植器官之DNA。

圖15為分析生物樣品之方法1500的流程圖，該生物樣品包括來自複數種組織類型之游離DNA分子的混合物，該等組織類型包括第一組織類型。方法1500的一部分可用於實施步驟1310及鑑別偏好末端位置的其他步驟。

在步驟1510，分析游離DNA分子以確定參考基因組中的左端及右端位置。步驟1510可以類似於步驟1320的方式進行。在步驟1510，可分析來自個體生物樣品的第一複數個游離DNA分子，其中第一複數個游離DNA分子中的每一者具有左端及右端。可確定參考基因組中之對應於游離DNA分子左端的左端位置，例如藉由將DNA片段的序列讀數與參考基因組比對(映射)或經由位置在參考基因組中已知的探針。左端可指任一末端，此視選用於界定參考基因組的座標系統而定。類似地，可確定參考基因組中之對應於游離DNA分子右端的右端位置。兩個末端位置可利用兩個各別比對步驟確定，例如若兩個末端具有各別序列讀數。

在步驟1520，鑑別左邊一組左基因組位置。左組中的每個基因組位置具有對應於左組基因組位置之一之第一複數個游離DNA分子之左端的局域最大值。左組可以類似於針對方法1300之最大值所述的方式確定。

在步驟1530，鑑別右組之右基因組位置。右組中的每個基因組位置具有對應於右組基因組位置之一之第一複數個游離DNA分子之右端的局域最大值。右組可以類似於針對方法1300之最大值所述的方式確定。

在步驟1540，第一組基因組位置經鑑別為第一組織類型所特有的。可將左組中的全部或一部分左基因組位置與右組中的全部或一部分右基因組位置進行比較，以鑑別第一組基因組位置，其中左基因組位置至最近的右基因組位置的距離大於參考基因組中之基因組位置(例如核苷酸)的第一臨限距離。第一臨限距離之實例為5、6、7、8、9、10、15及20個核苷酸。

在步驟1550，鑑別第二組基因組位置。可將左組中的全部或一部分左基因組位置與右組中的全部或一部分右基因組位置進行比較，以鑑別第二組基因組位置，其中左基因組位置至最近的右基因組位置的距離小於參考基因組中之基因組位置的第二臨限距離。第二臨限距離之實例為2、3、4及5個基因組位置(例如核苷酸)。

在步驟1560，利用末端位於左組基因組位置之一之第一複數個游離DNA分子的第一數目及末端位於右組基因組位置之一之第一複數個游離DNA分子的第二數目確定分離值。可確定第一數目與第二數目之間的分離值(例如相對豐度值)。

在一個實施例中，鑑別第一組基因組位置與第二組基因組位置的配對。配對可為彼此最接近之位置的配對。對於一或多對中的每一者而言，可確定末端位於第一基因組位置之游離DNA分子的第一量，且可確定末端位於第一基因組位置之游離DNA分子的第二量。游離DNA分子的第一量對應於複數個游離DNA分子的第一數目且游離DNA分子的第二量對應於複數個游離DNA分子的第二數目。舉例而言，第一量可總計為第一數目且第二量可總計為第二數目，且分離值可由第一數目及第二數目直接確定。作為另一實例，分離值可利用複數個比率確定，各比率包括配成一對的第一量及第二量。在各種實施例中，可利用比率的平均值或中值作為分離值。配對的相應第一量與第二量可以其他方式用於確定個別分離值，該等個別分離值用於確定總分離值。

在步驟1570，第一組織類型之貢獻比例的分類係藉由對分離值與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定，該等校準樣品中之第一組織類型的貢獻比例已知。步驟1570可以類似於貢獻比例之其他確定方式的方式進行。

在各種實施例中，作為第一組基因組位置，可使用左組與右組；可僅使用左組；可僅使用右組；或可使用左組中的一些及右組中的一些。對於全組左位置而言，存在一小組左位置，該小組左位置與對應的右組位置相隔臨限數目個核苷酸。因此，可利用該小組左位置或對應小組的右位置進行計算。

V.組織特異性末端位置的用途

吾等假設來源於癌細胞、胎盤細胞及細胞類型之循環DNA的片段化模式不同。基於此假設，位於循環DNA片段之一或兩個末端之末端核苷酸的座標可用於預測攜帶假定突變的DNA片段是否實際上來源於腫瘤。可在血漿DNA片段中鑑別到癌症特異性及懷孕特異性末端位置。

A.使用肝細胞癌(HCC)的癌症實例

為了說明此方法的可行性，分析肝細胞癌(HCC)患者及孕婦之血漿DNA的定序資料。出於說明之目的，分析集中於染色體8。相同方法可應用於全基因組或任何其他染色體。

確定各定序血漿DNA片段之兩個末端之末端核苷酸的座標。接著對末端位於染色體8上之各核苷酸上之片段的數目計數。HCC個案及孕婦中確定前1百萬個核苷酸，末端位於該等核苷酸的DNA片段數目最高。前一百萬可視為高於臨界值。

圖16為文氏圖，其顯示HCC個案特有、孕婦特有及兩種個案所共有之頻繁末端位點之數目。HCC個案中特有之最頻繁末端位置之536,772個核苷酸的座標顯示於附錄A中。孕婦特有之最頻繁末端位置之536,772個核苷酸的座標列舉於附錄B中。兩種情況共有之最頻繁末端位置之463,228核苷酸的座標省略。

吾等推理其中末端核苷酸之末端恰好位於536,772個HCC特異性末端位置的血漿DNA片段更可能來源於腫瘤。基於此假設，末端位於HCC特異性末端位置之所定序血漿DNA片段的數目可用於指示具有相同血漿DNA片段化模式之HCC或其他癌症的存在或不存在。在另一個實施例中，此參數亦可用於反映癌症等級，例如(但不限於)腫瘤尺寸、癌症階段、腫瘤負荷及轉移之存在。

在又另一個實施例中，對於血漿中之腫瘤DNA含量已知的樣品而言，末端位於HCC特異性末端位置之片段的數目可與血漿中之癌源DNA的分率濃度相關。血漿中之腫瘤DNA含量可如下測定：例如(但不限於)定量血漿中之癌症突變或血漿DNA中之失常複本數之量級(Chan等人，Clin Chem 2013；59：211-24)。此相關性可用作校準曲線(圖1)。對於血漿中之腫瘤DNA含量未知的患者而言，可確定末端位於HCC特異性末端位置之DNA片段的量。接著，可基於校準曲線及末端位於HCC特異性末端位置之DNA片段的量來測定血漿中的腫瘤DNA含量。在一個實施例中，末端位於HCC特異性末端位置之DNA片段的量可相對於所定序之DNA片段的總數、可比對讀數之總數或與某些染色體區域比對之DNA片段的數目標準化。因此，末端位於癌症特異性位置之所定序DNA片段的比例可用作參數。

圖17顯示校準曲線，其顯示末端位於癌症特異性末端位置之所定序DNA片段之比例與血漿中之腫瘤DNA含量已知之癌症患者之血漿中之腫瘤DNA含量之間的關係。此概念圖顯示腫瘤DNA含量與末端位於癌症特異性末端位置之序列DNA片段之比例之間的校準曲線相關性。校準曲線可藉由擬合自校準樣品所測定之資料點來確定，該等校準樣品的腫瘤DNA含量經由其他技術測定。

在本發明之另一個實施例中，可確定罹患不同癌症類型之患者的血漿DNA片段化模式。此等癌症患者之重疊末端可視為癌症特異性末端，而個別癌症類型之末端位置可視為特定癌症類型所特有的。對於懷疑患有癌症的任何個體而言，首先可對所定序的血漿DNA片段與癌症特異性末端位置進行比較以確定個體患有癌症的可能性。若個體可能患有癌症，則可分析所定序片段中的癌症類型特異性末端位置以確定個體最可能罹患的癌症。

在本發明的另一個實施例中，可確定來源於不同器官之DNA的末端位置且該等末端位置可用於確定血漿中之來自不同器官之DNA的相對作用。

B.胚胎實例

在另一個實施例中，此方法可用於測定母親血漿樣品中之胚胎DNA含量。校準曲線可根據首先測定之末端位於懷孕特異性末端位置之所定序血漿DNA片段之比例與胚胎DNA含量已知之許多母親血漿樣品中之胚胎DNA含量的相關性來建立。胚胎DNA含量可藉由多種方法測定，例如(但不限於)確定樣品中之胚胎特異性等位基因、定量雄性孕者之染色體Y上的靶標及分析胚胎特異性甲基化標記。對於胚胎DNA含量未知的懷孕血漿樣品而言，可測定末端位於懷孕特異性末端位置之所定序血漿DNA片段的比例。利用此資訊，基於校準曲線可測定所測試血漿DNA樣品中的胚胎DNA含量。

C.使用偏好末端位置的套組

在一些實施例中，提供用於分析生物樣品中之DNA的套組，該生物樣品含有複數個組織類型之游離DNA分子的混合物。套組可包含一或多個與附錄A及B中所列之基因組區域中之至少一段特異性雜交的寡核苷酸。在一個實施例中，套組包括一或多個與附錄A中所列之基因組區域中之至少一段特異性雜交的寡核苷酸用於測試個體之 HCC。在另一個實施例中，套組包括一或多個與附錄B中所列之基因組區域中之至少一段特異性雜交的寡核苷酸用於測試懷孕雌性，例如測定來自懷孕雌性之母親生物樣品中的胚胎DNA含量。

VI.利用多形現象進行的末端位置分析

在一些實施例中，可使用組織特異性等位基因鑑別具有組織特異性片段化模式的區域。舉例而言，胚胎特異性等位基因可如下鑑別：分析母親血漿樣品且比較所偵測之等位基因與在僅母親樣品中所偵測之等位基因，如本文所述。末端位於基因組位置之胚胎DNA分子之比率高於展現共有等位基因(亦即與胎兒及母親共有)之組織之比率的該等基因組位置可鑑別為具有胚胎組織特異性片段化模式。此等胚胎偏好末端位置可為或可不為去氧核糖核酸酶超敏位點，藉此顯示不同基因組區域可具有片段化模式之組織特異性幅度，且實施例不限於去氧核糖核酸酶超敏位點。可對供篩選腫瘤之個體樣品進行類似分析。

A.胚胎實例

可藉由分析來自孕婦之血漿DNA來獲得偏好末端位置。胎源及母源血漿DNA片段可經由基於多形性的方法區分。攜帶胚胎及母親特異性等位基因的片段可用於確定胎源及母源DNA之偏好末端位置。

在此研究中，藉由知情同意書，自香港威爾斯親王醫院婦產科(Department of Obstetrics and Gynaecology,Prince of Wales Hospital,Hong Kong)募集妊娠38週之懷有雄性單胞胎之孕婦。血液樣品在4℃以1,600g離心10分鐘。收集血漿部分且在4℃以16,000g再離心10分鐘以移除血球。血球部分以2,500g再離心，且移除任何殘餘血漿。分別用QIAamp DNA血液小型套組及QIAamp DSP DNA血液小型套組(Qiagen)之血液及體液方案自血細胞提取DNA及自母親血漿提取DNA。根據製造商之組織方案，用QIAamp DNA小型套組(Qiagen)自胎盤提取DNA。使用Illumina TruSeq非PCR庫製備方案對定序庫進行定序。使用短寡核苷酸比對程式2(Short Oligonucleotide Alignment Program 2；SOAP2)、以末端配對方式(Li等人，Bioinformatics 2009；25：1966-1967)分析配對末端定序資料。將配對末端的讀數與非重複遮蔽的參考人類基因組(Hg19)比對。每個末端之比對允許至多2個核苷酸錯配。接著分析2個末端之此等潛在比對的基因組座標以確定任何組合是否允許2個末端以正確取向與相同染色體比對、跨越600bp之插入尺寸，及與參考人類基因組中之單一位置映射。母親血漿樣品的定序深度為單倍體人類基因組的270×覆蓋率。使用相同定序方案，母親血球、父親血球及臍帶血細胞的定序深度分別為40×、45×及50×單倍體人類基因組覆蓋率。

為此目的，分析母親血漿DNA中的多次出現的末端序列。

1.胚胎特異性末端位置之鑑別

經由使用非PCR擴增庫對母親血漿DNA樣品進行極高深度的定序，吾等研究母親及胚胎基因組中是否可能存在優先裂解以產生血漿DNA的位點。為了展現此作用，鑑別母親為純合接合子(基因型標示為AA)且胎兒為雜合接合子(基因型標示為AB)的具有信息量的SNP基因座。在此說明性實例中，B等位基因為胚胎所特有的且A等位基因為母親與胎兒共有的。代表性實例顯示於圖18中。作為對照，顯示自血球獲得且使用音波人工片段化之DNA樣品的定序結果。

在血漿DNA中觀測到非隨機片段化模式。在成為DNA片段之一末端之機率的圖中，觀測到攜帶胚胎特異性等位基因及與母親共有等位基因之兩組片段中的每一者出現三個峰值。此等峰值分別代表母親血漿中之胎源DNA及母源DNA之末端位置的熱點。此兩組之間的峰位置基本上重疊。相比之下，音波處理DNA之片段化模式似乎為隨機的且片段末端機率在整個區域中為相似的。

圖18顯示攜帶胚胎特異性等位基因及母親與胎兒共有之等位基因之血漿DNA之非隨機片段化模式的說明性實例。在圖的上部，各水平線代表一個所定序的DNA片段。DNA片段的末端代表所定序讀數的末端位置。根據最左側核苷酸之座標(最小基因組座標)分選片段。在圖的下部，顯示末端位於特定位置的片段之百分比。X軸代表基因組座標且SNP位於由虛線指示的中心。

吾等進一步搜尋使成為血漿DNA片段之末端位置之機率增加的座標。吾等的搜尋重點基於涵蓋具有信息量的SNP的片段，以便攜帶胚胎特異性等位基因及母親與胎兒共有之等位基因的片段可分開評價。吾等使用泊松機率函數(Poisson probability function)確定人類基因組內之某些位置成為血漿DNA片段之末端位置的機率是否顯著增加。為了分析母親為純合接合子(基因型AA)且胎兒為雜合接合子(基因型AB)的SNP，A等位基因為「共有型等位基因」且B等位基因為胚胎特異性等位基因。對攜帶共有型等位基因及胚胎特異性等位基因之定序讀數的數目進行計數。在血漿DNA的尺寸分佈中，在166bp觀測到胎源與母源DNA均出現峰值。若血漿DNA之片段化為隨機的，則兩個末端均勻分佈於具有信息量的SNP之上游166bp及下游166的區域中。

可計算p值，以基於泊松機率函數來確定特定位置成為攜帶共有型等位基因或胚胎特異性等位基因之讀數之末端的機率是否顯著增加。

p值=泊松(N_實際，N_預測)

其中泊松()為泊松機率函數；N_實際為末端位於特定核苷酸之讀數的實際數目；且N_預測為讀數除以166的總數。p值<0.01用作定義攜帶胚胎特異性等位基因或共有型等位基因之讀數之偏好末端位置的截止值。獨立地確定攜帶共有型等位基因及胚胎特異性等位基因之DNA片段的統計顯著性末端位置(圖19)。可使用其他機率分佈，例如二項式分佈、負二項式分佈及正態分佈。

圖19顯示在具有具有信息量的SNP的整個區域中，基因組座標成為母親血漿DNA片段之末端位置之機率的圖。核苷酸位置成為攜帶共有型等位基因及胚胎特異性等位基因之血漿DNA片段之末端的機率顯著增加的結果分別用紅色及藍色顯示。X軸代表基因組座標且突變位於由虛線指示的中心。如所示，對於僅胚胎特異性等位基因、僅共有型等位基因而言(且一些為兩者共有)，存在末端位置出現率較高的座標。

吾等鑑別出總共4,131個(A組)及10,021個(B組)核苷酸位置，此等核苷酸位置分別成為攜帶胚胎特異性等位基因及共有型等位基因之血漿DNA片段之末端的機率顯著增加。C組為重疊組且含有4,258個核苷酸位置(圖3)。此等末端位置獲自跨越總計1.42 Mb且涵蓋4,303 SNP的區域。因此，胚胎特異性片段之偏好末端位置在所分析區域中佔0.29%。末端位於A組、B組及C組位置之攜帶胚胎特異性等位基因的血漿DNA片段分別存在24,500、22,942及31,925個。末端位於A組、B組及C組位置之攜帶共有型等位基因的血漿DNA片段分別存在27,295、158,632及87,804個。偏好末端位置的數目或盛行率預期高得多且出現於其他基因組座標。

如本文所述的基於多形現象之方法僅鑑別與此胚胎-母親對之具有信息量的SNP相關的偏好末端位置。因此，所鑑別之偏好末端代表基因組中的一小組此類末端。吾等已開發出不基於多形現象來鑑別偏好末端的方法。實際上，使用不基於多形現象之方法鑑別更多個偏好末端方法。請參考下述其他實驗。

圖20顯示跨越SNP之血漿DNA片段之末端位置的分析，該等SNP在母親中為純合接合子且在胎兒中為雜合接合子。A組包括攜帶胚胎特異性等位基因之片段的偏好末端位置。B組包括攜帶共有型等位基因之片段的偏好末端位置。C組包括兩種類型之血漿DNA片段的偏好末端位置。

使用相同原理，吾等進一步分析跨越SNP之母源DNA片段的末端位置，該等SNP在母親中為雜合接合子(基因型AB)且在胎兒中為純合接合子(基因型AA)。吾等鑑別出總共7,527個(X組)及18,829個(Y組)核苷酸位置，其成為分別攜帶胚胎特異性等位基因及共有型等位基因之血漿DNA片段之末端位置的機率顯著增加。Z組為重疊組且含有10,534個位置(圖4)。此等末端位置獲自跨越總計3.1 Mb且涵蓋9,489個SNP的區域。因此，母親特異性片段之偏好末端位置在此對母親與胎兒之所分析區域中佔0.24%。末端位於X組、Y組及Z組位置之攜帶母親特異性等位基因的血漿DNA片段分別存在69,136個、82,413個及121,607個。末端位於X組、Y組及Z組位置之攜帶共有型等位基因的血漿DNA片段分別存在46,554個、245,037個及181,709個。此外，此分析關注至少涵蓋具有信息量的SNP之血漿DNA分子，所鑑別的偏好末端僅代表整個基因組中的一小組此類非隨機末端。

圖21顯示跨越SNP之血漿DNA片段之末端位置的分析，該等SNP在胎兒中為純合接合子且在母親中為雜合接合子。X組包括攜帶母親特異性等位基因之片段的偏好末端位置。Y組包括攜帶共有型等位基因之片段的偏好末端位置。Z組包括兩種類型之血漿DNA片段的偏好末端位置。

2.使用多次出現的末端位置推導胚胎DNA含量

鑑別來源於母親及胎兒之血漿DNA片段的多次出現的末端位置之後，吾等推理末端位於此等核苷酸位置組之血漿DNA的相對豐度將反映胚胎DNA含量。為了證實此推論，吾等對26位各懷有男胎之前三月懷孕(10至13週)女性的血漿DNA進行定序。映射讀數中值計數為 1600萬(範圍：1200-2200萬)。與染色體Y比對之定序讀數的比例用於計算各血漿樣品中的實際胚胎DNA含量。具有多次出現的胚胎(A組)及母親(X組)末端之血漿DNA之相對豐度(標示為F/M比率)與胚胎DNA含量之間可觀測到正相關性(R=0.63，P=0.0004，皮爾森相關性(Pearson correlation)，圖22)。令人感興趣的是，雖然偏好末端位置係基於一對胎兒與母親之具有信息量的SNP鑑別且僅呈現基因組中的一小組此類末端，但所鑑別的末端與其他孕婦亦相關且甚至僅使用此小組偏好末端，亦可達成與胚胎分率的相關性。

圖22顯示具有多次出現的胚胎(A組)及母親(X組)末端之血漿DNA分子之相對豐度(比率(F/M))與胚胎DNA含量之間的相關性。每個資料點可對應於相應校準樣品，且因此視為校準資料點。擬合校準資料點的線為校準函數的一個實例。

可使用除A組及X組之外的其他組。舉例而言，比率(或其他相對豐度或比率函數)可視為A組相對於C組及A組相對於B組。作為另一實例，比率可視為X組與Z組或X組與Y組之間的比率，其提供母親DNA含量，母親DNA含量可假設為胚胎DNA含量的倒數。在此實例中，母親組織可為貢獻比例已確定(即使隱含)的第一組織類型。

3.尺寸使用

末端位於胚胎特異性末端位置之血漿DNA片段的尺寸分佈提供位置具有胚胎特異性的進一步證據。為了進一步證明A組及X組位置分別為胎源及母源DNA片段的偏好末端位點，吾等比較末端位於此等兩組位置之血漿DNA的尺寸分佈。在此等位置所來源的樣品中，末端位於A組位置之片段的尺寸分佈較短，比末端位於X組位置之片段的尺寸分佈短(圖23A)。

圖23A顯示末端位於胚胎偏好末端位置之片段(A組)(藍色)及末端位於母親偏好末端位置之片段(X組)(紅色)的血漿DNA尺寸分佈。末端位於A組位置之片段的尺寸分佈經觀測比末端位於X組位置的片段短。圖23B顯示兩組片段之尺寸分佈的累積圖。圖23C顯示兩組片段之累積頻率的差異(△S)相對於片段尺寸的關係。圖23D顯示△S相對於尺寸的關係，其中A組及X組末端位置向具有較大基因組座標的位置偏移零至5bp。圖23E顯示△S相對於尺寸的關係，其中A組及X組末端位置反向(具有較小基因組座標的位置)偏移零至5bp。

為了進一步定量尺寸分佈的差異，對兩種曲線的累積頻率作圖(圖23B)。兩種曲線的差異(由△S表示)繪製於圖23C中。吾等觀測到在166bp觀測到最大差異。此與先前報導一致之處在於，可在166bp觀測到胎源DNA與母源DNA之間的最大差異(Yu等人，Proc Natl Acad Sci U A.2014；111：8583-8)。本發明研究結果表明，相較於末端位於母親偏好末端位置(X組)之彼等物，末端位於胚胎偏好末端位置(A組)之片段的胎源DNA得到增濃。

吾等進一步調查此等末端位置的特殊性：A組及X組末端位置在基因組上游或下游偏移1bp至5bp。△S值相對於尺寸作圖，其中A組及X組末端位置向兩個方向偏移(圖23D及圖23E)。正偏移數表示向具有較大基因組座標的位置偏移(圖23D)且負偏移數表示向具有較小基因組座標的位置偏移(圖23E)。胚胎偏好位置及母親偏好位置偏移甚至1bp將使末端位於此等兩組位置之DNA片段之間的差異(△S)顯著縮小。5bp之偏移幾乎完全排除尺寸差異。此等結果表明，末端位於替代位置的讀數不如末端位於藉由吾等算法所鑑別之彼等偏好末端位置之讀數那樣具有胚胎特異性或母親特異性。此等資料進一步支持吾等解釋：血漿DNA分子片段或游離DNA分子片段或非常準確地在彼等偏好末端位置發生裂解。換而言之，在彼處，游離DNA非隨機片段化過程準確降至特定核苷酸的層面。

接著，吾等分析來自26個前三月期血漿樣品(胚胎DNA含量分析中所用)的混合定序讀數。末端位於A組位置之片段的尺寸分佈經觀測比末端位於X組位置的片段短(圖24A)。

圖24A顯示來自26位前三月期孕婦之末端位於胚胎偏好末端位置(A組)之片段(藍色)及末端位於母親偏好末端位置(X組)之片段(紅色)之混合血漿DNA樣品中的血漿DNA尺寸分佈。末端位於A組位置之片段的尺寸分佈經觀測比末端位於X組位置的片段短。圖24B顯示兩組片段之尺寸分佈的累積圖。圖24C顯示兩組片段之累積頻率的差異(△S)相對於片段尺寸的關係。圖24D顯示△S相對於尺寸的關係，其中A組及X組位置偏移零至5bp(較大基因組座標)。圖24E顯示△S相對於尺寸的關係，其中A組及X組位置反向(較小基因組座標)偏移零至5bp。末端位於兩組位置之血漿DNA片段之間的尺寸差異(△S)將隨著此等位置的偏移而減小，表明此等位置將準確地達到單核苷酸層面。

B.癌症實例

相同策略亦可應用於分析癌源片段的偏好末端位置。在此實例中，吾等對罹患肝細胞癌(HCC)之患者的血漿(220x覆蓋率)、白血球層(48x)及腫瘤組織(45x)進行定序。藉由比較腫瘤組織與白血球層之基因型來獲得患者的突變型態。為了確定癌源血漿DNA片段的偏好末端位置，吾等分析攜帶癌症突變的血漿DNA片段。如圖24A至24E中所示，HCC患者中之血漿DNA之片段化模式不為隨機的。某些核苷酸位置成為血漿DNA片段之末端的機率增加。

1.癌症特異性末端位置之鑑別

圖25顯示HCC患者血漿DNA之非隨機片段化模式的一個說明性實例。在圖的上部，各水平線代表一個所定序的DNA片段。紅線及藍線分別表示攜帶野生型及突變型等位基因的DNA片段。DNA片段的末端代表所定序讀數的末端位置。根據最左側核苷酸之座標(最小基因組座標)分選片段。在圖的下部，顯示末端位於特定位置的片段之百分比。X軸代表基因組座標且突變位於由虛線指示的中心。

吾等使用泊松機率分佈函數來鑑別成為攜帶突變型等位基因及野生型等位基因之血漿DNA片段之末端的機率增加的基因組位置，如先前所述。0.01之p值用作臨界值。反之亦然，如PCT申請案第PCT/CN2016/073753號中所述，亦即當鑑別具有特定末端的血漿DNA分子時，分子上的SNP等位基因或突變更可能來源於癌症、與疾病相關或與懷孕相關，此取決於哪組末端用於血漿DNA資料解釋。

圖26為基因組座標成為跨越具有突變位點之區域之血漿DNA片段之末端位置的機率之圖。核苷酸位置成為攜帶野生型等位基因及突變型等位基因之血漿DNA片段之末端之機率顯著增加的結果分別以紅色及藍色顯示。X軸代表基因組座標且突變位於由虛線指示的中心。如所示，對於僅突變特異性等位基因、僅野生型等位基因而言(且一些為兩者共有)，存在末端位置出現率較高的座標。

圖27A顯示跨越基因組位置之血漿DNA片段之末端位置的分析，其中突變存在於腫瘤組織中。E組包括攜帶突變型等位基因之片段的偏好末端位置。F組包括攜帶野生型等位基因之片段的偏好末端位置。G組包括兩種類型之血漿DNA片段的偏好末端位置。

2.使用多次出現的末端位置推導腫瘤DNA含量

由於E組位置為癌源DNA之偏好末端位點且F組位置為主要來源於非腫瘤組織之背景DNA之偏好末端位點，因此吾等假設末端位於此等兩組位置之片段之間的比率與來源於腫瘤的DNA相關。因此，吾等分析71位HCC患者之血漿，其血漿含有至少1%瘤源DNA。此等患者之血漿DNA的複本數失常先前已分析且藉由複本數失常的量級來估算腫瘤DNA含量。(Jiang等人，Proc Natl Acad Sci U S A.2015；112：E1317-25)。末端位於此等兩組位置之片段之間的比率(比率_M/WT)定義為：

圖27B顯示71位HCC患者血漿中之比率_M/WT與腫瘤DNA含量之間的相關性。觀測到血漿中之比率_M/WT與腫瘤DNA含量之間正相關(r=0.53，p<0.001，皮爾森相關性)。此等結果表明，末端位於此等癌症偏好末端位置的片段之數目適用於預測癌症患者血漿中之瘤源DNA的量。

一些實施例可增加可近接之具有信息量的癌症DNA片段之數目，此係藉由組合偵測多種癌症特異性或癌症相關變化(例如單一核苷酸突變)以及癌症特異性或癌症相關DNA甲基化標記(例如5-甲基胞嘧啶及羥甲基化之位置)、癌症特異性或癌症相關短血漿DNA分子、癌症特異性或癌症相關組蛋白修飾標記，及癌症特異性或癌症相關血漿DNA末端位置。某些癌症特異性或癌症相關變化可在鑑別突變時用作過濾準則。

VII.多形現象非依賴性末端位置分析

在其他實施例中，偏好末端位置可如下獲得：(A)比較得自不同個體之血漿DNA片段的末端位置或(B)比較在不同時間點得自一位個體之樣品中之血漿DNA片段的末端位置。

A.罹患不同病理學及生理學病狀之個體中之偏好末端位置之間的比較 1.使用高於臨界值的排除組

基於泊松分佈機率函數，吾等已鑑別出成為先前章節中所述之孕婦及HCC患者之血漿片段之末端位置之機率增加的基因組位置。在此分析中，虛無假設為所有血漿DNA片段發生隨機片段化，以致每個基因組位置成為血漿DNA片段之末端的機率相等。血漿DNA片段的平均尺寸假設為166bp。p值如下計算：p值=泊松(N_實際，N_預測)

其中泊松()為泊松機率函數；N_實際為末端位於特定核苷酸之讀數的實際數目；且，分母中的3×10⁹代表基因組中的核苷酸數目。

使用本傑明(Benjamini)及霍赫貝格(Hochberg)校正(Bejamini等人，Journal of the Royal Statistical Society,1995；57：289-300)調整p值以便達成<1%的預期錯誤發現率(false-discovery rate；FDR)。

圖28A顯示孕婦及HCC患者之血漿DNA之偏好末端位置的數目。P組含有孕婦中偏好的2900萬個末端位置。Q組含有HCC患者中偏好的600萬個末端位置。S組為重疊組且含有1500萬個末端位置。

吾等假設，與末端位於孕婦偏好末端位置(P組)的彼等片段相比，末端位於HCC偏好末端位置(Q組)的片段將因癌源DNA而增濃。

因此，吾等如下計算比率_HCC/Preg

且此比率與71位上述HCC患者中之腫瘤DNA含量相關。

圖28B顯示71位HCC患者血漿之比率_HCC/Preg與腫瘤DNA含量之間觀測到正相關性。此等結果表明，末端位於特定病狀之偏好末端位點之片段的數目或比例可適用於偵測病狀或定量自患病器官釋放之DNA的量。

2.使用末端比率較高的基因組位置組

在另一個實施例中，偏好末端位點可藉由測定末端位於此位置之片段之數目與涵蓋該位置、但末端不位於其之片段之數目的比率來鑑別。圖29A說明偏好末端終止比率(PETR)之計算。

圖29A顯示PETR概念之說明。每條線代表一個血漿DNA片段。此等片段標記為g。片段a、b、c及d末端位於所關注之核苷酸。片段e、f及g涵蓋所關注之核苷酸，但末端不位於此位置。在此說明性實例中，PETR等於4/3，亦即1.33。在其他實施例中，分母可為涵蓋該核苷酸之DNA片段之數目，不論DNA片段末端是否位於該位置。

PETR之計算可用於鑑別在罹患不同疾病病狀之個體中為偏好末端的核苷酸位置。以下實例展現PETR之效用。比較上述HCC患者及感染慢性B型肝炎病毒(HBV)、但無癌症之個體(HBV帶原者)的血漿樣品。對帶原者之血漿DNA樣品定序至215x單倍體基因組覆蓋率。計算每位個體之每個基因組位置的PETR。相較於HBV帶原者，在HCC患者中鑑別出7,350,067個基因組位置(H組)具有至少4倍高的PETR。相較於HBV帶原者，在HCC患者中，此等位置成為血漿DNA片段之末端的機率增加至少4倍。可使用其他差異倍數，例如1.5倍、2倍及3倍。

對來自11位獨立HCC患者的血漿樣品進一步定序至低得多的定序深度。自此等11個血漿樣品獲得2800萬個定序讀數之平均值。計算此等11位HCC患者中每一者之7,350,067個H組位置的平均PETR且與血漿中之腫瘤DNA含量相關。基於血漿中之複本數失常之量級來計算血漿中之腫瘤DNA含量，如先前所述(Chan等人，Proc Natl Acad Sci U S A.2015；112：E1317-25)。

圖29B顯示11位HCC患者之血漿中之腫瘤DNA含量與H組位置之PETR之間的相關性。可觀測到兩種參數之間的正相關性，表明HCC偏好(H組)位置之平均PETR適用於指示血漿中之腫瘤DNA的量。

3.確認末端位置與肝臟相關

為了顯示存在於HCC血漿DNA樣品中或存在於HBV血漿DNA樣品中之偏好末端位置與肝臟相關，吾等搜尋在手術移除HCC之前及之後自患者收集之血漿樣品中該等偏好末端位置的存在。資料顯示於表 1中。手術前及手術後樣品分別定序至17x及20x單倍體基因組覆蓋率。

表1顯示在移除HCC患者中之肝臟腫瘤之手術之前及之後所收集之血漿樣品中的HCC偏好末端位置及HBV偏好末端位置。

如可在表1中所見，HCC偏好末端位置與HBV偏好末端位置之數目均減少。HBV資料表明大部分偏好末端位置來源於肝臟且其減少歸因於手術後的肝細胞塊減少。因此，釋放至血漿中的肝源游離DNA分子減少。令人感興趣的是，注意到手術前樣品中之更多HCC偏好末端位置在手術後消失超過5倍。手術後消失之一些偏好末端來源於肝臟。鑒於相同手術前樣品中偵測到HCC偏好末端比HBV偏好末端更多，表明彼等末端中大部分具有HCC特異性且一般不僅僅與肝臟相關。

許多應用可來源於此等資料。資料表明，游離DNA或血漿DNA偏好末端的偵測可用於癌症治療監測。舉例而言，偏好末端之手術後減少表明手術成功移除HCC。若腫瘤未完全或成功移除，則血漿DNA偏好末端的量或數量在手術之後未顯示實質性減少。此原因在於，剩餘腫瘤或轉移病灶為持續釋放具有HCC偏好末端位置之游離DNA或血漿DNA的來源。資料顯示，基於游離DNA偏好末端之分析的治療監測可在相對較淺的定序深度達成。

資料亦顯示，組織相關或癌症相關血漿DNA偏好末端位置可用於鑑別病理學組織，包括具有癌症的組織。舉例而言，可使用來源於不同器官的多組游離DNA偏好末端。接著能夠測定來源於不同組織之游離DNA的相對量。因此，此可充當游離DNA組織解迴旋的方法。藉由此方法顯示大幅度偏離(顯著增加或顯著減少)利用對照樣品所確立之參考值的組織將為患有病理學(例如發炎或病毒感染，正如慢性B型肝炎病毒帶原者)或癌症的器官或組織。

藉由支持血漿DNA HCC偏好末端具有癌症特異性或HCC特異性的另一件證據，吾等研究顯示HCC偏好末端或HBV偏好末端之血漿DNA分子之尺寸分佈(圖30)。

圖30顯示在末端位於HCC偏好末端、HBV偏好末端或所共有末端之血漿DNA分子當中所偵測到之短DNA(<150bp)的比例。圖30顯示展現HCC偏好末端之血漿DNA分子比顯示HBV偏好末端之彼等物通常短得多(短DNA比例高)。Jiang等人(Jiang等人，Proc Natl Acad Sci U S A.2015；112：E1317-25)先前使用另一種方法顯示瘤源血漿DNA分子比非腫瘤背景DNA短。由於具有HCC偏好末端之血漿DNA分子短得多，因此其很可能來源於腫瘤。因此，可改良以甚至更低之定序深度偵測具有HCC偏好末端之血漿DNA分子的機率，可富集具有短DNA的樣品。

4.窗基末端比率

在另一個實施例中，可延伸HCC偏好位置以包括相鄰核苷酸。圖31A說明此方法。測定末端位於窗A內之片段之數目與末端位於窗B內之片段之數目之間的窗基PETR(w-PETR)比率。可調整窗A及窗B之尺寸以達成所要效能。不同窗尺寸之效能可以實驗方式獲得。可設定窗A之尺寸，例如(但不限於)5bp、6bp、7bp、8bp、9bp、10bp、15bp、20bp、25bp及30bp。窗B之尺寸大於窗A之尺寸且可加以設定，例如(但不限於)20bp、25bp、30bp、40bp、50bp、60bp、70bp、80bp、100bp、120bp、140bp、160bp、180bp及200bp。在以下說明性實例中，窗A及窗B之尺寸分別設定為20bp及150bp。

圖31A顯示w-PETR之原理說明。w-PETR值係依末端位於窗A與窗B內之DNA片段數目之間的比率計算。當實施標準PETR時，窗A更大且可具有寬度1。窗B顯示更大。兩個窗顯示均集中於偏好末端位置，但可使用窗之其他定位。在一些實施例中，窗A可對應於偏好末端窗。

圖31B顯示11位HCC患者之腫瘤DNA含量與w-PETR值之間的相關性。此等結果表明w-PETR適用於測定癌症患者血漿中之瘤源DNA的量。

5.每個樣品使用最高末端位置

吾等比較來自一位孕婦、一位慢性B型肝炎病毒帶原者(HBV)、一位肺癌患者及兩位HCC患者之前1百萬最頻繁呈現之游離DNA末端位置的資料。在HCC患者中，使用非PCR方案製備一位個案(HCC)之定序庫且使用基於PCR之方案製備其他樣品(HCC(PCR)。使用非PCR方案製備所有其他樣品。圖32顯示與臍帶血漿樣品(210x單倍體基因組覆蓋率)相比，每個研究樣品之血漿樣品中所偵測到之一般共有偏好末端位置的比例。

圖32顯示與臍帶血漿樣品(210x單倍體基因組覆蓋率)相比，每個研究樣品之血漿樣品中所偵測到之一般共有偏好末端位置的比例。使用PCR所偵測之孕婦、HCC、HBV、肺癌及HCC中每一者之常染色體顯示百分比。

高共有程度再次支持血漿DNA片段化不為隨機過程的概念。HCC及HCC(PCR)資料顯示，可使用庫製備方案聯合或不聯合PCR進行偏好末端位置分析。令人感興趣的是注意到，未顯示共同末端的血漿DNA分子仍存在一定的比例。非共同末端為代表生理學狀態(例如孕婦、胎兒或胎盤之樣品)或疾病狀態(例如癌症)之偏好末端。血漿DNA偏好末端之更詳細比較顯示於圖33中。

圖33顯示文氏圖，其顯示在兩個或多於兩個樣品中通常觀測到之偏好末端位置之數目以及僅在任一個樣品中觀測到之數目。以175x 單倍體基因組覆蓋率對肺癌患者之血漿DNA定序。

依據圖33，值得注意的是，115,305個偏好末端為所有三種樣品共有的。此等末端可能來源於背景血漿DNA之主要來源，例如血球。分析亦顯示，HCC患者及肺癌患者之血漿樣品中觀測到61,035個偏好末端位置。此等偏好末端可為多種癌症共有的。因此其來源於癌症。儘管存在僅在HCC患者(479,766個末端)或肺癌患者(749,237個末端)之血漿DNA分子中偵測到的末端，但不存在在兩者中均偵測到的末端。因此此等偏好末端顯示較高的特殊程度。其為特定癌症組織類型所特有的。基於相同理論基礎，能夠使用類似淘選策略來鑑別特定器官及特定組織學類型之癌症所特有的末端。展現不同類末端之血漿DNA分子可用於不同應用。舉例而言，可旨在偵測HCC或肺癌特異性末端以便直接偵測或篩選特定癌症類型。一般而言，可使用HCC及肺癌樣品共有的末端來偵測或篩選癌症。可使用大部分通用的共同末端作為分母用於所偵測之疾病相關偏好末端之量的標準化。通用共同末端的偵測亦可出於篩選任何疾病之徵象之目的(諸如一般健康篩選)。此類測試之陽性結果可充當報警以訪視從醫者便於更詳細的調查。

B.在自相同個體、但在不同時間點收集之樣品之間、在偏好末端位置之間進行的比較

特定病狀之偏好末端位置亦可藉由比較在不同時間點所收集之樣品片段末端來獲得。舉例而言，在癌症患者中，可在診斷時收集一個血漿樣品且可在治療後收集其他樣品(例如手術切除腫瘤之後)。末端位置的差異可潛在地反映癌源DNA對癌症之治療或身體反應缺乏作用。在另一實例中，可在胎兒分娩之前及之後對自孕婦收集之血漿樣品進行比較。

在以下實例中，分析自8個孕婦收集的血漿樣品。對於各孕婦而言，分娩之前收集血漿樣品。在8位女性之6者中，在分娩時收集另一個血漿樣品。分娩之後6小時自八位孕婦收集多個樣品且收集到總共28個分娩後血漿樣品。依6.49x單倍體基因組覆蓋率之平均深度對血漿DNA樣品定序。將分娩之前及分娩時收集之樣品的定序讀數混合在一起用於PETR分析且此等讀數稱為「分娩前讀數」。將分娩之後6小時或隨後收集樣品的定序讀數混合用於PETR分析且此等讀數稱為「分娩後」讀數。為了鑑別作為孕婦偏好末端之核苷酸位置，檢索「分娩前」讀數之PETR比「分娩後」讀數高至少4倍的位置。鑑別出總共45,281個位點。

募集一組獨立的8位前三月期孕婦(各懷有男胎)且對其血漿DNA定序。自此等血漿DNA樣品獲得2000萬個定序讀數之中值。針對8位孕婦中的每一者測定45,281個位點的平均PETR值且此等值與血漿中之胚胎DNA含量相關，胚胎DNA含量係利用與Y染色體比對之讀數比例估算(Chiu等人，BMJ 2011；342：c7401)。

圖34A顯示血漿之胚胎DNA含量與經由「分娩前」血漿DNA樣品與「分娩後」血漿DNA樣品之間的比較所鑑別之一組位置之平均PETR之間的相關性。此等結果表明，所鑑別的該組位置為胎源DNA之偏好位置且PETR分析適用於定量母親血漿中之胚胎DNA。

類似於先前所述方法，吾等已對此組孕婦偏好位置應用w-PETR分析。窗A及窗B之尺寸分別設定為20bp及150bp。在其他實施例中，可使用其他窗尺寸。

圖34B顯示血漿之胚胎DNA含量與經由「分娩前」血漿DNA樣品與「分娩後」血漿DNA樣品之間之比較所鑑別之一組位置上之平均w-PETR之間的相關性。此等結果表明，對此等孕婦偏好位置的w-PETR分析適用於定量母親血漿中之胚胎DNA。

C.相同病狀之間的共同末端點

吾等比較兩位孕婦之血漿中之前1百萬個最頻繁觀測到的偏好末端位置(圖35A)。

圖35A顯示在妊娠18週(懷孕個體1)及妊娠38週(懷孕個體2)之兩位孕婦當中最頻繁觀測到之前1百萬個血漿DNA偏好末端位置。資料顯示此等女性共有217,947個偏好末端。鑒於兩位女性懷孕，因此此等末端來源於胎兒、胎盤或在孕期期間細胞死亡增加(產生血漿DNA)的器官。此等標記因此最適用於監測懷孕或胎兒健康。

吾等計算此樣品組之PETR值。有趣的是，觀測到兩個母親血漿樣品中之血漿DNA分子之PETR值之間存在相關性(皮爾森比率=0.52，p值<0.0001)(圖35B)。

圖35B顯示在兩位孕婦之血漿中最頻繁觀測到之前1百萬個偏好末端位置之PETR值的比較。高相關度再一次表明血漿DNA片段化高度協同。一些末端位點比其他位點更「偏好」。有趣的是，即使在前1百萬個「最偏好」位點當中，存在相對較寬的PETR動態範圍。若欲選擇若干或一小組偏好末端用於靶向偵測(例如測試疾病)，則應選擇所關注之疾病群組中普遍共有的彼等末端，理想的是，在無疾病之對照組中未觀測到或不太盛行的彼等末端，尤其具有極高PETR之彼等末端位置。

VIII.使用組織特異性末端位置的方法

圖36為根據本發明之實施例分析生物樣品以確定第一組織類型在混合物中之貢獻比例之分類的方法3600之流程圖。生物樣品包括來自包括第一組織類型之複數種組織類型的游離DNA分子之混合物。

在步驟3610，鑑別第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的第一組基因組位置。關於步驟3610的其他細節以及鑑別偏好末端位置之其他步驟見於章節X.B中。其他方法之其他步驟的細節亦可見於章節X中。

在步驟3620，分析得自個體生物樣品之第一複數個游離DNA分子。分析游離DNA分子包括確定參考基因組中之對應於游離DNA分子之至少一個末端的基因組位置。步驟3620可以類似於分析游離DNA分子之其他步驟(例如步驟1320)的方式進行。

在步驟3630，確定末端位於複數個窗之一內之第一複數個游離DNA分子的第一數目。基於第一複數個游離DNA分子的分析來進行測定。每個窗包括第一組基因組位置中的至少一個。

在步驟3640，計算末端位於複數個窗之一內之第一複數個游離DNA分子的相對豐度。可藉由使用游離DNA分子的第二數目標準化第一複數個游離DNA分子的第一數目來測定相對豐度。第二數目個游離DNA分子包括末端位於第二組基因組位置之游離DNA分子，第二組基因組位置位於包括第一組基因組位置之複數個窗的外部。

如針對圖27A所述，第二組基因組位置可使得第二組織類型之游離DNA分子之末端以高於臨界值的比率出現於至少一個其他樣品中，其中第二組織類型具有存在於至少一個其他樣品中之複數個第二組織特異性等位基因。第二組基因組位置可使用至少一個其他樣品中的游離DNA分子測定，該至少一個其他樣品包括複數個第二組織特異性等位基因中的至少一個。由於確定圖27B所用之兩個組中可排除G組，因此第一組織類型與第二組織類型之間具有共有型等位基因之游離DNA分子之末端所在的基因組位置可自第一組基因組位置中排除且自第二組基因組位置中排除。

在步驟3650，第一組織類型之貢獻比例的分類係藉由對相對豐度與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定，該等校準樣品中之第一組織類型的貢獻比例已知。

若貢獻比例高，則可採取進一步行動，諸如對個體進行治療性干預或成像(例如若第一組織類型對應於腫瘤)。舉例而言，研究可使用成像模式，例如可對個體(完整個體或身體的特定部分(例如胸部或腹部)，或尤其候選器官)進行電腦化斷層攝影(CT)掃描或磁共振成像(MRI)以證實或排除個體中之腫瘤的存在。若證實腫瘤存在，則可進行治療，例如手術(藉由手術刀或藉由輻射)或化學療法。

可根據所確定的癌症等級、所鑑別的突變及/或組織來源來提供治療。舉例而言，可使用特定藥物或化學療法靶向所鑑別之突變(例如在多形性實施例中)。組織來源可用於導引手術或任何其他治療形式。且癌症等級可用於確定侵襲性程度以便任何類型之治療，其亦可基於癌症等級確定。

IX.確定基因型

鑒於可確定特定組織類型的偏好末端位置，因此末端位於此類偏好末端位置的游離DNA分子有較高可能性來自該組織。在一些情形下，游離DNA混合物中的特定組織類型在特定基因組位置可具有不同於其他組織類型的基因型。舉例而言，胚胎組織或腫瘤組織可具有不同基因型。由於游離DNA分子有較高可能性來自所關注的組織類型，因此可分析末端位於此位置的游離DNA分子以確定該組織類型在該位置的基因型。以此方式，偏好末端位置可作為過濾器用於鑑別來自組織類型的DNA。

A.胚胎基因型

關於所定序血漿DNA片段之末端位置的資訊可用於確定哪個母親等位基因已遺傳給孕婦之胎兒。在此，吾等使用假想實例說明此方法之原理。吾等假定母親、父親及胎兒之基因型分別為AT、TT及TT。為了確定胚胎基因型，吾等需要確定胎兒是否已繼承母親的A或T等位基因。吾等先前已描述一種方法，稱為相對突變劑量(RMD)分析(Lun等人，Proc Natl Acad Sci USA 2008；105：19920-5)。在此方法中，比較母親血漿中之兩個母親等位基因的劑量。若胎兒已繼承母親T等位基因，則胎兒的T等位基因為純合接合子。在此情境下，與A等位基因相比，T等位基因過度呈現於母親血漿中。另一方面，若胎兒已自母親繼承A等位基因，則胎兒的基因型為AT。在此情境下，A及T等位基因以約相同劑量存在於母親血漿中，原因為母親與胎兒的AT均為雜合接合子。因此，在RMD分析中，比較母親血漿中之兩個母親等位基因的相對劑量。可分析所定序讀數之末端位置以便改良RMD方法之準確度。

圖37顯示攜帶不同等位基因(其與接近胚胎特異性末端位置之參考基因組比對時)之母親血漿DNA分子。實線之分子來源於母親且虛線之分子來源於胎兒。胚胎DNA分子的末端更可能位於懷孕特異性末端位置。在一個實施例中，末端位於懷孕特異性末端位置的分子在RMD分析中可賦予更多權重。在另一個實施例中，僅末端位於懷孕特異性位置的血漿DNA片段用於下游分析中。此選擇可潛在地增濃胎源血漿DNA片段用於下游分析。

圖37顯示基因型為AT之孕婦中的血漿DNA分子。來源於母親組織之DNA片段為實線且來源於胎兒之DNA片段為虛線。胚胎DNA分子的末端更可能位於懷孕特異性末端位置。

在此說明性實例中，末端位於懷孕特異性末端位置的兩種分子均攜帶T等位基因。在一個實施例中，僅末端位於懷孕特異性末端位置的兩種分子用於下游分析且胚胎基因型推導為TT。在另一個實施例中，攜帶T等位基因之兩種胎源分子在RMD分析中被賦予較高權重，原因為此兩種分子的末端位於懷孕特異性末端位置。可向末端位於懷孕特異性末端位置的分子賦予不同權重，例如(但不限於)1.1、1.2、1.3、1.4、1.5、2、2.5、3及3.5。

作為一個實例，確定基因座是否為雜合接合子之準則可為兩個等位基因之臨界值，其各自以與基因座比對之讀數的至少預定百分比(例如30%或40%)呈現。若一個核苷酸以足夠百分比(例如70%或大於 70%)呈現，則基因座可在CG中確定為純合接合子。

B.癌症基因型

可對癌症特異性末端位置進行類似技術。舉例而言，癌症偏好末端位置可如上文所述鑑別。可鑑別且分析末端位於癌症偏好末端位置的游離DNA分子。與此位置對應(例如比對)的鹼基可根據此組中的每個游離DNA分子確定，且可計算各鹼基的總鹼基百分比。舉例而言，可測定在末端位於該位置之游離DNA分子上所發現之Cs的百分比。若個體之健康組織中未發現C，則C可鑑別為突變；若鑑別出足夠數目個Cs(例如高於臨限數目)，則其可與樣品中之所量測腫瘤DNA含量相關。

C.過濾技術

除使用末端位置之外的其他準則可用於過濾來自腫瘤組織的游離DNA分子。在胚胎情形中，亦可使用其他準則。

可藉由對其中一或多個具有突變之序列讀數已比對的基因座應用過濾準則來改良鑑別癌症基因型(例如包括癌症特異性突變)的專一性及使用此類基因型的任何測試(例如利用突變負荷來確定癌症等級)。作為癌症之一實例，高專一性可藉由將遺傳或基因組標記評為陽性(僅在遺傳或基因組標記與癌症相關的信賴度較高時)而達成。此可藉由使可能誤鑑別為突變之定序及比對錯誤之數目最小化來達成，例如藉由與一組健康對照者之基因組型態比較；且/或可藉由與個人自身組成性DNA比較來達成且/或可藉由與較早時間之個人基因組型態比較來達成。

可應用各種準則作為過濾準則來評估游離DNA片段來源於腫瘤且因此為合格具有信息量的癌症DNA片段的可能性。每個過濾準則可個別地、獨立地使用，以相等權重或不同權重共同使用，或以指定順序或有條件地連續使用，此視先前過濾步驟之結果而定。對於條件性使用，可使用基於貝葉斯(Bayesian)之方法，以及基於分類或決策樹之方法。標準的個別使用可意謂使用僅一種標準。與以特定順序進行之連續應用相反，獨立使用可涉及超過一種過濾準則，但每種過濾準則不依賴於另一過濾準則之應用(例如可並行應用)。作為使用權重之共同使用之一實例，可使用機器學習技術。舉例而言，監督學習可使用分類已知之樣品之所量測突變負荷來訓練任何模型。得自許多個體(例如數百、數千或數百萬)之定序資料可用於訓練模型。在更簡單的形式中，可使用此類已知樣品，根據利用判定突變是否有效的過濾準則所測定之一或多個分數來確定臨界值。

若DNA片段顯示超過一種癌症特異性變化，則可向DNA片段賦予資訊量或癌症特異性之較高稱重。舉例而言，多種癌症總體上為低甲基化的，尤其非啟動子區域。已顯示血漿中之癌症DNA比非癌症DNA短。瘤源血漿DNA片段傾向於在一些特定位置片段化。因此，尺寸較短(例如<150bp)(Jiang等人，Proc Natl Acad Sci USA 2015；112：E1317-1325)，一個或兩個末端落在癌症相關之末端位置上的血漿DNA片段顯示單一核苷酸突變，且局域化至非啟動子區域，且具有視為更可能與癌症相關之低甲基化CpG位點。低甲基化DNA之偵測可使用亞硫酸氫鹽DNA轉化或可將甲基-胞嘧啶與非甲基-胞嘧啶區分之直接單一分子定序來實現。在本申請案中，吾等描述在鑑別具有信息量的癌症DNA片段時提高專一性的方法、方案及步驟。舉例而言，可利用一或多種過濾準則提高專一性。舉例而言，可利用一或多種過濾準則提高專一性，諸如提高至至少約80%、90%、95%或99%之專一性。

1.使用血漿DNA末端位置

如上文所述，可基於末端核苷酸(末端位置)之座標對潛在癌症特異性或癌症相關或胚胎突變進行過濾。如上文所述，吾等已鑑別出 DNA片段中不為隨機的且基於組織來源發生變化的末端位置。因此，末端位置可用於確定具有推定突變之序列讀數實際上來自胚胎組織或腫瘤組織的可能性。

最近，已顯示血漿DNA之片段化模式為非隨機的(Snyder等人，Cell 2016；164：57-68及PCT WO 2016/015058 A2)。血漿DNA片段化模式受以下影響：細胞基因組中對血漿DNA分子發揮作用的核小體定位、轉錄因子結合位點、去氧核糖核酸酶切割或超敏位點、表現型態(Snyder等人，Cell 2016；164：57-68及PCT WO 2016/015058；Ivanov等人，BMC Genomics 2015；16增刊13：S1)及DNA甲基化特徵(Lun等人，Clin Chem 2013；59：1583-1594)。因此，片段化模式因細胞的組織來源不同而不同。雖然存在顯示更頻繁片段之基因組區域，但區域內之實際血漿DNA切割位點可仍為隨機的。

吾等假設不同組織與具有不同切割位點或末端位置之血漿DNA片段之釋放相關。換而言之，甚至特異性切割位點為非隨機的。實際上，吾等表明癌症患者中之一小組血漿DNA分子顯示與無癌症之患者不同的末端位置。一些實施例可使用具有此等癌症相關末端位置之血漿DNA分子作為具有信息量的癌症DNA片段，或使用此類末端位置資訊作為過濾準則，例如與一或多種其他過濾準則一起。因此，在鑑別此類癌症相關血漿DNA末端位置之情況下，可將血漿DNA片段評為具有信息量的癌症DNA片段或基於此類片段之末端位置之性質而賦予差異性權重。此類準則可用於評估片段源自癌症、某些器官或某些器官之癌症之可能性。此類權重可用於修改特定DNA片段中之特定鹼基對在該位置所發現之特定鹼基之總百分比的作用。

因此，若其顯示推定突變及/或癌症相關的甲基化變化以及癌症相關的末端位置，則血漿DNA片段為具有信息量的癌症DNA片段的機率高得多。各種實施例亦可考慮此類片段之狀態及其長度，或此類參數與其他參數之任何組合。對於具有兩個末端(或潛在地至多四個末端，如以下章節中所述)的血漿DNA片段而言，藉由考慮其末端中之一或兩者是否與癌症相關或是否來自與癌症相關的組織類型，可進一步修改權重以便鑑別其為癌源片段。在一個實施例中，基於末端位置之類似方法亦可用於偵測與其他病理學或生物過程相關之突變(例如歸因於老化過程之突變或歸因於環境突變誘發因素之突變)。

亦可使用類似方法，藉由對懷有胎兒之孕婦之血漿中之DNA定序來鑑別胎兒之新生突變。因此，在鑑別胎盤所特有或相對特有之末端位置之後，若母體血漿中之此類DNA片段亦攜帶胎盤特有或胎盤增濃之末端位置，則可將較高權重賦予成為真實突變的推定胚胎新生突變。由於血漿DNA片段具有兩個末端，因此可藉由考慮其末端中之一者或兩者是否與胎盤相關來進一步修改權重以便鑑別其為胎源片段。

如圖16中所示，末端核苷酸之末端恰好位於536,772個HCC特異性末端位置的血漿DNA片段更可能來源於腫瘤。相比之下，末端核苷酸之末端恰好位於懷孕特異性末端位置或兩種個案所共有之位置的血漿DNA片段不大可能來源於腫瘤，其中懷孕特異性末端位置潛在地不大可能且在使用權重的任何實施例中賦予較低權重。

因此，HCC個案所特有之最多末端位置的清單可用於選擇癌症相關性突變，且懷孕個案所特有或兩種個案所共有之最多末端位置的清單可用於濾除假陽性突變。類似程序可用於鑑別胚胎突變及濾除假陽性突變以用於非侵襲性產前測試。

一般而言，為了鑑別此等生物學相關血漿DNA末端位置，可將來自有不同疾病或流行病學背景或生理學概況之個體群組之血漿DNA樣品與來自無此類疾病或背景或概況之另一組個體的樣品相比較。在一個實施例中，此等樣品中之每一者可深度定序，以便可鑑別各樣品內之血漿DNA片段之共同末端位置。在另一實施例中，來自具有互補概況之個體群組之序列資料可合併在一起以便鑑別代表疾病或生理學概況之共同末端位置。

樣品中之各血漿DNA片段可個別地詢問且基於末端位置賦予可能性分數。某一末端位置之可能性分數可依賴於末端位於標靶個體(例如癌症)之末端位置之序列讀數之量(例如序列讀數或其他值相對於所有樣品之定序深度標準化的百分比)相對於具有對照組之末端之序列讀數之量的分離。較大分離將產生較高專一性，且因此可應用較高可能性分數。因此，具有特異性末端位置之血漿DNA片段可分類成可能與疾病相關或無關、胚胎或母親等。

或者，來源於相同區域之血漿DNA片段可統一解釋，亦即末端位於特定核苷酸的比率可藉由相對於定序深度標準化來計算。以此方式，相對於基因組中之其他位置，某些核苷酸可鑑別共同末端位置，例如僅基於特定類型之一種樣品之分析，但可使用更多樣品。因此，具有特異性末端位置之血漿DNA片段可分類成可能與疾病相關或無關、胚胎或母親等。對於顯示具有此類生物學上相關血漿DNA末端位置之血漿DNA片段之較高頻率的位置而言，可作出以下確定：此類基因座中的生物學相關DNA增濃且因此作為與癌症相關或胎兒特異性或與其他疾病或生物學過程相關之可能性較高的一組血漿DNA片段包括在內。可能性程度可基於指定核苷酸相對於其他核苷酸之比率有多高的程度(以類似於在不同群組中進行比較的方式)，如上文所述。

2.結果

為了說明此方法之功效，直接利用HCC患者之血漿DNA定序資料鑑別潛在的癌症相關突變。存在於至少兩種血漿DNA片段之序列讀數中之單一核苷酸變化視為潛在癌症相關突變。亦對腫瘤組織進行定序且存在於腫瘤組織中之突變視為真實癌症相關突變。

利用HCC患者之血漿DNA定序資料而不使用動態截止值分析來鑑別8號染色體上的總共20,065個潛在突變。若序列變異體存在於至少兩個定序DNA片段中，則序列變異體將視為潛在突變。利用腫瘤組織之定序結果鑑別884個真實體細胞突變。20,065個推定突變包括884個真實突變中之802個(91%)。因此，僅4%的推定突變在腫瘤組織中為真實體細胞突變，從而得到4%之PPV。

為了增強偵測體細胞突變之準確度，藉此產生癌症基因型，吾等使用基於攜帶推定突變之序列讀數之末端核苷酸位置的以下過濾算法。(1).對於任何推定突變而言，若存在至少一個攜帶突變且末端位於HCC特異性末端位置之序列讀數，則突變適合供下游突變分析。(2).移除攜帶推定突變、但末端位於任何懷孕特異性末端位置或兩種個案所共有之位置的序列讀數。僅當基於此算法移除讀數之後存在兩個或多於兩個顯示相同突變之序列讀數時，突變才適合供下游突變分析。

應用上述1與2之過濾算法，獲得表2中之結果。基於攜帶推定突變之DNA片段之末端核苷酸之位置或末端位置應用不同過濾算法之效果。

採用需要末端位置為HCC特異性位置之三種算法中之任一者或濾除懷孕特異性或共有型位置之算法使得PPV實質上改良。藉由應用兩種算法，PPV增加至71%。

可鑑別各染色體或實際上另一基因組區域或實際上整個基因組中之HCC及懷孕相關末端位置的其他數目，例如(但不限於)50萬、2百萬、3百萬、4百萬、5百萬、6百萬、7百萬、8百萬、9百萬或1千萬。在各種實施例中，可確定一或多組癌症患者(各組為一種癌症類型)之血漿DNA分子中之最常見末端位置。此外，可確定無癌症個體之血漿DNA分子中的最頻繁末端位置。在一個實施例中，此等癌症患者及無癌症個體可進一步根據不同臨床參數(例如性別、抽菸狀態、先前健康(例如肝炎狀態、糖尿病、體重)等再分類。

作為使用此類過濾準則之一部分，可使用統計學分析來鑑別有較高機率成為不同生理學及病理學病狀之循環DNA之末端核苷酸或末端位置的位置。統計學分析之實例包括(但不限於)史都登氏t檢驗(Student t-test)、卡方檢驗(Chi-square test)及基於二項分佈或泊松分佈之檢驗。在此等統計學分析中，可使用不同p值截止值，例如(但不限於)0.05、0.01、0.005、0.001及0.0001。亦可調整p值截止值以用於多個比較。

D.基因型確定方法

圖38為根據本發明之實施例分析生物樣品以確定第一組織類型之基因型之方法3800的流程圖。生物樣品包括來自包括第一組織類型之複數種組織類型的游離DNA分子之混合物。第一組織類型潛在地具有與複數種組織類型中之其他組織類型不同的基因型。可確定多個基因組位置的基因型。

在步驟3810，鑑別第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的第一基因組位置。步驟3810可以類似於步驟3610的方式進行。章節X.B提供執行步驟3810之其他實例。

在步驟3820，分析得自個體生物樣品之第一複數個游離DNA分子。分析游離DNA分子包括確定參考基因組中之對應於游離DNA分子之至少一個末端的基因組位置。步驟3620可以類似於分析游離DNA 分子之其他步驟的方式進行。

在步驟3830，基於第一複數個游離DNA分子的分析來鑑別末端位於第一基因組位置的一組游離DNA分子。作為實例，可利用具有已知末端位置之所偵測探針之序列讀數的比對來鑑別該組。本文提供其他實例。

在一些實施例中，可進行進一步過濾，例如如上文所述。舉例而言，游離DNA分子的尺寸必需小於指定量，例如由於胚胎組織及腫瘤組織通常比來自健康細胞的DNA片段短。在一個實施例中，可過濾該組游離DNA分子以排除或修改末端位於第一基因組位置之至少一個游離DNA分子的權重。可使用一組經過濾的游離DNA分子來確定基因型。

在各種實施例中，過濾可利用以下至少一者：游離DNA分子之尺寸、游離DNA分子之一或多個位置的甲基化狀態(例如CpG位點是否甲基化或未甲基化)，及游離DNA分子是否涵蓋其中第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的一或多個其他基因組位置。甲基化狀態可提供第一組織類型之標記，如上文所述。

在步驟3840，對於該組游離DNA分子之每個游離DNA分子而言，確定存在於第一基因組位置的對應鹼基(核苷酸)。可確定具有各鹼基之分子的總數且可計算各鹼基的百分比。

在步驟3850，第一組織類型之第一基因組位置的基因型係利用該組游離DNA分子中之第一基因組位置存在的對應鹼基來確定。在各種實施例中，僅一個鹼基的高百分比(例如高於80%、85%或90%)可表示該鹼基的基因型為純合接合子，而具有類似百分比(例如30%至70%)的兩個鹼基可確定基因型為雜合接合子。因此，可將各鹼基的百分比與該基因型的截止值相比較。在一些實施例中，截止值可基於第一組織類型相對於樣品的貢獻比例來確定。

因此，在一些實施例中，確定第一組織類型在第一基因組位置的基因型可包括確定複數個鹼基中之每一者的貢獻百分比及將該等貢獻百分比中的每一者與一或多個截止值比較。在一個實例中，當第一鹼基之貢獻百分比高於第一截止值時，第一截止值可對應於第一鹼基之純合接合子基因型。在其他實例中，當第一鹼基及第二鹼基之貢獻百分比高於第一截止值且低於第二截止值時，第一截止值及第二截止值可對應於第一鹼基與第二鹼基之雜合接合子基因型。

在一些實施例中，步驟3830中所鑑別之組中之每個游離DNA分子可賦予權重。舉例而言，若游離DNA分子來自第一組織類型的可能性為80%，則可賦予權重0.8。針對特定鹼基之所有權重之總作用可求和以確定各鹼基之相應量。可利用相應量確定各鹼基之貢獻百分比，其中百分比可用於確定基因型。

因此，過濾可賦予游離DNA分子權重，此權重對應於游離DNA分子來自第一組織類型的可能性。可根據複數個鹼基(例如僅為所偵測之彼等鹼基，其可為2、3或4)中之每一者確定權重總和。若僅偵測到一個鹼基，則可確定該一個鹼基的純合接合子基因型。複數個鹼基中之每一者的貢獻百分比可利用權重總和來確定，其中基因型係利用貢獻百分比確定。

X.其他細節

上述多個實施例鑑別出特定組織之偏好末端位置，其中一些偏好末端位置可為鄰接的，藉此形成偏好末端窗。可利用不同的度量標準來鑑別游離DNA分子出現於基因組窗(例如最小窗之基因組位置)的比率。關於此類操作的其他細節以及關於確定游離DNA分子在參考基因組中之末端位置的細節提供於下文。此類特定技術可結合上述實施例使用。

A.確定末端位置

對游離DNA分子定序時，DNA片段之末端模式存在不同可能性。血漿DNA的末端通常存在四種組態：(A)具有兩個齊平末端的雙股DNA分子；(B)具有一個齊平末端及一個非齊平末端的雙股DNA分子(顯示兩種情形中之每一者，因為兩個股中之任一者可突出)；(C)具有兩個非齊平末端、具有突起末端之不同組合的雙股DNA分子；及(D)單股DNA分子。

在具有非齊平末端的組態中，存在不同模式，此視DNA分子的5'或3'端是否突出而定。對於(B)而言，雙股DNA分子具有一個齊平末端及一個非齊平末端。在一個實例B1中，5'端突出且在一個實例B2中，3'端突出。對於(C)而言，當兩個末端均不齊平時，存在三種可能模式。在(C1)中，兩側的5'端突出。在(C2)中，兩側的3'端突出。在(C3)中，一側的5'端突出且另一側的3'端突出。

就定序而言，配對末端的定序方案通常對每個股之一個末端定序。因此其視為雙股DNA定序方案。當兩個末端不齊平時，方案可切下末端中的核苷酸或添加核苷酸至末端以使其齊平。克列諾片段為可執行此類操作的酶。此領域中的其他方案係使用單股DNA定序方案。

不論所用特定技術(包括使用探針)，只要末端位置可重複且顯示相關性(如本文中所示)，DNA片段之真實末端是否以定序法獲得不影響結果，因為任何偏移為可重複的且因此抵消。另外，可利用某些技術鑑別末端位置，如術語章節中所述。

B.組織特異性末端位置之鑑別

如上文所述，在特定組織類型中，某些基因組區域相較於其他區域而言發生較大變化的可能性是游離DNA分子的末端位於特定位置。舉例而言，肝臟組織可具有作為去氧核糖核酸酶超敏位點的區域，但其他組織不具有作為去氧核糖核酸酶超敏位點的區域。因此，此區域內的某些位置將允許大量的游離DNA分子末端位於彼等位置上 (相對於其他位置)。作為實例，此類位置可根據已知對於特定組織而言具有高裂解量之區域之游離DNA分子之比率的最大值來鑑別(因此，似然函數的高幅度)，例如如章節III中所述。在其他實例中，可鑑別其中左峰與右峰足夠分開的基因組位置，例如如章節IV中所述。

在另外其他實例中，有病狀及無病狀(例如懷孕或癌症，可能為特定類型)之樣品之各組高比率末端位置(例如比率高於臨界值)的差異可用於鑑別與該病狀相關之特定組織類型的偏好末端位點，例如如章節V、VI及VII中使用文氏圖所述。然而作為其他實例，有病狀之樣品中的比率顯著高於無該病狀之另一個樣品可提供特定組織類型之偏好末端位點。在各種實施例中，此類實例技術中的一些或全部可一起使用。比率可藉由相對豐度之任何度量標準量測。

在上述方法之一些實施例中，第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的第一組基因組位置可用以下方式鑑別。校準樣品可以類似於測試樣品的方式分析，其中相同類型(例如血漿、血清、尿液等)之兩個樣品與校準樣品已知包括第一組織類型(例如孕婦胚胎組織樣品或HCC患者肝臟腫瘤組織)。可將末端位於基因組窗(例如一或多種寬度)內之游離DNA分子的數目與參考值比較以判定末端位置之比率是否高於該位置之臨界值。在一些實施例中，若比率超過參考值，則第一基因組窗內之每個基因組位置可根據比率高於臨界值來鑑別，此時對應數目超過參考值。此方法可鑑別包括偏好末端位置的偏好末端窗。

參考值可使得僅最多N基因組窗具有高於臨界值的比率。舉例而言，第一組基因組位置可具有針對對應數目的最高N值。作為實例，N可為至少10,000；50,000；100,000；500,000；1,000,000；或5,000,000。

作為另一實例，根據樣品中之游離DNA分子的機率分佈及平均長度，參考值可為末端位於基因組窗內之游離DNA分子的預期數目，例如如章節VI.A.1中所述。p值可使用對應數目及預期數目來確定，其中臨界值對應於截止p值(例如0.01)。p值小於截止p值表示比率高於臨界值。作為又另一個實例，參考值可包括來自樣品之末端位於基因組窗內之游離DNA分子的所測數目，該樣品經鑑別第一組織類型的量減少，例如如針對圖29A及圖29B所述。

滿足比率臨界值的基因組位置不一定添加至第一組基因組位置中。可添加進一步過濾準則。此類過濾準則之實例說明於章節VI.A.3及IX.C.中。就尺寸過濾準則而言，可量測游離DNA分子之尺寸(例如長度或質量)，例如如美國專利公開案2011/0276277、2013/0040824及2013/0237431中所述，所有該等案均以全文引用之方式併入。可確定末端位於經確定具有高於臨界值之比率之第一基因組窗(例如當窗具有一個寬度時之基因組位置)內之游離DNA分子之尺寸分佈的第一統計值。當第一統計值不超過尺寸臨界值時，可自第一組基因組位置中排除第一基因組窗的基因組位置，例如相較於較大範圍內之所有游離DNA分子或彼等物，平均尺寸不夠小或小DNA片段(例如低於指定尺寸)的數目不足。

可對經確定不具有高於臨界值之比率之游離DNA分子之尺寸分佈的第一統計值與第二統計值進行比較。若兩個值相似(例如預期不為胚胎或腫瘤組織)，則可自一組偏好末端位置中排除第一基因組窗。比較對應數目與參考值可包括計算對應數目與涵蓋一個樣品之基因組窗之任何部分且視情況末端不位於該基因組窗內之游離DNA分子之數目的第一比率(例如PETR)，如章節VII.A.2中所述。參考值可包括末端位於基因組窗內之讀數之所測數目與涵蓋其他樣品之基因組窗且末端不位於該基因組窗內之游離DNA分子之數目的參考比率。第一比率可能需要大於相乘因數(例如4)乘以參考比率。

另一過濾準則可為第一組基因組位置中之每個基因組位置可能需要具有末端位於基因組位置的至少指定數目個游離DNA分子。使用此等技術中的任一者，第一組基因組位置可包含600個與10,000個之間的基因組位置。

在各組之間呈現差異的實施例(例如使用文氏圖)中，比率(例如根據基因組窗確定)高於臨界值的基因組位置包含第一超組，例如如圖28A中的P組及S組所示。可對來自第一組織類型之量減少(例如胚胎組織或HCC組織較少或沒有，如圖28A中所描繪)之至少一個其他第二樣品的第三複數個游離DNA分子進行分析，以鑑別第二超組，例如Q組及S組。第一組基因組位置可包括屬於第一超組且不屬於第二超組中的基因組位置(例如P組或S組)，此視所分析的組織類型而定。

如章節VI中所述，第一組織類型可具有第一組織特異性等位基因。計數可由末端位於基因組位置且包括複數個第一組織特異性等位基因中之至少一者的游離DNA分子組成。可將游離DNA分子的此計數(數目)與參考值相比較。

C.相對豐度

本文提供相對豐度值之各種實例，例如完整機率(P_I)、章節VI.A.1中所述的p值，及使用基因組窗或當該窗具有一個寬度時之基因組位置所確定的PETR值。就基因組位置(一個寬度之窗)之PETR而言，可針對第一組基因組位置中每個基因組位置來計算末端位於基因組位置之第一複數個游離DNA分子的對應數目。此可作為確定末端位於第一組基因組位置中之任一者之第一複數個游離DNA分子之第一數目(例如分子)的一部分來進行。涵蓋基因組位置且末端不位於基因組位置之游離DNA分子的第三數目(例如分母)可作為確定游離DNA分子之第二數目的一部分來計算。可確定對應數目與第三數目之第一比率，且使用第一比率之平均值作為相對豐度。

就w-PETR而言，可針對第一組基因組位置中的每個基因組位置來計算包括末端位於基因組位置之第一窗(例如圖31A中之窗A)內的游離DNA分子之對應數目。可計算末端位於包括基因組位置之第二窗(例如圖31A中之窗B)內的游離DNA分子之第三數目。可使用對應數目與第三數目之第一比率的平均值作為相對豐度。

相對豐度值之另一個實例為末端位於基因組窗之游離DNA分子的比例，例如作為末端位於偏好末端位置之所定序DNA片段之比例來量測。因此，第二組基因組位置可包括對應於第一複數個游離DNA分子中之至少一者之末端的所有基因組位置。

D.校準值

在各種實施例中，校準值可對應於利用校準樣品所確定之校準資料點的校準值或自其(例如接近校準資料點之校準函數)確定的任何校準值。一或多種校準樣品可包括或可不包括用於確定偏好末端位點的任何其他樣品。

對於一或多種校準樣品中之每一者而言，可利用例如組織特異性等位基因量測第一組織類型之對應貢獻比例。對應相對豐度可使用末端位於對應於第一組基因組位置之複數個窗內之游離DNA分子的對應數目來確定。所量測貢獻比例及相對豐度可提供校準資料點。一或多個校準資料點可為形成接近複數個校準資料點之校準函數的複數個校準資料點。校準值使用的其他細節可見於美國專利公開案2013/0237431中。

E.貢獻比例之分類

在一些實施例中，特定組織的偏好末端位置亦可用於量測樣品中之特定組織類型的絕對作用，例如每單位體積(例如每毫升)之基因組數目。舉例而言，所關注組織之濃度可相對於游離DNA樣品之體積或重量來量測。在一個實施例中，可使用定量PCR量測單位體積或單位重量之所萃取之游離DNA樣品中的末端位於一或多個偏好末端之游離DNA分子之數目。可對校準樣品進行類似量測，且因此貢獻比例可以貢獻比例確定，因為作用為每單位體積或單位重量之濃度。

在第一組織類型對應於腫瘤組織的各種實施例中，分類可選自由以下組成之群：個體中之腫瘤組織之量、個體中之腫瘤尺寸、個體中之腫瘤階段、個體中之腫瘤負荷，及個體中之腫瘤轉移的存在。

XI.電腦系統

本文中提及之任何電腦系統均可利用任何適合數目個子系統。此類子系統之實例顯示於圖39之電腦設備10中。在一些實施例中，電腦系統包括單一電腦設備，其中子系統可為電腦設備之組件。在其他實施例中，電腦系統可包括具有內部組件之多個電腦設備，其各自為子系統。電腦系統可包括桌上型及膝上型電腦、平板電腦、行動電話及其他行動裝置。

圖39中所示之子系統經由系統匯流排75互連。顯示其他子系統，諸如列印機74、鍵盤78、儲存裝置79、與顯示器配接器82耦接之監視器76，及其他。與I/O控制器71耦接的周邊設備及輸入/輸出(I/O)裝置可藉由此項技術中已知之任意數目個連接件(諸如輸入/輸出(I/O)埠77(例如USB、FireWire^®)連接至電腦系統。舉例而言，I/O埠77或外部介面81(例如乙太網路、Wi-Fi等)可用於將電腦系統10連接至廣域網路(諸如網際網路)、滑鼠輸入器件或掃描儀。經由系統匯流排75互連允許中央處理器73與各子系統通信及控制系統記憶體72或儲存裝置79(例如固定碟，諸如硬碟機，或光碟)執行複數個指令，以及子系統之間的資訊交換。系統記憶體72及/或儲存裝置79可包括電腦可讀媒體。另一子系統為資料收集裝置85，諸如照相機、麥克風、加速計及類似物。本文所提及之任何資料可自一個組件輸出至另一個組件且可輸出至使用者。

電腦系統可包括複數個相同組件或子系統，例如藉由外部介面81或藉由內部介面連接在一起的多個相同組件或子系統。在一些實施例中，電腦系統、子系統或設備可經網路通信。在此等情況下，一個電腦可視為用戶端且另一個電腦視為伺服器，其中每一者可為同一電腦系統之一部分。用戶端及伺服器各自可包括多個系統、子系統或組件。

實施例之態樣可使用硬體(例如特殊應用積體電路或場可程式閘極陣列)、以邏輯控制形式實施及/或使用電腦軟體、使用普通可程式化處理器、以模組化或整合方式實施。如本文所用，處理器包括單核處理器、位於同一積體晶片上之多核處理器，或位於單一電路板上或網路化之多個處理單元。基於本文所提供之揭示內容及教示內容，一般熟習此項技術者將知道及瞭解使用硬體及硬體與軟體組合來實施本發明之實施例的其他方式及/或方法。

本申請案中所述之任何軟體組件或功能可使用例如習知或面向對象技術、以軟體程式碼形式實施，軟體程式碼係由使用任何適合電腦語言(諸如Java、C、C++、C#、Objective-C、Swift)或腳本處理語言(諸如Perl或Python)的處理器執行。軟體程式碼可以一系列指令或命令形式儲存於計算機可讀媒體上用於儲存及/或傳輸。適合的非暫時性電腦可讀媒體可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒體(諸如硬碟機或軟碟機)，或光學媒體，諸如光盤(CD)或DVD(數位化通用光碟)、快閃記憶體，及其類似物。電腦可讀媒體可為此類儲存或傳輸裝置之任何組合。

此類程序亦可使用經調適用於經由有線、光學及/或符合多種協定之無線網路(包括網際網路)傳輸的載波信號來編碼及傳輸。因而，電腦可讀媒體可使用經由此類程式編碼的資料信號建立。經程式碼編碼之電腦可讀媒體可與相容裝置一起封裝或與其他裝置分開提供 (例如經由網際網路下載)。任何此類電腦可讀媒體可存在於單一電腦產品(例如硬碟機、CD或整個電腦系統)上或其內部，且可存在於系統或網路內之不同電腦產品上或其內部。電腦系統可包括用於向使用者提供本文所提及之任何結果的監視器、列印機或其他適合顯示器。

本文所述之任何方法可完全或部分地使用電腦系統來進行，該電腦系統包括一或多個經組態可執行該等步驟的處理器。因此，實施例可關於經組態以執行本文所述任何方法之步驟的電腦系統，其潛在地具有執行相應步驟或相應步驟組的不同組件。儘管本文中方法之步驟以經編號之步驟呈現，但其可同時或以不同次序執行。另外，此等步驟之一部分可與其他方法之其他步驟之一部分一起使用。另外，步驟之全部或一部分可視情況存在。另外，任何方法中之任何步驟可使用用於執行此等步驟的模組、單元、電路或其他構件來執行。

特定實施例之具體細節可以任何適合方式組合而此組合不背離本發明實施例之精神及範疇。然而，本發明之其他實施例可關於與各個別態樣或此等個別態樣之特定組合相關的特定實施例。

本發明之實例實施例的以上描述已出於說明及描述之目的而呈現。不希望其為詳盡的或將本發明限於所述確切形式，且可根據以上教示內容進行諸多潤飾及變更。

除非有相反的特定說明，否則「一(a/an)」或「該(the)」之敍述意指「一或多個」。除非有相反的特定說明，否則「或」之使用意指「包括性的或」，而非「互斥性的或」。提及「第一」組件不一定需要提供第二組件。此外，提及「第一」或「第二」組件不限制所提及組件於特定位置，除非有明確陳述。

本文所提及之所有專利、專利申請案、公開案及描述均以全文引用之方式併入用於所有目的。不承認任一者為先前技術。

Claims

一種分析生物樣品的方法，該生物樣品包括來自包括第一組織類型之複數個組織類型之游離DNA分子的混合物，以確定該混合物中之該第一組織類型之貢獻比例的分類，該方法包含：鑑別該第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的第一組基因組位置；利用電腦系統分析來自個體生物樣品之第一複數個游離DNA分子，其中分析遊離DNA分子包括：確定參考基因組中之對應於該游離DNA分子之至少一個末端的基因組位置；基於對該第一複數個游離DNA分子的該分析，確定末端位於複數個窗之一內之該第一複數個游離DNA分子的第一數目，每個窗包括該第一組基因組位置中之至少一者；藉由使用游離DNA分子的第二數目標準化該第一複數個游離DNA分子的該第一數目來計算末端位於該複數個窗之一內之該第一複數個游離DNA分子的相對豐度，其中該第二數目個游離DNA分子包括末端位於第二組基因組位置的游離DNA分子，該第二組基因組位置位於包括該第一組基因組位置之該複數個窗的外部；及藉由對該相對豐度與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定該第一組織類型之該貢獻比例的該分類，該等校準樣品中之該第一組織類型的貢獻比例已知。
如請求項1之方法，其中鑑別該第一組基因組位置包括：利用電腦系統分析來自至少一個其他第一樣品的第二複數個游離DNA分子以鑑別該第二複數個游離DNA分子的末端位置，其中該至少一個其他第一樣品已知包括該第一組織類型且樣品類型與該生物樣品相同；對於複數個基因組窗之每個基因組窗而言：計算末端位於該基因組窗之該第二複數個游離DNA分子的對應數目；及比較該對應數目與參考值以確定末端位於該基因組窗內之一或多個基因組位置之游離DNA分子的比率是否高於該臨界值。
如請求項2之方法，其中該複數個基因組窗中之第一基因組窗具有大於一個基因組位置的寬度，且其中當該對應數目超過該參考值時，該第一基因組窗內之每一個基因組位置經鑑別末端位於該基因組位置之游離DNA分子的比率高於該臨界值。
如請求項2之方法，其中該第一組基因組位置的對應數目具有最高N值，其中N為至少10,000。
如請求項2之方法，其進一步包含：確定該第二複數個游離DNA分子中之每一者的尺寸，其中鑑別該第一組基因組位置進一步包括：確定該第二複數個游離DNA分子中之末端位於第一基因組窗內的游離DNA分子之尺寸分佈之第一統計學值，該第一基因組窗經確定具有高於該臨界值的比率；比較該第一統計學值與尺寸臨界值；及當該第一統計學值不超過該尺寸臨界值時，自該第一組基因組位置中排除該第一基因組窗。
如請求項2之方法，其中該一或多個校準樣品包括該至少一個其他第一樣品。
如請求項6之方法，其進一步包含：對於該一或多個校準樣品中之每一者而言：量測該第一組織類型之對應貢獻比例；及使用末端位於對應於該第一組基因組位置之該複數個窗內之該第二複數個游離DNA分子的對應數目來測定對應的相對豐度，藉此獲得校準資料點，其中每個校準資料點指明該其他生物樣品中之該第一組織類型的所量測貢獻比例及對應的相對豐度。
如請求項7之方法，其中該一或多個校準資料點為形成接近該複數個校準資料點之校準函數的複數個校準資料點。
如請求項2之方法，其中該第一組基因組位置中的每一個基因組位置具有該第二複數個游離DNA分子中之末端位於該基因組位置上之至少指定數目個游離DNA分子。
如請求項2之方法，其中根據該至少一個其他第一樣品中之游離DNA分子的機率分佈及平均長度，該參考值為末端位於該基因組窗內之游離DNA分子的預期數目。
如請求項10之方法，其中該機率分佈為泊松分佈(Poisson distribution)，且其中確定末端位於該基因組窗內之一或多個基因組位置上之游離DNA分子的比率是否高於該臨界值包括：使用該對應數目及該預期數目來確定對應p值，其中該臨界值對應於截止p值，該對應p值小於該截止p值表示末端位於該基因組窗內之游離DNA分子的該比率高於該臨界值。
如請求項2之方法，其中末端位於該基因組位置之該第二複數個游離DNA分子之比率高於該臨界值的基因組位置包含第一超組，且其中鑑別該第一組基因組位置進一步包括：利用該電腦系統分析來自至少一個其他第二樣品之第三複數個游離DNA分子，該至少一個其他第二樣品經鑑別具有減少量之該第一組織類型，以鑑別高於該臨界值、末端位於該基因組位置之該第三複數個游離DNA分子的第二超組；及將該第一組基因組位置鑑別為包括屬於該第一超組且不屬於該第二超組之基因組位置。
如請求項2之方法，其中該參考值包括末端位於該基因組窗內之游離DNA分子的所量測數目，該所量測數目係利用經鑑別不具有該第一組織類型之至少一個其他第二樣品中的第三複數個游離DNA分子確定。
如請求項13之方法，其進一步包含：確定該第二複數個游離DNA分子中之每一者的尺寸，其中鑑別該第一組基因組位置進一步包括：確定該第二複數個游離DNA分子中之末端位於第一基因組位置之游離DNA分子之第一尺寸分佈的第一統計學值，該第一基因組位置經確定具有高於該臨界值的比率；確定該第三複數個游離DNA分子中之末端位於一或多個第二基因組位置之游離DNA分子之第二尺寸分佈的第二統計學值，該等第二基因組位置經確定具有高於該臨界值的比率；比較該第一統計學值與第二統計學值；及當該第一統計學值不超過該第二統計學值至少指定量以表示該第一尺寸分佈小於該第二尺寸分佈時，自該第一組基因組位置中排除該第一基因組位置。
如請求項13之方法，其中比較該對應數目與該參考值包括：計算該對應數目與涵蓋該基因組窗之該第二複數個游離DNA分子之第三數目的第一比率；及比較該第一比率與該參考值，該參考值包括末端位於該基因組窗內之讀數之所量測數目與涵蓋該基因組窗且末端不位於該基因組窗內之該第三複數個游離DNA分子之第四數目的參考比率。
如請求項15之方法，其中該第二複數個中之該第三數目個游離DNA分子的末端不位於該基因組窗內。
如請求項15之方法，其中確定末端位於該基因組窗內之游離DNA分子的該比率是否高於該臨界值包括：確定該第一比率是否大於相乘係數乘以該參考比率。
如請求項2之方法，其中該生物樣品及該至少一個其他第一樣品的樣品類型係選自由血漿、血清、腦脊髓液及尿液組成之群。
如請求項2之方法，其中該基因組窗為基因組位置，且其中該第一組織類型具有複數個第一組織特異性等位基因，且其中計算末端位於該基因組位置之該第二複數個游離DNA分子的該對應數目包括：鑑別末端位於該基因組位置之該游離DNA分子是否包括該複數個第一組織特異性等位基因中之至少一者；當該游離DNA分子包括第一組織特異性等位基因時，包括該對應數目個該游離DNA分子；及當該游離DNA分子不包括第一組織特異性等位基因時，不包括該對應數目個該游離DNA分子。
如請求項1之方法，其中該第一組織類型具有存在於至少一個其他樣品中的複數個第一組織特異性等位基因，且其中該第一組基因組位置係使用該至少一個其他樣品中的包括該複數個第一組織特異性等位基因中之至少一者之游離DNA分子確定。
如請求項20之方法，其中該第二組基因組位置使得第二組織類型之游離DNA分子之末端以高於該臨界值的比率存在於該至少一個其他樣品中，其中該第二組織類型具有存在於該至少一個其他樣品中的複數個第二組織特異性等位基因，且其中該第二組基因組位置係使用該至少一個其他樣品中的包括該複數個第二組織特異性等位基因中之至少一者之游離DNA分子確定。
如請求項21之方法，其中該至少一個其他樣品來自孕婦，且其中該第一組織類型為胚胎組織且該第二組織類型為母親組織。
如請求項21之方法，其中具有該第一組織類型與該第二組織類型之間之共有型等位基因之游離DNA分子之末端以高於該臨界值之第二比率出現的基因組位置自該第一組基因組位置中排除且自該第二組基因組位置中排除。
如請求項1之方法，其中該相對豐度包括該第一數目與該第二數目之比率。
如請求項1之方法，其中該複數個窗具有一個基因組位置之寬度，且其中該相對豐度如下計算：對於該第一組基因組位置中之每個基因組位置而言：作為確定末端位於該第一組基因組位置中之任一者之該第一複數個游離DNA分子之該第一數目的一部分，計算末端位於該基因組位置之該第一複數個游離DNA分子的對應數目；作為確定游離DNA分子之該第二數目的一部分，計算涵蓋該基因組位置且末端不位於該基因組位置之該第一複數個游離DNA分子的第三數目；計算該對應數目與該第三數目之第一比率；計算該第一比率之平均值作為該相對豐度。
如請求項1之方法，其中該相對豐度如下計算：對於該第一組基因組位置中之每個基因組位置而言：作為確定末端位於該複數個窗之一內之該第一複數個游離DNA分子之該第一數目的一部分，計算末端位於包括該基因組位置之第一窗內之該第一複數個游離DNA分子的對應數目；計算末端位於包括該基因組位置之第二窗內之該第一複數個游離DNA分子的第三數目，該第二窗大於該第一窗；計算該對應數目與該第三數目之第一比率；計算該第一比率之平均值作為該相對豐度。
如請求項1之方法，其中該第二組基因組位置與該第一組基因組位置不重疊。
如請求項1之方法，其中該第二組基因組位置包括對應於該第一複數個游離DNA分子中之至少一者之末端的所有基因組位置。
如請求項1之方法，其中分析該等游離DNA分子中之一或多者包括確定對應於該游離DNA分子之兩個末端的兩個基因組位置。
如請求項1之方法，其中該貢獻比例的分類對應於高於指定百分比的範圍。
如請求項1之方法，其中該第一組織類型為腫瘤。
如請求項31之方法，其中該分類係選自由以下組成之群：該個體中之腫瘤組織之量、該個體中之該腫瘤之尺寸、該個體中之該腫瘤之階段、該個體中之腫瘤負荷，及該個體中之腫瘤轉移的存在。
如請求項1之方法，其中該一或多個其他生物樣品來自該個體且在不同於該生物樣品的時間獲得。
如請求項1之方法，其進一步包含：自待分析的該生物樣品獲得模板DNA分子；使用該等模板DNA分子製備可分析DNA分子之定序庫，可分析DNA分子之該定序庫之該製備不包括該等模板DNA分子之DNA擴增之步驟；對可分析DNA分子之該定序庫進行定序，以獲得對應於該第一複數個游離DNA分子的複數個序列讀數，其中分析該第一複數個游離DNA分子包括：在該電腦系統上接收該複數個序列讀數；利用該電腦系統將該複數個序列讀數與該參考基因組比對以確定該複數個序列讀數的基因組位置。
如請求項1之方法，其進一步包含基於該分類來提供治療性干預或基於該分類來對該個體進行成像。
如請求項1之方法，其中該第一組基因組位置包含600個與10,000個之間的基因組位置。
一種分析生物樣品的方法，該生物樣品包括來自包括第一組織類型之複數個組織類型之游離DNA分子的混合物，以確定該混合物中之該第一組織類型之貢獻比例的分類，該方法包含：鑑別具有該第一組織類型所特有之片段化模式的至少一個基因組區域；分析來自該生物樣品之複數個游離DNA分子，其中分析游離DNA分子包括：確定參考基因組中之對應於該游離DNA分子之至少一個末端的基因組位置；鑑別第一組之第一基因組位置，各第一基因組位置具有對應於該第一基因組位置之游離DNA分子之末端的局域最小值；鑑別第二組之第二基因組位置，各第二基因組位置具有對應於該第二基因組位置之游離DNA分子之末端的局域最大值；確定末端位於該至少一個基因組區域中之任一者中之任一第一基因組位置上之游離DNA分子的第一數目；確定末端位於該至少一個基因組區域中之任一者中之任一第二基因組位置上之游離DNA分子的第二數目；使用該第一數目及該第二數目計算分離值；及藉由對該分離值與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定該第一組織類型之該貢獻比例的該分類，該等校準樣品中之該第一組織類型的貢獻比例已知。
如請求項37之方法，其中該第一組之第一基因組位置包括多個基因組位置，其中該第二組之第二基因組位置包括多個基因組位置，其中確定游離DNA分子的該第一數目包括確定末端位於每個第一基因組位置的游離DNA分子之第一量，藉此確定複數個第一量，其中確定游離DNA分子的該第二數目包括確定末端位於每個第二基因組位置之游離DNA分子的第二量，藉此確定複數個第二量，及其中計算該分離值包括：確定複數個各別比率，每個各別比率為該複數個第一量之一與該複數個第二量之一的比率，及使用該複數個各別比率確定該分離值。
如請求項37之方法，其中該至少一個基因組區域包括一或多個去氧核糖核酸酶超敏位點。
如請求項37之方法，其中具有該第一組織類型所特有之片段化模式的該至少一個基因組區域中之每一者包括存在於至少一個其他樣品中的一或多個第一組織特異性等位基因。
如請求項37之方法，其中該至少一個基因組區域包括一或多個ATAC-seq或微球菌核酸酶位點。
如請求項37之方法，其中與該第一組基因組位置中之一個基因組位置比對的該游離DNA分子向該一個基因組位置之兩側延伸指定數目個核苷酸。
如請求項42之方法，其中該指定數目為10個與80個核苷酸之間。
如請求項37之方法，其中鑑別該第一組之第一基因組位置包括：對於複數個基因組位置中之每一者而言：確定位於該基因組位置且向該基因組位置之兩側延伸指定數目個核苷酸之游離DNA分子的第一量；確定位於該基因組位置之游離DNA分子的第二量；及確定該第一量與該第二量之比率；及鑑別該等比率中之複數個局域最小值及複數個局域最大值。
如請求項37之方法，其中該混合物為血漿或血清。
如請求項37之方法，其中該複數個游離DNA分子為至少1,000個游離DNA分子。
如請求項37之方法，其中對於該複數個基因組位置中之指定基因組位置而言，該第二量對應於與該指定基因組位置比對之該等游離DNA分子的總數。
一種分析生物樣品的方法，該生物樣品包括來自包括第一組織類型之複數個組織類型的游離DNA分子之混合物，以確定該第一組織類型之基因型，該第一組織類型潛在地具有不同於該複數個組織類型中之其他組織類型的基因型，該方法包含：鑑別該第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的第一基因組位置；利用電腦系統分析來自個體生物樣品之第一複數個游離DNA分子，其中分析游離DNA分子包括：確定參考基因組中之對應於該游離DNA分子之至少一個末端的基因組位置；基於該第一複數個游離DNA分子之該分析，鑑別末端位於該第一基因組位置的一組游離DNA分子；對於該組游離DNA分子中之每一者而言：確定出現於該第一基因組位置的對應鹼基，藉此確定該第一基因組位置的對應鹼基；使用該組游離DNA分子中之該第一基因組位置出現的該等對應鹼基確定該第一組織類型在該第一基因組位置的該基因型。
如請求項48之方法，其進一步包含：過濾該組游離DNA分子以排除或修改末端位於該第一基因組位置之該等游離DNA分子中之至少一者的權重，其中該基因型係使用經過濾之一組游離DNA分子確定。
如請求項49之方法，其中該過濾係利用以下至少一者：游離DNA分子之尺寸、游離DNA分子在一或多個位置的甲基化狀態，及該游離DNA分子是否涵蓋該第一組織類型之游離DNA分子之末端以高於臨界值之比率出現的一或多個其他基因組位置。
如請求項50之方法，其中該過濾係向該游離DNA分子賦予對應於該游離DNA分子來自該第一組織類型之可能性的權重，該方法進一步包含：確定複數個鹼基中之每一者的權重總和；及利用該等權重總和來確定該複數個鹼基中之每一者的貢獻百分比，其中該基因型係利用該貢獻百分比確定。
如請求項48之方法，其中確定該第一組織類型在該第一基因組位置的該基因型包括：確定複數個鹼基中之每一者的貢獻百分比；及對該等貢獻百分比中之每一者與一或多個截止值進行比較。
如請求項52之方法，其中當第一鹼基之該貢獻百分比高於第一截止值時，該一或多個截止值中之該第一截止值對應於該第一鹼基之純合接合子基因型。
如請求項52之方法，其中當第一鹼基及第二鹼基之該等貢獻百分比高於第一截止值且低於第二截止值時，該一或多個截止值中之該第一截止值及該第二截止值對應於該第一鹼基及該第二鹼基之雜合接合子基因型。
如請求項48之方法，其中該第一組織類型對應於腫瘤。
如請求項48之方法，其中該第一組織類型對應於胎兒，且其中該個體懷有該胎兒。
一種分析生物樣品的方法，該生物樣品包括來自複數個組織類型之游離DNA分子的混合物，該等組織類型包括第一組織類型，該方法包含：利用電腦系統分析來自個體之該生物樣品的複數個游離DNA分子，該複數個游離DNA分子中之每一者具有左端及右端，其中分析游離DNA分子包括：確定參考基因組中之對應於該游離DNA分子之該左端的左端位置；確定該參考基因組中之對應於該游離DNA分子之該右端的右端位置；鑑別左組的左基因組位置，其各自具有對應於該左組基因組位置之一之該複數個游離DNA分子之左端的局域最大值；鑑別右組的右基因組位置，其各自具有對應於該右組基因組位置之一之該複數個游離DNA分子之右端的局域最大值；如下鑑別該第一組織類型所特有的第一組基因組位置：比較該左組中的左基因組位置與該右組中的右基因組位置，以鑑別該第一組基因組位置，其中左基因組位置至最近的右基因組位置的距離大於第一臨限距離，該第一臨限距離在該參考基因組中為至少5個基因組位置。
如請求項57之方法，其進一步包含：如下鑑別第二組基因組位置：比較該左組中之左基因組位置與該右組中之右基因組位置以鑑別該第二組基因組位置，其中左基因組位置至最近的右基因組位置之距離小於第二臨限距離；使用末端位於該左組之左基因組位置之一之該複數個游離DNA分子的第一數目及末端位於該右組之右基因組位置之一之該複數個游離DNA分子的第二數目確定分離值；及藉由對該分離值與利用一或多個校準樣品所確定之一或多個校準值進行比較來確定該第一組織類型之貢獻比例的分類，該等校準樣品中之該第一組織類型的貢獻比例已知。
如請求項58之方法，其中確定該分離值包括：鑑別該第一組基因組位置與該第二組基因組位置之配對；對於該等配對中之每一者而言：確定末端位於該配對中之第一基因組位置之游離DNA分子的第一量；及確定末端位於該配對中之第二基因組位置之游離DNA分子的第二量，其中游離DNA分子的該等第一量對應於該複數個游離DNA分子的該第一數目且游離DNA分子的該等第二量對應於該複數個游離DNA分子的該第二數目。
如請求項59之方法，其中確定該分離值包括：對於該等配對中之每一者而言：確定包括該第一量及該第二量的比率；及利用該等比率確定該分離值。
如請求項59之方法，其中該第一組基因組位置與該第二組基因組位置之該等配對彼此間最近。
如請求項57之方法，其中該第二臨限距離在該參考基因組中為小於5個基因組位置。
如請求項57之方法，其中該第一組基因組位置包括左基因組位置與右基因組位置。
一種包含電腦可讀媒體的電腦產品，該電腦可讀媒體儲存用於控制電腦系統執行任一種上述方法之操作的複數個指令。
一種系統，其包含：如請求項64之電腦產品；及一或多個處理器，用於執行儲存於該電腦可讀媒體上的指令。
一種包含用於執行任一種上述方法之構件的系統。
一種經組態以執行任一種上述方法的系統。
一種包含分別執行任一種上述方法之步驟之模組的系統。