TW202039860A

TW202039860A - 游離dna末端特徵

Info

Publication number: TW202039860A
Application number: TW108146736A
Authority: TW
Inventors: 煜明盧; 慧君趙; 君賜陳; 江培勇; 陳穎欣; 孫坤
Original assignee: 香港中文大學; 美商格瑞爾公司
Priority date: 2018-12-19
Filing date: 2019-12-19
Publication date: 2020-11-01
Also published as: AU2019410635A1; US20200199656A1; KR20210113237A; ES2968457T3; DK3899018T3; JP2022514879A; CN117778576A; EP3899018B1; SG11202106114XA; CA3123474A1; CN113366122A; EP4300500A2; CN113366122B; EP3899018A4; WO2020125709A1; EP3899018A1; EP4300500A3

Abstract

本揭示案描述了量測生物之生物樣本中之游離DNA片段之序列末端基元之量（例如，相對頻率）的技術，用於量測樣本之性質（例如，臨床相關DNA之分率濃度）及/或基於此類量測來確定生物之狀況。對於該等序列末端基元之該等相對頻率，不同組織類型表現出不同模式。本揭示案提供了用於例如在來自各種組織之游離DNA的混合物中量測游離DNA之序列末端基元之該等相對頻率的各種用途。來自此類組織中之一者的DNA可稱為臨床相關DNA。

Description

游離DNA末端特徵

相關申請案之交叉引用

本申請案為2018年12月19日申請之名稱為「游離DNA末端特徵(CELL-FREE DNA END CHARACTERISTICS)」之美國臨時專利申請案第62/782,316號之PCT且主張其權益，該申請案出於所有目的以全文引用之方式併入本文中。

咸信血漿DNA係由自體內之多個組織排出之游離DNA組成，該等組織包含但不限於造血組織、大腦、肝、肺、結腸、胰腺等（Sun等人,《美國科學院院刊（Proc Natl Acad Sci USA）》.2015;112:E5503-12; Lehmann-Werman等人,《美國科學院院刊（Proc Natl Acad Sci USA）》.2016; 113: E1826-34; Moss等人,《自然通訊（Nat Commun）》.2018; 9：5068）。血漿DNA分子（一種游離DNA分子）已證明是通過非隨機過程生成的，例如，其尺寸分佈顯示166-bp的主峰及10-bp的週期性出現在較小的峰中（Lo等人,《科學轉化醫學（Sci Transl Med ）》.2010;2:61ra91; Jiang等人,《美國科學院院刊》.2015;112:E1317-25)。

最近，據報導，人基因組位置的子集（例如，在參照基因組位置上）經優先切割，從而產生具有端部位置的血漿DNA片段，該等端部位置與來源之組織有關（Chan等人,《美國科學院院刊》.2016;113:E8159-8168; Jiang等人《美國科學院院刊》,2018; doi：10.1073 / pnas.1814616115）。Chandrananda等人（BMC Med Genomics, 2015; 8：29）使用重新發現軟體DREME（Bailey,《生物資訊（Bioinformatics ）》,2011;27:1653-9），在不論組織類型的情況下，來挖掘與核酸酶斷裂相關之基元的游離DNA資料。

本揭示案描述了量測生物之生物樣本中之游離DNA片段中序列末端基元之量（例如，相對頻率）的技術，以量測樣本之性質（例如，臨床相關DNA之分率濃度）及/或基於此類量測來確定生物之狀況。對於序列末端基元的相對頻率，不同的組織類型表現出不同的模式。本揭示案提供了用於量測例如在來自各種組織之游離DNA的混合物中游離DNA之序列末端基元的相對頻率的各種用途。來自此類組織中之一者的DNA可稱為臨床相關DNA。

各種實例可以量化表示DNA片段之末端序列之序列基元（末端基元）的量。例如，實施例可以確定用於DNA片段之末端序列之一組序列基元的相對頻率。在各種實施方案中，可以使用基因型（例如，組織特異性對偶基因）或表現型方法（例如，使用具有相同狀況的樣本）來確定優選的末端基元之集合及/或末端基元之模式。優選集合或具有特定模式的相對頻率可用於量測新樣本或生物之狀況（例如胎兒之胎齡或病理等級）之性質（例如，臨床相關DNA的分率濃度）的分類。因此，實施例可以提供量測以告知生理變化，包含癌症、自身免疫疾病、移植及妊娠。

作為其他實例，序列末端基元可用於臨床相關之游離DNA片段之生物樣本的物理富集及/或電子雜交富集中。富集可以使用對臨床相關組織（諸如胎兒、腫瘤或移植）偏好的序列末端基元。物理富集可以使用一或多種探針分子，其偵測序列末端基元之特定集合，從而使生物樣本富集臨床相關DNA片段。對於電子雜交富集，可鑑別具有用於臨床相關DNA之一組偏好末端序列中之一者的游離DNA片段之一組序列讀段。可以基於對應於臨床相關DNA之可能性來存儲某些序列讀段，其中該可能性考慮了包含偏好序列末端基元的序列讀段。可以分析所存儲的序列讀段，以確定與生物樣本臨床相關DNA的性質。

本揭示案之此等及其他實施例詳細描述於下文中。舉例而言，其他實施例係針對與本文所述之方法有關的系統、裝置及電腦可讀取媒體。

可參考以下詳細描述及附圖來獲得對本揭示案之實施例之性質及優勢的較佳理解。

術語

「組織」對應於一組細胞，其共同歸類為一個功能單元。可在單一組織中找到超過一種類型之細胞。不同類型的組織可由不同類型的細胞（例如肝細胞、肺泡細胞或血細胞）組成，但亦可對應於來自不同生物體（母親與胎兒）之組織或對應於健康細胞與腫瘤細胞。「參考組織」可對應於用於測定組織特異性甲基化水平之組織。來自不同個體之相同組織類型之多個樣本可用於測定該組織類型之組織特異性甲基化水準。

「生物樣本 」係指自個體（例如人類（或其他動物），諸如孕婦、患有癌症者或疑似患有癌症者、器官移植接受者或疑似具有涉及器官（例如，心肌梗塞中之心臟、或中風中之大腦、或貧血中之造血系統）之疾病過程的個體）取得，及含有一或多種相關核酸分子的任何樣本。生物樣本可為體液，諸如血液、血漿、血清、尿液、陰道液、來自陰囊水腫（例如睪丸）之液體、陰道沖洗液、胸膜液、腹水、腦脊髓液、唾液、汗液、淚液、痰、支氣管肺泡灌洗液、乳頭排出液、來自身體不同部分（例如甲狀腺、乳房）之抽吸液、眼內液體（例如眼房液）等。亦可使用糞便樣本。在各種實施例中，游離DNA富集之生物樣本（例如經由離心方案獲得的血漿樣本）中之大部分DNA可為游離的，例如大於50%、60%、70%、80%、90%、95%或99%的DNA可為游離的。離心方案可包含例如以3,000 g×10分鐘獲得流體部分，及例如以30,000 g再離心另外10分鐘以移除殘餘細胞。作為生物樣本分析之一部分，可以分析至少1,000個游離DNA分子。作為其他實例，可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或更多個游離DNA分子。

「臨床相關 DNA 」係指待量測之特定組織來源的DNA，例如以確定此類DNA的分率濃度或對樣本（例如血漿）之表現型進行分類。臨床相關DNA之實例為母體血漿中的胎兒DNA或患者血漿或其他游離DNA樣本中的腫瘤DNA。另一實例包含對移植患者之血漿、血清或尿液中與移植物相關的DNA之量的量測。另一實例包含對個體之血漿中造血組織的及非造血組織的DNA的分率濃度、或樣本中肝DNA片段（或其他組織）的分率濃度或腦脊髓液中大腦DNA片段的分率濃度的量測。

「序列讀段 」係指自核酸分子之任何部分或全部定序之核苷酸串。舉例而言，序列讀段可為自核酸片段定序之短核苷酸串（例如20-150個核苷酸）、在核酸片段之一端或兩端之短核苷酸串或存在於生物樣本中之整個核酸片段的定序。序列讀段可以多種方式獲得，例如使用定序技術或使用探針，例如雜交陣列或捕獲探針，或擴增技術，諸如聚合酶鏈反應（polymerase chain reaction，PCR）或使用單一引子的線性擴增或等溫擴增。作為生物樣本分析的一部分，可以分析至少1,000個序列讀段。作為其他實施例，可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或更多個序列讀段。

序列讀段可包含與片段之末端相關聯的「末端序列 」。末端序列可以對應於片段的最外層N個鹼基，例如，片段末端的2-30個鹼基。如果序列讀段對應於整個片段，那麼該序列讀段可包含兩個末端序列。當雙邊定序提供對應於片段末端的兩個序列讀段時，每個序列讀段可包含一個末端序列。

「序列基元 」可以指在DNA片段（例如，游離DNA片段）中較短，反覆出現的鹼基的圖案。序列基元可以出現在片段的末端，且因此為末端序列的一部分或包含末端序列。「末端基元」可以指末端序列之序列基元，該末端序列偏好地出現在DNA片段之末端，可能對於特定類型的組織。末端基元亦可以恰好在片段的末端之前或之後出現，因此仍對應於末端序列。

術語「對偶基因 」係指在同一實體基因體基因座處之替代性DNA序列，其可或可不導致不同表現型性狀。在具有各染色體之兩個複本（除男性人類個體中之性別染色體之外）的任何特定二倍體生物中，各基因之基因型包括在該基因座處存在之對偶基因對，其在同型接合子中相同而在異型接合子中不同。生物之群體或物種在各個個體中在各基因座上通常包含多個對偶基因。其中在群體中發現超過一個對偶基因的基因組基因座稱為多形位點。在基因座處之對偶基因變異可量測為群體中存在之對偶基因之數量（亦即多形現象之程度）或異型接合子之比例（亦即異型接合性比率）。如本文所用，術語「多形現象 」係指人類基因組中任何個體間變異，而不管其頻率如何。此類變異之實例包含（但不限於）單核苷酸多形性、簡單串聯重複多形性、插入-缺失多形性、突變（其可為致病的）及複本數目變異。如本文所用之術語「單倍型 」係指同一染色體或染色體區域上一起傳遞的多個基因座上之對偶基因的組合。單倍型可指少至一對基因座，或指染色體區域，或指整個染色體或染色體組。

術語「胎兒 DNA 分率濃度 」可與術語「胎兒 DNA 比例」及「胎兒 DNA 分數」互換使用，且係指源自胎兒之生物樣本（例如母本血漿或血清樣本）中所存在之胎兒DNA分子的比例（Lo等人,《美國人類遺傳學雜誌（Am J Hum Genet ）》,1998;62:768-775; Lun等人, 《臨床化學（Clin Chem ）》. 2008;54:1664-1672）。類似地，腫瘤分數或腫瘤DNA分數可指生物樣本中腫瘤DNA的分率濃度。

「相對頻率 」可以指比例（例如，百分比、分數或濃度）。特定言之，特定末端基元（例如，CCGA）之相對頻率可以例如通過具有CCGA之末端序列來提供與末端基元CCGA相關的游離DNA片段之比例。

「總值」可以指集體性質，例如一組末端基元之相對頻率。實例包含如可在聚類中實施之平均值、中位數、相對頻率之總和、相對頻率之間的變化（例如，熵、標準差（SD）、變化係數（CV）、四分位數範圍（IQR）或不同相對頻率之間的某個百分點截止值（例如第95個或第99個百分點）），或與相對頻率之參考模式的差（例如，距離）。

「校準樣本 」可以對應於生物樣本，其臨床相關DNA之分率濃度（例如，組織特異性DNA分數）為已知的或經由校準方法確定，例如使用對組織具有特異性的對偶基因，諸如在移植中，其中對偶基因存在於供體之基因組中但不存在於接收者之基因組中可以用作移植器官之標記物。作為另一實例，校準樣本可以對應於可以自其中確定末端基元之樣本。校準樣本可用於兩種目的。

「校準數據點 」包含「校準值 」及臨床相關DNA之量測的或已知的分率濃度（例如，特定組織類型之DNA）。可以從針對校準樣本確定的相對頻率（例如，總值）確定校準值，對於該相對頻率，已知臨床相關DNA之分率濃度。校準數據點可以多種方式定義，例如作為離散點或作為校準函數（亦稱為校準曲線或校準表面）。校準函數可源自校準數據點之額外數學轉換。

「位點」（亦稱作「基因組位點 」）對應於單一位點，其可為單一鹼基位置或相關鹼基位置組，例如CpG位點或相關鹼基位置之較大組。「基因座」可對應於包含多個位點之區域。基因座可僅包含一個位點，此將使得基因座在彼情形下等效於一個位點。

各基因組位點（例如CpG位點）之「甲基化指數 」可指在該位點顯示甲基化之DNA片段（例如，如自序列讀段或探針確定）相比於覆蓋彼位點之讀段總數之比例。「讀段」可對應於獲自DNA片段之資訊（例如位點處之甲基化狀態）。可使用優先地雜交至特定甲基化狀態之DNA片段之試劑（例如引子或探針）獲得讀段。通常，在藉由取決於DNA分子之甲基化狀態不同地修飾或不同地識別DNA分子之方法，例如亞硫酸氫鹽轉化、或甲基化敏感限制酶、或甲基化結合蛋白、或抗甲基胞嘧啶抗體處理後，施用此類試劑、或識別例如甲基胞嘧啶及羥甲基胞嘧啶之單分子定序技術。

區域之「甲基化密度 」可指顯示甲基化之區域內之位點處之讀段數目除以覆蓋區域中之位點之讀段總數。位點可具有特異性特徵，例如為CpG位點。因此，區域之「CpG甲基化密度」可指展示CpG甲基化之讀段數目除以覆蓋區域中之CpG位點（例如特定CpG位點、CpG島狀物或更大區域內之CpG位點）之讀段總數。舉例而言，人類基因組中每100 kb面元之甲基化密度可自亞硫酸氫鹽處理之後在CpG位點處未轉化之胞嘧啶（其對應於甲基化胞嘧啶）的總數確定為映射至100 kb區域之序列讀段所覆蓋之所有CpG位點的比例。此分析亦可對於其他面元尺寸，例如500 bp、5 kb、10 kb、50 kb或1 Mb等進行。區域可為整個基因組或染色體或染色體之一部分（例如染色體組）。當區域僅包含CpG位點時，CpG位點之甲基化指數與區域之甲基化密度相同。「甲基化胞嘧啶之比例」可指展示為甲基化（例如在亞硫酸氫鹽轉化之後未經轉化）之胞嘧啶位點「C」之數目相比於分析之胞嘧啶殘基之總數，亦即包含區域中除CpG背景之外的胞嘧啶。甲基化指數、甲基化密度及甲基化胞嘧啶之比例為「甲基化水準」之實例。除亞硫酸氫鹽轉化之外，熟習此項技術者已知之其他方法可用於查詢DNA分子之甲基化狀態，包含（但不限於）對甲基化狀態敏感之酶（例如甲基化敏感限制酶）、甲基化結合蛋白、使用對甲基化狀態敏感之平台之單分子定序（例如奈米孔定序（Schreiber等人,《美國科學院院刊（Proc Natl Acad Sci USA ）》.2013; 110: 18910-18915）及藉由太平洋生物科學公司（Pacific Biosciences）單分子實時分析（Flusberg等人, 《自然方法（Nat Methods ）》, 2010; 7: 461-465））。DNA分子之甲基化量度可以對應於經甲基化之位點（例如，CpG位點）的百分比。甲基化量度可以經指定為絕對數或百分比，可將其稱為分子之甲基化密度。

術語「定序深度 」係指基因座經與基因座比對之序列讀段覆蓋之次數。基因座可與核苷酸一樣小，或與染色體組一樣大，或與整個基因組一樣大。定序深度可表示為50×、100×等，其中「×」係指基因座經序列讀段覆蓋之次數。定序深度亦可應用於多個基因座或全基因組，在此情況下，×可指基因座或單倍體基因組或全基因組分別定序之平均次數。超深度定序可指定序深度為至少100×。

「分離值 」對應於涉及兩個值，例如兩個分率貢獻或兩個甲基化水平之差值或比率。分離值可為簡單的差值或比率。作為實例，x/y以及x/（x+y）之正比為分離值。分離值可包含其他因子，例如乘法因子。作為其他實例，可使用該等值之函數的差值或比率，例如兩個值之自然對數（ln）的差值或比率。分離值可包含差值及比率。

「分離值 」及「總值」（例如，相對頻率之）為參數（亦稱為度量）之兩個實例，其提供在不同分類（狀態）之間變化之樣本的量測，且因此可用於確定不同分類。總值可為分離值，例如，當在樣本的一組相對頻率與相對頻率的參考組之間取差時，如可在聚類中所做。

如本文所用之術語「分類」係指與樣本之特定性質相關之任何數字或其他字符。舉例而言，「+」符號（或詞語「陽性」）可表示將樣本分類為具有缺失或擴增。分類可以為二元的（例如陽性或陰性）或具有更高水準之分類（例如自1至10或0至1之等級）。

術語「截止值 」及「臨限值 」係指操作中所用之預定數字。舉例而言，截止尺寸可指一種尺寸，片段長於此尺寸則排除。臨限值可為一種值，高於或低於此值，則特定分類適用。此等術語中之任一者可用於此等情形中之任一者。截止值或臨限值可為代表特定分類或在兩種或更多種分類之間進行區別的「參考值」或源自參考值。如本領域技術人員將理解的，可以以各種方式確定此參考值。例如，可以針對具有不同已知分類的兩個不同群組的個體確定度量，且可以選擇參考值來代表一個分類（例如，平均值）或度量的兩個集群之間的值（例如，經選擇以獲得所需的靈敏度及特異性）。作為另一實例，參考值可基於樣本之統計模擬而確定。

術語「癌症等級 」係指癌症是否存在（例如存在或不存在）、癌症分期、腫瘤尺寸、轉移之存在或不存在、身體之總腫瘤負荷、癌症對治療之反應及/或癌症嚴重程度之其他量度（例如癌症復發）。癌症等級可為數字或其他標誌，諸如符號、字母及顏色。等級可為零。癌症等級亦可包含癌前或癌變前狀況（狀態）。可以各種方式使用癌症等級。舉例而言，篩查可檢查先前未知患癌之某人是否存在癌症。評定可調查已經診斷患有癌症之某人以隨時間推移監測癌症之發展，研究療法有效性或確定預後。在一個實施例中，預後可用患者死於癌症之機率或特定期限或時間之後癌症進展之機率或癌症轉移之機率或程度表示。偵測可意謂「篩查」或可意謂檢查暗示有癌症特徵（例如症狀或其他陽性測試）之某人是否患有癌症。

「病理等級 」可以指於生物相關之病理的量、程度或強度，其中等級可如上文針對癌症所描述。病理學之另一實例為移植器官之排斥。其他實例病理可包含自身免疫攻擊（例如，狼瘡性腎炎損害腎臟或多發性硬化）、炎性疾病（例如，肝炎）、纖維化過程（例如，肝硬化）、脂肪浸潤（例如，脂肪肝疾病）、變性過程（例如，阿爾茨海默氏病（Alzheimer's disease））及缺血性組織損傷（例如，心肌梗塞或中風）。個體之健康狀態可視為無病理之分類。

術語「約」或「大致」可意謂在如藉由一般熟習此項技術者所判定之特定值之可接受誤差範圍內，其將部分地視該值如何量測或測定（亦即，量測系統之限制）而定。舉例而言，根據本領域中之實踐，「約」可意謂在1個或大於1個標準差之範圍內。或者，「約」可意謂既定值之至多20%、至多10%、至多5%或至多1%之範圍。或者，尤其關於生物系統或方法，術語「約」或「大致」可意謂在值之一定數量級內、在5倍內且更佳在2倍內。若特定值描述於本申請案及申請專利範圍中，除非另有說明，否則應假設術語「約」意謂在特定值之可接受誤差範圍內。術語「約」可具有如本領域中一般熟習此項技術者通常所理解之含義。術語「約」可指±10%。術語「約」可指±5%。詳細說明

本揭示案描述了量測生物之生物樣本中之游離DNA片段之末端基元之量（例如，相對頻率）的技術，以量測樣本之性質及/或基於此類量測來確定生物之狀況。不同之組織類型對於該等序列基元的相對頻率表現出不同的模式。本揭示案提供了用於量測游離DNA之末端基元的相對頻率，例如在來自各種組織之游離DNA的混合物中的各種用途。來自此類組織之一的DNA可稱為臨床相關DNA。

特定組織之（例如，胎兒、腫瘤或移植器官之）臨床相關DNA表現出相對頻率之特定模式，其可量測為總值。樣本中之其他DNA可以表現出不同的模式，從而可以量測樣本中臨床相關DNA之量。因此，在一個實例中，可以基於末端基元之相對頻率來確定臨床相關DNA的分率濃度（例如百分比）。分率濃度可為數字、數值範圍或其他分類（例如較高、中等或較低）或者分率濃度是否超過臨限值。在各種實施方案中，總值可為一組末端基元之相對頻率的總和，所有或一組末端基元之相對頻率的方差（例如，熵，亦稱為基元多樣性評分）或參考模式之差異（例如總距離），例如用於具有已知分率濃度之校準樣本之相對頻率的陣列（矢量）。可將此類陣列視為相對頻率之參考集合。可以在分類器中使用此類差異，其中層級聚類、支持向量機及邏輯回歸為實例。作為實例，臨床相關DNA可以為胎兒、腫瘤、移植器官或其他組織（例如造血組織或肝臟）DNA。

在另一實例中，可使用基元相對頻率來確定病理等級。具有不同表現型之生物可以表現出不同模式的游離DNA片段之基元相對頻率。可以將末端基元之相對頻率的總值與參考值進行比較以對表現型進行分類。在各種實施方案中，總值可為相對頻率之總和、相對頻率的方差或與相對頻率之參考集合的差。實例病理包含癌症及自身免疫性疾病，諸如SLE。

在另一實例中，基元相對頻率可用於確定胎兒之胎齡。母體樣本中末端基元之相對頻率的總值由於胎兒之胎齡較長而改變。可以如上文及他處所述確定此類總值。

鑒於來自某個組織之游離DNA片段具有特定的為偏好的一組末端基元，偏好末端基元可以用於富集來自某些特定組織之DNA的樣本（臨床相關DNA）。可以通過物理操作進行此類富集以富集物理樣本。一些實施例例如使用引物或接附子可以捕獲及/或擴增具有與一組偏好末端基元匹配之末端序列的游離DNA片段。本文描述其他實例。

在一些實施例中，可以用電子雜交進行富集。例如，系統可以接收序列讀段，且隨後基於末端基元過濾讀段，以獲得具有較高濃度的與臨床相關DNA相對應之DNA片段之序列讀段的子集。如果DNA片段具有包含偏好末端基元之末端序列，則可以將其鑑別為具有來自所關注組織之更高可能性。如本文所述，可以基於DNA片段之甲基化及尺寸來進一步確定可能性。

末端基元之此類用途可避免對參照基因組之需求，如可能在使用末端位置時需要（Chan等人, 《美國國家科學院院刊（Proc Natl Acad Sci USA ）》.2016;113:E8159-8168; Jiang等人,《美國國家科學院院刊（Proc Natl Acad Sci USA ）》.2018; doi：10.1073 / pnas.1814616115））。此外，由於末端基元之數量可以小於參考基因組中偏好末端位置的數量，因此可以為每個末端基元收集更多的統計數據，潛在地提高精確性。

以上述方式使用末端基元之此能力為令人驚訝的，例如，如Chandrananda等人發現就位置特異性核苷酸模式而言，母體片段及胎兒片段之間具有高度相似性，該等模式關於片段起始位點周圍51 bp（上游/下游20 bp）區域之單核苷酸頻率（Chandrananda等人, 《醫學基因組學（ BMC Med Genomics ）》， 2015; 8:29），意味著使用基於末端周圍單核苷酸頻率之方法無法告知組織游離DNA片段的來源。I. 游離 DNA 末端基元

末端基元涉及一種游離DNA的末端片段，例如用於在該片段的任一末端處之K個鹼基之序列的末端序列。末端序列可為具有各種鹼基數之k聚體，例如1、2、3、4、5、6、7等。末端基元（或「序列基元」）係關於與參考基因組中的特定位置相反之序列本身。因此，在整個參考基因組之許多位置上可能出現相同的末端基元。可以使用參考基因組來確定末端基元，例如以鑑別恰好在起始位置之前或恰好在末端位置之後的鹼基。此類鹼基仍將對應於游離DNA片段之末端，例如，由於這鹼基的鑑別是基於片段之末端序列。

圖1示出了根據本揭示案之實施例之末端基元的實例。圖1描繪兩種方式來定義待分析之4聚體末端基元。在技術140中，自血漿DNA分子的每個末端上的首4-bp序列直接構築4聚體末端基元。例如，可以使用定序片段之首4個核苷酸或最後4個核苷酸。在技術160中，通過利用來自片段之定序末端的2聚體序列及其相鄰的基因組區域之其他2聚體序列，共同構築4聚體末端基元。在其他實施例中，可以使用其他類型之基元，例如1聚體、2聚體、3聚體、5聚體、6聚體及7聚體末端基元。

如圖1所示，游離DNA片段110從例如使用對血液樣本之純化處理，諸如藉由離心獲得。除了血漿DNA片段之外，還可以使用其他類型之游離DNA分子，例如來自血清、尿液、唾液及本文提到之其他此類游離樣本。在一個實施例中，DNA片段可為平末端的。

在步驟120中，對DNA片段進行雙邊定序。在一些實施例中，雙邊定序可從DNA片段之兩端產生兩種序列讀段，例如每個序列讀段為30-120個鹼基。此等兩種序列讀段可形成一對DNA片段（分子）之讀段，其中每個序列讀段包含DNA片段之對應末端的末端序列。在其他實施例中，可以對整個DNA片段進行定序，從而提供單個序列讀段，其包含DNA片段之兩端的末端序列。

在步驟130中，序列讀段可以與參考基因組對齊比對。此對齊比對用於說明定義序列基元之不同方式，且在一些實施例中可以不使用。可以使用各種套裝軟體執行對齊程序，例如BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign及SOAP。

技術140示出了定序片段141之序列讀段，與基因組145對齊比對。在將5'末端視為起點之情況下，第一末端基元142(CCCA)位於定序片段141之起點。第二末端基元144（TCGA）在定序片段141之尾部。在一個實施例中，當酶識別CCCA且隨後恰好在第一個C之前切割時，可能出現此類末端基元。如果為這種情況，CCCA將優先地在血漿DNA片段之末端。對於TCGA，酶可能會識別其，且隨後在A後面進行切割。

技術160示出了定序片段161之序列讀段，其與基因組165對齊比對。在將5'末端視為起點之情況下，第一末端基元162(CGCC)具有恰好在定序片段161之起點之前出現的第一部分(CG)及為定序片段161之起點的末端序列之部分的第二部分(CC)。第二末端基元164（CCGA）具有恰好在定序片段161之尾部之後的第一部分（GA）及為定序片段161之尾部的末端序列之一部分的第二部分（CC）。在一個實施例中，當酶識別CGCC且隨後在G及C之間進行切割時，可能會出現此類末端基元。如果為這種情況，CC將優先在血漿DNA片段之末端，而CG恰好在其之前出現，從而提供了CGCC的末端基元。至於第二末端基元164（CCGA），酶可以在C與G之間切割。如果為這種情況，CC將優先在血漿DNA片段之末端。對於技術160，來自相鄰基因組區域及定序血漿DNA片段之鹼基數可以變化，且不必限於固定比例，例如，代替2:2，該比例可以為2:3、3:2、4:4、2:4等。

包含在游離DNA末端標記中之的核苷酸的數目愈高，基元之特異性愈高，因為在基因組的精確組態中具有6個有序鹼基之機率低於在基因組的精確組態中具有2個有序鹼基之機率。因此，末端基元長度之選擇可以由預期用途應用之所需靈敏度及/或特異性調節。

由於末端序列用於將序列讀段與參考基因組對齊比對，自末端序列確定之任何序列基元或者恰好在之前/之後仍由末端序列來確定。因此，技術160構成末端序列與其他鹼基的關係，其中將參考用作構成這關係之機制。技術140及160之間的區別在於，將特定的DNA片段分配給那兩個末端基元，此影響相對頻率之特定值。但是，總體結果（例如臨床相關DNA之分率濃度、病理等級分類等）將不受DNA片段如何指派為末端基元的影響，只要數據訓練和生產使用一致的技術。

對具有對應於特定末端基元之末端序列之DNA片段的計數量進行計數（例如，存儲在記憶體中之陣列），以確定相對頻率。如下文更詳細描述，可以分析游離DNA片段之末端基元的相對頻率。對於末端基元之相對頻率中的差異已經可從不同類型的組織及不同的表現型，例如不同的病理等級偵測到。可藉由具有特定末端基元之DNA片段之量或總體模式，例如方差（諸如熵，亦稱為基元多樣性評分），在一組末端基元（例如對應於所用長度之k聚體之所有可能組合）來定量差異。II. 基於基因型差異之方法

吾人已鑑別出不同的組織類型具有不同的末端基元。在本文中，吾人描述了末端基元如何可用於確定臨床相關DNA（例如胎兒DNA、腫瘤DNA、來自移植器官之DNA或來自特定器官之DNA）之分率濃度。

為了鑑別偏好於特定類型之臨床相關DNA之末端基元，可使用基因型差異將DNA片段鑑別為來自從臨床相關組織。一旦偵測到DNA片段來自臨床相關組織，就可以確定該DNA片段之末端基元。吾人對末端基元之相對頻率的分析表明，末端基元之相對頻率因不同組織而異。如下文所解釋，相對頻率差異的定量可以與校準樣本結合使用，該（等）校準樣本之臨床相關DNA的分率濃度為已知的（例如，藉由單獨的技術進行量測，諸如組織特異性對偶基因），以確定生物樣本中臨床相關DNA之分率濃度的分類。

儘管可能需要校準樣本中之臨床相關DNA之分率濃度的量測，所得到的校準值（例如，作為校準函數的一部分）可用於測定新樣本之分率濃度，而無需鑑別出對臨床相關DNA具有特異性之對偶基因。以此方式，可以更穩固之方式確定分率濃度。A. 妊娠

母體與胎兒基因組之間的基因型差異可以用於區分胎兒與母體的DNA分子。例如，吾人可以利用其母親為同型接合（AA）而胎兒為異型接合（AB）之資訊性單核苷酸多態性（SNP）位點。

圖2示出了根據本揭示案之實施例之基於用於分析胎兒及母體DNA分子之間的差異末端基元模式之方法的基因型差異的示意圖。如圖2中所說明，攜帶胎兒特異性對偶基因(B)之胎兒特異性分子205是可確定。另一方面，攜帶共用對偶基因（A）的共用分子207是可確定，其將代表主要來自母體的DNA分子，因為胎兒DNA分子在母體血漿DNA庫中通常為少數。因此，任何源自共用分子之分子性質都將反映出母體背景DNA分子（即來自造血組織DNA分子）的特徵。除對偶基因外，還可使用其他胎兒特異性標記（例如表觀遺傳標記）。

吾人使用圖1中之技術140分析4聚體末端基元。分析了256個末端基元。吾人計算各4聚體基元之比例且使用描繪為條形圖220之條形圖比較256個基元中之頻率。此類條形圖提供每一4聚體以末端基元形式出現之相對頻率(%)。為了便於說明，僅示出了幾個4-聚體。可以藉由（具有末端基元之DNA片段的數量）/所分析之DNA片段的總數（可能分母中之因子為2）來確定相對頻率（有時亦稱為「頻率」），以解釋兩端。此類百分比可視為相對頻率，因為其係關於第一末端基元之一種量（例如數量）相對於一或多種其他基元（可能包含第一末端基元）之量的比率。如吾人可見，末端基元222在不同組織類型之DNA片段之間具有相對頻率之顯著差異。此類差異可用於各種目的，例如富集胎兒DNA之樣本或確定胎兒DNA濃度。

展示於條形圖220中之相對頻率之值可為處於具有256個值之陣列中的存儲值。一組末端基元之各末端基元可存在計數器，其中每次新DNA片段具有對應於彼計數器之末端基元時，特定末端基元之計數器遞增。基元之集合可以各種方式選擇，例如作為所有末端基元或更小集合，諸如在參考樣本中最多發生之彼等或在參考樣本中展示最大間隔之彼等。

各種定量技術可用於提供樣本之相對頻率之量測，且此類定量技術可用於對來自臨床相關DNA之游離DNA之量進行分類。一種實例定量技術包含一組末端基元之相對頻率之總和，在本文中亦稱為組合頻率。舉例而言，此類集合可為最頻繁出現於特定組織類型中或鑑別為在兩種組織類型之間具有最大間隔的末端基元。亦可使用加權總和。加權可為預定的或可變的，例如用於給定頻率之加權可取決於頻率自身。熵為此類實例。

在另一個實施例中，為捕獲胎兒與母體DNA分子之間的末端基元之橫向差異，可使用基於熵之分析230。熵為方差/多樣性之實例。為分析基元之頻率分佈（例如，總共256個基元），熵之一種定義使用以下等式：

其中

為特定基元之頻率；更高熵值指示更高多樣性（亦即，更高隨機度）。

在此實例中，當256個基元就其頻率而言存在時，熵將實現最大值（亦即5.55）。相比之下，當256個基元在其頻率中具有偏斜分佈時，熵將降低。舉例而言，若一個特定基元占99%且其他基元構成剩餘1%，則熵將在此調配物中降低至0.11，但可使用其他調配物，諸如無對數或僅使用對數。因此，基元頻率之降低之熵將暗示提高末端基元中之頻率分佈的偏度。基元頻率之提高之熵將表明基元中之頻率將朝向彼等基元之相等機率移動。因此，基元頻率之熵量測末端基元豐度存在於血漿DNA中之均勻程度。基序頻率之均勻度愈高，將預期到更高的熵值。換言之，基元頻率之降低的熵將暗示在其頻率方面在末端基元中之偏度提高。

在各種其他實例中，不同基元頻率中之標準差（SD）、變化係數（CV）、四分位數範圍（IQR）或某一百分點截止值（例如，第95或第99百分位）可用於評估胎兒與母體DNA分子之間的末端基元模式之整體變化。此類各種實例提供一組末端基元之相對頻率之方差/多樣性的量測。給定圖2中之熵之定義，若僅一個末端基元具有非零計數，則熵將具有最小值。若其他末端基元呈現在一些DNA片段中，則熵將增加。若不存在選擇（所有末端基元之隨機分佈，例如在所有具有相同頻率之一個假設情形中），則熵將變為最大值。以此方式，熵量化游離DNA片段之末端序列針對末端基元之總體選擇性。

曲線圖235示出了共用序列（主要母體）及胎兒序列之熵值。共用序列包括比胎兒序列更低之胎兒DNA（若原始樣本具有10%之胎兒DNA，則可能約5%），該等胎兒序列將具有接近100%之胎兒DNA，處於針對基因型量測之誤差公差內。鑒於此分離，樣本中胎兒DNA之濃度愈大，熵值差異將愈大。胎兒DNA濃度與熵之間的此關係可用於確定胎兒DNA濃度，例如如使用一或多個校準值所量測。舉例而言，可經由另一種技術（產生校準值）量測校準樣本之臨床相關DNA濃度，該另一種技術可能為一般不適用的，諸如使用用於男性胎兒之Y染色體DNA或腫瘤組織之先前經鑑別之突變。在給出用於校準樣本之熵量測的情況下，兩個熵值（一個用於測試樣本且一個用於校準樣本）之比較可使用校準樣本中之所量測濃度向測試樣本提供分率濃度。稍後描述校準值及校準函數之此類使用之其他細節。

在又一實施例中，可使用基於聚類之分析240。豎軸對應於4聚體基元，且橫軸對應於不同樣本，例如對胎兒DNA濃度具有不同分類。色彩對應於特定樣本之特定4聚體基元之相對頻率，例如具有濃度高於綠色校準樣本244（其具有更低值）之紅色校準樣本242。

基於聚類之分析可利用如下假設：與胎兒DNA分子與母體DNA分子之間的相似性（亦即，組間分子性質）相比，256個4聚體末端基元之頻率概況之相似性將在胎兒DNA分子或母體DNA分子內相對較高（亦即，組內分子性質）。因此，預期以來源於共用序列之末端基元（例如，較高濃度之共用序列）為特徵之個體的校準樣本不同於以來源於胎兒特異性序列（例如，更低濃度之共用序列，且因此胎兒濃度更高）之末端基元為特徵之個體的校準樣本。各個體對應於包括256個末端基元及其相應頻率之載體（亦即256維載體）。實例聚類技術包含（但不限於）層級聚類、基於中心的聚類、基於分佈的聚類、基於密度的聚類。由於母體DNA片段與胎兒DNA片段之間的末端基元之頻率差異，不同集群可對應於不同量之樣本中之胎兒DNA，如彼等將具有不同模式之相對頻率。

為評估胎兒與母體DNA分子之間的末端基元之差異，吾人分別使用微陣列平台（人類Omni2.5,伊路米那（Illumina））對母本白血球層及胎兒樣本進行基因分型，且對匹配之血漿DNA樣本進行定序。吾人自來自妊娠初期（12-14週）、妊娠中期（20-23週）及妊娠晚期（38-40週）之每一者的10個懷孕女性獲得末梢血液樣本，且自各案例收集血漿及母體白血球層樣本。吾人獲得195,331中值之資訊性SNP（範圍：146,428-202,800），其中母親係同型接合的且胎兒係異型接合的。攜帶胎兒特異性對偶基因之血漿DNA分子鑑別為胎兒特異性DNA分子。鑑別出攜帶共用對偶基因之血漿DNA分子且咸信其主要為來源於母體之DNA分子。彼等樣本中之中值胎兒DNA分數為17.1% （範圍：7.0%-46.8%）。在各案例中獲得1.03億個（範圍：0.52-1.86億個）經映射之雙邊定序讀段的中值。各血漿DNA分子之末端基元係藉由生物資訊研究最接近片段末端之4聚體序列來確定。來自此樣本集之分析的結果提供於下文中。 1. 按順序排列之相對頻率的差異

吾人推論，胎兒DNA分子與母體DNA分子之間的基元頻率之分級差異中之頂端基元將適用於偵測或富集胎兒DNA分子及母體DNA分子。因此，吾人依據一名孕婦之胎兒DNA分子與母體DNA分子之間的頻率差異對末端基元評級，其中定序深度為270×。使用如上文所提及之類似方式，根據資訊性SNP鑑別胎兒序列及共用序列。

圖3示出了根據本揭示案之實施例的胎兒與母體DNA分子之間的末端基元頻率的條形圖。資料來自一名孕婦，其中定序深度為270×。豎軸對應於既定4聚體基元之頻率百分比，如自具有既定4聚體基元之DNA片段之數目（如自序列讀段所確定）除以所分析之DNA片段之末端序列之總數（例如DNA片段之數目的兩倍）所確定。橫軸對應於256個不同的4聚體。對於共用序列，在頻率遞減中對4聚體進行分類，其中圖3分隔開具有用於豎軸之不同比例尺的兩個部分。可在胎兒DNA分子（具有胎兒特異性對偶基因之胎兒DNA分子）與母體DNA分子（具有共用對偶基因之母體DNA分子）之間觀測到末端基元之頻率的差異。

圖4示出了根據本揭示案之實施例自圖3之胎兒及共用的（即，胎兒加母體的）序列的前10個末端基元。豎軸經移位且以1%之頻率開始。前10個末端基元為CCCA、CCAG、CCTG、CCAA、CCCT、CCTT、CCAT、CAAA、CCTC及CCAC。如吾人可見，與其他序列相比，一些末端基元在共用序列與胎兒特異性序列之間具有更大差異。因此，為區分母體與胎兒DNA，吾人可能想要使用與僅具有最高頻率之末端基元相對之具有最大差異之末端基元。 2. 熵的使用

對於各種樣本，隨後分析具有共用對偶基因之DNA分子之熵及具有胎兒特異性對偶基因之DNA分子之熵。前者鑑別為母體，且後者鑑別為胎兒。對於各樣本，獲得兩個數據點：胎兒DNA分子之熵及共用DNA分子之熵（標記為「母體」）。

圖5A示出了胎兒DNA分子中之末端基元之熵低於母體DNA分子中之末端基元之熵（p值＜0.0001），表明源自母體DNA分子之末端基元之分佈中存在更高偏度。對於給定的樣本及給定的胎兒DNA或母體DNA分子庫，圖5A中的熵使用所有256個基元來確定，如在此等實例中使用了4聚體。

與圖2之曲線圖235類似，兩種組織類型之熵中之差異展示可使用熵確定游離DNA片段之混合物（例如血漿或血清）中胎兒DNA之分率濃度。如上所解釋，鑑別為胎兒DNA之庫具有比母體庫更高百分比（例如接近100%）之胎兒DNA。不同類型的庫測定的熵值不同。因此，在熵與胎兒DNA濃度之間存在關係。此關係可基於校準樣本之胎兒DNA濃度之量測值（校準值）及對應熵值（相對頻率之實例）作為校準函數確定，其中校準值及相對頻率可形成校準數據點。具有不同胎兒DNA濃度之校準樣本將具有不同熵值。校準函數可擬合於校準數據點，使得可輸入新近所量測之相對頻率（例如，熵）至校準函數以提供胎兒DNA濃度之輸出。

當使用來自圖4之10個基元之相對頻率時，圖5B示出了熵。如圖所示，對於給定的10個末端基元組，該關係隨著具有更高熵的胎兒序列而改變。仍可確定胎兒DNA之分率濃度，但將使用不同校準函數。因此，用於校準之基元集合應與隨後使用之基元相同，亦即，當基於熵或集合之相對頻率之其他總值量測分率濃度時。3. 聚類

吾人進一步進行關於懷孕女性之層級聚類分析，其中之每一者由包括所有4聚體末端基元頻率之256維向量表徵。實際上，以源自胎兒特異性序列及母體DNA分子的末端基元為特徵的個體可以分為兩組。

圖6A及6B顯示根據本揭示案之實施例針對妊娠早期之胎兒及母體DNA分子的層級聚類分析。圖6A示出了基於256個4聚體末端基元頻率之層級聚類分析。豎軸對應於4聚體基元，且橫軸對應於各種樣本之不同部分（亦即，胎兒特異性620（黃色）及共用610（藍色）序列）。顏色對應於樣本之特定部分之特定4聚體基元的相對頻率。

不同部分（胎兒特異性及共用）具有不同胎兒DNA濃度，且因此將具有胎兒DNA濃度之不同分類。當使用校準樣本進行此類聚類時，可量測胎兒DNA濃度，例如如以上熵部分中所描述。各校準樣本將具有長度等於所用基元之數目的對應向量（例如，對於所有4聚體或可能僅為4聚體之子組為256，因為胎兒與共用序列之間有最大差異，但可使用其他k聚體）。

圖6B顯示基於256個4聚體末端基元頻率之層級聚類分析之放大可視化。各列表示一種類型之末端基元（亦即，不同末端基元）。各行表示懷孕個體。漸變顏色指示末端基元的頻率。紅色表示最高頻率且綠色表示最低頻率。如吾人可見，代表具有不同胎兒DNA濃度之樣本的兩個部分（胎兒及共用）完全地集群成兩個獨立集群，展示能夠區分具有不同胎兒DNA濃度水準之樣本的良好準確性。 4. 在不同妊娠期之樣本

除能夠區分具有不同分率濃度之樣本以外，一些實施例可區分在不同胎齡之懷孕個體之樣本（例如，其妊娠期或恰好處於妊娠晚期）。

圖7A及圖7B示出了根據本揭示案之實施例，對於在不同的妊娠期之孕婦使用所有基元的熵分佈。有趣的是，使用胎兒特異性確定的末端基元數之熵值似乎與胎齡（p值：0.024，妊娠早期資料相對於妊娠中期與妊娠晚期之合併資料）相關聯，但來自共用片段（主要是母體DNA）之彼等似乎不與胎齡（p值：1，妊娠早期資料相對於妊娠中期與妊娠晚期之合併資料）相關聯。妊娠後期通常具有更高之胎兒DNA濃度。因此，濃度與胎齡之間可存在相關性。

對於胎兒特異性片段，相比於早期妊娠，中期妊娠及晚期妊娠具有減少之熵。因此，胎兒片段可以傳達胎齡。且，由於共用片段基本上具有恆定熵（例如，由於主要為母體片段及/或母體生理學相關之末端基元變化抵消此類胎兒信號），因此所有片段之熵的變化將反映胎齡，因為胎兒片段變化。由於母體片段之存在，不同妊娠期中之熵的此類關係將顯示較少的變化，但是該關係仍將存在。但是當鑑別出胎兒特異性（例如雄性胎兒或藉由鑑別以與預期的胎兒DNA濃度相似的百分比存在的對偶基因或使用父本基因型資訊），隨後則將存在更明顯的關係（例如，如圖7B所示）。

圖7C及7D示出了根據本揭示案之實施例，對於在不同的妊娠期之孕婦使用10個基元的熵分佈。通過從共用片段確定的等級選擇了10個基元。此等圖展示，對於胎兒特異性片段，不同妊娠期的熵仍發生變化，即使該關係可為減少的（與圖7B中增加相反），此係由於基元之特異性選擇。

圖8A示出了根據本揭示案之實施例之所有片段在不同胎齡之熵。使用全部256個4聚體末端基元確定熵。據顯示，具有妊娠晚期之個體中之血漿DNA片段之熵比具有妊娠早期及妊娠中期之個體低（p值=0.06）。且妊娠中期比妊娠早期之平均值更低。因此，當包含所有胎兒片段時（與圖7A中的共用片段相反），熵確實提供了胎齡。

圖8B示出了在不同胎齡的Y染色體來源片段的熵。據顯示，具有妊娠晚期之個體中之Y染色體來源片段之熵比具有妊娠早期及妊娠中期之個體低（p值=0.01）。針對胎兒分子（使用來自Y染色體之胎兒特異性序列）之過濾之此等樣本展示在妊娠晚期與妊娠中期之間的較大間隔。

圖9及10示出了根據本揭示案之實施例，胎兒與母體DNA分子之間的前10個排列的末端基元在不同之妊娠期的分佈。胎兒與母體DNA分子之間的基元頻率排列差異中的前10個末端基元是從一個單一深度定序懷孕案例中挖掘出來的。此等前10個末端基元隨後用於分析樣本中之每一者。

在獨立組中計算帶有相關此等末端基元之胎兒及共用DNA分子的比例，該獨立群體包括分別來自妊娠早期（12-14週）、妊娠中期（20-23週）及妊娠晚期（38-40週）中之每一者的10個懷孕女性。與共用分子相比，發現胎兒DNA分子中有許多末端基元更高，表明彼等末端基元與起源組織具有一定的關係。例如，在妊娠早期（1.26%相對於1.11%）、妊娠中期（1.24%相對於1.11%）及妊娠晚期（1.24%相對於1.15%）中，發現胎兒DNA分子中CAAA%的中值始終高於共用分子（主要是母體）中CAAA%的中值。因此，末端基元CAAA可鑑別為指示具有CAAA之末端序列之特定DNA片段是來自胎兒之可能性增加的標記物。

某些末端基元展示與胎齡更明顯之關係。舉例而言，具有末端基元CCCA之胎兒DNA分子展示胎齡之連續（單調）增加，CCAG、CCTG、CCAA、CCCT及CCAC亦為如此。然而，CCTT值並未展示隨著妊娠期而持續不斷增加，由於在妊娠中期下降，且隨後在妊娠晚期增加。

在另一個實施例中，吾人可組合前10個排列之末端基元以查看在不同妊娠期之胎兒與母體DNA分子之間的差異。

圖11示出了根據本揭示案之實施例，胎兒與母體DNA分子之間的前10個排列的末端基元在不同之妊娠期的組合頻率。如圖11中所示，吾人發現相比於妊娠初期（p值：0.92），胎兒DNA分子與母體DNA分子之間前10個排列的末端基元之組合頻率的差異在妊娠中期（p值：0.013）及妊娠晚期（p值：0.0019）兩者中相對更大。自妊娠初期至妊娠中期至妊娠晚期，胎兒分子之頻率持續地增加，而對於共用分子，未展示此持續關係。此顯示不同生理條件（例如胎齡）將影響來源於不同來源組織之末端基元。B. 腫瘤學

在妊娠之情況下所設計的基因型構件亦可在腫瘤學之情況下應用。

圖12示出了根據本揭示案之實施例基於基因型差異之方法的示意圖，該方法用於分析癌症患者之血漿DNA中突變與共用分子之間的差異末端基元模式。如圖12中所說明，可確定攜帶腫瘤特異性對偶基因(B)之腫瘤特異性分子1205。另一方面，可以確定攜帶共用對偶基因（A）的共用分子1207，其將代表主要來自健康的DNA分子，因為腫瘤DNA分子在血漿DNA庫中通常為少數。

作為一實例，吾人可鑑別突變序列（亦即攜帶癌症相關突變之血漿DNA）及共用序列（主要源自造血組織的DNA）。癌症相關突變可定義為存在於腫瘤組織（肝細胞癌，HCC）中但在正常細胞（例如白血球層）中不存在的突變。舉例而言，在HCC患者中，假定腫瘤組織之基因型為特定基因體基因座中之「AG」，且白血球層細胞之基因型為「AA」，則特定存在於腫瘤組織中之「G」將視為癌症相關突變，且「A」將視為共用野生型對偶基因。在各種實施方案中，突變序列可藉由對來自腫瘤之組織切片進行定序或藉由分析游離樣本（諸如血漿或血清）獲得，例如如美國專利公開案2014/0100121中所述。

在HCC患者中確定突變序列與共用序列之間之末端基元的頻率概況，其中用220×之深度對該HCC患者之血漿DNA進行定序。條形圖1220提供每一4聚體以末端基元形式出現用於突變及共用序列之相對頻率（%）。此類相對頻率可如上文所描述針對圖2之條形圖220而確定。如吾人可見，末端基元1222在不同組織類型之DNA片段之間具有相對頻率之顯著差異。此類差異可用於各種目的，例如富集腫瘤DNA之樣本或確定腫瘤DNA濃度。

在另一個實施例中，為捕獲腫瘤與共用DNA分子之間的末端基元之整體差異，可使用類似於圖2之基於熵之分析1230。曲線1235示出了共用序列及腫瘤序列的熵值。熵或其他方差度量的差異可以例如使用校準函數來提供腫瘤分率濃度。

在又一個實施例中，可進行基於聚類之分析1240，類似於圖2中之胎兒分析。樣本中腫瘤序列之量的分類可基於新樣本屬於已知的腫瘤分數之分類之參考集群來確定。 1. 按順序排列之相對頻率的差異

圖13示出了根據本揭示案之實施例之肝細胞癌中與癌症相關的突變及共用分子的血漿DNA末端基元的總覽。存在在突變與共用序列之間觀察到改變之多個末端基元，例如但不限於CCCA、CCAG、CCAA、CCTG、CCTT、CCCT、CAAA、CCAT、TAAA、AAAA基元。圖13示出了與圖3類似之資訊，但對於臨床相關DNA為與胎兒DNA相反之腫瘤DNA。

圖14示出了根據本揭示案之實施例的肝細胞癌中癌症相關突變及共用分子的血漿DNA末端基元的徑向圖。在外周上列出不同末端基元，且末端基元之頻率係以不同徑向長度表示。末端基元藉由非腫瘤（例如健康）細胞之野生型（wt）對偶基因之頻率分類。頻率值1410對應於wt對偶基因，且頻率值1420對應於突變（mut）對偶基因。此徑向圖展示相比於野生型（共用）序列，突變序列之末端基元之相對頻率的顯著差異。

圖15A顯示根據本揭示案之實施例之HCC患者之血漿DNA中之突變與共用序列之間的末端基元頻率之排列差異的前10個末端基元。確定參考樣本中之共用序列之頂端基元。如所示，頂端基元為CCCA、CCAG、CCAA、CCTG、CCTT、CCCT、CAAA、CCAT、TAAA及AAAA。相對頻率之差異在末端基元之間變化。舉例而言，發現展示突變與共用序列之間的大部分差異之基元（CCCA）分別為1.9%及1.6%，表明此類基元之突變序列相對於共用序列（主要為血細胞衍生之野生型序列）降低15%。

圖15B示出了根據本揭示案之實施例之HCC患者及懷孕女性的8個末端基元的組合頻率。組合頻率為實例總值，例如作為一組末端基元之相對頻率之總和。如可見，在此等兩種情形中之每一者中，兩個類別之序列存在組合頻率之間隔：野生型（WT）與突變之間及母體與胎兒序列之間。野生型（WT）與突變之間的組合頻率之間隔大於母體與胎兒序列之間隔。

此組合頻率示出了與胎兒分析之熵圖類似的行為。因此，圖15B示出了可用於確定臨床相關DNA之分率濃度之相對頻率之總值的另一實例。且圖15B中之WT相對於突變關係示出了亦可確定其他臨床相關DNA（例如腫瘤DNA）之分率濃度。 2. 熵之使用

圖16A及圖16B示出了根據本揭示案之實施例之針對HCC案例的不同末端基元之集合的共用及突變片段的熵值。如同胎兒序列，兩種類型之序列之熵之間的關係可視所用末端基元之集合而變化。圖16A使用4聚體之所有256個末端基元。由於突變片段之頻率分佈更均勻（例如更平緩的），突變片段之熵更高。且歸因於更高偏度頻率分佈，共用片段之熵降低。

圖16B使用HCC個體中出現之4聚體的前10個末端基元用於共用片段。熵的關係與前十個基元相反。圖16A及16B兩者示出了用於確定胎兒DNA濃度之校準分析亦可用於確定腫瘤DNA濃度。

如上文所闡述，更高熵值指示在末端基元中之更高多樣性。基元多樣性評分（MDS）可用於估計循環游離DNA之生物樣本中的臨床相關DNA（例如胎兒、移植或腫瘤）之分率濃度。

圖17為根據本揭示案之實施例之基元多樣性評分（熵）相對於量測的循環腫瘤DNA分數的曲線圖。對於複數個校準樣本中之每一者，校準數據點1705被量測。校準數據點包括樣本之基元多樣性評分及臨床相關DNA（在此情況下為腫瘤DNA分數）之分率濃度。基於ichorCNA估計腫瘤DNA分數，ichorCNA係一種藉由利用癌症相關之複本數偏差來量測血漿DNA中之腫瘤DNA分數的套裝軟體（Adalsteinsson等人 2017）。

既定樣本可為不具有腫瘤DNA之健康對照樣本或來自具有腫瘤之患者的樣本，其中腫瘤DNA分數為非零，亦即存在腫瘤DNA及其他（例如健康） DNA。發現HCC之患者血漿DNA的MDS值與腫瘤DNA分數呈正相關（斯皮爾曼相關係數（Spearman's ρ）：0.597； p值：0.0002）。此係以校準函數1710（在此實例中為線性函數）展示。

校準函數1710可用於確定已量測基元多樣性評分之新測試樣本中的腫瘤DNA分數。可藉由例如使用回歸而與校準數據點1705之函數擬合來確定校準函數1710。

在一些實例中，可將用於新樣本之MDS之計算值X用作至函數F（X）中之輸入，其中F係校準函數（曲線）。F（X）之輸出為分率濃度。可提供誤差範圍，各X值之誤差範圍可不同，籍此提供作為F（X）之輸出之一系列值。在其他實例中，可將新樣本中之對應於MDS之0.95之量測值的分率濃度確定為自0.95之MDS處之校準數據點計算的平均濃度。作為另一實例，校準數據點1705可用於提供特定校準值之一系列分數DNA濃度，其中該範圍可用於確定分率濃度是否高於臨限量。C. 移植

亦可應用基因型技術以監測移植，例如肝臟移植。受體為同型接合且供體為異種接合之SNP位點將允許確定移植患者之血漿中之供體特異性DNA分子及主要的造血組織的DNA。

圖18A示出了本揭示案之實施例使用供體特異性片段的熵分析。圖18B示出了使用供體特異性片段的層級聚類分析。如圖18A及18B所示，在肝臟移植的情況下，觀察到肝臟特異性DNA分子具有與共用序列（主要是血液來源的DNA）不同的性質。與共用序列相比，一般發現血漿DNA末端基元之熵在供體特異性DNA分子（肝臟DNA）中較低（圖18A）。以源自肝臟特異性DNA分子之末端基元為特徵的個體聚集在一起，而以共用DNA分子的末端基元為特徵的個體聚集在一起。D. 分類分率濃度

如上文所描述，一組單一或多個末端基元之相對頻率可用於確定臨床相關DNA之分率濃度之分類。

圖19為根據本揭示案之實施例的流程圖，其繪示估計個體之生物樣本中臨床相關DNA的分率濃度的方法1900。生物樣本可包含為游離之臨床相關DNA及其他DNA。在其他實例中，生物樣本可不包含臨床相關DNA，且估計之分率濃度可指示臨床相關DNA之零或較低百分比。方法1900之態樣及本文中所描述之任何其他方法可藉由電腦系統執行。

在步驟1910處，分析來自生物樣本之複數個游離DNA片段以獲得序列讀段。序列讀段可包含對應於複數個游離DNA片段之末端的末端序列。作為實例，可使用定序或基於探針之技術獲得序列讀段，其中任一者包含富集，例如經由擴增或捕獲探針。

定序可以各種方式進行，例如使用大規模平行定序或下一代定序、使用單分子定序及/或使用雙股或單股DNA定序文庫製備方案。技術人員應瞭解，可使用多種定序技術。作為定序之一部分，有可能一些序列讀段可對應於細胞核酸。

定序可為如本文中所描述之靶向定序。舉例而言，生物樣本可富集來自特定區域之DNA片段。富集可包含使用結合至例如如藉由參考基因組所定義之一部分或整個基因組的捕獲探針。

可分析統計顯著數目個游離DNA分子以便對分率濃度提供精確的測定。在一些實施例中，分析至少1,000個游離DNA分子。在其他實施例中，可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或更多個游離DNA分子。

在步驟1920處，針對複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元。序列基元可包含N個鹼基位置（例如1、2、3、4、5、6等）。作為實例，序列基元可藉由分析對應於DNA片段末端之序列讀段、使信號與特定基元關聯（例如當使用探針時）及/或將序列讀段與參考基因組比對來確定，例如如圖1中所述。

舉例而言，在藉由定序裝置定序之後，可藉由電腦系統接收序列讀段，該電腦系統可通信地耦接至進行定序之定序裝置，例如經由有線或無線通信或經由可拆卸記憶體裝置。在一些實施方案中，可接收包含核酸片段之兩個末端的一或多個序列讀段。DNA分子之位置可藉由將DNA分子之一或多個序列讀段與人類基因組之各別部分（例如特異性區域）比對（對齊）來確定。在其他實施例中，特定探針（例如在PCR或其他擴增之後）可指示位置或特定末端基元，諸如經由特定螢光色。鑑別可為游離DNA分子對應於一組序列基元中之一者。

在步驟1930中，確定對應於複數個游離DNA片段之末端序列的一組單一或多個序列基元之相對頻率。序列基元之相對頻率可提供具有對應於序列基元之末端序列的複數個游離DNA片段之比例。可使用一或多個參考樣本之參考集合鑑別一或多個序列基元之集合。儘管可確定基因型差異以使得可鑑別臨床相關DNA之末端基元與其他DNA（例如個體如何接受移植器官之健康DNA、母體DNA或DNA）之間的差異，但對於參考樣本而言無需得知臨床相關DNA之分率濃度。可基於差異選擇特定末端基元（例如以選擇具有最高絕對或百分比差異之末端基元）。在整個揭示案中描述相對頻率之實例。

在一些實施方案中，序列基元包含N個鹼基位置，其中一或多個序列基元之集合包含N個鹼基之所有組合。在一些實例中，N可為等於或大於二或三之整數。一或多個序列基元之集合可為在一或多個校準樣本或未用於校準分率濃度之其他參考樣本中產生之前M個（例如，10個）最常見序列基元。

在步驟1940中，確定一或多個序列基元之集合之相對頻率的總值。在整個揭示案中描述了實例總值，例如，包含熵值（基元多樣性評分）、相對頻率之總和及與一組基元之計數向量相對應的多維數據點（例如用於對可能的4聚體之245個基元技術的向量256或用於對可能的3聚體之64個基元計數的64）。當一或多個序列基元之集合包含複數個序列基元時，總值可包含該集合之相對頻率之總和。

作為一實例，當一或多個序列基元之集合包含複數個序列基元時，該總值可包含該集合之相對頻率之總和。作為另一實例，總值可對應於相對頻率之方差。舉例而言，總值可包含熵項。熵項可包含項之總和，每一項包含相對頻率乘以相對頻率之對數。作為另一實例，總值可包含機器學習模型（例如，聚類模型）之最終或中間輸出。

在步驟1950中，藉由比較總值與一或多個校準值來確定生物樣本臨床相關DNA之分率濃度之分類。一或多個校準值可以從其臨床相關DNA之分率濃度已知（例如，量測）之一或多個校準樣本中確定。比較可與複數個校準值進行比較。比較可藉由將總值輸入成校準函數擬合至校準資料進行，該校準資料提供相對於樣本中之臨床相關DNA之分率濃度變化的總值之變化。作為另一實例，一或多個校準值對應於一或多個序列基元之集合之相對頻率的一或多個總值，該一或多個序列基元之集合係使用在一或多個校準樣本中之游離DNA片段量測。

可計算校準值作為各校準樣本之總值。可確定各樣本之校準數據點，其中校準數據點包含樣本之校準值及所量測之分率濃度。此等校準數據點可用於方法1900中，或可用以確定最終校準數據點（例如，如經由功能擬合所定義）。舉例而言，可使線性函數擬合至隨分率濃度而變之校準值。線性函數可定義方法1900中待使用之校準數據點。作為比較的一部分，可以將新樣本的新總值用作函數的輸入，以提供輸出分率濃度。因此，一或多個校準值可為校準函數之複數個校準值，該校準函數係使用複數個校準樣本之臨床相關DNA之分率濃度來確定。

作為另一實例，新總值可與具有分率濃度之相同分類（例如，在相同範圍內）之樣本的平均總值比較，且若新總值相比於與另一分類之平均值之校準值更接近此平均值，則新樣本可確定為具有相同濃度。當進行聚類時可以使用此類技術。舉例而言，校準值可為對應於分率濃度之特定分類之集群之代表值。

測定校準數據點可包含例如如下量測分率濃度。對於一或多個校準樣本之各校準樣本，可在校準樣本中量測臨床相關DNA之分率濃度。可藉由分析來自校準樣本的游離DNA片段作為獲得校準數據點之一部分來確定一或多個序列基元之集合之相對頻率的總值，從而確定一或多個總值。各校準數據點可指定校準樣本中之臨床相關DNA之所量測分率濃度及針對校準樣本所確定之總值。一或多個校準值可為一或多個總值，或者可以使用一或多個總值來確定（例如，當使用校準函數時）。分率濃度之量測可以如本文所述之各種方式進行，例如藉由使用對臨床相關DNA具有特異性之對偶基因。

在各種實施例中，可使用組織特異性對偶基因或表觀遺傳標記物，或使用DNA片段之尺寸量測臨床相關DNA之分率濃度，例如如美國專利公開案2013/0237431中所述，其以全文引用之方式併入本文中。組織特異性表觀遺傳標記物可包含在樣本中展現組織特異性DNA甲基化模式之DNA序列。

在各種實施例中，臨床相關DNA可選自由以下組成之群：胎兒DNA、腫瘤DNA、來自移植器官之DNA及特定組織類型（例如，來自特定器官）。臨床相關DNA可為特定組織類型，例如特定組織類型為肝臟或造血組織。當個體為懷孕女性時，臨床相關DNA可為胎盤組織，其對應於胎兒DNA。作為另一實例，臨床相關DNA可為來源於患有癌症之器官的腫瘤DNA。

通常，首選使用與用於量測分率濃度之生物（測試）樣本類似的分析來產生由一或多個校準樣本確定之一或多個校準值。舉例而言，可以相同方式產生定序文庫。兩種實例處理技術為GeneRead （www.qiagen.com/us/shop/sequencing/generead-size-selection-kit/#orderinginformation）及SPRI（固相可逆固定化，AMPure珠粒，www.beckman.hk/reagents_depr/genomic_depr/cleanup-and-size-selection/pcr—）。GeneRead可移除主要為腫瘤片段之較短DNA，其可影響野生型及突變片段以及胎兒及移植案例之末端基元的相對頻率。E. 確定胎齡

如上圖7A、7B及8-10中所描述，胎兒特異性片段基元可用於推斷胎齡。

圖20為根據本揭示案之實施例的流程圖，其繪示通過分析來自懷有胎兒之女性個體的生物樣本來確定胎兒之胎齡的方法2000。生物樣本包含來自女性個體及胎兒之游離DNA分子。

在步驟2010中，分析來自生物樣本之複數個游離DNA片段以獲得序列讀段。序列讀段可包含對應於複數個游離DNA片段之末端的末端序列。步驟2010可以與圖19之步驟1910類似之方式進行。

在分析之前、之後或作為分析之部分，複數個游離DNA片段可鑑別為來源於胎兒，例如如上文針對圖2及5A所述。此可過濾為胎兒或最可能為胎兒之單體的DNA片段。作為實例，可使用胎兒特異性對偶基因或胎兒特異性表觀遺傳標記物鑑別複數個游離DNA片段。作為另一實例，對於序列讀段中之每一者，序列讀段對應於胎兒之可能性可基於序列讀段之末端序列來決定，該序列讀段包含一或多個序列基元之集合中之序列基元。亦可使用其他標準，例如如章節II. E.中所述。可能性可與臨限值相比較，且當可能性超過臨限值時，序列讀段可經鑑別為來源於胎兒。關於富集臨床相關DNA之樣本的其他細節可見於章節IV中。

在步驟2020中，針對複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元。步驟2020可以與圖19之步驟2020類似之方式進行。

在步驟2030中，確定對應於複數個游離DNA片段之末端序列的一組單一或多個序列基元之相對頻率。序列基元之相對頻率可提供具有對應於序列基元之末端序列的複數個游離DNA片段之比例。步驟2030可以與圖19之步驟1930類似之方式進行。

在步驟2040中，確定一或多個序列基元之集合之相對頻率的總值。步驟2040可以與圖19之步驟1940類似之方式進行。

在步驟2050中，獲得一或多個校準數據點。每一校準數據點可指定對應於總值之胎齡（例如，如以上圖式中所描述之妊娠期）。如上所述，可自具有已知胎齡及包含游離DNA分子之複數個校準樣本確定一或多個校準數據點。在一些實施方案中，一或多個校準數據點可為複數個校準數據點，其形成接近自具有已知胎齡之該複數個校準樣本中之游離DNA分子確定之所量測之總值的校準函數。

在步驟2060中，將總值與至少一個校準數據點之校準值進行比較。舉例而言，可將新樣本之新總值與如圖8A中所確定之妊娠晚期之平均值比較。作為另一實例，至少一個校準數據點之校準值可對應於使用複數個校準樣本中之至少一者中之游離DNA分子量測之總值。總值之比較可為複數個校準值，例如，各自對應於複數個校準樣本中之一者。比較可藉由將總值輸入成函數擬合（校準函數）至校準資料中而發生，該校準資料提供相對於胎齡之總值之變化。可例如參考步驟1950以與方法1900所描述之類似方式進行比較。

在步驟2070中，基於該比較估計胎兒之胎齡。舉例而言，若新總值最接近於妊娠晚期平均值（或所使用之其他校準值），則可將新樣本確定為在妊娠晚期。作為另一實例，新總值可與擬合至圖8A或其他類似圖式中之資料的校準函數（例如，線性函數）相比。函數可輸出胎齡，例如作為線性函數之Y值。本文所提供之用於校準功能之其他實例亦可用於確定胎齡之背景中。III. 表現型方法

使用基於基因型之分析，對於懷孕個體、癌症個體以及肝臟移植，血漿DNA末端基元之存在與來源組織有關。吾人推論在癌症患者中，將腫瘤DNA釋放至血液循環，因此改變血漿DNA末端基元之原始正常呈現。然而，吾人不排除癌症之病理學之其他態樣，例如腫瘤微環境（浸潤性T細胞、B細胞、嗜中性白血球等）將產生不同的末端基元，對末端基元之橫向發揮影響之可能性。因此，對癌症個體與非癌症對照個體之間的血漿DNA末端基元之分析將揭露自對照個體分類HCC之能力。

圖21示出了根據本揭示案之實施例之用於血漿DNA末端基元分析之表現型方法的示意圖。圖21與圖2及12具有類似性，例如可標繪相對頻率，可確定方差值（例如，熵），且可進行聚類。

在圖21中，使用自血漿DNA分子推斷之末端基元（例如，4聚體）且在癌症與對照個體之間進行比較，由此避免基因型標記之限制且使其在許多臨床情形中廣泛適用，例如偵測自體免疫疾病（例如，全身性紅斑性狼瘡症、SLE）及移植。在使用所有經定序之血漿DNA片段的情況下使用表現型方法，可在極類似解析步驟中進行熵及聚類分析，如同在基於基因型差異之方法中進行。在此情形中，將在對照與患病個體之間比較熵分析及聚類分析。

病變分子2105來自經確定患有該疾病之一或多個個體。對照分子2107來自不患有疾病之一或多個個體。確定兩個分子庫之一組末端基元之相對頻率。條形圖1220提供每一4聚體以末端基元形式出現用於控制及病變序列之相對頻率（%）。此類相對頻率可如上文所描述針對圖2之條形圖220而確定。如吾人可見，末端基元2122在不同組織類型之DNA片段之間具有相對頻率之顯著差異。此類差異可用於各種目的，例如以將新樣本分類為病變或未病變，或一些其他程度之疾病。

為捕獲腫瘤與共用DNA分子之間的末端基元之整體差異，可使用基於類似於圖2之基於熵之分析2130。曲線2135示出了對照及病變個體的熵值。熵或其他方差度量的差異可以提供與該疾病相關之病理等級的分類。

在又一實施例中，可進行基於聚類之分析2140，其類似於圖2中之胎兒分析及圖12中之腫瘤分析。病理等級的分類可基於屬於分類已知之參考集群的新樣本來確定。

因此，在相對頻率之總值之一個實例中，各個體之特徵可在於包括關於4聚體末端基元之256個頻率之向量（亦即256維向量）。在其他實例中，不同基元頻率中之標準差（SD）、變化係數（CV）、四分位數範圍（IQR）或某一百分點截止值（例如，第95或第99百分位）可用於評估疾病與對照組之間的末端基元模式之整體變化。總值之其他實例亦提供於其他部分中且在此為可適用的。A. 腫瘤學

在一些實施例中，疾病（病理）可為癌症。因此，一些實施例可對癌症等級進行分類。 1. 按順序排列之相對頻率的差異

圖22示出了根據本揭示案之實施例使用肝細胞癌（HCC）與乙型肝炎病毒（HBV）個體間之所有血漿DNA分子之4聚體末端基元之頻率概況的實例。圖22比較HCC患者與一個HBV個體之256個末端基元之頻率。如同類似曲線，豎軸為基元頻率且橫軸對應於各別末端基元。在圖22中，吾人基於非HCC個體中之基元頻率之平均值將基元以升序排列。底部曲線圖與頂部曲線圖接續，但為便於說明，比例不同。

多個末端基元在HCC患者中展示異常。例如，與HBV個體相比，在HCC患者中顯示出其頻率提高之排名前10的末端基元（TGGG、TAAA、AAAA、GAAA、GGAG、TAGA、GCAG、TGGT、GCTG及GAGA）的平均倍數變化為1.22倍，範圍為1.12-1.35倍數變化；且在HCC患者中顯示其頻率降低之排名前10的末端基元（CCCA、CCAG、CCAA、CCCT、CCTG、CCAC、CCAT、CCCC、CCTC及CCTT）的平均倍數變化為1.23倍，範圍為1.16-1.29倍數變化。相對於非癌症組，此類在HCC組中顯示其頻率提高（或減低的頻率）的最前面基元之集合可以用於對相關癌症之新個體進行分類。作為另一實例，等級處理可選擇展示HCC增加之所有彼等基元，且隨後根據HCC個體與非HCC個體之間的AUC將彼等基元以降序排序。隨後基於AUC值選擇前10個基元。

為藉由使用血漿DNA末端基元測試診斷潛力，吾人為20個健康對照個體（對照）、22個慢性乙型肝炎帶病毒者（HBV）、12個肝硬化患者（Cirr）、24個早期HCC（eHCC）、11個中期HCC（iHCC）及7個晚期HCC（aHCC）進行定序，其中中值配對讀段為2.15億（範圍：0.97-16.81億）。

圖23A示出了根據本揭示案之實施例之具有不同癌症水平之各種個體的前10個血漿DNA 4聚體末端基元的組合頻率的盒狀圖。基於圖22中之資料選擇前10個血漿DNA 4聚體末端基元，亦即基於HBV個體之頻率。組合頻率為既定個體之10個末端基元之頻率的總和。吾人發現相比於非癌症個體，HCC患者中前10個評級末端基元之組合頻率顯著降低（p值＜0.0001）。重要的是，使用此末端基元分析，可以95%之特異性鑑別出58.3%之eHCC患者。另外，可偵測不同階段之癌症。舉例而言，晚期HCC具有比eHCC及iHCC實質上更低的值。

圖23B示出了根據本揭示案之實施例，在HCC及非癌症個體之間的前10個血漿DNA 4聚體末端基元的組合頻率的接收者操作特徵（ROC）曲線。發現ROC曲線之曲線下面積（AUC）為0.91，其顯示血漿DNA末端基元實際上有助於將HCC與非癌症個體區分之臨床潛能。在另一實施例中，HCC個體與非HCC個體之間具有最大間隔的七個末端基元之組合頻率提供0.92之AUC。

圖24A示出了根據本揭示案之實施例，在不同組的CCA基元的頻率的盒狀圖。非HCC組中最常見的3聚體基元（CCA）顯示在HCC組中顯著降低（p值＜0.0001）。圖24B示出了根據本揭示案之實施例，使用在非HCC個體中存在的最頻繁的3聚體基元（CCA）在非HCC及HCC組之間的ROC曲線。發現AUC為0.915。最常見的4聚體（CCCA）亦提供0.91之類似AUC。 2. 熵的使用（基元多樣性評分）

圖25A示出了根據本揭示案之實施例，使用256個4聚體末端基元在不同組的熵值的盒狀圖。使用4聚體之所有256個基元。如圖25A中所示，與非HCC個體（平均值：5.203；範圍：5.124-5.253）相比，HCC患者（平均值：5.242；範圍：5.164-5.29）之熵值顯著增加（p值＜0.0001）。重要的是，使用此末端基元分析，可以95%之特異性鑑別出41.7%之eHCC患者。與非HCC組相比，在HCC、IHCC及晚期HCC組中熵通常增加。另外，可偵測不同階段之癌症。舉例而言，晚期HCC具有比eHCC及iHCC實質上更高的值。

圖25B示出了根據本揭示案之實施例，使用10個4聚體末端基元在不同組的熵值的盒狀圖。此處，HCC個體具有相對於非HCC個體減少之熵。因此，所用末端基元之集合可將關係自增加改變為減少。舉例而言，使用前10個基元，HCC組中熵減少。在任一方式中，在HCC與非HCC組之間存在診斷能力，以及相對於HCC之早期的晚期HCC。

圖26A示出了根據本揭示案之實施例，使用在不同組的3聚體末端基元之熵值的盒狀圖。發現使用3聚體基元（總共64個基元）的HCC個體的熵顯著高於非HCC個體的熵（p值＜0.0001）。圖26B示出了根據本揭示案之實施例，使用在非HCC與HCC組之間的64個3聚體基元的熵的ROC曲線。發現AUC為0.872。

如上文所闡述，更高熵值指示在末端基元中之更高多樣性。作為使用多樣性評分在各種癌症類型及對照（例如，健康）樣本之間區分之實施例之能力的另一說明，使用來自公佈之研究的資料。

圖27A及圖27B示出了根據本揭示案之實施例，使用在不同組的4聚體之基元多樣性評分的盒狀圖。將所有256個4聚體用於測定基元多樣性評分。當吾人使用自公開研究下載之血漿DNA之定序結果進行MDS分析時，通常可在各種癌症類型中觀測到血漿DNA末端多樣性之提高（Song等人2017），其可反映來自不同結構部位之不同腫瘤細胞將其DNA排出至血液循環中之事實（Bettegowda等人2014）。所分析之癌症為：肝細胞癌（HCC）、肺癌（LC）、乳癌（BC）、胃癌（GC）、多形性膠質母細胞瘤（GBM）、胰臟癌（PC）及結腸直腸癌（CRC）。

為了進一步測試MDS變化在不同癌症類型中之概括性，吾人進一步對具有其他癌症類型之40個血漿DNA樣本的獨立組進行定序，包含患有結腸直腸癌（n=10）、肺癌（n=10）、鼻咽癌（n=10）及頭頸部鱗狀細胞癌（n=10）之患者，其中中值為0.42億雙邊定序讀段（範圍：0.19-0.65億）。如圖27B中所示，患有癌症之患者之組中之MDS值（中值：0.943；範圍：0.939-0.949）明顯高於無癌症之對照組（中值：0.941；範圍：0.933- 0.946；p值＜0.0001，威爾科克森秩和檢驗（Wilcoxon sum-rank test））。

圖28示出了根據本揭示案之實施例，用於區分健康對照與癌症的各種技術的接收者操作曲線。吾人總共具有129個樣本，包含健康對照（n=38）、乙型肝炎帶病毒者（n=17）、肝細胞癌患者（n=34）、結腸直腸癌患者（n=10）、肺癌患者（n=10）、鼻咽癌患者（n=10）及頭頸部鱗狀細胞癌患者（n=10）。有趣的是，與包含片段尺寸2803 （AUC=0.74，p值=0.0040；DeLong測試）、片段偏好末端2804（AUC=0.52，p值＜0.0001）（Jiang等人2018）及具方向意識血漿游離片段化信號、OCF、2802（AUC=0.68，p值=0.0013）（Sun等人2019）之其他碎裂度量值相比較，基於MDS之方法2801（AUC=0.85）似乎具有最佳效能（Yu等人2017b）。若技術中之任一者將個體歸類為患有癌症，則組合分析2805將個體鑑別為患有癌症。

針對不同長度之基元，區分癌症與非癌症之MDS分析的準確性相對充分維持。對於1聚體至5聚體進行MDS分析。

圖29示出了據本揭示案之實施例，用於使用各種k聚體之MDS分析的接收者操作曲線。自1至5聚體基元推斷之MDS值亦增加區分有及無癌症之患者之能力。1聚體分析2901提供0.81 AUC。2聚體分析2902提供0.85 AUC。3聚體分析2903提供0.85 AUC。4聚體分析2904提供0.85 AUC。5聚體分析2905提供0.81 AUC。

吾人亦根據計算機模擬探索腫瘤DNA分數對以MDS為基礎之癌症偵測之效能的影響。

圖30示出了根據本揭示案之實施例，以MDS為基礎之針對各種腫瘤DNA分數的癌症偵測的表現。如圖30中所示，癌症偵測之效能隨著血漿DNA中之腫瘤DNA分數增加而漸進地改良。舉例而言，對於腫瘤DNA分數為0.1%之彼等患者，ROC之曲線下面積（AUC）僅為0.52，而對於腫瘤DNA分數為3%之彼等患者，AUC增加至0.9，而在較高濃度下進一步增加，但在5%腫瘤分數下接近最大值。 3. 機器學習（ SVM 、回歸及聚類）

為了進一步探究是否可建構分類器以使用血漿DNA末端基元偵測癌症患者，吾人使用256個血漿DNA末端基元來建構分類器以分別區分患有（n=55）癌症及無（n=74）癌症之患者，使用支援向量機（SVM）及邏輯回歸（logistic regression），其將各端基元之量值及方向納入考慮。SVM分析鑑別出在256個維度位置中癌症患者與非癌症患者之間最佳區分的超平面，其中訓練數據點為4聚體之256個基元中之每一者的頻率。邏輯回歸確定使256個頻率中之每一者相乘之係數，且亦確定對數函數之所得輸出的截止值，該截止值可為乘以頻率之加權總和或作為輸入來接收加權總和。如熟習此項技術者將熟悉，此類對數函數可為S型函數或其他啟動函數。

為了最小化擬合之問題，吾人採用留一法程序以藉由使用接收者操作特徵（ROC）曲線分析來評估其效能。根據以下步驟進行留一法程序。在N個樣本尺寸中，吾人將一個樣本作為測試樣本，且使用剩餘樣本（N-1）來使用256個血漿DNA末端基元訓練基於SVM及邏輯回歸之分類器。隨後，吾人使用經培訓之分類器以測定剩餘樣本是否分類為來自患有或沒有癌症之個體。吾人有系統地留下一個樣本作為測試樣本以測試經剩餘樣本訓練之分類器。因此，吾人可獲得各樣本之預測結果且根據預測結果計算精確性。

圖31示出了根據本揭示案之實施例，用於MDS、SVM及邏輯回歸分析的接收者操作曲線。吾人觀察到相比於基於MDS之分析（AUC=0.85），使用具有256個末端基元（SVM及邏輯回歸兩者之AUC=0.89）之分類器的AUC增加較少。

作為另一機器學習技術，吾人使用基於末端基元之頻率的聚類。

圖32示出了根據本揭示案之實施例，針對具有不同癌症及不同癌症水平之組別的排名前十的末端基元的層級聚類分析。如所示，HCC個體（eHCC：早期HCC 3205；iHCC：中期HCC 3230；及aHCC：晚期HCC 3225）通常集群在一起，且非HCC（健康對照個體；HBV：慢性乙型肝炎帶病毒者）通常集群在一起。舉例而言，右側的集群為早期HCC 3205（黃色）。左中主要為對照3210、HBV 3215及肝硬化3220。HCC與非HCC組之間的不同聚類模式表明末端基元將反映血漿DNA末端基元中之疾病相關偏好且表明血漿DNA末端基元之潛在診斷能力。除了基於連接之層級聚類以外，亦可使用其他聚類技術作為統計方法，諸如基於中心的聚類、基於分佈的聚類以及基於密度的聚類。

圖33A-33C示出了根據本揭示案之實施例，使用具有不同癌症及不同癌症水平之組別之所有血漿DNA分子的層級聚類分析。圖33A示出了基於256個4聚體末端基元頻率之層級聚類分析。圖33B示出了基於256個4聚體末端基元頻率之層級聚類分析之放大顯示。每一行表示一種未端基元之類型。每一列表示個別血漿DNA樣本。漸變顏色指示末端基元的頻率。紅色表示最高頻率且綠色表示最低頻率。圖33C示出了使用末端基元之HCC及非HCC個體的主成分分析（PCA）。主要組分為提供最大方差之256基元之線性組合，例如在所得頻率之加權總和中。

由於HCC及非HCC個體呈現形成兩個不同集群，因此來源於所有血漿DNA分子之末端基元將為區分HCC與非HCC個體之重要量度。圖33A及33B顯示HCC個體3305（紅色）傾向於聚集成一組，且非HCC個體3310（藍色）傾向於聚集成另一組。在圖33C中，PCA分析亦展示HCC個體及非HCC個體傾向於集群成兩個不同組。PC1及PC2對應於相對頻率之不同線性組合（例如，加權平均值），其可表示相對頻率之給定直方圖之圖案。圖33C展示可在進行聚類或使用截止值或截止平面之前進行線性組合（或其他轉化）。因此，經變換相對頻率可用以確定總值。

圖34示出了根據本揭示案之實施例，基於使用具有不同癌症水平之在不同組中之所有血漿DNA分子之3聚體基元的層級聚類分析。為易於說明，僅展示熱圖之頂部部分。如所示，HCC個體（eHCC：早期HCC 3405；iHCC：中期HCC 3430；及aHCC：晚期HCC 3425）通常集群在一起，且非HCC（健康對照個體3410；HBV 3415：慢性乙型肝炎帶病毒者；及肝硬化3420）通常集群在一起。

基於此等發現，機器學習（例如深度學習）模型可用於藉由利用包括血漿DNA末端基元之256維向量來訓練癌症分類器，包含但不限於支援向量機（SVM）、決策樹、樸素貝葉斯分類（naive Bayes classification）、邏輯回歸、聚類演算法、PCA、單一值分解（SVD）、t-分佈隨機鄰域嵌入（tSNE）、人工神經網路，以及構築分類器之集合且隨後藉由採取其預測之加權表決對新數據點進行分類之集合法。一旦癌症分類器係基於包含一系列癌症患者及非癌症患者之基於「基於256維向量之矩陣」訓練，將能夠預測新患者患癌症之機率。

在機器學習演算法之此類用途中，總值可對應於可與參考值進行比較之機率或距離（例如，當使用SVMs時）。在其他實施例中，總值可對應於模型中之較早輸出（例如，神經網路中之較早層），其與兩個分類之間的截止值相比或與給定分類之代表值相比。B. 免疫疾病監測

圖35A示出了根據本揭示案之實施例，使用健康對照個體與SLE患者之間之所有血漿DNA分子的熵分析。圖35B示出了根據本揭示案之實施例，使用健康對照個體與SLE患者之間之所有血漿DNA分子的層級聚類分析。

用於血漿DNA末端基元之綜合整體異常分析，包含熵（圖35A，p值：0.00014）且聚類分析（圖35B）說明SLE患者可區別於健康對照個體。舉例而言，患有SLE之個體之熵增加（圖35A）.且兩個集群通常形成於左側（SLE 3510）及右側（對照/正常3505）上。因此，自體免疫疾病改變血漿DNA片段化模式，由此展示SLE與對照個體之間血漿DNA末端基元之可辨別的能力。

圖36展示根據本揭示案之實施例，使用在健康對照個體與SLE患者之間具有10個所選擇末端基元之血漿DNA分子的熵分析。使用對於對照個體具有前10個最高相對頻率之基元。如同其他表現型，基元之集合可影響SLE熵是否會更高或更低。鑒於選擇10個基元作為具有對照之最高值，因此熵較高，此係由於該值彼此類似（亦即，由於排列）。且SLE熵由於存在更多變化而降低，例如，因為其未就SLE個體被排列。若使用SLE樣本選擇前10個基元，則可存在相反關係。因此，自體免疫疾病（例如SLE）之等級可使用相對頻率之總值確定。C. 末端基元之複合分析及傳統度量

吾人測試血漿DNA末端基元及其他度量值之組合分析（複本數偏差（CNA）、低甲基化及高甲基化）是否將改良非侵襲性癌症偵測之效能。舉例而言，基於決策樹之分類可用於組合分析。

圖37示出了根據本揭示案之實施例之包含HCC及非HCC個體之末端基元及複本數或甲基化之組合分析的ROC曲線。末端基元分析使用利用4聚體之所有256個基元確定的基元多樣性評分。若任一分析引起癌症分類，則組合分析鑑別癌症。末端基元及甲基化分析之組合分析（AUC：0.94）或末端基元及CNA分析之組合分析（AUC：0.93）優於僅使用末端基元（AUC：0.86）之分析。甲基化分析使用低甲基化（定義為甲基化密度z評分＜-3） 1 Mb面元之數目高於正常對照之數目，其中截止數目之異常面元區分癌症與非癌症。CNA分析使用具有大於3或小於3之z評分表示之1 Mb面元之數目，其中異常面元之截止數目可區分癌症與非癌症。甲基化分析之其他細節可見於美國專利公開案2014/0080715中且CNA分析之其他細節可見於美國專利公開案U. S. 2013/0040824中。

描述一種基於實例決策樹之分類。舉例而言，吾人可使用隨機森林演算法來推斷各度量值的截止值，包含CNA、低甲基化、高甲基化、尺寸（例如如美國專利公開案2013/0237431中所描述）、末端基元及片段化模式（例如如美國專利公開案2017/0024513及2019/0341127及美國專利申請案16/519, 912中所描述）。每一度量將具有特定截止值。舉一個度量（低甲基化）作為實例，一個案例可歸類為癌症或非癌症，視度量值低於或高於截止值而定。一個度量表示決策樹中之一個節點。在樣本遍歷整個樹中之所有節點之後，例如，大多數表決（例如，指示癌症之節點數目大於指示非癌症之節點數目）可提供最終分類。D. 界定血漿 DNA 之末端基元之替代性方式之實例

為了證明使用替代方式定義血漿DNA之末端基元的可行性，採納圖1中之技術160用於分析HCC個體及非HCC個體，該等個體包含定序之20名健康對照個體（對照）、22名慢性乙型肝炎帶病毒者（HBV）、12名肝硬化個體（Cirr）、24名早期HCC（eHCC）、11名中期HCC（iHCC）及7名晚期HCC（aHCC）。

圖38A示出了根據本揭示案之實施例之基於4聚體的熵分析，該4聚體由定序之血漿DNA片段的末端及其在HCC及非HCC個體中之相鄰基因組序列共同構築。使用全部256個末端基元確定熵。如同使用圖1之技術140定義基元之分析，HCC個體之熵與非癌症個體之熵不同。且晚期HCC顯示與eHCC及iHCC之實質性差異。圖38B示出了根據本揭示案之實施例之基於4聚體的聚類分析，該4聚體由定序之血漿DNA片段之末端及其在HCC個體3810及非HCC個體3805中之相鄰基因組序列共同構築。

圖39示出了根據本揭示案之實施例針對圖1所使用的技術140及160的ROC比較以限定血漿DNA之末端基元。使用如圖38A之相同個體，且進行使用4聚體之熵分析以進行分類。方法（i）對應於技術140，且方法（ii）對應於技術160。與圖1中之技術140相比，在使用圖1中之技術160之情況下觀測到略微較差效能（AUC：0.815相對於0.856）。E. 過濾以提高辨別力

特定標準可用於過濾特異性DNA片段（除末端基元以外）以提供更大準確性，例如靈敏度及特異性。作為實例，末端基元分析可受限於來源於特定組織之開放染色質區域之DNA片段，例如如藉由完全在複數個開放染色質區域中之一者內或部分比對之讀段所測定。舉例而言，具有至少一個與開口染色質區域重疊之核苷酸的任何讀段可定義為開口染色質區域內之讀段。根據DNA酶I超敏感位點，典型的開放染色體區域為約300 bp。取決於用於定義開口染色質區域之技術，開口染色質區域之尺寸可變化，例如ATAC序列（對於轉位酶可獲得的染色質定序分析）對比DNaseI序列。

作為另一實例，可選擇特定尺寸之DNA片段進行末端基元分析。如下文所示，此可增加末端基元之相對頻率之總值之間隔，由此提高精確性。

另一實例可使用DNA片段之甲基化性質。胎兒及腫瘤DNA通常為低甲基化的。實施例可測定DNA片段之甲基化度量（例如密度）（例如以DNA片段上甲基化之位點之比例或絕對數形式）。且可基於所量測甲基化密度選擇DNA片段用於末端基元分析。舉例而言，僅當甲基化密度高於臨限值時才可使用DNA片段。

無論DNA片段是否包含相對於參考基因組之序列變異（例如鹼基取代、插入或缺失），其亦可用於過濾。

各種過濾準則可組合使用。舉例而言，可需要滿足每一準則，或可需要滿足至少一個特定數目個準則。在另一實施方案中，可確定片段對應於臨床相關DNA（例如胎兒、腫瘤或移植）之機率，且可確定DNA片段在用於末端基元分析之前符合機率所強加之臨限值。作為另一實例，可基於機率對DNA片段與特定末端基元之頻率計數器的比重進行加權（例如，添加值小於一之概率，而非添加一）。因此，具有特定末端基元之DNA片段將更大程度地加權及/或具有更高機率。下文進一步描述此類富集。1. 組織特異性染色質區域中之的末端基元

因為不同組織在細胞凋亡期間將具有偏好片段模式（Chan等人, 《美國國家科學院院刊（Proc Natl Acad Sci USA ）》.2016;113:E8159-8168; Jiang等人《美國國家科學院院刊（Proc Natl Acad Sci USA ）》, 2018; doi:10.1073/pnas.1814616115），吾人進一步推論血漿DNA末端基元分析之某一基因組區域之選擇將進一步改良對患者及對照個體進行分類之鑑別能力。採用HCC患者之偵測作為實例，使用血液及肝臟之開放染色質區域。

圖40示出了根據本揭示案之實施例之精確度的比較，其顯示了組織特異性開放染色質區域改善了HCC及非癌症患者之血漿DNA末端基元的鑑別能力。使用4聚體及前10個基元之組合頻率對所有256個基元之熵進行分析。對於肝臟開放染色質結果，若讀段具有與肝臟開放染色質區域中之一者重疊的至少一個核苷酸，則保持序列讀段（亦即未濾出）。

源自與肝臟開放染色質區域重疊之血漿DNA分子的末端基元之能力產生具有0.918之AUC的最佳效能，其中使用前10個排列基元之組合頻率。相比之下，在無任何選擇之情況下，鑑別來源於血漿DNA分子之末端基元之能力為0.855之最小AUC。

因此，若針對癌症篩選特定組織，則來自彼特定組織之開放染色質之DNA片段（或至少在末端序列處於開放染色質區域中之情況下）可用於進行分析，而不使用不在此等經鑑別區域中之DNA片段。此處使用肝臟，因為癌症為HCC。可藉由將序列讀段與參考基因組比對來確定DNA片段之位置，其中可自文獻或資料庫鑑別開放染色質區域。2. 基於尺寸帶之末端基元分析

顯示某些末端基元之頻率根據所分析之尺寸範圍（尺寸帶）而變化，例如，CCCA之百分比顯示此行為。此暗示基於尺寸帶之末端基元分析可影響使用血漿DNA末端基元區分癌症患者與非癌症個體之效能。為了說明此可能性，吾人測試一系列尺寸範圍，包含但不限於50-80 bp、81-110 bp、111-140 bp、141-170 bp、171-200 bp、201-230 bp，以調查所分析之尺寸帶如何影響總體診斷效能。

圖41示出了根據本揭示案之實施例之基於尺寸帶之血漿DNA末端基元分析。使用4聚體之256個基元確定使用基元多樣性評分（熵）之分類。各種範圍在圖41中列出，但可使用其他範圍。50-80分析4101提供0.826 AUC。81-110分析4102提供0.537 AUC。111-140分析4103提供0.551 AUC。141-170分析4104提供0.716 AUC。171-200分析4105提供0.769 AUC。201-230分析4106提供0.756 AUC。

此類尺寸範圍可用於富集臨床相關DNA之技術。舉例而言，選擇50-80個鹼基之DNA分子將富集腫瘤DNA之樣本。與單一尺寸範圍相反，可使用多個不相交尺寸範圍。此類富集可為如下原因：在50-80個鹼基相對於81-110個鹼基之尺寸範圍中，較佳AUC出現。

來源於50至80 bp範圍內之血漿DNA分子的末端基元呈現自非HCC個體（AUC: 0.83）偵測HCC之最佳鑑別能力。因此，實施例可過濾DNA片段以選擇特定尺寸範圍內之DNA片段，且隨後使用所選DNA片段（讀段）確定相對頻率及隨後操作。作為實例，尺寸過濾器可經由物理間隔或藉由使用序列讀段確定尺寸（例如若對整個片段進行定序或藉由將雙邊定序與參考比對之長度）來進行。較短DNA之物理富集之實例包含在凝膠電泳時、在毛細電泳時在一定滯留時間藉由收集溶離液、在液相層析之後、或藉由微流控進行帶切割。F. 分類病理等級

圖42為根據本揭示案之實施例之流程圖，其繪示對個體之生物樣本中的病理等級進行分類的方法4200。生物樣本包含游離DNA。方法4200可以與圖19之方法1900及圖20之方法2000類似之方式執行。

在步驟4210中，分析來自生物樣本之複數個游離DNA片段以獲得序列讀段。序列讀段包含對應於複數個游離DNA片段之末端的末端序列。步驟4210可以與圖19之步驟1910類似之方式進行。

在步驟4220中，針對複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元。步驟4220可以與圖19之步驟1920類似之方式進行。

在步驟4230中，確定對應於複數個游離DNA片段之末端序列的一組單一或多個序列基元之相對頻率。序列基元之相對頻率可提供具有對應於序列基元之末端序列的複數個游離DNA片段之比例。步驟4230可以與圖19之步驟1930類似之方式進行。舉例而言，一或多個序列基元之集合可包含N個鹼基位置。一或多個序列基元之集合可包含N個鹼基之所有組合。N可為等於或大於三之整數，以及任何其他整數。

作為另一實例，一或多個序列基元之集合可為在兩種類型之DNA之間具有最大差異的前M個序列基元，如在一或多個參考樣本中所確定，例如所有展示最大正差異（例如前10個或其他數目）或所有具有最大負差異之基元。M可為等於或大於一之整數。對於方法1900及2000，兩種類型之DNA可為臨床相關DNA及另一種DNA。對於方法4200，兩種類型之DNA可來自對病理等級具有不同分類之兩個參考樣本。作為另一實例，一或多個序列基元之集合可為在一或多個參考樣本中發生之前M個最常見序列基元，例如如圖22中所示，其中該參考樣本為非癌症樣本，諸如HBV樣本。

在步驟4240中，確定一或多個序列基元之集合之相對頻率的總值。步驟4240可以與圖19之步驟1940類似之方式進行。在整個揭示案中描述總值之實例，且該總值之實例包含：熵、組合頻率、與如可在聚類中或使用SVM或自該差異確定之值（例如，機率）來實施之相對頻率之參考模式的差異（例如，距離）、或機器學習模型中之輸出（例如，神經網路中之中間或最終層），其與兩個分類之間的截止值相比或與給定分類之代表值相比。

當一或多個序列基元之集合包含複數個序列基元時，總值可包含該集合之相對頻率之總和。總和可為加權總和。舉例而言，總值可包含熵項，該熵項包含包括加權總和之項之總和。每一項可包含相對頻率乘以相對頻率之對數。總值可對應於相對頻率之方差。

在另一實例中，總值包含機器學習模型之最終或中間輸出。在各種實施方案中，機器學習模型使用聚類、支持向量機或邏輯回歸。

在步驟4250中，可基於總值與參考值之比較來確定個體之病理等級分類。作為實例，病理可為癌症或自體免疫病症。作為實例，等級可為非癌症、早期、中期或晚期。分類可隨後選擇該等等級中之一者。因此，分類可由包含複數個癌症階段之複數個癌症等級確定。作為實例，癌症可為肝細胞癌、肺癌、乳癌、胃癌、多形性膠質母細胞瘤、胰臟癌、結腸直腸癌、鼻咽癌及頭頸部鱗狀細胞癌。作為一實例，自體免疫病症可為全身性紅斑性狼瘡症。

在其他實例中，病理等級對應於與病理相關之臨床相關DNA之分率濃度。舉例而言，病理等級可為癌症且臨床相關DNA可為腫瘤DNA。參考值可為自校準樣本判定之校準值，如關於方法1900所描述。

在一些實施例中，過濾游離DNA以鑑別複數個游離DNA片段。過濾之實例提供於以上章節中。舉例而言，過濾可基於甲基化（密度或特定位點是否甲基化）、尺寸或DNA片段所來源之區域。可針對來自特定組織之開放染色質區域之DNA片段過濾游離DNA。IV. 富集

來自特定組織之用以呈現末端基元之特定集合的DNA片段的優先選擇可用以富集來自該特定組織之DNA之樣本。因此，實施例可富集用於臨床相關DNA之樣本。舉例而言，僅具有特定末端序列之DNA片段可使用分析定序、擴增及/或捕獲。作為另一實例，序列讀段之過濾可例如以如章節III. E.中所述之類似方式進行。A. 物理富集

物理富集可以各種方式進行，例如經由靶向定序或PCR，如可使用特定引子或接附子進行。若偵測到末端序列之特定末端基元，隨後可向片段之末端添加轉接器。隨後，當進行定序時，僅僅將定序（或至少主要定序）具有接附子之DNA片段，藉此提供靶向定序。

作為另一實例，可使用與末端基元之特定集合雜交之引子。隨後，可使用此等引子進行定序或擴增。對應於特定末端基元之捕獲探針亦可用於捕獲具有彼等末端基元之DNA分子以進行進一步分析。一些實施例可將較短寡核苷酸連接至血漿DNA分子之末端。隨後，可設計探針以使得其僅識別部分為末端基元及部分為接合之寡核苷酸的序列。

一些實施例可使用基於CRISPR之診斷技術，例如使用導引RNA以定位對應於用於臨床相關DNA之偏好末端基元的位點且隨後使用核酸酶切割DNA片段，如可使用Cas-9或Cas-12進行。舉例而言，接附子可用於識別末端基元，且隨後CRISPR/Cas9或Cas-12可用於切割末端基元/接附子混成體且產生通用可預測末端以進一步富集具有所需末端之分子。

圖43為根據本揭示案之實施例之流程圖，其繪示富集臨床相關DNA之生物樣本的方法4300。生物樣本包含臨床相關DNA分子及其他游離DNA分子。方法4300可使用特定測定來執行富集。

在步驟4310中，自生物樣本接收複數個游離DNA片段。臨床相關DNA片段（例如胎兒或腫瘤）具有包含在大於另一DNA（例如母體DNA、健康DNA或血細胞）之相對頻率下出現之序列基元的末端序列。作為實例，可使用來自圖3及13之資料。因此，序列基元可用於富集臨床相關DNA。

在步驟4320中，使複數個游離DNA片段經受一或多個探針分子，一或多個探針分子偵測複數個游離DNA片段之末端序列中的序列基元。探針分子之此類使用可使得獲得所偵測之DNA片段。在一個實例中，一或多個探針分子可包含一或多種酶，該一或多種酶查詢複數個游離DNA片段且附加用於擴增偵測到的DNA片段的新序列。在另一實例中，一或多個探針分子可連接至表面以藉由雜交偵測末端序列中之序列基元。

在步驟4330中，使用所偵測之DNA片段富集臨床相關DNA片段之生物樣本。作為一實例，使用所偵測之DNA片段富集臨床相關DNA片段之生物樣本可包含擴增所偵測之DNA片段。作為另一實例，可捕獲所偵測之DNA片段，且可丟棄未偵測之DNA片段。B. 電子雜交富集

電子雜交富集可使用各種標準來選擇或丟棄某些DNA片段。此類準則可包含末端基元、開放染色質區域、尺寸、序列變化、甲基化及其他表觀遺傳特徵。表觀遺傳特徵包含基因組中不涉及DNA序列變化之所有修飾。標準可指定截止值，例如需要某些性質，諸如特定尺寸範圍、高於或低於特定量之甲基化度量值，超過一個CpG位點之甲基化狀態的組合（例如甲基化單倍型（Guo等人,《自然遺傳學（Nat Genet ）》.2017; 49: 635-42））等，或具有高於臨限值之組合機率。此類富集亦可涉及基於此類機率對DNA片段進行加權。

作為實例，富集樣本可用於對病理進行分類（如上文所述），以及鑑別腫瘤或胎兒突變或用於對染色體或染色體區域之擴增/缺失偵測進行標記計數。舉例而言，若特定末端基元或一組末端基元與肝癌相關（亦即，比對於非癌症或其他癌症更高之相對頻率），則用於進行癌症篩選之實施例可加權此類DNA片段高於不具有此偏好末端基元之一或此偏好集合之DNA片段。

圖44為根據本揭示案之實施例之流程圖，其繪示富集臨床相關DNA之生物樣本的方法4400。生物樣本包含臨床相關DNA分子及其他游離DNA分子。方法4400可使用特定序列讀段之標準來執行富集。

在步驟4410中，分析來自生物樣本之複數個游離DNA片段以獲得序列讀段。序列讀段包含對應於複數個游離DNA片段之末端的末端序列。步驟4410可以與圖19之步驟1910類似之方式進行。

在步驟4420中，針對複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元。步驟4420可以與圖19之步驟1920類似之方式進行。

在步驟4430中，鑑別出一組在臨床相關DNA中以大於另一DNA之相對頻率發生的一或多個序列基元。序列基元之集合可藉由本文所述之基因型或表現型技術鑑別。校準或參考樣本可用於排列及選擇對臨床相關DNA具有選擇性之序列基元。

在步驟4440中，鑑別末端序列中具有一或多個序列基元之集合之一組序列讀段。可將此視為過濾之第一階段。

在步驟4450中，可存儲有對應於超出臨限值之臨床相關DNA之可能性的序列讀段。可使用末端基元之集合確定可能性。舉例而言，對於序列讀段組中之每個序列讀段，序列讀段對應於臨床相關DNA之可能性可基於序列讀段之末端序列來決定，該序列讀段包含一或多個序列基元之集合中之序列基元。可能性可與臨限值相比較。作為一實例，可憑經驗確定臨限值。舉例而言，可測試樣本之各種臨限值，可針對一組序列讀段來量測該樣本之臨床相關DNA之濃度。最佳臨限值可使濃度最大化，同時維持一定百分比之序列讀段之總數。臨限值可藉由存在於健康對照中或暴露於類似病源風險因素但無疾病之對照組中之一或多個末端基元之濃度的一或多個給定百分比（第5、第10、第90或第95）確定。臨限值可為回歸或機率性評分。

當可能性超過臨限值時，序列讀段可存儲於記憶體中（例如，存儲於檔案、表或其他資料結構中），進而獲得存儲之序列讀段。具有低於臨限值之可能性的序列讀段可丟棄或不存儲於保持讀段的記憶體位置中，或資料庫之區域可包含指示讀段具有下臨限值以使得隨後分析可排除此類讀段的標記。作為實例，可使用各種技術（諸如幾率比、z評分或機率分佈）來確定可能性。

在步驟4460中，可分析存儲之序列讀段以確定生物樣本之臨床相關DNA之性質，例如如本文所述，諸如其他流程圖中所述。方法1900、2000及4200為此類實例。舉例而言，臨床相關DNA之生物樣本之性質可為臨床相關DNA之分率濃度。作為另一實例，性質可為獲得生物樣本之個體之病理等級，其中病理等級與臨床相關DNA相關聯。作為另一實例，性質可為獲得生物樣本之懷孕女性之胎兒的胎齡。

其他準則可用以確定可能性。複數個游離DNA片段之尺寸可使用序列讀段來量測。特定序列讀段對應於臨床相關DNA之可能性可進一步基於對應於特定序列讀段之游離DNA片段之尺寸。

亦可使用甲基化。因此，實施例可量測對應於特定序列讀段之游離DNA片段之一或多個位點處的一或多種甲基化狀態。特定序列讀段對應於臨床相關DNA之可能性可進一步基於一或多種甲基化狀態。作為另一實例，讀段是否在所鑑別之開放染色質區域之集合內可用作過濾器。

圖45示出了根據本揭示案之實施例之實例曲線圖，其繪示了使用CCCA末端基元的胎兒DNA分數的增加。豎軸為所測試樣本之胎兒DNA分數。兩組資料係用於（1）所有與資訊性SNP重疊之片段（亦即，具有胎兒特異性對偶基因之片段）及（2）具有CCCA末端基元且與資訊性SNP重疊之片段。因此，左側之資料提供整個樣本中之實際胎兒DNA片段，且右側之資料提供電子雜交富集樣本之資料。在此實例中，當末端基元為CCCA時，可能性可確定為高於臨限值。更多基元可以類似方式使用，例如作為指示可能性高於臨限值之組。

胎兒DNA分數之中值的相對增加為3.2% （IQR：1.3-6.4%）。胎兒DNA分數之相對增加由（b-a）/a×100定義，其中a為由與資訊性SNP重疊之所有片段計算之原始胎兒DNA分數，其中母親為同型接合且胎兒為異型接合，且b為由CCCA基元標記（亦即在胎兒DNA分子中富集）之片段計算之胎兒DNA分數。

對於本文所述之方法中之任一者而言，游離DNA片段之一或多個末端序列中之每一者的序列基元可使用參考基因組進行（例如經由圖1之技術160）。此類技術可包含：比對對應於游離DNA片段之一或多個序列讀段與參考基因組，鑑別參考基因組中與末端序列相鄰之一或多個鹼基，及使用末端序列及一或多個鹼基以確定序列基元。V. 實例系統

圖46說明根據本發明之實施例的量測系統4600。如展示，系統在樣本固持器4610內包含樣本4605，諸如游離DNA分子，其中樣本4605可與分析法4608接觸以提供物理特徵4615之信號。樣本固持器之一實例可為包含檢定之探針及/或引子的流槽或液滴藉以移動之管（在液滴包含檢定的情況下）。用偵測器4620偵測樣本之物理特徵4615（例如，螢光強度、電壓或電流）。偵測器4620可按時間間隔（例如，週期性時間間隔）進行量測，獲得構成資料信號之數據點。在一個實施例中，類比至數位轉換器在複數個時間將來自偵測器之類比信號轉換成數位形式。樣本固持器4610及偵測器4620可形成檢定裝置，例如根據本文所描述之實施例進行定序之定序裝置。資料信號4625係自偵測器4620發送至邏輯系統4630。資料信號4625可存儲於本地記憶體4635、外部記憶體4640或存儲裝置4645中。

邏輯系統4630可為或可包含電腦系統、ASIC、微處理器等。其亦可包含顯示器（例如監視器、LED顯示器等）及使用者輸入裝置（例如鼠標、鍵盤、按鈕等）或與其耦合。邏輯系統4630及其他組件可為獨立的或網路連接之電腦系統的一部分，或其可直接連接至或併入包含偵測器4620及/或樣本固持器4610之裝置（例如定序裝置）中。邏輯系統4630亦可包含在處理器4650中執行的軟體。邏輯系統4630可包含電腦可讀取媒體，其存儲用於控制量測系統4600進行本文所述方法中之任一者的指令。舉例而言，邏輯系統4630可向包含樣本固持器4610之系統提供命令，使得定序或其他物理操作得以進行。此類物理操作可以特定次序進行，例如在試劑以特定次序添加及移除之情況下。此類物理操作可由可用以獲得樣本及進行檢定之機器人（例如包含機器人臂）系統進行。

本文中提及之任何電腦系統可利用任何適合數目之子系統。此類子系統之實例展示於圖47中之電腦系統10中。在一些實施例中，電腦系統包含單一電腦設備，其中子系統可為電腦設備之組件。在其他實施例中，電腦系統可包含具有內部組件之多個電腦裝置，其各自為子系統。電腦系統可包含桌上型及膝上型電腦、平板電腦、移動電話及其他移動裝置。

圖47中所示之子系統經由系統匯流排75互連。展示其他子系統，諸如印表機74、鍵盤78、存儲裝置79、與顯示器配接器82耦合之監視器76（例如顯示屏幕，諸如LED）及其他。周邊設備及輸入/輸出（I/O）裝置（其與I/O控制器71耦合）可藉由此項技術中已知的任何數目之構件（諸如輸入/輸出（I/O）端口77 （例如USB、FireWire^® ））連接至電腦系統。舉例而言，I/O埠77或外部介面81 （例如，乙太網路、Wi-Fi等）可用於將電腦系統10連接至廣域網路（諸如，網際網路、鼠標輸入裝置或掃描儀）。經由系統匯流排75互連允許中央處理器73與各子系統通信且控制系統記憶體72或存儲裝置79 （例如固接磁碟，諸如硬碟機，或光碟）執行複數個指令，以及子系統之間的資訊交換。系統記憶體72及/或存儲裝置79可實施為電腦可讀媒體。另一子系統為資料收集裝置85，諸如照相機、麥克風、加速計及其類似物。本文中所提及之資料中之任一者可自一個組件輸出至另一組件且可輸出至使用者。

電腦系統可包含複數個相同組件或子系統，例如藉由外部介面81、內部介面或經由可自一個組件連接至另一組件及移除之可移除存儲裝置連接在一起。在一些實施例中，電腦系統、子系統或設備可經網路通信。在此等情況下，可將一個電腦視為用戶端且將另一電腦視為伺服器，其中每一者可為同一電腦系統之一部分。用戶端及伺服器各自可包含多個系統、子系統或組件。

實施例之態樣可以控制邏輯形式使用硬體電路（例如特殊應用積體電路或場可程式化閘陣列）及/或使用具有大體上可程式化處理器的電腦軟體以模組化或一體化方式來實施。如本文所用，處理器可包含單核處理器、同一個積體晶片上之多核處理器或單一電路板或網路硬體以及專用硬體上之多個處理單元。基於本文所提供之揭示內容及教示，本領域中一般熟習此項技術者將知曉及瞭解使用硬體及硬體與軟體之組合來實施本發明之實施例的其他方式及/或方法。

本申請案中所述之任何軟體組件或功能可使用例如習知或面向對象技術，以軟體程式碼形式實施，軟體程式碼係由使用任何適合電腦語言（諸如Java、C、C++、C#、Objective-C、Swift）或腳本處理語言（諸如Perl或Python）的處理器執行。軟體程式碼可以一系列指令或命令形式存儲於電腦可讀取媒體上以用於存儲及/或傳輸。適合的非暫時性電腦可讀取媒體可包含隨機存取記憶體（RAM）、唯讀記憶體（ROM）、磁性媒體（諸如硬碟機或軟碟機）或光學媒體，諸如光碟（CD）或DVD（數位化通用光碟）或藍光碟、快閃記憶體及其類似者。電腦可讀取媒體可為此類存儲或傳輸裝置之任何組合。

此類程式亦可使用適用於經由符合多種協定之有線、光學及/或無線網路（包含網際網路）傳輸的載波信號來編碼及傳輸。因此，電腦可讀取媒體可使用以此類程式編碼的資料信號建立。以程式碼編碼之電腦可讀取媒體可與相容裝置一起封裝或與其他裝置分開提供（例如藉助於網際網路下載）。任何此類電腦可讀媒體可存在於單一電腦產品（例如硬碟機、CD或整個電腦系統）上或其內部，且可存在於系統或網路內之不同電腦產品上或其內部。電腦系統可包含用於向使用者提供本文所提及之任何結果的監測器、印表機、或其他適合之顯示器。

本文中所描述之方法中之任一者可完全或部分地使用電腦系統來執行，電腦系統包含可經組態以執行步驟之一或多個處理器。因此，實施例可針對經組態以執行本文所描述之任何方法之步驟的電腦系統，潛在地使用不同組件進行各別步驟或各別步驟組。儘管以帶編號之步驟形式呈現，但本文中之方法之步驟可同時或在不同時間或以不同順序執行。另外，此等步驟之部分可供來自其他方法之其他步驟之部分使用。另外，步驟之全部或部分可視情況選用的。此外，任何方法之任何步驟可使用用於進行此等步驟之系統的模組、單元、電路或其他構件來進行。

可在不脫離本發明之實施例的精神及範疇的情況下以任何合適方式組合特定實施例之特定細節。然而，本發明之其他實施例可針對與每一個別態樣或此等個別態樣之特定組合相關的特定實施例。

已出於說明及描述之目的呈現本揭示案之實例實施例的前述描述。其並不意欲為詳盡的或將本揭示案限於所描述之精確形式，且鑒於以上教示，許多修改及變化為可能的。

除非有相反的特定說明，否則「一（a/an）」或「該（the）」之敍述意指「一或多個」。除非有相反的特定說明，否則「或」之使用意指「包括性的或」，而非「互斥性的或」。提及「第一」組件不一定需要提供第二組件。此外，提及「第一」或「第二」組件不限制所提及組件於特定位置，除非有明確陳述。術語「基於」意欲意謂「至少部分地基於」。

出於所有目的，本文所提及之所有專利、專利申請案、公開案及描述均以全文引用之方式併入。不承認任一者為先前技術。

10:電腦系統 71:I/O控制器 72:系統記憶體 73:中央處理器 74:印表機 75:系統匯流排 76:監視器 77:I/O端口 78:鍵盤 79:存儲裝置 81:外部介面 82:顯示器配接器 85:資料收集裝置 110:游離DNA片段 120:步驟 130:步驟 140:技術 141:定序之片段 142:第一末端基元 144:第二末端基元 145:基因組 160:技術 161:定序之片段 162:第一末端基元 164:第二末端基元 165:基因組 205:胎兒特異性分子 207:共用分子 220:條形圖 222:末端基元 230:基於熵之分析 235:圖 240:基於聚類之分析 242:紅色校準樣本 244:綠色校準樣本 610:共用 620:胎兒特異性 1205:腫瘤特異性分子 1207:共用分子 1220:條形圖 1222:末端基元 1230:基於熵之分析 1235:圖 1240:基於聚類之分析 1410:頻率值 1420:頻率值 1700: 1705:校準數據點 1710:校準函數 1900:方法 1910:步驟 1920:步驟 1930:步驟 1940:步驟 1950:步驟 2000:方法 2010:步驟 2020:步驟 2030:步驟 2040:步驟 2050:步驟 2070:步驟 2080:步驟 2105:病變分子 2107:對照分子 2120:條形圖 2122:末端基元 2130:基於熵之分析 2135:圖 2140:基於聚類之分析 2801:基於MDS之方法 2802:OCF 2803:片段尺寸 2804:片段偏好末端 2805:組合分析 2901:1聚體分析 2902:2聚體分析 2903:3聚體分析 2904:4聚體分析 2905:5聚體分析 3205:早期HCC 3210:對照 3215:HBV 3220:肝硬化 3225:晚期HCC 3230:中期HCC 3305:HCC個體 3310:非HCC個體 3405:早期HCC 3410:健康對照個體 3415:HBV 3420:肝硬化 3425:晚期HCC 3430:中期HCC 3505:對照/正常 3510:SLE 3805:非HCC個體 3810:HCC個體 4101:50-80分析 4102:81-110分析 4103:111-140分析 4104:141-170分析 4105:171-200分析 4106:201-230分析 4200:方法 4210:步驟 4220:步驟 4230:步驟 4240:步驟 4250:步驟 4300:方法 4310:步驟 4320:步驟 4330:步驟 4400:方法 4410:步驟 4420:步驟 4430:步驟 4440:步驟 4450:步驟 4460:步驟 4600:量測系統 4605:樣本 4608:分析 4610:樣本固持器 4615:物理特徵 4620:偵測器 4625:資料信號 4630:邏輯系統 4635:記憶體 4640:外部記憶體 4645:存儲裝置 4650:處理器

圖1示出了根據本揭示案之實施例之末端基元的實例。

圖2示出了根據本揭示案之實施例基於基因型差異之方法的示意圖，該方法用於分析胎兒與母體DNA分子之間的差異末端基元模式。

圖3示出了根據本揭示案之實施例的胎兒與母體DNA分子之間的末端基元頻率的條形圖。

圖4示出了根據本揭示案之實施例自圖3之胎兒及共用的（即，胎兒加母體的）序列的10個末端基元。

圖5A及5B示出了根據本揭示案之實施例之孕婦中胎兒與母體DNA分子之間的熵的盒狀圖。

圖6A及6B示出了根據本揭示案之實施例之胎兒與母體DNA分子的層級聚類分析。

圖7A及圖7B示出了根據本揭示案之實施例，對於在不同的妊娠期之孕婦使用所有基元的熵分佈。圖7C及7D示出了根據本揭示案之實施例，對於在不同的妊娠期之孕婦使用10個基元的熵分佈。

圖8A示出了在不同胎齡的所有片段的熵。據顯示，具有妊娠晚期之個體中之血漿DNA片段之熵比具有妊娠早期及妊娠中期之個體低（p值=0.06）。圖8B示出了在不同胎齡的Y染色體來源片段的熵。據顯示，具有妊娠晚期之個體中之Y染色體來源片段之熵比具有妊娠早期及妊娠中期之個體低（p值=0.01）。

圖9及10示出了根據本揭示案之實施例，胎兒與母體DNA分子之間的前10個排列的末端基元在不同之妊娠期的分佈。

圖11示出了根據本揭示案之實施例，胎兒與共用分子之間的前10個排列的基元在不同之妊娠期的組合頻率。

圖12示出了根據本揭示案之實施例基於基因型差異之方法的示意圖，該方法用於分析癌症患者之血漿DNA中突變與共用分子之間的差異末端基元模式。

圖13示出了根據本揭示案之實施例之肝細胞癌中與癌症相關的突變及共用分子的血漿DNA末端基元的圖。

圖14示出了根據本揭示案之實施例的肝細胞癌中癌症相關突變及共用分子的血漿DNA末端基元的徑向圖。

圖15A示出了根據本揭示案之實施例，在HCC患者之血漿DNA中的突變與共用序列之間的末端基元頻率的排列差異中的前10個末端基元。

圖15B示出了根據本揭示案之實施例之HCC患者及懷孕女性的8個末端基元的組合頻率。

圖16A及圖16B示出了根據本揭示案之實施例之針對HCC病例的不同末端基元之集合的共用及突變片段的熵值。

圖17為根據本揭示案之實施例之基元多樣性評分（熵）相對於量測的循環腫瘤DNA分數的曲線圖。

圖18A示出了根據本揭示案之實施例使用供體特異性片段的熵分析。圖18B示出了使用供體特異性片段的層級聚類分析。

圖19為根據本揭示案之實施例的流程圖，其說明估計個體之生物樣本中臨床相關DNA的分率濃度的方法。

圖20為根據本揭示案之實施例的流程圖，其說明通過分析來自懷有胎兒之女性個體的生物樣本來確定胎兒之胎齡的方法。

圖21示出了根據本揭示案之實施例之用於血漿DNA末端基元分析之表現型方法的示意圖。

圖22示出了根據本揭示案之實施例，在使用所有血漿DNA分子的HCC及HBV個體之間的4聚體末端基元的頻率分佈的實例。

圖23A示出了根據本揭示案之實施例之具有不同癌症等級之各種個體的前10個血漿DNA 4聚體末端基元的組合頻率的盒狀圖。此等級為，對照：健康對照組個體；HBV：慢性乙型肝炎帶病毒者；Cirr：肝硬化個體；eHCC：早期HCC；iHCC：中期HCC；aHCC：晚期HCC。圖23B示出了根據本揭示案之實施例，在HCC及非癌症個體之間的前10個血漿DNA 4聚體末端基元的組合頻率的接收者操作特徵（ROC）曲線。

圖24A示出了根據本揭示案之實施例，在不同組的CCA基元的頻率的盒狀圖。圖24B示出了根據本揭示案之實施例，使用在非HCC個體中存在的最頻繁的3聚體基元（CCA）在非HCC及HCC組之間的ROC曲線。

圖25A示出了根據本揭示案之實施例，使用256個4聚體末端基元在不同組的熵值的盒狀圖。圖25B示出了根據本揭示案之實施例，使用10個4聚體末端基元在不同組的熵值的盒狀圖。

圖26A示出了根據本揭示案之實施例，使用在不同組的3聚體末端基元之熵值的盒狀圖。發現使用3聚體基元（總共64個基元）的HCC個體的熵顯著高於非HCC個體的熵（p值＜0.0001）。圖26B示出了根據本揭示案之實施例，使用在非HCC及HCC組之間的64個3聚體基元的熵的ROC曲線。發現AUC為0.872。

圖27A及圖27B示出了根據本揭示案之實施例，使用在不同組的4-聚體之基元多樣性（熵）評分的盒狀圖。

圖28示出了根據本揭示案之實施例，用於區分健康對照組與癌症的各種技術的接收者操作曲線。

圖29示出了根據本揭示案之實施例，用於使用各種k聚體之MDS分析的接收者操作曲線。

圖30示出了根據本揭示案之實施例，針對各種腫瘤DNA分數的基於MDS的癌症偵測的表現。

圖31示出了根據本揭示案之實施例，用於MDS、SVM及邏輯回歸分析的接收者操作曲線。

圖32示出了根據本揭示案之實施例，針對具有不同癌症等級的在不同組中的排名前10的末端基元的層級聚類分析。不同組包含，對照組：健康對照組個體； HBV：慢性乙型肝炎帶病毒者； Cirr：肝硬化個體； eHCC：早期HCC； iHCC：即期HCC； aHCC：晚期HCC。

圖33A-33C示出了根據本揭示案之實施例，使用具有不同癌症等級之在不同組之所有血漿DNA分子的層級聚類分析。

圖34示出了根據本揭示案之實施例，基於使用具有不同癌症等級之在不同組中之所有血漿DNA分子之3聚體基元的層級聚類分析。

圖35A示出了根據本揭示案之實施例，使用健康對照組個體與SLE患者之間之所有血漿DNA分子的熵分析。圖35B示出了根據本揭示案之實施例，使用健康對照組個體與SLE患者之間之所有血漿DNA分子的層級聚類分析。

圖36示出了根據本揭示案之實施例，在健康對照組個體與SLE患者之間使用具有10個經選擇的末端基元之血漿DNA分子的熵分析。

圖37示出了根據本揭示案之實施例之用於包含末端基元及拷貝數或甲基化之組合分析的ROC曲線。

圖38A示出了根據本揭示案之實施例之基於4聚體的熵分析，該4聚體由定序之血漿DNA片段的末端及其在HCC及非HCC個體中之相鄰基因組序列共同構築。圖38B示出了根據本揭示案之實施例之基於4聚體的聚類分析，該4聚體由定序之血漿DNA片段之末端及其在HCC及非HCC個體中之相鄰基因組序列共同構築。

圖39示出了根據本揭示案之實施例針對圖1所使用的技術140及160的ROC比較以界定血漿DNA之末端基元。

圖40示出了根據本揭示案之實施例之精確度的比較，其顯示了組織特異性開放染色質區域改善了血漿DNA末端基元的判別能力。

圖41示出了根據本揭示案之實施例之基於尺寸帶之血漿DNA末端基元分析。

圖42為根據本揭示案之實施例之流程圖，其說明對個體之生物樣本中的病理等級進行分類的方法。

圖43為根據本揭示案之實施例之流程圖，其說明富集臨床相關DNA之生物樣本的方法。

圖44為根據本揭示案之實施例之流程圖，其說明富集臨床相關DNA之生物樣本的方法3700。

圖45示出了根據本揭示案之實施例之實例曲線圖，其說明了使用CCCA末端基元的胎兒DNA分數的增加。

圖46說明根據本發明之實施例的量測系統。

圖47示出了可與根據本發明之實施例的系統及方法一起使用的實例電腦系統的方塊圖。

2105:病變分子

2107:對照分子

2120:條形圖

2122:末端基元

2130:基於熵之分析

2135:曲線

2140:基於聚類之分析

Claims

一種對個體之生物樣本中之病理等級進行分類的方法，該生物樣本包含游離DNA，該方法包括：分析來自該生物樣本之複數個游離DNA片段以獲得序列讀段，其中該等序列讀段包含對應於該複數個游離DNA片段之末端的末端序列；對於該複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元；確定對應於該複數個游離DNA片段之該等末端序列的一或多個序列基元之集合之相對頻率，其中序列基元之相對頻率提供具有對應於該序列基元之末端序列的複數個游離DNA片段之比例；確定該一或多個序列基元之集合之該等相對頻率的總值；及基於該總值與參考值之比較來確定該個體之病理等級分類。
如請求項1之方法，其進一步包括：過濾該游離DNA以鑑別該複數個游離DNA片段。
如請求項2之方法，其中該過濾係基於DNA片段之尺寸或衍生DNA片段之區域。
如請求項3之方法，其中該游離DNA係針對來自特定組織之開放染色質區域之DNA片段過濾。
如請求項1之方法，其中該病理為癌症。
如請求項5之方法，其中該癌症為肝細胞癌、肺癌、乳癌、胃癌、多形性神經膠母細胞瘤、胰臟癌、結腸直腸癌、鼻咽癌及頭頸部鱗狀細胞癌。
如請求項5之方法，其中分類係自包含複數個癌症階段之複數個癌症等級確定。
如請求項1之方法，其中該病理為自體免疫病症。
如請求項8之方法，其中該自體免疫病症為全身性紅斑性狼瘡症。
如請求項1之方法，其中該病理等級對應於與該病理相關之臨床相關DNA的分率濃度。
一種估計個體之生物樣本中之臨床相關DNA之分率濃度的方法，該生物樣本包含該臨床相關DNA及其他游離DNA，該方法包括：分析來自該生物樣本之複數個游離DNA片段以獲得序列讀段，其中該等序列讀段包含對應於該複數個游離DNA片段之末端的末端序列；對於該複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元；確定對應於該複數個游離DNA片段之該等末端序列的一或多個序列基元之集合之相對頻率，其中序列基元之相對頻率提供具有對應於該序列基元之末端序列的複數個游離DNA片段之比例；確定該一或多個序列基元之集合之該等相對頻率的總值；及藉由將該總值與自一或多個已知臨床相關DNA之分率濃度的校準樣本中確定的一或多個校準值進行比較，來確定該生物樣本中之臨床相關DNA之分率濃度的分類。
如請求項11之方法，其中該臨床相關DNA係選自由以下組成之群：胎兒DNA、腫瘤DNA、來自移植器官之DNA及特定組織類型。
如請求項11之方法，其中該臨床相關DNA為特定組織類型。
如請求項13之方法，其中該特定組織類型為肝臟或造血組織。
如請求項11之方法，其中該個體為懷孕女性，且其中該臨床相關DNA為胎盤組織。
如請求項11之方法，其中該臨床相關DNA為來源於患有癌症之器官的腫瘤DNA。
如請求項11之方法，其中該一或多個校準值為校準函數之複數個校準值，該校準函數係使用複數個校準樣本之臨床相關DNA之分率濃度確定。
如請求項11之方法，其中該一或多個校準值對應於該一或多個序列基元之集合之相對頻率的一或多個總值，該一或多個序列基元係使用該一或多個校準樣本中之游離DNA片段量測。
如請求項11之方法，其進一步包括：對於該一或多個校準樣本中之各校準樣本：量測該校準樣本中之臨床相關DNA之分率濃度；及藉由分析來自校準樣本之游離DNA片段作為獲得校準數據點之部分來確定該一或多個序列基元之集合之相對頻率的總值，由此確定一或多個總值，其中各校準數據點指定該校準樣本中之臨床相關DNA的量測分率濃度及針對該校準樣本確定之總值，且其中該一或多個校準值為該一或多個總值或係使用該一或多個總值確定。
如請求項19之方法，其中量測該校準樣本中之臨床相關DNA的分率濃度係使用對該臨床相關DNA具有特異性之對偶基因進行。
一種藉由分析來自懷有胎兒之女性個體之生物樣本來確定胎兒之胎齡的方法，該生物樣本包含來自該女性個體及該胎兒之游離DNA分子，該方法包括：分析來自該生物樣本之複數個游離DNA片段以獲得序列讀段，其中該等序列讀段包含對應於該複數個游離DNA片段之末端的末端序列；對於該複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元；確定對應於該複數個游離DNA片段之該等末端序列的一或多個序列基元之集合之相對頻率，其中序列基元之相對頻率提供具有對應於該序列基元之末端序列的複數個游離DNA片段之比例；確定該一或多個序列基元之集合之相對頻率的總值；獲得一或多個校準數據點，其中各校準數據點指定對應於總值之胎齡，且其中該一或多個校準數據點係自具有已知胎齡且包含游離DNA分子之複數個校準樣本確定；將該總值與至少一個校準數據點的校準值進行比較；及基於該比較估計該胎兒之胎齡。
如請求項21之方法，其中該一或多個校準數據點為複數個校準數據點，其形成接近自具有已知胎齡之該複數個校準樣本中之游離DNA分子確定之所量測之總值的校準函數。
如請求項21之方法，其中將該總值與複數個校準值相比，該複數個校準值各對應於該複數個校準樣本中之一者。
如請求項21之方法，其中該至少一個校準數據點之校準值對應於使用該複數個校準樣本中之至少一者的游離DNA分子所量測之總值。
如請求項21之方法，其進一步包括：將該複數個游離DNA片段鑑別為來源於該胎兒。
如請求項25之方法，其中該複數個游離DNA片段係使用胎兒特異性對偶基因或胎兒特異性表觀遺傳標記物鑑別。
如請求項25之方法，其中該複數個游離DNA片段係藉由以下鑑別：對於該等序列讀段中之每一者：基於包含該一或多個序列基元之集合之序列基元的序列讀段之末端序列，確定該序列讀段對應於該胎兒的可能性；將該可能性與臨限值進行比較；及當該可能性超過該臨限值時，將該序列讀段鑑別為來源於該胎兒。
如請求項1至27中任一項之方法，其中該一或多個序列基元之集合包含N個鹼基位置，其中該一或多個序列基元之集合包含N個鹼基的所有組合，且其中N為等於或大於三之整數。
如請求項1至27中任一項之方法，其中如在一或多個參考樣本中所確定，該一或多個序列基元之集合為在兩種類型之DNA之間具有最大差異的前M個序列基元，M為等於或大於一之整數。
如請求項29之方法，其中該兩種類型之DNA為臨床相關DNA及另一種DNA。
如請求項29之方法，其中該兩種類型之DNA來自具有不同病理等級分類的兩個參考樣本。
如請求項1至27中任一項之方法，其中該一或多個序列基元之集合為一或多個參考樣本中出現之前M個最頻繁的序列基元，M為等於或大於一之整數。
如請求項28至32中任一項之方法，其中該一或多個序列基元之集合包含複數個序列基元，且其中該總值包含該集合之相對頻率之總和。
如請求項33之方法，其中該總和為加權總和。
如請求項34之方法，其中該總值包含熵項，且其中該熵項包含包括該加權總和之項的總和，各項包含相對頻率乘以該相對頻率的對數。
如請求項1至35中任一項之方法，其中該總值對應於該等相對頻率的方差。
如請求項1至35中任一項之方法，其中該總值包含機器學習模型之最終或中間輸出。
如請求項37之方法，其中該機器學習模型使用聚類、支持向量機或邏輯回歸。
一種使生物樣本富集臨床相關DNA之方法，該生物樣本包含該臨床相關DNA及其他游離DNA，該方法包括：分析來自該生物樣本之複數個游離DNA片段以獲得序列讀段，其中該等序列讀段包含對應於該複數個游離DNA片段之末端的末端序列；對於該複數個游離DNA片段中之每一者，確定游離DNA片段之一或多個末端序列中之每一者的序列基元；鑑別一個在臨床相關DNA出現的相對頻率高於在其他DNA中之一或多個序列基元之集合；鑑別在末端序列中具有該一或多個序列基元之集合的一組序列讀段；對於該序列讀段組中之各序列讀段：基於包含該一或多個序列基元之集合之序列基元的序列讀段之末端序列，確定該序列讀段對應於該臨床相關DNA的可能性；將該可能性與臨限值進行比較；及當該可能性超過該臨限值時，存儲該序列讀段，從而獲得存儲的序列讀段；及分析該等存儲的序列讀段以決定該生物樣本中該臨床相關DNA之性質。
如請求項39之方法，其中該生物樣本中該臨床相關DNA之性質為：（1）該臨床相關DNA之分率濃度；（2）自其獲得該生物樣本之個體的病理等級，該病理等級與該臨床相關DNA相關；或（3）自其獲得該生物樣本之懷孕女性之胎兒的胎齡。
如請求項39之方法，其進一步包括：使用該等序列讀段量測該複數個游離DNA片段的尺寸，且其中進一步基於對應於該特定序列讀段之游離DNA片段的尺寸決定特定序列讀段對應於該臨床相關DNA之可能性。
如請求項39之方法，其進一步包括：在對應於特定序列讀段之游離DNA片段的一或多個位點處量測一或多種甲基化狀態，其中進一步基於該一或多種甲基化狀態決定該特定序列讀段對應於臨床相關DNA之可能性。
如請求項1至42中任一項之方法，其中確定該游離DNA片段之一或多個末端序列中之每一者的該序列基元包含：將對應於該游離DNA片段之一或多個序列讀段與參考基因組比對；鑑別該參考基因組中與該末端序列相鄰之一或多個鹼基；及使用該末端序列及該一或多個鹼基來確定該序列基元。
一種使生物樣本富集臨床相關DNA之方法，該生物樣本包含該臨床相關DNA及其他游離DNA，該方法包括：自該生物樣本中接收複數個游離DNA片段，其中臨床相關DNA片段具有末端序列，其所包括序列基元出現之相對頻率高於其他DNA；使該複數個游離DNA片段經受一或多個探針分子，該一或多個探針分子偵測該複數個游離DNA片段之該等末端序列中的該等序列基元，從而獲得偵測到的DNA片段；及使用該等偵測到的DNA片段來使該生物樣本富集該臨床相關DNA片段。
如請求項44之方法，其中使用該等偵測到的DNA片段來使該生物樣本富集該等臨床相關DNA片段包含：擴增該等偵測到的DNA片段。
如請求項45之方法，其中該一或多個探針分子包含一或多種酶，該一或多種酶查詢該複數個游離DNA片段且附加用於擴增該等偵測到的DNA片段的新序列。
如請求項44之方法，其中使用該等偵測到的DNA片段來使該等生物樣本富集該等臨床相關DNA片段包含：捕獲該等偵測到的DNA片段；及丟棄未偵測到的DNA片段。
如請求項47之方法，其中將一或多個探針分子附接至表面上，且藉由雜交偵測該等末端序列中的該等序列基元。
一種電腦產品，其包括電腦可讀取媒體，該電腦可讀取媒體存儲複數個用於控制電腦系統執行如請求項1至48中任一項之方法的指令。
一種系統，其包括：如請求項49之電腦產品；及一或多個處理器，其用於執行存儲於該電腦可讀取媒體上之指令。
一種系統，其包括用於執行如請求項1至48中任一項之方法的構件。
一種系統，其包括經組態以執行如請求項1至48中任一項之方法的一或多個處理器。
一種系統，其包括分別執行如請求項1至48中任一項之方法之步驟的模組。