TW202321461A

TW202321461A - 使用確定性限制位點全基因組擴增(drs-wga)分析至少兩個樣本之相似程度的方法

Info

Publication number: TW202321461A
Application number: TW111135366A
Authority: TW
Inventors: 尼可拉曼娜瑞斯; 克勞迪歐佛卡多; 艾伯托費拉里尼
Original assignee: 義大利商美納裡尼矽生物系統公司
Priority date: 2021-09-20
Filing date: 2022-09-19
Publication date: 2023-06-01
Also published as: AR127106A1; EP4521411A2; EP4405500A1; AU2022346271A1; KR20240113895A; US20240384341A1; MX2024003426A; CA3231433A1; IL320850A; WO2023042173A1; IL311475A; IT202100024101A1; JP2024536799A; EP4521411A3; CN117980502A

Abstract

本揭示內容係有關一種分析複數個包含基因組DNA之樣本中至少兩個樣本之相似程度的方法。本方法包含下列步驟。a) 提供複數個包含基因組DNA的樣本。b) 分別對每一樣本進行該基因組DNA之確定性限制位點全基因組擴增(DRS-WGA)，c) 使用無片段化、定序轉接子/WGA融合引子PCR反應從該DRS-WGA之每一產物製備大量平行定序文庫。d) 以＜ 1x之平均覆蓋深度對該大量平行定序文庫進行低通全基因組定序。e) 與參考基因組比對步驟d)中獲得的每一樣本之讀數。f) 提取每一樣本在複數個多型性基因座處的等位基因內容物。g) 計算至少兩個樣本的配對相似性得分，作為在該複數個基因座處測量之等位基因內容物的函數。h) 基於相似性得分確定至少兩個樣本的相似程度。

Description

使用確定性限制位點全基因組擴增(DRS-WGA)分析至少兩個樣本之相似程度的方法

參考相關申請案

本專利申請案主張義大利專利申請號102021000024101於2021年9月20日提申之優先權，其之全部揭示內容在此併入本案以作為參考資料。

本揭示內容係有關一種樣本配對之方法，其係藉由分析對該複數個樣本進行低通全基因組定序而獲得的數據，將複數個樣本之每一者的身份識別指定至一類別或個體，以達到單一細胞分辨率，且使用或不使用參考體。

除了樣本配對以外，本方法提供一種統一的檢驗，使得能同時鑑定及確認樣本之中的待測樣本。

根據本揭示內容之方法可在數個應用領域中使用，包括但不侷限於： • 單一細胞法醫人類鑑定 • 循環腫瘤細胞分析期間之樣本鑑定 • 用於非侵入式產前檢驗之母系體液中胎兒細胞或胎兒游離DNA (cfDNA)的鑑定 • 用於侵入式植入前基因檢驗(PGT)及非侵入式PGT之用過的胚胎培養基中胚胎細胞或cfDNA的鑑定 • 用於產前診斷之以侵入方式獲得的樣本及受孕產物中胎兒成分的鑑定(例如：母系或外源性污染評估) • 胎塊性妊娠(molar pregnancy)、多胎妊娠(包括消失/嵌合體)、單親源二體(單親同二體或單親異二體)、ROH與血緣鑑定、衍生自胚體之材料中的染色體未分離錯誤分類 • 微嵌合現象(microchimerism) 細胞株鑑定(例如：幹細胞)。

樣本鑑定及樣本-配對之現有技術

最廣泛的樣本鑑定方法取決於高度多型性短縱排重複序列(Short Tandem Repeat，STR)基因座(亦稱為微衛星)的分析。此方法涉及進行複數個基因座的標靶PCR，並以毛細管電泳檢測擴增子。在人類鑑定中，由於針對每一基因座，每一等位基因(來自母系與父系起源)可具有許多不同的值，因此在擴增之遺傳基因座數量相對較少的情況下產生大的多樣性，例如，個體之等位基因大小經測量超過10或20個基因座，個體在大型群體中可鑑定為具有高機率。將此方法應用於單一細胞時可能具有挑戰性，尤其是若DNA之品質低下或降解(例如，由於固定、儲存環境條件或其他生物過程而降解)，係因等位基因丟失(drop-out)會損及用以指定樣本身份識別之足夠資訊的檢索。不論直接對單一細胞樣本(因此消耗該樣本)或對來自單一細胞之全基因組擴增產物的等分試樣進行多重PCR皆是正確的，因此使能對相同WGA產物之不同等分試樣進行重複檢驗。

等位基因丟失可顯著將STR檢驗之電泳圖中檢測到的等位基因減低至80%、70%、60%、50%、40%、30%、20%、10%或更低。此外，可發生等位基因插入，導致額外的尖峰而混淆結果之解釋，尤其是針對高度降解之樣本及低輸入模板，例如由於單一細胞。隨後，所得資訊不足以自信地指定樣本身份識別。

對來自STR基因座之等位基因之最小數量的要求取決於數個因素，且通常為真，並為本領域技術人員已知，當將輪廓與大型群體匹配時，需要訊號更豐富的基因座，而將樣本與較小的潛在貢獻者群體匹配時呈現出更簡單的問題，其可以較少數量之檢測到的等位基因分辨。

舉例而言，在鑑識案件中，例如性侵案件，可能存在一或多名加害者及受害者的DNA與細胞，其中有一些貢獻者，可為1名受害者及1、2、3、4、5或更多名加害者。在多名男性加害者之情況下，由於分析的標的細胞為精細胞，其為單倍體，每一基因座僅具有單一等位基因，因此問題可能加劇。因此，在分析案件中之單一細胞時，可能無法使用單一細胞的訊號而可靠地推斷出貢獻者的數量以及在有限的單一細胞數據下從該貢獻者中組裝重建的完整輪廓。

作為一範例，可使用DEPArray分離單一精子細胞(Fontana等人，“Isolation and genetic analysis of pure cells from forensic biological mixtures: The precision of a digital approach”, Forensic Sciences International: Genetics 2007, http://dx.doi.org/10.1016/j.fsigen.2017.04.023)，其允許使用經驗證之鑑識應用程序從單一DEPArray運行中收集多達48個單一精子，或使用購自DEPArray系統之不同應用程序收集多達96個單一細胞。

來自血液中之血液混合證據之不同貢獻者輪廓的單一細胞法醫鑑定，其使用DEPArray系統分離個別細胞，已於K. Anslinger, B. Bayer, “Whose blood is it? Application of DEPArray™ technology for the identification of individual/s who contributed blood to a mixed stain” Int J Legal Med. 2019 Mar;133(2):419-426. doi: 10.1007/s00414-018-1912-7. Epub 2018 Aug 18中被證實。

一般而言，藉由從單一細胞之複數個不完整輪廓中以電腦模擬重建完輪廓而重建完整輪廓及/或確定基因訊號的問題在於更難解決下列情況 (i) 分析之單一細胞的數量較少， (ii) 每一細胞檢測到的等位基因數量較少， (iii) 貢獻者的數量較多， (iv) 在分析之細胞中次要貢獻者的代表性水平較低。

除了藉由直接分離個別細胞而獲得的單一細胞鑑識以外，其他方法，例如次取樣(K. Huffman, E. Hanson and J Ballantyne, “Recovery of single source DNA profiles from mixtures by direct single cell subsampling and simplified micromanipulation”, Science & Justice Volume 61, Issue 1, January 2021, Pages 13-25)需要分析樣本的多重性，其由小型細胞池(例如，每池2或3個細胞)的收集組成。同時，在此情況下，可能有利的是，具有鑑定是否該池由來自相同貢獻者或多個貢獻者之細胞組成的系統，以及可能鑑定所有池之中貢獻者的總數，以及使能對同源性池進行進一步之基因分析，例如，針對額外的調查目的，例如，確定與基因組特徵相關的源始或身體性徵。

作為進一步之範例，細胞株鑑定通常使用STR分析進行。大多數STR套組需要毛細管電泳定序儀以進行螢光擴增產物之片段長度分析。隨著大量平行定序儀的普及，毛細管電泳的可及性已經下降，許多實驗室發現本身無法以毛細管電泳分析內部的STR輪廓。

使用大量平行定序儀分析STR的標靶PCR檢測現已可得。然而，這意味著需要取得實驗室中通常不存在的額外試劑。

作為進一步之範例，基於從母系體液中分離胎兒細胞，有需要在非侵入式產前診斷規程中進行樣本鑑定及/或配對。彼等可為例如從母系血液中分離的胎兒細胞(例如，胎兒有核紅血球或滋養層)。鑑於細胞非常罕見，存在顯著風險，從富集過程中分離之個別細胞可為與胎兒細胞相對的母系細胞，係因數個原因，例如免疫螢光染色之特異性受限或形態學選擇不明確、技術缺陷及用於其等分離之分選設備誤差。不論用於分離該等細胞之過程與標準為何，鑑於確保對實際胎兒細胞進行診斷之重要性，有必要驗證是否僅胎兒基因材料為基因分析之輸入內容，並檢測可能的母系污染(混合的細胞)，或完全的樣本調換(單一細胞為母系)，甚至來自例如操作者的污染。儘管混合的樣本(例如，1個胎兒細胞與1個母系細胞，即50%的污染)對於一些染色體非整倍體分析而言仍可接受，但較低的純度可能會影響例如微缺失(microdeletion)等較小型異常的檢測，其取決於所使用之檢驗。

因此，在現有技術中，當前之實踐為進行STR分析，作為在基於細胞之NIPD期間，針對回收細胞之胎兒來源的額外確認測試(Vossaert L, Wang Q, Salman R等人，“Validation Studies for Single Circulating Trophoblast Genetic Testing as a Form of Noninvasive Prenatal Diagnosis” American Journal of Human Genetics (2019) 105(6) 1262-1273；L.D. Jeppesen等人，“Cell-based non-invasive prenatal diagnosis in a pregnancy at risk of cystic fibrosis” Prenatal Diagnosis. 2020; 1–7.；Manaresi等人，EP2152859B1)。

在最近一篇論文中(Zhuo X, Wang Q, Vossaert L, Salman R, Kim A, Van den Veyver I等人(2021) “Use of amplicon-based sequencing for testing fetal identity and monogenic traits with Single Circulating Trophoblast (SCT) as one form of cell-based NIPT” PLoS ONE 16(4): e0249695. https://doi.org/10.1371/journal.pone.0249695)，理解到「全基因組散彈槍(WGS)定序法在低覆蓋深度時(每一細胞5至10百萬讀數)提供良好的拷貝數數據，但若胎兒為女性，則其不易區分胎兒與母系細胞」。在此項作業中，提出了使用基於PCR之(40個擴增子的)標靶擴增及大量平行定序對一組90個高度多型性SNP進行基因分型，作為STR分析之替代方法，以確認為診斷而回收之細胞的胎兒來源。此方法使用來自單一細胞WGA產物之一小部分DNA等分試樣，然而，關於在基於低通WGS評估非整倍體之工作流程方面，其仍具有需要額外的樣本處理及相關成本的缺點。

胎塊性妊娠與妊娠性滋養層疾病之非侵入式評估已在循環滋養層上證實(Sunde L等人，“Hydatidiform mole diagnostics using circulating gestational trophoblasts isolated from maternal blood” Mol Genet Genomic Med. 2020;00:e1565. https://doi.org/10.1002/mgg3.1565)，但STR分析再次被認為對於確定從母系血液中分離之稀有滋養層的來源是必要的。水泡狀胎塊(Hydatidiform mole，HM)可為「完全性胎塊」，其通常為二倍體，其中兩個基因集來自父親(親代類型：PP)，係因在大多數情況下，受精卵失去母系細胞核，接著精子染色體複製，或者在少數情況下，接著由兩精子進行受精。大多數具有親代類型PP之HM在所有基因座(P1P1)中皆顯示純合性(homozygosity)，而大約15%在一些基因座(P1P2)中顯示出雜合性(heterozygosity)。部分胎塊為通常三倍體之HM，其中兩個基因集來自父親且一個來自母親(親代類型：PPM)。完全性胎塊的絨毛膜癌(Choriocarcinoma)風險增加(15%，相對於部分胎塊的0.5%)。因此，有趣之處在於了解HM是否攜帶母系基因組之拷貝或是否不存在。

作為需要樣本配對方法之進一步範例，在實驗室工作流程中有用於樣本追踪之鑑定。當定序多個低通全基因組定序樣本以進行全基因組拷貝數剖析時，驗證無樣本混淆以及在實驗室管理資訊系統(Laboratory Management Information System，LIMS)中之患者樣本代碼指定與從定序數據中獲得的患者指定一致可能是有益的。

另一需要樣本配對方法之範例為評估同種異體造血細胞移植(allo-HSCT)患者之內皮細胞來源(宿主或供體)。檢測供體衍生之內皮細胞的感興趣之處在於研究內皮與移植物抗宿主病(graft-versus-host disease，GVHD)之間的生理-病理關係，血管內皮作為GVHD早期靶標的潛在角色，以及供體衍生之內皮細胞的潛在致耐受性角色，以及移植物抗腫瘤(由Penack O.等人之回顧，“The importance of neovascularization and its inhibition for allogeneic hematopoietic stem cell transplantation” Blood，第117卷，第16期，2011年4月21日，第4181至4189頁)。常使用性別不匹配的樣本以進行此類分析，但需要有一種分析樣本的方法，其中宿主與供體具有相同性別。藉由DEPArray之單一細胞分離後的STR分析已被報導用於分析來自周邊血液中之富集的循環內皮細胞。然而，由於DNA降解妨礙了單一細胞STR分析，因此難以對檔案樣本(例如，FFPE)進行單一細胞STR分析。

基於胎兒染色體失衡之循環cfDNA的非侵入式產前篩檢可用於評估是否有足夠的胎兒DNA分數(fetal DNA fraction，FF)，係因低水平可能導致偽陰性結果。因此，準確估計胎兒DNA分數可能是重要的，確保其已通過QC閾值，以確保檢驗樣本中存在足夠量的胎兒DNA，並儘可能對測序結果做出正確解釋。一些實驗室可能沒有評估FF或沒有使用最佳的檢測方法，而這可能會提供患者偽陰性結果。目前已開發之使用次世代定序估計胎兒DNA分數的方法包括： • 藉由評估胎兒/胎盤cfDNA不同於母系來源之特徵而間接推斷其估計(基於游離DNA大小之方法、基於游離DNA核小體徑跡之方法、基於胎兒甲基化標記之方法、基於淺-深度母系血漿DNA定序數據之方法) • 直接評估及量化母系背景中不存在之基因變體(基於Y染色體之方法、基於母系血漿DNA定序數據與親代基因型之方法、基於母系血漿DNA之高-深度定序數據之方法、基於淺-深度母系血漿DNA定序數據與母系基因型之方法) (Peng XL, Jiang P. Bioinformatics Approaches for Fetal DNA Fraction Estimation in Noninvasive Prenatal Testing. Int J Mol Sci. 2017 Feb 20;18(2):453)。

由於母系血漿DNA定序數據與基於親代基因型之方法(主要藉由分析SNP)，可易於從序列讀數中鑑定母系血漿中之胎兒特異性等位基因。儘管此方法為評估胎兒DNA分數之直接且準確的方式，且通常被視為黃金標準，但此方法之可行性有時會受到需要親代基因型的阻礙，係因i) 僅收集到母系血液樣本，且在大多數臨床環境中以母系血漿DNA進行NIPT定序；以及ii) 在實踐時可能無法取得親生父親之基因型的情況並不少見。

為了避免需要親代基因型資訊的要求，開發了一種通過使用標靶大量平行定序以高的深度分析母系血漿DNA定序數據而測量胎兒DNA分數的方法。在此方法中，採用二項式混合模型以擬合觀察到的等位基因計數，其中使用潛在的四種母系-胎兒基因型組合，並通過最大似然率估計而確定胎兒分數(fetal fraction)。此方法之侷限在於，藉由標靶定序，定序深度需要高達~120X，以穩健地確定胎兒等位基因，而這會影響測試成本。

最近發展出此方法的延伸版本，其係基於淺-深度定序數據耦合僅母系基因型資訊(基於淺-深度母系血漿DNA定序數據與母系基因型之方法)。此方法之基本原理在於得利於一事實，即在母親為同型合子之SNP基因座處存在的任何替代等位基因(非母系等位基因)理論上將顯示出胎兒特異性DNA等位基因。因此，此類非母系等位基因之分數係假定與胎兒DNA分數相關，其係根據一假設，即來自定序與基因分型平台之誤差率在不同情況下相對恆定。然而，此模型之參數可能會根據定序與基因分型平台而變，係因各種平台各有不同的誤差屬性，而這可能有助於測量的非母系等位基因。因此，顯然，由於淺-深度母系血漿DNA定序及由於僅同型合子母系基因座(由基於SNParray之母系膚色血球層的基因分型獲得)，可靠地測量FF且同時檢測胎兒拷貝數變化具有挑戰性。

在最相近之現有技術文獻中，可引用下列文獻：Sejoon Lee等人，“NGSCheckMate: software for validating sample identity in next-generation sequencing studies within and across data types”, Nucleic Acids Research, 2017，第45卷，第11期，其教示一種確保來自相同受試者之NGS數據集被適當地配對的方法。NGSCheckMate方法，其使用基於模型之方法驗證來自FASTQ、BAM或VCF檔案的樣本身份識別，以比較在大約12k或21k單一核苷酸多型性(SNP)基因座處的等位基因讀取分數，並考量了相同及不相關樣本之相似性指標的深度依賴性行為。NGSCheckMate對於多種數據類型有效，包括外顯體定序、全基因組定序、RNAseq、ChIP-seq、標靶定序及單一細胞全基因組定序，但教示了定序深度需要＞0.5X。該需求在親緣關係或親代關係樣本之情況下甚至更高(＞3x)。事實上，當Sejoon Lee等人對兩名不相關之膠質母細胞瘤患者之單一癌細胞(每名患者39個與50個細胞)之89個WGS輪廓組成的數據集測試其方法時，其中定序深度在(0.01至0.3X)以確認在單一細胞水平處的CNV，其等進行細胞分組時僅達到87.8%之準確率，其中所有的錯誤分類誤差皆起因於少數細胞具有特別淺的定序深度(＜0.15X)。 單一細胞之全基因組擴增及低通全基因組定序

為了簡化及/或允許不同類型的基因分析，包括定序、SNP檢測等，常需要進行單一細胞基因組DNA之全基因組擴增(WGA)以獲得更多DNA。WGA與基於確定性限制位點之LM-PCR (在下列DRS-WGA中)係從WO2000/017390中習知。

DRS-WGA在許多面向皆顯示為同類最佳的WGA方法，特別是在單一細胞之較低等位基因丟失方面(Borgstrom等人，2017；Normand等人，2016；Babayan等人，2016；Binder等人，2014)。

基於LM-PCR之DRS-WGA商業套組(Ampli1™ WGA套組，Silicon Biosystems)已在Hodgkinson C.L.等人於Nature Medicine 20, 897–903 (2014)的報導中使用。在此作業中，藉由低通全基因組定序對單一細胞WGA材料進行拷貝數剖析，其係於Illumina條碼化轉接子連接而進行定序之前將WGA轉接子消化並片段化。

WO2017/178655與WO2019/016401A1教示一種從DRS-WGA (例如Ampli1 WGA)製備大量平行定序文庫之簡化方法，以進行低通全基因組定序及拷貝數剖析。在Ferrarini等人的PLoSONE 13(3):e0193689 https://doi.org/10.1371/journal.pone.0193689中，使用Ion Torrent Platform之WO2017/178655的方法效能已參考拷貝數剖析而進行詳細說明。

DRS-WGA已被證實比DOP-PCR更好地分析來自小量微切割之FFPE材料的拷貝數剖析(Stoecklein等人，Am J Pathol. 2002 Jul; 161(1):43-51；Arneson等人，ISRN Oncol. 2012;2012:710692。doi: 10.5402/2012/710692. Epub 2012 Mar 14.)，當使用陣列CGH、中期CGH以及其他基因分析檢驗時，例如使用標靶引子及PCR之雜合性喪失以分析所選之微衛星，然而，已顯示，取決於FFPE DNA品質，單一細胞FFPE LP-WGS是可能的，但對於較低DNA品質得分可能變得不切實際(Mangano, C., Ferrarini, A., Forcato, C.等人，“Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin’s lymphoma”. Blood Cancer J. 9,92 (2019)。https://doi.org/10.1038/s41408-019-0256-y)。

總之，需要提供一種方法，該方法允許推斷樣本身份識別及/或分析相似程度低至單一細胞分辨率，具有低覆蓋深度(＜ 0.15x)之定序數據，克服一或多個下列現有技術中之固有限制： - 需要單獨的微衛星分析檢驗； - 需要單獨的SNP基因分型檢驗； - 全基因組定序覆蓋深度＞ 0.5x； - 不可能可靠地重新分析單一細胞以進行驗證或獲得額外的標靶基因組資訊。

針對單一細胞法醫鑑定，需要有一種有效的方法，以指定複數個單一細胞樣本之每一者之身份識別，即使品質差，並進一步研究該樣本所屬個體之基因特徵。

針對腫瘤樣本之全基因組拷貝數剖析，包括單一細胞分析，例如單一CTC分析或單一FFPE細胞，可能需要提供固有的樣本追蹤演算法，以避免換成低通全基因組定序樣本，及/或檢測不同樣本的混淆。

針對從母系血液中採集之循環胎兒細胞的非侵入式產前檢驗或診斷，需要有一種有效的分析方法，將(i) 胎兒全基因組剖析(例如，全基因組拷貝數剖析)與(ii) 確認樣本之胎兒來源的能力組合在單一檢驗中。

針對使用低通全基因組大量平行定序之基於循環胎兒游離DNA與母系來源之DNA混合的非侵入式產前檢驗，需要有一種有效的分析方法，允許i) 鑑定胎兒成分並評估其相關於母系成分的量(例如：胎兒分數，FF)及ii) 來自相同低通定序數據之樣本中的全基因組拷貝數剖析。

針對例如囊胚細胞、用過的胚胎培養基之植入前基因篩檢(PGS；亦稱為植入前基因檢驗或「PGT」)，需要有一種方法，其使用單一檢驗以檢測及/或量化母系細胞或外源性污染，以避免分析中的偽陰性或性別不一致檢出，並從相同低通定序數據中組合下列能力：(i) 全基因組胚胎基因組剖析(例如，全基因組拷貝數剖析)，其可用於例如確認樣本中存在或不存在非整倍體，以及(ii) 量化及/或確定不存在母系污染。

針對產前樣本(例如：絨膜絨毛、羊水、受孕產物)，需要有一種方法，其使用單一檢驗以檢測及/或量化母系細胞或外源性污染，以避免分析中的偽陰性或性別不一致檢出，並從相同低通定序數據中組合下列能力：i) 胎兒全基因組剖析及(ii) 量化及/或確定不存在母系污染。

除此之外，需要有一種方法，其使用單一檢驗以檢測在任何胚胎-胎兒發育階段時衍生自胚體的基因材料，情況例如胎塊性妊娠、多胎妊娠(包括消失/嵌合體)、單親源二體(單親同二體或單親異二體)及ROH (專利號WO2021019459A1)、血緣及染色體未分離錯誤分類。

針對細胞株鑑定，需要有一種方法，其使用單一檢驗以同時進行下列 (i) 使用廣泛可得之大量平行定序儀鑑定細胞株，而無需在較不可得之毛細管電泳儀器上運行STR分析，以及 (ii) 細胞株之全基因組剖析(例如，全基因組拷貝數剖析)，以可能地檢測與基因組不穩定性或由於大量培養傳代之人為相關的偏移。

針對需要對個體起源進行單一細胞確認的FFPE檔案樣本，例如在同種異體造血幹細胞移植中之有關內皮細胞的分析中，需要有一種技術，其可從分離自FFPE之單一細胞(分選或微切割)中獲得可靠結果。

因此，本揭示內容之目的在於提供一種克服先前技術方法之缺點的方法。

特別是，本揭示內容之目的在於提供一種分析複數個包含基因組DNA之樣本中至少兩個樣本之相似程度的方法，該樣本與少數細胞相容，少至單一細胞，以及相當於或低於一個基因組等效物的DNA量。

此目的藉由如請求項1定義之方法而實現。

定義

除非另有定義，否則本文中使用的所有技術及科學術語具有與本揭示內容所屬領域之普通技術人員通常理解的相同含義。儘管在本揭示內容之實踐或檢驗中可使用與本文所述之該等相似或等效的許多方法及材料，但下文中描述較佳之方法及材料。除非另有說明，否則本文所述之與本揭示內容一起使用的技術為本領域之普通技術人員熟知的標準方法。

表述「大量平行次世代定序(NGS或MPS)」意指一種定序DNA之方法，其包含創建在空間上及/或時間上分開的DNA分子文庫、以選殖方式定序(有或無先前的選殖擴增)。範例包括Illumina平台(Illumina Inc)、Ion Torrent平台(Thermo Fisher Scientific Inc)、Pacific Biosciences平台、MinIon (Oxford Nanopore Technologies Ltd)。

表述「低通全基因組定序」意指以平均定序深度低於整個參考基因組的1x對未富集化之序列特異性片段的大量平行定序文庫進行全基因組定序。此定義明確排除針對一組基因座之基於PCR之標靶富集化或序列特異性捕獲誘餌靶標富集化的情況，該組基因座例如單核苷酸多型性(SNP)及/或短縱排重複序列(STR)基因座。

表述「平均定序深度」在此意指在每一樣本之基礎上，經定序、經映射至參考基因組之鹼基總數除以總參考基因組大小。經定序及經映射之鹼基總數可近似於經映射之讀數乘以平均讀取長度。

表述「參考基因組」意指針對特定物種的參考DNA序列。

術語「基因座(locus)」(複數「基因座(loci)」)意指染色體上的固定位置(相對於參考基因組)。

表述「多型性基因座」意指具有2或多個等位基因的基因座，其中在群體中觀察到頻率大於1%。

表述「異型合子基因座」意指在特定樣本中觀察到具有2或多個等位基因的基因座。

表述基因座之「平均雜合性」意指數值1減去等位基因頻率之平方的和。特別是乘積2pq，其中p與q=(1-p)為在群體中具有兩個等位基因之基因座情況下之基因座的等位基因頻率，或乘積2pq+2pr+2qr之總和，其中p、q及r (由於p+q+r=1)為具有三個可能的等位基因之基因座的三個等位基因頻率。

表述「覆蓋之基因組」意指由至少一讀數覆蓋之參考基因組的部分。

術語「讀取」意指藉由定序儀定序(「讀取」) 的DNA片段。

表述「還原率」意指含於特定鹼基對範圍內之片段的鹼基總數除以參考基因組中之鹼基總數，該片段之鹼基總數係根據在DRS-WGA中採用的限制酶對參考基因組進行電腦模擬消化而獲得。

表述「等位基因內容物」意指在基因座處檢測到的等位基因方面的組成。

表述「無片段化、定序轉接子/WGA融合引子及PCR反應」大量平行定序文庫製備意指對DRS-WGA產物進行大量平行測序文庫製備，而無DNA片段化步驟，從而藉由融合引子將定序轉接子添加至WGA產物中，例如，根據專利申請案(WO2017/178655)或(WO2019/016401A1)。

表述「配對相似性得分」意指具有複數個有限對應域(codomain)之配對輸入值的函數。對應域較佳為被標準化為一標準值，例如[-1;1]或[0;1]，與配對輸入值之數量無關。

表述「樣本叢集化」意指一種用於劃分樣本之演算法，使得屬於同一劃分(亦稱為「叢集」)之樣本共享選自於由下列所組成群組的共同屬性：實質上貢獻DNA予該劃分之樣本的一個個體(或多個個體)的身份識別、含有不足量之DNA的屬性及含有高度降解之DNA或不確定來源之DNA的屬性。

當基本資料未知時，評估叢集演算法效能的數個指標為本領域中已知，例如「輪廓得分」、「Calinski-Harabasz指標」、「Davies-Bouldin指標」，其可用於確定將複數個樣本劃分成同質性、明確定義之叢集的「最佳」叢集數量。

表述「身份識別叢集」意指由含有來自僅一個且相同個體之高機率DNA之樣本組成的組。高機率(以下稱為Prob[Single-ID])之含義取決於應用，如本領域技術人員將理解並定義的，與應用之細節及其效能需求相關。舉例而言，在胎兒細胞分析之情況下，當僅至少三個單一「推定的」胎兒細胞(亦即，屬於與母系參考體具有親緣關係之細胞的身份識別叢集)被單獨地分析並報導時，則假設發佈診斷。針對例如使用低通WGS衍生之拷貝數剖析的非整倍體，若沒有來自受影響之胎兒的細胞，且分析之細胞皆為被誤認為胎兒的母體細胞，則診斷會失效。進一步假設檢測非整倍體胎兒之最小靈敏度(Sens_min)為可接受的。由誤判的每一單一細胞身份識別所導致的將正常者檢出為非整倍體胎兒的隨後機率將需要使所有診斷的細胞皆檢出為胎兒細胞而非母系細胞。一般而言，可合理假設彼等事件(與母系參考體配對比較)在推定之胎兒細胞中是獨立的，因此，Prob[經分析之Ncells的False_ID]=Prob[False_ID] ^Ncells，其中Ncells為單獨分析之細胞數量，其中Prob[False_ID]=1-Prob[Single_ID]為檢出樣本為屬於相同個體身份識別叢集的誤差機率(更具體而言，與母系參考體有親緣關係的樣本叢集，如上述)。將需要 (1- Prob[Single_ID]) ^Ncells≤(1-Sens_min)，亦即 Prob[Single_ID] ≥ 1-(1-Sens_min) ^1/Ncells舉例而言，由於Sens_min=99.9%，Ncells=5將需要Prob[Single_ID] ≥ 75% 同時考量Ncells=3，將需要 Prob[Single_ID] ≥ 90%

在兩種情況下，為了簡單起見，排除其他誤差來源，例如實際分析到真正胎兒細胞但未能檢測到非整倍性的機率。

在非證明樣本之鑑識調查及處理情況下，高機率之含義可能不同。舉例而言，根據本揭示內容之方法可用於從單獨細胞之Ncells數量重建STR剖析。取決於DNA數據庫搜尋之允許嚴格性、分析之單一細胞的數量、個案工作之每一個體樣本的平均STR檢出率，可能會對高機率之確切值(Prob[Single_ID])引發不同的需求以符合目標。

此需求更難以分析方式建模，並可藉由例如蒙地卡羅模擬(Montecarlo simulation)推導，其係藉由使用可得的數據庫並電腦模擬各種程度的等位基因丟失、實際分析之單一細胞的數量，以及在重建輪廓中之演算法選擇。

表述「單一個體WGA-DNA樣本」意指包含DRS-WGA產物之混合物的樣本，該DRS-WGA產物獲自含有來自單一個體之DNA的樣本。

表述「非侵入式產前檢驗」意指進行基因檢驗以評估循環於母系血液中之胎兒游離DNA或完整胎兒細胞。

表述「植入前基因檢驗/篩檢」意指進行基因檢驗，以便在胚胎移至子宮之前藉由全基因組分析而評估例如拷貝數變化，以確定在發育之胚胎中存在非整倍體(染色體太多或太少)。

表述「植入前基因診斷」意指藉由標靶定序進行植入前基因檢驗，以檢驗發育之胚胎中序列變體的存在，例如與單一基因失調相關的突變(例如，杭丁頓氏舞蹈症、囊腫纖維化、脆弱X染色體症候群)，包括該等體染色體顯性及隱性或X性聯，或遺傳性癌症症候群(例如，遺傳性乳腺癌與卵巢癌、林奇氏症候群(Lynch syndrome))。此外，此術語意指定序以鑑定人類白血球抗原相容之未受影響的妊娠胚胎，其目的在於允許患病家族成員接受相容的骨髓移植或臍帶血輸液。

表述「胚胎樣本」意指含有胚胎DNA之樣本，例如囊胚細胞、用過的胚胎培養基、極體。

表述「單一個體WGA-DNA數據」意指將獲自含有來自單一個體之DRS-WGA DNA之樣本的定序數據合併而得的數據。

為了簡單起見，在將根據本揭示內容之方法應用於產前及生殖醫學的描述中，術語「母系」可用於將其含義擴展為「屬於女性」或「屬於母本」及「母親」，以擴展至「女性」或「母本」，意指已貢獻卵子予胚胎、妊娠中之胎兒的女性個體，儘管該女性可能由於未分娩相應於該胚胎或胎兒等之後代而未成為母親。

同樣地，術語「父系」可用於擴展其含義為「屬於男性」或「屬於父本」及「父親」，以擴展至「男性」或「父本」，意指已貢獻精子予胚胎、妊娠中之胎兒、水泡狀胎塊的男性個體，儘管該男性可能由於女性未分娩相應於該胚胎或胎兒等之後代而未成為父親。詳細說明

根據本揭示內容之方法係應用於分析複數個包含基因組DNA之樣本。特別是，本方法係用於分析複數個包含基因組DNA之樣本中至少兩個樣本的相似程度。在某些實施例中，樣本物種為智人，且除非另有說明，否則此物種將在其餘之描述中提及，不侷限於其他物種之應用(若適用)。

本方法包含下列步驟。

在步驟a)中，提供複數個包含基因組DNA的樣本。

在步驟b)中，分別對每一樣本進行該基因組DNA之確定性限制位點全基因組擴增(DRS-WGA)。

在步驟c)中，使用無片段化、定序轉接子/WGA融合引子PCR反應從該DRS-WGA之每一產物製備大量平行定序文庫。

在步驟d)中，以＜ 1x之平均覆蓋深度對該大量平行定序文庫進行低通全基因組定序。平均覆蓋度較佳為0.01x，較佳為以＜ 0.05x之覆蓋度，更佳為以＜ 0.1x之覆蓋度，甚至更佳為以＜ 0.5x之覆蓋度進行。此致使定序成本降低，同時在與應用相關之分析中維持良好的結果。

在步驟e)中，與參考基因組比對步驟d)中獲得的讀數。

在步驟f)中，提取每一樣本在複數個多型性基因座處的等位基因內容物，亦即由比對之讀數獲得。該複數個基因座包含所考量之物種的多型性基因座。

該複數個多型性基因座較佳為包含具有平均雜合性＞ 0.499，更佳為具有平均雜合性＞ 0.49，甚至更佳為具有平均雜合性＞ 0.4，甚至更佳為具有平均雜合性＞ 0.3，最佳為具有平均雜合性＞ 0.2的多型性基因座。

該複數個多型性基因座包含較佳為＞ 200,000個基因座，更佳為＞ 300,000個基因座，甚至更佳為＞ 500,000個基因座，最佳為＞ 1,000,000個基因座。

在步驟g)中，計算至少兩個樣本的配對相似性得分，作為在該複數個基因座處測量之等位基因內容物的函數。

在步驟中h)，基於相似性得分確定至少兩個樣本的相似程度。

一般而言，相似性可基於共享多型性基因座中之等位基因內容物的一致性而測量，其中「共享」乙詞意指基因座在一對或一組至少兩個樣本中由樣本之至少一DNA讀數覆蓋。舉例而言，藉由運算至少兩個樣本中由至少一讀數覆蓋之跨基因座之B等位基因頻率的相關性而較佳地計算配對相似性得分。

作為替代，該配對相似性得分係藉由運算兩個配對樣本中由至少一讀數覆蓋之跨基因座的平均一致性值而較佳地計算，其中每一基因座之一致性值被指定為下列各值之一： a) 1，若檢出之等位基因相同； b) 0，若檢出之等位基因不同或完全不同； c) 0.5，若檢出之等位基因部分重疊。

舉例而言，在一些實施例中，每一基因座之一致性值可被指定如下： A1) 1，若檢出之等位基因相同；以及 B1) 0，若檢出之等位基因不同。或者，在一些實施例中，每一基因座之一致性值可被指定如下： A2) 1，若檢出之等位基因相同； B2) 0，若檢出之等位基因完全不同；以及 C2) 0.5，若檢出之等位基因部分重疊。

就本揭示內容之目的，本文所述方法可用於耦合樣本(例如，單一細胞樣本、游離DNA樣本等)以測量樣本之間的「相似性」程度。在該組樣本(亦即，「至少兩個樣本」)中包括對照樣本，例如分別在NIPT檢驗或親子鑑定之情況下的母系/父系樣本，可允許改進樣本之間的區別，例如母系/父系及胎兒細胞。

根據本揭示內容之方法較佳為進一步包含界定一組共享共同屬性之樣本叢集的步驟，例如實質上貢獻DNA予叢集樣本之一個個體(或多個個體)的身份識別，或含有不足量之DNA的屬性及/或含有高度降解之DNA或不確定來源之DNA的屬性。

在另一較佳之實施例中，可實施叢集演算法(例如，階層式叢集)以使用個體樣本(例如，單一細胞)找到該叢集。此分析類型可能最適合區分各樣本組，其中樣本之一者為用於識別參考叢集的參考樣本。舉例而言，在NIPT檢驗中，母系細胞池可用作參考體，以使用本文所述之相似性得分區分孕婦之其他細胞組，例如胎兒細胞。一般而言，在多個胎兒的NIPT分析情況下，可實施叢集方法，特別是HC，包括用於找到最正確之叢集數量的迭代過程、用於選擇最佳叢集劃分的質量得分(例如，輪廓得分)及識別混合回收物之方法(例如，屬於多個叢集之樣本)。

較佳地，透過使用該配對相似性得分作為輸入值之分類器，該至少兩個樣本被指定至至少一叢集。如以下之進一步細節所述，分類器可獨立於叢集分析而使用。

在一較佳之實施例中，界定該叢集之數量係藉由執行配對相似性得分之聚合式叢集而進行。

在一較佳之實施例中，此聚合式叢集係使用歐幾里德距離(Euclidean distance)與沃德連結(ward linkage)進行。

在一較佳之實施例中，此叢集係使用一範圍數量之叢集進行，其產生不同替代的叢集輸出值。

在一較佳之實施例中，此類替代的叢集輸出值係藉由計算輪廓得分而評估，並選擇在所有子叢集中具有最高平均輪廓得分的叢集。

較佳地，該分類器使用至少一值作為進一步輸入值，該值係由該低通全基因組定序數據測得，其係選自於包含下列之群組： a) DLRS：導數對數比率展延(derivative log ratio spread)； b) R50：由50%之定序讀數覆蓋之WGA片段佔由至少一讀數覆蓋之總WGA片段的百分比； c) YFRAC：映射至Y染色體之讀數分數(fraction of reads)； d) 異常：相應於關於中位數細胞倍數體之增益或損失的基因組百分比； e) Chr13：13號染色體之倍數體； f) Chr18：18號染色體之倍數體； g) Chr21：21號染色體之倍數體； h) RSUM：與最近的整數拷貝數水平之平均絕對偏差，由中位數細胞倍數體之最高絕對偏差的拷貝數異常事件計算； i) Mix_得分：RSUM z得分，由中位數細胞倍數體之最高絕對偏差的拷貝數異常事件計算；以及 j) Deg_得分：小型損失事件之數量(＜ 10 Mbp，其在降解樣本中常見)。

該叢集之數量較佳地計算如下 a) 選擇一些將平均輪廓得分最大化的第一次迭代叢集； b) 針對該第一次迭代叢集之每一者，運算屬於該第一次迭代叢集之該樣本之每一者的輪廓得分，其中屬於具有輪廓得分低於含於0.19至0.21範圍內之固定閾值之叢集的樣本被指定至一新的叢集。

在一較佳之實施例中，該組叢集較佳為包含一或多個身份識別叢集，其包括含有(具有高信賴度)來自僅一個且相同個體之DNA的樣本。

在更多身份識別叢集存在下，該複數個身份識別叢集之基數較佳為相應於該複數個樣本個別DNA貢獻者的數量。

較佳地，本方法進一步包含界定一組混合身份識別叢集，該混合身份識別叢集之每一者包括含有來自至少兩個個體之DNA的樣本。

較佳地，本方法進一步包含界定至少一無檢出叢集，其包括含有來自不確定來源之DNA的樣本。

有利地，此叢集包括的樣本為其中為了計算相似性得分而評估的基因座數量低於閾值。有利地，該閾值之建立係考量選自於包含下列群組之元件： 1. 樣本之讀數的數量， 2. 用於比較之基因座中最小平均雜合性。

複數個樣本較佳為包含至少一參考樣本，且該身份識別叢集之群組包括至少一參考叢集，其包含該參考樣本。

較佳地，分類器可獨立於叢集分析使用，以將配對之樣本指定至正確類別，其使用該配對相似性得分作為主要輸入值，並假設兩個配對樣本之至少一者為參考樣本。此外，機器學習分類器可使用額外之特徵以獲得盡可能最高的信賴水準。就本揭示內容之目的，應理解，分類器不一定將樣本指定至叢集，而是將樣本指定至數個預界定類別之一者。因此，有可能在不對樣本進行叢集化之情況下將其分類。相反地，未經監督之叢集化技術可找到樣本之間的相似性，而無需先天類別界定。

在一較佳之實施例中，機器學習分類器(例如，隨機森林)可以適用之訓練集實施及訓練以區分樣本。除了其他特徵之外，此類分類器可能使用該配對相似性得分。此方法可能最適合配對比較，其中需要針對參考樣本評估單一測試樣本。範例可為一種方法，其目標為使用已知來源之細胞池作為對照(例如，母系細胞池作為對照)以進行單一細胞分類。在基於細胞之非侵入式產前檢驗的情況中，當區分母系與胎兒細胞時)，預期之類別可能為(i) 母系細胞「自身」，(ii) 胎兒細胞之「親緣」，(iii) 「混合的」回收物，其包含胎兒與母系細胞之混合物，(iv) 與母親或胎兒無關之「不相關」樣本(亦即，外源性污染、IVF妊娠中之卵子供體等)，以及用於較差指標之不可靠樣本的「無檢出」。分類器(例如，隨機森林分類器)可區分樣本，除了該配對相似性得分以外，其使用來自以低通全基因組定序數據測量之至少一特徵的輸入值，包括但不侷限於： a) DLRS：導數對數比率展延； b) R50：由50%之定序讀數覆蓋之WGA片段佔由至少一讀數覆蓋之總WGA片段的百分比； c) YFRAC：映射至Y染色體之讀數分數； d) 異常：相應於關於中位數細胞倍數體之增益或損失的基因組百分比； e) Chr13：13號染色體之倍數體； f) Chr18：18號染色體之倍數體； g) Chr21：21號染色體之倍數體； h) RSUM：與最近的整數拷貝數水平之平均絕對偏差，由中位數細胞倍數體之最高絕對偏差的拷貝數異常事件計算； i) Mix_得分：RSUM z得分，由中位數細胞倍數體之最高絕對偏差的拷貝數異常事件計算；以及 j) Deg_得分：小型損失事件之數量(＜ 10 Mbp，其在降解樣本中常見)。

此外，適用於所揭示方法之其他分類器類型取決於，例如，描述「親緣」、「自身」或「不相關」關係之該配對相似性得分的預界定固定閾值(亦即，範例6)。

在一些實施例中，考量到分類器策略為比較測試樣本與參考樣本，叢集策略(例如，階層式叢集)與分類器策略(例如，RF分類器)可互換使用，以基於序列讀取數據而區分樣本，而叢集化技術之目的在於找到樣本群組/叢集，其中彼等之一者鑑定參考叢集。

在一較佳之實施例中，該至少一參考樣本為來自懷孕母本個體之樣本。

該身份識別叢集之群組較佳為進一步含有至少一由來自該母本個體妊娠中之至少一胎兒之樣本組成的親緣叢集。

較佳地，該親緣叢集係劃分為複數個胎兒叢集，其係由含有來自僅一個且相同胎兒之DNA的樣本組成。

在一替代之較佳實施例中，該至少一參考叢集較佳為由含有來自相應於鑑識調查中受害者之僅一個且相同個體之DNA的樣本組成，其更包含界定至少一加害者叢集，其包括含有來自不同於受害者之僅一個且相同個體之DNA的樣本。

在此情況下，根據本揭示內容之方法較佳為包含將來自複數個屬於該至少一加害者叢集之每一者之樣本的DRS-WGA等分試樣叢集式混合，針對每一叢集產生相應之單一個體WGA-DNA樣本，以及對該單一個體WGA-DNA樣本之至少一者進行進一步DNA分析。

本方法較佳為包含將來自複數個屬於該至少一加害者叢集之每一者之樣本的至少一檢驗類型之基因分析數據叢集式合併，針對該至少一加害者叢集之每一者產生相應之單一個體WGA-DNA數據。

檢驗類型係選自於由微衛星分析、單核苷酸多型性分析、大量平行標靶定序及全基因組定序組成之群組。

在本揭示內容之方法之一較佳實施例中，複數個樣本包含腫瘤及/或正常樣本。

在另一較佳之實施例中，複數個樣本包括含有來自母本個體之DNA的至少一參考樣本，且來自該複數個樣本之至少一其他胚胎樣本係選自於由下列組成之群組： a) 含有源自該母本個體之胚胎之DNA的樣本；以及 b) 含有獲自該母本個體之胚胎之用過的胚胎培養基之DNA的樣本。

在後面的實施例中，本方法較佳為進一步包含對該胚胎進行植入前基因篩檢，其係藉由使用相應於對該至少一其他胚胎樣本測量之母系污染的污染因子來分析來自該至少一其他胚胎樣本之該低通全基因組定序數據的全基因組染色體異常，作為來自該母本個體樣本之該至少一其他胚胎樣本之該配對相似性的函數。

在另一較佳之實施例中，複數個樣本包括含有來自母本個體之DNA的至少一參考樣本，以及含有來自游離DNA樣本之DNA的至少一其他樣本。在一些實施例中，本方法較佳為進一步包含對該游離DNA樣本進行非侵入式產前檢驗，其係藉由使用相應於對該至少一游離DNA樣本測量之胎兒分數(fetal fraction)的校正因子來分析來自該至少一游離DNA樣本之該低通全基因組定序數據的全基因組染色體異常，作為該配對相似性之函數。

在另一較佳之實施例中，複數個樣本包括含有來自母本個體之DNA的至少一參考樣本，以及含有來自絨膜絨毛、羊水或受孕產物之DNA的至少一其他產前樣本。在一些實施例中，本方法較佳為進一步包含對該產前樣本進行產前檢驗，其係藉由使用相應於對該至少一產前樣本測量之母系或外源性污染的校正因子來分析來自該至少一產前樣本之該低通全基因組定序數據的全基因組染色體異常，作為該配對相似性之函數。

特別是針對細胞株鑑定，較佳為複數個參考叢集係由來自細胞株之複數個DNA樣本產生，且該身份識別叢集之群組進一步含有來自待鑑定之細胞株的至少一樣本。

特別是用於調查同種異體移植物，較佳為該至少一參考叢集係由含有來自經移植患者之生殖系DNA的樣本組成，且該身份識別叢集之群組進一步含有由來自該經移植患者之同種異體供體之樣本所組成的一個供體叢集。

特別是針對非侵入式親子鑑定，較佳為該至少一參考樣本包括含有僅來自該父本之DNA的父本參考樣本，且該至少一參考叢集更包含一包括該父本樣本的父本身份識別叢集，且： (i) 若相對於父本樣本之親緣樣本相似性得分與親緣關係的一致，則親子關係確認； (ii) 若相對於父本樣本之親緣樣本相似性得分與不相關個體的一致，則親子關係未確認。

特別是針對非侵入式胎塊性妊娠評估，較佳為該至少一樣本包含至少一循環滋養層細胞樣本，且若相對於母本樣本該滋養層細胞樣本相似性得分與不相關樣本的一致，則完全性胎塊確認。

在後面的實施例中，該至少一樣本較佳為包含複數個滋養層細胞樣本，且： (i) 若該滋養層細胞樣本之中的相似性得分超過自身樣本之預期相似性得分的預期第99百分位數，則P1P1同型合子父系胎塊確認。 (ii) 若該滋養層細胞樣本之中的相似性得分與自身樣本之預期相似性得分一致，則P1P2異型合子父系胎塊確認。

較佳地，該至少一樣本進一步包含父本樣本，且該滋養層細胞樣本之中的相似性得分與自身樣本之預期相似性得分一致，且： (i) 若相對於該父本樣本之該滋養層細胞樣本相似性得分與自身樣本之預期相似性得分一致，則P1P2異型合子父系胎塊確認。 (ii) 若相對於該父本樣本之該滋養層細胞樣本相似性得分低於自身樣本之預期相似性得分的第1百分位數，則P1P2異型合子父系胎塊未確認。

與現有技術相比，本發明人驚訝地發現，DRS-WGA與大量平行定序之文庫製備物的組合，其使用無片段化、定序轉接子/WGA融合引子PCR反應以進行低通全基因組定序，改進了區分DNA樣本的可能性，即使是在低於1x之非常淺之深度的低通全基因組測序中的自身與親屬樣本，此外亦以相對良好的準確度分辨混合的自身與親緣樣本。此外，針對不相關個體，即使是覆蓋深度極低之全基因組定序(例如，＜ 0.15x)亦足夠。

為了證明上述內容，進行下列實驗。範例 範例1

最初使用7種細胞株獲得定序數據。圖1顯示全基因組文庫製備方法對自身與不相關樣本之間SNP等位基因頻率相關性的影響。在X軸上為文庫製備方法。藉由對7種腫瘤細胞株(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441、OE19)之2個單一細胞的基因組DNA進行確定性限制位點全基因組擴增(DRS-WGA)，接著進行無片段化、定序轉接子/WGA融合引子PCR反應而製備無片段化文庫；使用Ion Xpress™ Plus gDNA片段文庫製備套組(Thermo Fisher Scientific)從6種腫瘤細胞株(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441)之基因組DNA中製備隨機片段化文庫。在Y軸上為配對相似性得分，其計算為如NGSCheckMate (提交號8ea2c0438)報導之配對樣本中之由至少一讀數覆蓋之跨基因座之B等位基因頻率的相關性。NGSCheckMate在與參考基因組(hg19)對齊之500,000個讀數(≈0.025x覆蓋深度)上運行，其具有預設參數及預設多型性基因座集(21067個SNP)。黑點(自身)顯示屬於相同細胞株之配對樣本的配對相似性得分。灰點(不相關)顯示屬於不同細胞株之配對樣本的配對相似性得分。圖中顯示基於DRS-WGA之無片段化文庫製備相對於隨機片段化方法的明顯優勢，其中自身與不相關配對相似性得分值之間更加區隔。 範例2

根據本揭示內容，用於比較之多型性基因座較佳為基於其等之平均雜合性而選擇。較佳地，多型性基因座係基於具有高於某個最小閾值之平均雜合性的屬性而選擇。

圖2顯示多型性基因座集選擇對屬於相同(自身)或不同細胞株(不相關)之配對樣本之配對相似性得分的影響。藉由對7種腫瘤細胞株(NCI-H1650、NCI-H23、NCI-H661、NCI-H1563、NCI-H1573、NCI-H441、OE19)之2個單一細胞的基因組DNA進行確定性限制位點全基因組擴增(DRS-WGA)，接著進行無片段化、定序轉接子/WGA融合引子PCR反應而製備文庫。在X軸上為用於分析之多型性基因座集：21k集相應於由NGSCheckMate提供的預設SNP集，並基於來自TCGA胃癌患者之40個生殖系WGS輪廓中之dbSNP中多型性基因座的等位基因頻率而選擇；300k集由312,458個多型性基因座組成，該基因座基於最小平均雜合性為0.498選自於dbSNP (建構150個)。在Y軸上為配對相似性得分，其計算為至少兩個樣本中之由至少一讀數覆蓋之跨基因座上之B等位基因頻率的相關性，分析其之相似程度。NGSCheckMate係與參考基因組(hg19)對齊運行500,000個讀數(≈0.025x覆蓋深度)，其具有預設參數及預設多型性基因座集(21k)或300k集。圖中顯示藉由使用基於平均雜合性之多型性基因座選擇，屬於相同細胞株(自身)之配對樣本與該等屬於不同細胞株(不相關)之配對樣本的配對相似性得分之間的差異增加，導致兩種比較類型之間的明確區隔。

根據本揭示內容，在步驟g)中可使用不同的相似性得分計算方法。

如前面描述中所提及，在一較佳之實施例中，步驟g)之配對相似性得分係藉由運算至少兩個樣本中由至少一讀數覆蓋之跨基因座上之B等位基因頻率的相關性而計算，分析其之相似程度。

在另一較佳之實施例中，步驟g)之配對相似性得分係藉由運算兩個配對樣本中由至少一讀數覆蓋之跨基因座上之平均一致性值而計算，其中每一基因座之一致性值被指定為下列各值之一： a) 1，若檢出之等位基因相同； b) 0，若檢出之等位基因完全不同； c) 0.5，若檢出之等位基因部分重疊。範例 3

圖3A及圖3B顯示衍生自相同個體(「自身」)或不同的不相關個體 (「不相關」)之樣本所運算的配對相似性得分分佈，其係針對500,000個讀數且最小平均雜合性 = 0.46或5,000,000個讀數且最小平均雜合性 = 0.49，其使用相關性(圖3A)或一致性(圖3B)方法。

兩種方法在來自相同類別之樣本的分離及擴散方面給予類似結果，然而，配對相似性得分(y軸)之絕對值必需根據所使用之特定方法明確改變。相較於相關性，基於一致性之配對相似性得分具有運算更簡單的優點，從而提供更好的運算效能，尤其是在大的多型性基因座集之情況下。

針對兩種讀取深度，圖中顯示所採用的兩個相似性得分之間的自身與不相關配對樣本配對相似性得分分佈的區隔方面無明確差異，然而，相似性得分之絕對值必需針對計算中所採用的特定函數而調整。範例 4- 平均雜合性及多型性基因座之數量

最小平均雜合性較佳為在[0.2；0.499]之範圍內。所考量之多型性基因座的數量會隨著最小平均雜合性之增加而單調地減少。

由配對樣本覆蓋之基因座的數量會隨著每一樣本之讀數數量之增加而單調地增加。針對某一數量之讀數，通常會有一個最佳的最小平均雜合性，以增加符合(相同個體)與不相關樣本之間的區隔。進一步使最小平均雜合性增至超出該最佳值最初將逐漸進行，接著突然減少可用於比較之配對樣本中所覆蓋的基因座數量，從而減少配對相似性得分中符合與不相關樣本之間的總體區隔。

圖4A至圖4C顯示參數之間的關係。圖4A顯示用於選擇多型性基因座集之平均雜合性閾值(X軸；範圍 = 0.2至0.5)與多型性基因座數量(Y軸)之間的關係。圖4B顯示集之多型性基因座數量(Y軸)與不同讀取深度時至少一讀數於兩個配對樣本中覆蓋之基因座平均數量(X軸)之間的關係。圖4C顯示在兩個配對樣本中覆蓋之基因座平均數量(X軸)與距離之間的關係，該距離係介於屬於相同細胞株(自身)之配對樣本對比屬於不同細胞株(不相關)之配對樣本的配對相似性得分(一致性)分佈之間，其計算為自身配對相似性得分分佈之第5個百分位數減去不相關配對相似性得分分佈之第95個百分位數，並在500,000個讀數至4,000,000個讀數之範圍內的不同讀取深度下進行。

圖4D至圖4F為針對更窄範圍之最小平均雜合性之相同類型分析的放大圖。範例 5- 親緣關係分析

在例如親緣關係等親緣之情況下，在樣本鑑定中出現甚至更困難的問題，例如母女之間共有一半的基因組。

在此使用案例中，為了評估根據本揭示內容之方法的效能，發明人藉由電腦模擬生成親緣樣本而模擬此案例，其係藉由混合(50%/50%)低通全基因組定序數據，其根據本方法從獲自數個(N=3)不同的不相關個體之單一白血球中獲得，藉此針對每一個體，在數據中編輯多型性基因座，以便僅報導針對該個體之一個檢測到的等位基因，從而將來自該個體之單倍體基因組貢獻模擬為「親緣」數據。從CellSave採血管(Menarini Silicon Biosystems)採集的周邊血液，接著以CELLSEARCH AutoPrep進行免疫磁性富集化，細胞以螢光抗體與DAPI之混合物進行染色，接著藉由DEPArray (Menarini Silicon Biosystems)分離CD45+、DAPI+單一細胞，並使用DRS-WGA (Ampli1 WGA，Menarini Silicon Biosystems)將全基因組擴增。WGA產物之等分試樣係用於從該等DRS-WGA之每一產物中製備大量平行定序文庫，其使用無片段化、定序轉接子/WGA融合引子PCR反應(Ampli1 LowPass kit for Illumina，Menarini Silicon Biosystems)。

為了避免偏差，來自每一單一細胞之定序數據僅使用一次(用於生成自身或親緣數據類型)。

圖5A至圖5D顯示相對於自身(母本)之親緣樣本與不相關樣本的分類效能。根據母本樣本計算之相似性得分的兩個可變閾值被用作分類器，以區分親緣樣本與自身和不相關樣本。親緣-自身閾值之值係設定在親緣相似性得分分佈之中位數至自身相似性得分分佈之中位數的範圍內。親緣-不相關閾值之值係設定在親緣相似性得分分佈之中位數至不相關相似性得分分佈之中位數的範圍內。讀數之數量持續維持在500,000個讀數。圖5A顯示在不同的最小平均雜合性(AvHet閾值)下，用於相對於自身母本之親緣樣本之分類的TPR值與1-PPV值隨著閾值變化。圖5B顯示在不同的最小平均雜合性(AvHet閾值)下，用於相對於不相關樣本之親緣樣本之分類的TPR值與1-PPV值隨著閾值變化。圖5C顯示獲得PPV為至少0.999及隨著最小平均雜合性之值的變化(X軸)而相應之TPR (主要Y軸)所需的親緣-自身相似性得分閾值(灰色實線；次要Y軸)。圖5D顯示獲得PPV為至少0.999及隨著最小平均雜合性之值的變化(X軸)而相應之TPR (主要Y軸)所需的親緣-自身相似性得分閾值(灰色實線；次要Y軸)。圖中顯示針對親緣-自身分類使用0.2至0.495之平均雜合性閾值及針對親緣-不相關分類使用0.2至0.48而選擇的SNP集所獲得的高靈敏度(TPR ≥ 0.99)，其中靈敏度值迅速下降超過彼等值。範例 6

圖6顯示自身(母本)、親緣及不相關樣本之配對相似性得分分佈，其根據母本樣本計算一致性，作為最小平均雜合性之函數(範圍 = 0.2至0.498)。讀數之數量持續維持在500,000個讀數。用於將親緣樣本與自身母本樣本和不相關樣本分類的相似性得分閾值(其中PPV為至少0.999)分別顯示為虛線與點虛線。

據此，在一較佳之實施例中，LPWGS數據被二次採樣為500k單一讀數，多型性基因座之最小平均雜合性在[0.2；0.49]之範圍內選擇，且親緣-自身之相似性得分閾值在[0.73；0.79]之範圍內選擇，而親緣-不相關則為[0.62；0.7]，其用作如上述計算之相似性得分「一致性」。複數個多型性基因座較佳為包含獲自數據庫(例如，dbSNP)之基因座。較佳地，該複數個多型性基因座包含＞ 200.000、300.000、500.000或1.000.000個具有最高平均雜合性之基因座。叢集

在一較佳之實施例中，根據本揭示內容之方法進一步包含界定一組樣本叢集之步驟，該叢集共享共同屬性，例如實質上貢獻DNA予叢集樣本之一個個體(或多個個體)的身份識別，或含有不足量之DNA的屬性及/或含有高度降解之DNA或不確定來源之DNA的屬性。該至少兩個樣本較佳為透過使用該相似性得分及其他品質指標之分類器而被指定至至少一叢集。範例 7- 基於胎兒循環細胞應用於非侵入式產前診斷。

在一較佳之實施例中，至少一參考叢集由來自懷孕母本個體之樣本組成。該「參考樣本」可從用於提取胎兒細胞之相同的富集化體液中分離母系細胞或藉由另一母系DNA來源收集。在母系體液由周邊血液組成之情況下，可收集母系標記物陽性及胎兒標記物陰性之有核細胞以作為參考體。

較佳地，該身份識別叢集之群組可進一步含有至少一親緣叢集，該親緣叢集由來自該母本個體妊娠中之至少一胎兒的樣本組成。該樣本較佳為被鑑定為具有與參考母本之親緣關係一致之配對相似性得分的該等。

該親緣叢集較佳為進一步被劃分為複數個由來自僅一個且相同胎兒之DNA樣本組成的胎兒叢集。

屬於相同胎兒之樣本被辨識為具有與相對於彼此之自身之分類一致的配對距離得分。具有與相對於其他親緣細胞之親緣關係一致之配對距離得分的其他親緣細胞係置於不同劃分中，係因屬於不同胎兒。

圖7表示檢測雙胎妊娠之方法。胎兒細胞之所有配對預測，由與母系對照之「親緣」關係描述，係用作圖形叢集化演算法之輸入值，以找到胎兒細胞的「群落」。

在適用於非侵入式產前診斷內容之另一實施例中，藉由觀察關於預期之「自身」類型DNA與「親緣」類型DNA之配對相似性得分中間值而檢測與母系細胞混合的循環胎兒細胞。事實上，母系細胞與標靶胎兒細胞之共同分離可能由於分選過程中的不精確性而意外發生(由於選擇欲分離之細胞或由於分離過程，或兩者)。母系細胞與標靶胎兒細胞之共同分離亦可能非偶然發生，係因若可用的非混合與純的胎兒細胞樣本太少，則不論如何分析額外的混合樣本而非將其丟棄可能有益。

取決於分析之類型，若檢驗之靈敏度未明顯失效，則仍可接受兩種細胞(一為胎兒且一為母系)的混合。此可為，例如，當使用足夠數量之讀數分析整個染色體非整倍體時之情況。在藉由施加特定污染因子之分析期間，考慮污染因素可能有利，係因其在某些生物資訊學管道中可用，例如ControlFreec (Boeva, V.等人，Bioinformatics 2012 Feb 1;28(3):423-5)，從而維持足夠的靈敏度。

在一較佳之實施例中，在母系血液中循環之該胎兒細胞為(i) 滋養層，(ii) 紅血球母細胞或(iii) 兩種類型。範例 8- 鑑定來自母系血液之循環胎兒紅血球母細胞。

首先使用ficoll梯度(密度1.107g/ml)從母系血液中分離出有核細胞，並藉由CD45/CD15/CD14免疫磁性耗乏不需要的母系細胞而富集化胎兒紅血球母細胞(有核紅血球)，其使用來自Miltenyi之磁性活化細胞分選(Magnetic Activated Cell Sorting，MACS)。

富集化之細胞以下列方式固定 (A) 聚甲醛(PFA) 4% ，在室溫下30’，或 (B) PFA 4%，在37°下60’，接著0.05%戊二醛，在室溫下30”

第二種固定，產生較強的交聯，並可能有助於將標靶血紅素固定在細胞內，然而，會阻礙DNA擴增。

在固定之後，細胞以抗γ-血紅素-FITC (作為胎兒細胞標記物)與DAPI進行染色，以染色細胞核中之DNA。

推定之胎兒細胞藉由DEPArray™被分選為單一細胞，或與恰巧共同位於相同介電電泳籠中之額外的母系污染細胞一起被分選。細胞回收物(不論是否為單一的或污染的)以Ampli1 WGA套組(Menarini Silicon Biosystems S.p.A.)進行擴增，該套組實施根據本揭示內容之DRS-WGA方法。

Ampli1 WGA初級PCR產物之等分試樣(1ul)係用於微衛星分析，其中多重PCR用於擴增下列基因座：D21S1435、D21S11、HPRT、SRY、D21S1413、D21S1411、D18S535、D13S317、D21S2039、D13S631、D21S1442，接著在ABI Prism 310 (Applied Biosystems)上使用毛細管電泳進行片段分析。使用「較弱」固定規程 -上述選項(A)-平均回收56%之預期等位基因(範圍為30%至90%)。平均找到3.2個資訊等位基因，其定義為藉由分析絨膜絨毛樣本(CVS)所獲得的母親與胎兒參考剖析之間沒有共同等位基因。

使用「較強」固定程序 -上述選項(B)- 平均回收僅28%之預期等位基因(範圍為6%至68%)，亦即該等之約半數以較弱固定方式回收。換言之，由於較強的固定(B)，獲得的平均等位基因丟失率為72%。相應地，平均僅找到1.7個資訊等位基因，亦包括具有母系與胎兒資訊等位基因的混合樣本(BO1368B_4、BO1368B_6)，從而具有兩個細胞且起始DNA模板的量加倍。的確，4個單一細胞樣本(BO1368B_3、BO1368B_5、BO1368B_9、BO1368B_12)在上述STR多重分析中具有0個資訊等位基因。其等之前三者僅由於使用進一步之STR基因座的額外分析而得到解決，該分析未能提供將樣本BO1368B_12分類的資訊，其仍為「未知」來源。

因此，顯然，儘管其提供更多的胎兒紅血球母細胞，但較強的固定(例如，PFA 4%，在37°下60’，接著0.05%戊二醛，在室溫下30”)增加等位基因丟失並降低STR檢出率，從而嚴重影響樣本分類為母系、胎兒或混合樣本。

相反地，使用Ampli1 LowPass套組從WGA產物之另一等分試樣製備大量定序文庫，並使用根據本揭示內容之方法分析數據，有可能自信地指定每一樣本，如下列之進一步詳細描述，即使此類樣本具有非常高的等位基因丟失率。

圖8顯示在來自2個樣本之紅血球母細胞回收物中之平均配對相似性得分的分佈，，其根據母本樣本計算。圖中顯示，親緣-自身閾值分類器區分親緣回收物(灰點)與懷孕母本個體細胞回收物(淺灰點)。然而，分類器無法區分親緣回收物與混合的細胞回收物(黑點)。

在一較佳之實施例中，樣本之叢集化包括基於相似性運算輪廓得分，以界定叢集之數量。有利地，可基於在包含母系細胞與胎兒細胞之一組樣本中的輪廓得分分佈，藉由使用固定閾值(較佳為0.205)而進一步劃分叢集，其中配對相似性得分呈現出兩個不同的相似性水平，以區分混合的胎兒-母系樣本(與胎兒或母系樣本)。在一較佳之實施例中，該固定閾值在[0.19至0.21]之範圍內。

藉此方式，混合的母系-胎兒細胞可被鑑定為不同於自身(母系)與親緣(胎兒)亞群體的叢集。範例 9

圖9A至圖9C顯示來自樣本BO1368之細胞回收物之基於叢集化的分類。母系細胞樣本(BO1368_MC)與絨膜絨毛樣本(BO1368_CVS)被包括以作為參考體。圖9A顯示不同叢集數量之平均輪廓得分，其用作配對相似性得分之叢集化的輸入值，其顯示2個叢集的最高得分。圖9B顯示兩個叢集中之每一回收物之個別輪廓得分分析，其顯示在叢集#0中之2個回收物，相應於混合的細胞回收物，具有接近0的得分，表示其等非常接近兩個相鄰叢集之間的決策邊界；藉由設定固定的最小輪廓得分閾值(0.205)，有可能區分2個混合的胎兒-母系細胞回收物，從而指定至第三個獨立叢集。圖9C顯示熱圖，所有17個細胞回收物之間的相似性得分以灰色陰影顯示，其中顏色越深表示相似性越高；叢集由行與列顏色標籤標記。範例 10

圖10A至圖10C顯示來自樣本BO1383之細胞回收物之基於叢集化的分類。母系細胞樣本(BO1383_MC)被包括以作為參考體。圖10A顯示不同叢集數量之平均輪廓得分，其用作配對相似性得分之叢集化的輸入值，其顯示2個叢集的最高得分。圖10B顯示兩個叢集中之每一回收物之個別輪廓得分分析，其顯示在叢集#0中之2個回收物，相應於混合的細胞回收物，具有接近0的得分，表示其等非常接近兩個相鄰叢集之間的決策邊界；藉由設定固定的最小輪廓得分閾值(0.205)，有可能區分2個混合的胎兒-母系細胞回收物，從而指定至第三個獨立叢集。圖10C顯示熱圖，所有8個細胞回收物之間的相似性得分以灰色陰影顯示，其中顏色越深表示相似性越高；叢集由行與列顏色標籤標記。 範例11- 應用於基於胎兒循環細胞之非侵入式產前親子鑑定。

在本揭示內容之另一實施例中，除了母系樣本以外，亦可獲得父本樣本(父系樣本)，並可應用親緣關係分析，反過來亦使用父本樣本作為參考體。與相對於父系參考樣本之「親緣」類型DNA一致之配對相似性得分確認了胎兒的父子關係。或者，若胎兒樣本(亦即，確認為胎兒，係因歸類為相對於母本參考樣本之親緣)之配對相似性得分與使用父本樣本之「不相關」類型DNA的一致，則該結果反駁親子關係。範例 12- 應用於胎塊性妊娠。

在本揭示內容之另一實施例中，從母系血液中富集化至少一種推定的循環胎兒滋養層細胞。比較滋養層細胞樣本與母系參考樣本，且與「不相關」類型DNA一致之配對相似性得分表示可能的完全性胎塊(或實驗室污染/樣本調換)。若分離出超過一種循環滋養層細胞樣本，則該等樣本中之配對相似性得分的比較可用於研究胎塊的基因型。若配對距離明顯超過「自身」類型之配對樣本的預期值，則確認為P1P1同型合子父系胎塊，係因多型性基因座之所有比較皆相同，除了罕見的定序誤差(或甚至更罕見的WGA擴增誤差)之外，其可能偶爾發生在相應於所檢查之多型性基因座的相同基因組位置中。或者，在一些多型性基因座中存在具有雜合性之P1P2胎塊時，在不同滋養層樣本中觀察到的配對相似性值為在「自身」類型之配對樣本的預期範圍內。在後面的P1P2胎塊案例中，若父系DNA樣本可得，則與相對於父系參考樣本之「自身」類型DNA一致之滋養層樣本的配對距離得分可用於區分胎塊性妊娠與實驗室污染或樣本調換。範例 13- 應用於單一細胞鑑識與人類鑑定。

在一較佳之實施例中，該至少一參考叢集由含有來自相應於鑑識調查中受害者之僅一個且相同個體之DNA的樣本組成，其進一步包含界定至少一加害者叢集，其包括含有來自不同於受害者之僅一個且相同個體之DNA的樣本。

若樣本具有與受害者樣本之「不相關」關係一致的配對距離得分，且與屬於相同加害者叢集之其他樣本具有「自身」關係，則將樣本指定至加害者叢集。每當一個新樣本與已屬於其他加害者-叢集之受害者與加害者「不相關」一致時，則界定一個新的加害者叢集。

或者，使用基於輪廓得分之叢集化演算法，如在非侵入式產前診斷應用情況中之詳述，可用於將每一個體樣本指定至同質性叢集。

有利地，在法醫鑑定之情況下，具有與「親緣」關係一致之配對距離得分的樣本(如藉由非侵入式產前診斷-NIPD-類型之分析而獲得)可解釋為「混合樣本」，係因其等可能含有來自兩個不相關個體(受害者與加害者，或不同加害者)的DNA，類似於NIPD應用中之「親緣」樣本的情況，其含有來自一個母本與一個不相關父本的DNA。

有利地，藉由相同低通全基因組定序數據而獲得的性染色體拷貝數資訊可用於基於精化之配對距離得分而進一步精化及/或確認類別。

在受害者與加害者之間性別不匹配的情況下，如同在性侵犯證據中常見的，染色體X與Y上的拷貝數資訊可有助於報告樣本類別為受害者或加害者。

在另一較佳之實施例中，該至少一參考叢集由含有來自相應於鑑識調查中之疑似加害者的僅一個且相同個體之DNA的樣本組成，其進一步包含界定至少一加害者-叢集，其包括含有來自僅一個且相同個體之DNA的樣本。

在另一較佳之實施例中，根據本方法分析由具有多個DNA貢獻者之混合鑑識證據所獲得的複數個樣本，每一樣本含有一或多個細胞，其進一步包含界定至少一加害者-叢集，其包括含有來自僅一個且相同個體之DNA的樣本。

在一較佳之實施例中，將來自複數個樣本之DRS-WGA等分試樣混合在一起，每一樣本皆屬於該至少一加害者-叢集，從而針對每一叢集產生相應之單一個體WGA-DNA樣本，從而使得能對該單一個體WGA-DNA樣本進行進一步DNA分析。此方法之優勢在於，發生在單一細胞樣本中之潛在隨機等位基因丟失係由來自其他個別細胞之訊號補充，從而產生更完整的輪廓。當來自個體之每一單一細胞樣本的DNA被強烈降解時，此方法特別有利。此特別可能發生在寒冷之情況下，尤其是當證據已被儲存在室溫下時，或者來自受害者之組織樣本已被固定在福馬林中並包埋在石蠟中備用的情況。

另一較佳實施例，包含從屬於每一該至少一加害者-叢集之複數個樣本將至少一檢驗類型之基因分析數據進行叢集式合併，針對每一該至少一加害者-叢集產生相應之單一個體WGA-DNA數據。

在一較佳之實施例中，該至少一檢驗類型係選自於由下列組成之群組： a) 微衛星分析； b) 單核苷酸多型性分析； c) 大量平行標靶定序； d) 全基因組定序。

圖11A及圖11B顯示與具有最大50%之自身樣本成分之不相關樣本相關之個體樣本的分類效能。基於配對相似性得分之可變閾值的分類器係用於區分來自個體之樣本與混合的樣本。閾值之值係設定在「自身」相似性得分分佈之中位數至「混合」相似性得分分佈之中位數的範圍內。讀數之數量持續維持在500,000個讀數。A) 在不同的平均雜合性(AvHet閾值)下，分類器之TPR值與1-PPV值隨著閾值變化。B) 獲得PPV為至少0.999及相應之TPR (主要Y軸)所需的配對相似性得分閾值(灰色實線；次要Y軸)，作為平均雜合性(X軸)之函數。圖中顯示針對親緣-自身分類使用0.2至0.495之平均雜合性閾值及針對自身-混合分類使用0.2至0.48而選擇的SNP集所獲得的高靈敏度(TPR ≥ 0.99)，其中靈敏度值迅速下降超過彼等值。

圖12顯示針對來自相同個體之配對樣本(自身)、針對其中一個樣本含有50%成分來自如同其他樣本之相同個體的配對樣本(混合_1/2)、針對其中一個樣本含有1/3 (33%)之如同「自身」之相同個體及66%成分來自如同其他樣本之相同個體的配對樣本(混合_1/3)、針對屬於不同個體的配對樣本(不相關)所計算的配對相似性得分分佈(一致性)，作為平均雜合性之函數(範圍 = 0.2至0.499)。讀數之數量持續維持在500,000個讀數。基於配對相似性得分之分類器顯示為虛線。

上面使用的術語加害者與受害者係旨在僅作為指導及協助理解。顯然，就本領域普通技術人員而言，在不脫離本揭示內容之情況下，上述方法亦適用於其他人類鑑定之設定，例如災難中受害者個體的鑑定，其中叢集之意義僅在於使加害者重新換成不同的任意名稱。範例 14- 在腫瘤學實驗室工作流程中應用樣本鑑定。

在另一較佳之實施例中，根據本揭示內容之方法係用於匹配屬於相同患者之樣本，並檢測可能的樣本調換，或來自屬於不同患者樣本之可能的交叉污染。舉例而言，此在處理單一細胞FFPE樣本時可能特別有益。事實上，由於固定引起的DNA損傷，欲從FFPE中提取之單一細胞(或細胞核)中得到詳盡的基因組資訊將非常困難。STR或甚至SNP之標靶定序可能不切實際。然而，使用根據本揭示內容之方法，仍有可能區分樣本。

圖13A至圖13C顯示根據個體身份識別將來自FFPE樣本之單一細胞回收物分類。單一細胞WGA產物之獲得係詳述於Mangano C.等人，“Precise detection of genomic imbalances at single-cell resolution reveals intra-patient heterogeneity in Hodgkin’s lymphoma”, Blood Cancer Journal，第9卷，文章編號：92 (2019)中。圖13A顯示群蜂圖，其顯示屬於相同個體(自身)或不同個體(不相關)之配對樣本的配對相似性得分。根據全基因組拷貝數訊號DLRS (X軸)將數據分池，其中低DLRS相應於具有DLRS ＜ 0.4的配對樣本，表示低訊噪，而高DLRS相應於配對中之樣本之至少一者顯示DLRS ≥ 0.4的配對樣本，表示高訊噪。針對兩種池，圖中顯示在配對相似性得分方面，自身與不相關樣本之間明顯區隔。圖13B顯示針對不同叢集數量之平均輪廓得分，用作配對相似性得分之KMeans叢集化的輸入值，其顯示4個叢集的最高得分。圖13C顯示熱圖，所有17個細胞回收物之間的配對相似性得分以灰色陰影顯示，其中顏色越深表示相似性越高；叢集由行與列顏色標籤標記；針對視覺化目的，行與列係利用基於歐幾里德距離之階層式叢集排序。範例 15- 樣本鑑定在植入前基因篩檢(PGS)中之應用。

在另一較佳之實施例中，根據本揭示內容之方法係用於分析由無細胞用過的胚胎培養基衍生的樣本。如本領域中已知，評估胚胎而優先考慮植入以增加攝入率及程序成功率是有益的。基於無細胞用過的培養基之技術具有吸引力，係因其等簡化工作流程，且對發育中之胚胎的侵入性可能更小。然而，據報導，培養基中母系DNA之污染顯示會損害PGS在檢測胎兒中非整倍體時的分辨率。

在本申請案上下文中之本揭示內容的實施例中，母系參考體係用作「自身」(母本)的參考體。根據本揭示內容運算具有無細胞用過的胚胎培養基樣本的配對相似性得分。該配對相似性得分係用於估計與胚胎DNA相關之來自母系DNA的污染。與母系參考體相關之低於或等於「親緣」類型DNA之預期中位數值的配對相似性得分係用於假設胚胎DNA之純度為100%。與母系參考體相關之等於或高於「自身」類型DNA之預期中位數值的配對相似性得分係用於假設無細胞樣本中胚胎DNA (所有母系DNA)之純度為0%。配對相似性之中間值表示來自母系DNA之污染程度。此污染值可用作基於相同低通全基因組定序數據之全基因組拷貝數剖析分析中的輸入值，以補償由於源自正常二倍體母系基因組之混合訊號而導致的潛在拷貝數訊號稀釋，該拷貝數訊號源於胚胎之潛在非整倍體或子染色體拷貝數變異。藉此方式，由於補償，拷貝數檢出器之靈敏度受訊號稀釋的影響較小。此外，污染值可用於評估樣本是否適合可靠地檢測一給定大小之拷貝數變化，係因二倍體母系背景之程度可損害子染色體CNV的檢測，例如微缺失。

圖14顯示藉由電腦模擬混合來自單一胎兒細胞之不同比例的DNA序列與來自母系細胞的序列而進行模擬。實線相應於在不同胎兒輸入百分比時之平均配對相似性得分。陰影區域相應於95%信賴區間。虛線顯示混合樣本之範例，其具有已知百分比之母系成分(80%)及具有母系參考 = 0.807之配對相似性得分，根據模型之平均預測胎兒成分 = 27.7% (C.I.= 25.4%至30.7%)，相應於估計之母系DNA污染 ≈ 75%。

圖15A及圖15B顯示藉由電腦模擬混合來自單一胎兒細胞之不同比例的DNA序列(20%)與來自母系細胞的序列(80%)而獲得的混合樣本之全基因組拷貝數剖析。圖15A顯示全基因組拷貝數剖析；每個點相應於10Mbp基因組池。圖15B顯示在施加校正因子 = 0.75之後的全基因組拷貝數，其係基於根據母系參考體之配對相似性得分而估計的母系DNA污染百分比。統計學上之顯著變化以實心黑線顯示。

類似之方法亦可用於游離DNA或侵入式產前樣本，以分別確定胎兒分數及污染，其使用的參考體包含針對游離DNA之血漿白血球、母系蛻膜、口腔拭子或血液。範例 16- 應用於細胞株鑑定中之樣本鑑定。

在另一較佳之實施例中，根據本揭示內容之方法係用於鑑定研究實驗室中使用的細胞株。

在此實施例中，首先建立一個參考數據庫，其從所有參考細胞株類型收集根據本方法之基線低通WGS數據，以便使用來自此參考數據庫之數據鑑定待測細胞株。

在此應用之一較佳之實施例中，起始樣本較佳係選自於由下列組成之群組：(i) 細胞池或(ii) 從細胞池中提取之DNA。

藉此： - 針對純細胞株之參考樣本，獲得細胞株之平均綜合輪廓，其最好地總結與細胞異質性相關的多樣性； - 此外，針對待測樣本，可能觀察到來自另一細胞株的潛在污染。基於重複檢驗中之相似性得分分佈的閾值，由於某一信賴程度，可用於檢出污染，若該相似性得分低於該最小閾值。此外，使用與上述應用於植入前基因篩檢所報導的類似方法，可能獲得污染量的間接測量值，其比較了觀察到的待測樣本的相似性得分與代表預期相似性得分的校準曲線，作為另一個通用「不相關」樣本對純粹「自身」之污染的函數。

該池中之細胞數量較佳為在[50至1.500]之範圍內。下限值50提供代表基因組異質性的最小多樣性(若存在)。此外，在待測樣本中，此下限值適用於檢測來自另一具有更高靈敏度之細胞株的潛在污染，係因低水平之污染(例如，10%)可能完全無法在較低細胞數量之細胞池中呈現，或不論如何會導致樣本中與群體中之實際百分比相關之次要污染物的代表性不足，從而在檢測該污染時潛在地降低整體靈敏度。上限值1500 (亦即，相當於10ng)較佳為可確保良好的WGA擴增而無抑制，當直接從無DNA純化之細胞開始時，可能會發生輸入DNA時的WGA反應過載或整個細胞裂解物的抑制作用。範例 17- 應用於同種異體造血細胞移植。

在另一較佳之實施例中，根據本揭示內容之方法係用於評估同種異體造血細胞移植(allo-HSCT)患者的內皮細胞來源。

在本揭示內容之一較佳之實施例中，個體內皮細胞之分離係以下列方式進行 1. FFPE切片，在解聚後，以內皮細胞標記物(例如，CD146)染色，並例如以DEPArray™進行單一細胞分選。 2. 周邊血液，在富集化後，使用細胞EARCH ^®AutoPrep及CEC套組將循環內皮細胞(CEC)染色，並例如以DEPArray™進行單一細胞分選。

提供第一個參考樣本，其包含來自宿主的生殖系DNA。分離來自患者的單一內皮細胞，並評估其等與參考宿主樣本的相似性得分。若待測細胞被歸類為自身，則意指其被確認為宿主來源，而若被歸類為不相關，則被歸類為屬於不相關的供體。

若供體藉由親緣關係與宿主相關聯，則本方法之應用亦可使用親緣關係分析以鑑定供體細胞。

此外，若供體生殖系DNA樣本可得，則可生成第二個參考樣本，作為分類之確認。 應用於不同應用之額外一般細節及考量DRS-WGA中基因座與片段長度單義關係

更詳細地，根據本揭示內容之方法利用一事實，即在DRS-WGA (例如，Ampli1™ WGA)中，基因組中之每一基因座在WGA文庫中僅被表示在具有特定鹼基對長度之片段中。此屬性可被指定為「基因座與片段長度單義關係」(L2FLUR)。考量一般正常的基因座(例如，多型性SNP之基因座)，該基因座將僅被表示在一給定長度之片段中，等於藉由限制酶消化後之相應片段的大小(在任一單鏈上測量)，加上兩倍的通用WGA轉接子長度(在Ampli1 WGA之情況下，LIB1引子之長度)。當根據Ampli1 LowPass套組在文庫製備後進行WGA定序時，一段可預測之額外長度被導入而連接至定序轉接子及條碼化片段(其等為已知)。基因組之再現性及還原表示

在根據本揭示內容之方法中，利用DRS-WGA與隨機無片段化文庫製備結合之屬性產生基因組的還原表示(與樣本參考基因組之原始大小相關)，藉此針對一給定讀數數量之低通定序數據，增加覆蓋不同樣本中相同片段的機率，其與WGA (例如，與使用多重置換擴增(Multiple Displacement Amplification)或DOP-PCR之WGA方法一樣)及/或定序文庫製備(例如，藉由隨機片段化或酶切法片段化(tagmentation))中之固有隨機過程相關。

換言之，發生參考基因組之確定性次取樣。術語「確定性」是必需的，係因針對任何給定讀數數量，覆蓋任何兩個配對樣本之基因組基因座的重疊更高，從而增加可用於測量該等樣本之DNA相似性的高度多型性基因座之數量。

值得注意的是，該方法具有靈活性，係因取決於所需之分辨率及/或所使用之定序平台與定序程序，可能適用不同的確定性酵素。舉例而言，可能使用不同的常用切割酵素。在Ampli1 WGA之範例中，TTAA模體為限制酶位點。其他四鹼基切割酵素可用於在不同的限制酶位點上切割，例如GTAC、CTAG，以獲得不同的片段分佈，允許針對一給定之讀數數量調整不同樣本中共有基因座的數量。

當DRS-WGA在初次PCR後首次純化時，會發生第一次大小選擇，藉此WGA之較短片段與游離引子一起被移除。有利地，本方法使用進一步之選擇步驟。此額外的選擇步驟可藉由從主要WGA中選擇某些片段大小及/或藉由一種限制可定序片段之方法生成大量平行定序文庫而達成。舉例而言，Ampli1 LowPass套組包含固有大小選擇步驟，其足以對過程產生正向影響。在WO2017/178655中，在凝膠上進行大小選擇。在WO2019/016401中，使用SPRI-珠粒之連續純化步驟有效地產生第一次大小選擇，藉此鹼基對之長度被侷限在實質上取決於SPRI-珠粒濃度的範圍內。此外，定序儀本身亦可能導入大小選擇，係因較長的片段會生成效率越來越低的序列數據(例如，由於Ion Torrent平台中之乳液PCR效率，或Illumina平台中用於叢集形成的橋式PCR)。

在DRS-WGA中，定序文庫之平均大小與參考基因組之次取樣比率之間亦有確定性關係。

對人類參考基因組hg19之TTAA消化物進行電腦模擬分析，產生總共約19M個片段，包括所有的染色體序列，其將轉化為正常二倍體人類基因組上的38M個片段。舉例而言，以電腦模擬選擇175至225bp範圍內之片段將僅有1,252,559個，涵蓋3.09B個鹼基中之大約共248M個鹼基，亦即人類參考基因組的8.02%。參見下表1，其中針對不同範圍之大小選擇而列出片段數量、總鹼基對及還原率(%)。此類次取樣可稱為還原率(RR)。表1 取決於片段大小選擇之還原率

範圍	片段數量	總鹼基對	還原率
75-125	3,057,163	298,483,600	9.64
175-225	1,252,559	248,367,191	8.02
275-325	703,011	210,389,610	6.80
375-425	390,419	155,603,924	5.03
475-525	217,861	108,653,407	3.51
725-775	68,581	51,428,399	1.66
975-1025	24,091	24,070,638	0.78

在本揭示內容之一較佳之實施例中，目標為在跨樣本之配對相似度得分中獲得良好的分辨率。為了增加每一樣本可得之給定讀數數量的分辨率(與每一樣本之定序成本相關)，任何兩個樣本之間覆蓋之鹼基對的重疊皆相關，係因僅兩樣本中覆蓋之區域被比較。因此，增加定序片段之鹼基對範圍可能有助於減少片段的多樣性，其增加不同樣本之間的重疊。

然而，取決於應用，存在取捨。在本揭示內容之某些實施例中，除了鑑定樣本之DNA來源之外，低通全基因組定序數據亦具有生成樣本自身之全基因組拷貝數剖析的雙重目的，係因其為NIPD應用或胚胎之無細胞用過的培養基的情況。

在此情況下，寬度相似但以較短片段為中心之片段範圍增加了多樣性，並可為拷貝數檢出器產生更好的結果及分辨率，係因在給定之基因組窗中有更多有助於讀數計數的片段數量。片段之大小選擇

不同的大小選擇技術亦可用於達成所需之還原率，其取決於每一樣本之所選定序讀數數量及/或分辨率。針對一給定之平均片段長度，選擇以該平均片段長度為中心之分別地更小或更大的範圍，可獲得更小或更大數量的總片段。

Pipping prep (Sage Science)之類的儀器可用於對片段長度分佈具有更嚴格的控制，其使用類比帶通濾波器，亦具有較高的Q因子，其定義為 Q=Fcenter/DeltaF = [(Fmin+FMAX)/2]/(FMAX-Fmin) 其中 Fcenter = (Fmin+FMAX)/2為片段之平均大小 DeltaF = FMAX-Fmin為片段大小範圍之寬度

Fmin為片段大小，關於每一池之標準化、範圍內、峰值片段數量，低於該片段者以常規相對水平(例如，1/10=10%)或更低表示。

FMAX為片段大小，關於每一池之標準化、範圍內、峰值片段數量，高於該片段者以相同常規相對水平或更低表示。

針對Illumina定序，定序模式較佳為雙端定序(paired-end sequencing)，係因覆蓋之基因組增加，從而每百萬讀取對之基因座數量增加，其增加分辨率。然而，當選擇的定序大小低於某個大小時，雙端定序將無法增加覆蓋深度，係因兩個配對讀數完全重疊。

針對Ion Torrent定序，更高的讀取長度將成比例地增加覆蓋之基因組，因此每百萬讀數之基因座數量增加，其增加分辨率。在Ampli1 LowPass IonTorrent套組(Menarini Silicon Biosystems)中，條碼化匯集樣本經大小選擇，其係於凝膠上或使用Pippin Prep等其他方法進行。不同Q因子及平均片段長度之選擇可在每百萬讀數之基礎上提供不同的分辨率。

匯集樣本且隨後選擇文庫大小進行定序的一個優勢在於，所有樣本將具有相同的片段長度分佈，反過來此將最大化覆蓋之基因組在不同樣本之間的重疊，視需求提供更高數量的高度多型性基因座以用於比較。

另一方面，當以Ampli1 LowPass套組用於Illumina時，首先進行不同LowPass文庫的大小選擇，接著匯集，在跨不同樣本中獲得略微不同的大小選擇，從而減少不同樣本中之覆蓋基因組。

在文庫匯集後進行大小選擇，儘管並非標準規程所規定，但可用於增加跨樣本之重疊，其可能有利於基於對照之分析。

然而，重要的是，在跨不同樣本中定序之DRS-WGA片段的分佈之間存在重疊，係因片段分佈中之重疊減少可能會減少配對相似性得分評估中共有的多型性基因座數量，反過來降低本方法的分辨率。

根據本揭示內容，DRS-WGA與LPWGS之組合導致輸入樣本的還原表示。藉由使用NGS定序，此參考基因組之還原表示文庫，反過來縮小了所選的(或任何可定序的)鹼基對範圍內的覆蓋基因組，並獲得基於每一讀數之跨不同樣本中覆蓋基因組的有效高度重疊。

根據本揭示內容，視情況而定，可以不同方式利用此效應。

較佳地，從DRS-WGA製備文庫為揭示於WO2017/178655或WO2019/016401的方法之一。相似性得分閾值化及身份識別檢出

可選地，獲自先前步驟之相似性得分可被閾值化以界定樣本類別。在大多數情況下，可用於跨兩個樣本之比較的多型性基因座數量將在較高讀取深度時增加。為了允許使用預先運算之值進行相似性得分的閾值化，每一樣本中經映射之讀數的數量較佳為被標準化為固定的讀數數量。此類標準化係藉由隨機取樣讀數、映射至參考基因組而進行，直到達到所需之數量(較佳為含於100,000個映射讀數至10,000,000個映射讀數之範圍內)。

在本揭示內容之一較佳之實施例中，若相似性得分高於第一個選擇的閾值，則兩個樣本之間的「自身」關係被檢出。

在本揭示內容之一較佳之實施例中，若相似性得分低於第二個選擇的閾值，則兩個樣本之間的「不相關」關係被檢出。

在非侵入式產前診斷之應用中，若相似性得分含於第三個閾值(等於或低於該第一個閾值)與第四個閾值(等於或高於該第二個閾值)之間，則兩個樣本之間的「親緣」關係被檢出。

在法醫人類鑑定之應用中，若相似性得分含於第三個閾值閾值(等於或低於該第一個閾值)與第四個閾值(等於或高於該第二個閾值)之間，則兩個樣本之間的「混合」關係被檢出。依據義大利智慧財產權法之第170條之二(2)聲明

本揭示內容中使用之人類來源生物材料係依據適用的法律規定取得。

無

圖1顯示自身與不相關樣本之間的較高分辨率，其使用本揭示內容之方法，相對於本領域中已知之隨機片段化文庫製備，本方法涉及DRS-WGA，隨後為無片段化、定序轉接子/WGA融合引子PCR反應。

圖2顯示根據本揭示內容之基於最高雜合性將基因座數量增至300k多型性基因座對比NGScheckMate選擇21k SNP的效果：區分能力增加。

圖3A及圖3B顯示根據本揭示內容之不同方法計算屬於相同(自身)或不同(不相關)個體(使用細胞株)之配對樣本之相似性得分的分佈。在圖3A中，相關性係用作距離方法(NGSCheckMate之標準方法)。在圖3B中，一致性係用於評估樣本之相似性。詳細說明：若檢出之等位基因相同，則得分加1；若檢出之等位基因部分重疊(例如，若一個樣本具有2個等位基因，而另一個僅有1個)，則得分加0.5；若檢出之等位基因不同，則得分加0。隨後，將得分除以兩個相比較樣本中所覆蓋之等位基因的數量。

圖4A至圖4C及圖4D至圖4F顯示自身與不相關樣本之間的例如最小平均雜合性、讀數之數量及分離結果等參數之間的關係。

圖5A至圖5D顯示相對於自身母本之親緣樣本與不相關樣本在每一樣本讀數等於500,000個的分類性能。

圖6顯示自身(母本)、親緣及不相關樣本之配對相似性得分的分佈，其根據母本樣本計算一致性，作為最小平均雜合性之函數(範圍 = 0.2至0.498)。

圖7顯示一種檢測雙胎妊娠之方法的草圖。胎兒細胞之所有配對預測，由與母系對照之「親緣」關係描述，係用作圖形叢集化演算法之輸入值，以找到胎兒細胞的「群落」。

圖8顯示在從兩個個別母系樣本之周邊血液中分離的紅血球母細胞回收物中之平均配對相似性得分的分佈，其根據母本樣本計算。

圖9A至圖9C顯示來自樣本BO1368之細胞回收物之基於叢集化的分類。兩個混合細胞的輪廓得分遠低於胎兒細胞，並可用於區分其等與胎兒，並創建具有混合樣本的新叢集。

圖10A至圖10C顯示來自樣本BO1383之細胞回收物之基於叢集化的分類。

圖11A及圖11B顯示與具有最大50%之自身樣本成分之不相關樣本相關之個體樣本的分類效能。圖11A為一種「ROC型態」圖，其中針對親緣類別之TPR與1-PPV作為「協議」閾值之函數。圖11B顯示在不同AvHet處之TPR與PPV。已設定閾值(灰色)，以使ppv至少為99.9%。閾值在第二個y軸上以灰色呈現。

圖12顯示計算來自不同個體之具有各種污染程度之配對樣本之配對相似性得分(一致性)的分佈。

圖13A至圖13C顯示根據個體身份識別，來自FFPE樣本之單一細胞回收物的分類。來自4名患者之FFPE樣本(淋巴瘤)。500,000個讀數子樣本。基於一致性之協議。若一或兩名成員之DLRS ＞ 0.4，則其等之比較被標記為高DLRS (x軸)，且若兩名成員之DLRS ≤ 0.4，則為低DLRS。圖13C顯示叢集化正確地將所有FFPE樣本指定至相應於4個個體的4個不同叢集。

圖14顯示無細胞之用過的培養基的電腦模擬，其具有0 (100%胎兒)至90% (10%胎兒)之各種母系DNA污染程度，以及相關的相似性得分。特別是，本圖顯示藉由在電腦模擬中混合來自單一胎兒細胞之不同比例的DNA序列與來自母系細胞的序列而進行的仿真。實線相應於在不同胎兒輸入百分比下的平均配對相似性得分。陰影區域相應於95%信賴區間。虛線顯示混合樣本之範例，其中已知母系成分之百分比(80%)並具有母系參考 = 0.807之配對相似性得分，根據模型之平均預測胎兒成分 = 27.7% (C.I.= 25.4%至30.7%)，相應於估計之母系DNA污染 ≈ 75%。

圖15A及圖15B顯示在混合樣本之全基因組拷貝數分析中之補償污染的效果。特別是，本圖代表藉由電腦模擬混合來自單一胎兒細胞之不同比例的DNA序列(20%)與來自母系細胞的序列(80%)而獲得的混合樣本的全基因組拷貝數。圖15A顯示全基因組拷貝數剖析；每個點相應於10Mbp基因組池。圖15B顯示在施加校正因子 = 0.75之後的全基因組拷貝數，其係基於根據母系參考體之配對相似性得分而估計的母系DNA污染百分比。統計學上顯著變化以實心黑線顯示。

Claims

一種用於分析複數個包含基因組DNA的樣本中至少兩個樣本之相似程度的方法，該方法包含下列步驟： a) 提供複數個包含基因組DNA的樣本； b) 分別對每一樣本進行所述基因組DNA之確定性限制位點全基因組擴增(DRS-WGA)； c) 使用無片段化、定序轉接子/WGA融合引子PCR反應從所述DRS-WGA之每一產物製備大量平行定序文庫； d) 以＜ 1x之平均覆蓋深度對所述大量平行定序文庫進行低通全基因組定序； e) 與參考基因組比對步驟d)中獲得的每一樣本之讀數； f) 提取每一樣本在複數個多型性基因座處的等位基因內容物； g) 計算至少兩個樣本的配對相似性得分，作為在所述複數個基因座處測量之等位基因內容物的函數； h) 基於該相似性得分確定該至少兩個樣本的相似程度。
如請求項1之方法，其中所述低通全基因組定序係以＜ 0.01x之覆蓋度，較佳為以＜ 0.05x之覆蓋度，更佳為以＜ 0.1x之覆蓋度，甚至更佳為以＜ 0.5x之覆蓋度進行。
如請求項1或2之方法，其中所述複數個多型性基因座包含具有平均雜合性＞ 0.499，較佳為具有平均雜合性＞ 0.49，更佳為具有平均雜合性＞ 0.4，甚至更佳為具有平均雜合性＞ 0.3，最佳為具有平均雜合性＞ 0.2的多型性基因座。
如請求項1至3中任一項之方法，其中所述複數個多型性基因座包含＞ 200,000個基因座，較佳為＞ 300,000個基因座，更佳為＞ 500,000個基因座，甚至更佳為＞ 1,000,000個基因座。
如請求項1至4中任一項之方法，其中所述配對相似性得分係藉由運算該至少兩個樣本中由至少一讀數覆蓋之跨基因座之B等位基因頻率的相關性而計算。
如請求項1至4中任一項之方法，其中所述配對相似性得分係藉由運算兩個配對樣本中由至少一讀數覆蓋之跨基因座的平均一致性值而計算，其中每一基因座之一致性值被指定為下列各值之一： A1) 1，若檢出之等位基因相同；以及 B1) 0，若檢出之等位基因不同；或者 A2) 1，若檢出之等位基因相同； B2) 0，若檢出之等位基因完全不同；以及 C2) 0.5，若檢出之等位基因部分重疊。
如前述請求項中任一項之方法，其更包含界定一組共享共同屬性之樣本叢集，該共同屬性選自於由實質上貢獻DNA予叢集樣本之一個個體(或多個個體)的身份識別，或含有不足量之DNA的屬性及/或含有高度降解之DNA或不確定來源之DNA的屬性所組成之群組。
如請求項7之方法，其中該至少兩個樣本透過使用所述配對相似性得分作為輸入值之演算法被指定至至少一叢集。
如請求項8之方法，其中該演算法為階層式叢集演算法。
如請求項8之方法，其中所述叢集之數量係藉由以下來計算 a) 選擇一些將平均輪廓得分最大化的第一次迭代叢集； b) 針對所述第一次迭代叢集之每一者，運算屬於該第一次迭代叢集之所述樣本之每一者的輪廓得分，其中屬於具有輪廓得分低於含於0.19至0.21範圍內之固定閾值之叢集的樣本被指定至一新的叢集。
如請求項10之方法，其中所述叢集之群組包含一或多個身份識別叢集，其包括含有來自僅一個且相同個體之DNA的樣本。
如請求項11之方法，其中在更多身份識別叢集存在下，所述複數個身份識別叢集之基數相應於所述複數個樣本中個別DNA貢獻者的數量。
如請求項8至12中任一項之方法，其更包含界定一混合身份識別叢集之群組，所述混合身份識別叢集之每一者包括含有來自至少兩個個體之DNA的樣本。
如請求項13之方法，其更包含界定至少一無檢出叢集，其包括含有來自不確定來源之DNA的樣本。
如請求項8至14中任一項之方法，其中所述複數個樣本包含至少一參考樣本，且所述身份識別叢集之群組包括至少一參考叢集，其包含所述參考樣本。
如請求項15之方法，其中所述至少一參考樣本為來自一懷孕母本個體之樣本。
如請求項16之方法，其中所述身份識別叢集之群組更含有至少一個由來自所述母本個體之妊娠中之至少一胎兒之樣本所組成的親緣叢集。
如請求項17之方法，其中所述親緣叢集係劃分為複數個胎兒叢集，該胎兒叢集由含有來自僅一個且相同胎兒之DNA的樣本所組成。
如請求項15之方法，其中所述至少一參考叢集由含有來自相應於鑑識調查中受害者之僅一個且相同個體之DNA的樣本所組成，其更包含界定至少一個加害者-叢集，其包括含有來自不同於受害者之僅一個且相同個體之DNA的樣本。
如請求項19之方法，其包含將來自複數個屬於所述至少一加害者-叢集之每一者之樣本的DRS-WGA等分試樣叢集式混合，針對每一叢集產生相應之單一個體WGA-DNA樣本，以及對所述單一個體WGA-DNA樣本之至少一者進行進一步DNA分析。
如請求項19之方法，其包含將來自複數個屬於所述至少一加害者-叢集之每一者之樣本的至少一檢驗類型之基因分析數據叢集式合併，針對所述至少一加害者-叢集之每一者產生相應之單一個體WGA-DNA數據。
如請求項21之方法，其中所述檢驗類型係選自於由下列所組成之群組： a) 微衛星分析； b) 單核苷酸多型性分析； c) 大量平行標靶定序；以及 d) 全基因組定序。
如請求項1至15中任一項之方法，其中所述複數個樣本包含腫瘤及/或正常樣本。
如請求項1或15之方法，其中所述複數個樣本包括含有來自一母本個體之DNA的至少一參考樣本，且來自所述複數個樣本之至少一其他胚胎樣本係選自於由下列所組成之群組： a) 含有源自所述母本個體之胚胎之DNA的樣本；以及 b) 含有獲自所述母本個體之胚胎之用過的胚胎培養基之DNA的樣本。
如請求項24之方法，其更包含對所述胚胎進行植入前基因篩檢，其係藉由使用相應於對所述至少一其他胚胎樣本測量之母系污染的污染因子來分析來自所述至少一其他胚胎樣本之所述低通全基因組定序數據的全基因組染色體異常，作為來自所述母本個體樣本之所述至少一其他胚胎樣本之所述配對相似性的函數。
如請求項15之方法，其中所述複數個樣本包括含有來自一母本個體之DNA的至少一參考樣本，以及含有來自一游離DNA樣本之DNA的至少一其他樣本。
如請求項26之方法，其更包含對所述游離DNA樣本進行非侵入式產前檢驗，其係藉由使用相應於對所述至少一游離DNA樣本測量之胎兒分數(fetal fraction)的校正因子來分析來自所述至少一游離DNA樣本之所述低通全基因組定序數據的全基因組染色體異常，作為所述配對相似性與母本參考樣本之函數。
如請求項15之方法，其中所述複數個樣本包括含有來自一母本個體之DNA的至少一參考樣本，以及含有來自絨膜絨毛、羊水或受孕產物之DNA的至少一其他產前樣本。
如請求項28之方法，其更包含對所述產前樣本進行產前檢驗，其係藉由使用相應於對所述至少一產前樣本測量之母系或外源性污染的校正因子來分析來自所述至少一產前樣本之所述低通全基因組定序數據的全基因組染色體異常，作為所述配對相似性與母本參考樣本之函數。
如請求項15之方法，特別是針對細胞株鑑定，其中複數個參考叢集係由來自細胞株之複數個DNA樣本所生成，且所述身份識別叢集之群組更含有來自待鑑定之一細胞株的至少一樣本。
如請求項15之方法，特別是用於調查同種異體移植物，其中所述至少一參考叢集係由含有來自一經移植患者之生殖系DNA的樣本所組成，且所述身份識別叢集之群組更含有由來自所述經移植患者之同種異體供體之樣本所組成的一個供體叢集。
如請求項17之方法，特別是針對非侵入式親子鑑定，其中所述至少一參考樣本包括含有僅來自父本之DNA的一父本參考樣本，且所述至少一參考叢集更包含一包括父本樣本的一父本身份識別叢集，其中： (i) 若相對於該父本樣本之親緣樣本相似性得分與親緣關係的一致，則親子關係確認 (ii) 若相對於該父本樣本之親緣樣本相似性得分與不相關個體的一致，則親子關係未確認。
如請求項17之方法，特別是針對非侵入式胎塊性妊娠評估，其中所述至少一樣本包含至少一循環滋養層細胞樣本，且其中若相對於該母本樣本之所述滋養層細胞樣本相似性得分與不相關樣本的一致，則完全性胎塊確認。
如請求項33之方法，其中所述至少一樣本包含複數個滋養層細胞樣本，且其中： (i) 若所述滋養層細胞樣本之中的相似性得分超過自身樣本之預期相似性得分的預期第99百分位數，則P1P1同型合子父系胎塊確認； (ii) 若所述滋養層細胞樣本之中的相似性得分與自身樣本之預期相似性得分一致，則P1P2異型合子父系胎塊確認。
如請求項30之方法，其中所述至少一樣本更包含一父本樣本，且所述滋養層細胞樣本之中的相似性得分與自身樣本之預期相似性得分一致，其中： (i) 若相對於該父本樣本之所述滋養層細胞樣本相似性得分與自身樣本之預期相似性得分一致，則P1P2異型合子父系胎塊確認； (ii) 若相對於該父本樣本之所述滋養層細胞樣本相似性得分低於自身樣本之預期相似性得分的第1百分位數，則P1P2異型合子父系胎塊未確認。
如請求項1至6中任一項之方法，其更包含基於使用一機器學習分類器之預界定類別將選自於複數個樣本的樣本分類，其使用所述配對相似性得分作為輸入值。
如請求項36之方法，其中該機器學習分類器為一隨機樹林分類器。
如請求項36或37之方法，其中該機器學習分類器使用至少一值作為進一步輸入值，該值係由所述低通全基因組定序數據測得，其係選自於包含下列之群組： a) DLRS：導數對數比率展延(derivative log ratio spread)； b) R50：由50%之定序讀數覆蓋之WGA片段佔由至少一讀數覆蓋之總WGA片段的百分比； c) YFRAC：映射至Y染色體之讀數分數(fraction of reads)； a) 異常：相應於關於中位數細胞倍數體之增益或損失的基因組百分比； b) Chr13：13號染色體之倍數體； c) Chr18：18號染色體之倍數體； d) Chr21：21號染色體之倍數體； e) RSUM：與最近的整數拷貝數水平之平均絕對偏差，由中位數細胞倍數體之最高絕對偏差的拷貝數異常事件計算； f) Mix_得分：RSUM z得分，由中位數細胞倍數體之最高絕對偏差的拷貝數異常事件計算；以及 g) Deg_得分：小型損失事件之數量(＜ 10 Mbp，其在降解樣本中常見)。
如請求項36至38中任一項之方法，其中該樣本之至少一者為參考樣本。
如請求項39之方法，其中所述至少一參考樣本包含來自一懷孕母本個體之樣本。
如請求項40之方法，其中所述複數個樣本包含相對於該母本參考之至少一被歸類為「親緣」的樣本，代表來自所述母本個體之妊娠中的胎兒之樣本。
如請求項39之方法，其中所述至少一參考樣本為含有來自相應於鑑識調查中受害者之僅一個且相同個體之DNA的樣本，其更包含界定至少一單一加害者群組，由相對於該參考樣本之被歸類為「非自身」及相對於彼此之被歸類為「自身」的所有樣本表示，其包括含有來自不同於受害者之僅一個且相同個體之DNA的樣本。
如請求項42之方法，其包含將來自複數個屬於所述至少一單一加害者群組之每一者之樣本的DRS-WGA等分試樣分組混合，針對每一單一加害者群組產生相應之單一個體WGA-DNA樣本，並對所述單一個體WGA-DNA樣本之至少一者進行進一步DNA分析。
如請求項42之方法，其包含將來自複數個屬於所述至少一單一加害者群組之每一者之樣本的至少一檢驗類型之基因分析數據分組合併，針對所述至少一單一加害者群組之每一者產生相應之單一個體WGA-DNA數據。
如請求項36至39中任一項之方法，其中所述複數個樣本包含腫瘤及/或正常樣本。
如請求項36至39中任一項之方法，其中所述複數個樣本包括含有來自母本個體之DNA的至少一參考樣本，以及來自所述複數個樣本之相對於該母本參考之被歸類為「非自身」的至少一其他胚胎樣本，其係選自於由下列所組成之群組： a) 含有源自所述母本個體之胚胎之DNA的樣本；以及 b) 含有獲自所述母本個體之胚胎之用過的胚胎培養基之DNA的樣本。
如請求項46之方法，其更包含對所述胚胎進行植入前基因篩檢，其係藉由使用相應於對所述至少一其他胚胎樣本測量之母系污染的污染因子來分析來自所述至少一其他胚胎樣本之所述低通全基因組定序數據的全基因組染色體異常，作為來自所述母本個體樣本之所述至少一其他胚胎樣本之所述配對相似性的函數。
如請求項39之方法，其中複數個參考群組係由來自細胞株之複數個DNA樣本所生成，且所述複數個樣本更包含來自待鑑定之細胞株的至少一樣本。
如請求項39之方法，其中所述至少一參考群組包括含有來自經移植患者之生殖系DNA的樣本，且所述複數個樣本更含有一個供體樣本，其代表來自所述經移植患者之同種異體供體的至少一樣本。
如請求項41之方法，特別是針對非侵入式親子鑑定，其中所述至少一參考樣本更包括含有僅來自所述父本之DNA的父本參考樣本，且所述複數個樣本更包含下列樣本，其中： (i) 若其等相對於該父本參考樣本被歸類為「自身」，則親子關係確認 (ii) 若其等相對於該父本參考樣本被歸類為「不相關」，則親子關係未確認。
如請求項40之方法，特別是針對非侵入式胎塊性妊娠評估，其中所述至少一樣本包含至少一循環滋養層細胞樣本，且其中若相對於該母本參考所述滋養層細胞樣本被歸類為「不相關」，則父系起源之完全性水泡狀胎塊確認。
如請求項51之方法，其中所述至少一樣本包含複數個滋養層細胞樣本，其相對於彼此被歸類為「自身」，且其中： (i) 若其等之相似性得分超過「自身」樣本之預期相似性得分的預期第99百分位數，則父系起源之P1P1同型合子水泡狀胎塊確認； (ii) 若其等之相似性得分與「自身」樣本之預期相似性得分一致，則父系起源之P1P2異型合子水泡狀胎塊確認。
如請求項52之方法，其中所述至少一樣本更包含一父本樣本，其中所述父本樣本相對於所述複數個滋養層細胞樣本之至少一樣本被歸類為「自身」，且其中： (i) 若相對於該父本樣本之所述滋養層細胞樣本相似性得分與「自身」樣本之預期相似性得分一致，則父系起源之P1P2異型合子水泡狀胎塊確認； (ii) 若相對於該父本樣本之所述滋養層細胞樣本相似性得分低於「自身」樣本之預期相似性得分的第1百分位數，則父系起源之P1P2異型合子水泡狀胎塊未確認。