TW202401445A

TW202401445A - 鑑定台灣人族群親緣性的方法及其系統

Info

Publication number: TW202401445A
Application number: TW111122256A
Authority: TW
Inventors: 蔡輔仁; 劉鼎元; 林瑋德
Original assignee: 中國醫藥大學
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2024-01-01
Also published as: TWI807861B

Abstract

本發明提供一種鑑定台灣人族群親緣性的方法及其系統，所述方法包含取得參照基因組資料庫、進行提供核酸樣本步驟、進行核酸檢測步驟以及進行計算步驟。參照基因組資料庫包含複數個SNP位點和複數個次等位基因頻率。待提供主測核酸樣本與被測核酸樣本後，檢測主測核酸樣本和被測核酸樣本中對應各SNP位點之核苷酸組成。比對各SNP位點的核苷酸組成與相應的次等位基因頻率並計算得到一親緣機率，判定主檢測者和被檢測者的親緣性。藉此，建構專屬台灣人族群之高精準度且低成本的親緣性鑑定法。

Description

鑑定台灣人族群親緣性的方法及其系統

本發明提供一種鑑定親緣性的方法及其系統，尤其是一種鑑定台灣人族群親緣性的方法及其系統。

親子關係、親緣性測試和人類身分識別於法醫遺傳學、臨床醫學及社會問題領域都是很重要的應用手段。在過去的一個世紀裡，血型、紅血球抗原、人類白血球抗原、紅血球酶、血清蛋白和DNA分型已被開發並用於親緣性鑑定，而其中使用遺傳標記進行DNA分型是現今最廣泛的鑑定方式。目前，用於DNA分型之遺傳標記多為短片段重複序列(short tandem repeat, STR)，而STR的聚合酶鏈鎖反應(PCR)是現今最流行且成熟的技術。

雖然STR對人類DNA分型來說是相對穩定的遺傳標記技術，但仍存在一些應用上的缺陷，例如遺傳過程中基因座特異性突變率較高(10 ^-4~10 ^-2)、易受PCR過程所產生之DNA聚合酶錯配產物(stutter product)干擾、在降解程度較高的檢體材料中表現不佳。與之相比，單一核苷酸多型性（single nucleotide polymorphism, SNP）具有明顯較低的基因座特異性突變率(10 ^-7~10 ^-8)、PCR產物較短而不易產生DNA聚合酶錯配產物以及在染色體上的分布更加均勻(每1000個核苷酸中即會有1~10個SNP存在)的特性，是系統發育分析（Phylogenetic analysis）的理想遺傳標記。

此外，各SNP位點在各種族間具有其獨特之次等位基因頻率，故每個種族都應有屬於自己族群的SNP位點遺傳標記。台灣自古位於交通樞紐且歷史上與其他種族間交融頻繁，造就了台灣人族群豐富的基因多樣性，倘若在基因分型方法所使用之遺傳標記仍沿用全人類通用種族SNP進行親緣鑑定，不僅費力費時，且由於通用種族SNP在台灣族群中之次等位基因頻率較低，親緣鑑定的準確性也會降低。

有鑑於此，本發明提供一種鑑定台灣人族群親緣性的方法及其系統，所述鑑定台灣人族群親緣性的方法透過分析一台灣人全基因資料庫建立起專屬於台灣人族群的參考基因組資料庫，其中包含台灣人族群專屬且具有更高識別能力的遺傳標記，可省時省力且精確地判定主檢測者與被檢測者間親緣性鑑定結果。

本發明之一態樣是在提供一種鑑定台灣人族群親緣性的方法，包含以下步驟：取得一參照基因組資料庫、進行一提供核酸樣本步驟、進行一核酸檢測步驟以及進行一計算步驟。所述參照基因組資料庫藉由一生物信息計算程式分析一台灣人全基因組資料庫並建立一參照次等位基因頻率集合及一SNP位點組合，其中所述SNP位點組合包含複數個SNP位點，所述參照次等位基因頻率集合包含相對應所述SNP位點之複數個次等位基因頻率，所述SNP位點位於第1~22對染色體上，各SNP位點之基因缺失率小於0.1，且經連鎖不平衡裁切後各次等位基因頻率大於0.4995。提供核酸樣本步驟係提供一主檢測者之一主測核酸樣本與一被檢測者之一被測核酸樣本。核酸檢測步驟係使用一核酸檢測方法檢測主測核酸樣本和被測核酸樣本中對應所述SNP位點組合中各SNP位點之複數個核苷酸組成。計算步驟係比對各SNP位點之核苷酸組成與相應之次等位基因頻率以計算出一親緣機率，再依據親緣機率判定主檢測者及被檢測者之親緣性。

本發明之另一態樣是在提供一種鑑定台灣人族群親緣性的系統，其包含一核酸萃取單元、一核酸檢測單元以及一非暫態機器可讀媒體。核酸萃取單元用以獲得一主檢測者之一主測核酸樣本和一被檢測者之一被測核酸樣本。核酸檢測單元電性連接該核酸萃取單元，用以檢測主測核酸樣本和被測核酸樣本中一SNP位點組合之複數個核苷酸組成，其中所述SNP位點組合包含複數個SNP位點，所述SNP位點位於第1~22對染色體上。非暫態機器可讀媒體訊號連接核酸檢測單元，用以存取一程式用以分析主測核酸樣本和被測核酸樣本之核苷酸組成並判定一親緣機率。非暫態機器可讀媒體包含一參照基因組資料庫及一計算單元。參照基因組資料庫包含所述SNP位點組合及參照次等位基因頻率集合，其中所述SNP位點組合及參照次等位基因頻率集合係藉由分析一台灣人全基因組資料庫所建立，所述參照次等位基因頻率集合包含相對應所述SNP位點之複數個次等位基因頻率，各SNP位點之基因缺失率小於0.1，且經連鎖不平衡裁切後各次等位基因頻率大於0.4995。計算單元訊號連接參照基因組資料庫，用以比對各SNP位點之核苷酸組成與相對應之次等位基因頻率並計算以得到一親緣機率，再依據親緣機率判定主檢測者及被檢測者之親緣性。

[鑑定台灣人族群親緣性的方法]

請參照第1圖和第2圖，第1圖繪示本發明一實施方式之鑑定台灣人族群親緣性的方法100的步驟流程圖，第2圖繪示第1圖之鑑定台灣人族群親緣性的方法100之計算步驟140的流程圖。在第1圖中，鑑定台灣人族群親緣性的方法100包含步驟110、步驟120、步驟130以及步驟140。

步驟110為取得參照基因組資料庫，所述參照基因組資料庫係藉由一生物信息計算程式分析一台灣人全基因組資料庫並建立一參照次等位基因頻率集合及一SNP位點組合。其中SNP位點組合包含複數個SNP位點，參照次等位基因頻率集合包含相對應所述SNP位點之複數個次等位基因頻率，所述SNP位點位於第1~22對染色體上，各SNP位點之基因缺失率小於0.1，且經連鎖不平衡裁切後各次等位基因頻率大於0.4995。

步驟120為進行一提供核酸樣本步驟，其係提供一主檢測者之一主測核酸樣本與一被檢測者之一被測核酸樣本。具體來說，主測核酸樣本和被測核酸樣本可為分別取自於主檢測者或被檢測者中含有DNA之檢體，較佳地，主測核酸樣本和被測核酸樣本可來自於血液、頭髮、骨骼、皮屑或體液。

步驟130為進行一核酸檢測步驟，其係使用一核酸檢測方法檢測主測核酸樣本和被測核酸樣本中對應所述SNP位點組合中各SNP位點之複數個核苷酸組成。其中核酸檢測方法可包含使用一生物晶片、一化學試劑或一基質輔助雷射解析串聯飛行時間質譜儀所執行之基因檢測法，但本發明並不以此為限。進一步來說，所述核酸檢測法可為一鑑定酵素切割法、一核酸片段質量差異檢測法、一螢光探針偵測法、一核酸片段構型變異法或一核酸定序分析法，但本發明並不以此為限。

步驟140為進行一計算步驟，其係比對各SNP位點之核苷酸組成與相對應之次等位基因頻率以計算出一親緣機率，再依據親緣機率判定主檢測者及被檢測者之親緣性。請一併參照第2圖，計算步驟140包含步驟141、步驟142、步驟143以及步驟144。

步驟141為將主測核酸樣本與被測核酸樣本在同一個SNP位點之核苷酸組成與相對應之次等位基因頻率進行比對，以得到複數個目標次等位基因頻率。步驟142為將目標次等位基因頻率分別對所述SNP位點進行計算，以得到複數個親緣指數。步驟143為將親緣指數相乘積以計算出一累積親緣指數。步驟144為利用累積親緣指數計算出一親緣機率。具體來說，請參照第3圖和表一，第3圖繪示本發明一實施方式之鑑定台灣人族群親緣性的方法100中SNP位點組合的位點示意圖，表一為本發明之SNP位點組合中各SNP位點及其相對應之次等位基因頻率。本發明之鑑定台灣人族群親緣性的方法100之SNP位點組合的SNP位點可選自如SEQ ID NO: 1至SEQ ID NO: 176所示序列所構成的群組，共176個SNP位點。

表一
SEQ ID	SNP位點	染色體	參考等位基因	替代等位基因	TPMI 等位基因	次等位基因頻率
NO： 1	rs6586535	1	C	T	C	0.4996
NO： 2	rs946836	1	C	T	T	0.4996
NO： 3	rs6694465	1	T	G	G	0.4996
NO： 4	rs701614	1	G	A	A	0.4996
NO： 5	rs9431708	1	A	G	G	0.4996
NO： 6	rs1425613	2	C	T	T	0.4996
NO： 7	rs11709353	3	G	A	A	0.4996
NO： 8	rs56027863	3	A	G	G	0.4996
NO： 9	rs4974500	3	T	C	C	0.4996
NO： 10	rs55768019	4	A	G	G	0.4996
NO： 11	rs16875084	5	G	A	G	0.4996
NO： 12	rs476428	5	G	A	G	0.4996
NO： 13	rs193491	5	T	C	T	0.4996
NO： 14	rs6871253	5	C	T	C	0.4996
NO： 15	rs3095250	6	C	T	C	0.4996
NO： 16	rs3851224	6	C	G	G	0.4996
NO： 17	rs12703023	7	T	C	C	0.4996
NO： 18	rs10954797	8	G	A	A	0.4996
NO： 19	rs7832232	8	A	G	A	0.4996
NO： 20	rs1025668	8	A	G	G	0.4996
NO： 21	rs1991718	8	C	T	T	0.4996
NO： 22	rs7854620	9	C	A	C	0.4996
NO： 23	rs10988509	9	G	A	G	0.4996
NO： 24	rs10826449	10	T	C	C	0.4996
NO： 25	rs7136376	12	C	T	C	0.4996
NO： 26	rs161966	12	G	C	G	0.4996
NO： 27	rs17456768	13	C	T	T	0.4996
NO： 28	rs9517294	13	G	A	A	0.4996
NO： 29	rs7992643	13	G	C	C	0.4996
NO： 30	rs7164594	15	C	T	C	0.4996
NO： 31	rs1079572	16	G	A	G	0.4996
NO： 32	rs7499814	16	C	A	A	0.4996
NO： 33	rs66491176	17	G	A	G	0.4996
NO： 34	rs4793579	17	A	G	A	0.4996
NO： 35	rs55865255	17	C	A	C	0.4996
NO： 36	rs7207216	17	G	T	T	0.4996
NO： 37	rs4891023	18	T	C	C	0.4996
NO： 38	rs9305268	21	T	C	T	0.4996
NO： 39	rs7521902	1	C	A	C	0.4997
NO： 40	rs284164	1	C	T	C	0.4997
NO： 41	rs4538254	2	C	A	A	0.4997
NO： 42	rs1344706	2	A	C	C	0.4997
NO： 43	rs10178377	2	T	C	T	0.4997
NO： 44	rs9822113	3	T	C	T	0.4997
NO： 45	rs4401376	3	T	C	C	0.4997
NO： 46	rs6786840	3	C	T	T	0.4997
NO： 47	rs13128397	4	A	G	A	0.4997
NO： 48	rs11932259	4	C	A	A	0.4997
NO： 49	rs9968429	4	A	G	G	0.4997
NO： 50	rs1443402	5	C	T	C	0.4997
NO： 51	rs4703389	5	G	A	A	0.4997
NO： 52	rs4286720	5	A	G	G	0.4997
NO： 53	rs11242704	6	A	G	A	0.4997
NO： 54	rs9372417	6	G	A	G	0.4997
NO： 55	rs6920965	6	G	A	G	0.4997
NO： 56	rs208869	6	T	C	C	0.4997
NO： 57	rs2041009	7	A	G	G	0.4997
NO： 58	rs12680146	8	C	T	C	0.4997
NO： 59	rs3847227	9	A	G	G	0.4997
NO： 60	rs7038346	9	A	G	A	0.4997
NO： 61	rs10962366	9	T	C	T	0.4997
NO： 62	rs7043796	9	C	T	T	0.4997
NO： 63	rs11006252	10	T	C	T	0.4997
NO： 64	rs4746992	10	C	T	C	0.4997
NO： 65	rs10887637	10	A	G	A	0.4997
NO： 66	rs2003906	11	A	G	G	0.4997
NO： 67	rs7926370	11	A	G	G	0.4997
NO： 68	rs10844220	12	A	C	A	0.4997
NO： 69	rs710681	12	C	T	T	0.4997
NO： 70	rs4981030	12	A	G	A	0.4997
NO： 71	rs9530834	13	A	G	A	0.4997
NO： 72	rs7166130	15	A	T	T	0.4997
NO： 73	rs8062124	16	C	A	C	0.4997
NO： 74	rs9932649	16	T	G	G	0.4997
NO： 75	rs2966063	16	A	G	A	0.4997
NO： 76	rs430639	17	G	T	T	0.4997
NO： 77	rs11081589	18	T	C	C	0.4997
NO： 78	rs2033491	19	C	A	A	0.4997
NO： 79	rs4814615	20	G	A	G	0.4997
NO： 80	rs885985	22	G	A	A	0.4997
NO： 81	rs12403557	1	G	A	A	0.4998
NO： 82	rs143290884	1	AG	-	AG	0.4998
NO： 83	rs10932127	2	G	T	G	0.4998
NO： 84	rs1032665	3	C	T	C	0.4998
NO： 85	rs4580593	3	C	A	C	0.4998
NO： 86	rs12640221	4	A	G	G	0.4998
NO： 87	rs986039	4	A	G	G	0.4998
NO： 88	rs1877731	4	C	G	G	0.4998
NO： 89	rs28582382	4	A	G	G	0.4998
NO： 90	rs9296249	6	T	C	T	0.4998
NO： 91	rs55668741	6	T	C	T	0.4998
NO： 92	rs11753921	6	T	C	T	0.4998
NO： 93	rs9690126	7	G	A	G	0.4998
NO： 94	rs12680842	8	A	G	A	0.4998
NO： 95	rs2929843	8	G	A	G	0.4998
NO： 96	rs4409435	8	T	C	T	0.4998
NO： 97	rs10809234	9	T	G	G	0.4998
NO： 98	rs7023738	9	A	C	C	0.4998
NO： 99	rs11144120	9	G	T	G	0.4998
NO： 100	rs10869499	9	A	G	G	0.4998
NO： 101	rs6482847	10	A	G	G	0.4998
NO： 102	rs2132966	11	A	G	A	0.4998
NO： 103	rs577948	11	A	G	G	0.4998
NO： 104	rs3741851	12	A	G	G	0.4998
NO： 105	rs11171598	12	C	A	A	0.4998
NO： 106	rs9573483	13	C	T	T	0.4998
NO： 107	rs12898878	15	C	T	T	0.4998
NO： 108	rs78526880	15	G	A	A	0.4998
NO： 109	rs12597411	16	C	T	C	0.4998
NO： 110	rs62034138	16	G	A	G	0.4998
NO： 111	rs67048050	16	A	G	A	0.4998
NO： 112	rs4368195	17	T	C	C	0.4998
NO： 113	rs3859191	17	G	A	G	0.4998
NO： 114	rs349989	17	T	C	T	0.4998
NO： 115	rs11871847	17	C	G	G	0.4998
NO： 116	rs6037894	20	T	C	C	0.4998
NO： 117	rs2207878	20	A	G	G	0.4998
NO： 118	rs61778328	1	C	T	T	0.4999
NO： 119	rs12759780	1	T	G	T	0.4999
NO： 120	rs642307	1	C	A	C	0.4999
NO： 121	rs910622	1	C	T	T	0.4999
NO： 122	rs33941127	1	C	T	T	0.4999
NO： 123	rs1544846	2	C	T	T	0.4999
NO： 124	rs10182721	2	C	T	C	0.4999
NO： 125	rs1158228	3	A	G	G	0.4999
NO： 126	rs2340475	3	C	T	C	0.4999
NO： 127	rs13102188	4	G	T	G	0.4999
NO： 128	rs6858430	4	T	C	T	0.4999
NO： 129	rs9502570	6	C	T	T	0.4999
NO： 130	rs9257185	6	A	G	G	0.4999
NO： 131	rs9349364	6	A	G	A	0.4999
NO： 132	rs62495696	8	A	G	G	0.4999
NO： 133	rs4397385	8	G	A	A	0.4999
NO： 134	rs1332312	9	A	G	A	0.4999
NO： 135	rs13294439	9	A	C	C	0.4999
NO： 136	rs7033078	9	T	C	T	0.4999
NO： 137	rs1452289	10	T	C	T	0.4999
NO： 138	rs7936903	11	T	C	C	0.4999
NO： 139	rs1953655	13	C	T	C	0.4999
NO： 140	rs7981566	13	C	T	C	0.4999
NO： 141	rs17792748	14	C	T	T	0.4999
NO： 142	rs61985798	14	C	T	C	0.4999
NO： 143	rs8006042	14	A	G	G	0.4999
NO： 144	rs883481	15	G	A	G	0.4999
NO： 145	rs77359952	15	G	A	G	0.4999
NO： 146	rs2305443	15	C	T	C	0.4999
NO： 147	rs4787247	16	C	T	C	0.4999
NO： 148	rs572858	18	G	A	G	0.4999
NO： 149	rs11673399	19	T	C	T	0.4999
NO： 150	rs28456308	20	C	T	C	0.4999
NO： 151	rs117294	22	A	C	A	0.4999
NO： 152	rs357063	1	T	C	C	0.5
NO： 153	rs12473958	2	A	G	A	0.5
NO： 154	rs7580245	2	T	C	T	0.5
NO： 155	rs1440512	3	C	T	T	0.5
NO： 156	rs13314271	3	T	C	T	0.5
NO： 157	rs34819461	4	C	-	-	0.5
NO： 158	rs3805285	4	G	A	A	0.5
NO： 159	rs17030363	4	G	A	A	0.5
NO： 160	rs258129	5	G	A	G	0.5
NO： 161	rs9479343	6	A	G	A	0.5
NO： 162	rs17170324	7	G	C	C	0.5
NO： 163	rs12705317	7	C	T	C	0.5
NO： 164	rs73174654	7	A	G	G	0.5
NO： 165	rs2978213	8	T	C	C	0.5
NO： 166	rs72614682	9	C	T	C	0.5
NO： 167	rs35051342	11	G	C	C	0.5
NO： 168	rs717582	11	T	C	C	0.5
NO： 169	rs11439588	11	-	G	-	0.5
NO： 170	rs72736093	15	G	A	G	0.5
NO： 171	rs4932564	15	A	G	A	0.5
NO： 172	rs918703	16	T	C	T	0.5
NO： 173	rs7499886	16	G	A	A	0.5
NO： 174	rs2058306	17	G	C	C	0.5
NO： 175	rs1785550	18	C	T	C	0.5
NO： 176	rs6089982	20	C	T	T	0.5

詳細地說，參照基因組資料庫之建立係根據中國醫藥大學附屬醫院(CMUH)基因資料庫作為數據源。候選SNP位點和等位基因頻率的計算係採集其中18至75歲的成年人的血液樣本並提取核酸樣本(DNA)，再使用TPMv1 SNP陣列對個別核酸樣本進行基因分型，並以PLINK1.9進行分析各SNP位點並設置質量控制篩選條件，不滿足以下條件之SNP位點則皆被排除：SNP缺失率(geno 0.1)、樣本(mind 0.1)、哈代-溫伯格平衡（Hardy-Weinberg equilibrium）p值＜ 10 ^-4、次等位基因頻率＜ 0.3。篩選後的SNP位點再設置參數：window size=250、step size=5、r2 threshold=0.1進行連鎖不平衡（Linkage disequilibrium, LD）裁切。此外，上述通過質量控制篩選之核酸樣本也同時藉由主成分分析(PCA)將參照基因組資料庫中非台灣人口的數據剔除。經質量篩選流程，共篩選出82,934個變異體和173,135個人，並得出此參照基因組資料庫的總分型率為0.9972。最後，挑出其中次等位基因頻率大於0.4995的SNP位點組成一SNP位點組合，並以所選的SNP位點相對應之次等位基因頻率建立為一參照次等位基因頻率集合，其結果如表一所示。

而步驟140所述之親緣性的計算與判定，是先計算主測核酸樣本與被測核酸樣本在各SNP位點之親緣指數後，再將176個位點之親緣指數相乘，得到累積親緣指數(combined paternity index, CPI)，接著再將累積親緣指數換算為PP%，其換算公式為：PP%=CPI/(CPI+1)x100%。當PP% ＞ 99.99%時，主測核酸樣本與被測核酸樣本會被判定為有親緣性。其中，親緣指數是先根據主測核酸樣本與被測核酸樣本在同一SNP位點之核苷酸組判定其基因型，並比對參照次等位基因頻率集合內相對應的次等位基因頻率後，經由表二所示的公式而得出。在表二中，P _A為所在SNP位點在參照次等位基因集合中所對應之父系遺傳之次等位基因頻率，P _B為所在SNP位點在參照次等位基因集合中相對應之母系遺傳之次等位基因頻率。

表二
親代基因型	子代基因型	親緣指數 (PI)
AA	AA	1/ P _A
AA	AB	1/(P _A*2)
AA	BB	0.0001
AB	AA	1/(P _A*2)
AB	AB	1/(P _AP _B4)
AB	BB	1/(P _A*2)
BB	AA	0.0001
BB	AB	1/(P _A*2)
BB	BB	1/ P _A

[鑑定台灣人族群親緣性的系統]

請參照第4圖，第4圖繪示本發明之另一實施方式之一實施例之鑑定台灣人族群親緣性的系統200的方塊圖。在第4圖中，鑑定台灣人族群親緣性的系統200包含一核酸萃取單元300、一核酸檢測單元400以及一非暫態機器可讀媒體500。

核酸萃取單元300，用以獲得一主檢測者之一主測核酸樣本和一被檢測者之一被測核酸樣本。具體來說，核酸萃取單元300可使用管柱萃取純化法（Column Purification）或試劑萃取純化法（Reagents Purification）來萃取主檢測者的主測核酸樣本和被檢測者的被測核酸樣本，但本發明並不以此為限。

核酸檢測單元400電性連接核酸萃取單元300，用以檢測主測核酸樣本和被測核酸樣本中SNP位點組合511之複數個核苷酸組成，其中SNP位點組合511包含複數個SNP位點(圖未繪示)，所述SNP位點位於第1~22對染色體上。具體來說，鑑定台灣人族群親緣性的系統200，其中核酸檢測單元400可為一生物晶片、一化學試劑套組或一基質輔助雷射解析串聯飛行時間質譜儀，但本發明不以此為限。進一步來說，核酸檢測單元400可係使用一鑑定酵素切割法、一核酸片段質量差異檢測法、一螢光探針偵測法、一核酸片段構型變異法或一核酸定序分析法檢測核苷酸組成，但本發明不以此為限。

非暫態機器可讀媒體500訊號連接該核酸檢測單元，用以存取一程式用以分析主測核酸樣本和被測核酸樣本之核苷酸組成並判定一親緣機率。所述非暫態機器可讀媒體500包含一參照基因組資料庫510以及一計算單元520。參照基因組資料庫510包含SNP位點組合511及一參照次等位基因頻率集合512，其中SNP位點組合511及參照次等位基因頻率集合512係藉由分析一台灣人全基因組資料庫所建立，參照次等位基因頻率集合512包含相對應所述SNP位點之複數個次等位基因頻率(圖未繪示)，各SNP位點之基因缺失率小於0.1，且經連鎖不平衡裁切後各次等位基因頻率大於0.4995。計算單元520訊號連接參照基因組資料庫510，用以比對各SNP位點之核苷酸組成與相對應之次等位基因頻率並計算以得到一親緣機率，再依據親緣機率判定主檢測者及被檢測者之親緣性。

請參照第5圖，第5圖繪示本發明之另一實施方式之另一實施例之鑑定台灣人族群親緣性的系統200a的方塊圖。在第5圖中，鑑定台灣人族群親緣性的系統200a所包含之核酸萃取單元300a、核酸檢測單元400a和非暫態機器可讀媒體500a。其中核酸萃取單元300a和核酸檢測單元400a的技術細節與第4圖中的核酸萃取單元300和核酸檢測單元400相同，在此不再贅述。

非暫態機器可讀媒體500a包含參照基因組資料庫510a和計算單元520a，其中參照基因組資料庫510a包含SNP位點組合511a和參照次等位基因頻率集合512a，參照基因組資料庫510a的技術細節和第4圖中的參照基因組資料庫510相同，在此不於此贅述。

計算單元520a可包含比對模組521、親緣指數計算模組522、累積親緣指數計算模組523以及親緣機率計算模組524。比對模組521用以將主測核酸樣本與被測核酸樣本在同一個SNP位點之核苷酸組成與相對應之次等位基因頻率進行比對，以得到複數個目標次等位基因頻率。親緣指數計算模組522訊號連接比對模組521，用以將目標次等位基因頻率分別對所述SNP位點進行計算，以得到複數個親緣指數。累積親緣指數計算模組523訊號連接親緣指數計算模組522，將所述親緣指數相乘積而得出一累積親緣指數。親緣機率計算模組524訊號連接累積親緣指數計算模組523，利用累積親緣指數計算出一親緣機率。

茲以下列具體實施例進一步示範說明本發明，用以有利於本發明所屬技術領域通常知識者，可在不需過度解讀的情形下完整利用並實踐本發明，而不應將這些試驗例視為對本發明範圍的限制，但用於說明如何實施本發明的材料及方法。

為了驗證本發明之鑑定台灣人族群親緣性的方法及其系統之穩定性及準確度，於本試驗中所使用的樣本共有355對，並將上述樣本的基因型數據儲存於參照基因組資料庫中。試驗上利用STR位點計算親緣機率作為對照組，再以PLINK1.9計算血緣同源(Identity By Descent, IBD)、以PLINK2.0計算基於親緣性的全基因組關聯推理(Kinship-based inference for genome-wide association, KING)，並利用美國Affymetrix公司所推出之通用種族SNP位點計算親緣機率對此355對樣本進行親緣性鑑定做為比較例，以驗證本發明所選用之SNP位點組合應用於鑑定台灣人族群親緣性之穩定性及準確度。

試驗上使用D8S1179、D21S11、D7S820、CSF1PO、D3S1358、TH01、D13S317、D16S539、D2S1338、D19S433、vWA、TPOX、D18S51、D5S818和FGA共15個體染色體STR位點為遺傳標記進行檢測，作為確認樣本間的親緣性並比較親緣性鑑定之穩定性及準確度的對照組，並分析牙釉質蛋白(Amelogenin)位點以區分X或Y性染色體，最後再計算此355對之親緣機率以判定其親緣性。其中，所述親緣機率之計算方式請參照Charles Brenner 及 Jeffrey W. Morris等人所提出之步驟。請參照表三，其為使用上述STR位點確認樣本間親緣性的結果，根據上述親緣機率的計算，此355對樣本中共有314對被STR位點判定有親緣性，有41對被STR位點判定無親緣性。

表三
	有親緣性	無親緣性
樣本對	1~314	315~355
合計對數	314	41

由表三之結果延伸比較其餘親緣性鑑定法如下，在PLINK1.9中，可以根據IBD比例而得出PIHAT值，即P(IBD=2)+0.5×P(IBD=1)，而在PLINK2.0中，可根據KING而得出KINSHIP值來計算親緣性。此外，另分別使用所選定的176個SNP位點(以下簡稱CMUH_176SNPs)以及83個通用種族SNP位點(以下簡稱AFF_83SNPs)來依照本發明所揭示之計算步驟計算各樣本對PP%，並判定各樣本對之親緣性。其中AFF_83SNPs所使用的SNP位點、其等位基因及其次等位基因頻率如表四所示。

表四
SNP位點	等位基因	次等位基因頻率	SNP位點	等位基因	次等位基因頻率
rs323009	G	0.4081	rs10827221	G	0.4681
rs1540732	C	0.4943	rs7792052	C	0.2829
rs4557603	G	0.3550	rs1590349	G	0.4270
rs6861600	G	0.4439	rs9709980	G	0.4633
rs2665355	G	0.3839	rs713738	A	0.3984
rs803158	G	0.3484	rs6134919	C	0.4395
rs6987709	C	0.3302	rs4389065	A	0.3999
rs12285109	G	0.4091	rs12913890	G	0.3860
rs1351407	T	0.4976	rs11079221	G	0.4351
rs7322418	C	0.3782	rs1202031	A	0.4555
rs4472366	G	0.4120	rs10869208	C	0.4909
rs10819912	C	0.4045	rs1021870	T	0.3489
rs10466213	G	0.4572	rs284000	C	0.4272
rs2371356	G	0.3449	rs1942355	C	0.4736
rs347301	C	0.3679	rs1997466	C	0.4925
rs10495437	T	0.3033	rs5752479	C	0.4661
rs2882367	C	0.4706	rs1979097	C	0.3882
rs534665	C	0.4672	rs9917155	C	0.4363
rs7737453	C	0.3980	rs7534574	C	0.2894
rs13535	G	0.4201	rs4478161	C	0.4408
rs424301	A	0.2569	rs2630787	T	0.4652
rs2010253	C	0.4348	rs1401858	A	0.3427
rs4550919	A	0.3943	rs16953197	T	0.4996
rs1443118	A	0.4916	rs9297213	C	0.4833
rs7834533	C	0.2458	rs6005018	C	0.3574
rs8109968	A	0.4193	rs874429	C	0.3886
rs2517455	C	0.4904	rs9939407	C	0.3565
rs10770943	G	0.3982	rs761223	C	0.4996
rs6931131	C	0.4363	rs432551	G	0.3663
rs835401	C	0.4980	rs9317420	G	0.4282
rs6708411	T	0.4209	rs9912146	C	0.3059
rs11035666	A	0.3701	rs735043	G	0.4442
rs2324969	G	0.3870	rs2826803	C	0.4177
rs4746855	G	0.4844	rs1956616	C	0.3928
rs856411	T	0.4854	rs4805298	T	0.4641
rs3857265	C	0.3524	rs1783305	T	0.4879
rs2465390	T	0.4238	rs1031107	C	0.3999
rs2917817	G	0.4276	rs1756295	A	0.4078
rs6856651	A	0.3098	rs1423852	G	0.3186
rs4608860	G	0.4173	rs6590574	G	0.4285
rs2344664	G	0.3915	rs4887511	T	0.3364
rs7631088	A	0.4955

另請參照表五，其為以STR位點、IBD、KING、CMUH_176SNPs以及AFF_83SNPs計算樣本親緣性之結果比較。

表五
	有親緣性	無親緣性
STR(PP%)	99.50~99.99	0~9.56
PIHAT	0.4963~0.5346	0~0.0766
KINSHIP	0.2219~0.2574	0~0.0334
CMUH_176SNPs(PP%)	＞ 99.999999	~0
AFF_83SNPs(PP%)	90.29~99.99999	0~26.02

如表五的結果所示，所有被STR判定為有親緣性的樣本對之PIHAT近乎於0.5，而所有被判定為無親緣性的樣本對都顯示PIHAT相對接近0.01；所有被STR判定有親緣性的樣本對KINSHIP近乎於0.247，而所有被判定為無親緣性的樣本對都顯示KINSHIP相對接近0.001。若將STR結果、PIHAT值與KINSHIP值作回歸分析，可得R ²=0.9957，表示KINSHIP和PIHAT值之間存在高度相關性。然而在使用CMUH_176SNPs之鑑定結果中，所有被STR判定有親緣性的樣本對親緣機率均大於99.999999%，而所有被判定為無親緣性的樣本對也都顯示親緣機率相對接近0。由此可知，本發明所選定之SNP位點組合具有良好的親緣判定準確率及穩定度。

在此值得一提的是，在由STR判定有親緣性的314對樣本中，其中共有7對樣本在位點檢測階段時出現具有一個STR位點不匹配的情況，故額外測試了更多位於X或Y性染色體上的STR位點，用以進一步參考或排除判定其親緣性。此外，如表四所示，由於AFF_83SNPs在台灣人族群中的次等位基因頻率較低，雖其鑑定結果幾乎與CMUH_176SNPs一致，但仍有6對樣本偏離了STR所判定的結果，其中有親緣性的組別中有4對PP% ＜ 99.9%，而無親緣性的組別中有2對PP% ＞ 1。總結表五結果可知，比起STR位點，應用CMUH_176SNPs作為鑑定台灣人族群親緣性之遺傳標記，具有更優異的位點匹配度；而比起AFF_83SNPs，CMUH_176SNPs在台灣人族群中具有更高次等位基因頻率，可達成更佳的親緣判定準確率。

綜上所述，本發明之鑑定台灣人族群親緣性的方法及其系統可有效運用於法醫學鑑識、醫學鑑定、親緣性鑑定及社會問題領域，藉由條件篩選出在台灣人族群中具有高穩定性且高次等位基因頻率的176個SNP位點，建立了一個屬於台灣人用於鑑定親緣性的參照基因組資料庫。本發明之鑑定台灣人族群親緣性的方法及其系統不僅可達成比習知使用STR位點的鑑定方法具備更優異的位點匹配率，比起使用現行通用種族的SNP位點來鑑定台灣人族群親緣性更是具有更佳的準確率。

然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明的精神和範圍內，當可作各種的更動與潤飾，因此本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100:鑑定台灣人族群親緣性的方法 110,120,130,140,141,142,143,144:步驟 200,200a:鑑定台灣人族群親緣性的系統 300,300a:核酸萃取單元 400,400a:核酸檢測單元 500,500a:非暫態機器可讀媒體 510,510a:參照基因組資料庫 511,511a:SNP位點組合 512,512a:參照次等位基因頻率集合 520,520a:計算單元 521:比對模組 522:親緣指數計算模組 523:累積親緣指數計算模組 524:親緣機率計算模組

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖繪示本發明一實施方式之鑑定台灣人族群親緣性的方法的步驟流程圖；第2圖繪示第1圖之鑑定台灣人族群親緣性的方法之計算步驟的流程圖；第3圖繪示本發明一實施方式之鑑定台灣人族群親緣性的方法之SNP位點組合的位點示意圖；第4圖繪示本發明之另一實施方式之一實施例之鑑定台灣人族群親緣性的系統的方塊圖；以及第5圖繪示本發明之另一實施方式之另一實施例之鑑定台灣人族群親緣性的系統的方塊圖。

100:鑑定台灣人族群親緣性的方法

110,120,130,140:步驟

Claims

一種鑑定台灣人族群親緣性的方法，包含：取得一參照基因組資料庫，該參照基因組資料庫藉由一生物信息計算程式分析一台灣人全基因組資料庫並建立一參照次等位基因頻率集合及一SNP位點組合，其中該SNP位點組合包含複數個SNP位點，該參照次等位基因頻率集合包含相對應該些SNP位點之複數個次等位基因頻率，該些SNP位點位於第1~22對染色體上，各該SNP位點之基因缺失率小於0.1，且經連鎖不平衡裁切後各該次等位基因頻率大於0.4995；進行一提供核酸樣本步驟，其係提供一主檢測者之一主測核酸樣本與一被檢測者之一被測核酸樣本；進行一核酸檢測步驟，其係使用一核酸檢測方法檢測該主測核酸樣本和該被測核酸樣本中對應該SNP位點組合中各該SNP位點之複數個核苷酸組成；以及進行一計算步驟，其係比對各該SNP位點之該些核苷酸組成與相對應之一該次等位基因頻率以計算出一親緣機率，再依據該親緣機率判定該主檢測者及該被檢測者之親緣性。
如請求項1所述之鑑定台灣人族群親緣性的方法，其中該些SNP位點係選自rs6586535、rs946836、rs6694465、rs701614、rs9431708、rs1425613、rs11709353、rs56027863、rs4974500、rs55768019、rs16875084、rs476428、rs193491、rs6871253、rs3095250、rs3851224、rs12703023、rs10954797、rs7832232、rs1025668、rs1991718、rs7854620、rs10988509、rs10826449、rs7136376、rs161966、rs17456768、rs9517294、rs7992643、rs7164594、rs1079572、rs7499814、rs66491176、rs4793579、rs55865255、rs7207216、rs4891023、rs9305268、rs7521902、rs284164、rs4538254、rs1344706、rs10178377、rs9822113、rs4401376、rs6786840、rs13128397、rs11932259、rs9968429、rs1443402、rs4703389、rs4286720、rs11242704、rs9372417、rs6920965、rs208869、rs2041009、rs12680146、rs3847227、rs7038346、rs10962366、rs7043796、rs11006252、rs4746992、rs10887637、rs2003906、rs7926370、rs10844220、rs710681、rs4981030、rs9530834、rs7166130、rs8062124、rs9932649、rs2966063、rs430639、rs11081589、rs2033491、rs4814615、rs885985、rs12403557、rs143290884、rs10932127、rs1032665、rs4580593、rs12640221、rs986039、rs1877731、rs28582382、rs9296249、rs55668741、rs11753921、rs9690126、rs12680842、rs2929843、rs4409435、rs10809234、rs7023738、rs11144120、rs10869499、rs6482847、rs2132966、rs577948、rs3741851、rs11171598、rs9573483、rs12898878、rs78526880、rs12597411、rs62034138、rs67048050、rs4368195、rs3859191、rs349989、rs11871847、rs6037894、rs2207878、rs61778328、rs12759780、rs642307、rs910622、rs33941127、rs1544846、rs10182721、rs1158228、rs2340475、rs13102188、rs6858430、rs9502570、rs9257185、rs9349364、rs62495696、rs4397385、rs1332312、rs13294439、rs7033078、rs1452289、rs7936903、rs1953655、rs7981566、rs17792748、rs61985798、rs8006042、rs883481、rs77359952、rs2305443、rs4787247、rs572858、rs11673399、rs28456308、rs117294、rs357063、rs12473958、rs7580245、rs1440512、rs13314271、rs34819461、rs3805285、rs17030363、rs258129、rs9479343、rs17170324、rs12705317、rs73174654、rs2978213、rs72614682、rs35051342、rs717582、rs11439588、rs72736093、rs4932564、rs918703、rs7499886、rs2058306、rs1785550及rs6089982所構成的群組。
如請求項1所述之鑑定台灣人族群親緣性的方法，其中該計算步驟包含：將該主測核酸樣本與該被測核酸樣本在同一該SNP位點之該些核苷酸組成與相對應之一該次等位基因頻率進行比對，以得到複數個目標次等位基因頻率；將該些目標次等位基因頻率分別對該些SNP位點進行計算，以得到複數個親緣指數；將該些親緣指數相乘積以計算出一累積親緣指數；以及利用該累積親緣指數計算出一親緣機率。
如請求項1所述之鑑定台灣人族群親緣性的方法，其中該核酸檢測法包含使用一生物晶片、一化學試劑或一基質輔助雷射解析串聯飛行時間質譜儀所執行之基因檢測法。
如請求項1所述之鑑定台灣人族群親緣性的方法，其中該核酸檢測法為一鑑定酵素切割法、一核酸片段質量差異檢測法、一螢光探針偵測法、一核酸片段構型變異法或一核酸定序分析法。
一種鑑定台灣人族群親緣性的系統，包含：一核酸萃取單元，用以獲得一主檢測者之一主測核酸樣本和一被檢測者之一被測核酸樣本；一核酸檢測單元，該核酸檢測單元電性連接該核酸萃取單元，用以檢測該主測核酸樣本和該被測核酸樣本中一SNP位點組合之複數個核苷酸組成，其中該SNP位點組合包含複數個SNP位點，該些SNP位點位於第1~22對染色體上；以及一非暫態機器可讀媒體，該非暫態機器可讀媒體訊號連接該核酸檢測單元，用以存取一程式用以分析該主測核酸樣本和該被測核酸樣本之該些核苷酸組成並判定一親緣機率，該非暫態機器可讀媒體包含：一參照基因組資料庫，該參照基因組資料庫包含該SNP位點組合及一參照次等位基因頻率集合，其中該SNP位點組合及該參照次等位基因頻率集合係藉由分析一台灣人全基因組資料庫所建立，該參照次等位基因頻率集合包含相對應該些SNP位點之複數個次等位基因頻率，各該SNP位點之基因缺失率小於0.1，且經連鎖不平衡裁切後各該次等位基因頻率大於0.4995；及一計算單元，訊號連接該參照基因組資料庫，用以比對各該SNP位點之該些核苷酸組成與相對應之一該次等位基因頻率並計算以得到一親緣機率，再依據該親緣機率判定該主檢測者及該被檢測者之親緣性。
如請求項6所述之鑑定台灣人族群親緣性的系統，其中該計算單元包含：一比對模組，用以將該主測核酸樣本與該被測核酸樣本在同一該SNP位點之該些核苷酸組成與相對應之一該次等位基因頻率進行比對，以得到複數個目標次等位基因頻率；一親緣指數計算模組，其訊號連接該比對模組，該親緣機率計算模組用以將該些次等位基因頻率分別對該些SNP位點進行計算，以得到複數個親緣指數；一累積親緣指數計算模組，其訊號連接該親緣指數計算模組，將該些親緣指數相乘積以得出一累積親緣指數；以及一親緣機率計算模組，其訊號連接該累積親緣指數計算模組，利用該累積親緣指數計算出一親緣機率。
如請求項6所述之鑑定台灣人族群親緣性的系統，其中該核酸檢測單元為一生物晶片、一化學試劑套組或一基質輔助雷射解析串聯飛行時間質譜儀。
如請求項6所述之鑑定台灣人族群親緣性的系統，其中該核酸檢測單元係使用一鑑定酵素切割法、一核酸片段質量差異檢測法、一螢光探針偵測法、一核酸片段構型變異法或一核酸定序分析法檢測該些核苷酸組成。
如請求項6所述之鑑定台灣人族群親緣性的系統，其中該核酸萃取單元使用一管柱萃取純化法或一試劑萃取純化法萃取該主測核酸樣本和該被測核酸樣本。