TW202331734A

TW202331734A - 甲基化生物標記選擇裝置及方法

Info

Publication number: TW202331734A
Application number: TW111135959A
Authority: TW
Inventors: 白敦文; 賴儀瑄; 淑貞陳; 蘇芳正
Original assignee: 香港商行動基因（智財）有限公司
Priority date: 2021-09-28
Filing date: 2022-09-22
Publication date: 2023-08-01
Also published as: TWI832443B; WO2023052917A1

Abstract

甲基化生物標記選擇裝置及方法。一甲基化生物標記選擇裝置儲存複數個第一資料集與複數個第二資料集，其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度，且各該第二資料集包含至少一病歷。該甲基化生物標記選擇裝置根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點，藉此決定複數個主要生物標記，基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因，藉此決定複數個次要生物標記，且基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。

Description

甲基化生物標記選擇裝置及方法

本發明係關於一種甲基化生物標記選擇裝置及方法。更具體而言，本發明係關於一種基於共病症分析以提供與一目標疾病相關的生物標記的甲基化生物標記選擇裝置及方法。

生物標記在醫學領域發揮極為重要的作用，例如：用於診斷疾病及研發藥物。針對一目標疾病，其理想的生物標記應具有高靈敏度及高特異性，以便在早期偵測出目標疾病並對預後進行評估。為找出與一目標疾病相關的生物標記，實務上慣用的方法為對患有目標疾病的患者的樣本進行研究。然而，這種慣用的方法所分析的樣本在數量及多樣性方面都極為有限，因此結果往往無法令人滿意（例如：獲得的一或多種生物標記不具高靈敏度及/或不具高特異性）且不足（例如：僅獲得很少數的生物標記）。

因此，本發明所屬技術領域仍亟需一種能夠針對一目標疾病提供足夠數量的具有高靈敏度及高特異性的生物標記的技術。

本發明的一目的在於提供一種甲基化生物標記選擇裝置。該甲基化生物標記選擇裝置包含一儲存器及一處理器，其中該處理器電性連接至該儲存器。該儲存器被配置為儲存複數個第一資料集，其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度。該儲存器還被配置為儲存複數個第二資料集，其中各該第二資料集包含至少一病歷。該處理器被配置為執行以下運作：(a)根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點，藉此決定複數個主要生物標記，(b)基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因，藉此決定複數個次要生物標記，以及(c)基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。

本發明的另一目的在於提供一種適用於一電子裝置的甲基化生物標記選擇方法。該電子裝置儲存複數個第一資料集，其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度。該電子裝置還儲存複數個第二資料集，其中各該第二資料集包含至少一病歷。該甲基化生物標記選擇方法包含下列步驟：(a)根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點，藉此決定複數個主要生物標記，(b)基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因，藉此決定複數個次要生物標記，以及(c)基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。

本發明所提供的甲基化生物標記選擇技術（至少包含甲基化生物標記選擇裝置及方法）利用兩種不同類型的資料集（即，該等第一資料集及該等第二資料集）來發現與一目標疾病相關的候選生物標記。該等第一資料集包含各種甲基化位點的甲基化程度，而第二資料集包含病歷。藉由利用第一資料集，本發明能識別出可鑑別位點作為與目標疾病相關的主要生物標記。藉由利用第二資料集，本發明能識別出目標疾病的共病症及其關聯基因以提供與目標疾病相關的次要生物標記。由於本發明一併地考量目標疾病的甲基化程度與共病症，因此本發明的甲基化生物標記選擇技術可提供對目標疾病具有高靈敏度及高特異性的候選生物標記。此外，由於候選生物標記係基於主要生物標記與次要生物標記的一關聯分析而決定的，因此本發明可提供足夠數量的候選生物標記。

以下結合圖式闡述本發明的詳細技術及實施方式，俾使本發明所屬技術領域中具有通常知識者能理解所請求保護的發明的技術特徵。

以下將透過實施方式來解釋本發明所提供的甲基化生物標記選擇裝置及方法，但該等實施方式並非用以限制本發明需在如該等實施方式所述的任何環境、應用或方式方能實施。關於以下實施方式的說明僅在於闡釋本發明的目的，而非用以限制本發明的範圍。應理解，在以下實施方式及圖式中，與本發明非直接相關的元件已省略而未描述或／及繪示。此外，圖式中各元件的尺寸及元件間的比例關係僅為便於繪示及說明，而非用以限制本發明的範圍。

第1圖例示在本發明的一些實施方式中的甲基化生物標記選擇裝置1的示意圖。甲基化生物標記選擇裝置1包含一儲存器11及一處理器13，其中儲存器11電性連接至處理器13。儲存器11可為一記憶體、一通用串列匯流排（Universal Serial Bus；USB）碟、一可攜式磁碟、一硬式磁碟機（Hard Disk Drive；HDD）或本發明所屬技術領域中具有通常知識者已知的能夠儲存資料的任何其他非暫時性儲存媒體、裝置或電路。處理器13可為各種處理器、中央處理單元（central processing unit；CPU）、微處理器單元（microprocessor unit；MPU）、數位訊號處理器（digital signal processor；DSP）或本發明所屬技術領域中具有通常知識者已知的其他計算裝置其中之一。

儲存器11儲存複數個第一資料集D1_1、……、D1_q，其中第一資料集D1_1、……、D1_q中的每一個包含對應至複數個甲基化位點（methylation loci）的複數個甲基化程度（methylation degrees）。需說明者，甲基化位點係指富含CG或缺乏CG的DNA區域的基因位點，其包含至少一個有差異地進行甲基化的區域。在一些實施方式中，甲基化位點包含CpG甲基化位點及非CpG甲基化位點。此外，儲存器11儲存複數個第二資料集D2_1、……、D2_r，其中第二資料集D2_1、……、D2_r中的每一個包含至少一個病歷。

甲基化生物標記選擇裝置1旨在基於甲基化程度及與目標疾病相關的共病症（comorbidity）而找出可能與一目標疾病高度相關的生物標記，其概括的資料處理流程如第2圖所示。具體而言，處理器13藉由根據記錄在第一資料集D1_1、……、D1_q中的甲基化程度從記錄在第一資料集D1_1、……、D1_q中的甲基化位點識別出複數個可鑑別位點（differentiable loci）而決定複數個主要生物標記PB_1、……、PB_m，藉由基於第二資料集D2_1、……、D2_r識別出一目標疾病的複數個共病症與其關聯基而決定複數個次要生物標記SB_1、……、SB_n，且基於主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n的一關聯分析而決定複數個候選生物標記CB_1、……、CB_k。候選生物標記CB_1、……、CB_k為可能與目標疾病高度相關的生物標記，因而其可用於目標疾病的進一步研究或／及評估。本文中所述的「共病症」係指一或多種引起目標疾病、由目標疾病所引起或與目標疾病共同發生的病症、症候群、疾病或障礙，且其可直接或間接與目標疾病相關。在一些實施方式中，第一資料集D1_1、……、D1_q係由甲基化陣列（methylation array）或甲基化定序（methylation sequencing）產生。在一些實施方式中，目標疾病包含但不限於腦癌、乳癌、大腸癌、內分泌腺癌、食道癌、女性生殖器官癌、頭頸癌、肝膽系統癌、腎癌、肺癌、間質細胞瘤、前列腺癌、皮膚癌、胃癌、外分泌胰腺腫瘤及泌尿系統癌。

以下詳細說明第一資料集D1_1、……、D1_q、第二資料集D2_1、……、D2_r以及處理器13在各實施方式中所執行的運作。

第一資料集

在一些實施方式中，甲基化生物標記選擇裝置1從甲基化陣列（例如：Illumina Infinium HumanMethylation450 BeadChip（450K晶片））所產生的資料檔案中獲得第一資料集D1_1、……、D1_q，且其資料處理流程如第3圖所示。在該些實施方式中，甲基化生物標記選擇裝置1安裝有Chip Analysis Methylation Pipeline（ChAMP）套裝軟體，且處理器13經由甲基化生物標記選擇裝置1的一收發介面（未繪示）自一第一資料庫（例如：癌症基因體圖譜（The Cancer Genome Atlas；TCGA））導入甲基化陣列的資料檔案F_1、……、F_o（例如：IDAT檔案）。導入的資料檔案F_1、……、F_o中的每一個包含對應至複數個甲基化位點的複數個甲基化程度（例如： N個甲基化程度一對一地對應至 N個甲基化位點，且 N為大於1的正整數）。在由甲基化陣列所產生的資料檔案F_1、……、F_o中，甲基化程度被稱為一值。接著，處理器13可藉由對導入的資料檔案F_1、……、F_o進行預處理來獲得第一資料集D1_1、……、D1_q，此過程通常包含品質控制、正規化及離群值（outlier）移除。

現提供一關於品質控制的具體範例。在此具體範例中，符合以下任一標準的探針會被排除：（1）在至少一個樣本中偵測值為的探針，（2）在至少5%的樣本中磁珠計數（bead count）小於3的探針，（3）靶向非CpG位置的探針，（4）靶向單核苷酸多態性（single nucleotide polymorphism；SNP）位點的探針，（5）與多個位置對齊的探針，以及（6）位於X及Y染色體上的探針。在前述品質控制之後，僅對應至剩餘探針的甲基化位點被保留在導入的資料檔案中。

現提供關於正規化（normalization）的數個具體範例。由於甲基化陣列採用兩種不同類型的探針設計（即， Infinium 1型探針設計及Infinium 2型探針設計），因此上述導入的資料檔案中的甲基化程度存在偏差，是以，需要進行正規化來調整偏差。舉例而言，可使用β-混合分位數正規化（beta-mixture quantile normalization；BMIQ）、陣列內子集分位數正規化（subset-quantile within array normalization；SWAN）、基於峰值的校正（peak-based correction；PBC）或函數正規化（Functional normalization；FunNorm）。

現提供關於離群值移除的一具體範例。經過前述品質控制及正規化處理過後的導入資料檔案被區分為一正常主體群組（normal subject group）及一疾病主體群組（disease subject group）。正常主體群組包含與無目標疾病的主體相關的導入資料檔案，而疾病主體群組包含與患有目標疾病的主體相關的導入資料檔案。針對正常主體群組及疾病主體群組中每一主體群組的每個甲基化位點，採用四分位數間距（Interquartile Range；IQR）方法消除離群值。本發明所屬技術領域中具有通常知識者應熟悉IQR方法，故於本文中不再予以贅述。藉由移除離群值，正常主體群組及疾病主體群組中每一主體群組的每個甲基化位點的甲基化程度的分布呈一集中形式（concentrated form）。如此一來，可避免主要生物標記選擇期間的雜訊干擾。

經由前述品質控制、正規化及離群值移除處理後的導入資料檔案即為第一資料集D1_1、……、D1_q。需說明者，上述具體範例並非用以限制用於獲得第一資料集D1_1、……、D1_q的方法。在一些其他實施方式中，第一資料集D1_1、……、D1_q可自其他來源並藉由其他方法獲得，只要第一資料集D1_1、……、D1_q中的每一個包含對應至複數個甲基化位點的複數個甲基化程度即可。

主要生物標記選擇

如上所述，處理器13藉由根據記錄在第一資料集D1_1、……、D1_q中的甲基化程度自記錄在第一資料集D1_1、……、D1_q中的甲基化位點中識別出複數個可鑑別位點來決定複數個主要生物標記PB_1、……、PB_m。該等可鑑別位點為記錄在第一資料集D1_1、……、D1_q中的甲基化位點中較具可識別性的位點。

在一些實施方式中，對於各該甲基化位點，處理器13基於該甲基化位點的一平均甲基化程度差異或／及該甲基化位點的一p值來判斷該甲基化位點是否可被選為一可鑑別位點。一甲基化位點的平均甲基化程度差異反映出來自疾病主體的甲基化位點的甲基化程度偏離來自正常主體的甲基化位點的甲基化程度的幅度。一甲基化位點的p值為關於該甲基化位點與目標疾病相關此一虛無假設的一統計量測值。具體而言，處理器13自記錄在第一資料集D1_1、……、D1_q中的該等甲基化位點中選擇具有以下特徵的甲基化位點作為可鑑別位點：（i）符合一第一預設條件的平均甲基化程度差異（例如：平均甲基化程度差異大於一第一預設門檻值）或／及（ii）符合一第二預設條件的p值（例如：p值小於一第二預設門檻值）。該等可鑑別位點被決定為主要生物標記PB_1、……、PB_m。

現針對上述平均甲基化程度差異進行詳細說明。在一些實施方式中，第一資料集D1_1、……、D1_q被區分為一正常主體群組及一疾病主體群組。此即，正常主體群組中的各第一資料集與無目標疾病的一主體相關，而疾病主體群組中的各第一資料集與患有目標疾病的一主體相關。在該些實施方式中，處理器13藉由執行以下運作（a）及（b）來獲得一甲基化位點的平均甲基化程度差異。

在運作（a）中，處理器13根據正常主體群組中對應至該甲基化位點的該等甲基化程度來計算一平均正常值。在一具體範例中，平均正常值為正常主體群組中的該甲基化位點其甲基化程度的平均值，其可由以下方程式（1）表示：（1）

在上述方程式（1）中，代表平均正常值，代表正常主體群組中的第 i個主體其對應至該甲基化位點的甲基化程度，且 n代表正常主體群組中的主體的數目（即，正常主體群組中，與該甲基化位點對應的甲基化程度的數目）。

在運作（b）中，處理器13根據平均正常值及來自疾病主體群組的該甲基化位點所對應的該等甲基化程度來計算平均甲基化程度差異。在一具體範例中，平均甲基化程度差異為複數個個別甲基化程度差異的平均值，其可由以下方程式（2）表示：（2）

在上述方程式（2）中，代表平均甲基化程度差異，代表疾病主體群組中的第 j個主體其對應至該甲基化位點的甲基化程度，表代表平均正常值，且 m代表疾病主體群組中主體的數目（即，疾病主體群組中，與該甲基化位點對應的甲基化程度的數目）。此外，值代表個別甲基化程度差異。

前述用於獲得主要生物標記PB1、……、PB_m的方法已實施於數種目標疾病，其相關資訊及資料羅列於表1中。需說明者，來自TCGA的資料檔案之日期為2021年3月15日，而來自基因表達綜合（Gene Expression Omnibus；GEO）資料庫的資料檔案之日期為2021年10月30日。在表1中，變數代表無目標疾病的主體的數目，且變數代表患有目標疾病的主體的數目。

目標疾病	第一資料庫			主要生物標記的數目
大腸癌	TCGA	38/314	0.5	214,088
肺癌	TCGA	42/370	0.45	320,395
肝癌	TCGA	50/380	0.4	260,808
胰腺癌	TCGA	10/185	0.35	212,524
前列腺癌	TCGA	50/503	0.45	287,206
乳癌	TCGA	50/430	0.4	297,978
卵巢癌	GEO	7/114	0.55	123,796
食道癌	TCGA	16/186	0.45	154,709
胃癌	TCGA	2/395	0.35	10,470

表 1

第二資料集

在一些實施方式中，甲基化生物標記選擇裝置1經由甲基化生物標記選擇裝置1的一收發介面（未繪示）自一第二資料庫中獲得第二資料集D2_1、……、D2_r。舉例而言，第二資料庫可為包含複數個匿名電子病歷（electronic medical records；EMRs）的任何電子病歷資料庫（例如：台灣的全民健康保險研究資料庫（Taiwan’s National Health Insurance Research Database；NHIRD））。

儲存在第二資料庫中的病歷與複數個主體相關。患有目標疾病的主體被選擇作為一實驗組，而無目標疾病的主體被選擇作為一對照組。可藉由匹配年齡組及性別的方式來隨機地選擇對照組中的主體使其為實驗組中的主體的五倍。對於對照組，擷取每一主體的病歷。對於實驗組，擷取每一主體在一預定時間間隔（例如：首次診斷出目標疾病之前的3年、4年或5年）內的病歷。針對所有擷取到的病歷進行資料清理及整合，以產生第二資料集D2_1、……、D2_r，使得第二資料集D2_1、……、D2_r中的每一個對應至一個主體，且同一主體的病歷被包含在一個第二資料集中。

第二資料集D2_1、……、D2_r中的每一病歷具有一主體的診斷資訊。若一主體已被診斷患有一或多種疾病，則對應的病歷將記錄所診斷的疾病。需說明者，本發明未限制記錄所診斷的疾病的方式。在一些實施方式中，所診斷的疾病為一特定疾病，且可被記錄為遵循國際疾病分類（International Classification of Diseases；ICD）的一疾病代碼。在一些實施方式中，所診斷的疾病為一疾病群組，且可被記錄為遵循ICD的一疾病群組代碼。

在一些實施方式中，疾病代碼可為來自「國際疾病分類，第九修訂版，臨床修改（International Classification of Diseases, Ninth Revision, Clinical Modification，ICD-9-CM）」的代碼。在ICD-9-CM中已列出超過1,000種疾病，其如表2所示含有17個主要章節，且進一步地被分類為分別包含若干疾病的各種疾病群組。以ICD-9-CM的第2章（即，腫瘤）為例，其具有11個疾病群組。

章節	疾病名稱	代碼
1	傳染病及寄生蟲病	001-139
2	腫瘤	140-239
3	內分泌、營養及代謝疾病以及免疫疾病	240-279
4	血液及造血器官疾病	280-289
5	精神障礙	290-319
6	神經系統及感覺器官疾病	320-389
7	循環系統疾病	390-459
8	呼吸系統疾病	460-519
9	消化系統疾病	520-579
10	泌尿生殖系統疾病	580-629
11	妊娠、分娩及產褥期併發症	630-679
12	皮膚及皮下組織疾病	680-709
13	肌肉骨骼系統及結締組織疾病	710-739
14	先天異常	740-759
15	源於週產期的某些病症	760-779
16	症狀、病徵及不明確的情況	780-799
17	受傷及中毒	800-999

表 2

前述用於獲得第二資料集D2_1、……、D2_r的方法已實施於數種目標疾病，其相關資訊及資料羅列於表3中。需說明者，源自NHIRD的資料集的日期為2016年1月29日。疾病代碼為基於ICD-9-CM的代碼。此外，變數代表實驗組中主體的數目，且變數代表對照組中主體的數目。

目標疾病	第二資料庫			疾病代碼
大腸癌	NHIRD	6293	30653	153/154
肺癌	NHIRD	3351	16460	162
肝癌	NHIRD	4532	21970	155
胰腺癌	NHIRD	637	3142	157
前列腺癌	NHIRD	2310	11320	185
乳癌	NHIRD	3465	17083	174
卵巢癌	NHIRD	930	4596	183
食道癌	NHIRD	597	2971	150
胃癌	NHIRD	1116	5459	151

表 3

次要生物標記選擇

如上所述，處理器13藉由基於第二資料集D2_1、……、D2_r識別出目標疾病的複數個共病症及複數個關聯基因來決定複數個次要生物標記SB_1、……、SB_n。在一些實施方式中，處理器13自第二資料集D2_1、……、D2_r中識別出複數個不同診斷疾病，並藉由執行以下運作（c）、（d）及（e）來決定次要生物標記SB_1、……、SB_n。

在運作（c）中，處理器13針對各該不同診斷疾病計算表示與該目標疾病的關聯性的一關聯程度（association degree）。

在一些實施方式中，一診斷疾病與目標疾病之間的一關聯程度包含一勝算比、一p值及一支持率。對於該些實施方式，處理器13基於第二資料集D2_1、……、D2_r計算以下四個統計數字：（i）患有診斷疾病及目標疾病的主體的總數，其由變數表示，（ii）患有診斷疾病但無目標疾病的主體的總數，其由變數表示，（iii）無診斷疾病但患有目標疾病的主體的總數，其由變數表示，以及（iv）無診斷疾病且無目標疾病的主體的總數，其由變數表示。利用此四個統計數字，處理器13可分別藉由以下方程式（3）及方程式（4）來計算勝算比及支持率：（3）（4）

需說明者，其他能夠反映兩種疾病之間的關聯性的指標亦可被採用為一關聯程度。舉例而言，在一些實施方式中，可使用一相對風險指標來作為一關聯程度。

在運作（d）中，從該等不同診斷疾病中，處理器13選擇關聯程度符合一第三預設條件的診斷疾病作為共病症。

針對一關聯程度包含一勝算比、一p值及一支持率的實施方式，第三預設條件包含分別針對勝算比、p值及支持率的三個子條件。作為一具體範例，所述三個子條件可為「勝算比大於2」、「p值小於0.05」以及「支持率大於10%」。

在運作（e）中，處理器13將對應至共病症的複數個基因決定為次要生物標記SB_1、……、SB_n。舉例而言，處理器13可經由甲基化生物標記選擇裝置1的一收發介面（未繪示）自一第三資料庫（例如：DisGeNET資料庫、線上人類孟德爾遺傳（Online Mendelian Inheritance in Man；OMIM）資料庫）擷取對應至共病症的基因。

已基於第三預設條件包含「勝算比大於2」、「p值小於0.05」以及「支持率大於10%」的條件下，將前述用於獲得次要生物標記SB_1、……、SB_n的方法實施於數種目標疾病。表4至表12羅列該等目標疾病的各種顯著共病症及相關資料。具體而言，表4係針對目標疾病「大腸癌」，表5係針對目標疾病「肺癌」，表6係針對目標疾病「肝癌」，表7係針對目標疾病「胰腺癌」，表8係針對目標疾病「前列腺癌」，表9係針對目標疾病「乳癌」，表10係針對目標疾病「卵巢癌」，表11係針對目標疾病「食道癌」，且表12係針對目標疾病「胃癌」。

代碼	共病症					勝算比	P 值	次要生物標記的數目
578	胃腸道出血	717	987	5576	29666	3.864899722	1.10E-153	158
455	痔瘡	1257	2097	5036	28556	3.398979138	3.71E-218	33
564	未分類於他處的功能性消化障礙	3027	7911	3266	22742	2.664363719	8.56E-261	804
532	十二指腸潰瘍	638	1248	5655	29405	2.658242932	1.42E-82	120
536	胃功能紊亂	2539	7295	3754	23358	2.165602731	1.42E-156	118
533	消化性潰瘍部位不明	1871	5042	4422	25611	2.149209463	1.41E-129	168
789	涉及腹部及骨盆的其他症狀	2406	7028	3887	23625	2.080755957	3.51E-138	1025

表 4 （大腸癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
486	肺炎，有機體未明	534	748	2817	15712	3.981844379	1.88E-116	216
496	他處未分類的慢性氣道阻塞	458	766	2893	15694	3.243559903	3.17E-79	208
491	慢性支氣管炎	879	1638	2472	14822	3.217609386	8.51E-136	299
490	支氣管炎，未指明為急性或慢性	416	1031	2935	15429	2.121115604	2.11E-34	239
493	氣喘	541	1388	2810	15072	2.090606828	1.94E-41	2205

表 5 （肺癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
571	慢性肝病及肝硬化	2582	2789	1950	19181	9.106350406	0	649
70	病毒性肝炎	1246	1090	3286	20880	7.26364281	0	1780
574	膽石病	456	665	4076	21305	3.584186177	7.59E-91	269
573	其他肝臟疾病	511	757	4021	21213	3.561172734	3.52E-100	1367
533	消化性潰瘍部位不明	1334	3144	3198	18826	2.497772542	3.84E-129	168
531	胃潰瘍	576	1357	3956	20613	2.211706815	2.55E-51	153

表 6 （肝癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
577	胰腺疾病	91	23	546	3119	22.6014	3.13E-39	763
574	膽石病	101	96	536	3046	5.97882	9.49E-33	269
532	十二指腸潰瘍	101	142	536	3000	3.98098	1.77E-23	120
571	慢性肝病及肝硬化	246	434	391	2708	3.9257	1.15E-45	649
211	消化系統其他部位的良性腫瘤	68	95	569	3047	3.83306	4.30E-16	10169
533	消化性潰瘍部位不明	265	532	372	2610	3.49488	6.35E-41	168
531	胃潰瘍	129	241	508	2901	3.05673	7.13E-21	153

表 7 （胰腺癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
600	前列腺增生症	1837	3542	473	7778	8.52839678	0	117
601	前列腺炎性疾病	350	393	1960	10927	4.965012723	5.09E-95	102
599	尿道及泌尿道的其他疾病	810	1765	1500	9555	2.923342776	2.75E-99	485
788	涉及泌尿系統的症狀	691	1624	1619	9696	2.548225049	2.51E-70	313
595	膀胱炎	257	591	2053	10729	2.272563036	1.37E-25	206

表 8 （前列腺癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
217	乳房良性腫瘤	1211	747	2254	16336	11.74939094	0	10171
611	乳房的其他疾病	1869	1895	1596	15188	9.385724205	0	128
239	不明性質的腫瘤	355	291	3110	16792	6.586844344	1.69E-118	10206
610	良性乳腺發育不良	475	477	2990	16606	5.530559587	2.03E-140	174

表 9 （乳癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
220	卵巢良性腫瘤	337	187	593	4409	13.3990405	3.20E-145	10170
620	卵巢輸卵管及闊韌帶的非炎症性疾病	234	170	696	4426	8.753245436	1.34E-88	5
617	子宮內膜異位	138	180	792	4416	4.274747475	5.57E-34	1242
218	子宮平滑肌瘤	194	398	736	4198	2.78024634	2.31E-26	10218
789	涉及腹部及骨盆的其他症狀	512	1582	418	3014	2.333621665	2.90E-31	1025
614	卵巢輸卵管盆腔細胞組織及腹膜的炎症性疾病	230	577	700	4019	2.288611042	5.47E-21	79
571	慢性肝病及肝硬化	123	321	807	4275	2.029844005	3.44E-10	649

表 10 （卵巢癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
733	骨及軟骨的其他疾病	63	112	534	2859	3.011587079	1.99E-11	1203
627	更年期及絕經後疾病	93	210	504	2761	2.426048753	3.32E-11	10
530	食道疾病	129	309	468	2662	2.374616214	9.83E-14	1149
531	胃潰瘍	73	170	524	2801	2.29538617	1.89E-08	153
571	慢性肝病及肝硬化	133	371	464	2600	2.008783344	6.56E-10	649
533	消化性潰瘍部位不明	151	430	446	2541	2.000683074	1.17E-10	168

表 11 （食道癌的顯著共病症）

代碼	共病症					勝算比	P 值	次要生物標記的數目
531	胃潰瘍	360	444	756	5015	5.378592879	5.96E-96	153
578	胃腸道出血	153	187	963	5272	4.479184367	3.52E-39	158
533	消化性潰瘍部位不明	527	966	589	4493	4.161545167	4.14E-93	168
532	十二指腸潰瘍	157	241	959	5218	3.544606891	1.76E-31	120
285	其他及不明貧血	136	252	980	5207	2.867476514	4.98E-21	1055
536	胃功能紊亂	500	1385	616	4074	2.387594355	9.24E-38	118
535	胃炎及十二指腸炎	568	1715	548	3744	2.26276521	1.47E-34	232

表 12 （胃癌的顯著共病症）

候選生物標記選擇

在獲得主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n之後，處理器13基於主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n的一關聯分析而決定複數個候選生物標記CB_1、……、CB_k。在一些實施方式中，該關聯分析為主要生物標記與次要生物標記的交集（intersection）或聯集（union）。需說明者，在不同實施方式中可使用不同的關聯分析。

如上所述，主要生物標記PB_1、……、PB_m為關於一目標疾病的可鑑別位點，而次要生物標記SB_1、……、SB_n為對應至同一目標疾病的共病症的基因。因此，基於主要生物標記PB_1、……、PB_m及次要生物標記SB_1、……、SB_n的一關聯分析而決定的候選生物標記CB_1、……、CB_k提供令人滿意的結果。此即，可從候選生物標記CB_1、……、CB_k中找到對目標疾病而言為高度靈敏且高度特異的生物標記，且可將其用於關於目標疾病的進一步分析。

生物標記功能分群

不同的候選生物標記CB_1、……、CB_k代表不同的功能作用。如第4圖所示，在一些實施方式中，處理器13進一步地將候選生物標記CB_1、……、CB_k分群成複數個功能群組G_1、……、G_p。在第4圖中，每一黑點代表一個候選生物標記。同一功能群組內的候選生物標記在功能方面彼此接近（例如：調節相同的功能或相似的功能）。

基於基因距離的生物標記功能分群

在一些實施方式中，處理器13可基於候選生物標記CB_1、……、CB_k所能形成的每一配對的基因距離（gene distances），將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。需說明者，基因距離為能夠反映兩個基因之間在功能上的距離的值。

在一些實施方式中，可採用基因本體論（Gene Ontology；GO）的概念來計算基因距離。GO藉由複數個GO用語在一GO樹（GO tree）中描述基因功能，且GO用語被分類為包含生物過程（Biological Process；BP）、分子功能（Molecular Function；MF）以及細胞組成（Cellular Component；CC）的三個互補生物學概念。GO用語已妥善地註釋大多數人類基因的功能。在該些實施方式中，可參照一第四資料庫（例如：Ensembl版本104、Ensembl版本105、Ensembl版本106或Ensembl版本107），以至少一個GO用語對候選生物標記CB_1、……、CB_k的每一個進行註釋。

在該些實施方式中，處理器13計算候選生物標記CB_1、……、CB_k所能形成的每一配對的一基因距離。具體而言，處理器13可藉由以下運作（f）及（g）來計算一第一候選生物標記與一第二候選生物標記之間的一基因距離。

在運作（f）中，處理器13計算第一候選生物標記與第二候選生物標記之間的至少一個GO用語配對中的每一個的一GO用語距離（GO term distance）。需說明者，一GO用語距離為能夠反映二個GO用語之間在功能上的距離的值。

茲提供一具體範例以利了解。在此具體範例中，第一候選生物標記為基因「B3GNTL1」，且其被一GO用語「GO:0016757」註釋，而第二候選生物標記為基因「PLD5」，且其被三個GO用語「GO:0003824」、「GO:0008152」及「GO:0016021」註釋。在第一候選生物標記與第二候選生物標記之間可形成三個GO用語配對，包含(GO:0016757, GO:0003824)、(GO:0016757, GO:0008152)及(GO:0016757, GO:0016021)。處理器13針對所述三個GO用語配對的每一個計算一GO用語距離。

在運作（g）中，處理器13根據在運作（f）中獲得的GO用語距離來決定第一候選生物標記與第二候選生物標記之間的基因距離。在一些實施方式中，處理器13取該（等）GO用語距離的平均值作為第一候選生物標記與第二候選生物標記之間的基因距離。

為便於理解，茲延續前述具體範例詳細說明。對於第一候選生物標記「B3GNTL1」及第二候選生物標記「PLD5」，在運作（f）中已經計算出所述三個GO用語配對(GO:0016757, GO:0003824)、(GO:0016757, GO:0008152)及(GO:0016757, GO:0016021)各自的GO用語距離。因此，可藉由將三個GO用語距離進行平均來獲得第一候選生物標記「B3GNTL1」與第二候選生物標記「PLD5」之間的基因距離。

用於計算基因距離的 GO 用語距離

如上所述，一GO用語距離為能夠反映二個GO用語之間在功能上的距離的值。在一些實施方式中，處理器13基於對應的一資訊內容距離（information content distance）及對應的一Czekanowski-Dice距離（例如：對資訊內容距離及Czekanowski-Dice距離進行平均）來計算各GO用語距離。在計算資訊內容距離及Czekanowski-Dice距離之前，處理器13計算各GO用語的一權重值。一GO用語的權重值可被視為該GO用語在GO樹中所處位置的指標。

對於第 i個GO用語，其權重值被定義為由第 i個GO用語註釋的候選生物標記CB_1、……、CB_k的數目除以由所有GO用語註釋的非重複候選生物標記CB_1、……、CB_k的數目。相較於位於GO樹的較低層級的分支中的一GO用語，位於GO樹的較高層級中的一GO用語對應至更多的候選生物標記，且其對應的權重值相對地較高。

現提供二個具體範例，其假定70個候選生物標記由GO用語「GO:0016757」註釋，690個候選生物標記由GO用語「GO:0003824」註釋，且20,987個非重複候選生物標記由多個GO用語註釋。在該假定之下，GO用語「GO:0016757」的權重值約為0.003335（即，），而GO用語「GO:0003824」的權重值約為0.032877（即，）。

現詳述二個GO用語之間的資訊內容距離。若二個GO用語在GO樹中屬於不同的生物學概念，則它們之間的資訊內容距離被定義為1（即，代表最遠距離的一個值），因為它們不具有最低共用源始（Lowest Common Ancestor；LCA）。若二個GO用語在GO樹中屬於同一個生物學概念，則所述二個GO用語具有一或多個LCAs。若存在多於一個LCA，則選擇具有最低權重值的共同祖先。對於二個GO用語在GO樹中屬於同一個生物學概念的情形，該二個GO用語之間的資訊內容距離係基於該二個GO用語的權重值以及LCA的權重值來計算。任意二個GO用語的資訊內容距離的計算可由以下方程式（5）來表示。（5）

在以上方程式（5）中，代表第 i個GO用語，代表第 j個GO用語，代表第 i個GO用語與第 j個GO用語的LCA，代表第 i個GO用語的權重值，代表第 j個GO用語的權重值，代表GO用語的權重值，且代表第 i個GO用語與第 j個GO用語之間的資訊內容距離。

現提供關於資訊內容距離的一具體範例。假定GO用語「GO:0016757」與GO用語「GO:0003824」具有權重值為0.036451的LCA。在此假定之下，GO用語「GO:0016757」與GO用語「GO:0003824」之間的資訊內容距離為0.03669（即，）。

現詳述二個GO用語之間的Czekanowski-Dice距離。Czekanowski-Dice距離代表由二個GO用語註釋的候選生物標記的集合的相似性。假定及分別代表由第 i個GO用語及第 j個GO用語註釋的候選生物標記的集合。第 i個GO用語與第 j個GO用語之間的Czekanowski-Dice距離可基於以下方程式（6）來計算。（6）

在上述方程式（6）中，代表第 i個GO用語，代表第 j個GO用語，代表由第 i個GO用語註釋的候選生物標記的集合，代表由第 j個GO用語註釋的候選生物標記的集合，且代表第 i個GO用語與第 j個GO用語之間的Czekanowski-Dice距離。此外， Δ 為集合與集合之間的對稱差（symmetrical difference），為集合與集合的聯集，且為集合與集合的交集。當第 i個GO用語與第 j個GO用語之間的獨特性候選生物標記（exclusive candidate biomarkers）的數目為高時，第 i個GO用語與第 j個GO用語之間的Czekanowski-Dice距離相對為大。

現提供關於Czekanowski-Dice距離的一具體範例。關於GO用語「GO:0016757」及GO用語「GO:0003824」，假定獨特性候選生物標記的數目為694，候選生物標記的聯集的數目係為694，且候選生物標記的交集的數目為0。在此種假定之下，GO用語「GO:0016757」與GO用語「GO:0003824」之間的Czekanowski-Dice距離為1。

用於生物標記功能分群的演算法

如上所述，在一些實施方式中，處理器13進一步地將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。

在一些實施方式中，處理器13採用一切割式分群（partition clustering）演算法（例如：K平均分群（K-means clustering）方法）來基於候選生物標記CB_1、……、CB_k所能形成的每一配對的基因距離將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。

表13至表21呈現使用K平均分群方法的數個具體範例的分群結果。具體而言，表13係針對目標疾病「大腸癌」，表14係針對目標疾病「肺癌」，表15係針對目標疾病「肝癌」，表16係針對目標疾病「胰腺癌」，表17係針對目標疾病「前列腺癌」，表18係針對目標疾病「乳癌」，表19係針對目標疾病「卵巢癌」，表20係針對目標疾病「食道癌」，且表21係針對目標疾病「胃癌」。在該等具體範例中，被分群的候選生物標記CB_1、……、CB_k為前述作為具體範例的主要生物標記PB_1、……、PB_m與前述作為具體範例的次要生物標記SB_1、……、SB_n的交集。

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	30	單純皰疹病毒1型感染	對自RNA聚合酶II啟動子的轉錄進行調節	核	RNA聚合酶II轉錄因子活性，序列特異性DNA結合
2	65	耶爾森菌感染	對自RNA聚合酶II啟動子的轉錄進行正調節	染色質	RNA聚合酶II轉錄因子活性，序列特異性DNA結合
3	42	神經活性配體-受體交互作用	鉀離子跨膜轉運	質膜	鉀通道活性

表 13 （針對目標疾病「大腸癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	17	癌症中的轉錄失調	對自RNA聚合酶II啟動子的轉錄進行調節	染色質	RNA聚合酶II轉錄因子活性，序列特異性DNA結合
2	11	無	無	麩胺酸能突觸	無
3	40	趨化因子訊號傳遞路徑	Wnt訊號傳遞路徑	高爾基膜	蛋白質自締合
4	8	無	無	無	無
5	52	調節幹細胞多能性的訊號傳遞路徑	對自RNA聚合酶II啟動子的轉錄進行調節	染色質	RNA聚合酶II轉錄因子活性，序列特異性DNA結合

表 14 （針對目標疾病「肺癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	57	癌症的途徑	對自RNA聚合酶II啟動子的轉錄進行正調節	核	序列特異性DNA結合
2	18	無	對鉀離子跨膜轉運進行調節	膜的完整組分	鈣離子結合
3	43	神經活性配體-受體交互作用	細胞黏附	質膜	鈣離子結合
4	58	鈣訊號傳遞路徑	炎症應答	質膜	蛋白結合
5	30	造血細胞譜系	轉錄調節，DNA模板	蛋白質細胞外基質	金屬離子結合
6	9	無	肽基絲胺酸磷酸化	細胞內	鋅離子結合

表 15 （針對目標疾病「肝癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	28	cAMP訊號傳遞路徑	對自RNA聚合酶II啟動子的轉錄進行調節	染色質	RNA聚合酶II轉錄因子活性，序列特異性DNA結合
2	9	無	無	無	無
3	49	胰島素分泌	黏附連接組織	質膜	蛋白激酶C結合
4	18	無	對自RNA聚合酶II啟動子的轉錄進行調節	染色質	RNA聚合酶II轉錄因子活性，序列特異性DNA結合
5	11	無	無	無	無
6	3	無	無	無	無
7	33	突觸囊泡循環	神經傳遞質分泌	質膜	鈣離子結合

表 16 （針對目標疾病「胰腺癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	25	菸鹼酸鹽及菸鹼醯胺代謝	氧化還原過程	細胞外胞泌體	蛋白質同二聚活性
2	33	碳水化合物的消化及吸收	細胞外基質組織	質膜	鈣離子結合
3	15	無	無	細胞外胞泌體	無
4	26	癌症中的轉錄失調	自RNA聚合酶II啟動子的轉錄	胞液	蛋白結合
5	31	癌症的途徑	對自RNA聚合酶II啟動子的轉錄進行正調節	核	DNA結合

表 17 （針對目標疾病「前列腺癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	15	無	無	膜的完整組分	肌動蛋白結合
2	28	造血細胞譜系	抗原加工及呈遞，經由MHC類別Ib的外源性脂質抗原	蛋白質細胞外基質	鋅離子結合
3	78	癌症的途徑	對自RNA聚合酶II啟動子的轉錄進行正調節	核	轉錄因子活性，序列特異性DNA結合
4	76	鈣訊號傳遞路徑	轉錄，DNA模板	核	轉錄因子活性，序列特異性DNA結合
5	45	細胞黏附分子（CAM）	細胞黏附	質膜	結構分子活性

表 18 （針對目標疾病「乳癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	3	無	無	無	無
2	61	病毒致癌作用	轉錄，DNA模板	核	蛋白結合
3	68	無	對神經元投射發育進行負調節	細胞質	相同蛋白結合

表 19 （針對目標疾病「卵巢癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	31	神經活性配體-受體交互作用	細胞黏附	膜的完整組分	無
2	29	基底細胞癌	對自RNA聚合酶II啟動子的轉錄進行正調節	核	DNA結合
3	19	無	轉錄，DNA模板	核	DNA結合
4	23	癌症中的轉錄失調	轉錄，DNA模板	核	序列特異性DNA結合
5	48	神經活性配體-受體交互作用	對GTP酶活性進行正調節	質膜	受體結合

表 20 （針對目標疾病「食道癌」的 K 平均分群結果）

K 平均分群群組	候選生物標記的數目	代表性 KEGG 途徑	代表性 GO 用語 BP	代表性 GO 用語 CC	代表性 GO 用語 MF
1	36	Ras訊號傳遞路徑	先天免疫反應	細胞內	金屬離子結合
2	68	癌症中的微小RNA	對GTP酶活性進行正調節	細胞質	蛋白結合
3	44	癌症的途徑	對自RNA聚合酶II啟動子的轉錄進行負調節	核	轉錄因子活性，序列特異性DNA結合
4	36	無	細胞黏附	質膜	肌動蛋白絲結合
5	27	無	轉錄，DNA模板	核	蛋白結合
6	20	無	膜筏極化	膜的完整組分	髓鞘的結構成分

表 21 （針對目標疾病「胃癌」的 K 平均分群結果）

在一些實施例中，處理器13採用一階層分群（hierarchical clustering）演算法（例如：不加權算術平均連鎖法（unweighted pair-group method with arithmetic mean；UPGMA））來基於候選生物標記CB_1、……、CB_k所能形成的每一配對之間的基因距離而將候選生物標記CB_1、……、CB_k分群成功能群組G_1、……、G_p。

表22呈現使用UPGMA的數個具體範例的分群結果。在該等具體範例中，被分群的候選生物標記CB_1、……、CB_k為前述作為具體範例的主要生物標記PB_1、……、PB_m與前述作為具體範例的次要生物標記SB_1、……、SB_n的交集。

目標疾病	UPGMA 分群群組	候選生物標記的數目
大腸癌	1	77
2	28
3	31
肺癌	1	24
2	104
肝癌	1	106
2	109
胰腺癌	1	94
2	54
3	3
前列腺癌	1	80
2	20
3	29
乳癌	1	166
2	73
卵巢癌	1	106
2	23
3	3
食道癌	1	37
2	112
胃癌	1	170
2	58

表 22 （九種目標疾病的 UPGMA 分群結果）

權重值計算及目標生物標記選擇

如上所述，不同的候選生物標記CB_1、……、CB_k代表不同的功能角色，且同一功能群組內的候選生物標記在功能上彼此接近。因此，為理解目標疾病與至少一類功能之間的關係，可對功能群組G_1、……、G_p的至少其中之一進行進一步研究。

在一些實施方式中，所有的功能群組G_1、……、G_p皆被進一步地研究。處理器13針對各功能群組G_1、……、G_p的各候選生物標記計算一權重值。一候選生物標記的權重值指出其在其所屬的功能群組中的重要性。在一功能群組中，權重值越高的候選生物標記對於該功能群組越具有代表性。

在一些實施例中，處理器13根據各功能群組G_1、……、G_p中的該等權重值自該等功能群組至少其中之一決定至少一個目標生物標記。如第4圖所示的具體範例，處理器13根據功能群組G_1中的候選生物標記的權重值，自功能群組G_1中決定二個目標生物標記Ta、Tb，但根據功能群組G_p中的候選生物標記的權重值，決定功能群組G_p未有任何目標生物標記。

處理器13可基於不同策略，根據各功能群組G_1、……、G_p中的該等權重值而自該等功能群組至少其中之一決定至少一個目標生物標記。在一些實施方式中，給定一功能群組，處理器13可選擇權重值大於一第三預設門檻值的候選生物標記作為目標生物標記。在一些實施方式中，處理器13可根據各功能群組G_1、……、G_p所對應的該等權重值，針對各功能群組G_1、……、G_p中的候選生物標記進行排序。對於該些實施方式，處理器13可根據對應的排序結果來決定各功能群組G_1、……、G_p的目標生物標記。

上述關於權重值計算及目標生物標記選擇的闡述係針對所有的功能群組G_1、……、G_p都會被進一步研究的情形。如前所述，僅針對功能群組G_1、……、G_p其中之一或其中一部分進一步研究亦為可行的。本發明所屬技術領域中具有通常知識者應能理解如何修改前述運作以適用於僅針對功能群組G_1、……、G_p其中之一或其中一部份進一步研究的情形，故不贅述。

用於權重值計算的遞迴神經網路

在一些實施方式中，處理器13執行一遞迴神經網路（recurrent neural network）M，且藉由遞迴神經網路M計算各功能群組G_1、……、G_p中的各候選生物標記的權重值。如第5圖所示，遞迴神經網路M為基於注意力（attention-based）的遞迴神經網路，且包含一編碼器（encoder）EN、一注意力機制（attention mechanism）AM及一解碼器（decoder）DE，其中注意力機制AM可為一雙層全連接網路。需說明者，遞迴神經網路M中僅有一個編碼器EN。儘管第5圖繪示出多於一個編碼器EN，但該等繪出的編碼器係用以表示編碼器EN執行了多次（詳述於後）。遞迴神經網路M可被訓練為能夠輸出關於一輸入的生物標記序列是否對應至患有目標疾病的一主體的預測P（詳述於後）。

在該些實施方式中，儲存器11儲存複數個候選生物標記序列D3_1、……、D3_s，其可經由甲基化生物標記選擇裝置1的收發介面（未繪示）自一第五資料庫擷取出。各候選生物標記序列D3_1、……、D3_s對應至候選生物標記CB_1、……、CB_k其中之一。候選生物標記序列D3_1、……、D3_s被區分為一正常主體群組及一疾病主體群組。正常主體群組包含與無目標疾病的主體相關的候選生物標記序列，而疾病主體群組包含與患有目標疾病的主體相關的候選生物標記序列。

在該些實施例中，處理器13藉由以下運作（h）、（i）、（j）、（k）及（l）來計算各功能群組G_1、……、G_p中的各候選生物標記的權重值。

在運作（h）中，處理器13藉由將對應至候選生物標記且屬於正常主體群組的候選生物標記序列輸入遞迴神經網路M以從注意力機制AM獲得複數個正常注意力權重值。

茲提供一具體範例以利了解。假定處理器13正在處理功能群組G_p，且功能群組G_p包含三個候選生物標記gp1、gp2、gp3。此外，假定包含在正常主體群組中的候選生物標記序列對應至 N個正常主體（即， N個無目標疾病的主體），其中 N為正整數。對於 N個正常主體中的每一個，其分別對應至候選生物標記gp1、gp2、gp3的候選生物標記序列sg1、sg2、sg3被依序輸入至編碼器EN。如第5圖所示，編碼器EN因應於候選生物標記序列sg1而輸出一回饋向量ht1及一狀態向量hs1，因應於候選生物標記序列sg2及回饋向量ht1而輸出一回饋向量ht2及一狀態向量hs2，且因應於候選生物標記序列sg3及回饋向量ht2而輸出一回饋向量ht3及一狀態向量hs3。注意力機制AM因應於狀態向量hs1、hs2、hs3及回饋向量ht3而輸出正常注意力權重值aw1、aw2、aw3，其中正常注意力權重值aw1、aw2、aw3分別對應至候選生物標記gp1、gp2、gp3。在對所有 N個正常主體的候選生物標記序列進行處理後，即可獲得候選生物標記gp1、gp2、gp3各自的 N個正常注意力權重值。

儘管上述具體範例係針對功能群組G_p，但本發明所屬技術領域中具有通常知識者應理解可藉由相同的方法來獲得其餘的各功能群組的候選生物標記所對應的正常注意力權重值。因此，不再贅述其細節。

在運作（i）中，處理器13藉由將對應至候選生物標記且屬於疾病主體群組的候選生物標記序列輸入遞迴神經網路以從注意力機制AM獲得複數個疾病注意力權重值。運作（i）類似於運作（h），且二者間唯一的區別在於運作（i）係採用來自疾病主體群組的候選生物標記序列。本發明所屬技術領域中具有通常知識者可基於上述針對運作（h）的闡述來理解運作（i）的細節。

在運作（j）中，處理器13藉由將該等正常注意力權重值平均以計算出一平均正常權重值。以候選生物標記gp1為例，處理器13藉由將對應至候選生物標記gp1的該等正常注意力權重值平均來計算對應至候選生物標記gp1的平均正常權重值。需說明者，處理器13係針對各功能群組G_1、……、G_p中的各候選生物標記個別地計算一平均正常權重值。

在運作（k）中，處理器13藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值。類似地，以候選生物標記gp1為例，處理器13藉由將對應至候選生物標記gp1的該等疾病注意力權重值平均來計算對應至候選生物標記gp1的平均疾病權重值。需說明者，處理器13係針對各功能群組G_1、……、G_p中的各候選生物標記個別地計算一平均疾病權重值。

在運作（l）中，處理器13根據平均正常權重值及平均疾病權重值來計算權重值。再次以候選生物標記gp1為例，處理器13根據候選生物標記gp1的平均正常權重值及候選生物標記gp1的平均疾病權重值來計算候選生物標記gp1的權重值。類似地，處理器13係針對各功能群組G_1、……、G_p中的各候選生物標記個別地計算一權重值。

使用遞迴神經網路M進行權重值計算的優點在於遞迴神經網路M擅長處理長資料序列。採用一傳統的神經網路（conventional neural network）模型通常會有缺乏足夠空間來儲存長資料序列的技術問題。遞迴神經網路M的注意力機制AM具有忽略不太重要的資料的能力。由於僅儲存更重要的資料，因此採用遞迴神經網路M進行權重值計算將不會面臨缺乏足夠空間來儲存資料此技術問題。

如上所述，遞迴神經網路M可被訓練為能輸出關於輸入的生物標記序列是否對應至患有目標疾病的一主體的預測P。在第5圖所示的具體範例（即，輸入的生物標記序列為候選生物標記序列sg1、sg2、sg3的具體範例）中，加權求和運算（weighted summation operation；OP）藉由利用正常注意力權重值aw1、aw2、aw3分別對狀態向量hs1、hs2、hs3進行加權再對其求和以產生一訊號，之後解碼器DE因應於來自加權求和運算OP的訊號來產生預測P。

候選生物標記驗證

在一些實施方式中，為達成更準確的結果，處理器13在進行生物標記功能分群之前會對候選生物標記CB_1、……、CB_k進行驗證，並排除那些驗證失敗的候選生物標記。候選生物標記驗證包含二個階段，所述二個階段包含最佳切點選擇（optimal cut-point selection）及候選生物標記篩選。

在第一階段中，處理器13藉由以下運作（m）、（n）、（o）及（p）而針對各候選生物標記CB_1、……、CB_k從複數個預設切點中決定一最佳切點。一候選生物標記的最佳切點可被視為用於判斷對應至此候選生物標記的甲基化程度是否嚴重的一門檻值。一預設切點可為介於0與甲基化程度的最大值之間的一個值。需說明者，本發明不限制預設切點的數目。然而，預設切點越多將使得最佳切點越精確。舉例而言，若甲基化程度的最大值為1，且需要99個預設切點，則可將99個預設切點的值設定為0.01、0.02、……及0.99。

在運作（m）中，處理器13根據第一資料集D1_1、……、D1_q的正常主體群組中對應至所關注的候選生物標記（例如：候選生物標記CB_1）的該等甲基化程度來計算一平均正常值。需說明者，若平均正常值已經被計算出（例如：已經執行前述運作（a）），則可省略運作（m）。

在運作（n）中，處理器13將記錄在第一資料集D1_1、……、D1_q中的與所關注的候選生物標記（例如：候選生物標記CB_1）對應的各該甲基化程度減去該平均正常值，藉此計算出複數個第一差值（difference values）。

在運作（o）中，處理器13根據對應至所關注的候選生物標記（例如：候選生物標記CB_1）的該等第一差值，針對各預設切點個別地產生一第一混淆矩陣（confusion matrix）。

茲提供一具體範例以利了解。相關於一所關注的候選生物標記（例如：候選生物標記CB_1）與一所關注的預設切點（例如：0.02）的第一混淆矩陣包含以下四個統計數字：（i）被預測為患有目標疾病且確實患有目標疾病的主體的總數，其由變數表示，（ii）被預測為患有目標疾病但實際並未患有目標疾病的主體的總數，其由變數表示，（iii）被預測為未患有目標疾病但確實患有目標疾病的主體的總數，其由變數表示，以及（iv）被預測為未患有目標疾病且實際上亦未患有目標疾病的主體的總數，其由變數表示。

對於一第一差值，若其大於所關注的預設切點（例如：0.02），則預測對應的主體患有目標疾病。此外，對應至一第一差值的一主體是否患有目標疾病為已知的，因為一第一差值係基於記錄在第一資料集D1_1、……、D1_q其中之一的一甲基化程度計算的，而第一資料集D1_1、……、D1_q的每一筆屬於正常主體群組或目標主體群組。

在運作（p）中，處理器13根據對應的該等第一混淆矩陣來選擇該等預設切點其中之一作為所關注的候選生物標記（例如：候選生物標記CB_1）的最佳切點。

對於一所關注的候選生物標記（例如：候選生物標記CB_1），在運作（o）中已產生各預設切點的一第一混淆矩陣。舉例而言，若存在99個預設切點，則會有99個第一混淆矩陣對應至所關注的候選生物標記。在一些實施方式中，對於各該第一混淆矩陣，處理器13可基於該第一混淆矩陣產生一靈敏度值（即，）及一特異度值（即，），再產生該靈敏度值與該特異度值的一彙總值。接著，處理器13選擇具有最大彙總值的預設切點作為所關注的候選生物標記的最佳切點。

現針對第二階段（即，候選生物標記篩選）詳細說明。為執行第二階段，儲存器11儲存複數個第三資料集D4_1、……、D4_t，且第三資料集D4_1、……、D4_t中的每一個包含對應至該等甲基化位點的複數個甲基化程度。甲基化生物標記選擇裝置1可經由甲基化生物標記選擇裝置1的一收發介面（未繪示）自一第六資料庫（例如：基因表達綜合（GEO）資料庫）獲得第三資料集D4_1、……、D4_t。

表23呈現用於九種目標疾病的第三資料集D4_1、……、D4_t的相關資訊的具體範例。需說明者，來自TCGA的資料檔案的日期為2021年3月15日，而來自GEO資料庫的資料檔案的日期為2021年10月30日。此外，變數表示無目標疾病的主體的數目，且變數表示有目標疾病的主體的數目。

目標疾病	第六資料庫	/
大腸癌	GEO	0/48
肺癌	GEO	19/164
肝癌	GEO	22/22
胰腺癌	GEO	29/167
前列腺癌	GEO	16/31
乳癌	TCGA	47/368
卵巢癌	GEO	10/10
食道癌	GEO	16/24
胃癌	GEO	12/12

表 23

處理器13藉由以下運作（q）、（r）、（s）及（t）來驗證候選生物標記CB_1、……、CB_k中的每一個。

在運作（q）中，處理器13藉由將第三資料集D4_1、……、D4_t中對應至該候選生物標記的各該甲基化程度減去該平均正常值來計算出複數個第二差值。

在運作（r）中，處理器13根據最佳切點及對應至該候選生物標記的該等第二差值來產生最佳切點的一第二混淆矩陣。類似地，第二混淆矩陣包含以下四個統計數字：（i）被預測為患有目標疾病且確實患有目標疾病的主體的總數，（ii）被預測為患有目標疾病但實際並未患有目標疾病的主體的總數，（iii）被預測為未患有目標疾病但確實患有目標疾病的主體的總數，以及（iv）被預測為未患有目標疾病且實際上亦未患有目標疾病的主體的總數。

在運作（s）中，處理器13根據第二混淆矩陣來產生一靈敏度值、一特異度值及一準確度值（即，預測正確的比率）。為更佳地理解，表24羅列九種目標疾病各自的候選生物標記的準確度值的統計數字。

目標疾病	候選生物標記的數目	前 10 名分類準確度平均值	前 20 名分類準確度平均值	總分類準確度平均值
大腸癌	141	0.933333	0.913542	0.8125
肺癌	135	0.933333	0.922677	0.759191
肝癌	222	0.659091	0.631818	0.539312
胰腺癌	156	0.960204	0.952296	0.85397
前列腺癌	131	0.993617	0.98617	0.907001
乳癌	246	0.934934	0.921928	0.836189
卵巢癌	135	0.97	0.955	0.739474
食道癌	157	0.95	0.9225	0.707643
胃癌	234	0.795833	0.76875	0.583511

表 24

在運作（t）中，處理器13根據準確度值及一第四預設門檻值來驗證候選生物標記。舉例而言，若一候選生物標記的準確度值低於第四預設門檻值，則排除該候選生物標記。

對於執行候選生物標記驗證的那些實施方式，僅通過驗證（即，未被排除）的候選生物標記將被進行功能分群。

第6圖繪示在本發明的一些實施方式中的甲基化生物標記選擇方法的主要流程圖。甲基化生物標記選擇方法適用於一電子裝置（例如：甲基化生物標記選擇裝置1）。該電子裝置儲存複數個第一資料集及複數個第二資料集，其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度，且各該第二資料集包含至少一病歷。該甲基化生物標記選擇方法包含以下步驟S601、S603及S605。

在步驟S601中，電子裝置根據該等第一資料集中的該等甲基化程度自該等甲基化位點中識別出複數個可鑑別位點，藉此決定複數個主要生物標記。在一些實施方式中，步驟S601包含以下步驟：從該等甲基化位點中選取滿足以下二個條件的至少其中之一者作為該等可鑑別位點：(i)具有符合一第一預設條件的一平均甲基化程度差異，以及(ii)具有符合一第二預設條件的一p值，其中該等可鑑別位點被決定為該等主要生物標記。

在步驟S603中，電子裝置基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因，藉此決定複數個次要生物標記。在一些實施方式中，步驟S603包含以下步驟：針對複數個不同診斷疾病中的每一個計算一關聯程度以表示與該目標疾病的關聯性；從該等診斷疾病中選取滿足以下條件者作為該等共病症：該關聯程度符合一第三預設條件；以及將對應至該等共病症的複數個基因決定為該等次要生物標記。在一些實施例中，各該不同診斷疾病的該關聯程度包含一勝算比、一p值及一支持率。

在步驟S605中，電子裝置基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。需說明者，本發明未限制步驟S601及S603的執行順序。在一具體範例中，步驟S603可在步驟S601之前執行。在另一具體範例中，步驟S601與步驟S603可同時執行。

第7圖描繪在本發明的一些實施方式中的甲基化生物標記選擇方法的主要流程圖。在該些實施方式中，除了步驟S601、S603及S605之外，甲基化生物標記選擇方法更包含以下步驟S707、S709及S711。

在步驟S707中，電子裝置將該等候選生物標記分群為複數個功能群組。在一些實施方式中，步驟S707基於該等候選生物標記所能形成的每一配對的基因距離而將候選生物標記分群為功能群組。在該些實施方式中，步驟S707包含計算至少一個基因距離的步驟，而該步驟更包含以下步驟：計算一第一候選生物標記與一第二候選生物標記之間的至少一個GO用語配對的每一配對的一GO用語距離；以及根據該至少一GO用語距離決定該第一候選生物標記與該第二候選生物標記之間的該基因距離。在一些實施例中，各該GO用語距離係基於一資訊內容距離及一Czekanowski-Dice距離而計算。

在步驟S709中，電子裝置針對各該功能群組中的各該候選生物標記計算一權重值。在一些實施方式中，電子裝置執行包含一編碼器、一注意力機制及一解碼器的遞迴神經網路，且步驟S709由該遞迴神經網路達成。在該些實施方式中，複數個候選生物標記序列中的每一個屬於一正常主體群組或一疾病主體群組，各該候選生物標記序列對應至該等候選生物標記其中之一，且步驟S709包含如第8圖所示的步驟S801、S803、S805、S807及S809。

在步驟S801中，電子裝置藉由將對應至該候選生物標記且屬於該正常主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個正常注意力權重值。在步驟S803中，電子裝置藉由將對應至該候選生物標記且屬於該疾病主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個疾病注意力權重值。在步驟S805中，電子裝置藉由將該等正常注意力權重值平均以計算出一平均正常權重值。在步驟S807中，電子裝置藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值。在步驟S809中，電子裝置根據該平均正常權重值及該平均疾病權重值計算出該權重值。需說明者，步驟S801、S803、S805及S807可以其他順序執行，只要步驟S801在步驟S803之前且步驟S805在步驟S807之前即可。

在步驟S711中，電子裝置根據各該功能群組中的該等權重值自該等功能群組至少其中之一中決定至少一個目標生物標記。在一些實施方式中，甲基化生物標記選擇方法更包含針對各該功能群組，根據對應的該等權重值排序對應的該等候選生物標記。在該些實施方式中，步驟S711可根據各該功能群組的排序結果自該等功能群組至少其中之一中決定該至少一個目標生物標記。

除了前述步驟之外，本發明所提供的甲基化生物標記選擇方法還可執行甲基化生物標記選擇裝置1所能執行的所有運作及步驟，具有與甲基化生物標記選擇裝置1相同的功能，且實現與甲基化生物標記選擇裝置1相同的技術效果。基於對甲基化生物標記選擇裝置1的上述闡釋，本發明所屬技術領域中具有通常知識者即能理解本發明所提供的甲基化生物標記選擇方法如何執行該等運作及步驟以具有與甲基化生物標記選擇裝置1相同的功能且實現與甲基化生物標記選擇裝置1相同的技術效果，故不再贅述。

上述實施方式中闡述的甲基化生物標記選擇方法可被實施為包含複數個程式指令的電腦程式。電腦程式儲存在一非暫態電腦可讀取儲存媒體中。在將電腦程式的程式指令載入一電子裝置（例如：甲基化生物標記選擇裝置1）後，電腦程式執行上述實施方式中的甲基化生物標記選擇方法。非暫態電腦可讀取儲存媒體可為一電子產品，例如：一唯讀記憶體（Read Only Memory；ROM）、一快閃記憶體、一軟磁碟、一硬磁碟、一光碟（Compact Disk；CD）、一數位多功能光碟（Digital Versatile Disc；DVD）、一行動磁碟、一可經由網路存取的資料庫或者具有相同功能且為本發明所屬技術領域中具有通常知識者所知的任何其他儲存媒體。

大腸癌目標生物標記的臨床驗證

為證實候選生物標記在臨床環境中的效用，使用自福馬林固定的石蠟包埋（formalin-fixed, paraffin-embedded；FFPE）腫瘤組織樣本中提取的DNA、利用甲基化特異性聚合酶鏈反應（Polymerase Chain Reaction；PCR）策略來完成對大腸癌的該等候選生物標記的臨床驗證。以大腸癌為例，自141個候選生物標記中選擇出10個目標生物標記，並為每一目標生物標記設計對應的定量甲基化特異性PCR（quantitative methylation-specific PCR，qMSP）引子。首先，使用市售的人類甲基化及非甲基化DNA標準品（Zymo research，類別（Cat.）#D5014）來測試引子效能並建立校準曲線，用於隨後評估臨床樣本中的甲基化程度。

接著，選擇99個臨床FFPE樣本，其包含跨越9種癌症類型的18個正常組織及81個腫瘤組織，以確定在各種癌症樣本中大腸癌的該等所選擇的10個目標生物標記的甲基化程度。使用EZ DNA Methylation-Lightning ^TM試劑盒（Zymo research，Cat. #D5031）並遵循製造商的說明手冊對所提取的DNA進行亞硫酸氫鹽轉化。最後，對經亞硫酸氫鹽轉化的DNA進行qMSP測試，以使用校準曲線進一步地決定其甲基化程度。

第9圖及表25至表33呈現所有結果。在第9圖中，「CRC」代表大腸癌，「LC」代表肺癌，「BC」代表乳癌，「EC」代表食道癌，「GC」代表胃癌，「HCC」代表肝細胞癌，「OV」代表卵巢癌，「Pan」代表胰腺癌，且「Pros」代表前列腺癌。此外，表25係針對「大腸癌」，表26係針對「肺癌」，表27係針對「乳癌」，表28係針對「食道癌」，表29係針對「胃癌」，表30係針對「肝細胞癌」，表31係針對「卵巢癌」，表32係針對「胰腺癌」，且表33係針對「前列腺癌」。

結果顯示，相較於正常組織，在大腸癌腫瘤組織中大腸癌的目標生物標記的甲基化程度顯著上調（up-regulated）。此外，ADHFE1、PLD5及NRG1在胃癌（GC）、食道癌（EC）及胰腺癌（Pan）中具有較高的甲基化程度。相較之下，MMP23B基因的甲基化程度似乎在每種測試的癌症類型中皆有所升高。

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	5	最大值	14.4%	0.9%	7.3%	21.1%	15.8%	6.5%	22.6%	0.0%	56.2%	3.1%
Q3	8.2%	0.4%	2.1%	6.4%	12.0%	3.8%	6.3%	0.0%	7.8%	0.0%
中位數	3.2%	0.4%	0.9%	3.8%	4.0%	1.0%	3.6%	0.0%	3.2%	0.0%
Q1	0.9%	0.1%	0.7%	2.4%	1.8%	0.4%	0.4%	0.0%	2.7%	0.0%
最小值	0.7%	0.0%	0.0%	1.8%	1.7%	0.0%	0.1%	0.0%	1.6%	0.0%
腫瘤	15	最大值	476.1%	228.9%	183.1%	264.0%	163.4%	214.0%	163.3%	153.7%	421.9%	652.2%
Q3	234.8%	48.1%	44.0%	83.7%	88.0%	54.5%	70.4%	20.9%	98.0%	146.7%
中位數	147.7%	21.8%	9.4%	62.8%	66.2%	29.6%	42.5%	9.3%	65.9%	53.2%
Q1	83.0%	5.2%	5.9%	21.9%	33.2%	12.4%	25.8%	2.2%	46.6%	12.3%
最小值	10.5%	0.0%	0.0%	8.0%	1.0%	0.0%	1.8%	0.0%	19.6%	0.0%

表 25 （大腸癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	2	最大值	0.0%	0.3%	0.0%	0.0%	5.8%	0.0%	0.0%	0.0%	0.0%	0.0%
Q3	0.0%	0.2%	0.0%	0.0%	4.5%	0.0%	0.0%	0.0%	0.0%	0.0%
中位數	0.0%	0.1%	0.0%	0.0%	3.2%	0.0%	0.0%	0.0%	0.0%	0.0%
Q1	0.0%	0.1%	0.0%	0.0%	2.0%	0.0%	0.0%	0.0%	0.0%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	0.7%	0.0%	0.0%	0.0%	0.0%	0.0%
腫瘤	7	最大值	50.2%	5.9%	10.8%	2.5%	197.4%	1.4%	25.9%	3.1%	1.7%	0.9%
Q3	1.6%	0.4%	2.5%	1.8%	122.2%	0.6%	11.4%	0.0%	1.3%	0.0%
中位數	0.9%	0.0%	0.8%	0.4%	33.3%	0.4%	3.2%	0.0%	0.9%	0.0%
Q1	0.4%	0.0%	0.3%	0.1%	24.1%	0.1%	1.8%	0.0%	0.3%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	1.6%	0.0%	0.3%	0.0%	0.0%	0.0%

表 26 （肺癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	1	最大值	0.0%	0.0%	0.2%	0.1%	4.7%	0.8%	0.3%	0.0%	0.0%	0.4%
Q3	0.0%	0.0%	0.2%	0.1%	4.7%	0.8%	0.3%	0.0%	0.0%	0.4%
中位數	0.0%	0.0%	0.2%	0.1%	4.7%	0.8%	0.3%	0.0%	0.0%	0.4%
Q1	0.0%	0.0%	0.2%	0.1%	4.7%	0.8%	0.3%	0.0%	0.0%	0.4%
最小值	0.0%	0.0%	0.2%	0.1%	4.7%	0.8%	0.3%	0.0%	0.0%	0.4%
腫瘤	9	最大值	244.8%	177.2%	21.4%	72.4%	135.3%	56.2%	105.3%	107.1%	135.6%	16.1%
Q3	1.2%	1.4%	0.5%	3.4%	59.2%	3.3%	51.6%	8.2%	23.3%	0.8%
中位數	0.5%	0.4%	0.3%	1.0%	42.9%	1.2%	19.0%	0.5%	2.1%	0.3%
Q1	0.3%	0.0%	0.1%	0.7%	23.5%	0.0%	5.6%	0.0%	0.5%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	16.6%	0.0%	0.4%	0.0%	0.0%	0.0%

表 27 （乳癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
腫瘤	10	最大值	135.8%	245.6%	65.6%	135.0%	105.7%	149.0%	96.8%	148.3%	356.7%	46.3%
Q3	98.7%	31.1%	44.7%	73.3%	58.9%	59.1%	51.7%	24.5%	108.8%	8.7%
中位數	50.1%	10.4%	11.3%	34.8%	33.6%	25.4%	39.3%	7.5%	40.5%	4.3%
Q1	6.1%	0.7%	2.7%	13.2%	25.0%	2.1%	11.7%	0.6%	9.3%	0.0%
最小值	0.0%	0.0%	0.1%	0.0%	6.7%	0.0%	0.1%	0.0%	0.0%	0.0%

表 28 （食道癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	1	最大值	0.3%	0.0%	0.1%	0.2%	6.1%	0.0%	0.1%	0.0%	0.1%	0.0%
Q3	0.3%	0.0%	0.1%	0.2%	6.1%	0.0%	0.1%	0.0%	0.1%	0.0%
中位數	0.3%	0.0%	0.1%	0.2%	6.1%	0.0%	0.1%	0.0%	0.1%	0.0%
Q1	0.3%	0.0%	0.1%	0.2%	6.1%	0.0%	0.1%	0.0%	0.1%	0.0%
最小值	0.3%	0.0%	0.1%	0.2%	6.1%	0.0%	0.1%	0.0%	0.1%	0.0%
腫瘤	9	最大值	229.6%	91.9%	122.0%	118.2%	119.4%	95.5%	96.8%	55.9%	234.0%	68.6%
Q3	155.4%	46.6%	61.2%	95.8%	97.8%	67.2%	73.0%	21.6%	161.9%	42.4%
中位數	46.4%	19.2%	17.6%	65.6%	52.8%	17.6%	58.9%	5.1%	86.1%	15.9%
Q1	10.9%	0.3%	8.9%	41.9%	28.1%	3.8%	37.7%	1.7%	56.5%	12.1%
最小值	1.4%	0.1%	2.0%	17.2%	13.9%	2.0%	12.6%	0.5%	2.8%	1.2%

表 29 （胃癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	2	最大值	0.2%	0.2%	0.1%	0.8%	12.9%	0.2%	0.0%	0.0%	1.1%	0.1%
Q3	0.2%	0.2%	0.1%	0.6%	12.1%	0.1%	0.0%	0.0%	0.9%	0.0%
中位數	0.1%	0.1%	0.0%	0.4%	11.3%	0.1%	0.0%	0.0%	0.6%	0.0%
Q1	0.1%	0.1%	0.0%	0.2%	10.4%	0.0%	0.0%	0.0%	0.4%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	9.6%	0.0%	0.0%	0.0%	0.1%	0.0%
腫瘤	8	最大值	11.8%	0.2%	0.7%	2.1%	87.2%	1.1%	34.5%	3.4%	24.6%	0.2%
Q3	1.5%	0.0%	0.4%	1.0%	60.8%	0.1%	5.6%	1.7%	2.8%	0.0%
中位數	0.1%	0.0%	0.3%	0.5%	35.7%	0.0%	2.7%	0.1%	1.5%	0.0%
Q1	0.0%	0.0%	0.1%	0.0%	18.8%	0.0%	2.0%	0.0%	0.9%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	17.2%	0.0%	0.0%	0.0%	0.2%	0.0%

表 30 （肝細胞癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	2	最大值	0.0%	0.0%	0.2%	0.3%	1.9%	0.0%	0.4%	0.2%	0.4%	0.0%
Q3	0.0%	0.0%	0.1%	0.2%	1.9%	0.0%	0.3%	0.1%	0.4%	0.0%
中位數	0.0%	0.0%	0.1%	0.1%	1.8%	0.0%	0.2%	0.1%	0.4%	0.0%
Q1	0.0%	0.0%	0.0%	0.1%	1.8%	0.0%	0.1%	0.0%	0.4%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	1.8%	0.0%	0.0%	0.0%	0.4%	0.0%
腫瘤	8	最大值	135.1%	17.7%	107.0%	0.0%	112.4%	0.1%	86.7%	14.1%	103.9%	42.0%
Q3	30.2%	0.4%	51.9%	0.0%	97.9%	0.0%	22.8%	0.5%	4.4%	0.0%
中位數	0.1%	0.0%	0.2%	0.0%	78.7%	0.0%	1.1%	0.0%	0.3%	0.0%
Q1	0.0%	0.0%	0.0%	0.0%	54.3%	0.0%	0.1%	0.0%	0.1%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	24.9%	0.0%	0.0%	0.0%	0.0%	0.0%

表 31 （卵巢癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	1	最大值	0.3%	0.4%	0.7%	0.8%	44.5%	0.6%	0.1%	0.0%	0.4%	0.0%
Q3	0.3%	0.4%	0.7%	0.8%	44.5%	0.6%	0.1%	0.0%	0.4%	0.0%
中位數	0.3%	0.4%	0.7%	0.8%	44.5%	0.6%	0.1%	0.0%	0.4%	0.0%
Q1	0.3%	0.4%	0.7%	0.8%	44.5%	0.6%	0.1%	0.0%	0.4%	0.0%
最小值	0.3%	0.4%	0.7%	0.8%	44.5%	0.6%	0.1%	0.0%	0.4%	0.0%
腫瘤	9	最大值	159.3%	49.6%	85.0%	127.9%	122.1%	82.2%	273.2%	59.4%	161.8%	5.3%
Q3	1.7%	15.2%	27.0%	30.0%	112.1%	47.2%	50.6%	5.4%	105.3%	3.6%
中位數	0.0%	4.5%	5.1%	21.1%	36.7%	28.3%	44.0%	2.9%	89.4%	0.0%
Q1	0.0%	0.1%	0.1%	11.0%	29.5%	0.8%	15.4%	0.0%	31.9%	0.0%
最小值	0.0%	0.0%	0.0%	0.0%	15.4%	0.0%	0.0%	0.0%	0.3%	0.0%

表 32 （胰腺癌的臨床驗證結果）

組織狀態	n	四分位數	ADHFE1	ADARB2	EFS	ADAMTS5	MMP23B	PLD5	MIR129-2	IRF4	NRG1	KCNQ5
正常	4	最大值	0.5%	0.1%	1.8%	0.7%	4.4%	0.0%	0.2%	0.1%	0.6%	0.4%
Q3	0.2%	0.0%	1.0%	0.6%	3.1%	0.0%	0.1%	0.0%	0.5%	0.4%
中位數	0.1%	0.0%	0.6%	0.3%	2.7%	0.0%	0.0%	0.0%	0.3%	0.3%
Q1	0.0%	0.0%	0.4%	0.1%	2.4%	0.0%	0.0%	0.0%	0.1%	0.2%
最小值	0.0%	0.0%	0.3%	0.0%	1.6%	0.0%	0.0%	0.0%	0.0%	0.0%
腫瘤	6	最大值	234.5%	0.1%	258.1%	84.8%	94.2%	1.7%	143.2%	17.8%	80.6%	401.1%
Q3	24.5%	0.0%	154.3%	8.2%	77.5%	0.1%	43.2%	1.4%	16.2%	61.3%
中位數	0.5%	0.0%	70.4%	0.3%	52.0%	0.0%	12.9%	0.0%	3.8%	32.1%
Q1	0.1%	0.0%	37.5%	0.1%	21.1%	0.0%	3.2%	0.0%	0.1%	1.0%
最小值	0.0%	0.0%	29.9%	0.0%	6.5%	0.0%	1.7%	0.0%	0.0%	0.3%

表 33 （前列腺癌的臨床驗證結果）

需說明者，本發明專利說明書及申請專利範圍中的某些用語（例如：資料集、資料庫、預設條件、預設門檻值、候選生物標記、差值、混淆矩陣）前被冠以「第一」、「第二」、「第三」、「第四」、「第五」或「第六」等用語，該等「第一」、「第二」、「第三」、「第四」、「第五」及「第六」係用以區隔該等用語彼此不同。若未特別說明該等用語間具有順序，或前後文無法看出該等用語間具有順序，則該等用語的順序不受所冠以的「第一」、「第二」、「第三」、「第四」、「第五」或「第六」所限制。

此外，需說明者，前述正常主體及正常主體群組在不同的實施方式中可具有不同的含義。舉例而言，若甲基化生物標記選擇裝置或方法旨在找出特定種族的候選生物標記或／及目標生物標記，則前述正常主體及正常主體群組可縮小至與屬於該特定種族且無目標疾病的主體相關。

綜上所述，本發明所提供的甲基化生物標記選擇技術（至少包含甲基化生物標記選擇裝置及方法）利用兩種不同類型的資料集（即，該等第一資料集及該等第二資料集）來發現與一目標疾病相關的候選生物標記。該等第一資料集包含各種甲基化位點的甲基化程度，而第二資料集包含病歷。藉由利用第一資料集，本發明能識別出可鑑別位點作為與目標疾病相關的主要生物標記。藉由利用第二資料集，本發明能識別出目標疾病的共病症及其關聯基因以提供與目標疾病相關的次要生物標記。由於本發明一併地考量目標疾病的甲基化程度與共病症，因此本發明的甲基化生物標記選擇技術可提供對目標疾病具有高靈敏度及高特異性的候選生物標記。此外，由於候選生物標記係基於主要生物標記與次要生物標記的一關聯分析而決定的，因此本發明可提供足夠數量的候選生物標記。

本申請案主張於2021年9月28日提出申請的美國臨時專利申請案第63/261,780號的優先權，該美國臨時專利申請案的全部內容以引用方式併入本文中。

上述各實施方式係用以例示性地說明本發明的部分實施態樣，以及闡釋本發明的技術特徵，而非用來限制本發明的保護範疇及範圍。任何本發明所屬技術領域中具有通常知識者可輕易完成的改變或均等性的安排均屬於本發明所主張的範圍，本發明的權利保護範圍以申請專利範圍為準。

1:甲基化生物標記選擇裝置 11:儲存器 13:處理器 AM:注意力機制 aw1、aw2、aw3:正常注意力權重值 CB_1、CB_k:候選生物標記 D1_1、D1_q:第一資料集 D2_1、D2_r:第二資料集 D3_1、D3_s:候選生物標記序列 D4_1、D4_t:第三資料集 DE:解碼器 EN:編碼器 F_1、F_o:資料檔案 G_1、G_p:功能群組 hs1、hs2、hs3:狀態向量 ht1、ht2、ht3:回饋向量 gp1、gp2、gp3:候選生物標記 M:遞迴神經網路 OP:加權求和運算 P:預測 PB_1、PB_m:主要生物標記 S601、S603、S605:步驟 S707、S709、S711:步驟 S801、S803、S805、S807、S809:步驟 SB_1、SB_n:次要生物標記 sg1、sg2、sg3:候選生物標記序列 Ta、Tb:目標生物標記

第1圖例示在本發明的一些實施方式中的甲基化生物標記選擇裝置1的示意圖。

第2圖例示基於甲基化程度及與一目標疾病相關的共病症來找出候選生物標記的概括資料處理流程。

第3圖例示在本發明的一些實施方式中用於獲得第一資料集D1_1、……、D1_q的資料處理流程。

第4圖例示在本發明的一些實施方式中用於權重值計算及目標生物標記選擇的資料處理流程。

第5圖例示在本發明的一些實施方式中使用的一實例性遞迴神經網路的示意圖。

第6圖例示在本發明的一些實施方式中甲基化生物標記選擇方法的主要流程圖。

第7圖例示在本發明的一些實施方式中甲基化生物標記選擇方法的主要流程圖。

第8圖例示在本發明的一些實施方式中步驟S709的主要流程圖。

第9圖例示目標生物標記的臨床驗證的實例性結果。

無

S601、S603、S605:步驟

Claims

一種甲基化生物標記選擇裝置，包含：一儲存器，儲存複數個第一資料集與複數個第二資料集，其中各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度，且各該第二資料集包含至少一病歷；以及一處理器，電性連接至該儲存器，且執行以下運作： (a) 根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點，藉此決定複數個主要生物標記， (b) 基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因，藉此決定複數個次要生物標記，以及 (c) 基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
如請求項1所述的甲基化生物標記選擇裝置，其中該處理器更執行以下運作： (d) 將該等候選生物標記分群為複數個功能群組， (e) 針對各該功能群組中的各該候選生物標記計算一權重值，以及 (f) 根據各該功能群組中的該等權重值，從該等功能群組中的至少一個決定至少一目標生物標記。
如請求項1所述的甲基化生物標記選擇裝置，其中該處理器係藉由執行以下運作以決定該等主要生物標記：從該等甲基化位點中選取滿足以下二個條件的至少其中之一者作為該等可鑑別位點：(i)具有符合一第一預設條件的一平均甲基化程度差異，以及(ii)具有符合一第二預設條件的一p值，其中，該等可鑑別位點被決定為該等主要生物標記。
如請求項1所述的甲基化生物標記選擇裝置，其中該處理器係藉由執行以下運作以決定該等次要生物標記：針對複數個不同診斷疾病中的每一個，計算一關聯程度以表示與該目標疾病的關聯性，從該等診斷疾病中選取滿足以下條件者作為該等共病症：該關聯程度符合一第三預設條件，以及將對應至該等共病症的複數個基因決定為該等次要生物標記。
如請求項4所述的甲基化生物標記選擇裝置，其中各該不同診斷疾病的該關聯程度包含一勝算比、一p值及一支持率。
如請求項2所述的甲基化生物標記選擇裝置，其中該處理器更藉由執行以下運作以計算至少一基因距離：計算一第一候選生物標記與一第二候選生物標記之間的至少一基因本體用語配對的每一配對的一基因本體用語距離，以及根據該至少一基因本體用語距離決定該第一候選生物標記與該第二候選生物標記之間的該基因距離。
如請求項6所述的甲基化生物標記選擇裝置，其中各該基因本體用語距離係基於一資訊內容距離及一Czekanowski-Dice距離而計算。
如請求項2所述的甲基化生物標記選擇裝置，其中該處理器更執行一遞迴神經網路，該遞迴神經網路包含一編碼器、一注意力機制及一解碼器，複數個候選生物標記序列中的每一個屬於一正常主體群組及一疾病主體群組其中之一，各該候選生物標記序列對應至該等候選生物標記其中之一，且該處理器係藉由執行以下運作以計算各該功能群組中的各該候選生物標記的該權重值：藉由將對應至該候選生物標記且屬於該正常主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個正常注意力權重值，藉由將對應至該候選生物標記且屬於該疾病主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個疾病注意力權重值，藉由將該等正常注意力權重值平均以計算出一平均正常權重值，藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值，以及根據該平均正常權重值及該平均疾病權重值計算出該權重值。
如請求項2所述的甲基化生物標記選擇裝置，其中針對各該功能群組，該處理器還根據對應的該等權重值排序對應的該等候選生物標記。
一種甲基化生物標記選擇方法，適用於一電子裝置，該電子裝置儲存複數個第一資料集與複數個第二資料集，各該第一資料集包含對應至複數個甲基化位點的複數個甲基化程度，各該第二資料集包含至少一病歷，且該甲基化生物標記選擇方法包含下列步驟： (a) 根據該等甲基化程度從該等甲基化位點中識別出複數個可鑑別位點，藉此決定複數個主要生物標記； (b) 基於該等第二資料集識別出一目標疾病的複數個共病症與複數個關聯基因，藉此決定複數個次要生物標記；以及 (c) 基於該等主要生物標記及該等次要生物標記的一關聯分析而決定複數個候選生物標記。
如請求項10所述的甲基化生物標記選擇方法，更包含下列步驟： (d) 將該等候選生物標記分群為複數個功能群組； (e) 針對各該功能群組中的各該候選生物標記計算一權重值；以及 (f) 根據各該功能群組中的該等權重值，從該等功能群組中的至少一個決定至少一目標生物標記。
如請求項10所述的甲基化生物標記選擇方法，其中該步驟(a)包含下列步驟：從該等甲基化位點中選取滿足以下二個條件的至少其中之一者作為該等可鑑別位點：(i)具有符合一第一預設條件的一平均甲基化程度差異，以及(ii)具有符合一第二預設條件的一p值；其中，該等可鑑別位點被決定為該等主要生物標記。
如請求項10所述的甲基化生物標記選擇方法，其中該步驟(b)包含下列步驟：針對複數個不同診斷疾病中的每一個，計算一關聯程度以表示與該目標疾病的關聯性；從該等診斷疾病中選取滿足以下條件者作為該等共病症：該關聯程度符合一第三預設條件；以及將對應至該等共病症的複數個基因決定為該等次要生物標記。
如請求項13所述的甲基化生物標記選擇方法，其中各該不同診斷疾病的該關聯程度包含一勝算比、一p值及一支持率。
如請求項11所述的甲基化生物標記選擇方法，更包含下列步驟：計算至少一基因距離，包含下列步驟：計算一第一候選生物標記與一第二候選生物標記之間的至少一基因本體用語配對的每一配對的一基因本體用語距離；以及根據該至少一基因本體用語距離決定該第一候選生物標記與該第二候選生物標記之間的該基因距離。
如請求項15所述的甲基化生物標記選擇方法，其中各該基因本體用語距離係基於一資訊內容距離及一Czekanowski-Dice距離而計算。
如請求項11所述的甲基化生物標記選擇方法，其中該電子裝置更執行一遞迴神經網路，該遞迴神經網路包含一編碼器、一注意力機制及一解碼器，複數個候選生物標記序列中的每一個屬於一正常主體群組及一疾病主體群組其中之一，各該候選生物標記序列對應至該等候選生物標記其中之一，且該步驟(e)包含下列步驟：藉由將對應至該候選生物標記且屬於該正常主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個正常注意力權重值；藉由將對應至該候選生物標記且屬於該疾病主體群組的該等候選生物標記序列輸入該遞迴神經網路以從該注意力機制獲得複數個疾病注意力權重值；藉由將該等正常注意力權重值平均以計算出一平均正常權重值；藉由將該等疾病注意力權重值平均以計算出一平均疾病權重值；以及根據該平均正常權重值及該平均疾病權重值計算出該權重值。
如請求項11所述的甲基化生物標記選擇方法，更包含下列步驟：針對各該功能群組，根據對應的該等權重值排序對應的該等候選生物標記。