TWI764817B

TWI764817B - 基因檢測風險判定方法

Info

Publication number: TWI764817B
Application number: TW110131868A
Authority: TW
Inventors: 李友錚; 黃建豪
Original assignee: 長佳智能股份有限公司
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2022-05-11
Also published as: TW202309927A; US20230070992A1; JP7376878B2; DE102021128420A1; CN115719612A; JP2023033052A

Abstract

本發明之目的在於用可程式化邏輯閘陣列(FPGA)、加速卡結合多個基因檢測位點及多個發生於台灣的疾病盛行率，計算風險值，並將該檢測運算結果再與伺服器之運算達到一致性產生告警輸出，以提昇預測精準度，並於顯示器上顯示之步驟。

Description

基因檢測風險判定方法

本發明有關一種基因檢測風險判定系統，以可程式化邏輯閘陣列(FPGA)及加速卡將基因檢測資料及體質診斷資料透過一演算法計算多基因位點之結果。

在遺傳流行病學中，基因及環境是主要影響人體罹患疾病的兩大構面，該構面如何評估使用者之生理反應也頗具不確定性。在中華民國新型專利M606684(以下簡稱'684新型專利)的「個人化特定代謝基因營養補充品配對裝置」中，提到利用個人化特定代謝基因營養補充品配對的發明，可協助臨床醫師精準使用血糖代謝路徑與細胞訊息傳遞的路徑當中各種基因序列之後，提供結合藥物敏感基因與提升營養功效之處方；透過檢出特定16個單核苷酸多形性(single nucleotide polymorphism,SNP)位點，從中分類關鍵13個基因位點，四大細胞層次，通過演算來針對不同的代謝路徑當中的一個評估分析。該'684新型專利所揭露之方法依序包含了一基因定序模組；一單一基因華人風險產生模組；一多基因代謝綜合風險評估模組，該多基因代謝綜合風險評估模組包括一綜合四類風險演算單元、一資料庫單元及一排序單元，用以計算出最後的血糖代謝路徑的風險指數；以及一顯示模組，用以顯示該血糖代謝分子層次風險報告表及圖表供臨床醫師開立靶向營養處方。該專利所使用之資料庫僅含十三個基因位點，該些位點的發生率導致某種人體特性的機率，屬於單純的分析樣態。

又前案美國專利公開號第20210104321A1(以下簡稱'321)的「機器學習的疾病預防及優先治療(MACHINE LEARNING DISEASE PREDICTION AND TREATMENT PRIORITIZATION)」中，提到將機器學習應用於識別具有特定表型(phenotype)的一個或多個記錄的方法。該’321專利公開說明書所載之發明包括接收多個第一記錄；接收多個第二記錄；將機器學習算法應用於至少一個第一記錄和至少一個第二記錄以確定分類器；將分類器應用於第三個記錄以識別與特定表型。該應用之設計前提在於有無盡的記憶體資源或邏輯閘可供使用，無法提供降低行動裝置在應用材料的使用成本。

又另一前案美國專利公開號第20210118571A1(以下簡稱'571)的「用於提供複雜性狀和風險的基於多基因預測的系統和方法(SYSTEM AND METHOD FOR DELIVERING POLYGENIC-BASED PREDICTIONS OF COM-PLEX TRAITS AND RISKS)」中，提供了一種以國家人類基因組研究所提供的eMERGE基因組數據搭配患者的年齡和性別進一步計算多基因疾病風險評分。該'571專利公開明書並未提供視覺化系統功能，且對於預測風險的對象不太對多數華人人口具可利用性。

本發明要解決的課題包含透過結合多個基因檢測位點及多個發生於台灣的疾病盛行率，計算風險值；透過單獨一FPGA上或由該FPGA結合加速卡進行快速檢測運算；將該檢測運算結果再與伺服器之運算達到一致性產生告警輸出，以提昇預測精準度，並於顯示器上顯示之步驟。

本發明用於解決課題的手段包含應用了本發明的方法所述之台灣地區華人細胞株及基因資料庫(Taiwan Han Chinese Cell and Genome Bank)，可進一步使預測結果適用台灣地區漢人所需之健康風險評估。相較於'684新型專利，本發明之利用為將多個基因檢測點已發生頻率對盛行率進行一累加的預估，可以透過更多的基因位點決定是否影響一個或多個人體特徵。

又應用了本發明的方法，透過一FPGA上或由該FPGA結合加速卡進行快速檢測運算，把輸入讀取訊號、控制器分別規劃於FPGA中，另把需要重複運算之平均值及標準差合成為加速卡之電路中，可簡化因多基因檢測風險數值而必須的硬體資源實現。

本發明之效果經比較利用ARM的微處理器耦合不同廠牌的基因分析儀，可加速資料分析為增加2~3倍處理效能，功耗效率可增加30%~200%，扣除熱機、擺設試管的時間，能將但一基因位點可能需要三個小時以上的運算分析時間縮短於三十分鐘內得到結果，能有顯著節能及降低營運成本之效果。

1:健康輔助辨識系統

200:基因檢測儀

300:問卷機

400:可程式化邏輯閘陣列

500:加速卡

600:伺服器

S11:基因定序讀取步驟

S21:使用者資料輸入步驟

S31:資料加速計算步驟

S41:演算法運算步驟

S51:伺服器偵錯步驟

S61:預測結果驗證步驟

S71:結果輸出步驟

圖1為本發明組成示意圖。

圖2為本發明應用於糖尿病之多基因檢測風險機率分佈圖。

圖3為本發明應用於糖尿病之多基因檢測高風險閥值示意圖。

圖4為本發明設計步驟流程圖。

圖5為本發明癌症發生預測之陡坡圖及風險預測圖。

圖6為本發明癌症發生預測之多維標度圖。

圖7為本發明癌症發生預測之熱區圖。

以下參照附圖，對應用了本發明的基因檢測風險判定系統詳細地進行說明。

圖1為健康輔助辨識系統，包含一基因檢測儀(200)，透過USB2.0與一可程式化邏輯閘陣列(400)電接傳輸訊號；一問卷機(300)，透過D-sub接面與該可程式化邏輯閘陣列(400)電接傳輸訊號；該可程式化邏輯閘陣列 (400)透過CCI接面與一硬體加速卡(500)電接傳輸訊號；該硬體加速卡(500)透過USB2.0與伺服器(600)電接，於該可程式化邏輯閘陣列(400)與該硬體加速卡(500)進行運算時能同時進行另一運算處理。該可程式化邏輯閘陣列(400)可供I/O介面設計的種類可視其廠牌(如Stratix 10、REFLEX CES XpressVUP-LP9P、Arria 10 GX FPGA)、規格(如RJ45、D-Sub、USB、GPIO、SPI、CCI)及埠數的多寡做訊號線上的通訊協定或資料排線控制。

在圖1的健康輔助辨識系統中，伺服器可另外電接為測試設計時進行除錯(troubleshooting)之目的。

圖1中的程式化邏輯閘陣列(FPGA)可為Altera Cyclone V 28nm FPGA，該程式化邏輯閘陣列會執行一基因定序讀取步驟(S11)及一使用者資料輸入步驟(S21)。在該基因定序讀取步驟(S11)中，係由該程式化邏輯閘陣列(400)的USB2.0介面讀取使用者使用基因檢測儀(200)之一基因定序輸出訊號；而在該使用者資料輸入步驟(S21)中，係由該程式化邏輯閘陣列(400)的D-sub介面讀取從問卷機(300)或其他電子問卷之資料。

此外，該程式化邏輯閘陣列(400)所需執行之步驟則如圖4所示。該程式化邏輯閘陣列(400)則是透過CCL介面連結至一加速卡(500)以執行一資料加速計算步驟(S31)；該資料加速計算步驟(S31)係採用Intel所研發之Arria 10 GX FPGA大數據專用加速卡，能與Apache Hadoop與Apache Spark系統相容，但不以此品牌之加速卡為限，只要能與Affymetrix、Agilent、Illumina等機器的訊號或資料庫相容則為佳。加速卡類似任天堂之主機，輔助加速類FPGA的卡夾單晶片運算。該程式化邏輯閘陣列(400)透過從加速卡(500)擷取之一預處理之基因庫資料後執行一演算法運算步驟(S41)；該預處理系指對基因資料庫進行壓縮、分類、搜尋等資料處理。另外，該演算法運算步驟(S41)可以是執行次世代基因定序次級資料分析時，透過該程式化邏輯閘陣列的開發板可計算平均值，及透過一加速卡計算標準差，或透過該程式化邏輯閘陣列開發板計算標準差，及透過該加速卡計算平均值，始能平行處理運算。風險平均值(Ave)算法定義如式1：A為風險值(risk score)，F為發生頻率(frequency)，且平均值等於單一項目加總(每個基因位點發生頻率x風險數值)。

Σavg=A1 x F1+A2 x F2+A3 x F3+... 式1標準差又可定亦如式2：

當我們透過RTL(Register-Transistor-Level)模擬器對程式化邏輯閘陣列開發板的燒入程式載入不同的相容Library進行分析報告時可比較得到下列表1數值。

從表1可得知，不同廠牌的基因分析儀可能因其機器內部的微處器及管線多寡，可能造成耦合程式化邏輯閘陣列在效能上的差異，尤其在執行基因檢測實，基因序列的比對又十分耗時，可適當的選擇較佳廠商之檢測儀作為取得快速運算的考量，如Illumina的執行效能為最高。

基因檢測模組

人類染色體由蛋白質及基因組成，而基因由核酸DNA的A、T、C、G核酸鹼基透過不同排列組成，而這四種鹼基的排序亦決定了人體遺傳的所有因子，包含疾病、生長狀況、老化狀況等。另外，由A、T、C、G所構成之基因組(genome)的一個特異和定位的位點出現兩個或多個的核苷酸可能性，會造成基因發生刪除、插入或是取代反應等變異原因。在基因學上，這些特異和定位點發生頻率若佔對應的等位基因小於或等於1%，則稱之為突變(mutation)，故特異和定位的位點(SNP)與mutation的差異為前者為大於1%，後者則為等於或小於1%。雖然突變的比例小，但整體比較所需之硬體消耗甚大，故特定硬體的選用，如Illuminia，能有縮短時間，能達到商業目的上省時、省電、省人力之功效。

近年來，大型基因組數據集的機器學習(machine learning)分析的最新進展使得能夠創建複雜人類特徵的多基因預測因子，包括許多重要復雜疾病的風險，通常受許多遺傳變異的影響，每個變異賦予對整體風險的影響很小，但在多基因風險預測器中，疾病的終生(或年齡範圍)風險是由分數捕獲的數值函數，該分數取決於數千個個體遺傳變異(即單核苷酸多態性或SNP)的狀態。故多基因己定評分法也成為機器學習的應用之一。

多基因檢定評分法

基因環境交互作用在遺傳性狀上扮演著至關重要的角色，於遺傳流行病學上益發受到重視。而透過全基因組關聯研究中偵測出基因環境交互作用可將單核甘酸多型性與環境因子交互作用效應綜合在一個檢定中，以增進我們對疾病成因的認知，如風險分級、協助臨床診斷、測試特徵的基因重疊現象(如憂鬱症測量心血管疾病)、插入所缺乏的特徵、個人化治療等。

對應基因風險數的權重演算法

多基因檢定評分(PRS)為有效大小β1SNP1加上β2SNP2)類加至βnSNPn，如式3所表示：

PRS=β1SNP1+β2SNP2)...+βnSNPn 式3 β為有效大小、SNP為風險基因對數、及n為SNP的數量。圖2顯示為一般的風險分配函數為一高斯分配樣態；橫軸為對數風險係數(log risk score)，縱軸為人口(population)。我們也可以透過一經過貝葉斯理論(Bayesian theorem)所得到一特定疾病的發生機率函數作發生風險係數。就疾病預測之目的，分配函數的變異數(variance)才是主要作為分類(stratification)或風險鑑別(risk discrimination)的判斷關鍵，如有一疾病的分配與圖2相比之下為向橫軸右邊為更多人或更高的人口比例。在此模型中人口可為某疾病的案例數或個案數。而將一般的風險分配函數與該疾病的分配人口相重疊，即可得知風險臨界值為何。如圖3的以糖尿病為例，其台灣糖尿病盛行率約12%，可以利用平均值和標準差去推算出88%(100%-12%)數值，當進行基因檢測，結果數值累加超過這高風險閥值即被判定為高風險。

一般對應基因風險數的表現取決於遺傳力(inheritability)、有效的採樣數大小(effect size)、及取樣數(sample size)。最理想的遺傳力是指真實的關聯係數，不需要經過估算或不會產生選擇上的失誤。但科學上可以接受的方式是採特定基因平台，如GWAS Catalog資料庫平台，透過該平台決定允許與變異數相關的最大潛在值。

在GWAS研究中，位點搜尋的主要分析方式是進行連鎖不平衡分析(linkage disequilibrium,LD)；在不同基因座的各等位基因，在人群中以一定的頻率出現，但在某一群體中，若不同基因座的某兩個等位基因，出現在同一條染色體上的頻率，高於預期的隨機頻率，稱之連鎖不平衡(linkage disequilib-rium)。藉由檢測遍佈基因組中的大量遺傳標記位點，或候選基因附近的遺傳標記，可以找到與疾病相關的位點。此外，樣本數量過少很容易造成假陽性相關，不過可以透過比對公開的GWAS資料庫來改善這個問題，或進一步利用更多的資料庫，透過大數據驗證SNP篩選的正確性。目前既有的工具有C+T、PLINK、PRSice2、bigsnpR、LDpred2、SBayersR、Lassosum、PRS-CS、JAMPred等，均可以用於可聚集表型(clumping phenotype)所需的回歸計算。

癌症為實施例

遺傳性乳癌與卵巢癌症候群(Hereditary breast and ovary cancer syndrome)，促成這個症候群最重要的兩個的基因是BRCA1與BRCA2，BRCA1與BRCA2是1990年代在美國發現的。1990年，Hall等人研究早發與遺傳性乳癌家族，經由連鎖遺傳學定律(linkage analysis)，發現染色體17q21與早發家族性乳癌有高度相關。其後1994年，Miki等人證染色體17q21上的BRCA1基因為造成乳癌(與卵巢癌)的基因。同年，Wooster等人發現位於13q12-13也與乳癌發生相關，因而找到BRCA2基因。BRCA1有24個exon，轉譯而成的BRCA1蛋白質共有1863個胺基酸；BRCA2有27個exon，轉譯而成的BRCA2蛋白質共有3418個胺基酸。這兩個基因是屬於抑癌基因(tumor-suppressor gene)，負責雙股DNA損壞的修復機轉。當細胞內雙股DNA損壞，細胞有兩個方式負責修補，第一個修復的方式稱為同源重組(Homologous Re-combination)，另一個是非同源染色體結合(non-Homologous end-joint)，只有經由同源重組的方式來修復，雙股DNA才可以正確無誤的修復。而BRCA1與BRCA2所參與的雙股DNA修復機轉，即是同源重組，因此，若這兩個基因其中之一發生缺陷，則雙股DNA受到攻擊斷裂後，會無法正確修復當細胞內DNA壞損累積到一定程度，則細胞就會發生癌變。同源重組的修復(Homolo-gous Recombination repair)，有許多蛋白質參與其中，主要為Fanconi's pathway相關蛋白質，近年來研究得知，參與同源重組的基因發生致病性變異，也會發生類似BRCA1與BRCA2突變的表現型，也就是與乳癌、卵巢癌或是相關癌症的發生。

所以當想進一步了解乳癌、卵巢癌或是相關癌症的發生，可透過一經統計的PRS表能得知哪種癌症的患病機率之多寡。從表2，我們可以透過一統計軟體以利用其內部之演算法取得不同癌症經過SNP所得到的數值，以乳癌為例，有4530個可能影響得到的SNP組，伴隨著可能的標準差1615；因遺傳性的多基因檢定評分則高達權重0.77的得病率，伴隨著標準差0.04；在曲線下面積相關的多基因檢定評分0.73，伴隨著標準差0.01。該曲線下面積(AUC)的計算如式4：

AUC=Φsqrt(h^2/2) 式4 Φ為累加標準分配函數的密度數(the cumulative density function of standard normal distribution)。當我們能得知得病數量後，並能搭配其他權重的因素將癌症分類。

以上癌症範例僅為本發明可應用之一種實施範例，但不以癌症為限。同樣的，多基因檢定評分(PRS)可應用於其他罕見疾病或檢測項目。

二元搜尋法與遞迴函數之運用

本發明將台灣地區華人細胞株及基因資料庫(Taiwan Han Chi-nese Cell and Genome Bank)，並將基因庫資料展開為1xN的陣列，並儲存於加速卡中，以方便比對不同的基因序列。由於陣列可能過長，必須要經過不同的排序方式簡少運算。以一本發明所用之二元搜尋法，其演算法如表3所示：

上列演算法套用於我們在一整個已知的多基因檢定評分中，將搜尋的基因庫中的序列分為兩個片段進行搜尋我們愈比對的基因序。另外，我們亦可套用FORK函數再套用此演算法可分進行多段的平行處理運算，加快搜尋配對。

陣列轉置演算法

另外，在將基因庫之陣列轉成1xN大小的陣列A1[1]至A[n]時，我們亦需要將其另外倒序編排成另一陣列A2[n]至A1[1]，並套用下列程式對加速卡中存在之資料庫存在之位點進行搜尋及比對陣列中：

上列陣列轉置的演算法可以不用增加一暫存空白陣列，而直接將所欲查詢的基因序進行前後互換。如我們欲尋找有一基因序列為AATTCCGG，在基因庫中若出現GGCCTTAA也為有效之基因序，故必須套用上列演算法。而此演算法比一般討用temp之複雜度低，亦可節省處理器運算之時間。

又該演算法運算步驟(S41)亦可以為因素分析法(factor analysis)、主成分分析法(principal component analysis)。當採用因素分析法時，其適用於獨特因素(unique factor)的存在，如罕見疾病。當採用主成分分析法時，則以多個基因位點彼此之間對於某一特徵的貢獻量為考量，且不用每個因素都納入；本發明應用係透過共變異數矩陣決定前五個主成分或主成分變異量百分比之總和超過原資料的累積貢獻比率(Cumulative Proportion)百分之99計算。

監督式機器學習

圖1的伺服器(600)可透過機器學習運算，並對可程式化邏輯閘陣(400)進行偵錯，並對預測結果驗證步驟(S61)比對演算法運算步驟(41)及伺服器偵錯步驟(51)結果之一致性。

在該伺服器偵錯步驟(S51)中，由伺服器透過一監督式機器學習演算法及數個分類器模組進行風險預測；

使用之另一演算法為機器學習中的監督式隨機森林演算法，主要必須依靠大量的基因庫數據，並執行訓練。而監督式機器學習又分為分類及回歸兩種。在本發明之預測結果驗證步驟(S61)中係以分類方式與回歸方式做一致性判斷，故隨機森林之使用亦成為判斷決定風險區間閥值表現是否正確的驗證方式。

由於在做分類的過程中，不希望在運算中產生過適(overfitting)，也就是機率分佈過度緊密或精確地匹配特定基因資料序列，以致於無法良好地調適其他資料或預測未來的觀察結果的現象，故採以複數個決策樹狀來做分類，也可以產生縮短處理器運算時間的優點。第二個優點是透過隨機森林法特別在大量的資料庫中，可以達到高度的精準預測。第三個優點是對於缺乏某些數值，尤其當基因對可能對某些疾病不夠顯著時，能預估其數值。例如決策樹A會產生輸出結果GENO1，決策樹B會產生輸出結果GENO2，決策樹C會產生結果GENO1；當所有決策樹放置一起有如一片森林時，可得知GENO1的產生與GENO2的產生為2：1，故該預測結果為GENO1。

隨機森林演算法的運用再透過伺服器的運算，可以將基因序列中一隨機亂數變化的炯值(entropy)降階變成較低的隨機變化，當我們要取得資訊(information gain)，可把高階的炯值對低階的炯值做相減做分類，如發生頻率及盛行率。由於我們是相關測量的機率作為節點(node)的分類，再透過分類演算法，可以取得多個決策節點(decision node)；在本發明中我們在載入基因庫作為資料集後，可選用Bayes分類器、Panda分類器、numpy分類器等，並一一檢視我們想要符合條件的決策點，但不以上述分類器為限。在分類之後，我們要再把分成兩個資料框架(dataframes)，設為一訓練模組及一測試模組。然後，再將選定的分類器對訓練模組做矩陣分解(matrix factorization)或張量分解(tensor factorization)後，然後透過隨機狀態的初始化及執行的條件次數，並建立隨機森林分類器，並把訓練的分類器套用在測試模組中，然後觀察其特徵性(feature)。最後，再透過伺服器之運算結果對FPGA與加速卡之比較，我們可以減少進一步楊姓減少偽陽性的發生，並提供正確的風險預測結果。

風險預測結果係透過一結果輸出步驟(S71)，如圖5至圖7以陡坡圖(scree plot)、熱區圖(heat plot)、或多維標度(MDS plot)呈現。