TW202121223A

TW202121223A - 訓練類神經網路以預測個體基因表現特徵的方法及系統

Info

Publication number: TW202121223A
Application number: TW108143024A
Authority: TW
Inventors: 許藝瓊; 王家慶; 宋政洋
Original assignee: 國立中央大學
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-01
Also published as: TWI709904B; US20210158967A1

Abstract

在此揭示一種訓練類神經網路預測個體是否具會表現某一基因特徵的方法及可執行該方法之系統。所述方法係整合生物分析及深度學習，利用特定的臨床資訊與基因表現關係資訊訓練類神經網路，以提升預測準確性。

Description

訓練類神經網路以預測個體基因表現特徵的方法及系統

本發明是有關於一種訓練預測衰老基因的類神經網路預測個體基因表現特徵的方法，且特別是有關於利用生物分析資料進行類神經網路訓練的方法。

深度學習是許多現代AI人工智慧應用的基礎。自從在語音識別和圖像識別領域中展現出突破性的成果後，深度學習在其他領域的應用便以極快的速度成長。而在生物醫學領域也有相當程度的應用，例如，癌症檢測、生物信息分析等。

再者，隨著科技及醫療技術的進步，人類的壽命得到相當程度的延長，世界各國無不漸漸成為高齡化的人口型態。在這樣的趨勢下，高齡化社會所面臨的議題及考驗也受到很大的重視，人們不能滿足於「活到老」，更希望能「健康地活到老」。於老化研究上，目前已有相關研究利用機器學習或深度學習檢測衰老基因的方法，但其運算方式複雜且準確度低，對於龐大需要運算的數據資料而言，其篩選基因的過程通常相當耗時效率不佳。有鑑於此，本技術領域極需一種改良的預測方法，以提升預測準確率，減少大量生物醫學檢測及基因樣本擷取所耗費的時間，能夠更快速的篩選關鍵基因，改善先前技術的不足。

發明內容旨在提供本揭示內容的簡化摘要，以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述，且其用意並非在指出本發明實施例的重要/關鍵元件或界定本發明的範圍。

為解決先前技術所存在的問題，本發明提供一種訓練類神經網路以預測個體是否具有特定基因表現特徵的方法及系統。首先，本發明一態樣係有關於一種訓練類神經網路以預測個體是否具有一基因表現特徵的方法，其包含以下步驟： (1) 提供複數筆基因表現資訊予該類神經網路，其包含複數筆RNA定序資訊及對應該複數筆RNA定序資訊之臨床資訊； (2) 以該臨床資訊篩選該複數筆基因表現資訊，分析該複數筆基因表現資訊之變異程度； (3) 以加權基因共表達分析(WGCNA, Weighted correlation network analysis)處理步驟(2)經篩選之該複數筆基因資訊以提取出複數筆基因模塊；以及 (4) 以該複數筆基因模塊訓練該類神經網路進行深度學習，用以預測該個體是否具有該基因表現特徵。

在一具體的實施方式中，所述複數筆基因表現資訊是是對應複數筆RNA定序資訊之複數筆FPKM(Fragments Per Kilobase of transcript per Million)資訊；換句話說，即以FPKM資訊作為複數筆RNA定序資訊之特徵。

依據本發明一實施方式，在步驟(4)中是將複數筆基因模塊分成一訓練資料集和一測試資料集進行深度學習。在一實施方式中，訓練資料集和測試資料集的資料比介於10:1至1:10之間。在一具體的實施方式中，所述訓練資料集和該測試資料集的資料比為4:1。

在可任選的實施方式中，所述臨床資訊是年齡資訊、性別資訊、病症資訊、病徵資訊、存活率或復癒率。

依據本發明一具體的實施方式，所述方法是用以預測該個體之衰老基因表現特徵，且該臨床資訊是年齡資訊。

此外，在可任選的方式中，在步驟(2)中，是以年齡資訊將該複數筆基因表現資訊區分成至少五組。在較佳的實施方式中，在步驟(2)中，是以年齡資訊將該複數筆基因表現資訊區分成至少六組。再者，所述類神經網路係以年齡資訊分類進行深度學習。此外，於訓練類神經網路過程中，所述複數筆基因表現資訊是取自大腦、小腦、肺、肝、心臟或血液之非病變組織。

依據本發明一實施方式，所述加權基因共表達分析主要包含表達量聚類分析和表型關聯

本發明另一態樣是關於一種用以預測一個體之一基因表現特徵的系統。所述系統包含一類神經網路，其包含一輸入和一輸出，其中該輸入係用以接收一個體的資料，該類神經網路係可提供該輸出一有關該個體之該基因表現特徵之一預測結果；並且所述類神經網路是以上述任一實施方式所示之方法訓練而成。

在參閱下文實施方式後，本發明所屬技術領域中具有通常知識者當可輕易瞭解本發明之基本精神及其他發明目的，以及本發明所採用之技術手段與實施態樣。

為了使本揭示內容的敘述更加詳盡與完備，下文針對了本發明的實施態樣與具體實施例提出了說明性的描述；但這並非實施或運用本發明具體實施例的唯一形式。實施方式中涵蓋了多個具體實施例的特徵以及用以建構與操作這些具體實施例的方法步驟與其順序。然而，亦可利用其他具體實施例來達成相同或均等的功能與步驟順序。

雖然用以界定本發明較廣範圍的數值範圍與參數皆是約略的數值，此處已儘可能精確地呈現具體實施例中的相關數值。然而，任何數值本質上不可避免地含有因個別測試方法所致的標準偏差。在此處，「約」通常係指實際數值在一特定數值或範圍的正負10%、5%、1%或0.5%之內。或者是，「約」一詞代表實際數值落在平均值的可接受標準誤差之內，視本發明所屬技術領域中具有通常知識者的考量而定。除了實驗例之外，或除非另有明確的說明，當可理解此處所用的所有範圍、數量、數值與百分比（例如用以描述材料用量、時間長短、溫度、操作條件、數量比例及其他相似者）均經過「約」的修飾。因此，除非另有相反的說明，本說明書與附隨申請專利範圍所揭示的數值參數皆為約略的數值，且可視需求而更動。至少應將這些數值參數理解為所指出的有效位數與套用一般進位法所得到的數值。

除非本說明在此所述「基因表現特徵」是指基因表現的型態，其可以是單一基因的表現量或是複數基因的表現量所形成的特徵。所述基因表現特徵與臨床研究或病症相關，如，基因表現特徵與衰老趨勢相符，或基因表現特徵與癌化或特定病症趨勢相符。

除非本說明書另有定義，此處所用的科學與技術詞彙之含義與本發明所屬技術領域中具有通常知識者所理解與慣用的意義相同。此外，在不和上下文衝突的情形下，本說明書所用的單數名詞涵蓋該名詞的複數型；而所用的複數名詞時亦涵蓋該名詞的單數型。

類神經網路是一種可模擬人類腦部活動的人工智慧。一般來說，深度類神經網路包含多層彼此有權重關係且互相關聯的處理元件，藉以模擬腦部神經元的運作，其中該多層結構包含輸入層、隱藏層和輸出層。類神經網路的輸入是由該些處理元件以及其彼此間的權重關聯來決定。因此，可以透過大量數據來訓練類神經網路，藉以預測一受測個體某一基因表現特徵，例如，與癌症或衰老相關之基因表現特徵。

在先前技術中多以機器學習或深度學習來訓練類神經網路，或是彼此搭配以獲取更好的準確度，但於預測分析上仍具有限制。

然而，本案發明人首次提出一種新穎的方法及執行所述方法的系統，結合生物分析的方法訓練類神經網路，以進行降維，此方式在複雜的生物分析試驗中，能夠考量生物特性，準確分析出實驗結果。

依據本發明一實施方式，所述系統可包含儲存裝置和處理器，其中儲存裝置儲存有類神經網路，其中當處理器載入並運行所述類神經網路，可完成本發明實施方式任一所示之方法。儲存裝置可以是任何型態的固定或可移動隨機存取記憶體(Random Access Memory，RAM)、唯讀記憶體(Read-Only Memory，ROM)、快閃記憶體(flash memory)、硬碟(Hard Disk Drive，HDD)、固態硬碟(Solid State Drive，SSD)或類似元件或上述元件的組合。所述處理器的實例包括但不限於，中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)或其他類似元件或上述元件的組合。

適用於本發明生物分析的方法可採用加權基因共表達網路分析(Weight correlation network analysis WGCNA)提取與性狀或臨床特徵相關的基因模塊，解析基礎代謝途徑、轉路調控途徑或轉譯水平調控等生物過程，篩選出特定的基因模塊，以達到降維的效果。為能夠更準確地預測出個體基因表現特徵，本發明方法於生物分析的過程中，需先以特定臨床資訊篩選複數筆基因表現資訊。在一較佳的實施方式中，所述臨床資訊為與預測個體基因表現特徵相關之參數，包含但不限於年齡資訊、性別資訊、病症資訊、病徵資訊、存活率或復癒率。

在一特定實施方式中，本發明方法可訓練類神經網路去預測一個體之衰老基因的表現特徵。在此一實施方式中，先以年齡資訊對基因表現資訊進行篩選。具體而言，本發明將基因表現資料依據年齡進行分類，主要分為年輕和年長兩類年齡層，接著，再以生物分析方法，篩選出表現較相似的基因集，以及不同年齡層間表現量正負相關顯著的基因集，再進一步進行基因關聯網路分析和基因注釋，找尋淺在核心基因以及生物代謝途徑和年齡之間的關聯，並且從中擷取與年齡變異相關之特徵值，再進行類神經網路訓練之深度學習。依據本實施例結果顯示，本發明方法用於預測衰老基因表現特徵上具高準確率，代表經本發明方法提取出的基因表現量資料和年齡變異高度相關。

第1圖為依據本發明一實施方式所示之訓練類神經網路進行機器學習以預測一個體是否存在衰老基因表現特徵之方法的流程圖。

如第1A圖所示，本發明不同於先前技術在於先將收集到的基因表現資料進行生物分析（步驟102）。具體而言，請同時參見第1B圖，第1B圖是依據本發明一實施方式所示之基因表現資料生物分析的流程示意圖。在一實施例中，所述基因表現資料為基因型組織表現資料，其針對RNA進行次世代定序而得到的RNA定序資料(RNA-seq)。在又一實施例中，所述基因表現量資料是以定序長度，例如FPKM(Fragments Per Kilobase of transcript per Million)作為特徵，並以與該些基因表現相關的年齡資訊進行分類。依據可任選的實施方式中，所述基因表現資料係選自於不同的組織當中，其中該組織包含但不限於大腦、小腦、肺臟、肝臟、心臟或血液。將每一組織的基因表現資料與常態分佈一致，再以平均絕對差提取變異程度大的基因。依據本發明一實施方式，所述變異程度大的基因數可以是至少1000、2000、3000、4000或5000。

接著，以加權基因共表達網路分析(WGCNA)提取基因間相似的性狀或臨床特徵，以及分析生物學過程，如，基礎代謝路徑、轉錄調節路徑及轉譯水平調控。首先，WGCNA計算任兩個基因間的相關係數（步驟112），可設定閾值進行篩選（例如，0.9），高於閾值則為相似的基因。另，分析時採用相關係數加權值，對基因相關係數取Ｎ次幂，使網路中的基因相關性遵循無尺度網路分佈(scale-free networks)。

接著，透過相關係數間分層聚類樹（步驟114），其中聚類樹基於基因加權相關係數，將基因按照表現模式進行分類，並將模式相似的基因歸為一個模塊，因此，可將成千上萬筆的基因資料透過基因表達模式分成幾十個模塊（步驟116），提取出的基因模塊亦可進一步進行下游的基因共表現網路分析或基因註解(KEGG路徑分析) （步驟118）。

請再次參見第1A圖，將經步驟102基因表現資料分析所提取出的基因模塊進行機器學習訓練，其中分成訓練資料集和測試資料集（步驟106和步驟108），其中訓練資料集和測試資料集之資料比介於10:1至1:10之間，例如10:1、9:1、8:1、7:1、6:1、5:1、4:1、3:1、2:1、1:1、10:3、5:2、5:3、10:7、5:4、10:9、9:2、9:4、9:5、3:2、9:7、9:8、9:10、8:3、8:5、4:3、8:7、8:9、4:5、7:10、7:9、7:8、7:6、7:5、7:4、7:3、7:2、7:1、3:5、2:3、3:4、6:7、6:5、6:1、1:2、5:9、5:8、5:7、5:6、5:3、5:2、2:5、4:9、4:7、4:5、4:1、3:10、1:3、3:8、3:7、1:5、2:9、1:4、2:7、2:3、1:10、1:9、1:8、1:7、1:6、1:5、1:4、1:3、或1:2；較佳為4:1。所述機器學習包含但不限於，SVM、DNN、隨機森林(random forest)、決策樹(decision tree)、嶺回歸(ridge regression)。此外，需要注意的是本發明先採基因表現資料分析步驟102進行降維外，亦可結合習知的方式利用自動編碼器及PCA(Principal Component Analysis, PCA)進行降維（步驟104）。

所述機器學習所採用的交叉驗證法（步驟110），其包含但不限於k-折交叉驗證(k-folder cross validation)、kk -折交叉驗證(kk folder cross-vaildation)、留一交叉驗證(least-one-out cross validation, LOOCV)、10-折交叉驗證。在一實施方式中，所述交叉驗證是10-折交叉驗證。最終進行機器模型111訓練預測出衰老基因表現特徵。依據本發明其他實施方式，所述機器模型訓練之獨立資料驗證、損失函數和激活函數比較，可依據所屬技術領域中具有通常知識者的通常經驗及實際使用需求選擇。

此外，適合本發明機器學習所採用的軟體可以是深度學習軟體Anaconda、Spyder、WEKA。另，適合本發明所使用的生物統計分析軟體可以是Cytoscape或R-studio。

下文提出多個實驗例來說明本發明的某些態樣，以利本發明所屬技術領域中具有通常知識者實作本發明，且不應將這些實驗例視為對本發明範圍的限制。據信習知技藝者在閱讀了此處提出的說明後，可在不需過度解讀的情形下，完整利用並實踐本發明。此處所引用的所有公開文獻，其全文皆視為本說明書的一部分。

實驗例

基因表現資料

本實驗例所採用的基因表現資料是來自於GTEx Portal(Genotype-Tissue Expression)中的資料庫dbEXP accession phs000424.v7.p2。在此實施例中，所述基因資料來自於714個捐贈者。LDACC( Rhe Laboratory, Data Analysis and Coordinating Center)對RNA-seq樣本進行核酸萃取和質量評估。為了測量基因表現，LDACC利用微陣列和RNA次世代定序進行分析。在本實驗例中以腦、肺、心臟、肝臟和血液組織作為分析標的，各組織的樣本數分別為173、427、303、175和407。該些組織之RNA-seq表現以FPKM值作為特徵，並以年齡資訊進行分類，五種組織及其對應年齡資料分佈請參見表1。

表1

	小腦	肺臟	心臟	肝臟	血液
20-29 歲	7	27	21	7	34
30-39 歲	4	30	18	10	34
40-49 歲	17	76	50	28	72
50-59 歲	58	145	111	65	130
60-69 歲	82	139	96	62	132
70-79 歲	5	10	7	3	5
總數	173	427	175	303	407

本發明的基因表現資料經處理後，分成訓練資料集和測試資料集(資料比：8:2)，以進行預測。本發明所採用的類神經網路參數請參見表2。

表2

DNN
輸入層 (Input layer)	15714
隱藏層(Hidden layer)	10000 ,1000,100
輸出層(Output layer)	2
學習率(Learning rate)	0.001
自動編碼器
輸入層(Input layer)	15714
瓶頸層(Bottleneck layer)	300
學習率(Learning rate)	0.001

數據預處理

在使每一組織的基因表現資料與常態分佈相符，接著以平均絕對差提取前5000個變異程度大的基因。

基因分層聚類分析

在此，採用WGCNA計算，以基因的表現型態分類。再以基因表現型態和相似性進行聚類，並將密切相關的基因聚類成一個模塊，因此，將5000個基因分類至數個模塊中。

經分類的複數模塊在功能上與每個模塊基本相似，因此，同一模塊內的基因可被視為是相似或相關的。第2圖為血液組織中基因表現資料經基因分層聚類分析而成的聚類樹，各色塊中基因分層聚類的數據分佈以下表3顯示。

表3

黑色	藍色	咖啡色	綠色	灰色	粉色	紅色	藍綠色	黃色	總數
62	1283	190	155	1493	38	71	1546	162	5000

再以基因模塊性狀分析篩出年齡層間變異度大的基因，請參見第3圖。以肺部組織為例，第3圖是肺部組織基因模塊和年齡性狀之關係圖。如結果所示，圖中綠色(MEgreen)性狀是與肺組織相關的基因模塊，於年齡層的分佈上，低年齡層的是正向相關（紅色），高年齡層則是負向相關（綠色），因此，將綠色提取出來。在綠色的模塊(MEgreen)中有114個基因樣本。

另，分析基因模塊中的關聯。在相關基因模塊的分析中，可以比較同一組織中任何兩個模塊之間的相關性，以探索不同模塊之間的相互作用，同樣以肺臟組織為例，其中肺組織裡特徵基因相鄰熱圖譜請參見第4圖。

以上利用WGCNA分析的結果中，選擇五個具有潛力的組織性狀基因模組，以六個年齡分類進行深度學習的訓練。依據基因集，當組織樣本的數量固定時，在訓練資料集中的基因數量減少。本實驗例以標的選擇和年齡相關模塊達到降維的效果，因此，分成六組年齡進行DNN預測時，與不使用WGCNA實驗的基因表現資訊相比，準確度較高，結果請參見表4和表5，以及第5和6圖。

表4為未經WGCNA分析處理的GTEx 基因表現資料集，該方法的預測結果請參見第6圖。

表4

組織	樣本	基因數	基因表現資料集
腦	173	16248	2810904
肺	427	15714	6709878
心臟	303	16223	4915569
肝臟	175	16223	2839025
血液	407	16575	6746025

表5為經提取的五種組織基因模塊表現資料。

組織	樣本	基因數	基因表現資料集
腦	173	134	23182
肺	427	117	49959
心臟	303	506	153318
肝臟	175	83	14525
血液	407	1545	628815

如第6圖所示，利用本發明方法先進行生物分析，並將提取出的基因表現資料以年齡分類對這六類（每10歲一類）進行深度學習，結果顯示，由五種組織得到的預測準確度高於90%。

為了更進一步限制基因表現資料的範圍，基於血液組織基因模塊和其他組織模塊相關連的基礎上，將基因模塊和血液組織模塊交集，獲得以下數據：

表6

組織	樣本	基因數	基因表現資料集
小腦	173	5	865
肺臟	427	4	1708
心臟	303	15	4545
肝臟	175	4	700

將基因表現資料以六個年齡分類進行DNN訓練，結果請參見第7圖。結果顯示，除小腦組織的準確性略低外，肺臟、心臟、肝臟三個組織的準確度均高於90%，其代表基因表現資料集和年齡的相關性，並且所述變異是相關的。

為呈現本發明的優勢，表7為上述三種試驗中DNN六種年齡訓練的平均準確性和召回率。

表7

	DNN	提取基因模組（WGCNA） + DNN	基因模組和血液基因模塊交集 + DNN
精確度（Precision）	0.5306	0.8836	0.8544
召回率（Recall）	0.4719	0.9206	0.8361
F-值 (F-Score)	0.5174	0.9467	0.8732

依表7，本發明方法以WGCNA進行生物分析後提取基因模塊，再以六層年齡層進行DNN預測的結果，其在精確度、召回率和F-值皆較佳。由此可見，本發明所提出的方法能夠提升機器學習預測的準確度。此外，需要注意的是本發明在複雜的基因表現量資料及分成六類年齡層多類的預測模型訓練所維持高準確率。

雖然上文實施方式中揭露了本發明的具體實施例，然其並非用以限定本發明，本發明所屬技術領域中具有通常知識者，在不悖離本發明之原理與精神的情形下，當可對其進行各種更動與修飾，因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。

102-118:步驟

為讓本發明的上述與其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：

第1A和1B圖是依據本發明一實施方式所示之預測衰老基因之方法流程圖；第2圖為血液組織中基因表現資料經基因分層聚類分析而成的聚類樹；第3圖是肺部組織基因模塊和年齡性狀之關係圖；第4圖是肺組織中特徵基因相鄰熱圖譜(eigengene adjacency heatmap)；第5圖是未經提取基因模塊之DNN訓練模型預測結果；第6圖是本發明經提取基因模塊之DNN訓練模型預測結果；以及第7圖是各組織模塊與血液組織模塊交集之DNN訓練模型預測結果。

102-111:步驟

Claims

一種訓練一類神經網路以預測一個體是否具有一基因表現特徵的方法，其包含以下步驟： (1) 提供複數筆基因表現資訊予該類神經網路，其包含複數筆RNA定序資訊及對應該複數筆RNA定序資訊之臨床資訊； (2) 以該臨床資訊篩選該複數筆基因表現資訊，分析該複數筆基因表現資訊之變異程度； (3) 以加權基因共表達分析(WGCNA, Weighted correlation network analysis)處理步驟(2)經篩選之該複數筆基因資訊以提取出複數筆基因模塊；以及 (4) 以該複數筆基因模塊訓練該類神經網路進行深度學習，用以預測該個體是否具有該基因表現特徵。
如請求項1所述之方法，其中該複數筆基因表現資訊是對應複數筆RNA定序資訊之複數筆FPKM(Fragments Per Kilobase of transcript per Million)資訊。
如請求項1所述之方法，其中該臨床資訊是年齡資訊、性別資訊、病症資訊、病徵資訊、存活率或復癒率。
如請求項3所述之方法，其中該臨床資訊是年齡資訊，且該基因表現特徵為衰老基因表現特徵。
如請求項3所述之方法，其中在該步驟(2)中，是以該年齡資訊將該複數筆基因表現資訊區分成至少五組。
如請求項5所述之方法，其中在該步驟(2)中，是以該年齡資訊將該複數筆基因表現資訊區分成至少六組。
如請求項1所述之方法，其中在該步驟(3)中，該加權基因共表達分析包含表達量聚類分析和表型關聯。
如請求項1所述之方法，於該步驟(4)中是將該複數筆基因模塊分成一訓練資料集和一測試資料集進行深度學習。
如請求項8所述之方法，其中該訓練資料集和該測試資料集的資料比介於10:1至1:10之間。
如請求項9所述之方法，其中該訓練資料集和該測試資料集的資料比為4:1。
如請求項1所述之方法，其中該複數筆基因表現資訊是取自大腦、小腦、肺、肝、心臟或血液之非病變組織。
一種用來預測一個體是否具有一基因表現特徵的系統，包含: 一類神經網路，具有一輸入及一輸出；其中，該輸入係可接收該個體之資料，該類神經網路係可提供該輸出一有關該基因表現特徵之一預測結果；以及該類神經網路係以如請求項1所述之方法進行訓練。
如請求項12所述之系統，其中在該類神經網路之訓練中，該複數筆基因表現資訊是對應複數筆RNA定序資訊之複數筆FPKM(Fragments Per Kilobase of transcript per Million)資訊。
如請求項12所述之系統，其中在該類神經網路之訓練中，該臨床資訊是年齡資訊、性別資訊、病症資訊、病徵資訊、存活率或復癒率。
如請求項12所述之系統，其中在該類神經網路之訓練中，該臨床資訊是年齡資訊，且該基因表現特徵為衰老基因表現特徵。
如請求項15所述之系統，其中在該步驟(2)中，是以該年齡資訊將該複數筆基因表現資訊區分成至少五組。
如請求項12所述之系統，其中在該類神經網路之訓練中，於該步驟(4)中，是將該複數筆基因模塊分成一訓練資料集和一測試資料集進行深度學習。
如請求項17所述之系統，其中在該類神經網路之訓練中，該訓練資料集和該測試資料集的資料比介於10:1至1:10之間。
如請求項18所述之系統，其中在該類神經網路之訓練中，該訓練資料集和該測試資料集的資料比為4:1。
如請求項12之系統，其中該複數筆基因表現資訊是取自大腦、小腦、肺、肝、心臟或血液之非病變組織。