TWI578180B

TWI578180B - 微核糖核酸與腦部疾病風險的關聯性運算平台

Info

Publication number: TWI578180B
Application number: TW105122033A
Authority: TW
Inventors: 林琥沈; 宋鴻青; 陳育興
Original assignee: 國立臺灣師範大學
Priority date: 2016-07-13
Filing date: 2016-07-13
Publication date: 2017-04-11
Also published as: TW201802716A

Description

微核糖核酸與腦部疾病風險的關聯性運算平台

本發明關於一種關聯性運算平台，特別是一種微核糖核酸與腦部疾病風險的關聯性運算平台。

過去，一些利用資訊方法辨識微核糖核酸(miRNA)的研究，已預測及鑑定出數以千計的微核糖核酸，因此進一步利用資訊方法整合微核糖核酸的相關資訊相當重要。目前已有收集微核糖核酸目標基因與疾病關聯性等不同主題的資料庫。有關微核糖核酸目標基因預測的各式不同的演算法主要有三種類型，第一種是判斷微核糖核酸與可能目標的序列互補程度，依靠互補性找出微核糖核酸目標基因的演算法以TargetScan與miRanda為代表；第二種是利用熱力學方法，以PicTar為代表；第三種則是仰賴目前已知的研究成果，藉由資料探勘的方法，訓練演算法找出可能的目標基因後，再進行驗證，例如以MirTarget2建立的miRDB。miRGen將幾個預測方法的結果再行整合。而ComiR整合了miRanda、PITA、 TargetScan與mirSVR四種預測方法。另外SM2miR收錄了小分子對miRNA表達影響的相關資訊。

雖然現有這些預測miRNA標的基因的演算法，然而這些演算法提供太多錯誤的預測，許多miRNA目標基因預測的計算方法所得到的候選目標基因結果常常不一致，需花許多時間去做實驗加以驗證，也使得目前這些預測方法的資訊可用性不高，因此調整更精確的預測生物資訊演算法以及通過實驗驗證是同等重要。此外，基於以上獲得的資訊，特別是關於微核糖核酸與腦部疾病風險的關聯性的資訊，需要有一個整合性的平台，讓研究人員甚至是一般大眾可以了解最新的研究成果，對人類的健康有進一步的貢獻。

是故，一種微核糖核酸與腦部疾病風險的關聯性運算平台，可以滿足以上需求，極為業界所需。

本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中，各式的修改和類似的排列。

為了滿足以上需求，本發明提出一種微核糖核酸與腦部疾病風險的關聯性運算平台，該運算平台包含：一網路介面，該網路介面用以提供使用者端透過網路選擇一微核糖核酸識別符(miRNA ID)、選擇基因演算法pictar、miRanda、TargetScan、miRWalk與DIANA-microT其中至少一者、輸入邏輯運算值、輸入至少一腦部疾病名稱，及顯示關聯性於該使用者端；一資料庫，該資料庫具有複數個演算法模組及一腦部疾病模組，其中每一演算法模組儲存前述基因演算法之一的運算結果之所有微核糖核酸識別符與對應的標的基因；該腦部疾病模組儲存腦部疾病名稱與對應的病理基因；及一中央處理器，該中央處理器與該網路介面與資料庫電連接，用以接收透過該網路介面選擇的微核糖核酸識別符與基因演算法，及輸入的邏輯運算值與腦部疾病名稱、當有前述選擇的微核糖核酸識別符出現的演算法數量在該邏輯運算值以上時，選取所有對應的標的基因、選取與至少一腦部疾病名稱的所有的對應病理基因、及於前述所有選取之對應的標的基因與至少一腦部疾病名稱的所有的病理基因間進行一超幾何分布運算，獲得與至少一腦部疾病風險有關的關聯性。

依照本案構想，每一基因演算法的運算結果可由該網路介面透過網路定期向一特定基因演算法資料庫進行更新。該腦部疾病名稱可使用美國國立醫學圖書館-醫學主題詞庫建立的MeSH ID，前述MeSH ID為D000544、D001523或D001927。該關聯性為一p-value。

又，一風險值可以-log(p-value)表示，而該風險值以一可視化方式呈現於使用者端。舉例來說，該可視化方式為使用長條圖長度顯示該風險值，其長短表示風險高低。該邏輯運算值可為不小於1且不大於5的正整數。該網路可為有線網路或無線網路。

藉由超幾何分布運算，可以利用不同的基因演算法運算結果以及腦部疾病模組中的基因當運算標的，得到腦部疾病對特定基因的風險值，進而提供醫界與學界對於腦部疾病基因層次的快速理解認知，找到病痛的根源。此外，藉由可視化的呈現，特定基因可能引發腦部疾病的機率可以量化比較，分出孰輕孰重，作為治療用藥參考。

100‧‧‧運算平台

110‧‧‧網路介面

120‧‧‧資料庫

130‧‧‧中央處理器

200‧‧‧網路

210‧‧‧第一使用者端

220‧‧‧第二使用者端

230‧‧‧第三使用者端

第1圖為依照本發明的一種微核糖核酸與腦部疾病風險的關聯性運算平台的方框圖。

第2圖描述一使用者端的理想介面態樣。

第3圖為一資料庫結構。

第4圖顯示可視化的長條圖。

本發明將藉由參照下列的實施方式而更具體地描述。

請參閱第1圖，該圖為依照本發明的一種微核糖核酸與腦部疾病風險的關聯性運算平台100的方框圖。運算平台100主要由三個元件所組成：一網路介面110、一資料庫120與一中央處理器130。在實作上，網路介面110與中央處理器130 可以是一台伺服器，資料庫120則是安裝於與該伺服器相連的儲存設備中，無論伺服器與是儲存設備分離或整合地架設。以下詳述各個元件的功能與協作方式。

網路介面110廣義上包含了運算平台100對外部(網路)資料擷取及提供所必備的所有硬體，以及提供遠端設備呈現資料畫面所必須軟體。前者可能包含網通模組、輸出入設備、與中央處理器130連結的資料匯流排等。後者則為運作於運算平台100作業系統上的應用軟體，可控制中央處理器130與網路介面110，並對資料庫120進行存取。由於應用軟體的作業內容涵蓋所有硬體，因此狹義來說，網路介面110可僅指硬體部分。應用軟體可使用Java、JavaScript、R、Python、C等程式語言進行撰寫，執行後可進行計算並輸出對應結果。在網路架構上來說是呈現前台資料於使用者端。

網路介面110的功能為：提供使用者端透過網路200選擇一微核糖核酸識別符(miRNA ID)、選擇基因演算法pictar、miRanda、TargetScan、miRWalk與DIANA-microT其中至少一者、輸入邏輯運算值、輸入至少一腦部疾病名稱，及顯示關聯性於該使用者端。以上需要選擇與輸入的資料，其呈現於使用者端的理想介面態樣如第2圖所示。這裡所說的網路200，包含有線網路或無線網路，可以是區域網路或網際網路。miRNA ID可以下拉式選單，一次將所有的微核糖核酸識別符通通呈現在使用者面前，讓使用者依序挑選其中之一。依照本發明，雖然目前許多應用的基因演算法，但對於腦部疾病來說，適合的有pictar、miRanda、TargetScan、miRWalk與DIANA-microT等演算法。實際上，這些演算法都極其複雜，需要運算的輸入資料相當龐雜，發明者會以資料庫的方式架設於雲端，供使用者下載其運算結果，本發明即是預先下載該些運算結果(詳如後續)，免於每次查詢都需要更新一次運算結果。要注意的是，讀取的miRNA ID名稱由miRBase提供的Release 21版本為其命名基準，人類基因名稱以HUGO基因命名委員會(HUGO Gene Nomenclature Committee,HGNC)提供的基因給定特定編號gene symbol為標準，本發明中所關聯的基因群，皆以此gene symbol基因名稱命名之。

由於每個資料庫的演算法原理不同，對於特定腦部疾病會得到不同的標的基因。因此可開放選擇複數個基因演算法的運算結果，作為運算平台100運算的依據。邏輯運算值是用來找出最多聯集標的基因之用；若其數字為n，則在選取的基因演算法中至少要有n種提及到的標的基因，才會被運算平台100使用。舉例來說，如果選擇的微核糖核酸識別符為hsa-miR-137，在5種基因演算法全選之下，每一種基因演算法分別對應到的標的基因數量分別為2381、3320、4723、1285、726。若設n=4，也就是找出至少出現4次的標的基因，那麼運算平台100會使用的標的基因總數可能剩下625個。由此可知，邏輯運算值為不小於1且不大於5的正整數。

腦部疾病名稱是以文字或數字輸入的方式鍵入文字框中，一次可輸入多個，每個腦部疾病名稱間以一種符號座分隔，比如分號。輸入完畢後點擊”查詢”，輸入資料就會藉由網路介面110傳給應用軟體，透過中央處理器130來執行。其執行結果為關聯性或風險值，可於使用者端上顯示。依照本發明，使用者端可為不同的硬體設備。比如第1圖中的一第一使用者端210為一台筆記型電腦，一第二使用者端220為一台平板電腦，一第三使用者端230為一台智慧型手機。對應不同的作業系統、螢幕大小，應用軟體可提供相應的HTML碼，以呈現適合的前台。腦部疾病名稱可使用美國國立醫學圖書館-醫學主題詞庫建立的MeSH ID。比如D000544中的隱襲性癡呆的腦部變性疾病、D001523中的順應性過程中的失常表現之腦部疾病，以及D001927中的影響大腦之腦部疾病。這樣的目的是能夠統一輸入資料，便利運算平台100運作。然而，由於如此專業的術語，一般民眾可能無法使用，故腦部疾病名稱輸入也可以使用多重式下拉式選單為之。

如第3圖所示，資料庫120具有數個演算法模組(pictar演算法模組、miRanda演算法模組、TargetScan演算法模組、miRWalk演算法模組與DIANA-microT演算法模組)及一腦部疾病模組。每一演算法模組儲存前述基因演算法之一的運算結果之所有微核糖核酸識別符與對應的標的基因。運算結果有很多數據、資料或指標，因此資料庫120中各模組不限定於只有微核糖核酸識別符與對應的標的基因兩種型態的資料。舉例來說，關於一個特定的微核糖核酸識別符，在一個演算法模組中，它可能除了對應很多標的基因，也可能會對應到環境毒素、生物途徑...等運算結果。就本發明而言，只要求至少具備運算結果中的微核糖核酸識別符與對應的標的基因兩種型態的資料，其它的可有可無。腦部疾病模組則是儲存腦部疾病名稱與對應的病理基因。腦部疾病模組內的資料可以選自有疾病資料可供搜尋的網路資料庫比如miR2Disease，採定期線上更新最新資料的方式進行。

標的基因和病理基因基本上指的都是人體已知基因。為了說明方便起見，將來源不同的基因給予不同的類群基因名稱。

中央處理器130與網路介面110及資料庫120電連接，用以接收來自應用軟體，透過該網路介面110選擇的微核糖核酸識別符與基因演算法，及輸入的邏輯運算值與腦部疾病名稱。當有前述選擇的微核糖核酸識別符出現的演算法數量在該邏輯運算值以上時(比如選取的演算法數量是5個，而演算法數量是4時)，中央處理器130選取所有對應的標的基因。中央處理器130還可選取與腦部疾病名稱(同時至少一種)的所有的對應病理基因。於前述所有選取之對應的標的基因與至少一腦部疾病名稱的所有的病理基因間進行一超幾何分布運算，獲得與至少一腦部疾病風險有關的關聯性。超幾何分布是統計學上一種離散機率分布。它描述了由有限個物件中抽出n個物件，成功抽出指定種類的物件的個數(不歸還)。應用在本發明中，對兩群基因進行超幾何分布運算，可以獲得的關聯性為p-value。中央處理器130可以透過應用軟體將計算的p-value，經由網路介面110，呈現在查詢的使用者端螢幕上。為了表現風險性，風險值可以-log(p-value)表示，進而也呈現在查詢的使用者端螢幕上。最好，風險值以一可視化方式呈現於使用者端，比如該可視化方式為使用長條圖長度顯示該風險值，其長短表示風險高低，如第4圖所示(縱軸標示各腦部疾病)。

要注意的是，由於基因演算法的運算結果會因為有新的科研成果，而有不同的結果。因此，各基因演算法的運算結果可由該網路介面110透過網路200定期向一特定基因演算法資料庫(未繪示)進行更新。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。