TWI607332B

TWI607332B - Correlation between persistent organic pollutants and microRNAs station

Info

Publication number: TWI607332B
Application number: TW105142480A
Authority: TW
Inventors: 林琥沈; 陳育興; 宋鴻青
Original assignee: 國立臺灣師範大學
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-12-01
Also published as: TW201824046A

Description

持久性有機污染物與微核糖核酸的關聯性運算平台

本發明關於一種運算平台，特別是一種用於持久性有機污染物與微核糖核酸的關聯性運算平台。

過去，有研究提出一些辨識微核糖核酸(miRNA)的資訊方法，已預測及鑑定出數以千計的微核糖核酸，但尚未有資訊方法能加以整合，因此，很重要的是提出資訊方法整合微核糖核酸的相關資訊。目前已有收集微核糖核酸目標基因與疾病關聯性等不同主題的資料庫。有關微核糖核酸目標基因預測的各式不同的演算法主要有三種類型，第一種是判斷微核糖核酸與可能目標的序列互補程度，依靠互補性找出微核糖核酸目標基因的演算法，以TargetScan與miRanda為代表；第二種是利用熱力學方法，以PicTar為代表；第三種則是仰賴目前已知的研究成果，藉由資料探勘的方法，訓練演算法找出可能的目標基因後，再進行驗證，例如以MirTarget2建立的miRDB。miRGen將幾個預測方法的結果再行整合。而ComiR整合了miRanda、PITA、TargetScan與mirSVR四種預測方法。另外SM2miR收錄了小分子對miRNA表達影響的相關資訊。

雖然目前有這些預測miRNA標的基因的演算法，然而這些演算法的預測結果相去甚遠，不同miRNA目標基因間預測的計算方法所得到的候選目標基因結果常常不一致，需花許多時間去做實驗加以驗證，也使得目前這些預測方法的資訊可用性不高，因此調整更精確的預測生物資訊演算法以及通過實驗驗證是同等重要。此外，基於以上獲得的資訊，特別是關於微核糖核酸與持久性有機污染物的關聯性的資訊，需要有一個整合性的平台，並同時具有將輸出之資訊內容視覺化的功能，讓研究人員甚至是一般大眾可以了解最新的研究成果，對人類的健康有進一步的貢獻。

是故，一種微核糖核酸與持久性有機污染物的關聯性運算平台，可以滿足以上需求，亟為業界所需。

本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中，各式的修改和類似的排列。

為了滿足上述需求，本發明提出一種持久性有機污染物與微核醣核酸(miRNA)的關聯性運算平台。該關聯性運算平台包含：一網路介面，該網路介面用以提供使用者端透過網路選擇一持久性有機污染物、選擇微核醣核酸標的預測方法PITA、miRanda、TargetScan、miRDB、RNAhybrid與DIANA-microT其中至少一者、輸入至少一微核糖核酸，及顯示關聯性於該使用者端；一資料庫，該資料庫具有複數個預測方法模組及一微核糖核酸模組，其中每一預測方法模組儲存前述標的預測方法之一的運算結果之所有持久性有機污染物與對應的標的基因；該微核糖核酸模組儲存微核糖核酸與對應的基因；及一中央處理器，該中央處理器與該網路介面與資料庫電連接，用以接收透過該網路介面選擇的持久性有機污染物與標的預測方法，及輸入的邏輯運算值與微核糖核酸、當有前述選擇的持久性有機污染物出現的預測方法數量在該邏輯運算值以上時，選取所有對應的標的基因、選取與至少一微核糖核酸對應的所有的基因、及於前述所有選取之對應的標的基因與至少一微核糖核酸的所有的基因間進行一超幾何分布運算，獲得與至少一微核糖核酸有關的關聯性。

依照本案構想，該持久性有機污染物名稱可使用中華民國行政院環境保護署建立的化學物質名稱。最好，該持久性有機污染物名稱為Chlordane、Dieldrin、4,4-Dichlorodiph-enyl trichloroethanee、Toxaphene、Endrin、Heptachlor、Aldrin、Hexachlorobenzene、Mirex、Dioxins、Furans、Polychlorinated biphenyl。該關聯性為一p-value。一關聯值可以-ln(p-value)表示。該風險值以一可視化方式呈現於使用者端。該邏輯運算值可為不小於1且不大於4的正整數。該網路可為有線網路或無線網路。

藉由超幾何分布運算，可以利用不同的標的預測方法運算結果以及微核糖核酸模組中的基因當運算標的，得到微核糖核酸對持久性有機污染物的關聯值，進而提供醫界與學界對於持久性有機污染物與微核醣核酸間的互動及關連模式。

100‧‧‧運算平台

110‧‧‧網路介面

120‧‧‧資料庫

130‧‧‧中央處理器

200‧‧‧網路

210‧‧‧使用者端

第1圖為依照本發明的一種持久性有機污染物與微核糖核酸的關聯性運算平台的方框圖，第2圖描述一使用者端的理想介面態樣，第3圖為一資料庫結構。

本發明將藉由參照下列的實施方式而更具體地描述。

請參閱第1圖，該圖為依照本發明的一種持久性有機污染物與微核糖核酸100運算平台的方框圖。運算平台100主要由三個元件所組成：一網路介面110、一資料庫120與一中央處理器130。在實作上，網路介面110與中央處理器130可以是一台伺服器，資料庫120則是安裝於與該伺服器相連的儲存設備中，無論伺服器儲存設備是分離或整合地架設。以下詳述各個元件的功能與協作方式。

網路介面110廣義上包含了運算平台100對外部(網路)資料擷取及提供所必備的所有硬體，以及提供遠端設備呈現資料畫面所必須之軟體。前者可能包含網通模組、輸出入設備、與中央處理器130連結的資料匯流排等。後者則為運作於運算平台100作業系統上的應用軟體，可控制中央處理器130與網路介面110，並對資料庫120進行存取。由於應用軟體的作業內容涵蓋所有硬體，因此狹義來說，網路介面110可僅指硬體部分。應用軟體可使用Java、JavaScript、R、Python、C等程式語言進行撰寫，執行後可進行計算並輸出對應結果。在網路架構上來說是呈現前台資料於使用者端。

網路介面110的功能為：提供使用者端透過網路200選擇一持久性有機污染物、選擇微核醣核酸標的預測方法PITA、miRanda、TargetScan、miRDB、RNAhybrid與DIANA-microT其中至少一者、輸入至少一微核糖核酸，及顯示關聯性於該使用者端。以上需要選擇與輸入的資料，其呈現於使用者端的理想介面態樣如第2圖所示。這裡所說的網路200，包含有線網路或無線網路，可以是區域網路或網際網路。持久性有機污染物可以下拉式選單，一次將所有的持久性有機污染物名稱通通呈現在使用者面前，讓使用者挑選其中之一；實作上，也可以讓使用者以手動方式輸入。依照本發明，雖然目前許多應用的標的預測方法，但對於微核醣核酸來說，適合的有PITA、miRanda、TargetScan、miRDB、RNAhybrid 與DIANA-microT等預測方法。實際上，這些預測方法都極其複雜，需要運算的輸入資料相當龐雜。發明者以資料庫的方式架設於雲端，供使用者下載其運算結果；本發明即是預先下載該些運算結果(詳如後續)，免於每次查詢都需要更新一次運算結果。要注意的是，讀取的持久性有機污染物名稱以中華民國行政院環境保護署建立的化學物質名稱為基準，依照本發明，可使用Chlordane、Dieldrin、4,4-Dichlorodiph-enyl trichloroethanee、Toxaphene、Endrin、Heptachlor、Aldrin、Hexachlorobenzene、Mirex、Dioxins、Furans、Polychlorinated biphenyl等常見持久性有機污染物。人類基因名稱以HUGO基因命名委員會(HUGO Gene Nomenclature Committee，HGNC)提供的基因給定特定編號gene symbol為標準，本發明中所關聯的基因，皆以此gene symbol基因名稱命名之。

由於資料庫的每個預測方法原理不同，對於特定微核糖核酸會得到不同的標的基因。因此可開放選擇複數個標的預測方法的運算結果，作為運算平台100運算的依據。邏輯運算值是用來找出最多聯集標的基因之用；若其數字為n，則在選取的標的預測方法中至少要有n種提及到的標的預測方法，才會被運算平台100使用。舉例來說，如果選擇的持久性有機污染物為Chlordane，在選擇3種標的預測方法之下，每一種標的預測方法分別對應到的標的基因數量分別為2542、5718、3531。若設n=4，也就是找出至少出現4次的標的預測方法，那麼運算平台100會使用的標的基因總數可能剩下1000個以下；若設n=5，也就是找出至少出現5次的標的基因，那麼運算平台100會使用的標的基因總數可能剩下500個以下；若設n=6，也就是找出至少出現6次的標的基因(全部標的預測方法都出現結果)，那麼運算平台100會使用的標的基因總數可能只剩下不到100個。就分析廣度而言，邏輯運算值最好為不小於1且不大於4的正整數。

微核醣核酸名稱是以文字或數字輸入的方式鍵入文字框中，一次可輸入多個，每個微核醣核酸名稱間可以一種符號做分隔，比如分號。輸入完畢後點擊”查詢”，輸入資料就會藉由網路介面110傳給應用軟體，透過中央處理器130來執行。其執行結果為關聯性或關聯值，可於使用者端上顯示。依照本發明，使用者端可為不同的硬體設備。比如第1圖中的一使用者端210為一台筆記型電腦。實務上，使用者端210亦可為一台平板電腦或一台智慧型手機。對應不同的作業系統、螢幕大小，應用軟體可提供相應的HTML碼，以呈現適合的前台。微核醣核酸名稱在學術或實務界上有特殊定義，但不好記憶，一般民眾可能無法使用，故微核醣核酸名稱輸入也可以使用多重勾選式選單為之。

如第3圖所示，資料庫120具有數個預測方法模組(PITA預測方法模組、miRanda預測方法模組、TargetScan預測方法模組、miRDB預測方法模組、RNAhybrid預測方法模組與DIANA-microT預測方法模組)及一微核糖核酸模組。每一預測方法模組儲存前述標的預測方法之一的運算結果之所有持久性有機污染物與對應的標的基因。運算結果有很多數據、資料或指標，因此資料庫120中各模組不限定於只有持久性有機污染物與對應的標的基因兩種型態的資料。舉例來說，關於一個特定的持久性有機污染物，在一個預測方法模組中，它可能除了對應很多標的基因，也可能會對應到環境毒素、生物途徑...等運算結果。就本發明而言，只要求至少具備運算結果中的持久性有機污染物與對應的標的基因兩種型態的資料，其它的可有可無。微核糖核酸模組則是儲存微核糖核酸與對應的基因。

中央處理器130與網路介面110及資料庫120電連接，用以接收來自應用軟體，透過該網路介面110選擇的持久性有機污染物與標的預測方法，及輸入的邏輯運算值與微核糖核酸名稱。當有前述選擇的持久性有機污染物出現的預測方法數量在該邏輯運算值以上時(比如選取的預測方法數量是5個，而邏輯運算值是4時)，中央處理器130選取所有對應的標的基因。中央處理器130還可選取與微核糖核酸名稱(同時至少一種)的所有的對應基因。於前述所有選取之對應的標的基因與至少一微核糖核酸的所有的基因間進行一超幾何分布運算，獲得與至少一微核糖核酸相關的關聯性。超幾何分布是統計學上一種離散機率分布。它描述了由有限個物件中抽出n個物件，成功抽出指定種類的物件的個數(不歸還)。應用在本發明中，對兩群基因進行超幾何分布運算，可以獲得的關聯性為p-value。中央處理器130可以透過應用軟體將計算獲得的p-value，經由網路介面110，呈現在查詢的使用者端螢幕上。由於p-value數值很小，但彼此間的差異性很大，故採一關聯值，-ln(p-value)，便於以較接近的數值，以圖形呈現在查詢的使用者端螢幕上。最好，關聯值可以一可視化方式呈現於使用者端，比如該可視化方式為使用長條圖長度顯示該關聯值，其長短表示關聯值高低；或使用泡泡圖大小顯示該關聯值。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。