TWI399661B

TWI399661B - 從微陣列資料中分析及篩選疾病相關基因的系統

Info

Publication number: TWI399661B
Application number: TW98128143A
Authority: TW
Inventors: Liang Tsung Huang; Chang Sheng Wang
Priority date: 2009-08-21
Filing date: 2009-08-21
Publication date: 2013-06-21
Also published as: TW201108019A

Description

從微陣列資料中分析及篩選疾病相關基因的系統

本發明為一種從微陣列資料中分析及篩選疾病相關基因的系統，其主要涉及微陣列資料之處理、分析、評估及預測該些資料所具之生物意義等目的之生物資訊領域。

微陣列分析(Microarray Assay)是近年來研究基因組學、遺傳學等領域之一重要工具。微陣列上可佈滿數千或數萬個核酸、胜肽之探針，經由單次檢驗，即可快速得到大量基因表現、序列相關資訊。然而，經微陣列分析所得之資料量龐大，研究人員難以從中快速分析出其所代表之生物意義，如：基因表現圖譜(Gene Expression Profiling)之差異、疾病與基因之關連等生物意義之關連，因此，如何從微陣列分析所得之龐大資料量中找出其生物意義，是目前生物資訊技術亟欲發展之目標。

舉例來說，針對急性淋巴母細胞白血病(ALL)與急性骨髓細胞白血病(AML)，藉由微陣列技術配合生物資訊軟體之分析，發現某些特定基因之表現，可用以區分兩者，換句話說，如果充分並正確地應用微陣列晶片產出之資訊，將有助於醫療人員對疾病有更深入地了解。

然而要從數以千計的基因表現值中，區分出不同的疾病類型，仍然是很大的挑戰，除了實驗資料不足的問題外，另一個因素乃缺乏一種有效並準確的架構化、系統化之分析預測以及建立關連性模型的系統。近年來，雖然許多機器學習(Machine Learning)的方法被使用來進行預測，例如類神經網路(Artificial Neural Nets)，然而，類神經網路的節點具有很強的交互作用，使得系統的性質無法很容易地被解釋，對於預測機制的進一步解析，便顯得捉襟見肘。

因此如何在微陣列技術的基礎之上，利用不同層次的生物資訊技術與軟體，將知識工程與資料探勘技術深化應用的相關研究，成為一個重要的課題。由此可見，上述習用物品仍有諸多缺失，實非一良善之設計者，而亟待加以改良。

本案發明人鑑於上述習用分析及篩選疾病方法所衍生的各項缺點，乃亟思加以改良創新，並經過多年苦心孤詣潛心研究後，終於成功研發完成本件一種從微陣列資料中分析及篩選疾病相關基因的系統。

另，本案係已於2009年2月24日揭露於學術期刊(Journal of Biomedical Science 2009,16:25)中。

本發明之主要目的即在提供一種從微陣列資料中分析及篩選疾病相關基因的系統，藉由該系統用以分析微陣列之資料，將龐大的資料逐次處理，並篩選出重要性候選基因，進而發展出疾病預測模組，達到迅速、準確分析及預測疾病之目的。

本發明之另一主要目的即在提供一種從微陣列資料中分析及篩選疾病相關基因的系統，藉由該系統用以分析微陣列之資料，將龐大的資料逐次處理，並篩選出重要性候選基因，進而發展出關聯性規則模組，達到準確釐清疾病與基因間關連性之目的。

可達成上述目的之一種從微陣列資料中分析及篩選疾病相關基因的系統，係蒐集不同樣本之微陣列資料及其相關實驗資料，首先，透過前處理單元將取得之微陣列資料進行均一化調整，並透過設定基因表現的門檻值，以取得位於此門檻值範圍內之基因表現資料，再由重要性篩選單元之卡方統計量計算模組及卡方演算法模組，用以篩減基因表現資料中相似者，藉此挑選出基因表現資料中顯著不一致者或差異者(即為候選基因，或本案中稱特徵向量)，以作為分類單元或關聯性開發單元之輸入向量。

其中分類單元係包含最大概度判別規則計算模組及對角化二次判別式模組，該最大概度判別規則計算模組是基於貝氏決策理論，用以預測疾病類別之可能性，再由對角化二次判別式模組，來決定疾病之類別，用以建立疾病預測模組；其中關聯性開發單元係包含廣義規則歸納法資訊統計量計算模組及資訊理論規則歸納演算法模組，藉由廣義規則歸納法資訊統計量計算模組得到規則之資訊統計量以估計關聯規則之資訊內涵，再透過資訊理論規則歸納演算法產生最佳關聯規則，用以建立關聯性規則模組。

透過本系統可達成準確且快速地發現某些特定基因之表現型式，並據以分類其對應疾病之類別，為後續診或斷治療建立良好的基礎；另，透過本系統可建立疾病及基因間之最佳關聯規則。

本發明係以下面的實施例予以示範闡明，但本發明不受下述實施例所限制。

請參閱圖一所示，為本發明之一種從微陣列資料中分析及篩選疾病相關基因的系統(以下簡稱X-AI)之架構圖，包括有：

一前處理單元1，該前處理單元1為了使不同樣本的微陣列資料取得一致性，係將同一樣本土所取得之微陣列資料(基因表現數值)進行均一化(Normalization)調整，其中該乘積因子是根據樣本之間帶有present calls的基因表現數值的線性迴歸之斜率計算而來，一般說來會由實驗單位加以計算，為習知之過程，該乘積因子主要是用來校正不同樣本間的基因表現數值，使其不會因樣本之間的操作而產生數值誤差；present calls相當於在不同樣本中所選定表現一致的基因，因此藉由present calls的線性迴歸，可以取得乘積因子之值來進行校正；其次，決定基因表現值的門檻值，藉此取得位於此門檻值內之基因表現資料；若欲避免資料出現極端值、造成預測偏差，可進一步搭配門檻濾波器。

由於原始的微陣列資料經過前處理單元1處理後，仍然具有為數眾多的基因表現資料，因此，若能從中選擇較具代表性的基因進行後續的分析及判別，不僅可降低特徵向量3的數量，也可以提高系統的效能。此外，特徵向量3也直接關係到關連性規則模組7的建立。因此，為了減少可能為冗餘的基因表現資料，同時降低計算的複雜度，本系統係以卡方統計量計算模組21及卡方演算法模組22來進行重要性基因的分析及篩選，並選擇相對較重要者做為分類單元4或關聯性開發單元6的輸入向量。

一重要性篩選單元2，該重要性篩選單元2包含卡方統計量計算模組21及卡方演算法模組22，其中該卡方統計量計算模組21係以卡方演算法(Chi -Square Algorithm)計算各相鄰區間的卡方統計量，再藉由卡方演算法模組22依據設定之門檻值將相鄰區間進行合併，以篩選出相對較為重要之基因作為分類單元4以及關聯性開發單元6之輸入特徵向量3。

前述「特徵向量」於本發明中係以被選定之候選基因組合作為輸入分類單元4及關聯性開發單元6之特徵向量3，用以判別疾病的類別、建立最佳關聯規則。

一分類單元4，該分類單元4係以特徵向量3作為輸入向量，並依據最大概度判斷規則計算模組41(Maximum Likelihood Discriminant Rule)來計算類別之機率統計量，用以預測類別的可能性，再透過對角化二次判別式模組42(Diagonal Quadratic Discriminant Analysis)，來決定預測類別，並具以建立疾病預測模型5。

一關聯性開發單元6，該關聯性開發單元6係以特徵向量3作為輸入向量，藉由廣義規則歸納法(Generalized rule induction)資訊統計量計算模組61所得到之資訊統計量，用以估計關聯規則的資訊含量，可以據以評估並選定較有意義的關聯規則；再依據該資訊統計量，使用資訊理論規則歸納演算法(ITRULE)模組62(係為一規則建立之程序)，可將資料逐步分析並建立可靠的關聯規則，用以建立關聯性規則模組7。

另外，本發明亦提供一種內儲程式之電腦可讀取記錄媒體，當電腦載入該程式並執行後，可完成本發明之一種從微陣列資料中分析及篩選疾病相關基因的系統。

請同時參閱圖一、表一、圖二及表二所示，係以兩組不同的白血病數據集(data sets)為實施本發明之一實施方式，透過詳細的演算法流程，並提供相對應之數據圖來試驗X-AI之準確度：第一組資料取自Golub[1]等人(命名為L1組)，共有72個樣本數，包含有訓練組27個ALL、11個AML，以及測試組20個ALL、14個AML。將該兩種不同類型(ALL、AML)白血病的訓練組及測試組進行微陣列分析(Affymetrix Oligonucleotide Microarray)，其中每一個樣本皆有7129個基因(探針)表現值；第二組資料取自Armstrong[2]等人(命名為L2組)，共有72個樣本數，訓練組20個ALL、17個MML(Mixed Lineage Leukemia，混合型白血病)、20個AML，以及測試組4個ALL、3個MML、8個AML。將該三種不同類型(ALL、MML、AML)白血病的訓練組及測試組進行微陣列分析，其中每一個樣本皆包含12582個基因(探針)表現值；由於L1與L2為兩組不同的資料，為了減少因為資料標準不一致導致預測偏差(bias)，故，計算基因樣本之線性迴歸，並利用乘積因子來使所有表現值呈現均一化；

疾 病預測

將表現值均一化後，設定基因表現值的門檻值為-800到24000，藉此取得位於此門檻值內之基因表現資料。另外，為避免資料出現極端值、造成預測偏差，可進一步採用Duoit[3]的建議進行資料處理。

經過前處理單元1處理後之資料，雖然資料已經精簡了，但是對於預測疾病而言，依舊相當龐大，在此使用重要性篩選單元2來進行基因重要性之分析。該重要性篩選單元2主要由兩個階段組成，第一個階段由卡方統計量計算模組21係以卡方演算法(Chi-Square Algorithm)計算各相鄰區間的卡方統計量，然後將相鄰區間進行合併；第二個階段針對第一個階段的各卡方統計量利用卡方演算法模組22進行合併程度之評估，合併程度較大的基因，則其對資料的重要性就相對較低；最後再將各基因進行排比，即可比較出基因的相對重要性；重要性篩選單元2所使用之公式如下所示：

其中，k是類別數，A_ij 是第i區間中第j類的樣本數，E_ij 是A_ij 的期望值，R_i 是第i區間的樣本數，C_j 是j類的樣本數，n是全部樣本數。

以本案實施例資料集L1為例，k=2意指ALL與AML兩種類別；初始區間數目為某一基因表現數值之多樣性，以第1個基因(表現值)為例，區間數目為66；第1區間的樣本數R₁ =72；以ALL為例，樣本中ALL類的樣本數C_ALL =54；全部樣本數n=72。演算法之詳細計算流程則可利用已開放原始碼之軟體[5]完成。(更詳細之演算法步驟可參考附檔Chi2-feature selection and discretization of numeric attributes.pdf[4]得知)

因此，透過重要性篩選單元2可篩選出相對較為重要之基因以作為分類單元4及關連性開發單元6之特徵向量3。如表二所示，為X-AI藉由重要性篩選單元2篩選出L1及L2之十大特徵向量3：

分類單元4將特徵向量3透過貝氏決策理論(Bayes Decision Theory)之最大概度判別規則計算模組41，用來評估其對應類別的可能性；對於多變數高斯分佈(Multivariate Gaussian Distribution)而言，最大概度判別規則計算模組41之演算法[6]為：

其中l為向量x的空間維度、μ_i 是ω_i 類中x的期望向量、Σ_i 是1乘l之共變數矩陣；以本案所實施之資料集L1為例，挑選10個重要基因，因此l=10；特徵向量3為10個被挑選出的重要基因之表現值，以1號訓練樣本計算為[-64,1644,264,322,630,821,105,639,9,-14]；ω_ALL 表示類別ALL；μ_ALL 表示類別ALL中訓練樣本的期望向量，也就是ALL中所有訓練樣本特徵向量3(公式中稱為向量x)的均值向量。

當此共變數矩陣為對角型式，即時，最大概度判別規則計算模組41可寫成，此為對角化二次判別式模組42之特定型式，實務上μ_i 以及Σ_i 可由相對應的樣本中[7]得知，亦即計算資料集L1或L2中之樣本期望向量μ_i 及共變數矩陣μ_i ，而無需計算未知母群體之期望向量及共變數矩陣，透過此特定形式判別後可決定疾病之預測類別，並建立疾病預測模組5。

請參考圖二所示，為X-AI之L1及L2測試組數據集之預測效能，x軸代表基因數，y代表準確度(%)，由圖示可知L1及L2於X-AI提供之演算法計算後，不論參與判別之基因數多或少皆可提供相當高的準確程度。

請參考圖三A所示，為X-AI及其他預測方式之錯誤分類比較圖，係以L1之測試組數據集進行分析比較，其中x軸代表基因數，y軸代表錯誤分類樣本數，由圖示可顯而易見X-AI只需最少基因數並且能達到最低錯誤率。

請參考圖三B所示，為X-AI及其他預測方式之精準度比較圖，係以L2之測試組數據集進行分析比較，其中x軸代表基因數，y軸代表準確度，由圖示可顯而易見X-AI只需最少基因數並且能達到最高準確度。

綜上所述，藉由本發明所提供之X-AI系統，其所建立之疾病預測模組，可從微陣列資料中快速且準確地判別其相關疾病之類別，此將有助於對該疾病早期發現之診斷、預防醫學上、醫療資源之有效應用上及健保或醫藥保險上極具重要性。

開發關聯規則

另外，為了有效的利用微陣列資料，並提供更高的利用價值，開發關聯規則的任務在於減少潛在的大量雜亂無章的數據，使之成為少量且易於觀察理解的靜態資料，將上述特徵向量3作為輸入向量，利用關連性開發單元6之廣義歸納法資訊統計量計算模組61衡量其統計量之資訊內涵：

其中，本模組之演算法假定規則的型式為IF A=a,THEN B=b，其中A為前置項(Antecedent)之某一特定屬性、a為屬性A之觀測值、p(a)代表因子觀測值為a的機率(亦即規則前置項的涵蓋程度)；B為後置項(Consequent)之屬性、b為屬性B之觀測值、p(b)代表因子觀測值b的事前機率(亦即觀測值b在後置項的普遍程度)；p()表示因子觀測值b在加入觀測值a的資訊後的修正機率，對於有多重前置項的規則而言，p(a)則可視為前置項多重觀測值同時存在的聯合機率(亦即p(a₁ AND a₂ ))。

再根據上述的廣義歸納法資訊統計量計算模組61計算之統計量，使用資訊理論規則歸納演算法模組62可產生一組最佳的規則，並建立關聯性規則模組7。

詳細之資訊理論規則歸納演算法模組62可分為三個步驟說明：步驟一：先從樣本資料中計算所有一階規則(只有單一前置項的規則)之J統計量，加以排序後取出一組指定數量的規則，並設定其中最小的J統計量為J_min ；步驟二：針對步驟一的所有規則進行特異化，即加入新的前置項，再評估所形成的新規則之J統計量；步驟三：以先深後廣(depth-first)的演算策略決定是否繼續進行規則的特異化，當搜尋到的規則之J統計量大於Jmin便置換放入規則組之中，直至p()=0或1。更詳細之演算法步驟可參考[8]所述。

請參考表三A及表三B所示，表三A為X-AI從L1數據集所產生之兩個不同類別的對應規則；表三B為X-AI從L2數據集所產生之三個不同類別的對應規則；數據中顯而易見可信度(Confidence)皆大於支持度(Support)，則可認為前置項與後置項是有關聯的：

其中：

支持度(Support)=包含前置項之樣本數量/總樣本數量

置信度(Confidence)=包含前置項及後置項兩者之樣本數量/包含前置項之樣本數量；

本發明所提供之一種從微陣列資料中分析及篩選疾病相關基因的系統，與其他習用技術相互比較時，更具有下列之優點：

1.本發明相較習知技術，可從龐大的微陣列資料中，快速且準確地找到與疾病相關之基因，相較以往，本發明僅需較少的基因樣本數量即可預測並判斷疾病類型，並且達到極高之準確度，對於疾病於早期發現之診斷、早期預防之防護、醫療資源之有效應用、以及全民健康保險或其他醫藥保險之提防等議題上具有不可或缺之重要性。

2.本發明相較習知技術，可從龐大的微陣列資料中，只需較少的基因樣本數量，配合關聯性開發單元之演算法計算各基因間與對應疾病的聯合機率，藉此發展出可靠的疾病關連性規則模組。

3.本發明提供一系統性的資料探勘演算流程，依序藉由前處理單元、重要性篩選單元、分類單元或關聯性開發單元，從龐雜之微陣列資料中找出重要之基因表現值，並加以分類預測其對應之疾病類別、或進一步建立一與疾病之最佳關聯規則。

上述詳細實施例之說明，係針對本發明之可行性之具體說明，惟本發明之應用與專利範圍並不受該二實施例之限制，凡未脫離本發明技藝精神所為之等效實施或變更，均應包含於本案之專利範圍中。

綜上所述，本案不但在技術思想上確屬創新，已充分符合新穎性及進步性之法定發明專利要件，爰依法提出申請，懇請　貴局核准本件發明專利申請案，以勵發明，至感德便。

【參考文獻】

1. Golub TR,Slonim DK,Tamayo P,Huard C,Gaasenbeek M,Mesirov JP,Coller H,Loh ML,Downing JR,Caligiuri MAet al :Molecular classification of cancer:class discovery and class prediction by gene expression monitoring. Science 1999,286: 531-537.

2. Armstrong SA,Staunton JE,Silverman LB,Pieters R,den Boer ML,Minden MD,Sallan SE,Lander ES,Golub TR,Korsmeyer SJ:MML translocations specify a distinct gene expression profile that distinguishes a unique leukemia. Nat Genet 2002,30:41-47

3. Dudoit S,Fridlyand J,Speed T:Comparison of discrimination methods for the classification of tumors using gene expression data. Technical Report 576,statistics Dept,UC Berkeley 2000.

4.Huan L,Rudy S:Chi2:Feature Selection and Discretization of Numeric Attributes. In:Seventh International Conference on Tools with Artificial Intelligence(ICTAI):1995 ;1995:388.

5. Witten IH,Frank E:Data Mining:Practical machine learning tools and techniques ,2nd edn. San Francisco:Morgan Kaufmann;2005.

6. Theodoridis S,Koutroumbas K:Pattern recognition ,3rd edn. Amsterdam;Boston:Elsevier/Academic Press;2006.

7. Huang LT,Gromiha MM:Analysis and prediction of protein folding rates using guadratic response surface models. Journal of Computational Chemistry 2008,29:1675-1683.

8. Smyth P,Goodman RM:An information theoretic approach to rule induction from databases. Knowledge and Data Engineering,IEEE Transactions on 1992,4 :301-316.9. Wang Y,Tetko IV,Hall MA,Frank E,Facius A,Mayer KF,Mewes HW:Gene selection from microarray data for cancer classification-a machine learning approach. Comput Biol Chem 2005,29(1):37-46 .

10. Furey TS,Cristianini N,Duffy N,Bednarski DW,Schummer M,Haussler D:Support vector machine classification and validation of cancer tissue samples using microarray expression data. Bioinformatics 2000,16(10):906-914.

11. Li J,Wong L:Identifying good diagnostic gene groups from gene expression profiles using the concept of emerging patterns. Bioinformatics 2002,18(5):725-734.

12. Antonov AV,Tetko IV,Mader MT,Budczies J,Mewes HW:Optimization models for cancer classification:extracting gene interaction information from microarray expression data. Bioinformatics 2004,20(5):644-652.

13. Tan AC,Naiman DQ,Xu L,Winslow RL,Geman D:Simple decision rules for classifying human cancers from gene expression profiles. Bioinformatics 2005,21(20):3896-3904.

1．．．前處理單元

2．．．重要性篩選單元

21．．．卡方統計量計算模組

22．．．卡方演算法模組

3．．．特徵向量

4．．．分類單元

41．．．最大概度判別規則計算模組

42．．．對角化二次判別式模組

5．．．疾病預測模組

6．．．關聯性開發單元

61．．．廣義規則歸納法資訊統計量計算模組

62．．．資訊理論規則歸納演算法模組

7．．．關聯性規則模組

圖一為本發明一種從微陣列資料中分析及篩選疾病相關基因的系統之架構圖；

圖二為本發明一種從微陣列資料中分析及篩選疾病相關基因的系統預測效能評估圖；以及

圖三A及B為本發明一種從微陣列資料中分析及篩選疾病相關基因的系統與其他方法之錯誤率及準確度比較圖，其中圖三A：Voting machine[1]、SVM[8]、Emerging、patterns[9]、MAMA[10]、J48,NB,SMO-CFS,SMO-Wrapper[7]、RIRLS,RPLS,RPCR,FPLS,MAVE,k-NN[11]為習知之分析方法；其中圖三B：Classification based on correlation/ordering network[12]、HC-TSP,HC-k-TSP,DT,NB,k-NN,SVM,PAM[13]為習知之分析方法。