TW201426380A

TW201426380A - 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體

Info

Publication number: TW201426380A
Application number: TW101149024A
Authority: TW
Inventors: Chih-Hao Chen; Hoong-Chien Lee; Li-Jen Su
Original assignee: Univ Nat Central
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2014-07-01
Also published as: US20140179559A1; TWI472944B

Abstract

一種實施於計算機的差異表現基因辨認方法包含以下步驟：藉由如微陣列或次世代定序等科技從實驗組樣本取得數筆實驗組基因表現量數據，以及從控制組樣本取得數筆控制組基因表現量數據。根據實驗組數據計算出各實驗樣本非差異表現基因之誤差值，以高斯分佈函數預測實驗組表現量真值機率分佈，並根據控制組數據計算出各控制樣本非差異表現基因之誤差值，以高斯分佈函數預測控制組表現量真值機率分佈。正規化實驗組機率分佈以及控制組機率分佈。整合正規化後之實驗組機率分佈以及整合正規化後之控制組機率分佈。計算實驗組與控制組間差異表現量之機率分佈，以估計該受測基因是否為差異表現基因。

Description

實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體

本發明是有關於一種實施於計算機的差異表現基因辨認方法以及用以此方法之電腦可讀取記錄媒體。

多年來DNA微陣列(DNA microarray)及次世代定序(Next-generation sequencing)等科技常被應用於偵測基因表現量側影。其中最常見的應用是在兩組樣本中辨認差異表現基因(differentially expressed genes，DEGs)。此應用之再現性(reproducibility)不高。相同或相似的實驗所得的差異表現基因通常重疊率很小。很多人曾因此懷疑DNA微陣列科技是否可信。微陣列品質控管組織(the MicroArray Quality Control Consortium)稍後的研究證明DNA微陣列科技是可靠的。

分析方法的適當性鮮少被質疑。倍數改變(fold-change)分析為其中一種分析方法。但因缺乏統計基礎，其結果不被信賴。t檢定(t-test)為另一種常用之分析方法。雖有統計基礎，t檢定結果的再現性卻出乎意料的遠較倍數改變分析差，即使在多樣本數的情況下。微陣列品質控管組織因此提出一種混合式方法，結合倍數改變分析以及t檢定。此混合式方法雖被廣泛採用，但對結果沒有統計控制，t檢定的使用更使其可靠度遭到質疑。

因此，本發明之一態樣是在提供一種實施於計算機以不同於t檢定之空假設及z檢定為基礎的差異表現基因辨認方法。此差異表現基因辨認方法之空假設為待測基因並非差異表現基因。因此，待測基因之誤差係以所有非差異表現基因之表現量測量值來估計。假設差異表現基因遠少於非差異表現基因，待測基因之誤差可用所有基因之表現量測量值來估計。此差異表現基因辨認方法包含以下步驟：

(a)取得一組實驗樣本之表現量數據以及一組控制樣本之表現量數據。

(b)由實驗組樣本之表現量測量數據計算各實驗組樣本之非差異表現基因表現量誤差。以及由控制組樣本之表現量數據計算各控制組樣本之非差異表現基因表現量誤差。

(c)針對一待測基因，由實驗組樣本之表現量數據取得該待測基因之數筆實驗組表現量測量值，根據各實驗組樣本之非差異表現基因表現量誤差值，產生數個作為估計該待測基因在實驗組樣本表現量真值之機率分佈。以及由控制組樣本之表現量數據取得該待測基因之數筆控制組表現量測量值，根據各控制組樣本之非差異表現基因表現量誤差值，產生數個作為估計該待測基因在控制組樣本表現量真值之機率分佈。

(d)正規化該些實驗組機率分佈以及正規化該些控制組機率分佈。

(e)以該些實驗組機率分佈計算出一該待測基因在實驗組之表現量真值機率分佈，以及以該些控制組機率分佈計算出一該待測基因在控制組之表現量真值機率分佈。

(f)以該實驗組表現量真值機率分佈以及該控制組表現量真值機率分佈計算該待測基因在實驗組與控制組間差異表現量之真值機率分佈。

(g)根據該差異表現量真值機率分佈進行統計檢定以估測該待該測基因是否為差異表現基因。

本發明之另一態樣是在提供一種電腦可讀取記錄媒體，儲存一電腦程式，用以執行上述差異表現基因辨認方法。方法步驟流程如上所述，在此不再重複贅述。

以下將以圖式及詳細說明本發明之精神，任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後，當可由本發明所教示之技術加以改變及修飾，其並不脫離本發明之精神與範圍。

此差異表現基因辨認方法以不同於t檢定之空假設及z檢定辨認差異表現基因。此差異表現基因辨認方法之空假設為待測基因並非差異表現基因。因此，待測基因之誤差係以所有非差異表現基因之表現量測量值來估計。此差異表現基因辨認方法可經由電腦程式來進行實作。電腦程式可儲存於一電腦可讀取記錄媒體中，而使電腦讀取此記錄媒體後執行此差異表現基因辨認方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。

請參照第1圖，其係本發明之一實施例的流程圖。差異表現基因辨認方法100包含以下步驟：

在步驟110中，取得一組實驗樣本之表現量數據以及一組控制樣本之表現量數據。第2A圖為本步驟之一實施例。圖中三實驗樣本t ₁、t ₂、t ₃及三控制樣本c ₁、c ₂、c ₃之表現量數據由DNA微陣列測得，表現量測量值為探針螢光亮度之對數。此外，在本發明之另一些實施例中，可以次世代定序儀測得之序列讀數之對數作為該些實驗樣本與該些控制樣本之表現量數據

在步驟120中，根據實驗組表現量數據計算各實驗樣本之非差異表現基因表現量誤差，以及根據控制組表現量數據計算各控制組樣本之非差異表現基因表現量誤差。第2A圖為本步驟之一實施例。藉由公式計算實驗樣本t _i之非差異表現基因表現量誤差，其中n=3為實驗組樣本數，為實驗樣本t _i與t _j間差異表現量之誤差值。藉由相同方法可計算各控制樣本之非差異表現基因表現量誤差。

在步驟130中，針對一待測基因，由該實驗組表現量數據取得該待測基因之數筆實驗組表現量測量值，根據各實驗組樣本之非差異表現基因表現量誤差，產生數個估計該待測基因在各實驗樣本表現量真值之機率分佈，以及由該控制組表現量數據取得該待測基因之數筆控制組表現量測量值，根據各控制組樣本之非差異表現基因表現量誤差，產生數個估計該待測基因在各控制組樣本表現量真值之機率分佈。第2B圖為本步驟之一實施例。圖中之表現量真值機率分佈為高斯分佈函數，其中y為變數，μ為表現量測量值，σ為非差異表現基因表現量誤差。

在步驟140中，正規化該些實驗組機率分佈以及正規化該些控制組機率分佈。第2B至2C圖為本步驟之一實施例。在本實施例中，可藉由平移該些實驗組機率分佈以一致化實驗組各樣本之平均表現量測量值(如虛線所示)，並藉由平移該些控制組機率分佈以一致化控制組各樣本之平均表現量測量值(如虛線所示)，而達到正規化。

在步驟150中，由該些正規化後之實驗組(表現量真值)機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈，以及由該些正規化後之控制組(表現量真值)機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈。第2C至2D圖為本步驟之一實施例。第2C圖中三個正規化後之實驗組機率分佈被相乘整合為第2D圖中之最終實驗組機率分佈，其中，，、、分別為該待測基因在樣本t ₁、t ₂、t ₃中之表現量測量值，、、分別為樣本t ₁、t ₂、t ₃之非差異表現基因表現量誤差。同理，第2C圖中三個正規化後之控制組機率分佈被相乘整合為第2D圖中之最終控制組機率分佈。

在步驟160中，以該實驗組表現量真值機率分佈以及該控制組表現量真值機率分佈計算該待測基因在實驗組與控制組間差異表現量之真值機率分佈。第2D至2E圖為本步驟之一實施例，以公式由G _t與G _c計算出 G _FC。

在步驟170中，根據該實驗組與控制組間差異表現量真值之機率分佈進行統計檢定，以估測該待測基因是否為差異表現基因。第2E圖為本步驟之一實施例。第2E圖中，由於實驗組與控制組間差異表現量真值之機率分佈為一高斯分佈函數，故統計檢定為一以公式進行之z檢定。

第3A圖以及第3B圖為本發明之一實施例(簡稱為WABE)與微陣列品質控管組織提出之混合式方法(簡稱為MAQCm)計算329組公用數據所得之自我再現性(Self-reproducibility)的比較。計算當中，每組數據被以四種方法分為兩半。針對一種分法，以一種差異表現基因辨認方法從每一半各選出前m個差異表現基因。令n為此兩組差異表現基因之重疊基因數，定義此分法之重疊率為n/m。該差異表現基因辨認方法之自我再現性定義為對該四種分法所得之重疊率的平均。其中，第3A圖係取m=80，而第3B圖係取m=400。兩圖均顯示WABE有較高之自我再現性。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾。因此，本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧差異表現基因辨認方法

110-170‧‧‧步驟

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖係依照本發明一實施例的一種實施於計算機的差異表現基因辨認方法之流程圖。

第2A至2E圖為應用本發明之一實施例。

第3A圖以及第3B圖為本發明之一實施例(簡稱為WABE)與微陣列品質控管組織提出之混合式方法(簡稱為MAQCm)計算329組公用數據所得之自我再現性(Self-reproducibility)的比較。

100‧‧‧差異表現基因辨認方法

110-170‧‧‧步驟

Claims

一種實施於計算機的差異表現基因辨認方法，包含：(a)取得複數個實驗樣本之表現量數據以及複數個控制樣本之表現量數據；(b)由該些實驗樣本之表現量數據計算出各實驗樣本之非差異表現基因表現量誤差，以及由該些控制樣本之表現量數據計算出各控制樣本之非差異表現基因表現量誤差；(c)針對一待測基因，由該些實驗樣本之表現量數據取得複數個該待測基因在各實驗樣本中之表現量測量值，合併各實驗樣本之非差異表現基因表現量誤差，產生該待測基因在各實驗樣本中之表現量真值機率分佈，以及由該些控制樣本之表現量數據取得複數個該待測基因在各控制樣本中之表現量測量值，合併各控制樣本之非差異表現基因表現量誤差，產生該待測基因在各控制樣本中之表現量真值機率分佈；(d)正規化該待測基因在各實驗樣本中之表現量真值機率分佈，以及正規化該待測基因在各控制樣本中之表現量真值機率分佈；(e)由該些正規化後之實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈，以及由該些正規化後之控制組表現量真值機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈；(f)由該待測基因在實驗組之表現量真值機率分佈及該待測基因在控制組之表現量真值機率分佈計算出一個該待測基因在實驗組與控制組間差異表現量真值之機率分佈；以及(g)根據該待測基因在實驗組與控制組間差異表現量真值之機率分佈進行統計檢定，以估測該待測基因是否為差異表現基因。
如請求項1所述之差異表現基因辨認方法，其中步驟(a)包含：以DNA微陣列測得之探針螢光強度之對數作為該些實驗樣本與該些控制樣本之表現量數據。
如請求項1所述之差異表現基因辨認方法，其中步驟(a)包含：以次世代定序儀測得之序列讀數之對數作為該些實驗樣本與該些控制樣本之表現量數據。
如請求項1所述之差異表現基因辨認方法，其中步驟(b)包含：藉由公式計算實驗樣本t _i之非差異表現基因表現量誤差，其中n _t為該些實驗樣本數，為實驗樣本t _i與t _j間差異表現量之誤差；以及藉由公式計算控制樣本c _i之非差異表現基因表現量誤差，其中n _c為該些控制樣本數，為控制樣本c _i與c _j間差異表現量之誤差。
如請求項1所述之差異表現基因辨認方法，其中步驟(c)包含：以高斯分佈函數作為該待測基因在各實驗樣本與各控制樣本中之表現量真值機率分佈，其中y為變數，μ為該待測基因在一樣本中之表現量測量值，σ為該樣本之非差異表現基因表現量誤差值。
如請求項1所述之差異表現基因辨認方法，其中步驟(d)包含：針對該待測基因，藉由平移該些實驗組表現量真值機率分佈以一致化各實驗樣本之平均表現量測量值，並藉由平移該些控制組表現量真值機率分佈以一致化各控制樣本之平均表現量測量值，達成正規化。
如請求項1所述之差異表現基因辨認方法，其中步驟(e)包含：以、、之公式由該些正規化後實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之最終表現量真值機率分佈，其中為該待測基因在實驗組之最終表現量真值機率分佈，而為正規化後該待測基因在實驗樣本t _i中之表現量真值機率分佈；以及以、、之公式由該些正規化後控制組表現量真值機率分佈計算出一個該待測基因在控制組之最終表現量真值機率分佈，其中為該待測基因在控制組之最終表現量真值機率分佈，而為正規化後該待測基因在控制樣本c _i中之表現量真值機率分佈。
如請求項1所述之差異表現基因辨認方法，其中步驟(f)包含：以公式將該待測基因在實驗組之最終表現量真值機率分佈以及該待測基因在控制組之最終表現量真值機率分佈轉換為該待測基因在實驗組與控制組間差異表現量真值之機率分佈。
如請求項1所述之差異表現基因辨認方法，其中步驟(g)包含：以公式進行z檢定作為估測該待測基因是否為差異表現基因之統計依據。
一種電腦可讀取記錄媒體，儲存一電腦程式，用以執行一種差異表現基因辨認方法，其中該差異表現基因辨認方法包含：(a)取得複數個實驗樣本之表現量數據以及複數個控制樣本之表現量數據；(b)由該些實驗樣本之表現量數據計算出各實驗樣本之非差異表現基因表現量誤差，以及由該些控制樣本之表現量數據計算出各控制樣本之非差異表現基因表現量誤差；(c)針對一待測基因，由該些實驗樣本之表現量數據取得複數個該待測基因在各實驗樣本中之表現量測量值，合併各實驗樣本之非差異表現基因表現量誤差，產生該待測基因在各實驗樣本中之表現量真值機率分佈，以及由該些控制樣本之表現量數據取得複數個該待測基因在各控制樣本中之表現量測量值，合併各控制樣本之非差異表現基因表現量誤差，產生該待測基因在各控制樣本中之表現量真值機率分佈；(d)正規化該待測基因在各實驗樣本中之表現量真值機率分佈，以及正規化該待測基因在各控制樣本中之表現量真值機率分佈；(e)由該些正規化後之實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈，以及由該些正規化後之控制組表現量真值機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈；(f)由該待測基因在實驗組之表現量真值機率分佈及該待測基因在控制組之表現量真值機率分佈計算出一個該待測基因在實驗組與控制組間差異表現量真值之機率分佈；(g)根據該待測基因在實驗組與控制組間差異表現量真值之機率分佈進行統計檢定，以估測該待測基因是否為差異表現基因。