TWI472944B - 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體 - Google Patents

實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體 Download PDF

Info

Publication number
TWI472944B
TWI472944B TW101149024A TW101149024A TWI472944B TW I472944 B TWI472944 B TW I472944B TW 101149024 A TW101149024 A TW 101149024A TW 101149024 A TW101149024 A TW 101149024A TW I472944 B TWI472944 B TW I472944B
Authority
TW
Taiwan
Prior art keywords
gene
probability distribution
performance
experimental
expression
Prior art date
Application number
TW101149024A
Other languages
English (en)
Other versions
TW201426380A (zh
Inventor
Chihhao Chen
Hoongchien Lee
Lijen Su
Original Assignee
Univ Nat Central
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Central filed Critical Univ Nat Central
Priority to TW101149024A priority Critical patent/TWI472944B/zh
Priority to US13/923,386 priority patent/US20140179559A1/en
Publication of TW201426380A publication Critical patent/TW201426380A/zh
Application granted granted Critical
Publication of TWI472944B publication Critical patent/TWI472944B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體
本發明是有關於一種實施於計算機的差異表現基因辨認方法以及用以此方法之電腦可讀取記錄媒體。
多年來DNA微陣列(DNA microarray)及次世代定序(Next-generation sequencing)等科技常被應用於偵測基因表現量側影。其中最常見的應用是在兩組樣本中辨認差異表現基因(differentially expressed genes,DEGs)。此應用之再現性(reproducibility)不高。相同或相似的實驗所得的差異表現基因通常重疊率很小。很多人曾因此懷疑DNA微陣列科技是否可信。微陣列品質控管組織(the MicroArray Quality Control Consortium)稍後的研究證明DNA微陣列科技是可靠的。
分析方法的適當性鮮少被質疑。倍數改變(fold-change)分析為其中一種分析方法。但因缺乏統計基礎,其結果不被信賴。t檢定(t-test)為另一種常用之分析方法。雖有統計基礎,t檢定結果的再現性卻出乎意料的遠較倍數改變分析差,即使在多樣本數的情況下。微陣列品質控管組織因此提出一種混合式方法,結合倍數改變分析以及t檢定。此混合式方法雖被廣泛採用,但對結果沒有統計控制,t檢定的使用更使其可靠度遭到質疑。
因此,本發明之一態樣是在提供一種實施於計算機以不同於t檢定之空假設及z檢定為基礎的差異表現基因辨認方法。此差異表現基因辨認方法之空假設為待測基因並非差異表現基因。因此,待測基因之誤差係以所有非差異表現基因之表現量測量值來估計。假設差異表現基因遠少於非差異表現基因,待測基因之誤差可用所有基因之表現量測量值來估計。此差異表現基因辨認方法包含以下步驟:
(a)取得一組實驗樣本之表現量數據以及一組控制樣本之表現量數據。
(b)由實驗組樣本之表現量測量數據計算各實驗組樣本之非差異表現基因表現量誤差。以及由控制組樣本之表現量數據計算各控制組樣本之非差異表現基因表現量誤差。
(c)針對一待測基因,由實驗組樣本之表現量數據取得該待測基因之數筆實驗組表現量測量值,根據各實驗組樣本之非差異表現基因表現量誤差值,產生數個作為估計該待測基因在實驗組樣本表現量真值之機率分佈。以及由控制組樣本之表現量數據取得該待測基因之數筆控制組表現量測量值,根據各控制組樣本之非差異表現基因表現量誤差值,產生數個作為估計該待測基因在控制組樣本表現量真值之機率分佈。
(d)正規化該些實驗組機率分佈以及正規化該些控制組機率分佈。
(e)以該些實驗組機率分佈計算出一該待測基因在實驗組之表現量真值機率分佈,以及以該些控制組機率分佈 計算出一該待測基因在控制組之表現量真值機率分佈。
(f)以該實驗組表現量真值機率分佈以及該控制組表現量真值機率分佈計算該待測基因在實驗組與控制組間差異表現量之真值機率分佈。
(g)根據該差異表現量真值機率分佈進行統計檢定以估測該待該測基因是否為差異表現基因。
本發明之另一態樣是在提供一種電腦可讀取記錄媒體,儲存一電腦程式,用以執行上述差異表現基因辨認方法。方法步驟流程如上所述,在此不再重複贅述。
以下將以圖式及詳細說明本發明之精神,任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後,當可由本發明所教示之技術加以改變及修飾,其並不脫離本發明之精神與範圍。
此差異表現基因辨認方法以不同於t檢定之空假設及z檢定辨認差異表現基因。此差異表現基因辨認方法之空假設為待測基因並非差異表現基因。因此,待測基因之誤差係以所有非差異表現基因之表現量測量值來估計。此差異表現基因辨認方法可經由電腦程式來進行實作。電腦程式可儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行此差異表現基因辨認方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。
請參照第1圖,其係本發明之一實施例的流程圖。差異表現基因辨認方法100包含以下步驟:
在步驟110中,取得一組實驗樣本之表現量數據以及一組控制樣本之表現量數據。第2A圖為本步驟之一實施例。圖中三實驗樣本t 1t 2t 3 及三控制樣本c 1c 2c 3 之表現量數據由DNA微陣列測得,表現量測量值為探針螢光亮度之對數。此外,在本發明之另一些實施例中,可以次世代定序儀測得之序列讀數之對數作為該些實驗樣本與該些控制樣本之表現量數據
在步驟120中,根據實驗組表現量數據計算各實驗樣本之非差異表現基因表現量誤差,以及根據控制組表現量數據計算各控制組樣本之非差異表現基因表現量誤差。第2A圖為本步驟之一實施例。藉由公式計算實驗樣本t i 之非差異表現基因表現量誤差,其中n =3為實驗組樣本數,為實驗樣本t i t j 間差異表現量之誤差值。藉由相同方法可計算各控制樣本之非差異表現基因表現量誤差。
在步驟130中,針對一待測基因,由該實驗組表現量數據取得該待測基因之數筆實驗組表現量測量值,根據各實驗組樣本之非差異表現基因表現量誤差,產生數個估計該待測基因在各實驗樣本表現量真值之機率分佈,以及由該控制組表現量數據取得該待測基因之數筆控制組表現量測量值,根據各控制組樣本之非差異表現基因表現量誤差,產生數個估計該待測基因在各控制組樣本表現量真值之機率分佈。第2B圖為本步驟之一實施例。圖中之表現量 真值機率分佈為高斯分佈函數,其中y 為變數,μ 為表現量測量值,σ 為非差異表現基因表現量誤差。
在步驟140中,正規化該些實驗組機率分佈以及正規化該些控制組機率分佈。第2B至2C圖為本步驟之一實施例。在本實施例中,可藉由平移該些實驗組機率分佈以一致化實驗組各樣本之平均表現量測量值(如虛線所示),並藉由平移該些控制組機率分佈以一致化控制組各樣本之平均表現量測量值(如虛線所示),而達到正規化。
在步驟150中,由該些正規化後之實驗組(表現量真值)機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈,以及由該些正規化後之控制組(表現量真值)機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈。第2C至2D圖為本步驟之一實施例。第2C圖中三個正規化後之實驗組機率分佈被相乘整合為第2D圖中之最終實驗組機率分佈,其中分別為該待測基因在樣本t 1t 2t 3 中之表現量測量值,分別為樣本t 1t 2t 3 之非差異表現基因表現量誤差。同理,第2C圖中三個正規化後之控制組機率分佈被相乘整合為第2D圖中之最終控制組機率分佈
在步驟160中,以該實驗組表現量真值機率分佈以及該控制組表現量真值機率分佈計算該待測基因在實驗組與控制組間差異表現量之真值機率分佈。第2D至2E圖為本步驟之一實施例,以公式由G t G c 計算出G FC
在步驟170中,根據該實驗組與控制組間差異表現量真值之機率分佈進行統計檢定,以估測該待測基因是否為差異表現基因。第2E圖為本步驟之一實施例。第2E圖中,由於實驗組與控制組間差異表現量真值之機率分佈為一高斯分佈函數,故統計檢定為一以公式進行之z檢定。
第3A圖以及第3B圖為本發明之一實施例(簡稱為WABE)與微陣列品質控管組織提出之混合式方法(簡稱為MAQCm)計算329組公用數據所得之自我再現性(Self-reproducibility)的比較。計算當中,每組數據被以四種方法分為兩半。針對一種分法,以一種差異表現基因辨認方法從每一半各選出前m 個差異表現基因。令n 為此兩組差異表現基因之重疊基因數,定義此分法之重疊率為n /m 。該差異表現基因辨認方法之自我再現性定義為對該四種分法所得之重疊率的平均。其中,第3A圖係取m =80,而第3B圖係取m =400。兩圖均顯示WABE有較高之自我再現性。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧差異表現基因辨認方法
110-170‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下: 第1圖係依照本發明一實施例的一種實施於計算機的差異表現基因辨認方法之流程圖。
第2A至2E圖為應用本發明之一實施例。
第3A圖以及第3B圖為本發明之一實施例(簡稱為WABE)與微陣列品質控管組織提出之混合式方法(簡稱為MAQCm)計算329組公用數據所得之自我再現性(Self-reproducibility)的比較。
100‧‧‧差異表現基因辨認方法
110-170‧‧‧步驟

Claims (10)

  1. 一種實施於計算機的差異表現基因辨認方法,包含:(a)取得複數個實驗樣本之表現量數據以及複數個控制樣本之表現量數據;(b)由該些實驗樣本之表現量數據計算出各實驗樣本之非差異表現基因表現量誤差,以及由該些控制樣本之表現量數據計算出各控制樣本之非差異表現基因表現量誤差;(c)針對一待測基因,由該些實驗樣本之表現量數據取得複數個該待測基因在各實驗樣本中之表現量測量值,合併各實驗樣本之非差異表現基因表現量誤差,產生該待測基因在各實驗樣本中之表現量真值機率分佈,以及由該些控制樣本之表現量數據取得複數個該待測基因在各控制樣本中之表現量測量值,合併各控制樣本之非差異表現基因表現量誤差,產生該待測基因在各控制樣本中之表現量真值機率分佈;(d)正規化該待測基因在各實驗樣本中之表現量真值機率分佈,以及正規化該待測基因在各控制樣本中之表現量真值機率分佈;(e)由該些正規化後之實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈,以及由該些正規化後之控制組表現量真值機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈;(f)由該待測基因在實驗組之表現量真值機率分佈及 該待測基因在控制組之表現量真值機率分佈計算出一個該待測基因在實驗組與控制組間差異表現量真值之機率分佈;以及(g)根據該待測基因在實驗組與控制組間差異表現量真值之機率分佈進行統計檢定,以估測該待測基因是否為差異表現基因。
  2. 如請求項1所述之差異表現基因辨認方法,其中步驟(a)包含:以DNA微陣列測得之探針螢光強度之對數作為該些實驗樣本與該些控制樣本之表現量數據。
  3. 如請求項1所述之差異表現基因辨認方法,其中步驟(a)包含:以次世代定序儀測得之序列讀數之對數作為該些實驗樣本與該些控制樣本之表現量數據。
  4. 如請求項1所述之差異表現基因辨認方法,其中步驟(b)包含:藉由公式計算實驗樣本t i 之非差異表現基因表現量誤差,其中n t 為該些實驗樣本數,為實驗樣本t i t j 間差異表現量之誤差;以及藉由公式計算控制樣本c i 之非差異表現基因表現量誤差,其中n c 為該些控制樣本數,為控制樣本c i c j 間差異表現量之誤差。
  5. 如請求項1所述之差異表現基因辨認方法,其中步驟(c)包含:以高斯分佈函數作為該待測基因在各實驗樣本與各控制樣本中之表現量真值機率分佈,其中y 為變數,μ 為該待測基因在一樣本中之表現量測量值,σ 為該樣本之非差異表現基因表現量誤差值。
  6. 如請求項1所述之差異表現基因辨認方法,其中步驟(d)包含:針對該待測基因,藉由平移該些實驗組表現量真值機率分佈以一致化各實驗樣本之平均表現量測量值,並藉由平移該些控制組表現量真值機率分佈以一致化各控制樣本之平均表現量測量值,達成正規化。
  7. 如請求項1所述之差異表現基因辨認方法,其中步驟(e)包含:以之公式由該些正規化後實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之最終表現量真值機率分佈,其中為該待測基因在實驗組之最終表現量真值機率分佈,而為正規化後該待測基因在實驗樣本t i 中之表現量真值機率分佈;以及以之 公式由該些正規化後控制組表現量真值機率分佈計算出一個該待測基因在控制組之最終表現量真值機率分佈,其中為該待測基因在控制組之最終表現量真值機率分佈,而為正規化後該待測基因在控制樣本c i 中之表現量真值機率分佈。
  8. 如請求項1所述之差異表現基因辨認方法,其中步驟(f)包含:以公式將該待測基因在實驗組之最終表現量真值機率分佈以及該待測基因在控制組之最終表現量真值機率分佈轉換為該待測基因在實驗組與控制組間差異表現量真值之機率分佈。
  9. 如請求項1所述之差異表現基因辨認方法,其中步驟(g)包含:以公式進行z檢定作為估測該待測基因是否為差異表現基因之統計依據。
  10. 一種電腦可讀取記錄媒體,儲存一電腦程式,用以執行一種差異表現基因辨認方法,其中該差異表現基因辨認方法包含:(a)取得複數個實驗樣本之表現量數據以及複數個控制樣本之表現量數據;(b)由該些實驗樣本之表現量數據計算出各實驗樣本之非差異表現基因表現量誤差,以及由該些控制樣本之表 現量數據計算出各控制樣本之非差異表現基因表現量誤差;(c)針對一待測基因,由該些實驗樣本之表現量數據取得複數個該待測基因在各實驗樣本中之表現量測量值,合併各實驗樣本之非差異表現基因表現量誤差,產生該待測基因在各實驗樣本中之表現量真值機率分佈,以及由該些控制樣本之表現量數據取得複數個該待測基因在各控制樣本中之表現量測量值,合併各控制樣本之非差異表現基因表現量誤差,產生該待測基因在各控制樣本中之表現量真值機率分佈;(d)正規化該待測基因在各實驗樣本中之表現量真值機率分佈,以及正規化該待測基因在各控制樣本中之表現量真值機率分佈;(e)由該些正規化後之實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈,以及由該些正規化後之控制組表現量真值機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈;(f)由該待測基因在實驗組之表現量真值機率分佈及該待測基因在控制組之表現量真值機率分佈計算出一個該待測基因在實驗組與控制組間差異表現量真值之機率分佈;(g)根據該待測基因在實驗組與控制組間差異表現量真值之機率分佈進行統計檢定,以估測該待測基因是否為差異表現基因。
TW101149024A 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體 TWI472944B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101149024A TWI472944B (zh) 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體
US13/923,386 US20140179559A1 (en) 2012-12-21 2013-06-21 Computer-implemented method for identifying differentially expressed genes and computer readable storage medium for storing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101149024A TWI472944B (zh) 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體

Publications (2)

Publication Number Publication Date
TW201426380A TW201426380A (zh) 2014-07-01
TWI472944B true TWI472944B (zh) 2015-02-11

Family

ID=50975290

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101149024A TWI472944B (zh) 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體

Country Status (2)

Country Link
US (1) US20140179559A1 (zh)
TW (1) TWI472944B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090183268A1 (en) * 2007-03-22 2009-07-16 Kingsmore Stephen F Methods and systems for medical sequencing analysis
US20120283112A1 (en) * 2011-02-22 2012-11-08 The Procter & Gamble Company Systems and Methods for Identifying Cosmetic Agents for Skin Care Compositions

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140242588A1 (en) * 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090183268A1 (en) * 2007-03-22 2009-07-16 Kingsmore Stephen F Methods and systems for medical sequencing analysis
US20120283112A1 (en) * 2011-02-22 2012-11-08 The Procter & Gamble Company Systems and Methods for Identifying Cosmetic Agents for Skin Care Compositions

Also Published As

Publication number Publication date
TW201426380A (zh) 2014-07-01
US20140179559A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
Maretty et al. Bayesian transcriptome assembly
Cho et al. Cancer classification using ensemble of neural networks with multiple significant gene subsets
US20170024529A1 (en) Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient's Survival Prediction
JP2011520183A (ja) サンプルデータの分類
Algamal et al. High dimensional logistic regression model using adjusted elastic net penalty
Sun et al. Impact of missing value imputation on classification for DNA microarray gene expression data—a model-based study
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
Cordero Hernandez et al. Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer
US20190005099A1 (en) Low memory sampling-based estimation of distinct elements and deduplication
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN113537358B (zh) 一种基于多组学数据集的癌症亚型识别方法及系统
JP2019121376A (ja) 機械学習タスクを容易にするための最適なマザーウェーブレットを得るためのシステムおよび方法
CN113283117B (zh) 一种抗干扰的燃料电池阻抗解析方法
CN113470085B (zh) 一种基于改进的ransac的图像配准方法
JP6695086B2 (ja) 測定対象のサンプルの組成を正確に定量化するためのシステムおよび方法
TWI472944B (zh) 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體
Polishko et al. PuFFIN-a parameter-free method to build nucleosome maps from paired-end reads
Vutov et al. Multiple two‐sample testing under arbitrary covariance dependency with an application in imaging mass spectrometry
Porzelius et al. A general, prediction error‐based criterion for selecting model complexity for high‐dimensional survival models
Hossain Mollah et al. β-empirical Bayes inference and model diagnosis of microarray data
Gao et al. Confidence interval estimation for sensitivity and difference between two sensitivities at a given specificity under tree ordering
Faucon et al. SNaResim: synthetic nanopore read simulator
CN106909497B (zh) 测试方法和装置
Tan et al. Classification of colon cancer based on the expression of randomly selected genes
KR102266950B1 (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees