TW201426380A - 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體 - Google Patents

實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體 Download PDF

Info

Publication number
TW201426380A
TW201426380A TW101149024A TW101149024A TW201426380A TW 201426380 A TW201426380 A TW 201426380A TW 101149024 A TW101149024 A TW 101149024A TW 101149024 A TW101149024 A TW 101149024A TW 201426380 A TW201426380 A TW 201426380A
Authority
TW
Taiwan
Prior art keywords
gene
probability distribution
performance
experimental
control
Prior art date
Application number
TW101149024A
Other languages
English (en)
Other versions
TWI472944B (zh
Inventor
Chih-Hao Chen
Hoong-Chien Lee
Li-Jen Su
Original Assignee
Univ Nat Central
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Central filed Critical Univ Nat Central
Priority to TW101149024A priority Critical patent/TWI472944B/zh
Priority to US13/923,386 priority patent/US20140179559A1/en
Publication of TW201426380A publication Critical patent/TW201426380A/zh
Application granted granted Critical
Publication of TWI472944B publication Critical patent/TWI472944B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一種實施於計算機的差異表現基因辨認方法包含以下步驟:藉由如微陣列或次世代定序等科技從實驗組樣本取得數筆實驗組基因表現量數據,以及從控制組樣本取得數筆控制組基因表現量數據。根據實驗組數據計算出各實驗樣本非差異表現基因之誤差值,以高斯分佈函數預測實驗組表現量真值機率分佈,並根據控制組數據計算出各控制樣本非差異表現基因之誤差值,以高斯分佈函數預測控制組表現量真值機率分佈。正規化實驗組機率分佈以及控制組機率分佈。整合正規化後之實驗組機率分佈以及整合正規化後之控制組機率分佈。計算實驗組與控制組間差異表現量之機率分佈,以估計該受測基因是否為差異表現基因。

Description

實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體
本發明是有關於一種實施於計算機的差異表現基因辨認方法以及用以此方法之電腦可讀取記錄媒體。
多年來DNA微陣列(DNA microarray)及次世代定序(Next-generation sequencing)等科技常被應用於偵測基因表現量側影。其中最常見的應用是在兩組樣本中辨認差異表現基因(differentially expressed genes,DEGs)。此應用之再現性(reproducibility)不高。相同或相似的實驗所得的差異表現基因通常重疊率很小。很多人曾因此懷疑DNA微陣列科技是否可信。微陣列品質控管組織(the MicroArray Quality Control Consortium)稍後的研究證明DNA微陣列科技是可靠的。
分析方法的適當性鮮少被質疑。倍數改變(fold-change)分析為其中一種分析方法。但因缺乏統計基礎,其結果不被信賴。t檢定(t-test)為另一種常用之分析方法。雖有統計基礎,t檢定結果的再現性卻出乎意料的遠較倍數改變分析差,即使在多樣本數的情況下。微陣列品質控管組織因此提出一種混合式方法,結合倍數改變分析以及t檢定。此混合式方法雖被廣泛採用,但對結果沒有統計控制,t檢定的使用更使其可靠度遭到質疑。
因此,本發明之一態樣是在提供一種實施於計算機以不同於t檢定之空假設及z檢定為基礎的差異表現基因辨認方法。此差異表現基因辨認方法之空假設為待測基因並非差異表現基因。因此,待測基因之誤差係以所有非差異表現基因之表現量測量值來估計。假設差異表現基因遠少於非差異表現基因,待測基因之誤差可用所有基因之表現量測量值來估計。此差異表現基因辨認方法包含以下步驟:
(a)取得一組實驗樣本之表現量數據以及一組控制樣本之表現量數據。
(b)由實驗組樣本之表現量測量數據計算各實驗組樣本之非差異表現基因表現量誤差。以及由控制組樣本之表現量數據計算各控制組樣本之非差異表現基因表現量誤差。
(c)針對一待測基因,由實驗組樣本之表現量數據取得該待測基因之數筆實驗組表現量測量值,根據各實驗組樣本之非差異表現基因表現量誤差值,產生數個作為估計該待測基因在實驗組樣本表現量真值之機率分佈。以及由控制組樣本之表現量數據取得該待測基因之數筆控制組表現量測量值,根據各控制組樣本之非差異表現基因表現量誤差值,產生數個作為估計該待測基因在控制組樣本表現量真值之機率分佈。
(d)正規化該些實驗組機率分佈以及正規化該些控制組機率分佈。
(e)以該些實驗組機率分佈計算出一該待測基因在實驗組之表現量真值機率分佈,以及以該些控制組機率分佈 計算出一該待測基因在控制組之表現量真值機率分佈。
(f)以該實驗組表現量真值機率分佈以及該控制組表現量真值機率分佈計算該待測基因在實驗組與控制組間差異表現量之真值機率分佈。
(g)根據該差異表現量真值機率分佈進行統計檢定以估測該待該測基因是否為差異表現基因。
本發明之另一態樣是在提供一種電腦可讀取記錄媒體,儲存一電腦程式,用以執行上述差異表現基因辨認方法。方法步驟流程如上所述,在此不再重複贅述。
以下將以圖式及詳細說明本發明之精神,任何所屬技術領域中具有通常知識者在瞭解本發明之較佳實施例後,當可由本發明所教示之技術加以改變及修飾,其並不脫離本發明之精神與範圍。
此差異表現基因辨認方法以不同於t檢定之空假設及z檢定辨認差異表現基因。此差異表現基因辨認方法之空假設為待測基因並非差異表現基因。因此,待測基因之誤差係以所有非差異表現基因之表現量測量值來估計。此差異表現基因辨認方法可經由電腦程式來進行實作。電腦程式可儲存於一電腦可讀取記錄媒體中,而使電腦讀取此記錄媒體後執行此差異表現基因辨認方法。電腦可讀取記錄媒體可為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之電腦可讀取記錄媒體。
請參照第1圖,其係本發明之一實施例的流程圖。差異表現基因辨認方法100包含以下步驟:
在步驟110中,取得一組實驗樣本之表現量數據以及一組控制樣本之表現量數據。第2A圖為本步驟之一實施例。圖中三實驗樣本t 1t 2t 3及三控制樣本c 1c 2c 3之表現量數據由DNA微陣列測得,表現量測量值為探針螢光亮度之對數。此外,在本發明之另一些實施例中,可以次世代定序儀測得之序列讀數之對數作為該些實驗樣本與該些控制樣本之表現量數據
在步驟120中,根據實驗組表現量數據計算各實驗樣本之非差異表現基因表現量誤差,以及根據控制組表現量數據計算各控制組樣本之非差異表現基因表現量誤差。第2A圖為本步驟之一實施例。藉由公式計算實驗樣本t i 之非差異表現基因表現量誤差,其中n=3為實驗組樣本數,為實驗樣本t i t j 間差異表現量之誤差值。藉由相同方法可計算各控制樣本之非差異表現基因表現量誤差。
在步驟130中,針對一待測基因,由該實驗組表現量數據取得該待測基因之數筆實驗組表現量測量值,根據各實驗組樣本之非差異表現基因表現量誤差,產生數個估計該待測基因在各實驗樣本表現量真值之機率分佈,以及由該控制組表現量數據取得該待測基因之數筆控制組表現量測量值,根據各控制組樣本之非差異表現基因表現量誤差,產生數個估計該待測基因在各控制組樣本表現量真值之機率分佈。第2B圖為本步驟之一實施例。圖中之表現量 真值機率分佈為高斯分佈函數,其中y為變數,μ為表現量測量值,σ為非差異表現基因表現量誤差。
在步驟140中,正規化該些實驗組機率分佈以及正規化該些控制組機率分佈。第2B至2C圖為本步驟之一實施例。在本實施例中,可藉由平移該些實驗組機率分佈以一致化實驗組各樣本之平均表現量測量值(如虛線所示),並藉由平移該些控制組機率分佈以一致化控制組各樣本之平均表現量測量值(如虛線所示),而達到正規化。
在步驟150中,由該些正規化後之實驗組(表現量真值)機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈,以及由該些正規化後之控制組(表現量真值)機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈。第2C至2D圖為本步驟之一實施例。第2C圖中三個正規化後之實驗組機率分佈被相乘整合為第2D圖中之最終實驗組機率分佈,其中分別為該待測基因在樣本t 1t 2t 3中之表現量測量值,分別為樣本t 1t 2t 3之非差異表現基因表現量誤差。同理,第2C圖中三個正規化後之控制組機率分佈被相乘整合為第2D圖中之最終控制組機率分佈
在步驟160中,以該實驗組表現量真值機率分佈以及該控制組表現量真值機率分佈計算該待測基因在實驗組與控制組間差異表現量之真值機率分佈。第2D至2E圖為本步驟之一實施例,以公式由G t G c 計算出 G FC
在步驟170中,根據該實驗組與控制組間差異表現量真值之機率分佈進行統計檢定,以估測該待測基因是否為差異表現基因。第2E圖為本步驟之一實施例。第2E圖中,由於實驗組與控制組間差異表現量真值之機率分佈為一高斯分佈函數,故統計檢定為一以公式進行之z檢定。
第3A圖以及第3B圖為本發明之一實施例(簡稱為WABE)與微陣列品質控管組織提出之混合式方法(簡稱為MAQCm)計算329組公用數據所得之自我再現性(Self-reproducibility)的比較。計算當中,每組數據被以四種方法分為兩半。針對一種分法,以一種差異表現基因辨認方法從每一半各選出前m個差異表現基因。令n為此兩組差異表現基因之重疊基因數,定義此分法之重疊率為n/m。該差異表現基因辨認方法之自我再現性定義為對該四種分法所得之重疊率的平均。其中,第3A圖係取m=80,而第3B圖係取m=400。兩圖均顯示WABE有較高之自我再現性。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾。因此,本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧差異表現基因辨認方法
110-170‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下: 第1圖係依照本發明一實施例的一種實施於計算機的差異表現基因辨認方法之流程圖。
第2A至2E圖為應用本發明之一實施例。
第3A圖以及第3B圖為本發明之一實施例(簡稱為WABE)與微陣列品質控管組織提出之混合式方法(簡稱為MAQCm)計算329組公用數據所得之自我再現性(Self-reproducibility)的比較。
100‧‧‧差異表現基因辨認方法
110-170‧‧‧步驟

Claims (10)

  1. 一種實施於計算機的差異表現基因辨認方法,包含:(a)取得複數個實驗樣本之表現量數據以及複數個控制樣本之表現量數據;(b)由該些實驗樣本之表現量數據計算出各實驗樣本之非差異表現基因表現量誤差,以及由該些控制樣本之表現量數據計算出各控制樣本之非差異表現基因表現量誤差;(c)針對一待測基因,由該些實驗樣本之表現量數據取得複數個該待測基因在各實驗樣本中之表現量測量值,合併各實驗樣本之非差異表現基因表現量誤差,產生該待測基因在各實驗樣本中之表現量真值機率分佈,以及由該些控制樣本之表現量數據取得複數個該待測基因在各控制樣本中之表現量測量值,合併各控制樣本之非差異表現基因表現量誤差,產生該待測基因在各控制樣本中之表現量真值機率分佈;(d)正規化該待測基因在各實驗樣本中之表現量真值機率分佈,以及正規化該待測基因在各控制樣本中之表現量真值機率分佈;(e)由該些正規化後之實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈,以及由該些正規化後之控制組表現量真值機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈;(f)由該待測基因在實驗組之表現量真值機率分佈及 該待測基因在控制組之表現量真值機率分佈計算出一個該待測基因在實驗組與控制組間差異表現量真值之機率分佈;以及(g)根據該待測基因在實驗組與控制組間差異表現量真值之機率分佈進行統計檢定,以估測該待測基因是否為差異表現基因。
  2. 如請求項1所述之差異表現基因辨認方法,其中步驟(a)包含:以DNA微陣列測得之探針螢光強度之對數作為該些實驗樣本與該些控制樣本之表現量數據。
  3. 如請求項1所述之差異表現基因辨認方法,其中步驟(a)包含:以次世代定序儀測得之序列讀數之對數作為該些實驗樣本與該些控制樣本之表現量數據。
  4. 如請求項1所述之差異表現基因辨認方法,其中步驟(b)包含:藉由公式計算實驗樣本t i 之非差異表現基因表現量誤差,其中n t 為該些實驗樣本數,為實驗樣本t i t j 間差異表現量之誤差;以及藉由公式計算控制樣本c i 之非差異表現基因表現量誤差,其中n c 為該些控制樣本數,為控制樣本c i c j 間差異表現量之誤差。
  5. 如請求項1所述之差異表現基因辨認方法,其中步驟(c)包含:以高斯分佈函數作為該待測基因在各實驗樣本與各控制樣本中之表現量真值機率分佈,其中y為變數,μ為該待測基因在一樣本中之表現量測量值,σ為該樣本之非差異表現基因表現量誤差值。
  6. 如請求項1所述之差異表現基因辨認方法,其中步驟(d)包含:針對該待測基因,藉由平移該些實驗組表現量真值機率分佈以一致化各實驗樣本之平均表現量測量值,並藉由平移該些控制組表現量真值機率分佈以一致化各控制樣本之平均表現量測量值,達成正規化。
  7. 如請求項1所述之差異表現基因辨認方法,其中步驟(e)包含:以之公式由該些正規化後實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之最終表現量真值機率分佈,其中為該待測基因在實驗組之最終表現量真值機率分佈,而為正規化後該待測基因在實驗樣本t i 中之表現量真值機率分佈;以及以之 公式由該些正規化後控制組表現量真值機率分佈計算出一個該待測基因在控制組之最終表現量真值機率分佈,其中為該待測基因在控制組之最終表現量真值機率分佈,而為正規化後該待測基因在控制樣本c i 中之表現量真值機率分佈。
  8. 如請求項1所述之差異表現基因辨認方法,其中步驟(f)包含:以公式將該待測基因在實驗組之最終表現量真值機率分佈以及該待測基因在控制組之最終表現量真值機率分佈轉換為該待測基因在實驗組與控制組間差異表現量真值之機率分佈。
  9. 如請求項1所述之差異表現基因辨認方法,其中步驟(g)包含:以公式進行z檢定作為估測該待測基因是否為差異表現基因之統計依據。
  10. 一種電腦可讀取記錄媒體,儲存一電腦程式,用以執行一種差異表現基因辨認方法,其中該差異表現基因辨認方法包含:(a)取得複數個實驗樣本之表現量數據以及複數個控制樣本之表現量數據;(b)由該些實驗樣本之表現量數據計算出各實驗樣本之非差異表現基因表現量誤差,以及由該些控制樣本之表 現量數據計算出各控制樣本之非差異表現基因表現量誤差;(c)針對一待測基因,由該些實驗樣本之表現量數據取得複數個該待測基因在各實驗樣本中之表現量測量值,合併各實驗樣本之非差異表現基因表現量誤差,產生該待測基因在各實驗樣本中之表現量真值機率分佈,以及由該些控制樣本之表現量數據取得複數個該待測基因在各控制樣本中之表現量測量值,合併各控制樣本之非差異表現基因表現量誤差,產生該待測基因在各控制樣本中之表現量真值機率分佈;(d)正規化該待測基因在各實驗樣本中之表現量真值機率分佈,以及正規化該待測基因在各控制樣本中之表現量真值機率分佈;(e)由該些正規化後之實驗組表現量真值機率分佈計算出一個該待測基因在實驗組之表現量真值機率分佈,以及由該些正規化後之控制組表現量真值機率分佈計算出一個該待測基因在控制組之表現量真值機率分佈;(f)由該待測基因在實驗組之表現量真值機率分佈及該待測基因在控制組之表現量真值機率分佈計算出一個該待測基因在實驗組與控制組間差異表現量真值之機率分佈;(g)根據該待測基因在實驗組與控制組間差異表現量真值之機率分佈進行統計檢定,以估測該待測基因是否為差異表現基因。
TW101149024A 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體 TWI472944B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW101149024A TWI472944B (zh) 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體
US13/923,386 US20140179559A1 (en) 2012-12-21 2013-06-21 Computer-implemented method for identifying differentially expressed genes and computer readable storage medium for storing the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101149024A TWI472944B (zh) 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體

Publications (2)

Publication Number Publication Date
TW201426380A true TW201426380A (zh) 2014-07-01
TWI472944B TWI472944B (zh) 2015-02-11

Family

ID=50975290

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101149024A TWI472944B (zh) 2012-12-21 2012-12-21 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體

Country Status (2)

Country Link
US (1) US20140179559A1 (zh)
TW (1) TWI472944B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140270B2 (en) * 2007-03-22 2012-03-20 National Center For Genome Resources Methods and systems for medical sequencing analysis
WO2012116081A2 (en) * 2011-02-22 2012-08-30 The Procter & Gamble Company Methods for identifying cosmetic agents for skin care compositions
US20140242588A1 (en) * 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
US20140179559A1 (en) 2014-06-26
TWI472944B (zh) 2015-02-11

Similar Documents

Publication Publication Date Title
RU2517286C2 (ru) Классификация данных выборок
Maretty et al. Bayesian transcriptome assembly
Cho et al. Cancer classification using ensemble of neural networks with multiple significant gene subsets
US20190034518A1 (en) Target class feature model
US10628433B2 (en) Low memory sampling-based estimation of distinct elements and deduplication
Simon Resampling strategies for model assessment and selection
Cordero Hernandez et al. Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN113537358B (zh) 一种基于多组学数据集的癌症亚型识别方法及系统
TWI472944B (zh) 實施於計算機的差異表現基因辨認方法以及此方法之電腦可讀取記錄媒體
Polishko et al. PuFFIN-a parameter-free method to build nucleosome maps from paired-end reads
Porzelius et al. A general, prediction error‐based criterion for selecting model complexity for high‐dimensional survival models
Vutov et al. Multiple two‐sample testing under arbitrary covariance dependency with an application in imaging mass spectrometry
Hossain Mollah et al. β-empirical Bayes inference and model diagnosis of microarray data
Gao et al. Confidence interval estimation for sensitivity and difference between two sensitivities at a given specificity under tree ordering
Thakur et al. Markov models of genome segmentation
Faucon et al. SNaResim: synthetic nanopore read simulator
Tan et al. Classification of colon cancer based on the expression of randomly selected genes
KR102266950B1 (ko) 데이터 불균형 해결을 위한 언더샘플링 기반 앙상블 방법
US10685738B1 (en) Cancer diagnostic tool using cancer genomic signatures to determine cancer type
Chen et al. High‐dimensional feature screening for nonlinear associations with survival outcome using restricted mean survival time
US20240029882A1 (en) Diagnostic classification device and method
Hazelton et al. Pointwise comparison of two multivariate density functions
US10102336B2 (en) Stable genes in comparative transcriptomics
Hu et al. Optimum degradation test sampling plan for the Wiener process

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees