TW201621732A

TW201621732A - 次世代定序分析系統及其次世代定序分析方法

Info

Publication number: TW201621732A
Application number: TW103141576A
Authority: TW
Inventors: 鄭少樺; 邱育賢; 莊曜宇; 盧子彬; 董恆元
Original assignee: 財團法人資訊工業策進會
Priority date: 2014-12-01
Filing date: 2014-12-01
Publication date: 2016-06-16
Also published as: CN105733921A; US20160154929A1; TWI571763B

Abstract

一種次世代定序分析系統及其次世代定序分析方法。次世代定序分析系統接收一目標基因輸入，並根據基因資料庫之基因關聯資料，決定目標基因輸入之至少一基因群組。次世代定序分析系統根據至少一基因群組，將標準基因參考序列調整為特徵基因參考序列，並將待測基因片段資料與特徵基因參考序列進行比對，以分析待測基因片段資料與特徵基因參考序列之基因變異率。

Description

次世代定序分析系統及其次世代定序分析方法

本發明係關於一種次世代定序分析系統及其次世代定序分析方法，更具體而言，本發明之次世代定序分析系統及其次世代定序分析方法主要係以特徵化之標準基因序列作為基因比對基礎。

相較於傳統之基因定序(sequencing)方法，次世代定序(Next Generation Sequencing)方法在改良之化學定序方式以及基因自動化工程輔助之情況下，將可更有效地縮短定序之時間，並同時降低定序之成本。

惟次世代定序方法及其變異分析過程中，待測基因樣本皆須以標準基因參考序列為標準進行比對。其中，標準基因參考序列之位點個數動輒數億為單位。因此，若以現行之次世代定序及變異分析方式進行基因分析，單筆基因資料平均分析耗時將長達12~24小時。

雖目前有專為次世代定序方法設計用以加速定序及分析之相關演算法以及硬體，然在大部分加強效能之演算法實用性偏低，且提升硬體等級之同時將大幅提升成本之情況下，目前次世代定序方法之處理效率仍遭遇相當程度之瓶頸。

據此，如何利用現有之資源，有效地提升次世代定序方法及分析結果之處理效率，乃業界亟需努力之目標。

本發明之主要目的係提供一種用於次世代定序分析系統之次世代定序分析方法。次世代定序分析系統與基因資料庫連線。次世代定序分析方法包含：(a)令次世代定序分析系統接收目標基因輸入；(b)令次世代定序分析系統根據基因資料庫之基因關聯資料，決定目標基因輸入之至少一基因群組；(c)令次世代定序分析系統根據至少一基因群組，將基因資料庫之標準基因參考序列調整為特徵基因參考序列；(d)令次世代定序分析系統將複數待測基因片段資料與特徵基因參考序列進行比對；(e)令次世代定序分析系統分析複數待測基因片段資料與特徵基因參考序列之基因變異率。

為完成前述目的，本發明又提供一種次世代定序分析系統，包含傳輸介面、輸入介面、記憶體以及處理單元。傳輸介面用以與基因資料庫連線，其中，基因資料庫具有基因關聯資料以及標準基因參考序列。輸入介面用以接收目標基因輸入。記憶體存有複數待測基因片段資料。處理單元用以：根據基因關聯資料，決定目標基因輸入之至少一基因群組；根據至少一基因群組，將標準基因參考序列調整為特徵基因參考序列；將複數待測基因片段資料與特徵基因參考序列進行比對；分析複數待測基因片段資料與特徵基因參考序列之基因變異率。

參閱圖式及隨後描述的實施方式後，所屬技術領域具有通常知識者可更瞭解本發明的技術手段及具體實施態樣。

1‧‧‧次世代定序分析系統

10‧‧‧目標基因輸入

11‧‧‧傳輸介面

13‧‧‧輸入單元

15‧‧‧處理單元

17‧‧‧記憶體

170‧‧‧待測基因片段資料

2‧‧‧基因資料庫

20‧‧‧基因關聯資料

22‧‧‧標準基因參考序列

24‧‧‧特徵基因參考序列

Groups A、B、C‧‧‧基因群組

第1A圖係本發明第一實施例之次世代定序分析系統之示意圖；第1B圖係本發明第一實施例之基因群組化示意圖；第1C圖係本發明第一實施例之參考序列特徵化示意圖；第1D圖係本發明第一實施例之待測基因片段資料與特徵基因參考序列比對示意圖；以及第2圖係本發明第二實施例之次世代定序分析方法之流程圖。

以下將透過本發明之實施例來闡釋本發明。然而，該等實施例並非用以限制本發明需在如實施例所述之任何環境、應用程式或方式方能實施。因此，以下實施例的說明僅在於闡釋本發明，而非用以限制本發明。在以下實施例及圖式中，與本發明非直接相關的元件已省略而未繪示，且繪示於圖式中的各元件之間的尺寸關係僅為便於理解，而非用以限制為實際的實施比例。

請參考第1A圖，其係本發明第一實施例之一次世代定序系統1之示意圖。次世代定序系統1包含一傳輸介面11、一輸入單元13、一處理單元15以及一記憶體17。傳輸介面11與一基因資料庫2連線，藉以擷取基因資料庫2內存之一基因關聯資料20以及一標準基因參考序列22(如加州大學公佈之UCSC HG19)。記憶體17存有複數待測基因片段資料170。次世代定序分析之過程將於下文中予以進一步闡述。

首先，使用者可針對所欲研究分析之基因資料，對次世代定序分析系統1進行操作。具體而言，使用者對次世代定序分析系統1輸入一目標基因輸入10，其包含欲進行分析之基因標的。隨即，次世代定序分析系統1之輸入單元13便接收目標基因輸入10。

請同時參考第1B圖，其係本發明第一實施例之基因群組化示意圖。具體來說，次世代定序分析系統1之處理單元15根據基因資料庫2記錄之基因關聯資料20，決定目標基因輸入10之至少一基因群組Groups A、B、C。詳言之，由於基因關聯資料20主要係記錄基因蛋白質相關各級結構、共同運作及功能等資料，因此，次世代定序分析系統1便可據以判斷與目標基因輸入10之基因標的相關之基因，並將其群組化。

舉例而言，假設使用者欲研究與乳癌高度相關之AKT3基因，則使用者便可將目標基因輸入定為AKT3。接著，由於基因關聯資料中包含基因家族(Gene Family)相關資料，因此，次世代定序分析系統便可據以判斷AKT3隸屬之基因家族(如AKT1、AKAP13、ANLN)，並將AKT3之基因家族所記錄之相關基因群組化。

類似地，基因關聯資料中亦可包含基因路徑(Gene Pathway)相關資料，因此，次世代定序分析系統同樣可據以判斷AKT3隸屬之基因路徑(如)，並將AKT3之基因路徑所通過之相關基因群組化。進一步而言，次世代定序分析系統更可同時根據基因家族以及基因路徑，將AKT3之基因家族中之基因及其各自所通過之基因路徑擴大群組化之範圍。

如此一來，透過前述方式，便可得到與目標基因輸入高度相關之基因群組。須特別說明，第一實施例之基因群組個數為三，惟其非用以限制基因群組織數量，且前述範例亦非用以將基因關聯資料限定於基因家族以及基因路徑。本領域技術人員應可透過本發明之內容，輕易理解基因關聯資料亦可包含使用者自訂或自行研究之基因相關資料，且不同之基因將因為不同之基因關聯資料而具有不同之基因群組數量。

更者，前述群組化之方式主要係透過基因家族以及基因路徑之關聯性完成，然其同樣非用以限定基因群組化之方式，本領域技術人員應可輕易理解，如何將利用不同分組演算法之技術(如k-means分組演算法)應用於本發明，以針對目標基因輸入之基因叢集完成基因之分組，於此不再贅述。

接著，請同時參考第1C圖，其係本發明第一實施例之參考序列特徵化示意圖。具體而言，次世代定序分析系統1之處理單元15判斷目標基因輸入10之基因群組Groups A、B、C後，便據以將標準基因參考序列22調整為一特徵基因參考序列24。

更進一步來說，由於基因群組Groups A、B、C各自包含其所代表之基因，因此，次世代定序分析系統1之處理單元15便可根據基因群組Groups A、B、C之內容，於標準基因參考序列22中挑選相應之基因段落，並將其篩選為特徵基因參考序列24。換言之，特徵基因參考序列24主要係針對目標基因輸入10之基因群組Groups A、B、C所得之參考序列。

隨後，請同時參考第1D圖，其係本發明第一實施例之待測基因片段資料與特徵基因參考序列比對示意圖。次世代定序分析系統1之處理單元15便可將待測基因片段170與特徵基因參考序列24進行比對，並根據比對結果分析待測基因片段170與特徵基因參考序列24之一基因變異率(未繪示)。須特別說明，由於將基因片段與參考序列進行定序、比對及分析之技術為本領域技術人員常見之技術手段，於此不再贅述。

本發明之一第二實施例係為一次世代定序分析方法，其流程圖請參考第2圖。第二實施例之方法係用於一次世代定序分析系統(例如前述實施例之次世代定序分析系統1)。次世代定序分析系統與一基因資料庫連線，基因資料庫中存有一基因關聯資料以及一標準基因參考序列。第二實施例之詳細步驟如下所述。

首先，執行步驟201，令次世代定序分析系統接收使用者輸入之一目標基因輸入。其中，目標基因輸入包含使用者欲研究分析之基因資料。接著，執行步驟202，令次世代定序分析系統根據基因資料庫之基因關聯資料，決定目標基因輸入之至少一基因群組。

同樣地，由於基因關聯資料可包含基因家族、基因路徑或自訂基因群組之關聯性資料，因此前述決定至少一基因群組之步驟主要可依據基因家族、基因路徑或自訂基因群組之關聯性資料完成。類似地，基因分組之方式亦可利用不同分組演算法之技術(如k-means分組演算法)完成。

隨後，執行步驟203，令次世代定序分析系統根據至少一基因群組，將基因資料庫之標準基因參考序列調整為一特徵基因參考序列。換言之，即針對至少一基因群組之基因內容，於標準基因參考序列上篩選出相對應之段落，以形成特徵基因參考序列。

執行步驟204，令次世代定序分析系統將複數待測基因片段資料與特徵基因參考序列進行比對。最後，執行步驟205，令次世代定序分析系統分析複數待測基因片段資料與特徵基因參考序列之一基因變異率。

綜上所述，本發明之次世代定序分析系統及其次世代定序分析方法，可先根據欲分析之基因進行基因群組化，並利用群組化之基因將標準基因參考序列進行特徵化，換言之，即將其大幅簡化為基因特徵參考序列，則後續僅需針對長度較短之基因特徵參考序列進行定序、分析以及變異搜尋，如此一來，將有效地縮短基因資料之分析處理時間。

惟上述實施例僅為例示性說明本發明之實施態樣，以及闡釋本發明之技術特徵，並非用來限制本發明之保護範疇。任何熟悉此技藝之人士可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍，本發明之權利保護範圍應以申請專利範圍為準。

170‧‧‧待測基因片段資料

24‧‧‧特徵基因參考序列

Claims

一種用於一次世代定序(Next Generation Sequencing)分析系統之次世代定序分析方法，該次世代定序分析系統與一基因資料庫連線，包含：(a)令該次世代定序分析系統接收一目標基因輸入；(b)令該次世代定序分析系統根據該基因資料庫之一基因關聯資料，決定該目標基因輸入之至少一基因群組；(c)令該次世代定序分析系統根據該至少一基因群組，將該基因資料庫之一標準基因參考序列調整為一特徵基因參考序列；(d)令該次世代定序分析系統將複數待測基因片段資料與該特徵基因參考序列進行比對；(e)令該次世代定序分析系統分析該等待測基因片段資料與該特徵基因參考序列之一基因變異率。
如請求項1所述之次世代定序分析方法，其中，該基因關聯資料包含一基因家族(Gene Family)資料，步驟(b)更包含：(b1)令該次世代定序分析系統根據該基因資料庫之該基因家族資料，決定該目標基因輸入之該至少一基因群組。
如請求項1所述之次世代定序分析方法，其中，該基因關聯資料包含一基因路徑(Gene Pathway)資料，步驟(b)更包含：(b1)令該次世代定序分析系統根據該基因資料庫之該基因路徑資料，決定該目標基因輸入之該至少一基因群組。
如請求項1所述之次世代定序分析方法，其中，步驟(b)更包含： (b1)令該次世代定序分析系統根據該基因資料庫之該基因關聯資料，透過一分組演算法決定該目標基因輸入之該至少一基因群組。
一種次世代定序(Next Generation Sequencing)分析系統，包含：一傳輸介面，用以與一基因資料庫連線，其中，該基因資料庫具有一基因關聯資料以及一標準基因參考序列；一輸入介面，用以接收一目標基因輸入；一記憶體，存有複數待測基因片段資料；一處理單元，用以：根據該基因關聯資料，決定該目標基因輸入之至少一基因群組；根據該至少一基因群組，將該標準基因參考序列調整為一特徵基因參考序列；將該等待測基因片段資料與該特徵基因參考序列進行比對；分析該等待測基因片段資料與該特徵基因參考序列之一基因變異率。
如請求項5所述之次世代定序分析系統，其中，該基因關聯資料包含一基因家族(Gene Family)資料，該處理單元係根據該基因家族資料決定該目標基因輸入之該至少一基因群組。
如請求項5所述之次世代定序分析系統，其中，該基因關聯資料包含一基因路徑(Gene Pathway)資料，該處理單元係根據該基因路徑資料決定該目標基因輸入之該至少一基因群組。。
如請求項5所述之次世代定序分析系統，其中，該處理單元係根據該基因資料庫之該基因關聯資料，透過一分組演算法決定該目標基因輸入之該至少一基因群組。