TWI582631B

TWI582631B - 用以分析細菌菌種之定序資料的系統及其方法

Info

Publication number: TWI582631B
Application number: TW104138505A
Authority: TW
Inventors: 鄭佳揚; 徐仁徽; 劉韋驛; 蔡孟勳; 盧子彬; 賴亮全; 莊曜宇
Original assignee: 財團法人資訊工業策進會
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2017-05-11
Also published as: TW201719468A; CN106778071A; US20170147744A1

Description

用以分析細菌菌種之定序資料的系統及其方法

本發明是有關於一種用以分析細菌菌種之定序資料的系統及其方法，且特別是有關於一種針對單一檢體及跨檢體重複序列進行檢測的用以分析細菌菌種之定序資料的系統及其方法。

隨著生物科技的日益發展，基因定序的工作越來越完整，對於人體共生菌的研究變得非常重要。目前已知人體身上約100兆的共生菌所組成，這些共生菌的數量比人體全部的細胞整整多了十倍。此外，人體的腸胃道、皮膚、口腔、呼吸道、生殖道等等地方也有共生菌的存在，統稱為菌相，這些菌相與免疫、代謝、發育，神經系統等等皆息息相關。

其中，科學家們已知利用16S核糖體RNA(16S rRNA)序列的定序，解構出人類腸道菌的種類分佈，因此可利用將16S rRNA基因標定並放大複製序列後，經過定序及根據定序的品質做前處理，再將序列與16S rRNA資料庫做組序、貼序的步驟，以區分出物種。而相似性高的物種將會歸類到同一個可操作性的分類單位體(operational taxonomic unit，OTU)，最後統計分析不同檢體的菌向差異。

然而，在傳統上，若要分析多組檢體資料，則需要耗費的時程及運算量是相當可觀的，因此如何減少系統的運算量，以提升分析檢體資料的速度，已成為本領域須解決的問題之一。

為解決上述的問題，本發明之一態樣提供一種用以分析細菌菌種之定序資料的系統。用以分析細菌菌種之定序資料的系統包含：單一檢體去重複序列模組、跨檢體重複序列判斷模組、重複序列紀錄模組以及運算貼序模組。單一檢體去重複序列模組用以搜尋一第一基因樣本序列中的一第一保守區域及一特定變異區域，並將第一保守區域移除。跨檢體重複序列判斷模組用以判斷特定變異區域是否存在與一第二基因序列中的一另一特定變異區域相同的一跨檢體子序列。重複序列紀錄模組用以當特定變異區域存在與第二菌體樣本中的另一特定變異區域相同的跨檢體子序列時，儲存跨檢體子序列至一紀錄表中。運算貼序模組用以當存在跨檢體子序列時，將跨檢體子序列與一資料庫模組中的多個已知菌種基因序列進行比對，以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。

本發明之另一態樣提供一種用以分析細菌菌種的定序方法。分析細菌菌種的定序方法包含：搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域；判斷特定變異區域與另一特定變異區域是否存在相同的一跨檢體子序列；當特定變異區域與另一特定變異區域存在相同的跨檢體子序列時，儲存跨檢體子序列至一紀錄表中；當存在跨檢體子序列時，將跨檢體子序列與一資料庫模組中的多個已知菌種基因序列進行比對，以分析該第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。

綜上所述，本發明之技術方案與現有技術相比具有明顯的優點和有益效果。藉由上述技術方案，可達到相當的技術進步，並具有產業上的廣泛利用價值，本揭示內容可減少用以分析細菌菌種之定序資料的系統的運算量，以提升分析檢體資料的速度。

100‧‧‧用以分析細菌菌種之定序資料的系統

110‧‧‧單一檢體去重複序列模組

120‧‧‧跨檢體重複序列判斷模組

130‧‧‧重複序列紀錄模組

135‧‧‧紀錄表

140‧‧‧運算貼序模組

150‧‧‧資料庫模組

200‧‧‧分析細菌菌種之定序資料的方法

300‧‧‧基因樣本序列

S210~S240‧‧‧步驟

D1‧‧‧第一基因片段

D2‧‧‧第二基因片段

C1~C9‧‧‧保守區域

V1~V10‧‧‧變異區域

為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的系統之方塊圖；第2圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的方法之流程圖；第3圖係根據本發明之一實施例繪示一種基因樣本序列的示意圖；第4A~4C圖係根據本發明之一實施例繪示一種基因片段的示意圖。

請參照第1圖，第1圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的系統100之方塊圖。

用以分析細菌菌種之定序資料的系統100包含：單一檢體去重複序列模組110、跨檢體重複序列判斷模組120、重複序列紀錄模組130以及運算貼序模組140。單一檢體去重複序列模組110用以搜尋一第一基因樣本序列中的一第一保守區域及一特定變異區域，並將第一保守區域移除。跨檢體重複序列判斷模組120用以判斷特定變異區域是否存在與一第二基因序列中的一另一特定變異區域相同的一跨檢體子序列。重複序列紀錄模組130用以當特定變異區域存在與第二菌體樣本中的另一特定變異區域相同的跨檢體子序列時，儲存跨檢體子序列至一紀錄表135中。運算貼序模組140用以當存在跨檢體子序列時，將跨檢體子序列與一資料庫模組150中的多個已知菌種基因序列進行比對，以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。

其中，如第1圖所示，資料庫模組150可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體，紀錄表135可以為一檔案，被儲存於具有儲存功能的任何電子裝置中。此外，單一檢體去重複序列模組110、跨檢體重複序列判斷模組120、重複序列紀錄模組130以及運算貼序模組140可分別或合併被實施為例如為微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit，ASIC)或一邏輯電路。

由上述可知，用以分析細菌菌種之定序資料的系統100可排除單一檢體中相同或重複的基因區段，並透過跨檢體地找出相同或重複的跨檢體子序列，將跨檢體子序列及其與菌體樣本之間的關係儲存至紀錄表135中，利用紀錄表135可將大量具有重複性質的跨檢體子序列建立精簡化的資料結構。藉由此些方法可避免運算貼序模組140重複地將單一檢體或跨檢體中相同或重複的大量基因區段與資料庫模組150中的已知資料進行比對，更可減少用以分析細菌菌種之定序資料的系統100的運算量，以提升分析檢體資料的速度。

以下進一步說明分析細菌菌種之定序資料的方法200。請一併參照第1~3圖，第2圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的方法200之流程圖。第3圖係根據本發明之一實施例繪示一種基因樣本序列300的示意圖。為了方便說明，第1圖所示之用以分析細菌菌種之定序資料的系統100之操作會與用以分析細菌菌種之定序資料的方法200及基因樣本序列300一併舉例說明。

在步驟S210中，單一檢體去重複序列模組110用以搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域。於一實施例中，第一基因樣本序列中的一特定變異區域以及第二基因樣本序列中的另一特定變異區域可以分別指第一基因樣本序列和第二基因樣本序列中的任一段變異區域。

於一實施例中，用以分析細菌菌種之定序資料的系統更包含一檢體採樣模組(未繪示)及一基因定序模組(未繪示)。檢體採樣模組用以採樣多個菌體樣本，此些菌體樣本包含一第一菌體樣本及一第二菌體樣本。基因定序模組用以將此些菌體樣本分別進行基因定序，以取得對應第一菌體樣本之一第一基因樣本序列，及對應第二菌體樣本之一第二基因樣本序列。

舉例而言，於某一使用者進行大腸鏡檢查時，可能發現其大腸長有息肉，則檢體採樣模組可將息肉部份進行採樣，並在息肉的附近看起來正常的地方也進行採樣，以取得多個菌體樣本。其中，每一份菌體樣本可能具有30萬筆基因資料，此些資料中通常混雜了多種對人體有害或有益的多種細菌，因此可藉由將此些基因樣本序列分別與資料庫模組150中的已知資料進行比對，當比對出兩者相同時(例如第一基因樣本序列與資料庫模組150中的某一已知菌種基因序列相同時)，則可確認出對應此基因樣本序列的菌種。例如，一共採樣30份菌體樣本後，利用基因定序模組進行基因定序，此基因定序模組例如為一定序儀，可將每一份菌體樣本的去氧核醣核酸(DNA)萃取出來，並對應每一份菌體樣本各自取得至少一筆基因樣本序列。

此外，於另一實施例中，當基因定序需要定序出基因序列長度為500bp的變異區域，但定序儀只能定序至100bp的基因序列長度時，定序儀可被設置成大量複製基因序列後，隨機打碎此被大量複製的基因序列，再取得打碎後的各小片段之100bp的基因序列長度以進行定序，最後再將定序後各小片段組合起來，藉由此方法可以定序出長度較長的基因序列。

於一實施例中，單一檢體去重複序列模組110可接收多個基因樣本序列。於一實施例中，單一檢體去重複序列模組110可接收已完成基因定序的第一基因樣本序列及第二基因樣本序列，且此第一基因樣本序列及第二基因樣本序列來對應至同一份或不同份之檢體樣本。

於一實施例中，第一基因樣本序列可以例如為第3圖所示的基因樣本序列300。於第3圖中，基因樣本序列300為一條16s rRNA，長度為1600bp(鹼基對，base pair)。本領域具通常知識者應可理解第3圖中的基因樣本序列300係為一基因樣本示意圖。單一檢體去重複序列模組110可應用既有的基因序列搜尋方法，以搜尋出此基因樣本序列300所包含的保守區域C1~C10與變異區域V1~V10。其中，保守區域C1~C10是指每個細菌的16s rRNA中相同或類似的基因區段，變異區域V1~V10是指每個細菌的16s rRNA中相異的基因區段。於一實施例中，第一基因樣本序列中可具有第一變異區域V1、第二變異區域V2、第三變異區域V3、第四變異區域V4...等。於一實施例中，變異區域 V1~V10可各自具有不同的長度。

此外，第二基因樣本序列亦可以例如為第3圖所示的基因樣本序列300。於一實施例中，第二基因樣本序列與第一基因樣本序列中的基因排序方式不同。於一實施例中，第二基因樣本序列與第一基因樣本序列中的基因排序方式及基因樣本長度均不同。本領域具通常知識者應可理解第二基因樣本序列中的另一特定變異區域的搜尋方式與前述第一基因樣本序列中的特定變異區域的搜尋方式相同，故此處不再贅述之。

藉由搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域，可對樣本檢體序列做前置處理減低需要查詢貼序的數量。

另一方面，於一實施例中，由於每一隻細菌的16s rRNA都大同小異，可能僅有部分變異區域不同。因此，資料庫模組150於建立已知菌種基因序列的過程中，可基於既有的次世代定序16s rRNA辨識法，摘取出某一已知細菌的部分變異區域，並將此摘取出的部分變異區域儲存於資料庫模組150中，以供後續運算貼序模組140將此摘取出的部分變異區域與檢體樣本的基因序列進行比對。

藉此，資料庫模組150可對16S rRNA的已知菌種基因序列建構檢索，意即僅摘取出各個已知細菌的部分變異區域，作為對應各個已知細菌的基因序列代表，以精簡被搜尋或被用來比對的基因序列。

舉例而言，若資料庫模組150於建立已知菌種基因序列時，摘取出第3圖所示之第三變異區域V3~第四變異區域V4的基因區段，並將此摘取出的部分變異區域儲存於資料庫模組150中，以供後續運算貼序模組140將此摘取出的部分第三變異區域V3~第四變異區域V4與檢體樣本的基因序列進行比對。此外，關於比對方法的細部技術特徵將於步驟S240中詳述之。

於一實施例中，部分第三變異區域V3~第四變異區域V4的長度例如為500bp，基因樣本序列300全序列長度為1600bp，故於此實施例中，此部分第三變異區域V3~第四變異區域V4僅佔基因樣本序列300全序列長度的30%。

由此可知，藉由此方法可將目前已知的20.3萬種細菌之16s rRNA摘要出差異區域，並將其儲存於資料庫模組150中，運算貼序模組140後續只需將第一基因樣本序列中的特定變異區域(例如為第一基因樣本序列中的第三變異區域V3~第四變異區域V4)及/或第二基因樣本序列中的另一特定變異區域(例如為第二基因樣本序列中的第三變異區域V3~第四變異區域V4)與資料庫模組150中所儲存的已知細菌之部分變異區域進行比對，當比對出兩者相同時，則可確認出對應此基因樣本序列的菌種。

換言之，藉由上述技術特徵，於進行基因序列分析或貼序時，只需比對基因樣本序列與資料庫模組150中具代表性的基因序列區段或基因序列的變異區域，無須將整個基因樣本序列或整個第二基因樣本序列與資料庫模組150中完整的所有資料進行比對，藉此可降低運算貼序模組 140於貼序過程中所需耗用的運算量，以提升分析檢體資料的速度。

於步驟S220中，跨檢體重複序列判斷模組120用以判斷特定變異區域與另一特定變異區域是否存在相同的一跨檢體子序列。

於一實施例中，當經由單一檢體去重複序列模組110搜尋第一基因樣本序列中的特定變異區域以及搜尋第二基因樣本序列中的另一特定變異區域後，若第一基因樣本序列與第二基因樣本序列位於不同的菌體樣本中，則可藉由跨檢體重複序列判斷模組120判斷特定變異區域與另一特定變異區域是否存在相同的一跨檢體子序列。

例如，於特定變異區域包含於第一基因樣本序列中，第一基因樣本序列包含於第一菌體樣本，且另一特定變異區域包含於第二基因樣本序列中，第二基因樣本序列包含於第二菌體樣本的情況下，若特定變異區域與另一特定變異區域具有某一相同的基因子序列(substring)，則將此部分基因子序列視為跨檢體子序列。

於一實施例中，若檢體重複序列判斷模組120判斷特定變異區域與另一特定變異區域存在相同的一跨檢體子序列，則進入步驟S230。

反之，若檢體重複序列判斷模組120判斷特定變異區域與另一特定變異區域未存在相同的一跨檢體子序列，則運算貼序模組140直接將第一基因樣本序列中的特定變異區域與資料庫模組150中的多個已知菌種基因序列進行比對，以分析第一基因樣本序列中對應特定變異區域的菌種。換句話說，當某個變異區域只有在某一菌體樣本中出現，沒有出現在其他菌體樣本時，例如前述的特定變異區域與另一特定變異區域未存在相同的一跨檢體子序列時，則此變異區域不會被移除，且運算貼序模組140一定會將此變異區域與資料庫模組150中的資料進行比對。

在步驟S230中，重複序列紀錄模組130用以當特定變異區域與另一特定變異區域存在相同的跨檢體子序列時，儲存跨檢體子序列至一紀錄表135中。

於一實施例中，重複序列紀錄模組130更用以紀錄跨檢體子序列所對應的特定變異區域、跨檢體子序列所對應的特定變異區域的所屬之第一菌體樣本、另一特定變異區域、跨檢體子序列所對應的另一特定變異區域的所屬之第二菌體樣本。藉由紀錄此些資料，可利於減少後續貼序時及/或分析可操作性的分類單位體時所需要的運算量，例如，於分析可操作性的分類單位體時，可透過紀錄表13追溯出對應某一跨檢體子序列的某一變異區域及其所屬的菌體樣本，無須再次重新比對所有基因樣本序列。

在步驟S240中，運算貼序模組140用以當存在跨檢體子序列時，將跨檢體子序列與一資料庫模組150中的多個已知菌種基因序列進行比對，以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。

藉此，當存在跨檢體子序列時，運算貼序模組140會將此跨檢體子序列摘取出來，再將此垮檢體子序列與資料庫模組150中的全部資料或已知菌種之部分變異區域進行比對一次，並將比對結果紀錄於紀錄表135中。因此，當多個菌體樣本中都具有相同的基因子序列(即跨檢體子序列)時，運算貼序模組140仍只需要將此相同的基因子序列時與已知資料比對一次，即可得知基因子序列係對應到某一特定的已知菌體，亦可推得此些菌體樣本中都包含此特定的已知菌體，而無須將每一個菌體樣本中所有相關於跨檢體子序列的基因序列都一一進行比對。

此外，於後續計算環境基因體比對分析時，運算貼序模組140可回查紀錄表135，以得知此變異區域在哪些菌種上面，且此些菌種存在於哪幾個菌體樣本中(步驟S230)，藉此可減少運算貼序的次數。

接著，請參閱第4A~4C圖，第4A~4C圖係根據本發明之一實施例繪示一種基因片段的示意圖。以下進一步說明於步驟S220及S240中相關於單一檢體去重複的細部方法及其基因序列的比對方法。

於一實施例中，請參照4A圖，第一基因樣本序列包含一第一基因片段D1及一第二基因片段D2。於步驟S210中更包含判斷第一基因片段D1與第二基因片段D2是否完全相同，當第一基因片段與第二基因片段完全相同時，特定變異區域排除第二基因片段D2。

舉例而言，當第一基因片段D1與第二基因片段D2完全相同時，單一檢體去重複序列模組110將第二基因片段D2視為至少一第一保守區域的其中之一，故可將特定變異區域視為排除(或不包含)第二基因片段D2。此外，運算貼序模組140將第一基因片段D1與資料庫模組150中的已知菌種基因序列進行比對，以分析對應第一基因片段D1的所屬菌種。

於一實施例中，請參照4B圖，第一基因樣本序列包含一第一基因片段D1及一第二基因片段D2，且當第一基因片段D1長於第二基因片段D2時，於步驟S210中，更包含判斷第二基因片段D2是否完全相同於第一基因片段D1之一部份；當第二基因片段D2完全相同於第一基因片段D1之一部份時，特定變異區域排除第二基因片段D2。

舉例而言，當第一基因片段D1長於第二基因片段D2，且第二基因片段D2完全相同於第一基因片段D1之一部份時，可將特定變異區域視為排除(或不包含)第二基因片段D2。此外，運算貼序模組140將第一基因片段D1與資料庫模組150中的已知菌種基因序列進行比對，以分析對應第一基因片段D1的所屬菌種。

於一實施例中，請參照4C圖，其中第一基因樣本序列包含一第一基因片段D1及一第二基因片段D2，當第一基因片段D1長於第二基因片段D2，且第二基因片段D2完全相同於第一基因片段D1之一部份時，運算貼序模組140將第二基因片段D2儲存至紀錄表135中。

此外，於一實施例中，於確認某一基因序列對應至何種菌種及其所屬菌體樣本後，可進一步進行環境基因體比對分析，以判斷此些分析出來的菌種及所屬菌體樣本中的益菌或壞菌所佔之比例；於一實施例中，亦可基於分析結果進一步進行群集分析，以分析細菌分布的情況，例如，癌症患者之細菌群集中的某些特定菌數量會較多，藉此可分析病患的健康程度；於一實施例中，可基於分析結果進一步進行菌落功能分析，以判斷此些菌種是否具有益生菌或是與某些特定疾病相關的已知菌種，藉此以得知病患的健康狀況。

綜上所述，本發明所示之用以分析細菌菌種之定序資料的系統及其方法，可對樣本檢體序列做前置處理減低需要查詢貼序的數量，以精簡需要進行比對的基因序列，可減少用以分析細菌菌種之定序資料的系統的運算量，以提升分析檢體資料的速度。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何熟習此技藝者，在不脫離本發明之精神和範圍內，當可作各種之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。