TWI582631B - 用以分析細菌菌種之定序資料的系統及其方法 - Google Patents

用以分析細菌菌種之定序資料的系統及其方法 Download PDF

Info

Publication number
TWI582631B
TWI582631B TW104138505A TW104138505A TWI582631B TW I582631 B TWI582631 B TW I582631B TW 104138505 A TW104138505 A TW 104138505A TW 104138505 A TW104138505 A TW 104138505A TW I582631 B TWI582631 B TW I582631B
Authority
TW
Taiwan
Prior art keywords
gene
sample
sequence
gene fragment
region
Prior art date
Application number
TW104138505A
Other languages
English (en)
Other versions
TW201719468A (zh
Inventor
鄭佳揚
徐仁徽
劉韋驛
蔡孟勳
盧子彬
賴亮全
莊曜宇
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW104138505A priority Critical patent/TWI582631B/zh
Priority to US14/963,196 priority patent/US20170147744A1/en
Priority to CN201610083766.XA priority patent/CN106778071A/zh
Application granted granted Critical
Publication of TWI582631B publication Critical patent/TWI582631B/zh
Publication of TW201719468A publication Critical patent/TW201719468A/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

用以分析細菌菌種之定序資料的系統及其方 法
本發明是有關於一種用以分析細菌菌種之定序資料的系統及其方法,且特別是有關於一種針對單一檢體及跨檢體重複序列進行檢測的用以分析細菌菌種之定序資料的系統及其方法。
隨著生物科技的日益發展,基因定序的工作越來越完整,對於人體共生菌的研究變得非常重要。目前已知人體身上約100兆的共生菌所組成,這些共生菌的數量比人體全部的細胞整整多了十倍。此外,人體的腸胃道、皮膚、口腔、呼吸道、生殖道等等地方也有共生菌的存在,統稱為菌相,這些菌相與免疫、代謝、發育,神經系統等等皆息息相關。
其中,科學家們已知利用16S核糖體RNA(16S rRNA)序列的定序,解構出人類腸道菌的種類分佈,因此可利用將16S rRNA基因標定並放大複製序列後,經過定序及根據定序的品質做前處理,再將序列與16S rRNA資料庫做組序、貼序的步驟,以區分出物種。而相似性高的物種將會歸類到同一個可操作性的分類單位體(operational taxonomic unit,OTU),最後統計分析不同檢體的菌向差異。
然而,在傳統上,若要分析多組檢體資料,則需要耗費的時程及運算量是相當可觀的,因此如何減少系統的運算量,以提升分析檢體資料的速度,已成為本領域須解決的問題之一。
為解決上述的問題,本發明之一態樣提供一種用以分析細菌菌種之定序資料的系統。用以分析細菌菌種之定序資料的系統包含:單一檢體去重複序列模組、跨檢體重複序列判斷模組、重複序列紀錄模組以及運算貼序模組。單一檢體去重複序列模組用以搜尋一第一基因樣本序列中的一第一保守區域及一特定變異區域,並將第一保守區域移除。跨檢體重複序列判斷模組用以判斷特定變異區域是否存在與一第二基因序列中的一另一特定變異區域相同的一跨檢體子序列。重複序列紀錄模組用以當特定變異區域存在與第二菌體樣本中的另一特定變異區域相同的跨檢體子序列時,儲存跨檢體子序列至一紀錄表中。運算貼序模組用以當存在跨檢體子序列時,將跨檢體子序列與一資料庫模組中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
本發明之另一態樣提供一種用以分析細菌菌種 的定序方法。分析細菌菌種的定序方法包含:搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域;判斷特定變異區域與另一特定變異區域是否存在相同的一跨檢體子序列;當特定變異區域與另一特定變異區域存在相同的跨檢體子序列時,儲存跨檢體子序列至一紀錄表中;當存在跨檢體子序列時,將跨檢體子序列與一資料庫模組中的多個已知菌種基因序列進行比對,以分析該第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
綜上所述,本發明之技術方案與現有技術相比具有明顯的優點和有益效果。藉由上述技術方案,可達到相當的技術進步,並具有產業上的廣泛利用價值,本揭示內容可減少用以分析細菌菌種之定序資料的系統的運算量,以提升分析檢體資料的速度。
100‧‧‧用以分析細菌菌種之定序資料的系統
110‧‧‧單一檢體去重複序列模組
120‧‧‧跨檢體重複序列判斷模組
130‧‧‧重複序列紀錄模組
135‧‧‧紀錄表
140‧‧‧運算貼序模組
150‧‧‧資料庫模組
200‧‧‧分析細菌菌種之定序資料的方法
300‧‧‧基因樣本序列
S210~S240‧‧‧步驟
D1‧‧‧第一基因片段
D2‧‧‧第二基因片段
C1~C9‧‧‧保守區域
V1~V10‧‧‧變異區域
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的系統之方塊圖;第2圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的方法之流程圖;第3圖係根據本發明之一實施例繪示一種基因樣本序列的示意圖; 第4A~4C圖係根據本發明之一實施例繪示一種基因片段的示意圖。
請參照第1圖,第1圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的系統100之方塊圖。
用以分析細菌菌種之定序資料的系統100包含:單一檢體去重複序列模組110、跨檢體重複序列判斷模組120、重複序列紀錄模組130以及運算貼序模組140。單一檢體去重複序列模組110用以搜尋一第一基因樣本序列中的一第一保守區域及一特定變異區域,並將第一保守區域移除。跨檢體重複序列判斷模組120用以判斷特定變異區域是否存在與一第二基因序列中的一另一特定變異區域相同的一跨檢體子序列。重複序列紀錄模組130用以當特定變異區域存在與第二菌體樣本中的另一特定變異區域相同的跨檢體子序列時,儲存跨檢體子序列至一紀錄表135中。運算貼序模組140用以當存在跨檢體子序列時,將跨檢體子序列與一資料庫模組150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
其中,如第1圖所示,資料庫模組150可被實作為唯讀記憶體、快閃記憶體、軟碟、硬碟、光碟、隨身碟、磁帶、可由網路存取之資料庫或熟悉此技藝者可輕易思及具有相同功能之儲存媒體,紀錄表135可以為一檔案,被儲存 於具有儲存功能的任何電子裝置中。此外,單一檢體去重複序列模組110、跨檢體重複序列判斷模組120、重複序列紀錄模組130以及運算貼序模組140可分別或合併被實施為例如為微控制單元(microcontroller)、微處理器(microprocessor)、數位訊號處理器(digital signal processor)、特殊應用積體電路(application specific integrated circuit,ASIC)或一邏輯電路。
由上述可知,用以分析細菌菌種之定序資料的系統100可排除單一檢體中相同或重複的基因區段,並透過跨檢體地找出相同或重複的跨檢體子序列,將跨檢體子序列及其與菌體樣本之間的關係儲存至紀錄表135中,利用紀錄表135可將大量具有重複性質的跨檢體子序列建立精簡化的資料結構。藉由此些方法可避免運算貼序模組140重複地將單一檢體或跨檢體中相同或重複的大量基因區段與資料庫模組150中的已知資料進行比對,更可減少用以分析細菌菌種之定序資料的系統100的運算量,以提升分析檢體資料的速度。
以下進一步說明分析細菌菌種之定序資料的方法200。請一併參照第1~3圖,第2圖係根據本發明之一實施例繪示一種用以分析細菌菌種之定序資料的方法200之流程圖。第3圖係根據本發明之一實施例繪示一種基因樣本序列300的示意圖。為了方便說明,第1圖所示之用以分析細菌菌種之定序資料的系統100之操作會與用以分析細菌菌種之定序資料的方法200及基因樣本序列300一併舉例說明。
在步驟S210中,單一檢體去重複序列模組110用以搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域。於一實施例中,第一基因樣本序列中的一特定變異區域以及第二基因樣本序列中的另一特定變異區域可以分別指第一基因樣本序列和第二基因樣本序列中的任一段變異區域。
於一實施例中,用以分析細菌菌種之定序資料的系統更包含一檢體採樣模組(未繪示)及一基因定序模組(未繪示)。檢體採樣模組用以採樣多個菌體樣本,此些菌體樣本包含一第一菌體樣本及一第二菌體樣本。基因定序模組用以將此些菌體樣本分別進行基因定序,以取得對應第一菌體樣本之一第一基因樣本序列,及對應第二菌體樣本之一第二基因樣本序列。
舉例而言,於某一使用者進行大腸鏡檢查時,可能發現其大腸長有息肉,則檢體採樣模組可將息肉部份進行採樣,並在息肉的附近看起來正常的地方也進行採樣,以取得多個菌體樣本。其中,每一份菌體樣本可能具有30萬筆基因資料,此些資料中通常混雜了多種對人體有害或有益的多種細菌,因此可藉由將此些基因樣本序列分別與資料庫模組150中的已知資料進行比對,當比對出兩者相同時(例如第一基因樣本序列與資料庫模組150中的某一已知菌種基因序列相同時),則可確認出對應此基因樣本序列的菌種。例如,一共採樣30份菌體樣本後,利用基因定序模組進行基因定序,此基因定序模組例如為一定序儀,可將每一份菌體樣本的去氧核醣核酸(DNA)萃取出來,並對應每一 份菌體樣本各自取得至少一筆基因樣本序列。
此外,於另一實施例中,當基因定序需要定序出基因序列長度為500bp的變異區域,但定序儀只能定序至100bp的基因序列長度時,定序儀可被設置成大量複製基因序列後,隨機打碎此被大量複製的基因序列,再取得打碎後的各小片段之100bp的基因序列長度以進行定序,最後再將定序後各小片段組合起來,藉由此方法可以定序出長度較長的基因序列。
於一實施例中,單一檢體去重複序列模組110可接收多個基因樣本序列。於一實施例中,單一檢體去重複序列模組110可接收已完成基因定序的第一基因樣本序列及第二基因樣本序列,且此第一基因樣本序列及第二基因樣本序列來對應至同一份或不同份之檢體樣本。
於一實施例中,第一基因樣本序列可以例如為第3圖所示的基因樣本序列300。於第3圖中,基因樣本序列300為一條16s rRNA,長度為1600bp(鹼基對,base pair)。本領域具通常知識者應可理解第3圖中的基因樣本序列300係為一基因樣本示意圖。單一檢體去重複序列模組110可應用既有的基因序列搜尋方法,以搜尋出此基因樣本序列300所包含的保守區域C1~C10與變異區域V1~V10。其中,保守區域C1~C10是指每個細菌的16s rRNA中相同或類似的基因區段,變異區域V1~V10是指每個細菌的16s rRNA中相異的基因區段。於一實施例中,第一基因樣本序列中可具有第一變異區域V1、第二變異區域V2、第三變異區域V3、第四變異區域V4...等。於一實施例中,變異區域 V1~V10可各自具有不同的長度。
此外,第二基因樣本序列亦可以例如為第3圖所示的基因樣本序列300。於一實施例中,第二基因樣本序列與第一基因樣本序列中的基因排序方式不同。於一實施例中,第二基因樣本序列與第一基因樣本序列中的基因排序方式及基因樣本長度均不同。本領域具通常知識者應可理解第二基因樣本序列中的另一特定變異區域的搜尋方式與前述第一基因樣本序列中的特定變異區域的搜尋方式相同,故此處不再贅述之。
藉由搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域,可對樣本檢體序列做前置處理減低需要查詢貼序的數量。
另一方面,於一實施例中,由於每一隻細菌的16s rRNA都大同小異,可能僅有部分變異區域不同。因此,資料庫模組150於建立已知菌種基因序列的過程中,可基於既有的次世代定序16s rRNA辨識法,摘取出某一已知細菌的部分變異區域,並將此摘取出的部分變異區域儲存於資料庫模組150中,以供後續運算貼序模組140將此摘取出的部分變異區域與檢體樣本的基因序列進行比對。
藉此,資料庫模組150可對16S rRNA的已知菌種基因序列建構檢索,意即僅摘取出各個已知細菌的部分變異區域,作為對應各個已知細菌的基因序列代表,以精簡被搜尋或被用來比對的基因序列。
舉例而言,若資料庫模組150於建立已知菌種 基因序列時,摘取出第3圖所示之第三變異區域V3~第四變異區域V4的基因區段,並將此摘取出的部分變異區域儲存於資料庫模組150中,以供後續運算貼序模組140將此摘取出的部分第三變異區域V3~第四變異區域V4與檢體樣本的基因序列進行比對。此外,關於比對方法的細部技術特徵將於步驟S240中詳述之。
於一實施例中,部分第三變異區域V3~第四變異區域V4的長度例如為500bp,基因樣本序列300全序列長度為1600bp,故於此實施例中,此部分第三變異區域V3~第四變異區域V4僅佔基因樣本序列300全序列長度的30%。
由此可知,藉由此方法可將目前已知的20.3萬種細菌之16s rRNA摘要出差異區域,並將其儲存於資料庫模組150中,運算貼序模組140後續只需將第一基因樣本序列中的特定變異區域(例如為第一基因樣本序列中的第三變異區域V3~第四變異區域V4)及/或第二基因樣本序列中的另一特定變異區域(例如為第二基因樣本序列中的第三變異區域V3~第四變異區域V4)與資料庫模組150中所儲存的已知細菌之部分變異區域進行比對,當比對出兩者相同時,則可確認出對應此基因樣本序列的菌種。
換言之,藉由上述技術特徵,於進行基因序列分析或貼序時,只需比對基因樣本序列與資料庫模組150中具代表性的基因序列區段或基因序列的變異區域,無須將整個基因樣本序列或整個第二基因樣本序列與資料庫模組150中完整的所有資料進行比對,藉此可降低運算貼序模組 140於貼序過程中所需耗用的運算量,以提升分析檢體資料的速度。
於步驟S220中,跨檢體重複序列判斷模組120用以判斷特定變異區域與另一特定變異區域是否存在相同的一跨檢體子序列。
於一實施例中,當經由單一檢體去重複序列模組110搜尋第一基因樣本序列中的特定變異區域以及搜尋第二基因樣本序列中的另一特定變異區域後,若第一基因樣本序列與第二基因樣本序列位於不同的菌體樣本中,則可藉由跨檢體重複序列判斷模組120判斷特定變異區域與另一特定變異區域是否存在相同的一跨檢體子序列。
例如,於特定變異區域包含於第一基因樣本序列中,第一基因樣本序列包含於第一菌體樣本,且另一特定變異區域包含於第二基因樣本序列中,第二基因樣本序列包含於第二菌體樣本的情況下,若特定變異區域與另一特定變異區域具有某一相同的基因子序列(substring),則將此部分基因子序列視為跨檢體子序列。
於一實施例中,若檢體重複序列判斷模組120判斷特定變異區域與另一特定變異區域存在相同的一跨檢體子序列,則進入步驟S230。
反之,若檢體重複序列判斷模組120判斷特定變異區域與另一特定變異區域未存在相同的一跨檢體子序列,則運算貼序模組140直接將第一基因樣本序列中的特定變異區域與資料庫模組150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列中對應特定變異區域的菌 種。換句話說,當某個變異區域只有在某一菌體樣本中出現,沒有出現在其他菌體樣本時,例如前述的特定變異區域與另一特定變異區域未存在相同的一跨檢體子序列時,則此變異區域不會被移除,且運算貼序模組140一定會將此變異區域與資料庫模組150中的資料進行比對。
在步驟S230中,重複序列紀錄模組130用以當特定變異區域與另一特定變異區域存在相同的跨檢體子序列時,儲存跨檢體子序列至一紀錄表135中。
於一實施例中,重複序列紀錄模組130更用以紀錄跨檢體子序列所對應的特定變異區域、跨檢體子序列所對應的特定變異區域的所屬之第一菌體樣本、另一特定變異區域、跨檢體子序列所對應的另一特定變異區域的所屬之第二菌體樣本。藉由紀錄此些資料,可利於減少後續貼序時及/或分析可操作性的分類單位體時所需要的運算量,例如,於分析可操作性的分類單位體時,可透過紀錄表13追溯出對應某一跨檢體子序列的某一變異區域及其所屬的菌體樣本,無須再次重新比對所有基因樣本序列。
在步驟S240中,運算貼序模組140用以當存在跨檢體子序列時,將跨檢體子序列與一資料庫模組150中的多個已知菌種基因序列進行比對,以分析第一基因樣本序列與第二基因樣本序列中對應跨檢體子序列的菌種。
藉此,當存在跨檢體子序列時,運算貼序模組140會將此跨檢體子序列摘取出來,再將此垮檢體子序列與資料庫模組150中的全部資料或已知菌種之部分變異區域進行比對一次,並將比對結果紀錄於紀錄表135中。因此, 當多個菌體樣本中都具有相同的基因子序列(即跨檢體子序列)時,運算貼序模組140仍只需要將此相同的基因子序列時與已知資料比對一次,即可得知基因子序列係對應到某一特定的已知菌體,亦可推得此些菌體樣本中都包含此特定的已知菌體,而無須將每一個菌體樣本中所有相關於跨檢體子序列的基因序列都一一進行比對。
此外,於後續計算環境基因體比對分析時,運算貼序模組140可回查紀錄表135,以得知此變異區域在哪些菌種上面,且此些菌種存在於哪幾個菌體樣本中(步驟S230),藉此可減少運算貼序的次數。
接著,請參閱第4A~4C圖,第4A~4C圖係根據本發明之一實施例繪示一種基因片段的示意圖。以下進一步說明於步驟S220及S240中相關於單一檢體去重複的細部方法及其基因序列的比對方法。
於一實施例中,請參照4A圖,第一基因樣本序列包含一第一基因片段D1及一第二基因片段D2。於步驟S210中更包含判斷第一基因片段D1與第二基因片段D2是否完全相同,當第一基因片段與第二基因片段完全相同時,特定變異區域排除第二基因片段D2。
舉例而言,當第一基因片段D1與第二基因片段D2完全相同時,單一檢體去重複序列模組110將第二基因片段D2視為至少一第一保守區域的其中之一,故可將特定變異區域視為排除(或不包含)第二基因片段D2。此外,運算貼序模組140將第一基因片段D1與資料庫模組150中的已知菌種基因序列進行比對,以分析對應第一基因片段D1的 所屬菌種。
於一實施例中,請參照4B圖,第一基因樣本序列包含一第一基因片段D1及一第二基因片段D2,且當第一基因片段D1長於第二基因片段D2時,於步驟S210中,更包含判斷第二基因片段D2是否完全相同於第一基因片段D1之一部份;當第二基因片段D2完全相同於第一基因片段D1之一部份時,特定變異區域排除第二基因片段D2。
舉例而言,當第一基因片段D1長於第二基因片段D2,且第二基因片段D2完全相同於第一基因片段D1之一部份時,可將特定變異區域視為排除(或不包含)第二基因片段D2。此外,運算貼序模組140將第一基因片段D1與資料庫模組150中的已知菌種基因序列進行比對,以分析對應第一基因片段D1的所屬菌種。
於一實施例中,請參照4C圖,其中第一基因樣本序列包含一第一基因片段D1及一第二基因片段D2,當第一基因片段D1長於第二基因片段D2,且第二基因片段D2完全相同於第一基因片段D1之一部份時,運算貼序模組140將第二基因片段D2儲存至紀錄表135中。
此外,於一實施例中,於確認某一基因序列對應至何種菌種及其所屬菌體樣本後,可進一步進行環境基因體比對分析,以判斷此些分析出來的菌種及所屬菌體樣本中的益菌或壞菌所佔之比例;於一實施例中,亦可基於分析結果進一步進行群集分析,以分析細菌分布的情況,例如,癌症患者之細菌群集中的某些特定菌數量會較多,藉此可分析病患的健康程度;於一實施例中,可基於分析結果進一步進 行菌落功能分析,以判斷此些菌種是否具有益生菌或是與某些特定疾病相關的已知菌種,藉此以得知病患的健康狀況。
綜上所述,本發明所示之用以分析細菌菌種之定序資料的系統及其方法,可對樣本檢體序列做前置處理減低需要查詢貼序的數量,以精簡需要進行比對的基因序列,可減少用以分析細菌菌種之定序資料的系統的運算量,以提升分析檢體資料的速度。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧用以分析細菌菌種之定序資料的系統
110‧‧‧單一檢體去重複序列模組
120‧‧‧跨檢體重複序列判斷模組
130‧‧‧重複序列紀錄模組
135‧‧‧紀錄表
140‧‧‧運算貼序模組
150‧‧‧資料庫模組

Claims (10)

  1. 一種用以分析細菌菌種之定序資料的系統,包含:一單一檢體去重複序列模組,用以搜尋一第一基因樣本序列中的一第一保守區域及一特定變異區域,並將該第一保守區域移除;一跨檢體重複序列判斷模組,用以判斷該特定變異區域是否存在與一第二基因序列中的一另一特定變異區域相同的一跨檢體子序列;一重複序列紀錄模組,當該特定變異區域存在與該第二菌體樣本中的該另一特定變異區域相同的該跨檢體子序列時,該重複序列紀錄模組用以儲存該跨檢體子序列至一紀錄表中;一運算貼序模組,當存在該跨檢體子序列時,該運算貼序模組用以將該跨檢體子序列與一資料庫模組中的複數個已知菌種基因序列進行比對,以分析該第一基因樣本序列與該第二基因樣本序列中對應該跨檢體子序列的菌種。
  2. 如請求項1所述之用以分析細菌菌種之定序資料的系統,更包含:一檢體採樣模組,用以採樣複數個菌體樣本,該些包含一第一菌體樣本及一第二菌體樣本;以及一基因定序模組,用以將該些菌體樣本分別進行基因定序,以取得對應該第一菌體樣本之一第一基因樣本序列,及對應該第二菌體樣本之一第二基因樣本序列。
  3. 如請求項2所述之用以分析細菌菌種之定序資料的系統,其中,該重複序列紀錄模組更用以紀錄該跨檢體子序列所對應的該另一特定變異區域、該跨檢體子序列所對應的該另一特定變異區域的所屬之該第二菌體樣本。
  4. 如請求項1所述之用以分析細菌菌種之定序資料的系統,其中,該第一基因樣本序列包含一第一基因片段及一第二基因片段,其中,當該第一基因片段與該第二基因片段完全相同時,該單一檢體去重複序列模組將該第二基因片段視為該至少一第一保守區域的其中之一,該特定變異區域排除該第二基因片段;以及該運算貼序模組將該第一基因片段與該資料庫模組中的該些已知菌種基因序列進行比對,以分析對應該第一基因片段的菌種。
  5. 如請求項1所述之用以分析細菌菌種之定序資料的系統,其中,該第一基因樣本序列包含一第一基因片段及一第二基因片段,當該第一基因片段長於該第二基因片段,且該第二基因片段完全相同於該第一基因片段之一部份時,該運算貼序模組將該第一基因片段與該資料庫模組中的該些已知菌種基因序列進行比對,以分析對應該第一基因片段的菌種。
  6. 如請求項5所述之用以分析細菌菌種之定序資料的系統,其中該第一基因樣本序列包含一第一基因片段及一 第二基因片段,當該第一基因片段長於該第二基因片段,且該第二基因片段完全相同於該第一基因片段之一部份時,該運算貼序模組將該第二基因片段儲存至該紀錄表中。
  7. 一種用以分析細菌菌種的定序方法,包含:搜尋一第一基因樣本序列中的一特定變異區域以及搜尋一第二基因樣本序列中的一另一特定變異區域;判斷該特定變異區域與該另一特定變異區域是否存在相同的一跨檢體子序列;當該特定變異區域與該另一特定變異區域存在相同的該跨檢體子序列時,儲存該跨檢體子序列至一紀錄表中;以及當存在該跨檢體子序列時,將該跨檢體子序列與一資料庫模組中的複數個已知菌種基因序列進行比對,以分析該第一基因樣本序列與該第二基因樣本序列中對應該跨檢體子序列的菌種。
  8. 如請求項7所述之用以分析細菌菌種的定序方法,其中該第一基因樣本序列包含一第一基因片段及一第二基因片段,其中搜尋該第一基因樣本序列中的該特定變異區域之步驟包含:判斷該第一基因片段與該第二基因片段是否完全相同;以及當該第一基因片段與該第二基因片段完全相同時,該特定變異區域排除該第二基因片段。
  9. 如請求項7所述之用以分析細菌菌種的定序方法,其中,該第一基因樣本序列包含一第一基因片段及一第二基因片段,當該第一基因片段長於該第二基因片段時,其中搜尋該第一基因樣本序列中的該特定變異區域之步驟包含:判斷該第二基因片段是否完全相同於該第一基因片段之一部份;以及當該第二基因片段完全相同於該第一基因片段之一部份,該特定變異區域排除該第二基因片段。
  10. 如請求項9所述之用以分析細菌菌種的定序方法,包含:當該第一基因片段長於該第二基因片段,且該第二基因片段完全相同於該第一基因片段之一部份時,將該第二基因片段儲存至該紀錄表中。
TW104138505A 2015-11-20 2015-11-20 用以分析細菌菌種之定序資料的系統及其方法 TWI582631B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW104138505A TWI582631B (zh) 2015-11-20 2015-11-20 用以分析細菌菌種之定序資料的系統及其方法
US14/963,196 US20170147744A1 (en) 2015-11-20 2015-12-08 System for analyzing sequencing data of bacterial strains and method thereof
CN201610083766.XA CN106778071A (zh) 2015-11-20 2016-02-06 用以分析细菌菌种的测序数据的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW104138505A TWI582631B (zh) 2015-11-20 2015-11-20 用以分析細菌菌種之定序資料的系統及其方法

Publications (2)

Publication Number Publication Date
TWI582631B true TWI582631B (zh) 2017-05-11
TW201719468A TW201719468A (zh) 2017-06-01

Family

ID=58720202

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104138505A TWI582631B (zh) 2015-11-20 2015-11-20 用以分析細菌菌種之定序資料的系統及其方法

Country Status (3)

Country Link
US (1) US20170147744A1 (zh)
CN (1) CN106778071A (zh)
TW (1) TWI582631B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI629607B (zh) * 2017-08-15 2018-07-11 極諾生技股份有限公司 建立腸道菌數據庫的方法和相關檢測系統
WO2022051975A1 (en) * 2020-09-10 2022-03-17 The Procter & Gamble Company Systems and methods of determining hygiene condition of interior space
CN114328399B (zh) * 2022-03-15 2022-05-24 四川大学华西医院 一种基因测序多样本数据文件自动配对的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060147944A1 (en) * 2005-01-04 2006-07-06 Piotr Chomczynski Reagents and methods for storage and processing of biological samples for DNA analysis
US20060269914A1 (en) * 2002-12-06 2006-11-30 Baron Ellen J Quantitative test for bacterial pathogens
US20080248473A1 (en) * 2005-06-17 2008-10-09 Instituto De Salud Carlos Iii Method and Kit for the Detection of Bacterial Species by Means of Dna Analysis
TWI326431B (en) * 2007-04-30 2010-06-21 Univ Nat Taiwan Science Tech Method and system of analyzing gene sequence
TW201337618A (zh) * 2012-02-08 2013-09-16 Dow Agrosciences Llc Dna序列之資料分析技術

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN104965999B (zh) * 2015-06-05 2016-08-17 西安交通大学 一种中短基因片段测序的分析拼接方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060269914A1 (en) * 2002-12-06 2006-11-30 Baron Ellen J Quantitative test for bacterial pathogens
US20060147944A1 (en) * 2005-01-04 2006-07-06 Piotr Chomczynski Reagents and methods for storage and processing of biological samples for DNA analysis
US20080248473A1 (en) * 2005-06-17 2008-10-09 Instituto De Salud Carlos Iii Method and Kit for the Detection of Bacterial Species by Means of Dna Analysis
TWI326431B (en) * 2007-04-30 2010-06-21 Univ Nat Taiwan Science Tech Method and system of analyzing gene sequence
TW201337618A (zh) * 2012-02-08 2013-09-16 Dow Agrosciences Llc Dna序列之資料分析技術

Also Published As

Publication number Publication date
TW201719468A (zh) 2017-06-01
CN106778071A (zh) 2017-05-31
US20170147744A1 (en) 2017-05-25

Similar Documents

Publication Publication Date Title
Bharti et al. Current challenges and best-practice protocols for microbiome analysis
Di Bella et al. High throughput sequencing methods and analysis for microbiome research
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
JP5938484B2 (ja) ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
WO2012031034A2 (en) Method and systems for processing polymeric sequence data and related information
TWI582631B (zh) 用以分析細菌菌種之定序資料的系統及其方法
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
Ohta et al. Using nanopore sequencing to identify fungi from clinical samples with high phylogenetic resolution
TW202107475A (zh) 單一生物單位之序列資訊之新穎處理法
KR20210040714A (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
US20240153588A1 (en) Systems and methods for identifying microbial biosynthetic genetic clusters
Pinto et al. Sequencing-based analysis of microbiomes
CN111164701A (zh) 针对靶标定序的定点噪声模型
CN117043867A (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
KR101977976B1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
CN110684830A (zh) 一种石蜡切片组织rna分析方法
Vasudeva et al. High-throughput sequencing technologies in metagenomics
KR20190061771A (ko) Geo에 공개된 차세대 염기서열 데이터를 이용한 유전체 분석 방법
US20240296920A1 (en) Redacting cell-free dna from test samples for classification by a mixture model
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
Zhu et al. MSI: strain-level pathogen detection from nanopore metagenomic sequencing data
Marić et al. Approaches to metagenomic classification and assembly
CN105631243A (zh) 病原微生物的检测方法及装置
WO2024182805A1 (en) Redacting cell-free dna from test samples for classification by a mixture model