TW202336773A

TW202336773A - 核醣體rna資料庫的建構方法

Info

Publication number: TW202336773A
Application number: TW111107822A
Authority: TW
Inventors: 詹韻玄; 吳逸文; 林介華; 許銀雄; 葉集孝; 廖玉潔; 蔡宗憲
Original assignee: 宏碁股份有限公司; 宏碁智醫股份有限公司; 長庚醫療財團法人基隆長庚紀念醫院; 財團法人國家衛生研究院苗栗縣竹南鎮 35053 科研路35號
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-16
Also published as: US20230282312A1; TWI878653B; EP4239637A1; CN116741283A

Abstract

本發明提供一種核醣體RNA資料庫的建構方法，包括以下步驟：選擇核酸序列資料庫來源；進行物種分類法則正規化與均一化；利用AI技術進行正規化分類校正；挑選序列物種所屬的界；篩減冗餘序列及長度不符的序列；針對非A、T、C或G的未知鹼基設定臨界值，排除超過臨界值的未知鹼基；以及排除分類資訊不足的序列。

Description

核醣體RNA資料庫的建構方法

本發明是有關於一種資料庫的建構方法，且特別是有關於一種核醣體RNA資料庫的建構方法。

近年來，隨著高通量基因定序技術的突飛猛進，帶動了微生物體的研究，大幅擴增微生物序列資料量，其中尤以核醣體RNA（ribosomal RNA）基因常被使用作為微生物的標記基因，進而進行物種分類，以推論菌相在人體中扮演的調控功能。在核醣體RNA基因中，原核生物（包括古菌和細菌）的16S以及真核生物的18S小亞基核糖體RNA（small subunit rRNA, SSU rRNA）為最主要的標記基因；此外，23S/28S大亞基核糖體RNA（large subunit rRNA, LSU rRNA）搭配相鄰的小亞基核糖體RNA共同進行分析，可提供更豐富的物種分類訊息。

在微生物大數據庫中，資料的正確性與完整性可能直接或間接影響後續各種不同的微生物菌相分析和預測結果。目前主要的序列資料庫可分為原生儲存資料庫（repository）以及加值型資料庫（value-added）二大類。原生儲存資料庫，主要為國際協作核酸序列資料庫（International Nucleotide Sequence Database Collaboration，INSDC），資料庫成員包括NCBI、EMBL、DDBJ，主要由研究者自行上傳，提供序列以及相關的物種分類資訊；此類型資料庫序列量最多，但資料雜訊較多，涵蓋過多無效資訊。加值型資料庫，如SILVA、EzBioCloud、Greengenes，主要是收錄INSDC資料庫內的序列，再進行冗餘序列排除、高相似度序列聚集；對於未知的序列則是利用序列比對或演化樹分析，再給定物種名稱或特定編號；上述方法可進一步篩減原生儲存資料庫的資料量，但也因為對未知序列處理方式的不一致，而可能使序列的分類資訊錯誤。

上述二大類資料庫皆缺乏分類資訊的正規化和均一化，在後續相關的微生物分析中，常會因分類資訊的誤植或些微字元的出入，影響預測的結果。因此，開發出一種核醣體RNA資料庫的建構方法，能夠增加資料精確度，以提升預測正確率，為目前所需研究的重要課題。

本發明提供一種核醣體RNA資料庫的建構方法，能夠增加資料精確度，以提升預測正確率，可應用於後續各種不同的分析方法，維持結果的一致性與準確性。

本發明之核醣體RNA資料庫的建構方法包括以下步驟：選擇核酸序列資料庫來源；進行物種分類法則正規化與均一化；利用AI技術進行正規化分類命名；挑選序列物種所屬的界；篩減冗餘序列及長度不符的序列；針對非A、T、C或G的未知鹼基設定臨界值，排除超過臨界值的未知鹼基；以及排除分類資訊不足的序列。

在本發明的一實施例中，核酸序列資料庫包括原生儲存資料庫或加值型資料庫。

在本發明的一實施例中，核醣體RNA資料庫包括16S rRNA基因資料庫。

在本發明的一實施例中，使用七階分類命名法則進行正規化，以形成分類階層關係表（hierarchy relation table），七階分類命名法則的階層包括界、門、綱、目、科、屬及種。

在本發明的一實施例中，進行均一化的方法包括以核酸序列資料庫的種名為依據，找出分類階層關係表中其他階層的資訊，或以核酸序列資料庫中種的編號為依據，使用序列號作為搜尋目標與收錄序列號的資料庫進行比對，找到序列號的種名之後，再從分類階層關係表找出其他階層的資訊。

在本發明的一實施例中，利用AI技術進行正規化分類命名包括依據種別階層進行比對，以確認序列分類資訊無重複。

在本發明的一實施例中，挑選序列物種所屬的界包括針對16S rRNA基因資料庫，挑選出屬於古菌界（Archaea）和細菌界（Bacteria）的序列，將其他界別或原先界名誤植為古菌界或細菌界的序列排除。

在本發明的一實施例中，針對16S rRNA基因資料庫，當序列中包含相同種別序列100%相同條件時，即為冗餘序列。

在本發明的一實施例中，針對16S rRNA基因資料庫，長度不符的序列為長度短於1200個鹼基或超過1800個鹼基的序列。

基於上述，本發明的核醣體RNA資料庫的建構方法，包含了提取加值型資料庫中高品質的序列資料，並對分類資訊加以正規化和均一化，不僅有效篩選出高代表性的序列，更在縮減資料量的同時提高物種在分類各階層的涵蓋率。經過此處理流程所建構的資料庫，可應用於後續各種不同的分析方法，維持結果的一致性與準確性。

在本文中，由「一數值至另一數值」表示的範圍，是一種避免在說明書中一一列舉該範圍中的所有數值的概要性表示方式。因此，某一特定數值範圍的記載，涵蓋該數值範圍內的任意數值以及由該數值範圍內的任意數值界定出的較小數值範圍，如同在說明書中明文寫出該任意數值和該較小數值範圍一樣。

下文列舉實施例並配合所附圖式來進行詳細地說明，但所提供之實施例並非用以限制本發明所涵蓋的範圍。

本發明提供一種核醣體RNA資料庫的建構方法，圖1為依照本發明一實施例之核醣體RNA資料庫的建構方法之流程示意圖。以下，將以圖1詳細描述依照本發明一實施例之核醣體RNA資料庫的建構方法。

請參照圖1，首先，進行步驟S10，選擇核酸序列資料庫來源，核酸序列資料庫可包括原生儲存資料庫或加值型資料庫，以作為初始資料來源。在本實施例中，所建構的核醣體RNA資料庫例如是16S rRNA基因資料庫，在下文中將主要以16S rRNA基因資料庫作為示例說明，但本發明並不以此為限。16S rRNA是原核生物核醣體小次單元的重要組成，其中包含保守區與9個高度變異區，許多研究顯示在不同種細菌之間的16S rRNA具有高度保守性，意即單一物種即使發生基因變異，其16S rRNA序列也不容易改變，因此，極為適合用於鑑定細菌與古菌之物種。

接著，請繼續參照圖1，進行步驟S12，進行物種分類法則正規化與均一化。在正規化方面，物種分類學通常以Carl Linnaeus所建立的分類法則為依據，演變至今，該分類法則的階層主要分為「界、門、綱、目、科、屬及種」七個階層，可將所有序列分類資訊使用此七階分類命名法則進行正規化，以形成分類階層關係表（hierarchy relation table）。在均一化方面，主要是均一化跨資料庫之間命名法，同時校正來源資料庫中的錯誤資訊。更詳細而言，均一化例如可包括以下兩種方法，圖2及圖3為依照本發明一實施例之核醣體RNA資料庫的建構方法中均一化方法的示意圖。第一種方法例如是以核酸序列資料庫的種名（species name）為依據，找出分類階層關係表中其他階層的資訊，請參照圖2，例如是用EZBiocloud中的種（species）（ Abyssivirga alkaniphila）去對應分類階層關係表，並校正結果於curated（請參照紅框標記處）。至於第二種方法，請參照圖3，例如是以核酸序列資料庫中種（species）的編號為依據，使用序列號（在物種欄中的ID，例如圖3的L81121）作為搜尋目標與收錄序列號的資料庫進行比對，找到序列號的種名之後，再從分類階層關係表找出其他階層的資訊。

接下來，請繼續參照圖1，進行步驟S14，利用AI技術進行正規化分類校正，主要依據種別階層進行比對，需兩兩比對以確認資料中的序列分類資訊無重複，可分為以下兩種方法。第一種方法例如是將標點符號以一固定符號取代，標點符號例如是空格、「.」、「–」或「/」，固定符號例如是「_」，例如：「Sinorhizobium sp. R-25067」取代為「Sinorhizobium_sp_R_25067」。依據此調整後的字串作比對，比對完再還原成原本的樣子，因標點符號可能帶有其他意義，如：「sp.」指一個或多個物種而不指定確切的物種，此流程可以將序列分類資訊重複的菌種挑出，如：「Sinorhizobium sp. R-25067」與「Sinorhizobium sp. R-25067.」。圖4為依照本發明一實施例之核醣體RNA資料庫的建構方法中利用AI技術進行正規化分類校正的示意圖。請參照圖4，第二種方法例如是採用動態時間規整演算法（Dynamic time wraping, DTW），動態時間規整演算法是一種可以比對兩兩字串的文字動態距離，衡量兩個文字之間的相似度的方法，可以依據給定相似度門檻值，相似度越近表示越有可能屬於同類型的菌種，進而解決文字拼音相似或是多餘標點符號等問題。另外，字母間距離計算方法可以是曼哈頓距離（Manhattan），DTW相似度公式為D(i, j)=Dist(i, j)+min[D(i-1, j), D(i, j-1), D(i-1, j-1)]。舉例而言，請參照圖4，欲計算「sp」與「sp.」的相似度，將文字轉換成矩陣後，利用曼哈頓距離計算字母間兩兩距離，取Reference每個字母的最小距離作加總，作為衡量兩兩距離的指標，計算後「sp」與「sp.」的相似度為2。

然後，請繼續參照圖1，進行步驟S16，挑選序列物種所屬的界。在本實施例中，所建構的核醣體RNA資料庫例如是16S rRNA基因資料庫，由於16S rRNA只存在於古菌界（Archaea）和細菌界（Bacteria），因此，首先挑選出屬於古菌界（Archaea）和細菌界（Bacteria）的序列，將其他界別或原先界名誤植為細菌或古細菌的序列排除。舉例而言「Eukaryota;Archaeplastida;Chloroplastida;Chlorophyta;Chlorophyceae;Sphaeropleales;Monoraphidium;Monoraphidium. 」，屬於Eukaryota（真核生物）。

之後，請繼續參照圖1，進行步驟S18，篩減冗餘序列及長度不符的序列。在篩減冗餘序列方面，菌種中可能含有一或多套序列相同的16S rRNA，相同種別不同亞型之間由於16S rRNA的高度保守性，其序列也會完全相同；當序列中包含相同種別序列100%相同條件時，即被認定為冗餘序列，將被篩減。在長度不符的序列方面，16S rRNA全長約1600個鹼基，研究指出需使用包含9個可變區範圍的序列，菌種鑑別才可能精確到種別的階層。若序列長度過短，鑑別的序列範圍不足，可能造成物種分類錯誤。若過長的序列表示該序列中包含了二套或二套以上的16S rRNA，而16S rRNA之間可能穿插其他基因，也會影響物種分類的準確度。序列的長度排除條件例如是界定為長度短於1200個鹼基或超過1800個鹼基的序列。

接下來，請繼續參照圖1，進行步驟S20，排除序列鹼基模糊或未知比率較高的序列。16S rRNA在種別之內具有高度保守性，在不同種別之間則有高度鑑別力。在種別階層的分類單位之內，一般相同種別序列間的差異程度在1%至1.3%，序列鹼基中的差異率過高，序列則會分類在不同種別階層。若序列中含有的未知鹼基（非A、T、C、G）可能在計算過程中被辨識為是序列錯誤，序列錯誤率過高，亦容易造成後續比對錯誤，而導致序列在種別階層上被錯誤分類。為了排除差異率過高，並保留彈性允許因定序而產生的序列錯誤機率，設定一臨界值，排除超過所述臨界值的未知鹼基，例如可將存在0.5%以上未知鹼基（非A、T、C、G）的序列先行排除。舉例而言，序列中帶有N字元，即表示該位點序列為未知。

最後，請繼續參照圖1，進行步驟S22，排除分類資訊不足的序列。圖5為依照本發明一實施例之核醣體RNA資料庫的建構方法中排除分類資訊不足的序列之示意圖。因目前仍有大量物種無法在實驗室中進行分離和培養，其名稱皆會被指派為未培養的菌種（uncultured bacterium / uncultured archaeoote ），這類序列無法為物種鑑定提供有效資訊，因此，將種別名稱為未培養的菌種（uncultured bacterium / uncultured archaeoote），且種別的前五層分類階層皆無資訊的序列排除，如圖5中紅框標記處。

綜上所述，本發明提出一種核醣體RNA資料庫的建構方法，包含多次篩選與確認序列物種分類階層的完整度與可解釋性，期望能夠增加核醣體RNA序列資料分析處理時的精確度，以提升微生物菌相的預測正確率。使用本發明之核醣體RNA資料庫的建構方法，可建立高品質、高正確性的核醣體RNA資料庫，且核醣體RNA資料庫可用於與使用標準分類命名規則的資料進行交互比對，可直接應用於微生物菌相的分析流程。

更詳細而言，本發明之核醣體RNA資料庫的建構方法，透過正規化與均一化處理核醣體RNA資料庫，可確保最重要的序列名稱不會有誤植、錯誤命名的可能性，並具備跨資料庫的可比較性。經多重條件篩減後的資料庫，資料量大幅減少，有助於減少計算時間，並在維護上更加容易。建構出的核醣體RNA資料庫適用於做為比對的標準資料庫，用於比對研究者獲得的未知序列，所以資料庫內的序列資訊必需具有代表性和豐富資訊度，因此排除大量鹼基模糊或未知比率較高的序列可提高分析結果的可闡釋性。

S10、S12、S14、S16、S18、S20、S22:步驟

圖1為依照本發明一實施例之核醣體RNA資料庫的建構方法之流程示意圖。圖2及圖3為依照本發明一實施例之核醣體RNA資料庫的建構方法中均一化方法的示意圖。圖4為依照本發明一實施例之核醣體RNA資料庫的建構方法中利用AI技術進行正規化分類命名的示意圖。圖5為依照本發明一實施例之核醣體RNA資料庫的建構方法中排除分類資訊不足的序列之示意圖。

S10、S12、S14、S16、S18、S20、S22:步驟

Claims

一種核醣體RNA資料庫的建構方法，包括：選擇核酸序列資料庫來源；進行物種分類法則正規化與均一化；利用AI技術進行正規化分類校正；挑選序列物種所屬的界；篩減冗餘序列及長度不符的序列；針對非A、T、C或G的未知鹼基設定臨界值，排除超過所述臨界值的未知鹼基；以及排除分類資訊不足的序列。
如請求項1所述之核醣體RNA資料庫的建構方法，其中所述核酸序列資料庫包括原生儲存資料庫或加值型資料庫。
如請求項1所述之核醣體RNA資料庫的建構方法，其中所述核醣體RNA資料庫包括16S rRNA基因資料庫。
如請求項1所述之核醣體RNA資料庫的建構方法，其中使用七階分類命名法則進行正規化，以形成分類階層關係表（hierarchy relation table），所述七階分類命名法則的階層包括界、門、綱、目、科、屬及種。
如請求項4所述之核醣體RNA資料庫的建構方法，其中進行均一化的方法包括以所述核酸序列資料庫的種名為依據，找出所述分類階層關係表中其他階層的資訊，或以所述核酸序列資料庫中種的編號為依據，使用序列號作為搜尋目標與收錄序列號的資料庫進行比對，找到所述序列號的種名之後，再從所述分類階層關係表找出其他階層的資訊。
如請求項5所述之核醣體RNA資料庫的建構方法，其中利用AI技術進行正規化分類命名包括依據種別階層進行比對，以確認序列分類資訊無重複。
如請求項3所述之核醣體RNA資料庫的建構方法，其中挑選序列物種所屬的界包括針對所述16S rRNA基因資料庫，挑選出屬於古菌界（Archaea）和細菌界（Bacteria）的序列，將其他界別或原先界名誤植為古菌界或細菌界的序列排除。
如請求項3所述之核醣體RNA資料庫的建構方法，其中針對所述16S rRNA基因資料庫，當序列中包含相同種別序列100%相同條件時，即為所述冗餘序列。
如請求項3所述之核醣體RNA資料庫的建構方法，其中針對所述16S rRNA基因資料庫，長度不符的序列為長度短於1200個鹼基或超過1800個鹼基的序列。