TW202107475A - 單一生物單位之序列資訊之新穎處理法 - Google Patents

單一生物單位之序列資訊之新穎處理法 Download PDF

Info

Publication number
TW202107475A
TW202107475A TW109113783A TW109113783A TW202107475A TW 202107475 A TW202107475 A TW 202107475A TW 109113783 A TW109113783 A TW 109113783A TW 109113783 A TW109113783 A TW 109113783A TW 202107475 A TW202107475 A TW 202107475A
Authority
TW
Taiwan
Prior art keywords
sequence information
single biological
sketch
clustering
partial
Prior art date
Application number
TW109113783A
Other languages
English (en)
Inventor
有川浩司
細川正人
竹山春子
小川雅人
井手圭吾
Original Assignee
日商位元生醫股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商位元生醫股份有限公司 filed Critical 日商位元生醫股份有限公司
Publication of TW202107475A publication Critical patent/TW202107475A/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供一種微生物基因組資料自動構建、提供系統。本發明之處理單一生物單位之序列資訊之方法包括如下步驟: (A)針對複數個單一(single)生物單位(例如細胞)之基因組(或同等之基因集合)之部分序列資訊(演示文稿(slide)中為SAG),基於生物系統鑑定用序列(16S rRNA或標記基因),按同一系統進行聚類化;及(B)視需要與資料庫中之該單一生物單位之基因組之資訊進行對照。

Description

單一生物單位之序列資訊之新穎處理法
本發明提供一種單一生物單位之序列資訊之新穎處理法、系統及相關技術。更特定而言,提供一種微生物基因組資料自動構建、提供系統。
雖然微生物基因組資料之構建不斷進展,但當前之資料大多以宏基因組資訊為基礎,於將複雜之菌群作為解析對象之情形時,作為資訊而言,質和量均不足。
雖部分地取得了各單一之生物單位遺傳資訊(基因組資訊等),但對於其資訊處理並未提供品質充分者。
[解決問題之技術手段]
本發明者等人進行銳意研究,結果完成了如下系統:累積單一生物單位水準之單一生物單位之序列資訊,由此自動構建、提供高精度之微生物基因組資料。 作為本發明之實施方式之例,列舉以下。 (項目1) 一種處理單一(single)生物單位之序列資訊的方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (B)視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目2) 如項目1之方法,其中於進行上述步驟(B)之情形時,進而包括利用資料庫。 (項目3) 一種處理單一(single)生物單位之序列資訊的方法,該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算對應之草圖之個數或比率;及 C)選擇該對應草圖之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目3A) 一種處理單一(single)生物單位之序列資訊的方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (B)將資料庫中之與上述聚類對應之部分序列資訊與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定類似度以上之部分序列鑑定為生物系統鑑定用序列。 (項目4) 一種處理單一生物單位之序列資訊的方法,該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目5) 如項目4之處理單一生物單位之序列資訊的方法,該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如項目4之步驟。 (項目6) 一種處理單一生物單位之序列資訊的方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目7) 如項目6之方法,其中上述再次聚類化係藉由網路解析及社群檢測而進行。 (項目8) 一種處理單一生物單位之序列資訊的方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目9) 一種程式,其係於電腦上實作處理單一(single)生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (B)視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目10) 如項目9之程式,其中於進行上述步驟(B)之情形時,進而包括利用資料庫。 (項目11) 一種程式,其係於電腦上實作處理單一(single)生物單位之序列資訊之方法者,且該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算對應之草圖之個數或比率;及 C)選擇該對應草圖之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目11A) 一種程式,其係於電腦上實作處理單一(single)生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (B)將資料庫中之與上述聚類對應之部分序列資訊、與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定之類似度以上之部分序列鑑定為生物系統鑑定用序列。 (項目12) 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目13) 如項目12之於電腦上實作處理單一生物單位之序列資訊之方法的程式,其中該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如項目12之步驟。 (項目14) 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目15) 如項目14之程式,其中上述再次聚類化係藉由網路解析及社群檢測而進行。 (項目16) 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目17) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一(single)生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (B)視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及 (C)使用該單一生物單位之序列資訊之部分序列資訊及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目18) 如項目17之記錄媒體,其中於進行上述步驟(B)之情形時,進而包括利用資料庫。 (項目19) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一(single)生物單位之序列資訊之方法,該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算對應之草圖之個數或比率;及 C)選擇該對應草圖之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目19A) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一(single)生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (B)將資料庫中之與上述聚類對應之部分序列資訊、與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定之類似度以上之部分序列鑑定為生物系統鑑定用序列。 (項目20) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目21) 如項目20之儲存有於電腦上實作處理單一生物單位之序列資訊之方法之程式的記錄媒體,其中該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如項目20之步驟。 (項目22) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法安裝於於電腦,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目23) 如項目22之記錄媒體,其中上述再次聚類化係藉由網路解析及社群檢測而進行。 (項目24) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目25) 一種系統,其係用以處理單一(single)生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (B)追加資訊追加部,其視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及 (C)草圖製成部,其使用該單一生物單位之序列資訊之部分序列資訊、及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目26) 如項目25之系統,其中於包括上述(B)追加資訊追加部之情形時,進而包括利用資料庫之資料庫利用部。 (項目27) 一種系統,其係用以處理單一(single)生物單位之序列資訊者,且該系統包括: A)擷取部,其自資料庫擷取草圖內不重複之基因; B)計算部,其針對上述基因之每一個,計算對應之草圖之個數或比率;及 C)選擇部,其選擇上述對應草圖之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目27A) 一種系統,其係用以處理單一(single)生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (B)鑑定部,其將資料庫中之與上述聚類對應之部分序列資訊、與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定之類似度以上之部分序列鑑定為生物系統鑑定用序列。 (項目28) 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (D)排序部,其基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇部,其選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目29) 如項目28之用以處理單一生物單位之序列資訊的系統,該系統包括: (F)選擇部,其將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)草圖改善部,其使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')草圖構建部,其視需要使(G)反覆進行草圖生成,直至該更長之草圖達到序列資訊之全長為止;及 (G'')如下機構:其視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,使如項目28之(D)、(E)及(E')反覆進行排序、草圖構建及選擇。 (項目30) 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)再次聚類部,其於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')比較部,其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)登錄部,其針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目31) 如項目30之系統,其中上述再次聚類部係藉由網路解析及社群檢測而進行再次聚類化。 (項目32) 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)排序部,其基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,並且, (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)再次聚類部,其於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內再次聚類化; (H')比較部,其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)如下機構:其用於針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目A1) 一種發出指令使電腦執行單一(single)生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及獨立於該聚類化而生成之資料庫中的該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目A2) 如上述項目之方法,其進而包括如下步驟:(B)將上述資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。 (項目A3) 如上述項目中任一項之方法,其中上述(C)包括:將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。 (項目A4) 一種發出指令使電腦執行生物系統鑑定用序列候選之篩選的方法,接收到該指令之該電腦執行如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算單複製基因之個數或比率;及 C)選擇該單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目A5) 一種發出指令使電腦執行單一生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目A6) 如上述項目中任一項之發出使電腦執行單一生物單位之序列資訊之處理之指令的方法,接收到該指令之該電腦執行如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如項目5之步驟。 (項目A7) 一種發出指令使電腦執行單一生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目A8) 如上述項目中任一項之方法,其中上述再次聚類化係藉由網路解析及社群檢測而進行。 (項目A9) 一種發出指令使電腦執行單一生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目A10) 如上述項目中任一項之方法,其中上述部分序列資訊係由長讀定序(long read sequencing)而決定。 (項目A11) 一種程式,其係於電腦上實作處理單一(single)生物單位之序列資訊之方法者,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及獨立於該聚類化而生成之資料庫中的該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目A12) 如上述項目之程式,其進而包括如下步驟:(B)將上述資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。 (項目A13) 如上述項目中任一項之程式,其中上述(C)包括:將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。 (項目A14) 一種程式,其係於電腦上實作篩選生物系統鑑定用序列候選之方法者,且該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算單複製基因之個數或比率;及 C)選擇該單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目A15) 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目A16) 如上述項目中任一項之於電腦上實作處理單一生物單位之序列資訊之方法的程式,其中該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如項目15之步驟。 (項目A17) 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目A18) 如上述項目中任一項之程式,其中上述再次聚類化係藉由網路解析及社群檢測而進行。 (項目A19) 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目A20) 如上述項目中任一項之程式,其中上述部分序列資訊係藉由長讀定序而決定。 (項目A21) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一(single)生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及獨立於該聚類化而生成之資料庫中的該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目A22) 如上述項目之記錄媒體,其進而包括如下步驟:(B)將上述資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。 (項目A23) 如上述項目中任一項之記錄媒體,其中上述(C)包括:將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。 (項目A24) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作篩選生物系統鑑定用序列候選之方法,該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算單複製基因之個數或比率;及 C)選擇該單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目A25) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目A26) 如上述項目中任一項之儲存有於電腦上實作處理單一生物單位之序列資訊之方法之程式的記錄媒體,其中該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如項目25之步驟。 (項目A27) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目A28) 如上述項目中任一項之記錄媒體,其中上述再次聚類化係藉由網路解析及社群檢測而進行。 (項目A29) 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目A30) 如上述項目中任一項之記錄媒體,其中上述部分序列資訊係藉由長讀定序而決定。 (項目A31) 一種系統,其係用以處理單一(single)生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)草圖製成部,其使用該單一生物單位之序列資訊之部分序列資訊、及獨立於由該(A)之聚類部進行之聚類化而生成的資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。 (項目A32) 如上述項目之系統,其進而包括:(B)追加資訊追加部,其將上述資料庫中之與該聚類對應之該單一生物單位之部分序列資訊追加至該聚類。 (項目A33) 如上述項目中任一項之系統,其中上述(C)包括均質化處理部,該均質化處理部係將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。 (項目A34) 一種系統,其係用以篩選生物系統鑑定用序列候選者,且該系統包括: A)擷取部,其自資料庫擷取草圖內不重複之基因; B)計算部,其針對上述基因之每一個,計算單複製基因之個數或比率;及 C)選擇部,其選擇上述單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。 (項目A35) 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (D)排序部,其基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇部,其選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。 (項目A36) 如上述項目中任一項之用以處理單一生物單位之序列資訊的系統,該系統包括: (F)選擇部,其將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)草圖改善部,其使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')草圖構建部,其視需要使(G)反覆進行草圖生成,直至該更長之草圖達到序列資訊之全長為止;及 (G'')如下機構:其視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,使如項目35之(D)、(E)及(E')反覆進行排序、草圖構建及選擇。 (項目A37) 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)再次聚類部,其於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')比較部,其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)登錄部,其針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。 (項目A38) 如上述項目中任一項之系統,其中上述再次聚類部係藉由網路解析及社群檢測而進行再次聚類化。 (項目A39) 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)排序部,其基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,並且 (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)再次聚類部,其於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')比較部,其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)如下機構:其用於針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。 (項目A40) 如上述項目中任一項之系統,其中上述部分序列資訊係由長讀定序而決定。 (項目B1) 一種資料結構,其係將複數個單一生物單位之序列資訊之部分序列資訊基於生物系統鑑定用序列按同一系統聚類化而包含。 (項目B2) 如上述項目中任一項之資料結構,其中上述資料結構中所含之部分序列資訊來自2個以上之獨立聚類化而生成之資料庫。 (項目B3) 如上述項目中任一項之資料結構,其中將上述獨立完成之聚類化相關之資訊與上述部分序列資訊關聯儲存。 (項目B4) 如上述項目中任一項之資料結構,其中若將上述部分序列資訊綜合,則構成基因組資訊。 (項目B5) 如上述項目中任一項之資料結構,其中上述部分序列資訊係針對各單一生物單位收集。 (項目B6) 如上述項目中任一項之資料結構,其中上述部分序列資訊與其來源之單一生物單位之識別資訊(ID資訊)關聯儲存。 (項目B7) 一種單一生物單位之資料結構,其係將如下資料結構統合複數個而成,上述資料結構係將複數個單一生物單位之序列資訊之部分序列資訊基於生物系統鑑定用序列按同一系統聚類化而包含。 (項目B8) 如項目B7之資料結構,其進而具備上述項目中任一項或複數項所記載之1個以上之特徵。
於本發明中,上述1個或複數個特徵除明確示出之組合以外,亦意圖可進而組合而提供。再者,業者可視需要閱讀以下之詳細說明並加以理解而認識到本發明之更多之實施方式及優點。 [發明之效果]
根據本發明,可更高精度地提供單一生物單位水準之單一生物單位序列資訊。藉由使用本發明,能夠解明無法培養之微生物之幾乎完全之基因組序列,或解析同一株微生物間之遺傳異質性。
以下,示出最佳之形態對本發明進行說明。於整個本說明書中,應理解單數形之表現只要未特別提及,則亦包含其複數形之概念。因此,應理解單數形之冠詞(例如,英文為「a」、「an」、「the」等)只要未特別提及,則亦包含其複數形之概念。又,應理解本說明書中使用之用語只要未特別提及,則以該領域中通常使用之含義使用。因此,只要未進行其他定義,則本說明書中所使用之所有專業用語及科學技術用語具有與本發明所屬技術領域之技術人員一般理解之含義相同之含義。當存在矛盾時,以本說明書(包含定義在內)為優先。
(定義等) 以下,對本說明書中特別使用之用語之定義及/或基本技術內容進行適當說明。
於本說明書中,所謂「單一生物單位」係指具有遺傳資訊或其他生物分子之資訊之單位。單一生物單位可包含細胞、細胞樣結構物等,但並不限定於該等,亦可包含人工生產者(所謂之人工細胞)或數位上之細胞(作為資訊提供)等。
於本說明書中,所謂「細胞」係指內包具有遺傳資訊之分子之粒子,且(不論是否能夠單獨)能夠被複製之任意粒子。作為本說明書中之「細胞」,包含單細胞生物之細胞、細菌、來自多細胞生物之細胞、真菌等。
於本說明書中,所謂「細胞樣結構物」係指內包具有遺傳資訊之分子之任意粒子。作為本說明書中之「細胞樣結構物」,包含細胞器、例如線粒體、細胞核及葉綠體、以及病毒等。
於本說明書中,所謂「遺傳資訊或其他生物分子之資訊」係指規定生物分子或其類似物之資訊。遺傳資訊或其他生物分子之資訊可包含核酸、胺基酸、脂質或糖鏈或者其等之類似物之結構資訊等,但並不限定於該等,亦可包含代謝物質等生物內分子或其類似物之相互作用之多樣性資訊等。「遺傳資訊」亦被稱為「核酸資訊」,兩者之含義相同。
於本說明書中,所謂「生物分子」係指任意之生物或病毒所具有之分子。生物內分子中,可包含核酸、蛋白質、糖鏈或脂質等。於本說明書中,所謂「生物分子之類似物」係指生物分子之天然或非天然之變種。生物內分子之類似物可包含修飾核酸、修飾胺基酸、修飾脂質或修飾糖鏈等。
於本說明書中,所謂「集合」係指包含2個以上之單一生物單位、細胞或細胞用結構物之彙集。
於本說明書中,所謂「子集合」,當與「集合」一起使用時,係指具有數量少於集合之單一生物單位、細胞或細胞用結構之集合之一部分。
於本說明書中,所謂「凝膠」係指如下狀態,即,於膠體溶液(溶膠)中,高分子物質或膠體粒子因其相互作用而整體形成網狀結構,大量含有溶劑或作為分散介質之液相而失去流動性。於本說明書中,所謂「凝膠化」係指使溶液變為「凝膠」之狀態。
於本說明書中,所謂「膠囊」係指能夠於其中保持細胞或細胞樣結構物之形狀者。於本說明書中,所謂「凝膠膠囊」係指能夠於其中保持細胞或細胞樣結構物之凝膠狀之微粒子狀結構體。
於本說明書中,所謂「基因分析」係指研究生物樣本中之核酸(DNA、RNA等)之狀態。於一實施方式中,基因分析可列舉利用核酸擴增反應之分析。包含該等在內,作為基因分析之例,可列舉序列決定、基因型判定/多態性分析(SNP分析、拷貝數多態性、限制酶片段長度多態性、重複數多態性)、表現解析、螢光淬滅探針(Quenching Probe:Q-Probe)、SYBR green法、熔解曲線分析、即時PCR(Polymerase chain reaction,聚合酶鏈鎖反應)、定量RT-PCR、數位PCR等。
於本說明書中,所謂「單一生物單位水準」係指針對1個單一生物單位中所含之遺傳資訊或其他生物分子之資訊,以可與其他單一生物單位中所含之遺傳資訊或其他生物分子之資訊加以區別之狀態進行處理。
於本說明書中,所謂「單細胞水準」係指針對1個細胞或細胞樣結構物中所含之遺傳資訊或其他生物分子之資訊,以與其他細胞或細胞樣結構物中所含之遺傳資訊或其他生物分子之資訊加以區別之狀態進行處理。例如,於將「單一生物單位水準」或「單細胞水準」之多核苷酸擴增之情形時,分別以某單一生物單位、或某細胞或者細胞樣結構物中之多核苷酸與其他單一生物單位、或其他細胞或者細胞樣結構物中之多核苷酸能夠加以區別之狀態進行各自之擴增。於本發明之一實施方式中,使該多核苷酸接觸擴增用試劑而將該多核苷酸於凝膠膠囊內擴增之工序亦可將該多核苷酸一面於凝膠膠囊內保持凝膠狀態一面進行擴增。
於本說明書中,所謂「單一生物單位解析」係指對1個單一生物單位(例如細胞或細胞樣結構物)中所含之遺傳資訊或其他生物分子之資訊,以與其他單一生物單位(例如細胞或細胞樣結構物)中所含之遺傳資訊或其他生物分子之資訊加以區別之狀態進行解析。
於本說明書中,所謂「單細胞解析」係指對1個細胞或細胞樣結構物中所含之遺傳資訊或其他生物分子之資訊,以與其他細胞或細胞樣結構物中所含之遺傳資訊或其他生物分子之資訊加以區別之狀態進行解析。
於本說明書中,所謂「遺傳資訊」係指編碼1個細胞或細胞樣結構物中所含之基因等資訊之核酸之資訊,包括特定之基因序列之有無、特定之基因之產量或總核酸產量。
於本說明書中,所謂「生物分子之資訊」係指1個細胞或細胞樣結構物中所含之生物分子(核酸等,除核酸以外,亦包含蛋白質、糖、脂質等)或其類似物之資訊,包括特定之生物分子之結構或序列之有無、結構或序列之同一性、特定之生物分子之產量及所有生物分子之產量。
於本說明書中,所謂「核酸資訊」係指1個細胞或細胞樣結構物中所含之核酸之資訊,包括特定之基因序列之有無、特定之基因之產量或總核酸產量。
於本說明書中,所謂「同一性」係指2個生物分子間之結構或序列之類似性。於對象為序列之情形時,同一性亦可藉由將可為了進行比較而對準之各序列中之位置進行比較而決定。
於本說明書中,所謂「長讀定序」係指使用較長之讀段(為了進行解析而片段化之核苷酸鏈)進行整體序列之定序之方法。一般而言,長讀定序係藉由400鹼基以上之長度之讀段而進行解讀。
(較佳之實施方式) 以下記載較佳之實施方式之說明,但應理解該實施方式為本發明之例示,本發明之範圍並不限定於此種較佳之實施方式。又,應理解業者可參考如下之較佳之實施例,於本發明之範圍內容易地進行某些改變、變更等。關於該等實施方式,業者可適當組合1個或複數個任意之實施方式。
(序列資訊處理) 於一形態中,本發明提供一種處理單一(single)生物單位(例如細胞或細胞結構物)之序列資訊之方法。該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊(例如基因組、轉錄組、蛋白質組、或同等基因等之集合)之部分序列資訊,基於生物系統鑑定用序列(例如16S rDNA或標記基因),按同一系統進行聚類化;(B)視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及(C)使用該單一生物單位之序列資訊之部分序列資訊及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。該形態之模式圖示於圖1。草圖基因組與本發明之單位生物單位基因組之對應例示於圖2。
步驟(B)為任意工序,可利用資料庫,亦可不利用資料庫。如此,聚類化之方法存在利用資料庫之方法(圖3)、及不利用資料庫之方法(圖4)。於利用資料庫之情形時,將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。於不利用資料庫之情形時,新生成聚類。
亦能夠自分類後之資料庫新特定出生物系統鑑定用序列(標記)。於該形態中,本發明提供一種處理單一(single)生物單位(例如細胞)之序列資訊之方法,該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及(B)將資料庫中之與上述聚類對應之部分序列資訊、與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定之類似度以上之部分序列鑑定為生物系統鑑定用序列。於此情形時,生物系統鑑定用序列可作為所謂之生物標記使用。該形態之模式圖例示於圖5中。於該形態中,擷取登錄之草圖基因組所對應之蛋白質家族,製成草圖基因組與蛋白質家族之對應矩陣。計算對應之蛋白質家族為1個之單複製基因之比率。其中,可採用存在於草圖基因組整體之蛋白質家族作為標記基因。本發明提供一種處理單一(single)生物單位之序列資訊的方法,該方法包括如下步驟:A)自資料庫擷取草圖內不重複之基因(單複製基因)候選;B)針對上述基因之每一個,計算對應之草圖之個數(或比率);及C)按照上述對應草圖之個數(或比率)由多至少之順序排序,選擇特定值以上之基因(或自上位起任意數量之基因)作為標記基因候選。
於一形態中,本發明係一種處理單一生物單位之序列資訊之方法,該方法包括如下步驟:(D)將複數個單一生物單位之序列資訊之部分序列資訊基於特定之判斷基準(例如完成率、污染率)按照品質由高至低排序;(E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度(該長度可為一部分,亦可為全長)大於該部分序列資訊之草圖;及(E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準(例如完成率、污染率),選擇至此所生成之草圖。較佳為反覆進行(E')。原因在於,較佳為一面變更SAG之數量一面反覆進行草圖製成。於部分實施方式中,亦可進行上述(D)~(E')作為製成單一生物單位之序列資訊草圖之步驟。該形態之模式圖示於圖7中。
於一較佳之實施方式中,本發明之處理單一生物單位之序列資訊之方法包括如下步驟:(F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊;(G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖;(G')視需要反覆進行(G),較佳為反覆進行至該更長之草圖達到序列資訊之全長為止;及(G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行步驟(D)、(E)及(E')。作為更低基準之判斷基準,例如可使用更寬容之參數。該形態之模式圖示於圖8中。
於一形態中,部分序列資訊為SAG。於特定之形態中,本發明提供一種於判斷SAG為「同一」聚類(例如系統、種)之後的階段相關之形態中進行聚類之精緻化的方法。於該形態中,本發明係一種處理單一生物單位之序列資訊之方法,該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;(H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化;(H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及(I)針對比較結果,基於特定之判斷基準(例如完成率、污染率)判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
此處,上述評估可利用標記基因對所擷取之部分序列資訊(例如SAGs)進行窮舉評估,例如可藉由各SAG間之距離進行評估。
於較佳之實施方式中,本發明中實施之再次聚類化係藉由網路解析及社群檢測而進行。
又,本發明亦提供一種即使增加部分序列資訊(例如SAGs)之數量亦不會提高草圖特性之後的階段之形態中之處理。於該形態中,本發明係一種處理單一生物單位之序列資訊之方法,該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;(D)將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊基於特定之判斷基準(例如完成率、污染率)按照品質由高至低排序;(E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度(可為一部分,亦可為全長)大於該部分序列資訊之草圖;(E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準(例如完成率、污染率),對至此生成之草圖進行評估;(H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時(即,止於一定之範圍之情形)之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化;(H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及(J)針對比較結果,基於特定之判斷基準(例如完成率、污染率)判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。
於本發明中,應理解該等方法之各步驟可適當組合。於部分實施方式中,當進行單一(single)生物單位之序列資訊之處理及生物系統鑑定用序列候選之篩選時,發出使電腦執行該等處理之指令之場所、與接收到指令而實際實施該等處理等之場所可不同。於其他實施方式中,本發明之方法之各處理可由電腦執行。於另外之實施方式中,本發明之資料庫可為藉由本發明之聚類或序列解析方法而生成之資料庫,亦可為獨立於本發明之聚類或序列解析方法而生成之資料庫。於較佳之實施方式中,獨立於本發明之聚類或序列解析方法而生成之資料庫可為將基於單細胞擴增而擴增後之序列定序後獲得之資料之資料庫。於先前技術中,認為追加其他資料庫中之序列會導致序列之品質降低,但實際上發現,藉由將其他資料庫之序列追加至聚類,序列之品質會改善。
於部分實施方式中,當由定序資料構建草圖基因組時,亦可將包含確認到多個重複讀取之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正(均質化)。根據進行均質化處理後之定序資料之聚類,將由均質化定序資料製成之基因組序列用於參照序列而反覆進行均質化處理,藉此可預期基因組特性之進一步改善。於供於均質化處理之部分序列資訊係藉由長讀定序而讀出時,可預期基因組特性之更進一步之改善。 於構建來自單一生物單位之序列之草圖基因組之情形時,以資料本身潔淨且具有一定程度之基因組完整性,並且複數個單細胞資料係一體地獲得為前提,先前技術無法實現,藉由本發明方才實現。又,無需藉由長讀定序而解讀來自單一生物單位之序列之草圖基因組。又,於來自單一生物單位之序列中,認識到存在產生嵌合(原本未相連而分開之基因組序列因擴增時之錯誤等而產生,產生被錯誤解讀之序列資料)之問題,因此,並未開發適於具有嵌合及較高之擴增偏誤之單細胞資料之長讀組裝系統。藉由有效利用本發明,可參照複數個單細胞基因組,反覆進行映射及組裝,由此大幅度降低該偏誤,藉此,可獲得極為準確之基因組序列。 於來自單細胞之基因組序列等之擴增DNA之定序中產生偏誤已廣為人知。關於該點,先前方法中,均質化處理(降低偏誤)採取如下等方法,即,研究酵素反應或反應條件,使擴增時不易產生偏誤本身(Nishikawa et al. PLoS ONE),或積極分解DNA以使擴增後產生之偏誤消減。但是,該等方法中,存在無法完全消除偏誤之問題。本發明中,即便為已產生偏誤之資料,由於以電腦(in silico)執行處理,故亦可無需進行如上所述之特殊之反應系統之研究而使資料均質化。再者,此時,亦因前提為資料本身潔淨,且來自於複數個,故僅可利用本發明中使用之方法執行。於先前之方法中,基因組序列之正確性係對近緣種之參考基因組進行映射等,評估偏誤或間隙部等,實施序列修正,但本發明中所使用之方法係於均質化處理時即便不存在近緣種之參考基因組,亦可藉由將同一種之複數資料統合解析,而參照自體資料,執行均質化處理,因此亦可使無參考序列之未知微生物樣本之資料均質化,此方面與先前技術相比,發揮顯著優異之效果。又,於未知微生物之完整基因組解讀中非常有效。進而,於無法特定出基因組中之基因聚類位置之細胞中,亦無需培養,能對基因聚類無間隙地完整地解讀序列,能詳細地獲知其功能。又,亦可進行如下研究開發:將該基因聚類導入至易處理之其他生物,製作目標物質。期待如下之應用例、假想實施例。 ・抗生物質耐性基因/耐性株之監視 ・微生物基因組定序之後處理(作為環狀基因組封閉)(基本除培養株以外,可封閉之情況較少) ・生合成基因聚類之獲得 ・基於合成生物學之微生物主體之基因改型評估 ・基因組結構變異及各種代謝功能/對主體生物之影響評估。
(程式及記錄媒體) 於一形態中,本發明提供一種電腦程式及儲存該程式之記錄媒體(例如CD-R(compact disc-recordable,可錄光碟)、快閃記憶體、硬碟、傳送媒體、雲端等),該電腦程式指示於電腦上實作處理單一(single)生物單位(例如細胞或細胞結構物)之序列資訊之方法。該程式所實作之該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊(例如基因組、轉錄組、蛋白質組、或同等基因等之集合)之部分序列資訊,基於生物系統鑑定用序列(例如16S rDNA或標記基因),按同一系統進行聚類化;(B)視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及(C)使用該單一生物單位之序列資訊之部分序列資訊及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。該形態之模式圖例示於圖1中。草圖基因組與本發明之單位生物單位基因組之對應例示於圖2中。
步驟(B)為任意工序,可利用資料庫,亦可不利用資料庫。如此,聚類化之方法存在利用資料庫之方法(圖3)、及不利用資料庫之方法(圖4)。於利用資料庫之情形時,將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。於不利用資料庫之情形時,新生成聚類。
亦可自分類後之資料庫中,新特定出生物系統鑑定用序列(標記)。於該形態中,本發明提供一種電腦程式及儲存該程式之記錄媒體(例如CD-R、快閃記憶體、硬碟、傳送媒體、雲端等),該電腦程式指示於電腦上實作處理單一(single)生物單位(例如細胞)之序列資訊之方法。該程式所實作之該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及(B)將資料庫中之與上述聚類對應之部分序列資訊、與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定之類似度以上之部分序列鑑定為生物系統鑑定用序列。於此情形時,生物系統鑑定用序列可作為所謂之生物標記使用。該形態之模式圖例示於圖5中。該形態中,擷取與已登錄之草圖基因組對應之蛋白質家族,製成草圖基因組與蛋白質家族之對應矩陣。計算對應之蛋白質家族為1之單複製基因之比率。其中,可採用存在於草圖基因組整體之蛋白質家族作為標記基因。本發明提供一種程式或儲存程式之記錄媒體,該程式指示於電腦上實作處理單一(single)生物單位之序列資訊之方法,該方法包括如下步驟:A)自資料庫擷取草圖內不重複之基因(單複製基因)候選;B)針對上述基因之每一個,計算對應之草圖之個數(或比率);及C)按照上述對應草圖之個數(或比率)由多至少之順序排序,選擇特定值以上之基因(或自上位起任意數量之基因)作為標記基因候選。
於一形態中,本發明提供一種電腦程式及儲存該程式之記錄媒體(例如CD-R、快閃記憶體、硬碟、傳送媒體、雲端等),該電腦程式指示於電腦上實作處理單一生物單位之序列資訊之方法。該程式所實作之該方法包括如下步驟:(D)將複數個單一生物單位之序列資訊之部分序列資訊基於特定之判斷基準(例如完成率、污染率)按照品質由高至低排序;(E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度(該長度可為一部分,亦可為全長)大於該部分序列資訊之草圖;及(E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準(例如完成率、污染率)選擇至此生成之草圖。較佳為反覆進行(E')。原因在於,較佳為一面變更SAG之數量一面反覆進行草圖製成。該形態之模式圖示於圖7中。
於一較佳之實施方式中,本發明之程式所實作之處理單一生物單位之序列資訊之方法包括如下步驟:(F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊;(G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖;(G')視需要反覆進行(G),較佳為反覆進行至該更長之草圖達到序列資訊之全長為止;及(G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行步驟(D)、(E)及(E')。作為更低基準之判斷基準,例如可使用更寬容之參數。該形態之模式圖示於圖8中。
於另一形態中,本發明之程式編碼如下方法,即,於判斷SAG為「同一」聚類(例如系統、種)之後的階段相關之形態中進行聚類之精緻化。於該形態中,本發明提供一種電腦程式及儲存該程式之記錄媒體(例如CD-R、快閃記憶體、硬碟、傳送媒體、雲端等),該電腦程式指示於電腦上實作處理單一生物單位之序列資訊之方法。該程式所實作之該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;(H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化;(H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及(I)針對比較結果,基於特定之判斷基準(例如完成率、污染率)判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
此處,上述評估可利用標記基因對所擷取之部分序列資訊(例如SAGs)窮舉評估,例如可藉由各SAG間之距離進行評估。於較佳之實施方式中,本發明中實施之再次聚類化係藉由網路解析及社群檢測而進行。
又,本發明之程式亦提供即便增加部分序列資訊(例如SAGs)之數量亦不會提高草圖特性之後的階段之形態中之處理。於該形態中,本發明提供一種電腦程式及儲存該程式之記錄媒體(例如CD-R、快閃記憶體、硬碟、傳送媒體、雲端等),該電腦程式指示於電腦上實作處理單一生物單位之序列資訊之方法。該程式所實作之該方法包括如下步驟:(A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;(D)基於特定之判斷基準(例如完成率、污染率),將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序;(E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度(可為一部分,亦可為全長)大於該部分序列資訊之草圖;(E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準(例如完成率、污染率),對至此生成之草圖進行評估;(H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時(即,止於一定之範圍之情形)之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化;(H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及(J)針對比較結果,基於特定之判斷基準(例如完成率、污染率)判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。
於另一形態中,本發明提供一種資料結構,其係將複數個單一生物單位之序列資訊之部分序列資訊基於生物系統鑑定用序列按同一系統聚類化而包含。於一實施方式中,上述資料結構中所含之部分序列資訊來自於2個以上之獨立聚類化而生成之資料庫。於一實施方式中,將獨立完成之聚類化相關之資訊與上述部分序列資訊關聯儲存。於一實施方式中,若將部分序列資訊綜合,則構成基因組資訊。於一實施方式中,部分序列資訊係針對各單一生物單位收集。於一實施方式中,部分序列資訊與其來源之單一生物單位之識別資訊(ID資訊)關聯儲存。
於另一實施方式中,本發明提供一種單一生物單位之資料結構,其係將如下資料結構統合複數個而成,上述資料結構係將複數個單一生物單位之序列資訊之部分序列資訊基於生物系統鑑定用序列按同一系統聚類化而包含。先前不存在將單細胞等單一生物單位統合而成之高品質之資料庫,係由本發明首次提供。
(系統) 於一形態中,本發明提供一種處理單一(single)生物單位(例如細胞或細胞結構物)之序列資訊之系統。該系統包括:(A)聚類部,其針對複數個單一生物單位之序列資訊(例如基因組、轉錄組、蛋白質組、或同等之基因等之集合)之部分序列資訊,基於生物系統鑑定用序列(例如16S rDNA或標記基因),按同一系統進行聚類化;(B)追加資訊追加部(其可與聚類部相同,亦可不同),其視需要將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類;及(C)草圖製成部,其使用該單一生物單位之序列資訊之部分序列資訊及該資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。該形態之模式圖例示於圖1中。草圖基因組與本發明之單位生物單位基因組之對應例示於圖2中。
適用於B)之追加資訊追加部為任意,可利用資料庫,亦可不利用資料庫。
如此,聚類部實現之聚類化之方法存在利用資料庫之方法(圖3)、及不利用資料庫之方法(圖4)。於利用資料庫之情形時,將資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。於不利用資料庫之情形時,新生成聚類。
關於本發明之系統,亦能夠自分類後之資料庫新特定出生物系統鑑定用序列(標記)。於該形態中,本發明提供一種處理單一(single)生物單位(例如細胞)之序列資訊之系統。該系統係包括如下機構:(A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及(B)鑑定部(亦稱為標記鑑定部),其將資料庫中之與上述聚類對應之部分序列資訊、與上述聚類之部分序列資訊進行比較,算出各部分序列之類似度,將特定之類似度以上之部分序列鑑定為生物系統鑑定用序列。於此情形時,生物系統鑑定用序列可作為所謂之生物標記使用。該形態之模式圖例示於圖5中。於該形態中,擷取登錄之草圖基因組所對應之蛋白質家族,製成草圖基因組與蛋白質家族之對應矩陣。計算對應之蛋白質家族為1個之單複製基因之比率。其中,可採用存在於草圖基因組整體之蛋白質家族作為標記基因。本發明提供一種系統,其用以處理單一(single)生物單位之序列資訊,包括:A)擷取部,其自資料庫擷取草圖內不重複之基因;B)計算部,其針對上述基因之每一個,計算對應之草圖之個數或比率;及C)選擇部,其選擇上述對應草圖之個數或比率為特定值以上之基因作為標記基因候選。
於一形態中,本發明提供一種處理單一生物單位之序列資訊之系統。該系統包括:(D)排序部,其將複數個單一生物單位之序列資訊之部分序列資訊基於特定之判斷基準(例如完成率、污染率)按照品質由高至低排序;及(E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度(該長度可為一部分,亦可為全長)大於該部分序列資訊之草圖,選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準(例如完成率、污染率)選擇至此生成之草圖。草圖製作較佳為反覆進行複數次。原因在於,較佳為一面變更部分序列資訊(例如SAGs)之數量一面反覆進行草圖製成。該形態之模式圖示於圖7中。
於一較佳之實施方式中,本發明之系統包括:(F)選擇部(其亦可作為草圖構建部之一部分而構成),其將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊;(G)草圖改善部(其也可作為草圖構建部而構成),其使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖;(G')草圖構建部,其視需要反覆進行(G),較佳為反覆進行至該更長之草圖達到序列資訊之全長為止;及(G'')如下機構:其視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,使(D)、(E)及(E')反覆進行排序、草圖構建及選擇。該反覆進行可於草圖構建部等中實現。作為更低基準之判斷基準,例如可使用更寬容之參數。該形態之模式圖示於圖8中。
於另一形態中,本發明之系統編碼如下方法,即,於判斷SAG為「同一」聚類(例如系統、種)之後的階段相關之形態中進行聚類之精緻化。於該形態中,本發明提供一種處理單一生物單位之序列資訊之系統。該系統包括:(A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;(H)再次聚類部(其亦可由聚類部實現),其於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化;(H')比較部(其也可由聚類部實現),其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及(I)登錄部,其針對比較結果,基於特定之判斷基準(例如完成率、污染率)判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
此處,上述評估可利用標記基因對所擷取之部分序列資訊(例如SAGs)窮舉評估,例如可藉由各SAG間之距離進行評估。
於較佳之實施方式中,本發明中實施之再次聚類化係藉由網路解析及社群檢測而進行。
又,本發明之系統亦提供一種即便增加部分序列資訊(例如SAGs)之數量亦不會提高草圖特性之後的階段之形態中之處理。於該形態中,本發明提供一種處理單一生物單位之序列資訊之系統。該系統包括:(A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;(D)排序部,其將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊基於特定之判斷基準(例如完成率、污染率)按照品質由高至低排序;(E)草圖構建部,其進行如下兩個步驟,即,基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度(可為一部分,亦可為全長)大於該部分序列資訊之草圖;及選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準(例如完成率、污染率),對至此生成之草圖進行評估;(H)再次聚類部(其亦可由聚類部實現),其於草圖之評估未因序列資訊之組之集合數量增大而變動(即,止於一定之範圍之情形)之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化;及(H')比較部(其也可由聚類部達成),其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;並且包括(J)判斷部,其針對比較結果,基於特定之判斷基準(例如完成率、污染率)判斷(H)中之再次聚類化是否適當;於判斷部中,當其判斷為適當時,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行由(D)~(E')實現之步驟。
以上,基於實施方式對本發明之1個或複數個態樣之系統、程式、記錄媒體、方法進行了說明,但本發明並不限定於該實施方式。只要不脫離本發明之主旨,對本實施方式實施業者想到之各種變化而成者、或將不同實施方式中之構成要素組合而構建之形態亦可包含於本發明之1個或複數個態樣之範圍內。
又,上述各實施方式中之患病與否判定裝置所具備之構成要素之一部分或全部亦可由1個系統LSI(Large Scale Integration:大規模積體電路)構成。例如,本發明之處理序列資訊之系統視需要可與資料庫組合,亦可內包或組合特定出具有生物標記等功能之序列之系統(圖10)。
系統LSI係將複數個構成部集成於1個晶片上而製造之超多功能LSI,具體而言,係包含微處理器、ROM(Read Only Memory,唯讀記憶體)、RAM(Random Access Memory,隨機存取記憶體)等而構成之電腦系統。ROM中記憶有電腦程式。藉由上述微處理器按照電腦程式進行動作,系統LSI達成其功能。此處,根據積體度之差異,系統LSI有時亦被稱為IC(Integrated Circuit,積體電路)、LSI、超級LSI、超大級LSI。又,積體電路化之方法並不限定於LSI,亦可由專用電路或通用處理器實現。LSI製造後,亦可利用能夠編程之FPGA(Field Programmable Gate Array,現場可程式化閘陣列)、或能夠再構成LSI內部之電路單元之連接或設定之可重組態處理器。若由於半導體技術之進步或衍生之其他技術而出現置換LSI之積體電路化之技術,當然亦可使用該技術進行功能區塊之積體化。能夠實現生物技術之應用等。
又,本發明之一形態除此種序列資訊處理裝置或系統外,亦可為經功能特化之系統(例如生物標記篩選裝置、藥效判定裝置、診斷裝置等)。又,本發明之實施方式亦可為使電腦執行序列資訊處理中所含之徵性之各步驟之電腦程式。又,本發明之一態樣亦可為記錄有此種電腦程式之電腦可讀取之非暫時性之記錄媒體。
再者,於上述各實施方式中,各構成要素可由專用之硬體構成,或亦可藉由執行適於各構成要素之軟體程式而實現。各構成要素亦可藉由CPU或處理器等程式執行部讀出硬碟或半導體記憶體等記錄媒體中所記錄之軟體程式並執行而實現。此處,實現上述各實施方式之疼痛推定裝置等之軟體可為本說明書中上文所述之程式。
(使用雲端、IoT(Internet of Things,物聯網)及AI(Artificial Intelligence,人工智能)之實施方式) 本發明之序列資訊處理技術可以作為1個系統或裝置包含所有之形式提供。或者,亦可假定如下形態,即,作為序列資訊處理裝置主要進行分析及結果之顯示,計算或判別模型之計算於伺服器或雲端進行。該等之一部分或全部可使用IoT(Internet of Things)及/或人工智能(AI)實施(圖11)。
或者,亦可假定半獨立型之形態,其係序列資訊處理裝置亦收納各種計算所需之機構,在此進行分析,但分析所需之計算於伺服器或雲端進行的形態。就醫院等部分實施場所而言,由於未必始終能夠收發,故假定即便於遮蔽之情形亦能使用之模型。
保存部例如可為CD-R、DVD、藍光(Blueray)、USB(Universal Serial Bus,通用串列匯流排)、SSD(Solid-state disk,固態磁碟)、硬碟等記錄媒體,亦可儲存於伺服器,還可為適當記錄於雲端上之形式。
作為此種雲端服務,大致相當於「Software as service(軟體即服務,SaaS)」。關於序列資訊處理裝置,可想到搭載有由實驗室環境下之資料製成之判別運算法,故亦可作為具備該等實施方式之2個或3個特徵之系統提供。
視需要亦可進行資料保存。資料保存通常配備於伺服器側,但為全裝備型之情形時,當然為終端側,雲端型之情形時亦可為終端側(任意)。於雲端提供服務之情形時,資料保存可提供標準(例如,雲端達到10 G位元組)、選項1(例如,雲端增量10 T位元組)、選項2(雲端設定參數而進行分割保存)、選項3(雲端進行分析選項保存)之選項。可保存資料,自所出售之所有裝置抽取資料而製作大數據(例如序列資料庫),實時更新分析模型,或構建新模型,例如提供如「疾病判定模型」般新的判別模型軟體。
又,亦可具有資料解析選項。此處,可提供接受服務提供者之要求等。即,可假定為計算方法之選項。 於本說明書中,「或」係於採用文章中所列舉之事項之「至少一者以上」時使用。「或者」亦同樣。於本說明書中,明確記載為「2個值之範圍內」之情形時,該範圍內亦包含2個值本身。
本說明書中所引用之科學文獻、專利、專利申請等參考文獻之整體以與各自具體進行記載相同之程度作為參考援用於本說明書中。
以上,針對本發明,為了容易理解而示出較佳之實施方式進行說明。以下,基於實施例對本發明進行說明,但上述說明及以下實施例僅以例示為目的而提供,並非為了限定本發明而提供。因此,本發明之範圍並不受本說明書中具體記載之實施方式或實施例限定,而僅由申請專利範圍限定。 實施例
以下,記載實施例。 試劑類使用實施例中具體記載之製品,但亦能夠由其他製造商之同等品代替。
(實施例1) (草圖基因組製成法) (方法) (細胞株樣本製備) 自Hosokawa等人關於大腸桿菌(E. coli) K12(ATCC 10798)及枯草桿菌(B. subtilis)(ATCC 6633)之各者分別獲得12個SAG資料。於Hosokawa等人之論文中,該等細胞係自ATCC獲取。將大腸桿菌K12於Lu ria-Bertani(LB)培養基(1.0%胰化蛋白腖、0.5%酵母萃取液、1.0%NaCl、pH值7.0)中培養。將枯草桿菌於腦心浸液肉湯(ATCC培養基44,Thermo Fisher Scientific, San Jose, CA, USA)中培養。利用經UV處理之磷酸緩衝生理鹽水(-)(PBS,Thermo Fisher Scientific),將所回收之細胞洗淨3次,供於單一液滴MDA及定序。
(小鼠腸內微生物群之製備) 自7週齡之雄性ICR小鼠(Tokyo Laboratory Animals Science Co., Ltd., Tokyo, Japan)回收糞便,於PBS中使其勻漿化。將上清液以2000×g藉由2秒鐘之離心分離回收,並以15000×g進行3分鐘離心分離。將所獲得之細胞顆粒利用PBS洗淨2次,最後再次懸浮於PBS。
(單一液滴MDA) 製造微流體液滴產生器及MDA反應裝置,按照Hosokawa等人之報告用於單一小滴MDA。於分析前,將細胞懸浮液調整為0.1細胞/液滴之濃度,防止單一之液滴中封入複數個細胞。使用液滴產生器,將單一之微生物細胞封入溶解緩衝液D2(QIAGEN、Hilden、Germany)中,然後以65℃進行10分鐘溶解。繼而,將細胞溶解物注入液滴融合裝置,與添加有Tween-20及EvaGreen之MDA反應混合液(REPLI-g Single Cell Kit、QIAGEN)之液滴混合。於回收至PCR管之後,將液滴以30℃保溫2小時,以65℃保溫3分鐘。關於單細胞定序,逐一選取經螢光標識之液滴,於開放式潔淨工作台(KOACH 500-F、KOKEN LTD, Tokyo, Japan)之下藉由微量吸管轉移至新鮮之MDA反應混合物。以30℃保溫2小時之後,於65℃下使酵素失活3分鐘。
(16S rDNA序列決定) 為了確認自單一細胞之擴增,將16S rRNA基因片段V3-V4擴增,藉由根據由單一液滴MDA獲得之SAG的桑格定序進行定序。為了比較系統學分佈,自腸內菌群之宏基因組樣本擴增16S rRNA片段(V3-V4),藉由MiSeq(lllumina, San Diego, CA, USA)進行定序。使兩端(Paired-end)讀段連結並進行修整,然後藉由UPARSE以97%之同一性聚類化為分類單位。分類係由RDP分類碼決定。
(基因庫製備及總基因組定序) 使用Nextera XT DNA樣本製備套組(lllumina)及Nextera XT Index Kit,由單一液滴MDA之產物製備單一細胞定序用之lllumina基因庫。繼而,將基因庫以2×300之兩端讀段於lllumina MiSeq系統上進行定序。
(SAG讀取之品質管理及交互參照片段重疊組之構建(ccSAG之步驟1)) 將SAG基於99%以上之16S rRNA類似性及95%以上之ANI第一次分類。藉由全長之原始SAG片段重疊組間之成對BLAST推定核苷酸同一性,持續500 bp以上進行計算。繼而,使用FASTX工具套組(http://hannonlab.cshl.edu/fastx_toolkit/)及PRINSEQ事先對群組化後之SAG讀段進行過濾處理,去除低品質之讀段(50%以上之鹼基之品質得分<25者),對低品質(品質得分<20者)之讀段之3末端進行修整,去除較短之讀取(<20 bp)及1%之鹼基未被識別之讀段,棄除事先過濾處理後未形成對之讀段。之後,以options-careful-disable-rr-sc使用SPAdes-3.9.0,自原始SAG讀段新個別地拼接片段重疊組。最後,收集500 bp以上之原始SAG片段重疊組用於交互參照映射。
(基於交互參照映射之嵌合讀段之去除(ccSAG之工序2)) 將來自1個SAG之品質管理後之讀段藉由BWA映射至由相同群組內之其他SAG構建之複數個原始片段重疊組。於對參照片段重疊組之完全對準為與部分對準(軟修剪(soft clipping))同等或其以上之頻度之情形時,讀段視為潔淨,但於部分對準較完全對準頻繁時,視為潛在性嵌合。繼而,將潛在性嵌合分割為對準之片段及未對準之片段,然後將其等再次映射至複數個原始片段重疊組,並且如記載般進行再分類。最後,將完全未對準之讀段及短於20 bp之經片段化之嵌合作為未映射者廢棄。反覆進行交互參照映射及嵌合分割之循環,直至檢測不到部分對準之潛在性嵌合之讀段為止。
(潔淨之SAG與片段重疊組延長之共同組裝(ccSAG之步驟3)) 將來自各SAG之潔淨讀段使用SPAde新共組裝至潔淨之複合SAG片段重疊組。同樣地,將原始SAG讀段新共組裝至原始複合SAG片段重疊組。藉由對原始複合體片段重疊組之BLAST映射填埋潔淨之複合體片段重疊組間之間隙。簡潔而言,為了使複合體片段重疊組潔淨,作為能夠潛在使用之原始複合體片段重疊組,識別99%以上之同一性者。繼而,將此種原始複合體片段重疊組回收至資料庫,藉由BLAST映射潔淨之複合體片段重疊組,基於所獲得之對準填埋間隙,由此生成本質上包含複合體之單一細胞基因組的已填埋間隙之複合體SAG片段重疊組。
SAG組裝之分析:利用QUAST對組裝品質進行評估(Gurevich A et al., Bioinformatics. 2013 Apr 15; 29(8): 1072-5.)。關於細胞株之分析,將伴有f質體及λ噬菌體序列之NC_00913(E. coli substrain MG1655)之基因組、或NC_014479(Bacillus subtilis subsp. spizizenii str. W23)之基因組之所有序列資料映射至NCBI參照基因組。為了對藉由該實施例而獲得之未培養之細胞基因組進行分析,將橋接之複合SAG片段重疊組用作參照,鑑定潛在之誤組裝,決定各SAG之基因組部分。利用CheckM評估完全性(complete)及污染(contamination)(Parks DH et al., Genome Res. 2015 Jul; 25 (7): 1043-55.)。分類係藉由AMPHORA2或RNAmmer中之16S rDNA序列之BLAST檢索而進行(Lagesen K et al., Nucleic Acids Res. 2007; 35(9): 3100-8.)。利用KAAS(Moriya Y et al., Nucleic Acids Res. 2007 Jul; 35 (Web Server issue): W182-5.)及MAPLE(Takami H et al., DNA Res. 2016 Jul 3. pii: dsw030.)進行基因路徑分析。另一方面,組裝圖由Bandage(Wick RR et al., Bioinformatics. 2015 Oct 15; 31 (20): 3350-2.)生成。關於SNP之分析,對橋接複合SAG片段重疊組之編碼序列映射各單細胞擴增後之基因組。繼而,對核苷酸進行至少5個讀段之覆蓋深度之篩選。此處,99.9%之讀段與參照不匹配,表示均質之鹼基(核酸序列)。之後,將同一系統中包含複數個匹配之SAGs及不匹配之SAGs雙方之核苷酸部位鑑定為SNPs。
(實施例2)微生物基因組資料庫構建 圖2係用於在本發明中使用之微生物基因組資料庫構成。此處,示出由關聯式資料庫系統構建微生物基因組資料庫之情形時之實施例。主要於由中央處理裝置(CPU)、主記憶裝置、輔助記憶裝置、輸入輸出裝置及其他周邊機器構成之電腦系統上安裝作業系統及關聯式資料庫管理系統。如圖2所示,於關聯式資料庫上,製成用以保存草圖基因組資訊、與其對應之拼接鹼基序列、基因資訊、基因鹼基序列、單一生物單位基因組資訊、與其對應之拼接鹼基序列、基因資訊、基因鹼基序列、及部分鹼基序列資訊之表格。關於拼接鹼基序列、基因鹼基序列、部分鹼基序列,亦可採取如下形態:實際資料保存於關聯式資料庫外,將對實際資料之參照保存於表格。於草圖基因組資訊表格中,製成用以保存隨附於草圖基因組之資訊之行。例如,可列舉暫定系統分類、完成率、污染率、品質範疇、基因組尺寸、片段重疊組數、N50值、GC含量等。暫定系統分類係利用專用解析工具(例如checkm等)將拼接鹼基序列解析而獲得之生物系統分類之資訊。藉此,可鑑定草圖基因組之大致之系統。品質範疇係用以表示草圖基因組之狀態者。其較理想為設為依據國際規格等之範疇。於草圖基因組之基因資訊表格中,製成用以保存隨附於草圖基因組之基因之資訊之行。例如,可列舉基因名、基因長度、蛋白質家族、GC含量、標記類型、單複製等。蛋白質家族係藉由與蛋白質資料庫之相同性解析等而獲得之資訊。標記類型係用以記述是否為用於在系統分類等中使用之標記者。單複製係表示基因是否為單複製基因者。利用圖5之方法可鑑定單複製基因。於單一生物單位基因組資訊表格中,製成用以保存隨附於單一生物單位基因組之資訊之行。例如,可列舉暫定系統分類、完成率、污染率、基因組尺寸、片段重疊組數、N50值、GC含量等。於單一生物單位基因組之基因資訊表格中,製成用以保存隨附於單一生物單位基因組之基因之資訊之行。例如,可列舉基因名、基因長度、蛋白質家族、GC含量、單複製等。除此以外之各鹼基序列表格製成用以保存鹼基序列(設為外部檔案時,為其參照)之行。較佳為於各表格中預先準備用以唯一識別資料之ID行。草圖基因組資訊與單一生物單位基因組資訊具有一對多之關係。基因組資訊與拼接鹼基序列具有一對多之對應。基因組資訊與基因資訊具有一對多之關係。基因資訊與基因鹼基序列具有一對一之對應。單一生物單位基因組資訊與部分鹼基序列具有一對多之對應。
(實施例3)基於微生物基因組資料庫之單一生物單位基因組之聚類化 圖3表示當獲得複數個單一生物單位之部分鹼基序列時,將其等作為同一系統之聚類而彙集之方法。例如,利用lllumina等DNA定序儀對單一生物單位之基因組DNA進行解析,可獲取fastq等鹼基序列檔案。於Fastq檔案記述有部分鹼基序列。將所獲取之fastq檔案保存於解析用之電腦。於Fastq檔案內之部分鹼基序列中,存在混合存在有轉接序列者或品質較低之部分鹼基序列。該等低品質之部分鹼基序列預先使用fastqc等品質管理工具刪除。利用Spades等拼接工具將該fastq檔案拼接而獲取拼接鹼基序列。關於拼接鹼基序列,使用quast或checkm等評估工具預先計算片段重疊組數或基因組尺寸、完成率、污染率等評估值。繼而,自拼接鹼基序列鑑定基因。基因之鑑定係使用Prokka或DFAST等基因註解工具。關於鑑定出之基因鹼基序列,藉由檢索Pfam等蛋白質資料庫,可獲取蛋白質家族等功能資訊。最後,使用checkm等可進行系統分類之工具,預先計算暫定之系統分類資訊。至此為對單一生物單位之部分鹼基序列進行之預處理。
單一生物單位基因組解析完成之後,參照微生物基因組資料庫之草圖基因組資訊表格之暫定系統分類,擷取對應之草圖基因組資訊及基因資訊。參照基因資訊之標記類型,獲取生物系統鑑定用序列。自單一生物單位基因組資料之基因資訊擷取具有與生物系統鑑定用序列之蛋白質家族相同之蛋白質家族之基因。若無對應之基因資訊,則該處理結束,移行至下一處理。若存在對應之基因資訊,則利用BLAST等相同性解析工具對單位基因組資料之基因鹼基序列與生物系統鑑定用序列以窮舉進行相同性檢索。僅將具有某一定閾值以上之相同性之對作為對象,故排除一定閾值以下(例如相同性70%以下)之對。檢測各生物系統鑑定用序列中相同性最高之單位基因組資料之基因鹼基序列,求出匹配之鹼基序列長與相同性之加權平均,作為2個基因組間之類似度(距離)。萬一檢測出複數個具有同一類似度之草圖基因組之情形時,對拼接鹼基序列彼此而非生物系統鑑定用序列以窮舉進行相同性檢索,進行與生物系統鑑定用序列同樣之處理,計算類似度。將類似度最高之草圖基因組作為聚類化之基準。
(實施例4)單一生物單位基因組之聚類化 圖4表示於新測定出之單一生物單位基因組資料中,不存在與微生物基因組資料庫對應之草圖基因組時,用以製成同一系統之聚類之方法。此處,設為已藉由實施例2所示之預處理獲得各單一生物單位基因組資料(部分鹼基序列、基因組資訊、拼接鹼基序列、暫定系統分類、基因資訊、基因鹼基破裂)而進行實施例。藉由暫定系統分類,將同一系統之單一生物單位基因組資料聚類化。暫定系統分類係藉由使用checkm等工具處理拼接鹼基序列而決定,但多數情況下單一生物單位之拼接鹼基序列未覆蓋基因組整體,因此,系統分類大多粗略,形成混合存在有各種系統之生物之聚類之可能性較高。因此,對使用登錄於微生物基因組資料庫之生物系統鑑定用序列是否無法將聚類內之單一生物單位基因組資料細分進行評估。圖6表示將成為同一系統之聚類之單一生物單位基因組資料細分化之方法。參照登錄於微生物基因組資料庫之基因資訊表格之標記類型,獲取生物系統鑑定用序列及與其對應之蛋白質家族。利用與實施例2所示之求出基因組間之類似度之方法同樣之方法,使用生物系統鑑定用序列針對聚類內之單一生物單位基因組資料以窮舉計算類似度。藉由作為統計處理軟體之R等讀入此處求出之類似度矩陣並進行網路解析。R之情形時,igraph函數可作為網路解析函數利用。繼而,根據網路解析之輸出檢測社群。於R中,社群檢測實作基於邊介數中心性(edge betweenness centrality)之方法、基於隨機移動(random walk)之方法、基於貪心演算法(greedy algorithm)之方法、基於固有向量之方法、基於多階段最佳化之方法、基於自旋玻璃(spin-glass)法之方法、基於標籤傳播法(Label Propagation)之方法、基於Infomap法之方法等。基於檢測出之社群,將單一生物單位基因組資料細分化。此處,示出了使用網路解析及社群檢測進行細分化之例,但亦可想到使用分層(不分層)聚類進行細分化之方法。但是,於此情形時,當2個單一生物單位基因組資料間不存在用以計算類似度之共通之生物系統鑑定用序列時,類似度成為缺損值而無法進行聚類解析。因此,總體而言,認為較佳為使用即便出現缺損值時亦能夠應對之網路解析及社群檢測。
(實施例5)新生物系統鑑定用序列之鑑定 圖5表示根據登錄於微生物基因組資料庫之草圖基因組之基因資訊,鑑定用以進行系統分類之新生物系統鑑定用序列之方法。使用登錄於微生物基因組資料庫之草圖基因組資訊及草圖基因組基因資訊,製成與如圖5所示之草圖基因組對應之基因家族之頻度表。頻度表之表示1之單元表示該草圖基因組內為單複製基因。由於生物系統鑑定用序列應該為單複製基因,故忽略單複製基因以外之單元。於各蛋白質家族中,計算存在於草圖基因組整體之單複製基因之比率。單複製基因覆蓋越多之草圖基因組,作為生物系統鑑定用序列越優秀,因此,將蛋白質家族按照單複製基因之比率降序排序,將滿足某基準值以上(例如90%以上之草圖基因組中存在單複製基因)之蛋白質家族再次鑑定為生物系統鑑定用序列。或者,亦可將蛋白質家族按照單複製基因之比率降序排序,將自上位起任意數量之蛋白質家族作為生物系統鑑定用序列。又,迄今為止之研究中,細菌等中已知之生物系統鑑定用序列等亦可與上述鑑定出之生物系統鑑定用序列併用。
又,作為與上述不同之生物系統鑑定用序列之製成方法,認為亦可應用D. H. Parks, et. al., 2015中提倡之方法。其係製成草圖基因組之系統樹,對各節點定義生物系統鑑定用序列之方法,作為checkm之輸入資料使用。
(實施例6)最佳草圖基因組構建 圖7表示構建最佳草圖基因組之方法。藉由實施例2及實施例3,單一生物單位基因組資料被聚類化為同一系統。於實施例2中之聚類化中,基於微生物基因組資料庫之草圖基因組進行聚類化,因此,自微生物基因組資料庫獲取與草圖基因組對應之單一生物單位基因組之部分鹼基序列並追加至聚類。聚類內之單一生物單位基因組資料根據某基準值排序。此處,按照污染率由低至高之順序排序。但是,排除低於某一定水準之單一生物單位基因組資料。此處,例如排除完成率低於10%之單一生物單位基因組資料。繼而,按照等級由高至低擷取2個單一生物單位基因組資料,製成草圖基因組構建用之暫定組。繼而,按照等級由高至低擷取3個單一生物單位基因組資料,同樣地製成草圖基因組構建用之暫定組。如此按照等級由高至低不斷地追加單一生物單位基因組資料,製成數量較聚類內之單一生物單位基因組資料數少1個之暫定草圖基因組構建用組。對該等暫定草圖基因組構建用組,應用M. Kogawa, et. al., 2018提出之Cleaning and Co-assembly of a Single-Cell Amplified Genome (ccSAG)法,構建暫定草圖基因組。暫定草圖基因組能夠以函數形式表現,該函數係將用於進行構建之單一生物單位基因組資料數作為說明變量,將完成率或污染率等草圖基因組評估值作為目標變量。藉此,可判斷草圖基因組處於收斂狀態,即便進而追加單一生物單位基因組資料,亦無法期待品質提高等。無法期待品質提高之草圖基因組藉由不進行最佳草圖基因組之構建等,可期待處理之高速化。選擇暫定草圖基因組及已有草圖基因組中品質最高者,當其並非已有草圖基因組之情形時,更新微生物基因組資料庫之草圖基因組。新鑑定為聚類之單一生物單位基因組資料登錄於微生物基因組資料庫之單一生物單位基因組資料。
(實施例7)草圖基因組之後處理 圖8表示登錄於微生物基因組資料庫之草圖基因組之後處理方法。藉由對實施例5中製成之草圖基因組之收斂狀態進行評估之函數,可自微生物基因組資料庫擷取處於收斂狀態之草圖基因組。將該收斂狀態之草圖基因組作為後處理對象。後處理方法存在如下兩種模式。第一種係使用與所擷取之草圖基因組對應之單一生物單位基因組資料之方法。將所擷取之單一生物單位基因組資料根據某基準值排序。此處,按照污染率由低至高之順序排序。但是,排除低於一定水準之單一生物單位基因組資料。此處,例如排除完成率低於10%之單一生物單位基因組資料。使用滿足基準之所有單一生物單位基因組資料,實施變更了參數之ccSAG。參數係設定例如能夠檢測稍長之拼接鹼基序列之參數。將此處製成之草圖基因組作為第一個後處理草圖基因組。第二種係自滿足基準之所有單一生物單位基因組資料之拼接鹼基序列中,檢測結合草圖基因組之拼接鹼基序列的橋接拼接鹼基序列。藉由BLAST等相同性解析工具,對草圖基因組之拼接鹼基序列及滿足基準之所有單一生物單位基因組資料之拼接鹼基序列以窮舉進行相同性解析。於獲得草圖基因組之2個拼接鹼基序列之一端與單一生物單位基因組資料之1個拼接鹼基配之兩端匹配之結果之情形時,單一生物單位基因組資料之拼接鹼基序列發揮結合草圖基因組拼接鹼基序列之作用。將如此藉由成為橋之拼接鹼基序列連接之草圖基因組作為第二個後處理草圖基因組。藉由某基準值,將第一個及第二個後處理草圖基因組與已登錄之草圖基因組進行比較,選擇品質最高之草圖基因組。當所選擇之草圖基因組並非已有草圖基因組時,更新微生物基因組資料庫之草圖基因組。
(實施例8)草圖基因組之細分化 圖9表示將登錄於微生物基因組資料庫之草圖基因組系統地進行細分化之方法。藉由對實施例5中製成之草圖基因組之收斂狀態進行評估之函數,可自微生物基因組資料庫擷取處於收斂狀態之草圖基因組。將該收斂狀態之草圖基因組作為細分化對象。根據某基準值,將與所擷取之草圖基因組對應之單一生物單位基因組資料排序。此處,按照污染率由低至高之順序排序。但是,排除低於某一定水準之單一生物單位基因組資料。此處,例如排除完成率低於10%之單一生物單位基因組資料。針對滿足基準之所有單一生物單位基因組資料,進行實施例3中所進行之圖6之細分化。對細分化後之各聚類進行圖7之最佳草圖基因組構建,獲取各聚類之最佳草圖基因組。藉由某基準值,將該複數個最佳草圖基因組與已登錄之草圖基因組進行比較,選擇兩者中品質較高一方之草圖基因組。當所選擇之草圖基因組並非已有草圖基因組之情形時,自微生物基因組資料庫刪除已有草圖基因組,新登錄細分化後之草圖基因組。
(實施例9)外部資料庫之序列追加 藉由利用外部之獨立資料庫,可如圖12所示般構建更高品質之基因組。例如,若1~4之SAG為該計畫之資料,則株2之基因組僅由1個SAG構建。此處,只要可追加如5及6之外部計畫資料,則株2可由3個SAG構建草圖基因組,因此可構建更高品質之基因組。
(實施例10)偏誤均質化處理 目的及方法 (擴增)為了改善藉由組裝內包偏誤之定序資料而獲得之基因組序列之品質,而進行偏誤均質化處理。具體而言,基於針對參照基因組序列之定序讀段之映射結果,將確認到多個重複之序列部位之定序讀段去除一定量,進行定序讀段之偏差之修正而進行均質化(圖13)。 參照基因組序列可利用藉由已知之近緣生物種基因組或進行偏誤均質化處理之定序資料本身之組裝而製成之DNA序列。藉由進行均質化處理後之定序資料之組裝,獲取之草圖基因組完善率或序列片段數得以改善。視情況,藉由將由均質化定序資料製成之基因組序列用於參照序列反覆進行均質化處理,可期待基因組特性之進一步改善。 具體而言,按以下方式進行。
使用大腸桿菌K12株單細胞擴增基因組(SAG)之奈米孔(Nanopore)定序資料(GridION),進行基因組組裝。直接使用各基因組區域讀取深度大不同之定序資料(圖14上部線圖)進行組裝,結果未獲得顯示相對較小之讀取深度之區域之基因組序列(圖14下部帶之間隙部分)。繼而,將組裝成之基因組序列作為參照序列映射定序資料,藉由以各區域中最大讀取深度成為100×之方式選擇性地進行讀段去除,從而進行定序資料之均質化(圖15上部線圖)。將均質化後之定序資料進行再次組裝,結果確認到初次組裝中未獲取之基因組區域之序列構建(圖15下部帶)。進而,將新組裝成之基因組序列作為參照序列反覆進行均質化-組裝,藉此亦確認到基因組完善率之提高以及基因組序列片段數之減少(表1)。 [表1]
表1 均質化-組裝循環次數及獲取基因組序列之評估
均質化-組裝循環 Loop 0 Loop 1 Loop 2 Loop 3 Loop 4
序列片段數 52 51 11 8 7
大腸桿菌基因組完善率(%) 70.539 97.224 98.909 98.845 98.916
(附註) 如上,使用本發明之較佳之實施方式例示了本發明,但應理解本發明應僅藉由申請專利範圍而解釋其範圍。應理解,本說明書中引用之專利、專利申請及其他文獻應以與其內容本身具體地記載於本說明書中同樣地,將其內容作為對本說明書之參考援用。本案對向日本專利廳於2019年4月26日提出申請之日本專利特願2019-85839主張優先權,應理解,應以與該申請之內容本身具體地記載於本說明書中同樣地,將其內容作為對本說明書之參考援用。 [產業上之可利用性]
本發明能夠實現微生物等單細胞資料之處理之自動化。
圖1係本發明之整體概要圖。本發明係使用登錄於本系統之生物系統鑑定用序列,將新獲得之單一生物單位之部分序列資訊聚類化為同一系統,並將聚類化之複數個單一生物單位之部分序列資訊統合而構建最佳之草圖基因組序列。登錄於微生物基因組資料庫之草圖基因組序列於每次測定、登錄新的單一生物單位時被更新,品質逐漸提高。 圖2係本系統中使用之微生物資料庫結構。微生物基因組資料庫係由單一生物單位基因組資訊及將其統合而製成之草圖基因組資訊構建。草圖基因組資訊中記錄有暫定系統分類、完成率(complete rate)、污染率(contamination rate)、品質範疇、片段重疊組(Contig)數、N50統計值、GC含量等隨附於基因組序列之資料。1個草圖基因組資訊對應有複數個拼接(assemble)鹼基序列及基因資訊。基因資訊中記錄有基因名、基因長度、蛋白質家族、GC含量、標記類型、單複製等隨附於基因之資料。1個基因資訊對應有1個基因鹼基序列。單一生物單位基因組資訊亦隨附有與草圖基因組資訊同等之資料。與草圖基因組資訊同樣地,1個單一生物單位基因組資訊對應有複數個拼接鹼基序列、基因資訊,1個基因資訊對應有1個基因鹼基序列。又,1個單一生物單位基因組資訊對應有複數個部分鹼基序列。 圖3係藉由微生物資料庫將新測定出之單一生物單位聚類化為同一系統之方法。利用DNA定序儀測定單一生物單位之基因組DNA,獲得部分鹼基序列。對部分鹼基序列進行拼接,獲得拼接鹼基序列。對拼接鹼基序列進行基因鑑定,獲得基因鹼基序列。使用蛋白質資料庫等對各基因鹼基序列進行功能推定,獲得基因資訊。同時,對拼接鹼基序列進行系統分類,獲得暫定系統分類資訊。又,對拼接鹼基序列之品質進行評估,獲得基因組資訊。將對單一生物單位進行解析而獲得之部分鹼基序列、基因組資訊、拼接鹼基序列、系統分類資訊、基因資訊、基因鹼基序列作為單一生物單位基因組資料。使用系統分類資訊,自微生物基因組資料庫檢索同一系統之草圖基因組資訊。進而,基於與草圖基因組資訊對應之基因資訊,獲得生物系統鑑定用序列及其蛋白質家族。自單一生物單位基因組資料擷取具有與所獲得之蛋白質家族相同之蛋白質家族之基因資訊及基因鹼基序列,以草圖基因組之生物系統鑑定用序列與單一生物單位基因組之對應基因鹼基序列之組合計算相同性。自下述處理排除某一定相同性以下之組合。將生物系統鑑定用序列中相同性最高之基因鑑定為單一生物單位之生物系統鑑定用序列。藉由與相同性匹配之鹼基序列長之加權平均等,對草圖基因組與單一生物單位之類似度進行評估。將評估最高之草圖基因組作為單一生物單位所屬之聚類。萬一存在複數個同一評估值之草圖基因組,則使用所有拼接鹼基序列而非生物系統鑑定用序列進行相同之評估而判定。 圖4係未使用微生物資料庫而將新測定出之單一生物單位聚類化為同一系統之方法。關於不存在與微生物基因組資料庫對應之草圖基因組之單一生物單位基因組資料,藉由暫定系統分類構建暫定之聚類。屬於各暫定聚類之單一生物單位基因組資料藉由使用微生物基因組資料庫之生物系統鑑定用序列判斷是否應該進而分割。分割之方法示於圖6。 圖5係使用登錄於微生物資料庫之基因資訊,新鑑定生物系統鑑定用序列之方法。微生物基因組資料庫中,隨著資料累積,草圖基因組資訊或對應之基因資訊之品質逐漸提高。因此,於本系統中,根據高品質草圖基因組資訊及基因資訊實作新生物系統鑑定用序列之再鑑定方法。自微生物基因組資料庫擷取與登錄之各草圖基因組對應之蛋白質家族並計算其出現頻度,製成出現頻度矩陣。此時,亦可排除品質較差之草圖基因組。於出現頻度矩陣中,針對1個草圖基因組以複數個頻度出現之蛋白質家族因有污染之可能性而排除。僅有1個蛋白質家族對應之情形時,該蛋白質家族鑑定為單複製基因。蛋白質家族之單複製基因於所有草圖基因組內以一定以上之比率存在之情形時,該蛋白質家族所對應之基因為生物系統鑑定用序列候選。按照比率由多至少之順序排序,採用某基準值以上(例如90%以上)或上位之幾件作為新生物系統鑑定用序列。 圖6係將設為同一系統之聚類內之新測定單一生物單位細分化之方法。於新測定出之單一生物單位中判定為同一聚類者中,根據自微生物基因組資料庫擷取之生物系統鑑定用序列,以窮舉進行各單一生物單位之類似度(距離)評估。使用類似度(距離)矩陣進行網路解析或聚類解析,將單一生物單位細分化。 圖7係藉由設為同一系統之聚類內之單一生物單位構建最佳草圖基因組之方法。擷取設為同一系統之新單一生物單位基因組資料,且若存在則自微生物基因組資料庫擷取同一系統之單位基因組資料,設為聚類。聚類內之單一生物單位基因組資料基於特定之判斷基準(例如完成率、污染率)重排。自以後之處理排除未達到某一定水準之單位基因組資料。將已重排之單一生物單位基因組資料按照等級由高至低之順序選擇2個,設為暫定草圖基因組構建用單一生物單位基因組資料組。同樣地構建複數個按照等級由高至低之順序追加有單一生物單位基因組資料之暫定草圖基因組構建用單一生物單位基因組資料組。針對該等暫定草圖基因組構建用單一生物單位基因組資料組,使用ccSAG法構建暫定草圖基因組。基於特定之判斷基準(例如完成率、污染率),將基準最高之暫定草圖基因組選擇為最佳草圖基因組。於基準高於存在於微生物基因組資料庫之已有草圖基因組之情形時,將新製成之草圖基因組登錄、更新於微生物基因組資料庫。又,將構建暫定草圖基因組之單一生物單位基因組資料數作為說明變量,將基準值(例如完成率、污染率)作為目標變量,製成暫定草圖基因組之評估資料。其於草圖基因組之品質得以收斂,即便追加單一生物單位基因組資料亦無法預期進一步之改善等之判斷時發揮作用。 圖8係針對登錄於微生物資料庫之草圖基因組,構建更高品質之草圖基因組之方法。於微生物基因組資料庫內之草圖基因組中,將推定為品質得以收斂之草圖基因組擷取為後處理對象。所擷取之單一生物單位基因組資料基於特定之判斷基準(例如完成率、污染率)重排。自以後之處理排除未達到某一定水準之單一生物單位基因組資料。針對該等擷取之單一生物單位,設定容許度較通常進行之草圖基因組構建高之參數而構建草圖基因組。另一方面,對草圖基因組再構建用之單一生物單位基因組資料之拼接鹼基序列及草圖基因組之拼接鹼基序列進行相同性檢索,檢測用以結合草圖基因組之拼接鹼基序列之橋接拼接鹼基序列。於能夠檢測出橋接拼接鹼基序列之情形時,使用其結合草圖基因組之拼接鹼基序列。對如此構建成之2個草圖基因組資料及已登錄於微生物基因組資料庫之草圖基因組資料進行比較評估,選擇基準值較高者。於選擇新草圖基因組資料之情形時,將其登錄、更新於微生物基因組資料庫。 圖9係用以針對登錄於微生物資料庫之草圖基因組進一步細分化之方法。於微生物基因組資料庫內之草圖基因組中,將推定為品質得以收斂之草圖基因組擷取為細分化對象。所擷取之單一生物單位基因組資料基於特定之判斷基準(例如完成率、污染率)重排。自以後之處理排除未達到某一定水準之單一生物單位基因組資料。針對該等擷取之單一生物單位,實施圖6之細分化處理。針對細分化後之各聚類之單一生物單位基因組資料,分別構建草圖基因組。將由細分化而構建成之草圖基因組資料與已登錄於微生物基因組資料庫之草圖基因組資料進行比較,選擇基準值較高者。於選擇新草圖基因組資料之情形時,將其登錄、更新於微生物基因組資料庫。 圖10係表示獨立進行解析時之系統構成之圖。自DNA鹼基序列輸出之單一生物單位之部分鹼基序列資料經由可攜式HDD(Hard Disk Drive,硬碟驅動器)等外部記憶裝置記錄於解析用電腦之輔助記憶裝置。又,於輔助記憶裝置記錄有用以進行序列處理之程式群、微生物基因組資料庫。程式及部分鹼基序列資料自輔助記憶裝置載入至主記憶裝置,由中央運算處理裝置執行處理。一連串處理係藉由鍵盤、滑鼠等輸入裝置而進行,處理之結果輸出至監視器等輸出裝置及輔助記憶裝置。 圖11係表示雲端解析等經由網際網路進行處理時之系統構成之圖。自DNA鹼基序列輸出之單一生物單位之部分鹼基序列資料可記錄於FTP伺服器等並經由網際網路下載。將部分鹼基序列資料上載於HPC(High-Performance Computing,高效能計算)系統,於HPC系統上進行處理。可經由資料庫伺服器對微生物基因組資料庫進行存取,亦可將資料庫本身下載至HPC系統上使用。該等一連串處理係藉由連接於網際網路之解析用終端而進行。 圖12係表示可藉由在聚類中追加外部資料庫中之序列而構建高品質之基因組序列的圖。 圖13係偏誤均質化處理之模式圖。 圖14係表示偏誤均質化處理前之大腸桿菌SAG定序資料之偏誤評估及獲取基因組序列之圖。 圖15係表示偏誤均質化處理後之大腸桿菌SAG定序資料之偏誤評估及獲取基因組序列之圖。

Claims (40)

  1. 一種發出指令使電腦執行單一(single)生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及獨立於該聚類化而生成之資料庫中的該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。
  2. 如請求項1之方法,其進而包括如下步驟:(B)將上述資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。
  3. 如請求項1或2之方法,其中上述(C)包括:將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。
  4. 一種發出指令使電腦執行生物系統鑑定用序列候選之篩選的方法,接收到該指令之該電腦執行如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算單複製基因之個數或比率;及 C)選擇該單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。
  5. 一種發出指令使電腦執行單一生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。
  6. 如請求項5之發出指令使電腦執行單一生物單位之序列資訊之處理的方法,其中接收到該指令之該電腦執行如下步驟: (F)將上述選擇之草圖、與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如請求項5之步驟。
  7. 一種發出指令使電腦執行單一生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
  8. 如請求項7之方法,其中上述再次聚類化係藉由網路解析及社群檢測而進行。
  9. 一種發出指令使電腦執行單一生物單位之序列資訊之處理的方法,接收到該指令之該電腦執行如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。
  10. 如請求項1至3及5至9中任一項之方法,其中上述部分序列資訊係由長讀定序而決定。
  11. 一種程式,其係於電腦上實作處理單一(single)生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及獨立於該聚類化而生成之資料庫中的該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。
  12. 如請求項11之程式,其進而包括如下步驟:(B)將上述資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。
  13. 如請求項11或12之程式,其中上述(C)包括:將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。
  14. 一種程式,其係於電腦上實作篩選生物系統鑑定用序列候選之方法者,且該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算單複製基因之個數或比率;及 C)選擇該單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。
  15. 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。
  16. 如請求項15之於電腦上實作處理單一生物單位之序列資訊之方法的程式,其中該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要對於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如請求項15之步驟。
  17. 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
  18. 如請求項17之程式,其中上述再次聚類化係藉由網路解析及社群檢測而進行。
  19. 一種程式,其係於電腦上實作處理單一生物單位之序列資訊之方法者,且該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。
  20. 如請求項11至13及15至19中任一項之程式,其中上述部分序列資訊係由長讀定序而決定。
  21. 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一(single)生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)使用該單一生物單位之序列資訊之部分序列資訊、及獨立於該聚類化而生成之資料庫中的該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。
  22. 如請求項21之記錄媒體,其進而包括如下步驟:(B)將上述資料庫中之與上述聚類對應之該單一生物單位之部分序列資訊追加至上述聚類。
  23. 如請求項21或22之記錄媒體,其中上述(C)包括:將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。
  24. 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作篩選生物系統鑑定用序列候選之方法,該方法包括如下步驟: A)自資料庫擷取草圖內不重複之基因; B)針對該基因之每一個,計算單複製基因之個數或比率;及 C)選擇該單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。
  25. 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (D)基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。
  26. 如請求項25之儲存有於電腦上實作處理單一生物單位之序列資訊之方法之程式的記錄媒體,其中該方法包括如下步驟: (F)將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')視需要反覆進行(G),反覆進行至該更長之草圖達到序列資訊之全長為止;及 (G'')視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,反覆進行如請求項25之步驟。
  27. 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
  28. 如請求項27之記錄媒體,其中上述再次聚類化係藉由網路解析及社群檢測而進行。
  29. 一種記錄媒體,其係儲存有程式者,該程式於電腦上實作處理單一生物單位之序列資訊之方法,該方法包括如下步驟: (A)針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖; (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。
  30. 如請求項21至23及25至29中任一項之記錄媒體,其中上述部分序列資訊係由長讀定序而決定。
  31. 一種系統,其係用以處理單一(single)生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化;及 (C)草圖製成部,其使用該單一生物單位之序列資訊之部分序列資訊、及獨立於由該(A)之聚類部進行之聚類化而生成的資料庫中之該單一生物單位之序列資訊,製成該單一生物單位之序列資訊草圖。
  32. 如請求項31之系統,其進而包括:(B)追加資訊追加部,其將上述資料庫中之與該聚類對應之該單一生物單位之部分序列資訊追加至該聚類。
  33. 如請求項31或32之系統,其中上述(C)包括均質化處理部,該均質化處理部係將包含確認到多個重複之序列部位之部分序列資訊去除一定量,進行定序讀段之偏差之修正。
  34. 一種系統,其係用以篩選生物系統鑑定用序列候選者,且該系統包括: A)擷取部,其自資料庫擷取草圖內不重複之基因; B)計算部,其針對上述基因之每一個,計算單複製基因之個數或比率;及 C)選擇部,其選擇上述單複製基因之個數或比率為特定值以上之基因作為生物系統鑑定用序列候選。
  35. 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (D)排序部,其基於特定之判斷基準,將複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖;及 (E')選擇部,其選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,選擇至此所生成之草圖。
  36. 如請求項35之用以處理單一生物單位之序列資訊的系統,該系統包括: (F)選擇部,其將上述選擇之草圖與上述(E)及(E')中未選擇之單一生物單位之序列資訊之部分序列資訊進行比較,選擇具有未含在該草圖中之部分之序列的單一生物單位之序列資訊之部分序列資訊; (G)草圖改善部,其使用(F)中選擇之序列資訊及該選擇之草圖,生成更長之草圖; (G')草圖構建部,其視需要使(G)反覆進行草圖生成,直至該更長之草圖達到序列資訊之全長為止;及 (G'')如下機構:其視需要於構成該草圖之部分序列資訊整體,基於更低基準之判斷基準,使如請求項35之(D)、(E)及(E')反覆進行排序、草圖構建及選擇。
  37. 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (H)再次聚類部,其於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')比較部,其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (I)登錄部,其針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則作為新群組登錄於資料庫。
  38. 如請求項37之系統,其中上述再次聚類部係藉由網路解析及社群檢測而進行再次聚類化。
  39. 一種系統,其係用以處理單一生物單位之序列資訊者,且該系統包括: (A)聚類部,其針對複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列,按同一系統進行聚類化; (D)排序部,其基於特定之判斷基準,將屬於該同一系統聚類之複數個單一生物單位之序列資訊之部分序列資訊按照品質由高至低排序; (E)草圖構建部,其基於該排序,由高至低地選擇該複數個單一生物單位之序列資訊之部分序列資訊中特定數量之集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,並且 (E'')選擇與該集合不同數量之單一生物單位之序列資訊之部分序列資訊之組的集合,由該部分序列資訊構建長度大於該部分序列資訊之草圖,基於特定之判斷基準,對至此所生成之草圖進行評估; (H)再次聚類部,其於草圖之評估未因序列資訊之組之集合數量增大而變動之情形時,於該同一系統聚類內,針對構成單一生物單位之序列資訊之該複數個單一生物單位之序列資訊之部分序列資訊,基於生物系統鑑定用序列進行評估,於同一系統聚類內進行再次聚類化; (H')比較部,其將由該同一系統聚類製成之序列資訊草圖、與由該再次聚類化所得之聚類製成之序列資訊草圖進行比較;及 (J)如下機構:其針對比較結果,基於特定之判斷基準判斷(H)中之再次聚類化是否適當,如為適當,則針對屬於該再次聚類化所得之聚類之複數個單一生物單位之序列資訊之部分序列資訊,反覆進行(D)~(E')。
  40. 如請求項31至33及35至39中任一項之系統,其中上述部分序列資訊係由長讀定序而決定。
TW109113783A 2019-04-26 2020-04-24 單一生物單位之序列資訊之新穎處理法 TW202107475A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-085839 2019-04-26
JP2019085839 2019-04-26

Publications (1)

Publication Number Publication Date
TW202107475A true TW202107475A (zh) 2021-02-16

Family

ID=72942213

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109113783A TW202107475A (zh) 2019-04-26 2020-04-24 單一生物單位之序列資訊之新穎處理法

Country Status (6)

Country Link
US (1) US20220270710A1 (zh)
EP (1) EP3961638A4 (zh)
JP (1) JP7555122B2 (zh)
CN (1) CN114245922A (zh)
TW (1) TW202107475A (zh)
WO (1) WO2020218555A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863606B (zh) * 2021-03-08 2022-07-26 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法
WO2023204008A1 (ja) * 2022-04-21 2023-10-26 株式会社島津製作所 微生物判別用のデータベースを構築する方法および装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530842B2 (ja) * 2001-11-19 2004-05-24 株式会社日立製作所 核酸塩基配列アセンブル装置及びその動作方法
JP2005176730A (ja) * 2003-12-19 2005-07-07 Hitachi Ltd cDNA配列をゲノム配列にマッピングする方法
WO2018209145A1 (en) * 2017-05-10 2018-11-15 The Broad Institute, Inc. Methods and compositions for determination of mutations in single replication events
JP7028611B2 (ja) 2017-11-10 2022-03-02 東日本旅客鉄道株式会社 可変パッド

Also Published As

Publication number Publication date
US20220270710A1 (en) 2022-08-25
EP3961638A4 (en) 2023-05-17
CN114245922A (zh) 2022-03-25
JP7555122B2 (ja) 2024-09-25
EP3961638A1 (en) 2022-03-02
JPWO2020218555A1 (zh) 2020-10-29
WO2020218555A1 (ja) 2020-10-29

Similar Documents

Publication Publication Date Title
De Coster et al. Towards population-scale long-read sequencing
Saary et al. Estimating the quality of eukaryotic genomes recovered from metagenomic analysis with EukCC
Keegan et al. MG-RAST, a metagenomics service for analysis of microbial community structure and function
Mysara et al. From reads to operational taxonomic units: an ensemble processing pipeline for MiSeq amplicon sequencing data
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
Saheb Kashaf et al. Recovering prokaryotic genomes from host-associated, short-read shotgun metagenomic sequencing data
Yang et al. Tcrklass: a new k-string–based algorithm for human and mouse tcr repertoire characterization
Ames et al. Using populations of human and microbial genomes for organism detection in metagenomes
Chivian et al. Metagenome-assembled genome extraction and analysis from microbiomes using KBase
TW202107475A (zh) 單一生物單位之序列資訊之新穎處理法
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
Xia et al. Bioinformatic analysis of microbiome data
Pinto et al. Sequencing-based analysis of microbiomes
JP6744642B1 (ja) 単一生物単位の配列情報の新規処理法
TWI582631B (zh) 用以分析細菌菌種之定序資料的系統及其方法
CN114822697A (zh) 一种利用宏基因组分析溯源土壤耐药基因污染的方法
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法
JP6744648B1 (ja) 単一生物単位の配列情報の新規処理法
Arikawa et al. Uncultured prokaryotic genomes in the spotlight: An examination of publicly available data from metagenomics and single-cell genomics
Sloan et al. Disentangling associated genomes
Fu et al. VIGA: a one-stop tool for eukaryotic virus identification and genome assembly from next-generation-sequencing data
CN116825182B (zh) 一种基于基因组ORFs筛选细菌耐药特征的方法及应用
Sánchez-Reyes et al. Metagenomics-Based Phylogeny and Phylogenomic
Kim et al. Human reference gut microbiome comprising 5,414 prokaryotic species, including newly assembled genomes from under-represented Asian metagenomes
Abram Unifying Traditional Microbiology and Sequence-Based Bacterial Taxonomies