WO2020218555A1 - 単一生物単位の配列情報の新規処理法 - Google Patents

単一生物単位の配列情報の新規処理法 Download PDF

Info

Publication number
WO2020218555A1
WO2020218555A1 PCT/JP2020/017795 JP2020017795W WO2020218555A1 WO 2020218555 A1 WO2020218555 A1 WO 2020218555A1 JP 2020017795 W JP2020017795 W JP 2020017795W WO 2020218555 A1 WO2020218555 A1 WO 2020218555A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence information
draft
sequence
single biological
information
Prior art date
Application number
PCT/JP2020/017795
Other languages
English (en)
French (fr)
Inventor
浩司 有川
正人 細川
春子 竹山
小川 雅人
圭吾 井手
Original Assignee
bitBiome株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by bitBiome株式会社 filed Critical bitBiome株式会社
Priority to US17/605,954 priority Critical patent/US20220270710A1/en
Priority to EP20795717.6A priority patent/EP3961638A4/en
Priority to CN202080046760.XA priority patent/CN114245922A/zh
Priority to JP2021516287A priority patent/JPWO2020218555A1/ja
Publication of WO2020218555A1 publication Critical patent/WO2020218555A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Definitions

  • the present disclosure provides new processing methods, systems and related technologies for sequence information of a single biological unit. More specifically, it provides a system for automatically constructing and providing microbial genome data.
  • Examples of embodiments of the present disclosure include: (Item 1) A method of processing sequence information for a single biological unit, the method of which is: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain.
  • a method of processing sequence information for a single biological unit the method of which is: A) Steps to extract genes that are unique in the draft from the database, B) Steps to calculate the number or proportion of drafts corresponding to each gene, C) A method including a step of selecting a gene in which the number or ratio of the corresponding drafts is equal to or greater than a predetermined value as a sequence candidate for biological line identification.
  • a method of processing sequence information for a single biological unit the method of which is: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain.
  • the partial sequence information corresponding to the cluster in the database is compared with the partial sequence information of the cluster, the similarity for each partial sequence is calculated, and the partial sequence having a predetermined similarity or higher is identified as a biological lineage.
  • a method that includes steps to identify as a sequence. (Item 4) A method of processing sequence information in a single biological unit, the method of which is: (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion.
  • a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • a method including a step of selecting a draft generated so far based on a predetermined criterion.
  • (Item 5) The method for processing the sequence information of a single biological unit according to item 4, wherein the method is: (F) The selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • (G'') A method comprising, if necessary, a step of repeating the step according to item 4 based on a lower criterion criterion in the entire partial sequence information constituting the draft.
  • (Item 6) A method of processing sequence information in a single biological unit, the method of which is: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain. (H) Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster.
  • a method of processing sequence information in a single biological unit the method of which is: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain.
  • (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E'') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • Steps to evaluate the drafts generated so far based on predetermined criteria and (H) Sequence information of a plurality of single organisms constituting the sequence information of a single organism within the same lineage cluster when the draft evaluation does not fluctuate due to an increase in the number of sets of sequence information sets.
  • the partial sequence information of was evaluated based on the sequence for biological lineage identification, and the step of reclustering within the same lineage cluster (H'), the sequence information draft created from the same lineage cluster, and the reclustering were performed.
  • Steps to compare with the sequence information draft created from the cluster (J) Whether or not the reclustering in (H) is appropriate is judged based on a predetermined criterion for the comparison result, and if it is appropriate, a plurality of single biological units belonging to the reclustered cluster.
  • a method including a step of repeating (D) to (E') for the partial sequence information of the sequence information of. (Item 9)
  • (Item 11) A program that implements on a computer a method of processing sequence information for a single biological unit, the method of which is: A) Steps to extract genes that are unique in the draft from the database, B) Steps to calculate the number or proportion of drafts corresponding to each gene, C) A program including a step of selecting a gene whose number or ratio of the corresponding drafts is equal to or greater than a predetermined value as a sequence candidate for biological line identification.
  • (Item 11A) A program that implements on a computer a method of processing sequence information for a single biological unit, the method of which is: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain.
  • the partial sequence information corresponding to the cluster in the database is compared with the partial sequence information of the cluster, the similarity for each partial sequence is calculated, and the partial sequence having a predetermined similarity or higher is identified as a biological lineage.
  • a program that includes steps to identify as a sequence. (Item 12) A program that implements a method for processing sequence information in a single biological unit on a computer.
  • the selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • G'' A program including, if necessary, a step of repeating the step according to item 12 based on a lower criterion criterion in the entire partial sequence information constituting the draft.
  • (Item 14) A program that implements a method for processing sequence information in a single biological unit on a computer.
  • H Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster.
  • a step of reclustering within and (H') a step of comparing the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster.
  • (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E'') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • Steps to evaluate the drafts generated so far based on predetermined criteria (H) Sequence information of a plurality of single organisms constituting the sequence information of a single organism within the same lineage cluster when the draft evaluation does not fluctuate due to an increase in the number of sets of sequence information sets.
  • the partial sequence information of was evaluated based on the sequence for biological lineage identification, and the step of reclustering within the same lineage cluster (H'), the sequence information draft created from the same lineage cluster, and the reclustering were performed.
  • Steps to compare with the sequence information draft created from the cluster (J) Whether or not the reclustering in (H) is appropriate is judged based on a predetermined criterion for the comparison result, and if it is appropriate, a plurality of single biological units belonging to the reclustered cluster.
  • a program including a step of repeating (D) to (E') for the partial sequence information of the sequence information of.
  • (Item 17) A recording medium containing a program that implements a method for processing sequence information of a single biological unit on a computer.
  • the partial sequence information corresponding to the cluster in the database is compared with the partial sequence information of the cluster, the similarity for each partial sequence is calculated, and the partial sequence having a predetermined similarity or higher is identified as a biological lineage.
  • a recording medium that includes steps to identify as a sequence.
  • D A step of ranking the partial sequence information of the sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion.
  • a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • a recording medium including a step of selecting a draft generated so far based on a predetermined criterion.
  • (Item 21) A recording medium containing a program that implements a method for processing the sequence information of a single biological unit according to item 20 on a computer.
  • (F) The selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • a recording medium including, if necessary, a step of repeating the step according to item 20 based on a judgment criterion of a lower standard in the entire partial sequence information constituting the draft.
  • Items 22 A recording medium containing a program that implements a method for processing sequence information of a single biological unit on a computer.
  • H Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster.
  • D A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • E Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E'') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information. , Steps to evaluate the drafts generated so far based on predetermined criteria , (H) Sequence information of a plurality of single organisms constituting the sequence information of a single organism within the same lineage cluster when the draft evaluation does not fluctuate due to an increase in the number of sets of sequence information sets.
  • the partial sequence information of was evaluated based on the sequence for biological lineage identification, and the step of reclustering within the same lineage cluster (H'), the sequence information draft created from the same lineage cluster, and the reclustering were performed. Steps to compare with the sequence information draft created from the cluster, (J) Whether or not the reclustering in (H) is appropriate is judged based on a predetermined criterion for the comparison result, and if it is appropriate, a plurality of single biological units belonging to the reclustered cluster.
  • a recording medium including a step of repeating (D) to (E') for the partial sequence information of the sequence information of.
  • a system for processing sequence information for a single biological unit which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line. (B) An additional information addition unit that adds the partial sequence information of the single biological unit corresponding to the cluster in the database to the cluster, if necessary. (C) Includes a draft creation unit that creates a sequence information draft of the single biological unit using the partial sequence information of the sequence information of the single biological unit and the sequence information of the single biological unit in the database. system. (Item 26) (B) The system according to item 25, which further includes a database utilization unit that uses a database when the additional information addition unit is included.
  • (Item 27) A system for processing sequence information for a single biological unit, which is: A) An extractor that extracts genes that are not duplicated in the draft from the database, B) A calculation unit that calculates the number or ratio of drafts corresponding to each gene, C) A system including a selection unit that selects a gene in which the number or ratio of the corresponding drafts is equal to or greater than a predetermined value as a sequence candidate for biological line identification.
  • (Item 27A) A system for processing sequence information for a single biological unit, which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line.
  • (B) The partial sequence information corresponding to the cluster in the database is compared with the partial sequence information of the cluster, the similarity for each partial sequence is calculated, and the partial sequence having a predetermined similarity or higher is identified as a biological lineage.
  • (Item 28) A system for processing sequence information in a single biological unit, which is: (D) A ranking unit that ranks partial sequence information of sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion.
  • a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Draft building department that builds drafts longer than information
  • (E') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • a system including a selection unit that selects drafts generated up to that point based on predetermined judgment criteria.
  • a selection unit that selects partial sequence information of the sequence information of a single biological unit that has (G) A draft improvement unit that generates a longer draft by using the sequence information selected in (F) and the selected draft. (G') If necessary, (G), a draft construction unit that repeats draft generation until the longer draft reaches the full length of the sequence information.
  • a system for processing sequence information in a single biological unit which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line. (H) Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster.
  • a system for processing sequence information in a single biological unit which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line. (D) A ranking unit that ranks the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion. (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • the partial sequence information of is evaluated based on the sequence for biological lineage identification, and the reclustering part is reclustered within the same lineage cluster, (H') the sequence information draft created from the same lineage cluster, and the reclustering.
  • a comparison part that compares the sequence information draft created from the cluster (J) Whether or not the reclustering in (H) is appropriate is judged based on a predetermined criterion for the comparison result, and if it is appropriate, a plurality of single biological units belonging to the reclustered cluster.
  • a system including means for repeating (D) to (E') with respect to the partial sequence information of the sequence information of.
  • (Item A1) A method of issuing a command to a computer to process sequence information of a single biological unit, the computer receiving the command: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain. (C) The sequence information of the single biological unit using the partial sequence information of the sequence information of the single biological unit and the sequence information of the single biological unit in the database generated independently of the clustering. How to perform with the steps to create a draft. (Item A2) (B) The method of the item, further comprising adding to the cluster the partial sequence information of the single biological unit corresponding to the cluster in the database.
  • (Item A3) The method according to any one of the above items, wherein the method (C) includes removing a certain amount of partial sequence information including a sequence site in which a large number of duplicates are found, and correcting the bias of the sequence read.
  • (Item A4) A method of issuing a command to a computer to screen a sequence candidate for biological line identification, and the computer receiving the command: A) Steps to extract genes that are unique in the draft from the database, B) Steps to calculate the number or proportion of single copy genes for each gene, C) A method of performing a step of selecting a gene in which the number or ratio of the single copy genes is equal to or greater than a predetermined value as a sequence candidate for biological line identification.
  • (Item A5) A method of issuing a command to a computer to process sequence information of a single biological unit, and the computer receiving the command: (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion. (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information. A method of performing a step of selecting drafts generated so far based on predetermined criteria. (Item A6) A method of issuing a command to cause a computer to process the sequence information of a single biological unit according to any one of the above items, and the computer receiving the command is (F) The selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • the step of selecting the partial sequence information of the sequence information of a single biological unit to have (G) A step of generating a longer draft using the sequence information selected in (F) and the selected draft, and (G') A step of repeating (G) as needed until the longer draft reaches the full length of the sequence information.
  • G'' A method of executing, if necessary, a step of repeating the step according to item 5 based on a judgment criterion of a lower standard in the entire partial sequence information constituting the draft.
  • (Item A7) A method of issuing a command to a computer to process sequence information of a single biological unit, and the computer receiving the command: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain. (H) Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster. A step of reclustering within and (H') a step of comparing the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster.
  • (I) A method of determining whether the re-clustering in (H) is appropriate based on a predetermined criterion for the comparison result, and if it is appropriate, performing a step of registering it in the database as a new group.
  • (Item A8) The method according to any one of the above items, wherein the reclustering is performed by network analysis and community detection.
  • (Item A9) A method of issuing a command to a computer to process sequence information of a single biological unit, and the computer receiving the command: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain.
  • (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E'') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • Steps to evaluate the drafts generated so far based on predetermined criteria and (H) Sequence information of a plurality of single organisms constituting the sequence information of a single organism within the same lineage cluster when the evaluation of the draft does not fluctuate due to an increase in the number of sets of sequence information. Partial sequence information of is evaluated based on the sequence for biological lineage identification, and the step of reclustering within the same lineage cluster, (H') A step of comparing the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster.
  • (Item A11) A program that implements on a computer a method of processing sequence information for a single biological unit, the method of which is: (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain. (C) The sequence information of the single biological unit using the partial sequence information of the sequence information of the single biological unit and the sequence information of the single biological unit in the database generated independently of the clustering. A program that includes steps to create a draft. (Item A12) (B) The program according to the item, further comprising the step of adding the partial sequence information of the single biological unit corresponding to the cluster in the database to the cluster.
  • (Item A13) The program according to any one of the above items, wherein the program (C) includes removing a certain amount of partial sequence information including a sequence site in which a large number of duplicates are found, and correcting the bias of the sequence read.
  • (Item A14) A program that implements a method for screening sequence candidates for biological line identification on a computer. A) Steps to extract genes that are unique in the draft from the database, B) Steps to calculate the number or proportion of single copy genes for each gene, C) A program including a step of selecting a gene in which the number or ratio of the single copy genes is equal to or greater than a predetermined value as a sequence candidate for biological line identification.
  • (Item A15) A program that implements a method for processing sequence information in a single biological unit on a computer.
  • D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion.
  • E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information. A program that includes steps to select drafts generated so far based on predetermined criteria. (Item A16) A program that implements a method for processing the sequence information of a single biological unit according to any one of the above items on a computer. (F) The selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • the step of selecting the partial sequence information of the sequence information of a single biological unit to have (G) A step of generating a longer draft using the sequence information selected in (F) and the selected draft, and (G') A step of repeating (G) as needed until the longer draft reaches the full length of the sequence information.
  • (Item A17) A program that implements a method for processing sequence information in a single biological unit on a computer.
  • H Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster.
  • a step of reclustering within and (H') a step of comparing the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster.
  • (I) A program including a step of determining whether the re-clustering in (H) is appropriate based on a predetermined criterion for the comparison result, and if it is appropriate, registering it in the database as a new group.
  • (Item A18) The program according to any one of the above items, wherein the reclustering is performed by network analysis and community detection.
  • (Item A19) A program that implements a method for processing sequence information in a single biological unit on a computer.
  • (A) A step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same strain based on the sequence for identifying the biological strain.
  • (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E'') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • Steps to evaluate the drafts generated so far based on predetermined criteria (H) Sequence information of a plurality of single organisms constituting the sequence information of a single organism within the same lineage cluster when the draft evaluation does not fluctuate due to an increase in the number of sets of sequence information sets.
  • the partial sequence information of was evaluated based on the sequence for biological lineage identification, and the step of reclustering within the same lineage cluster (H'), the sequence information draft created from the same lineage cluster, and the reclustering were performed.
  • C The sequence information of the single biological unit using the partial sequence information of the sequence information of the single biological unit and the sequence information of the single biological unit in the database generated independently of the clustering.
  • a recording medium that includes steps to create a draft. (Item A22)
  • B The recording medium according to the item, further comprising the step of adding the partial sequence information of the single biological unit corresponding to the cluster in the database to the cluster.
  • (Item A23) The recording medium according to any one of the above items, wherein the (C) removes a certain amount of partial sequence information including a sequence site in which a large number of duplicates are found, and corrects the bias of the sequence read. .. (Item A24)
  • a recording medium containing a program that implements a method for processing sequence information of a single biological unit on a computer (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion. (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • a recording medium including a step of selecting a draft generated so far based on a predetermined criterion.
  • Items A26 A recording medium containing a program that implements a method for processing sequence information of a single biological unit according to any one of the above items on a computer.
  • the selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • the step of selecting the partial sequence information of the sequence information of a single biological unit to have (G) A step of generating a longer draft using the sequence information selected in (F) and the selected draft, and (G') A step of repeating (G) as needed until the longer draft reaches the full length of the sequence information.
  • (Item A27) A recording medium containing a program that implements a method for processing sequence information of a single biological unit on a computer.
  • H Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster.
  • a step of reclustering within and (H') a step of comparing the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster.
  • a recording medium including a step of determining whether or not the re-clustering in (H) is appropriate based on a predetermined criterion for the comparison result, and if it is appropriate, registering it in the database as a new group.
  • (D) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Steps to build a draft larger than the information (E'') A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • Steps to evaluate the drafts generated so far based on predetermined criteria and (H) Sequence information of a plurality of single organisms constituting the sequence information of a single organism within the same lineage cluster when the draft evaluation does not fluctuate due to an increase in the number of sets of sequence information sets.
  • the partial sequence information of was evaluated based on the sequence for biological lineage identification, and the step of reclustering within the same lineage cluster (H'), the sequence information draft created from the same lineage cluster, and the reclustering were performed.
  • (Item A31) A system for processing sequence information for a single biological unit, which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line. (C) Using the partial sequence information of the sequence information of the single biological unit and the sequence information of the single biological unit in the database generated independently of the clustering by the clustering unit of (A), the said.
  • a system that includes a drafting unit that creates a sequence information draft for a single biological unit.
  • (B) The system according to the item, further comprising an additional information addition section that adds subsequence information of the single biological unit corresponding to the cluster in the database to the cluster.
  • the item (C) is described in any one of the above items, which includes a homogenization processing unit that removes a certain amount of partial sequence information including a sequence site in which a large number of duplicates are found and corrects the bias of the sequence read.
  • System. (Item A34) A system for screening sequence candidates for biological line identification, the system is: A) An extractor that extracts genes that are not duplicated in the draft from the database, B) A calculation unit that calculates the number or ratio of single copy genes for each gene, C) A system including a selection unit that selects a gene in which the number or ratio of the single copy genes is equal to or greater than a predetermined value as a sequence candidate for biological line identification.
  • (Item A35) A system for processing sequence information in a single biological unit, which is: (D) A ranking unit that ranks partial sequence information of sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion. (E) Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information.
  • Draft building department that builds drafts longer than information
  • E' A set of sub-sequence information sets of sequence information of a single biological unit different from the set is selected, and a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information.
  • a system including a selection unit that selects drafts generated up to that point based on predetermined judgment criteria.
  • Items A36 A system for processing the sequence information of a single biological unit according to any one of the above items.
  • F The selected draft is compared with the partial sequence information of the sequence information of the single biological unit not selected in (E) and (E'), and the sequence of the portion not included in the draft is obtained.
  • a selection unit that selects partial sequence information of the sequence information of a single biological unit that has (G) A draft improvement unit that generates a longer draft by using the sequence information selected in (F) and the selected draft. (G') If necessary, (G), a draft construction unit that repeats draft generation until the longer draft reaches the full length of the sequence information. (G'') If necessary, in the entire partial sequence information constituting the draft, the rankings (D), (E) and (E') described in item 35 are based on the judgment criteria of the lower criteria.
  • a system that includes means to repeat attachment, draft construction and selection.
  • a system for processing sequence information in a single biological unit which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line. (H) Within the same lineage cluster, the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for identifying the biological lineage, and the same lineage cluster. A re-clustering unit that reclusters within (H'), a comparison unit that compares the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster, and a comparison unit.
  • (I) A system including a registration unit that determines whether or not re-clustering in (H) is appropriate based on predetermined criteria for comparison results, and if it is appropriate, registers it in the database as a new group.
  • (Item A38) The system according to any one of the above items, wherein the reclustering unit reclusters by network analysis and community detection.
  • (Item A39) A system for processing sequence information in a single biological unit, which is: (A) A clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same line based on the sequence for identifying the biological line.
  • a ranking unit that ranks the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality based on a predetermined criterion.
  • E Based on the ranking, a predetermined number of sets are selected from the sub-sequence information of the sequence information of the plurality of single biological units from the high-ranked ones, and the sub-sequence is selected from the sub-sequence information. Build a draft larger than the information,
  • E'' Select a set of sub-sequence information sets of sequence information of a single biological unit different from the set, and construct a draft larger than the sub-sequence information from the sub-sequence information.
  • a comparison part that compares the sequence information draft created from the cluster (J) Whether or not the reclustering in (H) is appropriate is judged based on a predetermined criterion for the comparison result, and if it is appropriate, a plurality of single biological units belonging to the reclustered cluster.
  • Item B1 A data structure in which sub-sequence information of sequence information of a plurality of single biological units is clustered and contained for each same strain based on a sequence for identifying a biological line.
  • (Item B2) The data structure according to any one of the above items, wherein the partial sequence information included in the data structure is derived from a database generated by two or more independent clusters.
  • (Item B3) The data structure according to any one of the above items, wherein the information related to the independently performed clustering is stored in association with the partial sequence information.
  • (Item B4) The data structure according to any one of the above items, which constitutes genomic information when the partial sequence information is combined.
  • (Item B5) The data structure according to any one of the above items, wherein the partial sequence information is collected for each single biological unit.
  • (Item B6) The data structure according to any one of the above items, wherein the partial sequence information is stored in association with identification information (ID information) of a single biological unit from which the partial sequence information is derived.
  • ID information identification information
  • (Item B7) A single biological unit data structure in which multiple data structures are integrated, in which partial sequence information of the sequence information of a plurality of single biological units is included in a cluster for each same strain based on a sequence for identifying a biological lineage.
  • (Item B8) The data structure according to item B7, further comprising one or more features described in any one or more of the above items.
  • FIG. 1 is an overall schematic view of the present disclosure.
  • the newly obtained partial sequence information of a single biological unit is clustered into the same lineage using the sequence for identifying the biological lineage registered in this system, and the clustered parts of a plurality of single biological units are used. It integrates sequence information to construct an optimal draft genome sequence.
  • the draft genome sequence registered in the microbial genome database is updated every time a new single biological unit is measured and registered, and the quality is gradually improved.
  • FIG. 2 shows the microbial database structure used in this system.
  • the microbial genome database is constructed from single biological unit genome information and draft genome information created by integrating it.
  • the draft genome information data associated with the genome sequence such as provisional phylogenetic classification, complete rate, contamination rate, quality category, number of contigs, N50 statistical value, GC content, etc. are recorded.
  • a plurality of assemble base sequences and gene information are associated with one draft genome information.
  • the gene information data associated with the gene such as gene name, gene length, protein family, GC content, marker type, and single copy are recorded.
  • One gene base sequence is associated with one gene information.
  • the single biological unit genome information is accompanied by the same data as the draft genome information. Similar to the draft genome information, one single biological unit genome information is associated with a plurality of assemble base sequences and gene information, and one gene information is associated with one gene base sequence.
  • FIG. 3 shows a method of clustering a single biological unit newly measured by a microbial database into the same strain.
  • Genomic DNA of a single biological unit is measured with a DNA sequencer to obtain a partial base sequence.
  • Assemble the partial base sequence and obtain the assemble base sequence.
  • Gene identification is performed on the assemble base sequence, and the gene base sequence is obtained.
  • Function estimation is performed for each gene base sequence using a protein database or the like, and gene information is acquired.
  • phylogenetic classification is performed on the assemble base sequence, and provisional phylogenetic classification information is acquired.
  • the quality of the assemble base sequence is evaluated and genomic information is acquired.
  • the partial base sequence, genomic information, assemble base sequence, phylogenetic classification information, gene information, and gene base sequence obtained by analyzing a single biological unit are used as single biological unit genomic data.
  • Draft genome information of the same strain is searched from the microbial genome database using phylogenetic information.
  • the sequence for biological line identification and its protein family are acquired.
  • Gene information and gene base sequences having the same protein family as the acquired protein family are extracted from the single biological unit genome data, and homologous with the combination of the draft genome biological lineage identification sequence and the corresponding gene base sequence of the single biological unit genome. Calculate sex. Combinations with a certain homology or less are excluded from the processing described later.
  • the gene with the highest homology in the biological lineage identification sequence is identified as the biological lineage identification sequence of a single biological unit.
  • the similarity between the draft genome and a single biological unit is evaluated by a weighted average of the base sequence lengths that match the homology.
  • the draft genome with the highest evaluation is the cluster to which a single biological unit belongs. In the unlikely event that there are multiple draft genomes with the same evaluation value, the same evaluation is performed using the entire assemble base sequence instead of the sequence for biological line identification.
  • FIG. 4 shows a method of clustering newly measured single biological units into the same lineage without using a microbial database. For single biological unit genome data for which there was no draft genome corresponding to the microbial genome database, a provisional cluster is constructed by provisional phylogenetic classification.
  • the single biological unit genome data belonging to each provisional cluster is determined whether or not it should be further divided by using the sequence for identifying the biological lineage of the microbial genome database.
  • the method of division is shown in FIG. FIG. 5 shows a method for newly identifying a sequence for biological line identification using genetic information registered in a microbial database.
  • the quality of draft genome information and corresponding genetic information gradually improves as data is accumulated. Therefore, in this system, we will implement a new method for re-identifying sequences for biological lineage identification from high-quality draft genomic information and genetic information.
  • the corresponding protein family is extracted from the microbial genome database for each draft genome, the frequency of occurrence is calculated, and the frequency of occurrence matrix is created.
  • the poor quality draft genome may be excluded.
  • protein families that appear at multiple frequencies for one draft genome are excluded because they may be contaminated. If only one protein family is associated, that protein family is identified as a single copy gene.
  • the gene corresponding to the protein family is a sequence candidate for biological line identification. Sort in descending order of proportion, and adopt a certain reference value or more (for example, 90% or more) or the top several sequences as a new strain identification sequence.
  • FIG. 6 shows a method of subdividing a newly measured single biological unit in a cluster of the same strain.
  • FIG. 7 shows a method for constructing an optimal draft genome from a single biological unit in a cluster of the same strain.
  • the unit genome data of the same strain is extracted from the novel single biological unit genome data of the same strain and the unit genome data of the same strain from the microbial genome database if it exists, and formed into a cluster.
  • Single-biological unit genomic data within a cluster is sorted based on predetermined criteria (eg, complete rate, contamination rate).
  • Unit-genome data that do not reach a certain level are excluded from subsequent processing.
  • Two sorted single-biological unit genome data are selected in descending order of rank to be used as a single-biological unit genome data set for provisional draft genome construction.
  • a plurality of single biological unit genome data sets for provisional draft genome construction are constructed by sequentially adding single biological unit genome data from the highest rank.
  • a provisional draft genome is constructed using the ccSAG method for these single biological unit genome datasets for construction of the provisional draft genome.
  • the provisional draft genome with the highest standard is selected as the optimum draft genome based on predetermined criteria (for example, complete rate, contamination rate).
  • the newly created draft genome is registered and updated in the microbial genome database.
  • the evaluation data of the provisional draft genome is created by using the number of single biological unit genome data for which the provisional draft genome is constructed as an explanatory variable and the reference value (for example, complete rate, contamination rate) as the objective variable. This is useful when making a judgment that the quality of the draft genome has converged and no further improvement can be expected by adding single biological unit genome data.
  • FIG. 8 shows a method for constructing a higher quality draft genome with respect to the draft genome registered in the microbial database. In the draft genome in the microbial genome database, the draft genome whose quality is presumed to have converged is extracted as a finishing target.
  • the extracted single biological unit genomic data is sorted based on a predetermined criterion (for example, complete rate, contamination rate). Single-biological unit genomic data that do not reach a certain level are excluded from further processing.
  • a draft genome is constructed by setting parameters with higher tolerance than the usual draft genome construction.
  • the assemble base sequence of the single biological unit genome data for draft genome reconstruction and the assemble base sequence of the draft genome are searched for homology, and the bridge assemble base sequence for binding the assemble base sequence of the draft genome is detected. .. If the bridge assemble base sequence can be detected, it is used to bind the assemble base sequence of the draft genome.
  • FIG. 9 shows a method for further subdividing the draft genome registered in the microbial database.
  • the draft genome in the microbial genome database the draft genome whose quality is presumed to have converged is extracted as a subdivision target.
  • the extracted single biological unit genomic data is sorted based on a predetermined criterion (for example, complete rate, contamination rate). Single-biological unit genomic data that do not reach a certain level are excluded from further processing.
  • the subdivision treatment of FIG. 6 is carried out on these extracted single biological units.
  • FIG. 10 is a diagram showing a system configuration when performing a stand-alone analysis.
  • the partial base sequence data of a single biological unit output from the DNA base sequence is recorded in the auxiliary storage device of the analysis computer via an external storage device such as a portable HDD.
  • a group of programs for performing sequence processing and a microbial genome database are recorded in the auxiliary storage device.
  • FIG. 11 is a diagram showing a system configuration when processing is performed via the Internet, such as cloud analysis.
  • the partial base sequence data of a single biological unit output from the DNA base sequence is recorded in an FTP server or the like and can be downloaded via the Internet.
  • the partial base sequence data is uploaded to the HPC (High-Performance Computer) system and processed on the HPC system.
  • the microbial genome database may be accessed via a database server, or the database itself may be downloaded and used on an HPC system.
  • FIG. 12 is a diagram showing that a high quality genomic sequence can be constructed by adding a sequence in an external database to a cluster.
  • FIG. 13 is a schematic view of the bias homogenization process.
  • FIG. 14 is a diagram showing bias evaluation and acquisition genomic sequence of Escherichia coli SAG sequence data before bias homogenization treatment.
  • FIG. 15 is a diagram showing bias evaluation and acquired genomic sequence of Escherichia coli SAG sequence data after bias homogenization treatment.
  • single biological unit refers to a unit having genetic information or other biomolecular information.
  • a single biological unit can include cells, cell-like structures, etc., but is not limited to these, including artificially produced cells (so-called artificial cells) and digital cells (provided as information). Can include.
  • cell refers to a particle that contains a molecule that carries the genetic information and is any particle that can be replicated (whether or not it is possible alone).
  • the term “cell” as used herein includes cells of unicellular organisms, bacteria, cells derived from multicellular organisms, fungi and the like.
  • cell-like structure refers to any particle containing a molecule having genetic information.
  • cell-like structures include organelles such as mitochondria, cell nuclei, and chloroplasts, and viruses.
  • genetic information or other biomolecule information refers to information that defines a biomolecule or an analog thereof. Genetic information or other biomolecule information may include, but is not limited to, structural information of nucleic acids, amino acids, lipids or sugar chains or their analogs, but is not limited to in vivo molecules such as metabolites or their analogs. It can also include information on the diversity of body interactions. “Genetic information” is also referred to as “nucleic acid information”, and both are synonymous.
  • biomolecule refers to a molecule possessed by any organism or virus.
  • In vivo molecules can include nucleic acids, proteins, sugar chains, lipids, and the like.
  • biomolecular analog refers to a natural or non-natural variant of a biomolecule.
  • Analogs of in vivo molecules can include modified nucleic acids, modified amino acids, modified lipids or modified sugar chains.
  • aggregate refers to an aggregate containing two or more single biological units, cells or structures for cells.
  • subset when used in conjunction with a “set,” refers to a portion of a set that has a smaller number of single biological units, cells or cell structures.
  • gel refers to a colloidal solution (sol) in which a polymer substance or colloidal particles interact with each other to form a network structure as a whole and contain a large amount of a liquid phase as a solvent or a dispersion medium. A state in which fluidity is lost.
  • gelling means changing a solution into a “gel” state.
  • the "capsule” refers to a capsule having a shape capable of holding a cell or a cell-like structure in the capsule.
  • the term “gel capsule” refers to a gel-like fine particle structure capable of holding a cell or a cell-like structure therein.
  • gene analysis means examining the state of nucleic acids (DNA, RNA, etc.) in a biological sample.
  • the gene analysis can include those that utilize a nucleic acid amplification reaction.
  • Examples of gene analysis including these include sequencing, genotyping / polymorphism analysis (SNP analysis, copy number polymorphism, restriction enzyme fragment length polymorphism, repeat number polymorphism), expression analysis, fluorescence quenching probe ( Quenching Probe: Q-Probe), SYBR green method, melting curve analysis, real-time PCR, quantitative RT-PCR, digital PCR and the like can be mentioned.
  • single biological unit level refers to genetic information contained in one single biological unit or information on other biomolecules, as opposed to genetic information contained in another single biological unit or other information. It refers to processing in a state that can be distinguished from the information of biomolecules.
  • single cell level refers to genetic information contained in one cell or cell-like structure or information on other biomolecules, as opposed to genetic information contained in another cell or cell-like structure. Or, it means that the processing is performed in a state of being distinguished from the information of other biomolecules. For example, when amplifying a polynucleotide at the "single biological unit level” or “single cell level”, the polynucleotide in one single biological unit or cell or cell-like structure, and another single organism, respectively. Each amplification takes place with the polynucleotides in the unit, or other cell or cell-like structure, distinguishable.
  • the step of contacting the polynucleotide with an amplification reagent to amplify the polynucleotide in a gel capsule can also amplify the polynucleotide while maintaining a gel state in the gel capsule. ..
  • single biounit analysis refers to genetic information or other biomolecule information contained in one single biological unit (eg, cell or cell-like structure) as another single organism. It refers to analysis in a state of being distinguished from genetic information contained in a unit (for example, a cell or a cell-like structure) or information on other biomolecules.
  • single cell analysis refers to genetic information or other biomolecule information contained in one cell or cell-like structure, and genetic information or other information contained in another cell or cell-like structure. It refers to analysis in a state that is distinguished from the information on biomolecules.
  • genetic information refers to information on a nucleic acid encoding a gene or other information contained in one cell or cell-like structure, and refers to the presence or absence of a specific gene sequence, the yield of a specific gene, or the total nucleic acid. Including yield.
  • biomolecule information refers to a biomolecule contained in one cell or cell-like structure (in addition to nucleic acid, proteins, sugars, lipids and the like are also included in addition to nucleic acid) or the like. Refers to information on analogs, including the presence or absence of structure or sequence of a particular biomolecule, structural or sequence identity, yield of a particular biomolecule and yield of all biomolecules.
  • nucleic acid information refers to information on nucleic acids contained in one cell or cell-like structure, and includes the presence or absence of a specific gene sequence, the yield of a specific gene, or the total nucleic acid yield.
  • identity refers to the structural or sequence similarity between two biomolecules. If the subject is a sequence, identity can also be determined by comparing the positions in each sequence that can be aligned for comparison.
  • the "long read sequence” is a method of sequencing the entire sequence using a long read (fragmented nucleotide chain for analysis). Generally, a long read sequence is decoded with a read having a length of 400 bases or more.
  • the disclosure provides a method of processing sequence information of a single biological unit (eg, a cell or cell structure).
  • This method (A) For the partial sequence information of the sequence information of a plurality of single biological units (for example, a set of genome, transcriptome, proteome, or equivalent gene, etc.), the sequence for biological lineage identification (for example, 16S). Based on the rDNA or marker gene), the steps of clustering by the same lineage and (B), if necessary, adding the partial sequence information of the single biological unit corresponding to the cluster in the database to the cluster.
  • Steps and (C) a step of creating a sequence information draft of the single biological unit using the partial sequence information of the sequence information of the single biological unit and the sequence information of the single biological unit in the database. Including.
  • a schematic diagram of this aspect is illustrated in FIG.
  • the correspondence between the draft genome and the unit biological unit genome of the present disclosure is illustrated in FIG.
  • Step (B) is an optional process, and the database may or may not be used.
  • the clustering method includes a method using a database (FIG. 3) and a method not using a database (FIG. 4).
  • the partial sequence information of the single biological unit corresponding to the cluster in the database is added to the cluster. If you do not use the database, create a new cluster.
  • the present disclosure provides a method of processing sequence information of a single biological unit (eg, a cell), which method: (A) a partial sequence of sequence information of a plurality of single biological units. Regarding the information, the step of clustering for each same lineage based on the sequence for identifying the biological lineage, (B) the partial sequence information corresponding to the cluster in the database, and the partial sequence information of the cluster are compared.
  • a method including a step of calculating the similarity for each subsequence and identifying a subsequence having a predetermined similarity or higher as a sequence for identifying a biological lineage.
  • the sequence for identifying the biological lineage can be used as a so-called biomarker.
  • a schematic diagram of this aspect is illustrated in FIG.
  • the protein family for the registered draft genome is extracted, and the correspondence matrix between the draft genome and the protein family is created. Calculate the proportion of single-copy genes with a corresponding protein family of 1.
  • a protein family existing in the entire draft genome can be adopted as a marker gene.
  • the present disclosure is a method of processing sequence information of a single biological unit, which is: A) a step of extracting unique gene (single copy gene) candidates in a draft from a database.
  • a method including a step of selecting a number of genes) as a marker gene candidate.
  • the present disclosure is a method of processing sequence information of a single biological unit, wherein the method: (D) subsequence information of sequence information of a plurality of single biological units, as a predetermined criterion. The steps of ranking from the highest quality one based on (for example, complete rate, contamination rate) and (E) the sequence information of the plurality of single biological units from the highest ranked one based on the ranking. A draft of a predetermined number of sets of the sub-sequence information and a length larger than the sub-sequence information (this length may be a part or may be the total length) from the sub-sequence information.
  • (E') select a set of sub-sequence information sets of sequence information of a single biological unit different from the set, and the length of the sub-sequence information is larger than that of the sub-sequence information.
  • This includes a step of constructing a draft of the above and selecting a draft generated so far based on a predetermined criterion (for example, complete rate, contamination rate). It is preferable to repeat (E'). This is because it is preferable to repeat the draft creation while changing the number of SAGs.
  • steps (D)-(E') may be performed as a step of creating a single biological unit sequence information draft. A schematic diagram of this aspect is shown in FIG.
  • the method of processing the sequence information of a single biological unit of the present disclosure is (F) the selected draft and the single biological unit not selected in (E) and (E').
  • Steps (D), (E) and (E') are repeated until they are reached, and (G''), if necessary, based on lower criteria in the entire subsequence information constituting the draft. Including the step of repeating. For example, looser parameters can be used as criteria for lower criteria.
  • a schematic diagram of this aspect is shown in FIG.
  • the partial sequence information is SAG.
  • the present disclosure provides a method of refining a cluster in an aspect relating to the stage immediately following the determination that the SAG is an "identical" cluster (eg, lineage, species).
  • the present disclosure is a method of processing sequence information of a single biological unit, wherein the method is: (A) Sequence for biological lineage identification for partial sequence information of sequence information of a plurality of single biological units. With respect to the step of clustering for each lineage based on the above, and (H) the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit in the same lineage cluster.
  • the step of comparing with the draft and whether or not the reclustering in (I) and (H) is appropriate is judged based on the predetermined criteria (for example, complete rate, contamination rate) for the comparison result, and is appropriate. Including the step of registering in the database as a new group.
  • the extracted partial sequence information (for example, SAGs) can be brute-forced with a marker gene, and can be evaluated by, for example, the distance between each SAG.
  • the reclustering performed in the present disclosure is performed by network analysis and community detection.
  • the disclosure also provides processing in a post-stage phase where increasing the number of subsequence information (eg, SAGs) does not improve draft quality.
  • the present disclosure is a method of processing sequence information of a single biological unit, wherein the method is: (A) Sequence for biological lineage identification for partial sequence information of sequence information of a plurality of single biological units. Based on the above, the step of clustering for each lineage and (D) the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster are set according to predetermined criteria (for example, complete rate, contamination rate).
  • the step of selecting a set of the subsequence information and constructing a draft having a length larger than the subsequence information (which can be a part or the total length) from the subsequence information, and (E'') the set are Select a set of sub-sequence information sets of sequence information of different numbers of single biological units, construct a draft larger than the sub-sequence information from the sub-sequence information, and determine the drafts generated so far.
  • the draft evaluation does not fluctuate (that is, stays within a certain range) due to an increase in the number of sets of sequence information.
  • the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for biological lineage identification, and within the same lineage cluster.
  • the step of reclustering and (H') a step of comparing the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster, and the re-clustering in (J) and (H).
  • the sub-sequence information of the unit sequence information includes a step of repeating (D) to (E').
  • each process of the methods of the present disclosure may be performed by a computer.
  • the database of the present disclosure may be a database generated by the clustering or sequence analysis method of the present disclosure or a database generated independently of the clustering or sequence analysis method of the present disclosure.
  • the database generated independently of the clustering or sequence analysis techniques of the present disclosure can be a database of data obtained by sequencing the amplified sequences based on single cell amplification.
  • adding an array in another database would lead to a decrease in the quality of the array, but in reality, adding an array in another database to the cluster improves the quality of the array. I found it.
  • a certain amount of partial sequence information including a sequence site in which a large number of duplicate reads are recognized is removed to correct (homogenize) the bias of the sequence read. You may go. Further improvement in genome quality is expected by performing repeated homogenization treatments using the genome sequence prepared from the homogenization sequence data as a reference sequence according to the clustering of the homogenized sequence data. Further improvement in genome quality is expected when the partial sequence information to be subjected to the homogenization process is read by a long read sequence.
  • bias occurs in sequences of amplified DNA such as genome sequences derived from single cells.
  • the homogenization treatment is performed by devising the enzymatic reaction and reaction conditions to make it difficult for the bias itself to occur during amplification (Nishikawa et al. PLoS ONE) or after amplification.
  • methods such as actively degrading DNA have been taken.
  • these methods have a problem that the bias cannot be completely removed.
  • the processing is performed in silico, so that the data can be homogenized without any special reaction system as described above.
  • the data itself is clean and it is assumed that the data is derived from a plurality of data, it can be executed only by the method used in the present disclosure.
  • the correctness of the genome sequence is mapped to the reference genome of a closely related species, biases and gaps are evaluated, and sequence correction is performed.
  • the method used in the present disclosure is homogeneous. Even if there is no closely related species reference genome during the conversion process, by comprehensively analyzing multiple data of the same species, it is possible to refer to the self-data and perform the homogenization process, so an unknown microorganism sample without a reference sequence The data can be homogenized, which is significantly superior to the conventional technology.
  • Antibiotic resistance gene Surveillance of resistant strains ⁇ Finishing of microbial genome sequence (closing as a circular genome) (Basically, it was rarely possible to close other than cultured strains) -Acquisition of biosynthetic gene clusters-Genetic modification evaluation of microbial hosts by synthetic biology-Genome structure mutation and various metabolic functions / evaluation of effects on host organisms.
  • the present disclosure directs a computer to implement a method of processing sequence information of a single biological unit (eg, a cell or cell structure) and a record containing this program.
  • a medium for example, CD-R, flash memory, hard disk, transmission medium, cloud, etc.
  • This method implemented by this program is: (A) For strain identification of partial sequence information of multiple single biological unit sequence information (eg, a set of genomes, transcriptomes, proteomes, or equivalent genes, etc.) Based on the sequence (eg, 16S rDNA or marker gene), the steps of clustering in the same lineage and (B), if necessary, the partial sequence information of the single biological unit corresponding to the cluster in the database.
  • the sequence information draft of the single biological unit is prepared. Includes steps to create.
  • a schematic diagram of this aspect is illustrated in FIG.
  • the correspondence between the draft genome and the unit biological unit genome of the present disclosure is illustrated in FIG.
  • Step (B) is an optional process, and the database may or may not be used.
  • the clustering method includes a method using a database (FIG. 3) and a method not using a database (FIG. 4).
  • the partial sequence information of the single biological unit corresponding to the cluster in the database is added to the cluster. If you do not use the database, create a new cluster.
  • the present disclosure directs a computer to implement a method for processing sequence information of a single biological unit (eg, a cell) and a recording medium (eg, a CD) containing the program. -R, flash memory, hard disk, transmission medium, cloud, etc.).
  • This method implemented by this program is: (A) the step of clustering the partial sequence information of the sequence information of multiple single biological units for each same lineage based on the sequence for identifying the biological lineage, and (B) the database.
  • the partial sequence information corresponding to the cluster in the cluster is compared with the partial sequence information of the cluster, the similarity for each partial sequence is calculated, and the partial sequence having a predetermined similarity or higher is identified as a sequence for biological lineage identification. And how to include.
  • the sequence for identifying the biological lineage can be used as a so-called biomarker.
  • FIG. A schematic diagram of this aspect is illustrated in FIG.
  • the protein family for the registered draft genome is extracted, and the correspondence matrix between the draft genome and the protein family is created. Calculate the proportion of single-copy genes with a corresponding protein family of 1. Among them, a protein family that does not exist in the entire draft genome can be adopted as a marker gene.
  • the present disclosure is a program or recording medium containing a program instructing a computer to implement a method for processing sequence information of a single biological unit, the method being: A) from a database, in a draft. Steps to extract non-overlapping gene (single copy gene) candidates, B) to calculate the number (or proportion) of the corresponding drafts for each gene, and C) the number (or proportion) of the corresponding drafts. ) Are sorted in descending order, and a program or recording medium including a step of selecting a gene having a predetermined value or more (or an arbitrary number of genes from the top) as a marker gene candidate is provided.
  • the present disclosure specifies a computer program that directs a computer to implement a method of processing sequence information in a single biological unit and a recording medium (eg, a CD-R, flash memory, hard disk) that stores the program. , Transmission medium, cloud, etc.).
  • This method implemented by this program is as follows: (D) Ranking the partial sequence information of the sequence information of multiple single biological units from the highest quality one based on a predetermined criterion (for example, complete rate, contamination rate). Steps to be performed and (E) Based on the ranking, a predetermined number of sets of the partial sequence information of the sequence information of the plurality of single biological units are selected from the high-ranked ones, and the partial sequence information is selected.
  • a draft of a length greater than the partial sequence information (this length may be a part or may be the full length) and (E') a number of singles different from the set.
  • a set of sub-sequence information sets of sequence information of a biological unit is selected, a draft having a length larger than the sub-sequence information is constructed from the sub-sequence information, and the drafts generated up to that point are used as a predetermined criterion ( For example, it includes a step of selecting based on (complete rate, contamination rate). It is preferable to repeat (E'). This is because it is preferable to repeat the draft creation while changing the number of SAGs.
  • the method of processing the sequence information of a single biological unit implemented by the programs of the present disclosure was not selected in (F) the selected draft and (E) and (E').
  • the selected draft are used to generate a longer draft, and (G') is repeated as necessary (G), preferably the longer draft is the sequence information.
  • the program of the present disclosure encodes a method of refining a cluster in the aspect relating to the stage immediately after the SAG determines that it is an "identical" cluster (eg, lineage, species).
  • the present disclosure specifies a computer program that directs a computer to implement a method of processing sequence information in a single biological unit and a recording medium (eg, a CD-R, flash memory, hard disk, etc.) that stores the program. (Transmission medium, cloud, etc.) are provided.
  • This method implemented by this program is: (A) the step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same lineage based on the sequence for identifying the biological lineage, and (H) the step.
  • the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of the single biological unit is evaluated based on the sequence for biological lineage identification, and reclustered in the same lineage cluster.
  • the comparison result is judged based on a predetermined criterion (for example, complete rate, contamination rate), and if it is valid, it includes a step of registering it in the database as a new group.
  • the extracted partial sequence information (for example, SAGs) can be brute-forced with a marker gene, and can be evaluated by, for example, the distance between each SAG.
  • the reclustering performed in the present disclosure is performed by network analysis and community detection.
  • the program of the present disclosure also provides processing in a phase after the draft quality does not improve even if the number of partial sequence information (for example, SAGs) is increased.
  • the present disclosure specifies a computer program instructing a computer to implement a method of processing sequence information of a single biological unit and a recording medium (eg, CD-R, flash memory, hard disk, etc.) for storing the program. (Transmission medium, cloud, etc.) are provided.
  • This method implemented by this program is: (A) the step of clustering the partial sequence information of the sequence information of a plurality of single biological units for each same lineage based on the sequence for identifying the biological lineage, and (D) the step.
  • (E) A step of ranking the partial sequence information of the sequence information of a plurality of single biological units belonging to the same lineage cluster from the highest quality one based on a predetermined criterion (for example, complete rate, contamination rate). Based on the ranking, a predetermined number of sets of the sub-sequence information of the sequence information of the plurality of single biological units are selected from the high-ranked ones, and the sub-sequence information is larger than the sub-sequence information.
  • a set of steps for constructing a draft of length (which can be part or full length) and (E'') a set of subsequence information of sequence information of a single biological unit in a different number than the set.
  • a draft having a length larger than the partial sequence information is constructed from the partial sequence information, and the drafts generated so far are evaluated based on predetermined judgment criteria (for example, complete rate, contamination rate).
  • predetermined judgment criteria for example, complete rate, contamination rate.
  • the step of comparing the information draft with the sequence information draft created from the reclustered cluster, and whether the reclustering in (J) and (H) is appropriate, are determined by a predetermined criterion (for example,) regarding the comparison result. , Complete rate, Contaminance rate), and if appropriate, (D) to (E') for the partial sequence information of the sequence information of a plurality of single biological units belonging to the reclustered cluster. Including the step of repeating.
  • the present disclosure provides a data structure in which sub-sequence information of sequence information of a plurality of single biological units is contained in clusters for each same lineage based on a sequence for identifying a biological lineage.
  • the subsequence information contained in the data structure is derived from two or more independently clustered and generated databases.
  • Information related to clustering performed independently is stored in association with the partial sequence information.
  • the partial sequence information is combined to form genomic information.
  • the partial sequence information is collected for each single biological unit.
  • the partial sequence information is stored in association with the identification information (ID information) of the single biological unit from which it is derived.
  • the present disclosure integrates a plurality of data structures in which sub-sequence information of sequence information of a plurality of single biological units is contained in clusters for each same strain based on a sequence for identifying a biological lineage. , Provides a single biological unit data structure.
  • a high-quality database that integrates a single biological unit such as a single cell has not existed in the past and is provided for the first time in the present disclosure.
  • the present disclosure provides a system for processing sequence information of a single biological unit (eg, a cell or cell structure).
  • This system (A) For the partial sequence information of multiple single biological unit sequence information (eg, a set of genome, transcriptome, proteome, or equivalent gene, etc.), a sequence for biological lineage identification (eg, 16S).
  • a clustering unit that clusters for each line based on rDNA or marker gene) and (B), if necessary, add partial sequence information of the single biological unit corresponding to the cluster in the database to the cluster. Additional information to be added (which may be the same as or separate from the clustering unit) and (C) the partial sequence information of the sequence information of the single organism unit and the single organism in the database.
  • It includes a drafting unit that creates a sequence information draft of the single biological unit using the sequence information of the unit.
  • FIG. The correspondence between the draft genome and the unit biological unit genome of the present disclosure is illustrated in FIG.
  • the additional information addition part corresponding to B) is optional and may or may not use the database.
  • the clustering method realized by the clustering unit includes a method using a database (Fig. 3) and a method not using a database (Fig. 4).
  • a database the partial sequence information of the single biological unit corresponding to the cluster in the database is added to the cluster. If you do not use the database, create a new cluster.
  • the present disclosure provides a system for processing sequence information of a single biological unit (eg, a cell).
  • This system (A) a clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same lineage based on the sequence for identifying the biological lineage, and (B) the cluster in the database.
  • the identification unit that compares the partial sequence information corresponding to the above cluster with the partial sequence information of the cluster, calculates the similarity for each partial sequence, and identifies the partial sequence having a predetermined similarity or higher as a sequence for biological lineage identification ( A method including a marker identification unit).
  • the sequence for identifying the biological lineage can be used as a so-called biomarker.
  • a schematic diagram of this aspect is illustrated in FIG.
  • the protein family for the registered draft genome is extracted, and the correspondence matrix between the draft genome and the protein family is created. Calculate the proportion of single-copy genes with a corresponding protein family of 1. Among them, a protein family that does not exist in the entire draft genome can be adopted as a marker gene.
  • the present disclosure is a system for processing sequence information of a single biological unit, and corresponds to A) an extraction unit that extracts a unique gene in a draft from a database, and B) for each of the above genes.
  • a system including a calculation unit for calculating the number or ratio of drafts, and C) a selection unit for selecting a gene whose number or ratio of corresponding drafts is equal to or greater than a predetermined value as a marker gene candidate.
  • the disclosure provides a system for processing sequence information for a single biological unit.
  • This system (D) A ranking unit that ranks the partial sequence information of the sequence information of a plurality of single biological units from the highest quality based on a predetermined criterion (for example, complete rate, contamination rate).
  • a predetermined criterion for example, complete rate, contamination rate.
  • E Based on the ranking, a predetermined number of sets of the sub-sequence information of the sequence information of the plurality of single biological units are selected from the high-ranked ones, and the portion is selected from the sub-sequence information.
  • a draft of a length larger than the sequence information (this length may be a part or may be the total length) is constructed, and a partial sequence information of the sequence information of a single biological unit having a number different from the set is constructed.
  • a set of sets is selected, a draft having a length larger than the partial sequence information is constructed from the partial sequence information, and the drafts generated up to that point are used as predetermined criteria (for example, complete rate, contamination rate).
  • predetermined criteria for example, complete rate, contamination rate.
  • Draft preparation is preferably repeated multiple times. This is because it is preferable to repeat the draft creation while changing the number of partial sequence information (for example, SAGs).
  • the system of the present disclosure compares (F) the selected draft with the partial sequence information of the single biological unit sequence information not selected in (E) and (E'). Then, a selection unit (which may be configured as part of the draft construction unit), which selects partial sequence information of the sequence information of a single biological unit having a sequence of portions not included in the draft, and ( (G) A draft improvement unit (which may also be configured as a draft construction unit) that generates a longer draft by using the sequence information selected in (F) and the selected draft, and ( G') Consists of a draft construction unit that repeats (G) as needed, preferably until the longer draft reaches the full length of the sequence information, and (G'') if necessary.
  • a selection unit which may be configured as part of the draft construction unit
  • a draft improvement unit which may also be configured as a draft construction unit
  • Consists of a draft construction unit that repeats (G) as needed, preferably until the longer draft reaches the full length of the sequence information, and (G'')
  • the system of the present disclosure encodes a method of refining the cluster in the aspect relating to the stage immediately after the SAG determines that it is an "identical" cluster (eg, lineage, species).
  • the present disclosure provides a system for processing sequence information of a single biological unit. This system: (A) a clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same lineage based on the sequence for identifying the biological lineage, and (H) within the same lineage cluster.
  • the partial sequence information of the sequence information of the plurality of single biological units constituting the sequence information of a single biological unit is evaluated based on the sequence for identifying the biological lineage, and reclustered within the same lineage cluster.
  • Part this may be realized by the clustering part
  • H' Comparison of the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster.
  • Predetermined criteria for example, complete rate, contamination rate
  • the extracted partial sequence information (for example, SAGs) can be brute-forced with a marker gene, and can be evaluated by, for example, the distance between each SAG.
  • the reclustering performed in the present disclosure is performed by network analysis and community detection.
  • the system of the present disclosure also provides processing in a phase after the draft quality does not improve even if the number of partial sequence information (for example, SAGs) is increased.
  • the present disclosure provides a system for processing sequence information of a single biological unit.
  • This system (A) a clustering unit that clusters the partial sequence information of the sequence information of a plurality of single biological units for each same lineage based on the sequence for identifying the biological lineage, and (D) the same lineage cluster.
  • a ranking unit that ranks the partial sequence information of the sequence information of a plurality of single biological units to which it belongs from the highest quality based on a predetermined criterion (for example, complete rate, contamination rate), and (E) the rank.
  • a predetermined number of sets of the sub-sequence information of the sequence information of the plurality of single biological units are selected from the high-ranked ones, and the length of the sub-sequence information is larger than that of the sub-sequence information.
  • a draft construction unit that constructs a draft having a length larger than the partial sequence information from the sequence information, and evaluates the drafts generated up to that point based on predetermined judgment criteria (for example, complete rate, contamination rate).
  • the sequence information of a single biological unit is constructed in the same lineage cluster.
  • the sub-sequence information of the sequence information of the plurality of single biological units is evaluated based on the sequence for identifying the biological lineage, and the re-clustering unit is reclustered within the same lineage cluster (even if this is realized by the clustering unit).
  • (Good) and (H') A comparison unit that compares the sequence information draft created from the same lineage cluster with the sequence information draft created from the reclustered cluster (also achieved by the clustering unit).
  • Including includes a judgment unit for judging whether or not reclustering in (J) and (H) is appropriate based on predetermined judgment criteria (for example, complete rate, contamination rate) for the comparison result.
  • judgment unit if the judgment is valid, the steps realized in (D) to (E') for the partial sequence information of the sequence information of a plurality of single biological units belonging to the reclustered cluster. Is repeated.
  • a part or all of the components included in the pleasure / discomfort determination device in each of the above embodiments may be composed of one system LSI (Large Scale Integration: large-scale integrated circuit).
  • the system for processing the sequence information of the present disclosure may be combined with a database as necessary, or may include or be combined with a system for identifying a sequence having a function such as a biomarker (FIG. 10). ).
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip. Specifically, a microprocessor, a ROM (Read Only Memory), a RAM (Random Access Memory), etc. It is a computer system configured to include. A computer program is stored in the ROM. When the microprocessor operates according to a computer program, the system LSI achieves its function. Although it is referred to as a system LSI here, it may be referred to as an IC, an LSI, a super LSI, or an ultra LSI depending on the degree of integration. Further, the method of making an integrated circuit is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used. If an integrated circuit technology that replaces an LSI appears due to advances in semiconductor technology or another technology derived from it, it is naturally possible to integrate functional blocks using that technology. There is a possibility of applying biotechnology.
  • one aspect of the present disclosure may be not only such an array information processing device or system, but also a function-specific system (for example, a biomarker screening device, a drug efficacy determination device, a diagnostic device, etc.).
  • the embodiment of the present disclosure may be a computer program that causes a computer to execute each characteristic step included in sequence information processing.
  • one aspect of the present disclosure may be a computer-readable, non-temporary recording medium on which such a computer program is recorded.
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the pain estimation device and the like of each of the above embodiments may be the program described above in the present specification.
  • the array information processing technology of the present disclosure may be provided as one system or device, all inclusive. Alternatively, it can be assumed that the array information processing device mainly performs analysis and display of the results, and the calculation and the calculation of the discrimination model are performed on the server or the cloud. Some or all of these can be performed using IoT (Internet of Things) and / or artificial intelligence (AI) (FIG. 11).
  • IoT Internet of Things
  • AI artificial intelligence
  • the array information processing device also stores the means required for various calculations and performs the analysis on the spot, but the calculation required for the analysis is assumed to be a semi-standalone type, which is a form performed by a server or the cloud. obtain. In some places such as hospitals, transmission and reception are not always possible, so a model that can be used even when shielded is assumed.
  • the storage unit may be, for example, a recording medium such as a CD-R, DVD, Blu-ray, USB, SSD, or hard disk, may be stored in a server, or may be appropriately recorded on the cloud.
  • a recording medium such as a CD-R, DVD, Blu-ray, USB, SSD, or hard disk
  • SaaS Software as a service
  • Data can be saved as needed.
  • Data storage is usually provided on the server side, but it may be on the cloud type or the terminal side (optional) as well as on the all-equipped type.
  • data storage is standard (for example, up to 10 GB in the cloud), option 1 (for example, 10 TB increase in the cloud), option 2 (set parameters in the cloud and save separately), option 3. May offer the option of (save analysis options in the cloud). Save data, download data from all sold devices to create big data (eg sequence databases), update analytical models over time, build new models, for example, " It is possible to provide new discrimination model software such as "disease judgment model”.
  • the request of the service provider can be provided. That is, it can be assumed as an option of the calculation method.
  • “or” is used when “at least one" of the matters listed in the text can be adopted. The same applies to “or”.
  • the range When specified as “within the range of two values” in the present specification, the range also includes the two values themselves.
  • Example 1 (Draft genome creation method) (Method) (Cell line sample preparation) From Hosokawa et al. E. coli K12 (ATCC 10798) and B. coli Twelve SAG data were obtained for each of subtilis (ATCC 6633). In the paper by Hosokawa et al., These cells were obtained from the ATCC. E. E. coli K12 was cultured in Luria-Bertani (LB) medium (1.0% bactotripton, 0.5% yeast extract, 1.0% NaCl, pH 7.0). B. Brainheart infusion broth (ATCC medium 44, Thermo) It was cultured in Fisher Scientific (San Jose, CA, USA). The recovered cells were washed 3 times with UV-treated phosphate buffered saline (-) (PBS, Thermo Fisher Scientific) and subjected to single droplet MDA and sequencing.
  • LB Luria-Bertani
  • B. Brainheart infusion broth (ATCC medium 44, Therm
  • Feces were collected from 7-week-old male ICR mice (Tokyo Laboratory Animals Science Co., Ltd., Tokyo, Japan) and homogenized in PBS. The supernatant was collected by centrifugation at 2000 xg for 2 seconds and centrifuged at 15000 xg for 3 minutes. The resulting cell pellet was washed twice with PBS and finally resuspended in PBS.
  • Single droplet MDA Microfluidic droplet generators and MDA reactors were manufactured and used for single droplet MDA as reported by Hosokawa et al. Prior to analysis, the cell suspension was adjusted to a concentration of 0.1 cells / droplet to prevent multiple cells from being encapsulated in a single droplet. A single microbial cell was encapsulated in lysis buffer D2 (QIAGEN, Hilden, Germany) using a droplet generator and lysed at 65 ° C. for 10 minutes. Next, the cell lysate was injected into the droplet fusion apparatus, and the MDA reaction mixture (REPLI-g) containing Tween-20 and EvaGreen was added. It was mixed with droplets of Single Cell Kit, QIAGEN).
  • lysis buffer D2 QIAGEN, Hilden, Germany
  • the droplets were incubated at 30 ° C. for 2 hours and 65 ° C. for 3 minutes.
  • fluorescently labeled droplets were individually picked and transferred to a fresh MDA reaction mixture by a micropipette under an open clean bench (KOACH 500-F, KOKEN LTD, Tokyo, Japan). After incubation at 30 ° C. for 2 hours, the enzyme was inactivated at 65 ° C. for 3 minutes.
  • 16S rRNA gene fragment V3-V4 was amplified and sequenced by Sanger sequencing from SAG obtained by single droplet MDA.
  • 16S rRNA fragments (V3-V4) were amplified from intestinal flora metagenomic samples and sequenced by MiSeq (Illumina, San Diego, CA, USA). Paired-end leads were ligated, trimmed, and clustered into classification units with 97% identity by UPARSE. The classification was determined by the RDP classifier.
  • Integrity and contamination were evaluated by CheckM (Parks DH et al., Genome Res. 2015 Jul; 25 (7): 1043-55.). Classification was performed by BLAST search of 16S rDNA sequences in AMPHORA2 or RNAmmer (Lagesen K et al., Nucleic Acids Res. 2007; 35 (9): 3100-8.). Genetic pathway analysis was performed on KAAS (Moriya Y et al., Nucleic Acids Res. 2007 Jul; 35 (Web Server issue): W182-5.) And MAPLE (Takami Het al., DNA Res. 2016 Jul. This was done with dsw030.).
  • the assembly graph was generated by Bandage (Wick RR et al., Bioinformatics. 2015 Oct 15; 31 (20): 3350-2.).
  • each single cell amplified genome was mapped to the coding sequence of the crosslinked complex SAG contig.
  • Nucleotides were then screened for coverage depths of at least 5 reads. Here, 99.9% of the reads did not match the reference and showed a homogeneous base (nucleic acid sequence). Nucleotide sites containing both matched and unmatched SAGs in the same strain were then identified as SNPs.
  • FIG. 2 is a microbial genome database configuration for use in the present disclosure.
  • a microbial genome database is constructed by a relational database system.
  • the operating system and relational database management system are mainly installed on a computer system consisting of a central processing unit (CPU), a main storage device, an auxiliary storage device, an input / output device, and other peripheral devices.
  • CPU central processing unit
  • main storage device a main storage device
  • auxiliary storage device an input / output device
  • FIG. 2 the draft genome information, the corresponding assemble base sequence, the gene information, the gene base sequence, the single biological unit genome information, the corresponding assemble base sequence, the gene information, and the gene base sequence are displayed on the relational database.
  • the actual data can be stored outside the relational database, and the reference to the actual data can be stored in the table.
  • the draft genome information table create a column for storing information associated with the draft genome.
  • provisional phylogenetic classification, complete rate, contamination rate, quality category, genome size, number of contigs, N50 value, GC content and the like can be mentioned.
  • the provisional phylogenetic classification is information on biological phylogenetic classification obtained by analyzing an assemble base sequence with a dedicated analysis tool (for example, checkm). This makes it possible to identify the rough lineage of the draft genome.
  • the quality category is meant to indicate the state of the draft genome.
  • the draft genome gene information table create a column for storing information associated with the draft genome gene. For example, gene name, gene length, protein family, GC content, marker type, single copy and the like can be mentioned.
  • the protein family is information obtained by homology analysis with a protein database or the like.
  • the marker type is for indicating whether or not the marker is used in systematic classification or the like.
  • Single copy indicates whether the gene is a single copy gene.
  • the single copy gene can be identified by the method shown in FIG.
  • a column is created to store information associated with the single biological unit genome.
  • each other base sequence table creates a column for storing the base sequence (refer to it when it is an external file). It is preferable to prepare an ID column for uniquely identifying the data in each table.
  • Draft genomic information and single biological unit genomic information have a one-to-many relationship.
  • Genome information and assemble base sequences have a one-to-many correspondence.
  • Genome information and genetic information have a one-to-many relationship.
  • Example 3 Clustering of a single biological unit genome by a microbial genome database
  • Fig. 3 shows a method of grouping multiple single biological unit partial base sequences into clusters of the same strain when they are obtained.
  • the genomic DNA of a single biological unit can be analyzed by a DNA sequencer such as Illumina to obtain a base sequence file such as fastq.
  • a partial base sequence is described in the Fastq file. Save the acquired fastq file to the computer for analysis.
  • the partial base sequence in the Fastq file includes a mixture of adapter sequences and a low quality partial base sequence. These low-quality partial base sequences are deleted using a quality control tool such as fastqc.
  • Assemble this fastq file with an assemble tool such as Spades to obtain the assemble base sequence.
  • evaluation values such as the number of contigs, genome size, complete rate, and contamination rate are calculated using an evaluation tool such as quast or check.
  • the gene is identified from the assemble base sequence.
  • Gene annotation tools such as Prokka and DFAST are used to identify genes.
  • functional information such as a protein family can be obtained by searching a protein database such as Pfam.
  • use a tool such as checkm that can classify the system, and calculate the provisional systematic information. This is the pretreatment for the partial base sequence of a single biological unit.
  • the single biological unit genome analysis When the single biological unit genome analysis is completed, refer to the provisional phylogenetic classification in the draft genome information table of the microbial genome database and extract the corresponding draft genome information and gene information.
  • the sequence for biological line identification is obtained by referring to the marker type of the genetic information.
  • a gene having the same protein family as the protein family of the sequence for biological line identification is extracted from the genetic information of the single biological unit genomic data. If there is no corresponding gene information, this process ends and the process proceeds to the next process. If there is corresponding gene information, a homology search is performed on the gene base sequence of the unit genome data and the sequence for biological lineage identification by a homology analysis tool such as BLAST.
  • pairs below a certain threshold for example, 70% or less homology are excluded.
  • the gene base sequence of the unit genome data having the highest homology in each biological line identification sequence is detected, and the weighted average of the matched base sequence length and homology is obtained and used as the similarity (distance) between the two genomes.
  • the assemble base sequences are searched for homology in a round-robin manner instead of the sequence for biological line identification, and the same processing as for the sequence for biological line identification is performed. Calculate the similarity.
  • the draft genome with the highest similarity is used as the criterion for clustering.
  • Example 4 Clustering of single biological unit genome Fig. 4 shows a method for creating clusters of the same strain when there is no draft genome corresponding to the microbial genome database in the newly measured single biological unit genome data. Is shown. Here, it is assumed that each single biological unit genomic data (partial base sequence, genomic information, assemble base sequence, provisional phylogenetic classification, gene information, gene base rupture) has already been obtained by the pretreatment shown in Example 2. Proceed with the examples. The provisional phylogenetic classification clusters single biological unit genomic data of the same strain.
  • Provisional phylogenetic classification is determined by processing the assemble base sequence using a tool such as check, but the assemble base sequence of a single biological unit often does not cover the entire genome, so the phylogenetic classification is rough. In many cases, it is highly possible that they are forming a cluster in which organisms of various strains are mixed. Therefore, it is evaluated whether or not the single biological unit genome data in the cluster can be subdivided using the biological lineage identification sequence registered in the microbial genome database.
  • FIG. 6 shows a method for subdividing single biological unit genomic data in clusters of the same strain. By referring to the marker type of the gene information table registered in the microbial genome database, the sequence for biological line identification and the corresponding protein family are obtained.
  • a round-robin similarity is calculated for single biological unit genomic data in a cluster using the strain identification sequence in the same manner as the method for determining the similarity between genomes shown in Example 2.
  • the similarity matrix obtained here is read by statistical processing software such as R and network analysis is performed.
  • R the igraf function can be used as a network analysis function.
  • the community is detected from the output of the network analysis.
  • community detection is based on edge-mediated centrality-based methods, random walk-based methods, greedy algorithm-based methods, eigenvector-based methods, multi-step optimization-based methods, spin glass-based methods, and label propagation methods.
  • a method based on the method, a method based on the Infomap method, and the like are implemented.
  • Subdivide single biological unit genomic data based on the detected community.
  • an example using network analysis and community detection for subdivision is shown, but a method of subdividing using hierarchical (non-hierarchical) clustering is also conceivable.
  • the similarity will be a missing value and clustering analysis cannot be performed. It ends up. Rather Therefore, it may be preferable to use a corresponding possible network analysis and community detection even when there is missing values.
  • FIG. 5 shows a method for identifying a new biological lineage identification sequence for lineage classification from the genetic information of the draft genome registered in the microbial genome database. There is. Using the draft genome information and the draft genome gene information registered in the microbial genome database, a frequency table of gene families corresponding to the draft genome as shown in FIG. 5 is created. The cell showing 1 in the frequency table indicates that it is a single copy gene in its draft genome. Since the sequence for biological line identification should be a single copy gene, cells other than the single copy gene are ignored. For each protein family, calculate the proportion of single-copy genes present throughout the draft genome. Since the single copy gene covers many draft genomes, it is excellent as a sequence for biological line identification.
  • the protein family is sorted in descending order by the ratio of the single copy gene, and the draft genome is above a certain standard value (for example, 90% or more).
  • the protein family satisfying (there is a single copy gene in) is re-identified as a sequence for biological line identification.
  • the protein families may be sorted in descending order by the proportion of single copy genes, and an arbitrary number of protein families from the top may be used as a sequence for biological line identification.
  • the sequence for identifying the biological lineage known for bacteria and the like in the studies so far may be used in combination with the sequence for identifying the biological lineage identified above.
  • FIG. 7 shows a method for constructing an optimum draft genome.
  • the single biological unit genomic data is clustered as the same lineage.
  • the clustering in Example 2 since the clustering is based on the draft genome of the microbial genome database, the partial base sequence of the single biological unit genome corresponding to the draft genome is obtained from the microbial genome database and added to the cluster.
  • Single-biological unit genomic data within a cluster is sorted by a reference value. Here, they are sorted in ascending order of contamination rate. However, single biological unit genomic data below a certain level is excluded. Here, single biological unit genomic data having a complete rate of less than 10% is excluded.
  • the two higher-ranked single biological unit genome data are extracted to create a provisional set for draft genome construction.
  • the three single-biological unit genome data of the higher ranks are extracted, and a provisional set for draft genome construction is similarly prepared.
  • single biological unit genome data is added one after another in descending order of rank, and a provisional draft genome construction set is created by one less than the number of single biological unit genome data in the cluster.
  • ccSAG Single-Cell Enhanced Genome
  • the provisional draft genome can be expressed as a function with the number of single biological unit genome data used for construction as an explanatory variable and the draft genome evaluation values such as the completion rate and contamination rate as objective variables. From this, it is possible to judge whether the draft genome is in a converged state and the quality can be expected to be improved even if more single biological unit genome data is added. Quality For draft genomes that cannot be expected to be old castles, high-speed processing can be expected by not constructing the optimum draft genome. Select the highest quality of the provisional draft genome and the existing draft genome, and update the draft genome of the microbial genome database if it is not the existing draft genome.
  • the single biological unit genome data newly identified as a cluster is registered in the single biological unit genome data of the microbial genome database.
  • FIG. 8 shows a draft genome finishing method registered in the microbial genome database.
  • the draft genome in the converged state can be extracted from the microbial genome database by the function for evaluating the converged state of the draft genome prepared in Example 5.
  • the draft genome in this converged state is targeted for finishing.
  • the extracted single biological unit genomic data is sorted by a certain reference value. Here, they are sorted in ascending order of contamination rate. However, single biological unit genomic data below a certain level is excluded. Here, single biological unit genomic data having a complete rate of less than 10% is excluded.
  • Parameter-modified ccSAG is performed using all single biological unit genomic data that meet the criteria.
  • the parameters set the parameters so that a long assemble base sequence can be detected.
  • the draft genome created here is used as the first finishing draft genome.
  • the second is to detect the bridge assemble base sequence that binds the assemble base sequence of the draft genome from the assemble base sequence of all single biological unit genomic data that meets the criteria.
  • a homology analysis tool such as BLAST is used to perform a round-robin homology analysis of the assemble base sequence of the draft genome and the assemble base sequence of all single biological unit genome data satisfying the criteria.
  • the assemble base sequence of the single biological unit genome data is the draft genome. It serves to bind the assemble base sequence.
  • the draft genome connected by the assemble base sequence that serves as a bridge in this way is referred to as the second finishing draft genome.
  • the first and second finishing draft genomes are compared with the registered draft genomes according to a certain reference value, and the highest quality draft genome is selected. If the selected draft genome is not an existing draft genome, the draft genome in the microbial genome database is updated.
  • FIG. 9 shows a method of systematically subdividing the draft genome registered in the microbial genome database.
  • the draft genome in the converged state can be extracted from the microbial genome database by the function for evaluating the converged state of the draft genome prepared in Example 5.
  • the draft genome in this converged state is targeted for subdivision.
  • Single biological unit genome data corresponding to the extracted draft genome is sorted by a certain reference value. Here, they are sorted in ascending order of contamination rate. However, single biological unit genomic data below a certain level is excluded. Here, single biological unit genomic data having a complete rate of less than 10% is excluded.
  • the subdivision of FIG. 6 performed in Example 3 is performed on all the single biological unit genomic data satisfying the criteria.
  • the optimum draft genome of each cluster is obtained.
  • the multiple optimal draft genomes and the registered draft genomes are compared according to a certain reference value, and the higher quality draft genome is selected from the two. If the selected draft genome is not an existing draft genome, the existing draft genome is deleted from the microbial genome database, and the subdivided draft genome is newly registered.
  • Example 9 Addition of sequence of external database
  • a higher quality genome can be constructed as shown in FIG.
  • the genome of strain 2 is constructed from only one SAG. If external project data such as 5 and 6 can be added here, strain 2 can construct a draft genome from three SAGs, so that a higher quality genome can be constructed.
  • Bias homogenization treatment is performed in order to improve the quality of the genomic sequence obtained by assembling the sequence data containing the bias. Specifically, based on the result of mapping the sequence read to the reference genome sequence, a certain amount of the sequence read at the sequence site where a large number of duplications were found is removed, and the bias of the sequence read is corrected for homogenization (FIG. 13). ..
  • As the reference genome sequence a DNA sequence prepared by assembling the genome of a known closely related species or the sequence data itself for bias homogenization processing can be used. Assembling the homogenized sequence data improves the draft genome complementation rate and the number of sequence fragments obtained. Depending on the situation, it is expected that the genome quality will be further improved by repeatedly performing the homogenization treatment using the genome sequence prepared from the homogenization sequence data as the reference sequence. Specifically, the procedure was as follows.
  • Genome assembly was performed using Nanopore sequence data (GridION) of Escherichia coli K12 strain single cell amplified genome (SAG).
  • sequence data upper line chart in FIG. 14
  • the sequence data was mapped using the assembled genome sequence as a reference sequence, and the sequence data was homogenized by performing selective read removal so that the maximum read depth was 100 ⁇ for each region ().
  • FIG. 15 upper line chart When the homogenized sequence data was reassembled, sequence construction of the genomic region that was not acquired in the first assembly was confirmed (Fig. 15, lower band). Furthermore, it was confirmed that the genome complementation rate was improved and the number of genome sequence fragments was reduced by repeating homogenization-assembly using the newly assembled genome sequence as a reference sequence (Table 1).

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本開示は微生物ゲノムデータ自動的構築・提供システムを提供する。単一生物単位の配列情報を処理する方法であって、該方法は: (A)複数の単一(single)生物単位(例えば、細胞)のゲノム(または同等の遺伝子集合)の部分配列情報(スライドでは、SAG)について、生物系統同定用配列(16S rRNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の該単一生物単位のゲノムの情報と照合するステップとを含む方法。

Description

単一生物単位の配列情報の新規処理法
 本開示は、単一生物単位の配列情報の新規処理法、システムおよび関連技術を提供する。より特定すると、微生物ゲノムデータ自動的構築・提供システムを提供する。
 微生物ゲノムデータの構築が進んでいるが、現在のデータは、メタゲノム情報を基にするものが多く、複雑な細菌叢を解析対象にした場合に情報として質、量とも不足する。
 単一の生物単位ごとの遺伝情報(ゲノム情報など)の取得が一部されてきているが、その情報処理については十分な質のものが提供されていない。
 本発明者らは、鋭意研究した結果、単一生物単位レベルでの単一生物単位の配列情報を蓄積し、そこから高精度の微生物ゲノムデータを自動的に構築・提供するシステムを完成するに至った。
 本開示の実施形態の例として、以下のものが挙げられる。
(項目1)
 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む方法。
(項目2)
 前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目1に記載の方法。
(項目3)
 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む方法。
(項目3A)
 単一(single)生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む方法。
(項目4)
 単一生物単位の配列情報を処理する方法であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む方法。
(項目5)
 項目4に記載の単一生物単位の配列情報を処理する方法であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目4に記載のステップを繰り返すステップと
を含む、方法。
(項目6)
 単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、方法。
(項目7)
 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目6に記載の方法。
(項目8)
 単一生物単位の配列情報を処理する方法であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、方法。
(項目9)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目10)
 前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目9に記載のプログラム。
(項目11)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目11A)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含むプログラム。
(項目12)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップとを含むプログラム。
(項目13)
 項目12に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目12に記載のステップを繰り返すステップと
を含む、プログラム。
(項目14)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目15)
 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目14に記載のプログラム。
(項目16)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、プログラム。
(項目17)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目18)
 前記ステップ(B)を行う場合、データベースを利用することをさらに含む、項目17に記載の記録媒体。
(項目19)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとに対応しているドラフトの個数または割合を計算するステップと、
C)該対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目19A)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップと
を含む記録媒体。
(項目20)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目21)
 項目20に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目20に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目22)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目23)
 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、項目22に記載の記録媒体。
(項目24)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、記録媒体。
(項目25)
 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部と、
(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目26)
 前記(B)追加情報追加部を含む場合、データベースを利用するデータベース利用部をさらに含む、項目25に記載のシステム。
(項目27)
 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、
C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目27A)
 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部と
を含むシステム。
(項目28)
 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目29)
 項目28に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目28に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目30)
 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目31)
 前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、項目30に記載のシステム。
(項目32)
 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すための手段と
を含む、システム。
 (項目A1)
 単一(single)生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を実行する、方法。
(項目A2)
 (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、前記項目に記載の方法。
(項目A3)
 前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、前記項目のいずれか一項に記載の方法。
(項目A4)
 生物系統同定用配列候補のスクリーニングをコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を実行する、方法。
(項目A5)
 単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を実行する、方法。
(項目A6)
 前記項目のいずれか一項に記載の単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目5に記載のステップを繰り返すステップと
を実行する、方法。
(項目A7)
 単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を実行する、方法。
(項目A8)
 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、前記項目のいずれか一項に記載の方法。
(項目A9)
 単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと、
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を実行する、方法。
(項目A10)
 前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項に記載の方法。
(項目A11)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含むプログラム。
(項目A12)
 (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、前記項目に記載のプログラム。
(項目A13)
 前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、前記項目のいずれか一項に記載のプログラム。
(項目A14)
 生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムであって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含むプログラム。
(項目A15)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含むプログラム。
(項目A16)
 前記項目のいずれか一項に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目15に記載のステップを繰り返すステップと
を含む、プログラム。
(項目A17)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、プログラム。
(項目A18)
 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、前記項目のいずれか一項に記載のプログラム。
(項目A19)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、プログラム。
(項目A20)
 前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項に記載のプログラム。
(項目A21)
 単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
を含む記録媒体。
(項目A22)
 (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、前記項目に記載の記録媒体。
(項目A23)
 前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、前記項目のいずれか一項に記載の記録媒体。
(項目A24)
 生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
を含む記録媒体。
(項目A25)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
を含む記録媒体。
(項目A26)
 前記項目のいずれか一項に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
(G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目25に記載のステップを繰り返すステップと
を含む、記録媒体。
(項目A27)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
を含む、記録媒体。
(項目A28)
 前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、前記項目のいずれか一項に記載の記録媒体。
(項目A29)
 単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
を含む、記録媒体。
(項目A30)
 前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項のいずれか一項に記載の記録媒体。
(項目A31)
 単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(C)該単一生物単位の配列情報の部分配列情報および該(A)のクラスタリング部によるクラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
(項目A32)
 (B)前記データベース中の該クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加する追加情報追加部をさらに含む、前記項目に記載のシステム。
(項目A33)
 前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行う均質化処理部を含む、前記項目のいずれか一項に記載のシステム。
(項目A34)
 生物系統同定用配列候補をスクリーニングするためのシステムであって、該システムは:
A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
B)前記遺伝子ごとにシングルコピー遺伝子の個数または割合を計算する計算部と、
C)前記シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
を含むシステム。
(項目A35)
 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
を含むシステム。
(項目A36)
 前記項目のいずれか一項に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
(G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、項目35に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
を含む、システム。
(項目A37)
 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
を含む、システム。
(項目A38)
 前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、前記項目のいずれか一項に記載のシステム。
(項目A39)
 単一生物単位の配列情報を処理するためのシステムであって、該システムは:
(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すための手段と
を含む、システム。
(項目A40)
 前記部分配列情報がロングリードシーケンスにより決定されたものである、前記項目のいずれか一項に記載のシステム。
(項目B1)
複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造。
(項目B2)
前記データ構造に含まれる部分配列情報は、2以上の独立してクラスター化されて生成されたデータベースに由来するものである、前記項目のいずれか一項に記載のデータ構造。
(項目B3)
前記独立してなされたクラスター化に関連する情報が、前記部分配列情報に紐づけて格納される、前記項目のいずれか一項に記載のデータ構造。
(項目B4)
前記部分配列情報を総合すると、ゲノム情報を構成する、前記項目のいずれか一項に記載のデータ構造。
(項目B5)
前記部分配列情報は、単一生物単位ごとに収集されたものである、前記項目のいずれか一項に記載のデータ構造。
(項目B6)
前記部分配列情報は、それが由来する単一生物単位の識別情報(ID情報)と紐づけて格納される、前記項目のいずれか一項に記載のデータ構造。
(項目B7)
複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造を複数統合した、単一生物単位のデータ構造。
(項目B8)
前記項目のいずれか一項または複数の項に記載される1つ以上の特徴をさらに備える、項目B7に記載のデータ構造。
 本開示において、上記1又は複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供されうることが意図される。本開示のなおさらなる実施形態及び利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。
 本開示により、単一生物単位レベルでの単一生物単位配列情報をより高精度に提供することができるようになった。本開示を用いることにより、培養不可能な微生物のほぼ完全なゲノム配列の解明や、同一株の微生物間における遺伝的異質性を解析可能となった。
図1は本開示の全体概要図である。本開示は、新しく得られた単一生物単位の部分配列情報を本システムに登録されている生物系統同定用配列を用いて同一系統にクラスター化し、クラスター化された複数の単一生物単位の部分配列情報を統合して最適なドラフトゲノム配列を構築するものである。微生物ゲノムデータベースに登録されているドラフトゲノム配列は、新規の単一生物単位が測定・登録されるたびに更新され、徐々に品質が向上していくものである。 図2は本システムで使用する微生物データベース構造である。微生物ゲノムデータベースは、単一生物単位ゲノム情報とそれを統合して作成するドラフトゲノム情報で構築される。ドラフトゲノム情報には、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、コンティグ数、N50統計値、GC含量などのゲノム配列に付随するデータを記録する。1つのドラフトゲノム情報には複数のアセンブル塩基配列と遺伝子情報が対応付けられる。遺伝子情報には遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどの遺伝子に付随するデータを記録する。1つの遺伝子情報には1つの遺伝子塩基配列が対応付けられる。単一生物単位ゲノム情報も、ドラフトゲノム情報と同等のデータが付随される。ドラフトゲノム情報と同様に、1つの単一生物単位ゲノム情報には複数のアセンブル塩基配列、遺伝子情報が対応付けられ、1つの遺伝子情報には1つの遺伝子塩基配列が対応付けられる。また、1つの単一生物単位ゲノム情報には複数の部分塩基配列が対応付けられる。 図3は微生物データベースにより新規測定された単一生物単位を同一系統にクラスター化する手法である。単一生物単位のゲノムDNAをDNAシーケンサーで測定し、部分塩基配列を取得する。部分塩基配列に対してアセンブルを行い、アセンブル塩基配列を取得する。アセンブル塩基配列に対し遺伝子同定を行い、遺伝子塩基配列を取得する。各遺伝子塩基配列に対してタンパク質データベース等を用いて機能推定を行い、遺伝子情報を取得する。同時にアセンブル塩基配列に対して系統分類を行い、暫定系統分類情報を取得する。また、アセンブル塩基配列の品質を評価し、ゲノム情報を取得する。単一生物単位を解析して得られた部分塩基配列、ゲノム情報、アセンブル塩基配列、系統分類情報、遺伝子情報、遺伝子塩基配列を単一生物単位ゲノムデータとする。微生物ゲノムデータベースから、系統分類情報を用いて同一系統のドラフトゲノム情報を検索する。さらにドラフトゲノム情報に対応する遺伝子情報をもとに、生物系統同定用配列とそのタンパク質ファミリーを取得する。取得したタンパク質ファミリーと同じタンパク質ファミリーをもつ遺伝子情報と遺伝子塩基配列を単一生物単位ゲノムデータから抽出し、ドラフトゲノムの生物系統同定用配列と単一生物単位ゲノムの対応遺伝子塩基配列の組み合わせで相同性を計算する。ある一定の相同性以下の組み合わせは後述の処理から除外する。生物系統同定用配列で最も相同性の高い遺伝子を単一生物単位の生物系統同定用配列として同定する。相同性とマッチした塩基配列長の加重平均などにより、ドラフトゲノムと単一生物単位の類似度を評価する。評価の最も高かったドラフトゲノムを単一生物単位が属するクラスターとする。万が一、複数の同一評価値のドラフトゲノムが場合は、生物系統同定用配列でなく全アセンブル塩基配列を用いて同様の評価を行い判定する。 図4は微生物データベースを使用せずに新規測定された単一生物単位を同一系統にクラスター化する手法である。微生物ゲノムデータベースに対応するドラフトゲノムがなかった単一生物単位ゲノムデータに関して、暫定系統分類により暫定的なクラスターを構築する。各暫定クラスターに所属する単一生物単位ゲノムデータは、微生物ゲノムデータベースの生物系統同定用配列を用いることで、さらに分割すべきかどうかの判断を行う。分割の方法は図6で示される。 図5は微生物データベースに登録されている遺伝子情報を用いて、新たに生物系統同定用配列を同定する手法である。微生物ゲノムデータベースは、データが蓄積されるに従い、徐々にドラフトゲノム情報や対応する遺伝子情報の品質が向上していく。そこで、本システムにおいては、高品質ドラフトゲノム情報と遺伝子情報から新たな生物系統同定用配列の再同定方法を実装する。微生物ゲノムデータベースから登録されているドラフトゲノムごとに対応するタンパク質ファミリーを抽出しその出現頻度を計算し、出現頻度行列を作成する。このとき、品質の悪いドラフトゲノムは除外してもよい。出現頻度行列において、1つのドラフトゲノムに対し複数の頻度で表れているタンパク質ファミリーは、コンタミの可能性があるため除外する。ただ1つのタンパク質ファミリーが対応している場合、そのタンパク質ファミリーはシングルコピー遺伝子として同定する。タンパク質ファミリーのシングルコピー遺伝子が全ドラフトゲノム内に一定以上の割合で存在する場合、そのタンパク質ファミリーが対応する遺伝子は生物系統同定用配列候補である。割合の多い順でソートして、ある基準値以上(例えば90%以上)または上位数件を新たな生物系統同定用配列として採用する。 図6は同一系統とされたクラスター内の新規測定単一生物単位を細分化する手法である。新規測定された単一生物単位で同一クラスターと判定されたものにおいて、微生物ゲノムデータベースから抽出した生物系統同定用配列により、総当たりで各単一生物単位の類似度(距離)評価を行う。類似度(距離)行列を用いてネットワーク解析やクラスタリング解析を行い、単一生物単位を細分化する。 図7は同一系統とされたクラスター内の単一生物単位により最適ドラフトゲノムを構築する手法である。同一系統とされる新規単一生物単位ゲノムデータと、存在するならば微生物ゲノムデータベースから同一系統の単位ゲノムデータを抽出し、クラスターとする。クラスター内の単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単位ゲノムデータは以降の処理から除外される。並び替えられた単一生物単位ゲノムデータをランクの高い順に2つ選択し、暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットとする。同様にランクの高いほうから順次単一生物単位ゲノムデータを追加した暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットを複数構築する。これらの暫定ドラフトゲノム構築用単一生物単位ゲノムデータセットに対し、ccSAG法を用いて暫定ドラフトゲノムを構築する。所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて最も基準の高い暫定ドラフトゲノムを最適ドラフトゲノムとして選択する。微生物ゲノムデータベースに存在する既存のドラフトゲノムよりも基準が高い場合は、新たに作成されたドラフトゲノムを微生物ゲノムデータベースに登録、更新する。また、暫定ドラフトゲノムを構築した単一生物単位ゲノムデータ数を説明変数、基準値(例えば、コンプリート率、コンタミ率)を目的変数として暫定ドラフトゲノムの評価データを作成する。これはドラフトゲノムの品質が収束していて、単一生物単位ゲノムデータを追加してもこれ以上の改善が見込めないなどの判断を行うときに役に立つ。 図8は微生物データベースに登録されているドラフトゲノムに関して、より高品質なドラフトゲノムを構築する手法である。微生物ゲノムデータベース内のドラフトゲノムにおいて、品質が収束していると推定されるドラフトゲノムをフィニッシング対象として抽出する。抽出された単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単一生物単位ゲノムデータは以降の処理から除外される。これら抽出された単一生物単位に対し、通常行うドラフトゲノム構築よりも許容度の高いパラメータを設定してドラフトゲノムを構築する。一方で、ドラフトゲノム再構築用の単一生物単位ゲノムデータのアセンブル塩基配列とドラフトゲノムのアセンブル塩基配列を相同性検索し、ドラフトゲノムのアセンブル塩基配列を結合するためのブリッジアセンブル塩基配列を検出する。ブリッジアセンブル塩基配列が検出できた場合、それを用いてドラフトゲノムのアセンブル塩基配列を結合する。このようにして構築された2つのドラフトゲノムデータと微生物ゲノムデータベースに登録済みのドラフトゲノムデータを比較評価し、基準値の高い方を選択する。新たなドラフトゲノムデータが選択された場合、微生物ゲノムデータベースに登録し更新する。 図9は微生物データベースに登録されているドラフトゲノムに関して、より細分化するための手法である。微生物ゲノムデータベース内のドラフトゲノムにおいて、品質が収束していると推定されるドラフトゲノムを細分化対象として抽出する。抽出された単一生物単位ゲノムデータは、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて並び替えられる。ある一定の水準に達しない単一生物単位ゲノムデータは以降の処理から除外される。これら抽出された単一生物単位に対し、図6の細分化処理を実施する。細分化された各クラスターの単一生物単位ゲノムデータに対してそれぞれドラフトゲノムを構築する。細分化で構築されたドラフトゲノムデータと、微生物ゲノムデータベースに登録済みのドラフトゲノムデータを比較し、基準値の高い方を選択する。新たなドラフトゲノムデータが選択された場合、微生物ゲノムデータベースに登録し更新する。 図10は、スタンドアローンで解析を行う場合のシステム構成を示す図である。DNA塩基配列から出力された単一生物単位の部分塩基配列データは、ポータブルHDDなどの外部記憶装置を介して、解析用コンピュータの補助記憶装置に記録される。また、補助記憶装置には配列処理を行うためのプログラム群、微生物ゲノムデータベースが記録されている。プログラム及び部分塩基配列データは、補助記憶装置から主記憶装置にロードされ中央演算処理装置により処理が実行される。一連の処理はキーボード、マウスなどの入力装置によって行われ、処理の結果はモニターなどの出力装置および補助記憶装置に出力される。 図11は、クラウド解析などの、インターネットを介して処理を行うときのシステム構成を示す図である。DNA塩基配列から出力された単一生物単位の部分塩基配列データは、FTPサーバなどに記録されインターネットを介してダウンロードできるようになっている。部分塩基配列データをHPC(High-Performance Computing)システムにアップロードし、HPCシステム上で処理を行う。微生物ゲノムデータベースへはデータベースサーバを介してアクセスしてもよいし、データベース自体をHPCシステム上にダウンロードして使用してもよい。これら一連の処理は、インターネットに接続された解析用端末により行われる。 図12は、クラスターに外部データベース中の配列を追加することで高品質なゲノム配列を構築することができることを示す図である。 図13は、バイアス均質化処理の模式図である。 図14は、バイアス均質化処理前の大腸菌SAGシーケンスデータのバイアス評価および取得ゲノム配列を示す図である。 図15は、バイアス均質化処理後の大腸菌SAGシーケンスデータのバイアス評価および取得ゲノム配列を示す図である。
 以下、本開示を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本明細書において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語及び科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。
 (定義等)
 以下に本明細書において特に使用される用語の定義および/または基本的技術内容を適宜説明する。
 本明細書において、「単一生物単位」とは、遺伝情報またはその他の生体分子の情報を有する単位を指す。単一生物単位には、細胞、細胞様構造物などを含み得るが、これらに限定されず、人工的に生産したもの(いわゆる人工細胞)やデジタル上の細胞(情報として提供される)なども含み得る。
 本明細書において、「細胞」とは、遺伝情報を有する分子を内包する粒子であって、(単独で可能かどうかにかかわらず)複製されることが可能である任意の粒子を指す。本明細書における「細胞」としては、単細胞生物の細胞、細菌、多細胞生物由来の細胞、真菌などが包含される。
 本明細書において、「細胞様構造物」とは、遺伝情報を有する分子を内包する任意の粒子を指す。本明細書における「細胞様構造物」としては、細胞内小器官、例えば、ミトコンドリア、細胞核、および葉緑体、ならびにウイルスなどが包含される。
 本明細書において、「遺伝情報またはその他の生体分子の情報」とは、生体分子またはその類似体を規定する情報を指す。遺伝情報またはその他の生体分子の情報には、核酸、アミノ酸、脂質もしくは糖鎖またはそれらの類似体の構造情報などを含み得るが、これらに限定されず、代謝物質などの生体内分子またはその類似体の相互作用の多様性情報なども含み得る。「遺伝情報」は、「核酸情報」とも称され、両者は同義である。
 本明細書において、「生体分子」とは、任意の生物またはウイルスが有する分子を指す。生体内分子には、核酸、タンパク質、糖鎖または脂質などを含み得る。本明細書において、「生体分子の類似体」とは、生体分子の天然または非天然の変種を指す。生体内分子の類似体には、修飾核酸、修飾アミノ酸、修飾脂質または修飾糖鎖などを含み得る。
 本明細書において、「集合」とは、2つ以上の単一生物単位、細胞または細胞用構造物を含む集まりをいう。
 本明細書において、「サブ集合」とは、「集合」と一緒に使用される場合、集合よりも少ない数の単一生物単位、細胞または細胞用構造を有する集合の一部分を指す。
 本明細書において、「ゲル」とは、コロイド溶液(ゾル)において、高分子物質またはコロイド粒子がその相互作用により全体として網目構造をつくり、溶媒あるいは分散媒である液相を多量に含んだまま流動性を失った状態のことをいう。本明細書において、「ゲル化」とは、溶液を「ゲル」の状態に変化させることをいう。
 本明細書において、「カプセル」とは、その中に細胞または細胞様構造物を保持することが可能な形状のものを指す。本明細書において、「ゲルカプセル」とは、その中に細胞または細胞様構造物を保持することが可能なゲル状の微粒子状構造体を指す。
 本明細書において、「遺伝子分析」とは生体サンプル中の核酸(DNA、RNA等)の状態を調べることをいう。1つの実施形態では、遺伝子分析は、核酸増幅反応を利用するものを挙げることができる。これらを含め、遺伝子分析の例としては、配列決定、遺伝子型判定・多型分析(SNP分析、コピー数多型、制限酵素断片長多型、リピート数多型)、発現解析、蛍光消光プローブ(Quenching Probe:Q-Probe)、SYBR green法、融解曲線分析、リアルタイムPCR、定量RT-PCR、デジタルPCRなどを挙げることができる。
 本明細書において「単一生物単位レベル」とは、1つの単一生物単位に含まれる遺伝情報またはその他の生体分子の情報に対して、他の単一生物単位に含まれる遺伝情報またはその他の生体分子の情報と区別し得る状態で処理を行うことをいう。
 本明細書において、「シングルセルレベル」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報に対して、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で処理を行うことをいう。例えば、「単一生物単位レベル」または「シングルセルレベル」でのポリヌクレオチドを増幅する場合、それぞれある単一生物単位、またはある細胞もしくは細胞様構造物中のポリヌクレオチドと、他の単一生物単位、または他の細胞もしくは細胞様構造物中のポリヌクレオチドが区別可能な状態でそれぞれの増幅が行われる。本開示の一実施形態において、当該ポリヌクレオチドを増幅用試薬に接触させて当該ポリヌクレオチドをゲルカプセル内で増幅する工程は、当該ポリヌクレオチドをゲルカプセル内でゲル状態を保ちながら増幅することもできる。
 本明細書において、「単一生物単位解析」とは、1つの単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報を、他の単一生物単位(例えば、細胞または細胞様構造物)に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
 本明細書において、「シングルセル解析」とは、1つの細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報を、他の細胞または細胞様構造物に含まれる遺伝情報またはその他の生体分子の情報と区別した状態で解析することを指す。
 本明細書において、「遺伝情報」とは、1つの細胞または細胞様構造物に含まれる遺伝子その他情報をコードする核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
 本明細書において、「生体分子の情報」とは、1つの細胞または細胞様構造物に含まれる生体分子(核酸の他、核酸以外には、タンパク質、糖、脂質なども含まれる。)またはその類似体の情報を指し、特定の生体分子の構造または配列の有無、構造または配列の同一性、特定の生体分子の収量および全生体分子の収量を含む。
 本明細書において、「核酸情報」とは、1つの細胞または細胞様構造物に含まれる核酸の情報を指し、特定の遺伝子配列の有無、特定の遺伝子の収量または全核酸収量を含む。
 本明細書において、「同一性」とは、2つの生体分子間の構造または配列の類似性を指す。対象が配列の場合、同一性は、比較のためにアライメントしうる各配列中の位置を比較することによって決定することもできる。
 本明細書において、「ロングリードシーケンス」とは、長いリード(解析するために断片化したヌクレオチド鎖)を用いて全体配列のシーケンスを行う手法である。一般的に、ロングリードシーケンスは、400塩基以上の長さのリードで解読を行う。 
 (好ましい実施形態)
 以下に好ましい実施形態の説明を記載するが、この実施形態は本開示の例示であり、本開示の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。当業者はまた、以下のような好ましい実施例を参考にして、本発明の範囲内にある改変、変更などを容易に行うことができることが理解されるべきである。これらの実施形態について、当業者は適宜、1または複数の任意の実施形態を組み合わせ得る。
 (配列情報処理)
 1つの局面において、本開示は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法を提供する。この方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本開示の単位生物単位ゲノムとの対応は図2に例示されている。
 ステップ(B)は、任意工程であり、データベースを利用してもよく、しなくてもよい。このように、クラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
 分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本開示は、単一(single)生物単位(例えば、細胞)の配列情報を処理する方法を提供し、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップとを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するタンパク質ファミリーをマーカー遺伝子として採用することができる。本開示は、単一(single)生物単位の配列情報を処理する方法であって、該方法は:A)データベースから、ドラフト内で重複のない遺伝子(シングルコピー遺伝子)候補を抽出するステップと、B)前記遺伝子ごとに対応しているドラフトの個数(または割合)を計算するステップと、C)前記対応ドラフトの個数(または割合)の多い順にソートし、所定値以上の遺伝子(または上位から任意数の遺伝子)をマーカー遺伝子候補として選択するステップとを含む方法を提供する。
 1つの局面では、本開示は、単一生物単位の配列情報を処理する方法であって、該方法は:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築するステップと、(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するステップとを含む。(E’)を繰り返すことが好ましい。SAGの数を変更しながらドラフト作成を繰り返すことが好ましいからである。一部の実施形態において、単一生物単位の配列情報ドラフトを作成するステップとして、上記(D)~(E’)を行ってもよい。この局面の模式図は、図7に示されている。
 1つの好ましい実施形態では、本開示の単一生物単位の配列情報を処理する方法は、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、ステップ(D)、(E)および(E’)を繰り返すステップとを含む。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
 1つの局面において、部分配列情報はSAGである。特定の局面において、本開示は、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法を提供する。この局面において、本開示は、単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップとを含む。
 ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。
 好ましい実施形態では、本開示において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
 本開示はまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本開示は、単一生物単位の配列情報を処理する方法であって、該方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価し、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップとを含む。
 本開示において、これらの方法の各ステップは、適宜組み合わせられることが理解される。一部の実施形態において、単一(single)生物単位の配列情報の処理および生物系統同定用配列候補のスクリーニングを行う際、これらをコンピュータに実行させる指令を発する場所と、指令を受けて実際にこれらの処理等が実施される場所がことなってもよい。他の実施形態において、本開示の方法の各処理はコンピュータにより実行され得る。別の実施形態において、本開示のデータベースは、本開示のクラスタリング又は配列解析手法により生成されたデータベースでも、本開示のクラスタリング又は配列解析手法とは独立して生成されたデータベースであってもよい。好ましい実施形態において、本開示のクラスタリング又は配列解析手法とは独立して生成されたデータベースは、シングルセル増幅に基づき増幅された配列をシーケンシングした得られたデータのデータベースであり得る。従来技術では、他のデータベース中の配列を追加が配列の品質低下につながると考えられていたが、実際には他のデータベースの配列をクラスターに追加することで、配列の品質が改善することを見出した。
 一部の実施形態において、シーケンスデータからドラフトゲノムを構築する際に、多数の重複読み取りが認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正(均質化)を行ってもよい。均質化処理を行ったシーケンスデータのクラスタリング応じて、均質化シーケンスデータから作成したゲノム配列を参照配列に用いて繰り返し均質化処理を行うことで、ゲノムクオリティのさらなる改善が見込まれる。均質化処理に供する部分配列情報がロングリードシーケンスにより読まれている場合、ゲノムクオリティのより一層の改善が見込まれる。
 単一生物単位に由来する配列のドラフトゲノムを構築する場合、データ自体がクリーン且つ一定度のゲノム完全性をもつものであること、複数のシングルセルデータがまとまってえられていることが前提となるが従来の技術では実現できず、本開示により初めて実現された。また、単一生物単位に由来する配列のドラフトゲノムを、ロングリードシーケンスにより解読されたことはなかった。また、単一生物単位に由来する配列では、キメラ(本来つながっていない離れたゲノム配列が、増幅時のエラーなどで生じ、あやまって解読された配列データが生まれること)を生んでしまうという課題があることが認識されていたため、キメラおよび高い増幅バイアスを有するシングルセルデータに適したロングリードアセンブリシステムは開発されていなかった。本開示を活用することにより、複数のシングルセルゲノムを参照し、マッピングとアセンブリを繰り返すことで、このバイアスを大幅に低減することができ、これにより、極めて正確なゲノム配列が得られるようになった。
 シングルセル由来のゲノム配列などの増幅DNAのシーケンスではバイアスが発生することがよく知られている。この点、従来の方法では均質化処理(バイアスを低減する)は、酵素反応や反応条件を工夫して、増幅時にバイアス自体を生じにくくする (Nishikawa et al. PLoS ONE)または、増幅後に生じたバイアスを減退させるためにDNAを積極的に分解するなどの方法が取られていた。しかしながら、これらの方法では、バイアスを完全に取り除くことはできないという課題があった。本開示では、バイアスが生じたデータであっても in silicoで処理を実行するため、上記のような特別な反応系の工夫がなくデータを均質化できる。なお、このときもデータ自体がクリーンであり、複数個に由来することが前提であるため本開示で利用される方法でしか実行できなかった。従来の方法では、ゲノム配列の正しさは近縁種のリファレンスゲノムに対しマッピングなどを行い、バイアスやギャップ部などが評価され、配列補正を実施するが、本開示で利用される方法は、均質化処理時に近縁種リファレンスゲノムが存在しなくても、同一種の複数データを統合的に解析することで、自己データを参照し、均質化処理を実行できるため、リファレンス配列のない未知微生物サンプルのデータも均質化できる点で従来技術と比して顕著に優れた効果を奏する。また、未知微生物の完全ゲノム解読において非常に有効である。さらに、ゲノム中の遺伝子クラスター位置が特定できていない細胞においても、培養することなく、遺伝子クラスターを、ギャップなく、まるごと配列を解読でき、その機能を詳しく知ることができるようになる。また、この遺伝子クラスターを扱いやすい別の生物に導入して、狙った物質を作らせるような研究開発も可能である。以下のような応用例・仮想実施例が期待される。
・抗生物質耐性遺伝子・耐性株のサーベイランス
・微生物ゲノムシーケンスのfinishing (環状ゲノムとしてクロージングすること)(基本的に培養株以外では、クロージングできることは稀だった)
・生合成遺伝子クラスター の獲得
・合成生物学による微生物ホストの遺伝子改変評価
・ゲノム構造変異と各種代謝機能/ホスト生物への影響評価。
 (プログラムおよび記録媒体)
 1つの局面において、本開示は、 単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するステップと、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップと、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップとを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本開示の単位生物単位ゲノムとの対応は図2に例示されている。
 ステップ(B)は、任意工程であり、データベースを利用してもよく、しなくてもよい。このように、クラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
 分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本開示は、単一(single)生物単位(例えば、細胞)の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定するステップとを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本開示は、単一(single)生物単位の配列情報を処理する方法をコンピュータに実装することを指示するプログラムまたはプログラムを格納する記録媒体であって、該方法は:A)データベースから、ドラフト内で重複のない遺伝子(シングルコピー遺伝子)候補を抽出するステップと、B)前記遺伝子ごとに対応しているドラフトの個数(または割合)を計算するステップと、C)前記対応ドラフトの個数(または割合)の多い順にソートし、所定値以上の遺伝子(または上位から任意数の遺伝子)をマーカー遺伝子候補として選択するステップとを含むプログラムまたは記録媒体を提供する。
 1つの局面では、本開示は、単一生物単位の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築するステップと、(E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するステップとを含む。(E’)を繰り返すことが好ましい。SAGの数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
 1つの好ましい実施形態では、本開示のプログラムが実装する単一生物単位の配列情報を処理する方法は、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、(G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、ステップ(D)、(E)および(E’)を繰り返すステップとを含む。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
 別の局面において、本開示のプログラムは、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法をコードする。この局面において、本開示は、単一生物単位の配列情報を処理する方法をコンピュータの実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップとを含む。
 ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。好ましい実施形態では、本開示において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
 本開示のプログラムはまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本開示は、単一生物単位の配列情報を処理する方法をコンピュータに実装することを指示するコンピュータプログラムおよびこのプログラムを格納する記録媒体(例えば、CD-R、フラッシュメモリ、ハードディスク、伝送媒体、クラウドなど)を提供する。このプログラムが実装するこの方法は:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けするステップと、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、(E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価し、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップとを含む。
 別の局面において、本開示は、複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造を提供する。一つの実施形態では、前記データ構造に含まれる部分配列情報は、2以上の独立してクラスター化されて生成されたデータベースに由来するものである。一つの実施形態では、
独立してなされたクラスター化に関連する情報が、前記部分配列情報に紐づけて格納される。一つの実施形態では、部分配列情報を総合すると、ゲノム情報を構成する。一つの実施形態では、部分配列情報は、単一生物単位ごとに収集されたものである。一つの実施形態では、部分配列情報は、それが由来する単一生物単位の識別情報(ID情報)と紐づけて格納される。
 別の実施形態では、本開示は複数の単一生物単位の配列情報の部分配列情報が、生物系統同定用配列に基づいて、同一系統ごとにクラスター化されて含まれる、データ構造を複数統合した、単一生物単位のデータ構造を提供する。シングルセル等の単一生物単位を統合した高品質なデータベースは従来存在せず本開示が初めて提供するものである。
 (システム)
 1つの局面において、本開示は、単一(single)生物単位(例えば、細胞または細胞構造物)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報(例えば、ゲノム、トランスクリプトーム、プロテオーム、または同等の遺伝子等の集合)の部分配列情報について、生物系統同定用配列(例えば、16S rDNAまたはマーカー遺伝子)に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)必要に応じて、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する追加情報追加部(これは、クラスタリング部と同じであっても別々であってもよい)と、(C)該単一生物単位の配列情報の部分配列情報および該データベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含む。この局面の模式図は、図1に例示されている。ドラフトゲノムと本開示の単位生物単位ゲノムとの対応は図2に例示されている。
 B)に該当する追加情報追加部は、任意であり、データベースを利用してもよく、しなくてもよい。
 このように、クラスタリング部が実現するクラスター化の手法は、データベースを利用する方法と(図3)、データベースを利用しない方法(図4)がある。データベースを利用する場合は、データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加する。データベースを利用しない場合は、新たにクラスターを生成する。
 本開示のシステムについては、分類後のデータベースから、生物系統同定用配列(マーカー)を新たに特定することも可能である。その局面では、本開示は、単一(single)生物単位(例えば、細胞)の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(B)データベース中の前記クラスターに対応する部分配列情報と、前記クラスターの部分配列情報とを比較して、部分配列ごとの類似度を算出し、所定の類似度以上の部分配列を生物系統同定用配列として同定する同定部(マーカー同定部ともいう)とを含む方法。この場合において、生物系統同定用配列は、いわゆるバイオマーカーとして使用することができる。この局面の模式図は、図5に例示されている。この局面では、登録されているドラフトゲノムに対するタンパク質ファミリーを抽出し、ドラフトゲノムとタンパク質ファミリーの対応行列を作成する。対応するタンパク質ファミリーが1であるシングルコピー遺伝子の割合を計算する。その中でドラフトゲノム全体に存在するようないタンパク質ファミリーをマーカー遺伝子として採用することができる。本開示は、単一(single)生物単位の配列情報を処理するためのシステムであって、A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、B)前記遺伝子ごとに対応しているドラフトの個数または割合を計算する計算部と、C)前記対応ドラフトの個数または割合が所定の値以上の遺伝子をマーカー遺伝子候補として選択する選択部とを含むシステムを提供する。
 1つの局面では、本開示は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けする順位付け部と、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(この長さは、一部であってもよく、全長であり得る。)のドラフトを構築し、該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて選択するドラフト構築部とを含む。ドラフト作製は複数回繰り返すことが好ましい。部分配列情報(例えば、SAGs)の数を変更しながらドラフト作成を繰り返すことが好ましいからである。この局面の模式図は、図7に示されている。
 1つの好ましい実施形態では、本開示のシステムは、(F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部(これは、ドラフト構築部の一部として構成されてもよい)と、((G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部(これもまた、ドラフト構築部として構成されてもよい。)と、(G’)必要に応じて(G)を繰り返して、好ましくは該より長いドラフトが配列情報の完全長に達するまで繰り返させるドラフト構築部と、(G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段とを含む。この繰り返しはドラフト構築部などにおいて実現されることができる。より低い基準の判断基準として、例えば、より緩いパラメータを使用することができる。この局面の模式図は、図8に示されている。
 別の局面において、本開示のシステムは、SAGが「同一」のクラスター(例えば、系統、種)であると判断した直後の段階に関する局面でのクラスターの精緻化をする方法をコードする。この局面において、本開示は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部(これは、クラスタリング部で実現されてもよい。)と(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部(これもまた、クラスタリング部で実現されてもよい。)と、(I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部とを含む。
 ここで、上記評価は、抽出された部分配列情報(例えば、SAGs)をマーカー遺伝子で総当たり評価することができ、例えば各SAG間の距離により評価することができる。
 好ましい実施形態では、本開示において実施される再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる。
 本開示のシステムはまた、部分配列情報(例えば、SAGs)の数を増加させてもドラフトのクオリティが向上しなくなった後の段階の局面における処理も提供する。この局面において、本開示は、単一生物単位の配列情報を処理するシステムを提供する。このシステムは:(A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、(D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて高品質のものから順位付けする順位付け部と、(E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さ(一部であり得、全長であり得る。)のドラフトを構築するステップと、該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて評価するステップとを行うドラフト構築部と、(H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない(すなわち、一定の範囲に留まる場合)場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部(これはクラスタリング部で実現されてもよい。)と(H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部(これもまた、クラスタリング部で達成されてもよい。)とを含み、(J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準(例えば、コンプリート率、コンタミ率)に基づいて判断する判断部を含み、判断部では、その判断が妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)で実現されるステップが繰り返される。
 以上、本開示の1つまたは複数の態様に係るシステム、プログラム、記録媒体、方法について、実施の形態に基づいて説明したが、本開示は、この実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の1つまたは複数の態様の範囲内に含まれてもよい。
 また、上記各実施の形態における快不快判定装置が備える構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。例えば、本開示の配列情報を処理するシステムは、必要に応じてデータベースと組みわせられてもよいし、バイオマーカー等の機能を有する配列を特定するシステムを内包または組み合わされてもよい(図10)。
 システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 また、本開示の一局面は、このような配列情報処理装置やシステムだけではなく、機能特化したシステム(例えば、バイオマーカースクリーニング装置、薬効判定装置、診断装置など)であってもよい。また、本開示の実施形態は、配列情報処理に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
 なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の痛み推定装置などを実現するソフトウェアは、本明細書において上述したプログラムであり得る。
 (クラウド、IoTおよびAIを用いた実施形態)
 本開示の配列情報処理技術は、1つのシステムまたは装置として、すべてを含む形で提供され得る。あるいは、配列情報処理装置として分析および結果の表示を主に行い、計算や判別モデルの計算は、サーバやクラウドで行う形態も想定され得る。これらの一部または全部は、IoT(Internet of Things)および/または人工知能(AI)を用いて実施され得る(図11)。
 あるいは、配列情報処理装置が種々の計算に必要な手段も格納し、その場で分析を行うが、分析に必要な計算は、サーバやクラウドで行う形態である半スタンドアローン型の形態も想定され得る。病院等の一部の実施場所では、送受信が常にできると限らないことから、遮蔽した場合でも使えるモデルを想定したものである。
 保存部は、例えば、CD-R、DVD、Blueray、USB、SSD、ハードディスクなどの記録媒体であってもよく、サーバに格納されてもよく、クラウド上に適宜記録される形式でもよい。
 このようなクラウドサービスとしては、おおむね、「Software as service (SaaS)」が該当する。配列情報処理装置は、実験室環境でのデータから作られた判別アルゴリズムを搭載していると考えられることから、これらの実施形態の2つまたは3つの特徴を備えるシステムとして提供されてもよい。
 データ保存も必要に応じてなされ得る。データ保存は通常サーバ側に備えられるが、全装備型の場合はもとより、クラウド型の場合でも端末側にあってもよい(任意である)。クラウドでサービスを提供する場合、データ保存は、標準(例えば、クラウドに10Gバイトまで)、オプション1(例えば、クラウドに10Tバイト増量)、オプション2(クラウドにパラメータ設定して分割保存)、オプション3(クラウドに分析オプション保存)のオプションを提供し得る。データを保存して、販売されたすべての装置からデータを吸い上げてビッグデータ(例えば、配列データベース)を作り、分析モデルを継時的に更新したり、新たなモデルを構築して、例えば、「疾患判定モデル」とかのように新たな判別モデルソフトウェアを提供することができる。
 また、データ解析オプションを有していてもよい。ここでは、サービス提供受領者の要求などを提供することができる。すなわち、計算方法のオプションとして想定され得る。
 本明細書において「または」は、文章中に列挙されている事項の「少なくとも1つ以上」を採用できるときに使用される。「もしくは」も同様である。本明細書において「2つの値の範囲内」と明記した場合、その範囲には2つの値自体も含む。
 本明細書において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本明細書において参考として援用される。
 以上、本開示を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明および以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、特許請求の範囲によってのみ限定される。
 以下に実施例を記載する。
 試薬類は具体的には実施例中に記載した製品を使用したが、他メーカーの同等品でも代用可能である。
(実施例1)
(ドラフトゲノム作成法)
(方法)
(細胞株サンプル調製)
 Hosokawaらから、E. coli K12(ATCC 10798)およびB. subtilis(ATCC 6633)のそれぞれについてそれぞれ12個のSAGデータを得た。Hosokawaらの論文では、これらの細胞はATCCから入手した。E. coli K12をルリア-ベルターニ(LB)培地(1.0%バクトトリプトン、0.5%酵母エキス、1.0%NaCl、pH7.0)中で培養した。B. subtilisをブレインハートインフュージョンブロス(ATCC培地44、Thermo
 Fisher Scientific, San Jose, CA, USA)中で培養した。回収した細胞をUV処理したリン酸緩衝生理食塩水(-)(PBS、Thermo Fisher Scientific)で3回洗浄し、単一液滴MDAおよびシーケンシングに供した。
 (マウス腸内微生物叢の調製)
 7週齢のオスのICRマウス(Tokyo Laboratory Animals Science Co., Ltd., Tokyo, Japan)から糞便を回収し、PBS中でホモジナイズした。上清を2000×gで2秒間の遠心分離によって回収し、15000×gで3分間遠心分離した。得られた細胞ペレットをPBSで2回洗浄し、最後にPBSに再懸濁した。
(単一液滴MDA)
 マイクロ流体液滴発生器およびMDA反応装置を製造し、Hosokawaらの報告に従って単一小滴MDAに使用した。分析前に、細胞懸濁液を0.1細胞/液滴となる濃度に調整して、単一の液滴中に複数の細胞が封入されるのを防いだ。液滴発生器を使用して、単一の微生物細胞を溶解緩衝液D2(QIAGEN、Hilden、Germany)中に封入し、そして65℃で10分間溶解した。次に細胞溶解物を液滴融合装置に注入し、Tween-20およびEvaGreenを加えたMDA反応混合液(REPLI-g
 Single Cell Kit、QIAGEN)の液滴と混合した。 PCRチューブに回収した後、液滴を30℃で2時間、65℃で3分間インキュベートした。シングルセルシーケンシングについて、蛍光標識された液滴を個々にピックし、オープンクリーンベンチ(KOACH 500-F、KOKEN LTD、東京、日本)の下でマイクロピペットによって新鮮なMDA反応混合物に移した。30℃で2時間のインキュベーション後、酵素を65℃で3分間失活させた。
(16S rDNA配列決定)
 単一細胞からの増幅を確認するために、16S rRNA遺伝子フラグメントV3-V4を増幅し、単一液滴MDAによって得られたSAGからのサンガーシーケンシングによってシーケンシングした。系統学的分布を比較するために、腸内細菌叢のメタゲノムサンプルから16S rRNAフラグメント(V3-V4)を増幅し、MiSeq(Illumina、San Diego、CA、USA)によってシーケンシングした。ペアエンドリードを連結させ、トリミングし、そしてUPARSEにより97%の同一性で分類単位にクラスター化した。分類はRDP分類子で決定された。
(ライブラリー調製と全ゲノムシーケンシング)
Nextera XT DNAサンプル調製キット(Illumina)とNextera XT Index Kitを使用して、単一細胞シーケンシング用のIlluminaライブラリーを単一液滴MDAの生成物から調製した。次いで、ライブラリーを2×300のペアエンドリードでIllumina MiSeqシステム上でシーケンシングした。
(SAG読み取りの品質管理および相互参照コンティグの構築(ccSAGのステップ1))
 SAGを、99%以上の16S rRNA類似性および95%以上のANIに基づいて最初に分類した。ヌクレオチド同一性を、全長の生SAGコンティグ間のペアワイズBLASTによって推定し、500bp以上にわたって計算した。次に、グループ化したSAGリードを、FASTXツールキット(http://hannonlab.cshl.edu/fastx _toolkit /)およびPRINSEQを使用して事前にフィルター処理し、低品質のリード(50%以上の塩基が品質スコア<25のもの)を取り除き、低品質(品質スコア<20のもの)のリードの3末端をトリミングし、短い読み取り(<20bp)および1%の塩基が識別されていないリードを取り除き、事前フィルター処理後にペアを形成していないリードを破棄した。その後、options-care
ful-disable-rr-scでSPAdes-3.9.0を使用して、生のSAGリードからコンティグを新たに個別にアセンブルした。最後に、相互参照マッピングのために500 bp以上の生SAGコンティグを収集した。
(相互参照マッピングによるキメラリードの除去(ccSAGの工程2))
 1つのSAGからの品質管理されたリードを、同じグループ内の他のSAGから構築された複数の生コンティグにBWAによってマッピングした。参照コンティグに対する完全アラインメントが部分アラインメント(ソフトクリッピング)と同等またはそれ以上の頻度である場合、リードはクリーンであると見なしたが、部分アラインメントが完全アラインメントより頻繁である場合は潜在的にキメラであると見なした。次いで、潜在的なキメラをアラインメントするフラグメントおよびアラインメントしないフラグメントに分割し、次いでそれらを複数の生のコンティグに再マッピングし、そして記載のように再分類した。最後に、完全にアラインメントしていないリードおよび20bpより短い断片化されたキメラを、マッピングされないものとして廃棄した。相互参照マッピングおよびキメラ分割のサイクルを、部分的にアラインメントした、潜在的にキメラなリードが検出されなくなるまで繰り返した。
(クリーンなSAGとコンティグエクステンションの共組み立て(ccSAGのステップ3))
 各SAGからのクリーンなリードを、SPAdeを使用してクリーンな複合SAGコンティグに新規にコアセンブリした。同様に、生のSAGリードを生の複合SAGコンティグに新規にコアセンブリした。クリーンな複合体コンティグ間のギャップを、生の複合体コンティグに対するBLASTマッピングによって埋めた。簡潔に言うと、複合体コンティグをクリーンにするために、潜在的に使用可能な生の複合体コンティグとして、99%以上の同一性のものを識別した。このような生の複合体コンティグを次いで、データベースに回収し、BLASTによりクリーンな複合体コンティグをマッピングし、得られたアラインメントに基づいてギャップを埋めることにより、複合体の単一細胞ゲノムを本質的に含む、ギャップを埋められた複合体SAGコンティグを生成した。
 SAGアセンブリの分析:アセンブリ品質をQUASTで評価した(Gurevich
 A et al., Bioinformatics. 2013 Apr 15;29(8):1072-5.)。細胞株の分析について、fプラスミドおよびλファージ配列を伴うNC_00913 (E. coli substrain MG1655)のゲノム、または、NC_014479 (Bacillus subtilis subsp. spizizenii str. W23)ののゲノムのすべての配列データをNCBI参照ゲノムにマッピングした。この実施例によって得られた培養していない細胞ゲノムの分析のために、架橋した複合SAGコンティグを参照として用いて、潜在的なミスアセンブリを同定し、各々のSAGのゲノム部分を決定した。完全性(コンプリート)と汚染(コンタミ)をCheckMで評価した(Parks DH et al., Genome Res. 2015 Jul;25(7):1043-55.)。分類は、AMPHORA2またはRNAmmerにおける16S rDNA配列のBLAST検索によって行った(Lagesen K et al., Nucleic Acids Res. 2007;35(9):3100-8.)。遺伝子経路分析を、KAAS(Moriya Y et al., Nucleic Acids Res. 2007 Jul;35(Web Server issue):W182-5.)およびMAPLE(Takami H et al., DNA Res. 2016 Jul 3. pii: dsw030.)で行った。他方、アセンブリグラフは、Bandage(Wick RR et al., Bioinformatics. 2015 Oct 15;31(20):3350-2.)で生成した。SNPの分析について、各々のシングルセル増幅したゲノムを架橋複合SAGコンティグのコード配列に対してマッピングした。次いで、ヌクレオチドを少なくとも5つのリードのカバレッジ深さについてスクリーニングした。ここで、99.9%のリードは、参照とマッチせず、均質な塩基(核酸配列)を示した。その後、同じ系統において複数のマッチングしたSAGsおよびマッチングしないSAGsの両方を含んだヌクレオチド部位は、SNPsとして同定した。
(実施例2)微生物ゲノムデータベース構築
 図2は本開示で使用するための微生物ゲノムデータベース構成である。ここでは、微生物ゲノムデータベースをリレーショナルデータベースシステムにて構築する場合の実施例を示す。主に、中央処理装置(CPU)、主記憶装置、補助記憶装置、入出力装置、その他周辺機器からなるコンピュータシステム上にオペレーティングシステムおよびリレーショナルデータベース管理システムをインストールする。図2に示すように、リレーショナルデータベース上に、ドラフトゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、単一生物単位ゲノム情報、それに対応するアセンブル塩基配列、遺伝子情報、遺伝子塩基配列、および部分塩基配列情報を保存するためのテーブルを作成する。アセンブル塩基配列、遺伝子塩基配列、部分塩基配列に関しては、実データはリレーショナルデータベース外に保存し、実データへの参照をテーブルに保存する形態を取ることも可能である。ドラフトゲノム情報テーブルには、ドラフトゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、品質カテゴリー、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。暫定系統分類は、アセンブル塩基配列を専用解析ツール(例えばcheckmなど)で解析して得られる生物系統分類の情報である。これによりドラフトゲノムの大まかな系統を同定することができる。品質カテゴリーはドラフトゲノムの状態を示すためのものである。これは国際規格などに準じたカテゴリーにするのが望ましい。ドラフトゲノムの遺伝子情報テーブルには、ドラフトゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、マーカータイプ、シングルコピーなどが挙げられる。タンパク質ファミリーは、タンパク質データベースとの相同性解析などにより得られる情報である。マーカータイプは、系統分類などで使用するためのマーカーかどうかを記すためのものである。シングルコピーは遺伝子がシングルコピー遺伝子であるかどうかを表すものである。図5の手法でシングルコピー遺伝子は同定できる。単一生物単位ゲノム情報テーブルには、単一生物単位ゲノムに付随する情報を保存するための列を作成する。例えば、暫定系統分類、コンプリート率、コンタミ率、ゲノムサイズ、コンティグ数、N50値、GC含量などが挙げられる。単一生物単位ゲノムの遺伝子情報テーブルには、単一生物単位ゲノムの遺伝子に付随する情報を保存するための列を作成する。例えば、遺伝子名、遺伝子長さ、タンパク質ファミリー、GC含量、シングルコピーなどが挙げられる。それ以外の各塩基配列テーブルは、塩基配列(外部ファイルとする場合はその参照)を保存するための列を作成する。それぞれのテーブルには、データを唯一に識別するためのID列を用意しておくことが好ましい。ドラフトゲノム情報と単一生物単位ゲノム情報は1対多の関係をもつ。ゲノム情報とアセンブル塩基配列は1対多の対応をもつ。ゲノム情報と遺伝子情報は1対多の関係をもつ。遺伝子情報と遺伝子塩基配列は1対1の対応をもつ。単一生物単位ゲノム情報と部分塩基配列は1対多の対応をもつ。
(実施例3)微生物ゲノムデータベースによる単一生物単位ゲノムのクラスター化
 図3は複数の単一生物単位の部分塩基配列が得られたときに、それらを同一系統のクラスターとしてまとめる方法を示したものである。例えば、単一生物単位のゲノムDNAをIlluminaなどのDNAシーケンサーで解析し、fastqなどの塩基配列ファイルを取得できたとする。Fastqファイルには部分塩基配列が記述されている。取得したfastqファイルを解析用のコンピュータへ保存する。Fastqファイル内の部分塩基配列には、アダプター配列が混在したものや品質の低い部分塩基配列が存在する。これら低品質の部分塩基配列は、fastqcなどの品質管理ツールを用いて削除しておく。このfastqファイルをSpadesなどのアセンブルツールでアセンブルしアセンブル塩基配列を取得する。アセンブル塩基配列は、quastやcheckmなどの評価ツールを用いてコンティグ数やゲノムサイズ、コンプリート率、コンタミ率などの評価値を計算しておく。次にアセンブル塩基配列から遺伝子を同定する。遺伝子の同定にはProkkaやDFASTなどの遺伝子アノテーションツールを用いる。同定された遺伝子塩基配列は、Pfamなどのタンパク質データベースを検索することで、タンパク質ファミリーなどの機能情報を取得することができる。最後にcheckmなどの系統分類が可能なツールを使い、暫定的な系統分類情報を計算しておく。ここまでが単一生物単位の部分塩基配列に関して行う前処理となる。
 単一生物単位ゲノム解析が完了したら、微生物ゲノムデータベースのドラフトゲノム情報テーブルの暫定系統分類を参照し、対応するドラフトゲノム情報と遺伝子情報を抽出する。遺伝子情報のマーカータイプを参照し、生物系統同定用配列を取得する。生物系統同定用配列のタンパク質ファミリーと同じタンパク質ファミリーをもつ遺伝子を単一生物単位ゲノムデータの遺伝子情報から抽出する。もし対応する遺伝子情報がなければこの処理は終了し次の処理へ移行する。対応する遺伝子情報があれば、単位ゲノムデータの遺伝子塩基配列と生物系統同定用配列を総当たりでBLASTなどの相同性解析ツールにより相同性検索を行う。ある一定の閾値以上の相同性をもつペアだけを対象とするため、一定の閾値以下(例えば相同性70%以下)のペアは除外する。各生物系統同定用配列において最も相同性の高い単位ゲノムデータの遺伝子塩基配列を検出し、マッチした塩基配列長と相同性の加重平均を求め2つのゲノム間の類似度(距離)とする。万が一、複数の同一類似度をもつドラフトゲノムが検出された場合、生物系統同定用配列ではなく、アセンブル塩基配列同士を総当たりで相同性検索し、生物系統同定用配列と同様の処理を行い、類似度を計算する。最も類似度の高いドラフトゲノムをクラスター化の基準とする。
(実施例4)単一生物単位ゲノムのクラスター化
 図4は新規で測定した単一生物単位ゲノムデータにおいて、微生物ゲノムデータベースに対応するドラフトゲノムがなかった時に同一系統のクラスターを作成するための方法を示したものである。ここでは、実施例2で示した前処理により各単一生物単位ゲノムデータ(部分塩基配列、ゲノム情報、アセンブル塩基配列、暫定系統分類、遺伝子情報、遺伝子塩基破裂)がすでに得られているものとして実施例を進める。暫定系統分類により、同一系統の単一生物単位ゲノムデータをクラスター化する。暫定系統分類はcheckmなどのツールを使用してアセンブル塩基配列を処理することで決定されるが、単一生物単位のアセンブル塩基配列はゲノム全体をカバーしていないことも多いため、系統分類が大雑把であることも多く、いろいろな系統の生物が混在したクラスターを作り上げている可能性が高い。そこで、微生物ゲノムデータベースに登録されている生物系統同定用配列を用いてクラスター内の単一生物単位ゲノムデータが細分できないかどうかを評価する。図6は、同一系統のクラスターとされた単一生物単位ゲノムデータを細分化する方法を示したものである。微生物ゲノムデータベースに登録されている遺伝子情報テーブルのマーカータイプを参照し、生物系統同定用配列とそれに対応するタンパク質ファミリーを取得する。実施例2で示したゲノム間の類似度を求める方法と同様の方法で、生物系統同定用配列を使用してクラスター内の単一生物単位ゲノムデータに対し総当たりで類似度を計算する。ここで求められた類似度行列を統計処理ソフトウェアであるRなどにより読み込みネットワーク解析を行う。Rの場合はigraph関数がネットワーク解析関数として利用できる。次にネットワーク解析の出力からコミュニティを検出する。Rにおいてコミュニティ検出は、エッジ媒介中心性に基づく方法、ランダムウォークに基づく方法、貪欲アルゴリズムに基づく方法、固有ベクトルに基づく方法、多段階最適化に基づく方法、スピングラス法に基づく方法、ラベル伝搬法に基づく方法、Infomap法に基づく方法などが実装されている。検出されたコミュニティに基づき、単一生物単位ゲノムデータを細分化する。ここでは細分化にネットワーク解析とコミュニティ検出を用いた例を示したが、階層(非階層)クラスタリングを用いて細分化を行う方法も考えられる。ただしこの場合、類似度を計算するための共通した生物系統同定用配列が2つの単一生物単位ゲノムデータ間になかった場合、類似度が欠損値となってしまいクラスタリング解析を行うことができなくなってしまう。そのためどちらかと言えば、欠損値があった場合でも対応できるネットワーク解析とコミュニティ検出を用いることが好ましいと考えられる。
(実施例5)新規生物系統同定用配列の同定
 図5は微生物ゲノムデータベースに登録されているドラフトゲノムの遺伝子情報から、系統分類を行うための新規生物系統同定用配列を同定する方法を示している。微生物ゲノムデータベースに登録されているドラフトゲノム情報とドラフトゲノム遺伝子情報を用いて、図5に示すようなドラフトゲノムに対応する遺伝子ファミリーの頻度表を作成する。頻度表の1を示すセルは、そのドラフトゲノム内においてシングルコピー遺伝子であることを示している。生物系統同定用配列はシングルコピー遺伝子であるべきなので、シングルコピー遺伝子以外のセルは無視する。各タンパク質ファミリーにおいて、ドラフトゲノム全体に存在するシングルコピー遺伝子の割合を計算する。シングルコピー遺伝子が多くのドラフトゲノムをカバーしているほど生物系統同定用配列として優秀であるため、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、ある基準値以上(例えば90%以上のドラフトゲノムにシングルコピー遺伝子が存在する)を満たしたタンパク質ファミリーを生物系統同定用配列として再同定する。または、タンパク質ファミリーをシングルコピー遺伝子の割合で降順ソートし、上位から任意数のタンパク質ファミリーを生物系統同定用配列としてもよい。また、これまでの研究においてバクテリアなどで既知とされている生物系統同定用配列などは、上述で同定した生物系統同定用配列と併用してもよい。
 また、上述とは別の生物系統同定用配列の作成方法として、D.H.Parks, et. al., 2015で提唱されている手法も適用することが可能と考えられる。これはドラフトゲノムの系統樹を作成し、各ノードに生物系統同定用配列を定義する手法で、checkmの入力データとして使用される。
(実施例6)最適ドラフトゲノム構築
 図7は最適ドラフトゲノムを構築する方法を示したものである。実施例2および実施例3により、単一生物単位ゲノムデータは同一系統としてクラスター化されている。実施例2におけるクラスター化では、微生物ゲノムデータベースのドラフトゲノムに基づきクラスター化されているので、ドラフトゲノムに対応する単一生物単位ゲノムの部分塩基配列を微生物ゲノムデータベースから取得しクラスターに追加する。クラスター内の単一生物単位ゲノムデータはある基準値によりソートされる。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。次にランクの高い方ら2つの単一生物単位ゲノムデータを抽出し、ドラフトゲノム構築用の暫定セットを作成する。次にランクの高い方ら3つの単一生物単位ゲノムデータを抽出し、同様にドラフトゲノム構築用の暫定セットを作成する。このようにしてランクの高い順に次々に単一生物単位ゲノムデータを追加していき、クラスター内の単一生物単位ゲノムデータ数より1少ない数だけ暫定ドラフトゲノム構築用セットを作成する。これらの暫定ドラフトゲノム構築用セットに対し、M. Kogawa, et. al.,
 2018で提示されているCleaning and Co-assembly of
 a Single-Cell Amplified Genome (ccSAG)法を適用し、暫定ドラフトゲノムを構築する。暫定ドラフトゲノムは構築するために用いた単一生物単位ゲノムデータ数を説明変数、コンプリート率やコンタミ率などのドラフトゲノム評価値を目的変数とした関数として表現できる。これにより、ドラフトゲノムが収束状態にありこれ以上単一生物単位ゲノムデータを追加しても品質の向上が見込めないかなどが判断できる。品質古城が見込めないドラフトゲノムは、最適ドラフトゲノムの構築を行わないなどすることにより、処理の高速化が期待できる。暫定ドラフトゲノムおよび既存ドラフトゲノムの中で最も高品質なものを選択し、それが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。クラスターとして新規に同定された単一生物単位ゲノムデータは、微生物ゲノムデータベースの単一生物単位ゲノムデータに登録する。
(実施例7)ドラフトゲノムのフィニッシング
 図8は微生物ゲノムデータベースに登録されているドラフトゲノムのフィニッシング方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムをフィニッシング対象とする。フィニッシング方法は2通りのパターンがある。1つ目は、抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータを用いる方法である。抽出された単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータを用いて、パラメータを変更したccSAGを実施する。パラメータは長めのアセンブル塩基配列が検出できるようなパラメータを設定する。ここで作成されたドラフトゲノムを1つ目のフィニッシングドラフトゲノムとする。2つ目は、基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列の中からドラフトゲノムのアセンブル塩基配列を結合するブリッジアセンブル塩基配列を検出することである。BLASTなどの相同性解析ツールにより、ドラフトゲノムのアセンブル塩基配列と基準を満たした全単一生物単位ゲノムデータのアセンブル塩基配列を総当たりで相同性解析する。ドラフトゲノムの2つのアセンブル塩基配列の片端と単一生物単位ゲノムデータの1つのアセンブル塩基配の両端がマッチするような結果が得られた場合、単一生物単位ゲノムデータのアセンブル塩基配列がドラフトゲノムアセンブル塩基配列を結合する役目を果たす。このようにブリッジとなるアセンブル塩基配列によってつながったドラフトゲノムを2つ目のフィニッシングドラフトゲノムとする。フィニッシングドラフトゲノム1つ目および2つ目と、登録済みのドラフトゲノムをある基準値によって比較し、最も品質の高いドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースのドラフトゲノムを更新する。
(実施例8)ドラフトゲノムの細分化
 図9は微生物ゲノムデータベースに登録されているドラフトゲノムを系統的に細分化する方法を示したものである。実施例5で作成したドラフトゲノムの収束状態を評価する関数により、微生物ゲノムデータベースから収束状態にあるドラフトゲノムを抽出することができる。この収束状態のドラフトゲノムを細分化対象とする。抽出されたドラフトゲノムに対応する単一生物単位ゲノムデータをある基準値によりソートする。ここではコンタミ率の低い順にソートしている。ただしある一定の水準に満たない単一生物単位ゲノムデータは除外している。ここでは、コンプリート率が10%に満たないような単一生物単位ゲノムデータを除外する。基準を満たした全単一生物単位ゲノムデータに対して、実施例3で行った図6の細分化を行う。細分化された各クラスターに対して図7の最適ドラフトゲノム構築を行い、各クラスターの最適ドラフトゲノムを取得する。この複数の最適ドラフトゲノムと登録済みのドラフトゲノムをある基準値によって比較し、両者のうちで品質の高い方のドラフトゲノムを選択する。選択されたドラフトゲノムが既存ドラフトゲノムでない場合は微生物ゲノムデータベースから既存ドラフトゲノムを削除し、細分化されたドラフトゲノムを新規に登録する。
(実施例9)外部データベースの配列追加
 外部の独立データベースを利用することにより、図12に示すように、より高品質なゲノムを構築できる。例えば、1~4のSAGが該プロジェクトのデータだとすると、株2のゲノムはたった1つのSAGから構築される。ここで5および6のような外部プロジェクトデータを追加できれば、株2は3つのSAGからドラフトゲノムを構築できるので、より高品質なゲノムを構築できる。
(実施例10)バイアス均質化処理
目的と方法
(増幅)バイアスを内包するシーケンスデータのアセンブリによって得られるゲノム配列の質を改善するために、バイアス均質化処理を行う。具体的には、参照ゲノム配列に対するシーケンスリードのマッピング結果に基づき、多数の重複が認められた配列部位のシーケンスリードを一定量除去し、シーケンスリードの偏りの補正を行い均質化する(図13)。
参照ゲノム配列には、既知の近縁生物種ゲノムやバイアス均質化処理を行うシーケンスデータ自身のアセンブリで作成したDNA配列が利用可能である。均質化処理を行ったシーケンスデータのアセンブリによって、取得されるドラフトゲノム補完率や配列断片数が改善される。状況に応じて、均質化シーケンスデータから作成したゲノム配列を参照配列に用いて繰り返し均質化処理を行うことで、ゲノムクオリティのさらなる改善が見込まれる。
具体的には以下の通り行った。
大腸菌K12株シングルセル増幅ゲノム(SAG)のNanoporeシーケンスデータ(GridION)を用いて、ゲノムアセンブリを行った。ゲノム領域ごとに読み取り深度が大きく異なるシーケンスデータ(図14上部ラインチャート)をそのまま用いてアセンブリを行った結果、相対的に小さい読み取り深度を示した領域のゲノム配列が獲得されなかった(図14下部帯のギャップ部分)。続いて、アセンブリされたゲノム配列を参照配列としてシーケンスデータをマップし、各領域ごとに最大読み取り深度が100×になるように選択的リード除去を行うことで、シーケンスデータの均質化を行った(図15上部ラインチャート)。均質化したシーケンスデータの再アセンブリを行ったところ、初めのアセンブリでは取得されなかったゲノム領域の配列構築が確認された(図15下部帯)。さらに、新たにアセンブリされたゲノム配列を参照配列に、均質化―アセンブリを繰り返していくことで、ゲノム補完率の向上とともにゲノム配列断片数の減少も確認された(表1)。
Figure JPOXMLDOC01-appb-T000001
 (注記)
 以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。本明細書において引用した特許、特許出願及び他の文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。本願は、日本国特許庁に2019年4月26日に出願された、特願2019-85839に対して優先権を主張するものであり、同出願の内容自体は具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
微生物等のシングルセルデータの処理の自動化が可能になった。

Claims (40)

  1.  単一(single)生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を実行する、方法。
  2.  (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、請求項1に記載の方法。
  3.  前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、請求項1または2に記載の方法。
  4.  生物系統同定用配列候補のスクリーニングをコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
    B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
    C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
    を実行する、方法。
  5.  単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
    を実行する、方法。
  6.  請求項5に記載の単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
    (G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項5に記載のステップを繰り返すステップと
    を実行する、方法。
  7.  単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
    を実行する、方法。
  8.  前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項7に記載の方法。
  9.  単一生物単位の配列情報の処理をコンピュータに実行させる指令を発する方法であって、該指令を受けた該コンピュータは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと、
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
    を実行する、方法。
  10.  前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項1~3および5~9のいずれか一項に記載の方法。
  11.  単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含むプログラム。
  12.  (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、請求項11に記載のプログラム。
  13.  前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、請求項11または12に記載のプログラム。
  14.  生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムであって、該方法は:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
    B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
    C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
    を含むプログラム。
  15.  単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
    を含むプログラム。
  16.  請求項15に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
    (G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項15に記載のステップを繰り返すステップと
    を含む、プログラム。
  17.  単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
    を含む、プログラム。
  18.  前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項17に記載のプログラム。
  19.  単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムであって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
    を含む、プログラム。
  20.  前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項11~13および15~19のいずれか一項に記載のプログラム。
  21.  単一(single)生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (C)該単一生物単位の配列情報の部分配列情報および該クラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するステップと
    を含む記録媒体。
  22.  (B)前記データベース中の前記クラスターに対応する該単一生物単位の部分配列情報を前記クラスターに追加するステップをさらに含む、請求項21に記載の記録媒体。
  23.  前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行うことを含む、請求項21または22に記載の記録媒体。
  24.  生物系統同定用配列候補をスクリーニングする方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出するステップと、
    B)該遺伝子ごとにシングルコピー遺伝子の個数または割合を計算するステップと、
    C)該シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択するステップと
    を含む記録媒体。
  25.  単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択するステップと
    を含む記録媒体。
  26.  請求項25に記載の単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択するステップと、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するステップと、
    (G’)必要に応じて(G)を繰り返して、該より長いドラフトが配列情報の完全長に達するまで繰り返すステップと、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項25に記載のステップを繰り返すステップと
    を含む、記録媒体。
  27.  単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録するステップと
    を含む、記録媒体。
  28.  前記再クラスター化が、ネットワーク解析とコミュニティ検出によって行われる、請求項27に記載の記録媒体。
  29.  単一生物単位の配列情報を処理する方法をコンピュータに実装するプログラムを格納した記録媒体であって、該方法は:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するステップと、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けするステップと、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するステップと、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するステップと、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化するステップと
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較するステップと、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すステップと
    を含む、記録媒体。
  30.  前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項21~23および25~29のいずれか一項に記載の記録媒体。
  31.  単一(single)生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
    (C)該単一生物単位の配列情報の部分配列情報および該(A)のクラスタリング部によるクラスター化とは独立して生成されたデータベース中の該単一生物単位の配列情報を用いて、該単一生物単位の配列情報ドラフトを作成するドラフト作成部とを含むシステム。
  32.  (B)前記データベース中の該クラスターに対応する該単一生物単位の部分配列情報を該クラスターに追加する追加情報追加部をさらに含む、請求項31に記載のシステム。
  33.  前記(C)が、多数の重複が認められた配列部位を含む部分配列情報を一定量除去し、シーケンスリードの偏りの補正を行う均質化処理部を含む、請求項31または32に記載のシステム。
  34.  生物系統同定用配列候補をスクリーニングするためのシステムであって、該システムは:
    A)データベースから、ドラフト内で重複のない遺伝子を抽出する抽出部と、
    B)前記遺伝子ごとにシングルコピー遺伝子の個数または割合を計算する計算部と、
    C)前記シングルコピー遺伝子の個数または割合が所定の値以上の遺伝子を生物系統同定用配列候補として選択する選択部と
    を含むシステム。
  35.  単一生物単位の配列情報を処理するためのシステムであって、該システムは:
    (D)複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築するドラフト構築部と、
    (E’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを、所定の判断基準に基づいて選択する選択部と
    を含むシステム。
  36.  請求項35に記載の単一生物単位の配列情報を処理するためのシステムであって、該システムは、
    (F)前記選択したドラフトと、前記(E)および(E’)において選択されなかった単一生物単位の配列情報の部分配列情報とを比較し、該ドラフトに含まれていない部分の配列を有する単一生物単位の配列情報の部分配列情報を選択する選択部と、
    (G)(F)で選択した配列情報と、該選択したドラフトとを用いて、より長いドラフトを生成するドラフト改善部と、
    (G’)必要に応じて(G)に、該より長いドラフトが配列情報の完全長に達するまでドラフト生成を繰り返させるドラフト構築部と、
    (G’’)必要に応じて、該ドラフトを構成する部分配列情報全体において、より低い基準の判断基準に基づいて、請求項35に記載の(D)、(E)および(E’)に順位付け、ドラフト構築および選択を繰り返させる手段と
    を含む、システム。
  37.  単一生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
    (H)該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
    (I)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、新規グループとしてデータベースに登録する登録部と
    を含む、システム。
  38.  前記再クラスタリング部が、ネットワーク解析とコミュニティ検出によって再クラスター化を行う、請求項37に記載のシステム。
  39.  単一生物単位の配列情報を処理するためのシステムであって、該システムは:
    (A)複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて、同一系統ごとにクラスター化するクラスタリング部と、
    (D)該同一系統クラスターに属する複数の単一生物単位の配列情報の部分配列情報を、所定の判断基準に基づいて高品質のものから順位付けする順位付け部と、
    (E)該順位付けに基づいて、高順位のものから、該複数の単一生物単位の配列情報の部分配列情報のうち所定の数の集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、
    (E’’)該集合とは異なる数の単一生物単位の配列情報の部分配列情報のセットの集合を選択して、該部分配列情報から該部分配列情報より大きな長さのドラフトを構築し、それまでに生成したドラフトを所定の判断基準に基づいて評価するドラフト構築部、
    (H)配列情報のセットの集合の数の増大によってドラフトの評価が変動しない場合に、該同一系統クラスター内において、単一生物単位の配列情報を構成する該複数の単一生物単位の配列情報の部分配列情報について、生物系統同定用配列に基づいて評価し、同一系統クラスター内で再クラスター化する再クラスタリング部と
    (H’)該同一系統クラスターから作成した配列情報ドラフトと、該再クラスター化されたクラスターから作成した配列情報ドラフトとを比較する比較部と、
    (J)(H)における再クラスター化が妥当かどうかを、比較結果について、所定の判断基準に基づいて判断し、妥当である場合、該再クラスター化されたクラスターに属する複数の単一生物単位の配列情報の部分配列情報について、(D)~(E’)を繰り返すための手段と
    を含む、システム。
  40.  前記部分配列情報がロングリードシーケンスにより決定されたものである、請求項31~33および35~39のいずれか一項に記載のシステム。
PCT/JP2020/017795 2019-04-26 2020-04-24 単一生物単位の配列情報の新規処理法 WO2020218555A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US17/605,954 US20220270710A1 (en) 2019-04-26 2020-04-24 Novel method for processing sequence information about single biological unit
EP20795717.6A EP3961638A4 (en) 2019-04-26 2020-04-24 NEW METHOD FOR PROCESSING SEQUENCE INFORMATION CONCERNING A SINGLE BIOLOGICAL UNIT
CN202080046760.XA CN114245922A (zh) 2019-04-26 2020-04-24 单一生物单元的序列信息的新型处理方法
JP2021516287A JPWO2020218555A1 (ja) 2019-04-26 2020-04-24

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-085839 2019-04-26
JP2019085839 2019-04-26

Publications (1)

Publication Number Publication Date
WO2020218555A1 true WO2020218555A1 (ja) 2020-10-29

Family

ID=72942213

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/017795 WO2020218555A1 (ja) 2019-04-26 2020-04-24 単一生物単位の配列情報の新規処理法

Country Status (6)

Country Link
US (1) US20220270710A1 (ja)
EP (1) EP3961638A4 (ja)
JP (1) JPWO2020218555A1 (ja)
CN (1) CN114245922A (ja)
TW (1) TW202107475A (ja)
WO (1) WO2020218555A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204008A1 (ja) * 2022-04-21 2023-10-26 株式会社島津製作所 微生物判別用のデータベースを構築する方法および装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863606B (zh) * 2021-03-08 2022-07-26 杭州微数生物科技有限公司 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157267A (ja) * 2001-11-19 2003-05-30 Hitachi Ltd 核酸塩基配列のアセンブル方法及びアセンブル装置
JP2005176730A (ja) * 2003-12-19 2005-07-07 Hitachi Ltd cDNA配列をゲノム配列にマッピングする方法
JP2019085839A (ja) 2017-11-10 2019-06-06 東日本旅客鉄道株式会社 可変パッド

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018209145A1 (en) * 2017-05-10 2018-11-15 The Broad Institute, Inc. Methods and compositions for determination of mutations in single replication events

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157267A (ja) * 2001-11-19 2003-05-30 Hitachi Ltd 核酸塩基配列のアセンブル方法及びアセンブル装置
JP2005176730A (ja) * 2003-12-19 2005-07-07 Hitachi Ltd cDNA配列をゲノム配列にマッピングする方法
JP2019085839A (ja) 2017-11-10 2019-06-06 東日本旅客鉄道株式会社 可変パッド

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
GUREVICH A ET AL., BIOINFORMATICS, vol. 29, no. 8, 15 April 2013 (2013-04-15), pages 1072 - 5
LAGESEN K ET AL., NUCLEIC ACIDS RES., vol. 35, no. 9, 2007, pages 3100 - 8
MASATO KOGAWA, HOSOKAWA MASAHITO, NISHIKAWA YOHEI, MORI KAZUKI, TAKEYAMA HARUKO: "Obtaining high-quality draft genomes from uncultured microbes by cleaning and co-assembly of single-cell amplified genomes", SCIENTIFIC REPORTS, vol. 8, no. 1, 1 December 2018 (2018-12-01), XP055759180, DOI: 10.1038/s41598-018-20384-3 *
MORIYA Y ET AL., NUCLEIC ACIDS RES., vol. 35, July 2007 (2007-07-01)
PARKS DH ET AL., GENOME RES, vol. 25, no. 7, July 2015 (2015-07-01), pages 1043 - 55
See also references of EP3961638A4
TAKAMI H ET AL., DNA RES, 3 July 2016 (2016-07-03)
WICK RR ET AL., BIOINFORMATICS, vol. 31, no. 20, 15 October 2015 (2015-10-15), pages 3350 - 2

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204008A1 (ja) * 2022-04-21 2023-10-26 株式会社島津製作所 微生物判別用のデータベースを構築する方法および装置

Also Published As

Publication number Publication date
EP3961638A1 (en) 2022-03-02
JPWO2020218555A1 (ja) 2020-10-29
CN114245922A (zh) 2022-03-25
EP3961638A4 (en) 2023-05-17
US20220270710A1 (en) 2022-08-25
TW202107475A (zh) 2021-02-16

Similar Documents

Publication Publication Date Title
Saary et al. Estimating the quality of eukaryotic genomes recovered from metagenomic analysis with EukCC
Grün et al. Design and analysis of single-cell sequencing experiments
MacCannell Bacterial strain typing
CN114067911B (zh) 获取微生物物种及相关信息的方法和装置
CN109923217A (zh) 宏基因组样品中病原体的鉴定和抗生素表征
WO2020218555A1 (ja) 単一生物単位の配列情報の新規処理法
Zhou et al. Recovering metagenome-assembled genomes from shotgun metagenomic sequencing data: methods, applications, challenges, and opportunities
JP2024518021A (ja) 標的機能に対する経験的試験と組み合わされた機械学習およびデータベースマイニングによる天然源から食品成分を同定し開発するためのシステム
Le Doujet et al. Closely-related Photobacterium strains comprise the majority of bacteria in the gut of migrating Atlantic cod (Gadus morhua)
Kuo et al. Fungal genomics: sequencing and annotation
JP6644672B2 (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
Delhomme et al. Serendipitous meta-transcriptomics: the fungal community of Norway spruce (Picea abies)
Costessi et al. Novel sequencing technologies to support industrial biotechnology
Gopalakrishnan et al. Whole‐Genome Sequencing of Yeast Cells
Suetsugu et al. Mycorrhizal communities of two closely related species, Pyrola subaphylla and P. japonica, with contrasting degrees of mycoheterotrophy in a sympatric habitat
Kim et al. Unraveling metagenomics through long-read sequencing: A comprehensive review
JP6744642B1 (ja) 単一生物単位の配列情報の新規処理法
TWI582631B (zh) 用以分析細菌菌種之定序資料的系統及其方法
JP6744648B1 (ja) 単一生物単位の配列情報の新規処理法
JP2022021661A (ja) シングルセルゲノム配列とメタゲノム配列を統合する新規処理法
Zhao et al. Eukfinder: a pipeline to retrieve microbial eukaryote genomes from metagenomic sequencing data
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
Benavides et al. CLAME: a new alignment-based binning algorithm allows the genomic description of a novel Xanthomonadaceae from the Colombian Andes
Gehrig et al. Finding the right fit: A comprehensive evaluation of short-read and long-read sequencing approaches to maximize the utility of clinical microbiome data
Marić et al. Approaches to metagenomic classification and assembly

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20795717

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021516287

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020795717

Country of ref document: EP

Effective date: 20211126