WO2024075787A1 - 遺伝子配列の高効率取得法 - Google Patents

遺伝子配列の高効率取得法 Download PDF

Info

Publication number
WO2024075787A1
WO2024075787A1 PCT/JP2023/036256 JP2023036256W WO2024075787A1 WO 2024075787 A1 WO2024075787 A1 WO 2024075787A1 JP 2023036256 W JP2023036256 W JP 2023036256W WO 2024075787 A1 WO2024075787 A1 WO 2024075787A1
Authority
WO
WIPO (PCT)
Prior art keywords
cell
nucleic acid
cells
structures
compartments
Prior art date
Application number
PCT/JP2023/036256
Other languages
English (en)
French (fr)
Inventor
正人 細川
達也 佐伯
垂穂 遠藤
和馬 釜田
Original Assignee
bitBiome株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by bitBiome株式会社 filed Critical bitBiome株式会社
Publication of WO2024075787A1 publication Critical patent/WO2024075787A1/ja

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof

Definitions

  • This disclosure relates to a highly efficient method for obtaining microbial gene sequences.
  • Microorganisms have provided countless benefits to civilization, including the supply of many medicines such as penicillin, streptomycin, leucomycin, mitomycin, pravastatin, ivermectin, tacrolimus, and micafungin, as well as being used in the food industry to produce miso, soy sauce, shochu, wine, and other products, and in the environmental field to purify contaminated soil.
  • many benefits provided by these microorganisms are realized by the various genes encoded in the genomes of these microorganisms.
  • production technologies that utilize the functions of living organisms such as microorganisms, which have low carbon dioxide emissions and little environmental impact, known as "biomachining,” have been attracting attention.
  • Microorganisms live in a variety of places, including soil, but only 1% of the microorganisms that exist in these environments (so-called environmental microorganisms) can be cultured, and the majority of the microorganisms that exist on Earth are unknown (Non-Patent Document 1).
  • environmental microorganisms the majority of the microorganisms that exist on Earth are unknown.
  • metagenomic analysis has become possible, in which microbial genomes are extracted en bloc from samples such as soil and sequenced without the need to culture these difficult-to-grow microorganisms. This has made it possible to create genetic information profiles of microorganisms that live in a variety of environments.
  • Non-Patent Document 2 uncultured phosphorus-accumulating bacteria that play a key role in phosphorus removal wastewater treatment systems
  • Non-Patent Document 4 uncultured phosphorus-accumulating bacteria that play a key role in phosphorus removal wastewater treatment systems
  • Non-Patent Document 4 uncultured phosphorus-accumulating bacteria that play a key role in phosphorus removal wastewater treatment systems
  • unknown bacteria Non-Patent Document 4
  • archaea Non-Patent Document 5
  • the genetic information obtained is a mixture of diverse microbial genome sequences, and slight overlaps in the sequences are pieced together by computer, resulting in low accuracy in decoding and an unsatisfactory number of genes that can be obtained.
  • a metagenomic library of the sample is obtained by placing a plurality of such small compartments (e.g., 5 to 100) in a large compartment and simultaneously and in parallel subjecting the plurality of large compartments to a process of preparing a DNA library for sequencing.
  • next-generation sequencer also referred to herein as “sequencing” (the same term in English), which are used interchangeably and synonymously; and also referred to herein as “sequence” or “arrangement” (the same term in English), which are used interchangeably and synonymously)
  • sequence or “arrangement” (the same term in English), which are used interchangeably and synonymously)
  • the present disclosure includes the following.
  • [Item 1] A library of nucleic acids comprising a large compartment containing one or more nucleic acid molecules in each small compartment, the large compartment containing one or more of the small compartments.
  • [Item 2] A library of nucleic acids described in the above item, wherein the large partition contains two or more of the small partitions.
  • [Item 3] A library of nucleic acids described in any one of the above items, wherein the nucleic acid molecules contained in one small compartment include nucleic acid molecules derived from one or more cells or cell-like structures and/or amplification products obtained by amplifying the nucleic acid molecules using nucleic acid molecules derived from cells or cell-like structures and/or the nucleic acid molecules as templates.
  • [Item 6] A library of nucleic acids according to any one of the preceding items, wherein the large partition contains 5 to 15 of the small partitions.
  • [Item 8] A library of nucleic acids according to any one of the preceding items, characterized in that the compartments are gelled droplets, liquid droplets or coated droplets.
  • [Item 9] A library of nucleic acids described in any one of the above items, characterized in that the gelled droplets are gelled with any gelling material selected from the group consisting of agarose, acrylamide, photocurable resin, polyethylene glycol, gelatin, sodium alginate, Matrigel, collagen and hydrogel.
  • [Item 10] A library of nucleic acids according to any one of the above items, characterized in that the amplification is carried out while maintaining a gel state within a gel capsule.
  • [Item 15] A library of nucleic acids or a combination of libraries of nucleic acids described in any one of the above items, wherein the nucleic acids contained in the library contained in the subsection include nucleic acids that have been amplified to a predetermined length or more.
  • [Item 16] A library of nucleic acids or a combination of libraries of nucleic acids described in any one of the above items, wherein the library contained in the subdivision has a coding region on a contig obtained from the read sequence of the nucleic acid of 5% or more that is 1000 bp or longer.
  • the library contained in the subsection has a full-length gene sequence content of 20% or more in the protein-coding portion (coding region) on the contig obtained from the lead sequence of the nucleic acid, a library of nucleic acids or a combination of libraries of nucleic acids described in any one of the above items.
  • the library contained in the subsection has a full-length gene sequence content of 30% or more in the protein-coding portion (coding region) on the contig obtained from the lead sequence of the nucleic acid, a library of nucleic acids or a combination of libraries of nucleic acids described in any one of the above items.
  • a method for preparing a nucleic acid library comprising the steps of: Providing two or more cells or cell-like structures; generating from said cells or cell-like structures compartments comprising one or more cells or cell-like structures; lysing the cells or cell-like structures contained in said compartments such that nucleic acids in said cells or cell-like structures are eluted and retained within said compartments; If necessary, a step of contacting the nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the small compartment to obtain an amplification product.
  • a method for preparing a nucleic acid library comprising: [Item 20] The method according to the above item, wherein all of the large compartments are contained in the container. [Item 21] The method according to any one of the preceding items, wherein the cells or cell-like structures are provided in a suspension state.
  • [Item 22] The method described in any one of the above items, characterized in that during the amplification, after the cells or cell-like structures contained in the compartments are lysed, nucleic acids containing the genome in the cells or cell-like structures are dissolved into the compartments and retained in the compartments.
  • the step of obtaining the amplification product comprises adding a barcode sequence unique to the large section to the nucleic acid.
  • the step of placing the small compartment in the large compartment includes removing nucleic acids other than those amplified to a predetermined length or greater.
  • sample containing two or more cells or cell-like structures is a single sample.
  • sample containing two or more cells or cell-like structures comprises one or more selected from the group consisting of soil (including marine soil), seawater, river water, lake water, feces, saliva, skin, sputum, sludge (including activated sludge), industrial wastewater, tissues derived from animals and plants, and surgical irrigation fluid.
  • soil including marine soil
  • river water river water
  • lake water lake water
  • feces saliva
  • skin sputum
  • sludge including activated sludge
  • industrial wastewater tissues derived from animals and plants
  • surgical irrigation fluid surgical irrigation fluid.
  • [Item 28] The method according to any one of the above items, wherein the number of small compartments contained in one large compartment is 5 to 15.
  • [Item 29] The method according to any one of the preceding items, wherein the cells or cell-like structures include two or more types.
  • [Item 30] The method for preparing a metagenomic library according to any one of the above items, wherein the one or more or one or more types is two to three or two to three types.
  • the small sections are gelled droplets, droplets or coated droplets.
  • any gelling material selected from the group consisting of agarose, acrylamide, photocurable resin, polyethylene glycol, gelatin, sodium alginate, Matrigel, collagen and hydrogel.
  • the gelled droplets have a diameter of about 1 to 250 ⁇ m.
  • the step of generating the small compartments is carried out by first incorporating a component having gelling ability into the cell or cell-like structure suspension, flowing the cell or cell-like structure suspension having gelling ability into a microchannel, and shearing the suspension with oil.
  • a method for analyzing a nucleic acid sequence in a cell or cell-like structure comprising the steps of: Providing two or more cells or cell-like structures; generating from said cells or cell-like structures compartments comprising one or more cells or cell-like structures; lysing the cells or cell-like structures contained in said compartments such that nucleic acids in said cells or cell-like structures are eluted and retained within said compartments; Optionally, amplifying the nucleic acid in the compartment by contacting the nucleic acid with a nucleic acid amplification reagent to obtain an amplification product; If necessary, placing one or more of the large compartments including the small compartments containing the amplification products in a container for sequencing; A method for analyzing a nucleic acid sequence in a cell or a cell-like structure, comprising the steps of: determining the
  • a method for analyzing a metagenomic genome comprising the steps of: Providing two or more cells or cell-like structures that constitute the metagenome; generating from said cells or cell-like structures compartments comprising one or more cells or cell-like structures; lysing the cells or cell-like structures contained in said compartments such that nucleic acids in said cells or cell-like structures are eluted and retained within said compartments; Optionally, amplifying the nucleic acid in the compartment by contacting the nucleic acid with a nucleic acid amplification reagent to obtain an amplification product; If necessary, placing one or more of the large compartments including the small compartments containing the amplification products in a container for sequencing; determining the base sequence of the amplification product in the small compartment; and analyzing the base sequence obtained in the above step to obtain nucleic acid sequence information of the metagenome; optionally analyzing an amino acid sequence encoded by the base sequence; and optionally analyzing a region encoding a gene.
  • An analysis system for a nucleic acid sequence in a cell or cell-like structure comprising: A sub-compartment generating unit for generating sub-compartments each including one or more cells or cell-like structures from the cell or cell-like structure; a nucleic acid dissolving section that dissolves the cells or cell-like structures contained in the small compartments so that the nucleic acids in the cells or cell-like structures are dissolved and retained in the small compartments; an amplification reagent storage section for storing a nucleic acid amplification reagent to be contacted with the nucleic acid to amplify the nucleic acid in the small compartment to obtain an amplification product; a container for accommodating one or more of the large compartments, each of which optionally includes a small compartment containing the amplification product; A system for analyzing a nucleic acid sequence in a cell or a cell
  • a method for obtaining a nucleic acid sequence encoding a gene in a cell or cell-like structure and/or an amino acid sequence encoded by the nucleic acid sequence comprising the steps of: Providing two or more cells or cell-like structures; generating from said cells or cell-like structures compartments comprising one or more cells or cell-like structures; lysing the cells or cell-like structures contained in said compartments such that nucleic acids in said cells or cell-like structures are eluted and retained within said compartments; Optionally, amplifying the nucleic acid in the compartment by contacting the nucleic acid with a nucleic acid amplification reagent to obtain an amplification product; If necessary, placing one or more of the large compartments including the small compartments containing the amplification products in a container for sequencing; determining the base sequence of the amplification product; analyzing the base sequence obtained in the above step; and analyzing a region of the base sequence that codes for a gene to obtain a nucleic acid sequence
  • a method for creating a database of sequences encoding genes in a cell or cell-like structure comprising the steps of: Providing two or more cells or cell-like structures; generating from said cells or cell-like structures compartments comprising one or more cells or cell-like structures; lysing the cells or cell-like structures contained in said compartments such that nucleic acids in said cells or cell-like structures are eluted and retained within said compartments; Optionally, amplifying the nucleic acid in the compartment by contacting the nucleic acid with a nucleic acid amplification reagent to obtain an amplification product; If necessary, placing one or more of the large compartments including the small compartments containing the amplification products in a container for sequencing; determining the base sequence of the amplification product; analyzing the base sequence obtained in the above step; analyzing a region in the base sequence that codes for a gene to
  • a method for generating a data structure constituting a sequence encoding a gene in a cell or cell-like structure comprising the steps of: Providing two or more cells or cell-like structures; generating from said cells or cell-like structures compartments comprising one or more cells or cell-like structures; lysing the cells or cell-like structures contained in said compartments such that nucleic acids in said cells or cell-like structures are eluted and retained within said compartments; Optionally, amplifying the nucleic acid in the compartment by contacting the nucleic acid with a nucleic acid amplification reagent to obtain an amplification product; If necessary, placing one or more of the large compartments including the small compartments containing the amplification products in a container for sequencing; determining the base sequence of the amplification product; a step of analyzing the base sequence obtained in the step; a step of analyzing
  • [Item 51] A database generated by the method described in any one of the preceding items.
  • [Item 52] The database according to any one of the preceding items, including information indicating that the database was generated by the method according to any one of the preceding items.
  • [Item 53] The database according to any one of the above items, wherein the database includes a full-length gene sequence rate as an item.
  • the full-length gene sequence rate of the nucleic acid sequences and/or amino acid sequences encoding the genes contained in the database is 20% or more.
  • [Item 55] A data structure generated by the method described in any one of the preceding items.
  • [Item 56] The data structure according to any one of the preceding items, further comprising information indicating that the data structure was generated by the method according to any one of the preceding items.
  • [Item 57] The data structure according to any one of the preceding items, wherein the data structure includes a full-length gene sequence rate as an item.
  • a method for analyzing an amino acid or nucleic acid sequence comprising a step of analyzing a target amino acid or nucleic acid sequence using a nucleic acid sequence or amino acid sequence encoding a gene obtained by the method described in any one of the preceding items, a database generated by the method described in any one of the preceding items, a data structure generated by the method described in any one of the preceding items, the database described in any one of the preceding items, or the data structure described in any one of the preceding items.
  • the method for analyzing an amino acid or nucleic acid sequence according to any one of the preceding items, wherein the analyzing step comprises binning contigs to generate a genome or metagenomic database.
  • a method for storing nucleic acid molecules characterized in that after the final step of the method for preparing a nucleic acid library described in any one of the preceding items, the method further comprises a step of storing the large compartment containing the small compartments at or below room temperature, either as is or after adding a substance that inhibits DNA degradation.
  • the nucleic acid molecule is from a microorganism.
  • room temperature or lower is -20°C or lower.
  • the method according to any one of the preceding items, wherein room temperature or lower is ⁇ 80° C. or lower.
  • a metagenomic library comprising a large compartment containing one or more small compartments, each of which contains genomic DNA derived from one or more types of cells or cell-like structures and/or an amplification product obtained by whole genome amplification using the genomic DNA as a template.
  • the metagenomic library according to [1] wherein the number of small compartments in the large compartment is 2 to 300.
  • the metagenomic library according to [1], wherein the number of small compartments in the large compartment is 2 to 50.
  • the metagenomic library according to [1], wherein the number of small compartments in the large compartment is 5 to 15.
  • the metagenomic library according to [1], wherein the number of small compartments in the large compartment is 8 to 12.
  • a method for preparing a metagenomic library comprising the steps of: A step of obtaining cells or cell-like structures by suspending a sample containing two or more cells or cell-like structures in a suspension and separating a fraction containing cells or cell-like structures from other fractions; suspending the obtained cells or cell-like structures in a suspension; generating compartments comprising one or more or more types of cells or cell-like structures from the cell or cell-like structure suspension; a step of lysing the cells or cell-like structures contained in the sub-compartments, characterized in that the entire genome in the cells or cell-like structures is dissolved in the sub-compartments and is retained in the sub-compartments; contacting the whole genome with a whole genome amplification reagent to amplify the whole genome in the small compartment; and placing one or more small compartments containing the whole genome amplification product in a large compartment.
  • a method for preparing a metagenomic library comprising: [16] The method for preparing a
  • a method for obtaining a microbial gene sequence with high efficiency comprising the steps of: a step of combining the small compartments of the plurality of large compartments; determining the base sequences of the amplification products in the small compartments of the combined large compartment simultaneously and in parallel; and analyzing the base sequences obtained in the above step using a computer to predict protein-coding regions, thereby obtaining genes.
  • a method for highly efficiently obtaining a microbial gene sequence comprising: [31] The method for efficiently obtaining a microbial gene sequence according to the above [30], wherein the plurality of amino acids is any one selected from the group consisting of 384, 768, 1,152, 1,536, 1,920, 2,304, 2,688 and 3,072. [32] The method for obtaining a microbial gene sequence with high efficiency according to [30] or [31] above, wherein the base sequence is determined using a next-generation sequencer.
  • a method for preserving microbial genomic DNA comprising, after the final step of the method for preparing a metagenomic library according to any one of [15] to [29] above, a step of preserving the large compartment containing the small compartments at or below room temperature, either as is or after adding a substance that inhibits DNA degradation.
  • the present disclosure provides a novel, highly efficient method for obtaining gene sequences from organisms such as microorganisms, and a newly created library of nucleic acids (e.g., metagenomics) to achieve the method.
  • the present disclosure provides a highly efficient method for obtaining microbial gene sequences, which includes, for example, a step of obtaining cells or cell-like structures from a single sample, a step of suspending the obtained cells or cell-like structures in a suspension as necessary, a step of generating small compartments containing one or more types of cells or cell-like structures from the cell or cell-like structure suspension, a step of dissolving the cells or cell-like structures contained in the small compartments and eluting nucleic acids such as genomic DNA into the small compartments, a step of performing a nucleic acid amplification reaction (e.g., whole genome amplification reaction) using the nucleic acid such as genomic DNA as a template, a step of placing the small compartments containing the products of nucleic acid a
  • the present disclosure solves the drawbacks of the conventional shotgun metagenomics method, which involves preparing a metagenomic library from a single soil sample, determining the base sequence, and obtaining the gene sequence (FIG. 1(A)).
  • the original gene sequence is usually reconstructed using the overlapping parts of the obtained base sequence as a clue, but due to the enormous diversity and overlapping sequences derived from different microorganisms, it is often impossible to reconstruct the original gene sequence, which has been difficult to do, and this disclosure makes it possible to efficiently obtain a large number of functional structural genes.
  • small compartments containing microbial cells are created from a single soil sample, genomic DNA derived from the microbial cells is eluted into the small compartments, and a whole genome amplification reaction is caused in the small compartments, and the small compartments containing the amplified DNA fragments are placed in a large compartment, for example, 10 small compartments are placed in a large compartment, and 384 large compartments are created, for example, to prepare a metagenomic library of 384 of them (FIG. 2).
  • genomic DNA derived from the microbial cells is eluted into the small compartments, and a whole genome amplification reaction is caused in the small compartments, and the small compartments containing the amplified DNA fragments are placed in a large compartment, for example, 10 small compartments are placed in a large compartment, and 384 large compartments are created, for example, to prepare a metagenomic library of 384 of them (FIG. 2).
  • Genetic diversity is directly linked to the adaptability of the species as a whole that inhabits that environment, and if there is a wealth of genetic diversity and many different species of the same organism exist, even if the environment changes or unexpected trouble occurs, individuals with the personality (genetic characteristics) to adapt to it can increase the chances of surviving and avoiding extinction.
  • the present disclosure makes it possible to ensure genetic diversity and provides technology to efficiently secure and store diverse genetic resources.
  • the metagenomic library and highly efficient method for obtaining microbial gene sequences disclosed herein are useful for obtaining novel genes with high efficiency from samples containing microbial cells, such as soil.
  • FIG. 1 is a schematic diagram comparing the metagenomic library preparation process of the present disclosure with the conventional shotgun metagenomics method and mini-metagenomics method.
  • FIG. 1 shows the massively parallel processing steps from the creation of small compartments containing microbial cells to the creation of a metagenomic library of the present disclosure consisting of a large compartment containing multiple small compartments filled with genomic DNA amplification products, and running it on a next-generation sequencer.
  • FIG. 1 shows the process of obtaining compartments containing amplified fragments derived from genomic DNA of microbial cells using a gelled droplet (a), a droplet (b), and a coated droplet (c) as the compartments.
  • FIG. 1A is an image diagram of the production of droplets containing one microbial cell per droplet
  • FIG. 1B is an image diagram of the production of droplets containing two microbial cells per droplet.
  • FIG. 1 is an image of a metagenomic library of the present disclosure prepared using a microplate.
  • FIG. 1 is an image of a metagenomic library of the present disclosure prepared using a microtube.
  • FIG. 1 shows the gene length distribution of genes obtained using shotgun metagenomic sequencing and the method of the present disclosure.
  • FIG. 1 shows the gene length distribution of genes obtained using shotgun metagenomic sequencing and the method of the present disclosure.
  • FIG. 13 is a diagram comparing the number of non-redundant genes obtained when microbial genes were obtained from a soil sample using the method of the present disclosure and when microbial genes were obtained using shotgun metagenomic sequencing.
  • FIG. 13 shows the relationship between the number of genes obtained and the number of wells when 10 gelled droplets were placed per well in a microplate.
  • Figure 11 shows the results of the percentage of genes with a length of 1000 bp or less in the protein-coding portion (coding region) on the contig obtained from the nucleic acid read sequence investigated in Example 6.
  • the X-axis shows the gene length, and the Y-axis shows the percentage relative to the whole.
  • FIG. 12 shows the full-length gene sequence rate (full-length gene sequence content for the library) as a result of carrying out an embodiment of the present disclosure (in the protein-coding portion (coding region) on the contig obtained from the lead sequence of the nucleic acid).
  • process used in this specification includes processes that are independent of other processes, as well as processes that cannot be clearly distinguished from other processes, as long as the purpose of the process is achieved.
  • numerical ranges indicated using “ ⁇ ” used in this specification the numerical values before and after " ⁇ " are included as minimum and maximum values, respectively.
  • the upper or lower limit value described in one numerical range may be replaced with the upper or lower limit value of another numerical range described in stages.
  • the upper or lower limit value of the numerical range may be replaced with the value shown in the examples.
  • nucleic acid As used herein, “polynucleotide,” “oligonucleotide,” and “nucleic acid” are used interchangeably to refer to a polymer of nucleotides of any length. As used herein, “nucleic acid” is also used interchangeably with gene, DNA (e.g., cDNA), RNA (e.g., mRNA), oligonucleotide, and polynucleotide. As used herein, “nucleotides” may be natural or non-natural.
  • gene refers to a factor that determines a genetic trait, and “gene” can refer to "polynucleotide,” “oligonucleotide,” and “nucleic acid.” When present as an isolated molecule, i.e., when focusing on the individual aspects of the nucleic acid as a substance, it can be referred to as a “nucleic acid molecule.”
  • metagenome refers to the sum of genomes of organisms (which may be, for example, microorganisms) that constitute a community.
  • examples of metagenomes include the entire genome and its constituent substances (nucleic acids such as DNA and RNA) obtained by extracting genomes such as DNA from cells or cell-like structures of organisms such as microorganisms contained in various samples such as soil (including marine soil), seawater, river water, lake water, feces, saliva, skin, sputum, sludge (including activated sludge), industrial wastewater, tissues derived from animals and plants, and surgical cleaning fluid.
  • a fecal sample may contain the intestinal flora of the organism from which the fecal sample originated
  • a saliva sample may contain the oral flora of the organism from which the saliva sample originated
  • a skin sample may contain the skin flora of the organism from which the skin sample originated, and these may be suitable samples for obtaining a metagenome.
  • “metagenome analysis” refers to comprehensively determining the sequence of DNA extracted from a sample (community).
  • a so-called culturing step may be included in which the cells of the microorganisms in the sample are placed under conditions in which they can divide.
  • “cells” refers to any particle that contains molecules with genetic information and is capable of self-replication. Examples of cells include bacteria, fungi, cells of single-celled organisms, and cells derived from multicellular organisms.
  • “cell-like structures” refers to any particle that contains molecules with genetic information. Examples of cell-like structures include intracellular organelles, such as mitochondria, cell nuclei, and chloroplasts, extracellular vesicles, and viruses.
  • the term "library" of "nucleic acid” refers to a collection of multiple nucleic acids, and when the subject is a metagenomic genome, it is referred to as a "metagenomic library.”
  • the metagenomic library is a genome library constructed from the genomic DNA of various cells or cell-like structures present in a sample, and more specifically, as illustrated in FIG. 1(C) and FIG. 2, it refers to both a metagenomic library characterized by being composed of a large compartment containing one or more small compartments containing the amplified DNA fragments obtained by separating cells or cell-like structures of microorganisms, etc.
  • the metagenomic library of the present disclosure has the characteristic that, unlike conventional ones, it is possible to obtain gene sequences derived from cells or cell-like structures of microorganisms, etc. more efficiently.
  • the term "gene” as used herein refers to a structural gene that defines the primary structure of a protein.
  • small compartment refers to a chamber that is blocked by a boundary that can have the function of allowing certain molecules to pass through and not allowing other molecules to pass through.
  • the boundary used in the small compartment is typically one that allows the passage of reagents necessary for nucleic acid amplification but not the target of nucleic acid amplification (e.g., a semipermeable membrane), so that in the case of exchange of substances inside and outside the boundary, only the reagents necessary for nucleic acid amplification pass through, so that the target of nucleic acid is retained from the small compartment under normal conditions, while the reagents necessary for nucleic acid amplification (e.g., polymerase, buffer components, primers (nucleic acid polymers with a molecular weight of a certain degree or less), components for exerting polymerase enzyme activity, etc.) can be added externally.
  • the reagents necessary for nucleic acid amplification e.g., polymerase, buffer components, primers (nucleic
  • the small compartment of the present disclosure can efficiently amplify nucleic acid derived from the contained cell or cell-like structure.
  • the small compartment of the present disclosure is advantageously a structure that is not substantially destroyed by means (drugs) or conditions (heating, shearing, etc.) that dissolve the cell or cell-like structure.
  • the small compartment is advantageously capable of providing conditions under which the target nucleic acid molecule can be homogeneously amplified when the target is a nucleic acid molecule.
  • the nucleic acid molecules to be amplified can be amplified uniformly, and substantially all sequence information of the target nucleic acid can be obtained comprehensively.
  • the nucleic acid molecules to be amplified can be amplified uniformly, and substantially all sequence information of the target nucleic acid can be obtained comprehensively.
  • amplified nucleic acid sequences e.g., genomic sequences
  • the small compartments can be as small as nano-picoliters in volume per compartment, and can be used as micro-reaction fields for individually processing or individually analyzing cells or cell-like structures such as microorganisms.
  • massively parallel is a broad concept intended to process samples, cells, genomic DNA, amplified DNA fragments, and a large number of small compartments and/or a large number of large compartments containing them in parallel, with the aim of quickly and efficiently obtaining a large number of genes from a target sample.
  • small compartments include, but are not limited to, gelled droplets, droplets, coated droplets, etc.
  • gelled droplet refers to a gelled particulate structure capable of holding cells or cell-like structures therein, as shown at the left end of FIG. 3(a).
  • gel refers to a state in which polymeric substances or colloidal particles in a colloidal solution form a mesh structure as a whole through their interactions, and lose fluidity while still containing a large amount of the liquid phase, which is a solvent or dispersion medium.
  • gelling materials include agarose, acrylamide, photocurable resin, polyethylene glycol, gelatin, sodium alginate, Matrigel, collagen, and hydrogel.
  • droplet refers to a liquid particle held together by surface tension capable of holding cells or cell-like structures therein, such as water-in-oil droplets (W/O; Water in Oil) and oil-in-water droplets (O/W; Oil in Water), but water-in-oil droplets (W/O; Water in Oil) are preferred from the viewpoint of the efficiency of DNA amplification reactions.
  • W/O Water in Oil
  • O/W Oil in Water
  • W/O Water in Oil
  • a “coated droplet” refers to a droplet coated with a gel-like substance capable of holding cells or cell-like structures therein, as shown at the left end of FIG. 3(c).
  • the droplet itself may be an aqueous droplet such as an aqueous solution, or a sol-like droplet.
  • sol refers to a colloid that has fluidity and uses a liquid as a dispersion medium.
  • the droplets and coated droplets can be prepared by methods known in the art.
  • hydrogel refers to a solvent or dispersion medium held by a network structure of a polymeric substance or colloidal particles, in which water is used.
  • a "large compartment” refers to a chamber separated by a boundary that can accommodate one or more of the small compartments.
  • examples of a "large compartment” include a well-forming portion of a microplate (also simply referred to as a "well” unless otherwise specified in this specification), a microtube, etc., but are not limited to these as long as they can accommodate one or more small compartments.
  • microplates with various numbers of wells for example, 6 wells, 12 wells, 24 wells, 96 wells, 384 wells, 1,536 wells, 6,144 wells, etc., and a microplate with an appropriate number of wells can be used depending on the purpose.
  • a 384-well microplate can be suitably used as a specific example.
  • 768 wells can be processed in one go in the case of two plates, 1,152 wells in the case of three plates, 1,536 wells in the case of four plates, 1,920 wells in the case of five plates, 2,304 wells in the case of six plates, 2,688 wells in the case of seven plates, and 3,072 wells in the case of eight plates, but the number of wells (number of large sections) can be increased as necessary by increasing the number of plates.
  • "large section” and "small section” can also be simply expressed as "section” and "subsection”.
  • single cell means one or one type of cell or cell-like structure.
  • one type of cell refers to bacteria that contain the same genomic DNA and are composed of multiple cells that exist in nature in the form of diplococci, tetrastreptococci, octostreptococci, streptococci, staphylococci, etc., formed by division of monococci originally consisting of one cell, as shown in Figure 4.
  • single cell level refers to processing in a state where the genetic information contained in one or one type of cell or cell-like structure is distinguished from the genetic information contained in other cells or cell-like structures.
  • double cell level refers to processing in a state where two or two types of cells or cell-like structures are included
  • triple cell level refers to processing in a state where three or three types of cells or cell-like structures are included. For the purpose of obtaining a larger number of gene groups from the same sample, processing at the double cell level, triple cell level, or even higher levels (e.g., 10 or 10 types of cells or cell-like structures) may be performed.
  • amplification As used herein, "amplification,” “amplify,” “amplifying,” or “amplification reaction,” and derivatives thereof, generally refer to the act or process in which at least a portion of a nucleic acid molecule (called a template nucleic acid molecule) is replicated or copied to at least one additional nucleic acid molecule.
  • the additional nucleic acid molecule optionally comprises a sequence that is substantially identical or substantially complementary to at least some portion of the template nucleic acid molecule.
  • the template target nucleic acid molecule may be single-stranded or double-stranded.
  • the additional resulting replicated nucleic acid molecule may independently be single-stranded or double-stranded.
  • amplification comprises a template-dependent in vitro enzyme-catalyzed reaction for the generation of at least one copy of at least some portion of the target nucleic acid molecule, or the generation of at least one copy of a target nucleic acid sequence that is complementary to at least some portion of the target nucleic acid molecule.
  • Amplification optionally comprises linear or exponential replication of the nucleic acid molecule.
  • such amplification is performed using isothermal conditions, and in other embodiments, such amplification may comprise thermal cycling.
  • the amplification is a multiplex amplification that comprises simultaneous amplification of multiple target sequences in a single amplification reaction.
  • amplification includes amplification of at least some portions of DNA-based nucleic acids and/or RNA-based nucleic acids, whether alone or in combination.
  • the amplification reaction can include single-stranded or double-stranded nucleic acid substrates and can further include any amplification process known to those of skill in the art.
  • the amplification reaction includes polymerase chain reaction (PCR).
  • the amplification reaction includes isothermal amplification. It may be advantageous to amplify while maintaining a gel state, preferably within a small compartment such as a gel capsule, gelling droplet, etc., herein.
  • whole genome amplification refers to amplifying the entire genome when the nucleic acid to be amplified is a genome.
  • Whole genome amplification can be performed by the multiple displacement amplification (MDA) method, which amplifies the entire genome by random priming using a DNA polymerase with strand displacement activity, such as phi29 DNA polymerase or Bst DNA polymerase.
  • MDA multiple displacement amplification
  • full-length gene sequence rate refers to the number of samples (e.g., nucleic acid molecules or polypeptide molecules) that code for a complete structural gene when analyzing the amino acid sequence encoded by the nucleic acid sequence, divided by the number of all samples surveyed. Typically, it is expressed as complete when the entire length of the coding region (CDS) of the gene is included in the contig, and incomplete when it is not, and complete/complete + incomplete can be expressed as the "full-length gene sequence rate".
  • CDS coding region
  • nucleic acid or amino acid sequences When referring to a database or data structure of nucleic acid or amino acid sequences, it can be evaluated as the ratio of the number of coding regions containing a full-length sequence starting with a start codon and ending with a stop codon divided by the total number of coding regions obtained when a contig obtained after connecting the nucleic acid lead sequences obtained from a certain nucleic acid library is analyzed by computer to estimate a region that is likely to code a protein.
  • contigs are held as data, so in such cases it is called the full-length gene sequence rate, and the original lead or the nucleic acid library on which the lead sequence is based is called the "full-length gene sequence content rate" as shown below.
  • This concept can be said to be one parameter that indicates the quality of databases and data structures of nucleic acids such as genomes or metagenomes, and samples such as libraries of nucleic acids that are the basis for them, and the databases and data structures may have a full-length gene sequence rate of at least 10%, preferably 15% or more, 20% or more, 25% or more, 30% or more, 35% or more, 40% or more, 45% or more, or 50% or more.
  • it can be determined by investigating the length of the protein-coding portion (coding region) of the contig obtained (by joining) the nucleic acid lead sequence. For example, it is necessary that both the ATG and the stop codon are present, and these can be calculated by identifying the sequence that codes for the gene (protein) using methods well known in the art.
  • full-length gene sequence content refers to the ratio obtained by dividing the number of coding regions containing a full-length gene sequence beginning with a start codon and ending with a stop codon by the total number of coding regions obtained when a contig obtained after joining the lead sequences of the nucleic acids contained in the library is computer-analyzed and a region (coding region) that is thought to code for a protein is estimated.
  • the full-length gene sequence content of a library is useful as a value indicating the evaluation of the quality of the library.
  • This concept can be said to be one parameter that indicates the quality of a sample such as a nucleic acid library used in generating a database and data structure of nucleic acids such as a genome or metagenome, and the library may have a full-length gene sequence content of at least 10% or more, preferably 15% or more, 20% or more, 25% or more, 30% or more, 35% or more, 40% or more, 45% or more, or 50% or more.
  • the library when actually calculating, it can be determined by examining the length of the protein-coding portion (coding region) of the contig obtained (by joining together) the lead sequence of the nucleic acid.
  • both the ATG and the stop codon must be present, and these can be calculated by identifying the sequence that codes for the gene (protein) using methods well known in the art, and when the value is applied to the library, it can be displayed as the content of full-length gene sequences.
  • coding region refers to a region that corresponds to a coding region (CDS) that is considered to code a gene in a contig obtained from a nucleic acid lead sequence in a collection or library of nucleic acids.
  • CDS coding region
  • a coding region When a coding region is identified, its length is also identified, and a length of a certain length (e.g., 1000 bp) or more can be used as an index of quality evaluation. In this specification, it is considered that the proportion of those that are 1000 bp or more can be used as an index of a nucleic acid library.
  • the ratio of the number of coding regions having a length of 1000 bp or more divided by the total number of coding regions can be used as an index of the quality and accuracy of a nucleic acid library in this disclosure, and in the conventional technology, only less than 3% could be achieved. In the present disclosure, it has become possible to achieve this at a high rate of 3% or more, preferably 5% or more, 10% or more, 15% or more, or 20% or more.
  • FIG. 1 shows an aspect (FIG. 1(C)) of the nucleic acid library preparation method of the present disclosure, which is directed to a metagenomic library, in comparison with the conventional shotgun metagenomic method (FIG. 1(A)) and mini-metagenomic method (FIG. 1(B)).
  • the method of preparing a metagenomic library of the present disclosure is not limited to this method (FIG. 1(C)).
  • FIG. 1(C) shows an aspect of the nucleic acid library preparation method of the present disclosure, which is directed to a metagenomic library, in comparison with the conventional shotgun metagenomic method (FIG. 1(A)) and mini-metagenomic method (FIG. 1(B)).
  • the method of preparing a metagenomic library of the present disclosure is not limited to this method (FIG. 1(C)).
  • FIG. 1(C) shows an aspect of the nucleic acid library preparation method of the present disclosure, which is directed to a metageno
  • the method of preparing a nucleic acid library such as a metagenomic library of the present disclosure may include a step of accommodating a desired number of cells or cell-like structures such as microorganisms in each small compartment (FIG. 1(C)[a]), a step of lysing the cells or cell-like structures (FIG. 1(C)[b]), a step of extracting nucleic acid molecules such as genomic DNA from the lysed cells or cell-like structures as necessary (FIG. 1(C)[c]), a step of amplifying the nucleic acid molecules (FIG. 1(C)[d]), and a step of accommodating one or more small compartments containing the amplified nucleic acid molecules in a large compartment (FIG. 1[e]).
  • microorganism refers to at least one type of organism, such as, but not limited to, a virus, bacteria, fungus, protozoan, microalgae, or animal or plant cell. Even if animal or plant cells are not broadly considered to be microorganisms as individuals, they are understood to fall within the concept of microorganisms in this disclosure when treated separately as individual cells. Examples of bacteria include eubacteria and archaea.
  • Eubacteria such as Mu-negative bacteria, as well as bacteria belonging to the genera Acidianus, Metallosphaera, Stygiolobus, Sulfolobus, Sulfurococcus, Sulfurisphaera, Aeropyrum, Desulfurococcus, Stetteria, Staphylothermus, Thermodiscus, Igneococcus, Thermosphaera, and the like.
  • Thermosphaera Sulfophobococcus, Hyperthermus, Pyrodictium, Pyrolobus, Pyrobaculum, Thermoproteus, Thermophilum, Caldococcus, Archaeoglobus, Ferroglobus, Methanothermus, Methanobacterium
  • archaea examples include those belonging to the genera Methanothermobacter, Methanosphaera, Methanococcus, Methanothermococcus, Methanocaldococcus, Methanoignis, Methanosarcina, Pyrococcus, Thermococcus, Thermococcus, Thermoplasma, and Picrophilus.
  • comprehensive analysis of each cell can be performed.
  • fungi include Ascomycota, Myxomycota, Phycomycetes, Basidiomycota, and Fungi Imperfecti
  • Ascomycota includes yeasts belonging to the genera Saccharomyces, Kluyveromyces, Candida, and Pichia, and Schizosaccharomyces.
  • nucleic acid library and method for producing same provides a library of nucleic acids, comprising a large compartment containing one or more small compartments, each of which contains one or more small compartments, and each of which contains one or more small compartments.
  • the boundary used in the small compartments is typically one that allows the passage of reagents necessary for nucleic acid amplification but does not allow the passage of targets for nucleic acid amplification (e.g., a semipermeable membrane), so that in general, only reagents necessary for nucleic acid amplification pass through the boundary between the inside and outside of the boundary, and therefore the targets for nucleic acid amplification are retained from the small compartment under normal conditions, while reagents necessary for nucleic acid amplification (e.g., polymerase, buffer components, primers (nucleic acid polymers with a molecular weight of a certain degree or less), components for exerting polymerase enzyme activity, etc.) can be added externally. Therefore, in this embodiment, the small compartments of the present disclosure can efficiently amplify nucleic acids derived from the cells or cell-like structures contained therein.
  • targets for nucleic acid amplification e.g., a semipermeable membrane
  • the compartments of the present disclosure are advantageously structures that are not substantially destroyed by means (drugs) or conditions (heat, shear, etc.) that lyse cells or cell-like structures.
  • the small compartment advantageously provides conditions that allow the nucleic acid molecule to be amplified uniformly.
  • conditions that allow uniform amplification allow the nucleic acid molecule to be amplified (typically, a genomic nucleic acid molecule) to be amplified evenly, and substantially all sequence information of the target nucleic acid can be obtained comprehensively.
  • amplified nucleic acid sequences e.g., genomic sequences
  • they can be distinguished from one another, so sequence information such as genomic information can be restored with high accuracy, providing unprecedented utility.
  • a sequence corresponding to a barcode sequence (also called a nucleic acid barcode) unique to each large compartment may be included in the nucleic acid molecule.
  • the length of the barcode sequence included in the nucleic acid molecule may be 4 to 12 bases, preferably 6 to 10 bases, and most preferably 8 to 10 bases.
  • Two or more types of nucleic acid barcodes may be used in combination, and depending on the combination, for example, even when eight plates with 384 large compartments are used simultaneously in parallel (a total of 3,072 large compartments), it is possible to distinguish each large compartment by using 3,072 types of nucleic acid barcodes with different sequences for each large compartment. If the types or combinations of barcode sequences to be prepared are further increased, massively parallel processing using even more large compartments will be possible. It should be noted that when adding a nucleic acid barcode sequence to identify the position of a large compartment, it is important to know which sequence of the nucleic acid barcode molecule has been added to which well, and such information can also be stored and recorded separately.
  • the nucleic acids contained in the library contained in the sub-compartment may be configured to substantially include nucleic acids of a predetermined length or more.
  • the predetermined length may be a minimum length to be comprehensive enough to analyze genome sequences.
  • substantially means that the presence of nucleic acids of a predetermined length or more allows analysis of nucleic acid sequences such as genomes, and that the presence of a small amount of shorter nucleic acids is acceptable as long as they do not inhibit the nucleic acid analysis.
  • this can be achieved by generating nucleic acids amplified to a predetermined length or more and selecting them.
  • the gelled droplets after nucleic acid amplification are washed by centrifugation using, for example, phosphate-buffered saline (PBS) as a washing solution, and then stained with a DNA intercalator such as a fluorescent dye (for example, SYBR Green (5760A, TaKaRa), Evagreen (31000, Cosmo Bio)), and observed with a flow cytometer to select gelled droplets containing genomic DNA amplified to a predetermined length or more, and a predetermined number of the gelled droplets (small compartments) are placed in each well (large compartment) of a microplate (for example, HSP3801, BioRad).
  • PBS phosphate-buffered saline
  • a DNA intercalator such as a fluorescent dye (for example, SYBR Green (5760A, TaKaRa), Evagreen (31000, Cosmo Bio)), and observed with a flow cytometer to select gelled droplets containing genomic DNA amplified to a predetermined length or more, and
  • the large compartment contains two or more of the small compartments. Even if a large compartment contains a plurality of small compartments, there was no unexpected problem in the subsequent analysis of the nucleic acid sequence.
  • the small compartments allow the cells or cell-like structures present therein or nucleic acids derived therefrom to be individually amplified, and can be amplified to include a barcode sequence as necessary.
  • the nucleic acid molecules contained in one small compartment include nucleic acid molecules derived from one or more cells or cell-like structures and/or amplification products obtained by amplification using the nucleic acid molecules as templates.
  • the number of cells or cell-like structures contained in one small compartment may be two or more, and in this case, the two or more cells or cell-like structures may be of the same or different species, and when there are n cells or cell-like structures (n is a positive integer), in the case of different species, there may be 2 to n types of cells or cell-like structures.
  • the nucleic acid library of the present disclosure includes a metagenomic library.
  • the nucleic acid or amplification product contained in the compartment comprises genomic DNA derived from a cell or cell-like structure and/or an amplification product obtained by amplification using genomic DNA as a template.
  • the large compartment may advantageously include 2 or more, preferably 3 or more, 4 or more, 5 or more, 10 or more, 20 or more, typically 2 to 300, preferably 2 to 50, 5 to 15, 8 to 12, about 10 of the small compartments, but is not limited thereto.
  • the one or more cells or cell-like structures from which the nucleic acid molecules are derived include two or more types of cells or cell-like structures. When two or more types of cells or cell-like structures are included, this also includes the case where a metagenome is constituted.
  • the small compartment is advantageously a gelled droplet, a droplet or a coated droplet.
  • the gelled droplet, the droplet or the coated droplet all allow the reagents necessary for nucleic acid amplification to pass through but not the target of nucleic acid amplification, so that in the exchange of substances between the inside and outside of the boundary, only the reagents necessary for nucleic acid amplification pass through, and the target of nucleic acid is retained from the small compartment under normal conditions, while the reagents necessary for nucleic acid amplification (e.g., polymerase, buffer components, primers (nucleic acid polymers having a molecular weight of a certain degree or less), components for exerting polymerase enzyme activity, etc.) can be added externally.
  • the reagents necessary for nucleic acid amplification e.g., polymerase, buffer components, primers (nucleic acid polymers having a molecular weight of a certain degree or less), components for exerting
  • the gelled droplet, the droplet or the coated droplet is advantageously a structure that is not substantially destroyed by means (drugs) or conditions (heating, shearing, etc.) that dissolve the cell or cell-like structure.
  • gelled droplets, liquid droplets, or coated droplets are preferably used when the target is a nucleic acid molecule, because they can provide conditions under which the nucleic acid molecule can be amplified uniformly.
  • the gelling droplets may be comprised of agarose, acrylamide, photocurable resins, polyethylene glycol, gelatin, sodium alginate, Matrigel, collagen and hydrogels, and combinations thereof.
  • amplification is performed while maintaining the gel state in small compartments such as gel capsules or gel droplets.
  • the resulting library can provide nucleic acid molecules in a state suitable for subsequent nucleic acid sequence analysis.
  • the droplets When the small compartments are gelled droplets, the droplets preferably have a diameter of about 1 to 250 ⁇ m. This is because they can be stably provided as a library of nucleic acids.
  • the diameter when forming gelled droplets or gel capsules may be about 1 to 250 ⁇ m, more preferably about 10 to 200 ⁇ m, for example, about 1 ⁇ m, about 5 ⁇ m, about 10 ⁇ m, about 15 ⁇ m, about 20 ⁇ m, about 25 ⁇ m, about 30 ⁇ m, about 40 ⁇ m, about 50 ⁇ m, about 80 ⁇ m, about 100 ⁇ m, about 150 ⁇ m, about 200 ⁇ m, or about 250 ⁇ m.
  • the diameter of the gel capsules or gelled droplets may be the same as the droplets to be produced, but the diameter may change during gelling.
  • the large compartments are well-forming parts of a microplate or microtubes.
  • wells forming parts
  • they can be provided in the form of a multi-well plate that includes these, allowing subsequent processing (e.g., pre-processing for sequencing, etc.) to be performed efficiently.
  • the present disclosure provides a combination of nucleic acid libraries that includes multiple nucleic acid libraries.
  • the present disclosure provides a nucleic acid library in which the full-length gene sequence content is 10% or more, 15% or more, 20% or more, 25% or more, 30% or more, 35% or more, 40% or more, 45% or more, or 50% or more.
  • Conventional techniques have not provided a nucleic acid library with such a high full-length gene sequence content, and the present disclosure provides an extremely high quality library, which can provide high quality data with greater accuracy and coverage in subsequent base sequence analysis, amino acid sequence analysis, and gene coding sequence analysis.
  • the present disclosure provides a library in which the percentage of coding regions with lengths of 1000 bp or more is 3% or more, preferably 5% or more, 10% or more, 15% or more, or 20% or more.
  • Conventional techniques have not provided a library of nucleic acids with such a high percentage of coding regions with lengths of 1000 bp or more, and the present disclosure provides a library of extremely high quality, which can provide high-quality data with greater accuracy and coverage in subsequent base sequence analysis, amino acid sequence analysis, and gene coding sequence analysis.
  • the present disclosure provides a method for preparing a nucleic acid library, comprising the steps of: providing two or more cells or cell-like structures; generating small compartments containing one or more cells or cell-like structures from the cells or cell-like structures; lysing the cells or cell-like structures contained in the small compartments so that the nucleic acids in the cells or cell-like structures are eluted and retained in the small compartments; if necessary, contacting the nucleic acids with a nucleic acid amplification reagent to amplify the nucleic acids in the small compartments to obtain amplification products; and placing one or more of the large compartments containing the small compartments containing the amplification products in a container for base sequencing.
  • the cells or cell-like structures used are provided in the form of a suspension, but this is not intended to be limiting.
  • the suspension has the advantage of making it easier to pipette and to suck up the desired amount of liquid and transfer it to a microtube or the like, but this is not intended to be limiting.
  • the nucleic acid containing the genome in the cells or cell-like structures is preferably manipulated to be eluted into the compartments and retained within the compartments. Without wishing to be bound by theory, this is because by retaining the nucleic acid in this state, subsequent nucleic acid amplification can be carried out efficiently.
  • the step of obtaining an amplification product advantageously includes adding a barcode sequence specific to the large compartment to the nucleic acid.
  • multiple large compartments in the step of placing one or more of the large compartments including the small compartments containing the amplification products in a container for base sequence determination, multiple large compartments, preferably all of the large compartments, can be placed in such a container for subsequent base sequence determination.
  • the amplified sequence contains a barcode sequence that allows unique identification of the large compartment, and when the base sequence is subsequently determined, it can be determined unambiguously which large compartment the sequence originates from.
  • multiple large compartments, or preferably all of the large compartments can be "combined" (the contents of the large compartments can be combined in the same container), which allows for more efficient base sequence determination.
  • the process of placing one or more of the large compartments containing the small compartments containing the amplification products of the present disclosure in a container for base sequencing it is advantageous to remove all nucleic acids other than those amplified to a predetermined length or more.
  • the nucleic acid molecules contained therein are substantially longer than the predetermined length, and subsequent analysis of the nucleic acid sequence can be carried out efficiently.
  • the predetermined length is advantageously, but is not limited to, 30 kb or more.
  • Removal of nucleic acids of such a certain length can be achieved, for example, by using a flow cytometer (BD FACSMelody cell sorter, BD Biosciences) to select gel capsules or gelled droplets that hold genomic DNA amplified to a predetermined length or more.
  • a flow cytometer BD FACSMelody cell sorter, BD Biosciences
  • a sample containing two or more cells or cell-like structures is a single sample.
  • the sample containing two or more cells or cell-like structures may be soil (including marine soil), seawater, river water, lake water, feces, saliva, skin, sputum, sludge (including activated sludge), industrial wastewater, tissue from animals or plants, and surgical irrigation fluid.
  • the number of small compartments contained in one large compartment is preferably 2 or more, and more preferably 3 or more, 4 or more, 5 or more, 10 or more, 20 or more, etc.
  • it may be 5 to 15, usually 2 to 300, preferably 2 to 50, 5 to 15, 8 to 12, or about 10.
  • the number of cells or cell-like structures contained in 1 g of sample may be, but is not limited to, 1 million or more, for example, 5 million or more, 10 million or more, 30 million or more, 50 million or more, 100 million or more, 500 million or more, or 1 billion or more.
  • the number of cells may be determined from an image such as a photograph, or may be confirmed with the naked eye through a microscope.
  • the cells or cell-like structures may include two or more types, for example, 10,000 or more types, 30,000 or more types, 50,000 or more types, 100,000 or more types, 200,000 or more types, 500,000 or more types, or 1 million or more types.
  • the types of cells can be classified by interpretation of the results of identification by phylogenetic analysis using, for example, the 16S rRNA gene.
  • one or more or one or more types is one to three or one to three types.
  • one to three types is expected to increase the number of genes that can ultimately be obtained by the same operation, but is not limited to this.
  • the one or more or one or more types is two to three or two to three types. Without wishing to be bound by theory, it is expected that the number of genes ultimately obtained by the same operation will increase by having two to three types, but this is not limited to this.
  • the step of generating small compartments may be performed by first incorporating a component having gelling ability into the cell or cell-like structure suspension, then flowing the cell or cell-like structure suspension having gelling ability into a microchannel and shearing the suspension with oil.
  • a component having gelling ability into the cell or cell-like structure suspension
  • this is because in this case, the cells or cell-like structures can be efficiently arranged in the small compartments.
  • the present disclosure provides a method for analyzing a nucleic acid sequence in a cell or cell-like structure, comprising the steps of: providing two or more cells or cell-like structures; generating a small compartment containing one or more cells or cell-like structures from the cells or cell-like structures; lysing the cells or cell-like structures contained in the small compartment so that the nucleic acid in the cells or cell-like structures is dissolved and retained in the small compartment; optionally contacting the nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the small compartment to obtain an amplification product; optionally placing one or more of the large compartments containing the small compartments containing the amplification products in a container for base analysis; determining the base sequence of the amplification product; and analyzing the base sequence obtained in the above steps; optionally analyzing the amino acid sequence encoded by the base sequence; and optionally analyzing a region encoding a gene.
  • the step of providing two or more cells or cell-like structures may be performed in any manner.
  • the cells may be obtained from a cell source or may be commercially available.
  • the process of generating sub-compartments containing one or more cells or cell-like structures from cells or cell-like structures is realized by isolating cells or cell-like structures from a sample containing cells or cell-like structures such as microorganisms such as bacteria, as illustrated in FIG. 1(C)[a], and placing the desired number of cells or cell-like structures in each sub-compartment, as described herein.
  • the step of lysing the cells or cell-like structures contained in the small compartments so that the nucleic acids in the cells or cell-like structures are dissolved and retained within the small compartments may involve immersing a small droplet or other such droplet containing a single cell or cell-like structure in one or more types of lysis reagents to dissolve the cell septum of the cells or cell-like structures.
  • the cell contents including genomic DNA can be released to the outside.
  • the step of contacting a nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the compartment to obtain an amplification product is achieved by adding the amplification reagent while the nucleic acid is contained in the compartment.
  • the amplification reagent includes a primer for the target DNA, a label such as a fluorescent substance, an enzyme (heat-resistant DNA polymerase), dNTPs, etc., and includes reagents used for nucleic acid amplification.
  • “Fluorescent label” refers to a label that the amplified nucleic acid (target DNA amplification product) has by binding to the amplified nucleic acid (target DNA amplification product), and that emits fluorescence when excited by excitation light, a so-called fluorescent substance.
  • PCR a typical example of an amplification method, is a method of amplifying a target nucleic acid in a sample by repeating three steps, which are (1) DNA denaturation by heat treatment (dissociation from double-stranded DNA to single-stranded DNA), (2) annealing of a primer to a template single-stranded DNA, and (3) extension of the primer using DNA polymerase, as one cycle. Annealing and extension may be performed in two steps at the same temperature.
  • Fluorescent substances include, for example, fluorescent substances (fluorescent dyes and quenching substances) used in a method (probe method) in which a DNA probe bound to a fluorescent dye and a quencher (quenching substance) is bound to a template DNA in the annealing step, and this DNA probe is cleaved in the extension (reaction) step, and the fluorescence from the fluorescent dye that was suppressed by the quencher is detected.
  • Other examples include dyes (fluorescent dyes) used in methods such as the intercalator method, which uses a dye that enters between the strands of double-stranded DNA and emits fluorescence.
  • fluorescent label is a label that is possessed by amplified nucleic acid (amplification product of target DNA) by binding to the amplification product, and which emits fluorescence when exposed to excitation light, a so-called fluorescent substance.
  • Fluorescent substances include, for example, fluorescent substances (fluorescent dyes and quenching substances) used in a method (probe method) in which a DNA probe bound to a fluorescent dye and a quencher (quenching substance) is bound to a template DNA in the annealing step, and this DNA probe is cleaved in the extension (reaction) step, and the fluorescence from the fluorescent dye that was suppressed by the quencher is detected.
  • Other dyes (fluorescent dyes) include those used in a method (intercalator method) that uses a dye that enters between the strands of double-stranded DNA and emits fluorescence.
  • the step of placing one or more of the large compartments containing the small compartments containing the amplification products in a container for base sequencing, which is performed as needed can be achieved by a conventional method such as aspirating the large compartment containing the small compartments and placing it in the container.
  • the step of determining the base sequence of the amplified product can be performed using a method commonly known in the art, for example, a next-generation sequencer (NGS) can be used.
  • NGS next-generation sequencer
  • specific artificial nucleic acid sequences including barcode sequences for identifying the samples must be added to both ends of the nucleic acid fragment to be sequenced, and a nucleic acid amplification reaction step for this purpose is usually performed in addition to the step of amplifying the target nucleic acid sequence.
  • the step of analyzing the obtained base sequence can measure various aspects of the base sequence and can be carried out by analyzing the region coding for a structural gene, analyzing the amino acid sequence coded by the base sequence, and analyzing the region coding for a gene.
  • the method may include a step of combining small compartments from multiple large compartments into one, if necessary.
  • multiple small compartments e.g., droplets
  • subsequent analysis e.g., sequencing
  • subsequent analysis such as obtaining gene sequences
  • the step of obtaining the amplification product may include adding a barcode sequence specific to the large compartment to the nucleic acid. This makes it possible to identify which well the amplified sequence originates from using the added barcode sequence as a clue.
  • combining includes, for example, combining a compartment (which may be a small compartment or a large compartment) containing the amplification product into a smaller number of compartments, preferably one compartment (e.g., in the case of combining small compartments, this may be a large compartment, and in the case of a small or large compartment, this may be another container that is not a large compartment (e.g., a container for use in determining the base sequence).
  • the compartments to be combined may be the same as the small or large compartment, or may be different from them.
  • the step of obtaining the amplification product or the corresponding amplification reagent storage section includes adding a barcode sequence specific to the large compartment to the nucleic acid, or includes a reagent for adding the barcode sequence.
  • this allows the origin of the large compartment to be identified when sequencing is performed simultaneously or at different times after mixing, enabling massively parallel information collection.
  • the present disclosure includes combining sub-sections containing the amplification products into fewer sections, and more preferably, combining sub-sections containing the amplification products into one section.
  • the present disclosure includes housing multiple compartments, preferably all of the compartments, in a single container.
  • the method further includes selecting only nucleic acids that have been amplified to a predetermined length or greater from the amplification products. This is because it is possible to increase the efficiency of comprehensive sequencing.
  • the step of analyzing the gene-encoding region or the corresponding analysis unit includes calculating the full-length gene sequencing rate.
  • a full-length gene sequencing rate has not been taken up as an item for evaluating the quality of a library in the past, but the present disclosure has made it possible to determine longer, comprehensive sequences, and has therefore been found to be a meaningful evaluation item.
  • the base sequences of the amplification products are determined simultaneously in parallel.
  • the one or more targets of simultaneous parallel determination may be 96 or more, 192 or more, 384 or more, 768 or more, 1536 or more, 3072 or more, etc.
  • the base sequences may be determined using a next-generation sequencer.
  • the present disclosure provides a method for analyzing a metagenomic genome, comprising the steps of: providing two or more cells or cell-like structures constituting the metagenomic genome; generating a subcompartment containing one or more cells or cell-like structures from the cells or cell-like structures; lysing the cells or cell-like structures contained in the subcompartments so that the nucleic acid in the cells or cell-like structures is dissolved and retained in the subcompartments; optionally contacting the nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the subcompartments to obtain an amplified product; optionally placing one or more of the large compartments including the subcompartments containing the amplified products in a container for base sequencing; determining the base sequence of the amplified product in the subcompartments; analyzing the base sequence obtained in the above steps to obtain nucleic acid sequence information of the metagenomic genome; optionally analyzing the amino acid sequence encoded by the base
  • the present disclosure further includes selecting only nucleic acids that have been amplified to a predetermined length or greater from the amplification products.
  • a representative example of such a technique is one that can be used in the analysis of metagenomics.
  • the present disclosure provides a method for analyzing a metagenomic genome, comprising the steps of: providing two or more cells or cell-like structures constituting the metagenomic genome; generating a subcompartment containing one or more cells or cell-like structures from the cells or cell-like structures; lysing the cells or cell-like structures contained in the subcompartments so that the nucleic acid in the cells or cell-like structures is dissolved and retained in the subcompartments; optionally contacting the nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the subcompartments to obtain an amplified product; optionally placing one or more of the large compartments including the subcompartments containing the amplified product in a container for base sequencing; determining the base sequence of the amplified product in the subcompartments; and analyzing the base sequence obtained in the above steps to obtain nucleic acid sequence information of the metagenomic genome; optionally analyzing the amino acid sequence encoded by
  • the analytical method disclosed herein includes a step of simultaneously and in parallel determining the base sequences of the amplification products in the small compartments of the combined large compartment, and a step of analyzing the base sequences obtained in the above step using a computer to obtain genes by inferring protein-coding regions.
  • the plurality may be 96 or more, 384 or more, 768 or more, 1,152 or more, 1,536 or more, 1,920 or more, 2,304 or more, 2,688 or more, 3,072 or more, etc.
  • the present disclosure provides a system for analyzing a nucleic acid sequence in a cell or cell-like structure, comprising: a small compartment generating unit for generating small compartments containing one or more cells or cell-like structures from the cell or cell-like structure; a nucleic acid dissolving unit for dissolving the cells or cell-like structures contained in the small compartments so that the nucleic acid in the cell or cell-like structure is dissolved and retained in the small compartment; an amplification reagent storage unit for storing a nucleic acid amplification reagent used to contact the nucleic acid and amplify the nucleic acid in the small compartment to obtain an amplification product; a storage unit for storing one or more large compartments including a small compartment containing the amplification product as necessary; a base sequencing unit for determining the base sequence of the amplification product in the small compartment, and a base sequence analysis unit for analyzing the base sequence; an amino acid sequence analysis unit for analyzing the amino acid sequence encoded by the base
  • the sub-compartment generating unit included in the system of the present disclosure which generates sub-compartments containing one or more cells or cell-like structures from cells or cell-like structures, may be any type as long as it includes a system for producing sub-compartments.
  • it may be a device or means for producing gelling droplets, droplets, or coated droplets. It can be performed by encapsulating microbial cells in droplets.
  • a microchannel is exemplified, and it is configured so that a suspension of microbial cells is flowed into the microchannel and the suspension is sheared to produce microdroplets containing a desired number of cells. Shearing can be performed at regular intervals.
  • Shearing of the suspension can be performed using oil.
  • oil for example, mineral oil (e.g., light mineral oil), vegetable oil, silicone oil, and fluorinated oil can be used, so that a means for performing such shearing may be provided.
  • the nucleic acid dissolving section which dissolves the cells or cell-like structures contained in the compartments so that the nucleic acids in the cells or cell-like structures are dissolved and retained within the compartments, may be any means that can provide the conditions for the nucleic acids to be dissolved and retained within the compartments, such as heating the compartments.
  • the amplification reagent storage section that contains the nucleic acid amplification reagent used to contact the nucleic acid and amplify the nucleic acid in the compartment to obtain an amplified product may be of any type as long as it is capable of storing the amplification reagent.
  • the container that contains one or more of the large compartments that contain the small compartments that contain the amplification products may be, for example, a pipette, as long as it has a structure that allows the small compartments to be collected by suction or the like and moved to the large compartment.
  • the base sequence determination unit that determines the base sequence of the amplification product in the small compartment may be any device that can determine the sequence, such as a next-generation sequencer (NGS).
  • NGS next-generation sequencer
  • the base sequence analysis unit that analyzes the base sequence may be anything that can analyze the read base sequence, but it may also be anything that can input the base sequence and analyze it using a computer or the like.
  • the amino acid sequence analysis unit that analyzes the amino acid sequence coded by the base sequence may be any device that can analyze amino acid sequences using a computer or the like.
  • the coding region analysis unit that analyzes the region that codes for a gene can be anything that can analyze nucleic acid sequences and analyze those that correspond to structural genes, so long as it can be analyzed by a computer or the like.
  • Analysis of base sequences, amino acid sequences, and gene-coding regions can be performed using tools such as SPAdes, which is used to join together read base sequence fragments, and Prokka, which is a tool for estimating gene-coding regions, and by referring to base sequence or amino acid sequence databases as necessary, but is not limited to these, and any other application can also be used.
  • the analysis units that analyze base sequences, amino acid sequences, and genes may each be the same analysis unit, and may be capable of analyzing, for example, two or three or more of these functions.
  • the base sequences of the amplification products are determined simultaneously in parallel.
  • Such a method can be achieved by sequencing the base sequences of the amplification products in small compartments of a large compartment that has been combined into one. In this case, since a barcode sequence is included, the sequencing can be performed simultaneously in parallel, achieving massively parallel processing.
  • the present disclosure may provide a method for storing nucleic acid molecules, characterized in that after the final step of the method for producing a nucleic acid library described herein, the method further includes a step of storing the large compartment containing the small compartments at or below room temperature, either as is or after adding a substance that inhibits DNA degradation.
  • the nucleic acid molecules in this disclosure are from microorganisms.
  • room temperature or below can be 4°C or below, preferably -20°C or below, and more preferably -80°C or below.
  • the present disclosure provides a method for separating cells such as bacteria from a sample such as a microflora obtained in the above steps and placing the desired number of cells in each compartment, including, but not limited to, (1) a method using a microchannel, (2) a method in which cells are fluorescently labeled and then placed in a flow cytometer (FACS; fluorescence activated cell sorter), (3) a method using a micromanipulator that can finely manipulate microbial cells under microscope observation, and (4) a limiting dilution method that stochastically obtains single cells.
  • FACS fluorescence activated cell sorter
  • a buffer solution containing salts, nutrients, and other components, in addition to physiological saline can be used as a medium for suspending the cells.
  • any components suitable for droplet generation may be used.
  • buffer solutions include PBS, Tris-HCl, TE, and HEPES, and other buffer solutions include, but are not limited to, sterile water, seawater, artificial seawater, and various liquid media.
  • a medium such as water or a buffer that does not contain a surfactant may be preferable.
  • microdroplet refers to a very small droplet with a volume of nanoliter (10 -9 L) to picoliter (10 -12 L) or less, which is produced using a microfluidics technology for mixing, separating, and detecting liquid reagents on a small device in which microchannels and reaction vessels of micrometer size are formed on a silicon or glass substrate.
  • the process of placing one or two cells in each compartment can be carried out by encapsulating one or two cells in a droplet.
  • a suspension of cells is caused to flow through the microchannel and the suspension is sheared to produce microdroplets containing one or two cells. Shearing can be carried out at regular intervals. Shearing of the suspension can be carried out using oil. Examples of the oil that can be used include mineral oil (e.g., light mineral oil), vegetable oil, silicone oil, and fluorinated oil.
  • the cell concentration of the suspension can be set to 7,000 to 14,000 cells/ ⁇ L, which results in a calculated 0.1 to 0.2 cells/droplet, and it is possible to ensure that 90% or more of the droplets in which cells are actually encapsulated are 1 cell.
  • the cell concentration of the suspension can be set to 7,000 to 14,000 cells/ ⁇ L, which results in a calculated 0.1 to 0.2 cells/droplet, and it is possible to ensure that 90% or more of the droplets in which cells are actually encapsulated are 1 cell.
  • the cell concentration of the suspension to a calculated 2 cells/droplet, it is possible to ensure that 31% or more of the droplets in which cells are encapsulated are 2 cells.
  • the cell concentration of the suspension to a calculated 3 cells/droplet, it is possible to ensure that 23% or more of the droplets in which cells are encapsulated are 3 cells.
  • the diameter of the droplets may be about 1 to 250 ⁇ m, more preferably about 10 to 200 ⁇ m, and most preferably about 20 to 60 ⁇ m, for example, the diameter of the droplets may be about 1 ⁇ m, about 5 ⁇ m, about 10 ⁇ m, about 15 ⁇ m, about 20 ⁇ m, about 30 ⁇ m, about 40 ⁇ m, about 50 ⁇ m, about 60 ⁇ m, about 70 ⁇ m, about 80 ⁇ m, about 90 ⁇ m, about 100 ⁇ m, about 150 ⁇ m, about 200 ⁇ m, or about 250 ⁇ m.
  • the method for producing a metagenomic library of the present disclosure may include a step of producing the droplets and then gelling them to produce gelled droplets.
  • the gelling of the droplets can be carried out, for example, by constructing the droplets so that they contain a gelling material that gels when cooled to a predetermined temperature, and then cooling the produced droplets to the predetermined temperature.
  • the droplets can be constructed so that they contain a gelling material that gels when irradiated with light, and then gelling can be carried out by applying a light stimulus to the produced droplets.
  • the suspension of microbial cells can contain a material for gelling (also called a gelling material).
  • a material for gelling also called a gelling material.
  • gelling materials include agarose (including low-melting agarose), acrylamide, photocurable resin (e.g., PEG-DA), PEG, gelatin, sodium alginate, Matrigel, collagen, and the like.
  • the gelled droplets can be hydrogelled droplets.
  • “hydrogel” refers to a polymeric substance or a polymeric material in which the solvent or dispersion medium is water and which is held in place by a network structure of colloidal particles.
  • gelled droplets that encapsulate one to several cells or cell-like structures it is possible to retain the purified genetic material (e.g., DNA) in the gelled droplets and to eliminate the possibility of external molecular contamination.
  • impurities can be removed by centrifuging a solution containing gelled droplets that encapsulate one to several cells, removing the supernatant, and replacing it with a washing solution.
  • the gelled droplets can be filtered through a filter, the supernatant removed, a washing solution passed through, and finally the gelled droplets collected.
  • the gelled droplets it is possible to dilute the remaining reagents while retaining the genetic material. This process can also be repeated. By adding this process, subsequent operations, such as amplification reactions, can be carried out smoothly.
  • the step of accommodating a desired number of cells or cell-like structures such as microorganisms in each small compartment is realized by separating cells or cell-like structures from a sample containing cells or cell-like structures such as microorganisms such as bacteria, and accommodating a desired number of the cells or cell-like structures in each small compartment, as exemplified in FIG. 1(C)[a].
  • the desired number is 1 to 3 or 2 to 3, more preferably 1 to 3, and most preferably 1.
  • Specific examples of the step of accommodating a desired number of microorganisms in each small compartment are shown below, but are not limited to these methods. First, a microflora is separated from a sample containing microorganisms such as bacteria.
  • microflora refers to a collection of microorganisms contained in a sample containing microorganisms such as bacteria. For example, 5 g of a sample is suspended in 6 ml of an aqueous solution such as physiological saline, buffer solution, or sterile water, and left to stand to precipitate and remove impurities, and then the microorganisms such as bacteria present in the supernatant are centrifuged at 8,000 to 10,000 x g to collect the precipitate, thereby obtaining a microflora.
  • an aqueous solution such as physiological saline, buffer solution, or sterile water
  • the precipitate containing the obtained microflora is further suspended in an aqueous solution, and then centrifugal separation and collection of the precipitate are repeated several times to obtain a microflora with fewer impurities.
  • the number of microbial cells contained in the microflora can be any number of 2 or more, for example, 10 or more, 50 or more, 100 or more, 500 or more, 10000 or more, 50000 or more, 10,0000 or more, 500,000 or more, 1 million or more, 5 million or more, or 10 million or more, but is not limited thereto.
  • samples containing microorganisms such as bacteria include, but are not limited to, soil (including marine soil), seawater, river water, lake water, feces, saliva, skin, sputum, sludge (including activated sludge), industrial wastewater, tissues derived from animals and plants, surgical cleaning fluid, etc.
  • the lysis step which is carried out as necessary, can be carried out, for example, as shown in FIG. 1(C)[b], by immersing a gelled droplet in which a single cell or cell-like structure is encapsulated in one or more lysis reagents to dissolve the cell partition of the cell or cell-like structure and release the cell contents including genomic DNA to the outside.
  • the term "cell partition” broadly includes the membrane and/or wall that constitutes the boundary separating the inside and outside of a cell or cell-like structure in a cell or cell-like structure.
  • the structure of the cell partition varies greatly depending on whether the cell or cell-like structure corresponds to bacteria, archaea, fungi, animal cells, plant cells, viruses, etc.
  • the cell partition is composed of a cell membrane and a cell wall, the cell membrane is composed of a phospholipid bilayer, and the cell wall present on the outside of the cell membrane is mainly composed of peptidoglycan.
  • the cell partition is also composed of a cell membrane and a cell wall, but the cell membrane contains ergosterol in addition to the phospholipid bilayer, and the cell wall, unlike bacteria, is mainly composed of glucan, chitin, mannan, etc.
  • the cell partition consists only of a cell membrane, and the main components of the cell membrane are phospholipids and cholesterol.
  • a lysis reagent for dissolving the cell partition of such various types of cells or cell-like structures a combination of enzymes, surfactants, other denaturants, reducing agents, and pH regulators can be used.
  • the dissolution reagents include lysozyme, labiase, yatalase, achromopeptidase, protease, nuclease, zymolyase, chitinase, lysostaphin, mutanolysin, sodium dodecyl sulfate, sodium lauryl sulfate, potassium hydroxide, sodium hydroxide, phenol, chloroform, guanidine hydrochloride, urea, 2-mercaptoethanol, dithiothreitol, TCEP-HCl, and coumarin.
  • the lysis reagent may include at least one selected from the group consisting of sodium phosphate, sodium deoxycholate, Triton X-100, Triton X-114, NP-40, Brij-35, Brij-58, Tween 20, Tween 80, octylglucoside, octylthioglucoside, CHAPS, CHAPSO, dodecyl- ⁇ -D-maltoside, Nonidet P-40, and Zwittergent 3-12. More preferably, the lysis reagent may include at least one selected from the group consisting of lysozyme, achromopeptidase, protease, sodium dodecyl sulfate, and potassium hydroxide.
  • the immersion time of the gelling droplets varies depending on the type and concentration of the lysis reagent used. For example, when lysing microbial cells in the gelling droplets by sequentially adding 50 U/ ⁇ L lysozyme, 1 mg/mL protease K, and 0.5% sodium dodecyl sulfate (SDS), 0.5%, lysis can be ensured by leaving the droplets at 37°C for 1 hour, preferably 2 hours, after adding all of the lysis reagent.
  • SDS sodium dodecyl sulfate
  • gram-positive bacteria When amplifying or analyzing nucleic acids from individual cells of a diverse group of microbial cells, for example, gram-positive bacteria have cell walls that contain a thick peptidoglycan layer, so mild lysis alone may not be sufficient to lyse the cells, and it is therefore desirable to use a lysis reagent or combination of lysis reagents that are somewhat strong.
  • extraction of nucleic acid refers to a process of removing, as necessary, from the cell lysate obtained in the previous process, substances other than polynucleotides constituting nucleic acid such as genomic DNA, such as debris of cell septa, impurities such as proteins that bind to nucleic acid such as genomic DNA, and the like, so as to create a state in which nucleic acid such as genomic DNA derived from cells is present in the compartment in a highly purified state, as shown in Fig. 1(C) [c].
  • This process allows subsequent operations, such as amplification reactions, to be carried out smoothly.
  • the dissolution reagent used in the dissolution step, the remains of cell partitions, and impurities such as proteins that bind to nucleic acids such as genomic DNA may inhibit reactions such as nucleic acid amplification of DNA, and are preferably sufficiently removed from the gel droplets before the subsequent steps.
  • the nucleic acids such as genomic DNA dissolved into the gelled droplets by the dissolution step are retained in the gelled droplets and do not leak out of the gelled droplets even when the gelled droplets are immersed in each solution, while the dissolution reagent remaining in the gel droplets, the remains of cell partitions, and impurities such as proteins that were bound to nucleic acids such as genomic DNA can be leaked out of the gelled droplets.
  • the dissolution reagent and other impurities can be removed by repeating the steps of immersing the gelled droplets after the dissolution step in a washing solution, centrifuging them, removing the supernatant, and replacing it with a new washing solution.
  • the dissolution reagent and other impurities can also be removed by filtering the gelled droplets through a filter, removing the supernatant, passing a washing solution through them, and finally recovering the gelled droplets.
  • a strong lysis reagent or a combination of lysis reagents can enable comprehensive nucleic acid amplification or analysis of nucleic acids such as genomes, regardless of the type of various cells (including those with cell walls and other types of microorganisms). Since only one molecule of genomic DNA is usually present in a cell, if the entire region of genomic DNA is to be amplified without omission in the subsequent steps, it is important that the cells are completely lysed and proteins bound to the genomic DNA are sufficiently removed.
  • nucleic acid amplification refers to a process of amplifying a nucleic acid (e.g., total genomic DNA) using a target nucleic acid molecule such as genomic DNA extracted in the previous process as a template, as shown in FIG. 1(C) [d]. This process is useful when the amount of nucleic acid (e.g., DNA) in the large compartment is extremely small, and can be omitted when the amount of nucleic acid (e.g., DNA) in the large compartment is sufficient.
  • This process is useful for obtaining a single genome amplified product ( SAG ) in an amount sufficient to enable sequence analysis by a next-generation sequencer from an extremely small amount of genomic DNA, such as a femtogram (10 ⁇ 15 ) amount per cell.
  • SAG single genome amplified product
  • the process of amplifying a nucleic acid can be performed by whole genome amplification (WGA).
  • WGA examples include the MDA (Multiple Displacement Amplification) method, the MALBAC (Multiple Annealing and Looping based Amplification Cycles) method, and the DOP-PCR (Degenerate Oligonucleotide-Primed PCR) method.
  • MDA Multiple Displacement Amplification
  • MALBAC Multiple Annealing and Looping based Amplification Cycles
  • DOP-PCR Degenerate Oligonucleotide-Primed PCR
  • the MDA method uses phi29 DNA polymerase and random primers to carry out a DNA replication reaction (also called a constant temperature strand displacement amplification reaction) under constant temperature reaction conditions at 30°C.
  • the high-precision DNA replication and strand displacement activity of phi29 DNA polymerase makes it possible to replicate long-chain DNA of kilobases or more, ultimately obtaining nanogram to microgram amounts of genome amplification product from femtogram levels of genome DNA, and can be suitably used in the process of amplifying genome DNA in this disclosure.
  • a reaction involving heat treatment may cause the gel (e.g., agarose gel) to re-dissolve, which may destroy the shape of the gelling droplet as a small compartment and invalidate the isolation of the gelling droplet contents. Therefore, when an enzyme reaction is allowed to proceed within a gelling droplet, it is desirable to use an enzyme or reaction system that can proceed at or below the melting temperature of the gelling material, in accordance with the melting temperature of the gelling material.
  • the MDA method can be suitably employed, and examples of enzymes that can be used include, but are not limited to, the above-mentioned phi29 polymerase (optimum temperature: 30°C), recombinase polymerase (optimum temperature: 37-42°C), and Bst polymerase (optimum temperature: 60°C to 65°C).
  • the large compartments may be collected in one container and then sequenced.
  • a unique barcode sequence also called a nucleic acid barcode
  • the length of the barcode sequence may be 4 to 12 bases, preferably 6 to 10 bases, and most preferably 8 to 10 bases.
  • Two or more types of nucleic acid barcodes may be used in combination, and depending on the combination, for example, even when eight 384-well microplates are used simultaneously in parallel (a total of 3,072 wells), it is possible to distinguish each well by using 3,072 types of nucleic acid barcodes with different sequences for each well. If the types or combinations of DNA barcodes to be prepared are further increased, massively parallel processing using even more wells will be possible. It is important to know which sequence of the nucleic acid barcode molecule has been added to which well when adding a nucleic acid barcode molecule to identify the position of the well.
  • the accommodation of small compartments in a large compartment is realized by accommodating one or more small compartments containing the amplified genomic DNA fragments obtained in the previous step in a large compartment, as shown in FIG. 1(C) [e].
  • a well of a microplate or a microtube can be used as described above.
  • the small compartment is a gelled droplet
  • the gelled droplet after the nucleic acid amplification is centrifuged and washed using PBS as a washing solution, then stained with a DNA intercalator such as a fluorescent dye (e.g., SYBR Green (5760A, TaKaRa), Evagreen (31000, Cosmo Bio)), and gelled droplets containing genomic DNA amplified to a predetermined level or more are selected using a flow cytometer, and a predetermined number of the gelled droplets (small compartments) are accommodated in each well (large compartment) of a microplate (e.g., HSP3801, BioRad).
  • a DNA intercalator such as a fluorescent dye (e.g., SYBR Green (5760A, TaKaRa), Evagreen (31000, Cosmo Bio))
  • a DNA intercalator such as a fluorescent dye (e.g., SYBR Green (5760A, TaKaRa), Evagreen (31000, Cosmo Bio))
  • the process may be performed by manually placing a predetermined number of gelled droplets in a microtube as large compartments while counting with the naked eye using a micropipette.
  • the process of placing a predetermined number of gelled droplets in each large compartment (e.g., well) may also be performed by dispensing equal amounts based on a droplet concentration determined in advance.
  • a gelled droplet suspension may be prepared to a droplet concentration of 20 droplets/100 ⁇ L, and 50 ⁇ L of this may be dispensed into each large compartment (e.g., well), thereby producing a library of nucleic acids such as metagenomics in which 10 gelled droplets are placed per large compartment (e.g., well).
  • the number of small compartments to be placed in a large compartment is 2 to 300, preferably 2 to 50, more preferably 5 to 15, even more preferably 8 to 12, and most preferably 10.
  • a method for amplifying a polynucleotide in a cell or cell-like structure includes the steps of: using a sample containing a cell or cell-like structure, encapsulating the cell or cell-like structure in one or more cell or structure units or droplets, gelling the droplets to produce gel capsules or gelled droplets, immersing the gel capsules or gelled droplets in one or more dissolution reagents to dissolve the cell or cell-like structure, in which the polynucleotide in the cell is dissolved in the gel capsule or gelled droplet and is retained in the gel capsule or gelled droplet in a state in which a substance binding to the polynucleotide has been removed, and contacting the polynucleotide with an amplification reagent to amplify the polynucle
  • the method includes a step of individually selecting and separately collecting gel capsules or gel droplets in which polynucleotides have been amplified.
  • the cells may include microbial cells.
  • the dissolving reagent and impurities are removed from the gel capsule or gelling droplet.
  • a suspension of cells or cell-like structures is flowed through a microchannel and the suspension is sheared with oil to create the droplets encapsulating the cells or cell-like structures.
  • the gel capsules or gelling droplets are hydrogel capsules or gelling droplets.
  • the amplifying step is performed by an isothermal strand displacement amplification reaction.
  • the system of the present disclosure includes a droplet creation unit that encapsulates a cell or cell-like structure in a droplet on a cell or structure basis, a gel capsule or gel droplet creation unit that gels the droplet to generate a gel capsule or gel droplet, and
  • the device may include a dissolution reagent immersion section that immerses the gel capsule or gelling droplet in a dissolution reagent, a removal section that removes impurities from the gel capsule or gelling droplet, and an amplification reagent immersion section that immerses the gel capsule or gelling droplet in an amplification reagent.
  • the device further includes a sequencing section that performs sequencing of the nucleic acid sequence in the polynucleotide amplified in the amplification reagent immersion section, and is intended to determine the genome sequence of a cell at the single-cell level.
  • the device further includes a sorting unit that selects gel capsules or gelled droplets and stores the gel capsules or gelled droplets in a storage container, and is intended for creating a metagenomic library.
  • the droplet creation unit includes a microchannel.
  • the method of amplifying a polynucleotide in a cell of the present disclosure may include the steps of using a sample containing two or more cells or cell-like structures (including, for example, viruses, organelles (Mt, Nuc), etc.) and encapsulating the cells or cell-like structures in a droplet, gelling the droplet to produce a gel capsule or gelled droplet, immersing the gel capsule or gelled droplet in one or more dissolution reagents to dissolve the cells or cell-like structures, in which the polynucleotide in the cell is dissolved in the gel capsule or gelled droplet and the substance that binds to the polynucleotide is removed and retained in the gel capsule or gelled droplet, and contacting the polynucleotide with an amplification reagent to amplify the polynucleotide in the gel capsule or gelled droplet.
  • a sample containing two or more cells or cell-like structures including, for example, viruses, organelles (Mt
  • the amplification method used in the present disclosure can individually amplify genomes or gene collections similar thereto at the so-called single cell level.
  • the amplification method of the present invention realizes individual genome amplification in a very simple manner, and therefore it is possible to obtain nucleic acid information for units of 100, 1,000, 10,000, 100,000 or more cells at one time, and therefore can also be used to create a library.
  • the cells or cell-like structures that can be targeted in the amplification method of the present invention can be any number of two or more, for example, 10 or more, 50 or more, 100 or more, 500 or more, 1000 or more, 5000 or more, 10,000 or more, 50,000 or more, 10,000 or more, 500,000 or more, 1 million or more, 5 million or more, or 10 million or more.
  • the amplification method used in the present disclosure can target a larger number of cells than using a conventional single-cell reaction system, for example, a 0.2 mL or 1.5 mL microtube reaction system.
  • cells or cell-like structures that may be targeted in the amplification method used in the present disclosure may be any of those described in the section (Cells and cell-like structures).
  • cells may be targeted.
  • cell-like structures may be targeted, and among these, viruses or organelles such as mitochondria and nuclei may be targeted.
  • the sample containing the cells or cell-like structures may be provided in any form.
  • the medium contained in the sample may be selected from the (cells and cell-like structures) section as an appropriate medium (including buffers, salts, nutrients, other components, etc.) for any cell or cell-like structure selected from the section.
  • Any components suitable for droplet generation may be used as such components. It is preferable that the components are also suitable for gelation.
  • Such components include, but are not limited to, buffers such as PBS, Tris-HCl, TE, and HEPES, as well as sterile water, seawater, artificial seawater, various liquid media, and the like.
  • a medium such as water or buffer that does not contain a surfactant may be preferable.
  • any of the embodiments described in the section can be used to encapsulate cells or cell-like structures in droplets on a cell or structure basis.
  • a microchannel is used to flow a suspension of cells or cell-like structures through the microchannel, and the suspension is sheared to create a droplet encapsulating a single cell or cell-like structure.
  • the step of gelling a droplet to produce a gel capsule or gelled droplet is gelling, etc., and gelling can be performed by cooling a droplet prepared so that the droplet or droplet material (e.g., a sample containing cells or cell-like structures) contains the gel capsule or gelled droplet material, or gelling can be performed by applying a stimulus such as light.
  • the droplet or droplet material e.g., a sample containing cells or cell-like structures
  • the step of dissolving the cells or cell-like structures it may be advantageous to carry out a process in which the polynucleotides in the cells are dissolved into the gel capsule or gelled droplet and the substances that bind to the polynucleotides are removed and then retained in the gel capsule or gelled droplet.
  • the substances that bind to the polynucleotides are removed, it is necessary to reliably destroy the cell wall and cell membrane structure of the cells or cell-like structures by adding multiple types of dissolving agents stepwise or simultaneously, and to denature the proteins contained in the cells and the substances that bind to the polynucleotides.
  • Dissolution is achieved by adding reagents stepwise from the destruction of the outer layer of the cells. Furthermore, since the lysate and the dissolving reagent remaining in the gel capsule or gelled droplet after the dissolving operation inhibit the subsequent polynucleotide amplification, it may be desirable to pass the gel capsule or gelled droplet through the gel capsule or gelled droplet using an appropriate washing solution and release the inhibitory substances outside the gel capsule or gelled droplet. In order to complete these operations in the gel capsule or gelled droplet, it may be desirable to have a hydrogel structure that achieves the penetration and release of various drug solutions and cell lysates while retaining the polynucleotides in the gel capsule or gelled droplet. The gel capsule allows the remaining reagents to be diluted while retaining the genetic material. This step can be repeated. By diluting the reagents to a non-inhibitory level, downstream operations, such as amplification reactions, can proceed smoothly.
  • the present disclosure may include a step of gelling the droplets to generate gel capsules.
  • the device may include a gel capsule generating unit that gels the droplets to generate gel capsules.
  • the droplets may be gelled by configuring the droplets to contain a material for the gel capsules and cooling the prepared droplets. Alternatively, gelling may be performed by applying a stimulus such as light to the droplets.
  • the droplets may be made to contain the material for the gel capsules by, for example, including the material for the gel capsules in a suspension of cells or cell-like structures.
  • the gel capsules may be hydrogel capsules.
  • the DNA when extracting DNA from a large number of cells at once, the DNA can be purified by phenol-chloroform extraction and ethanol precipitation.
  • the amount of genetic material per cell is very small, and it is necessary to convert it into a state of only nucleic acid individually without loss.
  • the result When attempting to purify nucleic acid from single cells using a general bulk-scale procedure, the result is that no nucleic acid can be extracted at all, or only nucleic acid derived from impurities can be extracted.
  • a step can be performed in which the test tube containing the gelled droplet is centrifuged, the supernatant is removed, and it is replaced with a washing solution.
  • the gelled droplets can be filtered, the supernatant removed, a washing solution passed through, and finally the gel capsules collected.
  • the remaining reagents can be diluted while retaining the genetic material. This step can be repeated. Diluting the reagents to a level where they are not inhibited allows downstream operations, such as amplification reactions, to proceed smoothly.
  • Figure 6 shows an image of a metagenomic library prepared using a microplate
  • Figure 7 shows an image of a metagenomic library prepared using a microtube.
  • the bottom of Figures 6 and 7 show side views of wells (large compartments) and tubes that respectively house 2, 4, 6, 8, 10, 12, 14, and 16 gelled droplets (small compartments).
  • one large compartment containing a predetermined number of small compartments as described above is referred to as the metagenomic library of the present disclosure
  • a collection of multiple large compartments containing a predetermined number of small compartments may be referred to as the metagenomic library of the present disclosure.
  • Metagenomic libraries containing multiple large compartments may include, but are not limited to, those consisting of 384 large compartments, those consisting of 768 large compartments, those consisting of 1,152 large compartments, those consisting of 1,536 large compartments, those consisting of 1,920 large compartments, those consisting of 2,304 large compartments, those consisting of 2,688 large compartments, those consisting of 3,072 large compartments, etc., and the number of large compartments can be increased or decreased without numerical limitations depending on the properties of the sample (the diversity and number of types of cells or cell-like structures contained in the sample), etc.
  • the present disclosure may include a step of, as necessary, storing one or more of the large compartments including the small compartments containing the amplification products in a container to be subjected to base sequencing.
  • the number of large compartments to be stored may be one, two or more, and all the prepared large compartments (here, n, n is an integer of 2 or more) may be stored in one container (sometimes referred to as “combined” in this specification).
  • the number of compartments to be combined may be any integer, such as 2, 3, ...n-1, n.
  • Such an example may include, but is not limited to, adding a barcode sequence specific to the large compartment to the nucleic acid. This makes it possible to identify which well the amplified sequence originates from using the added barcode sequence as a clue.
  • the large compartments may be grouped together in one container and then sequenced. In that case, in order to determine which large compartment the obtained base sequence originates from, a unique barcode sequence (also called a nucleic acid barcode) can be added to each large compartment after this amplification step.
  • the length of the barcode sequence may be 4 to 12 bases, preferably 6 to 10 bases, and most preferably 8 to 10 bases.
  • Nucleic acid barcodes may be used in combination of two or more types, and depending on the combination, for example, even when eight 384-well microplates are used simultaneously in parallel (a total of 3,072 wells), it is possible to distinguish each well by using 3,072 types of nucleic acid barcodes with different sequences for each well. By further increasing the types or combinations of DNA barcodes to be prepared, massively parallel processing using even more wells is possible. When adding nucleic acid barcode molecules to identify the position of the well, it is important to know which sequence of the nucleic acid barcode molecule has been added to which position of the well. "Mass-parallel" means that samples, cells, genomic DNA, amplified DNA fragments, and many small and/or large compartments containing them can be processed in parallel for the purpose of quickly and efficiently obtaining a large number of genes from the target sample.
  • a method for highly efficient acquisition of gene sequences of organisms such as microorganisms is provided.
  • a microbial gene sequence is acquired from a soil sample containing microorganisms by a conventional shotgun metagenomics method (also called a shotgun metagenomics sequencing method)
  • a metagenomic library is prepared from a single soil sample (e.g., 1 g of soil sample), a base sequence is determined, and a gene sequence is acquired.
  • this step can be carried out using, for example, a next generation sequencer (NGS).
  • NGS is a term used in contrast to first generation sequencers that use the Sanger method, and although there are various principles, it is capable of analyzing large amounts of base sequences at low cost and in a short time through massively parallel processing.
  • NGS nucleic acid sequence
  • the fragmented DNA sequence is called the "read” and its length is called the "read length.”
  • NGS has different decoding mechanisms depending on the manufacturer and model, so the read length that can be deciphered and the time it takes to decipher vary.
  • the accuracy of the sequence may decrease.
  • a DNA sequence that is somewhat longer than the short read such as 10,000 base pairs, known as a "long read,” may be used.
  • NGS suitable for decoding short reads include Illumina's MiniSeq, MiSeq, NextSeq, HiSeq, and HiSeq X series, and MGI's DNBSEQ series.
  • NGS suitable for decoding long reads include PacBio Pacific Biosciences' PacBio RS II.
  • a method for preserving nucleic acid e.g., genomic DNA
  • Soil including marine soil
  • seawater river water
  • feces sludge
  • industrial wastewater waste
  • biological samples derived from plants or animals are treasure troves of diverse microbial genes, and among these microbial genes, there are many industrially useful genes with unknown functions.
  • microorganisms that produce various compounds such as chemical raw materials by cloning genes that code for enzymes or proteins that constitute the metabolic pathways of microorganisms present in nature and introducing them into hosts that are easy to genetically recombine and culture, such as Escherichia coli, yeast, and coryneform bacteria.
  • hosts that are easy to genetically recombine and culture, such as Escherichia coli, yeast, and coryneform bacteria.
  • a desired microorganism such as one that produces a target compound or protein in high quantities, it is important to obtain genes that code for proteins that express desired traits, such as desired enzyme activity, from nature.
  • a method for preserving a nucleic acid (e.g., genomic DNA) library derived from a large number of microorganisms may be useful as a preliminary step to obtaining a large number of gene groups from nature and determining the base sequences. That is, in the present disclosure, a method for preserving microbial genomic DNA is provided, which is characterized by including a step of preserving the nucleic acid (e.g., metagenomic DNA) library of the present disclosure obtained in [1] above, for example, a container (large compartment) containing gelled droplets (small compartments), at room temperature or below, either as is or after adding a substance that inhibits nucleic acid (e.g., DNA) decomposition.
  • a nucleic acid e.g., metagenomic DNA
  • room temperature or below may be 4°C or below, preferably -20°C or below, more preferably -80°C or below, and most preferably -80°C.
  • substances that inhibit DNA decomposition include chelating agents such as EDTA (ethylenediaminetetraacetic acid) and citric acid.
  • compositions and kits One aspect of the present disclosure provides a composition or kit that can be used in the method of the present disclosure.
  • a composition for amplifying nucleic acid in a cell at a single cell level can be provided.
  • the composition can include a gel capsule or a material thereof.
  • Using the gel capsule can be advantageous for amplifying nucleic acid in a cell at a single cell level, as described elsewhere herein.
  • a composition for creating a genome library can be provided.
  • Using the gel capsule can be advantageous for creating a library of nucleic acid (e.g., metagenomic), as described elsewhere herein.
  • a composition for amplifying nucleic acid in a cell at the single cell level may be provided, comprising a gel capsule or a material thereof and a cell in a single cell state.
  • the composition may be subjected to the steps of the method described elsewhere in this specification and used for amplifying nucleic acid at the single cell level.
  • a composition for producing a genomic library may be provided, comprising a gel capsule or a material thereof and a cell in a single cell state.
  • the composition may be subjected to the steps of the method described elsewhere in this specification and used for producing a genomic library.
  • a composition for sequencing nucleic acid in a cell at the single cell level comprising a gel capsule or a material thereof and a cell in a single cell state.
  • the composition may be subjected to the steps of the method described elsewhere in this specification and used for sequencing nucleic acid in a cell at the single cell level.
  • a composition comprising a lysis reagent for amplifying nucleic acid in a cell at the single-cell level.
  • the lysis reagent may include at least one selected from the group consisting of lysozyme, labiase, yatalase, achromopeptidase, protease, nuclease, zymolyase, chitinase, lysostaphin, mutanolysin, sodium dodecyl sulfate, sodium lauryl sulfate, potassium hydroxide, sodium hydroxide, phenol, chloroform, guanidine hydrochloride, urea, 2-mercaptoethanol, dithiothreitol, TCEP-HCl, sodium cholate, sodium deoxycholate, Triton X-100, Triton X-114, NP-40, Brij-35, Brij-58, Tween 20, Tween 80, octyl
  • kits for amplifying nucleic acid in a cell at the single-cell level may be provided.
  • the kit may include, for example, a gel capsule material and, as necessary, one or more reagents.
  • the one or more reagents may include a lysis reagent.
  • a subpopulation containing cells or cell-like structures may be generated from a set containing cells or cell-like structures, comprising generating a subpopulation containing at least one cell or cell-like structure based on the nucleic acid sequence of the cell or cell-like structure.
  • the generation of the subpopulation can reduce the effort of steps such as sequencing and generating a genome draft based on the sequencing reads.
  • the cells or cell-like structures provided separately can be selected based on nucleic acid information derived from the cells or cell-like structures.
  • the selected cells or cell-like structures can be analyzed. Selection can be performed in several ways, for example, by sequencing from PCR to decipher partial sequences, by confirming the presence or absence of specific gene sequences, by referring to DNA yield, and the like.
  • nucleic acid information derived from cells or cell-like structures may be selected after sequencing. After providing nucleic acid information derived from cells or cell-like structures as a collection of nucleic acid information for each cell or cell-like structure, the nucleic acid information can be selected for each cell or cell-like structure based on all or a portion of the nucleic acid information. If necessary, the selected nucleic acid information can be analyzed.
  • the obtained sequence information can be recorded as a database.
  • the database can be recorded on an automatic data construction and provision system.
  • the database can store sequence information derived from a single cell or cell-like structure separately. Each piece of sequence information can be classified and organized. As for classification, classification by biological species is preferable.
  • the classified cluster is free from contamination by sequence information from other species of organisms, and complete sequence information within the cluster can be constructed based on this. Reclassification can also be performed when constructing complete sequence information.
  • Information obtained by analysis can also be used to refine the classification of sequence information derived from a newly obtained single cell or cell-like structure.
  • the present disclosure provides a method for obtaining a nucleic acid sequence encoding a gene in a cell or cell-like structure and/or an amino acid sequence encoded by the nucleic acid sequence, or in other words, a method for obtaining a "gene (sequence)".
  • This method includes the following steps: providing two or more cells or cell-like structures, generating a small compartment containing one or more cells or cell-like structures from the cells or cell-like structures, lysing the cells or cell-like structures contained in the small compartment so that the nucleic acid in the cells or cell-like structures is dissolved and retained in the small compartment, if necessary, contacting the nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the small compartment to obtain an amplification product, if necessary, placing one or more of the large compartments including the small compartments containing the amplification product in a container for base sequencing, determining the base sequence of the amplification product, analyzing the base sequence obtained in the above steps, and analyzing a region encoding a gene in the base sequence to obtain the nucleic acid sequence encoding the gene and/or the amino acid sequence encoded by the nucleic acid sequence. It is understood that each step in the acquisition method disclosed herein may be applied in any combination with any
  • the present disclosure provides a method for creating a database of sequences encoding genes in cells or cell-like structures, the method comprising the steps of: providing two or more cells or cell-like structures; generating small compartments containing one or more cells or cell-like structures from the cells or cell-like structures; lysing the cells or cell-like structures contained in the small compartments so that the nucleic acids in the cells or cell-like structures are eluted and retained in the small compartments; if necessary, contacting the nucleic acids with a nucleic acid amplification reagent to amplify the nucleic acids in the small compartments to obtain amplification products; if necessary, placing one or more of the large compartments including the small compartments containing the amplification products in a container for base sequencing; determining the base sequence of the amplification products; analyzing the base sequence obtained in the above steps; analyzing a region in the base sequence that codes for a gene to obtain the nucleic acid sequence encoding the gene and/or the amino
  • the present disclosure provides a method for generating a data structure constituting a sequence encoding a gene in a cell or cell-like structure, the method comprising the steps of: providing two or more cells or cell-like structures; generating a subcompartment containing one or more cells or cell-like structures from the cells or cell-like structures; lysing the cells or cell-like structures contained in the subcompartments so that the nucleic acid in the cells or cell-like structures is eluted and retained in the subcompartments; if necessary, contacting the nucleic acid with a nucleic acid amplification reagent to amplify the nucleic acid in the subcompartment to obtain an amplification product; if necessary, placing one or more of the large compartments including the subcompartments containing the amplification products in a container for base sequencing; determining the base sequence of the amplification product; analyzing the base sequence obtained in the above steps; analyzing a region in the base sequence that encodes a gene to obtain
  • the present disclosure provides a database generated by the method of the present disclosure.
  • the present disclosure provides a data structure generated by the method of the present disclosure.
  • the database and data structure of the present disclosure include information indicating that they were generated by the generation method of the present disclosure.
  • information includes, but is not limited to, sequence information, information on the large partitions used (specifically, barcode sequences (short sequences typically consisting of about 10 bases)), gene names (predicted from amino acid sequences), predicted biological origin information, etc.
  • the databases and data structures of the present disclosure include a full-length gene sequence rate.
  • the full-length gene sequence rate can determine the quality of the nucleic acid or amino acid sequences contained therein, and by having such an item, the present disclosure can easily evaluate the quality of the data contained in the databases and data structures.
  • a database in which the full-length gene sequence rate of the nucleic acid sequences and/or amino acid sequences encoding the included genes is 10% or more, 15% or more, 20% or more, 25% or more, 30% or more, 35% or more, 40% or more, 45% or more, or 50% or more.
  • a nucleic acid library with such a high full-length gene sequence rate has not been provided in conventional technology, and the present disclosure provides an extremely high-quality library, which can provide high-quality data with greater accuracy and coverage in subsequent base sequence analysis, amino acid sequence analysis, and gene coding sequence analysis.
  • the database or data structure of the present disclosure includes an item related to a coding sequence, and the item related to the coding sequence is linked to a contig used in creating a genome database or a metagenomic database.
  • the item related to the coding sequence of the present disclosure includes an item identifying whether it is a complete code.
  • the analyzing step in the method of analyzing amino acid or nucleic acid sequences disclosed herein includes binning the contigs to generate a genome database.
  • a method of binning the contigs can be a known method, but is preferably metaBAT2 (PeerJ 7:e7359 https://doi.org/10.7717/peerj.7359), VAMB (Nat Biotechnol 39, 555-560 (2021).
  • the computer program, database, or data structure of the present disclosure may be stored on a storage medium.
  • the storage medium may be a non-transitory storage medium.
  • Example 1 Preparation of a metagenomic library from a soil sample 5 g of a soil sample was collected in a 15 mL tube and suspended in 6 mL of phosphate-buffered saline (PBS) (Dulbecco's Phosphate-Buffered Saline, 14190-144, Thermo Fisher Scientific). After standing for 30 minutes, the supernatant was collected, centrifuged at 10,000 ⁇ g for 5 minutes, and the precipitate was collected twice. The precipitate obtained by centrifugation at 8,000 ⁇ g for 5 minutes was then resuspended in PBS. Soil microorganisms were collected by precipitating soil particles by centrifugation at 300 ⁇ g for 5 minutes and collecting the supernatant.
  • PBS phosphate-buffered saline
  • the cell concentration in the prepared cell suspension was measured using an optical microscope and a bacterial counting chamber, and ultra-low melting point agarose (A5030-10G, SIGMA-ALDRICH) was added to the cell suspension so that the agarose concentration in the cell suspension became 1.5%, thereby preparing a soil microorganism suspension to be used for producing gelled droplets (final cell concentration: 2.1 x 104 cells/ ⁇ L).
  • ultra-low melting point agarose A5030-10G, SIGMA-ALDRICH
  • a droplet generator (On-Chip Biotechnologies, 60001) was used to create microdroplets and encapsulate one soil microorganism cell in the microdroplets. Specifically, a soil microorganism suspension was introduced from inlet 1, and fluorine-based oil (On-Chip Biotechnologies, 008-fluoroSurfantant) (hereinafter referred to as "oil”) was introduced from inlet 2 to shear the soil microorganism suspension, creating microdroplets with a diameter of 30 ⁇ m. These were then accumulated in the outlet, and then collected in a 0.5 mL tube.
  • the tube was cooled on ice for 15 minutes, and the microdroplets were gelled using ultra-low melting point agarose.
  • the gelled microdroplets were the gelled droplets. Since the diameter of the microdroplets was 30 ⁇ m, the diameter of the gelled droplets was also 30 ⁇ m.
  • 100 ⁇ L of 10% 1H,1H,2H,2H-perfluoro-1-octanol (SIGMA-ALDRICH) was added to the tube, and the oil in the lower layer was removed.
  • acetone (FUJIFILM Wako Pure Chemical Industries) (500 ⁇ L) and isopropanol (500 ⁇ L) (FUJIFILM Wako Pure Chemical Industries) were added in that order, and the oil was removed by centrifugation. Furthermore, 500 ⁇ L of PBS was added and centrifugation was performed three times, leaving the gelled droplets suspended in the aqueous layer (PBS). Next, the gelling droplets were sequentially immersed in a lysis reagent as a dissolution reagent, dissolving parts of the cells other than the target object to be collected, such as the cell walls, inside the gelling droplets, and dissolving the genomic DNA into the gelling droplets.
  • a lysis reagent as a dissolution reagent
  • lysozyme 50 U/ ⁇ L (R1804M, Epicentre), a type of lysis reagent, was added to the tube and left to stand at 37°C for 2 hours to lyse the cells.
  • protease K (1 mg/mL) (MC5005, Promega) and sodium dodecyl sulfate (SDS) 0.5% (71736-100ML, SIGMA-ALDRICH), a type of lysis reagent, were added to the tube and left to stand at 40°C for 15 hours to lyse the cells, after which centrifugation was performed five times to remove components (contaminants) other than the protease and the genomic DNA of the lysed cells from the tube.
  • the gelled droplets were immersed in Buffer D2 (QIAGEN), an aqueous solution containing potassium hydroxide, a type of lysis reagent, to dissolve the remaining components and denature the genomic DNA. Because the gelling droplets are immersed in the lysis reagent for a short period of time, the eluted genomic DNA is not carried out of the gelling droplets by the lysis reagent and is instead retained within the gelling droplets.
  • Buffer D2 QIAGEN
  • an aqueous solution containing potassium hydroxide a type of lysis reagent
  • the desired genomic DNA can be collected by lysing the cells using multiple types of lysis reagents, and by immersing the cells in the lysis reagent and then centrifugal washing, contaminants such as the lysis reagent and components other than the polynucleotides of the lysed cells can be removed, allowing the genomic DNA to be extracted and purified without inhibiting the subsequent genomic DNA amplification reaction.
  • Amplification reagent was added to a tube containing gelled droplets holding genomic DNA denatured in potassium hydroxide solution (Buffer D2), and the gelled droplets were immersed in the amplification reagent.
  • the MDA (Multiple Displacement Amplification) method was used, using phi29 DNA polymerase, a strand-displacement DNA polymerase.
  • the droplets were immersed in the whole genome amplification reaction reagent REPLI-g Single Cell Kit (QIAGEN), and a whole genome amplification reaction was carried out for 3 hours (S1000 Thermal Cycler, Bio-Rad).
  • the amplification reagent (REPLI-g Single Cell Kit) contains a component that neutralizes the potassium hydroxide solution (Buffer D2).
  • the gelled droplets were washed by centrifugation using PBS, and then stained with the fluorescent DNA intercalator SYBR Green (5760A, TaKaRa). Note that other known staining reagents such as Evagreen (31000, Cosmo Bio Co., Ltd.) may also be used for staining.
  • Evagreen 31000, Cosmo Bio Co., Ltd.
  • the gelled droplets holding genomic DNA that had been amplified to a certain level were selected using a flow cytometer (BD FACSMelody cell sorter, BD Biosciences), and 10 droplets were individually collected onto a plate (HSP3801, BioRad) as a storage container, allowing the metagenomic library of the present disclosure to be produced.
  • BD FACSMelody cell sorter BD Biosciences
  • Example 2 Acquisition of microbial genes from metagenomic library The dispensed samples were subjected to library preparation using QIAseq FX DNA Library kit (QIAGEN, 180475), and 2 x 150 bp paired-end reads (120 Gb) were obtained by sequencing using DNBSEQ G400 (MGI). Note that any machine can be used for sequencing as long as it can be performed under the same conditions.
  • sequence data read sequences
  • SPAdes J Comput Biol, 19 (5): 455-477 (2012)
  • genes on the contigs were predicted using the annotation software Prokka (Bioinformatics, 30 (14): 2068-2069 (2014)).
  • non-redundant genes genes with a sequence matching of a certain number or more, among genes with a length of 200 amino acid residues or more, was analyzed.
  • gelled droplets obtained by the same treatment for other soil samples were collected individually in a microplate (HSP3801, BioRad) at 10 droplets per well and analyzed in the same manner.
  • the number of wells was 384 wells (1 plate), 768 wells (2 plates), 1152 wells (3 plates), and 1536 wells (4 plates).
  • the total number of genes obtained was 6,842,892, 13,921,293, 22,298,612, and 25,383,609, respectively ( Figure 10).
  • the number of genes excluding perfect match sequences was also 6,567,645, 13,024,107, 20,425,488, and 23,066,293, respectively.
  • Example 3 Obtaining genomic information by the single drop method A single-cell amplified genomic library was prepared from human intestinal microorganisms collected from human feces as a sample.
  • human feces was collected in a 1.5 mL tube (1212-10, SSIbio) and crushed in 500 ⁇ L of phosphate-buffered saline (PBS) (Dulbecco's Phosphate-Buffered Saline, 14190-144, Thermo Fisher Scientific) using a crushing tool until no solid matter remained.
  • PBS phosphate-buffered saline
  • the mouse intestinal microorganisms were collected by centrifuging at 1,500 ⁇ g for 30 seconds and collecting the supernatant twice, followed by centrifugation at 8,000 ⁇ g for 5 minutes.
  • the pellet of the bacteria was washed twice with PBS by centrifugation, and then suspended in PBS to obtain a cell suspension of human intestinal microorganisms.
  • the cell concentration in the prepared cell suspension was measured, and ultra-low melting point agarose (A5030-10G, SIGMA-ALDRICH) was added to a final concentration of 1.5% to prepare a suspension of intestinal microorganisms to be used for preparing gel capsules (final cell concentration: 7 x 103 cells/ ⁇ L).
  • a droplet generator On-Chip Biotechnologies, 60001
  • microdroplets were prepared and one cell of human intestinal microorganism was encapsulated in the microdroplets.
  • a suspension of intestinal microorganisms was introduced through inlet 1, and a fluorinated oil (On-Chip Biotechnologies, 008-fluoroSurfantant) (hereinafter referred to as "oil”) was introduced through inlet 2 to shear the suspension of human intestinal microorganisms, producing microdroplets with a diameter of 30 ⁇ m.
  • the microdroplets were accumulated in the outlet and then collected in a tube with a capacity of 1.5 mL.
  • the tube was then cooled on ice for 15 minutes, and the microdroplets were gelled with ultra-low melting point agarose.
  • 100 ⁇ L of 1H,1H,2H,2H-perfluoro-1-octanol (SIGMA-ALDRICH) was added to the tube, and the oil in the lower layer was removed.
  • acetone (FUJIFILM Wako Pure Chemical Industries) (500 ⁇ L)
  • isopropanol 500 ⁇ L)
  • the tube was centrifuged for washing to remove the oil.
  • 500 ⁇ L of PBS was added and centrifuged for washing three times, leaving the gel capsules suspended in the aqueous layer (PBS).
  • the gel capsules were immersed in the lysis reagent, and the parts of the cells other than the target of collection, such as the cell walls, were dissolved inside the gel capsule, and the genomic DNA was eluted into the gel capsule.
  • lysozyme (10 U/ ⁇ L) (R1804M, Epicentre), a type of lysis reagent, was added to the tube to lyse the cells.
  • protease K (1 mg/mL) (MC5005, Promega) and sodium dodecyl sulfate (SDS) 0.5% (71736-100ML, SIGMA-ALDRICH), a type of lysis reagent, were added to the tube to lyse the cells, and then centrifugal washing was performed five times to remove components (contaminants) other than the protease and the genomic DNA of the lysed cells from the tube.
  • the gel capsules were immersed in Buffer D2 (QIAGEN), an aqueous solution containing potassium hydroxide, a type of lysis reagent, to dissolve the remaining components and denature the genomic DNA.
  • the target genomic DNA can be collected by lysing the cells using multiple types of lysis reagents, and by immersing the cells in the lysis reagent and then centrifugal washing, contaminants such as components other than the polynucleotides of the lysis reagent and the lysed cells can be removed, allowing the genomic DNA to be purified without inhibiting the subsequent genomic DNA amplification reaction.
  • a tube containing a gel capsule that holds genomic DNA denatured in potassium hydroxide solution (Buffer D2) was added with an amplification reagent, and the gel capsule was immersed in the amplification reagent.
  • the MDA (Multiple Displacement Amplification) method using phi29 DNA polymerase, a strand-displacement DNA polymerase was used.
  • the gel capsule was immersed in the whole genome amplification reaction reagent REPLI-g Single Cell Kit (QIAGEN) and the whole genome amplification reaction was carried out for 3 hours (S1000 Thermal Cycler, Bio-Rad).
  • the amplification reagent (REPLI-g Single Cell Kit) contains a component that neutralizes the potassium hydroxide solution (Buffer D2).
  • the gel capsules were washed by centrifugation using PBS, and then stained with a fluorescent DNA intercalator, SYBR Green (S7563, Thermo Fisher Scientific), as a staining reagent, as shown in Figure 5.
  • SYBR Green S7563, Thermo Fisher Scientific
  • Gel capsules holding genomic DNA amplified to a specified level were selected using a flow cytometer (BD FACSMelody cell sorter, BD Biosciences) and individually collected into a 384-well multi-well plate as a storage container.
  • a library was prepared using the QIAseq FX DNA Library kit (QIAGEN), and 2 x 150 bp paired-end reads (44.1 Gb) were obtained by whole genome sequencing using a NextSeq 2000 (Illumina).
  • sequence data read sequences
  • SPAdes Bankevich et al. Journal of computational biology, 19(5), 455-477.2012 (http://doi.org/10.1089/cmb.2012.0021) to obtain contigs
  • sequence data was analyzed using QUAST (Gurevich et al. Bioinformatics. 2 Contigs were evaluated using the 2013 29(8):1072-5. doi: 10.1093/bioinformatics/btt086.
  • CheckM Parks et al., Genome Research 2015. 25: 1043-1055, doi:10.1101/gr.186072.114 was used to evaluate genome sequencing rate (completion rate) and contamination level.
  • Example 4 Comparison of Single Drop Method and Multi-Drop Method
  • the same analysis was performed on the single-cell genome sequencing method, in which gelled droplets obtained by performing the same treatment on the same soil sample were individually collected in a plate (HSP3801, BioRad) as a storage container, one per well, and the present disclosure, in which 10 droplets per well were individually collected, and the results were compared.
  • the number of wells to be stored was 3072 wells (8 plates, total 3072 droplets) for the single-cell genome sequencing method and 384 wells (1 plate, total 3840 droplets) for the present disclosure.
  • the number of gene variations obtained was 5,708,085 and 6,019,181, respectively (Table 2).
  • the number of gene variations obtained per 3000 droplets to be analyzed was 5,574,302 and 4,702,485, respectively, and the present disclosure showed a 0.84-fold increase in the number of genes obtained (effect) compared to the single-cell genome sequencing method.
  • the required analysis cost of the present disclosure was 0.27 times that of the single-cell genome sequencing method. Therefore, the cost-effectiveness (relative ratio) is calculated as 3.07 of the present disclosure compared to 1.00 of single-cell genome sequencing. From the above, it has been shown that the method according to the present disclosure can recover diverse and large-scale genetic information from a single sample, and is a method with a significant economic advantage for that purpose.
  • Example 5 Because soil contains many uncultivated species, metagenomics is used for genome analysis aimed at collecting industrially useful microbial genetic resources and functional analysis of environmental microorganisms. However, because soil contains a significant number of different types of microbial DNA, it is difficult to distinguish sequences from each microorganism and reconstruct a metagenome-assembled genome (MAG).
  • MAG metagenome-assembled genome
  • gel droplets holding the soil microorganism genomic DNA amplification products were prepared in the same manner as in Example 1, and gelled droplets holding genomic DNA amplified to a predetermined level were selected using a flow cytometer (BD FACSMelody cell sorter, BD Biosciences), and 10 droplets were individually collected in a 384-well plate (HSP3801, BioRad) as a storage container to create the metagenomic library of the present invention.
  • BD FACSMelody cell sorter BD Biosciences
  • a library was prepared from the dispensed samples using a QIAseq FX DNA Library kit (QIAGEN, 180475), and 2 x 150 bp paired-end reads (120 Gb) were obtained by sequencing using a DNBSEQ G400 (MGI). Sequencing data (read sequences) were assembled using SPAdes (J Comput Biol, 19(5):455-477 (2012)) to obtain contigs, and then the data were analyzed using metagenomic binning tools metaBAT2 (PeerJ 7:e7359 https://doi.org/10.7717/peerj.7359), VAMB (Nat Biotechnol 39, 555-560 (2021).
  • the biological lineages of the obtained MAGs were annotated using GTDB-Tk (Bioinformatics, Volume 36, Issue 6, March 2020, Pages 1925-1927, https://doi.org/10.1093/bioinformatics/btz848).
  • the number of species of MAGs was estimated at the species level by clustering using Dashing 2 (Genome Res. 2023 Jul;33(7):1218-1227. doi: 10.1101/gr.277655.123.).
  • Example 6 For a given soil sample, the cumulative relative frequency was confirmed for gene populations obtained by the conventional shotgun metagenomics method or the method of the present disclosure, with gene length (number of bases) as an index.
  • sequence data was obtained from one soil sample using the same method as in Examples 1 and 2, and the sequence data (read sequences) were assembled using SPAdes (J Comput Biol, 19 (5): 455-477 (2012)) to obtain contigs, after which genes on the contigs were inferred using the annotation software Prokka (Bioinformatics, 30 (14): 2068-2069 (2014)).
  • the length and number of genes predicted on the contigs were analyzed and evaluated. Specifically, the process is as follows: (1) Identify coding regions that are thought to code for genes in the obtained contig sequences; (2) List the numerous coding regions identified and their base counts; (3) The number of coding regions with a length of 1000 bp (equivalent to approximately 333 amino acid residues) or more found in (2) above was used as the numerator, and the number of all coding regions was divided into the denominator to calculate the ratio.
  • the method disclosed herein contained 20% of genes with a length of 1000 bp (equivalent to approximately 333 amino acid residues), which was more than six times higher than the shotgun metagenomics method (2.9%). From the above, it was suggested that the present method is capable of recovering longer genes compared to shotgun metagenomics analysis, making it possible to construct a more accurate microbial gene database.
  • the library obtained by this disclosure has a dramatically increased rate of full-length gene sequencing compared to conventional techniques, and it is understood that this disclosure provides a novel data structure and library.
  • Example 7 Full-length gene sequence rate
  • the gene population obtained by the method of the present disclosure was examined to determine whether full-length genes were obtained.
  • sequence data was obtained from six soil samples, one seawater sample, and three hot spring water samples using the same method as in Examples 1 and 2, and the sequence data (read sequences) were assembled using SPAdes (J Comput Biol, 19 (5): 455-477 (2012)) to obtain contigs, after which genes on the contigs were inferred using the annotation software Prokka (Bioinformatics, 30 (14): 2068-2069 (2014)).
  • the evaluation was carried out by analyzing the coding regions estimated on the contigs. Specifically, the process is as follows: (1) Identify coding regions that are thought to code for genes in the obtained contig sequences; (2) List the numerous coding regions identified; (3) The number of all coding regions found in (2) above was used as the denominator, and if a coding region corresponding to the full length of a gene is contained within a contig, the number of such coding regions was used as the numerator to calculate the full-length gene sequence rate and the full-length gene sequence content rate.
  • This disclosure can be used to discover new industrial enzymes that can be used in a wide range of applications, including in the food, chemical, environmental, pharmaceutical, and medical industries.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本開示は新規な遺伝子の配列の高効率取得法等を提供する。より詳細には、本開示は、1小区画中に、1以上の細胞又は細胞様構造物由来の核酸及び/又は当該核酸を鋳型として全ゲノム増幅により得られた増幅産物を含み、当該小区画を1又は複数区画含む核酸のライブラリーを用いた遺伝子配列の高効率取得法、それに使用され得ウルライブラリー、システム、プログラムなどを提供する。

Description

遺伝子配列の高効率取得法
 本開示は、微生物遺伝子配列の高効率取得法に関する。
 これまで微生物は、ペニシリンを始めとして、ストレプトマイシン、ロイコマイシン、マイトマイシン、プラバスタチン、イベルメクチン、タクロリムス、ミカファンギンなど多くの医薬品の供給源となるとともに、食品分野でも味噌・醤油・焼酎・ワインなどの製造に利用され、その他環境分野では汚染土壌の浄化に微生物が利用されるなど、これまでに人類は微生物から数えきれない程多くの恩恵を享受してきた。それらの微生物によってもたらされる多くの恩恵は、究極的には微生物のゲノム中にコードされる様々な遺伝子によって実現されている。近年、二酸化炭素排出量が少なく環境負荷の少ない、微生物等生き物の機能を活用した生産技術、いわゆる「バイオものづくり」が注目されている。
 微生物は、土壌を始め様々な場所に生息しているが、それら環境に存在する微生物(いわゆる、環境微生物)のうち培養が可能なものはわずか1%に限られており、地球上に存在する微生物の大部分が未知とされている(非特許文献1)。しかし、近年、次世代シーケンサーの出現により、それら増殖させることが困難な難培養性微生物を培養することなく、土壌等の試料から微生物ゲノムを一括抽出し、配列解読するメタゲノム解析が行われるようになった。これにより、様々な環境下に生存する微生物の遺伝子情報プロファイルの作製が可能になった。
 例えば、未知微生物が優占しているような環境を解析対象とする場合には、メタゲノム配列のアッセンブルによって未知微生物由来のドラフトゲノム情報を取得し、その未知機能の解明が進められている。実際に、鉱山廃水流路内のバイオフィルムに優占する未知アーキア(非特許文献2)やリン除去廃水処理システムにおいて主要な役割を担う未培養リン蓄積細菌(非特許文献3)、さらには海洋や淡水環境においてメタン酸化プロセスに関与する未知細菌(非特許文献4)やアーキア(非特許文献5)などの新たな生物機能がメタゲノム解析によって次々と明らかにされている。
 しかし、一般的に行われる特許文献1等に記載のショットガン方式によるメタゲノム解析法では、取得される遺伝子情報は、多様な微生物ゲノム配列の混合物になり、わずかな配列の重なりをコンピューターでつなぎ合わせていくため、解読の精度が低く、取得できる遺伝子数も満足できるものではなかった。
WO2016/079731
Roger S Lasken,Curr Opin Microbiol,10(5):510-516(2007). Brett J Baker et al., Proc Natl Acad Sci U S A., 107(19):8806-8811(2010). Hector Garcia Martin et al., Nat Biotechnol,24(10):1263-1269(2006). Katharina F Ettwig et al., Nature,464(7288):543-548(2010). Steven J Hallam et al., Science,305(5689):1457-1462(2004).
 本発明者らは、鋭意研究した結果、ある一つの試料に含まれる多様な細胞または細胞様構造の集団(特に、微生物集団)から細胞または細胞様構造1個又は数個を小区画中に収め、細胞または細胞様構造の溶解工程、次いで当該小区画中に溶出されたポリヌクレオチド(ゲノムDNA、RNA等の核酸)の増幅工程に供する。この小区画を複数個(例えば、5~100個)、大区画中に収容し、当該大区画を複数個同時並行的に、シーケンス用DNAライブラリーを調製する工程に供することで、前記試料のメタゲノムライブラリーを得る。これを次世代シーケンサーによるシーケンシング(本明細書では、「配列決定」とも称する(英語では同じ用語である)、同義に交換可能に使用される。また、本明細書においてシーケンスは、シークエンスまたは配列とも称し(英語では同じである)、同義に交換可能に使用される。)の工程に供することにより、新規な生物の遺伝子に相当する核酸分子を高効率で取得することを見出し、本開示を完成するに至った。
  すなわち、本開示は、以下を含む。
[項目1]1小区画中に、1個以上の核酸分子を含み、前記小区画を1又は複数区画含む大区画を含む、核酸のライブラリー。
[項目2]前記大区画は前記小区画を2以上含む、前記項目に記載の核酸のライブラリー。
[項目3]1小区画中に含まれる前記核酸分子は、1個以上の細胞又は細胞様構造物由来の核酸分子及び/又は前記核酸分子を細胞又は細胞様構造物由来の核酸分子及び/又は前記核酸分子を鋳型とした増幅により得られた増幅産物を含む、前記項目のいずれか一項に記載の核酸のライブラリー。
[項目4]前記核酸のライブラリーはメタゲノムのライブラリーを含む、前記項目のいずれか一項に記載の核酸のライブラリー。
[項目5]前記核酸または増幅産物は、細胞又は細胞様構造物由来のゲノムDNA及び/又は前記ゲノムDNAを鋳型として増幅により得られた増幅産物を含む、前記項目のいずれか一項に記載の核酸のライブラリー。
[項目6]前記大区画は前記小区画を5~15含む、前記項目のいずれか一項に記載の核酸のライブラリー。
[項目7]前記1個以上の細胞又は細胞様構造物は2種類以上の細胞又は細胞様構造物を含む、前記項目のいずれか一項に記載の核酸のライブラリー。
[項目8] 前記小区画がゲル化液滴、液滴又は被覆液滴であることを特徴とする前記項目のいずれか一項に記載の核酸のライブラリー。
[項目9] 前記ゲル化液滴が、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲルからなる群から選択されるいずれかのゲル化材料によりゲル化されることを特徴とする前記項目のいずれか一項に記載の核酸のライブラリー。
[項目10] 前記増幅において、ゲルカプセル内でゲル状態を保ちながら増幅されることを特徴とする前記項目のいずれか一項に記載の核酸のライブラリー。
[項目11] 前記ゲル化液滴が、直径約1~250μmであることを特徴とする前記項目のいずれか一項に記載の核酸のライブラリー。
[項目12] 大区画が、マイクロプレートのウェル形成部又はマイクロチューブであることを特徴とする前記項目のいずれか一項に記載の核酸のライブラリー。
[項目13] 前記項目のいずれか一項に記載の核酸のライブラリーを複数個含む核酸のライブラリーの組み合わせ。
[項目14]前記ライブラリーに含まれる核酸は、前記大区画に固有のバーコード配列を含む、前記項目のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
[項目15]前記小区画に含まれる前記ライブラリーに含まれる核酸は、所定の長さ以上に増幅された核酸を含む、前記項目のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
[項目16]前記小区画に含まれる前記ライブラリーは、前記核酸のリード配列から得られるコンティグ上のコード領域が1000bp以上である割合が5%以上である、前記項目のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
[項目17]前記小区画に含まれる前記ライブラリーは、前記核酸のリード配列から得られるコンティグ上のタンパク質コード部分(コード領域)における完全長遺伝子配列含有率が、20%以上、前記項目のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
[項目18]前記小区画に含まれる前記ライブラリーは、前記核酸のリード配列から得られるコンティグ上のタンパク質コード部分(コード領域)における完全長遺伝子配列含有率が、30%以上、前記項目のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
[項目19] 核酸のライブラリーの作製方法であって、以下の工程:
 2つ以上の細胞又は細胞様構造物を提供する工程、
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
 必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程必要に応じて、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、及び
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
を含むことを特徴とする、核酸ライブラリーの作製方法。
[項目20]前記大区画はすべて前記容器に収容される、前記項目に記載の方法。
[項目21]前記細胞又は細胞様構造物は懸濁液の状態で提供される、前記項目のいずれか一項に記載の方法。
[項目22]前記増幅の際、前記小区画に含まれる細胞又は細胞様構造物が溶解されたのち、前記細胞又は細胞様構造物中のゲノムを含む核酸が当該小区画内に溶出し、当該小区画内に保持されていることを特徴とする、前記項目のいずれか一項に記載の方法。
[項目23]前記増幅産物を得る工程は、前記大区画に固有のバーコード配列を前記核酸に付加することを含む、前記項目のいずれか一項に記載の方法。
[項目24]前記小区画を前記大区画に収容する工程は、所定の長さ以上に増幅された核酸以外を除くことを含む、前記項目のいずれか一項に記載の方法。
[項目25] 2つ以上の細胞又は細胞様構造物を含む試料が、単一の試料であることを特徴とする前記項目のいずれか一項に記載の方法。
[項目26] 2つ以上の細胞又は細胞様構造物を含む試料が、土壌(海底土壌を含む)、海水、河川水、湖沼水、糞便、唾液、皮膚、喀痰、汚泥(活性汚泥を含む)、産業排水、動植物由来の組織及び手術洗浄液からなる群から選択される1以上を含む前記項目のいずれか一項に記載の方法。
[項目27] 1大区画に収容する小区画の数が、2以上であることを特徴とする前記項目のいずれか一項に記載の方法。
[項目28] 1大区画に収容する小区画の数が、5~15であることを特徴とする前記項目のいずれか一項に記載の方法。
[項目29] 前記細胞又は細胞様構造物は、2種類以上含まれる、前記項目のいずれか一項に記載の方法。
[項目30] 1個以上若しくは1種類以上が、2~3個若しくは2~3種類である前記項目のいずれか一項のいずれかに記載のメタゲノムライブラリーの作製方法。
[項目31] 前記小区画がゲル化液滴、液滴又は被覆液滴である前記項目のいずれか一項に記載の方法。
[項目32] 前記ゲル化液滴が、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲルからなる群から選択されるいずれかのゲル化材料によりゲル化される前記項目のいずれか一項に記載の方法。
[項目33] 前記ゲル化液滴が、直径約1~250μmである前記項目のいずれか一項に記載の方法。
[項目34] 前記小区画を生成する工程が、前記細胞又は細胞様構造物懸濁液中にゲル化能を有する成分を予め含有させた上で、当該ゲル化能を有する細胞又は細胞様構造物懸濁液をマイクロ流路中に流動させ、オイルで該懸濁液をせん断することにより行われる前記項目のいずれか一項に記載の方法。
[項目35] 大区画が、マイクロプレートのウェル又はマイクロチューブである前記項目のいずれか一項に記載の方法。
[項目36] 細胞又は細胞様構造物中の核酸配列の分析方法であって、以下の工程:
 2つ以上の細胞又は細胞様構造物を提供する工程、
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
 必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
 前記増幅産物の塩基配列を決定する工程、及び
 前記工程で得られた塩基配列を分析する工程
 必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程
 必要に応じて遺伝子をコードする領域を分析する工程
を包含する、細胞又は細胞様構造物中の核酸配列の分析方法。
[項目37]前記大区画はすべて前記容器に収容される、前記項目のいずれか一項に記載の方法。
[項目38]前記増幅産物を得る工程は、前記大区画に固有のバーコード配列を前記核酸に付加することを含む、前記項目のいずれか一項に記載の分析方法。
[項目39]前記増幅産物を含む小区画を、より少数の区画に合わせることを含む、前記項目のいずれか一項に記載の分析方法。
[項目40]前記増幅産物を含む小区画を、1つの区画に合わせることを含む、前記項目のいずれか一項に記載の分析方法。
[項目41]前記増幅産物について、所定の長さ以上に増幅された核酸のみを選別することをさらに包含する、前記項目のいずれか一項に記載の分析方法。
[項目42]前記遺伝子をコードする領域を分析する工程は、完全長遺伝子配列率を算出することを含む、前記項目のいずれか一項に記載の分析方法。
[項目43] メタゲノムの分析方法であって、以下の工程:
 前記メタゲノムを構成する2つ以上の細胞又は細胞様構造物を提供する工程、
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
 必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
 前記小区画中の増幅産物の塩基配列を決定する工程、及び
 前記工程で得られた塩基配列を分析し、メタゲノムの核酸配列情報を取得する工程
 必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程、および
 必要に応じて遺伝子をコードする領域を分析する工程
を包含する、方法。
[項目43A]項目1~42のいずれか一項または複数に記載の特徴をさらに含む、項目43に記載の方法。
[項目44] 細胞又は細胞様構造物中の核酸配列の分析システムであって、以下:
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する小区画生成部、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する核酸溶解部、
 前記核酸に接触させて前記核酸を前記小区画内で増幅して増幅産物を得るために用いられる核酸増幅用試薬を収容する増幅用試薬収納部、
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個収容する収容部、
 前記小区画中の増幅産物の塩基配列を決定する塩基配列決定部、及び
 前記工程で得られた塩基配列を分析する塩基配列分析部
 必要に応じて前記塩基配列がコードするアミノ酸配列を分析するアミノ酸配列分析部
 必要に応じて遺伝子をコードする領域を分析するコード領域分析部
を包含する、細胞又は細胞様構造物中の核酸配列の分析システム。
[項目44A]項目1~43のいずれか一項または複数に記載の特徴をさらに含む、項目44に記載のシステム。
[項目45] 前記増幅産物の塩基配列の決定が、同時並列的になされる、前記項目のいずれか一項に記載の方法、または前記項目のいずれか一項に記載の分析システム。
[項目46] 1又は複数個が、96以上である、前記項目のいずれか一項に記載の方法、または前記項目のいずれか一項に記載の分析システム。
[項目47] 塩基配列の決定が、次世代シーケンサーを用いて実施される前記項目のいずれか一項に記載の方法、または前記項目のいずれか一項に記載の分析システム。
[項目48] 細胞又は細胞様構造物中の遺伝子をコードする核酸配列及び/または該核酸配列がコードするアミノ酸配列の取得方法であって、以下の工程:
 2つ以上の細胞又は細胞様構造物を提供する工程、
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
 必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
 前記増幅産物の塩基配列を決定する工程、
 前記工程で得られた塩基配列を分析する工程、及び
 前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程
を包含する、方法。
[項目48A]項目1~47のいずれか一項または複数に記載の特徴をさらに含む、項目48に記載の方法。
[項目49] 細胞又は細胞様構造物中の遺伝子をコードする配列のデータベースの作成方法であって、以下の工程:
 2つ以上の細胞又は細胞様構造物を提供する工程、
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
 必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
 前記増幅産物の塩基配列を決定する工程、
 前記工程で得られた塩基配列を分析する工程
 前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程、及び
 前記遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列、ならびに必要に応じて細胞又は細胞様構造物に関する情報を用いて、遺伝子をコードする配列のデータベースを作成する工程
を包含する、方法。
[項目49A]項目1~48のいずれか一項または複数に記載の特徴をさらに含む、項目49に記載の方法。
[項目50] 細胞又は細胞様構造物中の遺伝子をコードする配列を構成するデータ構造の生成方法であって、以下の工程:
 2つ以上の細胞又は細胞様構造物を提供する工程、
 前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
 前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
 必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
 必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
 前記増幅産物の塩基配列を決定する工程、
 前記工程で得られた塩基配列を分析する工程
 前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程、及び
 前記遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列、ならびに必要に応じて細胞又は細胞様構造物に関する情報で規定される、遺伝子をコードする配列のデータ構造を生成する工程
を包含する、方法。
[項目50A]項目1~49のいずれか一項または複数に記載の特徴をさらに含む、項50に記載の方法。
[項目51]  前記項目のいずれか一項に記載される方法で生成されたデータベース。
[項目52] 前記データベースは、前記項目のいずれか一項に記載される方法で生成されたことを示す情報を含む、前記項目のいずれか一項に記載のデータベース。
[項目53] 前記データベースは、完全長遺伝子配列率を項目として含む、前記項目のいずれか一項に記載のデータベース。
[項目54] 前記データベースは、含まれる遺伝子をコードする核酸配列および/またはアミノ酸配列の完全長遺伝子配列率が20%以上である、前記項目のいずれか一項のいずれか一項に記載のデータベース。
[項目55]  前記項目のいずれか一項に記載される方法で生成されたデータ構造。
[項目56] 前記データ構造は、前記項目のいずれか一項に記載される方法で生成されたことを示す情報を含む、前記項目のいずれか一項に記載のデータ構造。
[項目57] 前記データ構造は、完全長遺伝子配列率を項目として含む、前記項目のいずれか一項に記載のデータ構造。
[項目58] 前記データ構造は、含まれる遺伝子をコードする核酸配列および/またはアミノ酸配列の完全長遺伝子配列率が20%以上である、前記項目のいずれか一項のいずれか一項に記載のデータ構造。
[項目59]前記データベースまたはデータ構造は、コード配列に関する項目を含み、前記コード配列に関する項目は、ゲノムデータベースまたはメタゲノムデータベースの作成の際に使用されるコンティグと連結される前記項目のいずれか一項のいずれか一項に記載のデータベースまたはデータ構造。
[項目60]前記コード配列に関する項目は、完全コードかどうかを識別する項目を含む、前記項目のいずれか一項に記載のデータベースまたはデータ構造。
[項目61]  前記項目のいずれか一項に記載の方法で取得された遺伝子をコードする核酸配列もしくはアミノ酸配列、前記項目のいずれか一項に記載の方法で生成されたデータベース、前記項目のいずれか一項に記載される方法で生成されたデータ構造、前記項目のいずれか一項に記載のデータベース、または前記項目のいずれか一項に記載のデータ構造を用いて、対象となるアミノ酸または核酸の配列を分析する工程を包含する、アミノ酸または核酸の配列を分析する方法。
[項目62] 前記分析する工程は、コンティグをビニングして、ゲノムまたはメタゲノムのデータベースを生成することを包含する、前記項目のいずれか一項に記載のアミノ酸または核酸の配列を分析する方法。
[項目63] 核酸分子の保存方法であって、前記項目のいずれか一項に記載の核酸のライブラリーの作製方法の最終工程の後に、さらに、小区画が収容された大区画を、そのまま又はDNA分解を抑制する物質を添加後、室温以下で保存する工程を含むことを特徴とする、核酸分子の保存方法。
[項目64]前記核酸分子は、微生物のものである前記項目のいずれか一項に記載の方法。
[項目65] 室温以下が、4℃以下である前記項目のいずれか一項に記載の方法。
[項目66] 室温以下が、-20℃以下である前記項目のいずれか一項に記載の方法。
[項目67] 室温以下が、-80℃以下である前記項目のいずれか一項に記載の方法。
 本開示は以下をも提供する。
[1] 1小区画中に、1個以上若しくは1種類以上の細胞又は細胞様構造物由来のゲノムDNA及び/又は当該ゲノムDNAを鋳型として全ゲノム増幅により得られた増幅産物を含み、当該小区画を1又は複数区画含む大区画からなるメタゲノムライブラリー。
[2] 大区画中の小区画の数が、2~300であることを特徴とする前記[1]記載のメタゲノムライブラリー。
[3] 大区画中の小区画の数が、2~50であることを特徴とする前記[1]記載のメタゲノムライブラリー。
[4] 大区画中の小区画の数が、5~15であることを特徴とする前記[1]記載のメタゲノムライブラリー。
[5] 大区画中の小区画の数が、8~12であることを特徴とする前記[1]記載のメタゲノムライブラリー。
[6] 大区画中の小区画の数が、10であることを特徴とする前記[1]記載のメタゲノムライブラリー。
[7] 1個以上若しくは1種類以上が、1個若しくは1種類である前記[1]~[6]のいずれかに記載のメタゲノムライブラリー。
[8] 1個以上若しくは1種類以上が、2~3個若しくは2~3種類である前記[1]~[6]のいずれかに記載のメタゲノムライブラリー。
[9] 前記小区画がゲル化液滴、液滴又は被覆液滴であることを特徴とする前記[1]~[8]のいずれかに記載のメタゲノムライブラリー。
[10] 前記ゲル化液滴が、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲルからなる群から選択されるいずれかのゲル化材料によりゲル化されることを特徴とする前記[9]記載のメタゲノムライブラリー。
[11] 前記ゲル化液滴が、直径約1~250μmであることを特徴とする前記[9]又は[10]に記載のメタゲノムライブラリー。
[12] 大区画が、マイクロプレートのウェル又はマイクロチューブであることを特徴とする前記[1]~[11]のいずれかに記載のメタゲノムライブラリー。
[13] 前記[1]~[12]のいずれかに記載のメタゲノムライブラリーを複数個含むメタゲノムライブラリー。
[14] 複数個が、384、768、1,152、1,536、1,920、2,304、2,688及び3,072からなる群から選択させるいずれかである前記[13]記載のメタゲノムライブラリー。
[15] メタゲノムライブラリーの作製方法であって、以下の工程:
 2つ以上の細胞又は細胞様構造物を含む試料を懸濁液に懸濁し、細胞又は細胞様構造物を含む画分とそれ以外の画分とを分けることで細胞又は細胞様構造物を得る工程、
 得られた細胞又は細胞様構造物を、懸濁液に懸濁する工程、
 細胞又は細胞様構造物懸濁液から、1個以上若しくは1種類以上の細胞又は細胞様構造物を含む小区画を生成する工程、
 前記小区画に含まれる細胞又は細胞様構造物を溶解する工程であって、当該細胞又は細胞様構造物中の全ゲノムが当該小区画内に溶出し、当該小区画内に保持されていることを特徴とする、工程、
 前記全ゲノムを全ゲノム増幅用試薬に接触させて該全ゲノムを前記小区画内で増幅する工程、及び
 全ゲノム増幅産物を含む小区画を、大区画に1個又は複数個、収容する工程、
を含むことを特徴とする、メタゲノムライブラリーの作製方法。
[16] 2つ以上の細胞又は細胞様構造物を含む試料が、単一の試料であることを特徴とする前記[15]記載のメタゲノムライブラリーの作製方法。
[17] 2つ以上の細胞又は細胞様構造物を含む試料が、土壌(海底土壌を含む)、海水、河川水、湖沼水、糞便、唾液、皮膚、喀痰、汚泥(活性汚泥を含む)、産業排水、動植物由来の組織及び手術洗浄液からなる群から選択されるいずれかであることを特徴とする前記[15]又は[16]に記載のメタゲノムライブラリーの作製方法。
[18] 1大区画に収容する小区画の数が、2~300であることを特徴とする前記[15]~[17]のいずれかに記載のメタゲノムライブラリーの作製方法。
[19] 1大区画に収容する小区画の数が、2~50であることを特徴とする前記[15]~[17]のいずれかに記載のメタゲノムライブラリーの作製方法。
[20] 1大区画に収容する小区画の数が、5~15であることを特徴とする前記[15]~[17]のいずれかに記載のメタゲノムライブラリーの作製方法。
[21] 1大区画に収容する小区画の数が、8~12であることを特徴とする前記[15]~[17]のいずれかに記載のメタゲノムライブラリーの作製方法。
[22] 1大区画に収容する小区画の数が、10であることを特徴とする前記[15]~[17]のいずれかに記載のメタゲノムライブラリーの作製方法。
[23] 1個以上若しくは1種類以上が、1個若しくは1種類である前記[15]~[22]のいずれかに記載のメタゲノムライブラリーの作製方法。
[24] 1個以上若しくは1種類以上が、2~3個若しくは2~3種類である前記[15]~[22]のいずれかに記載のメタゲノムライブラリーの作製方法。
[25] 前記小区画がゲル化液滴、液滴又は被覆液滴であることを特徴とする前記[15]~[24]のいずれかに記載のメタゲノムライブラリーの作製方法。
[26] 前記ゲル化液滴が、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲルからなる群から選択されるいずれかのゲル化材料によりゲル化されることを特徴とする前記[25]記載のメタゲノムライブラリーの作製方法。
[27] 前記ゲル化液滴が、直径約1~250μmであることを特徴とする前記[25]又は[26]に記載のメタゲノムライブラリーの作製方法。
[28] 細胞又は細胞様構造物懸濁液から、1個以上若しくは1種類以上の細胞又は細胞様構造物を含む小区画を生成する工程が、当該細胞又は細胞様構造物懸濁液中にゲル化能を有する成分を予め含有させた上で、当該ゲル化能を有する細胞又は細胞様構造物懸濁液をマイクロ流路中に流動させ、オイルで該懸濁液をせん断することにより行われることを特徴とする前記[15]~[27]のいずれかに記載のメタゲノムライブラリーの作製方法。
[29] 大区画が、マイクロプレートのウェル又はマイクロチューブであることを特徴とする前記[15]~[28]のいずれかに記載のメタゲノムライブラリーの作製方法。
[30] 微生物遺伝子配列の高効率取得方法であって、前記[15]~[29]のいずれかに記載のメタゲノムライブラリーの作製方法の最終工程の後に、さらに以下の工程:
 複数個の大区画中の小区画を一つにまとめる工程、
 一つにまとめた大区画中の小区画中の増幅産物の塩基配列を同時並列的に決定する工程、及び
 前記工程で得られた塩基配列を、コンピューターを用いて解析し、タンパク質をコードする領域を推定することにより、遺伝子を取得する工程、
を含むことを特徴とする、微生物遺伝子配列の高効率取得方法。
[31] 複数個が、384、768、1,152、1,536、1,920、2,304、2,688及び3,072からなる群から選択させるいずれかである前記[30]記載の微生物遺伝子配列の高効率取得方法。
[32] 塩基配列の決定が、次世代シーケンサーを用いて実施されることを特徴とする前記[30]又は[31]に記載の微生物遺伝子配列の高効率取得方法。
[33] 微生物ゲノムDNAの保存方法であって、前記[15]~[29]のいずれかに記載のメタゲノムライブラリーの作製方法の最終工程の後に、さらに、小区画が収容された大区画を、そのまま又はDNA分解を抑制する物質を添加後、室温以下で保存する工程を含むことを特徴とする、微生物ゲノムDNAの保存方法。
[34] 室温以下が、4℃以下であることを特徴とする前記[33]記載の微生物ゲノムDNAの保存方法。
[35] 室温以下が、-20℃以下であることを特徴とする前記[33]記載の微生物ゲノムDNAの保存方法。
[36] 室温以下が、-80℃以下であることを特徴とする前記[33]記載の微生物ゲノムDNAの保存方法。
 本開示において、上記1または複数の特徴は、明示された組み合わせに加え、さらに組み合わせて提供されうることが意図される。本開示のなおさらなる実施形態および利点は、必要に応じて以下の詳細な説明を読んで理解すれば、当業者に認識される。
 以上のように、本開示は、微生物等の生物の遺伝子の配列の新規な高効率取得法及びそれを達成するために新規に創作された核酸(例えば、メタゲノム)のライブラリー等を提供する。一つの実施形態では、例えば、単一の試料から細胞又は細胞様構造物を得る工程、必要に応じて得られた細胞又は細胞様構造物を懸濁液に懸濁する工程、細胞又は細胞様構造物懸濁液から、1個以上若しくは1種類以上の細胞又は細胞様構造物を含む小区画を生成する工程、当該小区画に含まれる細胞又は細胞様構造物を溶解し、当該小区画中にゲノムDNA等の核酸を溶出させる工程、当該ゲノムDNA等の核酸を鋳型として核酸増幅反応(例えば、全ゲノム増幅反応)を行う工程、核酸増幅(例えば、全ゲノム増幅)された産物を含む小区画を大区画に収容する工程、及び大区画中の全ゲノム増幅産物の塩基配列を同時並列的に決定する工程を包含することを特徴とする微生物遺伝子配列高効率取得法を提供する。
 本開示は、従来のショットガンメタゲノム法により微生物を含む土壌サンプルから微生物遺伝子配列を取得する場合、単一の土壌サンプルから1個のメタゲノムライブラリーを作製し、塩基配列を決定し、遺伝子配列を取得する方法が取られていた(図1(A))際に見られる欠点を解決する。すなわち、通常、得られた塩基配列の重複部分を手掛かりに元の遺伝子配列を再構築するが、その膨大な多様性や、異なる微生物由来の配列が一部重複する等の原因で、元来の遺伝子配列へと再構築することが不能となる場合も多いために困難であった、効率よく多数の機能的構造遺伝子の取得を本開示は可能にする。すなわち、本開示の微生物遺伝子配列の高効率取得法においては、単一の土壌サンプルから、微生物細胞を含む小区画を作り、当該小区画中に微生物細胞由来ゲノムDNAを溶出させた後、当該小区画中で全ゲノム増幅反応を起こさせ、DNA増幅断片を含む小区画を、例えば10個、大区画に収容し、当該大区画を例えば、384個作製することで、例えばその384個のメタゲノムライブラリーを作製する(図2)。これによりサンプル中に多様な微生物細胞が存在する場合であっても、きめ細かな分析が可能となり、その結果、従来法と比べ、単一の土壌サンプルからの遺伝子取得効率は飛躍的に上昇し、効率よく多数の機能的な構造遺伝子を取得することが達成される。
 本開示は、新規な微生物遺伝子配列の高効率取得法を提供する。現在、人類が直面する環境課題は多岐にわたるが、その一つに生物多様性の保全がある。地球上には、多様な生物が様々な環境で生息しており、直接的、間接的に支え合って共存している。人類もその一員として他の生物と共存しており、森林や河川、海洋などの多様な生態系や動植物や微生物などの多様な生物種、種内における多様な遺伝子型といった生物多様性によってもたらされる様々な恵み(生態系サービス)に支えられている。具体的には、酸素の供給、水の浄化、豊かな土壌といった生命の存立基盤にかかわる恵みのほか、食料や繊維、木材など原材料や薬用資源の供給、暴風や洪水などによる被害の緩和といった恵みによって人類の生活は成り立っている。しかし、人間の経済活動の拡大によって、生物の生息環境の悪化や生態系の破壊が進み、生物種の絶滅が急速に進行しており、生態系サービスの根源をなす生物多様性を脅かす事態となっている。こうした中、生物多様性の損失を食い止め再生することの重要性が国際社会において認識されるようになっている。生物多様性は遺伝的多様性と置き換えることもできる。遺伝的多様性は、その環境に生息する生物の種全体としての適応力とも直結し、遺伝的多様性が豊かで多くの生物種の異なる同種が存在すれば、環境の変化や突発的なトラブルが起こっても、それに適応できる個性(遺伝的特性)を持った個体が生き残り絶滅から免れる確率を上げることができる。そのような点において、本開示は、遺伝的多様性の確保を可能とし、多様な遺伝資源を効率よく確保し、保管する技術を提供する。
 本開示のメタゲノムライブラリー及び微生物遺伝子配列の高効率取得法は、土壌等の微生物細胞等を含むサンプルから新規な遺伝子を高効率で取得することにおいて有用である。
本開示のメタゲノムライブラリー作製工程を、従来法のショットガンメタゲノム法及びミニメタゲノム法と比較した模式図である。 微生物細胞を含む小区画の作製から、ゲノムDNA増幅産物で満たされた小区画を複数個含む大区画からなる本開示のメタゲノムライブラリーを作製し、次世代シーケンサーにかけるところまでの超並列的な処理工程を示した図である。 小区画として、ゲル化液滴(a)、液滴(b)、被覆液滴(c)をそれぞれ用い、微生物細胞ゲノムDNA由来の増幅断片を含む小区画を得る工程を示した図である。 単球菌が分裂し、同一ゲノムを保有する1種類の球菌が、自然界において複数の細胞が連鎖した形で存在する形態を示した図である。 液滴1個当たり1個の微生物細胞を含む液滴を作製する場合のイメージ図(a)と、液滴1個当たり2個の微生物細胞を含む液滴を作製する場合のイメージ図(b)である。 マイクロプレートを用いて作製された本開示のメタゲノムライブラリーのイメージ図である。 マイクロチューブを用いて作製された本開示のメタゲノムライブラリーのイメージ図である。 ショットガンメタゲノムシーケンス法及び本開示による方法を用いて得られた遺伝子群の遺伝子長の分布を示した図である。 土壌サンプルから本開示の方法で微生物遺伝子を取得した場合とショットガンメタゲノムシーケンス法により微生物遺伝子を取得した場合に取得できた非冗長遺伝子数を比較した図である。 マイクロプレートに1ウェルあたり10個、ゲル化液滴を収容した場合に得られた遺伝子数とウェル数との関係を示した図である。 図11は実施例6において調査した、核酸のリード配列から得られるコンティグ上のタンパク質コード部分(コード領域)における1000 bp以下の長さの遺伝子が占める割合の結果を示す。X軸は遺伝子長を示し、Y軸は全体に対する割合を示す。 図12は、本開示の実施例を行った結果(核酸のリード配列から得られるコンティグ上のタンパク質コード部分(コード領域)における)の完全長遺伝子配列率(ライブラリーについては完全長遺伝子配列含有率)を示す。
 以下、本開示を最良の形態を示しながら説明する。本明細書の全体にわたり、単数形の表現は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。従って、単数形の冠詞(例えば、英語の場合は「a」、「an」、「the」など)は、特に言及しない限り、その複数形の概念をも含むことが理解されるべきである。また、本開示において使用される用語は、特に言及しない限り、当該分野で通常用いられる意味で用いられることが理解されるべきである。したがって、他に定義されない限り、本明細書中で使用される全ての専門用語及び科学技術用語は、本開示の属する分野の当業者によって一般的に理解されるのと同じ意味を有する。矛盾する場合、本明細書(定義を含めて)が優先する。本明細書中で使用される「工程」との語には、他の工程から独立した工程に加え、他の工程と明確に区別できない場合であってもその工程の目的が達成されれば、当該工程も含まれる。本明細書中で使用される「~」を用いて示された数値範囲には、「~」の前後に記載される数値がそれぞれ最小値及び最大値として含まれる。本明細書中で段階的に記載されている数値範囲において、一つの数値範囲で記載された上限値又は下限値は、他の段階的な記載の数値範囲の上限値又は下限値に置き換えてもよい。また、本文中に記載されている数値範囲において、その数値範囲の上限値又は下限値は、実施例に示されている値に置き換えてもよい。
 (定義)
 本開示において使用される用語および一般的な技術の説明および定義を、本開示の説明とともに記載する。
 本明細書において「ポリヌクレオチド」、「オリゴヌクレオチド」および「核酸」は、本明細書において同じ意味で使用され、任意の長さのヌクレオチドのポリマーをいう。本明細書において「核酸」はまた、遺伝子、DNA(例えば、cDNA)、RNA(例えば、mRNA)、オリゴヌクレオチド、およびポリヌクレオチドと互換可能に使用される。本明細書において「ヌクレオチド」は、天然のものでも非天然のものでもよい。 本明細書において「遺伝子」とは、遺伝形質を規定する因子をいい、「遺伝子」は、「ポリヌクレオチド」、「オリゴヌクレオチド」および「核酸」をさすことがある。単離された分子として存在する、すなわち核酸の物質としての個々の面に着目する場合は「核酸分子」ということがある。
 本明細書において、「メタゲノム」とは、群集を構成する生物(例えば、微生物であり得る)のゲノムの総和をいう。従って、メタゲノムは、土壌(海底土壌を含む)、海水、河川水、湖沼水、糞便、唾液、皮膚、喀痰、汚泥(活性汚泥を含む)、産業排水、動植物由来の組織、手術洗浄液等の様々なサンプル中に含まれる微生物等の細胞又は細胞様構造物からDNA等のゲノムを抽出して得られたゲノム総体およびそれを構成する物質(DNA、RNAなどの核酸)が例示される。ここで、例えば、糞便サンプル中には、当該糞便サンプルの由来生物の腸内細菌叢が、唾液サンプルには当該唾液サンプルの由来生物の口腔細菌叢が、皮膚サンプルには当該皮膚サンプルの由来生物の皮膚細菌叢が含まれ得、メタゲノムを取得するための好適なサンプルとなり得る。本明細書では、「メタゲノム解析」は試料(群集)から抽出したDNAの配列を、網羅的に決定することをいう。
 なお、ゲノム抽出の前段階として、サンプル中の微生物等の細胞が分裂し得る条件下に置く、いわゆる培養工程を含み得る。ここで、「細胞」とは、遺伝情報を有する分子を内包する粒子であって、自己複製されることが可能である任意の粒子を指す。細胞としては、細菌、真菌、単細胞生物の細胞、多細胞生物由来の細胞などが包含される。また、「細胞様構造物」とは、遺伝情報を有する分子を内包する任意の粒子を指す。細胞様構造物としては、細胞内小器官、例えば、ミトコンドリア、細胞核、及び葉緑体、細胞外小胞、並びにウイルスなどが包含される。なお、前記のような環境中には、人類の想像を大きく上回るほどの多様性に満ちた微生物が存在していることが、2000年代に、次世代シークエンシング技術の開発とともに決定的なものになり、そこには驚くほどの多様で機能未知且つ未培養の微生物が存在し、生物生態系の根幹をなしていることが明らかとなった。従って、そのような環境は、本開示において産業応用可能な新規な機能を有する新規遺伝子の入手源となり得る。
 本明細書において、「核酸」の「ライブラリー」とは、複数の核酸のコレクションをいい、対象がメタゲノムの場合は「メタゲノムライブラリー」という。本開示の実施形態では、メタゲノムライブラリーは、サンプル中に存在する多様な細胞又は細胞様構造物のゲノムDNAから構築されたゲノムライブラリーであり、より具体的には、図1(C)及び図2に例示したように、微生物等の細胞又は細胞様構造物を含有する単一試料から微生物等の細胞又は細胞様構造物を分離し、1小区画当たり1個以上若しくは1種類以上の細胞又は細胞様構造物を各小区画に収容後、当該細胞又は細胞様構造物の細胞隔壁を溶解し、ゲノムDNA以外の夾雑物を除去後、当該ゲノムDNAを増幅し、当該得られた増幅DNA断片を含む小区画を1又は複数個含む大区画からなることを特徴とするメタゲノムライブラリー、あるいは当該大区画を複数個含む集合体からなることを特徴とするメタゲノムライブラリーの両方の場合を意味する。限定を意図しないが、本開示のメタゲノムライブラリーは、従来のものとは異なり、より高効率に微生物等の細胞又は細胞様構造物由来の遺伝子配列を取得することが可能であるという特長がある。本開示の特定の実施形態では、本明細書において、「遺伝子」とは、タンパク質の一次構造を規定する構造遺伝子を指す。
 本明細書において、「小区画」とは、特定の分子は通過させ、その他の分子は通過させない機能を有し得る境界で遮られた室を指す。小区画に用いられる境界は、代表的には、核酸増幅に必要な試薬は通過させ、核酸増幅の対象は通過させないもの(例えば、半透膜)であるため、通常、境界の内外の物質のやり取りについては、核酸増幅に必要な試薬のみが通過されるため、小区画からは、通常の状態において、核酸の対象が保持され、他方で、核酸増幅に必要な試薬(例えば、ポリメラーゼ、緩衝成分、プライマー(核酸ポリマーのうち一定程度の分子量以下のものである)、ポリメラーゼ酵素活性の発揮のための成分等を含む)は外的に添加しうる。それゆえ、この態様では、本開示の小区画では、含まれている細胞又は細胞様構造物に由来する核酸を効率よく増幅することができる。好ましい実施形態では、本開示の小区画は、細胞又は細胞様構造物を溶解する手段(薬剤)または条件(加熱、せん断等)によって実質的に破壊されない構造であることが有利である。また別の好ましい実施形態では、小区画は、対象が核酸分子の場合、その核酸分子が均質に増幅できる条件を提供することができることが有利である。理論に束縛されることを望まないが、均質に増幅を許容する条件により、対象となる増幅対象となる核酸分子(代表的には、ゲノム核酸分子)が万遍なく増幅されることができ、対象核酸の実質的にすべての配列情報を網羅的に入手することができる。この場合、増幅された核酸配列(例えば、ゲノム配列)が複数種類(例えば、10種類程度)あっても、互いに識別できるため、ゲノム情報などの配列情報を高精度に復元することができる。当該小区画は、1区画の容量がナノ・ピコリットルという微小なものであり得、微生物等の細胞又は細胞様構造物を個別処理又は個別解析するための微小反応場として利用することができ、例えば、マイクロリットルレベルの反応液から数万~数百万の小区画を作り出すことができるため、図2に例示したように、超並列的な反応が実行可能であるという特長がある。本開示において、「超並列」とは、目的のサンプルから多数の遺伝子を、迅速且つ高効率に取得することを目的として、サンプル、細胞、ゲノムDNA、増幅DNA断片、それらを含有する多数の小区画及び/又は多数の大区画を、並列的に処理することを意図した広い概念である。例えば、「小区画」の例として、ゲル化液滴、液滴、被覆液滴等が挙げられるが、それらに限定されない。
 本明細書において「ゲル化液滴」とは、図3(a)の左端に示すように、その中に細胞又は細胞様構造物を保持することが可能なゲル状の微粒子状構造体を指す。ここで、「ゲル」とは、コロイド溶液において、高分子物質又はコロイド粒子がその相互作用により全体として網目構造をつくり、溶媒あるいは分散媒である液相を多量に含んだまま流動性を失った状態のことをいう。ゲル化材料としては、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲル等が挙げられる。「液滴」とは、その中に細胞又は細胞様構造物を保持することが可能な表面張力でまとまった液状粒子をいい、例えば油中水滴(W/O;Water in Oil)、水中油滴(O/W;Oil in Water)などが挙げられるが、DNA増幅反応の効率性の観点から油中水滴(W/O;Water in Oil)であることが好ましい。図3(b)の左端に油中水滴のイメージを例示する。「被覆液滴」とは、図3(c)の左端に示すように、その中に細胞又は細胞様構造物を保持することが可能な、ゲル状の物質で被覆された液滴をいう。被覆液滴においては、液滴そのものは水溶液等の水性液滴またはゾル状液滴であり得る。ここで、「ゾル」とは流動性があり、液体を分散媒とするコロイドをいう。なお、上記液滴及び被覆液滴については、当該技術分野において公知の方法で作製することができる。本明細書において、「ヒドロゲル」とは、高分子物質またはコロイド粒子の網目構造によって保持されている溶媒あるいは分散媒が水であるものを指す。
 本明細書において、「大区画」とは、前記小区画を1個又は複数個収容し得る境界で遮られた室を指す。例えば、「大区画」の例として、マイクロプレートのウェル形成部(本明細書においておくに断らない限り単に「ウェル」ともいう。)、マイクロチューブ等が挙げられるが、小区画を1個又は複数個収容し得る限り、これらに限定されない。マイクロプレートは、例えば、6ウェル、12ウェル、24ウェル、96ウェル、384ウェル、1,536ウェル、6,144ウェル等様々なウェル数のマイクロプレートが存在するが、目的に応じて、好適なウェル数のマイクロプレートを用いることができる。通常、例えば、土壌サンプルから本開示のメタゲノムライブラリーを作製する場合、具体例としては、384ウェルのマイクロプレートを好適に用いることができ、また、複数枚の384ウェルのマイクロプレートを同時並列的に用いることで、2枚の場合768ウェル、3枚の場合1,152ウェル、4枚の場合1,536ウェル、5枚の場合1,920ウェル、6枚の場合2,304ウェル、7枚の場合2,688ウェル、8枚の場合3,072ウェルを一回で処理することができるが、必要に応じてさらに枚数を増やしウェル数(大区画数)を増やすことができる。本明細書では、「大区画」「小区画」は単に「区画」(section)「サブ区画」(subsection)と表現することもできる。
 なお、本明細書において、「シングルセル(Single Cell)」とは、1個若しくは1種類の細胞又は細胞様構造物を意味する。ここで「1種類の細胞」とは、図4のように、元々1細胞からなる単球菌が分裂し、双球菌、四連球菌、八連球菌、連鎖球菌、ブドウ状球菌等の形態で自然界に存在する複数個の細胞からなる同一のゲノムDNAを含む細菌を含む意である。同様に、2個若しくは2種類の細胞又は細胞様構造物を「ダブルセル(Double Cells)」といい、3個若しくは3種類の細胞又は細胞様構造物を「トリプルセル(Triple Cells)」という。本開示のメタゲノムライブラリーは、以下に示した各区画に微生物等の細胞又は細胞様構造物を所望の数、収容する工程において、1区画中に1~3個若しくは1~3種類の細胞又は細胞様構造物、あるいは2~3個若しくは2~3種類の細胞又は細胞様構造物、より好ましくは1区画中に1~3個若しくは1~3種類の細胞又は細胞様構造物、最も好ましくは1区画中に1個若しくは1種類の細胞又は細胞様構造物を収容する。特に、高品質の遺伝子群を取得する観点からは、1区画中に1個若しくは1種類の細胞又は細胞様構造物を収容することが最も好ましい。
 本明細書において、「シングルセルレベル」とは、1個若しくは1種類の細胞又は細胞様構造物に含まれる遺伝情報を、他の細胞又は細胞様構造物に含まれる遺伝情報と区別した状態で処理を行うことをいう。例えば、「シングルセルレベル」でゲノムDNA等のポリヌクレオチドを増幅する場合、ある細胞中のポリヌクレオチドと、他の細胞中のポリヌクレオチドが区別可能な状態でそれぞれの増幅が行われる。「ダブルセルレベル」とは、2個若しくは2種類の細胞又は細胞様構造物が含まれる状態で処理を行うことをいい、同様に、「トリプルセルレベル」とは、3個若しくは3種類の細胞又は細胞様構造物が含まれる状態で処理を行うことをいう。同一サンプルから、より多くの遺伝子群を取得する目的においては、ダブルセルレベル又はトリプルセルレベルあるいはそれ以上のレベル(例えば、10個若しくは10種類の細胞又は細胞様構造物)で処理することもあり得る。
 本明細書において「増幅」、  「増幅する」、「増幅すること」、または「増幅反応」、およびそれらの派生語は、一般的には、(鋳型核酸分子と呼ばれる)核酸分子の少なくとも一部分が複製されるか、または少なくとも1つの追加の核酸分子にコピーされる作用またはプロセスを指す。追加の核酸分子は、鋳型核酸分子の少なくともいくらかの部分と実質的に同一または実質的に相補的である配列を任意に含む。鋳型標的核酸分子は、一本鎖または二本鎖であり得る。追加の得られる複製核酸分子は、独立して一本鎖または二本鎖であり得る。いくつかの実施形態では、増幅は、標的核酸分子の少なくともいくらかの部分の少なくとも1つのコピーの生成、または標的核酸分子の少なくともいくらかの部分に相補的である標的核酸配列の少なくとも1つのコピーの生成のための鋳型依存性インビトロ酵素触媒反応を含む。増幅は、核酸分子の線形または指数関数的複製を任意に含む。いくつかの実施形態では、かかる増幅は、等温条件を用いて行われ、他の実施形態では、かかる増幅は、熱サイクリングを含むことができる。いくつかの実施形態では、増幅は、単一の増幅反応における複数の標的配列の同時増幅を含む多重増幅である。少なくともいくつかの標的配列は、単一の増幅反応に含まれる同じ核酸分子または異なる標的核酸分子上に位置することができる。いくつかの実施形態では、「増幅」は、単独または組み合わせにかかわらず、DNAベースの核酸および/またはRNAベースの核酸の少なくともいくらかの部分の増幅を含む。増幅反応は、一本鎖または二本鎖核酸基質を含むことができ、当業者に知られている任意の増幅プロセスをさらに含むことができる。いくつかの実施形態では、増幅反応は、ポリメラーゼ連鎖反応(PCR)を含む。いくつかの実施形態では、増幅反応は、等温増幅を含む。本明細書において好ましくはゲルカプセル、ゲル化液滴等の小区画内でゲル状態を保ちながら増幅されることが有利であり得る。
 本明細書において「全ゲノム増幅」とは、増幅の対象となる核酸がゲノムのとき、その全体を増幅することをいう。全ゲノム増幅は、例えば、phi29 DNA ポリメラーゼやBst DNA Polymerase など、鎖置換活性を有する DNA ポリメラーゼを利用したランダムプライミングによりゲノム全体を増幅するMDA(multiple displacement amplification)法により行うことができる。
 本明細書において、「完全長遺伝子配列率」とは、核酸配列またはアミノ酸配列の集合について言及するとき、その核酸配列がコードするアミノ酸配列を分析したとき、完全な構造遺伝子をコードする試料(例えば、核酸分子またはポリペプチド分子)の数を、調査した全試料の数で除したものをいい、典型的には、遺伝子のコード領域(CDS)の全長がコンティグ内に含まれる場合に完全、そうでない場合に不完全と表記し、完全/完全+不完全を「完全長遺伝子配列率」として表示することができる。核酸またはアミノ酸の配列のデータベースまたはデータ構造において言及するとき、ある核酸のライブラリーから得られた核酸のリード配列を繋ぎ合わせた後に得られたコンティグをコンピュータ分析し、タンパク質をコードすると思われる領域を推定したとき、開始コドンで始まり終始コドンで終わる完全長配列を含むコード領域の数を、得られるコード領域の総数で除した割合と評価することができる。データベースおよびデータ構造などでは、コンティグをデータとして有しているため、このような場合は、完全長遺伝子配列率といい、そのもとになるリードやリード配列のベースとなる核酸のライブラリーについては、下記に示すように「完全長遺伝子配列含有率」という。このような概念は、ゲノムまたはメタゲノム等の核酸のデータベースおよびデータ構造、ならびにそれらのもととなる核酸のライブラリー等の試料において、品質を表示する一つのパラメータといえ、データベースおよびデータ構造は、完全長遺伝子配列率が、少なくとも10%以上、好ましくは15%以上、20%以上、25%以上、30%以上、35%以上、40%以上、45%以上、50%以上であってもよい。本開示で実際に計算する場合、核酸のリード配列から(つなぎ合わせて)得られるコンティグのタンパク質コード部分の長さ(コード領域)を調査することで、判定することができる。例えば、ATGおよび終止コドンの両方が存在することが必要であり、これらは当該分野で周知の手法で、遺伝子(タンパク質)をコードする配列を同定し、算出することができる。
 本明細書において、または核酸配列またはアミノ酸配列を含むサンプル、ライブラリーなどの核酸またはポリペプチドの集合について言及するとき、「完全長遺伝子配列含有率」とは、本開示のライブラリーなどの核酸のライブラリーについていうとき、ライブラリーに含まれる核酸のリード配列を繋ぎ合わせた後に得られたコンティグをコンピュータ分析し、タンパク質をコードすると思われる領域(コード領域)を推定したとき、開始コドンで始まり終始コドンで終わる完全長遺伝子配列を含むコード領域の数を、得られるコード領域の総数で除した率をいう。ライブラリーの完全長遺伝子配列含有率は、ライブラリーの品質の評価を示す値として有用である。このような概念は、ゲノムまたはメタゲノム等の核酸のデータベースおよびデータ構造を生成する際に利用される核酸のライブラリー等の試料において、品質を表示する一つのパラメータといえ、ライブラリーは、完全長遺伝子配列含有率が、少なくとも10%以上、好ましくは15%以上、20%以上、25%以上、30%以上、35%以上、40%以上、45%以上、50%以上であってもよい。本開示で実際に計算する場合、核酸のリード配列から(つなぎ合わせて)得られるコンティグのタンパク質コード部分の長さ(コード領域)を調査することで、判定することができる。例えば、ATGおよび終止コドンの両方が存在することが必要であり、これらは当該分野で周知の手法で、遺伝子(タンパク質)をコードする配列を同定し、算出することができ、その値をライブラリーについて当てはめると完全長遺伝子配列含有率として表示され得る。
 本明細書において、「コード領域」とは、核酸の集合物・ライブラリーなどにおいて、核酸のリード配列から得られるコンティグにおいて、遺伝子をコードしていると考えられるコード領域(CDS)に該当する領域をいう。コード領域を同定すると、その長さが同定されるところ、その長さが例えば、一定程度の長さ(例えば、1000bp)以上のものは、品質評価の指標にしうる。本明細書では、代表的に1000bp以上のものの割合を、核酸のライブラリーの指標とすることができると考えられる。そして、この1000bp以上の長さを持つコード領域の数を、コード領域の総数で除した割合は、本開示において、核酸のライブラリーの品質や精度の指標として利用することができ、従来技術では、3%未満程度しか達成できなかった。本開示では、これを3%以上、好ましくは、5%以上、10%以上、15%以上、20%以上もの高い割合で達成することができるようになった。
 一つの実施形態として、本開示の核酸のライブラリー作製方法がメタゲノムライブラリーを対象とする場合の一態様(図1(C))を、従来の手法であるショットガンメタゲノム法(図1(A))、ミニメタゲノム法(図1(B))と比較する形で図1に示すが、本開示のメタゲノムライブラリーの作製方法は当該方法(図1(C))に限定されない。この例示的な実施形態では、図1(C)の[a]~[e]に示すように、本開示のメタゲノム等の核酸のライブラリーの作製方法は、各小区画に微生物等の細胞又は細胞様構造物を所望の数、収容する工程(図1(C)[a])、当該細胞又は細胞様構造物を溶菌する工程(図1(C)[b])、必要に応じて溶菌させた細胞又は細胞様構造物からゲノムDNA等の核酸分子を抽出する工程(図1(C)[c])、核酸分子を増幅する工程(図1(C)[d])及び増幅した核酸分子を含む1又は複数個の小区画を大区画に収容する工程(図1の[e])を、包含し得る。
 本明細書において「微生物」とは、ウイルス、細菌、真菌、原生生物、微細藻類、動植物細胞等の少なくとも一種の生物を意味するが、それらに限定されない。動植物細胞なども個体としては大きく微生物と解されない場合であっても、個々の細胞に別々に取り扱う場合は、本開示における微生物の概念に入ることが理解される。細菌としては、真正細菌や古細菌が挙げられる。スタフィロコッカス(Staphylococcus)属、ストレプトコッカス(Streptococcus)属、エンテロコッカス(Enterococcus)属、ミクロコッカス(Micrococcus)属、バチルス(Bacillus)属、ロイコノストック(Leuconostoc)属等に属するグラム陽性細菌、又はアセトバクター(Acetobacter)属、グルコノバクター(Gluconobacter)属、グルコナセトバクター(Gluconacetobacter)属、シュードモナス(Pseudomonas)属、アシネトバクター(Acinetobacter)属、エシェリヒア(Escherichia)属等に属するグラム陰性細菌等の真正細菌や、アシディアヌス(Acidianus)属、メタロスファエラ(Metallosphaera)属、スティジオロバス(Stygiolobus)属、スルフォロバス(Sulfolobus)属、スルフロコッカス(Sulfurococcus)属、スルフリスファエラ(Sulfurisphaera)属、アエロパイラム(Aeropyrum)属、デスルフロコッカス(Desulfurococcus)属、ステッテリア(Stetteria)属、スタフィロサーマス(Staphylothermus)属、サーモディスカス(Thermodiscus)属、イグネオコッカス(Igneococcus)属、サーモスファエラ(Thermosphaera)属、スルフォフォボコッカス(Sulfophobococcus)属、ハイパーサーマス(Hyperthermus)属、パイロディクティウム(Pyrodictium)属、パイロロバス(Pyrolobus)属、パイロバキュラム(Pyrobaculum)属、サーモプロテウス(Thermoproteus)属、サーモフィラム(Thermofilum)属、カルドコッカス(Caldococcus)属、、アーキオグロブス(Archaeoglobus)属、フェログロブス(Ferroglobus)属、メタノサーマス(Methanothermus)属、メタノバクテリウム(Methanobacterium)属、メタノサーモバクター(Methanothermobacter)属、メタノスファエラ(Methanosphaera)属、メタノコッカス(Methanococcus)属、メタノサーモコッカス(Methanothermococcus)属、メタノカルドコッカス(Methanocaldococcus)属、メタノイグニス(Methanoignis)属、メタノザルチナ(Methanosarcina)属、パイロコッカス(Pyrococcus)属、サーモコッカス(Thermococcus)属、サーモプラズマ(Thermoplasma)属、ピクロフィラス(Picrophilus)属等に属する古細菌が挙げられる。また、それらのうちの複数が混在する試料において、細胞毎の網羅的な解析を行うことができる。
  本明細書において、真菌としては、子嚢菌類(Ascomycota)、変形菌類(Myxomycota)、藻菌類(Phycomycetes)、担子菌類(Basidiomycota)、不完全菌類(Fungi Imperfecti)が挙げられ、子嚢菌類としては、サッカロマイセス(Saccharomyces)属、クルヴェロマイセス(Kluyveromyces)属、キャンディダ(Candida)属、ピキア(Pichia)属、シゾサッカロマイセス(Shizosaccharomyces)等に属する酵母が挙げられる。
 (好ましい実施形態)
 以下に好ましい実施形態の説明を記載するが、この実施形態は本開示の例示であり、本開示の範囲はそのような好ましい実施形態に限定されないことが理解されるべきである。当業者はまた、以下のような好ましい実施例を参考にして、本開示の範囲内にある改変、変更などを容易に行うことができることが理解されるべきである。従って、当業者は、本明細書中の記載を参酌して、本開示の範囲内で適宜改変を行うことができることは明らかである。また、本開示の以下の実施形態は単独でも使用されあるいはそれらを組み合わせて使用することができることが理解される。
 (核酸のライブラリーおよびその作製方法)
 一つの局面において、本開示は、1小区画中に、1個以上の核酸分子を含み、前記小区画を1又は複数区画含む大区画を含む、核酸のライブラリーを提供する。本開示のこの局面では、使用される小区画に用いられる境界は、代表的には、核酸増幅に必要な試薬は通過させ、核酸増幅の対象は通過させないもの(例えば、半透膜)であるため、通常、境界の内外の物質のやり取りについては、核酸増幅に必要な試薬のみが通過されるため、小区画からは、通常の状態において、核酸の対象が保持され、他方で、核酸増幅に必要な試薬(例えば、ポリメラーゼ、緩衝成分、プライマー(核酸ポリマーのうち一定程度の分子量以下のものである)、ポリメラーゼ酵素活性の発揮のための成分等を含む)は外的に添加しうる。それゆえ、この態様では、本開示の小区画では、含まれている細胞又は細胞様構造物に由来する核酸を効率よく増幅することができる。
 好ましい実施形態では、本開示の小区画は、細胞又は細胞様構造物を溶解する手段(薬剤)または条件(加熱、せん断等)によって実質的に破壊されない構造であることが有利である。
 また別の好ましい実施形態では、小区画は、対象が核酸分子の場合、その核酸分子が均質に増幅できる条件を提供することができることが有利である。理論に束縛されることを望まないが、均質に増幅を許容する条件により、対象となる増幅対象となる核酸分子(代表的には、ゲノム核酸分子)が万遍なく増幅されることができ、対象核酸の実質的にすべての配列情報を網羅的に入手することができる。この場合、増幅された核酸配列(例えば、ゲノム配列)が複数種類(例えば、10種類程度)あっても、互いに識別できるため、ゲノム情報などの配列情報を高精度に復元することができ、従来にはない利用価値がある。
 本開示の特定の実施形態では、その場合、取得された塩基配列がどの大区画由来の配列であるかを確定するため、大区画ごとに固有のバーコード配列(核酸バーコードともいう)に対応する配列が書く核酸分子に含まれていてもよい。核酸分子に含まれるバーコード配列の長さは、4~12塩基、好ましくは6~10塩基、最も好ましくは8~10塩基であり 得る。核酸バーコードは2種類以上の組合せで使用しても良く、その組み合わせにより、例えば、例えば、大区画が384あるのプレートを8枚同時並列的に使用する場合(合計3,072大区画)であっても、大区画ごとに配列異なる3,072種類の核酸バーコードを用いることで各大区画を区別することが可能である。準備するバーコード配列の種類または組合せをさらに増やせば、さらにそれ以上の大区画を用いた超並列処理が対応可能になる。なお、大区画の位置を特定するための核酸バーコード配列を添加する際、どの配列の核酸バーコード分子をどの位置のウェルに添加したのかを把握することが重要であり、そのような情報は別途格納し記録することもできる。
 また、別の好ましい実施形態では、小区画に含まれるライブラリーに含まれる核酸は、実質的に、所定の長さ以上の核酸のものを含むように構成されてもよい。ここで、所定の長さは、ゲノム配列を分析するために網羅的であるために最低限の長さでよい。また、実質的に、とは、所定の長さ以上のものが存在することにより、ゲノム等の核酸配列の解析が実現でき、当該核酸分析を阻害しないものであれば少量短いものが混在しても、許容されることを意味する。所定の長さ以上の核酸のものを含むように構成するためには、所定の長さ以上に増幅された核酸を生成し、それらを選択することによって達成することができる。このような所定の長さ以上核酸とするためには、例えば、小区画がゲル化液滴の場合、核酸増幅後のゲル化液滴を、例えば、リン酸緩衝化生理食塩水(PBS)を洗浄液として遠心洗浄した後、例えば蛍光色素(例えば、SYBRグリーン(5760A、TaKaRa社)、Evagreen(31000、コスモ・バイオ社))によるDNAインターカレーターで染色し、フローサイトメーターによる観察などを行うことによって、所定以上に増幅されたゲノムDNAを内包するゲル化液滴を選別し、マイクロプレート(例えば、HSP3801,BioRad社)の各ウェル(大区画)に所定数、、当該ゲル化液滴(小区画)を収容することにより行うことができる。
 1つの実施形態では、本開示のライブラリーにおいては、前記大区画は前記小区画を2以上含む。小区画が大区画に複数含まれていても、その後の核酸配列の分析に予想外に支障がなかった。他方で、本開示では、小区画があることで、個別に中に存在する細胞又は細胞様構造物またはそこに由来する核酸を個別に増幅することができ、必要に応じてバーコード配列を含ませるように増幅させることができる。
 別の実施形態では、本開示のライブラリーでは、1小区画中に含まれる核酸分子は、1個以上の細胞又は細胞様構造物由来の核酸分子及び/又は前記核酸分子を鋳型とした増幅により得られた増幅産物を含む。1小区画中に含まれる細胞又は細胞様構造物は2個以上であり得、この場合2個以上の細胞又は細胞様構造物は、同種であっても異なる種であってもよく、n個(nは正の整数)の細胞又は細胞様構造物が存在する場合、異なる種類の場合は、2~n種類の細胞又は細胞様構造物が存在しうることになる。
 特定の実施形態では、本開示の核酸のライブラリーはメタゲノムのライブラリーを含む。
 一つの実施形態では、小区画に含まれる核酸または増幅産物は、細胞又は細胞様構造物由来のゲノムDNA及び/又はゲノムDNAを鋳型として増幅により得られた増幅産物を含む。
 一つの実施形態では、大区画は前記小区画を、有利には2以上、好ましくは、3以上、4以上、5以上、10以上、20以上等、通常2~300、好ましくは、2~50、5~15、8~12、約10含むことができるがこれに限定されない。
 一つの実施形態では、核酸分子が由来する1個以上の細胞又は細胞様構造物は2種類以上の細胞又は細胞様構造物を含む。2種類以上の細胞又は細胞様構造物を含む場合には、メタゲノムを構成する場合も包含される。
 一つの実施形態では、小区画はゲル化液滴、液滴又は被覆液滴であることが有利である。理論に束縛されることを望まないが、ゲル化液滴、液滴又は被覆液滴はいずれも、核酸増幅に必要な試薬は通過させ、核酸増幅の対象は通過させないものであるため、通常、境界の内外の物質のやり取りについては、核酸増幅に必要な試薬のみが通過され、小区画からは、通常の状態において、核酸の対象が保持され、他方で、核酸増幅に必要な試薬(例えば、ポリメラーゼ、緩衝成分、プライマー(核酸ポリマーのうち一定程度の分子量以下のものである)、ポリメラーゼ酵素活性の発揮のための成分等を含む)は外的に添加しうる。それゆえ、含まれている細胞又は細胞様構造物に由来する核酸を効率よく増幅することができる。好ましい実施形態では、ゲル化液滴、液滴又は被覆液滴は、細胞又は細胞様構造物を溶解する手段(薬剤)または条件(加熱、せん断等)によって実質的に破壊されない構造であることが有利である。また別の好ましい実施形態では、ゲル化液滴、液滴又は被覆液滴は、対象が核酸分子の場合、その核酸分子が均質に増幅できる条件を提供することができるため好適に用いられる。
 一つの実施形態では、ゲル化液滴は、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲル、並びにこれらの組み合わせで構成されていてもよい。
 一つの実施形態では、増幅において、ゲルカプセルまたはゲル化液滴等の小区画内でゲル状態を保ちながら増幅される。この場合できたライブラリーの中では、その後の核酸配列の分析に適切な状態の核酸分子が提供され得る。
 小区画がゲル化液滴の場合、液滴は、直径約1~250μmであることが好ましい。核酸のライブラリーとして安定に提供することができるからである。一つの実施形態において、ゲル化液滴またはゲルカプセルを形成する場合の直径は、約1~250μm、より好ましくは約10~200μmであってよく、例えば、約1μm、約5μm、約10μm、約15μm、約20μm、約25μm、約30μm、約40μm、約50μm、約80μm、約100μm、約150μm、約200μm、または約250μmであってよい。ゲルカプセルまたはゲル化液滴の直径は、作製する液滴と同じであってもよいが、ゲル化に際して直径が変化してもよい。
 一つの実施形態では、大区画が、マイクロプレートのウェル形成部又はマイクロチューブである。ウェル(形成部)の場合、これらを含めたマルチウェルプレートという形態で提供されることができ、効率よくその後の処理(例えば、シーケンシングの前処理等)を行うことができる。
 一つの実施形態では、本開示では、核酸のライブラリーを複数個含む核酸のライブラリーの組み合わせを提供することができる。
 一つの好ましい実施形態では、本開示では、核酸のライブラリーは、その完全長遺伝子配列含有率が、10%以上、15%以上、20%以上、25%以上、30%以上、35%以上、40%以上、45%以上、50%以上であるものが提供される。完全長遺伝子配列含有率がこのような高い核酸のライブラリーは、従来技術では提供されておらず、本開示は、非常に高品質のライブラリーを提供し、その後の塩基配列分析、アミノ酸配列分析、遺伝子コード配列の分析などで高品質のデータを、より精度高く、網羅率も高いものを提供することができる。
 一つの好ましい実施形態では、本開示では、コード領域の長さが1000bp以上の割合が、3%以上、好ましくは、5%以上、10%以上、15%以上、20%以上であるものが提供される。コード領域の長さが1000bp以上の割合がこのような高い核酸のライブラリーは、従来技術では提供されておらず、本開示は、非常に高品質のライブラリーを提供し、その後の塩基配列分析、アミノ酸配列分析、遺伝子コード配列の分析などで高品質のデータを、より精度高く、網羅率も高いものを提供することができる。
 ある局面において、本開示は、核酸のライブラリーの作製方法であって、以下の工程:2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、及び 前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、、塩基配列決定に供する容器に収容する工程、を含む、核酸ライブラリーの作製方法を提供する。
 一つの実施形態では、使用される細胞又は細胞様構造物は懸濁液の状態で提供されるがこれに限定されない。理論に束縛されることを望まないが、懸濁物であることにより、ピペット操作が容易となり、目的液量を吸い取りマイクロチューブ等への移動が容易となる利点があるが、これに限定されない。
 一つの実施形態では、増幅の際 小区画に含まれる細胞又は細胞様構造物が溶解された後、前記細胞又は細胞様構造物中のゲノムを含む核酸が当該小区画内に溶出し、当該小区画内に保持されるように操作されることが好ましい。理論に束縛されることを望まないが、この状態で保持されることで、その後の核酸増幅が効率よく実施することができるからである。
 一つの実施形態では、増幅産物を得る工程において、前記大区画に固有のバーコード配列を前記核酸に付加することを含むことが有利である。
 さらなる実施形態では、増幅産物を含む小区画を含む前記大区画を1個又は複数個、、塩基配列決定に供する容器に収容する工程では、このような容器に複数の大区画、好ましくはすべての大区画を収容して、その後の塩基配列の決定を行うことができる。この場合、大区画に固有のバーコード配列を前記核酸に付加することで、増幅された配列が大区画に固有の識別を可能にするバーコード配列が含まれ、その後塩基配列を決定したときに、その配列が、どの大区画に由来するか一義的に決定することができるからである。例えば、複数の大区画、好ましい場合はすべての大区画を「まとめる」(同一容器に大区画の内容物を合わせること)ことも可能であり、これにより塩基配列の決定がより効率よくじっしすることができる。
 より好ましい実施形態では、本開示における増幅産物を含む小区画を含む前記大区画を1個又は複数個、、塩基配列決定に供する容器に収容する工程において、所定の長さ以上に増幅された核酸以外を除くことが有利である。この結果、含まれる核酸分子は、実質的に所定の長さ以上のものとなり、その後の核酸配列の分析が効率よく行われるからである。所定の長さとしては、30kb以上などであることが有利であるが限定されない。このような一定の長さの核酸を除くことは、例えば、フローサイトメーター (BD FACSMelody セルソーター, BD Biosciences社)により所定以上に増幅したゲノムDNAを保持するゲルカプセルまたはゲル化液滴を選別することで、達成することができる。
 一つの実施形態では、2つ以上の細胞又は細胞様構造物を含む試料が、単一の試料である。
 別の実施形態では、2つ以上の細胞又は細胞様構造物を含む試料が、土壌(海底土壌を含む)、海水、河川水、湖沼水、糞便、唾液、皮膚、喀痰、汚泥(活性汚泥を含む)、産業排水、動植物由来の組織及び手術洗浄液などであり得る。
 1大区画に収容する小区画の数が、2以上であることが好ましく、より好ましくは、3以上、4以上、5以上、10以上、20以上等であってもよい。例えば、5~15、通常2~300、好ましくは、2~50、5~15、8~12、約10であってもよい。
 一つの実施形態では、試料1gに含まれる細胞又は細胞様構造物は、100万個以上、例えば、500万個以上、1000万個以上、3000万個以上、5000万個以上、1億個以上、5億個以上、10億個以上含まれていてもよいがこれに限定されない。細胞の個数は写真などの画像で判断してもよく、顕微鏡を通して肉眼で確認してもよい。
 一つの実施形態では、細胞又は細胞様構造物は、2種類以上、例えば、1万種種類以上、3万種類以上、5万種類以上、10万種類以上、20万種類以上、50万種類以上、100万種類以上含まれていてもよい。細胞の種類は、例えば、16S rRNA遺伝子を用いた系統解析による同定結果の解釈によって分類することができる。
 一つの実施形態では、1個以上若しくは1種類以上が、1~3個若しくは1~3種類である。理論に束縛されることを望まないが、1~3種類であることで、同一の操作で最終的に得られる遺伝子数の増加が期待できるからであるが、これに限定されない。
 別の実施形態では、1個以上若しくは1種類以上が、2~3個若しくは2~3種類である。理論に束縛されることを望まないが、2~3種類であることで、同一の操作で最終的に得られる遺伝子数の増加が期待できるからであるが、これに限定されない。
 本開示の方法では、小区画を生成する工程は、前記細胞又は細胞様構造物懸濁液中にゲル化能を有する成分を予め含有させた上で、当該ゲル化能を有する細胞又は細胞様構造物懸濁液をマイクロ流路中に流動させ、オイルで該懸濁液をせん断することにより行われてもよい。理論の束縛されることを望まないが、この場合、効率よく、細胞又は細胞様構造物が小区画に配置されることができるからである。
 (分析方法)
 一つの局面において、本開示は、細胞又は細胞様構造物中の核酸配列の分析方法であって、以下の工程:2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基に供する容器に収容する工程、前記増幅産物の塩基配列を決定する工程、及び 前記工程で得られた塩基配列を分析する工程、必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程、必要に応じて遺伝子をコードする領域を分析する工程を包含する、細胞又は細胞様構造物中の核酸配列の分析方法を提供する。好ましい実施形態では、大区画はすべて前記容器に収容されてもよい。一回ですべての配列決定を行うことができるからである。
 本開示において、2つ以上の細胞又は細胞様構造物を提供する工程は、どのようになされてもよい。細胞の供給源から入手してもよく、市販されているものを用いてもよい。
 本開示において、細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程は、本明細書において記載されるように、細胞又は細胞様構造物を、図1(C)[a]に例示されるように、細菌等の微生物等の細胞又は細胞様構造物を含むサンプルから細胞又は細胞様構造物を分離し、当該細胞又は細胞様構造物を所望の数だけ各小区画中に収容することにより実現される
 本開示において、細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程は、1個の細胞又は細胞様構造物が封入された液滴等の小企画を1種以上の溶解用試薬に浸漬して前記細胞又は細胞様構造物の細胞隔壁を溶解させてもよい。この結果、ゲノムDNAを含む細胞内容物を外部に放出させることができる。
 一つの実施形態において、核酸を核酸増幅用試薬に接触させて核酸を小区画内で増幅して増幅産物を得る工程は、増幅用試薬を、核酸が小区画に含まれている状態で加えることによって達成される。増幅用試薬は、検出対象DNAに対するプライマー、蛍光物質等のラベル、酵素(耐熱性DNAポリメラーゼ)、dNTP等を含み、核酸増幅用に用いられる試薬を含む。「蛍光標識」とは、増幅された核酸(標的DNAの増幅物)に結合等させることにより、当該増幅物が有する標識で、励起光により蛍光を発する標識、所謂蛍光物質をいう。 増幅方法の代表的な例であるPCRは、(1)熱処理によるDNA変性(2本鎖DNAから1本鎖DNAへの解離)、(2)鋳型1本鎖DNAへのプライマーのアニーリング、(3)DNAポリメラーゼを用いた前記プライマーの伸長、という3ステップを1サイクルとし、このサイクルを繰り返すことによって、試料中の標的核酸を増幅する方法である。アニーリングと伸長を同温度で、2ステップで行う場合もある。
 蛍光物質としては、例えば、アニーリングの段階(ステップ)で、蛍光色素とクエンチャー(消光物質)を結合したDNAプローブを鋳型DNAに結合させ、伸長(反応)の段階でこのDNAプローブが切断し、クエンチャーによって抑制されていた蛍光色素からの蛍光を検出する方法(プローブ法)で用いる蛍光物質(蛍光色素及び消光物質)がある。その他、二本鎖DNAの鎖間に入り込み蛍光を発する色素を用いる方法(インターカレーター法)等で用いる色素(蛍光色素)がある。「蛍光標識」とは、増幅された核酸(標的DNAの増幅物)に結合等させることにより、当該増幅物が有する標識で、励起光により蛍光を発する標識、所謂蛍光物質をいう。 蛍光物質としては、例えば、アニーリングの段階(ステップ)で、蛍光色素とクエンチャー(消光物質)を結合したDNAプローブを鋳型DNAに結合させ、伸長(反応)の段階でこのDNAプローブが切断し、クエンチャーによって抑制されていた蛍光色素からの蛍光を検出する方法(プローブ法)で用いる蛍光物質(蛍光色素及び消光物質)がある。その他、二本鎖DNAの鎖間に入り込み蛍光を発する色素を用いる方法(インターカレーター法)等で用いる色素(蛍光色素)がある。
 一つの実施形態において、必要に応じて実施される、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基シーケンシングに供する容器に収容する工程は、小区画を含む大区画を吸引して当該容器に配置するなどの通常の方法によって実現することができる。
 別の実施形態において、増幅産物の塩基配列を決定する工程は、当該分野で用いられる通常の公知の方法を用いて実施することができ、例えば、次世代シーケンサ(NGS)を用いることができる。次世代シーケンサーにて、複数検体由来の増幅産物の混合物を供するためには、配列決定を行いたい核酸断片の両末端に、検体を識別するためのバーコード配列を含む特定の人工核酸配列が付加されていなくてはならず、そのための核酸増幅反応ステップが、標的とする核酸配列を増幅するステップに加えて行うことが通常である。
 得られた塩基配列を分析する工程は、塩基配列の種々の側面を測定することができ、構造遺伝子をコードする領域の分析、塩基配列がコードするアミノ酸配列を分析する工程、および遺伝子をコードする領域を分析することなどによって実施することができる。
 一つの実施形態では、必要に応じて複数個の大区画中の小区画を一つにまとめる工程、を包含してもよい。この工程では、複数個の小区画(例えば、液滴)が一つの試料として混合され、その後の分析(例えば、シーケンシング)などに供され得ることができ、その後の遺伝子配列の取得などで効率よく分析を進めることができるからである。
 一つの実施形態では、増幅産物を得る工程において、前記大区画に固有のバーコード配列を前記核酸に付加することを含み得る。これにより、付加されたバーコード配列を手掛かりに、増幅された配列が、どのウェル由来化を特定することができる。
 本開示において、「まとめる」ことは、例えば、前記増幅産物を含む区画(小区画または大区画であり得る)を、より少数の、好ましくは1つの区画(例えば、小区画をまとめる場合は大区画であってもよく、小区画または大区画の場合は、大区画ではない他の容器(例えば、塩基配列を決定に供するための容器)に合わせることを含む。まとめられる区画は、小区画または大区画と同じであってもよく、それとは異なるものであってもよい。
 一つの実施形態では、増幅産物を得る工程または対応する増幅用試薬収納部では、前記大区画に固有のバーコード配列を前記核酸に付加すること、またはバーコード配列を付加するための試薬を含む。理論に束縛されることを望まないが、これにより、混合した後で、同時または異時に配列決定した際に、どの大区画由来化を特定でき、超並列な情報収集が可能となるからである。
 好ましい実施形態では、本開示は、増幅産物を含む小区画を、より少数の区画に合わせることを含む、より好ましくは、増幅産物を含む小区画を、1つの区画に合わせることを含む。
 好ましい実施形態では、本開示は、複数の大区画を、好ましくは全部の大区画を一つの容器に収容ことを含む。
 さらに好ましくは、増幅産物について、所定の長さ以上に増幅された核酸のみを選別することをさらに包含する。これにより、網羅的な配列決定の効率を上げることができるからである。
 好ましい実施形態では、遺伝子をコードする領域を分析する工程または対応する分析部では、完全長遺伝子配列率を算出することを含む。このような完全長遺伝子配列率については、従来ライブラリの品質評価項目としては取り上げられておらず、本開示によって、より長い網羅的な配列決定が可能となったことによって、有意義な評価項目となることが判明したものである。
 好ましい実施形態では、増幅産物の塩基配列の決定は同時並列的になされる。好ましい実施形態では、同時並行の対象となる1又は複数個が、96以上、192以上、384以上、768以上、1536以上、3072以上等であってもよい。好ましい実施形態では、塩基配列の決定が、次世代シーケンサーを用いて実施されてもよい。
 一つの実施形態では、本開示は、メタゲノムの分析方法であって、以下の工程:前記メタゲノムを構成する2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、前記小区画中の増幅産物の塩基配列を決定する工程、前記工程で得られた塩基配列を分析し、メタゲノムの核酸配列情報を取得する工程、必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程、および必要に応じて遺伝子をコードする領域を分析する工程を包含する、方法を提供する。このようなメタゲノムの分析方法では、対象をメタゲノムとすることのほか、本明細書において記載される任意の好ましい実施形態の組み合わせを採用することができる。これによって、メタゲノムが多様なサンプルでより高効率に収集することができるようになった。
 別の実施形態では、本開示では、増幅産物について、所定の長さ以上に増幅された核酸のみを選別することをさらに包含する。このような手法の代表的な例としては、メタゲノムの解析に使用することができる例などがある。
 別の好ましい実施形態では、本開示は、メタゲノムの分析方法であって、以下の工程:前記メタゲノムを構成する2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基シーケンシングに供する容器に収容する工程、前記小区画中の増幅産物の塩基配列を決定する工程、及び前記工程で得られた塩基配列を分析し、メタゲノムの核酸配列情報を取得する工程、必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程、必要に応じて遺伝子をコードする領域を分析する工程を包含する、方法を提供する。この分析方法では、(核酸のライブラリーおよびその作製方法)に記載される任意の特徴を適宜組み合わせて使用することができる。
 一つの実施形態では、本開示の分析方法は、一つにまとめた大区画中の小区画中の増幅産物の塩基配列を同時並列的に決定する工程、及び 前記工程で得られた塩基配列を、コンピューターを用いて解析し、タンパク質をコードする領域を推定することにより、遺伝子を取得する工程、を含む。
 特定の実施形態では、複数個が、96以上、384以上、768以上、1,152以上、1,536以上、1,920以上、2,304以上、2,688以上及び3,072以上などであってもよい。
 別の局面は、本開示は細胞又は細胞様構造物中の核酸配列の分析システムであって、以下:前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する小区画生成部、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する核酸溶解部、前記核酸に接触させて前記核酸を前記小区画内で増幅して増幅産物を得るために用いられる核酸増幅用試薬を収容する増幅用試薬収納部、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個収容する収容部、前記小区画中の増幅産物の塩基配列を決定する塩基シーケンシング部、及び塩基配列を分析する塩基配列分析部、必要に応じて前記塩基配列がコードするアミノ酸配列を分析するアミノ酸配列分析部、必要に応じて遺伝子をコードする領域を分析するコード領域分析部、を包含する、細胞又は細胞様構造物中の核酸配列の分析システムを提供する。この分析システムは、(核酸のライブラリーおよびその作製方法)に記載される任意の特徴を適宜組み合わせて使用することができる。
 一つの実施形態では、本開示のシステムに含まれる、細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する小区画生成部は、小区画を製造するためのシステムがふくまれれば、どのようなものであってもよい。例えば、ゲル化液滴、液滴又は被覆液滴を製造するためのデバイスや手段であってもよい。液滴中に微生物細胞を封入することにより行うことができる。例えば、マイクロ液滴の場合、マイクロ流路が例示され、微生物細胞の懸濁液をマイクロ流路中に流動させ、懸濁液をせん断することにより、所望の数の細胞を収容したマイクロ液滴を作製することができるように構成される。せん断は、一定間隔で行い得る。懸濁液のせん断は、オイルを用いて行うことができる。オイルとしては、例えば、鉱物油(例えば、ライトミネラルオイル)、植物油、シリコーンオイル、フッ素化オイルを用いることができるため、このようなせん断を実施するための手段が備えられていてもよい。
 細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する核酸溶解部は、小区画を加熱などの核酸が前記小区画内に溶出し、かつ、保持されるの条件を提供できるものであればどのような手段であってもよい。
 核酸に接触させて前記核酸を前記小区画内で増幅して増幅産物を得るために用いられる核酸増幅用試薬を収容する増幅用試薬収納部は増幅用試薬が 収納できる限りどのようなものであってもよい。
 一つの実施形態では、増幅産物を含む小区画を含む前記大区画を1個又は複数個収容する収容部は、小区画を吸引などして集め、大区画に移動できる構造のものであれば、例えばピペットのようなものであってもよい。
 一つの実施形態では、小区画中の増幅産物の塩基配列を決定する塩基配列決定部は、配列決定できるものであればどのようなものであってもよく、次世代シーケンサ(NGS)などであってもよい。
 塩基配列を分析する塩基配列分析部は、読み取った塩基配列を分析できるのであればどのようなものであってもよいが、塩基配列を入力され、コンピュータなどで分析できるものであればどのようなものであってもよい。
 塩基配列がコードするアミノ酸配列を分析するアミノ酸配列分析部は、アミノ酸配列をコンピュータなどで分析できるものであればどのようなものであってもよい。
 遺伝子をコードする領域を分析するコード領域分析部は、核酸配列を分析し、構造遺伝子に該当するものを分析できるものであるかぎり、コンピュータなどで分析できるものであればどのようなものであってもよい。
 塩基配列、アミノ酸配列、遺伝子をコードする領域の分析処理などは、読み取った塩基配列断片をつなぎあわせる処理に用いるツールのSPAdesや、遺伝子をコードする領域を推定するツールのProkkaを用いい、必要に応じて塩基配列又はアミノ酸配列データベースなどを参照して行うことができるがこれらに限定されず、これら以外の任意のアプリケーションなども利用しうる。塩基配列、アミノ酸配列、遺伝子を各々の分析する分析部は同じ分析部であってもよく、例えば、これらの2つまたは3つまたはそれ以上の機能を分析することができるものであってもよい。
 本開示の方法およびシステムは、これを実現するためのコンピュータプログラムとともに提供されてもよく、本開示はこのようなプログラムも提供する。
 一つの実施形態において、増幅産物の塩基配列の決定は、同時並列的になされる。このような方法は、一つにまとめた大区画中の小区画中の増幅産物の塩基配列を行うことで実現することができる。この場合バーコード配列が含まれているため、同時並列的に配列決定を行うことができ、超並列処理が達成される。
 別の局面において、本開示は、核酸分子の保存方法であって、本明細書に記載の核酸のライブラリーの作製方法の最終工程の後に、さらに、小区画が収容された大区画を、そのまま又はDNA分解を抑制する物質を添加後、室温以下で保存する工程を含むことを特徴とする、核酸分子の保存方法を提供しうる。
 本開示における核酸分子は、微生物のものである。
 一つの実施形態では、本開示の保存方法では、室温以下が、4℃以下であり、好ましくは、-20℃以下であり、さらに好ましくは-80℃以下でありえる。
 一つの実施形態において、本開示では、上記の工程で得られた微生物叢等の試料から、細菌等の細胞を分離し、各区画に所望の数、細胞を収容する方法として、(1)マイクロ流路を用いる方法、(2)細胞に蛍光標識を行った上でフローサイトメーター(FACS;fluorescence activated cell sorter)で収容する方法、(3)顕微鏡観察下で微生物細胞を微細操作することができるマイクロマニュピュレーターを用いる方法、(4)確率的にシングルセルを獲得する限界希釈法などが挙げられるが、それらに限定されない。
 また微生物叢等の試料から所望の数の細胞を各小区画に収容する際に、細胞を懸濁する媒体として、生理食塩水の他、塩、栄養素や他の成分等を含む緩衝液を用いることができる。例えば、小区画として液滴が採用される場合、液滴生成に適した成分であればどのような成分を使用してもよい。例えば、そのような緩衝液として、PBS、Tris-HCl、TE、HEPESなどが挙げられ、それ以外に、滅菌水、海水、人工海水、各種液体培地等を挙げることができるがこれらに限定されない。液滴を生成するためには、界面活性剤を含まない水又はバッファーなどの媒体が好ましい場合がある。
 以下では、マイクロ流路を用い、例えば、シングルセルの封入されたマイクロ液滴を作製する方法を図5(a)を用いて説明し、ダブルセルの封入されたマイクロ液滴を作製する方法を図5(b)を用いて説明する。ここで、「マイクロ液滴(マイクロドロップレットともいう)」とは、シリコンやガラス製の基盤上にマイクロメートルサイズの微小な流路や反応容器を形成した小型のデバイス上で液体試薬の混合・分離・検出を行うマイクロフルイディクス(microfluidics)技術を用いて作製される、容量がナノリットル(10-9L)~ピコリットル(10-12L)以下の非常に小さな液滴(ドロップレット)のことを意味する。
 1小区画当たり1個又は2個、細胞を小区画に収容する工程は、液滴中に細胞を1個又は2個、封入することにより行うことができる。例えば、マイクロ液滴の作製を、マイクロ流路を用いて行う場合、細胞の懸濁液をマイクロ流路中に流動させ、懸濁液をせん断することにより、1個又は2個、細胞を収容したマイクロ液滴を作製することができる。せん断は、一定間隔で行い得る。懸濁液のせん断は、オイルを用いて行うことができる。オイルとしては、例えば、鉱物油(例えば、ライトミネラルオイル)、植物油、シリコーンオイル、フッ素化オイルを用いることができる。
 ここで、懸濁液の細胞濃度を調整することで、液滴1個当たりに封入される微生物細胞の数を調節することができる。1マイクロリットルあたり7万液滴生成する条件の場合、懸濁液の細胞濃度を7,000~14,000細胞/μLとすることで、計算上0.1~0.2細胞/液滴となり、実際に細胞が封入された液滴のうち、90%以上が1細胞となるようにすることができる。同様に懸濁液の細胞濃度を計算上2細胞/液滴に調製することで、細胞が封入された液滴のうち、31%以上が2細胞となるようにすることができる。また、懸濁液の細胞濃度を計算上3細胞/液滴に調整することでとすることで、細胞が封入された液滴のうち、23%以上が3細胞となるようにすることができる。
 液滴の直径は、約1~250μm、より好ましくは約10~200μm、最も好ましくは約20~60μmであり得、例えば、液滴の直径は、約1μm、約5μm、約10μm、約15μm、約20μm、約30μm、約40μm、約50μm、約60μm、約70μm、約80μm、約90μm、約100μm、約150μm、約200μm又は約250μmであり得る。
 本開示のメタゲノムライブラリーの作製方法は、小区画としてゲル化液滴を採用する場合、上記の液滴を生成後、ゲル化してゲル化液滴を生成する工程を包含し得る。液滴のゲル化は、例えば、所定温度まで冷却することでゲル化するゲル化材料が含まれるように液滴を構成した上で、作製した液滴を当該所定温度まで冷却することによって行うことができる。あるいは、光を照射することでゲル化するゲル化材料が含まれるように液滴を構成した上で、作製した液滴に対して光刺激を与えることによってゲル化を行うこともできる。液滴にゲル化液滴の材料が含まれるようにするには、例えば、微生物細胞の懸濁液にゲル化させるための材料(ゲル化材料もいう)を含めておくことによって行うことができる。ゲル化材料としては、アガロース(低融点アガロースを含む)、アクリルアミド、光硬化性樹脂(例えば、PEG-DA)、PEG、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲンなどが挙げられる。ゲル化液滴は、ヒドロゲル化液滴であり得る。本開示において、「ヒドロゲル」とは、高分子物質又はコロイド粒子の網目構造によって保持されている溶媒あるいは分散媒が水であるものを意味する。
 当該技術分野において、通常大量の細胞からまとめてDNAを取り出す場合、フェノール・クロロホルム抽出とエタノール沈殿によってDNAを調製する方法が一般的である。しかし、1~数個の細胞からの遺伝物質の取得・分析を企図する場合、細胞から得られる遺伝物質の量は非常に微量であり、ロスなく核酸のみの状態に変換する必要がある。1~数個の細胞に対しては、一般的なバルクスケールでの手順で核酸精製を試みても、全く核酸が取り出せないか、あるいは、ほとんどの核酸を夾雑物から分離精製する工程で失われてしまう結果になる。しかし、1~数個の細胞又は細胞様構造物を封入したゲル化液滴を用いることによって、精製した遺伝物質(例えば、DNA)をゲル化液滴中に保持することができ、また、外部からの分子の夾雑の可能性を排除することができる。また、操作面でも非常に簡単な操作で、大量の1~数個の細胞を一まとまりとして並列処理することができる。具体的には、1~数個の細胞が封入されたゲル化液滴を含む溶液を遠心し、上清を除去し、洗浄液に置換するという工程を行うことにより夾雑物を除去することができる。あるいは、ゲル化液滴をフィルターでろ過し、上清を除去したのち、洗浄液を通液させ、最後にゲル化液滴を回収するという工程でも行うことができる。ゲル化液滴を用いることにより、遺伝物質を保持したまま、残留試薬等を希薄化することができる。この工程は繰り返すことも可能である。この工程を加えることにより、それ以降の操作、例えば、増幅反応をスムーズに行うことができる。
〔1〕-1 小区画の生成
 本明細書において、各小区画に微生物等の細胞又は細胞様構造物を所望の数、収容する工程は、図1(C)[a]に例示されるように、細菌等の微生物等の細胞又は細胞様構造物を含むサンプルから細胞又は細胞様構造物を分離し、当該細胞又は細胞様構造物を所望の数だけ各小区画中に収容することにより実現される。所望の数とは、1~3個又は2~3個、より好ましくは1~3個、最も好ましくは1個である。以下に、各小区画に微生物を所望の数、収容する工程の具体例を示すが、当該方法に限定されない。まず、細菌等の微生物を含むサンプルから微生物叢を分離する。ここで、「微生物叢」とは、細菌等の微生物を含むサンプル中に含まれる微生物の集合体を意味する。例えば、5gのサンプルを、6mlの生理食塩水、緩衝液、滅菌水等の水溶液に懸濁し、静置することにより夾雑物を沈殿除去後、上清中に存在するする細菌等の微生物を、8,000~10,000×gで遠心分離し、沈殿物を回収することにより微生物叢を得ることができる。ここで得られた微生物叢を含む沈殿物をさらに水溶液に懸濁し、次いで遠心分離、沈殿物回収を数回繰り返すことにより、より夾雑物の少ない微生物叢を得ることができる。微生物叢に含まれる微生物細胞の数は、2個以上の任意の数であり、例えば、10個以上、50個以上、100個以上、500個以上、1000個以上、5000個以上、1万個以上、5万個以上、10万個以上、50万個以上、100万個以上、500万個以上、1000万個以上であり得るがこれらに限定されない。細菌等の微生物を含むサンプルとしては、土壌(海底土壌を含む)、海水、河川水、湖沼水、糞便、唾液、皮膚、喀痰、汚泥(活性汚泥を含む)、産業排水、動植物由来の組織、手術洗浄液等が挙げられるが、それらに限定されない。
〔1〕-2 溶菌
 本開示において、必要に応じて実施される溶菌する工程は、例えば、図1(C)[b]のように、1個の細胞又は細胞様構造物が封入されたゲル化液滴を1種以上の溶解用試薬に浸漬して前記細胞又は細胞様構造物の細胞隔壁を溶解し、ゲノムDNAを含む細胞内容物を外部に放出させることにより実施することができる。本開示において、「細胞隔壁」とは、細胞又は細胞様構造物において、当該細胞又は細胞様構造物の内側と外側とを隔てる境界を構成する膜及び/又は壁を広く包含する意である。細胞又は細胞様構造物が、細菌、古細菌、真菌、動物細胞、植物細胞、ウイルスなどいずれに該当するかにより、当該細胞隔壁の構造は大きく異なる。例えば、細菌の場合、細胞隔壁は、細胞膜と細胞壁から構成され、細胞膜はリン脂質二重層から構成され、細胞膜の外側に存在する細胞壁はペプチドグリカンが主要構成要素となっている。真菌の場合も、細胞隔壁は、細胞膜と細胞壁から構成されるが、細胞膜はリン脂質二重層の他にエルゴステロールが含まれ、細胞壁は細菌とは異なり、グルカン、キチン、マンナンなどが主要構成要素となっている。動物細胞の場合、細胞隔壁は、細胞膜のみからなり当該細胞膜はリン脂質とコレステロールが主要構成要素となっている。このような様々な種類の細胞又は細胞様構造物の細胞隔壁を溶解させるための溶解用試薬としては、酵素、界面活性剤、その他変性剤、還元剤及びpH調節剤を組み合わせて用いることができる。
 より具体的には、溶解用試薬として、リゾチーム、ラビアーゼ、ヤタラーゼ、アクロモペプチダーゼ、プロテアーゼ、ヌクレアーゼ、ザイモリアーゼ、キチナーゼ、リソスタフィン、ムタノライシン、ドデシル硫酸ナトリウム、ラウリル硫酸ナトリウム、水酸化カリウム、水酸化ナトリウム、フェノール、クロロホルム、グアニジン塩酸塩、尿素、2-メルカプトエタノール、ジチオトレイトール、TCEP-HCl、コール酸ナトリウム、デオキシコール酸ナトリウム、Triton X-100、Triton X-114、NP-40、Brij-35、Brij-58、Tween 20、Tween 80、オクチルグルコシド、オクチルチオグルコシド、CHAPS、CHAPSO、ドデシル-β-D-マルトシド、Nonidet P-40、Zwittergent 3-12からなる群から選択される少なくとも1つを含み得る。より好ましくは、溶解用試薬として、リゾチーム、アクロモペプチダーゼ、プロテアーゼ、ドデシル硫酸ナトリウム及び水酸化カリウムからなる群から少なくとも1種選択される場合がある。
 ゲル化液滴の浸漬時間は、用いる溶解用試薬の種類と濃度による異なるが、例えば、50U/μLリゾチーム、1mg/mLプロテアーゼK、0.5%ドデシル硫酸ナトリウム(SDS)0.5%を順次添加してゲル化液滴中の微生物細胞を溶菌する場合、全ての溶解用試薬を添加後、1時間、好ましくは2時間37℃に静置することで溶菌を確実に行うことができる。
 多様な微生物細胞群について、細胞ごとに核酸の増幅又は分析を行う場合、例えば、グラム陽性細菌は厚いペプチドグリカン層を含む細胞壁を有するため、緩和なもののみでは細胞が十分に溶解できない可能性があり、溶解用試薬又は溶解用試薬の組合せとして、ある程度強力なものを用いることが望ましい。
〔1〕-3 核酸抽出
 本開示において、核酸(例えば、DNA)の抽出は、図1(C)[c]のように、前工程により得られた細胞溶解物から必要に応じて細胞隔壁の残骸、ゲノムDNA等の核酸に結合するタンパク質等の夾雑物等、ゲノムDNA等の核酸を構成するポリヌクレオチド以外の物質を除去し、細胞由来のゲノムDNA等の核酸が、精製度の高い状態で、当該区画中に存在する状態を作り出す工程を意味する。この工程により、それ以降の操作、例えば、増幅反応をスムーズに行うことができる。
 前記の溶解工程で用いた溶解用試薬、細胞隔壁の残骸、ゲノムDNA等の核酸に結合するタンパク質等の夾雑物等は、DNA等の核酸増幅等の反応を阻害する可能性があり、以後の工程前にゲル液滴内から十分に除去されていることが好ましい。前記の溶解工程によりゲル化液滴中に溶出したゲノムDNA等の核酸は、ゲル化液滴を各溶液に浸漬した場合でも、ゲル化液滴内に保持されゲル化液滴外に漏出することはない一方、ゲル液滴内に残存する溶解用試薬、細胞隔壁の残骸、ゲノムDNA等の核酸に結合していたタンパク質等の夾雑物はゲル化液滴外へと漏出させることが可能であることから、前記溶解工程後のゲル化液滴を洗浄液に浸漬後、遠心し、上清を除去後、新たな洗浄液に置換するという工程を繰り返すことにより溶解用試薬等の夾雑物を除去することができる。あるいは、ゲル化した液滴をフィルターでろ過し、上清を除去したのち、洗浄液を通液させ、最後にゲル化液滴を回収するという工程でも溶解用試薬等の夾雑物を除去することができる。
 強力な溶解用試薬又は溶解用試薬の組合せを用いることは、多様な細胞(細胞壁を有するものやその他の種類の微生物を含む)の種類を問わず、網羅的な核酸の増幅又はゲノム等の核酸の解析を可能にし得る。ゲノムDNAは細胞中に1分子しか存在しないことが通常であるため、以後の工程において、ゲノムDNAの全領域について漏れのない増幅を企図する場合、完全に細胞の溶解が行われ、ゲノムDNAに結合しているタンパク質類を十分に除去されていることが重要である。これにより、腸内微生物のような数百種以上の微生物からなる検体を対象とした際にも、そのすべてを均質に完全溶解し、その全てから全ゲノム領域を漏れなく増幅を行うことが可能となる。また、それにより、高品質のゲノムライブラリー調製が可能となり、最終的に高品質で高効率な遺伝子配列情報を得ることが可能となる。
〔1〕-4 核酸増幅
 本開示において、核酸増幅は、図1(C)[d]のように、前工程により抽出されたゲノムDNA等の対象となる核酸分子を鋳型として、核酸(例えば、全ゲノムDNA)を増幅する工程を意味する。本工程は大区画中の核酸(例えば、DNA)量が極少量である場合に有用であり、大区画中の核酸(DNA等)量に十分量の場合、省略することも可能である。本工程は、1細胞当たりフェムトグラム(10-15)量と極めて少ない少量のゲノムDNAから、次世代シーケンサーによる配列解析を可能とするのに十分な量のシングルゲノム増幅産物(Single Amplified Genome;SAG)を獲得するためには有益な工程である。核酸を増幅する工程は、全ゲノム増幅法(Whole Genome Amplification;WGA)により行うことができる。
 WGAとしては、MDA(Multiple Displacement Amplification)法、MALBAC(Multiple Annealing and Looping baced Amplification Cycles)法、DOP-PCR(Degenerate Oligonucleotide-Primed PCR)法等が挙げられる。これらの方法のうち、MDA法は、phi29DNAポリメラーゼとランダムプライマーを用いて、30℃の恒温反応条件下でDNA複製反応(恒温鎖置換増幅反応ともいう)を行うものであるが、phi29DNAポリメラーゼによる高精度なDNA複製と鎖置換活性によって、キロベース以上の長鎖DNAを複製することができ、最終的にフェムトグラムレベルのゲノムDNAからナノグラムからマイクログラム量のゲノム増幅産物を得ることができ、本開示におけるゲノムDNAを増幅する工程において好適に用いることができる。
  なお、例えば、小区画としてゲル化液滴を採用した場合、加熱処理を伴う反応はゲル(例えば、アガロースゲル)の再溶解を招く可能性がり、小区画化されたゲル化液滴としての形状を崩壊させ、ゲル化液滴内容物の隔離を無効化してしまう場合がある。そこで、ゲル化液滴内で酵素反応を進行させる場合、ゲル化材料の融解温度に合わせて、当該融解温度以下で酵素反応が進み得る酵素や反応系を用いることが望ましい。例えば、前記MDA法を好適に採用することが可能であり、用い得る酵素としては、例えば、上記のphi29ポリメラーゼ(至適温度:30℃)の他、リコンビナーゼポリメラーゼ(至適温度:37-42℃)、Bstポリメラーゼ(至適温度:60°C~65°C)が挙げられるがそれらに限定されない。
 さらに、本開示においては、増幅産物を含む小区画を1個又は複数個収容した大区画をシーケンシングに供試する段階で、当該大区画を1つの容器にまとめた上でシーケンシングを行い得る。その場合、取得された塩基配列がどの大区画由来の配列であるかを確定するため、本増幅工程の後に、大区画ごとに固有のバーコード配列(核酸バーコードともいう)を付加させることができる。バーコード配列の長さは、4~12塩基、好ましくは6~10塩基、最も好ましくは8~10塩基であり得る。核酸バーコードは2種類以上の組合せで使用しても良く、その組み合わせにより、例えば、例えば、384ウェルのマイクロプレートを8枚同時並列的に使用する場合(合計3,072ウェル)であっても、ウェルごとに配列異なる3,072種類の核酸バーコードを用いることで各ウェルを区別することが可能である。準備するDNAバーコードの種類または組合せをさらに増やせば、さらにそれ以上のウェルを用いた超並列処理が対応可能になる。なお、ウェルの位置を特定するための核酸バーコード分子を添加する際、どの配列の核酸バーコード分子をどの位置のウェルに添加したのかを把握することが重要である。
〔1〕-5 小区画の大区画への収容
 本開示において小区画の大区画への収容は、図1(C)[e]のように、前工程により得られたゲノムDNA増幅断片を含む小区画を大区画に1個又は複数個、収容することにより実現される。大区画としては、前記の通り、マイクロプレートのウェルやマイクロチューブを用いることができる。当該工程は、例えば、小区画がゲル化液滴の場合、前記の核酸増幅後のゲル化液滴を、PBSを洗浄液として遠心洗浄した後、蛍光色素(例えば、SYBRグリーン(5760A、TaKaRa社)、Evagreen(31000、コスモ・バイオ社))によるDNAインターカレーターで染色し、フローサイトメーターにより所定以上に増幅されたゲノムDNAを内包するゲル化液滴を選別し、マイクロプレート(例えば、HSP3801,BioRad社)の各ウェル(大区画)に所定数、、当該ゲル化液滴(小区画)を収容することにより行うことができる。その他、当該工程は、マイクロピペットを用いて、肉眼で計数しつつ、手作業によりゲル化液滴を所定の数だけ大区画としてマイクロチューブに収容することもできる。ゲル化液滴を所定の数だけ各大区画(例えば、ウェル)に収容する工程は、予め求めた液滴濃度に基づいて、等量分注することで行うこともできる。例えば、ゲル化液滴懸濁液を20個/100μLの液滴濃度に調製し、これを50μL各大区画(例えば、ウェル)に分注することにより、1大区画(例えば、ウェル))当たり、10個のゲル化液滴が収容されたメタゲノム等の核酸のライブラリーを作製することができる。ここで、大区画に収容する小区画の数としては、2~300個、好ましくは2~50個、より好ましくは5~15個、さらに好ましくは8~12個、最も好ましくは10個である。
 一つの実施形態では、小区画への細胞または細胞様構造物を入れることから増幅し核酸配列の決定までの工程は、例えば以下のような技術で実施することができる。例えば、細胞または細胞様構造物を含む試料を用い、該細胞または細胞様構造物を1または複数の細胞または構造物単位、液滴中に封入する工程と該液滴をゲル化してゲルカプセルまたはゲル化液滴を生成する工程と、該ゲルカプセルまたはゲル化液滴を1種以上の溶解用試薬に浸漬して前記細胞または細胞様構造物を溶解する工程であって、該細胞中のポリヌクレオチドが該ゲルカプセルまたはゲル化液滴内に溶出し該ポリヌクレオチドに結合する物質が除去された状態で前記ゲルカプセルまたはゲル化液滴内に保持される、工程と、該ポリヌクレオチドを増幅用試薬に接触させて該ポリヌクレオチドをゲルカプセルまたはゲル化液滴内で増幅する工程とを含む、細胞または細胞様構造物中のポリヌクレオチドを増幅する方法。
 一つの実施形態では、ポリヌクレオチドが増幅されたゲルカプセルまたはゲル化液滴を1個毎に選別し、分別収集する工程を含む。
 一つの実施形態では細胞は、微生物細胞を含み得る。
 一つの実施形態では、前記ゲルカプセルまたはゲル化液滴を前記溶解用試薬に浸漬した後、前記ゲルカプセルまたはゲル化液滴から前記溶解用試薬及び夾雑物質が除去される。
 別の実施形態では、細胞または細胞様構造物の懸濁液をマイクロ流路中に流動させ、オイルで前記懸濁液をせん断することにより前記細胞または細胞様構造物を封入した前記液滴が作製される。
 一つの実施形態では、ゲルカプセルまたはゲル化液滴がヒドロゲルカプセルまたはゲル化液滴である。
 一つの実施形態では、増幅する工程が、恒温鎖置換増幅反応によって行われる。
 一つの実施形態では、本開示のシステムは、細胞または細胞様構造物を1細胞または構造物単位、液滴中に封入する液滴作製部と、前記液滴をゲル化してゲルカプセルまたはゲル化液滴を生成するゲルカプセルまたはゲル化液滴生成部と、
 前記ゲルカプセルまたはゲル化液滴を溶解用試薬に浸漬する溶解用試薬浸漬部と、前記ゲルカプセルまたはゲル化液滴から夾雑物質を除去する除去部と、前記ゲルカプセルまたはゲル化液滴を増幅用試薬に浸漬する増幅用試薬浸漬部と、備えてもよい。
 一つの実施形態では、増幅用試薬浸漬部において増幅されたポリヌクレオチド中の核酸配列の配列決定を行う配列決定部をさらに備え、細胞のゲノム配列をシングルセルレベルで決定するためのものである。
 一つの実施形態では、ゲルカプセルまたはゲル化液滴を選別し、前記ゲルカプセルまたはゲル化液滴を収容容器に収容する選別部をさらに備え、メタゲノムライブラリーの作製のためのものである。一つの実施形態では、液滴作製部が、マイクロ流路を備える。
 一つの実施形態において、本開示の細胞中のポリヌクレオチドを増幅する方法は、2つ以上の細胞または細胞様構造物(例えば、ウイルス、小器官(Mt,Nuc)等を含む)を含む試料を用い、該細胞または細胞様構造物を1細胞または構造物単位、液滴中に封入する工程と、該液滴をゲル化してゲルカプセルまたはゲル化液滴を生成する工程と、該ゲルカプセルまたはゲル化液滴を1種以上の溶解用試薬に浸漬して前記細胞または細胞様構造物を溶解する工程であって、該細胞中のポリヌクレオチドが該ゲルカプセルまたはゲル化液滴内に溶出し該ポリヌクレオチドに結合する物質が除去された状態で前記ゲルカプセルまたはゲル化液滴内に保持される、工程と、該ポリヌクレオチドを増幅用試薬に接触させて該ポリヌクレオチドをゲルカプセルまたはゲル化液滴内で増幅する工程とを含むものであってもよい。
 一つの実施形態では、本開示で使用される増幅方法は、いわゆるシングルセルレベルでのゲノムまたはそれに類似する遺伝子集合物を個別に増幅し得るものである。本発明の増幅方法は、個別のゲノム増幅を、非常に簡便な手法で実現するものであり、そのため、100個単位、1000個単位、1万個単位、10万個単位あるいはそれ以上の単位の細胞について一時期に核酸情報を取得することができ、それゆえライブラリーとすることもできる。
 一つの実施形態では、本発明の増幅方法において対象としうる細胞または細胞様構造物は、2つ以上の任意の数字であり、例えば、10個以上、50個以上、100個以上、500個以上、1000個以上、5000個以上、1万個以上、5万個以上、10万個以上、50万個以上、100万個以上、500万個以上、1000万個以上であり得る。本開示で使用される増幅方法は、従来のシングルセル反応系、例えば、0.2mL、1.5mLマイクロチューブ反応系を用いるよりも多数の細胞を対象とし得る。
 本開示で使用される増幅方法において対象とし得る細胞または細胞様構造物は、(細胞および細胞様構造物)の項に説明されている任意のものを採用することができる。1つの好ましい実施形態では、細胞が対象とされ得る。別の実施形態では、細胞様構造物が対象とされ、その中でも、ウイルス、あるいはミトコンドリア、核等の細胞小器官等を対象とすることができる。
 本開示で使用される増幅方法において、提供される細胞または細胞様構造物を含む試料は、どのような形で提供されてもよい。試料に含まれる媒体は、(細胞および細胞様構造物)の項から選択した任意の細胞または細胞様構造物に対して適切な媒体(バッファー、塩、栄養素や他の成分等を含む)を選択することができる。このような成分としては、液滴生成に適した成分であればどのような成分を使用してもよい。ゲル化する際にも適切な成分であることが好ましい。そのような成分としては、PBS、Tris-HCl、TE、HEPESなどの緩衝液のほか、滅菌水、海水、人工海水、各種液体培地等を挙げることができるがこれらに限定されない。液滴を生成するためには、界面活性剤を含まない水またはバッファーなどの媒体が好ましい場合がある。
 本明細書において、細胞または細胞様構造物を1細胞または構造物単位、の液滴中への封入は、(液滴作製)の項に記載される任意の実施形態を採用することができる。代表的には、マイクロ流路を用い、細胞または細胞様構造物の懸濁液をマイクロ流路中に流動させ、懸濁液をせん断することにより、1つ、の細胞または細胞様構造物を封入した液滴を作製することができ本明細書での説明の他、実施例において例示される代表例を参考に、当業者は、適宜成分やパラメータを調製して実施することができる。
 一つの実施形態において、本開示で使用される増幅方法において、液滴をゲル化してゲルカプセルまたはゲル化液滴を生成する工程はゲル化などであり、ゲル化は、液滴あるいは液滴の材料(例えば、細胞または細胞様構造物を含む試料)にゲルカプセルまたはゲル化液滴の材料が含まれるように構成した作製した液滴を冷却することによって行うことができるし、あるいは、光等の刺激を与えることでゲル化させることもできる。
 ここで、細胞または細胞様構造物を溶解する工程では、細胞中のポリヌクレオチドが該ゲルカプセルまたはゲル化液滴内に溶出しそのポリヌクレオチドに結合する物質が除去された状態でこのゲルカプセルまたはゲル化液滴内に保持されるように処理されることが有利であり得る。このように、ポリヌクレオチドに結合する物質が除去された状態を維持するためには、多種類の溶解剤を段階的あるいは同時に加えることで、細胞または細胞様構造物の細胞壁・細胞膜構造を確実に破壊し、細胞内に含まれるタンパク質、ポリヌクレオチドに結合する物質までを変性させることが必要である。溶解は細胞外層の破壊から段階的に試薬を加えて達成される。さらに、溶解操作後にゲルカプセルまたはゲル化液滴内に残存する溶解物および前記溶解試薬は、後段のポリヌクレオチド増幅を阻害するため、適切な洗浄液を用いてゲルカプセルまたはゲル化液滴内を通液させ、前記阻害物質をゲルカプセルまたはゲル化液滴外に放出することが望ましい場合がある。これらの操作をゲルカプセルまたはゲル化液滴内で完遂するために、ポリヌクレオチドをゲルカプセルまたはゲル化液滴内に保持しながら、各種薬液と細胞溶解物の浸透・放出を達成するヒドロゲル構造を取ることが望ましい場合がある。ゲルカプセルを用いることにより、遺伝物質を保持したまま、残留試薬を希薄化することができる。このステップは繰り返すことも可能である。阻害が出ないレベルにまで試薬を希薄化することで、下流の操作、例えば、増幅反応をスムーズに行うことができる。
 (ゲル化)
 本開示は、液滴をゲル化してゲルカプセルを生成する工程を包含し得る。また、本発明において、装置は、液滴をゲル化してゲルカプセルを生成するゲルカプセル生成部を備え得る。液滴のゲル化は、液滴にゲルカプセルの材料が含まれるように構成し、作製した液滴を冷却することによって行うことができる。あるいは、液滴に対して光等の刺激を与えることによってゲル化を行うこともできる。液滴にゲルカプセルの材料が含まれるようにするには、例えば、細胞または細胞様構造物の懸濁液にゲルカプセルの材料を含めておくことによって行うことができる。一つの実施形態において、ゲルカプセルは、ヒドロゲルカプセルであってよい。
 一つの実施形態において、本大量の細胞からまとめてDNAを取り出す際などは、フェノール・クロロホルム抽出とエタノール沈殿によってDNAを精製し得る。しかしながら、単一細胞からの遺伝物質の取得・分析を企図する場合、1細胞毎の遺伝物質の量は非常に微量であり、ロスなく個別に核酸のみの状態に変換する必要がある。単一細胞に対しては、一般的なバルクスケールでの手順で核酸精製を試みても、全く核酸が取り出せないか、あるいは、夾雑物由来の核酸しか抽出できない結果になる。1細胞実験ではコンタミや標的遺伝物質のロスは大きな問題となるが、単一の細胞または細胞様構造物を封入したゲルカプセルを用いることによって、精製した遺伝物質(例えば、DNA)をゲルカプセル中に保持することができ、また、外部からの分子の夾雑の可能性を排除することができる。また、操作面でも非常に簡単な操作で、大量の1細胞を並列処理することができる。ゲル化した液滴を含む試験管を遠心し、上清を除去し、洗浄液に置換するというステップを行うことができる。あるいは、ゲル化した液滴をフィルターでろ過し、上清を除去したのち、洗浄液を通液させ、最後にゲルカプセルを回収するというステップでも行うことができる。ゲルカプセルを用いることにより、遺伝物質を保持したまま、残留試薬を希薄化することができる。このステップは繰り返すことも可能である。阻害が出ないレベルにまで試薬を希薄化することで、下流の操作、例えば、増幅反応をスムーズに行うことができる。
 このようにして、大区画に増幅されたゲノムDNAを内包する小区画を所定数だけ収容された本開示のメタゲノムライブラリーが完成する。図6はマイクロプレートを用いて作製したメタゲノムライブラリーを、図7はマイクロチューブを用いて作製したメタゲノムライブラリーのイメージを示したものである。図6及び図7の下部には、ゲル化液滴(小区画)を2個、4個、6個、8個、10個、12個、14個及び16個をそれぞれ収容したウェル(大区画)の側面図及びチューブの側面図を示した。
 また、本開示においては、1つの態様において、上記通り小区画が所定数収容された大区画1個を本開示のメタゲノムライブラリーと呼び、また別の態様において、小区画が所定数収容された大区画が複数個まとまったものを本開示のメタゲノムライブラリーと呼ぶ場合もある。大区画が複数個まとまったメタゲノムライブラリーとしては、384個の大区画からなるもの、768個の大区画からなるもの、1,152個の大区画からなるもの、1,536個の大区画からなるもの、1,920個の大区画からなるもの、2,304個の大区画からなるもの、2,688個の大区画からなるもの、3,072個の大区画からなるもの等があり得るが、それらに限定されず、試料の性質(試料中に含まれる細胞又は細胞様構造物の多様性や種類数)等に応じて、数的な限定なく、大区画数を増減させることが可能である。
〔1〕-6 複数の大区画を「まとめる」
 一つの実施形態において、本開示は、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基シーケンシングに供する容器に収容する工程を含んでいてもよい。収容される大区画は、1個、2個以上であってもよく、準備した全部の大区画(ここでは、nとする。nは2以上の整数)を一つの容器に収容してもよい(本明細書では「まとめる」と称することがある)。まとめる戸数は2、3、…n-1個、n個の任意の整数であってよい。
 複数の大区画をまとめたとしても、その後の塩基配列を行う際に、どの大区画だったのかのしきべつする手段を講じておくことが有利である。そのような例としては、限定するものではないが、大区画に固有のバーコード配列を前記核酸に付加することを含み得る。これにより、付加されたバーコード配列を手掛かりに、増幅された配列が、どのウェル由来化を特定することができる。さらに、本開示においては、増幅産物を含む小区画を1個又は複数個収容した大区画をシーケンシングに供試する段階で、当該大区画を1つの容器にまとめた上でシーケンシングを行い得る。その場合、取得された塩基配列がどの大区画由来の配列であるかを確定するため、本増幅工程の後に、大区画ごとに固有のバーコード配列(核酸バーコードともいう)を付加させることができる。バーコード配列の長さは、4~12塩基、好ましくは6~10塩基、最も好ましくは8~10塩基であり得る。核酸バーコードは2種類以上の組合せで使用しても良く、その組み合わせにより、例えば、例えば、384ウェルのマイクロプレートを8枚同時並列的に使用する場合(合計3,072ウェル)であっても、ウェルごとに配列異なる3,072種類の核酸バーコードを用いることで各ウェルを区別することが可能である。準備するDNAバーコードの種類または組合せをさらに増やせば、さらにそれ以上のウェルを用いた超並列処理が対応可能になる。なお、ウェルの位置を特定するための核酸バーコード分子を添加する際、どの配列の核酸バーコード分子をどの位置のウェルに添加したのかを把握することが重要である。「超並列」、すなわち、目的のサンプルから多数の遺伝子を、迅速且つ高効率に取得することを目的として、サンプル、細胞、ゲノムDNA、増幅DNA断片、それらを含有する多数の小区画及び/又は多数の大区画を、並列的に処理することができる。
〔2〕遺伝子配列の高効率分析・取得
 本開示の1つの局面において、微生物等の生物の遺伝子の配列の高効率取得方法が提供される。例えば、従来のショットガンメタゲノム法(ショットガンメタゲノムシーケンス法ともいう)により微生物を含む土壌サンプルから微生物遺伝子配列を取得する場合、単一の土壌サンプル(例えば、1gの土壌サンプル)から1個のメタゲノムライブラリーを作製し、塩基配列を決定し、遺伝子配列を取得する。その場合、様々な微生物由来のゲノムDNA断片が混合した状態で存在し、それらをシーケンサーにかけ、塩基配列を決定し、得られた塩基配列の重複部分を手掛かりに元来の遺伝子配列を再構築する方法が取られるが、その膨大な多様性や、異なる微生物由来の配列が一部重複するなどが原因で、元来の遺伝子配列へと再構築することが不能となる場合も多く、効率よく多数の機能的構造遺伝子を取得することは困難であった。
 本開示の遺伝子配列の高効率取得方法においては、単一の土壌サンプル(例えば、1gの土壌サンプル)から、例えば、大区画として384穴のマイクロプレート(1ウェル(1大区画)には、例えば、10個の液滴(小区画)が含まれている)を採用する場合、384個のメタゲノムライブラリーを作製し、必要に応じてこれらを一度にあるいは別々にシーケンサーにかけ、塩基配列を取得することで、土壌サンプルに含まれる各微生物細胞由来のゲノム配列を高精度で再構築可能となり、それにより効率よく多数の機能的な構造遺伝子を取得することが達成される。
 すなわち、前記〔1〕-5または〔1〕-6に記載の工程の後に、塩基配列を決定する工程、及び前記工程で得られた塩基配列を、コンピューターを用いて解析し、タンパク質をコードする領域を推定することにより遺伝子を取得する工程を加えることで、微生物遺伝子配列の高効率取得方法が提供される。
 より具体的には、当該工程は、例えば、次世代シーケンサー(Next Generation Sequencer;NGS)を用いて行うことができる。NGSとは、Sanger法を用いた第1世代シーケンサーに対比して用いられる用語であり、原理は様々なものがあるが、超並列的な処理によって、低コストかつ短時間で大量の塩基配列を解析することができるものである。
 すなわち、NGSを用いて塩基配列を解読する場合、ゲノムDNAを断片化し、断片化した配列をそれぞれ解読し、最後にそれらをつないで配列を決定していく方法が一般的である。断片化されたDNA配列を「リード」、その長さを「リード長」という。NGSはメーカーや機種により、解読するメカニズムが異なるため、解読することができるリード長や解読にかかる時間などが異なる。数百塩基対などのショートリードの断片を利用して解読する場合、解析するゲノム配列の中に、ショートリードの断片よりも長い繰り返し配列領域や大きな欠損などがあると、配列精度が低下する場合がある。その場合、未知の遺伝子配列を決定する際には、ショートリードよりも1万塩基対など、ある程度長く断片化されたDNA配列、いわゆる「ロングリード」を利用する場合がある。
 より具体的には、ショートリードの解読に適したNGSとしては、イルミナ社(Illumina)のMiniSeq、MiSeq、NextSeq、HiSeq及びHiSeq Xシリーズ、MGI社のDNBSEQシリーズ等を挙げることができる。また、ロングリードの解読に適したNGSとしては、パックバイオ社(PacBio)Pacific Biosciences)PacBio RS II等が挙げられる。
 本開示においては、ショートリードの解読に適したNGSと、ロングリードの解読に適したNGSを組み合わせて用い、それを並列的に稼働させることで、低コストかつ短時間で大量の塩基配列を解析することができる。
〔3〕核酸(ゲノムDNA)の保存方法
 本開示の1つの局面において、微生物等の核酸(例えば、ゲノムDNA)の保存方法が提供される。土壌(海底土壌を含む)、海水、河川水、糞便、汚泥(活性汚泥を含む)、産業排水、廃棄物、植物又は動物由来の生物学的サンプルは、多様性を持った微生物遺伝子の宝庫であり、それらの微生物遺伝子の中には、未知の機能を持った産業上有用な遺伝子が多く存在する。自然界に存在する微生物の代謝経路を構成する酵素やタンパク質をコードする遺伝子をクローニングし、大腸菌や酵母・コリネ型細菌などの遺伝子組換えや培養が容易な宿主に導入することで化学品原料などの様々な化合物を生産する微生物を作出する遺伝子工学的又は代謝工学的なアプローチが行われている。目的の化合物やタンパク質を高生産するなど、所望の微生物を新たに構築するためには、所望の酵素活性など所望の形質を発現するタンパク質をコードする遺伝子を、自然界から所得することが重要である。
 自然界から多数の遺伝子群を取得し、塩基配列を決定する前段階として、多数の微生物由来の核酸(例えば、ゲノムDNA)ライブラリーを保存する方法が有用であり得る。すなわち、本開示において、前記〔1〕で得られた本開示の核酸(例えば、メタゲノムDNA)ライブラリー、例えばゲル化液滴(小区画)が収容された容器(大区画)を、そのまま又は核酸(例えば、DNA)分解を抑制する物質を添加後、室温以下で保存する工程を含むことを特徴とする、微生物ゲノムDNAの保存方法が提供される。ここで、室温以下とは、4℃以下、好ましくは-20℃以下、より好ましくは-80℃以下、最も好ましくは-80℃であり得る。DNA分解を抑制する物質を共存させることで、より温度の高い状態でも保存することが可能となる。DNA分解を抑制する物質としては、EDTA(エチレンジアミン四酢酸)やクエン酸などのキレート試薬が挙げられる。
 (組成物・キット)
 本開示の1つの局面は、本開示の方法において用いられ得る組成物またはキットを提供する。本発明において、細胞中の核酸をシングルセルレベルで増幅するための組成物が提供され得る。組成物は、ゲルカプセルまたはその材料を含み得る。ゲルカプセルを用いることは、本明細書の他の箇所に記載されるとおり、細胞中の核酸をシングルセルレベルで増幅することについて有利であり得る。本発明において、ゲノムライブラリーを作製するための組成物が提供され得る。ゲルカプセルを用いることは、本明細書の他の箇所に記載されるとおり、核酸(例えば、メタゲノム)のライブラリーを作製するために有利であり得る。
 一つの実施形態では、ゲルカプセルまたはその材料と、シングルセル状態の細胞とを含む、細胞中の核酸をシングルセルレベルで増幅するための組成物が提供され得る。組成物は、本明細書の他の箇所に記載される方法の工程に供され、シングルセルレベルでの核酸増幅に用いられ得る。本発明において、ゲルカプセルまたはその材料、シングルセル状態の細胞とを含む、ゲノムライブラリーを作製するための組成物が提供され得る。組成物は、明細書の他の箇所に記載される方法の工程に供され、ゲノムライブラリーを作製に用いられ得る。本発明において、ゲルカプセルまたはその材料、シングルセル状態の細胞とを含む、シングルセルレベルで、細胞中の核酸をシーケンシングするための組成物が提供され得る。組成物は、明細書の他の箇所に記載される方法の工程に供され、シングルセルレベルでの細胞中の核酸のシーケンシングに用いられ得る。
 一つの実施形態では、細胞中の核酸をシングルセルレベルで増幅するための、溶解用試薬を含む組成物が提供される。溶解用試薬は、リゾチーム、ラビアーゼ、ヤタラーゼ、アクロモペプチダーゼ、プロテアーゼ、ヌクレアーゼ、ザイモリアーゼ、キチナーゼ、リソスタフィン、ムタノライシン、ドデシル硫酸ナトリウム、ラウリル硫酸ナトリウム、水酸化カリウム、水酸化ナトリウム、フェノール、クロロホルム、グアニジン塩酸塩、尿素、2-メルカプトエタノール、ジチオトレイトール、TCEP-HCl、コール酸ナトリウム、デオキシコール酸ナトリウム、Triton X-100、Triton X-114、NP-40、Brij-35、Brij-58、Tween 20、Tween 80、オクチルグルコシド、オクチルチオグルコシド、CHAPS、CHAPSO、ドデシル-β-D-マルトシド、Nonidet P-40、Zwittergent 3-12からなる群から選択される少なくとも1つを含み得る。
 一つの実施形態では、細胞中の核酸をシングルセルレベルで増幅するためのキットが提供され得る。キットは、例えば、ゲルカプセルの材料と、必要に応じて、1以上の試薬を含み得る。前記1以上の試薬としては、溶解用試薬が挙げられる。
 (データ・データベース・データ構造・データ処理等)
 本開示では、本開示のライブラリーの集合から、データ取得または解析に供するものを選択することが可能である。例えば、本開示において、細胞または細胞様構造物を含む集合から、当該細胞または細胞様構造物の核酸配列に基づいて、細胞または細胞様構造物を少なくとも1つを含むサブ集団を生成する工程を包含する、細胞または細胞様構造物を含むサブ集団を生成してもよい。サブ集団の生成は、配列決定や、配列決定リードに基づくゲノムドラフトの作成などの工程の労力を低減することができる。
 本開示の1つの実施形態において、別々に提供された細胞または細胞様構造物を、当該細胞または細胞様構造物に由来する核酸情報に基づいて選別することができる。必要に応じて、当該選別された細胞または細胞様構造物を分析することが可能である。選別は、例えば、PCRから配列決定を行い、部分配列を解読すること、特定の遺伝子配列の有無を確認すること、DNA収量を参照することなど、いくつかの選別を行うことが可能である。
 本開示の1つの実施形態において、配列決定後に、細胞または細胞様構造物に由来する核酸情報を選別してもよい。細胞または細胞様構造物に由来する核酸情報を、当該細胞または細胞様構造物ごとの核酸情報の集合として提供した後、当該核酸情報の全部または一部に基づいて、当該核酸情報を該細胞または細胞様構造物ごとに選別することができる。必要に応じて、選別された核酸情報を分析することができる。
 本開示の1つの実施形態において、得られた配列情報は、データベースとして記録することができる。データベースは、データの自動的構築・提供システム上で記録され得る。データベースは、1つの細胞または細胞様構造物に由来する配列情報をそれぞれ区別して格納することができる。それぞれの配列情報は、分類してまとめることが可能である。分類としては、生物種ごとに分類することが望ましい。分類したクラスターは、他種生物の配列情報のコンタミネーションがなく、それに基づいてクラスター内での完全な配列情報の構築を行うことができる。完全な配列情報の構築の際に、再分類を行うこともできる。分析で得られた情報は、新たに得られた1つの細胞または細胞様構造物に由来する配列情報の分類の精緻化に用いることも可能である。
 一つの局面において、本開示は、細胞又は細胞様構造物中の遺伝子をコードする核酸配列及び/または該核酸配列がコードするアミノ酸配列の取得方法、別の表現では「遺伝子(配列)」の取得方法を提供する。この取得方法は、以下の工程:2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、前記増幅産物の塩基配列を決定する工程、前記工程で得られた塩基配列を分析する工程、及び前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程を包含する。本開示の取得方法における各工程は、本明細書の他の個所における任意の実施形態の任意の組み合わせを適用しうることが理解される。
 別の局面において、本開示は、細胞又は細胞様構造物中の遺伝子をコードする配列のデータベースの作成方法であって、以下の工程:2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、前記増幅産物の塩基配列を決定する工程、 前記工程で得られた塩基配列を分析する工程、前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程、及び前記遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列、ならびに必要に応じて細胞又は細胞様構造物に関する情報を用いて、遺伝子をコードする配列のデータベースを作成する工程を包含する、方法を提供する。本開示のデータベース作成方法における各工程は、本明細書の他の個所における任意の実施形態の任意の組み合わせを適用しうることが理解される。
 別の局面では、本開示は、細胞又は細胞様構造物中の遺伝子をコードする配列を構成するデータ構造の生成方法であって、以下の工程:2つ以上の細胞又は細胞様構造物を提供する工程、前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、、塩基配列決定に供する容器に収容する工程、前記増幅産物の塩基配列を決定する工程、前記工程で得られた塩基配列を分析する工程、前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程、及び前記遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列、ならびに必要に応じて細胞又は細胞様構造物に関する情報で規定される、遺伝子をコードする配列のデータ構造を生成する工程を包含する、方法を提供する。本開示のデータ構造作成方法における各工程は、本明細書の他の個所における任意の実施形態の任意の組み合わせを適用しうることが理解される。
 別の局面では、本開示は、本開示の方法で生成されたデータベースを提供する。
 別の局面では、本開示は、本開示の方法で生成されたデータ構造を提供する。
 一つの実施形態では、本開示のデータベースおよびデータ構造は、本開示の生成方法で生成されたことを示す情報を含む。そのような情報としては、配列情報、使用した大区画の情報(具体的には、バーコード配列(10塩基程度に代表される短い配列))、遺伝子名(アミノ酸配列から予測されるもの)、推定される由来生物情報などを含むがこれらに限定されない。
 好ましい実施形態では、本開示のデータベースおよびデータ構造は、完全長遺伝子配列率を含む。完全長遺伝子配列率は、含まれる核酸配列またはアミノ酸配列の品質の可否を決定しうるものであり、本開示はこのような項目を有することで容易にデータベースおよびデータ構造に含まれるデータの品質を評価することができる。
 一つの実施形態では、データベースは、含まれる遺伝子をコードする核酸配列および/またはアミノ酸配列の完全長遺伝子配列率が10%以上、15%以上、20%以上、25%以上、30%以上、35%以上、40%以上、45%以上、50%以上であるものが提供される。完全長遺伝子配列率がこのような高い核酸のライブラリーは、従来技術では提供されておらず、本開示は、非常に高品質のライブラリーを提供し、その後の塩基配列分析、アミノ酸配列分析、遺伝子コード配列の分析などで高品質のデータを、より精度高く、網羅率も高いものを提供することができる。
 一つの実施形態では、本開示の前記データベースまたはデータ構造は、コード配列に関する項目を含み、前記コード配列に関する項目は、ゲノムデータベースまたはメタゲノムデータベースの作成の際に使用されるコンティグと連結される。別の実施形態では、本開示のコード配列に関する項目は、完全コードかどうかを識別する項目を含む、。
 具体的な実施形態では、例えば、本開示のアミノ酸または核酸の配列を分析する方法における分析する工程は、コンティグをビニングして、ゲノムデータベースを生成することを包含する。このようなコンティグをビニングする方法は、公知の方法を用いることができるが、好ましくはmetaBAT2(PeerJ 7:e7359 https://doi.org/10.7717/peerj.7359)、VAMB(Nat Biotechnol 39, 555-560 (2021). https://doi.org/10.1038/s41587-020-00777-4)、SemiBin2(Bioinformatics, Volume 39, Issue Supplement_1, June 2023, Pages i21-i29, https://doi.org/10.1093/bioinformatics/btad209)である。
 本開示のコンピュータ・プログラム、データベース又はデータ構造は、記憶媒体に格納され得る。記憶媒体は、非一時的記憶媒体であり得る。
 本開示において引用された、科学文献、特許、特許出願などの参考文献は、その全体が、各々具体的に記載されたのと同じ程度に本開示において参考として援用される。
 以上、本開示を、理解の容易のために好ましい実施形態を示して説明してきた。以下に、実施例に基づいて本開示を説明するが、上述の説明及び以下の実施例は、例示の目的のみに提供され、本開示を限定する目的で提供したのではない。従って、本開示の範囲は、本明細書に具体的に記載された実施形態にも実施例にも限定されず、請求の範囲によってのみ限定される。
 以下に説明する実施例は、請求の範囲に記載された本開示の内容を限定するものではない。また、以下に説明される構成の全てが、本開示の必須要件であるとは限らない。
 〔実施例1〕土壌サンプルからのメタゲノムライブラリーの作製
 試料である土壌サンプル5gを容量15mLのチューブに採取し、6mLのリン酸緩衝生理食塩水(PBS)(Dulbecco’s Phosphate-Buffered Saline, 14190-144, Thermo Fisher Scientific社)中に懸濁した。30分間静置後、上清を回収し、10,000×gで5分間遠心分離し、沈殿を回収する操作を2回繰り返した後、8,000×gで5分間遠心して得た沈殿をPBSで再懸濁した。300×gで5分間遠心して土壌粒子を沈殿させ、上清を回収することで土壌微生物を集菌した。
 調製した細胞懸濁液中の細胞濃度を、光学顕微鏡を用い、バクテリア計算盤にて測定し、超低融点アガロース(A5030-10G, SIGMA-ALDRICH社)を細胞懸濁液のアガロース濃度が1.5%になるように加えることで、ゲル化液滴作製に用いる土壌微生物懸濁液を調製した(細胞終濃度:2.1×10細胞/μL)。
 Droplet Generator(オンチップ・バイオテクノロジーズ社,60001)を用いて、微小液滴の作製及び微小液滴内への土壌微生物1細胞の封入を行った。具体的には、インレット1から土壌微生物懸濁液を導入し、インレット2からフッ素系オイル(オンチップ・バイオテクノロジーズ社,008-fluoroSurfantant)(以下、「オイル」という)を導入して土壌微生物懸濁液をせん断することで、直径30μmの微小液滴を作製し、アウトレットに集積させ、その後、容量0.5mLのチューブに回収した。
 次に、チューブを氷上で15分間冷却し、超低融点アガロースにより微小液滴をゲル化した。ゲル化した微小液滴がゲル化液滴である。微小液滴の直径が30μmであることからゲル化液滴の直径も30μmとなる。次に、チューブに100μLの10%1H,1H,2H,2H-パーフルオロ-1-オクタノール(SIGMA-ALDRICH社)を加え、下層のオイルを取り除いた後、アセトン(富士フイルム和光純薬社)(500μL)、イソプロパノール(500μL)(富士フイルム和光純薬社)を順に加えて遠心洗浄し、オイルの除去を行った。さらに、500μLのPBSを添加して遠心洗浄を3回行い、ゲル化液滴を水層(PBS)に懸濁した状態とした。続いて、溶解用試薬としての溶菌試薬にゲル化液滴を順次浸漬し、ゲル化液滴内部で細胞の細胞壁等の収集目的物以外の部分を溶解し、ゲル化液滴内にゲノムDNAを溶出させた。
 具体的には、チューブに溶菌試薬の1種であるリゾチーム(50U/μL)(R1804M、Epicentre)を加え、37℃2時間静置することで細胞を溶解した。次に、チューブに溶菌試薬の1種であるプロテアーゼK(1mg/mL)(MC5005、Promega)及びドデシル硫酸ナトリウム(SDS)0.5%(71736-100ML、SIGMA-ALDRICH社)を加え、40℃15時間静置後、細胞を溶解した後に遠心洗浄を5回行い、プロテアーゼ及び溶解した細胞のゲノムDNA以外の成分(夾雑物質)をチューブから除去した。続いて、溶菌試薬の1種である水酸化カリウムを含む水溶液であるBuffer D2(QIAGEN社)にゲル化液滴を浸漬し、残存成分の溶解とゲノムDNAの変性を行った。ゲル化液滴の溶菌試薬への浸漬は短時間であるため、溶出させたゲノムDNAが溶菌試薬によりゲル化液滴外に流出されることはなく、ゲル化液滴内に保持される。
 このように、複数種類の溶菌試薬により細胞の溶解を行うことで、目的のゲノムDNAを採取することができ、溶菌試薬への浸漬後に遠心洗浄を行うことで、溶菌試薬や溶解した細胞のポリヌクレオチド以外の成分等の夾雑物質を除去し、続くゲノムDNA増幅反応を阻害することのなくゲノムDNAを抽出・精製することができる。
 水酸化カリウム溶液(Buffer D2)中で変性したゲノムDNAを保持するゲル化液滴を含むチューブに増幅用試薬を加え、ゲル化液滴を増幅用試薬に浸漬した。具体的には、鎖置換型DNA合成酵素であるphi29DNAポリメラーゼを用いたMDA(Multiple Displacement Amplification)法を使用した。ここでは、全ゲノム増幅反応試薬REPLI-g Single Cell Kit(QIAGEN社)に浸漬し、3時間の全ゲノム増幅反応を行った(S1000 サーマルサイクラー, Bio-Rad社)。増幅用試薬(REPLI-g Single Cell Kit)には水酸化カリウム溶液(Buffer D2)を中和する成分が含まれている。
 全ゲノム増幅後のゲル化液滴を、PBSを用いて遠心洗浄した後、染色用試薬である蛍光性DNAインターカレーターSYBRグリーン(5760A、TaKaRa社)による染色を行った。なお、染色はEvagreen(31000、コスモ・バイオ株式会社)等、他の公知の染色用試薬を使用してもよい。
 フローサイトメーター(BD FACSMelody セルソーター,BD Biosciences社)により所定以上に増幅したゲノムDNAを保持するゲル化液滴を選別し、収容容器としてのプレート(HSP3801,BioRad社)に10個、個別に回収することで、本開示のメタゲノムライブラリーを作製することができた。
〔実施例2〕メタゲノムライブラリーからの微生物遺伝子の取得
 分注されたサンプルについてQIAseq FX DNA Library kit(QIAGEN社,180475)によるライブラリー調製を行い、DNBSEQ G400(MGI社)を用いたシークエンシングによって2×150bpのペアエンドリード(120Gb)を取得した。なお、シーケンシングについては同条件で実施できれば機種は問わない。
SPAdes(J Comput Biol,19(5):455-477(2012))を用いてシークエンスデータ(リード配列)のアセンブルを行いコンティグを得た後、アノテーションソフトウエアのProkka(Bioinformatics,30(14):2068-2069(2014))を用いてコンティグ上の遺伝子推定を行った。
 その結果、解析した土壌サンプルから、5691,207個の遺伝子が取得された。また、そのうち、200アミノ酸残基以上の長さの遺伝子取得数は2,356,273個であった(表1)。土壌サンプルから遺伝子を取得する方法としては、ショットガンメタゲノムシーケンス法(Nature Biotechnology 35:833-844(2017))が知られる。この方法では、土壌サンプルから抽出されたDNAに対してシーケンスが行われる。同サンプルに対して、ショットガンメタゲノムシーケンス法を実施した結果、全遺伝子数が698,652個、そのうち、200アミノ酸残基以上の長さの遺伝子取得数が20,498個となり、いずれの指標も本開示による方法が上回る結果となった(表1)。また、土壌サンプルから取得された遺伝子の長さの分布を比較したところ、ショットガンメタゲノムシーケンス法に比べて、本開示による方法は、長鎖の遺伝子に分布することが示された(図8)。
 また、同一の土壌サンプルから取得された遺伝子の長さの分布を比較したところ、ショットガンメタゲノムシーケンス法に比べて、本開示による方法は、長鎖の遺伝子に分布することが示された(図8)。次に、各方法で得られた200アミノ酸残基以上の長さの遺伝子のうち、所定以上に配列が一致する遺伝子を除いた遺伝子配列(以下、「非冗長遺伝子」、という。)の共通性を分析したところ、本開示の方法でのみ得られた非冗長遺伝子数、ショットガンメタゲノムシーケンス法でのみ得られた非冗長遺伝子数及び両方法で共通して得られた非冗長遺伝子数の合計である398,878個を100%とした場合、両方法で共通して得られた非冗長遺伝子数は6,030個と全体の1.5%、ショットガンメタゲノムシーケンス法でのみ得られた非冗長遺伝子数は6,599個と全体の1.7%を占めるに過ぎないのに対し、本開示の方法でのみ得られた非冗長遺伝子数は386,249個と全体の96.8%を占め、本開示による方法を用いることで、ショットガンメタゲノム解析で得られない遺伝子を多数取得することが可能であることが確認された(図9)。
 さらに、別の土壌サンプルについても同様の処理を行って得たゲル化液滴を、マイクロプレート(HSP3801,BioRad社)に1ウェルあたり10個、個別に回収し、同様の解析を行った。この際、収容先ウェル数を384ウェル(1プレート分)、768ウェル(2プレート分)、1152ウェル(3プレート分)、1536ウェル(4プレート分)とする各条件で実施した。その結果、総遺伝子取得数は、それぞれ6,842,892、13,921,293、22,298,612、25,383,609となった(図10)。また、完全一致配列を除外した遺伝子数もそれぞれ6,567,645、13,024,107、20,425,488、23,066,293となった。非冗長遺伝子数もそれぞれ1,967,477、3,318,317、4,583,402、5,186,422となり、収容先ウェル数を増加させることで1つの試料から多様かつ大規模に遺伝子情報を回収できることが示された。
〔実施例3〕シングルドロップ法によるゲノム情報の取得
試料であるヒト糞便より採集したヒト腸内微生物から1細胞増幅ゲノムライブラリーを作製した。実験は、ヒト糞便を容量1.5mLのチューブ(1212-10, SSIbio)に採取し、500μLのリン酸緩衝生理食塩水(PBS)(Dulbecco's Phosphate-Buffered Saline, 14190-144, Thermo Fisher Scientific社)中で破砕器具を用いて固形物がなくなるまですり潰した。1,5 00×gで30秒間遠心分離し、上清を回収する操作を2回繰り返した後、8,000×gで5分間遠心することでマウス腸内微生物を集菌した。
菌体のペレットをPBSで2回遠心洗浄した後、PBS中に懸濁することでヒト腸内微生物の細胞懸濁液を取得した。調製した細胞懸濁液中の細胞濃度を測定し、終濃度1.5%になるように超低融点アガロース(A5030-10G, SIGMA-ALDRICH社)を加えることで、ゲルカプセル作製に用いる腸内微生物懸濁液を調製した(細胞終濃度:7×103cells/μL)。Droplet generator(オンチップ・バイオテクノロジーズ社,60001)を用いて、微小液滴の作製及び微小液滴内へのヒト腸内微生物1細胞の封入を行った。具体的には、インレット1から腸内微生物懸濁液を導入し、インレット2からフッ素系オイル(オンチップ・バイオテクノロジーズ社,008-fluoroSurfantant)(以下、「オイル」という)を導入してヒト腸内微生物懸濁液をせん断することで、直径30μmの微小液滴を作製し、アウトレットに集積させ、その後、容量1.5mLのチューブに回収した。
次に、チューブを氷上で15分間冷却し、超低融点アガロースにより微小液滴をゲル化した。チューブに100μLの1H,1H,2H,2H-パーフルオロ-1-オクタノール(SIGMA-ALDRICH社)を加え、下層のオイルを取り除いた後、アセトン(富士フイルム和光純薬社)(500μL)、イソプロパノール(500μL)(富士フイルム和光純薬社)のを順に加えて遠心洗浄し、オイルの除去を行った。さらに、500μLのPBSを添加して遠心洗浄を3回行い、ゲルカプセルを水層(PBS)に懸濁した状態とした。
続いて、溶菌試薬にゲルカプセルを順次浸漬し、ゲルカプセル内部で細胞の細胞壁等の収集目的物以外の部分を溶解し、ゲルカプセル内にゲノムDNAを溶出させた。具体的には、チューブに溶菌試薬の1種であるリゾチーム(10U/μL)(R1804M、Epicentre)を加え、細胞を溶解した。次に、チューブに溶菌試薬の1種であるプロテアーゼK(1mg/mL)(MC5005、Promega)及びドデシル硫酸ナトリウム(SDS)0.5%(71736-100ML、SIGMA-ALDRICH社)を加え、細胞を溶解した後に遠心洗浄を5回行いプロテアーゼ及び溶解した細胞のゲノムDNA以外の成分(夾雑物質)をチューブから除去した。続いて、溶菌試薬の1種である水酸化カリウムを含む水溶液であるBuffer D2(QIAGEN社)にゲルカプセルを浸漬し、残存成分の溶解とゲノムDNAの変性を行った。このように、複数種類の溶菌試薬により細胞の溶解を行うことで、目的のゲノムDNAを採取することができ、溶菌試薬への浸漬後に遠心洗浄を行うことで、溶菌試薬や溶解した細胞のポリヌクレオチド以外の成分等の夾雑物質を除去し、続くゲノムDNA増幅反応を阻害することのなくゲノムDNAを精製することができる。
水酸化カリウム溶液(Buffer D2)中で変性したゲノムDNAを保持するゲルカプセルを含むチューブに増幅用試薬を加え、ゲルカプセルを増幅用試薬に浸漬した。具体的には、鎖置換型DNA合成酵素であるphi29DNAポリメラーゼを用いたMDA(Multiple Displacement Amplification)法を使用した。ここでは、全ゲノム増幅反応試薬REPLI-g Single Cell Kit(QIAGEN社)に浸漬し、3時間の全ゲノム増幅反応を行った(S1000 サーマルサイクラー, Bio-Rad社)。増幅用試薬(REPLI-g Single Cell Kit)には水酸化カリウム溶液(Buffer D2)を中和する成分が含まれている。全ゲノム増幅後のゲルカプセルをPBSを用いて遠心洗浄した後、図5に示すように、染色用試薬であるSYBRグリーン(S7563、Thermo Fisher Scientific社)による蛍光性DNAインターカレーターで染色を行った。
フローサイトメーター (BD FACSMelody セルソーター, BD Biosciences社)により所定以上に増幅したゲノムDNAを保持するゲルカプセルを選別し、収容容器としての384穴マルチウェルプレートに個別に回収した。続いて、QIAseq FX DNA Library kit(QIAGEN社)によるライブラリー調製を行い、NextSeq 2000(Illumina社)を用いた全ゲノムシークエンスによって2×150bpのペアエンドリード(44.1Gb)を取得した。
SPAdes(Bankevich et al. Journal of computational biology, 19(5), 455-477.2012(http://doi.org/10.1089/cmb.2012.0021)を用いてシークエンスデータ(リード配列)のアセンブルを行いコンティグを得た後、QUAST(Gurevich et al. Bioinformatics. 2013 29(8):1072-5. doi: 10.1093/bioinformatics/btt086.)を用いてコンティグの評価を行った。ゲノム解読率(コンプリート率)およびコンタミネーション度の評価にはCheckM(Parks et al., Genome Research 2015. 25: 1043-1055, doi:10.1101/gr.186072.114)を用いた。
その結果、解析した全384個のシングルセルゲノムでは、175でゲノム解読率(コンプリート率)が50%を超え、その中の18つでは90%を超えた。またコンタミネーション度は平均6.3%と低値であった。以上の175ゲノムを国際基準Minimum information about a single amplified genome(MISAG)(Bowers et al., Nature Biotechnology 2017 35(8):725-731. doi: 10.1038/nbt.3893.4)に照らし合わせた結果、ヒト糞便から獲得した1細胞由来のゲノム情報は、中品質から高品質として評価されるゲノム情報であった。
 〔実施例4〕シングルドロップ法とマルチドロップ法の比較
 同一土壌サンプルに同様の処理を行って得たゲル化液滴を、収容容器としてのプレート(HSP3801,BioRad社)に1ウェルあたり1個、個別に回収するシングルセルゲノムシーケンス法と、1ウェルあたり10個、個別に回収する本開示とで同様の解析を行い、結果を比較した。この際、収容先ウェル数をシングルセルゲノムシーケンス法は、3072ウェル(8プレート分、計3072液滴)、本開示は384ウェル(1プレート分、計3840液滴)とする条件で実施した。その結果、獲得された遺伝子バリエーション数は、それぞれ5,708,085、6,019,181となった(表2)。分析対象3000液滴あたりの獲得遺伝子バリエーション数は、それぞれ5,574,302、4,702,485であり、シングルセルゲノムシーケンス法に対して本開示は0.84倍の遺伝子獲得数(効果)を示した。一方で、必要な分析費用はシングルセルゲノムシーケンス法に対して本開示は0.27倍であった。したがって、対費用効果(相対比率)は、シングルセルゲノムシーケンス1.00に対して、本開示3.07と算出される。以上のことから、本開示による方法は、1つの試料から多様かつ大規模に遺伝子情報を回収でき、その目的において顕著に経済的優位な方法であることが示された。
 以上のことから、本開示による方法は、土壌サンプルから高効率に遺伝子情報を取得可能な方法であることが示された。
 (実施例5)
 土壌には未培養種が多く含まれるため、産業上有用な微生物遺伝資源の収集や環境微生物の機能分析を目的としたゲノム解析にはメタゲノム法が利用されている。しかしながら、土壌には著しく多種類の微生物DNAが混在するため、各微生物由来の配列を判別しドラフトゲノム(metagenome-assembled genome: MAG)を再構築することは難しい。
 本実施例では、土壌中の多種多数の微生物配列データの判別を効率化することで、ドラフトゲノムの大規模収集を可能にする新手法を開発した。
 すなわち、実施例1と同様の方法により、土壌微生物ゲノムDNA増幅産物を保持するゲル液滴を作製し、フローサイトメーター(BD FACSMelody セルソーター,BD Biosciences社)により所定以上に増幅したゲノムDNAを保持するゲル化液滴を選別し、収容容器としての384ウェルプレート(HSP3801,BioRad社)に10個、個別に回収することで、本発明のメタゲノムライブラリーを作成した。このようにして1ウエル(クレームでいう大区画)に、10ドロップレット(クレームでいう小区画)含むメタゲノムライブラリーを得た。分注されたサンプルについてQIAseq FX DNA Library kit(QIAGEN社,180475)によるライブラリー調製を行い、DNBSEQ G400(MGI社)を用いたシークエンシングによって2×150bpのペアエンドリード(120Gb)を取得した。SPAdes(J Comput Biol,19(5):455-477(2012))を用いてシークエンスデータ(リード配列)のアセンブルを行いコンティグを得た後で、メタゲノムビニングツールであるmetaBAT2(PeerJ 7:e7359 https://doi.org/10.7717/peerj.7359)、VAMB(Nat Biotechnol 39, 555-560 (2021). https://doi.org/10.1038/s41587-020-00777-4)、SemiBin2(Bioinformatics, Volume 39, Issue Supplement_1, June 2023, Pages i21-i29, https://doi.org/10.1093/bioinformatics/btad209)を用いてビニングを行い、得られたビンをMAGScoT(Bioinformatics, Volume 38, Issue 24, 15 December 2022, Pages 5430-5433, https://doi.org/10.1093/bioinformatics/btac694)を用いて統合することで各試料由来のMAGを構築した。同様の方法で土壌6試料を分析した。得られたMAGの品質の評価には、QUAST(Bioinformatics. 2013 29(8):1072-5. doi: 10.1093/bioinformatics/btt086.)及びCheckM(Genome Research 2015. 25: 1043-1055, doi:10.1101/gr.186072.114)を用いた。得られたMAGに対する生物系統のアノテーションには、GTDB―Tk(Bioinformatics, Volume 36, Issue 6, March 2020, Pages 1925-1927, https://doi.org/10.1093/bioinformatics/btz848)を用いた。また、MAGの種レベルの種類数の推定は、Dashing 2(Genome Res. 2023 Jul;33(7):1218-1227. doi: 10.1101/gr.277655.123.)によるクラスタリングによって行った。
 (結果)
 本手法により土壌6試料を解析した結果、ゲノム品質基準がMedium-quality以上のMAGが9,086個構築された。これらが属する生物系統は51門にわたり種レベルで5,608種類に相当するMAGが得られた。このうちある土壌1試料では、ショットガンメタゲノム法で17種相当のMAGが得られた一方で、本手法では1,250種相当のMAGが得られた。以上より、本手法は土壌1試料から多種類の微生物ゲノムを効率的に収集できる方法であることが示唆された。本手法の活用は、有用微生物遺伝資源の拡張や、環境試料中の微生物機能の網羅的な解析に寄与することが期待される。
 (実施例6)
ある土壌試料につき、従来法ショットガンメタゲノム法、または本開示の方法で獲得された遺伝子集団について、遺伝子長(塩基数)を指標とした累積相対度数を確認した。
 具体的には、実施例1及び2と同様の方法により、土壌1試料からシーケンスデータを取得し、SPAdes(J Comput Biol,19(5):455-477(2012))を用いてシークエンスデータ(リード配列)のアセンブルを行いコンティグを得た後、アノテーションソフトウエアのProkka(Bioinformatics,30(14):2068-2069(2014))を用いてコンティグ上の遺伝子推定を行った。
 コンティグ上に推定された遺伝子、すなわちコード領域について、その長さと数を分析対象にして評価を行った。具体的には以下のとおりである。(1)得られたコンティグ配列に対し遺伝子をコードしていると考えられるコード領域を同定する;(2)同定された多数にコード領域とその塩基数をリスト化する;(3)前記(2)で見出された、1000 bp(およそ333アミノ酸残基相当)以上の長さをもつコード領域の数を分子として、全コード領域の数を分母に序することで割合を算出した。
 (結果)
 その結果、1000bp以下の長さの遺伝子が占める割合は、ショットガンメタゲノム法(図11、実線)で97.1%に達した。一方、本開示の方法(マルチドロップ法)においては80.0%となった(図11、点線)。
 すなわち1000 bp(およそ333アミノ酸残基相当)以上の長さを持つ遺伝子が本開示の方法(マルチドロップ法)では20%含まれ、これはショットガンメタゲノム法(2.9%)に対して6倍以上であった。以上より、本方法では、ショットガンメタゲノム解析に比べて、長い遺伝子も回収することができ、より精度の高い微生物遺伝子データベースの構築が可能な方法であることが示唆された。
 また、本開示で得られるライブラリーは、完全長遺伝子配列率が、従来技術に比べて飛躍的に上昇していることがわかり、データ構造やライブラリーとしても新規のものを提供することが理解される。
 (実施例7:完全長遺伝子配列率)
 各種の環境試料(土壌、海水、温泉水)につき、本開示の方法で獲得された遺伝子集団について、遺伝子完全長での獲得の成否を判定した。
 具体的には、実施例1及び2と同様の方法により、土壌6試料、海水1試料、温泉水3試料からシーケンスデータを取得し、SPAdes(J Comput Biol,19(5):455-477(2012))を用いてシークエンスデータ(リード配列)のアセンブルを行いコンティグを得た後、アノテーションソフトウエアのProkka(Bioinformatics,30(14):2068-2069(2014))を用いてコンティグ上の遺伝子推定を行った。
 コンティグ上に推定されたコード領域を分析対象にして評価を行った。具体的には以下のとおりである。(1)得られたコンティグ配列に対し遺伝子をコードしていると考えられるコード領域を同定する;(2)同定された多数のコード領域をリスト化する;(3)前記(2)で見出された全コード領域の個数を分母とし、遺伝子の完全長に対応するコード領域がコンティグ内に収まっている場合そのようなコード領域の個数をを分子として、完全長遺伝子配列率および完全長遺伝子配列含有率を算出した。
 (結果)
 結果を図12に示す。図12において、遺伝子のコード領域(CDS)の全長がコンティグ内に含まれる場合に完全、そうでない場合に不完全と表記し、完全/完全+不完全を「完全長遺伝子配列率」として表示している。またこの数値は、もとの核酸のライブラリーに対しては完全長遺伝子配列含有率となる。その結果、環境試料(土壌、温泉、海水)に対して本実施例においては最低でも42.3%を超える値となった(図12)。ショットガンメタゲノム解析などの先行技術では、完全長遺伝子配列率のような価値基準で評価されておらず、その割合が本開示の技術を使用した場合に比べてはるかに低かった。本開示は、完全長遺伝子配列率または完全長遺伝子配列含有率という導入することによって、データベースまたはデータ構造等、ならびにライブラリーを別の局面でクオリティコントロールすることができ、本実施例では、より多くの比率で完全長遺伝子が得られることがわかり、得られるライブラリーやデータ構造・データベースが従来にないものであり、より網羅率が高く精度の高い、ゲノムまたはメタゲノムのデータベースを構築が可能な方法であることが示唆された。
 (注記)
 以上のように、本開示の好ましい実施形態を用いて本開示を例示してきたが、本開示は、この実施形態に限定して解釈されるべきものではない。本開示は、請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本開示の具体的な好ましい実施形態の記載から、本開示の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。本明細書において引用した特許、特許出願および文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。本願は、日本国特許出願第2022-160265号(2022年10月4日出願)に対して優先権を主張するものであり、その内容の全体は、本願において参考として援用される。
 本開示は、食品工業、化学工業、環境産業、医薬品産業、医療分野など広範囲にわたって利用され得る新規な産業用酵素の発見に活用することができる。

Claims (67)

  1. 1小区画中に、1個以上の核酸分子を含み、前記小区画を1又は複数区画含む大区画を含む、核酸のライブラリー。
  2. 前記大区画は前記小区画を2以上含む、請求項1に記載の核酸のライブラリー。
  3. 1小区画中に含まれる前記核酸分子は、1個以上の細胞又は細胞様構造物由来の核酸分子及び/又は前記核酸分子を細胞又は細胞様構造物由来の核酸分子及び/又は前記核酸分子を鋳型とした増幅により得られた増幅産物を含む、請求項1または2に記載の核酸のライブラリー。
  4. 前記核酸のライブラリーはメタゲノムのライブラリーを含む、請求項1~3のいずれか一項に記載の核酸のライブラリー。
  5. 前記核酸または増幅産物は、細胞又は細胞様構造物由来のゲノムDNA及び/又は前記ゲノムDNAを鋳型として増幅により得られた増幅産物を含む、請求項1~4のいずれか一項に記載の核酸のライブラリー。
  6. 前記大区画は前記小区画を5~15含む、請求項1~5のいずれか一項に記載の核酸のライブラリー。
  7. 前記1個以上の細胞又は細胞様構造物は2種類以上の細胞又は細胞様構造物を含む、請求項1~6のいずれか一項に記載の核酸のライブラリー。
  8.  前記小区画がゲル化液滴、液滴又は被覆液滴であることを特徴とする請求項1~7のいずれか一項に記載の核酸のライブラリー。
  9.  前記ゲル化液滴が、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲルからなる群から選択されるいずれかのゲル化材料によりゲル化されることを特徴とする請求項1~8のいずれか一項に記載の核酸のライブラリー。
  10.  前記増幅において、ゲルカプセル内でゲル状態を保ちながら増幅されることを特徴とする請求項1~9のいずれか一項に記載の核酸のライブラリー。
  11.  前記ゲル化液滴が、直径約1~250μmであることを特徴とする請求項1~10のいずれか一項に記載の核酸のライブラリー。
  12.  大区画が、マイクロプレートのウェル形成部又はマイクロチューブであることを特徴とする請求項1~11のいずれか一項に記載の核酸のライブラリー。
  13.  請求項1~12のいずれかに記載の核酸のライブラリーを複数個含む、核酸のライブラリーの組み合わせ。
  14. 前記ライブラリーに含まれる核酸は、前記大区画に固有のバーコード配列を含む、請求項1~13のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
  15. 前記小区画に含まれる前記ライブラリーに含まれる核酸は、所定の長さ以上に増幅された核酸を含む、請求項1~14のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
  16. 前記小区画に含まれる前記ライブラリーは、前記核酸のリード配列から得られるコンティグ上のコード領域が1000bp以上である割合が5%以上である、請求項1~15のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
  17. 前記小区画に含まれる前記ライブラリーは、前記核酸のリード配列から得られるコンティグ上のコード領域における完全長遺伝子配列含有率が、20%以上、請求項1~16のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
  18. 前記小区画に含まれる前記ライブラリーは、前記核酸のリード配列から得られるコンティグ上のコード領域における完全長遺伝子配列含有率が、30%以上、請求項1~17のいずれか一項に記載の核酸のライブラリーまたは核酸のライブラリーの組み合わせ。
  19.  核酸のライブラリーの作製方法であって、以下の工程:
     2つ以上の細胞又は細胞様構造物を提供する工程、
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、及び
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
    を含むことを特徴とする、核酸ライブラリーの作製方法。
  20. 前記大区画はすべて前記容器に収容される、請求項19に記載の方法。
  21. 前記細胞又は細胞様構造物は懸濁液の状態で提供される、請求項19または20に記載の方法。
  22.  前記増幅の際、前記小区画に含まれる細胞又は細胞様構造物が溶解されたのち、前記細胞又は細胞様構造物中のゲノムを含む核酸が当該小区画内に溶出し、当該小区画内に保持されていることを特徴とする、請求項19~21のいずれか一項に記載の方法。
  23. 前記増幅産物を得る工程は、前記大区画に固有のバーコード配列を前記核酸に付加することを含む、請求項19~22のいずれか一項に記載の方法。
  24. 前記小区画を前記大区画に収容する工程は、所定の長さ以上に増幅された核酸以外を除くことを含む、請求項19~23のいずれか一項に記載の方法。
  25.  2つ以上の細胞又は細胞様構造物を含む試料が、単一の試料であることを特徴とする請求項19~24のいずれか一項に記載の方法。
  26.  2つ以上の細胞又は細胞様構造物を含む試料が、土壌(海底土壌を含む)、海水、河川水、湖沼水、糞便、唾液、皮膚、喀痰、汚泥(活性汚泥を含む)、産業排水、動植物由来の組織及び手術洗浄液からなる群から選択される1つ以上を含む、請求項19~25のいずれか一項に記載の方法。
  27.  1大区画に収容する小区画の数が、2以上であることを特徴とする、請求項19~26のいずれか一項に記載の方法。
  28.  1大区画に収容する小区画の数が、5~15であることを特徴とする、請求項19~27のいずれか一項に記載の方法。
  29.  前記細胞又は細胞様構造物は、2種類以上含まれる、請求項19~28のいずれか一項に記載の方法。
  30.  1個以上若しくは1種類以上が、2~3個若しくは2~3種類である請求項19~29のいずれか一項のいずれかに記載のメタゲノムライブラリーの作製方法。
  31.  前記小区画がゲル化液滴、液滴又は被覆液滴である、請求項19~30のいずれか一項に記載の方法。
  32.  前記ゲル化液滴が、アガロース、アクリルアミド、光硬化性樹脂、ポリエチレングリコール、ゼラチン、アルギン酸ナトリウム、マトリゲル、コラーゲン及びヒドロゲルからなる群から選択されるいずれかのゲル化材料によりゲル化される、請求項19~31のいずれか一項に記載の方法。
  33.  前記ゲル化液滴が、直径約1~250μmである請求項19~32のいずれか一項に記載の方法。
  34.  前記小区画を生成する工程が、前記細胞又は細胞様構造物懸濁液中にゲル化能を有する成分を予め含有させた上で、当該ゲル化能を有する細胞又は細胞様構造物懸濁液をマイクロ流路中に流動させ、オイルで該懸濁液をせん断することにより行われる請求項19~33のいずれか一項に記載の方法。
  35.  大区画が、マイクロプレートのウェル又はマイクロチューブである請求項19~34のいずれか一項に記載の方法。
  36.  細胞又は細胞様構造物中の核酸配列の分析方法であって、以下の工程:
     2つ以上の細胞又は細胞様構造物を提供する工程、
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、、塩基配列決定に供する容器に収容する工程、
     前記増幅産物の塩基配列を決定する工程、及び
     前記工程で得られた塩基配列を分析する工程
     必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程
     必要に応じて遺伝子をコードする領域を分析する工程
    を包含する、細胞又は細胞様構造物中の核酸配列の分析方法。
  37. 前記大区画はすべて前記容器に収容される、請求項36に記載の方法。
  38.  前記増幅産物を得る工程は、前記大区画に固有のバーコード配列を前記核酸に付加することを含む、請求項36または37に記載の分析方法。
  39.  前記増幅産物を含む小区画を、より少数の区画に合わせることを含む、請求項36~38のいずれか一項に記載の分析方法。
  40.  前記増幅産物を含む小区画を、1つの区画に合わせることを含む、請求項36~38のいずれか一項に記載の分析方法。
  41.  前記増幅産物について、所定の長さ以上に増幅された核酸のみを選別することをさらに包含する、請求項36~40のいずれか一項に記載の分析方法。
  42.  前記遺伝子をコードする領域を分析する工程は、完全長遺伝子配列率を算出することを含む、請求項36~41のいずれか一項に記載の分析方法。
  43.  メタゲノムの分析方法であって、以下の工程:
     前記メタゲノムを構成する2つ以上の細胞又は細胞様構造物を提供する工程、
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
     前記小区画中の増幅産物の塩基配列を決定する工程、及び
     前記工程で得られた塩基配列を分析し、メタゲノムの核酸配列情報を取得する工程
     必要に応じて前記塩基配列がコードするアミノ酸配列を分析する工程、および
     必要に応じて遺伝子をコードする領域を分析する工程
    を包含する、方法。
  44.  細胞又は細胞様構造物中の核酸配列の分析システムであって、以下:
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する小区画生成部、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する核酸溶解部、
     前記核酸に接触させて前記核酸を前記小区画内で増幅して増幅産物を得るために用いられる核酸増幅用試薬を収容する増幅用試薬収納部、
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個収容する収容部、
     前記小区画中の増幅産物の塩基配列を決定する塩基配列決定部、及び
     前記工程で得られた塩基配列を分析する塩基配列分析部
     必要に応じて前記塩基配列がコードするアミノ酸配列を分析するアミノ酸配列分析部
     必要に応じて遺伝子をコードする領域を分析するコード領域分析部
    を包含する、細胞又は細胞様構造物中の核酸配列の分析システム。
  45.  前記増幅産物の塩基配列の決定が、同時並列的になされる、請求項36~43のいずれか一項に記載の方法、または請求項44に記載の分析システム。
  46.  1又は複数個が、96以上である、請求項36~43もしくは45のいずれか一項に記載の方法、または請求項44もしくは45に記載の分析システム。
  47.  塩基配列の決定が、次世代シーケンサーを用いて実施される請求項36~43もしくは45~46のいずれか一項に記載の方法、または請求項44~46のいずれか一項に記載の分析システム。
  48.  細胞又は細胞様構造物中の遺伝子をコードする核酸配列及び/または該核酸配列がコードするアミノ酸配列の取得方法であって、以下の工程:
     2つ以上の細胞又は細胞様構造物を提供する工程、
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
     前記増幅産物の塩基配列を決定する工程、
     前記工程で得られた塩基配列を分析する工程、及び
     前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程
    を包含する、方法。
  49.  細胞又は細胞様構造物中の遺伝子をコードする配列のデータベースの作成方法であって、以下の工程:
     2つ以上の細胞又は細胞様構造物を提供する工程、
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、、塩基配列決定に供する容器に収容する工程、
     前記増幅産物の塩基配列を決定する工程、
     前記工程で得られた塩基配列を分析する工程
     前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程、及び
     前記遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列、ならびに必要に応じて細胞又は細胞様構造物に関する情報を用いて、遺伝子をコードする配列のデータベースを作成する工程
    を包含する、方法。
  50.  細胞又は細胞様構造物中の遺伝子をコードする配列を構成するデータ構造の生成方法であって、以下の工程:
     2つ以上の細胞又は細胞様構造物を提供する工程、
     前記細胞又は細胞様構造物から、1個以上の細胞又は細胞様構造物を含む小区画を生成する工程、 
     前記細胞又は細胞様構造物中の核酸が前記小区画内に溶出し、かつ、保持されるように前記小区画に含まれる細胞又は細胞様構造物を溶解する工程、
     必要に応じて、前記核酸を核酸増幅用試薬に接触させて前記核酸を前記小区画内で増幅して増幅産物を得る工程、
     必要に応じて、前記増幅産物を含む小区画を含む前記大区画を1個又は複数個、塩基配列決定に供する容器に収容する工程、
     前記増幅産物の塩基配列を決定する工程、
     前記工程で得られた塩基配列を分析する工程
     前記塩基配列において、遺伝子をコードする領域を分析し、遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列を取得する工程、及び
     前記遺伝子をコードする核酸配列および/または前記核酸配列がコードするアミノ酸配列、ならびに必要に応じて細胞又は細胞様構造物に関する情報で規定される、遺伝子をコードする配列のデータ構造を生成する工程
    を包含する、方法。
  51.  請求項49に記載される方法で生成されたデータベース。
  52.  前記データベースは、請求項49に記載される方法で生成されたことを示す情報を含む、請求項50に記載のデータベース。
  53.  前記データベースは、完全長遺伝子配列率を項目として含む、請求項51または52に記載のデータベース。
  54.  前記データベースは、含まれる遺伝子をコードする核酸配列および/またはアミノ酸配列の完全長遺伝子配列率が20%以上である、請求項51~53のいずれか一項に記載のデータベース。
  55.  請求項50に記載される方法で生成されたデータ構造。
  56.  前記データ構造は、請求項50に記載される方法で生成されたことを示す情報を含む、請求項55に記載のデータ構造。
  57.  前記データ構造は、完全長遺伝子配列率を項目として含む、請求項55または56に記載のデータ構造。
  58.  前記データ構造は、含まれる遺伝子をコードする核酸配列および/またはアミノ酸配列の完全長遺伝子配列率が20%以上である、請求項55~57のいずれか一項に記載のデータ構造。
  59. 前記データベースまたはデータ構造は、コード配列に関する項目を含み、前記コード配列に関する項目は、ゲノムデータベースまたはメタゲノムデータベースの作成の際に使用されるコンティグと連結される、請求項51~58のいずれか一項に記載のデータベースまたはデータ構造。
  60. 前記コード配列に関する項目は、完全長遺伝子かどうかを識別する項目を含む、請求項59に記載のデータベースまたはデータ構造。
  61.  請求項48に記載の方法で取得された遺伝子をコードする核酸配列もしくはアミノ酸配列、請求項49に記載の方法で生成されたデータベース、請求項50に記載される方法で生成されたデータ構造、請求項51~54、57~60のいずれか一項に記載のデータベース、または請求項55~60のいずれか一項に記載のデータ構造を用いて、対象となるアミノ酸または核酸の配列を分析する工程を包含する、アミノ酸または核酸の配列を分析する方法。
  62.  前記分析する工程は、コンティグをビニングして、ゲノムまたはメタゲノムのデータベースを生成することを包含する、請求項61に記載のアミノ酸または核酸の配列を分析する方法。
  63.  核酸分子の保存方法であって、請求項19~35に記載の核酸のライブラリーの作製方法の最終工程の後に、さらに、小区画が収容された大区画を、そのまま又はDNA分解を抑制する物質を添加後、室温以下で保存する工程を含むことを特徴とする、核酸分子の保存方法。
  64. 前記核酸分子は、微生物のものである請求項63に記載の方法。
  65.  室温以下が、4℃以下である請求項63または64に記載の方法。
  66.  室温以下が、-20℃以下である請求項63~65のいずれか一項に記載の方法。
  67.  室温以下が、-80℃以下である請求項63~66のいずれか一項に記載の方法。
PCT/JP2023/036256 2022-10-04 2023-10-04 遺伝子配列の高効率取得法 WO2024075787A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-160265 2022-10-04
JP2022160265 2022-10-04

Publications (1)

Publication Number Publication Date
WO2024075787A1 true WO2024075787A1 (ja) 2024-04-11

Family

ID=90608041

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/036256 WO2024075787A1 (ja) 2022-10-04 2023-10-04 遺伝子配列の高効率取得法

Country Status (1)

Country Link
WO (1) WO2024075787A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018524568A (ja) * 2015-06-03 2018-08-30 スフィア フルイディクス リミテッドSphere Fluidics Limited システムおよび方法
JP2018538527A (ja) * 2015-11-10 2018-12-27 イルミナ インコーポレイテッド 慣性液滴生成および粒子封入
WO2019216271A1 (ja) * 2018-05-07 2019-11-14 bitBiome株式会社 シングルセル解析を行う方法およびそのための装置
JP2020519303A (ja) * 2017-03-13 2020-07-02 ギガジェン,インコーポレイティッド 単一細胞の大規模並行コンビナトリアル分析のためのシステム及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018524568A (ja) * 2015-06-03 2018-08-30 スフィア フルイディクス リミテッドSphere Fluidics Limited システムおよび方法
JP2018538527A (ja) * 2015-11-10 2018-12-27 イルミナ インコーポレイテッド 慣性液滴生成および粒子封入
JP2020519303A (ja) * 2017-03-13 2020-07-02 ギガジェン,インコーポレイティッド 単一細胞の大規模並行コンビナトリアル分析のためのシステム及び方法
WO2019216271A1 (ja) * 2018-05-07 2019-11-14 bitBiome株式会社 シングルセル解析を行う方法およびそのための装置

Similar Documents

Publication Publication Date Title
US20220333185A1 (en) Methods and compositions for whole transcriptome amplification
US20190203204A1 (en) Methods of De Novo Assembly of Barcoded Genomic DNA Fragments
EP2971097B1 (en) Generating cell-free dna libraries directly from blood
JP7542570B2 (ja) 単一細胞を封入する方法、封入された細胞およびその使用
US20200131506A1 (en) Systems and methods for identification of nucleic acids in a sample
CN112334578A (zh) 进行单细胞分析的方法及其装置
WO2024075787A1 (ja) 遺伝子配列の高効率取得法
Korfhage et al. Parallel WGA and WTA for comparative genome and transcriptome NGS analysis using tiny cell numbers
US20230019117A1 (en) Decentralized workflows for single cell analysis
RU2793717C2 (ru) Способы инкапсулирования одиночных клеток, инкапсулированные клетки и способы их применения
US20240018584A1 (en) Long indexed-linked read generation on transposome bound beads
Bajaj et al. MICROBIAL GENOMICS
Karri et al. Insights on the New-Generation Technologies and Role of Bioinformatics Tools to Understand Microbiome Research and the Microbial World
Münch et al. Single-cell transcriptomics and data analyses for prokaryotes—Past, present and future concepts
CN105803534A (zh) 集成样品制备系统和稳定的酶混合物

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23874912

Country of ref document: EP

Kind code of ref document: A1