WO2024150685A1 - ゲノムまたはメタゲノム解析のための内部標準核酸 - Google Patents

ゲノムまたはメタゲノム解析のための内部標準核酸 Download PDF

Info

Publication number
WO2024150685A1
WO2024150685A1 PCT/JP2023/046978 JP2023046978W WO2024150685A1 WO 2024150685 A1 WO2024150685 A1 WO 2024150685A1 JP 2023046978 W JP2023046978 W JP 2023046978W WO 2024150685 A1 WO2024150685 A1 WO 2024150685A1
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
sequence
seq
artificial
acid sequence
Prior art date
Application number
PCT/JP2023/046978
Other languages
English (en)
French (fr)
Inventor
勇地 関口
ディーター トゥールース
明子 大橋
Original Assignee
国立研究開発法人産業技術総合研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2023003917A external-priority patent/JP2024100144A/ja
Application filed by 国立研究開発法人産業技術総合研究所 filed Critical 国立研究開発法人産業技術総合研究所
Publication of WO2024150685A1 publication Critical patent/WO2024150685A1/ja

Links

Images

Definitions

  • the present invention relates to an internal standard nucleic acid for genome or metagenomic analysis.
  • microorganisms live in all kinds of environments, including natural environments such as soil and oceans, the intestines of animals, and human living spaces such as homes. In many cases, they are established in each environment while maintaining a unique composition, and such a collection of microorganisms is called the microbiome.
  • NGS next-generation sequencing
  • whole-genome shotgun metagenomic analysis is used.
  • 16S rRNA gene analysis comprehensively sequences the PCR products obtained by amplifying the 16S rRNA gene in the microbiome, while whole-genome shotgun metagenomic analysis comprehensively sequences the entire genomic DNA in the microbiome, which allows comprehensive analysis of the functional genes present in the microbiome and reveals the functions of the entire microbiome.
  • Whole genome shotgun metagenomic analysis involves the steps of extracting total genomic DNA from the microbiota, randomly fragmenting the total genomic DNA, sequencing the fragments, assembling the resulting fragment sequences (sequence reads) into a series of continuous sequences (contigs), and mapping the reads to the genome sequence estimated by the assembly, thereby quantifying the relative abundance of genes in the microbiota.
  • this quantification result is only relative and does not allow for estimation of the absolute abundance of the detected microbial groups or functional genes.
  • the above process involves technical biases, which must be accurately understood and corrected in order to obtain correct results.
  • Non-Patent Document 1 For absolute quantification and quality control, a method is known in which measurements are corrected using an exogenous nucleic acid (spike-in control) having a sequence not present in the sample as an internal standard, and standard nucleic acids consisting of artificial nucleic acid sequences that do not exist in nature have been developed (Patent Document 1, Non-Patent Document 1).
  • bioinformatics tools for evaluating the quality of assemblies such as CheckM (Parks et al., Genome Research, 2015, 25(7):1043-55), usually provide accurate estimates of genome completeness and contamination based on the presence or absence of specific single-copy marker genes in the assembled contigs, and therefore cannot evaluate the quality of the assembly of standard nucleic acids that do not contain such gene sequences.
  • GC content fluctuates the sequencing coverage and reduces the accuracy of the assembly (GC bias)
  • GC bias standard nucleic acids for rigorously evaluating GC bias are also desired.
  • the present invention aims to provide an internal standard nucleic acid for evaluating the quality of an assembly in genome or metagenomic analysis.
  • the GC content of the artificial nucleic acid sequence is preferably 30 to 60%.
  • the artificial nucleic acid sequence is preferably selected from the group consisting of SEQ ID NOs: 17 to 22.
  • the partial fragment sequence is preferably at least 300 nucleotides in length.
  • the present invention provides a nucleic acid molecule comprising an artificial nucleic acid sequence of SEQ ID NO: 23 and/or its complementary sequence, or a partial fragment sequence thereof.
  • the nucleic acid molecule of the present invention is composed of an artificial nucleic acid sequence that does not exist in nature, but has an artificial gene sequence that can be recognized by tools such as CheckM. Therefore, the nucleic acid molecule of the present invention makes it possible to evaluate the quality of an assembly based on the presence or absence of a single-copy marker gene, which is currently commonly used.
  • the nucleic acid molecule of the present invention has an artificial nucleic acid sequence in which the GC content is strictly controlled. Therefore, the nucleic acid molecule of the present invention makes it possible to strictly evaluate the effect of GC bias on assembly.
  • nucleic acid molecule according to the present invention, absolute quantification of genes present in a microbiome becomes possible.
  • FIG. 1 is a schematic diagram showing a procedure for generating an artificial nucleic acid sequence including an artificial CDS, using seqHMM3501 as an example.
  • FIG. 2A shows the layout of 16 artificial CDSs in seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001 and seqHMM04.
  • FIG. 2B shows the GC content in seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001 and seqHMM04.
  • FIG. 2C shows the GC content in seqRANDOM01.
  • FIG. 2D shows the pairwise sequence identity of seqHMM5002 and seqHMM5003.
  • FIG. 2A shows the layout of 16 artificial CDSs in seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001 and seqHMM04.
  • FIG. 2B shows the GC content in seqHMM3501, seq
  • FIG. 3A shows the relationship between the proportion of artificial nucleic acid sequences recovered by assembly and the coverage depth when seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001, seqHMM04, and seqRANDOM01 were individually analyzed.
  • FIG. 3B shows the relationship between the number of marker genes detected from artificial nucleic acid sequences recovered by assembly and the coverage depth when seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001, seqHMM04, and seqRANDOM01 were individually analyzed.
  • FIG. 3A shows the relationship between the proportion of artificial nucleic acid sequences recovered by assembly and the coverage depth when seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001, seqHMM04, and seqRANDOM01 were individually analyzed.
  • FIG. 4 shows the completeness of the assembly when analyzing an equimolar mixture of seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001, seqHMM04 and seqRANDOM01.
  • FIG. 5A is a plot showing relative coverage and GC content along positions in seqHMM04 and seqRANDOM01.
  • FIG. 5B is a scatter plot showing the relationship between relative coverage and GC content along positions in seqHMM04 and seqRANDOM01.
  • FIG. 6 is a plot showing the abundance (measured and estimated) of each artificial nucleic acid in two mixtures containing different ratios of seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001, seqHMM04, and seqRANDOM01.
  • FIG. 7 is a plot showing the relative ratio (actual and estimated) of artificial nucleic acids spiked into a human fecal microbiota DNA sample to human fecal microbiota DNA.
  • the artificial nucleic acid sequence in the nucleic acid molecule of this embodiment contains, as a component (1), one copy each of artificial genes encoding the following sequences (a) to (p):
  • X represents any amino acid residue.
  • artificial genes encoding sequences (a) to (p) will be referred to as “artificial genes (a) to (p)."
  • the artificial genes (a) to (p) in this embodiment may be composed of any coding sequence as long as the conserved amino acids are maintained, but it is preferable to take into consideration the codon bias, homopolymer length and GC content in prokaryotes.
  • any codon may be selected, and an appropriate codon may be selected taking into consideration the codon bias, homopolymer length and GC content in prokaryotes.
  • the stop codon may be any of the ochre codon (TAA), amber codon (TAG) or opal codon (TGA), but it is preferable to use the ochre codon in consideration of the codon bias in prokaryotes.
  • the artificial genes (a) to (p) may be arranged in any order.
  • they may be arranged in alphabetical order from 5' to 3', such as artificial gene (a), artificial gene (b), and artificial gene (c), or they may be arranged in random order, such as artificial gene (f), artificial gene (a), and artificial gene (k).
  • the artificial nucleic acid sequence in the nucleic acid molecule of this embodiment includes, as a component (2), an artificial intergenic sequence for linking the artificial genes (a) to (p).
  • the artificial intergenic sequence is a random sequence that does not exist in nature and is 10 to 60 nucleotides long, preferably 30 to 50 nucleotides long.
  • the artificial intergenic sequence is independently composed of a random sequence for each intergenic region, and may have different lengths. Although the artificial intergenic sequence is random, it is preferable that the homopolymer length and GC content are taken into consideration.
  • the artificial nucleic acid sequence in the nucleic acid molecule of this embodiment includes a tip spacer sequence and a terminal spacer sequence as components (3). Specifically, a tip spacer sequence is added upstream of the artificial genes (a) to (p) linked by the artificial intergenic sequence, and a terminal spacer sequence is added downstream.
  • the tip spacer sequence and the terminal spacer sequence are composed of random sequences that do not exist in nature and are 200 to 400 nucleotides long, preferably 250 to 300 nucleotides long.
  • the tip spacer sequence and the terminal spacer sequence are each independently composed of a random sequence, and may each have a different length.
  • the tip spacer sequence and the terminal spacer sequence are random, but it is preferable that the homopolymer length and GC content are taken into consideration.
  • the GC content of the artificial nucleic acid sequence consisting of the above components (1) to (3) is preferably 30 to 60%.
  • the GC content may be consistent over the entire length of the artificial nucleic acid sequence, or may vary.
  • the artificial nucleic acid sequence may have a GC content of about 30% over the entire length, or may have a region with a GC content of about 30% and a region with a GC content of about 60%.
  • the artificial nucleic acid sequences include the nucleic acid sequences of SEQ ID NOs: 17 to 22.
  • the nucleic acid sequences of SEQ ID NOs: 17 to 22 contain artificial genes (a) to (p) in alphabetical order in the 5' to 3' direction, contain artificial intergenic sequences of 42 nucleotides each consisting of an independent random sequence between each gene, and contain a leading spacer sequence and a terminal spacer sequence of 271 nucleotides each consisting of an independent random sequence.
  • the nucleic acid molecule of this embodiment comprises the above artificial nucleic acid sequence and/or its complementary sequence. That is, the nucleic acid molecule of this embodiment may be either single-stranded or double-stranded. Furthermore, the nucleic acid molecule of this embodiment is preferably composed of DNA, but may also contain modified nucleic acid of about 1 to 3 base pairs at, for example, the terminus.
  • the nucleic acid molecule of this embodiment may include the full length of the artificial nucleic acid sequence and/or its complementary sequence, or may include a partial fragment sequence.
  • the partial fragment sequence may be, for example, at least 300 nucleotides long, preferably 1,000 nucleotides or more long, and more preferably 3,000 nucleotides or more long. In other words, it is preferable that the partial fragment sequence includes, for example, at least one artificial gene, preferably five or more long, and more preferably eight or more long.
  • the nucleic acid molecule of this embodiment may be a nucleic acid consisting of only an artificial nucleic acid sequence and/or its complementary sequence or a partial fragment sequence thereof, or may be a nucleic acid consisting of only an artificial nucleic acid sequence and/or its complementary sequence or a partial fragment sequence thereof cloned into a vector.
  • Vectors that can be used in this embodiment are not particularly limited, and may be, for example, plasmid vectors such as pUC19, pT7Blue, and pGEM, fosmid vectors, BAC vectors, etc.
  • the nucleic acid molecule of this embodiment can be easily prepared by any conventionally known nucleic acid synthesis method.
  • the nucleic acid molecule of this embodiment may be used by adding it to the sample to be analyzed at an appropriate time.
  • the nucleic acid molecule of this embodiment may be added to the sample before the nucleic acid is extracted, in which case it is possible to control the accuracy of the entire analysis from genomic DNA extraction to assembly.
  • the nucleic acid molecule of this embodiment may be added to a nucleic acid solution extracted from a microbiome sample, in which case it is possible to evaluate the quality of the assembly alone.
  • a specific type of nucleic acid molecule of this embodiment or multiple types with different sequences may be added to the sample.
  • the sample to be analyzed may include any cell, tissue, microbiota, etc., but preferably includes a microbiota.
  • a microbiota is a collection of multiple microorganisms present in a particular environment, and may be composed of, for example, at least 100, 300, 500, 700, 1,000, or more types of microorganisms.
  • the types of microorganisms that compose the microbiota are not particularly limited, and may be any classification of microorganisms, such as bacteria, fungi, protozoa, and viruses, and may include not only known microorganisms but also unknown microorganisms.
  • the nucleic acid molecule of this embodiment is a standard nucleic acid that is compatible with general assembly performance evaluation tools based on single-copy marker gene information, such as CheckM, and is useful for precise assembly performance evaluation in (metagenomic) analysis.
  • the present invention is a nucleic acid molecule comprising an artificial nucleic acid sequence of SEQ ID NO: 23 and/or its complementary sequence or a partial fragment sequence thereof.
  • the nucleic acid molecule of this embodiment may be either single-stranded or double-stranded. Also, like the nucleic acid molecule of the first embodiment, the nucleic acid molecule of this embodiment is preferably composed of DNA, but may contain modified nucleic acid of about 1 to 3 base pairs at the end, for example.
  • the nucleic acid molecule of this embodiment may be a nucleic acid consisting of only the full length or partial fragment sequence of the artificial nucleic acid sequence and/or its complementary sequence, or may be a nucleic acid that has been cloned into a vector.
  • the partial fragment sequence may be, for example, at least 300 nucleotides long, preferably 1,000 nucleotides long or more, more preferably 3,000 nucleotides long or more.
  • the nucleic acid molecule of this embodiment may be prepared and used in the same manner as the nucleic acid molecule of the first embodiment.
  • the nucleic acid molecule of this embodiment is a standard nucleic acid having an artificial nucleic acid sequence with a strictly controlled GC content, and is useful for precise evaluation of assembly performance in (metagenomic) analysis, in particular for evaluation of the effect of GC bias on assembly performance.
  • seqHMM3501, seqHMM5001, seqHMM5002, seqHMM5003, seqHMM6001, and seqHMM04 which share the same order of the artificial CDSs and the conserved amino acid residues encoded by the artificial CDSs (see SEQ ID NOs: 1 to 16), but differ in the remaining portions (random sequences).
  • FIG. 2A The layout of the 16 artificial CDSs in the artificial nucleic acid sequence is shown in Figure 2A, and the GC content in each sequence is shown in Figure 2B.
  • seqHMM04 was designed to have different GC contents in different regions.
  • seqHMM5002 and seqHMM5003 were designed to contain regions with varying degrees of sequence similarity to each other to mimic sequence heterogeneity between closely related species.
  • the pairwise sequence identities of seqHMM5002 and seqHMM5003 are shown in Figure 2D.
  • the artificial nucleic acids consisting of the sequences of SEQ ID NOs: 17 to 23 were chemically synthesized by GenScript Japan Co., Ltd.
  • the artificial nucleic acids were inserted into a plasmid vector (pUC57), and the plasmid was amplified and purified by standard procedures.
  • the restriction enzyme sites introduced at the ends of the artificial nucleic acid sequences were cut, and the artificial nucleic acids were separated and purified by agarose gel electrophoresis.
  • a sequence library was prepared for an equimolar mixture of artificial nucleic acids consisting of sequences of SEQ ID NOs: 17 to 23 using DNA Prep kit (Illumina), and sequencing was performed using the NextSeq system (Illumina) (2 x 151 bp sequencing reads). Following quality control and sequencing read sampling using fastp, the reads were assembled using the default settings of SPAdes.
  • Figure 5A shows plots of relative coverage (black line) and GC content (gray line) along positions in seqHMM04 and seqRANDOM01.
  • Figure 5B also shows a scatter plot of the relative coverage and GC content in Figure 5A. It was found that there was a strong correlation between sequencing coverage and GC content, and that the coverage of high GC content regions was underestimated. This result indicates that seqHMM04 and seqRANDOM01 are useful for assessing GC bias.
  • the results are shown in Figure 6.
  • the X-axis shows the estimated abundance (relative value) of each artificial nucleic acid
  • the Y-axis shows the measured abundance (relative value) of each artificial nucleic acid.
  • the results are shown in Figure 7.
  • the X-axis shows the estimated relative ratio of the artificial nucleic acid to the human fecal microbiota DNA based on the concentration calculation
  • the Y-axis shows the relative ratio of the artificial nucleic acid to the human fecal microbiota DNA based on the actual measurement value.
  • the relative ratio based on the actual measurement value was consistent with the estimated value based on the calculation.

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(1)天然に存在しない配列(a)~(p)をコードする人工遺伝子の各1コピー;(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる先端スペーサー配列および終端スペーサー配列からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子を提供する。

Description

ゲノムまたはメタゲノム解析のための内部標準核酸
 本発明は、ゲノムまたはメタゲノム解析のための内部標準核酸に関する。
 土壌や海洋などの自然環境、動物の腸内、住宅などの人間の生活空間といったあらゆる環境中に、多様な微生物が生息している。多くの場合、それらはそれぞれの環境において固有の構成を保って定着しており、このような微生物の集合は微生物叢と呼ばれる。微生物叢の解析には、次世代シーケンシング(NGS)による16S rRNA遺伝子解析または全ゲノムショットガンメタゲノム解析が用いられている。16S rRNA遺伝子解析は、微生物叢中の16S rRNA遺伝子を増幅したPCR産物を網羅的に配列決定するのに対し、全ゲノムショットガンメタゲノム解析は、微生物叢中の全ゲノムDNAを網羅的に配列決定し、その結果、微生物叢中に存在する機能遺伝子を包括的に解析することができ、微生物叢全体の持つ機能を明らかにすることができる。
 全ゲノムショットガンメタゲノム解析は、微生物叢から全ゲノムDNA抽出し、全ゲノムDNAをランダムに断片化し、断片を配列決定し、得られた断片配列(配列リード)を一つながりの連続配列(コンティグ)へとアセンブルし、アセンブリにより推定されたゲノム配列に対してリードをマッピングする工程を含み、それにより微生物叢中の遺伝子の相対量を定量化する。しかし、この定量結果は相対的なものに過ぎず、検出された微生物群や機能遺伝子の絶対量を推定することはできない。さらに、上記工程には技術的バイアスを伴うため、正しい結果を得るためには、そのようなバイアスを正確に把握し、補正する必要がある。
 絶対定量および精度管理のために、試料中に存在しない配列を有する外因性核酸(スパイクインコントロール)を内部標準として測定値を補正する手法が知られており、天然に存在しない人工核酸配列からなる標準核酸が開発されている(特許文献1、非特許文献1)。しかし、CheckM(Parks et al.,Genome Research,2015,25(7):1043-55)に代表されるアセンブリの品質を評価するためのバイオインフォマティクスツールは、通常、アセンブルされたコンティグ内の特定のシングルコピーマーカー遺伝子の有無に基づいてゲノムの完全性(コンプリートネス)と汚染度(コンタミネーション)の正確な推定値を提供するため、上記のような遺伝子配列を含まない標準核酸のアセンブリの品質を評価することができない。また、GC含量はシーケンシングのカバレッジを変動させ、アセンブリの精度を低下させることが知られており(GCバイアス)、GCバイアスを厳密に評価するための標準核酸も望まれている。
国際公開第2017/165864
Hardwick et al.,2018,Nature Communications,Vol.9,Article No:3096
 本発明は、ゲノムまたはメタゲノム解析におけるアセンブリの品質を評価するための内部標準核酸を提供することを目的としてなされたものである。
 本発明者らは、鋭意研究の結果、アセンブリの品質を精密に評価することができる人工核酸を作出することに成功した。
 すなわち、本発明は、一実施形態によれば、(1)天然に存在しない以下の配列(a)~(p)をコードする人工遺伝子の各1コピー:(a)配列番号1のアミノ酸配列および終止コドン、(b)配列番号2のアミノ酸配列および終止コドン、(c)配列番号3のアミノ酸配列および終止コドン、(d)配列番号4のアミノ酸配列および終止コドン、(e)配列番号5のアミノ酸配列および終止コドン、(f)配列番号6のアミノ酸配列および終止コドン、(g)配列番号7のアミノ酸配列および終止コドン、(h)配列番号8のアミノ酸配列および終止コドン、(i)配列番号9のアミノ酸配列および終止コドン、(j)配列番号10のアミノ酸配列および終止コドン、(k)配列番号11のアミノ酸配列および終止コドン、(l)配列番号12のアミノ酸配列および終止コドン、(m)配列番号13のアミノ酸配列および終止コドン、(n)配列番号14のアミノ酸配列および終止コドン、(o)配列番号15のアミノ酸配列および終止コドン、ならびに(p)配列番号16のアミノ酸配列および終止コドン;(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる、先端スペーサー配列および終端スペーサー配列からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子を提供するものである。
 前記人工核酸配列のGC含量は、30~60%であることが好ましい。
 前記人工核酸配列は、配列番号17~22からなる群から選択されるものであることが好ましい。
 前記部分断片配列は、少なくとも300ヌクレオチド長であることが好ましい。
 また、本発明は、一実施形態によれば、配列番号23の人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子を提供するものである。
 前記部分断片配列は、少なくとも300ヌクレオチド長であることが好ましい。
 本発明に係る核酸分子は、一実施形態によれば、天然に存在しない人工核酸配列から構成されながら、CheckMなどのツールによって認識可能な人工遺伝子配列を有する。そのため、本発明に係る核酸分子によれば、現在一般的に採用されているシングルコピーマーカー遺伝子の有無に基づくアセンブリの品質評価が可能となる。
 また、本発明に係る核酸分子は、一実施形態によれば、GC含量が厳密に制御された人工核酸配列を有する。そのため、本発明に係る核酸分子によれば、アセンブリに対するGCバイアスの影響を厳密に評価することが可能となる。
 また、本発明に係る核酸分子を用いることにより、微生物叢中に存在する遺伝子の絶対定量が可能となる。
図1は、seqHMM3501を例として、人工CDSを含む人工核酸配列の生成手順を示す概略図である。 図2Aは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001およびseqHMM04における16個の人工CDSのレイアウトを示す図である。 図2Bは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001およびseqHMM04におけるGC含量を示す図である。 図2Cは、seqRANDOM01におけるGC含量を示す図である。 図2Dは、seqHMM5002およびseqHMM5003のペアワイズ配列同一性を示す図である。 図3Aは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01を個別に解析した場合における、アセンブリにより回収された人工核酸配列の割合とカバレッジ深度の関係を示す図である。 図3Bは、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01を個別に解析した場合における、アセンブリにより回収された人工核酸配列から検出されたマーカー遺伝子の数とカバレッジ深度の関係を示す図である。 図4は、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01の等モル混合物を解析した場合における、アセンブリの完全性を示す図である。 図5Aは、seqHMM04およびseqRANDOM01中の位置に沿った相対カバレッジおよびGC含量を示すプロットである。 図5Bは、seqHMM04およびseqRANDOM01中の位置に沿った相対カバレッジとGC含量との関係を示す散布図である。 図6は、seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001、seqHMM04およびseqRANDOM01を異なる比率で含む2種類の混合物における、各人工核酸の存在量(実測値と推定値)を示すプロットである。 図7は、ヒト糞便微生物叢DNA試料中に添加された人工核酸の、ヒト糞便微生物叢DNAに対する相対比率(実測値と推定値)を示すプロットである。
 以下、本発明を詳細に説明するが、本発明は本明細書中に説明した実施形態に限定されるものではない。
 本発明は、第一の実施形態によれば、(1)天然に存在しない以下の配列(a)~(p)をコードする人工遺伝子の各1コピー:(a)配列番号1のアミノ酸配列および終止コドン、(b)配列番号2のアミノ酸配列および終止コドン、(c)配列番号3のアミノ酸配列および終止コドン、(d)配列番号4のアミノ酸配列および終止コドン、(e)配列番号5のアミノ酸配列および終止コドン、(f)配列番号6のアミノ酸配列および終止コドン、(g)配列番号7のアミノ酸配列および終止コドン、(h)配列番号8のアミノ酸配列および終止コドン、(i)配列番号9のアミノ酸配列および終止コドン、(j)配列番号10のアミノ酸配列および終止コドン、(k)配列番号11のアミノ酸配列および終止コドン、(l)配列番号12のアミノ酸配列および終止コドン、(m)配列番号13のアミノ酸配列および終止コドン、(n)配列番号14のアミノ酸配列および終止コドン、(o)配列番号15のアミノ酸配列および終止コドン、ならびに(p)配列番号16のアミノ酸配列および終止コドン;(2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに(3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる、先端スペーサー配列および終端スペーサー配列からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子である。
 本実施形態の核酸分子における人工核酸配列は、構成要素(1)として、以下の配列(a)~(p)をコードする人工遺伝子を各1コピー含む。式中、Xは任意のアミノ酸残基を表す。
 (a)MXXKIKXGDXVXVIXGKXKGXXGXVXXVXXXXXXVIVEGVXXXKKXXKXXXXXXXXGXXXXXEXPIXXSNVXXXXXXXXXXXXVXXRXXXXXXKXRXXXXXGXXI(配列番号1)および終止コドン
 (b)MXXXIXXLXXXXXXXXXXXXFXXGXXVXVXXXIXEGXXXRXQXFXGXVIXXXXXGXXXXXXVXKXXXGXGVERXFXXXXXXIXXIXVXXXGXVXRAXLXYLRXXXGKXXKIKXXX(配列番号2)および終止コドン
 (c)MMAXXXRXXRVXXXIXXXIXXXLXXXIXDXXXXXXXVXXVEXSXDLXXXXVFVXXLXDXXXXXXXVXXLXXAXGFIXXXLXXXXXLXXXPXLXFXXDXSLXXXXRIXXLIXXLXXX(配列番号3)および終止コドン
 (d)MXXXFXXXPLXXGXGXTLGXXLRRVLLXXIXGXAIXXXXIXXXXXEFXXXXGVXEDVXXIIXNLKXLXXXXXXXXXXXXXXXXXXXXXXXXAXXXXXXXXXVEVXXXXXXIXXLXXXXXLXIXLXVXXGXGYXXXXXXXXXXXXXXXIXVDAXFXPVXXVXYXVXXXXXXXXXXXDXLXLXIXTXXXXXXXXALXXAXXXLXXXLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXIXXLDLSXRXXNCLXXXXIXXLXELVXXXXXXLXXXXNLGXKSXXEIXXXLXXXXLXLXXX(配列番号4)および終止コドン
 (e)MFXDXXXXXVXXGXGGXGXXXXXXEXYXXXGGPXGGXGGXGGXVXXXXXXXXXXLXXXXXXXXXXAXXGXXGXXXXXXGXXXXXXXIXVPXGXXVXXXXXXXXXXXXXXXXXXXXXXXGGXXGXGNXXFXXXXXXXPXXXXXGXXXXXXXLXLXLXXLADVGLVGXXXXGKSXLLXXXXXXXXXIXXYXFXTXXPXLGXXXXXXXXXXXXADIPGLIXXXXXGXGLGXXFLXHIXXXXXLXXLIXXXXXXXXXXXXXXXXXXXXLXXYXXXLXXXXXXXXXXKXDXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX(配列番号5)および終止コドン
 (f)MXXVAILGXXNXGKSTLLNXLXXXXXXIXSXXXXTTXXXIXGXXXXXXXQXIFIDTPGLXXXKXXXXXLLXKXIXXALXXVDLILFVVXXXXXXXXDXXLXXXLXXXXXXXXLXXXXXXXXXXXXXXXXXXXXXXXXXXXXIVXIXXXXXXXXXXXXXXXXXXLXXXXXXXPXDXVXDXXXXFXIXEXIREKILXXXXXEIPYXVXVXIXXXXXXXXXXXXIXXXIXVXRXSQKXIIIGXXGXXIKXIGXXXRXXLXXXXXXXVXLXLXVK(配列番号6)および終止コドン
 (g)MXXPKXXXXXKXXXXXXXGXXXXXXXVXFGXYXLXXXXXXXIXXXXIXXXXXALXRXVXXXXXLWXRIXXXXXXXXKPXXXRMGXGKGXXEXWXXXVXXGXVLFELXGVXXXXXXXALXXAXXKLPX(配列番号7)および終止コドン
 (h)MXLLVAVSGGXDSXXLLXXLXXXXXXXXXXXXAAXVDHXXRXXSXXXXXXVXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXARXXRYXXLXXXXXXXXXXXILTAHHXDDXIETILXXLXRGXXXXGLXGLXXXXXXXXXXXIXRPLLXXXKXEIXXXXXXXXLXXXXDXTNXXXXYXRNXIRXXLLP(配列番号8)および終止コドン
 (i)MINXXIXXXEVXXIXXXGXXXXIXXXXEALXXAXXXXLDLVXISXXXXXPVXKILDYGKYXYXXXKXXKXXKKXQXXIXVKEVXLXXXIXXXDXXXKXXXXXXFLXXGXXVKXXVXXXGRXXXXXXLXXXVLXXVXXXXXXXXXXXXXXXXXXXXXXXXLLXPXXX(配列番号9)および終止コドン
 (j)MXVXLXXLXXXXXXXGXXXXXXXPXXXXFIXXXRXXXXXIXLXXXXXXLXXXXXXVXXXXXXXXXILFVGTKXXXXXXVXXXAXXXXXXYVXXRWLGGXLXNXXTIXXXIXXLXXLXXXXXXXXXXXXXKKEXXXXXXXXXXLXXXLXGIXXLXXXPXXLXVXDXXXEXXAVXEAXXLXIPVVAXXDXNXXPXXVDXXIPXNXXXXXXXXLXXXXXXXXVXXXXXX(配列番号10)および終止コドン
 (k)MXXLXLXXXDXXXXXXXNXXYRXXDXXTDVLSFXXXXXXXXXXXXXXXXXGDLXISXXXVXXXAXXXXXXXXXXXXXLXXHGXLHLXGYDHXXXXXXXXMXXXEXXILXXXX(配列番号11)および終止コドン
 (l)MXXXXXXXXXXXRXWXXVDAXXXXLGRLAXXVAXXLXGKXKXXYXPXXDXGDXVIVINAXXVXLXGXKXXXKXYXXXSXXXGXXXXXXXXXLXXXXXXXXLXXAVXGXLPXXXLXXXXXXXLXVYXGXXXXXXAXXPXXXXX(配列番号12)および終止コドン
 (m)MXXXKXXRXXXXRXXLLRXXXXXLLXXXXIXTTXXKXXXXXXXVEXLITXAKXXXXXXXRXVXXXLXXXXXXXXLFXXIXXXYXXRXGGYTRILKXXXRXGDXAXXAXLELVD(配列番号13)および終止コドン
 (n)MXXXXXXXXVKXLRXXTXAXXXDCKXALXXXXXDLXXAXXXLRXXGXXXAXKKXXXXAXEGXVXXXXXXXXXXLVXIXXXTDFVAXXXXFXXLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXLXXXXAXXXEXIXVRRIXXXXXXXXXXIXXYXHXXXRIGVLVXXXXXXXXXXXXXLAMHVAAXXPXXLXXXXVXXXXVXXXXXIXXXXXXXXXXPXXIXXXXVXGRLXKXXXXIXLXXQXFVXXXXXXVXXXLXXXXXXVXXFXXXXVGEGIXKXXXXFXXEVXXXXXX(配列番号14)および終止コドン
 (o)MMKVILXEXVXXLGXXGDXXEVKXGYAXNFLIXKXXAXXXTXXXIXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXLXIXXKXXDXGXLFGXIXXXXIXDXVXXXXXXLXKXXIXLXXXXXXXXGXXXVXLXLXXEVXAXLXVXVXXX(配列番号15)および終止コドン
 (p)MXLXXLXXXXXXXXXXXXVGRGXGSGXGXTXGXGXKGXXARXXXXXXXXFEGGXXPLXXRLPXXGXXXXXXXXXXXVXVXXXXXXXXXXXXVXXXXLXXXXXIXXXXXXVKVLXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX(配列番号16)および終止コドン
 以下、配列(a)~(p)をコードする人工遺伝子を「人工遺伝子(a)~(p)」と記載する。
 本実施形態における人工遺伝子(a)~(p)は、保存アミノ酸が維持されている限り任意のコーディング配列からなってよいが、原核生物におけるコドン偏位、ホモポリマー長およびGC含量が考慮されることが好ましい。また、保存アミノ酸に対応するコドンが複数ある場合には、いずれのコドンが選択されてもよく、原核生物におけるコドン偏位、ホモポリマー長およびGC含量を考慮して適切なコドンが選択され得る。同様に、終止コドンは、オーカーコドン(TAA)、アンバーコドン(TAG)またはオパールコドン(TGA)のいずれであってもよいが、原核生物におけるコドン偏位を考慮すると、オーカーコドンであることが好ましい。
 本実施形態の核酸分子において、人工遺伝子(a)~(p)は任意の順番で配置されてよく、例えば、5’→3’方向に、人工遺伝子(a)、人工遺伝子(b)、人工遺伝子(c)のようにアルファベット順に配置されてもよいし、人工遺伝子(f)、人工遺伝子(a)、人工遺伝子(k)のように順不同で配置されてもよい。
 本実施形態の核酸分子における人工核酸配列は、構成要素(2)として、人工遺伝子(a)~(p)を連結するための人工遺伝子間配列を含む。人工遺伝子間配列は、天然に存在しない10~60ヌクレオチド長、好ましくは30~50ヌクレオチド長のランダムな配列からなる。人工遺伝子間配列は、遺伝子間領域ごとにそれぞれ独立してランダムな配列からなり、長さもそれぞれ異なってよい。人工遺伝子間配列は、ランダムであるが、ホモポリマー長およびGC含量が考慮されることが好ましい。
 本実施形態の核酸分子における人工核酸配列は、構成要素(3)として、先端スペーサー配列および終端スペーサー配列を含む。具体的には、人工遺伝子間配列により連結された人工遺伝子(a)~(p)の上流に先端スペーサー配列、下流に終端スペーサー配列が付加される。先端スペーサー配列および終端スペーサー配列は、天然に存在しない200~400ヌクレオチド長、好ましくは250~300ヌクレオチド長のランダムな配列からなる。先端スペーサー配列および終端スペーサー配列は、それぞれ独立してランダムな配列からなり、長さもそれぞれ異なってよい。先端スペーサー配列および終端スペーサー配列は、ランダムであるが、ホモポリマー長およびGC含量が考慮されることが好ましい。
 上記構成要素(1)~(3)からなる人工核酸配列のGC含量は、30~60%であることが好ましい。この際、GC含量は、人工核酸配列の全長にわたって一貫していてもよいし、変化してもよい。例えば、人工核酸配列は、全長にわたって約30%のGC含量であってもよいし、GC含量が約30%の領域と約60%領域とを有してもよい。
 上記人工核酸配列の好ましい具体例としては、配列番号17~22の核酸配列を挙げることができる。配列番号17~22の核酸配列は、人工遺伝子(a)~(p)を5’→3’方向にアルファベット順に含み、各遺伝子間にそれぞれ独立してランダムな配列からなる42ヌクレオチド長の人工遺伝子間配列を含み、それぞれ独立してランダムな配列からなる271ヌクレオチド長の先端スペーサー配列および終端スペーサー配列を含む。
 本実施形態の核酸分子は、上記人工核酸配列および/またはその相補配列を含んでなる。すなわち、本実施形態の核酸分子は、1本鎖または2本鎖のいずれであってもよい。また、本実施形態の核酸分子は、DNAにより構成されることが好ましいが、例えば末端などに1~3塩基対程度の修飾核酸を含んでもよい。
 本実施形態の核酸分子は、上記人工核酸配列および/またはその相補配列の全長を含むものであってもよいし、部分断片配列を含んでなるものであってもよい。部分断片配列は、例えば、少なくとも300ヌクレオチド長、好ましくは1,000ヌクレオチド長以上、より好ましくは3,000ヌクレオチド長以上であってよい。言い換えれば、部分断片配列は、例えば、少なくとも1個、好ましくは5個以上、より好ましくは8個以上の人工遺伝子を含むことが好ましい。
 本実施形態の核酸分子は、人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列のみからなる核酸であってもよいし、人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列のみからなる核酸がベクターにクローニングされたものであってもよい。本実施形態において使用できるベクターは、特に限定されないが、例えば、pUC19、pT7BlueおよびpGEMなどのプラスミドベクター、フォスミドベクター、BACベクターなどであってよい。
 本実施形態の核酸分子は、従来公知の任意の核酸合成法により容易に調製され得る。
 本実施形態の核酸分子は、解析対象の試料に適切なタイミングで添加して用いればよい。例えば、本実施形態の核酸分子は、核酸を抽出する前の試料に添加されてよく、この場合には、ゲノムDNAの抽出からアセンブリまでの解析全体の精度管理が可能となる。あるいは、本実施形態の核酸分子は、微生物叢試料から抽出された核酸溶液に添加することができ、この場合には、アセンブリのみの品質評価が可能となる。本実施形態の核酸分子の特定の1種類または配列の異なる多種類を組み合わせて試料に添加することができる。
 解析対象の試料は、任意の細胞、組織、微生物叢などを含むものであってよいが、好ましくは微生物叢を含む。微生物叢とは、ある特定の環境中に存在する複数の微生物の集まりであり、例えば、少なくとも100種類、300種類、500種類、700種類、1,000種類、またはそれ以上の種類の微生物から構成され得る。微生物叢を構成する微生物の種類は特に限定されず、細菌、真菌、原生生物、ウイルスなどの任意の分類の微生物であってよく、既知の微生物のみならず、未知の微生物も含まれてよい。
 本実施形態の核酸分子は、CheckMに代表される、シングルコピーマーカー遺伝子情報に基づく一般的なアセンブリ性能評価ツールに対応した標準核酸であり、(メタ)ゲノム解析における精密なアセンブリ性能評価のために有用である。
 本発明は、第二の実施形態によれば、配列番号23の人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子である。
 本実施形態の核酸分子も、第一の実施形態の核酸分子と同様に、1本鎖または2本鎖のいずれであってもよい。また、本実施形態の核酸分子も、第一の実施形態の核酸分子と同様、DNAにより構成されることが好ましいが、例えば末端などに1~3塩基対程度の修飾核酸を含んでもよい。
 本実施形態の核酸分子も、第一の実施形態の核酸分子と同様に、上記人工核酸配列および/もしくはその相補配列の全長または部分断片配列のみからなる核酸であってもよいし、それらがベクターにクローニングされたものであってもよい。部分断片配列は、例えば、少なくとも300ヌクレオチド長、好ましくは1,000ヌクレオチド長以上、より好ましくは3,000ヌクレオチド長以上であってよい。
 本実施形態の核酸分子は、第一の実施形態の核酸分子と同様にして調製されてよく、かつ、使用されてよい。
 本実施形態の核酸分子は、GC含量が厳密に制御された人工核酸配列を有する標準核酸であり、(メタ)ゲノム解析における精密なアセンブリ性能評価、特に、アセンブリ性能に対するGCバイアスの影響の評価のために有用である。
 以下に実施例を挙げ、本発明についてさらに説明する。なお、これらは本発明を何ら限定するものではない。
<1.人工核酸配列の設計および合成>
(1-1)人工CDSを含む人工核酸配列(配列番号17~22)の設計
 CheckMなどのバイオインフォマティクスツールは、原核生物に普遍的な、1ゲノムに1コピーのみ存在する遺伝子(シングルコピー遺伝子)のセットをマーカーとして用い、推定されたゲノム配列におけるマーカーの有無に基づいてアセンブルの品質を評価する。そのため、本実施例では、以下の表1に示す16種類のマーカー遺伝子から、Prodigal(Hyatt et al.,BMC Bioinformatics,2010,11:119)のような一般的な遺伝子推定アルゴリズムで認識可能な人工コーディング配列(CDS)を生成した。
 表1.人工CDSの生成に用いたマーカー遺伝子
Figure JPOXMLDOC01-appb-T000001
 各マーカー遺伝子から、隠れマルコフモデル(HMM)に基づいて抽出されたコンセンサス配列における保存アミノ酸残基を検索し、対応するDNA配列(3ヌクレオチドコドン)に逆翻訳した。各マーカー遺伝子におけるそれ以外の部分をランダムなアミノ酸残基をコードするDNA配列により置換し、保存アミノ酸残基をコードするDNA配列と組み合わせ、開始コドン(ATG)および停止コドン(TAA)を付加し、人工CDSを得た。人工CDSをランダムなDNA配列(遺伝子間領域)により連結することにより、10kヌクレオチド長の人工核酸配列を生成した。人工核酸配列の生成手順の概略を図1に示す。
 人工CDSの並び順および人工CDSがコードする保存アミノ酸残基(配列番号1~16参照)が共通し、それ以外の部分(ランダム配列)が異なる6種類の人工核酸配列seqHMM3501、seqHMM5001、seqHMM5002、seqHMM5003、seqHMM6001およびseqHMM04を生成した。
 seqHMM3501(配列番号17)
Figure JPOXMLDOC01-appb-C000002
Figure JPOXMLDOC01-appb-C000003
Figure JPOXMLDOC01-appb-C000004
Figure JPOXMLDOC01-appb-C000005
 seqHMM5001(配列番号18)
Figure JPOXMLDOC01-appb-C000006
Figure JPOXMLDOC01-appb-C000007
Figure JPOXMLDOC01-appb-C000008
Figure JPOXMLDOC01-appb-C000009
 seqHMM5002(配列番号19)
Figure JPOXMLDOC01-appb-C000010
Figure JPOXMLDOC01-appb-C000011
Figure JPOXMLDOC01-appb-C000012
Figure JPOXMLDOC01-appb-C000013
 seqHMM5003(配列番号20)
Figure JPOXMLDOC01-appb-C000014
Figure JPOXMLDOC01-appb-C000015
Figure JPOXMLDOC01-appb-C000016
Figure JPOXMLDOC01-appb-C000017
 seqHMM6001(配列番号21)
Figure JPOXMLDOC01-appb-C000018
Figure JPOXMLDOC01-appb-C000019
Figure JPOXMLDOC01-appb-C000020
Figure JPOXMLDOC01-appb-C000021
 seqHMM04(配列番号22)
Figure JPOXMLDOC01-appb-C000022
Figure JPOXMLDOC01-appb-C000023
Figure JPOXMLDOC01-appb-C000024
Figure JPOXMLDOC01-appb-C000025
 上記人工核酸配列における16個の人工CDSのレイアウトを図2Aに、各配列におけるGC含量を図2Bに示す。seqHMM04は、領域ごとにGC含量が異なるように設計された。seqHMM5002とseqHMM5003は、近縁種間の配列異質性を模倣するために、互いの配列類似度が変化する領域を含むように設計された。seqHMM5002およびseqHMM5003のペアワイズ配列同一性を図2Dに示す。
(1-2)GC含量が厳密に制御された人工核酸配列(配列番号23)の設計
 アセンブリにおけるGCバイアスの影響を正確に評価するために、人工CDSを含まない完全ランダム配列からなり、GC含量が厳密に制御された人工核酸配列seqRANDOM01を生成した。人工核酸配列seqRANDOM01におけるGC含量を図2Cに示す。
 seqRANDOM01(配列番号23)
Figure JPOXMLDOC01-appb-C000026
Figure JPOXMLDOC01-appb-C000027
Figure JPOXMLDOC01-appb-C000028
Figure JPOXMLDOC01-appb-C000029
 配列番号17~23のすべての人工核酸配列は、NCBIなどの公開データベース中に登録の塩基配列と無視できるほどの類似性しか有しないことを確認した(BLASTによる期待値(E-value)が0.1以上の類似度を示す配列は検出されなかった)。
 配列番号17~23の配列からなる人工核酸をジェンスクリプトジャパン株式会社に委託して化学的に合成した。人工核酸をプラスミドベクター(pUC57)に挿入し、プラスミドを通常の手順により増幅し、精製した。人工核酸配列の末端に導入された制限酵素部位を切断し、アガロースゲル電気泳動により人工核酸を分離し、精製した。
<2.人工核酸のアセンブリ性能(1)>
 TruSeq DNA Nano kit(イルミナ)を用いて、配列番号17~23の配列からなる人工核酸のそれぞれについて個別にシーケンスライブラリを作製し、MiSeqシステム(イルミナ)でシーケンシングを行った(2×251bpシーケンシングリード)。fastp(Chen et al.,Bioinformatics,2018,34:i884-i890)を用いたクオリティコントロールの後、カバレッジに変化を持たせるようにシークエンシングリードをランダムにサンプリングし、2つのアセンブラ:MEGAHIT(Li et al.,Bioinformatics,2015,31:1674-1676)およびSPAdes(Bankevich et al.,J.Comput.Biol.,2012,19:455-477)のデフォルト設定によりアセンブルした。
 アセンブリにより回収された人工核酸配列の割合を図3Aに示す。MEGAHIT(左)およびSPAdes(右)のいずれの結果も、カバレッジ深度とアセンブリの完全性との間にシグモイド関係があることを示し、また、最小限のカバレッジ(10×)でも完全なアセンブルが達成されたことを示した。
 QUAST(Gurevich et al.,Bioinformatics,2013,29:1072-1075)およびCheckMにより検出された、アセンブリにより回収された人工核酸配列中のマーカー遺伝子の数を図3Bに示す。なお、seqRANDOM01はCheckM解析から省略された。最小限のカバレッジ(10×)でも16遺伝子すべてが検出されており、この結果からも、完全なアセンブルが達成されたことが示された。
 これらの結果から、配列番号17~23の配列からなる人工核酸がアセンブリの完全性の評価に有用であることが確認された。
<3.人工核酸のアセンブリ性能(2)>
 DNA Prep kit(イルミナ)を用いて、配列番号17~23の配列からなる人工核酸の等モル混合物についてシーケンスライブラリを作製し、NextSeqシステム(イルミナ)でシーケンシングを行った(2×151bpシーケンシングリード)。fastpを用いたクオリティコントロールおよびシークエンシングリードのサンプリングに続いて、SPAdesのデフォルト設定によりリードをアセンブルした。
 結果を図4に示す。図中、グレーの濃淡はアセンブルされた人工配列と予想される人工配列との配列同一性を表し、99.9%以上の同一性を有する領域が黒の実線により強調されている。配列が相互に類似しないseqHMM3501、seqHMM5001、seqHMM6001、seqHMM04およびseqRANDOM01はいずれも、単一コンティグとしてアセンブルされた。この結果から、これらの配列がアセンブリ性能の評価に適していることが示された。一方、seqHMM5002およびseqHMM5003は、高い配列類似性のために共アセンブルし、断片化されたアセンブリとなった。この結果から、seqHMM5002およびseqHMM5003は、アセンブリ性能に対する配列類似性を評価するために有用であることが示された。
<4.人工核酸によるGCバイアスの評価>
 領域ごとにGC含量が異なるように設計された人工核酸seqHMM04(配列番号22)およびseqRANDOM01(配列番号23)のそれぞれについて、上記3と同様の手順によりシーケンスライブラリを作製し、シーケンシングを行った。シークエンシングリードをもとに、BBMap(https://www.osti.gov/biblio/1241166)によりカバレッジを算出した。
 seqHMM04およびseqRANDOM01中の位置に沿った相対カバレッジ(黒線)とGC含量(灰色線)のプロットを図5Aに示す。また、図5Bは、図5Aにおける相対カバレッジおよびGC含量を散布図で提示する。シーケンシングのカバレッジとGC含量との間には強い相関があり、GC含量の高い領域のカバレッジは少なく見積もられることが明らかになった。この結果から、seqHMM04およびseqRANDOM01はGCバイアスを評価するために有用であることが示された。
<5.人工核酸の定量性能>
 配列番号17~23の配列からなる人工核酸を異なる比率で含む2種類の混合物を調製し、上記3と同様の手順により、シーケンスライブラリを作製し、シーケンシングを実施し、シークエンシングリードをサンプリングした。
 結果を図6に示す。X軸は、推定された各人工核酸の存在量(相対値)、Y軸は、測定された各人工核酸の存在量(相対値)を示す。人工核酸からのリード数を定量したところ、いずれの混合物においても、推定存在量と実測存在量との間に優れた一致が見られた。
 次いで、ヒト糞便微生物叢DNA試料に、配列番号17~23の配列からなる人工核酸の等モル混合物を異なる質量比(0.3%、1%、3%、31%)において添加し、上記3と同様の手順により、シーケンスライブラリを作製し、シーケンシングを実施し、シークエンシングリードをサンプリングした。ヒト糞便微生物叢DNAは、既報論文(Tourlousse et al.,Microbiome,2021,9:95)を参考に、ヒト糞便からISOSPIN Fecal DNA kit(株式会社ニッポンジーン)を用いて調製した。
 結果を図7に示す。X軸は、濃度計算に基づくヒト糞便微生物叢DNAに対する人工核酸の推定された相対比率、Y軸は、実測値に基づくヒト糞便微生物叢DNAに対する人工核酸の相対比率を示す。実測値に基づく相対比率は、計算に基づく推定値と一致した。これらの結果から、配列番号17~23の配列からなる人工核酸が、微生物量の精密な絶対定量のための信頼できる内部標準として利用できるものであることが示された。

Claims (6)

  1.  (1)天然に存在しない以下の配列(a)~(p)をコードする人工遺伝子の各1コピー:
      (a)配列番号1のアミノ酸配列および終止コドン、
      (b)配列番号2のアミノ酸配列および終止コドン、
      (c)配列番号3のアミノ酸配列および終止コドン、
      (d)配列番号4のアミノ酸配列および終止コドン、
      (e)配列番号5のアミノ酸配列および終止コドン、
      (f)配列番号6のアミノ酸配列および終止コドン、
      (g)配列番号7のアミノ酸配列および終止コドン、
      (h)配列番号8のアミノ酸配列および終止コドン、
      (i)配列番号9のアミノ酸配列および終止コドン、
      (j)配列番号10のアミノ酸配列および終止コドン、
      (k)配列番号11のアミノ酸配列および終止コドン、
      (l)配列番号12のアミノ酸配列および終止コドン、
      (m)配列番号13のアミノ酸配列および終止コドン、
      (n)配列番号14のアミノ酸配列および終止コドン、
      (o)配列番号15のアミノ酸配列および終止コドン、ならびに
      (p)配列番号16のアミノ酸配列および終止コドン;
     (2)それぞれ独立して、天然に存在しない10~60ヌクレオチド長のランダムな配列からなる、前記人工遺伝子を連結するための人工遺伝子間配列;ならびに
     (3)それぞれ独立して、天然に存在しない200~400ヌクレオチド長のランダムな配列からなる、先端スペーサー配列および終端スペーサー配列
    からなる人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子。
  2.  前記人工核酸配列のGC含量が30~60%である、請求項1に記載の核酸分子。
  3.  前記人工核酸配列が、配列番号17~22からなる群から選択される、請求項1に記載の核酸分子。
  4.  前記部分断片配列が少なくとも300ヌクレオチド長である、請求項1~3のいずれか1項に記載の核酸分子。
  5.  配列番号23の人工核酸配列および/もしくはその相補配列またはそれらの部分断片配列を含んでなる核酸分子。
  6.  前記部分断片配列が少なくとも300ヌクレオチド長である、請求項5に記載の核酸分子。
     
PCT/JP2023/046978 2023-01-13 2023-12-27 ゲノムまたはメタゲノム解析のための内部標準核酸 WO2024150685A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023-003917 2023-01-13
JP2023003917A JP2024100144A (ja) 2023-01-13 ゲノムまたはメタゲノム解析のための内部標準核酸

Publications (1)

Publication Number Publication Date
WO2024150685A1 true WO2024150685A1 (ja) 2024-07-18

Family

ID=91897003

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/046978 WO2024150685A1 (ja) 2023-01-13 2023-12-27 ゲノムまたはメタゲノム解析のための内部標準核酸

Country Status (1)

Country Link
WO (1) WO2024150685A1 (ja)

Similar Documents

Publication Publication Date Title
US20210403991A1 (en) Sequencing Process
Urich et al. Simultaneous assessment of soil microbial community structure and function through analysis of the meta-transcriptome
JP2020511966A (ja) エラーが訂正された核酸配列決定への適用を伴う標的化核酸配列濃縮のための方法
US20100323348A1 (en) Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
Platonov et al. Molecular typing of Yersinia pestis
JP6125731B2 (ja) 核酸分子数計測法
Blow et al. Identification of ancient remains through genomic sequencing
KR101798229B1 (ko) 전장 리보솜 rna 서열정보를 얻는 방법 및 상기 리보솜 rna 서열정보를 이용하여 미생물을 동정하는 방법
Hung et al. The de novo assembly of mitochondrial genomes of the extinct passenger pigeon (Ectopistes migratorius) with next generation sequencing
US20230074210A1 (en) Methods for removal of adaptor dimers from nucleic acid sequencing preparations
Yang et al. A genome-phenome association study in native microbiomes identifies a mechanism for cytosine modification in DNA and RNA
WO2024150685A1 (ja) ゲノムまたはメタゲノム解析のための内部標準核酸
Leung et al. IDBA-MTP: a hybrid metatranscriptomic assembler based on protein information
JP2024100144A (ja) ゲノムまたはメタゲノム解析のための内部標準核酸
Singh et al. Next-generation sequencing technologies: approaches and applications for crop improvement
US10774377B1 (en) Use of unique molecular identifiers for improved sequencing of taxonomically relevant genes
De Maayer et al. The current state of metagenomic analysis
Baum New approaches and concepts to study complex microbial communities
Rusch et al. High-resolution phylogenetic and population genetic analysis of microbial communities with RoC-ITS
Nichols et al. Clade-specific long-read sequencing increases the accuracy and specificity of the gyrB phylogenetic marker gene
WO2024030342A1 (en) Methods and compositions for nucleic acid analysis
Hassan et al. Bioinformatics and In Silico Stimulations
US20210355526A1 (en) Molecular typing of microbes
Yang et al. Proxi-RIMS-seq2 applied to native microbiomes uncovers hundreds of known and novel m5C methyltransferase specificities.
Teixeira On assembling bacterial genomes from long reads: a case study in walnutassociated Xanthomonas spp.