WO2012037879A1 - 核酸标签及其应用 - Google Patents

核酸标签及其应用 Download PDF

Info

Publication number
WO2012037879A1
WO2012037879A1 PCT/CN2011/079901 CN2011079901W WO2012037879A1 WO 2012037879 A1 WO2012037879 A1 WO 2012037879A1 CN 2011079901 W CN2011079901 W CN 2011079901W WO 2012037879 A1 WO2012037879 A1 WO 2012037879A1
Authority
WO
WIPO (PCT)
Prior art keywords
gene expression
gex
library
digital gene
seq
Prior art date
Application number
PCT/CN2011/079901
Other languages
English (en)
French (fr)
Inventor
章文蔚
张艳艳
田方
于竞
龚梅花
汪建
Original Assignee
深圳华大基因科技有限公司
深圳华大基因研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大基因科技有限公司, 深圳华大基因研究院 filed Critical 深圳华大基因科技有限公司
Publication of WO2012037879A1 publication Critical patent/WO2012037879A1/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry

Definitions

  • the invention relates to the field of nucleic acid sequencing technology, in particular to the field of digital gene expression.
  • the invention relates to nucleic acid tags for use in establishing digital gene expressions and to their use. More specifically, the present invention provides a nucleic acid tag, an oligonucleotide, a digital gene expression profile tag library, a preparation method thereof, a method for establishing a digital gene expression language, and a plurality of samples for constructing a digital gene expression profile tag library.
  • Digital Gene Expression Profiling utilizes a new generation of high-throughput sequencing technology and high-performance computational analysis technology to enable comprehensive, economical, and rapid detection of specific tissues of a particular species.
  • the gene expression status in the state has been widely used in basic scientific research, medical research and drug research and development.
  • High-throughput sequencing enables the identification of millions of genes, and digitized sequence signals accurately and specifically reflect the true expression of the corresponding gene. This technique can even accurately detect rare transcripts as low as one or two copies and accurately quantify the expression levels of transcripts of up to 100,000 copies.
  • the digital gene expression profile data Since the sequence does not need to be designed in advance, the digital gene expression profile data has excellent real-time performance, and the digital gene expression profile can detect many unannotated genes and genomic sites, providing useful clues for discovering new genes. Advances in this technology have enabled scientists to more fully and accurately grasp the genome-wide gene expression.
  • Illumina's Solexa sequencing platform provides two methods for preparing a library of digital gene expression profiles, respectively, Preparing Samples for Digital Gene Expression-Tag Profiling with Nlalll. 2007 Illumina, Inc. Part # 1 1251702 Rev. A (sometimes referred to herein as "Method 1") and Preparing Samples for Digital Gene Expression-Tag Profiling with DpnII. 2007 Illumina, Inc. Part # 11251729 Rev. A (in this article Sometimes referred to as "method 2".
  • Method 2 for a detailed description of the two methods, reference is made to the related product specification of the Illumina Company, which is incorporated herein by reference in its entirety.
  • Method 1 the mRNA is first isolated from the total RNA of the sample, and then the mRNA is reverse transcribed into cDNA, followed by restriction endonuclease ⁇ (recognition of 5'-CATG-3'). Digestion treatment produces a fragment of interest (referred to as a cDNA fragment) with a specific sticky end.
  • GEX linker 1 herein also referred to as GEX Adapter 1
  • GEX Adapter 1 is ligated to the resulting fragment of interest with a specific sticky end.
  • the target fragment to which GEX linker 1 is ligated is subjected to restriction treatment with restriction endonuclease Me / (where restriction endonuclease specifically recognizes TCCRAC(N) 20 .
  • N A, T, G or C
  • GEX linker 2 also referred to herein as GEX adapter2
  • the terminal and the 3' end have a ligation product of GEX linker 1 and GEX linker 2, respectively.
  • the ligation product is amplified by a PCR reaction, and finally the amplified product is recovered by gelatinization to obtain a digital gene expression language library.
  • the procedure is basically the same as that of the method 1, except that after the cDNA is prepared, the cDNA is first digested by using (identifying 5'-GATC-3,) to produce a specific sticky end. Then, the GEX linker 1 is ligated by means of the specific cohesive terminus (the sequence of the GEX linker 1 is different from the DpII recognition site by the dry DpnII), and the other steps are the same as the method 1.
  • the inventors of the present application found that, in the above methods 1 and 2, only Solexa Single End (Ilumina) sequencing can be performed on a single library sample, and samples of a plurality of digital gene expression profiling libraries cannot be mixed and sequenced.
  • Solexa's sequencing throughput increases, the data produced by one sequencing lane is far greater than the data required to sequence the fragment of interest, so if Multiple library samples built cannot be mixed and sequenced, which will "was waste sequencing resources" and affect sequencing throughput.
  • the inventors of the present application found that: using the same RNA sample to construct a digital gene expression profiling library, the data output may have a bias problem, which may result in unreliable data results and cannot truly reflect the relevant information of the sample. It will also result in low repeatability of the experimental results.
  • a nucleic acid tag (herein, simply referred to as a "tag”) that can be used to construct a library of digital gene expression profiles is presented.
  • the invention proposes a set of isolated nucleic acid tags.
  • these isolated nucleic acid tags are each composed of the nucleotides shown in SEQ ID NOS: 1-12.
  • the source of the cDNA can be accurately characterized by linking the nucleic acid tag to the cDNA of the sample or its equivalent.
  • a digital gene expression profiling library (in this case, sometimes referred to as a "digital gene expression ⁇ tag library") of a plurality of samples can be simultaneously constructed, thereby enabling digital genes derived from different samples.
  • the expression library is sequenced after mixing, and the cDNA sequences of various samples can be classified based on nucleic acid tags, thereby obtaining cDNA sequence information of various samples, thereby making full use of high-throughput sequencing technologies, such as Using Solexa sequencing technology, a number of digital gene expression language libraries are simultaneously sequenced to improve the efficiency and throughput of digital gene expression profiling library sequencing.
  • the inventors have surprisingly found that the construction of a digital gene expression profiling library using a nucleic acid tag according to an embodiment of the present invention can effectively reduce the problem of data output bias and can accurately distinguish a plurality of digital gene expression profiling libraries.
  • the invention also provides a set of isolated oligonucleotides for introducing the above nucleic acid tag into the cDNA of the sample or an equivalent thereof.
  • a set of isolated oligonucleotides according to an embodiment of the invention having a first strand and a second strand, and wherein the first strand is SEQ ID NO: 13, 15, 17, 19, 21, 23, 25, respectively Nucleotides consisting of 27, 29, 31, 33 and 35, wherein the second strand is composed of SEQ ID NO: 14, 16, 18, 20, 22, 24, 26, 28, 30.
  • nucleotide composition of 36 wherein the SEQ ID NOs: 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, and 36 are respectively associated with SEQ ID NO: 13, 15 , 17, 19, 21, 23, 25, 27, 29, 31, 33 and 35 correspond.
  • these oligonucleotides in this specification, sometimes referred to as GEX tag linker 2 or GEX indexN adapter2 respectively have the nucleic acid tags according to the embodiments of the present invention as described above, and based on these The oligonucleotide has a sticky end, and thus, the corresponding nucleic acid tag can be introduced into the cDNA or its equivalent by a ligation reaction.
  • the first chain of Gex indexN adapter2 (also referred to herein as "sense sequence") and the second chain (herein sometimes referred to as "antisense sequence,”) are named Gex IndexN adapter2 F, respectively.
  • the sense sequence Gex indexN adapter2 F and its corresponding antisense sequence Gex can be used
  • the indexN adapter2 R is annealed to form the corresponding GEX tag joint 2.
  • Gex Index3 adapter2 R 5'-CAAGCAGAAGACGGCATACGAACAATGGTCANN-3 ' (18)
  • Gex Index4 adapter2 R 5 ' -C AAGCAGAAGACGGC ATACGAC AGTAGTCC ANN-3 ' (20)
  • Gex Index5 adapter2 F 5'-ACTTGATTCCTCGTATGCCGTCTTCTGCTTG-3 ' (21 )
  • Gex Index5 adapter2 R 5 -C AAGCAGAAGACGGC ATACGAGGAATCAAGT ⁇ -3 ' (22)
  • Gex Index6 adapter2 R 5 ' -C AAGCAGAAGACGGC ATACGACTGAGTAAC ANN-3 ' (24)
  • Gex Index7 adapter2 F 5'-TTAGATCAGGTCGTATGCCGTCTTCTGCTTG-3' (25)
  • Gex Index7 adapter2 R 5'-CAAGCAGAAGACGGCATACGACCTGATCTAANN-3' (26)
  • Gex Index9 adapter2 F 5'-CTCCTACTCTTCGTATGCCGTCTTCTGCTTG-3 ' (29)
  • Gex Index9 adapter2 R 5 '-CAAGCAGAAGACGGCATACGAAGAGTAGGAGNN-3 ' (30)
  • Gex Index 10 adapter2 R 5 ' -C AAGCAGAAGACGGC ATACGAGGATGTATAGNN-3 ' (32)
  • the nucleic acid tag can be efficiently introduced into the cDNA of the sample or In the equivalent, a digital gene expression profiling library with a tag can thus be constructed.
  • the inventors have surprisingly found that the stability and reproducibility of the resulting sequencing data results when constructing a library of digital gene expression profiles containing various nucleic acid tags using oligonucleotides with different tags for the same sample. very good.
  • a method of constructing a library of digital gene expression profile tags comprises: reverse transcription of mRNA into a corresponding cDNA fragment; adding a GEX linker 1 and a GEX tag linker 2 at the 5th and 3' ends of the cDNA fragment, respectively, to obtain a library fragment, wherein
  • the GEX tag linker 2 comprises one selected from the group of isolated nucleic acid tags according to embodiments of the invention described above, the library fragment comprising a GEX linker 1, a GEX linker 2, a segment of interest, and a tag, wherein the target fragment a sequence corresponding to the cDNA sequence of the sample; amplifying the library fragment to obtain an amplification product; and isolating and recovering the amplification product, the amplification product constituting the digital gene expression ⁇ tag library.
  • a nucleic acid tag according to an embodiment of the present invention can be efficiently introduced into a digital gene expression profile tag library constructed for sample cDNA.
  • the sequence of the cDNA of the sample gene and the sequence information of the nucleic acid tag can be obtained by sequencing the digital gene expression profile library, thereby distinguishing the source of the sample cDNA.
  • the inventors were surprised to find that when targeting the same sample,
  • the present invention also provides a digital gene expression ⁇ tag library obtained by a method of constructing a digital gene expression profile tag library according to an embodiment of the present invention.
  • the present invention also provides a method of establishing a digital gene expression profile.
  • a method of establishing a digital gene expression profile comprising: constructing a digital gene expression profile tag library according to a method of constructing a digital gene expression profile tag library according to an embodiment of the present invention; and sequencing the digital gene expression profile tag library to establish a Digital gene expression profiles.
  • the sequence information of the sample cDNA in the digital gene expression ⁇ tag library and the sequence information of the nucleic acid tag can be efficiently obtained, thereby enabling the source of the sample cDNA to be distinguished.
  • the inventors have surprisingly found that the construction of a digital gene expression profile by the method according to an embodiment of the present invention can effectively reduce the problem of data output bias and can accurately distinguish a plurality of digital gene expression profile libraries.
  • the present invention also provides a method of establishing a digital gene expression profile of a plurality of samples.
  • the method comprises the steps of: establishing a digital gene expression of the sample according to a method for establishing a digital gene expression ⁇ tag library according to an embodiment of the present invention, respectively, for each of the plurality of samples a library of digital gene expression profiles of different samples using nucleic acid tags of different and known sequences, wherein the plurality of samples are 2-12; combining digital gene expression profiling libraries of the plurality of samples, To obtain a mixture of digital gene expression language libraries; sequencing the digital gene expression profiling library mixture; and establishing digital gene expression enthalpies of the plurality of samples based on sequence information of the tags, respectively.
  • the method according to an embodiment of the present invention can make full use of high-throughput sequencing technology, for example, using Solexa sequencing technology, and simultaneously sequencing digital gene expression profiling libraries of various samples to improve sequencing of digital gene expression profiling libraries.
  • the efficiency and throughput of the sample can simultaneously increase the efficiency of digital gene expression in a variety of samples.
  • the kit comprises: 12 isolated oligonucleotides, the 12 isolated oligonucleotides having a first strand and a second strand, respectively, and the first strand is respectively composed of SEQ ID NO: nucleotide composition shown in 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33 and 35, the second strand is respectively composed of SEQ ID NO: 14, 16, 18 Numerals of 20, 22, 24, 26, 28, 30, 32, 34 and 36, wherein the SEQ ID NOs: 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34 and 36 correspond to SEQ ID NO: 13.15, 17, 19, 21, 23, 25, 27, 29, 3K 33 and 35, respectively, wherein the 12 isolated oligonucleotides are respectively Set in a different container.
  • a nucleic acid tag according to an embodiment of the present invention can be conveniently introduced into a constructed digital gene expression profiling library.
  • Figure 1 shows a flow diagram of two methods currently available for the preparation of a library of digital gene expression profiles (ie, Method 1 and Method 2) provided by Illumina's Solexa sequencing platform. Among them, Fig. 2 shows the flow chart of the first method, and Fig. 2A shows the flow chart of the second method.
  • FIG. 2 shows a schematic diagram of a method of establishing a library of digital gene expression profiling tags in accordance with an embodiment of the present invention.
  • Figure 3 shows a schematic representation of sequencing of a digital gene expression profiling library, Readl, in accordance with an embodiment of the present invention. Among them, Read 1 Seq Primer indicates sequencing primers.
  • Fig. 4 is a pie chart showing the results of a repetitive database construction test of a digital gene expression profile tag library according to Example 2 of the present invention.
  • Figure 5 shows the results of a repetitive database construction test of a digital gene expression profile tag library according to Example 2 of the present invention.
  • FIG. 6 shows the results of data correlation analysis between digital gene expression profiling libraries constructed using different nucleic acid tags (Indexl-Index4) in accordance with an embodiment of the present invention.
  • the invention proposes isolated nucleic acid tags.
  • these isolated nucleic acid tags are each composed of the nucleotide sequences shown in SEQ ID NOS: 1-12.
  • nucleic acid may be any polymer comprising deoxyribonucleotides or ribonucleotides, including but not limited to modified or unmodified DNA, RNA.
  • a nucleic acid tag is linked to a cDNA obtained from a sample or an equivalent thereof to obtain a tagged digital gene expression profile tag library, and by sequencing the digital gene expression profile tag library, The sequence of the cDNA and the sequence of the tag are obtained, and the source of the sample of the cDNA can be accurately characterized based on the sequence of the tag.
  • a digital gene expression profile tag library of a plurality of samples can be simultaneously constructed, thereby allowing a digital gene expression ⁇ tag library derived from different samples to be mixed and simultaneously sequenced, based on the nucleic acid tag to the sample.
  • the cDNA sequences are classified to obtain sequence information of cDNAs of various samples. This allows for the full use of high-throughput sequencing technologies, such as the use of Solexa sequencing technology to simultaneously sequence cDNA from multiple samples, thereby increasing the efficiency and throughput of digital gene expression profiling by high-throughput sequencing technology, reducing the establishment of The cost of a digital gene expression profile.
  • nucleic acid tag is linked to the cDNA obtained from the sample or its equivalent
  • the expression "nucleic acid tag is linked to the cDNA obtained from the sample or its equivalent” should be understood in a broad sense, including that the nucleic acid tag can be directly linked to the cDNA obtained from the sample to construct a library of digital gene expression tags, also
  • the nucleic acid having the same sequence as the cDNA obtained from the sample may be the corresponding RNA sequence, and the remaining DNA has the same sequence may be ligated.
  • a set of nucleic acid tags must be constructed to ensure reliable results and high reproducibility. That is, for the same RNA sample, a digital gene expression profile tag library constructed using different tags in the set of nucleic acid tags can be ensured, and consistent sequencing results can be obtained, thereby ensuring reliable and reproducible experimental results.
  • the inventors of the present application found that in the case where the labeling amount is less than 12 samples, the GT content of each base site on the mixed label must be considered. Because the excitation fluorescence of the bases G and T is the same in the Solexa sequencing process, the excitation lights of the bases A and C are the same, so the "balance" of the base “GT” content and the base “AC” content must be considered.
  • the base base “GT” content is 50%, which guarantees the highest label recognition rate and the lowest error rate.
  • the inventors of the present application conducted a large number of screening work, and selected a set of isolated nucleic acid tags according to an embodiment of the present invention, that is, having the nucleotide sequences shown in SEQ ID NOS: 1 to 12, respectively.
  • the sequence is as shown in Table 1 above, and will not be described again.
  • the inventors found that the difference between these tags is more than 5 bases, and when any one of the 10 bases of the tag has a sequencing error or a synthetic error, the final recognition of the tag is not affected.
  • These tags can be applied to the construction of any digital gene expression profiling library. There are currently no reports on the library construction of these tags for digital gene expression profiling samples and sequencing by Solexa.
  • the nucleic acid tag employed is a nucleic acid sequence of 10 bp in length, and the difference between the tags is more than 5 bases, the set of tags consisting of the following: At least 2, or at least 3, or at least 4, or at least 5, or at least 6, or at least 7, or at least 8, of the 12 tags shown or one column different therefrom Or at least 9, or at least 10, or at least 11, or all 12.
  • the set of labels preferably includes at least Index1 and Index2, or Index3 and Index4, or Index5 and Index6, or Index7 and Index8, of the 12 labels shown in Table 1. 9 and IndexlO, or 3 ⁇ 4 ( ⁇ 11 and ⁇ 1 ( ⁇ 12, or a combination of any two or more of them.
  • the difference of 1 base includes 12 shown in Table 1 One base substitution, addition or deletion in the sequence of the tags.
  • the invention also provides the use of a tag according to an embodiment of the invention for the construction and sequencing of a digital gene expression profiling library.
  • the tag is contained in the 5' end of the GEX linker 2, thereby constituting the corresponding corresponding GEX tag linker 2, which serves as the 3' junction of the digital gene expression profile tag library.
  • the tag is contained in the 5, end of the GEX linker 2, including the tag being connected to the 5' end of the GEX linker 2 with or without a linker, or inserted into the 5' end of the GEX linker 2, preferably It is not connected to the 5' end of the GEX connector 2 through a linker.
  • the invention provides a set of isolated oligonucleotides which can be used to introduce a nucleic acid tag as described above into a cDNA obtained from a sample, thereby constructing a library of digital gene expression profiling tags.
  • the invention provides a set of isolated oligonucleotides, each of the set of isolated oligonucleotides having a sticky end, and the isolated oligonucleotides having a first strand And the second chain.
  • the first strand is composed of nucleotides represented by SEQ ID NOs: 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33 and 35, respectively
  • the two strands are each composed of nucleotides represented by SEQ ID NOS: 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34 and 36, wherein SEQ ID NOs: 14, 16, 18 20, 22, 24, 26, 28, 30, 32, 34 and 36 correspond to SEQ ID NOS: 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33 and 35, respectively.
  • corresponding as used herein means that the nucleotides constituting the first strand and the nucleotides constituting the second strand are capable of pairing to form a stable dimer having a sticky end, and the second strand is formed.
  • Prominent, that is, sticky ends are formed on the second strand of each oligonucleotide.
  • SEQ ID NO: 13 is used as the first strand
  • SEQ ID NO: 14 is used as the second strand.
  • the corresponding oligonucleotides can be formed by annealing the first strand and the second strand constituting the corresponding oligonucleotide, respectively.
  • the above oligonucleotide according to an embodiment of the present invention is a nucleic acid tag which is contained in the terminal 5 of the GEX linker 2, and thus in the present invention, the above oligonucleotide is also referred to as a GEX tag linker 2.
  • oligonucleotides each have a nucleic acid tag according to an embodiment of the present invention as described above, and these oligonucleotides have sticky ends, and thus, the corresponding nucleic acid tag can be introduced into cDNA or its equivalent by a ligation reaction. 3, in the end.
  • sequences of these oligonucleotides are as shown in Table 1 above and will not be described herein.
  • the inventors have found that the oligonucleotide sequence (GEX tag linker 2) provided according to an embodiment of the present invention has higher stability, for example, see Example 4, by Lasergene software (http://www.dnastar. The com/) analysis tested the structural stability of these oligonucleotide sequences.
  • the invention provides a GEX tag linker 2 comprising a tag according to an embodiment of the invention at the 5' end, and preferably for use as a digital gene expression profile tag library 3' linker, said
  • the group GEX tag linker 2 comprises or consists of: 12 GEX tag linkers 2 shown in Table 1 or at least 2, or at least 3, or at least 4 of the linkers differing from the tag sequence contained therein by 1 base. , or at least 5, at least 6, or at least 7, or at least 8, or at least 9, or at least 10, or at least 11, or all 12.
  • the set of GEX tag joints 2 preferably includes at least Gex Index 1 adapter 2 F/R and Gex Index 2 adapter 2 F/R in the 12 GEX tag joints 2 shown in Table 1, or Gex Index3 adapter2 F/R and Gex Index4 adapter2 F/R, or Gex Index5 adapter2 F/R and Gex Index6 adapter2 F/R, or Gex Index7 adapter2 F/R and Gex Index8 adapter2 F/R, or Gex Index9 adapter2 F/ R and Gex Indexl O adapter2 F/R, or Gex lndexl l adapter2 F/R and Gex Indexl2 adapter2 F/R, or any two of them Combination of one or more.
  • a difference of 1 base includes a substitution, addition or deletion of 1 base in the tag sequence.
  • a GEX tag linker 2 for the construction and sequencing of a digital gene expression ⁇ tag library, which is used as a 3, linker for a digital gene expression ⁇ tag library.
  • a digital gene expression profiling library constructed using the GEX tag linker 2 described above is also provided, wherein the GEX tag linker 2 serves as a 3' linker for a library of digital gene expression profiling tags.
  • the method includes:
  • mRNA is reverse transcribed into the corresponding cDNA fragment.
  • the source of mRNA is not particularly limited.
  • the mRNA is from a eukaryote. More specifically, it can be from rice, mice or humans. The inventors have found that with the method according to an embodiment of the present invention, a digital gene expression profile tag library of a plurality of common model organisms can be efficiently constructed.
  • the step of extracting mRNA may be further included, specifically comprising extracting total RNA from the sample; and isolating the mRNA from the total RNA, wherein The sample is from eukaryotes.
  • GEX linker 1 and GEX tag linker 2 are respectively added to the 5th and 3rd ends of the obtained cDNA fragment to obtain a library fragment, wherein the GEX tag linker 2 comprises one selected from the above-described embodiments according to the present invention.
  • fragment of interest refers to a fragment obtained by a specific reaction treatment such as a reverse transcription reaction
  • sequence of the target fragment corresponds to the sequence of the cDNA, which means that the sequence of the fragment of interest can be directly Deriving cDNA and mRNA sequences, for example, the sequence of the target fragment may be identical to the sequence of the cDNA or mRNA, or may be completely complementary, or even increase or decrease the known number of known bases, as long as it can pass a limited
  • the sequence of cDNA and mRNA can be calculated.
  • the method of adding the GEX linker 1 at the 5' end of the cDNA fragment is not particularly limited.
  • the addition of the GEX linker 1 at the 5' end of the cDNA fragment comprises the following steps: First, the cDNA is subjected to a digestion reaction by a first restriction enzyme to obtain a viscosity of 5, The cDNA fragment at the end, followed by the cDNA fragment carrying the 5, sticky end, was ligated to the GEX linker 1, thereby obtaining a cDNA fragment to which the GEX linker was ligated.
  • cDNA may be subjected to restriction treatment with N/a/// or wH as a first restriction enzyme to obtain a cDNA fragment having a sticky end of 5.
  • the Mfl/H is different from the recognition site, and the resulting 5, sticky ends are also different, so the GEX joint 1 taken is also different.
  • the GEX linker 1 used is an oligonucleotide having the following sequence:
  • GEX linker 1 is an oligonucleotide having the following sequence:
  • the resulting library fragment is amplified to obtain an amplification product, and the amplified product is isolated and recovered, and the recovered amplification product constitutes a digital gene expression profile tag library according to an embodiment of the present invention.
  • the method of amplifying the library fragment is not particularly limited.
  • the obtained library fragment can be amplified by a PCR reaction. Those skilled in the art can determine the primers for performing the PCR reaction based on the sequence of the library fragments. According to a specific example of the present invention, efficient amplification can be achieved when the following PCR protocol is employed.
  • the PCR reaction is carried out using primers having nucleotide sequences as shown in SEQ ID NO: 39 and SEQ ID NO: 40, respectively, when using Mfl/
  • the PCR reaction is carried out using primers having nucleotide sequences as shown in SEQ ID NO: 39 and SEQ ID NO: 44, respectively.
  • the method of separating and recovering the amplified product is also not particularly limited, and those skilled in the art can select an appropriate one according to the characteristics of the amplified product.
  • the method and apparatus are separated, for example, by electrophoresis and recovery of a target fragment of a specific length.
  • a nucleic acid tag according to an embodiment of the present invention can be efficiently introduced into a digital gene expression ⁇ tag library constructed for sample cDNA.
  • sequence information of the sample cDNA and sequence information of the nucleic acid tag can be obtained, thereby distinguishing the source of the sample cDNA.
  • the inventors have surprisingly found that the stability of the resulting sequencing data results when constructing a library of digital gene expression profiles containing various nucleic acid tags using oligonucleotides having different tags for the same sample based on the above method. And repeatability is very good.
  • the kit comprises: 12 isolated oligonucleotides having a first strand and a second strand, respectively, and a sticky end formed on the second strand
  • the first strand consists of the nucleotides set forth in SEQ ID NO: 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33 and 35, respectively
  • the second strand is respectively composed of SEQ ID NO
  • the nucleotides are set in separate containers.
  • a nucleic acid tag according to an embodiment of the present invention can be conveniently introduced into a constructed digital gene expression profiling library.
  • a constructed digital gene expression profiling library can be conveniently introduced into a constructed digital gene expression profiling library.
  • other components for constructing a small molecular RNA library can also be included in the kit, and details are not described herein.
  • a digital gene expression profile tag library constructed according to the method of constructing a digital gene expression profile tag library of the present invention.
  • the tagged digital gene expression profiling library can be effectively applied to high-throughput sequencing technologies such as Solexa technology, so that the obtained nucleic acid sequence information such as cDNA sequence information can be accurately classified by sample source by obtaining a tag sequence.
  • the present invention also provides a method of establishing a digital gene expression.
  • the method comprises: constructing a digital gene expression profile tag library according to a method for constructing a digital gene expression profile tag library according to an embodiment of the present invention; and then, sequencing the constructed digital gene expression profile tag library to The digital gene expression profile is established. Based on this method, the sequence information of the sample cDNA in the digital gene expression profile tag library and the sequence information of the nucleic acid tag can be efficiently obtained, thereby enabling the source of the sample cDNA to be distinguished.
  • the constructed digital gene expression tag library can be sequenced by any known method, and the type thereof is not particularly limited.
  • a digital gene expression profiling library can be sequenced using Solexa sequencing technology. Referring to Figure 3, sequencing can be performed using a sequencing primer (Readl Seq Primer), which is first sequenced to obtain the sequence of the target fragment, followed by the sequence of the nucleic acid tag corresponding to the source.
  • sequencing can be carried out using a primer having a nucleotide sequence as shown in SEQ ID NO: 45.
  • sequencing can be carried out using a primer having a nucleotide sequence as shown in SEQ ID NO: 41.
  • the inventors have found that this enables more efficient sequencing.
  • the present invention provides a method of establishing a digital gene expression profile for a plurality of samples.
  • the method comprises the steps of: establishing a digital gene expression library of the sample according to the method for establishing a digital gene expression profile tag library according to an embodiment of the present invention, respectively, for each of the plurality of samples
  • the digital gene expression profiling libraries of different samples employ nucleic acid tags of different and known sequences, and the terms used herein are variously 2-12.
  • a library of digital gene expression profiles of various samples was combined to obtain a mixture of digital gene expression libraries. By sequencing the digital gene expression profiling library mixture, the corresponding labeling sequence is obtained.
  • the present invention provides a method of constructing and sequencing a digital gene expression tag library comprising:
  • RNA sample is from any eukaryotic RNA sample, including but not limited to rice, mouse and human RNA a sample, which separates mRNA from total RNA samples and reverse transcribes mRNA into cDNA;
  • the cDNA fragment obtained by the above step 2) is digested by 3' restriction endonuclease to generate a cDNA fragment having a 3' cohesive end, including but not limited to Mmel, then ligating the GEX tag linker 2 to a cDNA fragment carrying a 3, cohesive end by a ligation reaction to obtain a library fragment;
  • nucleic acid sequences employed in the examples of the present application are as follows:
  • Gex Adapter 1A (also known as Gex linker 1 A ) is an oligonucleotide having the sequences shown in SEQ ID NOS: 37 and 38, respectively:
  • Gex PCR Primer 1 also known as Gex PCR Primer 1:
  • Gex PCR Primer 2A also known as Gex PCR Primer 2A
  • Gex Sequencing Primer 1 A also known as Gex Sequencing Primer 1A
  • Gex Adapter IB also known as Gex Connector IB
  • Gex Connector IB has the order shown in SEQ ID NO: 42 and 43 respectively
  • Gex PCR Primer 1 also known as Gex PCR Primer 1
  • Gex PCR Primer 2B also known as Gex PCR Primer 2B
  • Gex Sequencing Primer IB also known as Gex Sequencing Primer I B .
  • the sequence is shown in Table 1, and will not be described here.
  • mice liver RNA as a material, 12 different digital gene expression profile tags 2 as shown in Table 1 were used to construct 12 mouse expression profile tag libraries with different tags.
  • AAA GA G,i ACTTGATT C CACA GTCTGGATCGTATGCCGTCTTCTGCTTG
  • Embodiment 2 Using the rice leaf RNA as a material, two tag libraries were constructed in parallel using Gex Index 11 adapter2 in the same manner as in Example 1, and the data stability of the tag library output was detected.
  • the method steps of Embodiment 2 are basically the same as Embodiment 1, except that Mcr/H is used instead of /wH in Embodiment 2, and Gex Connector 1 corresponding to M /// is correspondingly used, that is, Gexadapterl B is used for Gexadapterl A, and The primer was Gex PCR Primer 2B instead of Gex PCR Primer 2A.
  • the target fragment was sequenced by Solexa sequencing.
  • the sequencing primer used was Gex Sequencing PrimerlB (Gex Sequencing Primer IB).
  • Example 4 shows the results of a repetitive database construction test of a digital gene expression profile tag library according to Example 2 of the present invention.
  • Fig. 5 shows the results of a repetitive database construction test of a digital gene expression profile tag library according to Example 2 of the present invention.
  • the standard analysis method of digital gene expression profiling [for example, see Audic S. et al. The significance of digital gene expression profiles. Genome Res. 1997 7(10): 986-995, which is incorporated herein by reference in its entirety, Determine the gene expression level represented by TPM ( Transcripts Per Million clean reads).
  • the ⁇ algorithm is: The number of original Clean Tags contained in each gene / the total number of clean T s in the sample * 1,000,000.
  • the correlation coefficient of the two base expressions the pearson coefficient (sometimes called pearson r), can be calculated.
  • Example 3 Using Arabidopsis leaf RNA as a material, based on the same method as in Example 2, several tag libraries with different tags were constructed to analyze the stability of the data between the tag libraries.
  • the method steps of Example 3 were essentially the same as in Example 2 except that 4 ⁇ g of Arabidopsis total RNA was used as the sample in Example 2. After the final concentration was detected, the target fragment was sequenced by Solexa using the sequencing primer for Gex Sequencing Primer 1B (Gex Sequencing Primer IB).
  • the digital gene expression profiling library constructed according to this method was sequenced using Illumina's Solexa sequencing platform.
  • the data analysis results are shown in Table 2. The data were normal and there was no significant difference.
  • Figure 6 shows the results of data correlation analysis between digital gene expression profile tag libraries constructed using different nucleic acid tags (Indexl-Index4) according to this example.
  • the abscissa of the figure shows that the gene expression of different expression profile library is taken as the logarithm of 10
  • the ordinate shows that the gene expression of the same sample standard expression library is taken as the logarithm of 10, and then calculated. Correlation coefficient between the expression levels of the two genes. The higher the reproducibility of the two, the closer the pearson coefficient is to 1.
  • the 12 GEX label connectors 2 shown in Table 1 were tested and tested for stability by Lasergene software (available, for example, from http: ⁇ www.dnastar.com/).
  • the 12 GEX tag connectors 2 shown in Table 1 consist of two columns, Gex IndexN adapter2 F and Gex IndexN adapter2 R.
  • the sequence of + N indicates the number of the index, which is 1-12. The number of turns.
  • Use Lasergene's PrimeSelect software for example, to analyze Gex Index 1 adapter 2, and enter Gex Index 1 adapter 2 F and Gex Index 1 adapter 2 R into "Enter New Primer” respectively, and judge by dividing the energy value between the two sequences.
  • the affinity parameter between the duplexes the greater the absolute value of the energy value, the more stable the scaffold of the duplex, and the energy values of the affinity of the 12 Gex Index adapte are analyzed, respectively, at 50 kal/mol or more. The most stable double-stranded structure is obtained, indicating that the structure formed by the 12-gauge Gex IndexN adapter 2 is very stable.
  • Nucleic acid tag, oligonucleotide, digital gene expression profile tag library and preparation method thereof, digital gene expression profile and establishment method thereof, and digital gene expression consultation for establishing various samples for constructing digital gene expression mislabeled library of the present invention The method and kit for constructing a library of digital gene expression profiles can be applied to the establishment of a digital gene expression profile and can effectively improve the sequencing throughput of a sequencing platform, such as the Solexa sequencing platform.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Wood Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Microbiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Computing Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

核酸标签及其应用 优先权信息
本申请请求 2010 年 9 月 21 日向中国国家知识产权局提交的、 专利申请号为 201010299248.4的专利申请的优先权和权益, 并且通过参照将其全文并入此处。
技术领域
本发明涉及核酸测序技术领域, 特别是数字基因表达 i普技术领域。 具体的, 本发明 涉及用于建立数字基因表达语的核酸标签及其应用。更具体的,本发明提供了用于构建 数字基因表达谱标签文库的核酸标签、寡核苷酸、数字基因表达谱标签文库及其制备方 法、建立数字基因表达语的方法、建立多种样品的数字基因表达谱的方法以及用于构建 数字基因表达谱文库的试剂盒。
背景技术
数字基因表达谱( Digital Gene Expression Profiling , 在本文中有时筒称为 DGE )利 用新一代高通量测序技术和高性能计算分析技术, 能够全面、 经济、 快速地检测某一物 种的特定组织在特定状态下的基因表达情况, 目前已被广泛应用于基础科学研究、 医学 研究和药物研发等领域。 利用高通量测序能够得到数百万个基因的特异标签, 而数字化 的序列信号可以准确、特异地反映对应基因的真实表达情况。这种技术甚至可以精确地 检测低至一两个拷贝的稀有转录本, 并精确定量高达十万个拷贝的转录本的表达量变 化。 由于序列无需事先设计, 数字基因表达谱数据具有极佳的实时性, 数字基因表达谱 可以检测到许多未曾注释的基因和基因组部位, 为发现新基因提供了有用线索。这一技 术的进步使得科学家能够更加全面、 准确地把握全基因组的基因表达情况。
然而, 目前建立数字基因表达谱的方法, 仍有待改进。
发明内容
本发明是基于发明人的下列发现而完成的: 目前 Illumina公司的 Solexa测序平台提 供了两种用于制备数字基因表达谱文库的方法, 分別为 Preparing Samples for Digital Gene Expression-Tag Profiling with Nlalll. 2007 Illumina, Inc. Part # 1 1251702 Rev. A (在 本文中有时简称为 "方法一" ) 和 Preparing Samples for Digital Gene Expression-Tag Profiling with DpnII. 2007 Illumina, Inc. Part # 11251729 Rev. A(在本文中有时简称为 "方 法二")。 关于该两种方法的详细描述, 可以参见 Illumina公司的相关产品说明书, 在此 将其全文通过参照并入本文。 简言之, 参考图 1A, 在方法一, 首先从样品总 RNA中分 离 mRNA, 然后将 mRNA逆转录成 cDNA , 接着通过限制性内切酶 ΝΙαΙΠ (识别 5'-CATG-3' ) 对 cDNA进行酶切处理, 产生带有特异性粘性末端的目的片段 (指的是 cDNA片段)。 接下来, 将 GEX接头 1 (在本文中, 有时也称为 GEX Adapter 1 ) 与所产 生的带有特异性粘性末端的目的片段进行连接。 随后利用限制性内切酶 M e/对连接有 GEX 接头 1的目 的片段进行酶切处理 (其中限制性内切酶 特异性地识别 TCCRAC(N)20. N=A、 T、 G或 C ), 由此在 3,端形成了序列为两个随机碱基的粘性末端, 然后借助该粘性末端连接 GEX接头 2 (在本文中, 有时也也称为 GEX adapter2 ), 得到在 目的片段的 5,端和 3 '端分别具有 GEX接头 1和 GEX接头 2的连接产物。 接下来, 通过 PCR 反应对连接产物进行扩增, 最后通过切胶回收扩增产物获得数字基因表达语文库。如图 1B所示, 在方法二中, 其流程与方法一基本相同, 只是在制备 cDNA之后, 首先通过利 用 (识别 5'-GATC-3, )对 cDNA进行酶切处理从而产生特异性粘性末端, 然后借助 该特异性粘性末端连接 GEX接头 1 (由干 DpnII与 Nla議识别位点不同, 各自的 GEX接 头 1的序列也有区别), 其他步骤与方法一相同。 本申请的发明人发现, 上述方法一和方 法二, 都只能对单个文库样品进行 Solexa Single End ( Illumina )测序, 而不能将多种数 字基因表达谱文库的样品进行混合测序。 然而, 随着 Solexa测序通量的增加, 1个测序 泳道( lane )所产出的数据远远大于对目的片段进行测序所需求的数据, 因而如果所构 建的多种文库样品不能进行混合测序, 则将 "浪费测序资源"和影响到测序通量。 另外, 本申请的发明人发现: 使用同样的 RNA样品构建数字基因表达谱文库, 数据产出可能 存在偏向性的问题, 由此会导致数据结果不可信, 不能真实地反映样品的相关信息, 同 时也将导致实验结果可重复性低。
本发明 在解决现有技术问题的至少之一。 为此, 本发明的一个方面, 提出了一种 能够用于构建数字基因表达谱文库的核酸标签(在本文中,有时也简单地称为 "标签")。
根据本发明的一个方面,本发明提出了一组分离的核酸标签。根据本发明的实施例, 这些分离的核酸标签分别由 SEQ ID NO: 1 -12所示的核苷酸构成。 在本说明书中, 这 些核酸标签分别被命名为 IndexN , 其中 N= l2中的任意整数, 其序列如下表 1所示。
利用上述核酸标签, 通过将核酸标签与样品的 cDNA或其等同物相连, 可以精确 地表征 cDNA 的样品来源。 由此, 利用上述核酸标签, 可以同时构建多种样品的数字 基因表达谱文库(在本文中, 有时也称为 "数字基因表达诿标签文库" ) , 从而可以通 过将来源于不同样品的数字基因表达 ·ϊ普文库进行混合之后进行测序,并且能够基于核酸 标签对多种样品的 cDNA序列进行分类, 从而可以获得多种样品的 cDNA序列信息, 由此可以充分利用高通量的测序技术, 例如利用 Solexa测序技术, 同时对多种数字基 因表达语文库进行测序,从而提高数字基因表达谱文库测序的效率和通量。发明人惊奇 地发现, 利用根据本发明实施例的核酸标签构建数字基因表达谱文库, 能够有效地减少 数据产出偏向性的问题, 并且能够精确地对多种数字基因表达谱文库进行区分。
根据本发明的另一方面,本发明还提供了用于将上述核酸标签引入样品的 cDNA或 其等同物中的一组分离的寡核苷酸。根据本发明的实施例的一组分离的寡核苷酸,具有 第一链和第二链, 并且所述第一链分别由 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35所示的核苷酸构成, 所述第二链分别由 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30. 32、 34和 36所示的核苷酸构成, 其中, 所述 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36分别与 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35对应。 根据本发明的实施例, 这些寡核苷酸(在 本说明书中, 有时也称为 GEX标签接头 2或 GEX indexN adapter2 )分别具有如前所述 的根据本发明实施例的核酸标签, 并且基于这些寡核苷酸具有粘性末端, 因而, 可以通 过连接反应, 将相应的核酸标签引入到 cDNA 或其等同物中。 与核酸标签的命名方法 类似, 在本说明书中, 与核酸标签 IndexN相对应的寡核苷酸( GEX标签接头 2 )被命 名为 Gex indexN adapter2 , 其中 N = 1 - 12中的任意整数, 进一步, Gex indexN adapter2 的第一链(在本文中, 有时也称为 "有义序列")和第二链(在本文中, 有时也称为 "反 义序列,')分别被命名为 Gex IndexN adapter2 F和 Gex IndexN adapter2 R, 其中 N = 1 - 12中的任意整数, 其序列如下表 1所示。 根据本发明的实施例, 可以通过将有义序列 Gex indexN adapter2 F和其相应的反义序列 Gex indexN adapter2 R进行退火处理而形成 相应的 GEX标签接头 2。
表 1 核酸标签及 GEX标签接头 2序列
Figure imgf000003_0001
Gex Index3 adapter2 R 5'-CAAGCAGAAGACGGCATACGAACAATGGTCANN-3 ' (18)
Index4 TGGACTACTG (4)
Gex Index4 adapter2 F 5 ' -TGGACTACTGTCGTATGCCGTCTTCTGCTTG-3 ' (19)
Gex Index4 adapter2 R 5 ' -C AAGCAGAAGACGGC ATACGAC AGTAGTCC ANN-3 ' (20)
Index5 ACTTGATTCC (5)
Gex Index5 adapter2 F 5'-ACTTGATTCCTCGTATGCCGTCTTCTGCTTG-3 ' (21 )
Gex Index5 adapter2 R 5, -C AAGCAGAAGACGGC ATACGAGGAATCAAGT丽 -3 ' (22)
Index6 TGTTACTCAG (6)
Gex Index6 adapter2 F 5 ' -TGTTACTC AGTCGTATGCCGTCTTCTGCTTG-3 ' (23)
Gex Index6 adapter2 R 5 ' -C AAGCAGAAGACGGC ATACGACTGAGTAAC ANN-3 ' (24)
Index7 TTAGATCAGG (7)
Gex Index7 adapter2 F 5'-TTAGATCAGGTCGTATGCCGTCTTCTGCTTG-3' (25)
Gex Index7 adapter2 R 5'-CAAGCAGAAGACGGCATACGACCTGATCTAANN-3' (26)
Index8 TCATCGTGTA (8)
Gex Index 8 adapter2 F 5 ' -TCATCGTGTATCGTATGCCGTCTTCTGCTTG-3 ' (27)
Gex Index8 adapter! R 5 ' -C AAGCAGAAGACGGC ATACGATACACGATGANN-3 ' (28)
Index9 CTCCTACTCT (9)
Gex Index9 adapter2 F 5'-CTCCTACTCTTCGTATGCCGTCTTCTGCTTG-3 ' (29)
Gex Index9 adapter2 R 5 '-CAAGCAGAAGACGGCATACGAAGAGTAGGAGNN-3 ' (30)
Index 10 CTATACATCC (10)
Gex Index 10 adapter2 F 5 '-CTATACATCCTCGTATGCCGTCTTCTGCTTG-3' (31 )
Gex Index 10 adapter2 R 5 ' -C AAGCAGAAGACGGC ATACGAGGATGTATAGNN-3 ' (32)
Index 1 1 CCAGTACTTC (11 )
Gex Index 11 adapter2 F 5 '-CCAGTACTTCTCGTATGCCGTCTTCTGCTTG-3 ' (33)
Gex Index 11 adapter2 R 5 '-CAAGCAGAAGACGGCATACGAGAAGTACTGGN -3 ' (34)
Index 12 CTCAGAATAC (12)
Gex Index 12 adapter2 F 5 ' -CTCAGAATACTCGTATGCCGTCTTCTGCTTG-3 ' (35)
Gex Index 12 adapter2 R 5 ' -C AAGC AGAAGACGGCATACGAGTATTCTGAGNN-3 ' (36) 利用上述根据本发明实施例的寡核苷酸(或 GEX标签接头 2 ) , 能够有效地将核 酸标签引入到样品的 cDNA 或其等同物中, 由此能够构建具有标签的数字基因表达谱 标签文库。 另外, 发明人惊奇地发现, 当针对相同的样品, 采用具有不同标签的寡核苷 酸构建含有各种核酸标签的数字基因表达谱文库时,所得到的测序数据结果的稳定性和 可重复性非常好。
根据本发明的又一方面,提供了一种构建数字基因表达谱标签文库的方法。根据本 发明的实施例, 其包括: 将 mRNA逆转录为相应的 cDNA片段; 在所述 cDNA片段的 5, 端和 3,端分别添加 GEX接头 1和 GEX标签接头 2 , 以便得到文库片段, 其中, 所述 GEX 标签接头 2包含选自上述根据本发明实施例的一组分离的核酸标签的一种, 所述文库片 段含有 GEX接头 1、 GEX接头 2、 目的片段以及标签, 其中所述目的片段的序列与所述样 品的 cDNA序列相对应; 对所述文库片段进行扩增以便获得扩增产物; 以及分离回收所 述扩增产物,所述扩增产物构成所述数字基因表达谙标签文库。 利用根据本发明实施例 的构建数字基因表达谱标签文库的方法,能够有效地将根据本发明实施例的核酸标签引 入到针对样品 cDNA所构建的数字基因表达谱标签文库中。 从而可以通过对数字基因表 达谱标签文库进行测序, 获得样品 cDNA的序列信息以及核酸标签的序列信息, 从而能 够对样品 cDNA的来源进行区分。 另外, 发明人惊奇地发现, 当针对相同的样品, 基于
3 26 上述方法,采用具有不同标签的寡核苷酸构建含有各种核酸标签的数字基因表达谱文库 时, 所得到的测序数据结果的稳定性和可重复性非常好。
进一步, 本发明还提供了一种数字基因表达诿标签文库, 其是由根据本发明实施例 的构建数字基因表达谱标签文库的方法所获得的。
根据本发明的又一方面, 本发明还提供了一种建立数字基因表达谱的方法。根据本 发明的实施例, 其包括: 根据本发明实施例的构建数字基因表达谱标签文库的方法, 构 建数字基因表达谱标签文库; 以及对所述数字基因表达谱标签文库进行测序, 以建立所 述数字基因表达谱。 基于该方法, 能够有效地获得数字基因表达谙标签文库中样品 cDNA的序列信息以及核酸标签的序列信息, 从而能够对样品 cDNA的来源进行区分。 另外, 发明人惊奇地发现, 利用根据本发明实施例的方法构建数字基因表达谱, 能够有 效地减少数据产出偏向性的问题, 并且能够精确地对多种数字基因表达谱文库进行区 分。
根据本发明的再一方面,本发明还提供了一种建立多种样品的数字基因表达谱的方 法。 根据本发明的实施例, 其包括以下步骤: 针对所述多种样品的每一种, 分别独立地 根据本发明实施例的建立数字基因表达谙标签文库的方法,建立所述样品的数字基因表 达语文库, 其中, 不同样品的数字基因表达谱文库采用相互不同并且已知序列的核酸标 签, 其中所述多种为 2-12种; 将所述多种样品的数字基因表达谱文库进行组合, 以便 获得数字基因表达语文库混合物; 对所述数字基因表达谱文库混合物进行测序; 以及基 于所述标签的序列信息, 分别建立所述多种样品的数字基因表达谙。 由此, 根据本发明 实施例的该方法, 可以充分利用高通量的测序技术, 例如利用 Solexa测序技术, 同时 对多种样品的数字基因表达谱文库进行测序,从而提高数字基因表达谱文库测序的效率 和通量, 同时可以提高多种样品的数字基因表达语建立的效率。
根据本发明的再一方面,还提供了一种用于构建数字基因表达谱文库的试剂盒。根 据本发明的实施例, 该试剂盒包括: 12种分离的寡核苷酸, 所述 12种分离的寡核苷酸 分别具有第一链和第二链, 并且所述第一链分别由 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35所示的核苷酸构成, 所述第二链分别由 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36所示的核苷酸构成, 其中, 所述 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36分别与 SEQ ID NO: 13. 15、 17、 19、 21、 23、 25、 27、 29、 3K 33和 35对应, 其中, 所述 12种分离的寡核 苷酸分别设置在不同的容器中。 由此, 利用该试剂盒, 能够方便地将根据本发明实施例 的核酸标签引入到构建的数字基因表达谱文库中。
本发明的附加方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变得 明显, 或通过本发明的实践了解到。 附图说明
本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明 显和容易理解, 其中:
图 1显示了目前 Illumina公司 Solexa测序平台提供的两种用于制备数字基因表达 谱文库的方法(即方法一和方法二) 的流程示意图。 其中, 图 ΙΑ ^示了方法一的流程 示意图, 图 2A显示了方法二的流程示意图。
图 2显示了根据本发明实施例的建立数字基因表达谱标签文库的方法的示意图。 图 3显示了根据本发明实施例对数字基因表达谱标签文库进行测序 Readl 的示意 图。 其中 Read 1 Seq Primer表示测序引物。
图 4显示了根据本发明实施例 2的数字基因表达谱标签文库重复性建库测试结果的 饼状图。
图 5显示了根据本发明实施例 2的数字基因表达谱标签文库重复性建库测试结果。 W
图 6显示了根据本发明的实施例利用不同的核酸标签( Indexl-Index4 )构建的数字 基因表达谱标签文库之间的数据相关性分析结果。
发明详细描述
下面详细描述本发明的实施例, 所述实施例的示例在附图中示出,其中自始至终相 述的实施例是示例, H、仅用于解 # ^发明 , 5 不能理解为对本发明的限制。 需要说明的是, 术语 "第一" 、 "第二" 仅用于描述目的, 而不能理解为指示或暗 示相对重要性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一''、 "第二" 的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中, 除非另有说明, "多个" 的含义是两个或两个以上。
核酸标签
根据本申请的一个方面,本发明提出了一些分离的核酸标签。根据本发明的实施例, 这些分离的核酸标签分别由 SEQ ID NO: 1-12所示的核苷酸序列构成。 在本说明书中, 核酸标签分别被命名为 IndexN, 其中 N=l-12中的任意整数, 其序列如前面表 1所示, 不再赘述。
在本发明中所使用术语 "核酸"可以是任何包含脱氧核糖核苷酸或者核糖核苷酸的 聚合物, 包括但不限于经过修饰的或者未经修饰的 DNA、 RNA。 利用根据本发明实施 例的核酸标签, 通过将核酸标签与从样品荻得的 cDNA 或其等同物相连, 得到具有标 签的数字基因表达谱标签文库, 通过对数字基因表达谱标签文库进行测序, 可以获得 cDNA的序列以及标签的序列,进而基于标签的序列可以精确地表征 cDNA的样品来源。 由此, 利用上述核酸标签, 可以同时构建多种样品的数字基因表达谱标签文库, 从而可 以通过将来源于不同样品的数字基因表达谙标签文库进行混合, 同时进行测序,基于核 酸标签对样品的 cDNA序列进行分类, 获得多种样品的 cDNA的序列信息。 从而可以 充分利用高通量的测序技术, 例如利用 Solexa测序技术, 同时对多种样品的 cDNA进 行测序,从而提高了通过高通量测序技术建立数字基因表达谱的效率和通量, 降低了建 立数字基因表达谱的成本。 这里所使用的表述方式 "核酸标签与从样品获得的 cDNA 或其等同物相连" 应做广义理解, 其包括核酸标签可以与从样品获得的 cDNA 直接相 连, 以构建数字基因表达语标签文库, 也可以与和从样品获得的 cDNA 具有相同序列 的核酸(例如可以是相应的 RNA序列, 其余 DNA具有相同的序列)相连。
为了实现能够有效构建数字基因表达谱标签文库并进行测序,所构建的一组核酸标 签需要能够保证结果可靠, 可重复性高。 即针对同样的 RNA样品, 可以保证利用该组 核酸标签中的不同标签构建的数字基因表达谱标签文库, 能够获得一致的测序结果, 因 而可以确保实验结果可靠且重复性高。
本申请的发明人发现: 在标签混合量少于 12个样品的情况下, 必须考虑到混合后 的标签上的每个碱基位点的 GT含量。 因为 Solexa测序过程中, 碱基 G和 T的激发荧 光一样, 碱基 A和 C的激发光是一样的, 因此必须考虑碱基 "GT" 含量与碱基 "AC" 含量的 "平衡" , 最适碱基 "GT" 含量为 50%, 能保证标签识别率最高和错误率最低。 另外, 还需要同时避免标签序列出现 3或 3个以上连续的碱基的出现, 因为 3个或 3 个以上连续的碱基会增加序列在合成过程中或测序过程中的错误率,标签序列本身嵌入 接头中, 也要尽可能的避免出现发夹结构或与测序引物及其反向互补序列相同的现象。
为此, 本申请的发明人进行了大量的筛选工作, 并且选定了根据本发明实施例的一 组分离的核酸标签, 即分别具有 SEQ ID NO: 1~12所示的核苷酸序列。 其序列如前面表 1所示, 不再赘述。 另外, 发明人发现这些标签之间的差异在 5个碱基以上, 并且当标 签的 10个碱基中的任意 1个碱基出现测序错误或合成错误, 都不影响到标签的最终识 别。这些标签可以应用于任何数字基因表达谱标签文库的构建。 目前尚未有关于这些标 签应用于数字基因表达谱样品的文库构建并通过 Solexa测序的报道。 根据本发明的一些实施例, 所采用的核酸标签为长度是 10 bp的核酸序列, 并且所 述标签之间的差异在 5个碱基以上, 所述一组标签由如下组成: 如前面表 1所示 12个标签 或与其相差 1个碱基的标签中的至少 2个, 或至少 3个, 或至少 4个, 或至少 5个, 或至少 6 个, 或至少 7个, 或至少 8个, 或至少 9个, 或至少 10个, 或至少 11个, 或全部 12个。 具 体地, 根据本发明的实施例, 所述一组标签优选地至少包括表 1所示的 12个标签中的 Indexl和 Index2 , 或 Index3和 Index4 , 或 Index5和 Index6 , 或 Index7和 Index8 , ϋ Index 9 和 IndexlO, 或 ¾(^ 11和^1(^ 12, 或者他们任何两个或多个的组合。 在本发明的一些具 体示例中, 所述相差 1个碱基包括对表 1所示 12个标签的序列中 1个碱基的取代、 添加或 缺失。
根据本发明的实施例,本发明还提供了将根据本发明实施例的标签用于数字基因表 达谱标签文库构建并测序的用途。 根据该用途的实施例, 标签包含在 GEX接头 2的 5'末 端中, 从而构成各自相对应的 GEX标签接头 2, 其用作数字基因表达谱标签文库的 3'接 头。 根据具体的示例, 所述标签包含在 GEX接头 2的 5,末端中, 包括标签通过或不通过 连接子与 GEX接头 2的 5'末端相连, 或者插入 GEX接头 2的 5'末端中, 优选的是不通过连 接子与 GEX接头 2的 5'末端相连。
寡核苷酸以及构建数字基因表达 标签文库
根据本发明的又一方面, 本发明提供了一组分离的寡核苷酸,其可以用于将前面所 描述的核酸标签引入到从样品获得的 cDNA中, 进而构建数字基因表达谱标签文库。 根 据本发明的实施例,本发明提供了一组分离的寡核苷酸,该组分离的寡核苷酸中的每一 种均具有粘性末端, 并且这些分离的寡核苷酸具有第一链和第二链。 其中, 根据本发明 的实施例, 第一链分别由 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33 和 35所示的核苷酸构成, 第二链分別由 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36所示的核苷酸构成, 其中, SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36分别与 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35对应。 这里所使用的术语 "对应" 的意思是指, 构成第一链的核苷酸与构成 第二链的核苷酸能够配对形成稳定的具有粘性末端的二聚体, 并且第二链上会形成突 出, 即粘性末端形成在每一种寡核苷酸的第二链上。 具体地, 例如采用 SEQ ID NO: 13 作为第一链, SEQ ID NO: 14作为第二链。 本领域技术人员能够理解, 可以通过分别将 构成相应寡核苷酸的第一链与第二链进行退火处理, 而形成相应的寡核苷酸。根据本发 明实施例的上述寡核苷酸是将核酸标签包含在 GEX接头 2的 5,末端中, 因而在本发明中, 上述寡核苷酸也被称为 GEX标签接头 2。 这些寡核苷酸分别具有如前所述的根据本发明 实施例的核酸标签, 并且这些寡核苷酸具有粘性末端, 因而, 可以通过连接反应, 将相 应的核酸标签引入到 cDNA或其等同物的 3,端中。 具体地, 这些寡核苷酸的序列如前面 表 1所示,在此不再赘述。发明人发现,根据本发明的实施例所提供的寡核苷酸序列( GEX 标签接头 2 ) 具有较高的稳定性, 例如参见实施例 4中, 通过 Lasergene软件 ( http://www.dnastar.com/ )分析测试了这些寡核苷酸序列的结构稳定性。
根据本发明的一些实施例, 本发明提供了一些 GEX标签接头 2, 其在 5'末端包含根 据本发明实施例的标签, 并且优选地用作数字基因表达谱标签文库 3 '接头, 所述一组 GEX标签接头 2包括如下或由如下组成: 表 1所示 12个 GEX标签接头 2或与其中包含的标 签序列相差 1个碱基的接头中的至少 2个, 或至少 3个, 或至少 4个, 或至少 5个, 至少 6 个, 或至少 7个, 或至少 8个, 或至少 9个, 或至少 10个, 或至少 11个, 或全部 12个。 才艮 据本发明的具体示例,所述一组 GEX标签接头 2优选地至少包括表 1所示的 12个 GEX标签 接头 2中的 Gex Index 1 adapter2 F/R和 Gex Index2 adapter2 F/R,或 Gex Index3 adapter2 F/R 和 Gex Index4 adapter2 F/R,或 Gex Index5 adapter2 F/R和 Gex Index6 adapter2 F/R,或 Gex Index7 adapter2 F/R和 Gex Index8 adapter2 F/R,或 Gex Index9 adapter2 F/R和 Gex Indexl O adapter2 F/R, 或 Gex lndexl l adapter2 F/R和 Gex Indexl2 adapter2 F/R, 或者他们任何两 个或多个的组合。 根据具体的示例, 相差 1个碱基包括对标签序列中 1个碱基的取代、 添 加或缺失。 根据本发明的实施例, 还提供了 GEX标签接头 2用于数字基因表达 i普标签文 库构建并测序的用途, 所述 GEX标签接头 2用作数字基因表达谙标签文库的 3,接头。 由 此, 根据本发明的实施例, 还提供了使用上述 GEX标签接头 2构建的数字基因表达谱标 签文库, 其中所述 GEX标签接头 2用作数字基因表达谱标签文库的 3'接头。
根据本发明的另外一个方面, 还提供了一种利用上述寡核苷酸(GEX标签接头 2 ) 构建数字基因表达谱标签文库的方法。 具体地, 根据本发明的实施例, 参考图 2 , 该方 法包括:
首先, 将 mRNA逆转录为相应的 cDNA片段。 根据本发明的实施例, mRNA的来源 并不受特别限制。 根据本发明的一个实施例, mRNA来自于真核生物。 更具体的, 可以 来自于水稻、 小鼠或者人。 发明人发现, 利用根据本发明实施例的方法, 能够有效地构 建多种常见模式生物的数字基因表达谱标签文库。 进而, 根据本发明的实施例, 在将 mRNA逆转录为相应的 cDNA片段之前, 还可以包括提取 mRNA的步骤, 具体地包括从 样品中提取总 RNA; 以及从总 RNA中分离 mRNA, 其中, 所述样品来自于真核生物。
接下来,在所得到的 cDNA片段的 5,端和 3,端分别添加 GEX接头 1和 GEX标签接头 2, 以便得到文库片段, 其中, GEX标签接头 2包含选自上述根据本发明实施例的一组分离 的核酸标签的一种, 由此, 所得到的文库片段中含有 GEX接头 1、 GEX接头 2、 目的片段 以及标签,其中目的片段的序列与所述样品的 cDNA序列相对应。这里所使用的术语"目 的片段"是指 mRNA经过特定的反应处理例如逆转录反应之后获得的片段, 该目的片段 的序列与 cDNA的序列相对应,其含义是指,可以通过目的片段的序列直接推导出 cDNA 以及 mRNA的序列, 例如, 目的片段的序列可以与 cDNA或者 mRNA的序列完全相同, 也可以是完全互补,甚至是增加或者减少了已知数目的已知碱基,只要能够通过有限的 计算获得 cDNA以及 mRNA的序列即可。 根据本发明的实施例, 在 cDNA片段的 5,端添加 GEX接头 1的方法并不受特别限制。 根据本发明的一些实施例, 参考图 2, 在 cDNA片段 的 5,端添加 GEX接头 1包括下列步骤: 首先通过第一限制性内切酶对 cDNA进行酶切反 应, 以便获得带有 5,粘性末端的 cDNA片段, 接着将带有 5,粘性末端的 cDNA片段与 GEX 接头 1相连, 从而得到连接有 GEX接头〗的 cDNA片段。 根据本发明的实施例, 可以采用 的 N/a///或 wH作为第一限制性内切酶对 cDNA进行酶切处理, 以便获得带有 5,粘性末 端的 cDNA片段。 需要说明的是, 如前所述, Mfl/H与 的识别位点不同, 所产生的 5, 粘性末端也不同, 因而所采取的 GEX接头 1也不同。 根据本发明的实施例, 当利用 p«H 对 cDNA进行酶切处理时, 所采用的 GEX接头 1是具有下列序列的寡核苷酸:
5' P-GATCGTCGGACTGTAGAACTCTGAAC
5, ACAGGTTCAGAGTTCTACAGTCCGAC。
当利用 Μα///对所述 cDNA进行酶切处理时, GEX接头 1是具有下列序列的寡核苷酸:
5' P-TCGGACTGTAGAACTCTGAAC
5' ACAGGTTCAGAGTTCTACAGTCCGACATG。
最后, 对所得到的文库片段进行扩增以便获得扩增产物, 并且分离回收扩增产物, 所回收的扩增产物构成根据本发明实施例的数字基因表达谱标签文库。根据本发明的实 施例, 对文库片段进行扩增的方法并不受特别限制。 根据本发明的具体示例, 可以采用 PCR反应对所得到文库片段进行扩增。 本领域技术人员可以根据文库片段的序列, 确 定进行 PCR反应的引物。 根据本发明的具体示例, 当采用下面的 PCR方案时, 能够实 现有效地扩增。 具体地, 当利用 ¾raH对所述 cDNA进行酶切处理时, PCR反应是利 用分别具有如 SEQ ID NO: 39和 SEQ ID NO: 40所示的核苷酸序列的引物进行的, 当 利用 Mfl/H对 cDNA进行酶切处理时, PCR反应是利用分别具有如 SEQ ID NO: 39和 SEQ ID NO: 44所示的核苷酸序列的引物进行。 另外, 根据本发明的实施例, 分离回 收扩增产物的方法也不受特别限制,本领域技术人员可以根据扩增产物的特点选择适当
26 的方法和设备进行分离,例如可以通过电泳并且回收特定长度的目的片段的方法进行回 收。
利用根据本发明实施例的构建数字基因表达谱标签文库的方法,能够有效地将根据 本发明实施例的核酸标签引入到针对样品 cDNA所构建的数字基因表达谙标签文库中。 从而可以通过对数字基因表达谱标签文库进行测序, 获得样品 cDNA 的序列信息以及 核酸标签的序列信息, 从而能够对样品 cDNA 的来源进行区分。 另外, 发明人惊奇地 发现, 当针对相同的样品, 基于上述方法, 采用具有不同标签的寡核苷酸构建含有各种 核酸标签的数字基因表达谱文库时, 所得到的测序数据结果的稳定性和可重复性非常 好。
根据本发明的再一方面,还提供了一种用于构建数字基因表达谱文库的试剂盒。根 据本发明的实施例, 该试剂盒包括: 12种分离的寡核苷酸, 这 12种分离的寡核苷酸分别 具有第一链和第二链,并且在第二链上形成有粘性末端,并且第一链分别由 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35所示的核苷酸构成, 第二链分别由 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36所示的核苷酸构成, 其中, SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36分别与 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35对应, 其中, 这 12种分离的 寡核苷酸分别设置在不同的容器中。 由此, 利用该试剂盒, 能够方便地将根据本发明实 施例的核酸标签引入到构建的数字基因表达谱文库中。当然,本领域技术人员能够理解, 试剂盒中还可以包含其他用于构建小分子 RNA文库的常规组件, 在此不再赘述。
数字基因表达谱标签文库及测序方法
根据本发明的又一方面,还提供了一种数字基因表达谱标签文库, 其是根据本发明 的构建数字基因表达谱标签文库的方法所构建的。该具有标签的数字基因表达谱文库可 以有效地应用于高通量测序技术例如 Solexa技术, 从而可以通过获得标签序列, 来对 所获得的核酸序列信息例如 cDNA序列信息来精确地进行样品来源分类。
根据本发明的又一方面, 本发明还提供了一种建立数字基因表达语的方法。根据本 发明的实施例, 其包括: 根据本发明实施例的构建数字基因表达谱标签文库的方法, 构 建数字基因表达谱标签文库; 接着, 对所构建的数字基因表达谱标签文库进行测序, 以 建立所述数字基因表达谱。基于该方法, 能够有效地获得数字基因表达谱标签文库中样 品 cDNA的序列信息以及核酸标签的序列信息, 从而能够对样品 cDNA的来源进行区 分。 另外, 发明人惊奇地发现, 利用根据本发明实施例的方法构建数字基因表达谱, 能 够有效地减少数据产出偏向性的问题,并且能够精确地对多种数字基因表达谱文库进行 区分。根据本发明的实施例,可以采用任何已知的方法对所构建的数字基因表达标签文 库进行测序, 其类型并不受特别限制。 根据本发明的一些示例, 可以利用 Solexa测序 技术对数字基因表达谱标签文库进行测序。 参考图 3 , 可以采用测序引物 (Readl Seq Primer )进行相应的测序, 首先测序得到目的片段的序列, 接下来是与来源对应的核酸 标签的序列。根据本发明的具体示例, 当利用 N/a/H对 cDNA进行酶切处理进而构建文 库时, 可以利用具有如 SEQ ID NO: 45所示核苷酸序列的引物进行测序。 当利用 )p«H 对 cDNA进行酶切处理进而构建文库时, 可以利用具有如 SEQ ID NO: 41所示核苷酸 序列的引物进行测序。 发明人发现, 这样能够更有效地进行测序。
进一步, 可以将上面建立数字基因表达谱的方法应用于多种样品。 例如, 根据本发 明的实施例,本发明提供了一种建立多种样品的数字基因表达谱的方法。根据本发明的 实施例, 其包括以下步骤: 针对多种样品的每一种, 分别独立地 # ^据本发明实施例的建 立数字基因表达谱标签文库的方法, 建立该样品的数字基因表达 文库, 其中, 不同样 品的数字基因表达谱文库采用相互不同并且已知序列的核酸标签,这里所使用的术语多 种为 2-12种。 接下来, 将多种样品的数字基因表达谱文库进行组合, 获得数字基因表 达谱文库混合物。通过对数字基因表达谱文库混合物进行测序,得到相应的包括标签序
8 26 列在内的核酸序列。、最后,基于标签的序列信息,分别建立多种样品的数字基因表达谱。 由此, 根据本发明实、施例的该方法, 可以充分利用高通量的测序技术, 例如利用 Solexa 测序技术, 同时对多种样品的数字基因表达谱文库进行测序,从而提高数字基因表达旙 文库测序的效率和通量, 同时可以提高多种样品的数字基因表达谱建立的效率。 关于测 序的方法和采用的测序引物, 前面已经进行了详细描述, 此处不再赘述。
由此,根据本发明的实施例中,本发明提供了构建数字基因表达语标签文库并测序 的方法, 其包括:
1 )提供 n个总 RNA样品, n为整数且 1《 n < 12, 优选地 2《 n 12, 所述 RNA样 品来自任何真核生物 RNA样品, 包括但不限于水稻、小鼠和人的 RNA样品,从总 RNA 样品中分离 mRNA, 将 mRNA逆转录成 cDNA;
2 )添加 GEX接头 1:通过 5,限制性内切酶酶切 cDNA产生带有 5,粘性末端的 cDNA 片段, 所述 5'限制性内切酶包括但不限于 Μα///和 /wH, 然后通过连接反应将 GEX 接头 1与带有 5'粘性末端的 cDNA片段进行连接;
3 )添加 GEX标签接头 2: 通过 3'限制性内切酶酶切上述步骤 2 )所得的 cDNA片 段产生带有 3'粘性末端的 cDNA片段, 所迷 3'限制性内切酶包括但不限于 Mmel, 然后 通过连接反应将 GEX标签接头 2与带有 3,粘性末端的 cDNA片段进行连接, 以获得文 库片段;
4 )通,过 PCR对文库片段进行扩增以便获得扩增产物, 最后回收扩增产物;
5 )混合: η>1时, 将各样品的 PCR扩增产物混合在一起; 当 n = l时, 直接进行步 骤 6 );
6 ) 测序: 将各样品的 PCR扩增产物利用 Solexa测序技术进行测序。
需要说明的是,根据本发明实施例的构建数字基因表达谱的方法是本申请的发明人 经过艰苦的创造性劳动和优化工作才完成的。 下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解, 下面的实 施例仅用于说明本发明, 而不应视为限定本发明的范围。 实施例中未注明具体技术或条 件的, 按照本领域内的文献所描述的技术或条件(例如参考 J.萨姆布鲁克等著, 黄培堂 等译的《分子克隆实賒指南》, 第三版, 科学出版社)或者按照产品说明书进行。 所用 试剂或仪器未注明生产厂商者, 均为可以通过市购获得的常规产品, 例如可以采购自 Illumina公司。
在本申请的实施例中采用的核酸序列如下:
/w//基因表达寡核苷酸序列
Gex Adapter 1A (也称为 Gex接头 1 A ), 是具有分别为 SEQ ID NO:37和 38所示序 列的寡核苷酸:
5' P-GATCGTCGGACTGTAGAACTCTGAAC ( SEQ ID NO: 37 )
5' ACAGGTTCAGAGTTCTACAGTCCGAC ( SEQ ID NO: 38 )。
Gex PCR Primer 1 (也称为 Gex PCR引物 1 ):
5' CAAGCAGAAGACGGCATACGA ( SEQ ID NO: 39 )。
Gex PCR Primer 2A (也称为 Gex PCR引物 2A )
5' AATGATACGGCGACCACCGACAGGTTCAGAGTTCTAC AGTCCGA ( SEQ ID
NO: 40 )。
Gex Sequencing Primer 1 A (也称为 Gex测序引物 1A )
5' CGACAGGTTCAGAGTTCTACAGTCCGACGATC ( SEQ ID NO: 41 )。 Nlalll基因表达寡核苷酸序列:
Gex Adapter IB (也称为 Gex接头 IB ), 是具有分别为 SEQ ID NO:42和 43所示序
9
26 列的寡核苷酸:
5' P-TCGGACTGTAGAACTCTGAAC ( SEQ ID NO: 42 )
5' ACAGGTTCAGAGTTCTACAGTCCGACATG ( SEQ ID NO: 43 )。
Gex PCR Primer 1 (也称为 Gex PCR引物 1 )
5' CAAGCAGAAGACGGCATACGA ( SEQ ID NO: 39 )。
Gex PCR Primer 2B (也称为 Gex PCR引物 2B )
5' AATGATACGGCGACCACCGACAGGTTCAGAGTTCTAC AGTCCGA ( SEQ ID NO: 44 )。
Gex Sequencing Primer IB (也称为 Gex测序引物 I B )
5' CCGACAGGTTCAGAGTTCTACAGTCCGACATG ( SEQ ID NO: 45 )。
Gex indexN adapter2序列 (N = 1 - 12 ), 其中每一个 GEX标签接头 2由有义序列 Gex indexN adapter2 F和反义序列 Gex indexN adapter2 R经退火形成。 其序列如表 1所 示, 在此不再赘述。 实施例 1
以小鼠肝脏 RNA为材料, 分别使用表 1 所示的 12种不同的数字基因表达谱标签 接头 2进行实验, 共构建 12个带不同标签的小鼠表达谱标签文库。
A 准备小鼠总 RNA
1. 取 4微克小鼠肝脏总 RNA于 200微升 PCR管中,使用 DEPC水稀释至 50微升,混匀;
2. 将样品置于 PCR仪上 65 °C变性 5分钟, 打开二级结构;
3. 将样品置于冰上。
B 准备 GEX Sera-mag Magnetic Oligo(dT)磁珠
1. 使 GEX Sera-mag Magnetic Oligo(dT)磁珠在漩涡混合器 ( vortex )上混匀, 吸取 50微升于 L5ml不粘 EP管中;
2. 将 EP管置于磁力架上 2分钟, 小心吸出上清;
3. 向 EP管中加入 100微升 GEX结合緩沖液, 将磁珠小心混匀;
4. 将 EP管置于磁力架上 2分钟, 小心吸出上清;
5. 再取 100微升 GEX结合緩冲液加入 EP管中, 将磁珠小心混匀;
6. 将 EP管置于磁力架上 2分钟, 小心吸出上清;
7. 取 50微升 GEX结合緩冲液加入 EP管中, 将磁珠小心混匀。
C 分离 mRNA
1. 将变性后的 50微升小鼠总 RNA加入 1.5ml装有磁珠的 EP管中,在常温下旋转孵育 10分钟;
2. 将 EP管置于磁力架上 2分钟, 弃去上清;
3. 向含有磁珠的 EP管中加入 200微升 GEX漂洗緩冲液,将磁珠小心混匀, 置于磁力 架上 2分钟, 弃去上清;
4. 重复以上步骤(3 );
5. 向含有磁珠的 EP管中加入 100微升 Ι χ第一链合成緩冲液, 将磁珠小心混匀, 置于 磁力架上 2分钟, 弃去上清; 将磁珠保存在 l x第一链合成緩冲液中。
D 合成 cDNA第一链
1. 取无 RNA酶的 1.5ml EP管按以下表格配制 cDNA第一链合成试剂混合物;
试剂 体积 (微升)
DEPC水 29.5
5χ第一链合成緩冲液 10
lOOmM DTT 5 lOmM dNTP mix
RNaseOUT
2. 将装有磁珠的 EP管置于磁力架上 2分钟, 弃去上清。 加入 48微升 cDNA第一链合 成试剂混合物, 将磁珠小心混匀;
3. 将 EP管置于 Thermomixer ( Eppendorf公司)上 42 °C孵育 2分钟;
4. 加入 2 t升 Superscript II Reverse Transcriptase ( Illumina公司), 小心混匀, 将 EP 管置于 42 °C Thermomixer上 1400rpm连续震动 1小时;
5. 立刻将装有磁珠的 EP管置于 70°C Thermomixer上保持 1400rpm间歇震动 15秒, 静 止 2分钟共 15分钟。 完成后将 EP管保存在冰上。
E 合成 cDNA第二链
配制试剂
• \ xDpnII緩冲液 (200微升 /样品, 考虑 10%损耗)
试剂 体积 (微升)
超纯水 198
\ QxDpnII緩冲液 22 准备磁珠清洗緩沖液
试剂 体积 (微升)
GEX清洗緩冲液 98.6 GEX清洗緩冲液添加剂 1.4
1. 在冰上向有磁珠的 EP管中加入 31微升纯水
2. 依次加入以下试剂:
XQ^Dpnll緩冲液 10微升
10 mM dNTP mix 3微升
3. 将磁珠和试剂混合均匀 置于冰上孵育 5分钟;
4. 依次加入以下试剂:
DNA 聚合酶 I 5微升
RNase H 1微升
5. 将磁珠和试剂混合均匀, 置于 16°C Thermomixer上保持 1400rpm间歇震动 15秒, 静止 2分钟共 3小时;
6. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
7. 使用 750微升 GEX緩沖液 C重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取 弃去上清;
8. 使用 100微升新鲜磁珠清洗緩冲液重悬磁珠, 混合均匀后, 将 EP置于 37 °C Thermomixer上保持 1400rpm间歇震动 15秒, 静止 2分钟共 15分钟;
9. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
10. 使用 750微升 GEX緩冲液 D重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取 弃去上清;
11. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
12. 再使用 100微升 l x/¾wH緩冲液重悬磁珠, 取一新 1.5ml不粘无 RNA酶 EP管, 将 磁珠转移至新管中。
F /WH酶切反应
配置试剂:
參 DpnII酶切混合液
试剂 体积 (微升)
超纯水 88
11
26 lO^Dpnll緩冲液 】0
lOQxBSA (牛血清白蛋白反应液) 1
• 磁珠清洗緩冲液 ―
― 试剂 体积 (微升)
GEX清洗緩冲液 98.6
GEX清洗緩冲液添加剂 1.4
1. 将含有悬于 1 χ/)ρ«//緩冲液的磁珠的 ΕΡ管置于磁力架上 2分钟后,小心吸取弃去 上清;
2. 使用 99微升 酶切混合液将磁珠重悬;
3. 加入 1微升 D wH酶。
4. 将磁珠和试剂混合均匀, 置于 37 'C Thermomixer上保持 1400rpm间歇震动 15秒, 静止 2分钟共 1小时;
5. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
6. 使用 750微升 GEX缓冲液 C重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取 弃去上清;
7. 使用 100微升新鲜磁珠清洗緩冲液重悬磁珠, 混合均匀后, 将 EP置于 37 °C Thermomixer上保持 1400rpm间歇震动 15秒, 静止 2分钟共 15分钟;
8. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
9. 使用 750微升 GEX緩沖液 D重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取 弃去上清;
10. 然后^用 750微升 GEX緩冲液 D重悬磁珠后, 将 EP管置于 4°C冰箱中过夜; G 连接 DpnII接头 1
配置试剂:
• 1 χΤ4 DNA连接酶緩冲液
试剂 体积 (微升)
超纯水 176
5χΤ4 DNA连接酶緩冲液 44
• 1 xDpnll緩冲液
试剂 体积 (微升)
超纯水 198
l ^Dpnll緩冲液 22
• 磁珠清洗緩^
试剂 体积 (微升)
GEX清洗緩冲液 98.6
GEX清洗緩冲液添加剂 1.4
1 . 将含有悬于 GEX緩冲液 D的磁珠的 EP管置于磁力架上 2分钟后, 小心吸取弃去上
2. 使用 100微升 l xT4 DNA连接酶缓冲液重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
3. 再使用 100微升 1 χΤ4 DNA连接酶緩冲液重悬磁珠,取一新 1.5ml不粘无 RNA酶 ΕΡ 管, 将磁珠转移至新管中。
4. 将装有磁珠的 EP管置于磁力架上 2分钟后, 小心吸取弃去上清。
5. 依次小心加入以下试剂:
超纯水 34微升
Gex接头 1A 5微升 5 χΤ4 DNA连接酶緩冲液 10微升
T4 DNA连接酶 1微升
6. 将磁珠和试剂混合均匀, 置于 20°C Thermomixer上保持 MOOrpm连续震动 2.5小 时;
7. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
8. 使用 750微升 GEX緩沖液 C重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取 弃去上清;
9. 使用 100微升新鲜磁珠清洗緩冲液重悬磁珠, 混合均勾后, 将 EP置于 37 °C Thermomixer上保持 1400rpm间歇震动 15秒, 静止 2分钟共 15分钟;
10. 将 EP管置于磁力架上 2分钟后, 小心吸取弃去上清;
11. 使用 750微升 GEX緩冲液 D重悬磁珠, 将 EP管置于磁力架上 2分钟后, 小心吸取 弃去上清;
12. 再使用 100微升 l xi¾w//緩冲液重悬磁珠, 取一新 1.5mL不粘无 RNA酶 EP管, 将 磁珠转移至新管中。
H Mmel酶切反应
• lOxSAM (10微升 /样品)
试剂 体积 (微升) 超纯水 320
32 mM S-腺苷曱¾氨酸 5
• Mwe/酶切混合液
试剂 体积 (微升)
GEX清洗緩冲液 76
10χ限制性酶切緩冲液 10
l OxS-腺苷曱硫氨酸 10
4
1. 将含有悬于 l x限制性酶切緩冲液的磁珠的 EP管置于磁力架上 2分钟后,小心吸取 弃去上清;
2. 使用 100微升 Mmel酶切混合液将磁珠重悬。 将磁珠和试剂混合均匀, 置于 37 °C Thermomixer上保持 1400rpm连续震动〗.5小时;
3. 将 EP管置于磁力架上 2分钟后, 小心吸取上清转移至一新 1.5ml RNase-free管中, 含有磁珠的 EP管可丟弃;
4. 向装有上清溶液的 EP管中加入 2微升 CIAP,将溶液混合均勾, 37 C Thermomixer 上孵育 1小时去磷酸;
5. 加入 100微升苯酚 /氯仿 /异戊醇 ( 25/24/1 , v/v ), 充分混勾, 振荡大约 10秒后, MOOOrpm室温离心 10分钟, 吸取上层液体转移至新 1.5ml EP管中;
6. 加入 100微升氯仿 /异戊醇(24/1 , v/v ), 充分混匀, 振荡大约 10秒后, OOOrpm 室温离心 10分钟, 吸取上层液体转移至新 1.5ml EP管中;
7. 取 1微升糖原, 10微升 3M NaOAc , 和 325微升 -20°C 100%酒精于上层液体中, 混合均匀, 放置 30min, 4°C , 14000rpm离心 30分钟;
8. 弃去上层清液, 使用 500微升常温 70 %酒精进行洗涤沉淀, 14000rpm离心 5分钟, 弃上清, 将酒精晾干;
9. 加入 6微升超纯水溶解沉淀, 将 EP管置于 -20°C保存。
I 连接 GEX标签接头 2的反应
向 6微升 Mwe/酶切产物 EP管中分别依次加入以下试剂: GEX indexN Adapter 2 1微升
5 χΤ4 DNA连接酶緩冲液 2微升
T4 DNA连接酶 1微升
混合均匀后置于 20°C Themiomixer上孵育 2.5小时。
J PCR反应扩增文库
配置试剂:
• PCR反应液混合成分
试剂 体积 (微升)
2xPhusion HF mix 25
Gex PCR Primer 1 0.5
Gex PCR Primer 2A 0.5
超纯水 21.5
取 47.5微升 PCR master mix分别加入 0.2ml PCR管中。
取 2.5微升连接完接头的 cDNA产物, 混合均匀。
置于 PCR仪上进行扩增:
98 °C 30s
98 °C 10s
60 °c 30s
72 °c 15个循环
15s
72 °c lOmin
4 °c 静置
K 扩增产物的纯化
配置试剂:
• l x Gel Elution緩冲液 ( 100微升 /样品))
试剂 体积 (微升)
超纯水 1080 l OxGel Elution 緩冲液 120
1. 向 50微升 PCR产物中加入 10微升 6xDNA loading dye (上样染料), 混匀; 取 1.2 微升 25bp ladder, 向其中加入 1.2微升 6 <DNA loading dye, 混匀;
2. 将样品于 PAGE (聚丙烯酰胺凝胶) 中电泳分离;
3. 电泳结束后,回收大约 85bp位置的 DNA条带;回收的碎胶中加入 100微升的 l xGel
Elution 緩冲液 100微升, 洗脱 2小时;
4. 将 EP管中的溶液和碎胶全部转移至 Spin-X管中, 14000rpm离心 2分钟, 去掉过滤 管;
5. 向剩余的澄清液体中加入 1微升糖原, 10微升 3M NaOAc,和 325微升 -20 °C 100% 酒精, 混合均勾, 14000i m离心 30分钟;
6. 弃去上清液, 使用 500 i升常温 70 %酒精进行洗涤沉淀小块, 14000rpm离心 5分 钟, 尽量弃去上清。 打开 EP管盖, 在空气中晾干; 加入 10微升 Elution緩冲液(洗脱緩 冲液)溶解沉淀小块, 置于 -20°C保存。
将溶解 DNA溶液导入 pMD-18T载体中, 然后转染到大肠杆菌中, 通过过夜培养后, 然后挑取单克隆,提取 DNA后,使用 Sanger测序,将其序列测序出来,其中使用 BcaBEST Sequencing Primer Ml 3-47 ( takara, Code: D101A )作为测序引物。 结果如下所示, 其 中, 斜体标记的为目的片段序列, 粗体标记的序列为标签序列。 这样在使用嵌入标签的 3,接头的测序过程中, solexa首先测出目的片段序列 > 随后测标签序列, 如图 3所示。 >indexl丈庠 (SEQIDNO: 4(5)
AATGATACGGCG ACCACC GAC
CiUJTUCmCAGTCTGGAACAGTCTCGATCGTATGCCGTCTTCTGCtTG
>indsi2文庠(SEQIDNO: 47)
A4J 4A4GCA TACACATCACAGTCTGGATCG TOCCGTCT CTGCTrG ' ' ' inck¾3丈库(SEQID O: 4S)
^G4L4GGL4CTGACCATTGTACAGTCTGGATCGTATGCOGTCTTCTGCTTG
«i(tei4文庠( SEQ ID NO: 49 )
XiL^GCrrGGACTACTGACAGTCTGGATCGTATGCCGTCTrCTGCTTG
>ind»d丈库( SEQ ID O: 50)
AAA GA G,i ACTTGATT C CACA GTCTGGATCGTATGCCGTCTTCTGCTTG
>inds¾6文庠(SEQID O: 51)
CJre ^GCJCTGTTACTCAGACAG CTCGATCGTATGCOGTCTTCTGC rG
>itidex7丈庠( SEQ ID NO: 52)
AATGATACGGCGACCACCGACAGGTrCAGAGTTCTACAG CCGACGATC^nTCITC
CTCirrCJTTAGATCAGGACAGTCTOGA CGTATCCCG CTTC GCTTC
>in«isxS文庠( SEQ ID NO: 53)
AA GATACGGCGACCACCGACAGGTrcAGAGTTCTACACTCCGACGATC^G^CI^ GG C7CL4IOTCATCGTGTAACAGTCTGGATCGTAT¾CCGTCTTCTGCTTG
- >iii(i ^丈庠(SEQID O: 54)
AATGATACGGCGACCACCGACAGGTTCAGAGTrCTACAGTCCGACGATCCJGICCCT C i^GCHGCTCCTACTCTACAGTCTGGATCGTATGCCGTCTrCTGCT G
>indexlOiJ^ (SEQIDNO: 55)
AATCATACGGCGACCACCGACAGGTrCAGAGT CTACAGTCCGAOGATC GiJUGiiC KM JG CCT ATACATCCACAGTCTGGA OGTATGCC GTCTTC GCTTG
>mdsxlliL (SEQIDNO: 56)
AA GATACGGGGACCACCGACAGGrrcAGAGTTCTACAGTCCGACGATCGCJGCCC'r Mnde ll J^ (SEQIDNO: 57)
AATGATACGGCGACCACCGACAGGTTCAGAG rCTACAGTCCGACGATCi^JX^ A O ICJ1CCJCTCAGAAT ACACAGTCTGGATCGTATGCCXJTCITCTGC TG
实施例 2
以水稻叶片 RNA为材料,采用与实施例 1基本相同的方法,使用 Gex Index 11 adapter2 平行构建 2个标签文库,检测标签文库的产出的数据稳定性。 实施例 2的方法步骤与实施 例 1基本相同, 只是在实施例 2中采用 Mcr/H代替 /wH, 并且相应地采用与 M ///对应的 Gex接头 1, 即 GexadapterlB代眷 GexadapterlA, 以及扩增引物即 Gex PCR Primer 2B 代 替 Gex PCR Primer 2A。
最后检测浓度完毕后通过 Solexa测序将目的片段测序出来。 其中使用测序引物为 Gex Sequencing PrimerlB ( Gex测序引物 IB )。
图 4显示了根据本发明实施例 2的数字基因表达谱标签文库重复性建库测试结果的
15
26 饼状图。 使用相同的标签(利用 Gex Index 11 adapter2 )针对相同的水稻 RNA样品进行 了两次平行建立数字基因表达谱标签文库的操作,并得到了相应的 Solexa测序结果(分 别为图 4A和图 4B )。在该图中,字母标记所代表的含义分别为: Sense:正义链; Anti Sense: 反义链; PM: 完全匹配; MM: 错配; Mitochondrion: 线粒体; Chloroplast: 叶绿体; Genome: 基因组; Unknown Tag: 未知标记; 1 tag ->1 gene表示测序痊测出来的基因 数大于 1 ; 1 tag ->1 position表示测序检测出来的标记能比对在基因组的多个位置。 在 该图中, 括号中的数孪可以用于表示的是各个标记所得到的测序结果的相对量。 如图 4 结果显示, 两次测序结杲中, 发现的基因数量基本一致, 且占的比例一致。
图 5显示了根据本发明实施例 2的数字基因表达谱标签文库重复性建库测试结果。 其中, 通过数字基因表达谱标准分析方法【例如参见 Audic S.et al. The significance of digital gene expression profiles.Genome Res.1997 7(10):986-995 , 通过参照将其全文并入 本文】, 确定 TPM ( Transcripts Per Million clean reads )表示的基因表达量, 萁算法是: 每个基因包含的原始 Clean Tags数目 /该样本中 clean T s总数目 * 1,000,000。 通过将基 因表达量分别以 10 为底取对 ¾,进而可以计算两种基 ¾表达量的相关系数,即 pearson 系数(有时也称为 pearson r )。 具体算法的细节可以参见相关文献, 例如: t Hoen, P. A., Y. Ariyurek, et al. (2008). "Deep sequencing-based expression analysis shows major advances in robustness, resolution and inter-lab portability over five microarray platforms." Nucleic Acids Res 36(21): el 41 , 通过参照将其全文并入本文。 两者重复性廸高, 则其 pearson系数越接近 1。 该图显示两者重复性为至少 0.99, 说明两次实验重复性非常好。 parson r表示相关系数。 如图 5所示, 均证明 DGE标签文库进行测序的数据可重复性 高。
实施例 3
以拟南芥叶片 RNA为材料, 基于与实施例 2基本相同的方法, 构建了数个具有不同 标签的标签文库,分析标签文库之间数据的稳定性。 实施例 3的方法步骤与实施例 2基本 相同, 只是在实施例 2中采用 4微克拟南芥总 RNA作为样品。 最后检测浓度后通过 Solexa 将目的片段测序出来,其中使用测序引物为 Gex Sequencing Primer 1B( Gex测序引物 IB )。
将根据该方法构建的数字基因表达谱标签文庫, 使用 Illumina公司的 Solexa测序平 台测序, 数据分析结果如表 2, 数据产出正常, 没有显著的差异。 图 6显示了根据本实施 例利用不同的核酸标签( Indexl-Index4 )构建的数字基因表达谱标签文库之间的数据相 关性分析结果。其中,该图的横坐标显示了不同表达谱标签文库的基因表达量以 10为底 取对数,纵坐标显示了相同样品标准表达谱文库的基因表达量以 10为底取对数, 然后计 算两种基因表达量的相关系数。 两者重复性越高, 其 pearson系数越接近 1。 该图显示利 用 Indexl-Index4的任一种所得到的结果的重复性均为至少 0.99 , 说明 4个标签构建的表 达谱文库的重复性非常好。 Pearson r表示相关系数。 另外, 利用 Index 5-12重复上述实 验和分析, 也荻得了至少 0.99的 pearson系数, 在此不再赘述。
针对代表性的标签 1-4 ( indexl -4 )进行上述数字基因表达谱标准分析, 表明使用本 发明的 GEX标签接头 2构建数字基因表达谱标签文库, 数据可重复性好, 不会导致数据 偏差。
表 2 同个样品使用 5个不同 GEX标签(indexl-5 )接头构建的数字基因表达谱标签 文库测序结果
Figure imgf000017_0001
Figure imgf000018_0001
实施例 4 寡核苷酸(GEX标签接头 2) 的稳定性分析
将表 1 所示的 12 个 GEX 标签接头 2 通过 Lasergene 软件 (可以从例如 http:〃 www.dnastar.com/下载)分析测试其结构的稳定性。
~ 表 1所示的 12个 GEX标签接头 2由两条 4列组成, 分别为 Gex IndexN adapter2 F 和 Gex IndexN adapter2 R两奈序列构成, 其 + N表示标签(index)的编号, 为 1-12的 壑数。使用 Lasergene的 PrimerSelect软件, 例如分析 Gex Index 1 adapter 2, 分別将 Gex Index 1 adapter2 F和 Gex Index 1 adapter2 R分别输入 "Enter New Primer" 中, 通过分 4斤 两条序列之间形成的能量值来判断双链体之间的亲和力参数,能量值的绝对值越大表示 双链体的结杲越稳定, 以下分别为分析了 12个 Gex Index adapte 的亲和力的能量值, 均在在 50kal/mol以上,得到最稳定双链结构( the most stable ),说明这 12奈 Gex IndexN adapter 2形成的结构非常稳定。
GEX indexl Adapter2 .■■
. 最 -定 3 '-二 . 体: 31 bp, -58.1 kcal/mol
5 3 '
GEX index2 Adapter2
最 二聚体 ·: 31 bp, ~55 . kcal .mol
5 ' ACmCACATCTCGmTGCCGTCTTCTGCTTG 3,
H H Π ί H I I M M ί M f i ΐ H I M M ! N
3 ' NNTGATGTGTkGAGCA ACGGCAGkAGAC Ji.C
GEX index3 Adapter2
最 ¾ 定 3' 二聚':^: 31 bp, -5S.0 kca丄 / oi
5 ' TGACCATTGTTCGTATGCCGTCTTC &CT G 3 '
3* 5 '
GEX index4 AdaDter2
最稳定 3'-二 体: 1 bp, -57 kc l/mol
5 ' TGGACTACTGTCGTATGCCGfCTTC GCTTG
3 ' NliA CTGATGACAGCATACGGCAGAAGACGAAC
GEX index5 Adapt r2
1 最穂定 3 '-二聚 : 31 bp, -53.7 kcal/;moI
S * aCTTGATTCCTCGTi TacCGTCTTCTGCT G 3 f
I 1 i n 11 i ! 1 t Π i 1 U t 111 M M M I ! 1 I
31 NTG^ACTAACGAGCATACGGCAGAAGACGAAC 5 '
GEX index6 Adapter2
最½定3'-二聚 : 21 bp, -36- 1 kcal/ ιοΐ
5 3»
3 ' KNACAATGAGTCAGCATACGGCAGAAGACGAAC
GEX index7 Adapter!
最 ¾定3'-二聚体: 31 bp, -57 - β kcaI/;moI
5 ' TTAGATCAGGTCGTATGCCGTCT CTGCTTG
3 * NNAATCTAGTCCAGGATACGGCA AAGACGAAC GEX index8 Adapter2
3'—二 体: 31 bp, -S7 . 9 kcai/roo丄
5 · TCATCGTGTATCGTATGCCGTCTTCTGCTTG 3 '
I I I I M ! ! ! I I Π I I ] I M I I I I 1 1 ! I I I I 1
3 ' NNAGTAGCACATAGCATACGGCkGR.¾GACGAAC 5 '
GEX index9 Adapter2 最稳定 3' -二聚休
最; it.定 二聚 : 31 bp, -57 . 6 kcal /mol
S ' CTCCTACTCTT-CGTftTGCCGTCSTCTGCTTG 3 '
I I I!! i ! I [ I I i 1 I j ! I I I 1 ί I i H I I I i I I
3 ' NNGAGGATGAGAAGCATACGGCAGAAGACGAAC 5 '
GEX index 10 Adapter 2.
最 -定;'—二 S:体.: 3 i bp, -56 . S kcai/mol
S ' CTATAC&TCCTCGTATGCCGTCTrCTGCT S 3 *
GEX indexll Adapter!
最 ¾定 3' -二 .: 3.1 bp, -5 T .€ kcal/raol
S ' CCAGTACTTCTCGTATGCCSTCTTCTGCTTG .3 '
3 ' NNGGTCRTGAAGAGCATACGGCAG.AAGA GAAC S '
GEX index!2 Adapter?
最 定 -二聚体: 31 bp, -56 . 3 fccal/rtiol
S ' CTCAGAATACTCGTATGCCGTC'CTCTGCTTG 3 '
3 ' NNGAGTCTTATGAGCaTAC^GCAGAAGACGAAC S '
工业实用性
本发明的用于构建数字基因表达錯标签文库的核酸标签、寡核苷酸、数字基因表达 谱标签文库及其制备方法、数字基因表达谱及其建立方法、建立多种样品的数字基因表 达谘的方法以及用于构建数字基因表达谱文库的试剂盒,能够应用于数字基因表达谱的 建立, 并且能够有效地提高测序平台, 例如 Solexa测序平台的测序通量。
尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。根据 已经公开的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保 护范围之内。 本发明的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语 "一个实施例"、 "一些实施例"、 "示意性实施例"、 "示例"、 "具体示例"、 或 "一些示例" 等的描迷意指结合该实施例或示例描述的具体 特征、 结构、 材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语的示意性表述不一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱 离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、 修改、 替换和定型, 本发明的范围由权利要求及其等同物限定。

Claims

权利要求书
1. 一组分离的核酸标签, 其由 SEQ ID NO: 1-12所示的核苷酸构成。
2、 一组分离的寡核苷酸, 所述分离的寡核苷酸具有第一链和第二链, 并且所述第 一链分别由 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35所示的核 苷酸构成, 所述第二链分别由 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36所示的核苷酸构成, 其中, 所述 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36分别与 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33 和 35对应。
3、 一种构建数字基因表达谱标签文库的方法, 其特征在于, 包括以下步骤: 将 mRNA逆转录为相应的 cDNA片段;
在所述 cDNA片段的 5,端和 3,端分别添加 GEX接头 1和 GEX标签接头 2 , 以便得到文 库片段, 其中,所述 GEX标签接头 2包含选自所述权利要求 1所述一组分离的核酸标签的 一种, 所述文库片段含有 GEX接头 1、 GEX接头 2、 目标片段以及标签;
对所述文库片段进行扩增以便获得扩增产物; 以及
分离回收所述扩增产物, 所述扩增产物构成所述数字基因表达谱标签文库。
4、 根据权利要求 3所述的方法, 其特征在于, 进一步包括以下步驟:
从样品中提取总 RNA; 以及
从所述总 RN A中分离 mRNA ,
其中, 所述样品来自于真核生物。
5、 根据权利要求 4所述的方法, 其特征在于, 所述样品来自于水稻、 小鼠或人。
6、 根据权利要求 3所述的方法, 其特征在于, 在所述 cDNA片段的 5'端添加 GEX接 头 1进一步包括下列步骤:
利用 Ma///或 对所述 cDNA进行酶切处理,以便获得带有 5,粘性末端的 cDNA 片段; 以及
将所述带有 5,粘性末端的 cDNA片段与 GEX接头 1相连,
其中,
当所述利用 对所述 cDNA进行酶切处理时, 所述 GEX接头 1是具有下列序 列的寡核苷酸:
5' P-GATCGTCGGACTGTAGAACTCTGAAC ( SEQ ID NO: 37 )
5, ACAGGTTCAGAGTTCTACAGTCCGAC ( SEQ ID NO: 38 ); 以及
当利用 Nlalll对所述 cDNA进行酶切处理时, GEX接头 1是具有下列序列的寡核 苷酸:
5' P-TCGGACTGTAGAACTCTGAAC ( SEQ ID NO: 42 )
5' ACAGGTTCAGAGTTCTACAGTCCGACATG ( SEQ ID NO: 43 )。
7、 权利要求 6所述的方法, 其特征在于,
所述扩增是通过 PCR反应进行的,
其中, 当利用 对所述 cDNA进行酶切处理时, 所述 PCR反应是利用分别具 有如 SEQ ID NO: 39和 SEQ ID NO: 40所示的核苷酸序列的引物进行的; 以及
当利用 Ma///对所述 cDNA进行酶切处理时, 所述 PCR反应是利用分别具有如 SEQ
ID NO: 39和 SEQ ID NO: 44所示的核苷酸序列的引物进行。
8、 一种数字基因表达谱标签文库, 其是通过根据权利要求 3-7任一项所述的方法获 得的。
9、 一种建立数字基因表达谱的方法, 其特征在于, 包括下列步骤:
根据权利要求 3-7任一项所述的方法, 构建数字基因表达 i普标签文库; 以及 对所述数字基因表达谘标签文库进行测序, 以建立所述数字基因表达谘。
10、 根据权利要求 9所述的方法, 其特征在于,
对所述数字基因表达谱标签文库进行测序是利用 Solexa测序技术进行的。
11、 权利要求 10所述的方法, 其特征在于,
当利用 NZa///对所述 cDNA进行酶切处理时, 利用具有如 SEQ ID NO: 45所示核 苷酸序列的引物进行所述测序; 以及
当利用 Dpnll对所述 cDNA进行酶切处理时, 利用具有如 SEQ ID NO: 41所示核 苷酸序列的引物进行所述测序。
12、 一种建立多种样品的数字基因表达谱的方法, 其特征在于, 包括以下步驟: 针对所述多种样品的每一种, 分别独立地根据权利要求 3-7任一项所述的方法, 建 立所述样品的数字基因表达谱文库, 其中, 不同样品的数字基因表达谱文库釆用相互不 同并且已知序列的核酸标签, 其中所述多种为 2-12种;
将所述多种样品的数字基因表达谱文库进行组合,以便获得数字基因表达谱文库混 合物;
对所述数字基因表达谱文库混合物进行测序; 以及
基于所述标签的序列信息, 分别建立所述多种样品的数字基因表达谱。
13、 权利要求 12所述的方法, 其特征在于,
当利用 NZa///对所述 cDNA进行酶切处理时, 利用具有如 SEQ ID NO: 45所示核 苷酸序列的引物进行所述测序; 以及
当利用 Dpnll对所述 cDNA进行酶切处理时, 利用具有如 SEQ ID NO: 41所示核 苷酸序列的引物进行所述测序。
14、 权利要求 12所述的方法, 其特征在于, 对所述数字基因表达谱文库混合物进 行测序是利用 Solexa测序技术进行的。
15、 一种用于构建数字基因表达谱文库的试剂盒, 其包括:
12种分离的寡核苷酸, 所述 12种分离的寡核苷酸分别具有第一链和第二链, 并且 所述第一链分别由 SEQ ID NO: 13、 15、 17、 19、 21、 23、 25、 27、 29、 31、 33和 35 所示的核苷酸构成, 所述第二链分别由 SEQ ID NO: 14、 16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36所示的核苷酸构成, 其中, 所述 SEQ ID NO: 14、
16、 18、 20、 22、 24、 26、 28、 30、 32、 34和 36分另1 J与 SEQ ID NO: 13、 15、
17、 19、 21、 23、 25、 27、 29、 31、 33和 35对应,
其中, 所述 12种分离的寡核苷酸分别设置在不同的容器中。
PCT/CN2011/079901 2010-09-21 2011-09-20 核酸标签及其应用 WO2012037879A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010299248.4 2010-09-21
CN201010299248.4A CN102409044B (zh) 2010-09-21 2010-09-21 用于数字基因表达谱的标签及其使用方法

Publications (1)

Publication Number Publication Date
WO2012037879A1 true WO2012037879A1 (zh) 2012-03-29

Family

ID=45873443

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/079901 WO2012037879A1 (zh) 2010-09-21 2011-09-20 核酸标签及其应用

Country Status (2)

Country Link
CN (1) CN102409044B (zh)
WO (1) WO2012037879A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111005073A (zh) * 2019-09-29 2020-04-14 深兰科技(上海)有限公司 一种多样本文库的构建方法及装置
CN113481196A (zh) * 2021-06-30 2021-10-08 序康医疗科技(苏州)有限公司 一种dna连接的方法及其应用

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106520917A (zh) * 2016-09-20 2017-03-22 美因健康科技(北京)有限公司 一种基因的大片段缺失/重复检测的方法
WO2018177383A1 (zh) * 2017-03-29 2018-10-04 中国医学科学院基础医学研究所 化合物或中药提取物在制备核酸递送试剂中的应用及其相关产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008093098A2 (en) * 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
CN101395280A (zh) * 2006-03-01 2009-03-25 凯津公司 基于测序的高通量SNPs连接检测技术
CN101434988A (zh) * 2007-11-16 2009-05-20 深圳华因康基因科技有限公司 一种高通量寡核苷酸测序方法
WO2010053587A2 (en) * 2008-11-07 2010-05-14 Mlc Dx Incorporated Methods of monitoring conditions by sequence analysis
CN101748213A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种环境微生物检测方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1364916A (zh) * 2001-10-31 2002-08-21 浙江大学 水稻叶片表达序列标签及其构成的生物芯片
GB0400584D0 (en) * 2004-01-12 2004-02-11 Solexa Ltd Nucleic acid chacterisation
CN100564618C (zh) * 2007-06-13 2009-12-02 北京万达因生物医学技术有限责任公司 分子置换标签测序并行检测法即寡聚核酸代码标签分子库微球阵列分析

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101395280A (zh) * 2006-03-01 2009-03-25 凯津公司 基于测序的高通量SNPs连接检测技术
WO2008093098A2 (en) * 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
CN101434988A (zh) * 2007-11-16 2009-05-20 深圳华因康基因科技有限公司 一种高通量寡核苷酸测序方法
WO2010053587A2 (en) * 2008-11-07 2010-05-14 Mlc Dx Incorporated Methods of monitoring conditions by sequence analysis
CN101748213A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种环境微生物检测方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111005073A (zh) * 2019-09-29 2020-04-14 深兰科技(上海)有限公司 一种多样本文库的构建方法及装置
CN113481196A (zh) * 2021-06-30 2021-10-08 序康医疗科技(苏州)有限公司 一种dna连接的方法及其应用
CN113481196B (zh) * 2021-06-30 2023-07-04 序康医疗科技(苏州)有限公司 一种dna连接的方法及其应用

Also Published As

Publication number Publication date
CN102409044B (zh) 2014-05-07
CN102409044A (zh) 2012-04-11

Similar Documents

Publication Publication Date Title
CN105506125B (zh) 一种dna的测序方法及一种二代测序文库
WO2012037880A1 (zh) Dna标签及其应用
DK3192900T3 (en) Method of constructing a library containing single-stranded cyclic nucleic acids and compounds thereof
WO2012037882A1 (zh) Dna标签及其应用
WO2012037876A1 (zh) Dna标签及其应用
WO2018149091A1 (zh) 一种环状rna高通量测序文库的构建方法及其试剂盒
CN109797436B (zh) 一种测序文库构建方法
Routh et al. ClickSeq: fragmentation-free next-generation sequencing via click ligation of adaptors to stochastically terminated 3′-azido cDNAs
WO2012159564A1 (zh) 甲基化高通量检测方法
WO2018024082A1 (zh) 一种串联rad标签测序文库的构建方法
WO2017076299A1 (zh) 一种多重pcr引物及应用
CN105463585A (zh) 基于单链dna分子构建测序文库的方法及其应用
WO2018112806A1 (zh) 将线性测序文库转换为环状测序文库的方法
WO2013064066A1 (zh) 全基因组甲基化高通量测序文库的构建方法及其应用
WO2012037884A1 (zh) Dna标签及其应用
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
CN111363783B (zh) 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法
CN106811460B (zh) 用于低频突变检测的二代测序文库的构建方法及试剂盒
CN104153003A (zh) 一种基于illumina测序平台的大片段DNA文库的构建方法
US20180223350A1 (en) Duplex adapters and duplex sequencing
WO2012126398A1 (zh) Dna标签及其用途
CN111979307B (zh) 用于检测基因融合的靶向测序方法
WO2012037881A1 (zh) 核酸标签及其应用
WO2012037875A1 (zh) Dna标签及其应用
US20230017673A1 (en) Methods and Reagents for Molecular Barcoding

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11826406

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 05/08/2013)

122 Ep: pct application non-entry in european phase

Ref document number: 11826406

Country of ref document: EP

Kind code of ref document: A1