WO2012037883A1 - 核酸标签及其应用 - Google Patents

核酸标签及其应用 Download PDF

Info

Publication number
WO2012037883A1
WO2012037883A1 PCT/CN2011/079906 CN2011079906W WO2012037883A1 WO 2012037883 A1 WO2012037883 A1 WO 2012037883A1 CN 2011079906 W CN2011079906 W CN 2011079906W WO 2012037883 A1 WO2012037883 A1 WO 2012037883A1
Authority
WO
WIPO (PCT)
Prior art keywords
index
sequence
primer
sequencing
genomic
Prior art date
Application number
PCT/CN2011/079906
Other languages
English (en)
French (fr)
Inventor
蒋慧
刘晓
吴仁花
欧阳伟汉
武靖华
吴明枝
赵美茹
王俊
Original Assignee
深圳华大基因科技有限公司
深圳华大基因研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳华大基因科技有限公司, 深圳华大基因研究院 filed Critical 深圳华大基因科技有限公司
Publication of WO2012037883A1 publication Critical patent/WO2012037883A1/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups

Definitions

  • the invention relates to the field of biotechnology, in particular to the field of nucleic acid sequencing technology.
  • the present invention relates to nucleic acid tags, oligonucleotides, blocking sequences, kits, methods of constructing a genome sequencing library, constructed genome sequencing libraries, and sequencing of specific regions of a genome sample for constructing a genome sequencing library Methods, and methods for sequencing the genomes of a plurality of samples. Background technique
  • the second-generation sequencing technology represented by Illumina solexa-AB Solid and Roche 454, has greatly reduced the cost of sequencing, has been rapidly developed in recent years, and has become an important tool for genomics research. Compared to the Sanger sequencing technology of the chain termination method, the second generation sequencing technology adopts a technology strategy of sequencing while synthesizing.
  • the second generation of sequencing technology is characterized by high throughput, which can simultaneously sequence hundreds of millions of DNA fragments. Currently, a high-throughput sequencer can generate up to 200 Gb of data at a time, equivalent to one person's The whole genome was sequenced 65 times.
  • this high-throughput sequencing technique breaks the genome into a series of small fragments by ultrasound or other methods, and adds a linker to both sides of the small fragment, and then forms a bridge PCR or emulsion PCR amplification by a linker primer.
  • WO 2009/106208 A2 discloses a method of multi-sample hybridization which introduces a tag sequence representing a specific sample (a total of 133 tag sequences) by means of a linker to distinguish DNA samples from different sources. All tag sequences consist of 11 deoxynucleotides located between the sequencing primer and the DNA sample.
  • each sample was ligated with a linker containing a different tag sequence, and after mixing, sequence capture was performed in a NimbleGen chip hybridization system. The eluted capture sequences were sequenced on the Roche 454 sequencing platform and the samples from different sources were distinguished by sequencing the tag sequences on the linkers.
  • this technology has drawbacks in terms of application scope and efficiency:
  • the method of introducing a tag sequence through a linker is not conducive to the application of the technique in a sequencing platform such as Solexa: On the one hand, the tag sequence added after the linker is ligated between the sequencing primer and the sample DNA, and must be sequenced before sequencing the sample DNA.
  • the bp tag sequence which uses sequential sequencing of the tag sequence and sample DNA with the same sequencing primers, is used in a second-generation sequencing technology platform with a short sequencing length, which will undoubtedly further shorten the effective sequencing length of the sample DNA;
  • the introduction of a tag sequence based on a linker-based approach results in a tag sequence at both ends of the sample DNA, which results in double-end sequencing on a sequencing platform such as Solexa, which results in the sequence of the tag being sequenced twice, resulting in sequencing data. waste.
  • This technique uses a linker with a tag sequence to perform library preparation.
  • the requirement for a high initial amount is not conducive to the promotion of large scale for disease research.
  • SEQ ID NO: 165+M
  • M any integer of 1-159.
  • the invention proposes a set of isolated oligonucleotides which can be used as PCR primers.
  • the aforementioned nucleic acid tags can be introduced into the sequencing library conveniently and efficiently (and thus sometimes referred to herein as PCR tag primers).
  • the invention proposes an isolated oligonucleotide which can serve as a blocking sequence.
  • each of the isolated oligonucleotides has
  • the invention proposes a method of constructing a genome sequencing library.
  • the method comprises the steps of: disrupting genomic DNA to obtain a DNA fragment; performing end repair of the DNA fragment to obtain a DNA fragment that has been repaired at the end; a base A is added to the end of the fragment to obtain a DNA fragment having a sticky terminal A; the DNA fragment having the sticky terminal A is ligated to a linker to obtain a DNA fragment having a linker; and the DNA having the linker is reacted by a PCR reaction
  • the fragment is amplified to obtain a PCR amplification product, wherein the PCR reaction utilizes one selected from the group of isolated oligonucleotides described above as a 3' primer (PCR tag primer); and the PCR is isolated and recovered.
  • the PCR amplification products constitute the genome sequencing library.
  • This method can efficiently construct a genome sequencing library for genome sequencing, and can efficiently introduce a nucleic acid tag into a sequencing library by a PCR reaction.
  • the inventors have surprisingly found that when constructing a genome sequencing library containing various nucleic acid tags using oligonucleotides having different tags for the same sample based on the above method, the stability of the obtained sequencing data results and The repeatability is very good, so that multiple samples can be sequenced in the same reaction system.
  • the invention proposes a genome sequencing library.
  • the genome sequencing library is constructed according to the aforementioned method of constructing a genome sequencing library.
  • This genomic sequencing library is particularly suitable for sequence capture, particularly hybridization based sequence capture techniques.
  • the constructed genome sequencing library is suitable for second generation sequencing technology, especially solexa sequencing technology.
  • the present invention provides a method for sequencing a specific region of a genomic sample, characterized by comprising the steps of: establishing a genome sequencing library of the genomic sample according to the aforementioned method;
  • the genomic sequencing library is subjected to capture and sequencing to obtain a sequence of a specific region of the genomic sample, and the genomic sequencing library is captured by hybridizing the genomic sequencing library with a specific probe, and
  • the following blocking sequence is added during the hybridization process: Cot-I DNA; an oligonucleotide having the sequence set forth in SEQ ID NO: 164 as the first blocking sequence; and one selected from the group consisting of the aforementioned isolated oligonucleotides As a second closed sequence, wherein for the second closed sequence and the 3, primers, M takes the same value.
  • the isolated oligonucleotide according to the embodiment of the present invention is employed as a blocking sequence, it is possible to avoid the efficiency of binding of the sample DNA to the probe due to annealing between the complementary sequences of the linker during the hybridization process. It also avoids that unrelated sample DNA may be connected by annealing between the junctions and cascaded to form "macromolecule DNA". Thus, the use of these isolated oligonucleotides as a blocking sequence can improve the capture efficiency.
  • the present invention provides a method of sequencing a genome of a plurality of samples, characterized in that The method comprises the steps of: establishing, for each of the plurality of samples, a genome sequencing library according to the foregoing method, wherein different samples adopt labels different from each other and known sequences; and performing genome sequencing sequencing of various samples Mixing to obtain a genomic sequencing library mixture; capturing and sequencing the genomic sequencing library mixture to obtain tag sequence information and genomic sequence information of the genomic sequencing library; and locating the genomic sequence information based on the tag sequence information Performing classification to determine genomic sequence information of the plurality of samples, wherein capturing the genomic sequencing library is performed by hybridizing the genomic sequencing library with a specific probe, and during the hybridization process
  • the following blocking sequence is added: Cot-1 DNA; an oligonucleotide having the sequence shown as SEQ ID NO: 164 as a first blocking sequence; and one selected from the group of isolated oligonucleotides described above as a second a closed sequence, wherein, for the
  • the method according to an embodiment of the present invention can make full use of high-throughput sequencing technology, for example, using Solexa sequencing technology, and simultaneously sequencing a genome sequencing library of a plurality of samples, thereby improving the efficiency and sequencing of sequencing of the genome sequencing library.
  • the amount, at the same time, can improve the efficiency of determining the sequence information of a specific region in a whole genome of a plurality of samples.
  • the invention proposes a kit for constructing a genome sequencing library.
  • an isolated nucleic acid tag according to an embodiment of the present invention can be conveniently introduced into a genome sequencing library by a PCR reaction.
  • the invention proposes a kit for capturing a genome sequencing library.
  • the kit comprises: a set of isolated oligonucleotides, wherein the isolated oligonucleotides each have
  • kits enables efficient capture of sequences from specific regions of the genome sequencing library, thereby increasing the efficiency and precision of genome sequencing.
  • the introduction efficiency of the tag sequence is significantly improved, and the method can ensure that the tag sequence is introduced only at one of the linker ends, thereby avoiding waste of data caused by sequencing the tag sequence twice, and by PCR method. Reduce the amount of sample required for the initial amount;
  • Label sequence and sample DNA sequence sequencing can be performed in different sequencing primers, which avoids the reduction of the effective sequencing length of the sample DNA due to sequencing of the tag sequence;
  • this design can prevent the sample tag sequence from being sequenced incorrectly (a base in the tag sequence) The sequencing error of the base is found and corrected) and the sample is confusing, so it has a certain correction function in data analysis;
  • the linker sequence can be blocked by introducing a blocking sequence of the linker primer to prevent the sample DNA from affecting the capture efficiency and causing non-specific sequence capture due to the joint annealing.
  • the blocking sequence can block only the single-stranded DNA 5, the terminal region of the end, without blocking the 3, the terminal region, while ensuring the effective blocking of the linker region, while avoiding the blocking sequence of the captured sequence which may remain after elution in PCR Amplification of the primers in the reaction results in cloning of the sample tag sequence and loss of the sample tag sequence;
  • Capture techniques in accordance with embodiments of the present invention can be applied to NimbleGen chip hybridization systems, Agilent liquid phase hybridization systems, and NimbleGen EZ liquid phase hybridization systems, as a measurement sequence capture at the same or near sequencing depth (number of times each base is sequenced)
  • the target area coverage and sequence capture specificity of the effect are consistent when a single sample is crossed or multiple samples are hybridized;
  • hybridization sequencing library When constructing a hybridization sequencing library, it only needs to be replaced with the corresponding linker primer sequence provided by the sequencing platform used, and it can be applied to other second-generation sequencing platforms such as Roche 454 and AB SOLiD, and has a wide application prospect.
  • Figure 1 is a schematic flow diagram of sequencing a particular region of a genome in accordance with one embodiment of the present invention.
  • FIG. 2 Schematic representation of a constructed DNA library containing a specific tag sequence constructed in accordance with one embodiment of the present invention.
  • the tag sequence is introduced by a PCR method.
  • Figure 3 Schematic diagram of a blocker hybridization blockade in accordance with one embodiment of the present invention. Blocks only block single-stranded DNA 5, the end of the linker.
  • FIG. 4 Single sample hybridization ( Pooling-1, Pooling-3, Pooling-4, Pooling-5, Pooling-1, Pooling-12) and hybridization of two samples ( Pooling-31) according to one embodiment of the invention , Pooling-32, Pooling-33, Pooling-34, Pooling-35, Pooling-36), capture efficiency of hybridization in Nimblegen liquid phase hybridization systems. Where the abscissa depth represents the sequencing depth and the ordinate coverage (%) represents the capture efficiency.
  • FIG. 5 Single sample hybridization ( Pooling-1, Pooling-3, Pooling-4, Pooling-5, Pooling-1, Pooling-12) and hybridization of two samples ( Pooling-31) according to one embodiment of the invention , Pooling-32, Pooling-33, Pooling-34, Pooling-35, Pooling-36), sequencing after hybridization of the Nimblegen liquid-phase hybridization system, data comparison to the target area.
  • the abscissa pooling represents the sample number
  • the ordinate Percent (%) represents the ratio of the data comparison to the target area.
  • first and second are used for descriptive purposes only, and are not to be construed as indicating or implying a relative importance or implicitly indicating the number of technical features indicated. Thus, features defining “first” and “second” may explicitly or implicitly include one or more of the features. Further, in the description of the present invention, the meaning of “plurality” is two or more unless otherwise stated.
  • SEQ ID NO: 165+M
  • M any integer of l - 159.
  • the sequence is shown in Table 1 below, and will not be described here.
  • nucleic acid as used in the present invention may be any polymer comprising deoxyribonucleotides or ribonucleotides, including but not limited to modified or unmodified DNA or RNA.
  • a nucleic acid tag is ligated to a genomic DNA fragment of the sample or an equivalent thereof to obtain a tagged genome sequencing library, and the sequence of the genomic DNA fragment of the sample can be obtained by sequencing the genome sequencing library. And the sequence of the tag, which in turn can accurately characterize the source of the sample of genomic DNA based on the sequence of the tag.
  • a genome sequencing library of a plurality of samples can be simultaneously constructed, and the genomic DNA sequences of the samples can be classified based on the nucleic acid tags by mixing and sequencing the genome sequencing libraries derived from different samples. Sequence information of genomic DNA of various samples is obtained.
  • nucleic acid tag is linked to a genomic DNA fragment of a sample or its equivalent
  • the expression "nucleic acid tag is linked to a genomic DNA fragment of a sample or its equivalent” is to be understood broadly and includes that the nucleic acid tag can be directly ligated to the genomic DNA fragment of the sample to construct a genomic sequencing library (in this context, Sometimes referred to as a tag library, it can also be linked to a nucleic acid having the same sequence as the genomic DNA fragment of the sample (for example, the corresponding RNA sequence or cDNA sequence, which has the same sequence as the DNA).
  • the sequence of the captured sequence can be determined by sequencing the sequence of the tag after elution.
  • the tag sequence provided in Table 1 there is at least 3 base differences between any two tag sequences. This design makes it possible to correct the accidental tag sequence sequencing errors after sequencing. Find and correct sequencing errors for one base in the tag sequence).
  • sequences having higher similarity to the sequencing primer 3, and sequences containing more than three consecutive identical bases are not included.
  • the present invention introduces a tag sequence into a sample by a PCR method which is simple and effective, while greatly reducing the requirement for the starting amount of the sample.
  • one aspect of the invention provides a set of tags comprising or consisting of: at least 10 of the 159 tags shown in Table 1 or a tag that differs by one base, or at least 20 , or at least 30, or at least 40, at least 50, or at least 60, or at least 70, or at least 80, or 90, or at least 100, or at least 1 10, or at least 120 , or at least 130, or at least 140, or at least 150, or all 159, the set of tags preferably including at least the table 1 Index_Newl -10 in Index 159, or Index_Newl 1-20, Index_New21-30, or Index_New31-40, Index_New41-50, or Index_New51-60, Index_New61-70, or Index_New71-80, Index_New81-90, or Index_New91 - 100 , Index - New 101 - 1 10 , or Index - Newl 1 1 - 120 , Index_Newl21 - 130 , or Index_Newl31 - 140 , Index_Newl41
  • the invention proposes a set of isolated oligonucleotides which can be used as PCR primers.
  • the aforementioned nucleic acid tags can be introduced into the sequencing library conveniently and efficiently (and thus sometimes referred to herein as PCR tag primers).
  • the sequences of these oligonucleotides are shown in Table 2 and will not be described herein.
  • nucleic acid tags can be efficiently introduced into a sequencing library and exhibit higher efficiencies than other sequences.
  • the present invention provides a set of PCR tag primers comprising the above-described tag, wherein said PCR tag primer comprises said tag, and is preferably used as a 3' primer for PCR, said set
  • the PCR tag primers comprise or consist of the following: 159 PCR tag primers shown in Table 2 or at least 10, or at least 20, or at least 30, or at least 30 PCR primer primers differing from the tag contained therein by one base, or At least 40, at least 50, or at least 60, or at least 70, or at least 80, or 90, or at least 100, or at least 1 10, or at least 120, or at least 130, or at least 140, or at least 150, or all 159, the set of labels preferably including at least Index_Newl -10 Primer in 159 PCR tag primers shown in Table 2, or Index_Newl 1 -20 Primer, Index_New21- 30 Primer , or Index_New31-40 Primer , Index_New41 -50 Primer, or Index_New
  • the present invention provides a method of constructing a genome sequencing library. According to an embodiment of the invention, the method comprises the following steps:
  • the genomic DNA is interrupted to obtain a DNA fragment.
  • the source of genomic DNA is not particularly limited.
  • the genomic DNA is a human genomic DNA sample.
  • the inventors have found that a DNA tag library of a plurality of common model organisms can be efficiently constructed using the method according to an embodiment of the present invention.
  • the obtained random fragment has a length of about 200 to 250 bp, whereby the efficiency of constructing a genome sequencing library and subsequent hybridization and sequencing can be further improved.
  • genomic DNA can be disrupted by any known method, wherein the DNA is preferably interrupted by ultrasonic disruption.
  • the inventors have found that the genomic DNA is interrupted by ultrasonic disruption, and the resulting fragment length is easy to control and does not affect subsequent sequencing operations.
  • the obtained DNA fragment is subjected to end repair to obtain a DNA fragment which has been subjected to end repair.
  • One skilled in the art can perform end-repair of DNA fragments by any known method, and there are many alternative commercial kits available in the art.
  • the end-repaired random fragment has two oligonucleotide strands, wherein base A is added at the 3' end of the two oligonucleotide strands.
  • bases can be added at the 3' end of both oligonucleotide strands.
  • a DNA fragment having a sticky terminal A is ligated to a linker to obtain a DNA fragment having a linker.
  • joints used herein those skilled in the art can select the procedure for adding the joint according to the sequencing platform used, and can also refer to the instructions provided by the manufacturer.
  • the DNA fragment having the linker is amplified by a PCR reaction to obtain a PCR amplification product.
  • the PCR reaction utilizes one of a set of isolated oligonucleotides selected from the foregoing as a 3' primer (PCR tag primer).
  • the PCR-based label primer contains one of the nucleic acid tags according to the embodiment of the present invention, and thus the nucleic acid tag can be successfully and efficiently introduced in the sequencing library by the PCR reaction efficiently.
  • an oligonucleotide of the nucleotide sequence shown by SEQ ID NO: 161 can be further used as a 5' primer (herein, sometimes referred to as primer PE Primer 1.0).
  • the method for separating and recovering the amplification product is also not particularly limited, and those skilled in the art can select an appropriate method and apparatus for separation according to the characteristics of the amplification product, for example, by electrophoresis and recycling a specific length. The method of fragmentation is recycled.
  • a genome sequencing library for genome sequencing can be efficiently constructed using the method according to an embodiment of the present invention, and a nucleic acid tag can be efficiently introduced into a sequencing library by a PCR reaction.
  • the inventors have surprisingly found that when constructing a genome sequencing library containing various nucleic acid tags using oligonucleotides having different tags for the same sample based on the above method, the stability of the obtained sequencing data results and The repeatability is very good, so that multiple samples can be sequenced in the same reaction system.
  • the present invention provides a genomic library for PCR tag primers for construction, and for sequence capture and/or sequencing, wherein the PCR tag primer and primer PE Primer 1.0 are used by PCR method A tag sequence is introduced for the genomic library.
  • the PCR tag primer is a 3' primer and the primer PE Primer 1.0 is a 5' primer.
  • the present invention further provides a genomic library constructed using the PCR tag primer, wherein the PCR tag primer and the primer PE Primer 1.0 are used for construction by a PCR method.
  • the PCR tag primer is a 3' primer and the primer PE Primer 1.0 is a 5' primer.
  • the invention proposes a genome sequencing library.
  • the genome sequencing library is constructed according to the aforementioned method of constructing a genome sequencing library. This genomic sequencing library is particularly well suited for sequence capture, particularly hybridization based sequence capture techniques.
  • the constructed genome sequencing library is suitable for second generation sequencing techniques, especially solexa sequencing technology.
  • the invention proposes a kit for constructing a genome sequencing library.
  • an isolated nucleic acid tag according to an embodiment of the present invention can be conveniently introduced into a genome sequencing library by a PCR reaction.
  • the invention provides a method of sequencing a particular region of a genomic sample, comprising the steps of:
  • the genomic sequencing library is captured and sequenced to obtain sequences of specific regions of the genomic sample.
  • the genomic sequencing library is captured by hybridizing the prepared genomic sequencing library to the probe.
  • the following blocking sequence may be added: Cot-I DNA; an oligonucleotide having the sequence shown as SEQ ID NO: 164 as a first blocking sequence;
  • One of the isolated oligonucleotides serves as a second blocking sequence, wherein for the second blocking sequence and the 3, the primers, the M values are the same.
  • the isolated oligonucleotide according to the embodiment of the present invention is employed as a blocking sequence, it is possible to avoid the efficiency of binding of the sample DNA to the probe due to annealing between the complementary sequences of the linker during the hybridization process. It also avoids that unrelated sample DNA may be connected by annealing between the joints, and cascaded to form "macromolecule DNA". Thus, the use of these isolated oligonucleotides as a blocking sequence can improve the capture efficiency.
  • the type of the probe to be used is not particularly limited, and those skilled in the art can select the type of the probe as needed, and there are many commercially available probes available on the market, such as carrying a probe. Needle chip and so on. According to a specific example of the present invention, the above hybridization can be carried out on a NimbleGen chip hybridization platform or an Agilent liquid phase hybridization platform.
  • the invention also provides a set of isolated oligonucleotides that can serve as a blocking sequence.
  • each of the isolated oligonucleotides has
  • the invention proposes a kit for capturing a genome sequencing library.
  • the kit comprises: a set of isolated oligonucleotides, wherein the isolated oligonucleotides each have
  • kits enables efficient capture of sequences from specific regions of the genome sequencing library, thereby increasing the efficiency and precision of genome sequencing.
  • the present invention provides a method of sequencing a genome of a plurality of samples, comprising the steps of: first, for each of said plurality of samples, respectively according to the aforementioned method A genome sequencing library is established in which different samples are labeled with different and known sequences.
  • a genome sequencing library of various samples is mixed to obtain a genome sequencing library mixture.
  • the genome sequencing library mixture is captured and sequenced to obtain tag sequence information and genomic sequence information of the genome sequencing library.
  • genomic sequence information is classified based on the tag sequence information to determine genomic sequence information of the plurality of samples.
  • the genomic sequencing library is captured by hybridizing a genomic sequencing library to a probe.
  • the following blocking sequence may be added during hybridization: Cot-I DNA; an oligonucleotide having the sequence shown as SEQ ID NO: 164 as a first blocking sequence; and one selected from the foregoing One of the group-isolated oligonucleotides serves as a second blocking sequence, wherein for the second blocking sequence and the 3' primer, N has the same value.
  • the closed sequences in Table 3 correspond to the respective tags, respectively, and thus, those skilled in the art can select the corresponding closed sequences based on the nucleic acid tags employed according to Table 3.
  • the expression "mixing genome sequencing libraries of various samples" used herein should be understood in a broad sense, which may include mixing the sequencing libraries after preparing the genome sequencing libraries separately. The mixture may also be included in the preparation of the genome sequencing library, mixing the intermediates, and finally completing the common processing steps to achieve obtaining a genomic sequencing library mixture having known tag sequences.
  • the type of the probe to be used is not particularly limited, and those skilled in the art can select the type of the probe as needed, and there are many commercially available probes available on the market, such as carrying a probe. Needle chip and so on.
  • the above hybridization can be carried out on a NimbleGen chip hybridization platform or an Agilent liquid phase hybridization platform.
  • the method for sequencing the genomes of a plurality of samples can make full use of high-throughput sequencing technologies, for example, using Solexa sequencing technology, and simultaneously sequencing a genome sequencing library of a plurality of samples, thereby improving
  • the efficiency and throughput of sequencing of a genome sequencing library can also improve the efficiency of determining sequence information for a particular region of a genome in a variety of samples.
  • another aspect of the present invention provides two linker blocking sequences having an oligonucleotide as shown in SEQ ID NO: 164 as a first blocking sequence, and TTG, wherein N NNN NN is The blocking sequence as shown in Table 3 differs from one base by one.
  • the one base difference comprises a substitution, addition or deletion of 1 base in the sequence.
  • the use of the adaptor blocking sequence for blocking a linker sequence is provided, and a corresponding blocking sequence is added to each sample containing a different tag sequence when performing hybridization (in this context) Sometimes called block).
  • hybridization is carried out in a hybridization system including, but not limited to, a NimbleGen chip hybridization system, an Agilent liquid phase hybridization system, and a NimbleGen EZ liquid phase hybridization system.
  • the invention further provides a genomic library constructed using the linker blocking sequence.
  • a further aspect of the invention provides a method of constructing a genomic library, characterized in that the PCR tag primers described above are used, and/or the linker blocking sequences described above are used.
  • the present invention designs and synthesizes a closed sequence of two adaptors, designated as blockl (SEQ ID NO: 164) and block 2 (second closed sequence as described in detail above), for Closure of the linker sequence.
  • blockl SEQ ID NO: 164
  • block 2 second closed sequence as described in detail above
  • Blockl is common to all samples, so it can be called a common block; block2 is designed for different tag sequences, so add the appropriate block2 for samples with different tag sequences when doing hybridization.
  • a method of performing sequence capture of a plurality of samples in the same reaction system includes the entire experimental procedure from the initiation of the sample genomic DNA to the sequencing of the results.
  • the method consists of three main components: library construction, hybridization, sequencing, and data analysis.
  • the sample genomic DNA is broken into fragments of 200 250 bp by including, but not limited to, ultrasonic disruption, and the DNA fragment is ligated by terminal repair, "A" base, ligation, etc., and then passed through PCR.
  • the method is different
  • the 8 bp tag sequence was introduced into the adaptor end of the source genomic library sample DNA, so that each genomic DNA library was tagged with a specific sequence.
  • the tag sequence can be located at the end of the linker sequence.
  • the purification of the PCR product completes the construction of the library and the labeling of DNA from different sources.
  • Hybridization Mix the samples to be hybridized obtained in the previous step in a certain ratio (the mixing ratio can be determined according to the estimated amount of data required, for example, if the amount of data is 20X sequencing depth, then the same amount of samples are mixed), at 95 After denaturation at °C for 10 minutes, hybridization was carried out on a NimbleGen chip hybridization platform or an Agilent liquid phase hybridization platform, and a linker and block2 of the linker and a repeat block (Cot-1 DNA) were added to the hybridization system.
  • Cot-1 DNA is a part of the genome with a high proportion of repeats in the genome. When used in hybridization, it helps to improve the efficiency of hybridization.
  • Cot-1 DNA can be obtained from the commercial product Human Cot-1 DNA® (invitrogen). After the hybridization is completed, the captured sequences are collected by denaturing or the like and purified to obtain a mixture of sequences obtained from different samples.
  • Sequencing and data analysis The sequence to be captured is sequenced on Solexa or other sequencing platforms (requires the corresponding linker when constructing the library (for example, for the SOLiD sequencing platform, using the short-length library to construct the linker provided by the sequencing platform)
  • the sequence was determined by sequencing one end of the sample DNA with sequencing primer 1 (SP 1 ), sequencing the tag sequence with sequencing primer 3 (SP3), and finally sequencing the other end of the sample DNA with sequencing primer 2 (SP2).
  • SP1, SP2, and SP3 are all from the Illumina commercial sequencing kit.
  • the data obtained by sequencing with SP3 sequencing primers can be used to identify the tag sequence, and the source of the corresponding sample DNA is determined based on the tag sequence.
  • sequencing of the genome sequencing library can be by any method, such as the dideoxy chain termination method.
  • high-throughput sequencing methods are preferred: such as second-generation sequencing technology (Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan; l 1(1): 31-46), including SOLEXA, SOLID, and 454 (pyrophosphate sequencing) sequencing technology (platform).
  • single-molecule sequencing technology single-molecule sequencing platform
  • Helicos' True Single Molecule DNA sequencing technology Pacific Biosciences' single molecule, real-time (SMRT.TM.) technology, and Oxford Nanopore Technologies' nanotechnology Hole sequencing technology, etc.
  • SMRT.TM. real-time
  • Oxford Nanopore Technologies' nanotechnology Hole sequencing technology etc.
  • CTCTTCCGATCT SEQ ID NO: 162
  • the NNNN NNN in Index_NewN Primer represents the 8 b tag sequence (the specific sequence is shown in Table 1 tag sequence), and the Block 2 NNNNNN N represents the block of the 8 b tag sequence (the specific sequence is shown in Table 2 closed sequence, all sequences are in IDT) /Invitrogen/Takra synthesis, purified using HLPC.
  • Example 1 Comparative Example of NimbleGen Chip Hybrid System (Roche NimbleGen): Single sample hybridized on Nimblegen 855K chip
  • Hybrid library construction The hybrid library construction procedure is referenced in the Illumina Multiplexing Sample Preparation Guide, which is incorporated herein by reference. After taking 3 g of genomic DNA (extracted from human peripheral blood), the ends were filled, the "A" base was added, and the adaptor (from Illumina Multiplexing Sample Preparation Oligonucleotide Kit) was added and PCR amplification was performed. PCRA system and reaction The conditions are as follows:
  • the PCR product was purified using Ampure beads according to Agencourt AMPure protocol (Beckman, USA), dissolved in 25 ⁇ l of purified water, and the concentration of the PCR product was measured using NanoDrop 1000.
  • Chip washing and sample elution e. Chip washing and sample elution:
  • the samples were double-end sequenced in the Solexa sequencing platform, and the tag sequences on the samples were also sequenced.
  • the data source of the sampled data is analyzed by data analysis, and the capture effect of the sample is analyzed and counted.
  • the single-sample 855K region sequence capture effect is shown in Table 1.
  • Example 3 Example of application in NimbleGen chip hybridization system: 24 libraries (constructed according to hybrid library construction method) Sequence capture using 855K chip after mixing
  • the 24 samples were mixed into one piece and hybridized on the same chip, and the hybridization method was the same as in Example 1.
  • Example 4 Comparative Example of NimnleGen Chip Hybrid System: Sequence Capture of a Single Sample with a 34M Whole Exome (Roche NimbleGen)
  • the hybridization method was the same as in Example 1.
  • Example 5 Example of application in NimbleGen chip hybridization system: Two samples (constructed according to hybrid library construction method) Sequence capture using 34M full exon chip after mixing (1) How to buy:
  • Hybridization Two samples were mixed and hybridized on a Nimlegen 34M whole exon chip, three replicates ( Figure 1, Figure 2, pooling 31 and ooling31, pooling 33 and ooling 34, pooling 35 and ooling 36).
  • the hybridization method was the same as in Example 1.
  • Figure 4 and Figure 5 show the results of constructing library data using a single sample of Nimblegen chip and two samples, respectively. There is no significant difference in the coverage of the target region and the ratio of the sequencing sequence to the target region.
  • the hybridized sample was adsorbed with Dynal magnetic beads (Invitrogen) and the captured sequence was eluted with 50 SureSelect Elution Buffer.
  • the PCR product was purified by AMPure DNA Purification kit (SPRI beads) and dissolved in 95 EB.
  • Example 7 Example of Agilent liquid phase hybridization system: 38 M full exon sequence capture after mixing two samples 1. Preparation of hybrid library: The method was the same as in Example 1.
  • Block2 1 nmol b.
  • the prepared sample was placed in a SpeedVac and evaporated to dryness at 60 °C.
  • the PCR hot lid should be set to maintain at 57 °C.
  • washing reagents are from Roche NimbleGen
  • DNA was captured by selective recovery using Dynal magnetic beads (Invitrogen) and the captured DNA was washed. Wash with IX Wash Buffer I preheated to 47 °C, then wash twice with IX Stringent Wash Buffer preheated to 47 °C, and then wash once with IX Wash Buffer I, II, III at room temperature.
  • the PCR product was purified by Qiagen QIAquick PCR Purification Ki and finally dissolved in 30 pure water.
  • EXAMPLE 9 In an example of a Nimblegen liquid phase hybridization system, two samples were mixed and subjected to 34M full exon sequence capture in a Nimblegen liquid phase hybrid system.
  • Table 5 Single sample and two samples mixed together in the Nimblegen liquid phase hybridization system. Sample name: Index number Capture region capture efficiency vs. target region. Number of bases in average (%) Total number of sequencing bases Proportion (%)
  • Nimlegen-EZ-DC 2 Index_New3 3412538 98.90 79.43 41.68 The sample Nimlegen-EN-SC was captured by single hybridization, and Nimlegen-EN-DC 1 and Nimlegen-EN-DC 2 were mixed and captured by mixing the two samples together.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

核酸标签及其应用
优先权信息
本申请请求 2010年 9月 21 日向中国国家知识产权局提交的、 专利申请号为 201010299269.6 的专利申请的优先权和权益, 并且通过参照将其全文并入此处。
技术领域
本发明涉及生物技术领域, 特别是核酸测序技术领域。 具体地, 本发明涉及用于构建基因组 测序文库的核酸标签、 寡核苷酸、 封闭序列、 试剂盒、 构建基因组测序文库的方法、 所构建的基因 组测序文库、对基因组样品的特定区域进行测序的方法、以及对多种样品的基因组进行测序的方法。 背景技术
以 Illumina solexa- AB Solid和 Roche 454为代表的第二代测序技术使测序成本大大降低, 在近几年得到快速发展, 并成为基因组学研究的重要工具。 与链终止法的 Sanger测序技术相比, 第 二代测序技术采用边合成边测序的技术策略。 第二代测序技术最大的特点是高通量, 其可对数以亿 计的 DNA片段同时进行测序, 目前一台高通量测序仪一次可产生高达 200 Gb的数据,相当于将一 个人的全基因组测序 65次。 然而这种高通量的测序技术是通过超声波或其他方法将基因组打断成 一系列的小片段, 并在小片段的两侧加上接头, 然后通过接头引物进行桥式 PCR或 emulsion PCR 扩增形成测序的基本单位,再根据接头上的部分序列设计公共测序引物,对基因组 DNA进行测序。
尽管高通量的测序技术使测序成本大大降低, 然而测序一个人的全基因组序列仍需要数万美 元, 这对于需要对大量样品进行测序的疾病研究等研究项目来说, 总测序成本仍然很昂贵, 难以大 规模推广应用。 另一方面, 对于研究人类某些疾病的科学家来说, 他们并不需要对全基因组进行测 序, 他们感兴趣的往往只是很小部分的基因组区域, 例如全外显子区 (相当于 1%的人全基因组大 小) , 如果能选择性地对这些区域进行测序, 将使测序总成本显著降低同时也能缩短测序时间。 序 列捕获技术是一种对基因组特定区域进行选择性富集的技术,其通过合适的方法将感兴趣的区域从 基因组中分离出来, 然后再对该目标区域进行测序, 这对于低成本地有针对性的进行基因组学研究 有非常重要的意义。
然而, 目前对基因组特定区域进行测序的方法仍有待改进。
发明内容
本发明是基于发明人的下列发现而完成的:
WO2009/ 106208 A2公开了一种多样品混合杂交的方法, 该方法通过连接接头的方法引入代 表特定样品的标签序列 (共 133个标签序列 )来区分不同来源的 DNA样品。 所有标签序列均由 11 个脱氧核苷酸组成, 位于测序引物和 DNA样品之间。 在构建测序文库时, 每个样品接上包括不同 标签序列的接头, 混合后在 NimbleGen芯片杂交系统中进行序列捕获。 洗脱后的捕获序列在 Roche 454测序平台进行测序, 通过测序接头上的标签序列来区分不同来源的样品。 然而, 该技术在应用 范围和效率等多个方面还存在缺陷:
1、 其通过接头引入标签序列的方法不利于该技术在 Solexa等测序平台的应用: 一方面, 接 头连接后加入的标签序列位于测序引物与样品 DNA之间, 在测序样品 DNA之前必须先测序 11 bp 的标签序列, 这种用同一测序引物对标签序列和样品 DNA进行连续测序的方法在测序长度本来就 较短的第二代测序技术平台中使用, 无疑会进一步缩短样品 DNA的有效测序长度; 另一方面, 基 于接头连接的方法引入标签序列会导致样品 DNA的两个末端均带上标签序列, 这样在 Solexa等测 序平台进行双末端测序时会导致标签序列被测序两次, 造成测序数据的浪费。
2、 该技术没有使用接头的 blocks (也称为封闭序列) , 这会导致样品在杂交时, 由于接头 互补序列之间的退火, 使样品 DNA与探针的结合效率降低, 影响序列捕获效果, 同时, 没有任何 关联的样品 DNA 可能由于接头之间的退火而相连, 并级联放大形成"大分子 DNA", 当探针与靶 DNA退火结合后, 同时也会把与靶 DNA相连的其他非靶 DNA—起捕获下来, 造成捕获序列中存 在大量的非靶序列。
3、 由于该技术主要针对芯片杂交进行优化, 而在液相系统中使用时, 由于样品 DNA起始量 较小, 它们通过接头连接在一起后, 可能对序列捕获效果产生较大影响, 同时也可能捕获大量非靶 序列。 因此, 该技术方案在 Agilent液相杂交平台的序列捕获效果可能会较差。
4、 该技术采用连接带有标签序列接头方式进行文库制备,对于起始量要求较高, 不利于大规 模推广用于疾病研究领域。
本发明旨在至少解决现有技术中存在的技术问题之一。 为此, 根据本发明的第一方面, 本发明提出了一组能够用于构建基因组测序文库的分离的核 酸标签。 根据本发明的实施例, 该一组分离的核酸标签中的每一种分别由 SEQ ID NO: ( 165+M ) 所示的核苷酸序列构成, 其中, M=l-159的任意整数。 其序列如下表 1所示, 在表 1中, 核酸标签 的命名规则为: Inde_New M, 其中, M=l-159的任意整数。
表 1 核酸标签
标签号 标签序列 标签号 标签序列
Index—New 1 AAGCAATG Index_New81 TTCCTCAT
Index_New2 AATCCGAA Index_New82 TTGGAGGA
Index_New3 AATGATGA Index_New83 TTGTCTAA
Index_New4 ACAGGAGC Index_New84 TTCTGGAC
Index_New5 ACCGAGCT Index_New85 CGATAGAT
Index_New6 ACCTGTTG Index_New86 AACAGTAA
Index_New7 ACCTTGAA Index_New87 CCGCGTGT
Index_New8 ACGTTAGG Index_New88 TCTGGATA
Index_New9 ACTACGTG Index_New89 TATTCCTA
Index—New 10 ACTCTTAC Index_New90 TCACGTTC
Index—New 11 AGAAGGTA Index_New91 CTGTGCGG
Index—New 12 AGAGACTT Index_New92 AACGCAAT
Index—New 13 AGATCTCT Index_New93 GCTTACGA
Index—New 14 AGCGCTGG Index_New94 CGTGACGG
Index—New 15 AGGTTCAT Index_New95 TACTTCGC
Index—New 16 AGTCTGGT Index_New96 CGCAGTCC
Index—New 17 AGTTATAG Index_New97 CAATGCTC
Index—New 18 AGTTCCGC Index_New98 CACGGCGA
Index—New 19 ATAACTAG Index_New99 CGCCGCTG
Index_New20 ATATAAGA Index—New 100 GCATCCTT
Index_New21 ATCGATTC Index_Newl01 GCCATTGC
Index_New22 ATCTTATT Index—New 102 GAGAATAC
Index_New23 ATGGCATA Index—New 103 GTAATGAC
Index_New24 ATTAGAAT Index—New 104 GCTTGGAT
Index_New25 CAACATTA Index—New 105 AGTATACC
Index_New26 CAAGTAAC Index—New 106 GCACGCAA
Index_New27 CAGTGAAT Index—New 107 CCGTCGGA
Index_New28 CATATGAT Index_Newl08 ATGCCTGC
Index_New29 CATTAAGC Index—New 109 TCGCTGGC
Index_New30 CCATATCC Index_Newl lO CCAGTGTG
Index_New31 CCATCAAG Index Newl l l GCGAGGCC
Index_New32 CCGATCTT Index—New 112 TGCGCGCC
Index_New33 CCGGTTAA Index—New 113 AGGTGGCG
Index_New34 CGACTTAG Index_Newl l4 GCCGCATG
Index_New35 CGCGAATA Index_Newl l5 CTGTTGCC
Index_New36 CGTGCTTC Index_Newl l6 TGATACCG
Index_New37 CTACTGGA Index_Newl l7 ATTGGCCG
Index_New38 CTAGACAA Index_Newl l8 GGACGGCT
Index_New39 CTAGCGCT Index_Newl l9 CACTCTGT Index_New40 CTCACAGG Index—New 120 GGCTGCGT
Index_New41 CTTAGTTG Index—New 121 GTCAGCTC
Index_New42 CTTCCTAT Index—New 122 AGCCATCA
Index_New43 CTTGTAGT Index—New 123 ATGATTCA
Index_New44 GAACCATC Index—New 124 GTCTGTCA
Index_New45 GAATGTGG Index—New 125 ACGACCAC
Index_New46 GACCAAGA Index—New 126 CTCCACGC
Index_New47 GATCCTCG Index—New 127 GCGGAAGT
Index_New48 GATGGACT Index_Newl28 GTACATGT
Index_New49 GATTAGTG Index—New 129 TTAGCCGG
Index_New50 GCGCCTTA Index_Newl30 CAGGATCG
Index_New51 GCTCTATT Index—New 131 ATATCGTC
Index_New52 GGAACAGT Index—New 132 TGGCCAGG
Index_New53 GGAGTCGC Index—New 133 GACGTCTT
Index_New54 GGCCTGTA Index—New 134 TAGAGAGC
Index_New55 GGCTTAAC Index_Newl35 GACACGCT
Index_New56 GGTAATTA Index—New 136 AACAACGG
Index_New57 GTCCTACG Index—New 137 CGTAGCAA
Index_New58 GTCGAGAG Index_Newl38 TGGTTACA
Index_New59 GTGCGTAG Index_Newl39 TTAACACA
Index_New60 GTTAACCT Index—New 140 CGGCTATC
Index_New61 GTTGCAAC Index—New 141 CGGTGTTA
Index_New62 TAATTGAG Index—New 142 TAACTACT
Index_New63 TAGACTTG Index—New 143 AGGCAGAC
Index_New64 TAGGTTGT Index—New 144 TCTACTCC
Index_New65 TATGGTAG Index—New 145 GCTGCGCA
Index_New66 TATGTGTC Index—New 146 TATAGGCA
Index_New67 TATTATCT Index—New 147 CACTAGCA
Index_New68 TCACCGCG Index—New 148 GAGCTCGG
Index_New69 TCATAGTA Index—New 149 CTAATCCG
Index_New70 TCCAACAA Index—New 150 TCCGTCCG
Index_New71 TCCTCACT Index—New 151 CCTCAGTC
Index_New72 TCGGCGAT Index—New 152 TAACACAC
Index_New73 TCTATAAG Index—New 153 CGGACGAG
Index_New74 TCTCATGG Index—New 154 CCTCTCCA
Index_New75 TGAGGTGA Index—New 155 GAATTCCA
Index_New76 TGCAAGGT Index—New 156 GGCGCCAA
Index_New77 TGGAGTAT Index—New 157 ATTAAGGC
Index_New78 TGTCGAAC Index—New 158 AATCGCTT
Index_New79 TTATGATG Index—New 159 TTGCGGTT
Index_New80 TTCATGTG
根据本发明的第二方面, 本发明提出了一组可以用作 PCR 引物的分离的寡核苷酸。 根据本 发明的实施例, 该组分离的寡核苷酸的每一种, 分别由 SEQ ID NO: 1-159所示的寡核苷酸序列构 成, 其中, M=l-159的任意整数。 利用这些寡核苷酸作为引物, 能够方便高效地将前述的核酸标签 引入到测序文库中 (因而在本文中有时也称为 PCR标签引物) 。 这些寡核苷酸的序列如下表 2所 示, 在表 2中, 这些寡核苷酸被命名为 Index— NewM Primer, 其中, M=l-159的任意整数。 表 2, PCR标签引物列表
名称
Index _Newl Primer
Index _New2 Primer
Index _New3 Primer
Index _New4 Primer
Index _New5 Primer
Index _New6 Primer
Index _New7 Primer
Index _New8 Primer
Index _New9 Primer
Index -NewlO Primer
Index _Newll Primer
Index _Newl2 Primer
Index _Newl3 Primer
Index _Newl4 Primer
Index _Newl5 Primer
Index _Newl6 Primer
Index _Newl7 Primer
Index _Newl8 Primer
Index _Newl9 Primer
Index _New20 Primer
Index _New21 Primer
Index _New22 Primer
Index _New23 Primer
Index _New24 Primer
Index _New25 Pr imer
Index _New26 Primer
Index -New27 Primer
Index -New28 Primer
Index -New29 Primer
Index -New30 Primer
Index _New31 Primer
Index _New32 Primer
Index _New33 Primer
Index _New34 Primer
Index _New35 Primer
Index -New36 Primer
Index -New37 Primer
Index -New38 Primer
Index -New39 Primer
Index -New40 Primer
Index _New41 Primer
Index _New42 Primer
Index. .New43 Primer deew89e Inx N primr- deew88e Inx N primr- dee8e Inx Nw7 primr- dee86e Inx Nw primr- deew85e Inx N primr-
Figure imgf000006_0001
deew8e Inx N4 primr- deew83e Inx N primr- deew8e Inx N2 primr- dee Inx primr- deew80e Inx N primr- deew79e Inx N primr- deew78e Inx N primr- dee77e Inx Nw primr- dee6e Inx Nw7 primr- deew75e Inx N primr- deew7e InxN4 primr- •
dee Inx primr- deew7e Inx N2 primr- deew7e Inx N1 primr- deew70e Inx N primr- deew69e Inx N primr- deew68e Inx N primr- deew67e Inx N primr- dee66e Inx Nw primr- deew65e InxN primr- .
deew6e Inx N4 primr- deew63e InxN primr- ■
deew6e InxN2 primr- ■
dee Inx primr- deewse Inx N primr-
Figure imgf000006_0002
deew59e InxN primr- ■
deew58e InxN primr- ■
deew57e InxN primr- ■ dee Inx primr.
deew5e InxN4 primr- ■
deew53e InxN primr. ■
deew5e InxN2 primr- ■
dee Inx primr.
deew50e InxN primr- ■
deew9e InxN4 primr. ■
deew8e InxN4 primr- ■
deew7e InxN4 primr. ■
dee6e InxNw4 primr. ■ dee5e InxNw4 primr. . Index Primer
Index _New91 Primer
Index _New92 Primer
Index _New93 Primer
Index _New94 Primer
Index _New95 Primer
Index _New96 Primer
Index _New97 Primer
Index Primer
Index _New99 Primer
Index _NewlOO Primer
Index _Newl01 Primer
Index _Newl02 Primer
Index _Newl03 Primer
Index _Newl04 Primer
Index _Newl05 Primer
Index _Newl06 Primer
Index _Newl07 Primer
Index _Newl08 Primer
Index _Newl09 Primer
Index _NewllO Primer
Index _Newlll Primer
Index _Newll2 Primer
Index _Newll3 Primer
Index _Newll4 Primer
Index _Newll5 Primer
Index _Newll6 Primer
Index _Newll7 Primer
Index _Newll8 Primer
Index -Newll9 Primer
Index -Newl20 Primer
Index _Newl21 Primer
Index _Newl22 Primer
Index _Newl23 Primer
Index _Newl24 Primer
Index _Newl25 Primer
Index _Newl26 Primer
Index _Newl27 Primer
Index -Newl28 Primer
Index -Newl29 Primer
Index -Newl30 Primer
Index -Newl31 Primer
Index _Newl32 Primer
Index _Newl 3 Primer
Index. — Newl34 Primer
Index. _Newl35 Primer Index _Newl36 Primer
Index _Newl37 Primer
Index _Newl38 Primer
Index _Newl39 Primer
Index _Newl40 Primer
Index _Newl41 Primer
Index _Newl42 Primer
Index _Newl43 Primer
Index _Newl44 Primer
Index _Newl45 Primer
Index _Newl46 Primer
Index _Newl47 Primer
Index _Newl48 Primer
Index _Newl49 Primer
Index _Newl50 Primer
Index _Newl51 Primer
Index _Newl52 Primer
Index _Newl53 Primer
Index _Newl54 Primer
Index _Newl55 Primer
Index _Newl56 Primer
Index _Newl57 Primer
Index _Newl58 Primer
Index _Newl59 Primer
根据本发明的第三方面, 本发明提出了一种可以作为封闭序列的分离的寡核苷酸。 根据本发 明 的 实 施 例 , 这 些 分 离 的 寡 核 苷 酸 均 具 有
TTG ( SEQ ID NO: 165 ) 所示的核苷酸序列, 其中 NNNNN NN分别为 SEQ ID NO: ( 324+M ) 所示的核苷酸序列, 其中, M=l-159的任意整数。 利用这些分离的寡核苷酸作为封闭序列 (在本文 中有时也称为 block 序列) , 可以避免在杂交过程中, 由于接头互补序列之间的退火, 使得样品 DNA与探针的结合效率降低, 也避免了没有关联的样品 DNA可能由于接头之间的退火而相连, 并 级联放大形成 "大分子 DNA" 。 从而采用这些分离的寡核苷酸作为封闭序列, 能够提高捕获效率。 针对不同的标签序列, 封闭序列中的 NNNN NNN所表示的序列示于下表 3中:
表 3 标签序列的封闭序列
标签号 封闭序列 标签号 封闭序列
1 ndex_ New1 CATTGCTT I ndex_ — New81 ATGAGGAA
1 ndex_ _New2 TTCGGATT I ndex_ _New82 TCCTCCAA
1 ndex_ _New3 TCATCATT I ndex_ _New83 TTAGACAA
1 ndex_ New4 GCTCCTGT I ndex_ New84 GTCCAGAA
1 ndex_ New5 AGCTCGGT I ndex_ _New85 ATCTATCG
1 ndex_ New6 CAACAGGT I ndex_ _New86 TTACTGTT
1 ndex_ New7 TTCAAGGT I ndex_ — New87 ACACGCGG
1 ndex_ New8 CCTAACGT I ndex_ _New88 TATCCAGA
1 ndex_ New9 CACGTAGT I ndex_ _New89 TAGGAATA
1 ndex_ — New10 GTAAGAGT I ndex_ _New90 GAACGTGA
1 ndex_ New11 TACCTTCT I ndex_ _New91 CCGCACAG
1 ndex_ _New12 AAGTCTCT I ndex_ _New92 ATTGCGTT u ι u I u I u I u I u I u I u I U| u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I U| u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I u I
Figure imgf000009_0001
u I
9066.0/llOZN3/X3d o Z OAV ndex_ New59 CTACGCAC I ndex— _New1 39 TGTGTTAA ndex_ _New60 AGGTTAAC I ndex— — New1 40 GATAGCCG
ndex_ _New61 GTTGCAAC I ndex— New1 41 TAACACCG
ndex_ _New62 CTCAATTA I ndex— _New1 42 AGTAGTTA
ndex_ _New63 CAAGTCTA I ndex— — New1 43 GTCTGCCT
ndex_ New64 ACAACCTA I ndex— New 1 44 GGAGTAGA
ndex_ New65 CTACCATA I ndex— New 1 45 TGCGCAGC
ndex_ _New66 GACACATA I ndex— — New1 46 TGCCTATA
ndex_ — New67 AGATAATA I ndex— New1 47 TGCTAGTG
ndex_ _New68 CGCGGTGA I ndex— — New1 48 CCGAGCTC
ndex_ _New69 TACTATGA I ndex— — New1 49 CGGATTAG
ndex_ — New70 TTGTTGGA I ndex— — New 1 50 CGGACGGA
ndex_ New71 AGTGAGGA I ndex— New1 51 GACTGAGG
ndex_ _New72 ATCGCCGA I ndex— — New1 52 GTGTGTTA
ndex_ — New73 CTTATAGA I ndex— _New 1 53 CTCGTCCG
ndex_ New74 CCATGAGA I ndex— New1 54 TGGAGAGG
ndex_ New75 TCACCTCA I ndex— New 1 55 TGGAATTC
ndex_ — New76 ACCTTGCA I ndex— _New 1 56 TTGGCGCC
ndex_ New77 ATACTCCA I ndex— New1 57 GCCTTAAT
ndex_ — New78 GTTCGACA I ndex— — New 1 58 AAGCGATT
ndex_ — New79 CATCATAA I ndex— — New1 59 AACCGCAA
ndex New80 CACATGAA
根据本发明第四方面,本发明提出了一种构建基因组测序文库的方法。根据本发明的实施例, 该方法包括下列步骤: 将基因组 DNA打断, 以便获得 DNA片段; 将所述 DNA片段进行末端修复, 以便获得经过末端修复的 DNA片段; 在所述经过末端修复的 DNA片段的末端添加碱基 A, 以便 获得具有粘性末端 A的 DNA片段; 将所述具有粘性末端 A的 DNA片段与接头相连, 以便获得具 有接头的 DNA片段; 通过 PCR反应对所述具有接头的 DNA片段进行扩增, 以便获得 PCR扩增产 物,其中,所述 PCR反应利用选自前述的一组分离的寡核苷酸的一种作为 3 '引物(PCR标签引物); 以及分离回收所述 PCR扩增产物, 所述 PCR扩增产物构成所述基因组测序文库。 利用该方法能够 有效地构建用于基因组测序的基因组测序文库, 并且能够通过 PCR反应, 有效地将核酸标签引入 到测序文库中。 另外, 发明人惊奇地发现, 当针对相同的样品, 基于上述方法, 采用具有不同标签 的寡核苷酸构建含有各种核酸标签的基因组测序文库时,所得到的测序数据结果的稳定性和可重复 性非常好, 因而可以实现多个样品在同一反应体系中进行序列捕获。
根据本发明的第五方面, 本发明提出了一种基因组测序文库。 根据本发明的实施例, 该基因 组测序文库是根据前述构建基因组测序文库的方法构建的。 该基因组测序文库特别适于序列捕获, 特别是基于杂交的序列捕获技术。 另外, 发明人发现所构建的基因组测序文库适用于第二代测序技 术, 尤其是 solexa测序技术。
根据本发明的第六方面, 本发明提出了一种对基因组样品的特定区域进行测序的方法, 其特 征在于, 包括以下步骤: 根据前述的方法, 建立所述基因组样品的基因组测序文库; 以及对所述基 因组测序文库进行捕获和测序, 以便获得所述基因组样品特定区域的序列, 对所述基因组测序文库 进行捕获是通过将所述基因组测序文库与特异性探针进行杂交进行的,并且在所述杂交过程中添加 下列封闭序列: Cot- I DNA; 具有如 SEQ ID NO: 164所示序列的寡核苷酸作为第一封闭序列; 以 及选自前述一组分离的寡核苷酸的一种作为第二封闭序列, 其中,对于所述第二封闭序列和所述 3, 引物, M取值相同。 由此, 可以有效地从基因组测序文库中捕获筛选特定的序列进行测序, 从而提 高了测序的精度和效率。 如前所述, 由于采用根据本发明实施例的分离的寡核苷酸作为封闭序列, 因而可以避免在杂交过程中, 由于接头互补序列之间的退火, 使得样品 DNA与探针的结合效率降 低, 也避免了没有关联的样品 DNA 可能由于接头之间的退火而相连, 并级联放大形成 "大分子 DNA" 。 从而采用这些分离的寡核苷酸作为封闭序列, 能够提高捕获效率。
根据本发明的第七方面,本发明提出了一种对多种样品的基因组进行测序的方法,其特征在于, 包括下列步骤: 针对所述多种样品的每一种, 分别根据前述的方法, 建立基因组测序文库, 其中, 不同的样品采用相互不同并且已知序列的标签; 将多种样品的基因组测序文库进行混合, 以便获得 基因组测序文库混合物; 对所述基因组测序文库混合物进行捕获和测序, 以便获得所述基因组测序 文库的标签序列信息和基因组序列信息; 以及基于所述标签序列信息对所述基因组序列信息进行分 类, 以便确定所述多种样品的基因组序列信息, 其中, 对所述基因组测序文库进行捕获是通过将所 述基因组测序文库与特异性探针进行杂交进行的,并且在所述杂交过程中添加下列封闭序列: Cot- 1 DNA; 具有如 SEQ ID NO: 164所示序列的寡核苷酸作为第一封闭序列; 以及选自前述的一组分离 的寡核苷酸的一种作为第二封闭序列, 其中, 对于所述第二封闭序列和所述 3 '引物, N取值相同。 由此, 根据本发明实施例的该方法, 可以充分利用高通量的测序技术, 例如利用 Solexa测序技术, 同时对多种样品的基因组测序文库进行测序, 从而提高基因组测序文库测序的效率和通量, 同时可 以提高确定多种样品的全基因组中特定区域序列信息的效率。
根据本发明的第八方面, 本发明提出了一种用于构建基因组测序文库的试剂盒。根据本发明的 实施例, 该试剂盒包括: 一组分离的寡核苷酸, 其由 SEQ ID NO: 1- 159所示的寡核苷酸序列构成, 其中, M=l- 159的任意整数, 其中, 每一种分离的寡核苷酸分别设置在不同的容器中。 由此, 可以 方便地通过 PCR反应将根据本发明实施例的分离的核酸标签引入到基因组测序文库中。
根据本发明的第九方面, 本发明提出了一种用于对基因组测序文库进行捕获的试剂盒。根据本 发明的实施例, 该试剂盒包括: 一组分离的寡核苷酸, 其中所述分离的寡核苷酸均具有
TTG ( SEQ ID NO: 165 ) 所示的核苷酸序列, 其中 NNN NNNN分别为 SEQ ID NO: ( 324+M ) 所示的核苷酸序列, 其中, M=l-159的任意整数; 其中, 每一种分离的寡核苷酸分别设置在不同的 容器中。 利用该试剂盒, 能够有效地从基因组测序文库中捕获特定区域的序列, 从而提高了基因组 测序的效率和精确度。
根据本发明的各个方面的实施例, 可以至少实现下列技术效果之一:
通过采用 PCR方法引入特定的标签序列,标签序列引入效率显著提高, 该方法可保证只在其 中一个接头末端引入标签序列, 避免了两次对标签序列进行测序造成的数据浪费,而且能通过 PCR 方法减少对于样品起始量要求;
标签序列与样品 DNA序列的测序可以采用不同的测序引物, 分次进行测序, 避免了由于对 标签序列测序而导致样品 DNA有效测序长度的降低;
采用了 8个碱基的标签序列, 其中任意两个标签序列之间至少有 3个碱基的差异, 这种设计 可在一定程度上防止样品标签序列由于测序错误(可对标签序列中一个碱基的测序错误进行发现与 校正) 而引起样品弄混, 因此在数据分析时具有一定的校正功能;
通过引入了接头引物的封闭序列可以封闭接头序列, 避免样品 DNA 由于接头退火连在一起 而影响捕获效率和导致非特异序列捕获;
标签序列与样品 DNA序列的测序采用不同的测序引物, 分次进行测序, 避免了由于对标签 序列测序而导致样品 DNA有效测序长度的降低;
封闭序列可以只封闭单链 DNA 5,末端的接头区域, 而不封闭其 3,末端区域, 在保证接头区 域有效封闭的同时, 又避免了捕获的序列在洗脱后可能残留的封闭序列在 PCR反应中作为引物扩 增而导致样品标签序列弄混和样品标签序列丢失;
根据本发明实施例的捕获技术可以适用于 NimbleGen芯片杂交系统、 Agilent液相杂交系统 和 NimbleGen EZ液相杂交系统, 在相同或接近的测序深度 (每个碱基被测序次数) 时作为衡量序 列捕获效果的目标区域覆盖度和序列捕获特异性指标在单个样品杂交或者多个样品杂交时结果一 致; 以及
在构建杂交测序文库时, 只需要更换为所使用测序平台提供的对应接头引物序列, 即可适用 于 Roche 454和 AB SOLiD等其他的第二代测序平台, 有较广的应用前景。
本发明的附加方面和优点将在下面的描述中部分给出, 部分将从下面的描述中变得明显, 或通 过本发明的实践了解到。
附图说明
本发明的上述和 /或附加的方面和优点结合下面附图对实施例的描述中将变得明显和容易理解, 其中:
图 1 : 根据本发明一个实施例的对基因组特定区域进行测序的流程示意图。
图 2:根据本发明一个实施例的构建完成的含特定标签序列的样品 DNA文库示意图。其中通 过 PCR方法引入标签序列。
图 3 : 根据本发明一个实施例的接头 Blocks杂交封闭示意图。 Blocks只封闭单链 DNA 5,末 端的接头。
图 4: 根据本发明一个实施例, 单个样品杂交 ( Pooling- 1, Pooling-3, Pooling-4, Pooling-5, Pooling- 1 1, Pooling-12 ) 和两个样品混合后杂交 ( Pooling-31, Pooling-32, Pooling-33, Pooling-34, Pooling-35, Pooling-36 ) , 在 Nimblegen液相杂交系统杂交的捕获效率。 其中, 横坐标 depth表示 测序深度, 纵坐标 coverage ( % )表示捕获效率。
图 5 : 根据本发明一个实施例, 单个样品杂交 ( Pooling- 1, Pooling-3, Pooling-4, Pooling-5, Pooling- 1 1, Pooling-12 ) 和两个样品混合后杂交 ( Pooling-31, Pooling-32, Pooling-33, Pooling-34, Pooling-35, Pooling-36 ) , 在 Nimblegen液相杂交系统杂交后测序, 数据比对至目标区域的比例统 计结果。 其中横坐标 pooling表示样品编号, 纵坐标 Percent ( % )表示数据比对至目标区域的比例。 发明详细描述
下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至终相同或类似的 标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例 性的, 仅用于解释本发明, 而不能理解为对本发明的限制。
需要说明的是, 术语 "第一" 、 "第二" 仅用于描述目的, 而不能理解为指示或暗示相对重要 性或者隐含指明所指示的技术特征的数量。 由此, 限定有 "第一" 、 "第二" 的特征可以明示或者 隐含地包括一个或者更多个该特征。 进一步地, 在本发明的描述中, 除非另有说明, "多个" 的含 义是两个或两个以上。
核酸标签
根据本发明的第一方面, 提供了一种一组能够用于构建基因组测序文库的分离的核酸标签。 根据本发明的实施例, 该一组分离的核酸标签中的每一种分别由 SEQ ID NO: ( 165+M )所示的核 苷酸序列构成, 其中, M=l -159的任意整数。 其序列如下表 1所示, 在此不再赘述。 在本发明中所 使用术语 "核酸" 可以是任何包含脱氧核糖核苷酸或核糖核苷酸的聚合物, 包括但不限于经过修饰 的或者未经修饰的 DNA或 RNA。 利用根据本发明实施例的核酸标签, 通过将核酸标签与样品的基 因组 DNA片段或其等同物相连, 得到具有标签的基因组测序文库, 通过对基因组测序文库进行测 序, 可以获得样品基因组 DNA片段的序列以及标签的序列, 进而基于标签的序列可以精确地表征 基因组 DNA的样品来源。 由此, 利用上述核酸标签, 可以同时构建多种样品的基因组测序文库, 从而可以通过将来源于不同样品的基因组测序文库进行混合, 同时进行测序, 基于核酸标签对样品 的基因组 DNA序列进行分类, 获得多种样品的基因组 DNA的序列信息。 从而可以充分利用高通 量的测序技术, 例如利用 Solexa测序技术, 同时对多种样品的基因组 DNA进行测序, 从而提高了 通过高通量测序技术的效率和通量, 降低了确定基因组 DNA样品序列信息的成本。 这里所使用的 表述方式 "核酸标签与样品的基因组 DNA片段或其等同物相连" 应做广义理解, 其包括核酸标签 可以与样品的基因组 DNA片段直接相连, 以构建基因组测序文库 (在本文中, 有时也称为标签文 库) , 也可以与和样品的基因组 DNA片段具有相同序列的核酸 (例如可以是相应的 RNA序列或 cDNA序列, 其与 DNA具有相同的序列 )相连。
发明人发现: 通过使用表 1 中所示的标签 (也称为 index )序列, 可以用于对不同的样品进 行标记。 标记后的不同来源样品可以在同一杂交系统中进行序列捕获, 捕获的序列在洗脱后通过测 序其上的标签序列, 即可确定该序列的样品来源。 在表 1中所提供的标签序列中, 任意两个标签序 列之间至少有 3个碱基的差异,这种设计使得可以在测序后对偶然出现的标签序列测序错误有一定 的校正功能(能对标签序列中一个碱基的测序错误进行发现与校正)。 在表 1中所提供的标签序列 中,不包括与测序引物 3,末端有较高相似性的序列和一些包含 3个以上连续相同碱基的序列。因而, 本发明通过 PCR方法为样品引入标签序列 ,该方法简单有效,同时大大减少了对于样品起始量要求。
由此, 本发明一方面提供了一组标签, 所述一组标签包括如下或由如下组成: 表 1所示 159个 标签或与之相差一个碱基的标签中的至少 10个, 或至少 20个, 或至少 30个, 或至少 40个, 至少 50 个, 或至少 60个, 或至少 70个, 或至少 80个, 或 90个, 或至少 100个, 或至少 1 10个, 或至少 120个, 或至少 130个, 或至少 140个, 或至少 150个, 或全部 159个, 所述一组标签优选地至少包括表 1所示 的 159个标签中的 Index_Newl -10 , 或 Index_Newl 1-20 , Index_New21-30 , 或 Index_New31-40 , Index_New41-50, 或 Index_New51-60 , Index_New61-70 , 或 Index_New71-80 , Index_New81-90 , 或 Index_New91 -100 , Index—New 101 - 1 10 , 或 Index—Newl 1 1 -120 , Index_Newl21- 130 , 或 Index_Newl31 - 140 , Index_Newl41- 150 , 或 Index_Newl51- 159 , 或者他们任何两个或多个的组合。 在本; Ϊ明的一个具体示例 , 所述 "相差一个碱 Ϊ的标签" 的表述中, 相差一个碱基包括标签序列 中 1个碱基的取代、 添加或缺失。
寡核苷酸以及构建基因组测序文库
根据本发明的第二方面, 本发明提出了一组可以用作 PCR 引物的分离的寡核苷酸。 根据本 发明的实施例, 该组分离的寡核苷酸的每一种, 分别由 SEQ ID NO: 1- 159所示的寡核苷酸序列构 成, 其中, M=l- 159的任意整数。 利用这些寡核苷酸作为引物, 能够方便高效地将前述的核酸标签 引入到测序文库中 (因而在本文中有时也称为 PCR标签引物) 。 这些寡核苷酸的序列如表 2所示, 在此不再赘述。
发明人发现, 通过利用上述寡核苷酸作为 PCR 引物, 可以有效地将核酸标签引入到测序文 库中, 并且显示出与其他序列相比更高的效率。
由此,根据本发明的实施例,本发明提供了含有上述标签的一组 PCR标签引物,其中所述 PCR 标签引物包含所述标签, 并且优选地用作 PCR的 3 '引物, 所述一组 PCR标签引物包括如下或由如下 组成: 表 2所示 159个 PCR标签引物或与其中包含的标签相差一个碱基的 PCR标签引物中的至少 10 个, 或至少 20个, 或至少 30个, 或至少 40个, 至少 50个, 或至少 60个, 或至少 70个, 或至少 80个, 或 90个, 或至少 100个, 或至少 1 10个, 或至少 120个, 或至少 130个, 或至少 140个, 或至少 150个, 或全部 159个, 所述一组标签优选地至少包括表 2所示的 159个 PCR标签引物中的 Index_Newl -10 Primer , 或 Index—Newl 1 -20 Primer , Index_New21-30 Primer , 或 Index_New31-40 Primer , Index_New41 -50 Primer, 或 Index_New51-60 Primer, Index_New61-70 Primer, 或 Index_New71-80 Primer , Index_New81-90 Primer , 或 Index_New91 - 10 PrimerO Primer , Index—New 10 Primer 1- 1 10 Primer , 或 Index—Newl 1 1- 120 Primer, Index_New 121- 130 Primer , 或 Index_Newl31- 140 Primer, Index_Newl41- 150 Primer, 或 Index_Newl51- 159 Primer, 或者他们任何两个 多个的组合。 根据本 发明^实施例, "与其中包含的标签相差一个碱基的 PCR标签引物" 的表述中, 所述相差一个碱基 包括对表 1所示的 159个标签定序列中 1个碱基的取代、 添加或缺失。
进而, 根据本发明的又一方面, 本发明提出了一种构建基因组测序文库的方法。 根据本发明 的实施例, 该方法包括下列步骤:
首先, 将基因组 DNA打断, 以便获得 DNA片段。 根据本发明的实施例, 基因组 DNA的来 源并不受特别限制。 根据本发明的一个实施例, 基因组 DNA为人基因组 DNA样品。 发明人发现, 利用根据本发明实施例的方法, 能够有效地构建多种常见模式生物的 DNA标签文库。 根据本发明 的实施例, 所得的随机片段的长度为大约 200-250bp , 由此能够进一步提高构建基因组测序文库以 及后续杂交、 测序的效率。 根据本发明的实施例, 可以采用任何已知的方法对基因组 DNA进行打 断, 其中, 优选通过超声波打断法将组 DNA进行打断。 发明人发现, 通过超声波打断法将所述基 因组 DNA进行打断, 所得到的片段长度易于控制, 并且不会影响后续测序操作。
接下来, 将所得到 DNA片段进行末端修复, 以便获得经过末端修复的 DNA片段。 本领域技 术人员可以采用任何已知的方法对 DNA片段进行末端修复, 并且本领域^ "许多可供选择的商业试 剂盒可供选择。
接着, 在前面所得到的经过末端修复的 DNA片段的末端添加碱基 A, 以便获得具有粘性末 端 A的 DNA片段。 根据本发明的实施例, 经过末端修复的随机片段具有两条寡核苷酸链, 其中, 碱基 A即是添加在所述两条寡核苷酸链的 3,末端。 根据本发明的实施例, 可以在两条寡核苷酸链 的 3,末端都添加碱基 。
在获得具有粘性末端 A的 DNA片段之后, 将具有粘性末端 A的 DNA片段与接头相连, 以 便获得具有接头的 DNA片段。 关于这里所使用的接头, 本领域技术人员, 可以根据所采用的测序 平台来选择, 添加接头的程序, 也可以参考制造商所提供的说明书。
之后, 通过 PCR反应对具有接头的 DNA片段进行扩增, 以便获得 PCR扩增产物。 根据本 发明的实施例, PCR反应利用选自前述的一组分离的寡核苷酸的一种作为 3 '引物(PCR标签引物)。 基于 PCR标签引物中包含根据本发明的实施例的核酸标签的一种,因而可以有效地通过 PCR反应, 在测序文库中成功有效地引入核酸标签。 据本发明的实施例,还可以进一步采用 SEQ ID NO: 161 所示核苷酸序列的寡核苷酸作为 5'引物(在本文中, 有时也称为引物 PE Primer 1.0 ) 。 需要说明的 是, 这些标签引物是发明人通过大量歸选工作歸选获得的, 具有显著优于其他引物组合。 最后, 分离回收所述 PCR扩增产物, PCR扩增产物构成所述基因组测序文库。 根据本发明 的实施例, 分离回收扩增产物的方法也不受特别限制, 本领域技术人员可以根据扩增产物的特点选 择适当的方法和设备进行分离, 例如可以通过电泳并且回收特定长度的目的片段的方法进行回收。
利用根据本发明实施例的方法能够有效地构建用于基因组测序的基因组测序文库, 并且能够 通过 PCR反应, 有效地将核酸标签引入到测序文库中。 另外, 发明人惊奇地发现, 当针对相同的 样品, 基于上述方法, 采用具有不同标签的寡核苷酸构建含有各种核酸标签的基因组测序文库时, 所得到的测序数据结果的稳定性和可重复性非常好,因而可以实现多个样品在同一反应体系中进行 序列捕获。
由此, 根据本发明的实施例, 本发明提供了 PCR标签引物用于构建的基因组文库, 以及进行 序列捕获和 /或测序的用途, 其中使用所述 PCR标签引物和引物 PE Primer 1.0通过 PCR方法为基因组 文库引入标签序列。 优选地, 所述 PCR标签引物是 3'引物, 引物 PE Primer 1.0是 5'引物。 本发明进 一步提供了使用所述 PCR标签引物构建的基因组文库, 其中使用所述 PCR标签引物和引物 PE Primer 1.0通过 PCR方法进行构建。 优选地, 所述 PCR标签引物是 3'引物, 引物 PE Primer 1.0是 5'引物。
根据本发明的又一方面, 本发明提出了一种基因组测序文库。 根据本发明的实施例, 该基因 组测序文库是根据前述构建基因组测序文库的方法构建的。该基因组测序文库特别特别适于序列捕 获, 特别是基于杂交的序列捕获技术。 另外, 发明人发现所构建的基因组测序文库适用于第二代测 序技术, 尤其是 solexa测序技术。
根据本发明的又一方面, 本发明提出了一种用于构建基因组测序文库的试剂盒。根据本发明的 实施例, 该试剂盒包括: 一组分离的寡核苷酸, 其由 SEQ ID NO: 1-159所示的寡核苷酸序列构成, 其中, M=l-159的任意整数, 其中, 每一种分离的寡核苷酸分别设置在不同的容器中。 由此, 可以 方便地通过 PCR反应将根据本发明实施例的分离的核酸标签引入到基因组测序文库中。
基因组测序方法
根据本发明的第六方面, 本发明提出了一种对基因组样品的特定区域进行测序的方法, 其包 括以下步骤:
首先, 根据前述的方法, 建立所述基因组样品的基因组测序文库;
接下来,对所得到的基因组测序文库进行捕获和测序,以便获得基因组样品特定区域的序列。 根据本发明的实施例, 对基因组测序文库进行捕获是通过将所制备的基因组测序文库与探针 进行杂交而完成的。 根据本发明的具体示例, 在杂交过程中, 可以添加以下封闭序列: Cot-I DNA; 具有如 SEQ ID NO: 164所示序列的寡核苷酸作为第一封闭序列; 以及选自前述一组分离的寡核苷 酸的一种作为第二封闭序列, 其中, 对于所述第二封闭序列和所述 3,引物, M取值相同。 由此, 可以有效地从基因组测序文库中捕获筛选特定的序列进行测序, 从而提高了测序的精度和效率。 如 前所述,由于采用根据本发明实施例的分离的寡核苷酸作为封闭序列,因而可以避免在杂交过程中, 由于接头互补序列之间的退火, 使得样品 DNA与探针的结合效率降低, 也避免了没有关联的样品 DNA可能由于接头之间的退火而相连, 并级联放大形成 "大分子 DNA" 。 从而采用这些分离的寡 核苷酸作为封闭序列, 能够提高捕获效率。 根据本发明的实施例, 所采用的探针的类型不受特别限 制, 本领域技术人员能够根据需要选择探针的类型, 市场上也有众多可供选择的商品化的探针, 例 如携带有探针的芯片等。 根据本发明的具体示例, 可以在 NimbleGen芯片杂交平台或 Agilent液相 杂交平台上进行上述杂交。
为此,本发明还提供了一组一种可以作为封闭序列的分离的寡核苷酸。根据本发明的实施例, 这 些 分 离 的 寡 核 苷 酸 均 具 有
TTG ( SEQ ID NO: 165 ) 所示的核苷酸序列, 其中 NNNNN NN分别为 SEQ ID NO: ( 324+M ) 所示的核苷酸序列, 其中, M=l-159的任意整数。 利用这些分离的寡核苷酸作为封闭序列 (在本文 中有时也称为 block 序列) , 可以避免在杂交过程中, 由于接头互补序列之间的退火, 使得样品 DNA与探针的结合效率降低, 也避免了没有关联的样品 DNA可能由于接头之间的退火而相连, 并 级联放大形成 "大分子 DNA" 。 从而采用这些分离的寡核苷酸作为封闭序列, 能够提高捕获效率。 针对不同的标签序列, 封闭序列中的 NNNN NNN所表示的序列示于表 3中, 在此不再赘述。
根据本发明的又一方面, 本发明提出了一种用于对基因组测序文库进行捕获的试剂盒。 根据 本发明的实施例, 该试剂盒包括: 一组分离的寡核苷酸, 其中所述分离的寡核苷酸均具有
TTG ( SEQ ID NO: 165 ) 所示的核苷酸序列, 其中 NNNNNNNN分别为 SEQ ID NO: ( 324+M ) 所示的核苷酸序列, 其中, M=l-159的任意整数; 其中, 每一种分离的寡核苷酸分别设置在不同的 容器中。 利用该试剂盒, 能够有效地从基因组测序文库中捕获特定区域的序列, 从而提高了基因组 测序的效率和精确度。
进一步, 可以将上面对基因组测序文库进行捕获和测序的方法, 应用于多种样品。 因而, 根据 本发明的又一方面, 本发明提出了一种对多种样品的基因组进行测序的方法, 其包括下列步骤: 首先, 针对所述多种样品的每一种, 分别根据前述的方法, 建立基因组测序文库, 其中, 不同 的样品采用相互不同并且已知序列的标签。
接下来, 将多种样品的基因组测序文库进行混合, 以便获得基因组测序文库混合物。
接着, 对基因组测序文库混合物进行捕获和测序, 以便获得所述基因组测序文库的标签序列信 息和基因组序列信息。
最后, 基于所述标签序列信息对所述基因组序列信息进行分类, 以便确定所述多种样品的基因 组序列信息。
如前所述, 根据本发明的实施例, 对所述基因组测序文库进行捕获是通过将基因组测序文库与 探针杂交的。 根据本发明的实施例, 在杂交的过程中可以添加以下封闭序列: Cot-I DNA; 具有如 SEQ ID NO: 164所示序列的寡核苷酸作为第一封闭序列; 以及选自前述的一组分离的寡核苷酸的 一种作为第二封闭序列, 其中, 对于所述第二封闭序列和所述 3'引物, N取值相同。 正如表 1和表 3所示的, 表 3中的封闭序列分别对应各自的标签, 因而, 本领域技术人员可以根据表 3 , 基于所 采用的核酸标签来选择相应的封闭序列。 另外, 需要说明的是, 在本文中所采用的表达方式 "将多 种样品的基因组测序文库进行混合",应作广义理解,其可以包括在分别制备基因组测序文库之后, 将测序文库混合, 得到混合物, 也可以包括在基因组测序文库的制备过程中, 将中间产物混合, 最 后完成共同的处理步骤, 从而实现获得具有已知标签序列的基因组测序文库混合物。根据本发明的 实施例, 所采用的探针的类型不受特别限制, 本领域技术人员能够根据需要选择探针的类型, 市场 上也有众多可供选择的商品化的探针, 例如携带有探针的芯片等。 根据本发明的具体示例, 可以在 NimbleGen芯片杂交平台或 Agilent液相杂交平台上进行上述杂交。
由此, 根据本发明实施例的对多种样品的基因组进行测序的方法, 可以充分利用高通量的测序 技术, 例如利用 Solexa 测序技术, 同时对多种样品的基因组测序文库进行测序, 从而提高基因组 测序文库测序的效率和通量, 同时可以提高确定多种样品的全基因组中特定区域序列信息的效率。
根据本发明的实施例, 本发明另一方面提供了两种接头封闭序列, 其具有如 SEQ ID NO: 164 所 示 序 列 的 寡 核 苷 酸 作 为 第 一 封 闭 序 列 , 以 及 TTG, 其中 N NNN NN为如表 3中所示的封闭序列或与其相差一个碱基。 根据本发明的实施例, 关 于接头封闭序列的上下文中, 所述相差一个碱基包括序列中 1个碱基的取代、 添加或缺失。 根据本 发明的实施例, 本发明另一方面提供了所述接头封闭序列用于封闭接头序列的用途, 在进行杂交时 要为含不同标签序列的每个样品加入相应的封闭序列 (在本文中有时也称为 block ) 。
根据本发明的实施例, 杂交在包括但不限于如下杂交系统的中进行: NimbleGen芯片杂交系 统、 Agilent液相杂交系统和 NimbleGen EZ液相杂交系统。
根据本发明的实施例, 本发明进一步提供了使用所述接头封闭序列构建的基因组文库。 根据本发明的实施例, 本发明另一方面提供了一种构建基因组文库的方法, 所述方法的特征 在于使用上文所述 PCR标签引物, 和 /或使用上文所述接头封闭序列。
由此, 根据本发明的实施例, 本发明设计并合成了 2条接头的封闭序列, 分别命名为 blockl ( SEQ ID NO: 164 ) 和 block2 (如前详细描述的第二封闭序列) , 用于接头序列的封闭。 这些封 闭序列仅封闭 DNA单链 5,端的接头序列, 其中 blockl封闭测序芯片接头 P5及测序引物 1 ( SP1 ) 区, block2封闭测序引物 2 ( SP2 ) 区、 标签区和测序芯片接头 P7区。 blockl对所有样品都是通用 的, 所以可以称为叫做公用 block; block2是针对不同的标签序列设计的, 所以在进行杂交时要为 含不同标签序列的样品加入相应的 block2。
根据本发明的实施例, 提出了将多个样品在同一反应体系中进行序列捕获的方法。 该方法包 括从样品基因组 DNA起始到测序结果输出全部实验流程。 参考图 1 , 该方法主要由以下三部分组 成: 文库构建、 杂交、 测序与数据分析。
文库构建: 将样品基因组 DNA通过包括但不限于超声波打断法打断成 200 250 bp大小的片 段, 通过末端修复、 加" A"碱基、 连接等过程为 DNA片段加上接头, 然后通过 PCR方法在不同来 源的基因组文库样品 DNA的接头末端引入 8 bp的标签序列, 使每个基因组 DNA文库均带上含特 定序列的标签。其中标签序列可以位于接头序列末端。 PCR产物纯化后即完成文库的构建与不同来 源样品 DNA的标记。
杂交: 将上一步纯化获得的需要杂交的样品按一定比例 (混合比例可根据预计需要数据量确 定,例如,如需要数据量均为 20X测序深度,则取等量样品进行混合)混合, 在 95 °C变性 10分钟后在 NimbleGen芯片杂交平台或 Agilent液相杂交平台进行杂交, 同时在杂交体系中加入接头的 blockl 和 block2以及重复序列 block ( Cot- 1 DNA ) 。 Cot- 1 DNA是基因组中重复比例较高的一部分 DNA 片段, 在杂交时使用能帮助提高杂交效率, Cot- 1 DNA 可得自商品化的产品 Human Cot- 1 DNA®(invitrogen)。 待杂交完毕后, 通过变性等方法收集捕获的序列并纯化, 得到来自不同样品捕 获后的序列混合物。
测序与数据分析: 将捕获的序列在 Solexa或其他测序平台(需要在构建文库时加入相应的接 头(比如对于 SOLiD测序平台,使用该测序平台提供的短片段文库构建接头)采用边合成边测序的方 法进行序列测定。 先用测序引物 1 ( SP 1 )对样品 DNA的一端测序, 再用测序引物 3 ( SP3 )对标 签序列测序,最后用测序引物 2( SP2 )对样品 DNA的另一端进行测序( SP1 ,SP2,SP3均来自 Illumina 商业测序试剂盒)。 对用 SP3测序引物测序得到的数据进行分析可知其上的标签序列, 根据此标签 序列确定其对应的样品 DNA的来源。
根据本发明的实施例, 对基因组测序文库进行测序可采用任何方法, 例如双脱氧链终止法。 然而, 优选高通量测序方法: 如第二代测序技术 ( Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan; l 1(1):31-46 ) , 包括 SOLEXA、 SOLID和 454 (焦磷酸测序 )测 序技术(平台)。或者是单分子测序技术(单分子测序平台 ),包括 Helicos 公司的 True Single Molecule DNA sequencing 技术, Pacific Biosciences 公司的 the single molecule, real-time (SMRT.TM.) 技术, 以及 Oxford Nanopore Technologies公司的纳米孔测序技术等 ( Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244 - 245 ) 。 通过参月M夺这些文献均并入本文。
下面将结合实施例对本发明的方案进行解释。 本领域技术人员将会理解, 下面的实施例仅用 于说明本发明, 而不应视为限定本发明的范围。 实施例中未注明具体技术或条件的, 按照本领域内 的文献所描述的技术或条件 (例如参考 J.萨姆布鲁克等著, 黄培堂等译的 《分子克隆实验指南》 , 第三版, 科学出版社)或者按照产品说明书进行。 所用试剂或仪器未注明生产厂商者, 均为可以通 过市购获得的常规产品, 例如可以采购自 Illumina公司。
在下面的实施例中所使用的引物 /寡核苷酸序列列于下表 4中。
表 4 引物列表
名称 浓度 (μΜ) 序列 (5'→3' ) (SEQ ID NO: )
Primer 2.1 10-100 AATGATACGGCGACCACCGAGATC (SEQ ID NO: 160)
Primer 2.2 10-100 CAAGCAGAAGACGGCATACGA (SEQ ID NO: 161 )
10-100 AATGATACGGCGACCACCGAGATCTACACTC I I I CCCTACACGACG
PE Primer 1.0
CTCTTCCGATCT (SEQ ID NO: 162
Index—NewN 10-100 CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTT
Primer CAGACGTGTGCTCTTCCGATCT (SEQ ID NO: 163)
500-2000 AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTG block 1
GTCGCCGTATCATT (SEQ ID NO: 164)
500-2000
AG ATCGG AAG AGCACACGTCTG AACTCCAGTCACN N NNNNNNATC
block 2
TCGTATGCCGTCTTCTGCTTG (SEQ ID NO: 165)
其中 Index_NewN Primer中的 NNNN NNN代表 8 b 的标签序列(具体序列见表 1标签序列 ), Block 2中 NNNNNN N代表 8 b 标签序列的 block (具体序列见表 2 封闭序列 ,所有序列均为在 IDT/Invitrogen/Takra合成,使用 HLPC纯化。
实施例 1. NimbleGen芯片杂交体系 (Roche NimbleGen公司) 的对照实施例: 单个样品在 Nimblegen 855K芯片上杂交
(一) 实验方法:
1、 杂交文库构建 杂交文库构建流程参考 Illumina Multiplexing Sample Preparation Guide,通过参照并入本文。 取 3 g基因组 DNA (从人外周血中提取)打断后, 末端补平, 加 "A" 碱基, 加接头 (来自 Illumina Multiplexing Sample Preparation Oligonucleotide Kit )并进行 PCR扩增, PCRA应体系及反应条件如 下:
反应体系:
2x Phusion HF Master Mix 25
PE Primer 1.0 1
Index—New M (M=l-159) 1
连接接头后的样品 DNA 23 总体积 50
反应条件:
(a) . 98 °C 30s
(b) . 98 °C 15s
(c) . 65 °C 30s
(d) . 72 °C 30s
(e) . 重复(b) - (d) 步骤 3-9次 (共 4-10循环)
(f) . 72 °C 5min
(g) . 4'C 静置
使用 Ampure beads按照 Agencourt AMPure protocol (美国 Beckman公司)纯化 PCR产物,溶解至 25μ1 纯水中,使用 NanoDrop 1000检测 PCR产物浓度。
2、 杂交:
a. 样品准^
组分 重量 /体积
Cot-1 DNA 300
DNA文库 (1中制备获得) l g
Block 1 1
Block2 1
b. 将准备好的样品置于 SpeedVac中 60°C蒸干, 然后加入 11.2 的超纯水溶解样品。
c 全速离心样品 30秒, 分别加入以下两种试剂: 18.5 的 2 SCHybridiation Buffer (Roche NimbleGen公司 )和 7.3 的 SC Hybridiation Component A ( Roche NimbleGen公司 )。 震荡混匀后置 于离心机上全速离心 30秒, 然后于 95°C使 DNA变性 10分钟。
d. 将带有相应探针的芯片按要求固定在杂交仪( Roche NimbleGen公司)上, 将变性后的样品加入 芯片中并封闭芯片, 然后设定杂交程序, 于 42 °C杂交 64-72小时。
e. 芯片洗涤与样品洗脱:
洗涤 /洗脱緩冲液 ( Roche
序 颠倒洗脱次数 水浴时间 水浴温度
NimbleGen )
IX Wash Buffer II 10次 1 lXStringent Wash Buffer 10次 5 min 47.5 °C 3 lXStringent Wash Buffer 10次 5 min 47.5 °C
3 IX Wash Buffer I 2分钟 (1次 /秒) 1
5 IX Wash Buffer II 1分钟 (1次 /秒) 1
6 IX Wash Buffer III 10 1
7 NaOH (900 μ¾ 1 10 min
f. 将 NaOH洗脱液回收, 并用 32 的 20%冰醋酸中和。
g. 将上述中和液用 Qiagen MinElute PCR Purification Kit纯化,捕获后的样品最后溶解于 138 纯水 中。
h. PCR扩增捕获的 DNA文库,分为 6管 50 反应进行 PCR:
捕获的 DNA文库 138
Phusion DNA polymerase 150 μΐ^
Primer 2.1 6 uL
Primer 2.2 6 uL
总体积 300 反应条件:
( a ) 98 °C 30s
( b ) 98 °C 15s
( c ) 62 °C 30s
( d ) 72 "C 30s
( e ) 重复(b ) - ( d )步骤 11-19次 (共 12-20次)
( f) . 72 °C 5 min
( g ) . 4"C 静置 i. PCR产物用 Qiagen QIAquick PCR Purification Kit纯化 , 最后溶于 30 纯水中。
3、 测序与数据分析:
将样品于 Solexa测序平台中进行双末端测序, 同时对样品上的标签序列也进行测序。通过数据分析 测序数据的样品来源, 并对样品的捕获效果进行分析统计。
(二) 结果:
单个样品 855K区域序列捕获效果见表一。
表一: 单个样品在 Mmblegen 855K芯片上杂交结果
比对到目标区 i或的减
样品名 捕获区域长度 捕获效率 (%) 平均测序深度 基数 ( bp )
YH 854,605 99.45 3,016,360,103 1,440 实施例 2. 在 NimbleGen芯片杂交体系中应用的实施例: 12个 DNA文库 (按照杂交文库构建 流程构建)混合后用 855K芯片进行序列捕获
(一) 实验方法:
1、 杂交文库的制备: 方法与实施例 1所述相同。
2、 杂交:
a. 样品准备 ^
组分 重量 /体积 Cot-1 DNA 300
12个样品等比例混合文库 5
Block 1 1
Block2 1
将 12个文库(按照杂交文库构建方法构建)混合到一块在同一张芯片上杂交, 杂交方法与实施例 1相 同。
3、 测序与数据分析: 方法与实施例 1所述相同。
(二) 结果:
12个样品混合后用 855K芯片进行序列捕获效果见表二。
表二: 12个样品混合后用 855K芯片进行序列捕获效果
样品序 捕获区域长 捕获效率 比对到目标区域的减 平均
Index号
号 度 (%) 基数 ( bp ) 测序深度
1 Index—New 1 854,605 98.87 162102595 189.68
2 Index_New2 854,605 105663413 123.64
3 Index_New3 854,605 98.81 121707532 142.41
4 Index_New5 854,605 98.79 113656935 132.99
5 Index_New6 854,605 98.82 149300017 171.19
6 Index_New7 854,605 98.53 67154954 78.58
7 Index_New8 854,605 98.85 114627917 134.13
8 Index_New9 854,605 98.69 109138524 127.71
9 Index—New 10 854,605 98.51 79275725 92.76
10 Index—New 11 854,605 98.77 113308066 132.59
11 Index—New 12 854,605 98.67 93233769 109.10
12 Index—New 13 854,605 99.14 150197102 175.75 平均 854,605 98.905 114947212 134 实施例 3. 在 NimbleGen芯片杂交体系中应用的实施例: 24个文库(按照杂交文库构建方法 构建) 混合后用 855K芯片进行序列捕获
(一) 实验方法:
1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交:
a. 样品准备 ^
组分 重量 /体积
Cot-1 DNA 300 μ§
24个样品等比例混合文库
Blockl 1
Block2 1 uL
将 24个样品混合到一块在同一张芯片上杂交, 杂交方法与实施例 1相同。
3、 测序与数据分析: 方法与实施例 1相同。
(二) 结果:
24个样品混合后用 855K芯片进行序列捕获的效果见表三。
表三: 24个样品混合后用 855K芯片进行序列捕获效果
样品 捕获区域长 捕获效率 比对到目标区域的碱基 平均
Index号
序号 度 (%) 数( bp ) 测序深度
1 Index_New51 854,605 98.44 79,227,880 92.71 2 Index_New52 854,605 48,817,953 57.12
3 Index_New53 854,605 98.38 60,086,056 70.31
4 Index_New54 854,605 98.39 59,251,511 69.33
5 Index_New55 854,605 98.47 72,075,621 84.34
6 Index_New57 854,605 98.10 33,535,584 39.24
7 Index_New58 854,605 98.14 40,034,970 46.85
8 Index_New59 854,605 98.36 57,334,836 67.09
9 Index_New60 854,605 98.32 45,280,011 52.98
10 Index_New62 854,605 98.41 55,936,119 65.45
11 Index_New63 854,605 98.30 55,649,917 65.12
12 Index_New65 854,605 98.28 47,846,236 55.99
13 Index_New66 854,605 98.35 55,348,165 64.76
14 Index_New67 854,605 98.10 40,141,357 46.97
15 Index_New68 854,605 98.11 41,718,308 48.82
16 Index_New69 854,605 98.17 40,708,963 47.63
17 Index_New70 854,605 98.27 46,963,414 54.95
18 Index_New71 854,605 61,986,979 72.53
19 Index_New72 854,605 98.33 55,269,179 64.67
20 Index_New73 854,605 98.34 55,795,945 65.29
21 Index_New74 854,605 98.35 58,958,763 68.99
22 Index_New75 854,605 98.25 46,846,029 54.82
23 Index_New76 854,605 98.47 63,449,379 74.24
24 Index_New77 854,605 98.86 70,996,684 83.08 平均 854,605 98.34 53,885,827 63.05
NimbleGen芯片杂交体系实施结果总结: 在实施例 2和 3中, 用本发明提供的标签序列分别对 12 个、 24个样品进行标记, 在 NimbleGen芯片杂交系统中对约 850 kb大小的基因组区域进行序列捕获, 结果显示, 所有 12或 24个样品均取得了 4艮好的序列捕获效果。 所有样品靶区域的捕获效率都在 98%以 上, 而且有效深度均在 30 以上。 而单个样品测序深度超过 1000 X时捕获效率达到 99%, 这一结果与 12个样品或者 24个样品进行混合杂交的结果接近。
实施例 4. NimnleGen芯片杂交体系的对照实施例: 单个样品用 34M全外显子芯片 (Roche NimbleGen公司) 进行序列捕获
(一) 实验方法:
1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交:
单个样品分别在 Nimlegen 34M全外显子芯片上杂交, 6个重复(图 4、图 5中 ooling 1 pooling 3 pooling 4 pooling 5 pooling 11 pooling 12 )
a. 样品准备 ^
组分 重量 /体积
Cot-1 DNA 300 μ§
单个样品的 DNA文库
Blockl 1
Block2 1 uL
杂交方法与实施例 1相同。
3、 测序与数据分析: 方法与实施例 1相同。
实施例 5. 在 NimbleGen芯片杂交体系中应用的实施例: 两个样品 (按照杂交文库构建方法 构建) 混合后用 34M全外显子芯片进行序列捕获 (一) 买验方法:
1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交: 两个样品混合后在 Nimlegen 34M全外显子芯片上杂交, 3个重复(图 1、 图 2中 pooling 31和 ooling31、 pooling 33和 ooling 34、 pooling 35和 ooling 36 ) 。
a. 样品准备 ^
组分 重量 /体积
Cot-1 DNA 300 μ§
两个样品混合后的文库
Blockl 1
Block2 1 uL
杂交方法与实施例 1相同。
3、 测序与数据分析: 方法与实施例 1相同。
(二) 结果:
图 4和图 5分别显示了使用 Nimblegen芯片单个样品和两个样品杂交构建文库数据结果, 在目标 区域覆盖度以及在测序序列比对至目标区域百分比上两种杂交方法结果没有显著差异。
实施例 6. Agilent液相杂交体系 (Agilent公司)对照实施例: 单个样品用 38M全外显子序列 捕获
(一) 实验方法:
1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交
a. 用浓缩方法准备≥3.4 147 ng L的 DNA文库。
b. 配制杂交緩冲液(所有试剂都来自 Agilent公司 ) :
试剂 体积
SureSelect Hyb #l 25 L L L •
SureSelect Hyb #2 (红盖) 1
SureSelect Hyb #3 (黄盖) 10
SureSelect Hyb #4 13
总体积 49
c. 准备 SureSelect Oligo Capture Library Mix (所有试剂都来自 Agilent公司) , 并于冰上放置: 试剂 体积
SureSelect Oligo Capture Library 5
Nuclease-free water (无核酸酵水 ) 1.5
Rnase Block (purple cap) 0.5
总体积 7
d.于 PCR管中加入样品 SureSelect-SC的 DNA文库, 同时加入 Blockl、 Block2各 0.3μ1, 混匀后保持在 65 °C中。
e. 按要求将 Hybridization Buffer和 SureSelect Oligo Capture Library Mix加入到 PCR管中, 混匀, 于 65C (热盖设为 105 °C)杂交 24小时
f. 杂交后的样品用 Dynal磁珠 ( Invitrogen )吸附样品, 并用 50 SureSelect Elution Buffer洗脱捕获后 的序列。
g. 力口入 50 SureSelect Neutralization Buffer中和捕获样品。
h. 将上述中和液用 Qiagen MinElute PCR purification Kit纯化, 捕获后的样品最后溶解于 15 ΕΒ中。 i. 捕获序列的 PCR扩增:
无核酸酶水 21.5
5χ Herculase II Reaction Buffer 10
dNTP mix 0.5 L
Herculase II Fusion DNA Polymerase 1 μ
Primer 2.1 1 μ
Primer 2.2 1 μ 捕获的 DNA序列文库 15
总体积 50 反应条件:
( a ) . 98 °C 2 min
( b ) . 98 °C 20 s
( c ) . 60 °C 30 s
( d ) . 72 °C 30 s
( e ) . 重复(b ) - ( d ) 步骤 9-14次 (共 10-15次)
( f) . 72 °C 5 min
( g ) . 4°C 静置
j. PCR产物用 AMPure DNA Purification kit (SPRI beads) 纯化, 溶于 95 EB中 ,
3、 测序与数据分析: 方法与实施例 1相同。
实施例 7. Agilent液相杂交体系的实施例: 两个样品混合后进行 38M全外显子序列捕获 1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交: 将 SureSelect-DC 1和 SureSelect-DC2两个样品混合后杂交, 方法与实施例 6相同。
3、 测序与数据分析: 方法与实施例 1相同。
(二) 结果:
单个样品 38M
表四: 单个样品及两个样品混合在一块在 Agilent液相杂交系统杂交的结果
比对到目标区域的
平均测序 样品名 Index号 捕获区域长度 捕获效率(%) 碱基数占总测序碱
深度 基数的比例 (%)
SureSelect-SC Index—New 1 37806033 97.46 59.67 30.238
SureSelect-DCl Index_New2 37806033 96.90 61.44 25.985
SureSelect-DC2 Index_New3 37806033 95.98 59 20.2 其中样品 SureSelect-SC是单独杂交捕获的, SureSelect-DCl和 SureSelect-DC2是两个样品混在一 起杂交捕获的。
本实施例用本发明提供的标签序列对两个样品进行标记, 用 Agilent SureSelect全外显子探针对两 个混合的样品( Agilent-SureSelect-DCl和 Agilent-SureSelect-DC2 )进行杂交捕获, 在 Illumina Solexa平 台上测序后通过区分标签序列将不同来源的样品区分开。 表四中的结果显示, 在测序深度达到 20X以上 时,单个样品杂交 ( Agilent-SureSelect-SC ) 和两个样品混合杂交 ( Agilent-SureSelect-DCl 和 Agilent-SureSelect-DC2 )覆盖度都达到 96%以上,捕获效率也均接近 60%.实验数据表明使用该实验流程在 Agilent SureSelect平台中单个样品杂交和两个样品无显著差异.
实施例 8. 在 Nimblegen液相杂交体系中的对照实施例, 单个样品 34M全外显子序列捕获 (一) 实验方法:
1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交
a. 样品准备:
a. 样品准备: 在一个 1.5mL EP管中加入以下成分
组分 重量 /体积
Cot-1 DNA
Nimlegen-EZ-SC样品文库
Block 1 1 nmol
Block2 1 nmol b. 将上述准备好的样品置于 SpeedVac中 60 °C蒸干。
c 在上述蒸干的 EP管中分别加入以下两种试剂
2X SC Hybridiation Buffer 7.5
SC Hybridiation Component 3 μΐ^
d. 震荡混匀后置于离心机上全速离心 10秒, 将离心后样品转移至 95 °C使 DNA变性 10分钟。
e将上述杂交混合物转入分装好的 4.5 Exome Library中 (来自 Roche NimbleGen公司)
f. 放在 PCR仪上 47°C杂交 64h-72h, PCR仪热盖应设置保持在 57°C。
g. 捕获序列的洗涤: (洗涤试剂都来自 Roche NimbleGen公司)
先用 Dynal磁珠(Invitrogen )选择性的回收捕获到 DNA, 然后对捕获到的 DNA进行洗涤。 先用预热 到 47 °C的 IX Wash Buffer I洗一次, 然后用预热到 47°C的 IX Stringent Wash Buffer洗两次, 最后用室温放 置的 IX Wash Buffer I、 II、 III分别洗一次。
h. 加入 50 纯水悬浮磁珠。
i. PCR扩增捕获的 DNA文库, 分两管进行 PCR (每管 ΙΟΟμυ
在 1.5 ml的离心管中配制 PCRA应体系
捕获到的 DNA样品 (用前要混匀) 40
Phusion High-Fidelity PCR Master Mix (2 X) 100
Primer 2.1 4
Primer 2.2 4
超纯水 52
总体积 200 反应条件:
( a ) . 98 °C 30s
( b ) . 98 °C 15s
( c ) . 62 °C 30s
( d ) . 72 °C 30s
( e ) . 重复(b ) - ( d )步骤 14-19次 (共 15-20次)
( f) . 72 °C 5min
( g ) . 4°C 静置
j. PCR产物用 Qiagen QIAquick PCR Purification Ki纯化, 最后溶于 30 纯水中。
3、 测序与数据分析: 方法与实施例 1相同。
实施例 9. 在 Nimblegen液相杂交体系中的实施例, 两个样品混合后在在 Nimblegen液相杂 交系统进行 34M全外显子序列捕获
(一) 实验方法:
1、 杂交文库的制备: 方法与实施例 1相同。
2、 杂交: 将 Nimlegen-EZ-DCl和 Nimlegen-EZ-DC2两个样品混合后杂交, 方法与实施例 8相同。
3、 测序与数据分析: 方法与实施例 1相同。
(二) 结果
单个样品 34M全外显子序列捕获和两个样品混合后在在 Mmblegen液相杂交系统进行 34M全外显 子序列捕获的的效果见表五:
表五 单个样品及两个样品混合在一起在 Nimblegen液相杂交系统中杂交的结果 样品名 Index号 捕获区域 捕获效率 对比到目标区域的碱基数占 平均测 长度 ( % ) 总测序碱基数的比例 (% ) 序深度
Nimlegen-EZ-SC Index—New 1 3412538 98.77 78.33 34.93
Nimlegen-EZ-DC 1 Index_New2 3412538 98.47 72.77 24.11
Nimlegen-EZ-DC 2 Index_New3 3412538 98.90 79.43 41.68 其中样品 Nimlegen-EN-SC是单独杂交捕获的, Nimlegen-EN-DC 1和 Nimlegen-EN-DC 2是两个样 品混合在一起杂交捕获的。
混合的样品( mlegen-EZ-DCl和 Nimlegen-EZ-DC2 )进行杂交捕获, 在 Illumina Solexa平台上测 序后通过区分标签序列将不同来源的样品区分开。 表五中的结果显示在测序深度超过 20X以上时, 单个 样品杂交( Mmlegen-EZ-SC )和两个样品混合杂交( Nimlegen-EZ-DCl和 Mmlegen-EZ-DC2 ) 杂交覆盖 度都超过了 98%, 且能比对到目标区域的测序序列 (reads )的比例也非常接近, 两种建库方法之间不存 在显著差异。
工业实用性
根据本发明的用于构建基因组测序文库的核酸标签、 寡核苷酸、 封闭序列、 试剂盒、 构建基 因组测序文库的方法、 所构建的基因组测序文库、 对基因组样品的特定区域进行测序的方法、 以及 对多种样品的基因组进行测序的方法(统称本发明的技术方案)能够用于对样品的基因组中的特定 区域进行测序。
尽管本发明的具体实施方式已经得到详细的描述, 本领域技术人员将会理解。 根据已经公开 的所有教导, 可以对那些细节进行各种修改和替换, 这些改变均在本发明的保护范围之内。 本发明 的全部范围由所附权利要求及其任何等同物给出。
在本说明书的描述中, 参考术语 "一个实施例" 、 "一些实施例" 、 "示意性实施例" 、 "示 例" 、 "具体示例" 、 或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、 结构、 材料或者特点包含于本发明的至少一个实施例或示例中。 在本说明书中, 对上述术语的示意性表述 不一定指的是相同的实施例或示例。 而且, 描述的具体特征、 结构、 材料或者特点可以在任何的一 个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例, 本领域的普通技术人员可以理解: 在不脱离本发明的 原理和宗旨的情况下可以对这些实施例进行多种变化、 修改、 替换和变型, 本发明的范围由权利要 求及其等同物限定。

Claims

权利要求书
1、 一组分离的核酸标签, 所述核酸标签由 SEQ ID NO: ( 165+M ) 所示的核苷酸序列构成, 其中, M=l-159的任意整数。
2、 一组分离的寡核苷酸, 其由 SEQ ID NO: 1-159所示的寡核苷酸序列构成, 其中, M=l-159 的任意整数。
3 、 一 组 分 离 的 寡 核 苷 酸 , 其 中 所 述 分 离 的 寡 核 苷 酸 均 具 有
TTG ( SEQ ID NO: 165 ) 所示的核苷酸序列, 其中 NNNNNNNN分别为 SEQ ID NO: ( 324+M ) 所 示的核苷酸序列, 其中, M=l-159的任意整数。
4、 一种构建基因组测序文库的方法, 其特征在于, 包括下列步骤:
将基因组 DNA打断, 以便获得 DNA片段;
将所述 DNA片段进行末端修复, 以便获得经过末端修复的 DNA片段;
在所述经过末端修复的 DNA片段的末端添加碱基 A, 以便获得具有粘性末端 A的 DNA片段; 将所述具有粘性末端 A的 DNA片段与接头相连, 以便获得具有接头的 DNA片段;
通过 PCR反应对所述具有接头的 DNA片段进行扩增,以便获得 PCR扩增产物,其中,所述 PCR 反应利用选自权利要求 2所述的一组分离的寡核苷酸的一种作为 3'引物; 以及
分离回收所述 PCR扩增产物, 所述 PCR扩增产物构成所述基因组测序文库。
5、根据权利要求 4所述的方法,其特征在于,通过超声波打断法将所述基因组 DNA进行打断。
6、 根据权利要求 4所述的方法, 其特征在于, 所述 DNA片段的长度为 200-250bp。
7、 根据权利要求 4所述的方法, 其特征在于, 所述 PCR反应进一步采用 SEQ ID NO: 161所示 核苷酸序列的寡核苷酸作为 5 '引物。
8、 一种基因组测序文库, 其是根据权利要求 4-7任一项所述的方法构建的。
9、 一种对基因组样品的特定区域进行测序的方法, 其特征在于, 包括以下步骤: 根据权利要求 4-7任一项所述的方法, 建立所述基因组样品的基因组测序文库; 以及 对所述基因组测序文库进行捕获和测序, 以便获得所述基因组样品特定区域的序列, 其中, 对所述基因组测序文库进行捕获是通过将所述基因组测序文库与特异性探针进行杂交 进行的, 并且在所述杂交过程中添加下列封闭序列:
Cot-1 DNA;
具有如 SEQ ID NO: 164所示序列的寡核苷酸作为第一封闭序列; 以及
选自权利要求 3所述的一组分离的寡核苷酸的一种作为第二封闭序列,
其中, 对于所述第二封闭序列和所述 3'引物, M取值相同。
10、 根据权利要求 9所述的方法, 其特征在于, 所述杂交是在 NimbleGen 芯片杂交平台或 Agilent液相杂交平台上进行的。
11、 根据权利要求 10所述的方法, 其特征在于, 在进行所述杂交之前, 将样品在 95摄氏度 下变性 10分钟。
12、 一种对多种样品的基因组进行测序的方法, 其特征在于, 包括下列步骤:
针对所述多种样品的每一种,分别根据权利要求 4-7任一项所述的方法,建立基因组测序文库, 其中, 不同的样品采用相互不同并且已知序列的标签;
将多种样品的基因组测序文库进行混合, 以便获得基因组测序文库混合物;
对所述基因组测序文库混合物进行捕获和测序,以便获得所述基因组测序文库的标签序列信息 和基因组序列信息; 以及
基于所述标签序列信息对所述基因组序列信息进行分类,以便确定所述多种样品的基因组序列 信息,
其中,
对所述基因组测序文库进行捕获是通过将所述基因组测序文库与特异性探针进行杂交进行 的, 并且在所述杂交过程中添加下列封闭序列:
Cot-1 DNA;
具有如 SEQ ID NO: 164所示序列的寡核苷酸作为第一封闭序列; 以及
选自权利要求 3所述的一组分离的寡核苷酸的一种作为第二封闭序列, 其中, 对于所述第二封闭序列和所述 3'引物, N取值相同。
13、 一种用于构建基因组测序文库的试剂盒, 其特征在于, 包括:
一组分离的寡核苷酸, 其由 SEQ ID NO: 1 -159所示的寡核苷酸序列构成, 其中, M=l-159的 任意整数,
其中, 每一种分离的寡核苷酸分别设置在不同的容器中。
14、 一种用于对基因组测序文库进行捕获的试剂盒, 其特征在于, 包括:
一 组 分 离 的 寡 核 苷 酸 , 其 中 所 述 分 离 的 寡 核 苷 酸 均 具 有
TTG ( SEQ ID NO: 165 ) 所示的核苷酸序列, 其中 NNNNNNNN分别为 SEQ ID NO ( 324+M ) 所示的核苷酸序列, 其中, M=l-159的任意整数;
其中, 每一种分离的寡核苷酸分别设置在不同的容器中。
PCT/CN2011/079906 2010-09-21 2011-09-20 核酸标签及其应用 WO2012037883A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010299269.6 2010-09-21
CN201010299269.6A CN102409047B (zh) 2010-09-21 2010-09-21 一种构建杂交测序文库的方法

Publications (1)

Publication Number Publication Date
WO2012037883A1 true WO2012037883A1 (zh) 2012-03-29

Family

ID=45873447

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/079906 WO2012037883A1 (zh) 2010-09-21 2011-09-20 核酸标签及其应用

Country Status (2)

Country Link
CN (1) CN102409047B (zh)
WO (1) WO2012037883A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103571822B (zh) * 2012-07-20 2016-03-30 中国科学院植物研究所 一种用于新一代测序分析的多重目的dna片段富集方法
WO2014086037A1 (zh) * 2012-12-07 2014-06-12 深圳华大基因科技服务有限公司 构建核酸测序文库的方法及其应用
CN106086162B (zh) * 2015-11-09 2020-02-21 厦门艾德生物医药科技股份有限公司 一种用于检测肿瘤突变的双标签接头序列及检测方法
CN106676169B (zh) * 2016-11-15 2021-01-12 上海派森诺医学检验所有限公司 一种用于乳腺癌易感基因brca1和brca2突变检测的杂交捕获试剂盒及其方法
CN108265047B (zh) * 2016-12-30 2021-08-31 浙江安诺优达生物科技有限公司 用于dna片段的非特异性复制的方法及试剂盒
CN108456713A (zh) * 2017-11-27 2018-08-28 天津诺禾致源生物信息科技有限公司 接头封闭序列、文库构建试剂盒及测序文库的构建方法
CN108949941A (zh) * 2018-06-25 2018-12-07 北京莲和医学检验所有限公司 低频突变检测方法、试剂盒和装置
CN110283884A (zh) * 2019-06-14 2019-09-27 奥明(杭州)基因科技有限公司 一种基于液相捕获杂交处理前的混样方法
CN111005074A (zh) * 2019-12-19 2020-04-14 江西海普洛斯医学检验实验室有限公司 一种基于illumina测序平台的DNA文库构建试剂盒、文库构建方法和应用
CN113444769B (zh) * 2020-03-28 2023-06-23 深圳人体密码基因科技有限公司 一种dna标签序列的构建方法及其应用
CN111534858B (zh) * 2020-04-29 2021-07-13 杭州瑞普基因科技有限公司 用于高通量测序的文库构建方法及高通量测序方法
CN111575349B (zh) * 2020-05-27 2021-04-13 东莞博奥木华基因科技有限公司 一种接头序列及其应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007037678A2 (en) * 2005-09-29 2007-04-05 Keygene N.V. High throughput screening of mutagenized populations
WO2007055568A1 (en) * 2005-11-14 2007-05-18 Keygene N.V. Method for high throughput screening of transposon tagging populations and massive parallel sequence identification of insertion sites

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1364916A (zh) * 2001-10-31 2002-08-21 浙江大学 水稻叶片表达序列标签及其构成的生物芯片
GB0400584D0 (en) * 2004-01-12 2004-02-11 Solexa Ltd Nucleic acid chacterisation
WO2008093098A2 (en) * 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
CN100564618C (zh) * 2007-06-13 2009-12-02 北京万达因生物医学技术有限责任公司 分子置换标签测序并行检测法即寡聚核酸代码标签分子库微球阵列分析

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007037678A2 (en) * 2005-09-29 2007-04-05 Keygene N.V. High throughput screening of mutagenized populations
WO2007055568A1 (en) * 2005-11-14 2007-05-18 Keygene N.V. Method for high throughput screening of transposon tagging populations and massive parallel sequence identification of insertion sites

Also Published As

Publication number Publication date
CN102409047A (zh) 2012-04-11
CN102409047B (zh) 2014-07-23

Similar Documents

Publication Publication Date Title
WO2012037883A1 (zh) 核酸标签及其应用
JP6842450B2 (ja) 標的化ゲノム解析のための方法
JP6525473B2 (ja) 複製物配列決定リードを同定するための組成物および方法
EP3192900B1 (en) Method for constructing nucleic acid single-stranded cyclic library and reagents thereof
US10400279B2 (en) Method for constructing a sequencing library based on a single-stranded DNA molecule and application thereof
JP7407227B2 (ja) 遺伝子アリルを同定するための方法及びプローブ
RU2587606C2 (ru) Новый способ пцр-секвенирования и его применение в генотипировании hla
WO2016169431A1 (zh) 一种长片段dna文库构建方法
WO2018149091A1 (zh) 一种环状rna高通量测序文库的构建方法及其试剂盒
WO2012037882A1 (zh) Dna标签及其应用
WO2012071985A1 (zh) 从ffpe样本中提取dna的方法及其用途
AU2009226248B8 (en) Expression-linked gene discovery
WO2012037880A1 (zh) Dna标签及其应用
WO2016037418A1 (zh) 一种核酸单链环状文库的构建方法和试剂
WO2012159564A1 (zh) 甲基化高通量检测方法
WO2013075629A1 (zh) 一种检测核酸羟甲基化修饰的方法及其应用
WO2012000152A1 (zh) 一种基于dna分子标签技术和dna不完全打断策略的pcr测序方法
CN111712580B (zh) 用于扩增双链dna的方法和试剂盒
EP2844766B1 (en) Targeted dna enrichment and sequencing
WO2012000150A1 (zh) Hla-a,b基因分型用pcr引物及其使用方法
WO2012000153A1 (zh) 基于illuminaga测序技术的hla基因高分辨率分型方法
WO2012126398A1 (zh) Dna标签及其用途
US20230017673A1 (en) Methods and Reagents for Molecular Barcoding
WO2012037875A1 (zh) Dna标签及其应用
WO2012083845A1 (zh) 用于除去测序文库中载体片段的方法及其用途

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11826410

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 11/09/2013)

122 Ep: pct application non-entry in european phase

Ref document number: 11826410

Country of ref document: EP

Kind code of ref document: A1