WO2023222014A1 - sgRNA测序接头及其应用 - Google Patents
sgRNA测序接头及其应用 Download PDFInfo
- Publication number
- WO2023222014A1 WO2023222014A1 PCT/CN2023/094691 CN2023094691W WO2023222014A1 WO 2023222014 A1 WO2023222014 A1 WO 2023222014A1 CN 2023094691 W CN2023094691 W CN 2023094691W WO 2023222014 A1 WO2023222014 A1 WO 2023222014A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- region
- linker
- sgrna
- sequencing
- random
- Prior art date
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 103
- 108091027544 Subgenomic mRNA Proteins 0.000 title claims abstract description 19
- 230000000295 complement effect Effects 0.000 claims abstract description 24
- 238000010839 reverse transcription Methods 0.000 claims abstract description 17
- 230000010076 replication Effects 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 238000000034 method Methods 0.000 claims description 29
- 102000004190 Enzymes Human genes 0.000 claims description 23
- 108090000790 Enzymes Proteins 0.000 claims description 23
- 230000004048 modification Effects 0.000 claims description 23
- 238000012986 modification Methods 0.000 claims description 23
- 230000027455 binding Effects 0.000 claims description 16
- 108020004638 Circular DNA Proteins 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 15
- 102100034343 Integrase Human genes 0.000 claims description 14
- 239000002299 complementary DNA Substances 0.000 claims description 13
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 13
- 101710086015 RNA ligase Proteins 0.000 claims description 12
- 101710188535 RNA ligase 2 Proteins 0.000 claims description 12
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims description 12
- 101710204104 RNA-editing ligase 2, mitochondrial Proteins 0.000 claims description 12
- 239000000872 buffer Substances 0.000 claims description 12
- 238000012408 PCR amplification Methods 0.000 claims description 11
- 108091005804 Peptidases Proteins 0.000 claims description 11
- 239000004365 Protease Substances 0.000 claims description 11
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 claims description 10
- 239000007853 buffer solution Substances 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 10
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 claims description 9
- 230000000903 blocking effect Effects 0.000 claims description 9
- 102000010719 DNA-(Apurinic or Apyrimidinic Site) Lyase Human genes 0.000 claims description 7
- 108010063362 DNA-(Apurinic or Apyrimidinic Site) Lyase Proteins 0.000 claims description 7
- 238000000137 annealing Methods 0.000 claims description 7
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 5
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 5
- 108091028664 Ribonucleotide Proteins 0.000 claims description 4
- 108091012456 T4 RNA ligase 1 Proteins 0.000 claims description 4
- 239000011535 reaction buffer Substances 0.000 claims description 4
- 239000002336 ribonucleotide Substances 0.000 claims description 4
- 125000002652 ribonucleotide group Chemical group 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 claims description 3
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 claims description 2
- 229920002594 Polyethylene Glycol 8000 Polymers 0.000 claims description 2
- 239000002253 acid Substances 0.000 claims description 2
- 230000006154 adenylylation Effects 0.000 claims description 2
- 238000003776 cleavage reaction Methods 0.000 claims description 2
- 230000000865 phosphorylative effect Effects 0.000 claims description 2
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 claims 2
- 238000001816 cooling Methods 0.000 claims 1
- 239000002777 nucleoside Substances 0.000 claims 1
- 125000003835 nucleoside group Chemical group 0.000 claims 1
- 239000002585 base Substances 0.000 description 29
- 238000010276 construction Methods 0.000 description 26
- 239000000047 product Substances 0.000 description 15
- 229920002477 rna polymer Polymers 0.000 description 14
- 239000000523 sample Substances 0.000 description 14
- 239000000243 solution Substances 0.000 description 14
- 125000003729 nucleotide group Chemical group 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 12
- 102000053602 DNA Human genes 0.000 description 12
- 102100037111 Uracil-DNA glycosylase Human genes 0.000 description 12
- 239000002773 nucleotide Substances 0.000 description 12
- 150000007523 nucleic acids Chemical class 0.000 description 11
- 102000039446 nucleic acids Human genes 0.000 description 9
- 108020004707 nucleic acids Proteins 0.000 description 9
- 108091034117 Oligonucleotide Proteins 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000010362 genome editing Methods 0.000 description 7
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 208000035657 Abasia Diseases 0.000 description 5
- 108091033409 CRISPR Proteins 0.000 description 5
- 108020005004 Guide RNA Proteins 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 239000000539 dimer Substances 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000011534 incubation Methods 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 108091032955 Bacterial small RNA Proteins 0.000 description 4
- 238000010453 CRISPR/Cas method Methods 0.000 description 4
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 4
- 239000011324 bead Substances 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000000746 purification Methods 0.000 description 4
- 125000000548 ribosyl group Chemical group C1([C@H](O)[C@H](O)[C@H](O1)CO)* 0.000 description 4
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 4
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 4
- 108020004705 Codon Proteins 0.000 description 3
- 108091028113 Trans-activating crRNA Proteins 0.000 description 3
- 239000007983 Tris buffer Substances 0.000 description 3
- 238000011109 contamination Methods 0.000 description 3
- 238000004925 denaturation Methods 0.000 description 3
- 230000036425 denaturation Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 235000018102 proteins Nutrition 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 241000272517 Anseriformes Species 0.000 description 2
- 238000010354 CRISPR gene editing Methods 0.000 description 2
- 108020001738 DNA Glycosylase Proteins 0.000 description 2
- 102000028381 DNA glycosylase Human genes 0.000 description 2
- 101000807668 Homo sapiens Uracil-DNA glycosylase Proteins 0.000 description 2
- 101710203526 Integrase Proteins 0.000 description 2
- 101710163270 Nuclease Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 229910019142 PO4 Inorganic materials 0.000 description 2
- 101710160987 Uracil-DNA glycosylase Proteins 0.000 description 2
- 239000003513 alkali Substances 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 2
- 239000010452 phosphate Substances 0.000 description 2
- 239000002953 phosphate buffered saline Substances 0.000 description 2
- 230000026731 phosphorylation Effects 0.000 description 2
- 238000006366 phosphorylation reaction Methods 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 102000040430 polynucleotide Human genes 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 239000002157 polynucleotide Substances 0.000 description 2
- 239000000843 powder Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- VGONTNSXDCQUGY-RRKCRQDMSA-N 2'-deoxyinosine Chemical group C1[C@H](O)[C@@H](CO)O[C@H]1N1C(N=CNC2=O)=C2N=C1 VGONTNSXDCQUGY-RRKCRQDMSA-N 0.000 description 1
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- 108010011170 Ala-Trp-Arg-His-Pro-Gln-Phe-Gly-Gly Proteins 0.000 description 1
- 108700028369 Alleles Proteins 0.000 description 1
- 108091023037 Aptamer Proteins 0.000 description 1
- 241000219194 Arabidopsis Species 0.000 description 1
- 241000894006 Bacteria Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 244000056139 Brassica cretica Species 0.000 description 1
- 235000003351 Brassica cretica Nutrition 0.000 description 1
- 235000003343 Brassica rupestris Nutrition 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000272201 Columbiformes Species 0.000 description 1
- 241000252212 Danio rerio Species 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 102100031780 Endonuclease Human genes 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 101000925662 Enterobacteria phage PRD1 Endolysin Proteins 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 101000897441 Homo sapiens Cyclin-O Proteins 0.000 description 1
- 101000664956 Homo sapiens Single-strand selective monofunctional uracil DNA glycosylase Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 101710135898 Myc proto-oncogene protein Proteins 0.000 description 1
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 1
- 241000244206 Nematoda Species 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 239000013614 RNA sample Substances 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 102000006382 Ribonucleases Human genes 0.000 description 1
- 108010083644 Ribonucleases Proteins 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 102100038661 Single-strand selective monofunctional uracil DNA glycosylase Human genes 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 101710150448 Transcriptional regulator Myc Proteins 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 238000003975 animal breeding Methods 0.000 description 1
- 239000007864 aqueous solution Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- QKSKPIVNLNLAAV-UHFFFAOYSA-N bis(2-chloroethyl) sulfide Chemical compound ClCCSCCCl QKSKPIVNLNLAAV-UHFFFAOYSA-N 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 239000008367 deionised water Substances 0.000 description 1
- 229910021641 deionized water Inorganic materials 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- LOKCTEFSRHRXRJ-UHFFFAOYSA-I dipotassium trisodium dihydrogen phosphate hydrogen phosphate dichloride Chemical compound P(=O)(O)(O)[O-].[K+].P(=O)(O)([O-])[O-].[Na+].[Na+].[Cl-].[K+].[Cl-].[Na+] LOKCTEFSRHRXRJ-UHFFFAOYSA-I 0.000 description 1
- 239000012154 double-distilled water Substances 0.000 description 1
- 239000012149 elution buffer Substances 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000002438 mitochondrial effect Effects 0.000 description 1
- 235000010460 mustard Nutrition 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000001668 nucleic acid synthesis Methods 0.000 description 1
- 239000008363 phosphate buffer Substances 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 235000004252 protein component Nutrition 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010583 slow cooling Methods 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- FAPWRFPIFSIZLT-UHFFFAOYSA-M sodium chloride Inorganic materials [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
Abstract
涉及分子生物学技术领域,具体而言,涉及sgRNA测序接头及其应用。sgRNA测序3'接头从5'端至3'端依次包含以下区段:第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区;其中,所述第一非随机区用于与sgRNA的3'端连接;所述第一随机区包含3~12个碱基;所述第二非随机区与所述第三非随机区反向互补,以配合所述成环DNA区形成颈环结构,所述第三非随机区用于作为sgRNA逆转录复制的引物;所述成环DNA从5'端至3'端由第一成环区以及第二成环区组成;所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互补配对结合。
Description
相关申请的交叉引用
本申请要求于2022年05月17日提交中国专利局的申请号为2022105415956、名称为“sgRNA测序接头及其应用”的中国专利申请的优先权,并将其全部内容通过引用结合在本申请中。
本发明涉及分子生物学技术领域,具体而言,涉及sgRNA测序接头及其应用。
二代测序技术(Next generation sequencing)又称高通量测序技术(High-throughput sequencing),可以一次性并行对几十万至几百万条DNA(脱氧核糖核酸)分子序列进行测定。该技术以测序通量高、测序时间短、测序成本低、测序准确度高等特点被广泛应用于医学治疗、新药研发、农畜育种、法医物证鉴定、海关检疫鉴定及分子生物学科研等众多领域。
虽然二代测序技术已经广泛应用,但是针对sgRNA的测序中依然存在技术上的难题。sgRNA(single guide RNA)是CRISPR/Cas基因编辑技术的关键组成部分,其指导Cas蛋白切割基因组,是决定基因编辑效率的主要因子。在使用人工合成的sgRNA进行CRISPR/Cas技术对基因编辑时,sgRNA的序列正确率越高,其指导Cas蛋白结合和切割目标DNA序列的准确性越高。因此,sgRNA测序技术可准确检测出sgRNA单链寡核苷酸的序列,序列准确性高的sgRNA可提高CRISPR/Cas技术对基因编辑的效率。此外,在sgRNA的寡核苷酸链合成过程中,对5’端和3’端进行化学修饰来提高RNA样品保存的稳定性。而这些化学修饰往往会增加sgRNA测序文库构建的难度,降低测序文库的产量,甚至导致测序文库构建的失败。并
且sgRNA序列较短,由于文库PCR扩增偏好性、接头连接偏好性等,待测序核酸并不会被同比例放大,不同类型的小片段RNA被过多或过少的检测到,造成测序结果与样本中原始丰度有所差异。
为解决现有sgRNA测序文库构建中存在的文库产量低、文库构建困难等问题,需要发明一种新的文库构建方法。
发明内容
本发明第一方面涉及sgRNA测序3’接头,其从5’端至3’端依次包含以下区段:第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区;
其中,所述第一非随机区用于与sgRNA的3’端连接;
所述第一随机区包含3、4、5、6、7、8、9、10、11或12个碱基;
所述第二非随机区与所述第三非随机区反向互补,以配合所述成环DNA区形成颈环结构,所述第三非随机区用于作为sgRNA逆转录复制的引物;
所述成环DNA从5’端至3’端由第一成环区以及第二成环区组成;
所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互补配对结合。
本发明第二方面涉及接头组,其包括如上所述的3’接头以及用于与sgRNA的5’端连接的5’接头;
所述5’接头由核糖核苷酸构成,从5’端至3’端依次包含第二测序接头引物结合区、第二随机区和第四非随机区;所述第二随机区包含3、4、5、6、7、8、9、10、11或12个碱基;所述第四非随机区与所述第一非随机区反向互补。
本发明第三方面涉及试剂盒,其包含如上所述的接头组。
本发明第四方面涉及sgRNA测序文库的构建方法,其使用如上所述的接头组并包括如下步骤:
a)将sgRNA在合适的条件下与所述3’接头进行连接反应;
b)向步骤a)反应得到的产物中加入所述5’接头,在合适条件下进行退火封闭,使所述5’接头的第四非随机区与所述3’接头的第一非随机区杂交形成双链;
c)将步骤b)得到的产物在合适的条件下进行连接反应,以使得所述5’接头与所述sgRNA连接;
d)将步骤c)得到的产物在合适的条件下进行逆转录反应,得到cDNA;
e)在所述cDNA的两端加入带有标签序列的第一和第二测序接头引物并富集文库。
本发明第五方面涉及sgRNA测序方法,包括:
1)使用如上所述的方法构建sgRNA测序文库;
2)对步骤1)得到的sgRNA测序文库进行测序;优选使用Illumina测序平台进行测序。
本发明第六方面涉及如上所述3’接头或如上所述接头组在构建sgRNA文库中的应用。
本发明第七方面涉及构建的sgRNA测序文库,该sgRNA测序文库通过下述方法构建:
a)将sgRNA在合适的条件下与所述3’接头进行连接反应;
b)向步骤a)反应得到的产物中加入所述5’接头,在合适条件下进行退火封闭,使所述5’接头的第四非随机区与所述3’接头的第一非随机区杂交形成双链;
c)将步骤b)得到的产物在合适的条件下进行连接反应,以使得所述5’接头与所述sgRNA连接;
d)将步骤c)得到的产物在合适的条件下进行逆转录反应,得到cDNA;
e)在所述cDNA的两端加入带有标签序列的第一和第二测序接头引物并富集文库。
本发明采用自主设计研发的带有随机序列碱基和固定序列的接头,可以作为分子标签,有效降低建库、PCR扩增及测序过程中引入的背景噪音,并且可以有效的减少接头和不同结构类型底物RNA的连接偏好性,消除PCR扩增偏好对RNA分子定量的干扰,真实反映样本中的RNA丰度及靶序列信息。
本发明中使用自主研发的带分子标签的半环状接头比传统单链接头的连接效率高,且在反转过程中不需要加入逆转录引物,可以半环状接头作为逆转录引物直接进行逆转录,降低成本以及逆转录引物的短片段污染。半环状接头可根据测序平台而调整通用性引物的序列,具有更广泛的应用性,不需要在测序时另外加入特殊的测序引物,此外可有效降低接头二聚体等非特异性扩增产物。本发明的接头由于连接高效性及二聚体污染低等优势,成功实现含有修饰的sgRNA文库构建,构建成功率高,成本低。
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的UMA3接头的结构示意图;
图2为本发明实施例所提供的UMA5接头的结构示意图;
图3为本发明实施例所提供的sgRNA测序文库构建流程示意图;
图4为根据本发明的实施例实验流程进行100nt长度的sgRNA样本的测序文库构建后,在Agilent 2100 Bioanalyser仪器中分析出来的片段长度结果图;峰I是接头二聚体;峰II是目的文库;
图5为一些实施例使用市售建库试剂盒进行100nt长度的sgRNA样本的测序文库构建的结果图;
图6为本发明一些实施例进行100nt长度的sgRNA样本的测序文库构建的结果图;
图7为一些实施例使用市售建库试剂盒进行100nt长度的sgRNA样本的测序文库构建的结果图。
现将详细地提供本发明实施方式的参考,其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上,对本领域技术人员而言,显而易见的是,可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如,作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中,来产生更进一步的实施方式。
除非另有说明,用于披露本发明的所有术语(包括技术和科学术语)的意义与本发明所属领域普通技术人员所通常理解的相同。通过进一步的指导,随后的定义用于更好地理解本发明的教导。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本文所使用的术语“和/或”、“或/和”、“及/或”的选择范围包括两个或两个以上相关所列项目中任一个项目,也包括相关所列项目的任意的和所有的组合,所述任意的和所有的组合包括任意的两个相关所列项目、任意的
更多个相关所列项目、或者全部相关所列项目的组合。需要说明的是,当用至少两个选自“和/或”、“或/和”、“及/或”的连词组合连接至少三个项目时,应当理解,在本申请中,该技术方案毫无疑问地包括均用“逻辑与”连接的技术方案,还毫无疑问地包括均用“逻辑或”连接的技术方案。比如,“A及/或B”包括A、B和A+B三种并列方案。又比如,“A,及/或,B,及/或,C,及/或,D”的技术方案,包括A、B、C、D中任一项(也即均用“逻辑或”连接的技术方案),也包括A、B、C、D的任意的和所有的组合,也即包括A、B、C、D中任两项或任三项的组合,还包括A、B、C、D的四项组合(也即均用“逻辑与”连接的技术方案)。
本发明中所使用的术语“含有”、“包含”和“包括”是同义词,其是包容性或开放式的,不排除额外的、未被引述的成员、元素或方法步骤。
本发明中用端点表示的数值范围包括该范围内所包含的所有数值及分数,以及所引述的端点。
本发明中涉及浓度数值,其含义包括在一定范围内的波动。比如,可以在相应的精度范围内波动。比如2%,可以允许±0.1%范围内波动。对于数值较大或无需过于精细控制的数值,还允许其含义包括更大波动。比如100mM,可以允许±1%、±2%、±5%等范围内的波动。
本发明中,涉及“多个”、“多种”等描述,如无特别限定,指在数量上指大于等于2。
本发明中,以开放式描述的技术特征中,包括所列举特征组成的封闭式技术方案,也包括包含所列举特征的开放式技术方案。
本发明中,“优选”、“更好”、“更佳”、“为宜”仅为描述效果更好的实施方式或实施例,应当理解,并不构成对本发明保护范围的限制。本发明中,“可选地”、“可选的”、“可选”,指可有可无,也即指选自“有”或“无”两种并列方案中的任一种。如果一个技术方案中出现多处“可选”,如无特别说明,且无矛盾之处或相互制约关系,则每项“可选”各自独立。
本发明中,“核酸”、“核苷酸”或“多核苷酸”是指单链、双链或多链形式的脱氧核糖核酸(DNA)、核糖核酸(RNA)及其聚合物。该术语包括但不限于单链、双链或多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂合体、或包含嘌呤和/或嘧啶碱基或其他天然的、化学修饰的、生物化学修饰的、非天然的、合成的、或衍生化的核苷酸碱基的聚合物。在一些实施方案中,核酸可以包含DNA、RNA及其类似物的混合物。除非特别限定,否则该术语涵盖这样的核酸:它们含有天然核苷酸的已知类似物,具有与参照核酸相似的结合特性,并以类似于天然存在的核苷酸的方式被代谢。除非另外指出,否则具体的核酸序列也隐含地涵盖其保守修饰的变体(例如简并密码子取代),等位基因、直向同源物、单核苷酸多态性(SNP)和互补序列以及明确指出的序列。具体而言,简并密码子取代可以这样实现:产生这样的序列,其中一个或多个选定(或全部)密码子的第三位置被混合碱基和/或脱氧肌苷残基取代(Batzer etal.,Nucleic Acid Res.19:5081(1991);Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985);和Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。术语“核酸”可以与由基因编码的基因、cDNA和mRNA互换使用。
本发明中,“sgRNA”,也可称为单向导RNA、向导RNA、gRNA,指的是能够与CRISPR系统中Cas蛋白形成复合物并由于与靶序列具有一定互补性而能够将所述复合物靶向靶序列的RNA分子。例如,在基于Cas9的基因编辑系统中,gRNA通常由部分互补形成复合物的crRNA和tracrRNA分子构成,其中crRNA包含与靶序列具有足够互补性以便与该靶序列杂交并且指导CRISPR复合物(Cas9+crRNA+tracrRNA)与该靶序列序列特异性地结合的序列。本领域已知可以设计sgRNA,其同时包含crRNA和tracrRNA的特征。而在基于Cpf1的基因组编辑系统中,sgRNA通常仅由成熟crRNA分子构成,其中crRNA包含的序列与靶序列具有足够相同性以便与靶序列的互补序列杂交并且指导复合物(Cpf1+crRNA)与该靶序列序列特异性结合。基于所使用的CRISPR/Cas系统和待编辑的靶序列设计合适的
sgRNA序列属于本领域技术人员的能力范围内。本发明的sgRNA可以包含本领域已知的其他用于改进其性能的结构或修饰,例如其可包含(例如插入茎环结构中)额外的MS2发夹适体序列,使得可以被MS2蛋白结合,为基因编辑系统提供额外的功能,或者例如,其可以包含一个或多个修饰的核苷酸,如在核糖基团、磷酸基团、核碱基或其组合中包含修饰。核糖基团中的修饰可以是在核糖基团的2'位处的修饰。在一些情况下,核糖基的2'位的修饰下组:2'-O-甲基、2'-氟、2'-脱氧、2'-O-甲基3'硫代磷酸酯(MS)或2'-O-甲基3'thioPACE(MSP),已有研究显示可增强sgRNA以及crRNA和tracRNA稳定性(Hendel等,2015;Rahdar等,2015)。
本发明中,“随机区”指可以出现任何核苷酸或碱基的序列区域。例如,在化学合成寡核苷酸时,通过在寡核苷酸链延长的化学反应中引入核苷酸混合物(DNA寡核苷酸常用dA、dG、dC、dT,RNA寡核苷酸常用dA、dG、dC和dU),可以实现在任一位置掺入任一核苷酸。
本发明中,“非随机区”是指在寡核苷酸内特定位置掺入至少一种特定核苷酸或碱基。例如,在寡核苷酸链延长的化学反应中,可以将一个或多个核苷酸引入到特定位置以合成特定核苷酸序列。
本发明涉及sgRNA测序3’接头,其从5’端至3’端依次包含以下区段:第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区;
其中,所述第一非随机区用于与sgRNA的3’端连接;
所述第一随机区包含3、4、5、6、7、8、9、10、11或12个碱基;
所述第二非随机区与所述第三非随机区反向互补,以配合所述成环DNA区形成颈环结构,所述第三非随机区用于作为sgRNA逆转录复制的引物;
所述成环DNA从5’端至3’端由第一成环区以及第二成环区组成;
所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互
补配对结合。
所述3’接头由于连接在sgRNA的3’端,因而在本发明中也被称为UMA3接头。
随机序列可以有效的减少接头和不同结构类型底物RNA的连接偏好性,同时亦作为单分子标签(Unique Molecule Identifiers,UMI)可有效降低建库、PCR扩增及测序过程中引入的背景噪音,消除PCR扩增偏好对RNA分子定量的干扰,真实反映样本中的RNA丰度及靶序列信息。
成环DNA区不与其他序列互补,内部不含互补序列,在UMA3接头结构中形成环状,此结构利于接头序列的稳定。且经过巧妙的设计,UMA3接头的第三非随机区与第二非随机区反向互补,可以作为逆转录的引物,简便实验操作。并且,成环DNA区可与第一测序接头引物互补配对结合,进一步简化了实验整体流程。
所述3’接头可以包含一个或多个核糖核苷酸,但优选由脱氧核糖核苷酸构成。
在一些实施方式中,所述第一非随机区包含5、6、7、8、9、10、11或12个碱基。第一非随机区由5~12个A/T/C/G碱基自由排列组合成。例如,当第一非随机区长度为5nt时,第一非随机区总共有45=1024种类型。在一些具体的实施例中,所述第一非随机区长度为7nt。在一些具体的实施例中,所述第一非随机区序列为GTATCGT。
在一些实施例中,所述第三非随机区的序列能够与第一测序接头引物序列互补配对结合,以进一步增加其利用率。
在一些实施方式中,所述第三非随机区包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31个碱基。在一些具体的实施方式中,所述第三非随机区包含如SEQ ID NO:1所示的序列。
在一些实施方式中,所述第二成环区包含3、4、5、6、7、8、9、10、
11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32或33个碱基,优选包含10~30个碱基。在一些具体的实施方式中,所述第二成环区包含如SEQ ID NO:3所示的序列。
在一些实施方式中,所述第三非随机区与第二成环区共包含34个碱基。
本发明中,随机序列通常用“NNNNN”(当其是5nt时)形式进行表述,N表示A/T/C/G/U碱基中的任意一种。随机序列的长度没有特别的规定,只要其组合数足够区分同一个样本里所包含的全部分子即可。为了实现样本里每个分子都被标记上不同种类(即碱基序列组合不同)UMI的目的,一般要求UMI种类数远大于分子数。在一些实施方式中,结合成本考虑,所述随机序列包含3-12个碱基,如3、4、5、6、7、8、9、10、11或12碱基。在一些具体的实施例中,所述随机序列的长度为6nt。
在一些实施方式中,所述第一成环区序列包含如SEQ ID NO:2所示的序列。
在一些实施方式中,所述第一成环区与第二成环区之间进一步包含可被蛋白酶切断的结构。本发明中,“蛋白酶切断”是指经过蛋白酶处理后能够形成暴露的核酸以供引物结合,因而可以是核酸链的完全分离,也可以为其他形式例如脱碱基位点(abasic site)。对于可被蛋白酶切断的结构,其优选是通过掺入一个或多个脱氧尿嘧啶(dU)而被切割;切割所用的酶可以是具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶,以形成脱碱基位点。也可以进一步包括在脱碱基位点处通过内切核酸酶(如EndoIV内切核酸酶、AP裂合酶、FPG糖基化酶/AP裂合酶、EndoVIII糖基化酶/AP裂解酶)、热或碱处理来切割包含脱碱基位点的多核苷酸链。只要能将其断开即可。
在一些实施方式中,所述接头5’端和/或3’端进一步包含核苷酸修饰。
在一些实施方式中,所述接头5’端包含腺苷酰化修饰。
在一些实施方式中,所述接头3’端包含氨基修饰。
本发明还涉及接头组,其包括如上所述的3’接头以及用于与sgRNA的
5’端连接的5’接头;
所述5’接头由核糖核苷酸构成,从5’端至3’端依次包含第二测序接头引物结合区、第二随机区和第四非随机区;所述第二随机区包含3、4、5、6、7、8、9、10、11或12个碱基;所述第四非随机区与所述第一非随机区反向互补。
由于5’接头与sgRNA的5’端连接,本发明也将其称为UMA5接头。
所述5’接头的3’端第四非随机区与所述第一非随机区反向互补,可在退火的条件下封闭UMA3接头,提高连接效率。
UMA5接头序列包含第二测序接头引物结合区,所述测序接头引物结合区在PCR富集文库第一轮核酸合成时能够与带标签序列的测序接头引物序列结合。本领域技术人员可以根据实际需要设计所述测序接头引物结合区的序列。在一些实施方式中,所述测序接头引物结合区包含17~33个碱基,例如18、19、20、21、22、23、24、25、26、27、28、29、30、31、32个碱基。在一些具体的实施例中,所述第二测序接头引物结合区序列为ACACGACGCUCUUCCGAUCU(SEQ ID NO:7)、UACACGACGCUCUUCCGAUCU(SEQ ID NO:8)、或CCCUACACGACGCUCUUCCGAUCU(SEQ ID NO:9)。在一些具体的实施例中,所述第二测序接头引物结合区序列包含33个碱基,所述碱基序列为SEQ ID NO:4所示。
本发明中的第一和第二测序接头引物可以由本领域技术人员按需求进行选择。本领域技术人员可以根据需要对测序接头引物的序列进行设计,例如在序列中增加合适的用于样本区分的标签序列(Index)等。在一些具体的实施例中,测序接头引物优选为已知的标准接头测序引物;较为优选的,本发明所述第一和第二测序接头引物为适用于Illumina测序平台的标准测序接头引物,包含启动测序的测序引物结合位点;cDNA 3’端可以使用PCR扩增的方式加入I5标签序列,随后,在加上I5标签序列后的扩增序列的3’端使用PCR扩增的方式加入I7标签序列,其中标签的序列位置是固定的,
长度根据测序仪的设定,可以是6nt或8nt。
在一些具体的实施例中,所述第一和第二测序接头引物分别包含至少17个碱基,在一些具体的实施例中,所述第一和第二测序接头引物分别包含至少33个碱基。在一些具体的实施例中,所述第一测序接头引物包含SEQ ID NO:6所示的序列,所述第二测序接头引物包含SEQ ID NO:5所示的序列。在一些实施例中,所述第一测序接头引物包含SEQ ID NO:14所示的序列,在一些实施例中,所述第一测序接头引物包含如SEQ ID NO:15所示的序列。
本发明还涉及试剂盒,其包含如上所述的接头组。
术语“试剂盒”是指包括至少一个设备的任何制品(例如,包装或容器),可进一步包括在本文中描述的方法或其步骤中使用的使用说明书、补充试剂和/或组分或组件。
优选的,试剂盒中的核酸组分和蛋白组分,例如接头和酶以干粉形式存放于试剂盒中。各组分也可以冻干形式,例如以一种或多种所谓的冻干珠的形式实现。冻干珠通常可以被理解为是指在制造后(在所述制造后物质通常作为粉末存在)被压制成球形的冻干物。
在一些实施方式中,所述的试剂盒还包含如下组分中的至少一种:
·RNA连接酶;
·适用于RNA连接酶的连接缓冲液;
·具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶或酶组合物;
·逆转录酶;
·逆转录反应缓冲液;
·DNA聚合酶;
·用于cDNA扩增的PCR扩增缓冲液;
·T4磷酸激酶;
·T4磷酸激酶反应缓冲液;
·用于与所述第三非随机区和第二成环区互补配对结合的第一测序接头引物,以及与所述第二测序接头引物结合区互补配对结合的第二测序接头引物;
·dNTPs;以及
·水。
其中对于部分组分详述如下:
·RNA连接酶
在本发明中,“酶”(例如T4 RNA连接酶、逆转录酶以及DNA聚合酶)均按照本领域技术人员所知的最大范围进行理解。该范围应当包含具有相应活性的常见的酶及其变体,优选的RNA连接酶是T4 RNA连接酶。以T4 RNA连接酶为例,其应当包含具有RNA连接酶活性的截短体(如截短体KQ);酶也可以具有常见的修饰或者连接有标签(如Arg标签、His标签、Strep标签、Flag标签、T7标签、V5-肽标签、GST标签和c-Myc标签),只要其具有期望的活性。进一步优选T4 RNA连接酶包括i)T4 RNA连接酶1,和/或ii)T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种。
·适用于RNA连接酶的连接缓冲液
在本发明中,缓冲组分/缓冲体系,是指水溶液或组合物,当酸或碱加入该溶液或组合物中时,所述水溶液或组合物抵抗pH中的变化。这种对pH变化的抗性是由于此类溶液的缓冲性质。可以在本发明的方法中使用的缓冲液优选自磷酸盐缓冲液、磷酸盐缓冲盐水缓冲液(PBS)、2-氨基-2羟甲基-1,3-丙二醇(Tris)缓冲液、Tris-NaCl缓冲液(TBS)和Tris/EDTA(TE)。
连接缓冲液优选包含缓冲组分(如Tris)、Mg2+和DTT;更优选为包
含7mM~13mM Mg2+和0.7mM~1.3mM DTT的缓冲体系;更优选为包含9mM~11mM Mg2+和0.9mM~1.1mM DTT的缓冲体系;pH优选为7~8。
·具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶或酶组合物
术语“具有尿嘧啶DNA糖基化酶活性”是指识别单链或双链DNA中存在的尿嘧啶,并切割尿嘧啶碱基和脱氧核糖之间的N-糖苷键,留下脱碱基位点的活性。尿嘧啶-DNA糖基化酶,缩写为“UDG”或“UNG”(EC 3.2.2.3),包括线粒体UNG1、核UNG2、SMUG1(单链选择性尿嘧啶-DNA糖基化酶)、TDG(TU错配DNA糖基化酶)、MBD4(带甲基结合区域的尿嘧啶-DNA糖基化酶)和其他原核和真核酶类(参见Krokan H.E.等“Uracil in DNA-occurrence,consequences and repair”,Oncogene(2002)21:8935-9232)。
在一些优选的实施方式中,酶组合物为尿嘧啶-DNA糖基化酶UDG和DNA糖基化酶和裂解酶Endo Ⅷ的混合物,例如“User酶”。
·逆转录酶
所述逆转录酶可以选自AMV逆转录酶、M-MuLV逆转录酶等。在一些具体的实施例中,所述逆转录酶为M-MuLV逆转录酶。逆转录酶优选是热稳定的。逆转录酶可以不具有RNase H活性,或者具有减弱的RNase H活性。
·DNA聚合酶
可选自Taq、Bst、Vent、Phi29、Pfu、Tru、Tth、Tl1、Tac、Tne、Tma、Tih、Tf1、Pwo、Kod、Sac、Sso、Poc、Pab、Mth、Pho、ES4DNA聚合酶以及Klenow片段中的任一种。优选是高保真酶。
·水
优选双蒸水或去离子水。
上述组分优选不含核酸酶(DNA酶和RNA酶),如有必要,可添加核酸酶抑制剂。
试剂盒中各组分可各自独立包装,或者以至少两种混合在一起的形式包装,这可能会增加使用的便携性/利用保存。
根据本发明的再一方面,还涉及sgRNA测序文库的构建方法,其使用如上所述的接头组并包括如下步骤:
a)将sgRNA在合适的条件下与所述3’接头进行连接反应;
b)向步骤a)反应得到的产物中加入所述5’接头,在合适条件下进行退火封闭,使所述5’接头的第四非随机区与所述3’接头的第一非随机区杂交形成双链;
c)将步骤b)得到的产物在合适的条件下进行连接反应,以使得所述5’接头与所述sgRNA连接;
d)将步骤c)得到的产物在合适的条件下进行逆转录反应,得到cDNA;
e)在所述cDNA的两端加入带有标签序列的第一和第二测序接头引物并富集文库。
在一些实施方式中,连接所述3’接头的连接反应条件为22℃~28℃,至少反应1h。在一些实施方式中,连接所述3’接头的连接反应条件为16℃孵育3h。在一些实施方式中,连接所述3’接头的连接反应条件为16℃孵育18h。
在一些实施方式中,连接所述5’接头的连接反应条件为34℃~40℃至少15分钟,或23℃~28℃孵育至少1h,或14℃~18℃孵育至少16h。
封闭的作用是为了更好的连接UMA5接头,减少产生影响连接效率的RNA共折叠结构(Co-Fold Structure),同时降低接头自连(dimer contamination),从而提高最后的文库产出。
在一些实施方式中,所述退火封闭的反应条件包括70℃~80℃孵育至少10分钟,以0.3℃/s~1℃/s(例如0.5℃/s、0.7℃/s)的速率缓慢降温至20℃~30℃,孵育至少15分钟。
本发明优选所述sgRNA的5’端包含磷酸根修饰。在一些实施方式中,若5’端不包含磷酸根修饰,则步骤a)还包括,将连接所述3’接头后所得产物的5’端磷酸化。
在一些实施方式中,步骤a)中连接所用的酶选自T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种。
在一些实施方式中,步骤a)中连接反应在包含7mM~13mM Mg2+和0.7mM~1.3mM DTT的缓冲体系下进行。
在一些实施方式中,步骤a)连接反应的缓冲体系还包括PEG8000,优选浓度为10%~30%(w/v),更优选为12%~25%(w/v),例如13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%或24%(w/v)。本发明中“w/v”指g/100mL。
在一些实施方式中,步骤c)中连接所用的酶是T4 RNA连接酶1。
在一些实施方式中,步骤c)在包含7mM~13mM Mg2+和0.7mM~1.3mM DTT的缓冲体系下进行反应。
在一些实施方式中,所述3’接头成环DNA的第一成环区与第二成环区之间包含可被蛋白酶切断的结构,步骤d)进一步包括使用蛋白酶切断成环DNA的切段反应。所述蛋白酶优选如上文中所定义,例如为User酶。
在一些实施方式中,所述sgRNA长度为20~200nt,例如25、30、35、40、50、60、70、80、90、100、120、140、160、180nt、200nt。
本发明还涉及一种sgRNA测序方法,包括:
1)使用如上所述的方法构建sgRNA测序文库;
2)对步骤1)得到的sgRNA测序文库进行测序;优选使用Illumina测序平台进行测序。
在一些实施方式中,使用如上所述的方法构建sgRNA文库。在一些实施方式中,使用如上所述的方法构建带有修饰的sgRNA文库,如2’-O-甲
基修饰、硫代磷酸修饰、2’-O-甲基3’硫代磷酸酯修饰等。
本发明还涉及如上所述3’接头或如上所述接头组在构建sgRNA文库中的应用。
测序的对象可以为人、动物(如大鼠、小鼠、猫、犬、马、牛、羊、猪、鸡、鸭、鹅、鹌鹑、鸽子、线虫、斑马鱼)、植物(如水稻、拟南芥、小麦、玉米)和微生物(各种病毒、细菌或真菌)。容易理解,上述方法为可应用于不同物种、不同目的的普适性方法。
下面将结合实施例对本发明的实施方案进行详细描述。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,优先参考本发明中给出的指引,还可以按照本领域的实验手册或常规条件,还可以参考本领域已知的其它实验方法,或者按照制造厂商所建议的条件。
下述的具体实施例中,涉及原料组分的量度参数,如无特别说明,可能存在称量精度范围内的细微偏差。涉及温度和时间参数,允许仪器测试精度或操作精度导致的可接受的偏差。
实施例1:利用UMA3和UMA5接头进行sgRNA建库及测序
样品来源:人工合成sgRNA标准品,序列长度为100nt,序列的5’端和3’端有化学修饰。
根据sgRNA二代测序文库的构建方法实施示例。
所用试剂等来源如下表:
1、样品变性
取sgRNA样品1μg-10μg,总体积为6.5μL。体积不足6.5μL时,用无核酸酶的水补足体积至6.5μL。
反应条件:70℃反应2min形成单链,立即放置于冰上至少1min。
2、3’端接头连接
连接UMA3接头,接头序列为:GTATCGTNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTdUGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:10),接头序列5’端带有APP修饰,3’端带有NH2修饰。反应步骤如下:
反应条件:25℃反应1h,立即放置于冰上。
3、磷酸化
反应条件:37℃反应30min,65℃反应20min,立即放置于冰上。
4、5’端接头封闭
UMA5接头序列为:ACACUCUUUCCCUACACGACGCUCUUCCGAUCUNNNNNNACGAUAC(SEQ ID NO:11),取1μL到新的PCR管中,置于PCR仪上70℃孵育2min后,立即置于冰上;变性的接头必须在30min内使用完。
反应条件:75℃反应10min,以0.5℃/s降温到25℃,25℃反应15min,立即放置于冰上。
5、5’端接头连接
反应条件:25℃反应1h,立即放置于冰上。
6、逆转录
反应条件:42℃反应60min,85℃反应15min,立即放置于冰上。
7、PCR扩增
通过PCR将双端标签序列连接到上步产物上,构建文库。5’端第二测序接头引物序列为:AATGATACGGCGACCACCGAGATCTACACCGTCCGTGCACACTCTTTCCCTACACGAC(SEQ ID NO:5),3’端第一测序接头引物序列为:CAAGCAGAAGACGGCATACGAGATCATGCCATGTGACTGGAGTTCAGACGTGT(SEQ ID NO:6)。
反应条件如下:
步骤1 98℃反应45s
步骤2 98℃反应15s
步骤3 60℃反应30s
步骤4 72℃反应30s
步骤5 72℃反应1min
步骤6 4℃保持
其中,步骤2~步骤4,根据样品起始量不同(1-10μg)设置12~30个循环。
8、文库纯化
首先加入0.8X Ampure XP磁珠结合PCR产物,然后上清液再用0.2X Ampure XP磁珠结合,用无核酸酶的水或Elution Buffer回溶。回收的产物使用Agilent 2100 DNA高敏芯片检测,其结果如下表和图4所示。样品文库的PCR产物集中在200~300bp左右,目标片段比较集中。
由上述结果可以看出,本发明所述的sgRNA二代测序文库的构建方法可成功的实行sgRNA建库测序。
实施例2:利用市售小RNA建库接头进行sgRNA建库及测序
从NEB购买小RNA建库试剂盒,所用样品与实施例1一致,经过样品变性、3’端接头连接、5’端接头封闭、5’端接头连接、反转录、PCR扩增以及文库纯化等操作步骤后,得到最终结果如图5所示,可以看出200-300bp的目标序列占比为0%,市售接头序列无法实现带有修饰的sgRNA建库。
实施例3:利用UMA3和UMA5接头进行sgRNA建库及测序
建库方法和所用相关试剂如实施例1所述。其中,UMA3接头序列为:GTATCGTNNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCACdUACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO:12),
接头5’端带有APP修饰,3’端带有NH2修饰。其中,UMA5接头序列为:ACACUCUUUCCCUACACGACGCUCUUCCGAUCUNNNNNNACGAUAC(SEQ ID NO:11)。
其中,PCR扩增5’端第二测序接头引物序列为:AATGATACGGCGACCACCGAGATCTACACCGTCCGTGCACACTCTTTCCCTACACGAC(SEQ ID NO:5),3’端第一测序接头引物序列为:CAAGCAGAAGACGGCATACGAGATCACTGACCTCAAGTCTGCACACGAGAAGGCTAGA(SEQ ID NO:13)。
进行文库纯化后,得到最终结果如下表和图6所示。
实施例4:利用线性小RNA建库接头进行sgRNA建库及测序
利用市售线性小RNA建库接头进行建库,所用连接酶、反转录酶及试剂等与实施例1一致。所用样品与实施例1一致,经过样品变性、3’端接头连接、磷酸化、5’端接头封闭、5’端接头连接、反转录、PCR扩增以及文库纯化等操作步骤后,得到最终结果如图7所示,可以看出200-300bp的目标序列占比较低,而接头二聚体的占比非常高。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和
详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准,说明书及附图可以用于解释权利要求的内容。
Claims (25)
- sgRNA测序3’接头,其从5’端至3’端依次包含以下区段:第一非随机区、第一随机区、第二非随机区、成环DNA区以及第三非随机区;其中,所述第一非随机区用于与sgRNA的3’端连接;所述第一随机区包含3、4、5、6、7、8、9、10、11或12个碱基;所述第二非随机区与所述第三非随机区反向互补,以配合所述成环DNA区形成颈环结构,所述第三非随机区用于作为sgRNA逆转录复制的引物;所述成环DNA从5’端至3’端由第一成环区以及第二成环区组成;所述第三非随机区与所述第二成环区能够与第一测序接头引物序列互补配对结合。
- 根据权利要求1所述的3’接头,所述第一非随机区包含5、6、7、8、9、10、11或12个碱基。
- 根据权利要求1所述的3’接头,所述第三非随机区包含2~31个碱基,优选包含如SEQ ID NO:1所示的序列。
- 根据权利要求3所述的3’接头,所述第二成环区包含3~33个碱基,优选包含10~30个碱基,更优选包含如SEQ ID NO:3所示的序列。
- 根据权利要求4所述的3’接头,所述第三非随机区与第二成环区共包含34个碱基。
- 根据权利要求1所述的3’接头,所述第一成环区序列包含如SEQ ID NO:2所示的序列。
- 根据权利要求1~6任一项所述的3’接头,所述第一成环区与第二成环区之间包含可被蛋白酶切断的结构,优选为一个或多个dU。
- 根据权利要求1~6任一项所述的3’接头,其5’端和/或3’端包含核苷 酸修饰;优选5’端包含腺苷酰化修饰,优选3’端包含氨基修饰。
- 接头组,其包括权利要求1~8任一项所述的3’接头以及用于与sgRNA的5’端连接的5’接头;所述5’接头由核糖核苷酸构成,从5’端至3’端依次包含第二测序接头引物结合区、第二随机区和第四非随机区;所述第二随机区包含3、4、5、6、7、8、9、10、11或12个碱基;所述第四非随机区与所述第一非随机区反向互补。
- 根据权利要求9所述的接头组,所述第二测序接头引物结合区包含17~33个碱基;优选所述第二测序接头引物结合区包含SEQ ID NO:4所示的序列。
- 试剂盒,其包含权利要求9或10所述的接头组。
- 根据权利要求11所述的试剂盒,其还包含如下组分中的至少一种:·RNA连接酶,优选包括:i)T4 RNA连接酶1,和/或ii)T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种;·适用于RNA连接酶的连接缓冲液,优选为包含7mM~13mM Mg2+和0.7mM~1.3mM DTT的缓冲体系;·具有尿嘧啶DNA糖基化酶活性和AP-内切酶活性的酶或酶组合物;优选为尿嘧啶DNA糖基化酶和Endo VIII的混合物,更优选为User酶;·逆转录酶;·逆转录反应缓冲液;·DNA聚合酶;·用于cDNA扩增的PCR扩增缓冲液;·T4磷酸激酶;·T4磷酸激酶反应缓冲液;·用于与所述第三非随机区和第二成环区互补配对结合的第一测序接头引物,以及与所述第二测序接头引物结合区互补配对结合的第二测序接头引物;·dNTPs;·水。
- sgRNA测序文库的构建方法,其使用权利要求7或8所述的接头组并包括如下步骤:a)将sgRNA在合适的条件下与所述3’接头进行连接反应;b)向步骤a)反应得到的产物中加入所述5’接头,在合适条件下进行退火封闭,使所述5’接头的第四非随机区与所述3’接头的第一非随机区杂交形成双链;c)将步骤b)得到的产物在合适的条件下进行连接反应,以使得所述5’接头与所述sgRNA连接;d)将步骤c)得到的产物在合适的条件下进行逆转录反应,得到cDNA;e)在所述cDNA的两端加入带有标签序列的第一和第二测序接头引物并富集文库。
- 根据权利要求13所述的方法,所述步骤b)中退火封闭的反应条件包括70℃~80℃孵育至少10分钟,以0.3℃/s~1℃/s的速率缓慢降温至20℃~30℃,孵育至少15分钟。
- 根据权利要求13所述的方法,步骤a)还包括,将连接所述3’接头后所得产物的5’端磷酸化。
- 根据权利要求13~15任一项所述的方法,步骤a)中连接反应所用 的酶选自T4 RNA连接酶2、T4 RNA连接酶2截短体和T4 RNA连接酶2截短体KQ中的至少一种。
- 根据权利要求16所述的方法,步骤a)中连接反应在包含7mM~13mM Mg2+和0.7mM~1.3mM DTT的缓冲体系下进行。
- 根据权利要求17所述的方法,步骤a)连接反应的缓冲体系还包括PEG8000,浓度为10%~30%(w/v),优选为12%~25%(w/v)。
- 根据权利要求13~15、17、18任一项所述的方法,步骤c)中连接反应所用的酶是T4 RNA连接酶1。
- 根据权利要求19所述的方法,步骤c)中连接反应在包含7mM~13mM Mg2+和0.7mM~1.3mM DTT的缓冲体系下进行反应。
- 根据权利要求13~15、17、18、20任一项所述的方法,所述3’接头成环DNA的第一成环区与第二成环区之间包含可被蛋白酶切断的结构,步骤d)进一步包括使用蛋白酶切断成环DNA的切段反应,所述蛋白酶优选User酶。
- 根据权利要求13~15、17、18、20任一项所述的方法,所述sgRNA长度为20~200nt。
- sgRNA测序方法,包括:1)使用权利要求11~22任一项所述的方法构建sgRNA测序文库;2)对步骤1)得到的sgRNA测序文库进行测序;优选使用Illumina测序平台进行测序。
- 权利要求1~8任一项所述3’接头或权利要求9或10所述接头组在构建sgRNA文库中的应用。
- 根据权利要求13~15、17、18任一项所述方法构建的sgRNA测序文库。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210541595.6 | 2022-05-17 | ||
CN202210541595 | 2022-05-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023222014A1 true WO2023222014A1 (zh) | 2023-11-23 |
Family
ID=88834682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2023/094691 WO2023222014A1 (zh) | 2022-05-17 | 2023-05-17 | sgRNA测序接头及其应用 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023222014A1 (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105400776A (zh) * | 2014-09-12 | 2016-03-16 | 深圳华大基因科技有限公司 | 寡核苷酸接头及其在构建核酸测序单链环状文库中的应用 |
WO2018015318A1 (en) * | 2016-07-18 | 2018-01-25 | F. Hoffmann-La Roche Ag | Method for generating single-stranded circular dna libraries for single molecule sequencing |
CN108300716A (zh) * | 2018-01-05 | 2018-07-20 | 武汉康测科技有限公司 | 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法 |
CN108753922A (zh) * | 2018-06-04 | 2018-11-06 | 广州微芯生物科技有限公司 | 一种构建转录组测序文库的方法及相应的接头序列和试剂盒 |
CN108893466A (zh) * | 2018-06-04 | 2018-11-27 | 苏州人人基因科技有限公司 | 测序接头、测序接头组和超低频突变的检测方法 |
CN114032288A (zh) * | 2021-12-10 | 2022-02-11 | 北京吉因加医学检验实验室有限公司 | 一种试剂盒及其制备测序用靶核苷酸的方法 |
-
2023
- 2023-05-17 WO PCT/CN2023/094691 patent/WO2023222014A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105400776A (zh) * | 2014-09-12 | 2016-03-16 | 深圳华大基因科技有限公司 | 寡核苷酸接头及其在构建核酸测序单链环状文库中的应用 |
WO2018015318A1 (en) * | 2016-07-18 | 2018-01-25 | F. Hoffmann-La Roche Ag | Method for generating single-stranded circular dna libraries for single molecule sequencing |
CN108300716A (zh) * | 2018-01-05 | 2018-07-20 | 武汉康测科技有限公司 | 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法 |
CN108753922A (zh) * | 2018-06-04 | 2018-11-06 | 广州微芯生物科技有限公司 | 一种构建转录组测序文库的方法及相应的接头序列和试剂盒 |
CN108893466A (zh) * | 2018-06-04 | 2018-11-27 | 苏州人人基因科技有限公司 | 测序接头、测序接头组和超低频突变的检测方法 |
CN114032288A (zh) * | 2021-12-10 | 2022-02-11 | 北京吉因加医学检验实验室有限公司 | 一种试剂盒及其制备测序用靶核苷酸的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10961529B2 (en) | Barcoding nucleic acids | |
EP3464634B1 (en) | Molecular tagging methods and sequencing libraries | |
EP3192877B1 (en) | Vesicular adaptor and uses thereof in nucleic acid library construction and sequencing | |
CN105400776B (zh) | 寡核苷酸接头及其在构建核酸测序单链环状文库中的应用 | |
US20150197787A1 (en) | Recombinase mediated targeted dna enrichment for next generation sequencing | |
AU2016365720A1 (en) | Methods and compositions for the making and using of guide nucleic acids | |
JP2021523704A (ja) | 方法 | |
US20230056763A1 (en) | Methods of targeted sequencing | |
CN110607353B (zh) | 一种利用高效地连接技术快速制备dna测序文库的方法和试剂盒 | |
CN109069667A (zh) | 用于核酸组装的组合物和方法 | |
WO2019090621A1 (zh) | 钩状探针、核酸连接方法以及测序文库的构建方法 | |
CN111989406B (zh) | 一种测序文库的构建方法 | |
WO2023222014A1 (zh) | sgRNA测序接头及其应用 | |
Hartig et al. | Small circular DNAs for synthesis of the human telomere repeat: varied sizes, structures and telomere-encoding activities | |
CN108103052B (zh) | 提高基因组覆盖度的单细胞全基因组扩增及文库构建方法 | |
US20230220434A1 (en) | Composistions and methods for crispr enabled dna synthesis | |
WO2018009677A1 (en) | Fast target enrichment by multiplexed relay pcr with modified bubble primers | |
US20230122979A1 (en) | Methods of sample normalization | |
CN110551794B (zh) | 对rna分子进行处理的方法及试剂盒和复合体 | |
CN116377042A (zh) | 一种基于Tn5转座子的链特异性单链DNA高通量测序方法 | |
JP2020103230A (ja) | アダプターダイマーの生成抑制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 23806965 Country of ref document: EP Kind code of ref document: A1 |