KR20230121569A - 상동지정복구를 위한 TaRGET 시스템 및 이를 이용한 유전자 편집 방법 - Google Patents
상동지정복구를 위한 TaRGET 시스템 및 이를 이용한 유전자 편집 방법 Download PDFInfo
- Publication number
- KR20230121569A KR20230121569A KR1020230017657A KR20230017657A KR20230121569A KR 20230121569 A KR20230121569 A KR 20230121569A KR 1020230017657 A KR1020230017657 A KR 1020230017657A KR 20230017657 A KR20230017657 A KR 20230017657A KR 20230121569 A KR20230121569 A KR 20230121569A
- Authority
- KR
- South Korea
- Prior art keywords
- sequence
- nucleic acid
- seq
- guide rna
- vector
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 title claims abstract description 88
- 238000010362 genome editing Methods 0.000 title claims abstract description 53
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 572
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 466
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 466
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 421
- 108020005004 Guide RNA Proteins 0.000 claims abstract description 357
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 293
- 239000013598 vector Substances 0.000 claims abstract description 197
- 230000006780 non-homologous end joining Effects 0.000 claims abstract description 71
- 108091027967 Small hairpin RNA Proteins 0.000 claims abstract description 26
- 239000004055 small Interfering RNA Substances 0.000 claims abstract description 24
- 241000702421 Dependoparvovirus Species 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000004806 packaging method and process Methods 0.000 claims abstract description 13
- 125000003729 nucleotide group Chemical group 0.000 claims description 192
- 239000002773 nucleotide Substances 0.000 claims description 191
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 114
- 108091079001 CRISPR RNA Proteins 0.000 claims description 112
- 230000008439 repair process Effects 0.000 claims description 106
- 210000004027 cell Anatomy 0.000 claims description 100
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 93
- 238000012217 deletion Methods 0.000 claims description 79
- 230000037430 deletion Effects 0.000 claims description 79
- 239000000203 mixture Substances 0.000 claims description 76
- 230000004048 modification Effects 0.000 claims description 76
- 238000012986 modification Methods 0.000 claims description 76
- 108020004414 DNA Proteins 0.000 claims description 67
- 230000000295 complement effect Effects 0.000 claims description 58
- 108010042407 Endonucleases Proteins 0.000 claims description 54
- 230000014509 gene expression Effects 0.000 claims description 50
- 102100031780 Endonuclease Human genes 0.000 claims description 45
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical group O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 claims description 40
- 102000040430 polynucleotide Human genes 0.000 claims description 40
- 108091033319 polynucleotide Proteins 0.000 claims description 40
- 239000002157 polynucleotide Substances 0.000 claims description 40
- 239000013603 viral vector Substances 0.000 claims description 29
- 238000003776 cleavage reaction Methods 0.000 claims description 27
- 230000007017 scission Effects 0.000 claims description 27
- 241000700605 Viruses Species 0.000 claims description 26
- 150000001413 amino acids Chemical group 0.000 claims description 25
- 230000005782 double-strand break Effects 0.000 claims description 24
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 claims description 18
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 claims description 17
- 238000001890 transfection Methods 0.000 claims description 17
- 229940045145 uridine Drugs 0.000 claims description 17
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 16
- 230000001404 mediated effect Effects 0.000 claims description 14
- 101000720958 Homo sapiens Protein artemis Proteins 0.000 claims description 13
- 102100025918 Protein artemis Human genes 0.000 claims description 13
- 108091028113 Trans-activating crRNA Proteins 0.000 claims description 12
- 241000700618 Vaccinia virus Species 0.000 claims description 11
- 102100036976 X-ray repair cross-complementing protein 6 Human genes 0.000 claims description 11
- 230000009977 dual effect Effects 0.000 claims description 11
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 11
- 102100027828 DNA repair protein XRCC4 Human genes 0.000 claims description 10
- 101000649315 Homo sapiens DNA repair protein XRCC4 Proteins 0.000 claims description 10
- 102100028156 Non-homologous end-joining factor 1 Human genes 0.000 claims description 10
- 241000700584 Simplexvirus Species 0.000 claims description 10
- 239000002105 nanoparticle Substances 0.000 claims description 10
- 238000006467 substitution reaction Methods 0.000 claims description 10
- 241000701161 unidentified adenovirus Species 0.000 claims description 10
- 230000003612 virological effect Effects 0.000 claims description 10
- 102100033195 DNA ligase 4 Human genes 0.000 claims description 9
- 241000713666 Lentivirus Species 0.000 claims description 9
- 239000013612 plasmid Substances 0.000 claims description 9
- 241001430294 unidentified retrovirus Species 0.000 claims description 9
- 101000927810 Homo sapiens DNA ligase 4 Proteins 0.000 claims description 8
- 150000002632 lipids Chemical class 0.000 claims description 8
- 108091093088 Amplicon Proteins 0.000 claims description 7
- 108010025026 Ku Autoantigen Proteins 0.000 claims description 6
- 229920002873 Polyethylenimine Polymers 0.000 claims description 6
- 102000004389 Ribonucleoproteins Human genes 0.000 claims description 6
- 108010081734 Ribonucleoproteins Proteins 0.000 claims description 6
- 108020004459 Small interfering RNA Proteins 0.000 claims description 6
- 108020004999 messenger RNA Proteins 0.000 claims description 6
- 108091070501 miRNA Proteins 0.000 claims description 6
- 239000002679 microRNA Substances 0.000 claims description 6
- 101100161469 Arabidopsis thaliana ABCB23 gene Proteins 0.000 claims description 5
- 101100132433 Arabidopsis thaliana VIII-1 gene Proteins 0.000 claims description 5
- 101100324822 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) fes-4 gene Proteins 0.000 claims description 5
- 108091034117 Oligonucleotide Proteins 0.000 claims description 5
- 239000000074 antisense oligonucleotide Substances 0.000 claims description 5
- 238000012230 antisense oligonucleotides Methods 0.000 claims description 5
- 101150115605 atm1 gene Proteins 0.000 claims description 5
- 238000001727 in vivo Methods 0.000 claims description 5
- 239000002502 liposome Substances 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000001177 retroviral effect Effects 0.000 claims description 5
- 108091061960 Naked DNA Proteins 0.000 claims description 4
- 210000005260 human cell Anatomy 0.000 claims description 4
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N DMSO Substances CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 claims description 3
- 229920002307 Dextran Polymers 0.000 claims description 3
- 208000009889 Herpes Simplex Diseases 0.000 claims description 3
- 206010046865 Vaccinia virus infection Diseases 0.000 claims description 3
- 229910000389 calcium phosphate Inorganic materials 0.000 claims description 3
- 239000001506 calcium phosphate Substances 0.000 claims description 3
- 235000011010 calcium phosphates Nutrition 0.000 claims description 3
- 125000002091 cationic group Chemical group 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000004520 electroporation Methods 0.000 claims description 3
- 239000003623 enhancer Substances 0.000 claims description 3
- 238000001638 lipofection Methods 0.000 claims description 3
- 238000001556 precipitation Methods 0.000 claims description 3
- QORWJWZARLRLPR-UHFFFAOYSA-H tricalcium bis(phosphate) Chemical compound [Ca+2].[Ca+2].[Ca+2].[O-]P([O-])([O-])=O.[O-]P([O-])([O-])=O QORWJWZARLRLPR-UHFFFAOYSA-H 0.000 claims description 3
- 208000007089 vaccinia Diseases 0.000 claims description 3
- 241000238631 Hexapoda Species 0.000 claims description 2
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 claims description 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 claims description 2
- 229910052744 lithium Inorganic materials 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims description 2
- 101000578059 Homo sapiens Non-homologous end-joining factor 1 Proteins 0.000 claims 2
- 239000002924 silencing RNA Substances 0.000 claims 2
- 238000002716 delivery method Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 30
- 238000010453 CRISPR/Cas method Methods 0.000 abstract description 9
- 108091033409 CRISPR Proteins 0.000 description 42
- 108010077850 Nuclear Localization Signals Proteins 0.000 description 42
- 108010021466 Mutant Proteins Proteins 0.000 description 33
- 102000008300 Mutant Proteins Human genes 0.000 description 33
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 31
- 108700004991 Cas12a Proteins 0.000 description 26
- 238000011144 upstream manufacturing Methods 0.000 description 23
- 102000053602 DNA Human genes 0.000 description 19
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 18
- 230000002759 chromosomal effect Effects 0.000 description 17
- 125000006850 spacer group Chemical group 0.000 description 17
- 230000000593 degrading effect Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 101000979572 Homo sapiens NLR family CARD domain-containing protein 4 Proteins 0.000 description 12
- 230000008685 targeting Effects 0.000 description 12
- 239000012636 effector Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000001965 increasing effect Effects 0.000 description 11
- 101710163270 Nuclease Proteins 0.000 description 10
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 10
- 230000001105 regulatory effect Effects 0.000 description 10
- 230000010076 replication Effects 0.000 description 10
- 108020004705 Codon Proteins 0.000 description 9
- 102000004533 Endonucleases Human genes 0.000 description 9
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 9
- DWRXFEITVBNRMK-UHFFFAOYSA-N Beta-D-1-Arabinofuranosylthymine Natural products O=C1NC(=O)C(C)=CN1C1C(O)C(O)C(CO)O1 DWRXFEITVBNRMK-UHFFFAOYSA-N 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 8
- 108090000790 Enzymes Proteins 0.000 description 8
- 101000834253 Gallus gallus Actin, cytoplasmic 1 Proteins 0.000 description 8
- 102100023435 NLR family CARD domain-containing protein 4 Human genes 0.000 description 8
- 101710127639 Non-homologous end-joining factor 1 Proteins 0.000 description 8
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 8
- IQFYYKKMVGJFEH-UHFFFAOYSA-N beta-L-thymidine Natural products O=C1NC(=O)C(C)=CN1C1OC(CO)C(O)C1 IQFYYKKMVGJFEH-UHFFFAOYSA-N 0.000 description 8
- 230000027455 binding Effects 0.000 description 8
- 229940104230 thymidine Drugs 0.000 description 8
- 210000004940 nucleus Anatomy 0.000 description 7
- 108090000765 processed proteins & peptides Proteins 0.000 description 7
- 238000013518 transcription Methods 0.000 description 7
- 230000035897 transcription Effects 0.000 description 7
- 101150046440 DCLRE1C gene Proteins 0.000 description 6
- 108020004682 Single-Stranded DNA Proteins 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 230000001939 inductive effect Effects 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 230000037361 pathway Effects 0.000 description 6
- 238000003752 polymerase chain reaction Methods 0.000 description 6
- 239000013607 AAV vector Substances 0.000 description 5
- 238000010354 CRISPR gene editing Methods 0.000 description 5
- 230000033616 DNA repair Effects 0.000 description 5
- 108010066154 Nuclear Export Signals Proteins 0.000 description 5
- 108091023040 Transcription factor Proteins 0.000 description 5
- 102000040945 Transcription factor Human genes 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000012350 deep sequencing Methods 0.000 description 5
- 108020001507 fusion proteins Proteins 0.000 description 5
- 102000037865 fusion proteins Human genes 0.000 description 5
- 238000001415 gene therapy Methods 0.000 description 5
- 239000013600 plasmid vector Substances 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 239000011780 sodium chloride Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 4
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 4
- 101100300807 Drosophila melanogaster spn-A gene Proteins 0.000 description 4
- 102100034349 Integrase Human genes 0.000 description 4
- 230000003321 amplification Effects 0.000 description 4
- 238000007385 chemical modification Methods 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 230000001976 improved effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 230000003834 intracellular effect Effects 0.000 description 4
- 238000005304 joining Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- -1 phospho Chemical class 0.000 description 4
- 102000004196 processed proteins & peptides Human genes 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000008263 repair mechanism Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 102000000872 ATM Human genes 0.000 description 3
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 3
- 230000007018 DNA scission Effects 0.000 description 3
- 241001245662 Eragrostis rigidior Species 0.000 description 3
- 241000588724 Escherichia coli Species 0.000 description 3
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 3
- 208000026350 Inborn Genetic disease Diseases 0.000 description 3
- 102000002488 Nucleoplasmin Human genes 0.000 description 3
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 description 3
- 102000008579 Transposases Human genes 0.000 description 3
- 108010020764 Transposases Proteins 0.000 description 3
- 101710124907 X-ray repair cross-complementing protein 6 Proteins 0.000 description 3
- 229960005305 adenosine Drugs 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000010367 cloning Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 3
- 208000016361 genetic disease Diseases 0.000 description 3
- 230000006801 homologous recombination Effects 0.000 description 3
- 238000002744 homologous recombination Methods 0.000 description 3
- RAXXELZNTBOGNW-UHFFFAOYSA-N imidazole Natural products C1=CNC=N1 RAXXELZNTBOGNW-UHFFFAOYSA-N 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 239000003112 inhibitor Substances 0.000 description 3
- 239000002609 medium Substances 0.000 description 3
- 108060005597 nucleoplasmin Proteins 0.000 description 3
- 239000002777 nucleoside Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000026731 phosphorylation Effects 0.000 description 3
- 238000006366 phosphorylation reaction Methods 0.000 description 3
- 229920001184 polypeptide Polymers 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 3
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 2
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 2
- IAJOBQBIJHVGMQ-UHFFFAOYSA-N 2-amino-4-[hydroxy(methyl)phosphoryl]butanoic acid Chemical compound CP(O)(=O)CCC(N)C(O)=O IAJOBQBIJHVGMQ-UHFFFAOYSA-N 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 206010061692 Benign muscle neoplasm Diseases 0.000 description 2
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 108700010070 Codon Usage Proteins 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 2
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 2
- 108050008316 DNA endonuclease RBBP8 Proteins 0.000 description 2
- 102100039524 DNA endonuclease RBBP8 Human genes 0.000 description 2
- 102100039116 DNA repair protein RAD50 Human genes 0.000 description 2
- 102100033996 Double-strand break repair protein MRE11 Human genes 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 230000010337 G2 phase Effects 0.000 description 2
- 101100264215 Gallus gallus XRCC6 gene Proteins 0.000 description 2
- 108090001102 Hammerhead ribozyme Proteins 0.000 description 2
- HTTJABKRGRZYRN-UHFFFAOYSA-N Heparin Chemical compound OC1C(NC(=O)C)C(O)OC(COS(O)(=O)=O)C1OC1C(OS(O)(=O)=O)C(O)C(OC2C(C(OS(O)(=O)=O)C(OC3C(C(O)C(O)C(O3)C(O)=O)OS(O)(=O)=O)C(CO)O2)NS(O)(=O)=O)C(C(O)=O)O1 HTTJABKRGRZYRN-UHFFFAOYSA-N 0.000 description 2
- 101000743929 Homo sapiens DNA repair protein RAD50 Proteins 0.000 description 2
- 101000591400 Homo sapiens Double-strand break repair protein MRE11 Proteins 0.000 description 2
- 101001128138 Homo sapiens NACHT, LRR and PYD domains-containing protein 2 Proteins 0.000 description 2
- 101000981336 Homo sapiens Nibrin Proteins 0.000 description 2
- XQFRJNBWHJMXHO-RRKCRQDMSA-N IDUR Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(I)=C1 XQFRJNBWHJMXHO-RRKCRQDMSA-N 0.000 description 2
- 108020004684 Internal Ribosome Entry Sites Proteins 0.000 description 2
- 101710128836 Large T antigen Proteins 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108060004795 Methyltransferase Proteins 0.000 description 2
- 241000713869 Moloney murine leukemia virus Species 0.000 description 2
- 101100078999 Mus musculus Mx1 gene Proteins 0.000 description 2
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 2
- 101710135898 Myc proto-oncogene protein Proteins 0.000 description 2
- 201000004458 Myoma Diseases 0.000 description 2
- 102100031897 NACHT, LRR and PYD domains-containing protein 2 Human genes 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 102100023712 Poly [ADP-ribose] polymerase 1 Human genes 0.000 description 2
- 102000012338 Poly(ADP-ribose) Polymerases Human genes 0.000 description 2
- 108010061844 Poly(ADP-ribose) Polymerases Proteins 0.000 description 2
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 2
- 108700005075 Regulator Genes Proteins 0.000 description 2
- 230000018199 S phase Effects 0.000 description 2
- 101710150448 Transcriptional regulator Myc Proteins 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 239000007983 Tris buffer Substances 0.000 description 2
- 230000021736 acetylation Effects 0.000 description 2
- 238000006640 acetylation reaction Methods 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 102000009899 alpha Karyopherins Human genes 0.000 description 2
- 108010077099 alpha Karyopherins Proteins 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 210000004436 artificial bacterial chromosome Anatomy 0.000 description 2
- 210000001106 artificial yeast chromosome Anatomy 0.000 description 2
- 229940098773 bovine serum albumin Drugs 0.000 description 2
- 230000022131 cell cycle Effects 0.000 description 2
- 210000003855 cell nucleus Anatomy 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000003862 glucocorticoid Substances 0.000 description 2
- 230000026030 halogenation Effects 0.000 description 2
- 238000005658 halogenation reaction Methods 0.000 description 2
- 229960002897 heparin Drugs 0.000 description 2
- 229920000669 heparin Polymers 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 108700032552 influenza virus INS1 Proteins 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000008316 intracellular mechanism Effects 0.000 description 2
- 101150085005 ku70 gene Proteins 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 210000004962 mammalian cell Anatomy 0.000 description 2
- 210000001161 mammalian embryo Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 230000025308 nuclear transport Effects 0.000 description 2
- 230000001293 nucleolytic effect Effects 0.000 description 2
- 125000003835 nucleoside group Chemical group 0.000 description 2
- 230000002028 premature Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 108020003113 steroid hormone receptors Proteins 0.000 description 2
- 102000005969 steroid hormone receptors Human genes 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical compound [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000005030 transcription termination Effects 0.000 description 2
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 2
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-SHYZEUOFSA-N 2'‐deoxycytidine Chemical compound O=C1N=C(N)C=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-SHYZEUOFSA-N 0.000 description 1
- KIAPWMKFHIKQOZ-UHFFFAOYSA-N 2-[[(4-fluorophenyl)-oxomethyl]amino]benzoic acid methyl ester Chemical compound COC(=O)C1=CC=CC=C1NC(=O)C1=CC=C(F)C=C1 KIAPWMKFHIKQOZ-UHFFFAOYSA-N 0.000 description 1
- QFVHZQCOUORWEI-UHFFFAOYSA-N 4-[(4-anilino-5-sulfonaphthalen-1-yl)diazenyl]-5-hydroxynaphthalene-2,7-disulfonic acid Chemical compound C=12C(O)=CC(S(O)(=O)=O)=CC2=CC(S(O)(=O)=O)=CC=1N=NC(C1=CC=CC(=C11)S(O)(=O)=O)=CC=C1NC1=CC=CC=C1 QFVHZQCOUORWEI-UHFFFAOYSA-N 0.000 description 1
- LJIRBXZDQGQUOO-KVTDHHQDSA-N 6-amino-3-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-1,4-dihydro-1,3,5-triazin-2-one Chemical compound C1NC(N)=NC(=O)N1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 LJIRBXZDQGQUOO-KVTDHHQDSA-N 0.000 description 1
- 101710159080 Aconitate hydratase A Proteins 0.000 description 1
- 101710159078 Aconitate hydratase B Proteins 0.000 description 1
- 108020000948 Antisense Oligonucleotides Proteins 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 108010006654 Bleomycin Proteins 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 101710172824 CRISPR-associated endonuclease Cas9 Proteins 0.000 description 1
- 101000909256 Caldicellulosiruptor bescii (strain ATCC BAA-1888 / DSM 6725 / Z-1320) DNA polymerase I Proteins 0.000 description 1
- 101710132601 Capsid protein Proteins 0.000 description 1
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 101710094648 Coat protein Proteins 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 1
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 1
- 102100036279 DNA (cytosine-5)-methyltransferase 1 Human genes 0.000 description 1
- 108010060248 DNA Ligase ATP Proteins 0.000 description 1
- 230000008265 DNA repair mechanism Effects 0.000 description 1
- 102100033072 DNA replication ATP-dependent helicase DNA2 Human genes 0.000 description 1
- 102100029764 DNA-directed DNA/RNA polymerase mu Human genes 0.000 description 1
- 108050003960 DNA-directed DNA/RNA polymerase mu Proteins 0.000 description 1
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 1
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 1
- CKTSBUTUHBMZGZ-UHFFFAOYSA-N Deoxycytidine Natural products O=C1N=C(N)C=CN1C1OC(CO)C(O)C1 CKTSBUTUHBMZGZ-UHFFFAOYSA-N 0.000 description 1
- 102100034546 E3 ubiquitin-protein ligase FANCL Human genes 0.000 description 1
- 101710091045 Envelope protein Proteins 0.000 description 1
- YQYJSBFKSSDGFO-UHFFFAOYSA-N Epihygromycin Natural products OC1C(O)C(C(=O)C)OC1OC(C(=C1)O)=CC=C1C=C(C)C(=O)NC1C(O)C(O)C2OCOC2C1O YQYJSBFKSSDGFO-UHFFFAOYSA-N 0.000 description 1
- 102100029075 Exonuclease 1 Human genes 0.000 description 1
- 108010087740 Fanconi Anemia Complementation Group A protein Proteins 0.000 description 1
- 102000009095 Fanconi Anemia Complementation Group A protein Human genes 0.000 description 1
- 108010026653 Fanconi Anemia Complementation Group D2 protein Proteins 0.000 description 1
- 102000013601 Fanconi Anemia Complementation Group D2 protein Human genes 0.000 description 1
- 108010077898 Fanconi Anemia Complementation Group E protein Proteins 0.000 description 1
- 102000010634 Fanconi Anemia Complementation Group E protein Human genes 0.000 description 1
- 108700026162 Fanconi Anemia Complementation Group L protein Proteins 0.000 description 1
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 1
- 102100034554 Fanconi anemia group I protein Human genes 0.000 description 1
- 102100034553 Fanconi anemia group J protein Human genes 0.000 description 1
- 239000005562 Glyphosate Substances 0.000 description 1
- 102100021181 Golgi phosphoprotein 3 Human genes 0.000 description 1
- 102100031880 Helicase SRCAP Human genes 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 101000931098 Homo sapiens DNA (cytosine-5)-methyltransferase 1 Proteins 0.000 description 1
- 101000927313 Homo sapiens DNA replication ATP-dependent helicase DNA2 Proteins 0.000 description 1
- 101000918264 Homo sapiens Exonuclease 1 Proteins 0.000 description 1
- 101100119754 Homo sapiens FANCL gene Proteins 0.000 description 1
- 101000848174 Homo sapiens Fanconi anemia group I protein Proteins 0.000 description 1
- 101000848171 Homo sapiens Fanconi anemia group J protein Proteins 0.000 description 1
- 101000704158 Homo sapiens Helicase SRCAP Proteins 0.000 description 1
- 101001094809 Homo sapiens Polynucleotide 5'-hydroxyl-kinase Proteins 0.000 description 1
- 101000785063 Homo sapiens Serine-protein kinase ATM Proteins 0.000 description 1
- 101000777293 Homo sapiens Serine/threonine-protein kinase Chk1 Proteins 0.000 description 1
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 1
- 101000702606 Homo sapiens Structure-specific endonuclease subunit SLX4 Proteins 0.000 description 1
- 101000830950 Homo sapiens Three prime repair exonuclease 2 Proteins 0.000 description 1
- 101000904868 Homo sapiens Transcriptional regulator ATRX Proteins 0.000 description 1
- 108010061833 Integrases Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 101150090152 Lig1 gene Proteins 0.000 description 1
- 239000006137 Luria-Bertani broth Substances 0.000 description 1
- 101710125418 Major capsid protein Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 101100155034 Mus musculus Ubap2 gene Proteins 0.000 description 1
- 101100355599 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) mus-11 gene Proteins 0.000 description 1
- 101100462611 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) prr-1 gene Proteins 0.000 description 1
- 101710141454 Nucleoprotein Proteins 0.000 description 1
- 240000007019 Oxalis corniculata Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 102100040884 Partner and localizer of BRCA2 Human genes 0.000 description 1
- 102000010292 Peptide Elongation Factor 1 Human genes 0.000 description 1
- 108010077524 Peptide Elongation Factor 1 Proteins 0.000 description 1
- 108010033276 Peptide Fragments Proteins 0.000 description 1
- 102000007079 Peptide Fragments Human genes 0.000 description 1
- RVGRUAULSDPKGF-UHFFFAOYSA-N Poloxamer Chemical compound C1CO1.CC1CO1 RVGRUAULSDPKGF-UHFFFAOYSA-N 0.000 description 1
- 108010064218 Poly (ADP-Ribose) Polymerase-1 Proteins 0.000 description 1
- 102100035460 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 1
- 101710083689 Probable capsid protein Proteins 0.000 description 1
- 102000001253 Protein Kinase Human genes 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 101710188315 Protein X Proteins 0.000 description 1
- 241000709748 Pseudomonas phage PRR1 Species 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 101000902592 Pyrococcus furiosus (strain ATCC 43587 / DSM 3638 / JCM 8422 / Vc1) DNA polymerase Proteins 0.000 description 1
- 101150006234 RAD52 gene Proteins 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 102000044126 RNA-Binding Proteins Human genes 0.000 description 1
- 101710105008 RNA-binding protein Proteins 0.000 description 1
- 108090000292 RNA-binding protein FUS Proteins 0.000 description 1
- 108010068097 Rad51 Recombinase Proteins 0.000 description 1
- 102000002490 Rad51 Recombinase Human genes 0.000 description 1
- 102000053062 Rad52 DNA Repair and Recombination Human genes 0.000 description 1
- 108700031762 Rad52 DNA Repair and Recombination Proteins 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- 102100020824 Serine-protein kinase ATM Human genes 0.000 description 1
- 102100031081 Serine/threonine-protein kinase Chk1 Human genes 0.000 description 1
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 1
- 102100031003 Structure-specific endonuclease subunit SLX4 Human genes 0.000 description 1
- 108091027544 Subgenomic mRNA Proteins 0.000 description 1
- 108010076818 TEV protease Proteins 0.000 description 1
- 102100024872 Three prime repair exonuclease 2 Human genes 0.000 description 1
- 102100023931 Transcriptional regulator ATRX Human genes 0.000 description 1
- 102000002258 X-ray Repair Cross Complementing Protein 1 Human genes 0.000 description 1
- 108010000443 X-ray Repair Cross Complementing Protein 1 Proteins 0.000 description 1
- 102100036973 X-ray repair cross-complementing protein 5 Human genes 0.000 description 1
- 101710124921 X-ray repair cross-complementing protein 5 Proteins 0.000 description 1
- LPQOADBMXVRBNX-UHFFFAOYSA-N ac1ldcw0 Chemical compound Cl.C1CN(C)CCN1C1=C(F)C=C2C(=O)C(C(O)=O)=CN3CCSC1=C32 LPQOADBMXVRBNX-UHFFFAOYSA-N 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 108091005764 adaptor proteins Proteins 0.000 description 1
- 102000035181 adaptor proteins Human genes 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 1
- 229960000723 ampicillin Drugs 0.000 description 1
- 210000004102 animal cell Anatomy 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 230000003115 biocidal effect Effects 0.000 description 1
- 229960001561 bleomycin Drugs 0.000 description 1
- OYVAGSVQBOHSSS-UAPAGMARSA-O bleomycin A2 Chemical compound N([C@H](C(=O)N[C@H](C)[C@@H](O)[C@H](C)C(=O)N[C@@H]([C@H](O)C)C(=O)NCCC=1SC=C(N=1)C=1SC=C(N=1)C(=O)NCCC[S+](C)C)[C@@H](O[C@H]1[C@H]([C@@H](O)[C@H](O)[C@H](CO)O1)O[C@@H]1[C@H]([C@@H](OC(N)=O)[C@H](O)[C@@H](CO)O1)O)C=1N=CNC=1)C(=O)C1=NC([C@H](CC(N)=O)NC[C@H](N)C(N)=O)=NC(N)=C1C OYVAGSVQBOHSSS-UAPAGMARSA-O 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007248 cellular mechanism Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 229960005091 chloramphenicol Drugs 0.000 description 1
- WIIZWVCIJKGZOK-RKDXNWHRSA-N chloramphenicol Chemical compound ClC(Cl)C(=O)N[C@H](CO)[C@H](O)C1=CC=C([N+]([O-])=O)C=C1 WIIZWVCIJKGZOK-RKDXNWHRSA-N 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 230000009918 complex formation Effects 0.000 description 1
- 210000004748 cultured cell Anatomy 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- GDPJWJXLKPPEKK-SJAYXVESSA-N dT4 Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)CO)[C@@H](O)C1 GDPJWJXLKPPEKK-SJAYXVESSA-N 0.000 description 1
- SPTYHKZRPFATHJ-HYZXJONISA-N dT6 Chemical group O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)COP(O)(=O)O[C@@H]2[C@H](O[C@H](C2)N2C(NC(=O)C(C)=C2)=O)CO)[C@@H](O)C1 SPTYHKZRPFATHJ-HYZXJONISA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000012361 double-strand break repair Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- IAJOBQBIJHVGMQ-BYPYZUCNSA-N glufosinate-P Chemical compound CP(O)(=O)CC[C@H](N)C(O)=O IAJOBQBIJHVGMQ-BYPYZUCNSA-N 0.000 description 1
- XDDAORKBJWWYJS-UHFFFAOYSA-N glyphosate Chemical compound OC(=O)CNCP(O)(O)=O XDDAORKBJWWYJS-UHFFFAOYSA-N 0.000 description 1
- 229940097068 glyphosate Drugs 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 230000002363 herbicidal effect Effects 0.000 description 1
- 239000004009 herbicide Substances 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000005984 hydrogenation reaction Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 229930027917 kanamycin Natural products 0.000 description 1
- 229960000318 kanamycin Drugs 0.000 description 1
- SBUJHOSQTJFQJX-NOAMYHISSA-N kanamycin Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N SBUJHOSQTJFQJX-NOAMYHISSA-N 0.000 description 1
- 229930182823 kanamycin A Natural products 0.000 description 1
- XIXADJRWDQXREU-UHFFFAOYSA-M lithium acetate Chemical compound [Li+].CC([O-])=O XIXADJRWDQXREU-UHFFFAOYSA-M 0.000 description 1
- 239000012139 lysis buffer Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 125000001360 methionine group Chemical group N[C@@H](CCSC)C(=O)* 0.000 description 1
- 108091005601 modified peptides Chemical group 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000007908 nanoemulsion Substances 0.000 description 1
- 230000006911 nucleation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 150000003833 nucleoside derivatives Chemical class 0.000 description 1
- 230000030648 nucleus localization Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 238000010647 peptide synthesis reaction Methods 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 229960000502 poloxamer Drugs 0.000 description 1
- 229920001983 poloxamer Polymers 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004952 protein activity Effects 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 239000002342 ribonucleoside Substances 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 238000002415 sodium dodecyl sulfate polyacrylamide gel electrophoresis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 230000010741 sumoylation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010798 ubiquitination Methods 0.000 description 1
- 241001515965 unidentified phage Species 0.000 description 1
- 230000009107 upstream regulation Effects 0.000 description 1
- 239000003981 vehicle Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2750/00—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
- C12N2750/00011—Details
- C12N2750/14011—Parvoviridae
- C12N2750/14111—Dependovirus, e.g. adenoassociated viruses
- C12N2750/14141—Use of virus, viral particle or viral elements as a vector
- C12N2750/14143—Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Plant Pathology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Medicinal Chemistry (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
본 발명은 초소형 핵산 편집 단백질 및 엔지니어링된 가이드 RNA를 포함하는 신규한 표적 핵산의 편집 시스템 및 이의 표적 유전자에서의 상동지정복구(HDR) 용도 등에 관한 것으로, 일 구현예에 따른 표적 핵산 편집 시스템을 이용한 상동지정복구에 의하면, 표적 핵산의 뒤쪽(바깥쪽)을 절단하는 경향성을 가져 다른 CRISPR/Cas 시스템에 비해 HDR 효율이 높을 뿐 아니라, 아데노-연관 바이러스(AAV)와 같이 패키징 사이즈가 매우 제한적인 경우에도 하나의 벡터에 공여자 핵산을 포함한 유전자 편집 시스템을 패키징할 수 있고, 비상동말단연결(NHEJ) 과정을 억제하는 shRNA를 추가하여 HDR 효율을 극대화할 수 있는 효과가 있다.
Description
본 발명은 상동지정복구에 의한 유전자 편집 효율이 개선된 새로운 초소형의 CRISPR/Cas12f 핵산 편집 시스템에 관한 것이다.
DNA의 이중가닥 절단은 비상동말단연결(non-homologous end joining, NHEJ) 또는 상동지정복구(homology-directed repair, HDR)이라는 DNA 복구 기작을 통해 복구될 수 있다. 비상동말단연결(NHEJ)에 의한 복구 과정에서는, DNA 절단 위치 사이에 무작위적 염기의 삽입(insertion) 또는 결실(deletion)이 일어나고(insertion and deletion, indel), 그 결과 DNA 이중가닥 절단이 일어난 유전자에 틀이동 변이(frameshift mutation) 또는 조기 종결 변이(premature mutation)가 발생하여 해당 유전자가 제거(knock-out)된다. 반면, 상동지정복구(HDR)은 절단된 DNA를 복구하기 위하여 공여 DNA(donor DNA, homologous template)를 필요로 하고, 이 공여 DNA의 서열을 주형으로 하는 새로운 서열이 DNA 절단 위치에 도입될 수 있다. 이를 통해 상동지정복구(HDR)은 정교한 유전자 편집에 활용될 수 있다.
현재 CRISPR/Cas 시스템으로 대표되는 유전자 편집 기술은 암, 유전 질환, 감염 질환 등에 대한 유전자 치료 개발을 위한 핵심 기술로서 유전자 편집의 효율성, 안전성, 전달성 등의 측면에서 다양한 기술개발이 이루어지고 있다.
유전자 편집 기술은 (DNA 이중가닥 절단 및 Indel을 통해) 질환의 원인이 되는 병원성 유전자를 결실시킬 수 있기 때문에 많은 암, 유전 질환, 감염 질환 등 다양한 질병에 대한 유전자 치료제로서 가능성을 가진다. 그런데, 치료를 위한 목적 유전자를 도입할 수 있는 상동지정복구(HDR)를 가능하게 하거나 이의 효율을 개선할 수 있는 유전자 편집 기술은 보다 확장된 유용성을 가질 수 있다.
또한, 유전자 치료를 위해서는 유전자 편집 시스템을 전신의 세포에 효율적으로 전달하는 것이 무엇보다도 중요하며 이를 위해 효율적인 매개체가 필요하다. 아데노 연관 바이러스(adeno-associated virus, AAV)는 그 안전성, 지속성 및 대량 생산과의 호환성으로 인해 유전자 치료제로서 FDA 승인을 받은 매개체이므로(비특허문헌 1), 하나의 AAV 벡터에 구성요소를 모두 포함할 수 있는 유전자 가위 시스템은 유전 질환 치료에 중요한 도구로써 이용될 것으로 인정받고 있다(비특허문헌 2). 그러나 AAV의 패키징 용량(packaging capacity) 한계로 인하여 이를 통해 전달할 수 있는 유전자의 크기는 4.7kb 미만으로 제한적이다. 이는 AAV 벡터를 세포 내 전달 매개체로 하여 유전자 치료에 사용하고자 할 때, 기존에 제작된 대부분의 유전자 가위(CRISPR/Cas) 시스템이 일반적으로 약 4.7kb 정도의 크기를 초과하기 때문에 임상 적용에 제약이 있음을 암시하는 것이다(비특허문헌 3). 이와 같은 이유로 분자량이 Cas9 보다는 작은 SaCas9(비특허문헌 4), CjCas9 (비특허문헌 5) 등이 AAV를 매개체로 하여 세포 내로 전달될 수 있는 유전자 편집 도구로서 연구되고 있다.
이와 같이, 분자량은 충분히 작지만 세포 내에서 높은 표적 효율 및 편집 활성을 가지는 새로운 시스템이 필요하다. 또한 지금까지의 유전자 편집 기술은 HDR 효율이 낮기 때문에 이를 획기적으로 향상시켜 정밀한 유전자 교정을 가능하게 하는 유전자 편집 도구가 필요한 실정이다.
Wang, Dan et al. "Adeno-associated virus vector as a platform for gene therapy delivery." Nature reviews. Drug discovery vol. 18,5 (2019): 358-378.
Yu, Wenhan, and Zhijian Wu. "Use of AAV Vectors for CRISPR-Mediated In Vivo Genome Editing in the Retina." Methods in molecular biology (Clifton, N.J.) vol. 1950 (2019): 123-139.
Wu, Zhijian et al. "Effect of genome size on AAV vector packaging." Molecular therapy : the journal of the American Society of Gene Therapy vol. 18,1 (2010): 80-6.
Ran, F Ann et al. "In vivo genome editing using Staphylococcus aureus Cas9." Nature vol. 520,7546 (2015): 186-91.
Kim, Eunji et al. "In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni." Nature communications vol. 8 14500. 21 Feb. 2017.
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 개선된 상동지정복구(HDR) 효율을 나타내고/나타내거나 AAV 벡터를 비롯한 다양한 벡터 시스템에 수용가능한 초소형의 구조물로 구현될 수 있는 유전자 편집 기술을 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않는다. 본 발명의 목적은 이하의 설명으로 보다 분명해질 것이며, 청구범위에 기재된 수단 및 그 조합으로 실현될 것이다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및 공여자 핵산 분자 또는 상기 공여자 핵산 분자를 암호화하는 핵산을 포함하는, 표적 핵산의 편집 시스템 또는 표적 핵산의 유전자 편집 조성물이 제공된다.
일 구현예에서, 상기 시스템은 표적 핵산에 이중가닥 절단(double-strand breaks)을 일으키는 것일 수 있다.
다른 구현예에서, 상기 시스템은 표적 핵산 또는 그 인접 부위에서 공여자 핵산 분자를 주형으로 하여 이중가닥 절단의 상동지정복구(homology-directed repair) 과정에 의해 목적 서열이 도입되는 것일 수 있다.
또 다른 구현예에서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제; 및 상기 가이드 RNA를 리보뉴클레오단백질(ribonucleoprotein, RNP) 형태로 포함하는 것일 수 있다.
또 다른 구현예에서, 상기 시스템 또는 조성물은 비상동말단연결(non-homologous end joining, NHEJ)에 관여하는 유전자의 발현 또는 그 발현물의 활성을 억제하는 분자를 더 포함할 수 있다.
본 발명의 다른 태양에 따르면, Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물; 표적 핵산에 상보적으로 결합하는 가이드 서열을 포함하는 엔지니어링된 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및 공여자 핵산 분자를 포함하는 제3 핵산 구조물을 포함하는 벡터 시스템이 제공된다.
일 구현예에서, 상기 벡터 시스템에 포함하는 핵산 구조물은 동일하거나 상이한 벡터에 위치하는 것일 수 있다.
다른 구현예에서, 상기 벡터 시스템은 비상동성말단(Non-homologous end joining DNA repair pathway; NHEJ)에 관여하는 유전자의 발현을 억제하는 분자를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 하나 이상의 핵산 구조물을 추가로 포함할 수 있다.
또 다른 구현예에서, 상기 벡터 시스템은 벡터 내의 각 구성요소가 하나의 벡터에 포함되는 것일 수 있다.
또 다른 구현예에서, 상기 벡터는 프로모터 또는 인핸서를 더 포함할 수 있다.
또 다른 구현예에서, 상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터일 수 있다.
또 다른 구현예에서, 상기 벡터는 레트로바이러스 벡터(retroviral(retrovirus) vector), 렌티바이러스 벡터(lentiviral(lentivirus) vector), 아데노바이러스 벡터(adenoviral(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated viral(adeno-associated virus; AAV) vector), 백시니아바이러스 벡터(vaccinia viral(vaccinia virus) vector), 폭스바이러스 벡터(poxviral(poxvirus) vector), 단순포진 바이러스 벡터(herpes simplex viral(herpes simplex virus) vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터일 수 있다.
또 다른 구현예에서, 상기 벡터는 아데노-연관 바이러스 벡터이고, 상기 아데노-연관 바이러스 벡터는 상기 벡터 내의 구성요소 모두를 하나의 벡터에 포함할 수 있는 특징을 가질 수 있다.
또 다른 구현예에서, 상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 PCR 앰플리콘(amplicon)으로 이루어진 군에서 선택된 하나 이상의 비-바이러스 벡터일 수 있다.
또 다른 구현예에서, 상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 또 다른 태양에 따르면, 상기 벡터 시스템에 의해 제조된 바이러스 또는 바이러스 입자 및 상기 바이러스 또는 바이러스 입자를 포함하는 조성물이 제공된다.
일 구현예에서, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택되는 것일 수 있다.
본 발명의 또 다른 태양에 따르면, 상기 시스템 또는 조성물 또는 벡터 시스템을 세포와 접촉시키거나 세포 내에서 발현시키는 단계; 및 표적 핵산 또는 그 인접 부위에서 공여자 핵산 분자를 주형으로 하여 이중가닥 절단의 복구 과정에 의해 목적 서열이 도입되는 단계를 포함하는 세포 내 이중가닥 핵산 상의 표적 부위로 목적 서열을 도입하는 방법이 제공된다.
일 구현예에서, 상기 이중가닥 절단의 복구 과정은 상동지정복구 기작에 의하는 것일 수 있다.
다른 구현예에서, 상기 세포는 표적 핵산 또는 표적 유전자가 존재하는 원핵 세포 또는 진핵 세포일 수 있다.
또 다른 구현예에서, 상기 진핵 세포는 효모(yeast), 곤충 세포, 식물 세포, 비인간-동물 세포 또는 인간 세포일 수 있다.
또 다른 구현예에서, 상기 접촉 또는 발현은 생체 내 또는 생체 외에서 일어날 수 있다.
또 다른 구현예에서, 상기 벡터 시스템은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택된 패키징 바이러스에 도입되어 패키징 바이러스에 의해 생성된 바이러스 형태로 원핵 세포 또는 진핵 세포 내로 전달되는 것일 수 있다.
또 다른 구현예에서, 상기 벡터 시스템은 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 일시적인 세포 압축 또는 스퀴징 방법, 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙타민(lipofection), PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염 또는 나노파티클-매개 핵산 전달에 의해 원핵 세포 또는 진핵 세포 내로 전달될 수 있다.
또 다른 구현예에서, 상기 벡터 시스템은 하나 이상의 지질 나노입자(lipid nanoparticles, LNP)를 통해 원핵 세포 또는 진핵 세포 내로 직접 전달될 수 있다.
이하, 상기 본 발명의 복수 양태에 따른 각각의 시스템, 조성물, 벡터 시스템 및 방법에서 공통으로 적용되는 구현예를 기술한다.
일 구현예에서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
다른 구현예에서, 상기 TnpB 단백질은 서열번호 202 내지 서열번호 293으로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 (ⅰ) 서열번호 5의 아미노산 서열; (ⅱ) 서열번호 1의 아미노산 서열; (ⅲ) 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열; 또는 (ⅳ) 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열 중 하나의 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 추가된 1개 내지 600개의 아미노산은 서열번호 294 또는 서열번호 295의 아미노산 서열일 수 있다.
또 다른 구현예에서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 가질 수 있다.
또 다른 구현예에서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1의 아미노산 서열과 70% 이상의 서열 동일성을 가질 수 있다.
또 다른 구현예에서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 5의 아미노산 서열과 70% 이상의 서열 동일성을 가질 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 야생형 Cas12f1 가이드 RNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 가이드 RNA와 50% 이상의 서열 동일성을 가질 수 있다.
또 다른 구현예에서, 상기 야생형 Cas12f1 가이드 RNA는 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는 tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)를 포함하고, 상기 엔지니어링된 가이드 RNA는 다음 (a) 내지 (d)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다: (a) 하나 이상의 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가.
또 다른 구현예에서, 상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열로 이루어진 crRNA를 포함할 수 있다.
또 다른 구현예에서, 상기 야생형 Cas12f1 가이드 RNA는 5'-말단부터 순차적으로 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 tracrRNA 및 crRNA를 포함하고, 상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환, 또는 상기 둘 모두의 변형을 포함할 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실로 이루어진 군에서 선택된 하나 이상의 변형을 포함할 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (b1) tracrRNA-crRNA 상보성 영역의 일부의 결실을 포함할 수 있다. 구체적으로, 상기 상보성 영역의 일부는 1개 내지 54개의 뉴클레오티드일 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (b2) tracrRNA-crRNA 상보성 영역의 전부의 결실을 포함할 수 있다. 구체적으로, 상기 상보성 영역의 전부는 55개의 뉴클레오티드일 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함할 수 있다. 구체적으로, 상기 스템 영역의 일부 또는 전부는 1개 내지 20개의 뉴클레오티드일 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (a2) 제2 스템 영역의 일부 또는 전부의 결실을 포함할 수 있다. 구체적으로, 상기 스템 영역의 일부 또는 전부는 1 내지 27개의 뉴클레오티드일 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가; 또는 상기 둘 모두의 변형을 포함할 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 가질 수 있다. 여기서 서열 동일성은 Xa, Xb1, Xb2, Xc1 및 Xc2 중 하나 이상을 포함하거나 포함하지 않은 서열을 기준으로 할 수 있다. 서열 동일성 산출에 Xg 및 (UmV)nUo는 제외될 수 있다.
상기 식 (I)에서, Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고, Xg는 10 내지 30개의 폴리뉴클레오티드로 이루어진 가이드 서열로서 표적 서열과 혼성화하거나 표적 서열에 상보적인 서열이고, Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고, (UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
또 다른 구현예에서, 상기 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 Xb2은 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 어느 하나의 핵산 서열일 수 있다.
또 다른 구현예에서, 상기 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함할 수 있다.
또 다른 구현예에서, 상기 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열이 5'-NGNNN-3'로 치환되고, 상기 N은 각각 독립적으로 A, C, G 또는 U일 수 있다.
또 다른 구현예에서, 상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 어느 하나의 핵산 서열일 수 있다.
또 다른 구현예에서, 상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함할 수 있다.
또 다른 구현예에서, 상기 (UmV)nUo는 (i) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ii) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수일 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함할 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 엔지니어링된 crRNA를 포함할 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA일 수 있다.
또 다른 구현예에서, 상기 엔지니어링된 싱글 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 것일 수 있다.
또 다른 구현예에서, 상기 공여자 핵산 분자는 상동지정복구에서 주형으로 사용되는 서열로서 1 bp 내지 20 kb의 길이를 갖는 것일 수 있다.
또 다른 구현예에서, 상기 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군으로부터 선택된 어느 하나 이상일 수 있으나, 이에 제한되지 않는다.
또 다른 구현예에서, 상기 비상동말단연결에 관여하는 유전자의 발현을 억제하는 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드일 수 있으나, 이에 제한되지 않는다.
본 발명은 Cas12f1, 기존에 엔도뉴클레아제(endonuclease)로서 알려진 바 없는 새로운 TnpB 또는 이의 변이체 단백질 기반의 엔도뉴클레아제 및 엔도뉴클레아제와 함께 사용되어 우수한 상동지정복구 효율을 나타내는 엔지니어링된 가이드(engineered guide) RNA를 포함하는 표적 핵산 편집 시스템을 제공한다. 본 발명의 표적 핵산 편집 시스템에 포함되는 Cas12f1, TnpB 또는 이의 변이체 단백질은 표적 핵산의 뒤쪽(바깥쪽)을 절단하는 경향성이 있어 다른 CRISPR/Cas 시스템에 비해 상동지정복구 효율이 매우 높다. 뿐만 아니라, 본 발명의 표적 핵산 편집 시스템은 초소형 엔도뉴클레아제 및 길이는 더 짧으면서도 우수한 편집 효율을 나타내는 엔지니어링된 가이드 RNA를 이용하므로, AAV와 같이 패키징 사이즈가 매우 제한적인 전달 매개체를 사용하는 경우에도 하나의 벡터에 공여자 핵산을 포함하여 상동지정복구를 위해 필요한 다양한 도구들을 탑재할 수 있으므로 상동지정복구를 포함한 다양한 형태의 유전자 편집을 위한 시스템을 구성할 수 있는 장점을 가진다. 특히, 비상동말단연결(NHEJ) 과정을 억제하는 분자, 예를 들어 shRNA를 추가할 수 있어 상동지정복구의 효율을 극대화할 수 있는 효과가 있다.
도 1은 일 실시예에 따른 표적 핵산 편집 시스템(TaRGET 시스템)의 엔지니어링된 가이드 RNA에서 각각의 변형부위를 도시한다(MS, modification site).
도 2는 Cas9, Cas12a 및 TnpB(TaRGET)의 상동지정복구 효율을 비교하기 위한 공여자 핵산의 구조를 도시한다.
도 3은 Cas9, Cas12a 및 TaRGET(Cas12f 및 TnpB)의 상동지정복구 효율을 비교한 결과를 도시한 그래프이다.
도 4는 공여자 핵산의 길이에 따른 표적 핵산 편집 시스템의 상동지정복구 효율을 도시한 그래프이다.
도 5는 상동지정복구를 위한 구성물을 HEK293T 세포에 주입한 후 Cas9 시스템과 표적 핵산 편집 시스템(TaRGET 시스템)의 비상동말단연결에 대한 상동지정복구 비율을 시간 경과에 따라 측정한 결과를 도시한 그래프이다.
도 6은 표적 유전자 NLRC4, FUS 및 LOC105370393에 대해 Cas9, Cas12a 및 TaRGET(Cas12f 및 TnpB)의 상동지정복구 및 비상동말단연결의 비율을 도시한 그래프이다.
도 7은 비상동말단연결 과정 또는 상동지정복구 과정에 관여하는 다양한 유전자의 발현을 억제하였을 때 표적 핵산 편집 시스템(TaRGET 시스템)의 상동지정복구 효율의 변화를 도시한 그래프이다.
도 8은 DCLRE1C 유전자가 넉아웃된 HEK293T 세포와 야생형 HEK293T 세포에서 표적 핵산 편집 시스템(TaRGET 시스템)에 의한 비상동말단연결 및 상동지정복구 효율을 도시한 그래프이다.
도 9는 DCLRE1C 유전자가 넉아웃된 HEK293T 세포와 야생형 HEK293T 세포에서 각각 Cas9, Cas12a 및 표적 핵산 편집 시스템(TaRGET 시스템)의 비상동말단연결에 대한 상동지정복구 비율을 도시한 그래프이다.
도 10a 및 도 10b는 일 실시예에 따라 AAV에 패키징될 수 있는 4.7 kb 크기 내로 제작된 상동지정복구를 위한 구성물의 각 구성요소를 달리 하여 상동지정복구 효율을 비교한 결과를 도시한다: 도 10a는 프로모터의 종류, 공여자 핵산의 길이 및 shDCLRE1C의 유무에 따라 각기 다르게 제작된 4종의 벡터를 도시한다; 도 10b는 4종 벡터의 상동지정복구 효율을 표적 유전자 NLRC4, FUS 및 LOC105370393에 대해 조사한 결과를 도시한 그래프이다.
도 2는 Cas9, Cas12a 및 TnpB(TaRGET)의 상동지정복구 효율을 비교하기 위한 공여자 핵산의 구조를 도시한다.
도 3은 Cas9, Cas12a 및 TaRGET(Cas12f 및 TnpB)의 상동지정복구 효율을 비교한 결과를 도시한 그래프이다.
도 4는 공여자 핵산의 길이에 따른 표적 핵산 편집 시스템의 상동지정복구 효율을 도시한 그래프이다.
도 5는 상동지정복구를 위한 구성물을 HEK293T 세포에 주입한 후 Cas9 시스템과 표적 핵산 편집 시스템(TaRGET 시스템)의 비상동말단연결에 대한 상동지정복구 비율을 시간 경과에 따라 측정한 결과를 도시한 그래프이다.
도 6은 표적 유전자 NLRC4, FUS 및 LOC105370393에 대해 Cas9, Cas12a 및 TaRGET(Cas12f 및 TnpB)의 상동지정복구 및 비상동말단연결의 비율을 도시한 그래프이다.
도 7은 비상동말단연결 과정 또는 상동지정복구 과정에 관여하는 다양한 유전자의 발현을 억제하였을 때 표적 핵산 편집 시스템(TaRGET 시스템)의 상동지정복구 효율의 변화를 도시한 그래프이다.
도 8은 DCLRE1C 유전자가 넉아웃된 HEK293T 세포와 야생형 HEK293T 세포에서 표적 핵산 편집 시스템(TaRGET 시스템)에 의한 비상동말단연결 및 상동지정복구 효율을 도시한 그래프이다.
도 9는 DCLRE1C 유전자가 넉아웃된 HEK293T 세포와 야생형 HEK293T 세포에서 각각 Cas9, Cas12a 및 표적 핵산 편집 시스템(TaRGET 시스템)의 비상동말단연결에 대한 상동지정복구 비율을 도시한 그래프이다.
도 10a 및 도 10b는 일 실시예에 따라 AAV에 패키징될 수 있는 4.7 kb 크기 내로 제작된 상동지정복구를 위한 구성물의 각 구성요소를 달리 하여 상동지정복구 효율을 비교한 결과를 도시한다: 도 10a는 프로모터의 종류, 공여자 핵산의 길이 및 shDCLRE1C의 유무에 따라 각기 다르게 제작된 4종의 벡터를 도시한다; 도 10b는 4종 벡터의 상동지정복구 효율을 표적 유전자 NLRC4, FUS 및 LOC105370393에 대해 조사한 결과를 도시한 그래프이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 구현예에 관하여 특정 도면을 참조하여 기술될 것이지만, 본 발명은 이에 한정되지 않고, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 발명의 다양한 구현예/실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 기술적 사상과 범위를 벗어나지 않으면서 일 구현예/실시예에서 다른 구현예/실시예로 변경되거나 구현예/실시예들이 조합되어 구현될 수 있다. 본 명세서에 사용된 기술 및 학술 용어들은, 달리 정의되지 않는 한, 본 발명이 속하는 분야에서 일반적으로 사용되는 것과 같은 의미를 갖는다. 본 명세서를 해석할 목적으로 하기 정의들이 적용될 것이고, 단수로 사용된 용어는 적절한 경우에는 복수형을 포함할 것이며 그 반대도 마찬가지이다.
I. 정의
본 명세서에서 사용된 용어 "표적 핵산(의) 편집 시스템", "유전자 편집 시스템", "유전자 복구 시스템" 또는 "상동지정복구 시스템"은 핵산 편집 단백질 또는 엔도뉴클레아제(endonuclease) 등의 핵산 분해효소, 상기 핵산 분해효소에 대응하는 핵산 표적화 분자 및 유전자 복구 기작에서 주형으로 사용되는 공여자 핵산이 포함된 시스템을 의미하는 것으로서, 표적 핵산 또는 표적 유전자에 결합 또는 상호작용하여 표적 핵산 또는 표적 유전자의 표적 부위를 절단, 편집, 수선 및/또는 복구할 수 있는 시스템을 의미한다. 여기서 핵산 표적화 분자는 엔지니어링된 가이드 RNA(gRNA)로 대표될 수 있으나 이에 제한되는 것은 아니다. 한편, 표적 핵산 편집 시스템은 표적 핵산 편집이 가능한 모든 형태로 존재할 수 있으며, 예를 들어, 핵산 분해효소와 핵산 표적화 분자를 포함하는 복합체 및 공여자 핵산을 포함하는 조성물 형태일 수 있으며, 상기 복합체와 상기 공여자 핵산을 각각 별개의 조성물에 포함된 키트 형태일 수 있으며, 핵산 분해효소를 암호화하는 핵산, 핵산 표적화 분자를 암호화하는 핵산 표적화 분자, 및 공여자 핵산을 암호화하는 핵산 표적화 분자를 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템 또는 조성물일 수 있다.
용어 "초소형 유전자 편집 시스템(Hypercompact TaRGET system)"은 초소형 CRISPR/Cas 단백질 또는 소형 엔도뉴클레아제 등(tiny endonuclease)(예컨대, Cas12f1, TnpB 또는 이들의 변이체)의 핵산 분해효소 및 상기 핵산 분해효소에 대응하는 핵산 표적화 분자가 포함된 유전자 편집 시스템으로서, 기존의 유전자 편집 시스템과 차별되는 용어로 사용된다. 여기서 핵산 표적화 분자는 엔지니어링된 가이드 RNA(gRNA)로 대표될 수 있으나, 이에 제한되지는 않는다. 상기 시스템은 표적 핵산 또는 표적 유전자에 결합하여 표적 핵산 또는 유전자의 표적 부위를 절단, 편집, 수선 및/또는 복구할 수 있는 임의의 형태의 유전자 편집 시스템일 수 있다. 용어 "엔도뉴클레아제"는 "핵산 편집 단백질", "유전자 편집 단백질", "상동지정복구용 단백질" 또는 "핵산 분해 단백질"과 상호 교환적으로 사용될 수 있으며, 이들 엔도뉴클레아제 또는 단백질로 지칭되는 분자는 표적화하는 핵산인 DNA 또는 RNA, 또는 표적 유전자 내에 존재하는 프로토스페이서 인접 모티프(protospacer adjacent motif, PAM)를 인식한 후, 표적 핵산 서열의 내부 또는 외부 염기서열(sequence)에서 DNA 이중가닥 절단(double-strand breaks, DSBs)이 일어나게 할 수 있는 (엔도)뉴클레아제((endo)nuclease)를 의미한다. 또한, 상기 엔도뉴클레아제, 핵산 편집 단백질 등은 핵산 편집 시스템 또는 상동지정복구를 위한 핵산 구조물(construct)을 구성하는 효과기(effector) 단백질로도 지칭한다. 여기서 효과기(effector) 단백질은 가이드 RNA(gRNA) 또는 엔지니어링된 gRNA에 결합할 수 있는 핵산 분해 단백질이나, 표적 핵산 또는 표적 유전자에 결합할 수 있는 펩티드 단편일 수 있다.
용어 "가이드 RNA(gRNA)"는 엔도뉴클레아제, 유전자 편집 단백질 또는 핵산 분해 단백질 등으로 지칭되는 분자와 복합체를 형성할 수 있고, 표적 핵산 서열과 상호작용(예컨대, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있으며, 표적 핵산 서열에 대한 복합체의 서열-특이적 결합(sequence-specific binding)을 야기하기에 충분한 정도로 표적 핵산 서열과 상보성을 갖는 가이드(guide) 서열을 포함하는 RNA를 의미한다. 본 명세서에서 가이드 RNA 또는 가이드 분자는 상호 교환적으로 사용될 수 있다.
용어 "tracrRNA(trans-activating crRNA)" 및 "crRNA(CRISPR RNA)"는 유전자 편집 기술 분야에서 통상의 기술자가 인식할 수 있는 의미를 모두 포함한다. 이는 자연계에서 발견되는 듀얼 가이드 RNA(dual guide RNA)의 각 분자를 지칭하는 용어로 사용될 수 있고, 상기 tracrRNA 및 crRNA를 링커로 연결한 싱글 가이드 RNA(single guide RNA, sgRNA)의 각 해당 부분을 지칭하는데도 사용될 수 있다. 달리 서술하지 않는 한, tracrRNA 및 crRNA라고만 기재하는 경우 표적 핵산의 편집 시스템(또는 유전자 편집 시스템, 상동지정복구용 시스템 등)에서 가이드 RNA를 구성하는 tracrRNA 및 crRNA를 의미한다.
용어 "스캐폴드(Scaffold) 영역"은 가이드 RNA(gRNA) 중 엔도뉴클레아제, 상동지정복구용 단백질, 유전자 편집 단백질 또는 핵산 분해 단백질 등으로 지칭되는 분자와 상호작용할 수 있는 부분을 통틀어 지칭하며, 자연계에서 발견되는 가이드 RNA의 부분 중 스페이서(spacer)를 제외한 나머지 부분을 지칭하는데 사용될 수 있다.
용어 "가이드 서열(guide sequence)", "스페이서(space)" 또는 "스페이서 서열(spacer sequence)"은 상호 교환적으로 사용될 수 있으며, CRISPR/Cas 시스템에서 표적 서열 부분과 상호작용(예를 들어, 혼성화, 상보적 결합 또는 수소 결합 등)할 수 있는 폴리뉴클레오티드를 의미한다. 예컨대, 가이드 서열 또는 스페이서 서열은 표적 핵산 편집 시스템에서 가이드 RNA를 구성하는 crRNA의 3'-말단부 또는 3'-말단 부근에 직접 또는 링커 등을 통해 간접적으로 연결된 10개 내지 50개의 연속된 뉴클레오티드를 지칭한다.
용어 "엔지니어링된(engineered)"는 "비-자연 발생적(non-naturally occurring)", "인공적(artificial)" 또는 "조작된(modified)"과 상호 교환적으로 사용될 수 있으며, 자연에서 발견되는 그대의 형태, 상태 등이 아님을 의미한다. 본 용어가 가이드 RNA, 가이드 폴리뉴클레오티드 또는 핵산 분자를 지시하는 경우, 가이드 RNA, 가이드 폴리뉴클레오티드 또는 핵산 분자는 자연에서 발견되거나 자연 발생적인 적어도 하나의 성분을 실질적으로 함유하지 않거나, 또는 자연에서 발견되지 않거나 비-자연 발생적인 적어도 하나의 성분을 실질적으로 함유함을 의미한다. 예를 들어, "엔지니어링된 가이드 RNA(engineered guide RNA)"는 자연계에 존재하는 가이드 RNA(gRNA)의 구성(예를 들어, 서열)에 인위적인 변형이 가해진 gRNA를 의미하며, 본 명세서 내에서 "augmented RNA"로 지칭될 수 있다.
용어 "야생형"은 당업자에 의해 이해되는 해당 분야의 용어이며, 그것이 돌연변이체 또는 변이체 형태로부터 구별되는 정도로 천연에서 발생하는 것과 같은 전형적인 형태의 유기체, 균주, 유전자 또는 특징을 의미한다. 용어 "변이체"는 천연에서 발생하는 것에서 벗어난 패턴을 갖는 특성의 표현을 의미하는 것으로 이해해야 한다. 예컨대, Cas12f1, TnpB 또는 이의 변이체 단백질이라고 기재할 때, 상기 변이체 단백질은 (야생형) Cas12f1의 변이체 또는 (야생형) TnpB의 변이체를 의미할 수 있다.
용어 "공여(자) 핵산(donor nucleic acid) 분자"는 "공여(자) DNA(donor DNA)", "공여자 폴리뉴클레오티드", "공여자 올리고뉴클레오티드" 및 "공여자 주형"과 상호 교환적으로 사용될 수 있으며, 핵산 서열의 적어도 일부가 선택된 표적 핵산 또는 표적 유전자의 표적 부위 내로 통합되는 것이 의도된 서열을 제공하는 핵산 또는 폴리뉴클레오티드를 의미한다. 전형적으로, 공여자 핵산은 단일가닥 폴리뉴클레오티드 또는 이중가닥 폴리뉴클레오티드이다. 예를 들어, 본 발명의 표적 핵산 편집 시스템은 공여자 핵산을 포함하여 게놈 DNA 내의 DNA 표적 서열을 변형 및/또는 복구시킬 수 있으며, 여기서 게놈 DNA는 DNA 표적 서열에서 공여자 핵산의 적어도 일부를 포함하도록 변형 및/또는 복구된다.
용어 "표적 핵산(Target nucleic acid)" 또는 "표적 유전자(Target gene)"는 표적 핵산 편집 시스템(예를 들면, 상동지정복구용 시스템 또는 TaRGET 시스템)에 의한 유전자의 절단, 편집, 수선 및/또는 복구의 대상 또는 표적화 대상이 되는 유전자 또는 핵산을 의미한다. 표적 핵산 또는 표적 유전자는 혼용될 수 있으며, 서로 동일한 대상을 지칭할 수 있다. 상기 표적 유전자는 달리 기재되지 않은 한, 대상 세포가 가진 고유한 유전자 또는 핵산 혹은 외부 유래의 유전자 또는 핵산, 또는 인위적으로 합성된 핵산 또는 유전자일 수 있고, 단일가닥 DNA, 이중가닥 DNA 및/또는 RNA 모두를 의미할 수 있다. 상기 표적 유전자 또는 표적 핵산은 본 발명에 따른 시스템에 의한 유전자 절단, 편집, 수선 등의 대상이 될 수 있다면 특별히 제한되지 않는다.
용어 "표적 부위(Target region)" 또는 "표적 서열(Target sequence)"은 표적 핵산 또는 표적 유전자 내 또는 그 주변에 존재하는 서열로, 본 발명의 초소형 핵산 편집 시스템이 표적 유전자 또는 표적 핵산을 절단하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 부위 또는 표적 서열은 그 목적에 따라 적절히 선택될 수 있다.
용어 "상동지정복구(homology-directed repair, HDR)"는 이중가닥 DNA의 파손, 병변 등을 복구하는 세포 내 기작으로서, 상동지정복구의 가장 일반적인 형태는 상동재조합(homologous recombination)이다. 상동지정복구는 주로 세포 주기의 G2 및 S 기에서 DNA의 상동 조각이 핵에 존재하는 경우에 이중가닥 DNA의 파손, 병변 등을 복구하기 위한 세포 기작 중의 하나를 지칭한다. 상동지정복구는 복구를 프로그램하는 공여자 DNA를 주형으로 사용하며, 유전자의 의도된 부가를 비롯한 특정한 서열 변화를 게놈에 생성하는데 사용될 수 있다. 공여된 주형이 부위 특이적 뉴클레아제와 함께, 예컨대 본 발명의 시스템 또는 TaRGET 시스템과 함께 제공된다면, 세포 기구는 상동재조합에 의해 이중가닥 상의 파단을 복구할 것이며, 이 기작은 DNA 이중절단의 존재 하에 증진된다. 공여자 DNA가 존재하는 경우 상동지정복구와 비상동말단연결은 경합하여 동시에 발생하며 공여자 DNA가 부존재하는 경우에는 비상동말단연결만이 일어난다.
용어 "벡터"는 달리 특정되지 않는 한, 유전 물질을 세포 내로 운반할 수 있는 모든 물질을 통틀어 일컫는다. 예를 들어, 벡터는 전달 대상이 되는 유전 물질인 표적 핵산 편집 시스템의 효과기(effector) 단백질을 암호화하는 핵산 및/또는 가이드 RNA(gRNA)를 암호화하는 핵산을 포함하는 DNA 분자일 수 있으나, 이에 제한되는 것은 아니다. 또한, 본 발명에서 "벡터"는 삽입된 유전자가 정상적으로 발현되도록 작동 가능하게 연결된 필수적인 조절 요소를 포함하는 "발현 벡터" 일 수 있다. 용어 "작동 가능하게 연결된(operably linked)"은 유전자 발현 기술에 있어서, 특정 구성이 다른 구성과 연결되어, 상기 특정 구성이 의도된 방식대로 기능할 수 있도록 연결되어 있는 것을 의미한다.
용어 "뉴클레오티드" 및 "핵산"은 상호 교환적으로 사용될 수 있고, 리보뉴클레오티드 또는 디옥시뉴클레오티드 중 하나의 임의의 길이 뉴클레오티드의 중합체 형태를 지칭한다. 따라서 이 용어는 단일-, 이중-, 또는 다중-가닥 DNA 또는 RNA, 게놈 DNA, cDNA, DNA-RNA 혼성체, 또는 퓨린 및 피리미딘 염기 또는 다른 천연, 화학적 또는 생화학적으로 변형된, 비천연 또는 유도체화된 뉴클레오티드 염기를 포함하는 중합체를 포함하지만, 이들로 제한되지 않는다. 용어 "폴리뉴클레오티드" 및 "핵산"은 본 명세서에 기재되는 구현예에 적용 가능한, 단일-가닥(예컨대 센스 또는 안티센스) 및 이중-가닥 폴리뉴클레오티드를 포함하는 것으로 이해되어야 한다.
용어 "핵산 구조물(Nucleic acid construct)"은 엔도뉴클레아제, 핵산 편집 단백질 또는 핵산 분해 단백질 등을 암호화하는 뉴클레오티드 서열 및/또는 가이드 RNA를 암호화하는 뉴클레오티드 서열을 구성요소로 포함하는 구조물로서, 필요에 따라 다양한 종류의 (폴리)펩티드 또는 링커를 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다. 상기 핵산 구조물은 본 발명의 상동지정복구를 위한 CRISPR/Cas 시스템, 벡터 시스템, 또는 초소형 유전자편집 시스템(Hypercompact TaRGET system)을 이루는 구성요소로 사용될 수 있다.
용어 "단백질", "폴리펩티드" 및 "펩티드"는 상호 교환적으로 사용될 수 있으며, 유전적으로 암호화된 그리고 비유전적으로 암호화된 아미노산, 화학적 또는 생화학적으로 변형되거나 또는 유도체화된 아미노산, 및 변형된 펩티드 골격을 갖는 폴리펩티드를 포함할 수 있는 임의의 길이를 갖는 아미노산 중합체 형태를 지칭한다. 상기 용어는 N-말단의 메티오닌 잔기가 있거나 없는, 이종성 아미노산 서열과의 융합 단백질, 이종성 및 상동성 리더 서열과의 융합; 면역학적으로 태그된 단백질 등을 포함하지만, 이들로 제한되지 않는 융합 단백질을 모두 포괄한다.
용어 "A, T, C, G 및 U"는 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기(base), 뉴클레오시드(nucleoside) 또는 뉴클레오티드(nucleotide)로 적절히 해석될 수 있다. 예를 들어, 염기를 의미하는 경우는 각각 아데닌(adenine; A), 구아닌(guanine; G), 시토신(cytosine; C), 티민(tymine; T) 및 유라실(uracil; U) 중 선택된 하나로 해석될 수 있다. 뉴클레오시드를 의미하는 경우는 각각 아데노신(adenosine; A), 티미딘(thymidine; T), 시티딘(cytidine; C), 구아노신(guanosine; G) 또는 유리딘(uridine; U)으로 해석될 수 있으며, 서열에서 뉴클레오티드를 의미하는 경우는 상기 각각의 뉴클레오시드를 포함하는 뉴클레오티드를 의미하는 것으로 해석되어야 한다.
용어 "약"은 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다. 예를 들어, 용어 "약"은 숫자 또는 수치로 표현된 값 x와 관련하여 사용될 때 x ± 5%를 의미할 수 있다.
본 발명에서 사용되는 모든 기술용어는, 달리 정의되지 않는 이상 이 기술 분야의 통상의 기술자가 인식할 수 있는 의미를 모두 포함하고, 일반적으로 이해하는 바와 같은 의미로 사용되며, 문맥에 따라 적절히 해석될 수 있다. 또한, 본 명세서에는 바람직한 방법이나 시료가 기재되나, 이와 유사하거나 동등한 것들도 본 발명의 범주에 포함된다.
II. 고효율의 상동지정복구를 위한 표적 핵산의 편집 시스템 및 이를 포함하는 조성물
본 발명자들은 TnpB(Transposon-associated transposase B) 단백질이 UnCas12f1 단백질과 유사한 아미노산 서열을 가지며(이에 따라, UnCas12f1 단백질과 유사한 아미노산 서열을 갖는 TnpB는 CWCas12f1이라고도 명명된다), 현재까지 가장 많은 연구가 진행된 Cas9 단백질을 포함하는 기존 핵산 분해 단백질들보다 분자량은 1/3 정도로 작고, 표적 핵산 또는 표적 유전자에 대한 핵산 절단 효율이 월등히 높은 것을 확인하였다. 또한, Cas12f1, TnpB 및 이의 변이체 단백질이 고효율의 유전자 편집 단백질 활성을 나타내며, 특히 공여자 핵산이 존재하는 환경에서 상동지정복구를 유도하는 것을 처음으로 규명하였다.
또한, 본 발명자들은 세포 내에서 표적 핵산 또는 표적 유전자를 절단, 편집, 수선 및/또는 복구하기 위해, 아데노 연관 바이러스(AAV) 벡터에 여유롭게 탑재가 가능하며 효과적인 세포 내(in vivo) 전달이 가능한 시스템으로서 초소형의 핵산 편집 단백질인 Cas12f1, TnpB 또는 이들의 변이체 단백질을 포함하는 소형 엔도뉴클레아제; 상기 엔도뉴클레아제에 대해 높은 인델(indel; insertion or deletion) 효율을 나타내는 엔지니어링된 가이드 RNA; 및 공여자 핵산 분자를 포함하는 상동지정복구를 위한 새로운 초소형 표적 핵산의 편집 시스템을 제작하였다.
본 발명자들은 기존에 알려진 Cas9 또는 Cas12a 등의 Cas 엔도뉴클레아제(endonuclease)가 아닌, 새로운 초소형 핵산 절단 단백질인 Cas12f1, TnpB 또는 이의 변이체 단백질을 이용함으로써 보다 효율적이고 응용 범위가 증대된 유전자 편집, 특히 상동지정복구의 유도가 가능함을 최초로 확인하였고, 이를 단일 아데노 연관 바이러스(AAV) 벡터에 모두 포함시켜 세포 내 전달이 가능하면서도 다양한 유전자에서 효율적으로 상동지정복구를 유도할 수 있는 새로운 초소형 핵산 편집 시스템을 구축하여 본 발명을 완성하였다.
따라서 본 발명은 표적 핵산 또는 표적 유전자에서 부위(서열) 특이적으로 또한 고효율로 상동지정복구가 일어나도록 또는 유도되도록 하기 위한 Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및 공여자 핵산 분자 또는 상기 공여자 핵산 분자를 암호화하는 핵산을 포함하는 초소형 표적 핵산 편집 시스템(또는 TaRGET 시스템)에 관한 것이다.
또한, 본 발명은 Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및 공여자 핵산 분자 또는 상기 공여자 핵산 분자를 암호화하는 핵산을 포함하는 표적 핵산의 유전자 편집 조성물, 상기 시스템 또는 조성물을 이용한 표적 핵산 또는 표적 유전자의 표적 부위로 목적 서열을 도입하는 방법에 관한 것이다.
그 외에도, 본 발명을 구현하기 위한 다른 편집 시스템, 다른 방법, 조성물, 벡터 시스템, 바이러스 또는 바이러스 조성물에 관한 것이다.
본 발명에 따른 상동지정복구를 위한 표적 핵산 편집 시스템은 기존에 연구된 대부분의 Cas 엔도뉴클레아제 및 이를 포함하는 유전자 편집 시스템이 그 크기로 인하여 세포 내 전달 매개체로써 FDA 승인을 받은 아데노 연관 바이러스(AAV) 벡터에 탑재할 수 없었던 제약을 해결한 의미 있는 결과이다.
나아가, 상기 표적 핵산 편집 시스템은 고효율의 상동지정복구 유도에 필요한 충분한 크기의 공여자 핵산 분자를 포함하더라도 여전히 AAV 벡터의 패키징 한계인 4.7 kb 정도 크기로 제작될 수 있으며, 표적 핵산 또는 표적 유전자의 이중가닥 표적 부위를 절단하고 상동지정복구를 유도함으로써 원하는 표적 부위에 목적하는 서열의 도입이 가능하므로, 본 발명에 따른 표적 핵산 편집 시스템은 표적 핵산 또는 표적 유전자에서 상동지정복구를 포함한 다양한 형태의 유전자 편집을 위한 시스템을 구성할 수 있으며, 유전자 관련 질병에 대한 새로운 치료제로서도 폭넓게 적용할 수 있다.
이하, 본 발명에서 제공되는 표적 핵산의 편집 시스템/조성물의 각 구성요소 및 이의 제조 방법을 상세히 설명한다.
1. Cas12f1, TnpB 및 이의 변이체 단백질
본 발명의 일 태양에 따르면, 표적 핵산의 표적 부위를 절단하여 상동지정복구를 유도함에 있어 우수한 활성을 나타내고, 기존의 CRISPR/Cas9 시스템에 비하여 핵산 분해 단백질의 크기가 1/3 정도로 현저히 작은 것을 특징으로 하는 Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 (소형) 엔도뉴클레아제가 제공된다.
본 발명의 표적 핵산 편집 시스템에 포함되는 엔도뉴클레아제 또는 핵산 편집 단백질인 Cas12f1, TnpB 또는 이의 변이체 단백질은 자연계에서 발견되는 Cas12f1, Cas12f1 변이체, TnpB, TnpB 변이체, 또는 엔지니어링된 Cas12f1 또는 엔지니어링된 TnpB를 모두 포함한다. 상기 엔도뉴클레아제 또는 핵산 편집 단백질은 Cas12f1, TnpB 또는 이들의 변형된 핵산 편집 단백질, 예를 들어 상기 단백질에서 하나 이상의 아미노산이 결실, 추가 또는 치환된 단백질, dead 핵산 편집 단백질 또는 nick 핵산 편집 단백질일 수 있지만, 이들로 제한되지 않는다.
본 발명의 구성 "Cas12f1 단백질"은 문헌[Harrington et al., Science, 362, 839-842 (2018)]에서 Cas14로 명명된 이펙터 단백질 중 하나로, Cas14a1 단백질로도 불린다. Cas12f1 단백질은 자연계에 존재하는 야생형(wildtype) Cas12f1 단백질(야생형 Cas14a1 단백질)일 수 있다. 또는, Cas12f1 단백질은 야생형 Cas12f1 단백질의 변이체(variant)일 수 있으며, 이때 상기 변이체는 "Cas12f1 변이체(Cas12f1 variant)" 또는 "Cas14a1 변이체(Cas14a1 variant)"로 지칭된다. 상기 Cas12f1 변이체는 야생형 Cas12f1 단백질과 동일한 기능을 가지는 변이체, 기능 일부 또는 전부가 변형된 변이체 및/또는 추가적인 기능이 부가된 변이체일 수 있다.
일부 구현예에서, Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다.
일부 구현예에서, TnpB 또는 이의 변이체 단백질은 Class 2, type V CRISPR/핵산 분해 단백질 중 V-F 서브타입에 속하는 Cas12f1 단백질과 크기가 유사한 IS200/IS605 패밀리의 전이효소 부속 단백질(transposase accessory protein) TnpB 단백질에서 유래된 서열이거나 이를 포함할 수 있다. TnpB 단백질은 종래에 전이효소(transposase)로 알려진 단백질이다. 현재까지 TnpB 단백질은 전이인자(transposon)을 암호화하는 핵산 분해 단백질(transposon-encoded nuclease)로만 알려져 있을 뿐, TnpB 단백질이 Cas 엔도뉴클레아제(endonuclease) 활성을 가지는지 알려진 바는 없다. 또한, TnpB 단백질에 대한 가이드 RNA도 알려진 바 없다. 본 발명은 부분적으로 TnpB 단백질 서열 기반의 TnpB 변이체 또는 엔지니어링된 TnpB가 핵산 분해 단백질 중 분자량이 가장 작은 그룹에 속하는 Cas12f1 단백질과 그 크기가 유사하면서, 표적 핵산 또는 표적 유전자를 표적화하여 표적 부위의 이중가닥 DNA를 절단하는 탁월한 엔도뉴클레아제(endonuclease) 활성을 가지고 있음을 처음으로 확인하고, TnpB 또는 이의 변이체 단백질과 함께 사용되어 우수한 상동지정복구 유도 효율을 나타내는 엔지니어링된 가이드 RNA(engineered guide RNA)를 제작함으로써 완성되었다. TnpB 또는 이의 변이체 단백질은 현존하는 핵산 분해 단백질 중 분자량이 가장 작은 그룹에 속하며, 본 발명의 엔지니어링된 짧은 가이드 RNA(gRNA)와 복합체를 형성하여 표적 핵산 또는 표적 유전자를 표적화하여 이중가닥을 절단하는 탁월한 효과를 가지고 있고, 공여자 핵산 분자가 함께 존재하는 경우 고효율의 상동지정복구 과정을 유도할 수 있어 세포 내 표적 유전자에 목적 서열을 도입하기 위한 초소형의 핵산 편집 시스템을 제작하는데 있어 큰 장점이 있다. 또한, 상기 TnpB 또는 이의 변이체 단백질은 5'-NGG-3'를 PAM으로 갖는 Cas9과 달리, 5'-TTTA-3' 또는 5'-TTTG-3' 등과 같은 T-rich PAM을 PAM으로 갖기 때문에, 티민(T)이 많은 서열을 표적 핵산 또는 표적 유전자로 선택할 수 있게 하여, 유전체 편집을 위한 핵산 분해 단백질의 선택 폭을 넓혀준다.
일부 구현예에서, Cas12f1, TnpB 또는 이의 변이체 단백질은 (ⅰ) 서열번호 5의 아미노산 서열; (ⅱ) 서열번호 1의 아미노산 서열; (ⅲ) 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열; 또는 (ⅳ) 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열 중 하나를 포함하는 것일 수 있다.
구체적으로, 일 구현예에 따르면 Cas12f1 또는 이의 변이체 단백질은 서열번호 5의 아미노산 서열을 포함하거나 이로 이루어진 단백질 또는 상기 서열번호 5의 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하거나 이로 이루어진 변이체 단백질일 수 있다.
다른 구현예에 따르면, TnpB 또는 이의 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 단백질 또는 상기 서열번호 1의 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하거나 이로 이루어진 단백질일 수 있다. 또한, TnpB 변이체 단백질은 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하거나 이로 이루어진 TnpB 변이체 단백질일 수 있다. 이때, TnpB 변이체 단백질은 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질을 포함하지 않는다. 구체적으로, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 단백질일 수 있다. 예를 들어, TnpB 변이체 단백질은 서열번호 1의 아미노산 서열과 70% 이상의 서열 동일성을 갖는 단백질을 포함한다.
다른 구현예에서, Cas12f1 변이체 단백질은 서열번호 5의 아미노산 서열로 이루어진 Cas12f1 단백질에 하나 이상의 아미노산이 더 포함된 것일 수 있다. 일부 예에서, Cas12f1 변이체 단백질은 TnpB 변이체 단백질을 포함한다. 예를 들어, Cas12f1 단백질의 N-말단에 CasX의 N-말단 26aa를 포함하는 TnpB-v1 단백질(서열번호 2), 28aa 무작위 서열을 포함하는 TnpB-v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 포함하는 TnpB-v3 단백질(서열번호 4)을 포함하거나 이로 이루어질 수 있다.
일부 구현예에서, TnpB 또는 이의 변이체 단백질은 다른 생물 종에서 유래한 TnpB 단백질이거나 이로부터 유래된 변이체를 포함할 수 있다. 즉, TnpB 단백질은 유의미한 서열 동일성은 나타나지 않지만 다른 생물에서 동일한 기능을 하는 TnpB 동족체(homolog) 단백질을 포함한다. 구체적으로, TnpB 단백질 또는 이의 변이체 단백질은 서열번호 202 내지 서열번호 293으로 이루어진 군에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 것일 수 있다. TnpB 단백질(또는 TnpB 동족체 단백질)은 TnpB 단백질과 동일한 생체 내 활성(즉, 엔도뉴클레아제 활성)을 공유하는 단백질을 의미하는 것으로서 이들의 서열 유사성(또는 동일성)과는 무관하게 공통 조상으로부터 유래된 특징이 소실되지 않고 보존되어 있는 단백질을 의미한다.
또 다른 구현예에서, TnpB 또는 이의 변이체 단백질은 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열 중 하나를 포함하거나 이로 이루어진 단백질일 수 있다. 이때 추가된 1개 내지 600개의 아미노산 서열에는 제한이 없다. 일 예로, 상기 추가된 1개 내지 600개의 아미노산은 서열번호 294 또는 서열번호 295의 아미노산 서열일 수 있다. 추가 서열과 TnpB 변이체 단백질 사이에는 NLS 또는 NES 서열이 더 포함될 수 있다.
또한, Cas12f1, TnpB 또는 이의 변이체 단백질은 야생형의 Cas12f1 단백질과 동종의 기능을 가지거나, 야생형의 Cas12f1 단백질과 비교할 때, 기능이 변경된 것일 수 있다. 보다 구체적으로, 상기 변경은 전부 또는 일부 기능의 변형, 전부 또는 일부 기능의 상실 및/또는 부가적인 기능의 추가를 포함한다. Cas12f1, TnpB 또는 이의 변이체 단백질은 통상의 기술자가 초소형 핵산 편집 시스템의 핵산 분해 단백질에 적용할 수 있는 변경이라면, 특별히 제한 없이 임의의 변경을 포함할 수 있다. 예컨대, 상기 Cas12f1 변이체 단백질, TnpB 또는 이의 변이체 단백질은 DNA 이중가닥을 절단하는 활성뿐만 아니라, 단일가닥 DNA 또는 RNA, 또는 DNA 및 RNA의 혼성 이중가닥을 절단하는 활성, 염기 교정 및/또는 프라임 교정을 수행하기 위한 것일 수 있다.
일부 구현예에서, 본 발명의 표적 핵산 편집 시스템은 표적 핵산 또는 표적 유전자의 표적 부위에서 핵산을 절단하는 것이므로, 표적 부위가 세포의 핵 내에 위치하는 것을 특징으로 할 수 있다. 이에, 본 발명의 표적 핵산 편집 시스템에 사용되는 Cas12f1, TnpB 또는 이의 변이체 단백질은 이를 핵 내로 위치시키는 핵 위치 신호(nuclear localization signal, NLS) 서열을 1개 또는 2개 이상 포함할 수 있다. 예컨대, 하나 이상의 핵 위치 신호 서열은 상기 Cas12f1, TnpB 또는 이의 변이체 단백질이 진핵세포(포유동물 세포 포함)의 핵에서 검출 가능한 양으로 핵 내로 표적화되도록 유도하는 데 충분한 양 또는 활성을 강도를 가질 수 있다. 예컨대, 그 활성의 강도 차이는 Cas12f1, TnpB 또는 이의 변이체 단백질 내에 포함되는 NLS의 수, 사용되는 특정 NLS(들)의 종류 또는 이들 인자의 조합으로부터 야기될 수 있다.
또한, 다른 구현예에서, Cas12f1, TnpB 또는 이의 변이체 단백질에 포함되는 NLS는 N-말단에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, C-말단에서 또는 그 근처에서 약 1, 2, 3, 4, 5, 6, 7, 8, 9 또는 10개 이상의 NLS, 또는 이들의 조합이 다양하게 선택될 수 있다. 예컨대, N-말단에서 0 또는 적어도 하나 이상의 NLS 서열 및/또는 C-말단에서 0 또는 하나 이상의 NLS 서열을 포함할 수 있다. 하나 초과의 NLS 서열이 존재할 때, 단일 NLS가 하나 초과의 복제물에 존재할 수 있고, 하나 초과의 복제물에 존재하는 하나 초과의 다른 NLS와 조합하여 존재할 수 있도록 각각의 NLS 서열은 다른 것과 독립적으로 선택될 수 있다.
일부 구현예에서, NLS 서열은 단백질에 대해 이종성으로 하기의 NLS 서열이 예시되나 이에 제한되는 것은 아니다. 예컨대, 상기 NLS는 아미노산 서열 'PKKKRKV'를 갖는 SV40 바이러스 대형 T-항원의 NLS, 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS 서열로서 'KRPAATKKAGQAKKKK'를 갖는 뉴클레오플라스민 이분(bipartite) NLS, 아미노산 서열 'PAAKRVKLD' 또는 'RQRRNELKRSP'를 갖는 c-myc NLS일 수 있다. 또한 hRNPA1 M9 NLS 서열, 임포틴-알파로부터의 IBB 도메인의 NLS 서열, 마이오마(myoma) T 단백질의 NLS 서열 및 인간 p53의 NLS 서열, 마우스 c-abl IV의 NLS 서열, 인플루엔자 바이러스 NS1의 NLS 서열, 간염 바이러스 델타 항원의 NLS 서열, 마우스 Mx1 단백질의 NLS 서열, 인간 폴리(ADP-리보스) 중합효소의 NLS 서열 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 NLS 서열로부터 유래된 NLS 서열일 수 있다.
또한, Cas12f1, TnpB 또는 이의 변이체 단백질은 세포 내의 유전자 발현 과정에 관여할 수 있는 다양한 효소(enzyme)가 융합된 것일 수 있다. 이때, 상기 효소가 융합된 Cas12f1, TnpB 또는 이의 변이체 단백질은 세포 내 유전자 발현에 다양한 양적 및/또는 질적 변화를 초래할 수 있다. 예컨대, 상기 추가적으로 결합되는 다양한 효소는 DNMT, TET, KRAB, DHAC, LSD, p300, Moloney Murine Leukemia Virus(M-MLV) 역전사 효소 또는 그 변이체일 수 있다. 이 때, 상기 역전사 효소가 융합된 Cas12f1, TnpB 또는 이의 변이체 단백질은 프라임 에디터(prime editor)로도 기능할 수 있다.
일부 구현예에서, Cas12f1, TnpB 또는 이의 변이체 단백질은 표적 핵산 또는 표적 유전자의 이중가닥 절단(double-strand breaks)을 일으킬 수 있으며, 상기 이중가닥 절단은 Cas12f1, TnpB 또는 이의 변이체 단백질에 의해 표적 핵산의 바깥 부분이 절단되어 발생하는 것일 수 있다. 상기와 같이 Cas12f1, TnpB 또는 이의 변이체 단백질에 의해 표적 핵산 또는 표적 유전자에 이중가닥 절단이 발생하면 세포 내 기작에 의해 공여자 핵산 분자를 주형으로 하여 이중가닥 절단의 복구 과정이 진행될 수 있다. 이러한 이중가닥 절단의 복구에 의해 목적하는 서열이 표적 핵산 또는 표적 유전자에 도입된다.
2. Cas12f1, TnpB 및 이의 변이체 단백질의 PAM 서열
일부 구현예에서, 초소형 핵산 편집 시스템이 표적 핵산 또는 표적 유전자의 표적 부위에 위치하고 정확하게 표적 부위 핵산을 절단하기 위해서는 하기의 두 가지 조건이 필요하다.
먼저, 표적 핵산 또는 표적 유전자 내에 Cas12f1, TnpB 또는 이의 변이체 단백질이 인식할 수 있는 일정 길이의 염기서열이 있어야 한다. 또한, 상기 일정 길이의 염기서열 주변에 Cas12f1, TnpB 또는 이의 변이체 단백질에 대한 가이드 RNA(gRNA)에 포함된 가이드 서열(스페이서)과 상보적으로 결합할 수 있는 서열이 있어야 한다. 다시 말해, Cas12f1, TnpB 또는 이의 변이체 단백질이 상기 일정 길이의 염기서열을 인식하고, 가이드 RNA(gRNA)에 포함된 스페이서 서열 부분이 상기 일정 길이의 염기서열 주변 서열 부분과 상보적으로 결합할 때, 표적 핵산 또는 표적 유전자의 표적 부위 핵산을 정확하게 절단, 편집 및/또는 복구할 수 있다. 이때, Cas12f1, TnpB 또는 이의 변이체 단백질에 의해 인식되는 일정 길이의 염기 서열을 프로토스페이스 인접 모티프(Protospacer Adjacent Motif, PAM)서열이라 한다. PAM 서열은 초소형 유전자 편집 단백질인 Cas12f1, TnpB 또는 이의 변이체 단백질에 따라 정해지는 고유한 서열이다. 이는 핵산 편집 시스템 내의 Cas12f1, TnpB 또는 이의 변이체 단백질과 gRNA 복합체의 표적 서열을 결정할 때, 상기 PAM 서열과 인접한 서열 내에서 표적 서열을 결정해야 하는 것을 의미한다.
Cas12f1, TnpB 또는 이의 변이체 단백질의 PAM 서열은 T-rich 서열일 수 있다. 보다 구체적으로, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질의 PAM 서열은 5'-TTTN-3'일 수 있다. 이때, N은 디옥시티미딘(T), 디옥시아데노신(A), 디옥시사이티딘(C) 또는 디옥시구아노신(G) 중 하나이다.
일부 구현예에서, Cas12f1, TnpB 또는 이의 변이체 단백질의 PAM 서열은 5'-TTTA-3', 5'-TTTT-3', 5'-TTTC-3' 또는 5'-TTTG-3'일 수 있다. 바람직하게, Cas12f1, TnpB 또는 이의 변이체 단백질의 PAM 서열은 5'-TTTA-3' 또는 5'-TTTG-3'일 수 있다.
다른 구현예에서, Cas12f1, TnpB 또는 이의 변이체 단백질의 PAM 서열은 야생형 Cas12f1 단백질의 PAM 서열과는 다른 것일 수 있다.
3. 상동지정복구용 Cas12f1, TnpB 또는 이의 변이체 단백질을 위한 가이드 RNA
(1) 개괄
본 발명의 구현예들은 종래 기술인 Cas9 시스템이 큰 단백질 분자량을 가짐으로 인해 발생하는 아데노 연관 바이러스(AAV)를 이용한 세포 내 전달의 한계점을 극복하기 위해 도출된 것이다. 따라서 본 발명의 표적 핵산 편집 시스템에 포함되는 상동지정복구를 위한 절단 활성을 갖는 단백질로서 분자량이 작은 Cas12f1, TnpB 또는 이의 변이체 단백질을 선택하는 것에 추가하여, 상기 Cas12f1, TnpB 또는 이의 변이체에 대한 가이드 RNA(gRNA)를 자연에 존재하는 것보다 훨씬 더 짧게 인위적으로 엔지니어링하여 크기의 최소화를 달성함과 동시에 표적에 대한 절단 및/또는 상동지정복구 효율은 증가된 엔지니어링된 가이드 RNA(augment RNA)를 제작하였다.
본 발명의 일 구현예에 따른 초소형 엔도뉴클레아제인 TnpB 또는 이의 변이체에 대하여는 자연에 존재하는 gRNA가 발견되지 않았으므로, 상기 TnpB 또는 이의 변이체 단백질에 대한 고효율의 표적 및 편집 활성을 나타내는 최적의 gRNA를 제작하고자 하였다. 이러한 관점에서, TnpB 또는 이의 변이체 단백질에 대한 자연에 존재하는 gRNA는 TnpB 또는 이의 변이체 단백질과 크기가 유사한 Cas12f1에 대해 자연계에서 발견되는 야생형 gRNA일 수 있다. 즉, 본 발명에서 Cas12f1, TnpB 또는 이의 변이체 단백질에 대한 "야생형" gRNA는 "기본형" 또는 "원형(canonical)" gRNA의 의미로 사용되었다. 상기 야생형 gRNA는 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는, tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)를 포함할 수 있다. 구체적으로, 야생형 gRNA는 5'-말단부터 순차적으로 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 tracrRNA 및 crRNA를 포함할 수 있다. 보다 구체적으로, 상기 야생형 gRNA는 서열번호 11의 염기서열을 갖는 야생형 tracrRNA를 포함하거나, 서열번호 12의 염기서열을 갖는 야생형 crRNA를 포함할 수 있다. 또한, 상기 야생형 gRNA는 싱글 가이드 RNA 형태로 융합되어 서열번호 13의 염기서열을 갖는 sgRNA일 수 있다.
일 구현예로, Cas12f1, TnpB 또는 이의 변이체 단백질에 대한 gRNA는 자연계에서 발견되는 야생형 gRNA에 새로운 구성을 추가하거나, 기존의 구조를 제거 및/또는 치환하거나, 그 구조의 일부를 변형한 엔지니어링된 gRNA인 것을 특징으로 한다.
일부 구체예에서, 엔지니어링된 gRNA는 야생형 gRNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 gRNA와 적어도 50%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 95% 서열 동일성을 갖는 엔지니어링된 gRNA이다. RNA, 핵산 또는 폴리펩티드의 문맥에서 용어 "서열 동일성"은 비교 범위에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 의미하며, 이때 비교 범위 내의 RNA, 핵산 등의 서열 부분은 최적의 정렬을 위해 기준 서열과 비교하여 삽입 또는 결실(즉, 갭)을 포함할 수 있다.
이하, 야생형과 엔지니어링된 gRNA의 구조 및 그의 변형에 대해 5개의 변형부위 별로 상세히 설명한다. 변형부위는 본 명세서 전체에 걸쳐 "MS(modification site)"로 약칭되었으며, "변형부위" 또는 "MS" 뒤의 숫자는 일 실시예에 따른 각 변형부위의 엔지니어링 흐름에 따라 순차적으로 부여한 것이나, 뒤의 숫자를 가지는 변형부위에서의 엔지니어링이 앞선 숫자의 변형부위에서의 엔지니어링을 반드시 포함한다는 의미는 아니다. 도 1은 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA(engineered gRNA)가 포함하는 변형부위인 MS1 내지 MS5를 야생형 가이드 RNA 서열 상에 도시한 것이다.
(2) gRNA의 구조 및 정의
본 발명의 가이드 RNA(gRNA)는 crRNA를 포함한다. crRNA는 tracrRNA 및/또는 이펙터 단백질과 결합 및/또는 상호작용하는 crRNA 내에 존재하는 일부 서열이다. 상기 crRNA는 야생형 crRNA 또는 엔지니어링된 crRNA 일 수 있다. 이때, 상기 crRNA은 직접반복부서열(direct repeat sequence) 및 가이드 서열(스페이서 서열)를 포함할 수 있고, 직접반복부서열은 가이드 서열의 5'말단에 위치할 수 있다. 또한, 상기 crRNA는 tracrRNA의 3' 말단에 위치할 수 있다.
또한, 가이드 RNA는 tracrRNA을 포함한다. 상기 tracrRNA 스캐폴드 서열은 crRNA 및/또는 이펙터 단백질과 결합 및/또는 상호작용하는 tracrRNA 전체 또는 일부 서열이다.
상기 tracrRNA은 야생형 tracrRNA 또는 엔지니어링된 tracrRNA일 수 있다. 상기 엔지니어링된 crRNA 또는 tracrRNA은 상기 야생형 crRNA 또는 tracrRNA의 일부 (뉴클레오티드) 서열이 인위적으로 변형(치환, 결실 또는 삽입)되거나, 야생형 crRNA 또는 tracrRNA 서열보다 길이가 짧도록 변형된 서열일 수 있다.
(2-1) 스캐폴드 서열(scaffold sequence)
본 발명의 구현예에 따른 야생형 또는 엔지니어링된 가이드 RNA(gRNA)의 서열을 기능적으로 나누면, Cas12f1, TnpB 또는 이의 변이체 단백질과 상호작용하여 gRNA 및 상기 단백질이 복합체를 형성하도록 하는 서열 부분과 gRNA 및 상기 단백질 복합체가 표적 핵산을 찾아갈 수 있도록 하는 서열 부분으로 나눌 수 있다. 이때, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질과 상호작용하여 gRNA 및 상기 단백질(엔도뉴클레아제) 복합체를 형성하도록 하는 서열 부분을 스캐폴드 서열이라 할 수 있다. 구체적으로, 상기 스캐폴드 서열은 tracrRNA 및 crRNA인 두 분자 이상의 RNA의 서열을 포함할 수 있다.
일 구현예에서, 엔지니어링된 gRNA가 듀얼 가이드 RNA인 경우, 스캐폴드 서열은 엔지니어링된 gRNA 서열 중 tracrRNA 서열 및 crRNA에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 예로, tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다. 또한, 상기 CRISPR RNA 반복 서열은 자연계에서 발견되는 CRISPR RNA 반복 서열의 전부 또는 일부가 변형된 것일 수 있다.
다른 구현예에서, 엔지니어링된 가이드 RNA가 싱글 가이드 RNA(sgRNA)인 경우, 스캐폴드 서열은 엔지니어링된 tracrRNA 서열, 링커 서열 및 엔지니어링된 crRNA 서열에 포함된 CRISPR RNA 반복 서열을 포함할 수 있다. 일 구현예로, 상기 tracrRNA 서열은 자연계에서 발견되는 tracrRNA 서열의 전부 또는 일부가 변형된 것일 수 있다.
또한, 일 구현예에서, 스캐폴드 서열은 tracrRNA 및 crRNA의 일부를 포함하며, 반드시 한 분자의 RNA를 지칭하는 것은 아니다. 상기 스캐폴드 서열은 다시 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역(제5 스템 영역으로 지칭될 수 있음)으로 세분화되는 영역을 포함할 수 있다. 본 발명에서, 상기 세분화된 영역 중 변형부위 3(MS3)을 포함하는 제1 스템 영역, 변형부위 5(MS5)를 포함하는 제2 스템 영역 및 변형부위 1(MS1)과 변형부위 4(MS4)를 포함하는 tracrRNA-crRNA 상보성 영역은 도 1에서 각기 다른 색의 음영으로 구분된 1점쇄선 박스로 표시된 영역에 대응되거나 이에 포함되는 영역으로 정의될 수 있다. 그 외, 제3 스템 영역은 도 1에서 G(-90)-C(-74) 서열에 대응되거나 이에 포함되는 영역이고, 제4 스템 영역은 도 1에서 U(-68)-A(-35) 서열에 대응되거나 이에 포함되는 영역으로 정의될 수 있다.
한편, 본 발명에서 상기 스템 영역, tracrRNA-crRNA 상보성 영역 등으로 세분화된 영역은 스캐폴드 서열의 모든 영역을 포괄하는 것은 아니며, 스캐폴드 서열은 상기 세분화된 영역에 해당하지 않는 다른 영역 또는 서열을 포함할 수 있다.
다른 구현예에서, 야생형의 Cas12f1 gRNA는 상술한 바와 같은 세분화된 영역을 가질 수 있는 스캐폴드 서열을 포함하며, (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 상기 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는 스캐폴드 서열을 포함하는 특징이 있다. 구체적으로, 야생형 Cas12f1 gRNA는 하나 이상의 스템 영역을 포함하는 tracrRNA, 및 tracrRNA-crRNA 상보성 영역(또는 tracrRNA와 crRNA가 상보적으로 결합하여 형성된 또 다른 스템 영역)을 포함하는 tracrRNA 및/또는 crRNA를 포함할 수 있다. 야생형 type V-F CRISPR/Cas gRNA의 구조에 대한 상세한 정보는 문헌[Takeda et al., Structure of the miniature type V-F CRISPR-Cas effector enzyme, Molecular Cell 81, 1-13(2021)]를 참조한다. 일 구현예에서 상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열로 이루어진 crRNA를 포함할 수 있다.
본 발명에서 상동지정복구를 위한 표적 핵산의 편집 시스템에 사용될 수 있는 엔지니어링된 gRNA는 (a) 하나 이상의 스템 영역의 일부 또는 전부의 결실, (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실 또는 (c) 연속되는 3 이상의 유라실(U)이 존재하는 경우에 이들 중 하나 이상의 U의 치환에 의한 변형을 포함할 수 있다. 상기 각각의 결실 및 치환에 의한 변형의 상세한 내용은 후술한다.
한편, 본 발명의 일 구현예에 따른 엔지니어링된 crRNA는 스캐폴드 서열로서 (d) crRNA의 3'-말단에 하나 이상의 유리딘을 갖는 U-rich tail 영역을 추가로 포함할 수 있다. 이는 본 발명의 가이드 RNA 및 Cas12f1, TnpB 또는 이의 변이체 단백질 복합체를 포함하는 표적 핵산 편집 시스템의 상동지정복구 효율 향상을 위해 도입할 수 있는 엔지니어링된 스캐폴드 영역에 추가된 것이다. U-rich tail 영역에 대한 구체적인 내용은 후술한다.
일 구현예에서, 엔지니어링된 스캐폴드 서열은, 자연계에서 발견되는 스캐폴드 서열에 전술한 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 (ⅲ) 상기 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)을 포함하는 영역 중 어느 하나 이상의 영역에서의 변형이 조합된 것일 수 있다. 이 때, 엔지니어링된 tracrRNA는 야생형 tracrRNA보다 길이가 짧도록 변형된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 연속된 네 개 또는 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형(MS1에서의 변형)된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 연속된 다섯 개 이상의 유리딘 서열을 포함하지 않도록 변형되고, 야생형 tracrRNA보다 길이가 짧도록 변형된 tracrRNA일 수 있다. 또한, 엔지니어링된 tracrRNA는 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역의 일부를 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 또한, 엔지니어링된 crRNA는 tracrRNA-crRNA 상보성 영역의 일부 및 가이드 서열인 스페이서 서열을 5'-말단에서 3'-말단 방향으로 순서대로 포함할 수 있다. 상기 tracrRNA의 tracrRNA-crRNA 상보성 영역은 crRNA의 직접반복서열(즉, crRNA의 tracrRNA-crRNA 상보성 영역)과 결합하기에 충분한 상보성을 갖는 임의의 폴리뉴클레오티드를 포함할 수 있다.
다른 구현예에서, 엔지니어링된 gRNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상의 서열 동일성을 갖는 gRNA일 수 있다[하기 식 (I) 및 본 명세서 전체에 기재된 식 (I)에서, 검정색 실선은 뉴클레오티드 사이의 화학적 결합(예를 들어, 포스포다이에스터 결합)을 의미하고, 회색 굵은선은 뉴클레오티드 사이의 상보적 결합을 의미한다].
상기 식 (I)에서, Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고, Xg는 10 내지 30개의 폴리뉴클레오티드로 이루어진 가이드 서열로서 표적 서열과 혼성화하거나 표적 서열에 상보적인 서열이고, Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,(UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
여기서, 상기 Xa, Xb1, Xb2, Xc1 또는 Xc2가 0개의 뉴클레오티드로 이루어지는 경우는 Xa, Xb1, Xb2, Xc1 또는 Xc2가 부존재한다는 의미로 해석된다.
또한, 식 (I)에서 상기 Xa, Xb1, Xb2, Xc1 또는 Xc2가 0개의 뉴클레오티드로 이루어지거나 부존재하는 경우에는 Xa, Xb1, Xb2, Xc1 또는 Xc2를 통해 연결된 2 이상의 뉴클레오티드가 존재하였을 경우 이들이 어떠한 방식으로든 직접 연결된 상태인 것으로 해석될 수 있다. 예를 들어, 식 (I)에서 Xb1이 0개의 뉴클레오티드로 이루어지거나 부존재하는 경우 Xb1의 5'-말단에 직접 연결된 뉴클레오티드와 Xb1의 3'-말단에 직접 연결된 뉴클레오티드가 예를 들어, 포스포다이에스터 결합으로 직접 연결된 상태일 수 있다.
일부 구현예에서, 상기 Xa는 0 내지 20개의 (폴리)뉴클레오티드로 이루어질 수 있고, Xb1은 0 내지 13개의 (폴리)뉴클레오티드로 이루어질 수 있고, Xb2는 0 내지 14개의 (폴리)뉴클레오티드로 이루어질 수 있고, Xc1은 0 내지 28개의 (폴리)뉴클레오티드로 이루어질 수 있고, 또는 Xc2는 0 내지 27개의 (폴리)뉴클레오티드로 이루어질 수 있다.
상기 스캐폴드 서열의 (ⅰ)의 변형은 Xa, Xb1, Xb2로 표시된 폴리뉴클레오티드에 해당할 수 있고, (ⅱ)의 변형은 Xc1 및 Xc2로 표시된 폴리뉴클레오티드에 해당할 수 있고, (ⅲ)의 변형은 Xc1으로 표시된 폴리뉴클레오티드 내에 존재할 수 있다.
상기 스캐폴드 서열의 (ⅰ) 내지 (ⅲ)의 변형에 대한 구체적인 내용은 하기 "(4) 고효율의 상동지정복구 효율 달성을 위한 gRNA의 변형" 항목을 참조한다.
(2-2) 가이드 서열(guide sequence)
본 발명의 구현예에 따른 야생형 또는 엔지니어링된 가이드 RNA(gRNA)는 표적 핵산을 찾아갈 수 있도록 하는 서열 부분, 즉 유전자 내의 표적 서열과 혼성화하거나 상보적 결합을 이루는 하나 이상의 가이드 서열을 포함할 수 있다.
본원에서 "가이드 서열" 또는 "스페이서(spacer) 서열"로 지칭되는 서열은 표적 핵산 또는 표적 유전자 내의 표적 서열과 상보적인 서열이며, crRNA 반복 서열의 3'-말단 쪽에 연결된다. 가이드 서열은 Cas12f1, TnpB 또는 이의 변이체 단백질이 인식하는 PAM(Protospacer Adjacent Motif) 서열과 인접한 프로토스페이서 서열(protospacer sequence)과 상동성이 있는 서열로, 프로토스페이서 서열의 티미딘(T)이 유리딘(U)으로 치환된 서열을 가진다. 이때, 표적 서열 및 프로토스페이서 서열은 표적 핵산 내 포함된 상기 PAM 서열과 인접한 서열 내에서 결정되고, 이에 따라 가이드 서열이 결정된다.
일 구현예로, crRNA의 가이드 서열 부분은 상기 표적 핵산과 상보적으로 결합할 수 있다. 일 구현예로, crRNA의 가이드 서열 부분은 상기 표적 핵산의 표적 서열 부분과 상보적으로 결합할 수 있다. 일 예로, 표적 핵산이 이중가닥 DNA인 경우, 가이드 서열은 이중가닥 DNA의 표적 가닥(Target strand)에 포함된 표적 서열과 상보적인 서열일 수 있다. 여기서, 표적 핵산이 이중가닥 DNA인 경우, 가이드 서열은 상기 이중가닥 DNA의 비-표적가닥(Non-target strand)에 포함된 프로토스페이서 서열과 상동성인 서열을 포함할 수 있다. 구체적으로, 가이드 서열은 프로토스페이서 서열과 동일한 염기 서열을 가지되, 상기 염기 서열에 포함된 티미딘(T) 각각이 모두 유리딘(U)으로 치환된 서열을 가질 수 있다. 일 예로, 가이드 서열은 프로토스페이서의 DNA 서열에 상응하는 RNA 서열을 포함할 수 있다. 상기 가이드 서열은 상류(upstream) 중 선택된 하나의 표적 서열 및 하류(downstream) 중 선택된 하나의 표적 서열과 혼성화 가능한 두 개의 가이드 서열의 조합을 포함할 수 있다.
일 구현예로, 가이드 서열의 길이는 10 뉴클레오티드 내지 50 뉴클레오티드 길이일 수 있다. 바람직하게, 가이드 서열의 길이는 10 뉴클레오티드 내지 30 뉴클레오티드 길이일 수 있다. 보다 바람직하게, 스페이서 서열의 길이는 17 뉴클레오티드 내지 25 뉴클레오티드 길이일 수 있다.
상기 "표적 서열(target sequence)"은 표적 핵산 또는 표적 유전자 내에 존재하는 서열로, 본원의 표적 핵산 편집 시스템 또는 TaRGET 시스템의 가이드 RNA에 의해 인식되는 서열 또는 표적 핵산 편집 시스템 또는 TaRGET 시스템에 의해 변형의 대상이 되는 서열을 의미한다. 구체적으로, 상기 표적 서열은 가이드 RNA에 포함된 가이드 서열에 상보성을 가지는 서열 또는 가이드 서열과 상보적으로 결합하는 서열을 의미한다. "표적 가닥(target strand)"은 표적 서열을 포함하는 가닥을 의미한다. 표적 핵산 또는 표적 유전자가 단일가닥인 경우, 해당 가닥은 표적 가닥일 수 있다. 또는, 표적 핵산 또는 표적 유전자가 이중가닥인 경우, 상기 이중가닥 중 하나는 표적 가닥일 수 있으며, 상기 표적 가닥에 상보적인 가닥이 존재할 수 있다. 이때, 상기 표적 가닥에 상보적인 가닥은 "비표적 가닥(non-target strand)"으로 지칭된다. 비표적 가닥(non-target strand)은 PAM(Protospacer Adjacent Motif) 서열 및 프로토스페이서(protospacer) 서열을 포함한다. 상기 PAM 서열은 본 발명의 표적 핵산 편집 시스템(또는 TaRGET 시스템)의 Cas12f1, TnpB 또는 이의 변이체 단백질이 인식하는 서열이다. 상기 프로토스페이서 서열은 PAM 서열의 5'-말단 또는 3'-말단에 위치하는 서열로, 상기 프로토스페이서 서열은 표적 서열에 상보성을 가지는 서열 또는 표적 서열과 상보적인 결합을 하는 서열이다. 프로토스페이서 서열과 표적 서열 간의 상관관계는 표적 서열과 가이드 서열 간의 상관관계와 유사하다. 이러한 특징에 의해, 일반적으로 가이드 서열 설계시 프로토스페이서 서열을 이용하여 설계할 수 있다. 즉, 표적 서열에 상보적으로 결합하는 가이드 서열을 설계시, 가이드 서열은 프로토스페이서 서열과 동일한 염기서열을 가지는 뉴클레오티드 서열로 설계할 수 있다. 이때, 프로토스페이서 서열의 염기서열 중 T는 U로 대체하여 가이드 서열을 설계한다.
상기 표적 서열은 15 내지 40개의 뉴클레오티드 서열일 수 있다. 일 예로, 상기 표적 서열은 15 내지 20개, 15 내지 25개, 15 내지 30개, 15 내지 35개 또는 15 내지 40개의 뉴클레오티드 서열일 수 있다. 또는 상기 표적 서열은 20 내지 25개, 20 내지 30개, 20 내지 35개 또는 20 내지 40개의 뉴클레오티드 서열일 수 있다. 또는 상기 표적 서열은 25 내지 30개, 25 내지 35개 또는 25 내지 40개의 뉴클레오티드 서열일 수 있다. 또는 상기 표적 서열은 30 내지 35개 또는 30 내지 40개의 뉴클레오티드 서열일 수 있다. 또는 상기 표적 서열은 35 내지 40개의 뉴클레오티드 서열일 수 있다. 다른 일 예로, 상기 표적 서열은 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 또는 40개의 뉴클레오티드 서열일 수 있다.
일부 구현예에서, 상기 가이드 서열은 표적 서열과 상보적인 결합을 하는 서열일 수 있다. 이때, 상기 상보적인 결합은 선택적으로 적어도 하나 이상의 미스매치(mismatch) 결합을 포함할 수 있다. 예를 들어, 상기 가이드 서열은 표적 서열과 혼성화하거나 상보적인 결합을 하는 서열로, 이때 상기 상보적인 결합은 0 내지 5개의 미스매치를 포함할 수 있다. 또는 상기 가이드 서열은 표적 서열에 대해 적어도 70% 이상 상보적인 뉴클레오티드 서열일 수 있다. 이때, 표적 서열이 DNA인 경우에 표적 서열 내에 존재하는 아데노신(A)에 대해, 상기 가이드 서열은 상기 아데노신(A)에 상보적인 결합을 형성할 수 있는 유리딘(U)을 포함할 수 있다.
일 구현예로서, 상기 가이드 서열은 표적 서열에 대해 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100% 상보적인 서열일 수 있다. 또는 상기 가이드 서열은 표적 서열에 대해 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100% 상보적인 서열일 수 있다. 또는 상기 가이드 서열은 표적 서열에 대해 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100% 상보적인 서열일 수 있다. 또는 상기 가이드 서열은 표적 서열에 대해 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100% 상보적인 서열일 수 있다.
상기 가이드 서열은 프로토스페이서 서열과 동일한 또는 유사한 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열에 대해 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다. 이때, 상기 서열 동일성 또는 서열 유사성은 적어도 70% 이상인 것일 수 있다. 이때, 프로토스페이서 서열 내에 존재하는 티미딘(T)에 대해, 상기 가이드 서열은 티미딘(T) 대신에 유리딘(U)을 포함할 수 있다.
일 구현예로서, 상기 가이드 서열은 프로토스페이서 서열과 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100% 동일한 또는 유사한 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열과 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100% 동일한 또는 유사한 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열과 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100% 동일한 또는 유사한 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열과 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100% 동일한 또는 유사한 서열일 수 있다.
다른 일 구현예로서, 상기 가이드 서열은 프로토스페이서 서열에 적어도 70% 내지 75%, 적어도 70% 내지 80%, 적어도 70% 내지 85%, 적어도 70% 내지 90%, 적어도 70% 내지 95%, 적어도 70% 내지 100%, 적어도 75% 내지 80%, 적어도 75% 내지 85%, 적어도 75% 내지 90%, 적어도 75% 내지 95% 또는 적어도 75% 내지 100%의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열에 적어도 80% 내지 85%, 적어도 80% 내지 90%, 적어도 80% 내지 95%, 적어도 80% 내지 100%, 적어도 85% 내지 90%, 적어도 85% 내지 95% 또는 적어도 85% 내지 100%의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열에 적어도 90% 내지 95%, 적어도 90% 내지 100% 또는 적어도 95% 내지 100%의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다. 또는 상기 가이드 서열은 프로토스페이서 서열에 적어도 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100%의 서열 동일성 또는 서열 유사성을 가지는 서열일 수 있다.
(3) 싱글 가이드 RNA 또는 듀얼 가이드 RNA
본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 싱글 가이드 RNA 또는 듀얼 가이드 RNA일 수 있다. 듀얼 가이드 RNA는 가이드 RNA가 tracrRNA 및 crRNA의 두 분자 RNA로 구성된 것을 의미한다. 싱글 가이드 RNA(sgRNA)는 엔지니어링된 tracrRNA의 3'-말단 및 엔지니어링된 crRNA의 5'-말단이 링커를 통해 연결된 것을 의미한다.
일 구현예에서, 엔지니어링된 싱글 가이드 RNA(sgRNA)는 링커 서열을 추가적으로 더 포함할 수 있고, tracrRNA 서열 및 crRNA 서열이 링커 서열을 통해 연결될 수 있다. 바람직하게, 엔지니어링된 스캐폴드 서열에 포함된 tracrRNA의 tracrRNA-crRNA 상보성 서열의 3'-말단 및 crRNA의 tracrRNA-crRNA 상보성 서열의 5'-말단이 링커를 통해 연결된 것을 포함할 수 있다. 보다 바람직하게, tracrRNA와 crRNA의 tracrRNA-crRNA 상보성 영역은 각각의 3'-말단 및 5'-말단이 링커 5'-GAAA-3'로 연결될 수 있다. 상기 링커에 대한 구체적인 내용은 식 (I)의 Lk에 대한 내용을 참조한다.
일 구현예에서, 싱글 가이드 RNA의 서열은 5'-말단에서 3'-말단 방향으로, tracrRNA 서열, 링커 서열, crRNA 서열 및 U-rich tail 서열이 순차적으로 연결되어 있다. tracrRNA 서열의 일부 및 crRNA 서열에 포함된 CRISPR RNA 반복 서열의 전부 및 일부는 서로 상보적인 서열을 가진다.
또한, 본 발명의 구현예에 따른 엔지니어링된 가이드 RNA는 tracrRNA 및 crRNA가 별개의 RNA 분자를 이루고 있는 듀얼 가이드 RNA일 수 있다. 이 때, tracrRNA의 일부 및 crRNA의 일부는 서로 상보적인 서열을 가져 이중가닥 RNA를 형성할 수 있다. 보다 구체적으로, 듀얼 가이드 RNA에서 tracrRNA의 3'-말단을 포함하는 일부 및 crRNA의 CRISPR RNA 반복 서열을 포함하는 일부가 이중가닥을 형성할 수 있다. 엔지니어링된 가이드 RNA는 Cas12f1, TnpB 또는 이의 변이체 단백질과 결합하여 가이드 RNA 및 상기 단백질의 복합체를 형성할 수 있으며, 상기 crRNA 서열에 포함된 가이드 서열과 상보적인 표적 서열을 인식하여 상기 표적 서열을 포함하는 표적 핵산을 편집할 수 있도록 한다.
일 구현예로, tracrRNA의 서열은 상기 CRISPR RNA 반복 서열과 0개 내지 20개의 미스매치가 있는 상보적인 서열을 포함할 수 있다. 바람직하게, tracrRNA 서열은 CRISPR RNA 반복 서열과 0개 내지 8개 또는 8개 내지 12개의 미스매치가 있는 상보적인 서열을 포함할 수 있다.
(4) 고효율의 상동지정복구 효율 달성을 위한 gRNA의 변형
(4-1) 개괄
본 발명의 엔지니어링된 가이드 RNA(gRNA)에 적용된 변형은 궁극적으로 높은 상동지정복구 효율을 달성하기 위한 목적을 가진다. 즉, 본 발명에서 개시하는 변형들은 길이가 더 긴 야생형의 gRNA와 비교하여 표적 핵산에 대한 인식/절단 효율이 유지 또는 향상된 더 짧은 길이의 엔지니어링된 gRNA를 제조함으로써, AAV 전달체의 패키징 한계치(약 4.7 kb) 내에서 더 많은 공간을 상동지정복구에 필요한 다른 필수 구성요소(예를 들어, 공여자 핵산 분자) 및/또는 부가적 구성요소(예를 들어, 비상동말단연결 과정에 관여하는 유전자의 억제를 위한 shRNA)에 할당할 수 있도록 하여 기존의 CRISPR/Cas 시스템으로는 달성할 수 없었던 고효율의 상동지정복구 효과를 부여하고자 함에 있다.
따라서 본 발명에서 제공하는 엔지니어링된 gRNA는 기본적으로 야생형 Cas12f1 gRNA 서열에서 1 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함한다. 이때, 엔지니어링된 gRNA는 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 gRNA와 적어도 50%의 서열 동일성을 가지는 것일 수 있다.
상술한 바와 같이, 야생형 Cas12f1 gRNA는 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는 tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)를 포함할 수 있으며, 본 발명의 엔지니어링된 gRNA는 (a) 하나 이상의 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) 연속되는 3개 이상의 유라실(U)이 존재하는 경우 그 중 하나 이상의 U의 치환; 및 (d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
여기서, 상기 야생형 Cas12f1 gRNA가 포함하는 tracrRNA는 서열번호 11의 핵산 서열로 이루어지거나 이를 포함하는 것일 수 있다. 또한, 상기 야생형 Cas12f1 gRNA가 포함하는 crRNA는 서열번호 12의 핵산 서열로 이루어지거나 이를 포함하는 것일 수 있다. 일 구체예에서, 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열로 이루어진 crRNA를 포함하는 gRNA일 수 있다. 아래 표 1에 야생형 Cas12f1의 tracrRNA 및 crRNA의 서열 정보가 제공된다.
명칭 | 염기서열 | 서열번호 |
Wild-type tracrRNA | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAA | 11 |
Wild-type crRNA | GUUGCAGAACCCGAAUAGACGAAUGAAGGAAUGCAAC | 12 |
일 구현예에서, 야생형 Cas12f1 gRNA는 5'-말단부터 순차적으로 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 tracrRNA 및 crRNA를 포함하고, 상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함할 수 있다.
여기서, 상기 야생형 Cas12f1 gRNA가 포함하는 tracrRNA는 서열번호 11의 핵산 서열로 이루어지거나 이를 포함하는 것일 수 있다. 또한, 상기 야생형 Cas12f1 gRNA가 포함하는 crRNA는 서열번호 12의 핵산 서열로 이루어지거나 이를 포함하는 것일 수 있다. 일 구체예에서, 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열로 이루어진 crRNA를 포함하는 gRNA일 수 있다.
이하, 엔지니어링된 gRNA에서의 각 변형부위별 변형에 대해 자세히 설명한다.
(4-2) 변형부위 1(modification site 1, MS1)에서의 변형
본 항목에서는 MS1에서의 변형을 기술한다. 일 구현예에서, 자연에 존재하는 가이드 RNA(gRNA)가 될 수 있는 야생형 tracrRNA(예컨대, 서열번호 11)는 서열 내에 연속된 다섯 개의 유라실(U)을 포함하는 서열을 가질 수 있다. 이는 상기 야생형 tracrRNA를 세포 내에서 벡터 등을 이용하여 발현시키고자 할 때, 특정 조건에서는 상기 서열이 전사종결신호로써 작용하여 의도하지 않은 전사의 조기 종결을 야기하는 문제를 안고 있다. 즉, 상기 연속된 다섯 개의 U를 포함하는 서열이 전사종결신호로써 작동하게 되는 경우에는 상기 tracrRNA의 정상적인 또는 완전한 발현이 억제되고, 정상적인 또는 완전한 gRNA의 형성 또한 저해되어 결과적으로 본 발명의 표적 핵산 편집 시스템의 표적 핵산 또는 표적 유전자의 절단 또는 상동지정복구 효율을 감소시킨다.
따라서 상술한 문제점을 해결하기 위해, 엔지니어링된 gRNA는 야생형 tracrRNA(예컨대, 서열번호 11)의 연속된 세 개 이상, 네 개 이상, 다섯 개 이상의 U, 바람직하게는 네 개 또는 다섯 개의 U 중 적어도 하나의 U를 다른 뉴클레오티드인 A, C, T 또는 G로 인위적으로 변형시킨 것일 수 있다.
일 구현예로, MS1으로 지칭되는 연속되는 3개 이상의 유라실(U)을 포함하는 영역에서 연속되는 3개 이상의 U 중 적어도 하나의 U를 다른 종류의 뉴클레오티드로 치환된 변형을 포함하는 엔지니어링된 gRNA가 제공된다. 일 예로, 상기 연속되는 3개 이상의 U는 tracrRNA의 tracrRNA-crRNA 상보성 영역 내에 존재할 수 있으며, 여기서 상기 연속되는 3개 이상의 U 중 하나 이상을 A, G 또는 C로 치환함으로써 3개 이상의 U가 연속되는 서열이 나타나지 않도록 변형될 수 있다.
이때, 상기 변형되는 서열에 대응되는 crRNA의 tracrRNA-crRNA 상보성 영역 내 서열 또한 함께 변형되는 것이 바람직하다. 일 구현예로, tracrRNA의 tracrRNA-crRNA 상보성 영역 내에서 서열 5'-UUUUU-3'과 일부 상보적 결합을 이루는 crRNA의 tracrRNA-crRNA 상보성 영역 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다.
다른 구현예에서, 엔지니어링된 gRNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상 서열 동일성을 갖는 gRNA일 수 있다[하기 식 (I) 및 본 명세서 전체에 기재된 식 (I)에서, 검정색 실선은 뉴클레오티드 또는 특정 분자 사이의 화학적 결합(예를 들어, 포스포다이에스터 결합)을 의미하고, 회색 굵은선은 뉴클레오티드 사이의 상보적 결합을 의미한다]. 여기서 MS1은 식 (I)의 Xc1 및 Xc2로 표시된 폴리뉴클레오티드 내에 존재할 수 있다.
일 구현예로, 상기 식 (I)의 엔지니어링된 gRNA에서 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함할 수 있다. 일 예로, Xc1 서열 내에 서열 5'-UUUUU-3'이 존재하는 경우 해당 서열은 5'-NNNCN-3'으로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, Xc1 서열 내의 서열 5'-UUUUU-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나, 연속되는 3개 이상의 U를 포함하는 서열을 나타나지 않게 하는 것이라면 하기 서열로 제한되지 않는다: 5'-UUUCU-3', 5'-GUUCU-3', 5'-UCUCU-3', 5'-UUGCU-3', 5'-UUUCC-3', 5'-GCUCU-3', 5'-GUUCC-3', 5'-UCGCU-3', 5'-UCUCC-3', 5'-UUGCC-3', 5'-GCGCU-3', 5'-GCUCC-3', 5'-GUGCC-3', 5'-UCGCC-3', 5'-GCGCC-3' 및 5'-GUGCU-3'.
다른 구현예로, 식 (I)의 엔지니어링된 gRNA에서 Xc2 서열은 Xc1 서열과 적어도 일부 서열이 상보적 결합을 이루는 영역을 포함하며(tracrRNA-crRNA 상보성 영역으로도 지칭됨), 이때 Xc1 서열 내에 존재하는 연속되는 3개 이상의 U와 적어도 하나의 상보성 결합을 형성하는 Xc2 서열 내의 대응 서열도 함께 변형될 수 있다. 일 예로, 상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열은 5'-NGNNN-3'로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 보다 구체화된 예로, Xc1 서열 내의 서열 5'-ACGAA-3'은 하기 서열로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 치환될 수 있으나 하기 서열에 제한되는 것은 아니다: 5'-AGGAA-3', 5'-AGCAA-3', 5'-AGAAA-3', 5'-AGCAU-3', 5'-AGCAG-3', 5'-AGCAC-3', 5'-AGCUA-3', 5'-AGCGA-3', 5'-AGCCA-3', 5'-UGCAA-3', 5'-UGCUA-3', 5'-UGCGA-3', 5'-UGCCA-3', 5'-GGCAA-3', 5'-GGCUA-3', 5'-GGCGA-3', 5'-GGCCA-3', 5'-CGCAA-3', 5'-CGCUA-3', 5'-CGCGA-3' 및 5'-CGCCA-3'.
다른 구현예에서, Xc1 서열 내의 연속되는 3개 이상의 U를 포함하는 서열이 다른 서열로 변형되는 경우, 이에 대응되는(즉, 적어도 일부가 상보적 결합을 형성하는) Xc2 서열 내의 대응되는 뉴클레오티드는 변형된 뉴클레오티드와 상보적 결합을 이룰 수 있도록 변형되는 것이 바람직하다. 예를 들어, Xc1 서열 내의 서열 5'-UUUUU-3'이 5'-GUGCU-3'으로 변형되는 경우 Xc2 서열 내의 서열 5'-ACGAA-3'은 5'-AGCAA-3'로 변형되는 것이 바람직하나, 상보적 결합이 필수로 요구되는 것은 아니다.
(4-3) 변형부위 2(modification site 2, MS2)에서의 변형
본 항목에서는 MS2에서의 변형을 기술한다. 일 구현예에서, 엔지니어링된 가이드 RNA(gRNA)는 자연계에서 발견되는 gRNA에 새로운 구성을 추가한 것으로서 crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)이 부가된 것일 수 있다. 여기서, 상기 crRNA 서열의 3'-말단은 가이드 서열(스페이서)의 3'-말단일 수 있다. 본 명세서에서 상기 3'-말단에 부가된 하나 이상의 유리딘은 U-rich tail로도 지칭된다. 상기 3'-말단에 부가된 하나 이상의 유리딘 또는 U-rich tail을 포함하는 엔지니어링된 gRNA는 초소형 CRISPR/Cas12 시스템의 표적 핵산 또는 표적 유전자에 대한 핵산 절단 또는 상동지정복구 효율을 높이는 역할을 한다.
본 명세서에서 사용되는 용어 "U-rich tail"은 유리딘(U)이 풍부하게 포함된 RNA 서열 그 자체뿐 아니라, 이를 암호화하는 DNA 서열을 의미할 수도 있으며, 이는 문맥에 따라서 적절하게 해석된다. 본 발명자들은 U-rich tail 서열의 구조 및 그 효과에 대해 실험적으로 자세히 밝혔으며, 이하 구체적인 구현예로 더 자세히 설명한다.
일 구현예에서, U-rich tail 서열은 Ux로 표현될 수 있다. 상기 x는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20일 수 있다. 일 예로, x는 상기 나열된 수치 중에서 선택된 두 수치 범위 내의 정수일 수 있다. 예를 들어, x는 1 내지 6 사이의 정수일 수 있다. 또 다른 예를 들어, x는 1 내지 20 사이의 정수일 수 있다. 일 구현예로, x는 20 이상의 정수일 수 있다.
다른 구현예에서, U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수일 수 있다. 일 예로, 상기 n은 0, 1 또는 2일 수 있다. 일 예로, 상기 m 및 o는 각각 독립적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상 서열 동일성을 갖는 gRNA일 수 있고, 여기서 MS2는 식 (I)의 (UmV)nUo에 대응되는 영역으로서 U는 유리딘이고, V, m, o 및 n은 위에 정의된 바와 같다.
바람직하게는, 상기 식 (I)로 표시되는 엔지니어링된 gRNA에서 (UmV)nUo는 (i) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ii) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인 U-rich tail일 수 있다. 구체화된 예에서, 상기 식 (I)의 (UmV)nUo는 5'-U-3', 5'-UU-3', 5'-UUU-3', 5'-UUUU-3', 5'-UUUUU-3', 5'-UUUUUU-3', 5'-UUURUUU-3', 5'-UUURUUURUUU-3', 5'-UUUURU-3', 5'-UUUURUU-3', 5'-UUUURUUU-3', 5'-UUUURUUUU-3', 5'-UUUURUUUUU-3' 및 5'-UUUURUUUUUU-3'로 이루어진 군에서 선택된 어느 하나의 서열로 이루어지고, 상기 R은 A 또는 G인 U-rich tail일 수 있다.
또 다른 구현예에서, U-rich tail 서열은 유리딘이 1개 내지 5개 반복될 때마다 유리딘이 아닌 다른 리보뉴클레오시드(A, C 또는 G)가 하나씩 포함된 변형된 유리딘 반복 서열을 포함할 수 있다. 상기 변형된 유리딘 연속 서열은 특히 엔지니어링된 crRNA를 발현하는 벡터를 설계할 때 유용하다. 일 구현예로, U-rich tail 서열은 UV, UUV, UUUV, UUUUV 및/또는 UUUUUV가 하나 이상 반복된 서열을 포함할 수 있다. 이때, 상기 V는 A, C, G 중 하나이다.
또한, 상기 U-rich tail 서열은 Ux로 표현되는 서열 및 (UaV)n로 표현되는 서열이 조합된 형태일 수 있다. 일 구현예로, 상기 U-rich tail 서열은 (U)n1-V1-(U)n2-V2-Ux로 표현될 수 있다. 이때, V1 및 V2는 각각 아데닌(A), 시티딘(C), 구아닌(G) 중 하나이다. 이때, 상기 n1 및 n2는 각각 1 내지 4 사이의 정수일 수 있다. 이때, 상기 x는 1 내지 20 사이의 정수일 수 있다. 또한, 상기 U-rich tail 서열의 길이는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 또는 20nt일 수 있다. 일 구현예로, 상기 U-rich tail 서열의 길이는 20nt 이상일 수 있다.
다른 구현예에서, 엔지니어링된 gRNA가 세포 내에서 발현될 경우 U-rich tail은 전사 조기 종결에 의해 복수의 형태로 존재할 수 있다. 예를 들어, 일 구현예에 따라 5'-UUUUAUUUUUU-3' 서열의 U-rich tail이 포함되도록 의도한 gRNA가 세포 내에서 전사될 때 4개 이상 또는 5개 이상의 T는 종결 시퀀스로 작용할 수 있으므로, 5'-UUUUAUUUU-3', 5'-UUUUAUUUUU-3' 또는 5'-UUUUAUUUUUU-3' 등의 U-rich tail을 포함하는 gRNA가 동시에 생성될 수 있다. 따라서, 본 발명에서 4개 이상의 U가 포함된 U-rich tail은 의도한 길이보다 더 짧은 길이의 U-rich tail 서열을 함께 포함하는 것으로 이해될 수 있다.
또 다른 구현예에서, U-rich tail 서열은 본 발명의 상동지정복구를 위한 CRISPR/Cas12 시스템의 실사용 환경 및 발현 환경, 예를 들어 진핵 세포 또는 원핵 세포 내부 환경에 따라 유리딘 외에 추가적인 염기를 더 포함할 수 있다.
(4-4) 변형부위 3(modification site 3, MS3)에서의 변형
본 항목에서는 MS3에서의 변형을 기술한다. 상술한 바와 같이 MS3은 gRNA 및 이펙터 단백질 복합체 내에서 스템 구조를 형성하는 뉴클레오티드의 일부 또는 전부를 포함하는 부위(제1 스템 영역으로 지칭될 수 있음)로서, 상기 MS3는 gRNA 및 이펙터 단백질이 복합체를 이룰 때 이펙터 단백질과 상호작용하지 않는 영역을 포함할 수 있다. MS3에서의 변형은 tracrRNA의 5'-말단 부근의 제1 스템 영역의 일부 또는 전부의 제거를 포함한다.
일 구현예에서, 엔지니어링된 gRNA는 제1 스템 영역의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA 상의 제1 스템 영역의 일부 또는 전부가 결실된 변형을 포함하며, 이때 상기 결실되는 제1 스템 영역의 일부 또는 전부는 1개 내지 20개 뉴클레오티드일 수 있다. 구체적으로, 상기 제1 스템 영역의 일부 또는 전부는 2개 내지 20개, 3개 내지 20개, 4개 내지 20개, 5개 내지 20개, 6개 내지 20개, 7개 내지 20개, 8개 내지 20개, 9개 내지 20개, 10개 내지 20개, 11개 내지 20개, 12개 내지 20개, 13개 내지 20개, 14개 내지 20개, 15개 내지 20개, 16개 내지 20개, 17개 내지 20개, 18개 내지 20개, 19개 또는 20개 뉴클레오티드일 수 있다.
또 다른 구현예에서, 엔지니어링된 gRNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상 서열 동일성을 갖는 gRNA일 수 있고, 여기서 MS3 또는 제1 스템 영역은 식 (I)의 Xa로 표시된 폴리뉴클레오티드에 대응되는 부위로서, 제1 스템 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xa는 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있고, 바람직하게는 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 상기 식 (I)의 엔지니어링된 gRNA에서 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열의 전부 또는 일부, 바람직하게는 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 일 예로, 상기 뉴클레오티드의 결실은 서열번호 14의 서열에서 뉴클레오티드가 무작위로 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개가 결실된 것일 수 있다. 바람직한 예로, 상기 뉴클레오티드의 결실은 서열번호 14의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개 15개, 16개, 17개, 18개, 19개 또는 20개의 뉴클레오티드가 5'-말단부터 순차적으로 결실된 것일 수 있다. 보다 구체적으로, 상기 Xa는 5'-CUUCACUGAUAAAGUGGAGA-3'(서열번호 14), 5'-UUCACUGAUAAAGUGGAGA-3'(서열번호 15), 5'-UCACUGAUAAAGUGGAGA-3'(서열번호 16), 5'-CACUGAUAAAGUGGAGA-3'(서열번호 17), 5'-ACUGAUAAAGUGGAGA-3'(서열번호 18), 5'-CUGAUAAAGUGGAGA-3'(서열번호 19), 5'-UGAUAAAGUGGAGA-3'(서열번호 20), 5'-GAUAAAGUGGAGA-3'(서열번호 21), 5'-AUAAAGUGGAGA-3'(서열번호 22), 5'-UAAAGUGGAGA-3'(서열번호 23), 5'-AAAGUGGAGA-3'(서열번호 24), 5'-AAGUGGAGA-3', 5'-AGUGGAGA-3', 5'-GUGGAGA-3', 5'-UGGAGA-3', 5'-GGAGA-3', 5'-GAGA-3', 5'-AGA-3', 5'-GA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xa는 부존재할 수 있다.
(4-5) 변형부위 4(modification site 4, MS4)에서의 변형
본 항목에서는 MS4에서의 변형을 기술한다. MS4는 tracrRNA의 3'-말단부 및 crRNA의 5'-말단부에 걸쳐 위치한 부위, 또는 싱글 가이드 RNA 형태인 경우 tracrRNA에 해당하는 서열과 crRNA에 해당하는 서열이 적어도 일부 상보적 결합을 이루는 부위로서 tracrRNA-crRNA 상보성 영역(제5 스템 영역으로도 지칭될 수 있음)으로 지칭되는 서열의 일부 또는 전부를 포함할 수 있다. 본 발명에서 tracrRNA-crRNA 상보성 영역은 변형부위 1(MS1)과 변형부위 4(MS4)를 함께 포함할 수 있다. MS4에서의 변형은 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다. 상기 tracrRNA-crRNA 상보성 영역은 tracrRNA의 일부 및 crRNA의 일부를 포함하여, gRNA 및 핵산 분해 단백질의 복합체 내에서 tracrRNA에 포함된 일부 뉴클레오티드가 crRNA에 포함된 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. tracrRNA의 tracrRNA-crRNA 상보성 영역은 gRNA와 핵산 분해 단백질 복합체 내에서 핵산 분해 단백질과 상호작용하지 않는 영역을 포함할 수 있다.
일부 구현예에서, 엔지니어링된 gRNA는 tracrRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, crRNA에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실, 또는 상기 tracrRNA 및 crRNA 모두에서의 tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 일부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 일부는 1개 내지 54개 뉴클레오티드일 수 있다.
또 다른 구현예에서, 엔지니어링된 gRNA는 tracrRNA-crRNA 상보성 영역의 전부가 결실된 변형을 포함하며, 이때 결실되는 상기 상보성 영역의 전부는 55개 뉴클레오티드일 수 있다.
구체적으로, 상기 tracrRNA-crRNA 상보성 영역의 일부 또는 전부는 3개 내지 55개, 5개 내지 55개, 7개 내지 55개, 9개 내지 55개, 11개 내지 55개, 13개 내지 55개, 15개 내지 55개, 17개 내지 55개, 19개 내지 55개, 21개 내지 55개, 23개 내지 55개, 25개 내지 55개, 27개 내지 55개, 29개 내지 55개, 31개 내지 55개, 33개 내지 55개, 35개 내지 55개, 37개 내지 55개, 39개 내지 55개 또는 41개 내지 55개 뉴클레오티드일 수 있으며, 바람직하게는 42개 내지 55개, 43개 내지 55개, 44개 내지 55개, 45개 내지 55개, 46개 내지 55개, 47개 내지 55개, 48개 내지 55개, 49개 내지 55개, 50개 내지 55개, 51개 내지 55개, 52개 내지 55개, 53개 내지 55개, 54개 또는 55개 뉴클레오티드일 수 있다.
또 다른 구현예에서, 엔지니어링된 gRNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상 서열 동일성을 갖는 gRNA일 수 있고, 여기서 MS4 또는 tracrRNA-crRNA 상보성 영역은 식 (I)의 Xc1 및 Xc2로 표시된 폴리뉴클레오티드에 대응되는 영역으로서, tracrRNA-crRNA 상보성 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
바람직하게, 상기 Xc1은 0 내지 28개, 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, 상기 Xc2는 0 내지 27개, 0 내지 26개, 0 내지 25개, 0 내지 24개, 0 내지 23개, 0 내지 22개, 0 내지 21개, 0 내지 20개, 0 내지 19개, 0 내지 18개, 0 내지 17개, 0 내지 16개, 0 내지 15개, 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 상기 식 (I)의 엔지니어링된 gRNA에서 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 39의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개 또는 28개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc1은 5'-UUCAUUUUUCCUCUCCAAUUCUGCACAA-3'(서열번호 39), 5'-UUCAUUUUUCCUCUCCAAUUCUGCACA-3'(서열번호 40), 5'-UUCAUUUUUCCUCUCCAAUUCUGCAC-3'(서열번호 41), 5'-UUCAUUUUUCCUCUCCAAUUCUGCA-3'(서열번호 42), 5'-UUCAUUUUUCCUCUCCAAUUCUGC-3'(서열번호 43), 5'-UUCAUUUUUCCUCUCCAAUUCUG-3'(서열번호 44), 5'-UUCAUUUUUCCUCUCCAAUUCU-3'(서열번호 45), 5'-UUCAUUUUUCCUCUCCAAUUC-3'(서열번호 46), 5'-UUCAUUUUUCCUCUCCAAUU-3'(서열번호 47), 5'-UUCAUUUUUCCUCUCCAAU-3'(서열번호 48), 5'-UUCAUUUUUCCUCUCCAA-3'(서열번호 49), 5'-UUCAUUUUUCCUCUCCA-3'(서열번호 50), 5'-UUCAUUUUUCCUCUCC-3'(서열번호 51), 5'-UUCAUUUUUCCUCUC-3'(서열번호 52), 5'-UUCAUUUUUCCUCU-3'(서열번호 53), 5'-UUCAUUUUUCCUC-3'(서열번호 54), 5'-UUCAUUUUUCCU-3'(서열번호 55), 5'-UUCAUUUUUCC-3'(서열번호 56), 5'-UUCAUUUUUC-3'(서열번호 57), 5'-UUCAUUUUU-3', 5'-UUCAUUUU-3', 5'-UUCAUUU-3', 5'-UUCAUU-3', 5'-UUCAU-3', 5'-UUCA-3', 5'-UUC-3', 5'-UU-3' 또는 5'-U-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc1은 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc1 서열 내에 3개, 4개 또는 5개 이상의 유라실(U)을 포함하는 영역이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(4-2) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
또 다른 구현예로, 상기 식 (I)의 엔지니어링된 gRNA에서 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 58의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개 또는 27개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xc2는 5'-GUUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 58), 5'-UUGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 59), 5'-UGCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 60), 5'-GCAGAACCCGAAUAGACGAAUGAA-3'(서열번호 61), 5'-CAGAACCCGAAUAGACGAAUGAA-3'(서열번호 62), 5'-AGAACCCGAAUAGACGAAUGAA-3'(서열번호 63), 5'-GAACCCGAAUAGACGAAUGAA-3'(서열번호 64), 5'-AACCCGAAUAGACGAAUGAA-3'(서열번호 65), 5'-ACCCGAAUAGACGAAUGAA-3'(서열번호 66), 5'-CCCGAAUAGACGAAUGAA-3'(서열번호 67), 5'-CCGAAUAGACGAAUGAA-3'(서열번호 68), 5'-CGAAUAGACGAAUGAA-3'(서열번호 69), 5'-GAAUAGACGAAUGAA-3'(서열번호 70), 5'-AAUAGACGAAUGAA-3'(서열번호 71), 5'-AUAGACGAAUGAA-3'(서열번호 72), 5'-UAGACGAAUGAA-3'(서열번호 73), 5'-AGACGAAUGAA-3'(서열번호 74), 5'-GACGAAUGAA-3'(서열번호 75), 5'-ACGAAUGAA-3', 5'-CGAAUGAA-3', 5'-GAAUGAA-3', 5'-AAUGAA-3', 5'-AUGAA-3', 5'-UGAA-3', 5'-GAA-3', 5'-AA-3' 또는 5'-A-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xc2는 부존재할 수 있다.
이때, 일부 뉴클레오티드가 제거된 Xc2 서열 내에 Xc1 서열 내 3개 이상, 3개, 4개 또는 5개 이상의 U를 포함하는 서열에 대응되는 서열이 존재하는 경우에는 상술한 MS1에서의 변형이 또한 적용될 수 있다. MS1에 대한 구체적인 내용은 상기 "(4-2) 변형부위 1(modification site 1, MS1)에서의 변형" 항목을 참조한다.
상술한 식 (I)의 엔지니어링된 gRNA에서 Xc1과 Xc2에 해당하는 영역은 각각 독립적으로 변형될 수 있으나, MS4 또는 tracrRNA-crRNA 상보성 영역은 tracrRNA와 crRNA가 상보적 결합을 이루는 영역으로서 듀얼 가이드 RNA로 작동하기 위해서는 Xc1 및 Xc2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 즉, 상보성의 보존을 위해, MS4(tracrRNA-crRNA 상보성 영역)에서 tracrRNA의 3'-말단에 위치한 서열부터 순차적으로 결실시키는 경우 crRNA는 5'-말단 서열부터 순차적으로 결실시키는 것이 바람직하다.
일부 구현예에서, 식 (I)의 엔지니어링된 gRNA에서 Xc1의 3'-말단과 Xc2의 5'-말단은 링커(Lk)로 연결되어 싱글 가이드 RNA(sgRNA) 형태로 변형될 수 있다. 상기 Lk는 tracrRNA 및 crRNA을 물리적 또는 화학적으로 연결하는 서열로서, 길이 1 내지 30개의 폴리뉴클레오티드 서열일 수 있다. 일 구현예로서, 상기 Lk는 1 내지 5개, 5 내지 10개, 10 내지 15개, 2 내지 20개, 15 내지 20개, 20개 내지 25개 또는 25 내지 30개의 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 Lk는 5'-GAAA-3' 서열일 수 있으나, 이에 제한되는 것은 아니다. 다른 예로, 상기 Lk는 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 또는 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)의 서열을 포함하거나 이로 이루어진 링커일 수 있다.
한편, sgRNA로 만들기 위해 링커(Lk)를 사용하는 것도 가능하지만, 3'-말단부의 일부 서열이 제거된 tracrRNA의 3' 말단부와 5'-말단부의 일부 서열이 제거된 crRNA의 3'-말단부를 직접 연결하는 것도 가능하다.
또 다른 구현예로, 식 (I)의 엔지니어링된 gRNA에서 Xc1과 Xc2가 링커로 연결되는 경우, 식 (I)에서와 같이 5'-Xc1-Lk-Xc2-3'로 표현될 수 있으며, 이는 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 어느 하나의 핵산 서열일 수 있으나, 이에 제한되는 것은 아니다.
(4-6) 변형부위 5(modification site 5, MS5)에서의 변형
본 항목에서는 MS5에서의 변형을 기술한다. 상술한 바와 같이, MS5는 제2 스템 영역으로 지칭되는 tracrRNA 내 3'-말단 방향에 위치한 영역에 대응된다. 상기 제2 스템 영역은 가이드 RNA(gRNA) 및 핵산 편집 단백질 복합체 내에서 스템 구조를 형성하는 뉴클레오티드를 포함하고, 이와 인접한 뉴클레오티드를 포함할 수 있다. 이때, 상기 스템 구조는 상술한 제1 스템 영역에 포함된 스템과는 구분되는 것이다.
일 구현예에서, 엔지니어링된 gRNA는 제2 스템 영역의 일부 또는 전부가 결실된 변형을 포함한다.
다른 구현예에서, 엔지니어링된 gRNA는 제2 스템 영역의 일부 또는 전부의 결실을 포함하고, 이때 상기 결실되는 제2 스템 영역의 일부 또는 전부는 1개 내지 27개 뉴클레오티드일 수 있다. 구체적으로, 상기 제2 스템 영역의 일부 또는 전부는 2개 내지 27개, 3개 내지 27개, 4개 내지 27개, 5개 내지 27개, 6개 내지 27개, 7개 내지 27개, 8개 내지 27개, 9개 내지 27개, 10개 내지 27개, 11개 내지 27개, 12개 내지 27개, 13개 내지 27개, 14개 내지 27개, 15개 내지 27개, 16개 내지 27개, 17개 내지 27개, 18개 내지 27개, 19개 내지 27개, 20개 내지 27개, 21개 내지 27개, 22개 내지 27개, 23개 내지 27개, 24개 내지 27개, 25개 내지 27개, 26개 또는 27개의 뉴클레오티드일 수 있다.
또 다른 구현예에서, 엔지니어링된 gRNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상, 85% 이상, 90% 이상 또는 95% 이상 서열 동일성을 갖는 gRNA일 수 있고, 여기서 MS5 또는 제2 스템 영역은 식 (I)의 Xb1 및 Xb2로 표시된 폴리뉴클레오티드와 인접한 (폴리)뉴클레오티드(5'-UUAG-3' 서열의 루프 포함)를 포함하는 부위로서, 제2 스템 영역의 일부 또는 전부가 결실된 변형에 의해 상기 Xb1 및 Xb2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어질 수 있다.
바람직하게, 상기 Xb1은 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다. 또한, 바람직하게, 상기 Xb2는 0 내지 14개, 0 내지 13개, 0 내지 12개, 0 내지 11개, 0 내지 10개, 0 내지 9개, 0 내지 8개, 0 내지 7개, 0 내지 6개, 0 내지 5개, 0 내지 4개, 0 내지 3개, 0 내지 2개, 1개 또는 0개의 (폴리)뉴클레오티드로 이루어질 수 있다.
일 구현예로, 상기 식 (I)의 엔지니어링된 gRNA에서 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 25의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개 또는 13개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb1은 5'-CAAAAGCUGUCCC-3'(서열번호 25), 5'-CAAAAGCUGUCC-3'(서열번호 26), 5'-CAAAAGCUGUC-3'(서열번호 27), 5'-CAAAAGCUGU-3'(서열번호 28), 5'-CAAAAGCUG-3', 5'-CAAAAGCU-3', 5'-CAAAAGC-3', 5'-CAAAAG-3', 5'-CAAAA-3', 5'-CAAA-3', 5'-CAA-3', 5'-CA-3' 또는 5'-C-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
다른 구현예로, 상기 식 (I)의 엔지니어링된 gRNA에서 Xb2는 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함할 수 있다. 바람직하게, 상기 뉴클레오티드의 결실은 서열번호 29의 서열에서 5'-말단으로부터 적어도 1개, 2개, 3개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개 또는 14개의 뉴클레오티드가 순차적으로 제거된 것일 수 있다. 보다 구체적으로, 상기 Xb2는 5'-GGGAUUAGAACUUG-3' (서열번호 29), 5'-GGAUUAGAACUUG-3'(서열번호 30), 5'-GAUUAGAACUUG-3'(서열번호 31), 5'-AUUAGAACUUG-3'(서열번호 32), 5'-UUAGAACUUG-3'(서열번호 33), 5'-UAGAACUUG-3', 5'-AGAACUUG-3', 5'-GAACUUG-3', 5'-AACUUG-3', 5'-ACUUG-3', 5'-CUUG-3', 5'-UUG-3', 5'-UG-3' 또는 5'-G-3'의 서열을 포함하거나 이로 이루어질 수 있고, 또는 Xb1은 부존재할 수 있다.
상술한 식 (I)의 엔지니어링된 gRNA에서 Xb1과 Xb2에 해당하는 영역은 각각 독립적으로 변형될 수 있으나, 정상적인 스템-루프 구조의 보존을 위해 Xb1 및 Xb2 각각에서 결실되는 뉴클레오티드의 위치와 개수를 동일하거나 유사하게 하는 것이 바람직하다. 예를 들어, Xb1에서 5'-말단 방향의 서열부터 순차적으로 결실시키는 경우 Xb2에서는 3'-말단 방향의 서열부터 순차적으로 결실시키는 것이 바람직하다.
다른 구현예에서, 식 (I)의 엔지니어링된 gRNA의 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'로 표시되어 있으나, 이는 필요에 따라 5'-NNNN-3', '5-NNN-3' 등의 다른 서열로 치환될 수 있다. 여기서, N은 각각 독립적으로 A, C, G 또는 U이다. 예를 들면, 상기 5'-NNNN-3'는 5'-GAAA-3'일 수 있고, 상기 '5-NNN-3'은 5'-CGA-3'일 수 있다.
일 예로서, 식 (I)의 엔지니어링된 gRNA의 Xb1과 Xb2를 연결하는 루프(Loop) 부분의 서열은 5'-UUAG-3'이고, 상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하거나 이로 이루어진 것일 수 있다.
(5) 추가 서열(additional sequence)
본 발명의 상기 엔지니어링된 tracrRNA는 추가 서열(additional sequence)을 선택적으로 더 포함할 수 있다. 상기 추가 서열은 엔지니어링된 tracrRNA의 3'-말단에 위치할 수 있다. 또한, 상기 추가 서열은 또한 엔지니어링된 tracrRNA의 5'-말단에 위치할 수도 있다. 예를 들어, 상기 추가 서열은 제1 스템 영역의 5'-말단에 위치할 수 있다.
상기 추가 서열은 1개 내지 40개의 뉴클레오티드일 수 있다. 일 구현예로서, 상기 추가 서열은 임의의 뉴클레오티드 서열 또는 임의로 배열된 뉴클레오티드 서열일 수 있다. 예를 들어, 상기 추가 서열은 5'-AUAAAGGUGA-3'(서열번호 187) 서열일 수 있다.
또한, 상기 추가 서열은 공지된 뉴클레오티드 서열일 수 있다. 일 예로, 상기 추가 서열은 망치머리형 리보자임(hammerhead ribozyme) 뉴클레오티드 서열일 수 있다. 여기서, 상기 망치머리형 리보자임의 뉴클레오티드 서열은 5'-CUGAUGAGUCCGUGAGGACGAAACGAGUAAGCUCGUC-3'(서열번호 188) 서열 또는 5'-CUGCUCGAAUGAGCAAAGCAGGAGUGCCUGAGUAGUC-3'(서열번호 189) 서열일 수 있다. 상기 열거한 서열들은 단순 예시로서, 추가 서열이 이에 제한되는 것은 아니다.
(5) 변형부위 1 내지 변형부위 5에서의 변형이 적용된 gRNA의 예시
본 발명의 표적 핵산 편집 시스템에 포함되는 엔지니어링된 가이드 RNA(gRNA)는 상술한 변형부위 1(MS1) 내지 변형부위 5(MS5) 중 둘 이상의 변형부위에서의 변형을 포함하는 것일 수 있다.
일부 구현예에서, 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실; (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는 것일 수 있다. 상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시될 수 있고, 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
일 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가 및 (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환을 포함하는 것일 수 있다.
다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환 및 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있다.
또 다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템 영역의 일부 또는 전부의 결실 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
또 다른 예로, 상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가, (a1) 제1 스템 영역의 일부 또는 전부의 결실, (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실 및 (a2) 제2 스템 영역의 일부 또는 전부의 결실을 포함하는 것일 수 있으며, 상기 일부 결실을 포함하는 tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로의 치환이 추가로 포함될 수 있다.
상술한 복수의 변형부위(MS)에서의 변형이 적용된 tracrRNA의 예시로서 서열번호 87 내지 서열번호 132의 뉴클레오티드 서열 포함하는 엔지니어링된 tracrRNA가 제공된다.
구체적으로, 본 발명의 엔지니어링된 tracrRNA는 서열번호 87(MS1), 서열번호 88(MS1/MS3-1), 서열번호 89(MS1/MS3-2), 서열번호 90(MS1/MS3-3), 서열번호 91(MS1/MS4*-1), 서열번호 92 (MS1/MS4*-2), 서열번호 93(MS1/MS4*-3), 서열번호 94(MS1/MS5-1), 서열번호 95(MS1/MS5-2), 서열번호 96(MS1/MS5-3), 서열번호 97(MS1/MS3-3/MS4*-1), 서열번호 98(MS1/MS3-3/MS4*-2), 서열번호 99(MS1/MS3-3/MS4*-3), 서열번호 100(MS1/MS4*-2/MS5-1), 서열번호 101(MS1/MS4*-2/MS5-2), 서열번호 102(MS1/MS4*-2/MS5-3), 서열번호 103(MS1/MS3-3/MS5-1), 서열번호 104(MS1/MS3-3/MS5-2), 서열번호 105(MS1/MS3-3/MS5-3), 서열번호 106(MS1/MS3-3/MS4*-2/MS5-3), 서열번호 107(mature form, MF), 서열번호 108(MF/MS3-1), 서열번호 109(MF/MS3-2), 서열번호 110(MF/MS3-3), 서열번호 111(MF/MS4-1), 서열번호 112(MF/MS4-2), 서열번호 113(MF/MS4-3), 서열번호 114(MF/MS5-1), 서열번호 115(MF/MS5-2), 서열번호 116(MF/MS5-3), 서열번호 117(MF/MS5), 서열번호 118(MF/MS3-3/MS4-1), 서열번호 119(MF/MS3-3/MS4-2), 서열번호 120(MF/MS3-3/MS4-3), 서열번호 121(MF/MS4-3/MS5-1), 서열번호 122(MF/MS4-3/MS5-2), 서열번호 123(MF/MS4-3/MS5-3), 서열번호 124(MF/MS4-3/MS5-F), 서열번호 125(MF/MS3-3/MS5-1), 서열번호 126(MF/MS3-3/MS5-2), 서열번호 127(MF/MS3-3/MS5-3), 서열번호 128(MF/MS3-3/MS5), 서열번호 129(MF/MS3-3/MS4-3/MS5-3), 서열번호 130(MF/MS3-3/MS4-1/MS5), 서열번호 131(MF/MS3-3/MS4-2/MS5) 또는 서열번호 132(MF/MS3-3/MS4-3/MS5)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
일부 구현예로서, MS1, MS3, MS4 및 MS5에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 tracrRNA의 예시적인 서열을 하기 표 2에 나타내었다.
tracrRNA | 염기서열 | 서열번호 |
MS1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 87 |
MS1/MS3-1 | GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 88 |
MS1/MS3-2 | UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 89 |
MS1/MS3-3 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 90 |
MS1/MS4*-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC | 91 |
MS1/MS4*-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC | 92 |
MS1/MS4*-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU | 93 |
MS1/MS5-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 94 |
MS1/MS5-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 95 |
MS1/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 96 |
MS1/MS3-3/MS4*-1 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUC | 97 |
MS1/MS3-3/MS4*-2 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC | 98 |
MS1/MS3-3/MS4*-3 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCU | 99 |
MS1/MS4*-2/MS5-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC | 100 |
MS1/MS4*-2/MS5-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC | 101 |
MS1/MS4*-2/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC | 102 |
MS1/MS3-3/MS5-1 | ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 103 |
MS1/MS3-3/MS5-2 | ACCGCUUCACCAAAAGCUUAGGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 104 |
MS1/MS3-3/MS5-3 | ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAA | 105 |
MS1/MS3-3/MS4*-2/MS5-3 | ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUC | 106 |
Mature Form(MF) | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 107 |
MF/MS3-1 | GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 108 |
MF/MS3-2 | UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 109 |
MF/MS3-3 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 110 |
MF/MS4-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU | 111 |
MF/MS4-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC | 112 |
MF/MS4-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 113 |
MF/MS5-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 114 |
MF/MS5-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 115 |
MF/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 116 |
MF/MS5 | CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 117 |
MF/MS3-3/MS4-1 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU | 118 |
MF/MS3-3/MS4-2 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC | 119 |
MF/MS3-3/MS4-3 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 120 |
MF/MS4-3/MS5-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 121 |
MF/MS4-3/MS5-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 122 |
MF/MS4-3/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 123 |
MF/MS4-3/MS5 | CUUCACUGAUAAAGUGGAGAACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 124 |
MF/MS3-3/MS5-1 | ACCGCUUCACCAAAAGCUGUUUAGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 125 |
MF/MS3-3/MS5-2 | ACCGCUUCACCAAAAGCUUUAGAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 126 |
MF/MS3-3/MS5-3 | ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 127 |
MF/MS3-3/MS5 | ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUU | 128 |
MF/MS3-3/MS4-3/MS5-3 | ACCGCUUCACCAAUUAGUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 129 |
MF/MS3-3/MS4-1/MS5 | ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAU | 130 |
MF/MS3-3/MS4-2/MS5 | ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUC | 131 |
MF/MS3-3/MS4-3/MS5 | ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAA | 132 |
또한, 상기 복수의 변형부위(MS)에서의 변형이 적용된 crRNA의 예시로서 서열번호 133 내지 서열번호 148의 뉴클레오티드 서열 포함하는 엔지니어링된 crRNA가 제공된다.
구체적으로, 본 발명의 엔지니어링된 crRNA는 서열번호 133(MS1), 서열번호 134(MS1/MS4*-1), 서열번호 135(MS1/MS4*-2), 서열번호 136(MS1/MS4*-3), 서열번호 137(mature form; MF), 서열번호 138(MF/MS4-1), 서열번호 139(MF/MS4-2), 서열번호 140(MF/MS4-3), 서열번호 141(MS1/MS2), 서열번호 142(MS1/MS2/MS4*-1), 서열번호 143(MS1/MS2/MS4*-2), 서열번호 144(MS1/MS2/MS4*-3), 서열번호 145(MF/MS2), 서열번호 146(MF/MS2/MS4-1), 서열번호 147(MF/MS2/MS4-2) 또는 서열번호 148(MF/MS2/MS4-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 것일 수 있다.
일부 구현예로서, MS1, MS2 및 MS4에서 선택된 어느 하나 이상의 변형부위에서 하나 이상의 변형을 갖는 엔지니어링된 crRNA의 예시적인 서열을 하기 표 3에 나타내었다.
crRNA | 염기서열 | 서열번호 |
MS1 | GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAAC | 133 |
MS1/MS4*-1 | GAACCCGAAUAGAGCAAUGAAGGAAUGCAAC | 134 |
MS1/MS4*-2 | GAAUAGAGCAAUGAAGGAAUGCAAC | 135 |
MS1/MS4*-3 | AGCAAUGAAGGAAUGCAAC | 136 |
MF | GAAUGAAGGAAUGCAAC | 137 |
MF/MS4-1 | AUGAAGGAAUGCAAC | 138 |
MF/MS4-2 | GAAGGAAUGCAAC | 139 |
MF/MS4-3 | GGAAUGCAAC | 140 |
MS1/MS2 | GUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 141 |
MS1/MS2/MS4*-1 | GAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 142 |
MS1/MS2/MS4*-2 | GAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 143 |
MS1/MS2/MS4*-3 | AGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 144 |
MF/MS2 | GAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 145 |
MF/MS2/MS4-1 | AUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 146 |
MF/MS2/MS4-2 | GAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 147 |
MF/MS2/MS4-3 | GGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 148 |
상기 표 3에서, 필요한 경우를 제외하고 모든 crRNA 서열에서 가이드 서열(스페이서)의 표시를 생략하였으며, 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자 내의 표적 서열과 혼성화할 수 있는 임의의 가이드 서열(스페이서)을 의미한다. 상기 가이드 서열은, 상술한 바와 같이 목적하는 표적 유전자 및/또는 상기 표적 유전자 내 표적 서열에 따라 당업자에 의해 적절하게 설계될 수 있으며, 따라서 특정 길이의 특정 서열로 한정되는 것은 아니다.
다른 구현예로, 엔지니어링된 gRNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어진 tracrRNA; 및 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어진 crRNA를 포함하는 것일 수 있다.
또 다른 구현예로, 본 발명의 엔지니어링된 gRNA가 싱글 가이드 RNA(sgRNA) 형태인 경우, 상기 엔지니어링된 sgRNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 어느 하나의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
구체적으로, 상기 엔지니어링된 sgRNA는 MS1에서의 변형을 포함하는 서열번호 149의 sgRNA, MS1/MS2에서의 변형을 포함하는 서열번호 150의 sgRNA, MS1/MS2/MS3에서의 변형을 포함하는 서열번호 151의 sgRNA, MS2/MS3/MS4에서의 변형을 포함하는 서열번호 152의 sgRNA 또는 MS2/MS3/MS4/MS5에서 변형을 포함하는 서열번호 153의 sgRNA일 수 있다.
또 다른 구체예로, 상기 엔지니어링된 sgRNA는 서열번호 154(MS1/MS3-1), 서열번호 155(MS1/MS3-2), 서열번호 156(MS1/MS3-3), 서열번호 157(MS1/MS4*-1), 서열번호 158(MS1/MS4*-2), 서열번호 159(MS1/MS4*-3), 서열번호 160(MS1/MS5-1), 서열번호 161(MS1/MS5-2), 서열번호 162(MS1/MS5-3), 서열번호 163(MS1/MS2/MS4*-2), 서열번호 164(MS1/MS3-3/MS4*-2), 서열번호 165(MS1/MS2/MS5-3), 서열번호 166(MS1/MS3-3/MS5-3), 서열번호 167(MS1/MS4*-2/MS5-3), 서열번호 168(MS1/MS2/MS3-3/MS4*-2), 서열번호 169(MS1/MS2/MS3-3/MS5-3), 서열번호 170(MS1/MS2/MS4*-2/MS5-3), 서열번호 171(MS1/MS3-3/MS4*-2/MS5-3) 또는 서열번호 172(MS1/MS2/MS3-3/MS4*-2/MS5-3)의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
또한, 상기 sgRNA는 발달된 형태(mature form, MF로 약칭됨)의 sgRNA인 서열번호 173의 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
다른 구체예로, 상기 MF sgRNA에서 핵산 서열의 일부 변형을 포함하는 예시적인 sgRNA가 제공된다. 구체적으로, 상기 MF sgRNA는 서열번호 174(MS3-1), 서열번호 175(MS3-2), 서열번호 176(MS3-3), 서열번호 177(MS4-1), 서열번호 178(MS4-2), 서열번호 179(MS4-3), 서열번호 180(MS5-1), 서열번호 181(MS5-2), 서열번호 182(MS5-3), 서열번호 183(MS3-3/MS4-3), 서열번호 184(MS3-3/MS5-3), 서열번호 185(MS4-3/MS5-3) 또는 서열번호 186(MS3-3/MS4-3/MS5-3) 뉴클레오티드 서열을 포함하거나 이로 이루어진 sgRNA일 수 있다.
바람직한 구현예로, 엔지니어링된 sgRNA는 서열번호 150(ge3.0), 서열번호 151(ge4.0) 또는 서열번호 152(ge4.1)의 뉴클레오티드 서열로 이루어진 것일 수 있다.
(6) 추가적인 변형의 예시
본 발명의 다른 태양에 따르면, 상술한 MS1 내지 MS5에서의 변형에 더하여 추가적인 gRNA의 변형이 적용될 수 있다.
일부 구현예에서, 엔지니어링된 가이드 RNA는 하기 식 (II)로 표시되는 서열로 이루어지거나 상기 서열과 90% 이상 서열 동일성을 갖는 것일 수 있다.
상기 식 (II)에서, Xa, Xb3, Xb4, Xd1 및 Xd2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고, Xg는 10 내지 30개의 폴리뉴클레오티드로 이루어진 가이드 서열로서 표적 서열과 혼성화하거나 표적 서열에 상보적인 서열이고, Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고, (UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다.
일부 구현예에서, Xb3은 서열 5'-ACCGCUUCAC-3'을 포함하거나 이로 이루어질 수 있다. 또한, Xb3은 상기 서열에서 1개 내지 9개의 임의의 뉴클레오티드가 결실된 서열을 포함하거나 이로 이루어진 것일 수 있고, 또는 Xb3은 부존재할 수 있다.
다른 구현예에서, Xb4는 서열 5'-AGUGAAGGUGG-3'을 포함하거나 이로 이루어질 수 있다. 또한, Xb4는 상기 서열에서 1개 내지 10개의 임의의 뉴클레오티드가 결실된 서열을 포함하거나 이로 이루어진 것일 수 있고, 또는 Xb4는 부존재할 수 있다.
또 다른 구현예에서, Xd1은 서열 5'-AAGUGCUUUC-3'을 포함하거나 이로 이루어질 수 있다. 또한, Xd1은 상기 서열에서 1개 내지 9개의 임의의 뉴클레오티드가 결실된 것일 수 있고, 또는 Xd1은 부존재할 수 있다.
또 다른 구현예에서, Xd2는 서열 5'-GAAAGUAACC-3'을 포함하거나 이로 이루어질 수 있다. 또한, Xd2는 상기 서열에서 1개 내지 9개의 임의의 뉴클레오티드가 결실된 것일 수 있고, 또는 Xd2는 부존재할 수 있다.
Xa, Xg, Lk 및 (UmV)nUo에 대한 구체적인 내용은 상술한 바를 참조한다.
(7) 화학적 변형(Chemical modification)
일부 구현예에서, 상기 엔지니어링된 gRNA에 포함되는 엔지니어링된 tracrRNA 또는 엔지니어링된 crRNA는 필요에 따라 적어도 하나 이상의 뉴클레오티드가 화학적 변형을 가질 수 있다. 이때, 상기 화학적 변형은 뉴클레오티드의 염기 및/또는 당에서 발생할 수 있는 다양한 공유 결합의 변형일 수 있다.
일 예로, 상기 화학적 변형은 메틸화(methylation), 할로젠화(halogenation), 아세틸화(acetylation), 인산화(phosphorylation), PS(phosphorothioate) 연결, LNA(locked nucleic acid), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있다. 상기 예시는 단순 예시로, 이에 제한되지 않는다.
본 발명의 엔지니어링된 gRNA 및 Cas12f1, TnpB 또는 이의 변이체 단백질 복합체를 포함하는 초소형 핵산 편집 시스템을 사용하는 경우, 자연계에서 발견되는 가이드 RNA를 사용하는 경우에 비해 세포 내에서 표적 핵산 또는 표적 유전자의 절단 및/또는 상동지정복구 효율이 현저하게 향상되는 효과가 나타난다.
무엇보다 상기 엔지니어링된 gRNA는 고효율을 나타내는 길이의 최적화와 이에 따른 gRNA 합성 비용 절감, 바이러스 벡터에 삽입하는 경우에 추가 공간 또는 용량 확보, tracrRNA의 정상적인 발현, 작동가능한 gRNA 발현의 증가, gRNA의 안정성(stability) 증가, gRNA와 핵산 편집 단백질 복합체의 안정성 증가, 고효율의 gRNA 및 핵산 편집 단백질 복합체 형성 유도, gRNA 및 핵산 편집 단백질 복합체를 포함하는 초소형 표적 핵산 편집 시스템에 의한 표적 핵산의 절단 효율 증가 및 상기 시스템에 의한 표적 핵산의 상동지정복구 효율 증가 효과를 수반할 수 있다. 이에 따라, Cas12f1, TnpB 또는 이의 변이체 단백질에 대해 상술한 엔지니어링된 gRNA를 사용하면 전술한 종래 기술의 한계점을 극복하여 세포 내에서 높은 효율로 유전자를 절단 또는 편집할 수 있다.
또한, 엔지니어링된 gRNA는 자연계에서 발견되는 gRNA와 비교하여 짧은 길이를 가지므로 유전자 편집 기술 분야에서 그 응용 가능성이 높다. 상기 엔지니어링된 gRNA를 사용하면 gRNA 및 핵산 편집 단백질 복합체를 포함하는 초소형 핵산 편집 시스템의 크기가 매우 작고, 편집 효율이 우수하다는 장점은 다양한 유전자 편집 기술에 활용할 수 있게 된다.
3. 공여자 핵산 분자
상기 공여자 핵산 분자는 상동지정복구에서 주형으로 사용되는 서열이다. 공여자 핵산 분자는 최소한 하나의 공여자 서열을 포함한다. 일부 구체예에서, 공여자 핵산 분자의 목적 서열은 내인성 또는 선천적 염색체 서열에 상응할 수 있다. 목적 서열은 표적 부위(표적 서열)에서 또는 이의 근접한 부위와 본질적으로 동일할 수 있지만, 최소한 하나의 뉴클레오티드 변화를 포함할 수 있다. 따라서, 목적 서열은 선천적 서열과의 통합 또는 교환 시에, 표적화된 위치에서 서열이 최소한 하나의 뉴클레오티드 변화를 포함하도록, 표적화된 부위에서 야생형 서열의 변형된 이형을 포함할 수 있다. 가령, 변화는 하나 또는 그 이상의 뉴클레오티드의 삽입, 하나 또는 그 이상의 뉴클레오티드의 결실, 하나 또는 그 이상의 뉴클레오티드의 치환, 또는 이들의 조합일 수 있다. 변형된 서열의 통합의 결과로서, 세포 또는 배아/동물은 표적화된 서열로부터 변형된 유전자 산물을 생산할 수 있다.
다른 구체예에서, 공여자 핵산 분자의 목적 서열은 외인성 서열에 상응한다. 본 발명의 실시예에서 이용된 바와 같이, "외인성" 서열은 세포 또는 배아에 선천적이지 않은 서열, 또는 세포의 유전체에서 선천적 위치가 상이한 위치에 있는 서열을 지칭한다. 가령, 외인성 서열은 유전체 내로 통합 시에 세포가 통합된 서열에 의해 코딩된 단백질을 발현할 수 있도록 외인성 프로모터 제어 서열에 작동 가능하게 연결될 수 있는 단백질 코딩 서열을 포함할 수 있다. 대안으로, 외인성 서열은 이의 발현이 내인성 프로모터 제어 서열에 의해 조절되도록 염색체 서열 내로 통합될 수 있다. 다른 반복에서, 외인성 서열은 전사 제어 서열, 다른 발현 제어 서열, RNA 코딩 서열, 기타 등등일 수 있다. 염색체 서열 내로 외인성 서열의 통합은 "녹인(knock-in)"으로 명명된다.
당업자에 의해 인지될 수 있는 바와 같이, 공여자 핵산 분자 또는 목적 서열의 길이는 변할 수 있고 변할 것이다. 가령, 공여자 핵산 분자 또는 목적 서열의 길이에서 여러 뉴클레오티드에서부터 수백 개의 뉴클레오티드 내지 수십만 개의 뉴클레오티드까지 변할 수 있다. 예를 들면, 공여자 핵산 분자 또는 목적 서열의 길이는 적어도 1 bp, 10 bp, 100 bp, 또는 200 bp 이상 일 수 있다. 예를 들면, 공여자 핵산 분자의 길이는 1 bp 내지 20kb, 100 bp 내지 50 kb, 100 bp 내지 30 kb, 100 bp 내지 10 kb, 100 bp 내지 10 kb, 200 bp 내지 50 kb, 200 bp 내지 30 kb, 또는 200 bp 내지 10 kb 일 수 있다. 일 구현예에서, 공여자 핵산 분자 또는 목적 서열의 길이는 1 bp 내지 20 kb, 1 bp 내지 10 kb, 1 bp 내지 8 kb, 1 bp 내지 6 kb, 또는 1 bp 내지 4 kb 일 수 있다.
공여자 핵산 분자는 상류(upstream)와 하류(downstream) 서열을 포함할 수 있다. 일부 구체예에서, 공여자 핵산 분자 내에 목적 서열은 각각, 염색체 서열 내에 표적화된 부위의 상류와 하류에 위치된 서열에 실제적인 서열 동일성을 갖는 상류 서열 및 하류 서열과 측면에서 접한다. 이들 서열 유사성 때문에, 공여자 핵산 분자의 상류와 하류 서열은 목적 서열이 염색체 서열 내로 통합(또는 이것과 교환)될 수 있도록, 공여자 핵산 분자와 표적화된 염색체 서열 사이에 상동성 재조합을 허용한다.
상류 서열은 본원에서 이용된 바와 같이, 표적화된 부위의 상류에 염색체 서열과 실제적인 서열 동일성을 공유하는 핵산 서열을 지칭한다. 유사하게, 하류 서열은 표적화된 부위의 하류에 염색체 서열과 실제적인 서열 동일성을 공유하는 핵산 서열을 지칭한다. 본 발명에서 이용된 바와 같이, 관용구 "실제적인 서열 동일성"은 최소한 약 75% 서열 동일성을 갖는 서열을 지칭한다. 따라서, 공여자 핵산 분자에서 상류와 하류 서열은 표적화된 부위의 상류 또는 하류에 서열과 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 서열 동일성을 가질 수 있다. 예시적인 구체예에서, 공여자 핵산 분자에서 상류와 하류 서열은 표적화된 부위의 상류 또는 하류에 염색체 서열과 약 95% 또는 100% 서열 동일성을 가질 수 있다. 일 구체예에서, 상류 서열은 표적화된 부위의 즉시 상류에 위치된 (즉, 표적화된 부위에 인접한) 염색체 서열과 실제적인 서열 동일성을 공유한다. 다른 구체예에서, 상류 서열은 표적화된 부위로부터 상류에 약 100개 뉴클레오티드 내에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유한다. 따라서, 예로서, 상류 서열은 표적화된 부위로부터 상류에 약 1 내지 약 20, 약 21 내지 약 40, 약 41 내지 약 60, 약 61 내지 약 80, 또는 약 81 내지 약 100개 뉴클레오티드 내에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유할 수 있다. 한 구체예에서, 하류 서열은 표적화된 부위의 즉시 하류에 위치된 (즉, 표적화된 부위에 인접한) 염색체 서열과 실제적인 서열 동일성을 공유한다. 다른 구체예에서, 하류 서열은 표적화된 부위로부터 하류에 약 100개 뉴클레오티드 내에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유한다. 따라서, 예로서, 하류 서열은 표적화된 부위로부터 하류에 약 1 내지 약 20, 약 21 내지 약 40, 약 41 내지 약 60, 약 61 내지 약 80, 또는 약 81 내지 약 100개 뉴클레오티드 내에 위치되는 염색체 서열과 실제적인 서열 동일성을 공유할 수 있다.
각 상류 또는 하류 서열은 길이에서 약 20개 뉴클레오티드 내지 약 5000개 뉴클레오티드 범위에서 변할 수 있다. 일부 구체예에서, 상류와 하류 서열은 약 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개 뉴클레오티드를 포함할 수 있다. 예시적인 구체예에서, 상류와 하류 서열은 길이에서 약 50 내지 약 1500개 뉴클레오티드 범위에서 변할 수 있다.
표적화된 염색체 서열에 서열 유사성을 갖는 상류와 하류 서열을 포함하는 공여자 핵산 분자는 선형 또는 환상일 수 있다. 공여자 핵산 분자가 환상인 구체예에서, 이것은 벡터의 부분일 수 있다. 가령, 벡터는 플라스미드 벡터일 수 있다.
공여자 핵산 분자는 표적화된 개열 부위를 포함할 수 있다. 다른 구체예에서, 공여자 핵산 분자는 RNA-유도된 엔도뉴클레아제에 의해 인식되는 최소한 하나의 표적화된 개열 부위를 부가적으로 포함할 수 있다. 공여자 핵산 분자에 부가된 표적화된 개열 부위는 목적 서열의 상류 또는 하류 또는 상류와 하류 둘 모두에 배치될 수 있다. 가령, 목적 서열은 RNA-유도된 엔도뉴클레아제에 의한 개열 시에, 목적 서열이 RNA-유도된 엔도뉴클레아제에 의한 개열 시에 산출된 염색체 서열 내에 것들과 양립하는 오버행과 측면에서 접하도록, 표적화된 개열 부위와 측면에서 접할 수 있다. 따라서, 목적 서열은 비상동성 복구 과정에 의한 이중 가닥 절단의 복구 동안 개열된 염색체 서열과 결찰될 수 있다. 일반적으로, 표적화된 개열 부위를 포함하는 공여자 핵산 분자는 환상일 것이다(가령, 플라스미드 벡터의 부분일 수 있다).
공여자 핵산 분자는 임의선택적 오버행(overhang)을 갖는 짧은 목적 서열을 포함할 수 있다. 다른 대안적 구체예에서, 공여자 핵산 분자는 RNA-유도된 엔도뉴클레아제에 의해 산출된 오버행과 양립하는 임의선택적 짧은 오버행을 갖는 짧은 목적 열을 포함하는 선형 분자일 수 있다. 이런 구체예에서, 목적 서열은 이중 가닥 절단의 복구 동안 개열된 염색체 서열과 직접적으로 결찰될 수 있다. 일부 경우에, 목적 서열은 약 1,000개보다 적거나, 약 500개보다 적거나, 약 250개보다 적거나, 또는 약 100개 보다 적은 뉴클레오티드일 수 있다. 일정한 경우에, 공여자 핵산 분자는 평활 말단을 갖는 짧은 공여자 서열을 포함하는 선형 분자일 수 있다. 다른 반복에서, 공여자 핵산 분자는 5' 및/또는 3' 오버행을 갖는 짧은 목적 서열을 포함하는 선형 분자일 수 있다. 오버행은 1, 2, 3, 4, 또는 5개 뉴클레오티드를 포함할 수 있다.
전형적으로, 공여자 핵산 분자는 DNA일 것이다. DNA는 단일 가닥 또는 이중 가닥 및/또는 선형 또는 환상일 수 있다. 공여자 핵산 분자는 DNA 플라스미드, 세균 인공 염색체 (BAC), 효모 인공 염색체 (YAC), 바이러스 벡터, DNA의 선형 조각, PCR 단편, 나신 핵산, 또는 전달 운반제, 예를 들면, 리포솜 또는 폴록사머로 복합화된 핵산일 수 있다. 일 구체예에서, 목적 서열을 포함하는 공여자 핵산 분자는 플라스미드 벡터의 부분일 수 있다. 또한, 일 구체예에서, 목적 서열을 포함하는 공여자 핵산 분자는 최소한 하나의 추가 서열을 더욱 포함할 수 있다.
4. 비상동말단연결 과정을 억제하는 분자
본 발명의 표적 핵산 편집 시스템은 상술한 핵산 편집 단백질(엔도뉴클레아제), 가이드 RNA 및 공여자 핵산 분자 외에도, 상동지정복구 효율 향상을 위한 다양한 종류의 분자를 추가로 포함할 수 있다.
일부 구현예에서, 표적 핵산 편집 시스템은 비상동말단연결(non-homologous end joining, NHEJ)에 관여하는 유전자의 발현을 억제하는 분자를 더 포함할 수 있다. 구체적으로, 상기 시스템은 비상동말단연결에 관여하는 유전자 또는 단백질 등의 활성을 감소시킬 수 있는 인자, 예를 들면, 비상동말단연결에 관여하는 유전자의 발현을 억제하는 분자를 더 포함하는 것일 수 있다. 임의의 특정 이론에 구속됨이 없이, 예를 들면, 비상동말단연결 활성 감소는 상동지정복구-매개된 경로의 촉진을 일으킬 수 있다. 상기 억제제는 비상동말단연결 활성을 감소시키는데 혹은 상동지정복구 활성을 증가 또는 감소시키는데 사용될 수 있다. 이와 같은 억제제는, 예를 들어, 작은 분자 또는 억제성 핵산 예컨대 짧은 간섭 핵산(예를 들면, 짧은 간섭 RNA(siRNA), 이중-가닥 RNA(dsRNA), 마이크로-RNA(miRNA), 및 유전자 전사체에 특이적인 짧은 헤어핀 RNA(shRNA)) 또는 안티센스 올리고뉴클레오티드일 수 있다. 상기 억제제는, 예를 들어, 인산화, 유비퀴틸화, 및 수모화를 통해 번역 후 변형에 의한 비상동말단연결 또는 상동지정복구 또는 그것의 상류 조절에 관여된 효소를 표적화하는 것일 수 있다.
일 구체예에 있어서, 상기 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군으로부터 선택된 어느 하나 이상일 수 있다.
본 발명의 일 실시예에 따르면, 비상동말단연결 과정의 억제를 위해 DCLRE1C, LIG4, XRCC4, XRCC6, XLF 및 ATM 유전자에 대한 shRNA를 본 발명의 핵산 편집 시스템에 포함시킨 결과, 상동지정복구 효율이 현저하게 상승하는 것을 확인하였다(실시예 3.1 참조).
5. 표적 핵산의 편집을 위한 시스템/조성물
본 발명의 다른 태양에 따르면, 상술한 표적 핵산 편집 시스템을 포함하는 유전자 편집용 조성물이 제공된다. 또한, 후술한 벡터 시스템 또는 상기 표적 핵산 편집 시스템 및 벡터 시스템을 모두 포함하는 유전자 편집용 조성물이 제공된다.
일 구현예로, 본원의 유전자 편집(용) 조성물은 Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산; 가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및 공여자 핵산 분자 또는 상기 공여자 핵산 분자를 암호화하는 핵산을 포함한다.
상기 "Cas12f1, TnpB 또는 이의 변이체(variant) 단백질", "엔지니어링된 가이드 RNA" 및 "공여자 핵산 분자"에 관한 사항은 상술한 내용을 참조한다.
다른 구현예로, 표적 핵산 편집 시스템 또는 유전자 편집 조성물에 포함되는 Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제 및 상기 가이드 RNA는 리보뉴클레오단백질 입자(ribonucleoprotein particle, RNP) 형태로 포함될 수 있다.
한편, 본 발명의 유전자 편집용 조성물은 상기 본 발명에 따른 초소형 핵산 편집 시스템의 각 구성요소 이외에, 유전자 편집 용도에 필요한 적절한 물질을 추가로 포함할 수 있음은 자명하다.
III. 상동지정복구를 위한 표적 핵산 편집 시스템의 구성요소를 암호화하는 핵산
본 발명에서 제공하는 표적 핵산 편집 시스템의 각 구성요소는 세포 내에서 발현되도록 하는 것이므로, 본 발명의 다른 태양에 따르면, 표적 핵산 편집 시스템의 각 구성요소를 암호화하는 핵산 또는 폴리뉴클레오티드가 제공된다.
구체적으로, 상기 핵산 또는 폴리뉴클레오티드는 발현하고자 하는 표적 핵산 편집 시스템에 포함된 핵산 편집 단백질, 가이드 RNA 및/또는 공여자 핵산 분자를 암호화하는 핵산 서열을 포함한다. 이때, 상기 핵산 또는 폴리뉴클레오티드의 서열은 야생형의 유전자 편집 단백질 및 야생형의 가이드 RNA를 암호화하는 핵산 서열뿐만 아니라, 그 목적에 따라 엔지니어링된 가이드 RNA 및/또는 코돈 최적화된 핵산 편집 단백질을 암호화하는 핵산 서열, 엔지니어링된 핵산 편집 단백질을 암호화하는 핵산 서열, 또는 DNA 이중가닥 절단 활성이 상실되거나 감소된 유전자 편집 단백질을 암호화하는 핵산 서열을 포함할 수 있다.
본 발명에서, 상기 핵산 또는 폴리뉴클레오티드는 초소형 핵산 편집 단백질인 Cas12f1, TnpB 또는 이의 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 여기서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 DNA 이중가닥 또는 단일가닥을 절단하는 활성을 가지는 단백질일 수 있다.
일 구현예로, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1, TnpB 또는 이의 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 여기서, 상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는 단백질일 수 있다. 이에 대한 상세한 내용은 상기를 참조한다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1, TnpB 또는 이의 변이체 단백질을 암호화하는 서열을 포함할 수 있다. 바람직하게, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1, TnpB 또는 이의 변이체 단백질을 암호화하는 인간 코돈 최적화된 핵산 서열을 포함할 수 있다. "코돈 최적화"는 고유 서열의 적어도 하나의 코돈을 대상 세포의 유전자에 더욱 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체하면서, 고유 아미노산 서열을 유지함으로써 관심 대상 세포에서의 발현의 증진을 위해 핵산서열을 변형시키는 과정을 의미한다. 다양한 종은 특정 아미노산의 특정 코돈에 대한 특정 편향을 가지며, 코돈 편향(유기체 간의 코돈 사용의 차이)은 종종 mRNA의 번역의 효율과 상호관련 되며, 이는 번역되는 코돈의 특성 및 특정 tRNA 분자의 이용가능성에 의해 좌우되는 것으로 여겨진다. 세포에서 선택된 tRNA의 우세는 일반적으로 펩티드 합성에 가장 빈번하게 사용되는 코돈을 반영한 것이다. 따라서, 유전자는 코돈 최적화에 기초하여 주어진 유기체에서 최적의 유전자 발현을 위해 맞춤화될 수 있다.
일 구현예로, 상기 TnpB 단백질을 암호화하는 핵산은 인간 코돈 최적화된 TnpB 단백질을 암호화하는 핵산일 수 있다. 예를 들어, 상기 인간 코돈 최적화된 TnpB 단백질을 암호화하는 핵산은 서열번호 6의 핵산 서열을 포함하는 것일 수 있다. 다른 예로, 상기 인간 코돈 최적화된 Cas12f1 단백질을 암호화하는 핵산은 서열번호 10의 핵산 서열을 포함하는 것일 수 있다. 또 다른 예로, 상기 인간 코돈 최적화된 Cas12f1의 변이체 또는 TnpB의 변이체 단백질을 암호화하는 핵산은 서열번호 7(TnpB-v1), 서열번호 8(TnpB-v2) 또는 서열번호 9(TnpB-v3)의 핵산 서열을 포함하는 것일 수 있다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 변형된 Cas12f1, TnpB 또는 이의 변이체 단백질 또는 Cas12f1, TnpB 또는 이의 변이체의 융합 단백질을 암호화하는 서열을 포함할 수 있다. 일 구현예로, 상기 핵산 또는 폴리뉴클레오티드는 표적 핵산의 이중가닥 중 하나의 가닥만 절단하도록 변경된 Cas12f1, TnpB 또는 이의 변이체 단백질을 발현하도록 구성된 서열을 포함할 수 있다. 일 예로, 상기 변형된 Cas12f1, TnpB 또는 이의 변이체 단백질은 표적 핵산의 이중가닥 중 하나의 가닥만 절단할 수 있고, 절단하지 않는 가닥에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing)을 할 수 있도록 변경된 것일 수 있다. 또는, 상기 핵산 또는 폴리뉴클레오티드는 표적 핵산에 대해 염기 교정(Base editing) 또는 프라임 교정(Prime editing) 또는 유전자 발현 조절 기능을 할 수 있도록 변경된 변이체 단백질을 암호화하는 서열을 포함할 수 있다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 Cas12f1, TnpB 또는 이의 변이체에 대해 최적의 표적 효율을 가지도록 엔지니어링된 가이드 RNA(augment RNA)를 발현하도록 구성된 것이거나 또는 하나 또는 둘 이상의 서로 다른 엔지니어링된 가이드 RNA를 발현하도록 구성된 서열을 포함할 수 있다. 일 예로, 상기 엔지니어링된 가이드 RNA 서열은 스캐폴드 서열, 스페이서 서열 및 U-rich tail 서열을 포함할 수 있다. 구체적으로, 상기 엔지니어링된 gRNA 서열은 변경된 tracrRNA 서열 및/또는 변경된 crRNA 서열을 포함하고, 여기에 U-rich tail 서열을 포함할 수 있다. U-rich tail을 포함한 엔지니어링된 gRNA 및 이의 변형에 대한 내용은 상기를 참조한다.
또한, 상기 핵산 또는 폴리뉴클레오티드는 상동지정복구 과정에서 주형으로 사용하기 위한 공여자 핵산 분자를 포함할 수 있다. 공여자 핵산 분자에 관한 내용은 상기를 참조한다.
IV. 표적 핵산 편집 시스템의 발현을 위한 벡터 시스템
본 발명의 또 다른 태양에 따르면, Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물; 표적 핵산에 상보적으로 결합하는 가이드 서열을 포함하는 엔지니어링된 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및 공여자 핵산 분자를 포함하는 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는 벡터 시스템이 제공된다.
본 발명에서 제공하는 표적 핵산 편집 시스템을 상동지정복구를 포함하는 유전자 편집에 사용하기 위해서, 상기 표적 핵산 편집 시스템의 각 구성을 암호화하는 서열을 포함하는 벡터를 표적 세포 내로 직접 도입시키거나 바이러스 등의 매개체에 의해 전달하고, 표적 세포 내에서 상기 유전자 편집 시스템의 각 구성이 발현되도록 하는 방법이 이용될 수 있다.
또한, 표적 핵산 또는 표적 유전자를 편집하기 위한 본 발명의 핵산 편집 시스템은 우수한 상동지정복구 효율을 달성하기 위해, 가이드 RNA 및 Cas12f1, TnpB 또는 이의 변이체 단백질 복합체의 각 구성성분은 작동가능하게 연결되어 하나의 벡터로 포함되는 것이 바람직하다. 여기서, 핵산 분해 단백질 또는 가이드 분자에는 필요에 따라 효과기 단백질이 연결되어 융합된 형태의 단백질을 이룰 수 있다.
일 예로, 상기 융합된 형태의 단백질은 박테리오파지 외피 단백질 내에 존재하는 직교 RNA-결합 단백질 또는 어댑터 단백질을 포함할 수 있다. 여기서, 외피 단백질은 MS2, Qβ, F2, GA, fr, JP501, M12, R17, BZ13, JP34, JP500, KU1, M11, MX1, TW18, VK, SP, FI, ID2, NL95, TW19, AP205, ΦCb5, ΦCb8r, ΦCb12r, ΦCb23r, 7s 및 PRR1등이 포함될 수 있다. 또한, 상기 융합된 형태의 단백질은 하나 이상의 지질 나노입자를 통해 전달될 수 있다.
일 구현예로, 본 발명의 표적 핵산 편집 시스템의 구성요소에 해당하는 초소형 핵산 편집 단백질인 Cas12f1, TnpB 또는 이의 변이체 단백질 및 하나 이상의 가이드 RNA는 이를 암호화하는 하나 이상의 mRNA 분자로서 세포에 전달될 수 있다. 이때 상기 mRNA 분자는 하나 이상의 지질 나노입자를 통해 전달될 수 있다.
또한, 본 발명의 표적 핵산 편집 시스템의 구성요소는 하나 이상의 DNA 분자형태일 수 있다. 여기서, 하나 이상의 DNA 분자는 유전자 편집 단백질 또는 가이드 분자를 발현시키도록 작동가능하게 구성된 하나 이상의 조절 요소를 포함할 수 있다. 필요에 따라 하나 이상의 조절 요소는 유도성 프로모터를 포함할 수 있다.
일 구현예에서, 상기 벡터 시스템에 포함되는 핵산 구조물은 동일하거나 상이한 벡터에 위치하는 것일 수 있다.
상기 표적 핵산 편집 시스템을 구성하는 DNA 분자들은 하나 이상의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 세포 내로 전달될 수 있다. 바람직하게, 상기 DNA 분자들은 모두 하나의 아데노-연관 바이러스(AAV) 벡터 내에 포함되어 AAV 바이러스 내에 표적 핵산 편집 시스템을 구성하는 DNA 분자가 패킹된 형태로서 세포 내로 전달될 수 있다.
보다 구체적으로, 본 발명의 초소형 유전자 편집 시스템이 세포 내에서 발현되도록 하는 벡터의 구성 요소는 다음을 포함한다.
1. 표적 핵산 편집 시스템의 구성요소를 암호화하는 핵산 구조물
상기 벡터 시스템의 최종 목적은 본 발명의 표적 핵산 편집 시스템의 각 구성요소가 세포 내에서 발현되도록 하는 것이므로, 상기 벡터 시스템에 포함되는 서열은 표적 핵산 편집 시스템의 각 구성요소를 암호화하는 핵산 서열 중 하나 이상을 필수적으로 포함해야 한다.
일 구현예로, 벡터 시스템은 Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물; 표적 핵산에 상보적으로 결합하는 가이드 서열을 포함하는 엔지니어링된 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및 공여자 핵산 분자를 포함하는 제3 핵산 구조물을 포함할 수 있다. 이때, 상기 제1 핵산 구조물, 제2 핵산 구조물 및/또는 제3 핵산 구조물은 벡터 시스템의 동일한 벡터 상에 또는 상이한/별개의 벡터 상에 위치될 수 있다. 여기서, 상기 연결은 직접 또는 링커를 통해 연결될 수 있다.
일 구현예로, 상기 핵산 구조물은 엔지니어링된 가이드 RNA(gRNA)를 암호화하는 핵산을 포함할 수 있다. 여기서 엔지니어링된 gRNA는 엔지니어링된 tracrRNA 및/또는 엔지니어링된 crRNA를 포함할 수 있다. 이때, 상기 엔지니어링된 가이드 RNA는 앞서 설명한 엔지니어링된 가이드 RNA의 구현예와 동일한 구성을 가질 수 있다.
또한, 상기 핵산 구조물에서 핵산 편집 단백질 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 또는 95% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는 단백질일 수 있으며, 상기 핵산 구조물은 상기 단백질을 암호화하는 핵산 또는 상기 단백질의 코돈-최적화된 핵산을 포함할 수 있다. 일 예로, 초소형 핵산 편집 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상, 75% 이상, 80% 이상, 85% 이상, 90% 이상, 또는 95% 이상의 서열 동일성을 갖는 것을 특징으로 하는 핵산 편집 단백질일 수 있고, 이를 암호화하는 코돈-최적화된 핵산은 인간 코돈-최적화된 핵산으로서, 서열번호 6 내지 서열번호 10 중 선택된 어느 하나의 뉴클레오티드 서열로 이루어진 것일 수 있다.
또한, 상기 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization signal, NLS) 또는 핵 유출 신호(nuclear export signal, NES) 서열을 1개 이상 포함하는 것일 수 있다. NLS 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 외부의 물질을 핵 내부로 수송할 때, 수송 대상인 단백질 등에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다. NES 서열은 핵 수송(nuclear transport) 작용으로 세포 핵 내부의 물질을 핵 외부로 수송할 때, 수송 대상인 단백질에 붙어 일종의 "태그" 역할을 하는 일정 길이의 펩티드 또는 그 서열을 의미한다. 예를 들어, 상기 NLS는 SV40 바이러스 대형 T-항원의 NLS; c-myc NLS; hRNPA1 M9 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS; 임포틴-알파로부터의 IBB 도메인의 서열; 마이오마(myoma) T 단백질의 서열; 인간 p53의 서열; 마우스 c-abl IV의 서열; 인플루엔자 바이러스 NS1의 서열; 간염 바이러스 델타 항원의 서열; 마우스 Mx1 단백질의 서열; 인간 폴리(ADP-리보스) 중합효소의 서열; 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다.
상기 벡터 시스템은 발현하고자 하는 핵산 편집 시스템에 포함된 가이드 RNA 및/또는 핵산 편집 단백질을 암호화하는 핵산 서열을 포함한다. 상기 핵산 서열에 관련된 내용은 상술한 내용을 참조한다.
상기 벡터는 서로 다른 둘 이상의 엔지니어링된 가이드 RNA를 발현하도록 구성된 것일 수 있다. 일 구현예로, 상기 벡터는 엔지니어링된 제1 가이드 RNA 및 엔지니어링된 제2 가이드 RNA를 발현하도록 구성된 것일 수 있다. 일 구현예로, 상기 엔지니어링된 제1 가이드 RNA 서열은 제1 스캐폴드 서열, 제1 스페이서 서열 및 제1 U-rich tail 서열을 포함하고, 상기 엔지니어링된 제2 가이드 RNA 서열은 제2 스캐폴드 서열, 제2 스페이서 서열 및 제2 U-rich tail 서열을 포함할 수 있다.
또한, 상기 벡터 시스템은 전술한 표적 핵산 편집 시스템의 구성요소 이외에, 이 기술 분야의 통상의 기술자가 필요에 의해 발현시키고자 하는 부가 발현 요소를 암호화하는 핵산 서열을 포함하고 있을 수 있다.
일 예로, 상기 부가 발현 요소는 태그일 수 있다. 구체적으로, 상기 부가 발현 요소는, 글리포세이트(glyphosate), 글루포시네이트암모늄 (glufosinate ammonium) 또는 포스피노트리신(phosphinothricin)과 같은 제초제 저 항성 유전자, 암피실린(ampicillin), 카나마이신(kanamycin), G418, 블레오마이신(Bleomycin), 하이그로마이신(hygromycin), 클로람페니콜(chloramphenicol)과 같은 항생제 내성 유전자일 수 있다.
다른 구현예에서, 상기 벡터 시스템은 비상동말단연결(Non-homologous end joining)에 관여하는 유전자의 발현을 억제하는 분자를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 하나 이상의 핵산 구조물을 추가로 포함할 수 있다. 여기서, 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군으로부터 선택된 어느 하나 이상일 수 있다. 또한, 상기 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드일 수 있다. 상기 분자는 "4. 비상동말단연결 과정을 억제하는 분자" 항목을 참조하며, 상기 "비상동말단연결"과 관련된 내용은 후술한 내용을 참조한다.
2. 조절 및/또는 제어 구성요소
상기 벡터 시스템을 직접 세포 내에서 발현시키기 위해서는 하나 이상의 조절 및/또는 제어 구성요소를 포함해야 한다. 구체적으로, 상기 조절 및/또는 제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(IRES, Internal Ribosome Entry Site), 스플라이스 억셉터, 2A 서열 및/또는 복제원점(replication origin)을 포함할 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 복제원점은 f1 복제원점, SV40 복제원점, pMB1 복제원점, 아데노 복제원점, AAV 복제원점 및/또는 BBV 복제원점일 수 있으나, 이에 제한되는 것은 아니다.
3. 프로모터
상기 벡터 시스템에 포함되어 있는 본 발명의 핵산 편집 시스템을 암호화하는 핵산 서열을 세포 내에서 발현시키기 위해서, 각 구성 요소를 암호화하는 서열에 프로모터 서열을 작동가능하게 연결시켜 세포 내에서 RNA 전사인자가 활성화될 수 있도록 해야 한다. 상기 프로모터 서열은 대응하는 RNA 전사인자 또는 발현 환경에 따라 달리 설계할 수 있으며, 본원의 핵산 편집 시스템(TaRGET system)의 구성요소를 세포 내에서 적절히 발현시킬 수 있는 것이라면 제한되지 않는다.
일 예로, 상기 프로모터 서열은 RNA 중합효소 RNA Pol I, Pol II 또는 Pol III의 전사를 촉진시키는 프로모터일 수 있다. 구체적으로, 상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터 중 하나 수 있다.
4. 종결 신호
상기 벡터 서열이 프로모터 서열을 포함하는 경우에 RNA 전사인자에 의해 상기 프로모터와 작동 가능하게 연결된 서열의 전사가 유도되는데, 이러한 RNA 전사 인자의 전사 종결을 유도하는 종결 신호가 포함될 수 있다. 상기 종결 신호는 프로모터 서열의 종류에 따라 달라질 수 있다. 구체적으로, 상기 프로모터가 U6, 또는 H1 프로모터일 경우, 상기 프로모터는 티미딘(T) 연속 서열인 TTTTT(T5) 또는 TTTTTT(T6) 서열을 종결 신호로 인식한다.
본 발명에서 제공하는 엔지니어링된 가이드 RNA의 서열은 그 3'-말단에 U-rich tail 서열을 포함한다. 이에 따라, 상기 엔지니어링된 가이드 RNA를 암호화하는 서열은 그 3'-말단에 U-rich tail 서열에 대응하는 T-rich 서열을 포함하게 된다. 전술한 바, 일부 프로모터 서열은 티미딘(T) 연속 서열, 예를 들어 티미딘(T)이 5개 이상 연속으로 연결된 서열을 종결 신호로 인식하므로, 경우에 따라 상기 T-rich 서열을 종결 신호로 인식하게 될 수 있다.
다시 말해, 본 명세서에서 제공하는 벡터 서열이 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함하는 경우, 상기 엔지니어링된 gRNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열이 종결 신호로 사용될 수 있다.
일 구현예로, 상기 벡터 서열이 U6 또는 H1 프로모터 서열을 포함하고, 이와 작동가능하게 연결된 엔지니어링된 가이드 RNA를 암호화하는 서열을 포함할 때, 상기 augment RNA 서열에 포함된 U-rich tail 서열을 암호화하는 서열 부분이 종결 신호로 인식될 수 있다. 이때, 상기 U-rich tail 서열은 유리딘(U)이 5개 이상 연속으로 연결된 서열을 포함한다.
5. 부가 발현 요소
상기 벡터는 필요에 따라, NLS, NES 및/또는 태그 단백질 등의 부가 구성 요소를 발현하도록 구성된 것일 수 있다.
일 구현예로, 상기 부가 구성 요소는 상기 Cas12f1, TnpB 또는 이의 변이체 단백질에 대한 엔지니어링된 가이드 RNA(gRNA)와는 독립적으로 발현될 수 있다.
또 다른 구현예로, 상기 부가 구성 요소는 상기 Cas12f1, TnpB 또는 이의 변이체 단백질에 대한 엔지니어링된 가이드 RNA(gRNA)와 직접 또는 링커로 연결되어 발현될 수 있다.
일 예로, 본 발명에 따른 초소형 유전자 편집 시스템의 구성요소를 암호화하는 핵산 구조물은 N-말단 또는 C-말단에 핵 위치 신호(nuclear localization sequences, NLS) 서열을 1개 이상 포함하는 것을 특징으로 하는 핵산 구조물일 수 있다. 여기서, 상기 부가 구성 요소는 본원의 핵산 편집 시스템을 발현시키고자 할 때 일반적으로 발현시키는 구성 요소일 수 있으며, 통상의 기술자에게 널리 인식되고 있는 공지기술을 참조할 수 있다.
또한, 본 발명은 일 구현예로, 본 발명에 따른 엔지니어링된 가이드 RNA(gRNA) 또는 이를 암호화하는 핵산 및/또는 표적 핵산 편집 시스템의 구성 요소를 발현시키기 위해 벡터 등에 포함되는 핵산을 제공한다. 여기서, 상기 핵산은 자연계에 존재하는 DNA 또는 RNA일 수 있고, 상기 핵산의 일부 또는 전부에 화학적 변형이 일어난 변형된 핵산일 수 있다. 예를 들어, 상기 핵산은 하나 이상의 뉴클레오티드가 화학적으로 변형된 것일 수 있다. 이때, 상기 화학적 변형은 이 기술 분야의 통상의 기술자에게 알려진 핵산의 변형을 모두 포함할 수 있다.
6. 발현 벡터의 종류 및 형태
본 발명에 따른 벡터는 바이러스 벡터일 수 있다. 보다 구체적으로, 상기 바이러스 벡터는 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스 벡터, 백시니아바이러스 벡터, 폭스바이러스 벡터, 단순포진 바이러스 벡터 및 파지미드 벡터로 구성된 군에서 선택되는 하나 이상일 수 있다. 일 구현예로, 상기 바이러스 벡터는 아데노-연관 바이러스 벡터일 수 있다.
또한, 본 발명에 따른 벡터는 비-바이러스 벡터일 수 있다. 보다 구체적으로, 상기 비-바이러스 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 구성된 군에서 선택되는 하나 이상일 수 있으나, 이에 제한되지 않는다. 일 구현예로, 상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 것일 수 있다.
상기 용어 "네이키드 DNA"는 발현을 위해서 적절한 배향으로 적합한 발현 벡터(예를 들어, 플라스미드) 내에 클로닝된 단백질, 예컨대, 본 발명의 Cas12f1, TnpB 또는 이의 변이체를 암호화하는 DNA(예를 들어, 히스톤이 없는 DNA)를 지칭한다. 사용될 수 있는 바이러스 벡터는 SIN 렌티바이러스 벡터, 레트로바이러스 벡터, 폼(foamy) 바이러스 벡터, 아데노바이러스 벡터, 아데노-연관 바이러스(AAV) 벡터, 하이브리드 벡터 및/또는 플라스미드 트랜스포존(예를 들어, 슬리핑 뷰티 트랜스포존 시스템) 또는 인테그라제 기반 벡터 시스템을 포함하지만 이들로 제한되지 않는다.
상기 용어 "앰플리콘(amplicon)"은 핵산에 대해 이용되는 경우, 핵산 복제 산물을 의미하며, 여기서 산물은 핵산의 적어도 일부 뉴클레오타이드 서열과 동일하거나 상보적인 뉴클레오타이드 서열을 갖는다. 앰플리콘은, 예를 들어 폴리머라제 확장, 폴리머라제 연쇄 반응(PCR), 롤링 서클 증폭(RCA), 다중 변위 증폭(MDA), 결찰 확장, 또는 결찰 연쇄 반응을 포함하는, 주형으로서 핵산 또는 이들의 앰플리콘을 이용하는 다양한 임의의 증폭 방법에 의해 생성될 수 있다. 앰플리콘은 특정 뉴클레오타이드 서열의 단일 복사체(예를 들어, PCR 산물) 또는 뉴클레오타이드 서열의 다중 사본(예로 RCA의 콘카타머 산물)을 갖는 핵산 분자일 수 있다.
본 발명의 벡터는 선형 또는 원형 벡터 형태로 설계될 수 있다. 상기 벡터가 선형 벡터인 경우, 상기 선형 벡터 서열이 종결 신호를 따로 포함하지 않더라도, 그 3'-말단에서 RNA 전사가 종결된다. 그러나 상기 벡터가 원형 벡터인 경우, 상기 원형 벡터 서열이 종결 신호를 따로 포함하지 않는다면, RNA 전사가 종결되지 않게 된다. 그러므로 상기 벡터로 원형 벡터를 사용하는 경우에는 의도한 대상을 발현하기 위해서는 각 프로모터 서열과 관련된 전사 인자에 대응하는 종결 신호가 포함되어야 한다.
일 구현예에서, 바이러스 벡터 또는 비-바이러스 벡터는 리포좀, 폴리머 나노파티클(예컨대, 지질 나노파티클), 수중유 나노에멀젼 또는 이들의 조합과 같은 전달 시스템에 의해 전달될 수 있거나, 바이러스 형태로 전달될 수 있다.
V. 표적 핵산 편집 시스템을 발현하는 바이러스
본 발명의 또 다른 태양에 따르면, Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물; 표적 핵산에 상보적으로 결합하는 가이드 서열을 포함하는 엔지니어링된 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및 공여자 핵산 분자를 포함하는 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는 바이러스 벡터 시스템에 의해 제조된 바이러스 또는 바이러스 입자가 제공된다.
일 구현예에서, 상기 바이러스 벡터는 예를 들어, 레트로바이러스 벡터(retroviral(retrovirus) vector), 렌티바이러스 벡터(lentiviral(lentivirus) vector), 아데노바이러스 벡터(adenoviral(adenovirus vector), 아데노 연관 바이러스 벡터(adeno-associated viral (adeno-associated virus; AAV) vector), 백시니아바이러스 벡터(vaccinia viral(vaccinia virus) vector), 폭스바이러스 벡터(poxviral(poxvirus) vector), 단순포진 바이러스 벡터(herpes simplex viral(herpes simplex virus) vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터일 수 있다. 바람직하게, 상기 바이러스 벡터는 아데노 연관 바이러스 벡터일 수 있다.
다른 구현예에서, 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택될 수 있다.
또 다른 구현예에서, 상기 파지는 λgt4λB, λ-charon, λΔz1, 및 M13으로 이루어진 군에서 선택된 것일 수 있다.
상기 "Cas12f1, TnpB 또는 이의 변이체(variant) 단백질", "엔지니어링된 가이드 RNA" 및 "공여자 핵산 분자"에 관한 내용은 상기를 참조한다.
본 발명의 표적 핵산 편집 시스템을 바이러스, 특히 아데노 연관 바이러스(AAV)를 통해 표적 세포 또는 표적 부위로 효율적으로 전달하기 위해서는 상기 모든 구성요소를 암호화하는 뉴클레오티드 서열의 크기가 AAV의 패키징 한계인 4.7 kb 내로 설계하는 것이 중요하다. 본원의 초소형 핵산 편집 단백질 및 엔지니어링된 gRNA를 포함하더라도 그 크기가 매우 작기 때문에 더 긴 공여자 핵산 분자 및 추가적인 조절 분자를 더 포함하더라도 AAV에 의해 충분히 패키징될 수 있다는 이점이 있다.
본 발명의 일 실시예에 따르면, 프로모터의 종류, 공여자 핵산의 길이 및 비상동말단연결 조절 유전자의 발현 억제를 위한 분자의 유무에 따라 4.7 kb 내 크기의 벡터를 제작하였고(도 10a 참조), 이들 4종 벡터 모두 3가지 표적 유전자 모두에서 높은 상동지정복구 효율을 나타냄을 확인하여, 본 발명에 따른 바이러스 벡터 시스템에 의해 발현된 AAV 등의 바이러스가 정상적으로 생성되어 효율적으로 본원의 핵산 편집 시스템을 세포 내로 전달 및 발현시킬 수 있음을 입증하였다(실시예 4, 도 10a 및 10b 참조).
상기 바이러스 벡터는 선택적으로 조절/제어 구성요소, 프로모터 및/또는 부가 발현 요소를 추가로 포함할 수 있다. 상기 조절/제어 구성요소에 관한 내용은 상기를 참조한다.
VI. 표적 핵산 편집 시스템을 이용한 상동지정복구 유도 방법
본 발명의 또 다른 태양에 따르면, 본 발명에 따른 시스템 또는 조성물, 또는 벡터 시스템을 세포와 접촉시키거나 세포 내에서 발현시키는 단계; 및 표적 핵산 또는 그 인접 부위에서 공여자 핵산 분자를 주형으로 하여 이중가닥 절단의 복구 과정에 의해 목적 서열이 도입되는 단계를 포함하는 세포 내 이중가닥 핵산 상의 표적 부위로 목적 서열을 도입하는 방법이 제공된다.
일 구현예로, 상기 목적 서열을 도입하는 방법은 Cas12f1, TnpB 또는 이의 변이체에 대해 엔지니어링된 가이드 RNA(augment RNA), Cas12f1, TnpB 또는 이의 변이체 단백질 및 공여자 핵산 분자 또는 이들 각각을 암호화하는 핵산을 표적 핵산 또는 표적 유전자를 포함하고 있는 대상 세포 내에 전달하는 것을 포함한다. 그 결과, 상기 대상 세포 내에 엔지니어링된 가이드 RNA를 포함하는 가이드 RNA 및 Cas12f1, TnpB 또는 이의 변이체 단백질 복합체가 주입되거나, 상기 가이드 RNA 및 Cas12f1, TnpB 또는 이의 변이체 단백질 복합체의 형성이 유도되며, 상기 가이드 RNA 및 Cas12f1, TnpB 또는 이의 변이체 단백질 복합체에 의해 표적 유전자가 절단, 편집 및/또는 복구된다. 유전자 편집은 표적 유전자 또는 표적 핵산 내의 표적 서열을 가지는 이중가닥 DNA, 단일가닥 DNA, 또는 DNA와 RNA 혼성 이중가닥의 핵산 절단을 포함한다. 바람직하게는, 이중가닥 DNA의 핵산 절단을 포함한다. 여기서, 상기 Cas12f1, TnpB 변이체 단백질은 야생형의 Cas12f1 변이체 단백질, 엔지니어링된 Caf12f1 변이체 단백질, 변형된 Cas12f1 변이체 단백질 또는 Cas12f1 변이체의 동족체 단백질일 수 있다.
세포에서의 DNA 파단(예를 들어, 이중가닥 절단)의 복구는 주로 2가지 DNA 복구 경로, 즉, 비상동말단연결(NHEJ, 예를 들면, C-NHEJ) 복구 경로 및 상동지정복구(HDR) 경로를 통해 달성된다. 비상동말단연결이 일어나는 동안, Ku70/80 이종이량체는 DNA 말단에 결합하고, DNA 단백질 키나제(DNA-PK)를 동원한다[문헌(Cannan & Pederson (2015) J Cell Physiol 231:3-14) 참조]. NHEJ와 연관된 분자들이 결합되면, DNA-PK는 그 자신의 촉매 서브유닛(DNA-PKcs)을 활성화시키고, 추가로 엔도뉴클레아제 아르테미스(Artemis; 또는 SNM1c로 공지됨)를 과정에 참여시킨다. 이중가닥 절단의 서브유닛에서, 아르테미스는 과량의 단일가닥 DNA(ssDNA)를 제거하고, DNA 리가제 IV에 의해 라이게이션될 기질을 생성한다. 비상동말단연결에 의한 DNA 복구는 DNA-PKcs/Ku70/80 복합체를 통한 서열 상동성에 독립적인 블런트-말단 라이게이션 메커니즘을 포함한다. 세포 주기 동안, 비상동말단연결은 G0/G1 및 G2에서 우세하게 일어난다[문헌(Chiruvella et al., (2013) Cold Spring Harb Perspect Biol 5:a012757) 참조]. 현재의 연구는 비상동말단연결이 G0 및 G1에서 활성인 유일한 이중가닥 절단 복구 경로인 반면, 상동지정복구는 주로 S 및 G2 기에서 기능하여, 복제-연관된 이중가닥 절단의 복구에서 주요한 역할을 함을 보였다[문헌 (Karanam et al., (2012) Mol Cell 47:320-329; Li and Xu (2016) Acta Biochim Biophys Sin 48(7):641-646) 참조]. 비상동말단연결은 상동지정복구와는 달리 분열 세포뿐만 아니라, 분열 및 비-분열 세포 둘 다에서 활성이다. 상동지정복구에 의한 DNA 복구 동안, 이중가닥이 절단된 유전자의 말단은 주로 MRN(MRE11-RAD50-NBS1) 복합체에 의해 절제되어 3'-ssDNA 꼬리를 노출한다[문헌(Heyer et al., (2010) Annu Rev Genet 44: 113-139) 참조]. 생리학적 조건 하에서, 인접한 염색체는 상동성 서열을 제공하는 복구 주형으로서 사용될 것이다.
제3 복구 메커니즘은 또한 "대안적 NHEJ(A-NHEJ)"로 지칭되는 미세상동성-매개된 말단 연결(MMEJ)이며, 여기서 유전적 결과는 작은 결실 및 삽입이 절단 부위에서 일어날 수 있다는 점에서 NHEJ와 유사하다. MMEJ는 보다 바람직한 DNA 말단 연결 복구 결과를 유도하는 DNA 파단 부위에 플랭킹된 소수의 뉴클레오티드의 상동성 서열을 사용하며, 최근의 보고는 이 프로세스의 분자적 메커니즘을 추가로 설명하였다[문헌(Cho and Greenberg,(2015) Nature 518:174-176; Mateos-Gomez et al., (2015) Nature 518, 254-257; Ceccaldi et al., (2015) Nature 528, 258-262) 참조].
포유류 세포에서, "표준적" 또는 "고전적" NHEJ 경로(C-NHEJ)는 핵산 또는 유전자에서 이중가닥 절단을 수복하기 위해 DNA-PK, Ku70-80, 아르테미스, 리가제 IV(Lig4), XRCC4, CLF, 및 Pol Mu를 포함하는 몇 개의 인자를 요구한다[문헌(Kasparek & Humphrey (2011) Seminars in Cell & Dev. Biol. 22:886-897) 참조].
따라서, 본 명세서에서 개시된 시스템, 조성물 또는 방법의 일부에서, 세포는 C-NHEJ에서 관여된 인자의 발현 또는 활성을 감소 또는 제거하도록 변형될 수 있다. 예를 들어, 일부 시스템 또는 방법은 MRE11, RAD50, NBS1, DNA-PK, CtIP, Ku70, Ku80, 아르테미스(DCLRE1C), 리가제 IV(Lig4), PNKP, XRCC4, XLF(XRCC4-like factor), ATM(ATM Serine/Threonine Kinase), CHK1/CHK2, CLF(CURLY LEAF), 및/또는 Pol Mu(POLM) 발현 또는 활성을 감소 또는 제거할 수 있는 인자를 더 포함할 수 있다.
또한, 본 명세서에서 개시된 시스템, 조성물 또는 방법의 일부에서, 세포는 A-NHEJ에서 관여된 인자의 발현 또는 활성을 감소 또는 제거하도록 변형될 수 있다. 예를 들어, 일부 시스템, 조성물 또는 방법은 XRCC1, PARP(예를 들면, PARP1), Lig1, 및/또는 Lig3 발현 또는 활성을 감소 또는 제거할 수 있는 인자를 더 포함할 수 있다.
상동지정복구를 통한 DNA 복구는 자유 DNA 말단을 프로세싱하는 뉴클레아제 또는 헬리카제를 포함한 다수 클래스의 단백질, 그리고 보조 상동지정복구 인자를 위한 핵형성 부위로 작용하는 단백질 결합 도메인과 연관되어 있다. 일 구체예에서, 상동지정복구구 단백질은 DNA 가닥 절단을 촉진하는 뉴클레아제 및/또는 헬리카제, 예컨대 MRE11, EXO1, DNA2, CtIP, TREX2 및 아폴로; 특이적 인자를 동원하거나 가닥 침입을 촉매하는 결합 인자/핵형성 단백질, 예컨대 BRCA1, BRCA2, PALB2, RAD50 또는 NBS1, RAD51, RAD52, RAD54, SRCAP, FANCI, FANCD2, BRIP1, SLX4, FANCA, FANCE 및 FANCL (이들 인자의 말단절단되거나, 돌연변이되거나, 변형되거나, 또는 최적화된 버전 포함)로 이루어진 군으로부터 선택될 수 있다.
일 구체예에 있어서, 상동지정복구를 강화하기 위하여, 본원에서 기술되는 상동지정복구 단백질의 중 어느 것의 전체 길이 또는 말단 절단된 단백질이 엔도뉴클레아제(예를 들면, Cas12f1, TnpB 또는 이의 변이체)와 결합될 수 있다. 따라서, 본 명세서는 Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 융합 단백질을 추가로 제공한다. 상기 Cas12f1, TnpB 또는 이의 변이체 및 상동지정복구 단백질은 1-100, 1-50, 1-30 또는 1-20개의 임의의 아미노산 서열을 통해 연결된 것일 수 있다.
일부 구현예에서, 상기 방법은 본 발명의 시스템, 조성물 또는 벡터 시스템을 세포와 접촉시키거나 세포 내에서 발현시키는 단계; 및 공여자 핵산 분자가 이중가닥 절단의 부위로 삽입되고 이중가닥 절단이 복구되기에 충분한 조건하에서 표적 부위에 이중가닥 절단을 유도함으로써, 표적 핵산 또는 그 인접 부위로 공여자 핵산 분자가 도입되는 단계를 포함하는, 세포 내 이중가닥 핵산 상의 표적 부위로 목적하는 서열을 도입하는 방법을 제공한다. 여기서, 이중가닥 절단의 복구 과정은 상동지정복구 기작에 의하는 것일 수 있다.
상기 세포와 접촉시키는 단계는 상기 표적 핵산 편집 시스템 시스템의 세포 내로의 전달 또는 도입을 포함하는 것일 수 있다. 상기 세포에 표적 핵산 편집 시스템을 처리하는 것은 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 나노파티클 방법 및/또는 일시적인 세포 압축 또는 스퀴징 방법을 이용한 것일 수 있다. 또는 상기 진핵 세포에 조성물을 처리하는 것은 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙타민(lipofection), PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염, 및/또는 나노파티클-매개 핵산 전달[문헌(Panyam et al., Adv Drug Deliv Rev. 2012 Sep 13. pii: S0169-409X(12)00283-9.) 참조]을 이용한 것일 수 있다. 상기 세포에 상기 시스템을 처리, 전달 또는 도입하는 것은 in vitro, in vivo 또는 ex vivo에서 수행될 수 있다.
상기 벡터 시스템은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택된 패키징 바이러스에 도입되어 패키징 바이러스에 의해 생성된 바이러스 형태로 원핵 세포 또는 진핵 세포 내로 전달되는 것일 수 있다.
상기 세포는 식물세포, 비인간 동물 세포 또는 인간 세포일 수 있다. 또한, 상기 세포는 진핵 세포 또는 원핵 세포일 수 있다.
상기 "Cas12f1, TnpB 또는 이의 변이체(variant) 단백질", "엔지니어링된 가이드 RNA" 및 "공여자 핵산 분자"에 관한 내용은 상기를 참조한다.
이하, 실시예를 통해 본 명세서가 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실시예는 오로지 본 명세서에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 이 기술 분야에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예
실시예 1. 상동지정복구를 위한 핵산 편집 시스템의 구성요소 제작
실시예 1.1. Cas12f1, TnpB 또는 이의 변이체 단백질을 암호화하는 인간 코돈-최적화된 핵산
본 발명의 상동지정복구를 위한 핵산 편집 시스템은 일 구성요소로서 Cas12f1, TnpB 또는 이의 변이체 단백질(즉, Cas12f1 변이체 단백질 또는 TnpB 변이체 단백질)을 포함한다. Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함한다. 바람직하게, Cas12f1 단백질은 서열번호 5의 아미노산 서열을 포함하거나 이로 이루어진 단백질을 포함하며, TnpB 단백질은 서열번호 1의 아미노산을 포함하거나 이로 이루어진 단백질을 포함한다(이때, TnpB는 CWCas12f1으로도 분류 및 명명될 수 있다). 또한, Cas12f1의 변이체 또는 TnpB의 변이체 단백질은 서열번호 1의 아미노산 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열을 포함하거나 이로 이루어진 단백질을 포함한다. 상기 서열번호 1의 아미노산 서열을 기준으로 N-말단으로부터 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열로 이루어진 Cas12f1 변이체 또는 TnpB 변이체 단백질의 대표예로서 본 명세서에서는 Cas12f1의 N-말단에 CasX의 N-말단 26aa를 포함하는 TnpB-v1 단백질(서열번호 2), 28aa 무작위 서열을 포함하는 TnpB-v2 단백질(서열번호 3) 또는 26aa 무작위 서열을 포함하는 TnpB-v3 단백질(서열번호 4)이 제공된다. 또한, Cas12f1의 변이체 또는 TnpB의 변이체 단백질은 서열번호 1의 아미노산 서열을 포함하거나 이로 이루어진 TnpB의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열로 이루어진 단백질을 포함한다. 여기서, N-말단 또는 C-말단에 추가되는 1개 내지 600개의 아미노산은 서열번호 294 또는 서열번호 295의 아미노산 서열을 포함하거나 이로 이루어질 수 있으며, 상기 추가되는 서열과 상기 변이체 단백질 사이에는 1개 이상의 NLS 서열이 더 포함될 수 있다. 또한, 다른 종에서 유래한 TnpB에 해당하는 TnpB 변이체 단백질은 서열번호 202 내지 서열번호 293 중에서 선택된 어느 하나의 아미노산 서열을 포함하거나 이로 이루어진 단백질일 수 있다.
인간 세포에서 발현하는 표적 핵산 편집 시스템 및 핵산 절단을 위한 표적 핵산 편집을 암호화하는 핵산 구조물을 구축하기 위해서, 코돈 최적화 프로그램을 이용하여 Cas12f1, TnpB 또는 이의 변이체 단백질에 대한 인간 코돈-최적화된 유전자를 얻었다. 이와 같이 제작한 Cas12f1, TnpB 또는 이의 변이체 단백질을 암호화하는 인간 코돈-최적화된 염기서열은 각각 서열번호 6(TnpB), 서열번호 7(TnpB-v1), 서열번호 8(TnpB-v2), 서열번호 9(TnpB-v3) 및 서열번호 10(Cas12f1)에 나타내었다.
하기 표 4에는 위에서 제작된 Cas12f1, TnpB 또는 이의 변이체 단백질의 아미노산 서열을 나타냈다. 또한, 표 5에는 Cas12f1, TnpB 또는 이의 변이체 단백질을 각각 암호화하는 인간 코돈-최적화된 핵산의 염기서열을 나타냈다. 이들은 실시예에서 표적 핵산 편집 시스템을 구성하는 핵산 편집 단백질을 암호화하는 핵산으로 사용되었다.
명칭 | 아미노산 서열 | 서열번호 |
TnpB 단백질 | MGEKSSRRRRNGKSGAWTAAITSCVGGKMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP |
1 |
TnpB-v1 단백질 | MEKRINKIRKKLSADNATKPVSRSGPMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP |
2 |
TnpB-v2 단백질 | MAGGPGAGSAAPVSSTSSLPLAALNMRVMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP |
3 |
TnpB-v3 단백질 | MAGGPGAGSAAPVSSTSSLPLAALNMMAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP |
4 |
Cas12f1 단백질 | MAKNTITKTLKLRIVRPYNSAEVEKIVADEKNNREKIALEKNKDKVKEACSKHLKVAAYCTTQVERNACLFCKARKLDDKFYQKLRGQFPDAVFWQEISEIFRQLQKQAAEIYNQSLIELYYEIFIKGKGIANASSVEHYLSDVCYTRAAELFKNAAIASGLRSKIKSNFRLKELKNMKSGLPTTKSDNFPIPLVKQKGGQYTGFEISNHNSDFIIKIPFGRWQVKKEIDKYRPWEKFDFEQVQKSPKPISLLLSTQRRKRNKGWSKDEGTEAEIKKVMNGDYQTSYIEVKRGSKIGEKSAWMLNLSIDVPKIDKGVDPSIIGGIDVGVKSPLVCAINNAFSRYSISDNDLFHFNKKMFARRRILLKKNRHKRAGHGAKNKLKPITILTEKSERFRKKLIERWACEIADFFIKNKVGTVQMENLESMKRKEDSYFNIRLRGFWPYAEMQNKIEFKLKQYGIEIRKVAPNNTSKTCSKCGHLNNYFNFEYRKKNKFPHFKCEKCNFKENADYNAALNISNPKLKSTKEEP |
5 |
명칭 | 염기서열 (5' to 3') | 서열번호 |
TnpB 단백질을 암호화하는 인간 코돈-최적화된 핵산 | ATGGGGGAGAAAAGTTCCCGCCGCCGACGGAATGGAAAAAGCGGTGCGTGGACTGCTGCTATAACAAGCTGTGTTGGGGGTAAGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC |
6 |
TnpB-v1 단백질을 암호화하는 인간 코돈-최적화된 핵산 | ATGGAAAAGAGAATCAACAAGATCAGGAAGAAGCTGAGCGCCGACAACGCCACCAAGCCTGTGTCTAGGAGTGGCCCCCATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC |
7 |
TnpB-v2 단백질을 암호화하는 인간 코돈-최적화된 핵산 | ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGCGCGTGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC |
8 |
TnpB-v3 단백질을 암호화하는 인간 코돈-최적화된 핵산 | ATGGCTGGCGGACCAGGCGCAGGTAGTGCTGCGCCAGTTTCTTCAACTTCCTCCCTGCCCCTGGCTGCGCTTAACATGATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC |
9 |
Cas12f1 단백질을 암호화하는 인간 코돈-최적화된 핵산 | ATGGCCAAGAACACAATTACAAAGACACTGAAGCTGAGGATCGTGAGACCATACAACAGCGCTGAGGTCGAGAAGATTGTGGCTGATGAAAAGAACAACAGGGAAAAGATCGCCCTCGAGAAGAACAAGGATAAGGTGAAGGAGGCCTGCTCTAAGCACCTGAAAGTGGCCGCCTACTGCACCACACAGGTGGAGAGGAACGCCTGTCTGTTTTGTAAAGCTCGGAAGCTGGATGATAAGTTTTACCAGAAGCTGCGGGGCCAGTTCCCCGATGCCGTCTTTTGGCAGGAGATTAGCGAGATCTTCAGACAGCTGCAGAAGCAGGCCGCCGAGATCTACAACCAGAGCCTGATCGAGCTCTACTACGAGATCTTCATCAAGGGCAAGGGCATTGCCAACGCCTCCTCCGTGGAGCACTACCTGAGCGACGTGTGCTACACAAGAGCCGCCGAGCTCTTTAAGAACGCCGCTATCGCTTCCGGGCTGAGGAGCAAGATTAAGAGTAACTTCCGGCTCAAGGAGCTGAAGAACATGAAGAGCGGCCTGCCCACTACAAAGAGCGACAACTTCCCAATTCCACTGGTGAAGCAGAAGGGGGGCCAGTACACAGGGTTCGAGATTTCCAACCACAACAGCGACTTTATTATTAAGATCCCCTTTGGCAGGTGGCAGGTCAAGAAGGAGATTGACAAGTACAGGCCCTGGGAGAAGTTTGATTTCGAGCAGGTGCAGAAGAGCCCCAAGCCTATTTCCCTGCTGCTGTCCACACAGCGGCGGAAGAGGAACAAGGGGTGGTCTAAGGATGAGGGGACCGAGGCCGAGATTAAGAAAGTGATGAACGGCGACTACCAGACAAGCTACATCGAGGTCAAGCGGGGCAGTAAGATTGGCGAGAAGAGCGCCTGGATGCTGAACCTGAGCATTGACGTGCCAAAGATTGATAAGGGCGTGGATCCCAGCATCATCGGAGGGATCGATGTGGGGGTCAAGAGCCCCCTCGTGTGCGCCATCAACAACGCCTTCAGCAGGTACAGCATCTCCGATAACGACCTGTTCCACTTTAACAAGAAGATGTTCGCCCGGCGGAGGATTTTGCTCAAGAAGAACCGGCACAAGCGGGCCGGACACGGGGCCAAGAACAAGCTCAAGCCCATCACTATCCTGACCGAGAAGAGCGAGAGGTTCAGGAAGAAGCTCATCGAGAGATGGGCCTGCGAGATCGCCGATTTCTTTATTAAGAACAAGGTCGGAACAGTGCAGATGGAGAACCTCGAGAGCATGAAGAGGAAGGAGGATTCCTACTTCAACATTCGGCTGAGGGGGTTCTGGCCCTACGCTGAGATGCAGAACAAGATTGAGTTTAAGCTGAAGCAGTACGGGATTGAGATCCGGAAGGTGGCCCCCAACAACACCAGCAAGACCTGCAGCAAGTGCGGGCACCTCAACAACTACTTCAACTTCGAGTACCGGAAGAAGAACAAGTTCCCACACTTCAAGTGCGAGAAGTGCAACTTTAAGGAGAACGCCGATTACAACGCCGCCCTGAACATCAGCAACCCTAAGCTGAAGAGCACTAAGGAGGAGCCC |
10 |
상기 제작된 초소형 유전자 편집 핵산 구조물을 다음의 방법으로 제조하였다. 본 발명에 사용된 상기 핵산 구조물은 인간 코돈-최적화된 Cas12f1, TnpB 또는 이의 변이체(엔지니어링된 변이체 포함)의 유전자 서열을 포함한다. 상기 유전자 서열을 주형으로 PCR 증폭을 진행하고, Gibson assembly 방법에 의해 진핵 세포 시스템(eukaryotic cell system)에서 발현이 가능한 프로모터와 poly(A) 신호 서열(signal sequence)을 가지는 벡터에 원하는 클로닝(cloning) 서열에 맞게 클로닝을 진행하였다. 클로닝 후, 얻어진 재조합 플라스미드 벡터의 서열은 생거 시퀀싱(Sanger sequencing) 방법을 통하여 최종 확인하였다.
실시예 1.2. Cas12f1 및 TnpB 단백질의 발현 및 정제
상기 실시예 1.1에서 제조한 유전자를 발현시키고, 단백질을 정제하였다.
먼저 상기 핵산 구조물을 pMAL-c2 플라스미드 벡터에 클로닝하여 BL21(DE3) E. coli 세포에 형질전환하였다. 상기 형질전환된 E. coli 콜로니를 광학 밀도가 0.7에 도달할 때까지 37℃의 LB broth에서 성장시켰다. 상기 형질전환된 E. coli 세포들은 0.1 mM isopropylthio-β-D-galactoside 존재 하 18℃에서 하룻밤 배양되었다. 그 후, 상기 배양된 세포들을 3,500g에서 30분간 원심분리하여 수집하고, 수집된 세포들을 20 mM Tris-HCl(pH 7.6), 500 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol에 재현탁하였다. 상기 세포를 용해 버퍼에서 용해한 후, 음파처리(sonication)에 의해 파쇄하였다. 파쇄된 세포가 포함된 샘플을 15,000g로 30분 간 원심분리하여 수득한 상측액을 0.45 ㎛ 주사기 필터(Millipore)를 통해 여과하고, 여과된 상층액을 FPLC 정제 시스템(KTA Purifier, GE Healthcare)을 사용하여, Ni2+-친화성 컬럼에 로드하였다. 결합 분획(bound fractions)은 80-400 mM imidazole, 20 mM Tris-HCl(pH 7.5) 구배에서 용출되었다.
상기 용출된 단백질을 TEV 프로테아제로 16시간 동안 처리하여 절단하였다. 절단된 단백질을 0.15-1.6 M NaCl 선형 농도구배의 Heparin 컬럼에서 정제하였다. Heparin 컬럼에서 정제된 재조합 Cas12f1 변이체 단백질은 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액에서 투석되었다. 상기 투석된 단백질을 MBP 컬럼을 통과시켜 정제한 후, 0.5-1.2 M NaCl의 선형 구배로 monoS 컬럼(GE Healthcare) 또는 EnrichS에서 재정제하였다.
상기 재정제된 단백질들을 모아, 20 mM Tris pH 7.6, 150 mM NaCl, 5 mM β-mercaptoethanol, 5% glycerol의 용액으로 투석하여 본 발명에서 사용되는 초소형 유전자 편집 단백질(소형 엔도뉴클레아제)을 정제하였다. 상기 생산된 초소형 유전자 편집 단백질의 농도는 소 혈청 알부민(BSA)을 표준으로 사용하는 Bradford 정량법을 이용하여 정량하여 coomassie blue-stained SDS-PAGE 겔에서 전기영동적(electrophoretically)으로 측정되었다.
실시예 1.3. 상동지정복구를 위한 핵산 편집 시스템에 사용되는 가이드 RNA의 구축
상동지정복구에 사용하기 위한 핵산 편집 시스템(TaRGET 시스템)의 일 구성으로서 가이드 RNA(guide RNA, gRNA)는 도 1에 도시한 바와 같이 크게 5개 영역(각각 MS1 내지 MS5)에서 변형을 갖는 복수의 엔지니어링된 gRNA가 시험되었다. gRNA의 예시적인 서열을 하기 표 6에 나타내었다.
gRNA | Sequence(5' to 3') | 서열번호 |
Canonical sgRNA | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUUUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGacgaaUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 13 |
MS1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 149 |
MS1/MS2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 150 |
MS1/MS2/MS3 (ge3.0) |
ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 151 |
MS2/MS3/MS4(ge4.0) | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 152 |
MS2/MS3/MS4/MS5(ge4.1) | ACCGCUUCACUUAGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUUUU | 153 |
MS1/MS3-1 | GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 154 |
MS1/MS3-2 | UGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 155 |
MS1/MS3-3 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 156 |
MS1/MS4*-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCgaaaGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 157 |
MS1/MS4*-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 158 |
MS1/MS4*-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUgaaaAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 159 |
MS1/MS5-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 160 |
MS1/MS5-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCuuagGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 161 |
MS1/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 162 |
MS1/MS2/MS4*-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU | 163 |
MS1/MS3-3/MS4*-2 | ACCGCUUCACCAAAAGCUGUCCCUUAGGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 164 |
MS1/MS2/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU | 165 |
MS1/MS3-3/MS5-3 | ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 166 |
MS1/MS4*-2/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 167 |
MS1/MS2/MS3-3/MS4*-2 | ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU | 168 |
MS1/MS2/MS3-3/MS5-3 | ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCCAAUUCUGCACAAgaaaGUUGCAGAACCCGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU | 169 |
MS1/MS2/MS4*-2/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU | 170 |
MS1/MS3-3/MS4*-2/MS5-3 | ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 171 |
MS1/MS2/MS3-3/MS4*-2/MS5-3 | ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAGUGCUCCUCUCgaaaGAAUAGAGCAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNNUUUUAUUUU | 172 |
또한, 상기 Canonical sgRNA에서 변형부위 중 하나인 MS1 서열이 제거된 성숙된 형태의 gRNA(mature form gRNA)를 제작하였다. 성숙된 형태의 gRNA의 예시적인 서열은 하기 표 7에 나타내었다.
gRNA | Sequence(5' to 3') | 서열번호 |
Mature form gRNA | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 173 |
MS3-1 | GAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 174 |
MS3-2 | UGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 175 |
MS3-3 | ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 176 |
MS4-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUgaaaAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 177 |
MS4-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCgaaaGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 178 |
MS4-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 179 |
MS5-1 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUGUuuagAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 180 |
MS5-2 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAAAGCUuuagAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 181 |
MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 182 |
MS3-3/MS4-3 | ACCGCUUCACCAAAAGCUGUCCCuuagGGGAUUAGAACUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 183 |
MS3-3/MS5-3 | ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAUUCAUUUgaaaGAAUGAAGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 184 |
MS4-3/MS5-3 | CUUCACUGAUAAAGUGGAGAACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 185 |
MS3-3/MS4-3/MS5-3 | ACCGCUUCACCAAuuagUUGAGUGAAGGUGGGCUGCUUGCAUCAGCCUAAUGUCGAGAAGUGCUUUCUUCGGAAAGUAACCCUCGAAACAAAgaaaGGAAUGCAACNNNNNNNNNNNNNNNNNNNN | 186 |
상기 표 6 및 표 7에서 'NNNNNNNNNNNNNNNNNNNN'으로 표시된 서열은 표적 유전자 내의 표적 서열과 혼성화할 수 있는 임의의 가이드 서열(스페이서 서열)을 의미한다. 상기 가이드 서열은 목적하는 표적 유전자 및/또는 상기 표적 유전자 내 표적 서열에 따라 당업자에 의해 적절하게 설계될 수 있으며, 따라서 특정 길이의 특정 서열로 한정되는 것은 아니다.
실시예 2. 핵산 편집 시스템을 이용한 상동지정복구(HDR)
실시예 2.1. 핵산 편집 시스템의 상동지정복구 효율 분석
상동지정복구를 위해서는 DNA의 이중가닥 절단을 위한 핵산 분해효소와 공여자(donor) 핵산이 필요하다. Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 본원의 핵산 편집 시스템(TaRGET 시스템)의 상동지정복구 효율을 분석하고, 이를 기존의 Cas9과 Cas12a의 상동지정복구 효율과 비교하기 위한 연구를 수행하였다. 도 2는 예시적인 공여자 핵산의 구조 및 이를 이용한 유전자 편집(비상동말단연결 또는 상동지정복구에 의한 유전자 편집) 과정을 나타낸다. 도 2에서, 표적 핵산 서열은 5'-TTTAGAGGGAGACACAAGTTGATAGGG-3'(서열번호 296)를 사용하였다.
우선, 예시적인 표적 유전자로서 NLRC4(NLR Family CARD Domain Containing 4)에 대해 Cas9, Cas12a, Cas12f 및 TnpB의 상동지정복구 및 비상동말단연결 효율을 조사하였다. TnpB는 서열번호 1의 아미노산 서열을 갖는 단백질을 사용하였고, Cas12f는 서열번호 5의 아미노산 서열을 갖는 단백질을 사용하였으며, Cas9 및 Cas12a의 구체적인 서열 정보는 하기 표 8에 제공된다.
명칭 | 아미노산 서열 | 서열번호 |
Cas9 단백질 | DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD |
297 |
Cas12a단백질 | TQFEGFTNLYQVSKTLRFELIPQGKTLKHIQEQGFIEEDKARNDHYKELKPIIDRIYKTYADQCLQLVQLDWENLSAAIDSYRKEKTEETRNALIEEQATYRNAIHDYFIGRTDNLTDAINKRHAEIYKGLFKAELFNGKVLKQLGTVTTTEHENALLRSFDKFTTYFSGFYENRKNVFSAEDISTAIPHRIVQDNFPKFKENCHIFTRLITAVPSLREHFENVKKAIGIFVSTSIEEVFSFPFYNQLLTQTQIDLYNQLLGGISREAGTEKIKGLNEVLNLAIQKNDETAHIIASLPHRFIPLFKQILSDRNTLSFILEEFKSDEEVIQSFCKYKTLLRNENVLETAEALFNELNSIDLTHIFISHKKLETISSALCDHWDTLRNALYERRISELTGKITKSAKEKVQRSLKHEDINLQEIISAAGKELSEAFKQKTSEILSHAHAALDQPLPTTLKKQEEKEILKSQLDSLLGLYHLLDWFAVDESNEVDPEFSARLTGIKLEMEPSLSFYNKARNYATKKPYSVEKFKLNFQMPTLASGWDVNKEKNNGAILFVKNGLYYLGIMPKQKGRYKALSFEPTEKTSEGFDKMYYDYFPDAAKMIPKCSTQLKAVTAHFQTHTTPILLSNNFIEPLEITKEIYDLNNPEKEPKKFQTAYAKKTGDQKGYREALCKWIDFTRDFLSKYTKTTSIDLSSLRPSSQYKDLGEYYAELNPLLYHISFQRIAEKEIMDAVETGKLYLFQIYNKDFAKGHHGKPNLHTLYWTGLFSPENLAKTSIKLNGQAELFYRPKSRMKRMAHRLGEKMLNKKLKDQKTPIPDTLYQELYDYVNHRLSHDLSDEARALLPNVITKEVSHEIIKDRRFTSDKFFFHVPITLNYQAANSPSKFNQRVNAYLKEHPETPIIGIDRGERNLIYITVIDSTGKILEQRSLNTIQQFDYQKKLDNREKERVAARQAWSVVGTIKDLKQGYLSQVIHEIVDLMIHYQAVVVLENLNFGFKSKRTGIAEKAVYQQFEKMLIDKLNCLVLKDYPAEKVGGVLNPYQLTDQFTSFAKMGTQSGFLFYVPAPYTSKIDPLTGFVDPFVWKTIKNHESRKHFLEGFDFLHYDVKTGDFILHFKMNRNLSFQRGLPGFMPAWDIVFEKNETQFDAKGTPFIAGKRIVPVIENHRFTGRYRDLYPANELIALLEEKGIVFRDGSNILPKLLENDDSHAIDTMVALIRSVLQMRNSNAATGEDYINSPVRDLNGVCFDSRFQNPEWPMDADANGAYHIALKGQLLLNHLKESKDLKLQNGISNQDWLAYIQELRN |
298 |
상기 Cas9 및 Cas12a 각각에 대해 사용된 가이드 RNA의 서열 정보는 하기 표 9에서 제공된다.
구분 | 염기서열 | 서열번호 |
Cas9 gRNA | GAGGGAGACACAAGTTGATAgttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgctttttt | 299 |
Cas9 gRNA scaffold | gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc | 300 |
Cas12a gRNA | taatttctactcttgtagatGAGGGAGACACAAGTTGATA | 301 |
Cas12a crRNA | taatttctactcttgtagat | 302 |
상기 표적 유전자 NLRC4의 서열은 서열번호 190의 서열(GAGGGAGACACAAGTTGATA)을 사용하였다. 상기 표적 유전자 서열에서 Cas12a, Cas12f1의 PAM 서열은 표적 유전자 서열의 5' 말단부 방향에 위치한 5'-TTTA-3'이고, Cas9의 PAM 서열은 표적 유전자 서열의 3' 말단부 방향에 위치한 5'-GGG-3'이다. 각각의 핵산 분해효소와 gRNA를 암호화하는 핵산 서열을 포함하는 벡터 1 μg 및 공여자 핵산 1 μg을 HEK293T 세포에 형질감염시켰다. 그 후 유전체(genomic) DNA를 추출하고, 해당 NLRC4의 표적 부위를 PCR로 증폭한 다음 딥시퀀싱(deep sequencing, Illumina iSeq 100) 분석을 수행함으로써 상동지정복구 및 비상동말단연결의 효율을 조사하였다. 본 실험 결과는 도 3에 도시하였다.
도 3에서 확인할 수 있는 바와 같이, 공여자 핵산(도 3의 donor DNA)이 존재하지 않는 조건에서는 상기 3종(Cas9, Cas12a, Cas12f)의 서로 다른 Cas 시스템에서 모두 비상동말단연결(NHEJ)이 거의 비슷한 70% 정도의 효율로 발생하였다. 한편, 공여자 핵산이 존재하는 상태에서만 상동지정복구가 일어났다. Cas9 및 Cas12a의 경우 각각 4.13%, 4.26%의 낮은 상동지정복구 효율을 보인데 반해, TnpB의 경우에는 11.87%의 높은 상동지정복구 효율을 보였다. 이러한 결과는 본 발명의 표적 핵산 편집 시스템이 Cas9 및 Cas12a 대비 상동지정복구 효율이 현저하게 높음을 입증한다.
실시예 2.2. 공여자 핵산의 길이에 따른 상동지정복구 효율 분석
공여자 핵산의 길이에 따른 상동지정복구 효율을 분석하였다. 구체적으로, 상기 실시예 2.1에서는 공여자 핵산을 600 bp의 단일한 길이로 한 것과 달리, 본 실시예에서는 공여 서열의 길이를 각각 8 kb, 6 kb, 5 kb, 4 kb, 3 kb, 2.5 kb, 2 kb, 1.6 kb, 1 kb, 800 bp, 600 bp, 400 bp 및 200 bp로 다양하게 변화시켰다. 상동지정복구 효율은 상기 실시예 2.1.과 동일한 방법으로 표적 유전자 NLRC4를 대상으로 하여 분석하였다. 본 실험 결과는 도 4에 도시하였다.
도 4에 나타낸 바와 같이, 일 실시예에 따른 표적 핵산 편집 시스템은 공여자 핵산의 길이가 약 4 kb에 다다를 때까지 상동지정복구 효율이 길이에 비례하여 증가함을 확인하였다.
실시예 2.3. 시간에 따른 상동지정복구 및 비상동말단연결 효율의 분석
형질감염 후 경과된 시간에 따라 상동지정복구 및 비상동말단연결의 효율이 변화하는지 여부를 분석하였다. 구체적으로, HEK293T 세포에 Cas9 또는 TaRGET 시스템(TnpB)을 암호화하는 핵산 서열을 포함하는 벡터 1 μg 및 공여자 핵산 1 μg을 각각 형질감염시켰다. 표적 유전자는 상기 실시예 2.1과 동일하게 NLRC4를 사용하였으며, 형질감염 후 일정한 시간이 경과한 뒤에 세포를 수득하여 표적 부위를 증폭하여 딥시퀀싱 분석을 통해 상동지정복구 및 비상동말단연결 효율을 분석하였다. 형질감염된 HEK293T 세포는 최초 형질감염일을 기준으로 5일 후 계대배양을 하였으며, 계대배양 직후에는 위와 동일하게 Cas9 또는 TaRGET(TnpB) 시스템을 암호화하는 핵산 서열을 포함하는 벡터 1 μg 및 공여자 핵산 1 μg을 다시 형질감염시켰다. 이러한 과정을 최초 형질감염 10일 후에도 수행하였으며, 형질감염 후 14일까지의 유전자 편집 효율을 분석하였다. 본 실험 결과는 도 5에 도시하였다.
도 5에 나타낸 바와 같이, Cas9 및 TaRGET(TnpB) 시스템 모두 시간이 경과함에 따라 상동지정복구 효율이 증가하는 것으로 확인되었다. 특히, TaRGET 시스템은 Cas9 시스템과 비교하여 더욱 현격한 상동지정복구 효율의 증가를 보였다. 이와 동시에, 비상동말단연결 효율은 Cas9에 비해 TaRGET 시스템에서 더 억제됨을 알 수 있었다. 즉, 시간이 경과함에 따라 TaRGET 시스템의 경우 비상동말단연결에 비해 상동지정복구의 효율이 현저하게 증가함을 확인하였다.
실시예 2.4. 다양한 표적 유전자에서 Cas9, Cas12a 및 TaRGET 시스템의 상동지정복구 효율 분석
표적 유전자로서 NLRC4, FUS 및 LOC105370393을 대상으로 상동지정복구 효율을 분석하였다. 상기 각 표적 유전자의 표적 서열은 순서대로 각각 서열번호 190의 서열(GAGGGAGACACAAGTTGATA), 서열번호 191의 서열(GTGGGTAGGTCCAGTTTGGG) 및 서열번호 192의 서열(GCAGTACACCTGAGGGAACA)을 사용하였다. 상기 표적 유전자 서열에서 Cas12a 및 Cas12f 변이체의 PAM 서열은 표적 유전자 서열의 5' 말단부 방향에 위치한 5'-TTTA-3'이고, Cas9의 PAM 서열은 표적 유전자 서열의 3' 말단부 방향에 위치한 5'-GGG-3'이다. 목적 서열로는 길이 27 bp의 서열번호 193의 서열(AACGTGACACGACGCGTTTCGGAGAAC)을 이용하였으며, gRNA는 상기 표 3 및 표 4의 ge_4.0(표적 유전자가 LOC105370393인 경우) 또는 ge_4.1(표적 유전자가 NLRC4 또는 FUS인 경우)을 이용하였다. HEK293T 세포에 Cas9, Cas12a 또는 TaRGET(Cas12f, TnpB) 시스템을 암호화하는 핵산 서열을 포함하는 벡터 1 μg 및 공여자 핵산 1 μg을 각각 형질감염시켰다. 형질감염 후 5일이 경과한 시점에 세포를 수집하여 표적 부위를 증폭하고 딥시퀀싱 분석을 통해 상동지정복구 및 비상동말단연결 효율을 분석하였다. 본 실험 결과는 도 6에 도시하였다.
도 6에서 확인할 수 있는 바와 같이, Cas9 및 Cas12a와 비교할 때 TaRGET 시스템(Cas12f, TnpB)은 세 표적 유전자 모두에서 현저히 높은 비상동말단연결 대비 상동지정복구 효율을 나타내었다. 세 표적 유전자에서 모두 Cas9과 Cas12a 사이의 편집 효율 차이는 크지 않았으나, TaRGET 시스템은 Cas9 및 Cas12a와 비교하여 3배에 가까운 비상동말단연결 대비 상동지정복구 효율을 나타내었다.
실시예 3. 유전자 복구 기작에 관여하는 유전자의 발현 억제를 통한 상동지정복구 효율 분석
실시예 3.1. 비상동말단연결(NHEJ) 관련 유전자의 발현 억제를 통한 상동지정복구 효율 분석
전술한 바와 같이, 공여자 DNA가 존재하는 상태에서는 상동지정복구와 비상동말단연결이 모두 가능하므로 두 유전자 수선 기작이 경합하여 발생하게 된다. 따라서 상동지정복구로의 유도를 향상시키기 위해 비상동말단연결 과정에 관여하는 것으로 알려진 다양한 유전자들의 발현을 shRNA를 사용하여 억제하였다. 비교를 위해, 상동지정복구 과정에 관여하는 유전자인 Rad51의 발현 억제 실험도 함께 진행되었다.
구체적으로, DCLRE1C, LIG4, XRCC4, KU70, XLF, ATM 및 Rad51 유전자를 각각 표적으로 하는 shRNA(순서대로 서열번호 194 내지 200) 및 대조군(Scrambled) shRNA(서열번호 201)를 제작하였다. 상기 shRNA의 구체적인 서열 정보는 하기 표 10에서 제공된다.
명칭 | 염기서열 | 서열번호 |
shRNA for DCLRE1C | GCAGAGCTCTCGTTTCACATTCAAGAGATGTGAAACGAGAGCTCTGC | 194 |
shRNA for LIG4 | GCATGATCCTTCTGTAGGATTCAAGAGATCCTACAGAAGGATCATGC | 195 |
shRNA for XRCC4 | GAATCCACCTTGTTTCTGATTCAAGAGATCAGAAACAAGGTGGATTC | 196 |
shRNA for KU70 | GCAGCATTGTGCAGATACATTCAAGAGATGTATCTGCACAATGCTGC | 197 |
shRNA for XLF | GCATGAGTCTGGCATTACATTCAAGAGATGTAATGCCAGACTCATGC | 198 |
shRNA for ATM | GCAAGCAGCTGAAACAAATTTCAAGAGAATTTGTTTCAGCTGCTTGC | 199 |
shRNA for Rad51 | CGCCAAAGAAGGAGCTAATAATTCAAGAGATTATTAGCTCCTTCTTTGGCG | 200 |
shRNA for Scrambled | CAGAGCTAACTCAGATAGTACTTTCAAGAGAAGTACTATCTGAGTTAGCTCTG | 201 |
상기 shRNA는 CBA 프로모터와 ge_4.1 gRNA를 포함하는 TaRGET 시스템 및 1.6 kb 크기의 공여자 핵산(27 bp 치환)과 함께 실시예 2.1에서와 동일한 방법으로 세포에 형질전환시키고, 이후 상동지정복구 효율을 분석하였다. 본 실험 결과는 도 7에 도시하였다.
도 7에서 확인할 수 있는 바와 같이, 비상동말단연결에 관여하는 유전자의 발현을 억제하는 경우 TaRGET 시스템의 상동지정복구 효율이 유의하게 증가하였다. 한편, 상동지정복구를 유도하는 Rad51 유전자의 발현을 억제한 경우에는 상동지정복구 효율이 감소함을 알 수 있었다.
이와 같은 결과는 비상동말단연결에 관여하는 유전자의 발현을 억제함으로써 TaRGET 시스템을 이용한 상동지정복구 효율을 증가시킬 수 있음을 의미한다. 특히, TaRGET 시스템은 Cas 단백질 및 gRNA의 크기가 매우 작기 때문에 하나의 전달 벡터 내에 shRNA 분자를 함께 도입함으로써 상동지정복구 효율을 증가시킬 수 있는 장점이 있다.
실시예 3.2. DCLRE1C 넉아웃 세포주에서의 상동지정복구 효율 검증
실시예 3.1에서 상동지정복구 효율의 증가가 가장 컸던 DCLRE1C 유전자 억제의 효과를 추가로 검증하기 위해, DCLRE1C가 넉아웃된 HEK293T 세포주를 제작하였다. DCLRE1C-/- 세포주 및 야생형 HEK293T 세포주에서 표적 유전자 DCLR4에 대한 비상동말단연결 대비 상동지정복구 효율을 조사하였다. 본 실험 결과는 도 8에 도시하였다.
도 8에서 확인할 수 있는 바와 같이, DCLRE1C가 넉아웃된 세포에서는 야생형 대비 비상동말단연결 대시 상동지정복구 효율이 현저하게 증가되었다.
이어서, 상기 두 종류의 세포에 Cas9, Cas12a 또는 TaRGET(Cas12f1 변이체) 시스템을 암호화하는 핵산 서열을 포함하는 벡터 1 μg 및 공여자 핵산 1 μg을 각각 형질감염시켰다. 형질감염 후 5일이 경과한 시점에서 세포를 수집한 다음 표적 부위를 증폭하여 딥시퀀싱 분석을 통해 상동지정복구 및 비상동말단연결 효율을 분석하였다. 본 실험 결과는 도 9에 도시하였다.
도 9에서 확인할 수 있는 바와 같이, Cas9 및 Cas12a의 경우와 비교하여 TaRGET(Cas12f1 변이체) 시스템은 야생형 세포주에서 높은 비상동말단연결 대비 상동지정복구 효율을 나타내었다. 이와 같은 TaRGET 시스템의 비교 우위는 DCLRE1C 유전자가 넉아웃된 세포주에서 더 현격하게 관찰되었다. 구체적으로, Cas9과 Cas12a 시스템의 경우에도 DCLRE1C 유전자 넉아웃에 따른 상동지정복구 효율의 증가가 관찰되었으나 그 증가폭은 미미하였다. 대조적으로 TaRGET 시스템에서는 상동지정복구 효율의 증가폭이 월등하게 큰 것을 확인하였다. 이러한 결과는 TaRGET 시스템에서 DCLRE1C 유전자 발현을 억제할 수 있는 모듈을 추가로 장착할 경우 Cas9과 Cas12a에서 구현할 수 없는 월등한 수준의 상동지정복구 효율을 달성할 수 있음을 증명한 것이다.
실시예 4. AAV 전달체를 사용한 상동지정복구 효율의 최적화
AAV 전달체를 사용하여 상동지정복구를 위한 표적 핵산 편집 시스템을 효율적으로 전달하기 위해서는 AAV 패키징 한계인 약 4.7 kb 내로 모든 구성물이 포함되어야 한다. 상기 구성물은 가이드 RNA를 포함한 TaRGET 시스템 및 공여자 핵산을 필수 구성요소로 포함하며, 실시예 3에서 확인된 비상동말단연결에 관여하는 유전자의 발현 조절을 위한 shRNA 등이 추가로 포함될 수 있다. 한편, 실시예 2.2에서 확인된 바와 같이 공여자 핵산은 약 4 kb에 다다를 때까지 그 길이에 비례하여 상동지정복구 효율이 증가하였으므로, 프로모터의 종류와 shRNA의 유무에 따라 최대로 포함될 수 있는 길이의 공여자 핵산을 사용하였다.
구체적으로, 상대적으로 더 긴 길이의 CBA(chicken β-actin) 프로모터 또는 더 짧은 길이의 EFS(elongation factor 1α short) 프로모터를 사용하는 경우 및 shDCLRE1C를 사용하거나 사용하지 않는 경우의 4가지 TaRGET 시스템 벡터 조성물을 제작하였다. 그리고 각 벡터 조성물의 상동지정복구 효율을 NLRC4, FUS, LOC105370393 유전자에 대해서 조사하였다. 상기와 같이 제작한 벡터 조성물 2 μg을 야생형 HEK293T 세포에 형질감염시키고, 5일이 경과한 후 세포를 수집하여 표적 부위의 증폭 및 딥시퀀싱에 의해 상동지정복구 효율을 분석하였다. 본 실험 결과는 도 10에 도시하였다.
도 10a에 도시한 바와 같이, 각각의 벡터 조성물을 통해 TnpB 발현을 위한 프로모터로서 CBA 프로모터와 EFS 프로모터를 비교하였으며(도 10a에서 A와 C, B와 D의 비교), 이들 각각에 대해 shDCLRE1C가 존재하는 경우와 존재하지 않는 경우의 4가지 벡터 조성물을 구축하였다. 모든 벡터 조성물은 프로모터의 길이와 shDCLRE1C 존재 여부에 따라 공여자 핵산의 길이를 최대로 조절함으로써 전체 구성물의 길이가 4.7 kb 내로 통일되도록 하였다. 이로써 AAV를 이용한 전달이 가능하도록 하였다.
실험 결과 도 10b에 나타낸 바와 같이, 길이가 더 긴 CBA 프로모터를 사용한 경우에는 shDCLRE1C를 추가하더라도 상동지정복구 효율의 증가가 크지 않음을 확인하였다(도 10b에서 A 및 B의 비교). 이러한 결과는 shDCLRE1C의 추가에 따라 공여자 핵산의 길이가 감소되고, 이로 인한 상동지정복구 효율 감소에 의해 shDCLRE1C에 의한 효과가 일부 상쇄되기 때문인 것으로 사료된다. 한편, EFS 프로모터를 사용한 경우에는 shDCLRE1C 추가에 따른 상동지정복구 효율의 증가가 크게 나타났다(도 10b에서 C 및 D의 비교). 이는 shDCLRE1Cf를 추가하더라도 CBA 프로모터를 사용한 경우와 비교하여 더 긴 공여자 핵산을 사용할 수 있기 때문에 가장 높은 상동지정복구 효율을 달성할 수 있는 것이다.
상기와 같은 결과는 프로모터의 종류, 공여자 핵산의 길이 및 비상동말단연결 조절 유전자의 발현 억제를 위한 분자의 사용 여부 등을 조절, 선택함으로써 AAV 벡터를 이용한 전달시 최적의 상동지적복구 효율을 추구할 수 있음을 보여준다.
상기 진술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
Claims (99)
- Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산;
가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및
공여자 핵산 분자 또는 상기 공여자 핵산 분자를 암호화하는 핵산
을 포함하는 표적 핵산의 편집 시스템. - 제1항에 있어서,
상기 시스템은 표적 핵산에 이중가닥 절단(double-strand breaks)을 일으키는 것인
시스템. - 제1항에 있어서,
상기 시스템은 표적 핵산 또는 그 인접 부위에서 공여자 핵산 분자를 주형으로 하여 이중가닥 절단의 상동지정복구(homology-directed repair) 과정에 의해 목적 서열이 도입되는 것인
시스템. - Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제 또는 상기 엔도뉴클레아제를 암호화하는 핵산;
가이드 서열을 포함하는 엔지니어링된 가이드 RNA 또는 상기 가이드 RNA를 암호화하는 핵산; 및
공여자 핵산 분자 또는 상기 공여자 핵산 분자를 암호화하는 핵산
을 포함하는 표적 핵산의 유전자 편집 조성물. - 제1항 또는 제4항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 TnpB 단백질은 서열번호 202 내지 서열번호 293로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 하기 서열 중 하나를 포함하는
시스템 또는 조성물:
(ⅰ) 서열번호 5의 아미노산 서열;
(ⅱ) 서열번호 1의 아미노산 서열;
(ⅲ) 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열; 또는
(ⅳ) 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열. - 제7항에 있어서,
상기 추가된 1개 내지 600개의 아미노산은 서열번호 294 또는 서열번호 295의 아미노산 서열인
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1의 아미노산 서열과 70% 이상의 서열 동일성을 갖는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 엔지니어링된 가이드 RNA는 야생형 Cas12f1 가이드 RNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 가이드 RNA와 50% 이상의 서열 동일성을 갖는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는 tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)를 포함하고,
상기 엔지니어링된 가이드 RNA는 하기 (a) 내지 (d)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
시스템 또는 조성물:
(a) 하나 이상의 스템 영역의 일부 또는 전부의 결실;
(b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
(c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
(d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가. - 제12항에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열로 이루어진 crRNA를 포함하는
시스템 또는 조성물. - 제12항에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 5'-말단부터 순차적으로 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 tracrRNA 및 crRNA를 포함하고,
상기 엔지니어링된 가이드 RNA는
(a1) 제1 스템 영역의 일부 또는 전부의 결실;
(a2) 제2 스템 영역의 일부 또는 전부의 결실;
(b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
(c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
(d1) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)
로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환, 또는 상기 둘 모두의 변형을 포함하는
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실로 이루어진 군에서 선택된 하나 이상의 변형을 포함하는
시스템 또는 조성물. - 제16항에 있어서,
상기 엔지니어링된 가이드 RNA는 (b1) tracrRNA-crRNA 상보성 영역의 일부의 결실을 포함하고, 상기 상보성 영역의 일부는 1개 내지 54개의 뉴클레오티드인
시스템 또는 조성물. - 제16항에 있어서,
상기 엔지니어링된 가이드 RNA는 (b2) tracrRNA-crRNA 상보성 영역의 전부의 결실을 포함하고, 상기 상보성 영역의 전부는 55개의 뉴클레오티드인
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템 영역의 일부 또는 전부는 1개 내지 20개의 뉴클레오티드인
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a2) 제2 스템 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템 영역의 일부 또는 전부는 1 내지 27개의 뉴클레오티드인
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가; 또는 상기 둘 모두의 변형을 포함하는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상 서열 동일성을 갖는 시스템 또는 조성물:
식 (I)에서,
Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고,
Xg는 10 내지 30개의 폴리뉴클레오티드로 이루어진 가이드 서열로서 표적 서열과 혼성화하거나 표적 서열에 상보적인 서열이고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,
(UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다. - 제22항에 있어서,
상기 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
시스템 또는 조성물. - 제22항에 있어서,
상기 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
시스템 또는 조성물. - 제22항에 있어서,
상기 Xb2은 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
시스템 또는 조성물. - 제22항에 있어서,
상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 어느 하나의 핵산 서열인
시스템 또는 조성물. - 제22항에 있어서,
상기 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
시스템 또는 조성물. - 제27항에 있어서,
상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
시스템 또는 조성물. - 제22항에 있어서,
상기 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
시스템 또는 조성물. - 제29항에 있어서,
상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열이 5'-NGNNN-3'로 치환되고, 상기 N은 각각 독립적으로 A, C, G 또는 U인
시스템 또는 조성물. - 제22항에 있어서,
상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 어느 하나의 핵산 서열인
시스템 또는 조성물. - 제22항에 있어서,
상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하는
시스템 또는 조성물. - 제22항에 있어서,
상기 (UmV)nUo는 (ⅰ) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ⅱ) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하는
시스템 또는 조성물. - 제14항에 있어서,
상기 엔지니어링된 가이드 RNA는 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 엔지니어링된 crRNA를 포함하는
시스템 또는 조성물. - 제12항에 있어서,
상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
시스템 또는 조성물. - 제36항에 있어서,
상기 엔지니어링된 싱글 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질을 포함하는 엔도뉴클레아제; 및 상기 가이드 RNA를 리보뉴클레오단백질(ribonucleoprotein, RNP) 형태로 포함하는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 공여자 핵산 분자는 상동지정복구에서 주형으로 사용되는 서열로서 1 bp 내지 20 kb의 길이를 갖는
시스템 또는 조성물. - 제1항 또는 제4항에 있어서,
상기 시스템 또는 조성물은 비상동말단연결(non-homologous end joining, NHEJ)에 관여하는 유전자의 발현을 억제하는 분자를 더 포함하는
시스템 또는 조성물. - 제40항에 있어서,
상기 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군으로부터 선택된 어느 하나 이상인
시스템 또는 조성물. - 제40항에 있어서,
상기 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드인
시스템 또는 조성물. - Cas12f1, TnpB 또는 이의 변이체(variant) 단백질을 포함하는 엔도뉴클레아제를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제1 핵산 구조물;
표적 핵산에 상보적으로 결합하는 가이드 서열을 포함하는 엔지니어링된 가이드 RNA를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 제2 핵산 구조물; 및
공여자 핵산 분자를 포함하는 제3 핵산 구조물을 포함하는 하나 이상의 벡터를 포함하는
벡터 시스템. - 제43항에 있어서,
상기 벡터 시스템에 포함되는 핵산 구조물은 동일하거나 상이한 벡터에 위치하는
벡터 시스템. - 제43항에 있어서,
비상동말단연결(Non-homologous end joining; NHEJ)에 관여하는 유전자의 발현을 억제하는 분자를 암호화하는 뉴클레오티드 서열이 작동 가능하게 연결된 하나 이상의 핵산 구조물을 추가로 포함하는
벡터 시스템. - 제45항에 있어서,
상기 비상동말단연결에 관여하는 유전자는 ATM1, XRCC4, XLF, XRCC6, LIG4 및 DCLRE1C로 이루어진 군으로부터 선택된 어느 하나 이상인
벡터 시스템. - 제45항에 있어서,
상기 분자는 shRNA, siRNA, miRNA, 또는 안티센스 올리고뉴클레오티드인
벡터 시스템. - 제43항에 있어서,
벡터 내의 각 구성요소가 하나의 벡터에 포함되는 것인
벡터 시스템. - 제43항에 있어서,
상기 공여자 핵산 분자의 길이는 1 bp 내지 20 kb인
벡터 시스템. - 제43항에 있어서,
상기 벡터가 프로모터 또는 인핸서를 더 포함하는
벡터 시스템. - 제50항에 있어서,
상기 프로모터는 U6 프로모터, EFS 프로모터, EF1-α 프로모터, H1 프로모터, 7SK 프로모터, CMV 프로모터, LTR 프로모터, Ad MLP 프로모터, HSV 프로모터, SV40 프로모터, CBA 프로모터 또는 RSV 프로모터인
벡터 시스템. - 제43항에 있어서,
상기 벡터는 레트로바이러스 벡터(retroviral(retrovirus) vector), 렌티바이러스 벡터(lentiviral(lentivirus) vector), 아데노바이러스 벡터(adenoviral(adenovirus vector), 아데노-연관 바이러스 벡터(adeno-associated viral(adeno-associated virus; AAV) vector), 백시니아바이러스 벡터(vaccinia viral(vaccinia virus) vector), 폭스바이러스 벡터(poxviral(poxvirus) vector), 단순포진 바이러스 벡터(herpes simplex viral(herpes simplex virus) vector) 및 파지미드 벡터(phagemid vector)로 구성된 군에서 선택되는 하나 이상의 바이러스 벡터인
벡터 시스템. - 제52항에 있어서,
상기 벡터는 아데노-연관 바이러스 벡터이고, 상기 아데노-연관 바이러스 벡터는 상기 벡터 내의 구성요소 모두를 하나의 벡터에 포함할 수 있는
벡터 시스템. - 제43항에 있어서,
상기 벡터는 플라스미드, 네이키드 DNA, DNA 복합체, mRNA(전사물) 및 앰플리콘(amplicon)으로 이루어진 군에서 선택된 하나 이상의 비-바이러스 벡터인
벡터 시스템. - 제54항에 있어서,
상기 플라스미드는 pcDNA 시리즈, pSC101, pGV1106, pACYC177, ColE1, pKT230, pME290, pBR322, pUC8/9, pUC6, pBD9, pHC79, pIJ61, pLAFR1, pHV14, pGEX 시리즈, pET 시리즈, 및 pUC19으로 이루어진 군에서 선택된 하나 이상인
벡터 시스템. - 제43항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 5로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
벡터 시스템. - 제43항에 있어서,
상기 TnpB 단백질은 서열번호 202 내지 서열번호 293로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는 아미노산 서열을 포함하는
벡터 시스템. - 제43항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 하기 서열 중 하나를 포함하는
벡터 시스템:
(ⅰ) 서열번호 5의 아미노산 서열;
(ⅱ) 서열번호 1의 아미노산 서열;
(ⅲ) 서열번호 1의 아미노산 서열에서 N-말단의 1개 내지 28개의 아미노산이 제거 또는 치환된 아미노산 서열; 또는
(ⅳ) 서열번호 1의 아미노산 서열의 N-말단 또는 C-말단에 1개 내지 600개의 아미노산이 추가된 아미노산 서열. - 제58항에 있어서,
상기 추가된 1개 내지 600개의 아미노산은 서열번호 294 또는 서열번호 295의 아미노산 서열인
벡터 시스템. - 제43항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1 내지 서열번호 4로 이루어진 군에서 선택된 아미노산 서열과 70% 이상의 서열 동일성을 갖는
벡터 시스템. - 제43항에 있어서,
상기 Cas12f1, TnpB 또는 이의 변이체 단백질은 서열번호 1의 아미노산 서열과 70% 이상의 서열 동일성을 갖는
벡터 시스템. - 제43항에 있어서,
상기 엔지니어링된 가이드 RNA는 야생형 Cas12f1 가이드 RNA 서열에서 1개 이상의 뉴클레오티드가 치환, 결실, 삽입 또는 부가된 서열을 포함하고, 가이드 서열을 제외한 부분이 상기 야생형 Cas12f1 가이드 RNA와 50% 이상의 서열 동일성을 갖는
벡터 시스템. - 제43항에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 (ⅰ) 하나 이상의 스템(stem) 영역, (ⅱ) tracrRNA-crRNA 상보성 영역 및 임의적으로 (ⅲ) 연속되는 3개 이상의 유라실(U)을 포함하는 영역을 포함하는 tracrRNA(trans-activating CRISPR RNA) 및 crRNA(CRISPR RNA)를 포함하고,
상기 엔지니어링된 가이드 RNA는 하기 (a) 내지 (d)로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
벡터 시스템:
(a) 하나 이상의 스템 영역의 일부 또는 전부의 결실;
(b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
(c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
(d) crRNA 서열의 3'-말단에 하나 이상의 유리딘(uridine)의 부가. - 제63항에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 서열번호 11의 핵산 서열로 이루어진 tracrRNA 및 서열번호 12의 핵산 서열로 이루어진 crRNA를 포함하는
벡터 시스템. - 제43항에 있어서,
상기 야생형 Cas12f1 가이드 RNA는 5'-말단부터 순차적으로 제1 스템 영역, 제2 스템 영역, 제3 스템 영역, 제4 스템 영역 및 tracrRNA-crRNA 상보성 영역을 포함하는 tracrRNA 및 crRNA를 포함하고,
상기 엔지니어링된 가이드 RNA는
(a1) 제1 스템 영역의 일부 또는 전부의 결실;
(a2) 제2 스템 영역의 일부 또는 전부의 결실;
(b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실;
(c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환; 및
(d1) crRNA 서열의 3'-말단에 U-rich tail의 부가(상기 U-rich tail의 서열은 5'-(UmV)nUo-3'로 표시되고 여기서 상기 V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수임)
로 이루어진 군에서 선택되는 하나 이상의 변형을 포함하는
벡터 시스템. - 제65항에 있어서,
상기 엔지니어링된 가이드 RNA는 (d1) crRNA 서열의 3'-말단에 U-rich tail, (c) tracrRNA-crRNA 상보성 영역 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 하나 이상의 U를 A, G 또는 C로 치환, 또는 상기 둘 모두의 변형을 포함하는
벡터 시스템. - 제65항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (a2) 제2 스템 영역의 일부 또는 전부의 결실; 및 (b) tracrRNA-crRNA 상보성 영역의 일부 또는 전부의 결실로 이루어진 군에서 선택된 하나 이상의 변형을 포함하는
벡터 시스템. - 제67항에 있어서,
상기 엔지니어링된 가이드 RNA는 (b1) tracrRNA-crRNA 상보성 영역의 일부의 결실을 포함하고, 상기 상보성 영역의 일부는 1개 내지 54개의 뉴클레오티드인
벡터 시스템. - 제67항에 있어서,
상기 엔지니어링된 가이드 RNA는 (b2) tracrRNA-crRNA 상보성 영역의 전부의 결실을 포함하고, 상기 상보성 영역의 전부는 55개의 뉴클레오티드인
시스템 또는 조성물. - 제67항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템 영역의 일부 또는 전부는 1개 내지 20개의 뉴클레오티드인
벡터 시스템. - 제67항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a2) 제2 스템 영역의 일부 또는 전부의 결실을 포함하고, 상기 스템 영역의 일부 또는 전부는 1개 내지 27개의 뉴클레오티드인
벡터 시스템. - 제67항에 있어서,
상기 엔지니어링된 가이드 RNA는 (a1) 제1 스템 영역의 일부 또는 전부의 결실; (d1) crRNA 서열의 3'-말단에 U-rich tail의 부가; 또는 상기 둘 모두의 변형을 포함하는
벡터 시스템. - 제43항에 있어서,
상기 엔지니어링된 가이드 RNA는 하기 식 (I)로 표시되는 서열로 이루어지거나 상기 서열과 80% 이상 서열 동일성을 갖는 시스템 또는 조성물:
식 (I)에서,
Xa, Xb1, Xb2, Xc1 및 Xc2는 각각 독립적으로 0 내지 35개의 (폴리)뉴클레오티드로 이루어지고,
Xg는 10 내지 30개의 폴리뉴클레오티드로 이루어진 가이드 서열로서 표적 서열과 혼성화하거나 표적 서열에 상보적인 서열이고,
Lk는 길이 2 내지 20의 폴리뉴클레오티드 링커이거나 부존재하고,
(UmV)nUo는 U-rich tail로서 존재하거나 부존재하고, 존재하는 경우 U는 유리딘이고, V는 각각 독립적으로 A, C 또는 G이고, m 및 o는 각각 독립적으로 1 내지 20 사이의 정수이며, n은 0 내지 5 사이의 정수이다. - 제73항에 있어서,
상기 Xa는 서열번호 14의 핵산 서열을 포함하거나 상기 서열번호 14의 서열에서 1 내지 20개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
벡터 시스템. - 제73항에 있어서,
상기 Xb1은 서열번호 25의 핵산 서열을 포함하거나 상기 서열번호 25의 서열에서 1 내지 13개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
벡터 시스템. - 제73항에 있어서,
상기 Xb2은 서열번호 29의 핵산 서열을 포함하거나 상기 서열번호 29의 서열에서 1 내지 14개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
벡터 시스템. - 제73항에 있어서,
상기 식 (I) 내의 서열 5'-Xb1UUAGXb2-3'은 서열번호 34 내지 서열번호 38로 이루어진 군에서 선택된 어느 하나의 핵산 서열인
벡터 시스템. - 제73항에 있어서,
상기 Xc1은 서열번호 39의 핵산 서열을 포함하거나 상기 서열번호 39의 서열에서 1 내지 28개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
벡터 시스템. - 제78항에 있어서,
상기 Xc1 서열 내에 연속되는 3개 이상의 유라실(U)이 존재하는 경우 이들 중 하나 이상의 U가 A, G 또는 C로 치환되는 변형을 포함하는
벡터 시스템. - 제73항에 있어서,
상기 Xc2는 서열번호 58의 핵산 서열을 포함하거나 상기 서열번호 58의 서열에서 1 내지 27개의 뉴클레오티드가 결실된 핵산 서열을 포함하는
벡터 시스템. - 제80항에 있어서,
상기 Xc2 서열 내에 서열 5'-ACGAA-3'가 존재하는 경우 해당 서열이 5'-NGNNN-3'로 치환되고, 상기 N은 각각 독립적으로 A, C, G 또는 U인
벡터 시스템. - 제73항에 있어서,
상기 식 (I) 내의 서열 5'-Xc1-Lk-Xc2-3'은 서열번호 80 내지 서열번호 86으로 이루어진 군에서 선택된 어느 하나의 핵산 서열인
벡터 시스템. - 제73항에 있어서,
상기 Lk는 5'-GAAA-3', 5'-UUAG-3', 5'-UGAAAA-3', 5'-UUGAAAAA-3', 5'-UUCGAAAGAA-3'(서열번호 76), 5'-UUCAGAAAUGAA-3'(서열번호 77), 5'-UUCAUGAAAAUGAA-3'(서열번호 78) 및 5'-UUCAUUGAAAAAUGAA-3'(서열번호 79)로 이루어진 군에서 선택된 어느 하나의 핵산 서열을 포함하는
벡터 시스템. - 제73항에 있어서,
상기 (UmV)nUo는 (ⅰ) n이 0이고, o가 1 내지 6 사이의 정수이거나 (ⅱ) V가 A 또는 G이고, m 및 o는 각각 독립적으로 3 내지 6 사이의 정수이고, n은 1 내지 3 사이의 정수인
벡터 시스템. - 제43항에 있어서,
상기 엔지니어링된 가이드 RNA는 서열번호 87 내지 서열번호 132로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 엔지니어링된 tracrRNA를 포함하는
벡터 시스템. - 제43항에 있어서,
상기 엔지니어링된 가이드 RNA는 서열번호 133 내지 서열번호 148로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진 엔지니어링된 crRNA를 포함하는
벡터 시스템. - 제43항에 있어서,
상기 엔지니어링된 가이드 RNA는 듀얼 가이드 RNA 또는 싱글 가이드 RNA인
벡터 시스템. - 제43항에 있어서,
상기 엔지니어링된 싱글 가이드 RNA는 서열번호 149 내지 서열번호 186으로 이루어진 군에서 선택된 어느 하나의 핵산 서열로 이루어진
벡터 시스템. - 제43항 내지 제88항 중 어느 한 항에 따른 벡터 시스템에 의해 제조된 바이러스.
- 제89항에 있어서,
상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택되는 것인
바이러스. - 제89항에 따른 바이러스를 포함하는 조성물.
- 제1항 내지 제42항 중 어느 한 항의 시스템 또는 조성물, 또는 제43항 내지 제88항 중 어느 한 항의 벡터 시스템을 세포와 접촉시키거나 세포 내에서 발현시키는 단계; 및
표적 핵산 또는 그 인접 부위에서 공여자 핵산 분자를 주형으로 하여 이중가닥 절단의 복구 과정에 의해 목적 서열이 도입되는 단계를 포함하는
세포 내 이중가닥 핵산 상의 표적 부위로 목적 서열을 도입하는 방법. - 제92항에 있어서,
상기 이중가닥 절단의 복구 과정은 상동지정복구 기작에 의하는 것인
방법. - 제92항에 있어서,
상기 세포는 표적 핵산 또는 표적 유전자가 존재하는 원핵 세포 또는 진핵 세포인
방법. - 제94항에 있어서,
상기 진핵 세포는 효모(yeast), 곤충 세포, 식물 세포, 비인간-동물 세포 또는 인간 세포인
방법. - 제92항에 있어서,
상기 벡터 시스템은 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스, 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 파지(phage)로 구성된 군에서 선택된 패키징 바이러스에 도입되어 패키징 바이러스에 의해 생성된 바이러스 형태로 원핵 세포 또는 진핵 세포 내로 전달되는
방법. - 제92항에 있어서,
상기 벡터 시스템은 전기천공법, 유전자총, 초음파천공법, 자기주입법(magnetofection), 일시적인 세포 압축 또는 스퀴징 방법, 양이온성 리포좀법, 초산 리튬-DMSO, 지질-매개 형질감염(transfection), 인산칼슘 침전법(precipitation), 리포펙타민(lipofection), PEI(Polyethyleneimine)-매개 형질감염, DEAE-dextran 매개 형질감염 또는 나노파티클-매개 핵산 전달에 의해 원핵 세포 또는 진핵 세포 내로 전달되는
방법. - 제92항에 있어서,
상기 벡터 시스템은 하나 이상의 지질 나노입자(LNP)를 통해 원핵 세포 또는 진핵 세포 내로 직접 전달되는
방법. - 제92항에 있어서,
상기 접촉 또는 발현은 생체 내 또는 생체 외에서 일어나는
방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220017179 | 2022-02-09 | ||
KR20220017179 | 2022-02-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230121569A true KR20230121569A (ko) | 2023-08-18 |
Family
ID=87564789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230017657A KR20230121569A (ko) | 2022-02-09 | 2023-02-09 | 상동지정복구를 위한 TaRGET 시스템 및 이를 이용한 유전자 편집 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20230121569A (ko) |
WO (1) | WO2023153845A2 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116970590B (zh) * | 2023-09-22 | 2024-01-30 | 北京科芙兰德生物科学有限责任公司 | 小于380个氨基酸的超级迷你型基因编辑器及其应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104962523B (zh) * | 2015-08-07 | 2018-05-25 | 苏州大学 | 一种测定非同源末端连接修复活性的方法 |
KR102168489B1 (ko) * | 2017-11-21 | 2020-10-22 | 한국생명공학연구원 | CRISPR/Cpf1 시스템을 이용한 유전체 편집용 조성물 및 이의 용도 |
JP2023500188A (ja) * | 2019-10-29 | 2023-01-05 | ゲンコレ インコーポレイテッド | 最適化されたCRISPR/Cas12f1システムのための人工ガイドRNAおよびその使用 |
-
2023
- 2023-02-09 WO PCT/KR2023/001945 patent/WO2023153845A2/ko unknown
- 2023-02-09 KR KR1020230017657A patent/KR20230121569A/ko active Search and Examination
Non-Patent Citations (5)
Title |
---|
Kim, Eunji et al. "In vivo genome editing with a small Cas9 orthologue derived from Campylobacter jejuni." Nature communications vol. 8 14500. 21 Feb. 2017. |
Ran, F Ann et al. "In vivo genome editing using Staphylococcus aureus Cas9." Nature vol. 520,7546 (2015): 186-91. |
Wang, Dan et al. "Adeno-associated virus vector as a platform for gene therapy delivery." Nature reviews. Drug discovery vol. 18,5 (2019): 358-378. |
Wu, Zhijian et al. "Effect of genome size on AAV vector packaging." Molecular therapy : the journal of the American Society of Gene Therapy vol. 18,1 (2010): 80-6. |
Yu, Wenhan, and Zhijian Wu. "Use of AAV Vectors for CRISPR-Mediated In Vivo Genome Editing in the Retina." Methods in molecular biology (Clifton, N.J.) vol. 1950 (2019): 123-139. |
Also Published As
Publication number | Publication date |
---|---|
WO2023153845A2 (ko) | 2023-08-17 |
WO2023153845A3 (ko) | 2024-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4053285A2 (en) | Engineered guide rna for increasing efficiency of crispr/cas12f1 system, and use of same | |
CN110352244B (zh) | 化学修饰的编辑rna的单链寡核苷酸 | |
EP3234134B1 (en) | Targeted rna editing | |
KR20240023081A (ko) | CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도 | |
JP4517061B2 (ja) | ダンベル型dnaの効率的な製造方法 | |
US11939580B2 (en) | Construct of self-circularization RNA | |
KR20230121569A (ko) | 상동지정복구를 위한 TaRGET 시스템 및 이를 이용한 유전자 편집 방법 | |
KR20220144343A (ko) | CRISPR/Cas12f1 시스템 효율화를 위한 U-rich tail을 포함하는 엔지니어링 된 가이드 RNA 및 그 용도 | |
JP2023544817A (ja) | CRISPR/Cas12f1システム効率化のためのエンジニアリングされたガイドRNAおよびその用途 | |
JP2023545079A (ja) | CRISPR/Cas12f1システム効率化のためのU-rich tailを含むエンジニアリングされたガイドRNAおよびその用途 | |
JP2020508693A (ja) | C2c1エンドヌクレアーゼを含むゲノム編集用組成物およびこれを用いたゲノム編集方法 | |
KR20230051095A (ko) | 유전자 편집을 위한 TaRGET 시스템 및 이의 용도 | |
CN117384880A (zh) | 工程化的核酸修饰编辑器 | |
CN116162609A (zh) | Cas13蛋白、CRISPR-Cas系统及其应用 | |
KR20230007218A (ko) | 초소형 염기교정 시스템 및 이의 용도 | |
KR102638799B1 (ko) | CRISPR/Cas12f1(Cas14a1) system 효율화를 위한 engineered guide RNA 및 이의 용도 | |
EP4041884A1 (en) | A nucleic acid delivery vector comprising a circular single stranded polynucleotide | |
EP4342986A1 (en) | Composition and method for treatment of lca10 using rna-guided nuclease | |
KR20230142365A (ko) | 어셔 증후군 치료를 위한 유전자 편집 시스템 | |
KR20230134097A (ko) | Nhej 복구 경로 조절을 통해 핵산 세그먼트의 결실 효율을 증가시키기 위한 조성물 및 방법 | |
CN116568806A (zh) | 用于增加crispr/cas12f1(cas14a1)系统的效率的经工程化的引导rna及其用途 | |
KR20240034661A (ko) | 캄필로박터 제주니 유래 Cas9의 가이드 RNA 구조변화를 통한 유전자교정 향상 시스템 | |
WO2024089629A1 (en) | Cas12 protein, crispr-cas system and uses thereof | |
KR20240034143A (ko) | 신규한 유전체 세이프 하버 및 이의 용도 | |
KR100710112B1 (ko) | 세포내에서의 단일 가닥 dna의 제조 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |