WO2020235974A9 - 단일염기 치환 단백질 및 이를 포함하는 조성물 - Google Patents

단일염기 치환 단백질 및 이를 포함하는 조성물 Download PDF

Info

Publication number
WO2020235974A9
WO2020235974A9 PCT/KR2020/006731 KR2020006731W WO2020235974A9 WO 2020235974 A9 WO2020235974 A9 WO 2020235974A9 KR 2020006731 W KR2020006731 W KR 2020006731W WO 2020235974 A9 WO2020235974 A9 WO 2020235974A9
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
single base
protein
base substitution
substitution
Prior art date
Application number
PCT/KR2020/006731
Other languages
English (en)
French (fr)
Other versions
WO2020235974A3 (ko
WO2020235974A2 (ko
Inventor
배승민
김영훈
이정준
Original Assignee
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠 filed Critical 주식회사 툴젠
Priority to US17/613,172 priority Critical patent/US20220228133A1/en
Priority to EP20810376.2A priority patent/EP3974525A4/en
Priority to CN202080053009.2A priority patent/CN114144519A/zh
Priority to AU2020278864A priority patent/AU2020278864A1/en
Priority to JP2021569222A priority patent/JP2022533842A/ja
Publication of WO2020235974A2 publication Critical patent/WO2020235974A2/ko
Publication of WO2020235974A3 publication Critical patent/WO2020235974A3/ko
Publication of WO2020235974A9 publication Critical patent/WO2020235974A9/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4702Regulators; Modulating activity
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4702Regulators; Modulating activity
    • C07K14/4705Regulators; Modulating activity stimulating, promoting or activating activity
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/705Receptors; Cell surface antigens; Cell surface determinants
    • C07K14/71Receptors; Cell surface antigens; Cell surface determinants for growth factors; for growth regulators
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/24Hydrolases (3) acting on glycosyl compounds (3.2)
    • C12N9/2497Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing N- glycosyl compounds (3.2.2)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y302/00Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2)
    • C12Y302/02Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2) hydrolysing N-glycosyl compounds (3.2.2)
    • C12Y302/0202DNA-3-methyladenine glycosylase I (3.2.2.20), i.e. adenine DNA glycosylase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y302/00Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2)
    • C12Y302/02Hydrolases acting on glycosyl compounds, i.e. glycosylases (3.2) hydrolysing N-glycosyl compounds (3.2.2)
    • C12Y302/02027Uracil-DNA glycosylase (3.2.2.27)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2317/00Immunoglobulins specific features
    • C07K2317/60Immunoglobulins specific features characterized by non-natural combinations of immunoglobulin fragments
    • C07K2317/62Immunoglobulins specific features characterized by non-natural combinations of immunoglobulin fragments comprising only variable region components
    • C07K2317/622Single chain antibody (scFv)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/30Non-immunoglobulin-derived peptide or protein having an immunoglobulin constant or Fc region, or a fragment thereof, attached thereto
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/60Fusion polypeptide containing spectroscopic/fluorescent detection, e.g. green fluorescent protein [GFP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism

Definitions

  • the present application relates to a technology for substituting an arbitrary base for cytosine (C) or adenine (A) using a single base substitution protein using CRISPR enzyme, deaminase and DNA glycosylation.
  • CRISPR enzyme-linked deaminase is used to treat genetic disorders by correcting the gene region where point mutations have occurred, or to induce a single nucleotide mutation (SNP) of interest in the gene of a human or eukaryotic cell has been
  • Target-AID comprising (i) dCas9 or nCas9 and (ii) PmCDA1 or human AID, which is an activation-induced cytidine deaminase (AID) ortholog of sea lamprey;
  • CRISPR-X comprising sgRNAs and dCas9 linked to MS2 RNA hairpins to recruit overactivated AID variants fused to MS2-binding protein
  • Zinc-finger proteins or transcription activator-like effectors are fused to cytidine deaminase.
  • CRISPR enzyme-linked deaminase used together with conventional DNA glycosylase can substitute only thymine (T) for cytosine (C) in nucleotides or only guanine (G) for adenine (A).
  • T thymine
  • G guanine
  • A adenine
  • a material in which Cas9, cytidine deaminase, and uracil DNA glycosylase inhibitor (UGI) are fused is used to replace cytosine (C) with thymine (T). This allows uracil (U) to be substituted with thymine (T) using a mechanism that induces uracil not to be removed by DNA glycosylation.
  • the inventor of the present application intends to develop a single base substitution protein using CRISPR enzyme, deaminase, and DNA glycosylase to substitute any base for cytosine (C) or adenine (A).
  • C cytosine
  • A adenine
  • the development of this technology can be used for drug development and therapeutics, etc. by analyzing nucleic acid sequences having an effect on identification of genetic diseases by mutation, disease susceptibility by SNP, or resistance to drugs, which in the future drug development and therapeutic effects It will be more useful to improve
  • the conventional CRISPR enzyme-linked deaminase has a limitation in that it can only change cytosine (C) or adenine (A) to a specific base (A or G). Due to these limitations, the scope of research such as identification of genetic diseases caused by mutations, disease susceptibility by SNPs, and development of related therapeutics is limited.
  • An object of the present application is to provide a single base substituted protein or a single base substituted complex, or a single base substituted composition comprising the same, and uses thereof.
  • An object of the present application is to provide a nucleic acid sequence encoding the single nucleotide substitution protein or a vector including the same.
  • An object of the present application is to provide a single base substitution method.
  • An object of the present application is to provide various uses of the single base substituted protein or the single base substituted complex, or a single base substituted composition comprising the same.
  • a single base substitution fusion protein or a nucleic acid encoding the same is provided through the present application.
  • a vector comprising a nucleic acid encoding a single base substitution fusion protein is provided.
  • a single base substitution complex is provided through the present application.
  • a single base substitution composition is provided through the present application.
  • a single base substitution method is provided through the present application.
  • the single base substitution fusion protein induces substitution of cytosine or adenine included in one or more nucleotides in the target nucleic acid sequence with any base, a single base substitution fusion protein or a nucleic acid encoding the same. do.
  • single base substitution complex As a single base substitution complex through the present application, (a) CRISPR enzyme or a variant thereof; (b) deaminase; (c) DNA glycosylase; and (d) two or more binding domains, wherein the single base substitution fusion protein induces substitution of cytosine or adenine included in one or more nucleotides in the target nucleic acid sequence with any base, single base substitution complex provides
  • the CRISPR enzyme, the deaminase, and the DNA glycosylase are each linked to one or more binding domains, and in this case, the CRISPR enzyme, the deaminase, and the DNA glycosylase are the binding domains. It provides a single base substitution complex, characterized in that it forms a complex through the interaction between them.
  • any one (one) of the CRISPR enzyme, the deaminase, and the DNA glycosylase is linked to a first binding domain and a second binding domain, and at this time, the first binding domain and other components
  • the binding domain of (another) is an interacting pair
  • the second binding domain and the binding domain of the other constituent (the other) are interacting pairs, in which case a complex is formed by the pairs. It provides a single base substitution complex, characterized in that.
  • a first fusion protein comprising two components selected from the CRISPR enzyme, the deaminase, and the DNA glycosylase and a first binding domain
  • the other non-selected one and a second fusion protein comprising a configuration and a second binding domain, wherein the first binding domain and the second binding domain are a pair that interacts, and at this time, a complex is formed by the pair, It provides a single base substitution complex, characterized.
  • a first fusion protein comprising the deaminase, the DNA glycosylase, and a first binding domain
  • a second fusion protein comprising a CRISPR enzyme and a second binding domain It provides a single base substitution complex, characterized in that.
  • the first binding domain is a single chain variable fragment (scFv)
  • the second fusion protein further includes at least one binding domain, wherein the binding domain further included is GCN4 peptide;
  • two or more first fusion proteins can provide a single base substitution complex, characterized in that the complex is formed through each interaction with any one of the GCN4 peptides.
  • a single base substitution composition throughout the present application, (a) a guide RNA or a nucleic acid encoding the same, and (b) i) the single base substitution fusion protein of claim 1 or a nucleic acid encoding the same, or ii) the single base substitution of claim 13 Complex, -
  • the guide RNA is complementary to a target nucleic acid sequence, and in this case, the target nucleic acid sequence coupled to the guide RNA is 15 to 25 bp, in this case, the single base substitution fusion protein or the single
  • the base substitution complex induces substitution of one or more cytosine or adenine with any base present in the target region including the target nucleic acid sequence.
  • the deaminase is cytidine deaminase
  • the DNA glycosylase is uracil-DNA glycosylase or a variant thereof
  • the fusion protein may provide a single base substitution fusion protein or a nucleic acid encoding the same, which induces substitution of a cytosine included in one or more nucleotides in a target nucleic acid sequence with any base.
  • the cytidine deaminase may provide a single base substitution fusion protein or a nucleic acid encoding the same, characterized in that APOBEC, AID (activation-induced cytidine deaminase) or a variant thereof.
  • the deaminase is adenosine deaminase
  • the DNA glycosylase is an alkyladenine-DNA glycosylase or a variant thereof, wherein the single base substitution fusion
  • the protein may provide a single base substitution fusion protein or a nucleic acid encoding the same, inducing the substitution of an arbitrary base for adenine included in one or more nucleotides in the target nucleic acid sequence.
  • the adenosine deaminase is TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 or a variant thereof, characterized in that, it can provide a single base substitution fusion protein or a nucleic acid encoding the same.
  • the binding domain is any one of FRB domain, FKBP dimerization domain, intein, ERT domains, VPR domain, GCN4 peptide, single chain variable fragment (scFv), or a dimer (heterodimer) to form It can be provided that is characterized as any one of the domains.
  • the pair may provide a single base substitution complex, characterized in that any one selected from the following (i) to (vi): (i) FRB and FKBP dimerization domains; (ii) a first intein and a second intein; (iii) ERT and VPR domains; (iv) GCN4 peptide and single chain variable fragment (scFv); or (v) a first domain and a second domain forming a heterodimer
  • the present application provides a single base substituted protein and/or a nucleic acid encoding the same.
  • the present application provides a single base substitution composition comprising a single base substitution protein and/or a nucleic acid encoding the same.
  • the present application provides various uses of a single base substituted protein or a composition for single base substitution comprising the same
  • FIG. 1 is a diagram schematically illustrating a process in which C (cytosine) is substituted with N (A, T, G) in a target nucleic acid region by a single nucleotide substitution protein.
  • FIG. 2 is a diagram schematically illustrating a process in which A (adenine) is substituted with N (C, T, G) in a target nucleic acid region by a single base substitution protein.
  • FIG. 3 is a diagram showing examples of various design structures of a single-base substitution fusion protein that induces substitution of cytosine with an arbitrary base.
  • FIG. 4 is a diagram showing examples of various design structures of a single base substitution fusion protein that induces substitution of adenine with any base.
  • Figure 5 (a) shows nCas9 fused with 10 identical GCN4 peptides to the carboxyl terminus
  • Figures 5 (b) and 5 (c) show a complex in which a single chain variable fragment (scFv) is fused to Apobec and UNG, respectively.
  • the figure shows the various design structures of (scFv-Apobec-UNG, scfv-UNG-Apobec).
  • 6(a) is a diagram showing the design structure of a complex in which nCas9 and one scFv fused to APOBEC, and the other scFv is fused to UNG, each of which is fused with five identical GCN4 peptides to the N and C terminals.
  • 6(b) is a diagram showing the design structure of a complex in which nCas9, one scFv, and the other scFv, fused to UNG, each fused to the C-terminus of five identical GCN4 peptides.
  • FIG. 7(a) shows the design structures of BE3 WT and bpNLS BE3
  • FIG. 7(b) is a graph showing single base substitution efficiency using BE3 WT and bpNLS BE3 in HEK cells.
  • ncas-delta UGI is a protein from which UGI (uracil DNA-glycosylase inhibitor) has been removed from BE3 WT.
  • SEQ ID NO: 9 shows a nucleic acid sequence (SEQ ID NO: 1) in which base substitution is induced in a target region. And in the hela cell BE3 WT, bpNLS BE3, ncas-delta UGI, UNG-ncas and ncas-UNG in the nucleic acid sequence (SEQ ID NO. This is a graph showing the rate).
  • FIG. 10 is a graph confirming cytosine substitution in the hEMX1 target nucleic acid sequence targeted to GX20 sgRNA in HEK cells.
  • FIG. 11 is a graph showing the single base substitution efficiency using UNG-ncas and ncas-UNG in HEK cells.
  • the left figure is a graph showing the C to N substitution rate in the hEMX1 target nucleic acid sequence targeted to GX20 sgRNA.
  • the right figure is a graph showing C to G or C to A substitution rates at 13C, 15C, 16C, and 17C in the hEMX1 target nucleic acid sequence targeted to GX20 sgRNA.
  • FIG. 13 is a graph confirming whether C to N base substitution occurs using the single base substitution complex of FIG. 5 .
  • FIG. 14 is a graph confirming cytosine substitution in the nucleic acid sequence targeted to hEMX1 GX19 sgRNA in PC9 cells using the single nucleotide substitution complex of FIG. 5 .
  • FIG. 15 is a graph showing C to G, C to T or C to A substitution rates at 16C in a sequence targeted to hEMX1 sgRNA in PC9 cells using the single nucleotide substitution complex of FIG. 5 .
  • FIG. 16 is a diagram showing the design structure of a plasmid encoding a single nucleotide substitution protein using nCas9.
  • the encoded single base substituted protein is schematically shown in 1) of FIG. 3(a).
  • FIG. 17 is a diagram showing the plasmid design structure of a single base substitution CRISPR protein using Nureki nCas9.
  • the encoded single base substituted protein is schematically shown in 2) of FIG. 3(c).
  • FIG. 18 is a diagram showing the design structure of a plasmid encoding a single nucleotide substitution protein using nCas9.
  • the encoded single base substituted protein is schematically shown in 3) of FIG. 3(a).
  • FIG 19 is a diagram showing the design structure of the plasmid encoding the single nucleotide substitution protein shown in Figure 4 (a).
  • Figure 20 is a diagram showing the design structure of the plasmid encoding the single nucleotide substitution protein shown in Figure 4 (b).
  • 21 is a diagram schematically showing the structure of a fusion base substitution domain including a single chain variable fragment (scFv).
  • FIG. 22 to 24 are graphs showing single base substitution efficiency using a single base substitution complex in HEK cells
  • FIG. 22 is a hEMX1 target nucleic acid sequence targeted to GX20 sgRNA (SEQ ID NO: 1) in 11C
  • FIG. 23 is GX20 sgRNA 15C in the target hEMX1 target nucleic acid sequence (SEQ ID NO: 1)
  • Figure 24 is C to G, C to A or C to G substitution rate at 16C in the hEMX1 target nucleic acid sequence (SEQ ID NO: 1) targeted to GX20 sgRNA ) is a graph showing
  • SEQ ID NOs: 2 to 20 shows three of the sgRNAs (SEQ ID NOs: 2 to 20) specified in Extended Data Figure 2 in the “base editing of A, T to G, C in genomic DNA without DNA cleavage” paper published in the scientific journal 'Nature' ( SEQ ID NOs: 2, 3 and 19) were selected.
  • 26 is a graph showing the A to N base substitution rate (substitution rate) in HEK293T cells using sgRNA1 (SEQ ID NO: 2) selected in FIG. 25 .
  • FIG. 27 is a graph showing A to N base substitution rate (substitution rate) in HEK293T cells using sgRNA2 (SEQ ID NO: 3) selected in FIG. 25 .
  • FIG. 28 is a graph showing the A to N base substitution rate in HEK293T cells using sgRNA3 (SEQ ID NO: 19) selected in FIG. 25 .
  • 29 is a graph showing the C to N base substitution rate in PC9 cells using sgRNA1 (SEQ ID NO: 21) and sgRNA2 (SEQ ID NO: 22) capable of complementary binding to a region of the EGFR gene.
  • FIG. 30 is a graph showing the substitution rate of C to A, C to T or C to G bases in PC9 cells using sgRNA1 (SEQ ID NO: 21) and sgRNA2 (SEQ ID NO: 22) capable of complementary binding to a region of the EGFR gene; to be.
  • Figure 31 is a result of analyzing cells that survived by culturing in a medium to which Osimertinib was added after random base substitution of Cytosine.
  • the present application provides a single base substitution protein comprising (a) a CRISPR enzyme or a variant thereof, (b) a deaminase, and (c) a DNA glycosylase or a variant thereof.
  • the present application provides a single base substitution composition comprising the single base substitution protein and (d) guide RNA.
  • the single base substitution protein may act simultaneously with the guide RNA to induce substitution of cytosine or adenine included in one or more nucleotides in the target nucleic acid sequence with any nitrogenous base.
  • the combination of (a) CRISPR enzyme and (d) guide RNA of the single nucleotide substitution protein provided by the present application is to specifically direct the single nucleotide substitution protein to the target region including the target nucleic acid sequence.
  • the combination of (b) deaminase and (c) DNA glycosylase of the single base substituted protein may induce substitution of one or more nucleotide bases in the target region with any other base.
  • the nitrogenous base refers to a purine or pyrimidine-based base, or a nucleobase, which is a component of a nucleotide.
  • the nitrogenous base may be abbreviated as a base, and the base is adenine (A), thymine (T), uracil (Uracil, U), hypoxanthine (H), guanine (Guanine, G) ) or cytosine (Cytosine, C).
  • the abbreviations of the base A, T, C, G, U or H mean the nitrogenous base when it relates to base substitution, and other general nucleic acid or nucleotide sequences, or the specification When it is for a sequence number (Seq ID NO.:) set separately in , it is used as an expression for a nucleic acid or nucleotide commonly used in the art.
  • guanine (A) is substituted with guanine (G)
  • A is substituted with guanine (G)
  • G may mean that a nitrogenous base in the same position or the same type of nucleotide in the nucleic acid sequence is substituted from A to G.
  • adenine (A) is substituted with thymine (T) may mean that a nitrogenous base in the same position on a nucleic acid sequence or a nucleotide of the same type is substituted from A to T.
  • adenine (A) is substituted with cytosine (C) may mean that a nitrogenous base in the same position on a nucleic acid sequence or a nucleotide of the same type is substituted from A to C.
  • cytosine (C) is substituted with guanine (G)
  • guanine (G) may mean that a nitrogenous base in the same position or the same type of nucleotide in the nucleic acid sequence is substituted from C to G.
  • cytosine (C) is substituted with thymine (T) may mean that a nitrogenous base in the same position on a nucleic acid sequence or a nucleotide of the same type is substituted from C to T.
  • cytosine (C) is substituted with adenine (A) may mean that a nitrogenous base in the same position on a nucleic acid sequence or a nucleotide of the same type is substituted from C to A.
  • 3'-ATGCAAA-5' does not mean a nitrogenous base itself, but indicates a nucleic acid sequence or a nucleotide sequence commonly used in the art.
  • base substitution refers to a base substitution of a nucleotide in a target gene with any other base. More specifically, the base of the nucleotide in the target region is substituted with any other base.
  • the base substitution is adenine (adenine, A), guanine (guanine, G), cytosine (cytosine, C), thymine (thymine, T), hypoxanthine (Hypozanthine) or uracil (uracil, U) any other It may mean to be changed to a base.
  • adenine is substituted with cytosine, thymine, uracil, hypoxanthine, or guanine.
  • cytosine is substituted with adenine, thymine, uracil, hypoxanthine, or guanine.
  • guanine is substituted with cytosine, thymine, uracil, hypoxanthine or adenine.
  • thymine is substituted with adenine, cytosine, uracil, hypoxanthine, or guanine.
  • uracil is substituted with cytosine, thymine, adenine, hypoxanthine, or guanine.
  • hypoxanthine may mean substituted with adenine, thymine, uracil, cytosine, or guanine.
  • base substitution may be a concept including “base modification”.
  • the modification may mean that the structure of the base is modified to change to another base, and the base substitution may mean that the type of the base is changed.
  • the base modification is adenine (adenine, A), guanine (guanine, G), cytosine (cytosine, C), thymine (thymine, T), hypoxanthine (Hypozanthine) or the chemical structure of uracil (uracil, U) will be transformed
  • adenine may be deamination to be transformed into hypoxanthine.
  • hypoxanthine may be modified with guanine.
  • cytosine may be deamination to be transformed into uracil.
  • uracil may be modified into thymine.
  • Target nucleic acid sequence Nucleic acid sequence complementary to guide RNA
  • the target nucleic acid sequence refers to a nucleotide sequence capable of or complementary to a guide RNA, which is a component of a single base substitution composition.
  • the intracellular double-stranded DNA when intracellular double-stranded DNA is subjected to single nucleotide substitution, the intracellular double-stranded DNA is composed of a first DNA strand and a second DNA strand.
  • any one of the first DNA strand of the double-stranded DNA and the second DNA strand complementary to the first DNA strand may include a target nucleic acid sequence.
  • the first or second DNA strand including the target nucleic acid sequence may bind to the guide RNA.
  • the nucleic acid sequence in the first or second DNA strand bound to the guide RNA corresponds to the target nucleic acid sequence.
  • the intracellular double-stranded RNA when intracellular double-stranded RNA is subjected to single nucleotide substitution, the intracellular double-stranded RNA is composed of a first RNA strand and a second RNA strand.
  • the first RNA strand of the double-stranded RNA and the Any one of the second RNA strand complementary to the first RNA strand may include a target nucleic acid sequence.
  • the first or second RNA strand comprising the target nucleic acid sequence may bind to the guide RNA.
  • the nucleic acid sequence in the first or second RNA strand bound to the guide RNA corresponds to the target nucleic acid sequence.
  • the single-stranded DNA or RNA in a cell when single-stranded DNA or RNA in a cell is subjected to single nucleotide substitution, the single-stranded DNA or RNA may include a target nucleic acid sequence. That is, the single-stranded DNA or RNA may bind to the guide RNA, and in this case, the nucleic acid sequence bound to the guide RNA corresponds to the target nucleic acid sequence.
  • the target nucleic acid sequence is 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 or 30 bp or more. It may be a nucleotide sequence.
  • target region - a region containing base-substituted nucleotides
  • the target region is a region including nucleotides in which base substitution is induced by a single base substitution protein.
  • the target region is a region including a target nucleic acid sequence to which the guide RNA binds.
  • the target nucleic acid sequence may include nucleotides in which base substitution is induced by a single base substitution protein.
  • the target region may include a nucleic acid sequence in a second DNA strand that is complementary to a target nucleic acid sequence in a first DNA strand that is complementary to a guide RNA.
  • the nucleic acid sequence in the second DNA strand may include nucleotides in which base substitution is induced by a single base substitution protein.
  • a strand including the target nucleic acid sequence among double-stranded DNA or RNA may be referred to as a first strand, and a strand not including the nucleic acid sequence may be referred to as a second strand.
  • the target region may include a target nucleic acid sequence complementary to the guide RNA in the first strand and a nucleic acid sequence in the second strand complementary to the target nucleic acid sequence.
  • a strand including the target nucleic acid sequence among double-stranded DNA or RNA may be referred to as a second strand, and a strand not including the nucleic acid sequence may be referred to as a first strand.
  • the target region may include a target nucleic acid sequence complementary to the guide RNA in the second strand and a nucleic acid sequence in the first strand complementary to the target nucleic acid sequence.
  • the single base substitution protein may induce base substitution of one or more nucleotides in the target region.
  • the single nucleotide substitution protein (i) substitutes one or more nucleotide bases in the target nucleic acid sequence, ( ii) the base of one or more nucleotides in the nucleic acid sequence complementary to the target nucleic acid sequence in the second strand of the double-stranded DNA may be substituted.
  • the single nucleotide substitution protein (i) substitutes one or more nucleotide bases in the target nucleic acid sequence, ( ii) the base of one or more nucleotides in the nucleic acid sequence complementary to the target nucleic acid sequence in the second strand of the double-stranded RNA may be substituted.
  • the cytosine of one or more nucleotides in the target nucleic acid region may be substituted with guanine, thymine, uracil, hypoxanthine or adenine.
  • adenine of one or more nucleotides in the target nucleic acid sequence may be substituted with guanine, thymine, uracil, hypoxanthine or cytosine.
  • the target gene refers to a gene including a target region and a target nucleic acid sequence.
  • the target gene refers to a gene in which the cytosine base of one or more nucleotides in the target region is substituted with an arbitrary base by a single base substitution protein.
  • the single nucleotide substitution protein provided in the present application includes (i) deaminase and (ii) DNA glycosylase as essential components.
  • deaminase which is the first component of a single-base substitution protein
  • DNA glycosyase which is the second component
  • the base substitution by the deaminase and the DNA glycosyase is performed in the following two steps, (i) deamination of the base, and/or (iii) a cleavage or repair process by DNA glycosylation This may be the result of sequential or simultaneous progress.
  • Step 1 Deamination of the base
  • Deamination refers to a biochemical reaction involving cleavage of an amino group.
  • a biochemical reaction involving cleavage of an amino group.
  • it may mean changing the amino group of a base, which is a component of a nucleotide, to a hydroxyl group or a ketone group.
  • the deaminase may be cytidine deaminase.
  • the cytidine deaminase may deaminate cytosine to provide uracil.
  • the cytidine deaminase may modify cytosine to provide uracil.
  • the deaminase of the single base substitution protein may be adenosine deaminase (adenosine deaminase).
  • the adenosine deaminase may deaminate adenine to provide hypoxanthine.
  • the adenosine deaminase may modify adenine to provide hypoxanthine.
  • the deaminase may be guanine deaminase.
  • the guanine deaminase may deaminate guanine to provide xantine.
  • the guanine deaminase may modify guanine to provide xanthine.
  • DNA glycosylase is an enzyme involved in base excision repair (BER), and BER is a mechanism for removing and replacing damaged bases in DNA.
  • DNA glycosylase catalyzes the first step of this mechanism by hydrolyzing the N-glycoside linkage between bases in DNA and deoxyribose. DNA glycosylation removes the damaged nitrogenous base, leaving the sugar-phosphate backbone intact.
  • AP site specifically, an apurinic site or an apyrimidinic site is created.
  • AP endonuclease AP endonuclease
  • End processing enzymes DNA polymerase
  • flap endonuclease flap endonuclease
  • DNA ligase DNA ligase
  • the DNA glycosylase may be uracil DNA glycosylase.
  • the uracil DNA glycosylase hydrolyzes an N-glycoside linkage between uracil and deoxyribose in DNA.
  • Uracil DNA glycosylase hydrolyzes the N-glycosidic bond between uracil and deoxyribose in nucleotides containing uracil.
  • the uracil-containing nucleotide may be provided by deamination by cytidine deaminase on the cytosine-containing nucleotide.
  • the DNA glycosylase may be an alkyladenine DNA glycosylase.
  • the alkyladenine DNA glycosylase hydrolyzes the N-glycoside linkage between hypoxanthine and deoxyribose in DNA.
  • Alkyladenine DNA glycosylase hydrolyzes the N-glycosidic bond between hypoxanthine and deoxyribose in nucleotides containing hypoxanthine.
  • the hypoxanthine-containing nucleotide may be provided by deamination by adenosine deaminase on the adenine-containing nucleotide.
  • One or more adenine or cytosine in the target region may be substituted with any base using the single base substitution protein provided in the present application.
  • the deaminase of the single base substitution protein may be adenosine deaminase
  • the DNA glycosylase may be an alkyladenine-DNA glycosylase or a variant thereof.
  • the single base substitution fusion protein may induce substitution of adenine for one or more nucleotides in the target nucleic acid sequence with any base (guanine, thymine, cytosine).
  • adenine in one or more nucleotides in the target region is (a) a CRISPR enzyme or a variant thereof; (b) adenosine deaminase; and (c) a single nucleotide substitution protein comprising alkyladenine DNA glycosylation may induce substitution with cytosine.
  • adenine in one or more nucleotides in the target region is (a) a CRISPR enzyme or a variant thereof; (b) adenosine deaminase; And (c) the substitution of thymine can be induced by a single base-substituted protein comprising an alkyladenine DNA glycosylase.
  • adenine in one or more nucleotides in the target region is (a) a CRISPR enzyme or a variant thereof; (b) adenosine deaminase; And (c) the substitution of guanine can be induced by a single base-substituted protein comprising an alkyladenine DNA glycosylase.
  • the deaminase of the single base substitution protein may be cytidine deaminase, and the DNA glycosylase may be uracil-DNA glycosylase or a variant thereof.
  • the single base substitution fusion protein may induce substitution of cytosine of one or more nucleotides in the target nucleic acid sequence with any base.
  • the cytosine in one or more nucleotides in the target region is (a) a CRISPR enzyme or a variant thereof; (b) cytidine deaminase; And (c) adenine substitution can be induced by a single base substitution protein comprising uracil DNA glycosylase.
  • the cytosine in one or more nucleotides in the target region is (a) a CRISPR enzyme or a variant thereof; (b) cytidine deaminase; And (c) thymine substitution can be induced by a single base substitution protein comprising uracil DNA glycosylase.
  • the cytosine in one or more nucleotides in the target region is (a) a CRISPR enzyme or a variant thereof; (b) cytidine deaminase; And (c) guanine substitution can be induced by a single nucleotide substitution protein comprising uracil DNA glycosylase.
  • One aspect of the invention disclosed by the present specification is a single base substituted protein.
  • a single base substitution protein is a protein, polypeptide, or peptide capable of inducing or generating a single base substitution.
  • cytosine base was substituted with thymine by using a base editor combining rAPOBEC, cytidine deaminase, nCas9, and uracil DNA glycosylase in rats.
  • adenine (A) was substituted with guanine (G) using adenosine deaminase instead of cytidine deaminase.
  • the conventional base editor can be used to treat diseases caused by point mutations, for example, it has significant points such as being used to treat genetic disorders by correcting a point mutation site in a gene.
  • the conventional base editor removes the amino group (-NH 2 ) by using a DNA glycosylation inhibitor or replaces the amino group with a keto group, thereby replacing cytosine (C) with a specific base thymine (T) only or adenosine (A)
  • C cytosine
  • T specific base thymine
  • A adenosine
  • G specific base guanine
  • the conventional base editor has a limitation in that there is a low possibility that the type of amino acid expressed from the substituted base using the same is low. Most diseases or diseases are not due to point mutations, but are often caused by abnormalities in structure or function at the level of peptides, polypeptides, or proteins beyond the nucleotide level. After all, since the conventional base editor can only change adenine and cytosine into specific bases, the possibility that the structure of the peptide, polypeptide, or protein is significantly different is significantly reduced.
  • the limitations of the prior art can be overcome by using the single base substitution protein provided by the present specification.
  • the single base substitution protein provided in the present application has a novel combination consisting of (a) editor protein, (b) deaminase, and (c) DNA glycosylase. That is, the single base substitution protein provided in the present application converts adenine (A), guanine (G), thymine (T), or cytosine (C) to any base (A, T, C, G, U, H). It has the advantage of being interchangeable.
  • the single base substitution protein of the novel component and novel combination has the advantage of being able to simultaneously substitute one or more bases present in the target nucleic acid sequence.
  • the single-base substitution protein provided in the present application can provide "mutations" in which various bases are randomly substituted.
  • Peptides, polypeptides, or proteins having various structures may be expressed from the mutated gene.
  • the single base substitution protein provided in the present application can be used for epitope screening, drug resistance gene or protein screening, drug sensitization screening, and/or virus resistance gene or protein screening.
  • the single base substitution protein provided in the present application can induce the substitution of any base in the target region of the target gene by using it together with the guide RNA.
  • the deaminase refers to a deaminase, and refers to an enzyme that converts an amino group of a compound into a hydroxyl group or a ketone group.
  • deaminase may be referred to as a base substitution domain.
  • the base substitution domain refers to a peptide, polypeptide, domain, or protein involved in substituting a base of one or more nucleotides in a target gene with any other base.
  • the deaminase of the present application may be cytidine deaminase
  • the cytidine deaminase refers to any enzyme having an activity of removing an amino (-NH 2 ) group of cytosine, cytidine, or deoxycytidine.
  • the cytidine deaminase is used as a concept including cytosine deaminase.
  • the cytidine deaminase may be used interchangeably with the cytosine deaminase. .
  • the cytidine deaminase may transform cytosine into uracil.
  • the cytidine deaminase may transform cytidine into uridine.
  • the cytidine deaminase may transform deoxycytidine into deoxyuridine.
  • Cytidine deaminase has an activity of converting cytosine, a base present in nucleotides (eg, cytosine present in double-stranded DNA or RNA) to uracil (C-to-U conversion or C-to-U editing) It refers to all enzymes, and converts cytosine located on the strand in which the PAM sequence of the sequence of the target site (target nucleic acid sequence) exists to uracil.
  • cytidine deaminase is used in prokaryotes such as Escherichia coli; Alternatively, it may be derived from mammals such as primates such as humans and monkeys, and rodents such as rats and mice, but is not limited thereto.
  • the cytidine deaminase is one selected from enzymes belonging to the APOBEC (“apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like”) or activity-induced cytidine deaminase (AID) family. may be more than
  • the cytidine deaminase may be APOBEC1, APOBEC2, APOBEC3B, APOBEC3C, APOBEC3D, APOBEC3F, APOBEC3G, APOBEC3H, APOBEC4, AID or CDA, but is not limited thereto.
  • the cytidine deaminase is human APOBEC1, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_005889, NM_001304566, NM_001644, or the like.
  • the cytidine deaminase is human APOBEC1, such as NCBI Accession No. It may be a protein or a polypeptide represented by NP_001291495, NP_001635, NP_005880, and the like.
  • the cytidine deaminase is mouse APOBEC1, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_001127863, NM_112436, or the like.
  • the cytidine deaminase is mouse APOBEC1, such as NCBI Accession No. It may be a protein or a polypeptide expressed by NP_001127863, NP_112436, or the like.
  • the cytidine deaminase is a human AID, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_020661, NM_001330343, or the like.
  • the cytidine deaminase is a human AID, such as NCBI Accession No. It may be a protein or a polypeptide expressed by NP_001317272, NP_065712, or the like.
  • APOBEC1 a gene encoding human APOBEC1 (e.g., NCBI Accession No. NP_001291495, NP_001635, NP_005880), such as NCBI Accession No. APOBEC1 gene represented by NM_005889, NM_001304566, NM_001644, or a gene encoding mouse APOBEC1 (e.g., NCBI Accession No. NP_001127863, NP_112436), such as NCBI Accession No. APOBEC1 gene expressed as NM_001127863, NM_112436.
  • human APOBEC1 e.g., NCBI Accession No. NP_001291495, NP_001635, NP_005880
  • APOBEC2 a gene encoding human APOBEC2 (e.g., NCBI Accession No. NP_006780), such as NCBI Accession No. APOBEC2 gene represented by NM_006789, or a gene encoding mouse APOBEC2 (e.g., NCBI Accession No. NP_033824), such as NCBI Accession No. APOBEC2 gene expressed as NM_009694.
  • APOBEC3B a gene encoding human APOBEC3B (e.g., NCBI Accession No. NP_001257340, NP_004891), such as NCBI Accession No.
  • APOBE3C a gene encoding human APOBEC3C (e.g., NCBI Accession No. NP_055323), such as NCBI Accession No. APOBEC3C gene expressed as NM_014508.
  • APOBEC3D a gene encoding human APOBEC3D (e.g., NCBI Accession No. NP_689639, NP_0013570710), such as NCBI Accession No. APOBEC3D gene expressed as NM_152426, NM_001363781.
  • APOBEC3F a gene encoding human APOBEC3F (e.g., NCBI Accession No. NP_001006667, NP_660341), such as NCBI Accession No. APOBEC3F gene expressed as NM_001006666, NM_145298.
  • APOBEC3G a gene encoding human APOBEC3G (e.g., NCBI Accession No. NP_068594, NP_001336365, NP_001336366, NP_001336367), such as NCBI Accession No. APOBEC3G gene expressed as NM_021822.
  • APOBEC3H a gene encoding human APOBEC3H (e.g., NCBI Accession No. NP_001159474, NP_001159475, NP_001159476, NP_861438) such as NCBI Accession No. APOBEC3H gene expressed as NM_001166002, NM_001166003, NM_001166004, NM_181773.
  • APOBEC4 a gene encoding human APOBEC4 (e.g., NCBI Accession No. NP_982279), such as NCBI Accession No. APOBEC4 gene represented by NM_203454, or a gene encoding mouse APOBEC4, for example, NCBI Accession No. APOBEC4 gene expressed as NM_001081197.
  • the cytidine deaminase may be expressed from an activity-induced cytidine deaminase (AID) gene.
  • AID activity-induced cytidine deaminase
  • the AID gene may be selected from the group consisting of, but not limited to: a gene encoding a human AID gene (e.g., NP_001317272, NP_065712), such as NCBI Accession No. NM_020661, the AID gene represented by NM_001330343, or a gene encoding a mouse AID gene (e.g., NP_03377512), such as NCBI Accession No. AID gene expressed as NM_009645.
  • the cytidine deaminase may be encoded from the CDA gene.
  • the CDA gene may be selected from the group consisting of, but not limited to: a gene encoding human CDA (e.g., NCBI Accession No. NP_001776), such as NCBI Accession No. CDA gene represented by NM_001785, or a gene encoding mouse CDA (e.g., NCBI Accession No. NP_082452), such as NCBI Accession No. CDA gene expressed as NM_028176.
  • the cytidine deaminase may be a cytidine deaminase variant.
  • the cytidine deaminase mutant may be an enzyme having increased cytidine deaminase activity than wild-type cytidine deaminase. Cytidine deaminase activity is understood to include the deamination of cytosine or one of its analogs.
  • the cytidine deaminase variant may be an enzyme in which one or more amino acid sequences in the cytidine deaminase are modified.
  • the modification of the amino acid sequence may be any one selected from substitution, deletion and insertion of amino acids.
  • the deaminase of the present application may be adenosine deaminase.
  • the adenosine deaminase is used as a concept including adenine deaminase.
  • the adenosine deaminase is used as a concept including the adenine deaminase.
  • the adenosine deaminase may transform adenine into hypoxanthine.
  • the adenosine deaminase may transform adenosine to inosine.
  • the adenosine deaminase may transform deoxyadenosine into deoxyinosine.
  • Adenosine deaminase may be derived from prokaryotes such as Escherichia coli, or mammals such as primates such as humans and monkeys, and rodents such as rats and mice, but is not limited thereto.
  • the anosine deaminase may be one or more selected from enzymes belonging to a tRNA-specific adenosine deaminase (TadA) or an adenosine deaminase (ADA) family.
  • the adenosine deaminase may be TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2 or ADAT3, but is not limited thereto.
  • the adenosine deaminase is Escherichia coli TadA, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed as NC_000913.3 or the like.
  • the adenosine deaminase is Escherichia coli TadA, for example, NCBI Accession No. It may be a protein or a polypeptide expressed by NP_417054.2 or the like.
  • the adenosine deaminase is a human ADA, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_000022, NM_001322050, NM_001322051, and the like.
  • the adenosine deaminase is human ADA, such as NCBI Accession No. It may be a protein or a polypeptide represented by NP_000013, NP_001308979, NP_001308980, and the like.
  • the adenosine deaminase is a mouse ADA, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_001272052, NM_007398, or the like.
  • the adenosine deaminase is mouse ADA, such as NCBI Accession No. It may be a protein or a polypeptide expressed by NP_001258981, NP_031424, or the like.
  • the adenosine deaminase is human ADAR2, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_001033049, NM_001112, NM_001160230, NM_015833, NM_015834, and the like.
  • the adenosine deaminase is human ADAR2, such as NCBI Accession No. It may be a protein or a polypeptide represented by NP_001103, NP_001153702, NP_001333616, NP_001333617, NP_056648, and the like.
  • the adenosine deaminase is mouse ADAR2, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_001024837, NM_001024838, NM_001024839, NM_001024840, NM_130895, and the like.
  • the adenosine deaminase is mouse ADAR2, such as NCBI Accession No. It may be a protein or a polypeptide represented by NP_001020008, NP_570965, NP_001020009, and the like.
  • the adenosine deaminase is human ADAT2, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_182503.3, NM_001286259.1, or the like.
  • the adenosine deaminase is human ADAT2, such as NCBI Accession No. It may be a protein or a polypeptide expressed by NP_001273188.1, NP_872309.2, or the like.
  • the adenosine deaminase may be any one of adA variants, ADAR2 variants, and ADAT2 variants, but is not limited thereto.
  • ADAR2 variants may be one or more selected from the group consisting of, but is not limited thereto.
  • a gene encoding human ADAR2, such as NCBI Accession No. It may be a CDA gene expressed by NM_001282225, NM_001282226, NM_001282227, NM_001282228, NM_001282229, NM_017424, NM_177405, and the like.
  • the adenosine deaminase may be an adenosine deaminase variant.
  • the adenosine deaminase variant may be an enzyme having an increased adenine deaminase activity than wild-type adenosine deaminase.
  • the adenosine deaminase variant may be an enzyme in which one or more amino acid sequences in the adenosine deaminase are modified.
  • the adenosine deaminase may be an adenosine deaminase variant.
  • the adenosine deaminase variant may be an enzyme having an increased adenosine deaminase activity than a subtype adenosine deaminase.
  • the adenosine deaminase variant may be an enzyme in which one or more amino acid sequences selected from among the amino acid sequences constituting subtype adenosine deaminase are modified.
  • the modification of the amino acid sequence may be any one selected from substitution, deletion, and insertion of one or more amino acids.
  • the adenosine deaminase variant may be a TadA variant, a Tad2p variant, an ADA variant, an ADA1 variant, an ADA2 variant, an ADAR2 variant, an ADAT2 variant or an ADAT3 variant, but is not limited thereto.
  • the adenosine deaminase may be a TadA variant.
  • the TadA variant is ABE0.1, ABE1.1, ABE1.2, ABE2.1, ABE2.9, ABE2.10, ABE3.1, ABE4.3, ABE5.1, ABE5.3, ABE6.3 , ABE6.4, ABE7.4, ABE7.8, ABE7.9, or ABE7.10, and the specific details of the TadA variant can be found in the paper “base editing of A,T to C, G in genomic DNA without DNA cleavage. ” (Nicole M. Gaudelli et al., (2017) Nature, 551, 464-471), so the relevant literature can be referred to.
  • the adenosine deaminase may be a fused adenosine deaminase.
  • deaminase provided in the present application, for example, cytidine deaminase or adenosine deaminase, may be provided in a fused form in which one or more functional domains are linked.
  • the deaminase and the functional domain may be linked or fused so that each function is expressed.
  • Adenosine diadenosine diadenosine diadenosine diadenosine diadenosine diadenosine diadenosine dia The functional domain is methylase (methylase) activity, dimethylase (demethylase) activity, transcription activation (transcription activation) activity, transcription repression (transcription repression) activity, transcription release factor (transcription release factor) It may be a domain having activity, histone modification activity, RNA cleavage activity or nucleic acid binding activity, or a tag or reporter gene for separation and purification of proteins (including peptides) may be, but is not limited thereto.
  • the functional domain may be a tag or a reporter gene for separation and purification of proteins (including peptides).
  • the tag may include any one of a histidine (His) tag, a V5 tag, a FLAG tag, an influenza hemagglutinin (HA) tag, a Myc tag, a VSV-G tag, and a thioredoxin (Trx) tag.
  • His histidine
  • V5 V5
  • FLAG FLAG
  • HA influenza hemagglutinin
  • Myc Myc
  • VSV-G tag a VSV-G tag
  • Trx thioredoxin
  • the reporter gene is an autofluorescent protein, for example, glutathione-S-transferase (GST), horseradish peroxidase (HRP), chloramphenicol acetyltransferase (CAT) beta-galactosidase, beta-glucuronidase, luciferase, green fluorescent protein (GFP), HcRed, DsRed, cyan fluorescent protein (CFP), yellow fluorescent protein (YFP) and blue fluorescent protein (BFP).
  • GST glutathione-S-transferase
  • HRP horseradish peroxidase
  • CAT chloramphenicol acetyltransferase
  • beta-galactosidase beta-galactosidase
  • beta-glucuronidase beta-galactosidase
  • luciferase green fluorescent protein
  • GFP green fluorescent protein
  • HcRed HcRed
  • DsRed cyan fluorescent protein
  • YFP yellow
  • the functional domain may be a nuclear localization sequence or signal (NLS) or a nuclear export sequence or signal (NES).
  • NLS nuclear localization sequence or signal
  • NES nuclear export sequence or signal
  • the NLS is at or near the amino terminus of the CRISPR enzyme; at or near the carboxy terminus; or one or more NLSs in a combination thereof.
  • the NLS may be, but is not limited to, an NLS sequence derived from: the NLS of the SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 23); NLS from nucleoplasmin (eg, nucleoplasmin bipartite NLS having the sequence KRPAATKKAGQAKKKK (SEQ ID NO: 24)); c-myc NLS having the amino acid sequence PAAKRVKLD (SEQ ID NO: 25) or RQRRNELKRSP (SEQ ID NO: 26); hRNPA1 M9 NLS having the sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 27); sequence RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ
  • the functional domain may be a binding domain that allows it to form a complex with other domains, peptides, polypeptides or proteins.
  • the binding domain is one of FRB and FKBP dimerization domains; intein; one of the ERT and VPR domains; It may be one of GCN4 peptide and single chain variable fragment (scFv), or a domain forming a heterodimer.
  • the binding domain may be an scFv.
  • the scFv is a pair with GCN4 pepetide, and may be specifically bound or linked to the GCN4.
  • the first fusion protein in which the scFv functional domain is linked to the adenosine deaminase may be combined with a peptide, polypeptide, protein, or second fusion protein including a GCN4 peptide.
  • DNA glycosylase is an enzyme involved in base excision repair (BER), and BER is a mechanism for removing and replacing damaged bases in DNA.
  • DNA glycosylase catalyzes the first step of this mechanism by hydrolyzing the N-glycoside linkage between bases in DNA and deoxyribose. DNA glycosylation removes the damaged nitrogenous base, leaving the sugar-phosphate backbone intact.
  • Glycosylase of the present application may be uracil-DNA glycosylase.
  • Uracil DNA glycosylase is an enzyme that prevents DNA mutation by removing uracil (U) present in DNA. It cuts the N-glycosylic bond of uracil to initiate the base-excision repair (BER) pathway. One or more of all enzymes that play a role may be selected.
  • the glycosyl hydrolase may be Uracil-DNA glycosylase (UDG or UNG).
  • Uracil-DNA glycosylase may be selected from the group consisting of, but is not limited to: a gene encoding human UNG (e.g., NCBI Accession No. NP_003353, NP_550433), for example, NCBI Accession No. NM_080911, the UNG gene represented by NM_003362, or a gene encoding a mouse UNG gene (e.g., NCBI Accession No. NP_001035781, NP_035807), such as NCBI Accession No.
  • UNG gene represented by NM_001040691, NM_011677 or Escherichia coli UNG (eg, NCBI Accession No. ADX49788.1, ACT28166.1, EFN36865.1, BAA10923.1, ACA76764.1, ACX38762.1, EFU59768.A, EFU53885.A , EFJ57281.1, EFU47398.1, EFK71412.1, EFJ92376.1, EFJ79936.1, EFO59084.1, EFK47562.1, KXH01728.1, ESE25979.1, ESD99489.1, ESD73882.1, ESD69341.1) encoding gene.
  • the DNA glycosylase may be a uracil DNA glycosylase variant.
  • the uracil DNA glycosylase mutant may be an enzyme having increased DNA glycosylase activity than wild-type uracil DNA glycosylase.
  • the uracil DNA glycosylase variant may be an enzyme in which one or more amino acid sequences of wild-type uracil DNA glycosylase are modified.
  • the modification of the amino acid sequence may be substitution, deletion, insertion, or a combination thereof of at least one or more amino acids.
  • the glycosylase may be a fusion uracil-DNA glycosylase.
  • the glycosylase of the present application may be an alkyladenine DNA glycosylase (AAG).
  • AAG alkyladenine DNA glycosylase
  • Alkyladenine DNA glycosylase is an enzyme that prevents mutation of DNA by removing alkylated or deamination bases present in DNA, and hydrolysis of the N-glycosidic bond of the alkylated or deamination base. ) can be selected from among all enzymes that play a role in initiating the base-excision repair (BER) pathway by catalyzing it.
  • BER base-excision repair
  • the DNA glycosylase may be alkyladenine DNA glycosylase (AAG) or a variant thereof.
  • AAG alkyladenine DNA glycosylase
  • the alkyladenine DNA glycosylase (AAG) is a human AAG, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed by NM_002434, NM_001015052, NM_001015054, or the like.
  • the alkyladenine DNA glycosylase (AAG) is a human AAG, such as NCBI Accession No. It may be a protein or a polypeptide represented by NP_001015052, NP_001015054, NP_002425, and the like.
  • the alkyladenine DNA glycosylase (AAG) is a mouse AAG, such as NCBI Accession No. It may be a protein or polypeptide expressed by a gene or mRNA expressed as NM_010822 or the like.
  • the alkyladenine DNA glycosylase (AAG) is a human AAG, such as NCBI Accession No. It may be a protein or a polypeptide expressed as NP_034952 or the like.
  • the DNA glycosylase may be an alkyladenine DNA glycosylase variant.
  • the alkyladenine DNA glycosylase mutant may be an enzyme having increased DNA glycosylase activity than wild-type alkyladenine DNA glycosylase.
  • the alkyladenine DNA glycosylase variant may be an enzyme in which one or more amino acid sequences of wild-type alkyladenine DNA glycosylase are modified.
  • the modification of the amino acid sequence may be substitution, deletion, insertion, or a combination thereof of at least one or more amino acids.
  • the glycosylase may be a fusion alkyladenine DNA glycosylase.
  • the present application may provide a fusion uracil DNA glycosylase or a fusion alkyladenine DNA glycosylase in which one or more functional domains are linked to a uracil DNA glycosylase or alkyladenine DNA glycosylase.
  • the uracil DNA glycosylase or the alkyladenine DNA glycosylase and each function of the functional domain may be linked or fused so as to be expressed.
  • the functional domain includes methylase activity, dimethylase activity, transcription activation activity, transcription repression activity, transcription release factor activity, histone modification (histone). It may be a domain having modification) activity, RNA cleavage activity, or nucleic acid binding activity, or may be a tag or reporter gene for separation and purification of proteins (including peptides), but is limited thereto doesn't happen
  • the functional domain may be a tag or a reporter gene for separation and purification of proteins (including peptides).
  • the tag may include any one of a histidine (His) tag, a V5 tag, a FLAG tag, an influenza hemagglutinin (HA) tag, a Myc tag, a VSV-G tag, and a thioredoxin (Trx) tag.
  • His histidine
  • V5 V5
  • FLAG FLAG
  • HA influenza hemagglutinin
  • Myc Myc
  • VSV-G tag a VSV-G tag
  • Trx thioredoxin
  • the reporter gene is an autofluorescent protein, for example, glutathione-S-transferase (GST), horseradish peroxidase (HRP), chloramphenicol acetyltransferase (CAT) beta-galactosidase, beta-glucuronidase, luciferase, green fluorescent protein (GFP), HcRed, DsRed, cyan fluorescent protein (CFP), yellow fluorescent protein (YFP) and blue fluorescent protein (BFP).
  • GST glutathione-S-transferase
  • HRP horseradish peroxidase
  • CAT chloramphenicol acetyltransferase
  • beta-galactosidase beta-galactosidase
  • beta-glucuronidase beta-galactosidase
  • luciferase green fluorescent protein
  • GFP green fluorescent protein
  • HcRed HcRed
  • DsRed cyan fluorescent protein
  • YFP yellow
  • the functional domain may be a nuclear localization sequence or signal (NLS) or a nuclear export sequence or signal (NES).
  • NLS nuclear localization sequence or signal
  • NES nuclear export sequence or signal
  • the NLS is at or near the amino terminus of the CRISPR enzyme; at or near the carboxy terminus; or one or more NLSs in a combination thereof.
  • the NLS may be, but is not limited to, an NLS sequence derived from: NLS of SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 23); NLS from nucleoplasmin (eg, nucleoplasmin bipartite NLS having the sequence KRPAATKKAGQAKKKK (SEQ ID NO: 24)); c-myc NLS having the amino acid sequence PAAKRVKLD (SEQ ID NO: 25) or RQRRNELKRSP (SEQ ID NO: 26); hRNPA1 M9 NLS having the sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 27); sequence RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ ID NO
  • the functional domain may be a binding domain that allows it to form a complex with other domains, peptides, polypeptides or proteins.
  • the binding domain is one of FRB and FKBP dimerization domains; intein; one of the ERT and VPR domains; It may be one of GCN4 peptide and single chain variable fragment (scFv), or a domain forming a heterodimer.
  • the binding domain may be an scFv.
  • the scFv is a pair with GCN4 pepetide, and may be specifically bound or linked to the GCN4.
  • the first fusion protein in which the scFv functional domain is linked to the uracil DNA glycosylase or the alkyladenine DNA glycosylase may be combined with a peptide, a polypeptide, a protein or a second fusion protein including a GCN4 peptide.
  • the single base substitution protein provided in the present application includes a CRISPR enzyme or a CRISPR system comprising the same.
  • the CRISPR enzyme herein may be referred to as a CRISPR protein.
  • the CRISPR system is a system that can introduce artificial mutations by targeting a target nucleic acid sequence around a PAM (proto-spaceradjacent motif) sequence on genomic DNA.
  • the guide RNA and the Cas protein bind to (or interact with) each other to form a guide RNA-Cas protein complex and cut the desired DNA sequence, thereby inducing a mutant indel on genomic DNA. have.
  • Cas protein is used herein as a concept including all variants that can act as an activated endonuclease or Nickase in cooperation with a guide RNA in addition to a native protein.
  • the target nucleic acid sequence can be cleaved, and the nucleic acid sequence can be manipulated or modified using the same.
  • an inactivated variant it can be used to regulate transcription or isolate a desired DNA.
  • the CRISPR protein is Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Staphylococcus aureus, Campylobacter jejuni (Campylobacter jejuni), Nocardiopsis rougevillei, Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes (Streptomyces viridochromogenes), Streptosporangium roseum, Streptosporangium roseum, AlicyclobacHlus acidocaldarius, Bacillus pseudomycoides Bacillus selenitireducens (Bacillus selenitireducens), Exiguobacterium sibiricum (Exiguobacterium sibiricum), Lactobacillus delbrueckii (Lactobacillus delbrueckii), Lactobacillus salivarius (Lact
  • the CRISPR enzyme may be a fully active CRISPR enzyme.
  • the CRISPR enzyme variant having the full activity may be a variant of the Cas9 protein derived from SpCas9 Streptococcus pyogenes. Examples of mutations are listed below:
  • E108G, E217A, A262T, R324L, S409I, E480K, E543D, M694I, E1219V, E480K, E543D, E1219V, A262T, S409I, E480K, E543D, E1219V, A262T, S409217I, E480K, E543D, M694I, E1219V, E480K, E543D, M694I, E1219V may be any one of A262T, S409I, E480K, E543D, M694I, E1219V, A262T, R324L, S409I, E480K, E543D, M694I, E1219V, L111R, D1135V, G1218R, E1219F, A1322R, R1335V and T1337R .
  • the CRISPR enzyme variant can recognize a different PAM sequence, and this CRISPR enzyme variant can extend the target nucleic acid sequence in the genome by reducing the length of the sequence of the PAM sequence that the CRISPR enzyme can recognize, and the nucleic acid proximity ability can be improved.
  • the SpCas9 mutant is only the PAM sequence 'NG' from the previously recognized PAM sequence 'NGG' It can recognize and operate (N is one of A, T, C, or G).
  • the SpCas9 (L111R, D1135V, G1218R, E1219F, A1322R, R1335V and T1337R) variants can be used in combination with 'Nureki Cas9' (“CRISPR-Cas9 nuclease with expanded targeting space” masu et al., (2016) ) Science 361, 1259-1262).
  • the CRISPR enzyme may be a nickase.
  • the nickase when the Type II CRISPR enzyme is wild-type SpCas9, the nickase may be a SpCas9 mutant in which the nuclease activity of the HNH domain is inactivated by mutating histidine at amino acid sequence number 840 of wild-type SpCas9 to alanine. have. Since the generated nickase, ie, the SpCas9 mutant, has nuclease activity by the RuvC domain, it is possible to cut the non-complementary strand of the target gene or nucleic acid, that is, the strand that does not bind complementary to the gRNA.
  • the Type II CRISPR enzyme when the Type II CRISPR enzyme is wild-type CjCas9, the Nikase mutates histidine at amino acid sequence number 559 of wild-type CjCas9 to alanine, and the nuclease activity of the HNH domain is inactivated CjCas9 mutant can be Since the generated nickase, that is, the CjCas9 mutant, has nuclease activity by the RuvC domain, it is possible to cut the non-complementary strand of the target gene or nucleic acid, that is, the strand that does not bind complementary to the gRNA.
  • the nikase may have nuclease activity by the HNH domain of the CRISPR enzyme. That is, the nickase may not include nuclease activity by the RuvC domain of the CRISPR enzyme, and for this purpose, the RuvC domain may be engineered or altered.
  • the Nikase may be a Type II CRISPR enzyme including a modified RuvC domain.
  • the Nikase is a SpCas9 mutant in which the nuclease activity of the RuvC domain is inactivated by mutating aspartic acid 10 of the wild-type SpCas9 to alanine.
  • the generated nickase that is, the SpCas9 mutant, has nuclease activity by the HNH domain, it can cut the complementary strand of the target gene or nucleic acid, that is, the strand complementary to the gRNA.
  • the nickase mutates aspartic acid 8 in the amino acid sequence of wild-type CjCas9 to alanine to inactivate CjCas9 in which the nuclease activity of the RuvC domain is inactivated. It may be a variant. Since the generated nickase, that is, the CjCas9 mutant, has nuclease activity by the HNH domain, the complementary strand of the target gene or nucleic acid, that is, the strand complementary to the gRNA can be cleaved.
  • the Nikease is a Nureki Cas9 mutant in which the nuclease activity of the RuvC domain is inactivated by mutation (mutation) of the amino acid sequence No. 10 aspartic acid of Nureki Cas9 to alanine, that is, Nureki Cas9 Nikease (Nureki nCas9) ) can be Since the generated Nureki nCas9 has nuclease activity by the HNH domain, it can cut the complementary strand of the target gene or nucleic acid, that is, the strand complementary to the gRNA.
  • the Nikease is a Nureki Cas9 mutant in which the nuclease activity of the HNH domain is inactivated by mutation (mutation) of histidine at amino acid sequence number 840 of Nureki Cas9 to alanine, that is, Nureki Cas9 Nikease (Nureki nCas9) ) can be Since the generated Nureki nCas9 has a nuclease activity by the RuvC domain, it can cut the non-complementary strand of the target gene or nucleic acid, that is, the strand that does not bind complementary to the gRNA.
  • the CRISPR enzyme may be an inactive CRISPR enzyme.
  • Inactive refers to a state in which the function of the wild-type CRISPR enzyme, ie, the first function to cut the first strand of the double strand of DNA and the second function to cut the second strand of the double strand of DNA, are both lost. CRISPR enzymes in this state are termed inactive CRISPR enzymes.
  • the inactive CRISPR enzyme may have nuclease inactivation due to mutation in a domain having nuclease activity of the wild-type CRISPR enzyme.
  • the inactive CRISPR enzyme may have nuclease inactivation due to mutations in the RuvC domain and the HNH domain. That is, the inactive CRISPR enzyme may not include nuclease activity by the RuvC domain and the HNH domain of the CRISPR enzyme, and for this purpose, the RuvC domain and the HNH domain may be engineered or altered.
  • the inactive CRISPR enzyme may be a Type II CRISPR enzyme including a modified RuvC domain and an HNH domain.
  • the inactive CRISPR enzyme mutates both aspartic acid 10 and histidine 840 in the amino acid sequence of wild-type SpCas9 to alanine to nuclease the RuvC domain and the HNH domain.
  • the activity may be an inactivated SpCas9 mutant.
  • the generated inactive CRISPR enzyme that is, the SpCas9 mutant, cannot cut both the double strands of the target gene or nucleic acid because the nuclease activity of the RuvC domain and the HNH domain is inactivated.
  • the inactive CRISPR enzyme mutates both aspartic acid 8 and histidine 559 of the wild-type CjCas9 amino acid sequence 8 and 559 to alanine to form a new gene in the RuvC domain and the HNH domain. It may be a CjCas9 mutant with inactivated clease activity.
  • the generated inactive CRISPR enzyme that is, the CjCas9 mutant, cannot cut both the double strands of the target gene or nucleic acid, since the nuclease activity of the RuvC domain and the HNH domain is inactive.
  • the present application may also provide a CRISPR enzyme linked to a functional domain.
  • the CRISPR enzyme variant may have additional functions in addition to the original function of the wild-type CRISPR enzyme.
  • the functional domain includes methylase activity, dimethylase activity, transcription activation activity, transcription repression activity, transcription release factor activity, histone modification (histone). It may be a domain having modification) activity, RNA cleavage activity, or nucleic acid binding activity, or may be a tag or reporter gene for separation and purification of proteins (including peptides), but is limited thereto doesn't happen
  • the functional domain may be a tag or a reporter gene for separation and purification of proteins (including peptides).
  • the tag may include any one of a histidine (His) tag, a V5 tag, a FLAG tag, an influenza hemagglutinin (HA) tag, a Myc tag, a VSV-G tag, and a thioredoxin (Trx) tag.
  • His histidine
  • V5 V5
  • FLAG FLAG
  • HA influenza hemagglutinin
  • Myc Myc
  • VSV-G tag a VSV-G tag
  • Trx thioredoxin
  • the reporter gene is an autofluorescent protein, for example, glutathione-S-transferase (GST), horseradish peroxidase (HRP), chloramphenicol acetyltransferase (CAT) beta-galactosidase, beta-glucuronidase, luciferase, green fluorescent protein (GFP), HcRed, DsRed, cyan fluorescent protein (CFP), yellow fluorescent protein (YFP) and blue fluorescent protein (BFP).
  • GST glutathione-S-transferase
  • HRP horseradish peroxidase
  • CAT chloramphenicol acetyltransferase
  • beta-galactosidase beta-galactosidase
  • beta-glucuronidase beta-galactosidase
  • luciferase green fluorescent protein
  • GFP green fluorescent protein
  • HcRed HcRed
  • DsRed cyan fluorescent protein
  • YFP yellow
  • the functional domain may be a nuclear localization sequence or signal (NLS) or a nuclear export sequence or signal (NES).
  • NLS nuclear localization sequence or signal
  • NES nuclear export sequence or signal
  • the NLS is at or near the amino terminus of the CRISPR enzyme; at or near the carboxy terminus; or one or more NLSs in a combination thereof.
  • the NLS may be, but is not limited to, an NLS sequence derived from: the NLS of the SV40 virus large T-antigen having the amino acid sequence PKKKRKV (SEQ ID NO: 23); NLS from nucleoplasmin (eg, nucleoplasmin bipartite NLS having the sequence KRPAATKKAGQAKKKK (SEQ ID NO: 24)); c-myc NLS having the amino acid sequence PAAKRVKLD (SEQ ID NO: 25) or RQRRNELKRSP (SEQ ID NO: 26); hRNPA1 M9 NLS having the sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (SEQ ID NO: 27); sequence RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (SEQ
  • the functional domain may be a binding domain that allows it to form a complex with other domains, peptides, polypeptides or proteins.
  • the binding domain is one of FRB and FKBP dimerization domains; intein; one of the ERT and VPR domains; It may be one of GCN4 peptide and single chain variable fragment (scFv), or a domain forming a heterodimer.
  • the binding domain may be a GCN4 peptide.
  • the GCN4 pepetide is a pair with the scFv, and may be specifically bound or linked to the scFv.
  • the first fusion protein in which the GCN4 peptide functional domain is linked to the CRISPR enzyme may be coupled to a peptide, polypeptide, protein, or second fusion protein including scFv.
  • One aspect of the single base substitution protein disclosed by the present specification is a single base substitution fusion protein.
  • the adenine substitution fusion protein may be a single base substitution fusion protein inducing substitution of cytosine or adenine included in one or more nucleotides in the target nucleic acid sequence with any base, or a nucleic acid encoding the same.
  • the single base substitution fusion protein comprises a linking moiety between each component (a), (b) and (c), or a single base substitution fusion protein comprising the same It may be an encoding nucleic acid.
  • the single base substitution fusion protein is N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N
  • N-terminus-[DNA glycosylation]-[deaminase]-[CRISPR enzyme]- may be a single base substitution fusion protein characterized in that it has any one of the configuration or a nucleic acid encoding the same .
  • the CRISPR enzyme or a variant thereof is Streptococcus pyogenes-derived Cas9 protein, Campylobacter jejuni-derived Cas9 protein, Streptococcus thermophilus-derived of Cas9 protein, Streptococcus aureus-derived Cas9 protein, Neisseria meningitidis-derived Cas9 protein, and a single base substitution fusion comprising at least one selected from the group consisting of Cpf1 protein It may be a protein or a nucleic acid encoding the same.
  • the CRISPR enzyme variant is characterized in that at least one of the RuvC domain or the HNH domain is inactivated,
  • It may be a single base substitution fusion protein or a nucleic acid encoding the same.
  • the CRISPR enzyme variant is characterized in that the Nickase (nickase),
  • It may be a single base substitution fusion protein or a nucleic acid encoding the same.
  • an adenine-substituted fusion protein may be provided.
  • the adenine-substituted fusion protein may be an adenine-substituted fusion protein that induces substitution of an arbitrary base for adenine contained in one or more nucleotides in the target nucleic acid sequence, or a nucleic acid encoding the same.
  • the adenine base substituted protein may be configured in the order of N-terminal-[CRISPR enzyme]-[adenosine deaminase]-[alkyladenine alkyladenine DNA glycosylation]-C-terminus.
  • the adenine base-substituted protein may be configured in the order of N-terminus-[alkyladenine DNA glycosylation]-[CRISPR enzyme]-[adenosine deaminase]-C-terminus.
  • the adenine base-substituted protein may be configured in the order of N-terminal-[alkyladenine DNA glycosylation]-[adenosine deaminase]-[CRISPR enzyme]-C-terminus.
  • the adenine base substituted protein may be configured in the order of N-terminus-[adenosine deaminase]-[CRISPR enzyme]-[alkyladenine DNA glycosylase]-C-terminus.
  • the adenine base substituted protein may be configured in the order of N-terminal-[CRISPR enzyme]-[alkyladenine DNA glycosylation]-[adenosine deaminase]-C-terminus.
  • the adenine base-substituted protein may be configured in the order of N-terminus-[adenosine deaminase]-[alkyladenine DNA glycosylase]-[CRISPR enzyme]-C-terminus.
  • the adenine base-substituted protein may further include a linking domain.
  • the linking domain is a domain operably linking a CRISPR enzyme and adenosine deaminase, adenosine deaminase and alkyladenine DNA glycosylase, and/or a CRISPR enzyme and an alkyladenine DNA glycosylase, the CRISPR enzyme , adenosine deaminase and alkyladenine DNA glycosylase may be domains linking to activate their respective functions.
  • the linking domain may be an amino acid, peptide or polypeptide that does not affect the functional activity and/or structure of the CRISPR enzyme, adenosine deaminase and alkyladenine DNA glycosylase.
  • the adenine base substitution domain may include an N-terminal-[CRISPR enzyme]-[linking domain]-[adenosine deaminase]-[alkyladenine DNA glycosylase]-C-terminus; N terminus-[CRISPR enzyme]-[adenosine deaminase]-[linkage domain]-[alkyladenine DNA glycosylase]-C terminus;
  • the N-terminal-[CRISPR enzyme]-[linking domain]-[adenosine deaminase]-[linking domain]-[alkyladenine DNA glycosylase]-C-terminal sequence may be configured.
  • the adenine base-substituted protein is N-terminal-[alkyladenine DNA glycosylation]-[linking domain]-[CRISPR enzyme]-[adenosine deaminase]-C-terminus; N-terminus-[alkyladenine DNA glycosylase]-[CRISPR enzyme]-[linking domain]-[adenosine deaminase]-C-terminus;
  • the N-terminal-[alkyladenine DNA glycosylase]-[linking domain]-[CRISPR enzyme]-[linking domain]-[adenosine deaminase]-C-terminal sequence may be configured.
  • the adenine base-substituted protein is N-terminal-[alkyladenine DNA glycosylation]-[linking domain]-[adenosine deaminase]-[CRISPR enzyme]-C-terminus; N-terminus-[alkyladenine DNA glycosylase]-[adenosine deaminase]-[linking domain]-[CRISPR enzyme]-C-terminus;
  • the N-terminal-[alkyladenine DNA glycosylase]-[linkage domain]-[adenosine deaminase]-[linkage domain]-[CRISPR enzyme]-C-terminal sequence may be configured.
  • the adenine base substituted protein is N-terminal-[adenosine deaminase]-[linking domain]-[CRISPR enzyme]-[alkyladenine DNA glycosylation]-C-terminus; N-terminus-[adenosine deaminase]-[CRISPR enzyme]-[linking domain]-[alkyladenine DNA glycosylase]-C-terminus; Alternatively, the N-terminal-[adenosine deaminase]-[linking domain]-[CRISPR enzyme]-[linking domain]-[alkyladenine DNA glycosylase]-C-terminal sequence may be configured.
  • the adenine base substituted protein is N-terminal-[CRISPR enzyme]-[linking domain]-[alkyladenine DNA glycosylase]-[adenosine deaminase]-C-terminus; N terminus-[CRISPR enzyme]-[alkyladenine DNA glycosylase]-[linking domain]-[adenosine deaminase]-C terminus;
  • the N-terminal-[CRISPR enzyme]-[linking domain]-[alkyladenine DNA glycosylase]-[linking domain]-[adenosine deaminase]-C-terminal sequence may be configured.
  • the adenine base-modified protein is N-terminal-[adenosine deaminase]-[linkage domain]-[alkyladenine DNA glycosylase]-[CRISPR enzyme]-C-terminus; N terminus-[adenosine deaminase]-[alkyladenine DNA glycosylase]-[linkage domain]-[CRISPR enzyme]-C terminus;
  • the N-terminal-[adenosine deaminase]-[linking domain]-[alkyladenine DNA glycosylase]-[linking domain]-[CRISPR enzyme]-C-terminal sequence may be configured.
  • a cytosine-substituted fusion protein may be provided.
  • a cytosine-substituted fusion protein or a nucleic acid encoding the same is a cytosine-substituted fusion protein or a nucleic acid encoding the same
  • the single base substitution fusion protein may be a cytosine substitution fusion protein that induces substitution of a cytosine included in one or more nucleotides in a target nucleic acid sequence with any base, or a nucleic acid encoding the same.
  • the cytosine base substitution protein may be configured in the order of N-terminal-[CRISPR enzyme]-[cytidine deaminase]-[uracil DNA glycosylase]-C-terminus.
  • the cytosine base substitution protein may be configured in the order of N-terminal-[uracil DNA glycosylation]-[CRISPR enzyme]-[cytidine deaminase]-C-terminus.
  • the cytosine base-substituted protein may be configured in the order of N-terminal-[uracil DNA glycosylase]-[cytidine deaminase]-[CRISPR enzyme]-C-terminus.
  • the cytosine base substitution protein may be configured in the order of N-terminus-[cytidine deaminase]-[CRISPR enzyme]-[uracil DNA glycosylase]-C-terminus.
  • the cytosine base substitution protein may be configured in the order of N-terminus-[CRISPR enzyme]-[uracil DNA glycosylase]-[cytidine deaminase]-C-terminus.
  • the cytosine base substitution protein may be configured in the order of N-terminus-[cytidine deaminase]-[uracil DNA glycosylase]-[CRISPR enzyme]-C-terminus.
  • the cytosine base-substituted protein may further include a linking domain.
  • the linking domain comprises a CRISPR enzyme and a cytidine deaminase; cytidine deaminase and uracil DNA glycosylase; and/or a domain operatively linking the CRISPR enzyme and uracil DNA glycosylase, and may be a domain linking the CRISPR enzyme, cytidine deaminase and uracil DNA glycosylase to activate their respective functions.
  • the linking domain may be an amino acid, peptide or polypeptide that does not affect the functional activity and/or structure of CRISPR enzyme, cytidine deaminase, and uracil DNA glycosylase.
  • the cytosine base substitution domain may include an N-terminal-[CRISPR enzyme]-[linking domain]-[cytidine deaminase]-[uracil DNA glycosylase]-C-terminus; N terminus-[CRISPR enzyme]-[cytidine deaminase]-[linkage domain]-[uracil DNA glycosylase]-C terminus;
  • the N-terminal-[CRISPR enzyme]-[linking domain]-[cytidine deaminase]-[linking domain]-[uracil DNA glycosylase]-C-terminal sequence may be configured.
  • the cytosine base substitution protein is N-terminal-[uracil DNA glycosylation]-[linking domain]-[CRISPR enzyme]-[cytidine deaminase]-C-terminus; N terminus-[uracil DNA glycosylase]-[CRISPR enzyme]-[linking domain]-[cytidine deaminase]-C terminus;
  • the N-terminal-[uracil DNA glycosylase]-[linkage domain]-[CRISPR enzyme]-[linkage domain]-[cytidine deaminase]-C-terminal sequence may be configured.
  • the cytosine base substitution protein is N-terminal-[uracil DNA glycosylation]-[linking domain]-[cytidine deaminase]-[CRISPR enzyme]-C-terminus; N-terminus-[uracil DNA glycosylase]-[cytidine deaminase]-[linking domain]-[CRISPR enzyme]-C-terminus; Alternatively, the N-terminal-[uracil DNA glycosylase]-[linkage domain]-[cytidine deaminase]-[linkage domain]-[CRISPR enzyme]-C-terminal sequence may be configured.
  • the cytosine base-substituted protein is N-terminal-[cytidine deaminase]-[linkage domain]-[CRISPR enzyme]-[uracil DNA glycosylase]-C-terminus; N terminus-[cytidine deaminase]-[CRISPR enzyme]-[linkage domain]-[uracil DNA glycosylase]-C terminus; Alternatively, the N-terminal-[cytidine deaminase]-[linkage domain]-[CRISPR enzyme]-[linkage domain]-[uracil DNA glycosylase]-C-terminal sequence may be configured.
  • the cytosine base substitution protein is an N-terminal-[CRISPR enzyme]-[linking domain]-[uracil DNA glycosylase]-[cytidine deaminase]-C-terminus; N terminus-[CRISPR enzyme]-[uracil DNA glycosylase]-[linking domain]-[cytidine deaminase]-C terminus; Alternatively, the N-terminal-[CRISPR enzyme]-[linking domain]-[uracil DNA glycosylase]-[linking domain]-[cytidine deaminase]-C-terminal sequence may be configured.
  • the cytosine base-modified protein is N-terminal-[cytidine deaminase]-[linkage domain]-[uracil DNA glycosylase]-[CRISPR enzyme]-C-terminus; N terminus-[cytidine deaminase]-[uracil DNA glycosylase]-[linking domain]-[CRISPR enzyme]-C terminus; Alternatively, the N-terminal-[cytidine deaminase]-[linkage domain]-[uracil DNA glycosylase]-[linkage domain]-[CRISPR enzyme]-C-terminal sequence may be configured.
  • One aspect of the single base substitution protein disclosed by the present specification is a single base substitution complex.
  • the single base substitution fusion protein may be a single base substitution complex that induces substitution of cytosine or adenine included in one or more nucleotides in the target nucleic acid sequence with any base.
  • the single base substitution complex may be characterized in that the CRISPR enzyme is linked to two or more binding domains.
  • any one of the two or more binding domains linked to the CRISPR enzyme is a pair with the binding domain linked to the (b) deaminase, and the other is a pair with the binding domain linked to the (c) DNA glycosylase.
  • the components (a) CRISPR enzyme, (b) deaminase, and (c) DNA glycosylase form a complex due to the bond between the pairs, thereby providing a single base substitution complex.
  • the CRISPR enzyme linked to the two or more binding domains may have the configuration of [binding domain] n -CRISPR enzyme (n may be an integer of 2 or more).
  • the GCN4 is an example of a binding domain linked to the CRISPR enzyme, and other types of binding domains may be linked.
  • the present invention is not limited thereto.
  • the CRISPR enzyme may be linked to 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10 or more binding domains.
  • the GCN4 is an example of a binding domain linked to the CRISPR enzyme, and other types of binding domains may be linked.
  • the present invention is not limited thereto.
  • the CRISPR enzyme may be linked to 1, 2, 3, 4, 5, 6, 7, 8, 9 or 10 or more binding domains at both C-terminus and N-terminus, respectively. have.
  • binding domain GCN4 of (a), the binding domain scFv of (b), and the binding domain scFv of (c) are examples and are not limited thereto. It may be substituted with adenosine deaminase instead of APOBEC, and may be substituted with alkyladenine DNA glycosylase instead of UNG.
  • a plurality of (b) and/or a plurality of (c) may be combined with the one (a).
  • the plurality means an integer of 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more.
  • the single base substitution complex provided in the present application is,
  • 34 (a), (b) and (c) may be provided by specifically binding between the binding domains in the configuration.
  • binding domain GCN4 of (a), the binding domain scFv of (b), and the binding domain scFv of (c) are examples and are not limited thereto. It may be substituted with adenosine deaminase instead of APOBEC, and may be substituted with alkyladenine DNA glycosylase instead of UNG.
  • a plurality of (b) and/or a plurality of (c) may be combined with the one (a).
  • the plurality means an integer of 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more.
  • the single base substitution complex may be characterized in that the deaminase is linked to two or more binding domains.
  • each of the two or more binding domains linked to the deaminase is a pair with the (a) binding domain linked to the CRISPR enzyme and (c) the binding domain linked to the DNA glycosylase.
  • the components (a) CRISPR enzyme, (b) deaminase, and (c) DNA glycosylase form a complex due to the bond between the pairs, thereby providing a single base substitution complex.
  • the single base substitution complex may be characterized in that the DNA glycosylase is linked to two or more binding domains.
  • each of the two or more binding domains linked to the DNA glycosylase is a pair with the (a) binding domain linked to the CRISPR enzyme and (b) the binding domain linked to the deaminase.
  • the components (a) CRISPR enzyme, (b) deaminase, and (c) DNA glycosylase form a complex due to the bond between the pairs, thereby providing a single base substitution complex.
  • the single base substitution complex may be characterized in that it exists in the form of a fusion protein in which the CRISPR enzyme is linked to two or more binding domains, and the deaminase and the DNA glycosylase are linked.
  • the fusion protein includes one or more binding domains.
  • any binding domain linked to the CRISPR enzyme is a pair with the binding domain of the fusion protein.
  • the single base substitution complex provided in the present application is,
  • binding domain GCN4 of (a) and the binding domain scFv of (b) are examples and are not limited thereto.
  • Adenosine deaminase or other types of cytidine deaminase may be substituted for APOBEC, and alkyladenine DNA glycosylase may be substituted for UNG.
  • a plurality of (b) may be coupled to one (a).
  • the plurality means an integer of 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more.
  • the single base substitution complex provided in the present application is,
  • binding domain GCN4 of (a) and the binding domain scFv of (c) are examples and are not limited thereto.
  • Adenosine deaminase or other types of cytidine deaminase may be substituted for APOBEC, and alkyladenine DNA glycosylase may be substituted for UNG.
  • a plurality of (b) may be coupled to one (a).
  • the plurality means an integer of 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more.
  • the single base substitution complex provided in the present application is,
  • binding domain GCN4 of (a) and the binding domain scFv of (b) are examples and are not limited thereto.
  • Adenosine deaminase or other types of cytidine deaminase may be substituted for APOBEC, and alkyladenine DNA glycosylase may be substituted for UNG.
  • a plurality of (b) may be coupled to one (a).
  • the plurality means an integer of 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more.
  • the single base substitution complex provided in the present application is,
  • binding domain GCN4 of (a) and the binding domain scFv of (b) are examples and are not limited thereto.
  • Adenosine deaminase or other types of cytidine deaminase may be substituted for APOBEC, and alkyladenine DNA glycosylase may be substituted for UNG.
  • a plurality of (b) may be coupled to one (a).
  • the plurality means an integer of 2, 3, 4, 5, 6, 7, 8, 9, or 10 or more.
  • the single base substitution complex may be characterized in that it exists in the form of a fusion protein in which the deaminase is linked to two or more binding domains, and the CRISPR enzyme and the DNA glycosylase are linked.
  • the fusion protein includes one or more binding domains.
  • any binding domain linked to the deaminase is a pair with the binding domain of the fusion protein.
  • the components (a) CRISPR enzyme, (b) deaminase, and (c) DNA glycosylase form a complex due to the bond between the pairs, thereby providing a single base substitution complex.
  • the single base substitution complex may exist in the form of a fusion protein in which the DNA glycosylase is linked to two or more binding domains, and the deaminase and the CRISPR enzyme are linked.
  • the fusion protein includes one or more binding domains.
  • any binding domain linked to the DNA glycosylase is a pair with the binding domain of the fusion protein.
  • the single base substitution complex comprises (i) a first fusion protein comprising two components selected from the CRISPR enzyme, the deaminase, and the DNA glycosylase and a first binding domain, and (ii) the selection and a second fusion protein comprising the other non-remaining configuration and a second binding domain, wherein the first binding domain and the second binding domain are a pair that interacts with each other, and at this time, the complex is formed by the pair It may be a single base substitution complex, characterized in that it forms.
  • the second fusion protein may further include a plurality of binding domains in addition to the second binding domain.
  • the single base substitution complex comprises (i) a first fusion protein comprising the deaminase, the DNA glycosylase and a first binding domain, and (ii) a CRISPR enzyme and a second binding domain
  • a first fusion protein comprising the deaminase, the DNA glycosylase and a first binding domain
  • a CRISPR enzyme and a second binding domain It may be a single base substitution complex, characterized in that it comprises a second fusion protein.
  • the second fusion protein may further include a plurality of binding domains in addition to the second binding domain.
  • the first binding domain may be a single chain variable fragment (scFv)
  • the second fusion protein may be a GCN4 peptide.
  • the scFv may provide a single base substitution complex through interaction with the GCN4 peptide.
  • the single base substitution complex comprises (i) a first fusion protein comprising the deaminase, CRISPR enzyme, and a first binding domain, and (ii) DNA glycosylase and a second binding domain
  • a first fusion protein comprising the deaminase, CRISPR enzyme, and a first binding domain
  • DNA glycosylase and a second binding domain It may be a single base substitution complex comprising a second fusion protein.
  • the second fusion protein may further include a plurality of binding domains in addition to the second binding domain.
  • the first binding domain may be a single chain variable fragment (scFv)
  • the second fusion protein may be a GCN4 peptide.
  • the scFv may provide a single base substitution complex through interaction with the GCN4 peptide.
  • the single base substitution complex comprises (i) a first fusion protein comprising the CRISPR enzyme, the DNA glycosylase and a first binding domain, and (ii) the deaminase and a second binding domain
  • a first fusion protein comprising the CRISPR enzyme, the DNA glycosylase and a first binding domain
  • the deaminase and a second binding domain It may be a single base substitution complex comprising a second fusion protein comprising
  • the second fusion protein may further include a plurality of binding domains in addition to the second binding domain.
  • the first binding domain may be a single chain variable fragment (scFv)
  • the second fusion protein may be a GCN4 peptide.
  • the scFv may provide a single base substitution complex through interaction with the GCN4 peptide.
  • any one of the CRISPR enzyme, the deaminase, and the DNA glycosylase is linked to a first binding domain and a second binding domain, and in this case, the first binding domain is another ) is a pair that interacts with the binding domain of, at this time, the second binding domain is a pair that interacts with the binding domain of the other constituent (the other), at this time, by the pairs to provide a single base substitution complex can do.
  • the CRISPR enzyme is linked to a first binding domain and a second binding domain, wherein the first binding domain is a pair that interacts with the binding domain of the deaminase, and the second binding domain is a pair that interacts with the binding domain of DNA glycosylase, and in this case, a single base substitution complex can be provided by the pair.
  • the deaminase is linked to a first binding domain and a second binding domain, wherein the first binding domain is a pair that interacts with the binding domain of the CRISPR enzyme, and the second binding domain is a pair that interacts with the binding domain of DNA glycosylase, and in this case, a single base substitution complex can be provided by the pair.
  • DNA glycosylase is linked to a first binding domain and a second binding domain, wherein the first binding domain is a pair that interacts with the binding domain of the deaminase, and the second The binding domain is a pair that interacts with the binding domain of the CRISPR enzyme, and in this case, a single base substitution complex may be provided by the pair.
  • the binding domain is one of FRB and FKBP dimerization domains; intein; one of the ERT and VPR domains; It may be one of GCN4 peptide and single chain variable fragment (scFv), or a domain forming a heterodimer.
  • the pair may be any one of the following sets:
  • a first domain and a second domain forming a heterodimer.
  • the present application may provide a cytosine substitution complex.
  • the deaminase is cytidine deaminase
  • the DNA glycosylase is uracil-DNA glycosylase or a variant thereof
  • the single base substitution The fusion protein may be a single base substitution complex that induces substitution of cytosine included in one or more nucleotides in the target nucleic acid sequence with any base.
  • the cytidine deaminase may be a single base substitution complex, characterized in that APOBEC, activation-induced cytidine deaminase (AID), or a variant thereof.
  • any one (one) of CRISPR enzyme, cytidine deaminase, and uracil DNA glycosylase is linked to a first binding domain and a second binding domain, and in this case, the first binding domain has a different configuration ( Another) is a pair that interacts with the binding domain, in this case, the second binding domain is a pair that interacts with the binding domain of the other constituent (the other),
  • the single base substitution complex by the pairs can provide
  • the CRISPR enzyme is linked to a first binding domain and a second binding domain, wherein the first binding domain is a pair that interacts with the binding domain of the deaminase, and the second binding domain is a pair that interacts with the binding domain of DNA glycosylase, and in this case, a single base substitution complex can be provided by the pair.
  • the single base substitution complex comprises (i) a first fusion protein comprising two components selected from among CRISPR enzyme, cytidine deaminase, and uracil DNA glycosylase and a first binding domain, and (ii) the selection and a second fusion protein comprising the other non-remaining configuration and a second binding domain, wherein the first binding domain and the second binding domain are a pair that interacts with each other, and at this time, the complex is formed by the pair It may be a single base substitution complex, characterized in that it forms.
  • the second fusion protein may further include a plurality of binding domains in addition to the second binding domain.
  • the pair may be any one of the following sets:
  • a first domain and a second domain forming a heterodimer.
  • the present application may provide an adenine substitution complex.
  • the deaminase is adenosine deaminase
  • the DNA glycosylase is an alkyladenine-DNA glycosylase or a variant thereof
  • the single base substitution fusion protein is one or more nucleotides in the target nucleic acid sequence. It may be a single-base substitution complex that induces substitution of adenine with any base.
  • the adeninecytidine deaminase may be a single base substitution complex, characterized in that it is TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 or a variant thereof.
  • any one (one) of the CRISPR enzyme, adenosine deaminase, and alkyladenine DNA glycosylation is linked to the first binding domain and the second binding domain, and in this case, the first binding domain has a different configuration ( Another) is a pair that interacts with the binding domain, in this case, the second binding domain is a pair that interacts with the binding domain of the other constituent (the other),
  • the single base substitution complex by the pairs can provide
  • the CRISPR enzyme is linked to a first binding domain and a second binding domain, wherein the first binding domain is a pair that interacts with the binding domain of the deaminase, and the second binding domain is a pair that interacts with the binding domain of DNA glycosylase, and in this case, a single base substitution complex can be provided by the pair.
  • the single base substitution complex comprises (i) a first fusion protein comprising two components selected from among CRISPR enzymes, adenosine deaminase, and alkyladenine DNA glycosylase and a first binding domain, and (ii) the selection and a second fusion protein comprising the other non-remaining configuration and a second binding domain, wherein the first binding domain and the second binding domain are a pair that interacts with each other, and at this time, the complex is formed by the pair It may be a single base substitution complex, characterized in that it forms.
  • the second fusion protein may further include a plurality of binding domains in addition to the second binding domain.
  • the pair may be any one of the following sets:
  • a first domain and a second domain forming a heterodimer.
  • composition for base substitution is a composition for base substitution and a method of using the same.
  • a single base substitution composition can be used to artificially modify the base of one or more nucleotides in a gene.
  • artificially modified or artificially engineered refers to a state that has been artificially modified, not the state as it is in nature.
  • the artificially modified state may be a modification that artificially causes a mutation in a wild-type gene.
  • a non-naturally artificially modified polymorphism-dependent gene may be used interchangeably with the term artificial polymorphism-dependent gene.
  • composition for modifying the base may further include a guide RNA or a nucleic acid encoding the same.
  • a guide RNA or a nucleic acid encoding the same and (b) a single nucleotide substitution fusion protein or a nucleic acid encoding the same, or a single nucleotide substitution complex, wherein the guide RNA is complementary to a target nucleic acid sequence and ,
  • the target nucleic acid sequence bound to the guide RNA is 15 to 25 bp
  • the single nucleotide substitution fusion protein or the single nucleotide substitution complex is present in a target region including the target nucleic acid sequence.
  • a single base substitution composition comprising inducing substitution of one or more cytosine or adenine with any base.
  • the base substitution composition may include a guide RNA or a nucleic acid encoding the same.
  • gRNA refers to an RNA capable of specifically targeting a gRNA-CRISPR enzyme complex, ie, a CRISPR complex, to a target gene or nucleic acid.
  • gRNA refers to a target gene or nucleic acid-specific RNA, and can guide the CRISPR enzyme to the target gene or nucleic acid by binding to the CRISPR enzyme.
  • the guide RNA is capable of complementary binding to a partial sequence of either a double strand of a target gene or a nucleic acid.
  • the partial sequence may refer to a target nucleic acid sequence.
  • the guide RNA may perform a function of inducing the guide RNA-CRISPR enzyme complex to a position having a specific nucleotide sequence of a target gene or nucleic acid.
  • the guide RNA refers to an RNA capable of specifically targeting a gRNA-CRISPR enzyme complex to a target gene, target region or target nucleic acid sequence, that is, the CRISPR complex.
  • the gRNA refers to a target gene or nucleic acid-specific RNA, and may be coupled to a CRISPR enzyme to guide the CRISPR enzyme to a target gene, target region, or target nucleic acid sequence.
  • Guide RNA includes single-stranded guide RNA (single RNA molecule; single gRNA; sgRNA); or double-stranded guide RNA (comprising more than one, typically two distinct RNA molecules).
  • the guide RNA includes a site complementary to the target sequence (hereinafter referred to as a guide site) and a site involved in forming a complex with the Cas protein (hereinafter referred to as a complex formation site).
  • the guide RNA interacts with the SpCas9 protein, and may be any one selected from SEQ ID NOs.48 to 81.
  • the guide RNA interacts with the CjCas9 protein, and may include any one selected from SEQ ID NOs.82 to 92.
  • the complex formation site may be determined according to the type of the microorganism derived from the Cas9 protein.
  • the complex formation site may include 5'-GUUUUAGUCCCUGAAAAGGGACUAAAAUAAAGAGUUUGCGGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3' (SEQ ID NO: 45), and in the case of a guide RNA interacting with CjCas9 protein, 5 '-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3' (SEQ ID NO: 46).
  • NGG N is A, T, C or G
  • NNNNRYAC SEQ ID NO: 47
  • the composition may include one or a plurality of guide RNAs.
  • the base substitution composition may include a single base substitution protein or a nucleic acid encoding the same.
  • the single base substitution protein is the same as described above.
  • composition for base modification may be in the form of a vector.
  • a “vector” is capable of delivering a gene sequence to a cell.
  • vector construct typically, “vector construct”, “expression vector”, and “gene transfer vector” refer to any nucleic acid construct capable of directing expression of a gene of interest and capable of delivering a gene sequence to a target cell.
  • vector transfer vector refer to any nucleic acid construct capable of directing expression of a gene of interest and capable of delivering a gene sequence to a target cell.
  • the term includes cloning, and integrating vectors as well as expression vehicles.
  • the vector may be a viral or non-viral vector (eg, a plasmid).
  • the vector may include one or more adjustment/control elements.
  • regulatory/control elements include promoters, enhancers, introns, polyadenylation signals, Kozak consensus sequences, internal ribosome entry sites (IRESs), splice acceptors and/or 2A sequence may be included.
  • the promoter may be a promoter recognized by RNA polymerase II.
  • the promoter may be a promoter recognized by RNA polymerase III.
  • the promoter may be an inducible promoter.
  • the promoter may be a subject-specific promoter.
  • the promoter may be a viral or non-viral promoter.
  • the promoter may use a suitable promoter according to the control region (ie, a guide RNA or a nucleic acid sequence encoding a CRISPR enzyme).
  • useful promoters for guide RNA may be H1, EF-1a, tRNA or U6 promoters.
  • a useful promoter for the CRISPR enzyme may be the CMV, EF-1a, EFS, MSCV, PGK or CAG promoter.
  • the vector may be a viral vector or a recombinant viral vector.
  • the virus may be a DNA virus or an RNA virus.
  • the DNA virus may be a double-stranded DNA (dsDNA) virus or a single-stranded DNA (ssDNA) virus.
  • dsDNA double-stranded DNA
  • ssDNA single-stranded DNA
  • the RNA virus may be a single-stranded RNA (ssRNA) virus.
  • ssRNA single-stranded RNA
  • the virus may be, but is not limited to, retrovirus, lentivirus, adenovirus, adeno-associated virus (AAV), vacciniavirus, poxvirus or herpes simplex virus.
  • a virus can infect a host (eg, a cell) to introduce a nucleic acid encoding the genetic information of the virus into the host or insert the nucleic acid encoding the genetic information into the genome of the host.
  • a guide RNA and/or CRISPR enzyme can be introduced into a subject using a virus having these characteristics.
  • the guide RNA and/or CRISPR enzyme introduced using a virus may be transiently expressed in a subject (eg, a cell).
  • the guide RNA and/or CRISPR enzyme introduced using a virus is administered in a subject (eg, a cell) for a long period of time (eg, 1 week, 2 weeks, 3 weeks, 1 month, 2 months, 3 months, 6 months). , 9 months, 1 year, 2 years, or permanently) may develop continuously.
  • the packaging capacity of the virus is at least 2 kb to 50 kb, which may vary depending on the virus type.
  • a viral vector including a guide RNA or a CRISPR enzyme alone may be designed, or a viral vector including both a guide RNA and a CRISPR enzyme may be designed.
  • a viral vector can be designed comprising a guide RNA, a CRISPR enzyme and additional components.
  • retroviral vectors have packaging capacity for foreign sequences of up to 6 to 10 kb, and are composed of cis-acting long terminal repeats (LTRs). Retroviral vectors insert a therapeutic gene into cells and provide permanent expression of the transgene.
  • LTRs long terminal repeats
  • adeno-associated viral vectors have very high transduction efficiency into various cells (muscle, brain, liver, lung, retina, ear, heart, blood vessel) regardless of cell division, are non-pathogenic, and contain most of the viral genome as therapeutic genes. Because it can be replaced by , it does not induce an immune response, so repeated administration is possible.
  • AAV is inserted into the chromosome of the target cell so that the therapeutic protein is stably expressed for a long period of time. It is useful, for example, for in vitro production of nucleic acids and peptides for use in transducing target nucleic acids of cells in vivo and ex vivo.
  • AAV is small in size and has a packaging capacity of 4.5 kb or less.
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; and an adenine base substituted protein.
  • the composition for base modification includes a guide RNA; and a vector comprising a nucleic acid encoding an adenine base-substituted protein.
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; and a vector comprising a nucleic acid encoding an adenine base-substituted protein.
  • the composition for base modification may include a vector including a nucleic acid encoding a guide RNA and a nucleic acid encoding an adenine base-substituted protein.
  • composition for base modification is N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-oxidethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl-N-(2-aminoethyl)-2-aminoethyl
  • the CRIPSR enzyme may be a wild-type CRIPSR enzyme or a CRIPSR enzyme variant.
  • the CRIPSR enzyme variant may be a nickase.
  • the adenosine deaminase may be TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 or a variant thereof.
  • the first binding domain may form a non-covalent bond with the second binding domain.
  • the first binding domain is one of FRB and FKBP dimerization domains; intein; one of the ERT and VPR domains; It may be one of GCN4 peptide and single chain variable fragment (scFv), or a domain forming a heterodimer.
  • the second binding domain is one of FRB and FKBP dimerization domains; intein; one of the ERT and VPR domains; It may be one of GCN4 peptide and single chain variable fragment (scFv), or a domain forming a heterodimer.
  • composition for modifying the base may further include one or more guide RNAs or nucleic acids encoding the same.
  • composition for base modification may be in the form of a guide RNA-CRISPR enzyme including a first binding domain-Adenosine deaminase complex including a second binding domain, that is, ribonucleoprotien (RNP).
  • RNP ribonucleoprotien
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; a vector comprising a nucleic acid encoding a CRISPR enzyme comprising a first binding domain; and a vector comprising a nucleic acid encoding adenosine deaminase comprising a second binding domain.
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; and a CRISPR enzyme comprising a first binding domain- adenosine deaminase complex comprising a second binding domain.
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; and a vector comprising a nucleic acid encoding a CRISPR enzyme comprising a first binding domain and a nucleic acid encoding adenosine deaminase comprising a second binding domain.
  • the composition for base modification comprises a vector comprising a nucleic acid encoding a CRISPR enzyme comprising a nucleic acid encoding a guide RNA and a first binding domain; and a vector comprising a nucleic acid encoding adenosine deaminase comprising a second binding domain.
  • the composition for base modification may include a vector comprising a nucleic acid encoding a CRISPR enzyme comprising a first binding domain; a vector comprising a nucleic acid encoding a guide RNA and a nucleic acid encoding adenosine deaminase comprising a second binding domain.
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; a CRISPR enzyme comprising a first binding domain; and a vector comprising a nucleic acid encoding adenosine deaminase comprising a second binding domain.
  • the composition for base modification includes a vector containing a nucleic acid encoding a guide RNA; a vector comprising a nucleic acid encoding a CRISPR enzyme comprising a first binding domain; and adenosine deaminase comprising a second binding domain.
  • the composition for base modification comprises a vector comprising a nucleic acid encoding a CRISPR enzyme comprising a nucleic acid encoding a guide RNA and a first binding domain; and adenosine deaminase comprising a second binding domain.
  • the composition for base modification includes a CRISPR enzyme comprising a first binding domain; a vector comprising a nucleic acid encoding a guide RNA and a nucleic acid encoding adenosine deaminase comprising a second binding domain.
  • the composition for base modification may be in the form of a nucleic acid-protein complex.
  • the nucleic acid-protein complex may be a guide RNA-adenine base-substituted protein complex.
  • the nucleic acid-protein complex may be a guide RNA-cytosine base-substituted protein complex.
  • the guide RNA-adenine base-substituted protein complex may be formed by non-covalent bonding between the guide RNA and the adenine base-substituted protein.
  • the guide RNA-cytosine base-substituted protein complex may be formed by non-covalent bonding between the guide RNA and the cytosine base-substituted protein.
  • composition for base modification may be in the form of a non-vector.
  • the non-vector may be naked DNA, DNA complex, or mRNA.
  • composition for base modification may be in the form of a vector.
  • the composition for base modification may include an adenine base-substituted protein including a CRISPR enzyme and adenosine deaminase or a nucleic acid encoding the same.
  • the CRIPSR enzyme may be a wild-type CRIPSR enzyme or a CRIPSR enzyme variant.
  • the CRIPSR enzyme variant may be a nickase.
  • the adenosine deaminase may be TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 or a variant thereof.
  • the adenine base substituted protein may be configured in the order of N-terminal-[CRISPR enzyme]-[adenosine deaminase]-C-terminal.
  • the adenine base-substituted protein may be configured in the order of N-terminal-[adenosine deaminase]-[CRISPR enzyme]-C-terminal.
  • the adenine base-substituted protein may further include a linking domain.
  • composition for modifying the base may further include one or more guide RNAs or nucleic acids encoding the same.
  • composition for base modification may be in the form of a guide RNA-adenine base-substituted protein complex, that is, ribonucleoprotien (RNP).
  • RNP ribonucleoprotien
  • One aspect of the invention disclosed by the present specification is the use of a single base substituted protein or a single base substituted composition comprising the same.
  • composition for base modification may be used to artificially modify the base of one or more nucleotides in a target gene.
  • the mutated part that is, the epitope having antibody resistance, so as not to identify the material expressed from the modified nucleic acid sequence Information on the epitope can be used to obtain
  • (ii) artificially modifying the base of one or more nucleotides of a desired region of a specific gene, and using the modified nucleic acid sequence to obtain information on whether the sensitivity of the substance expressed from the modified nucleic acid sequence to a specific drug is reduced or lost can be That is, it can be used to find or confirm a target gene that affects a specific drug or a region of a protein encoded by the target gene (hereinafter, referred to as a target protein).
  • a single base substituted protein or a composition for base substitution comprising the same may be used for epitope screening.
  • Epitope refers to a specific part of an antigen that allows the immune system to identify an antigen, such as an antibody, B cell, or T cell, and is also called an antigenic determinant. Protein epitopes are largely divided into conformational epitopes and linear epitopes according to the shape and mode of action with the antigen-binding site, which is a specific part of the antibody that identifies the epitope.
  • a conformational epitope consists of a discontinuous amino acid sequence of an antigen, ie, a protein. The conformational epitope reacts with the three-dimensional structure of the antigen-binding site of the antibody. Most epitopes are conformational epitopes.
  • the linear epitope reacts with the one-dimensional structure of the antigen-binding site of the antibody, and the amino acids constituting the linear epitope of the antigen are composed of a continuous amino acid sequence.
  • Epitope screening is to find or identify a specific part of an antigen that allows the immune system to identify the antigen, such as antibodies, B cells, and T cells, and also refers to antibodies, B cells, and T cells that are mutated to prevent the immune system from identifying the antigen. means a method, composition, kit, etc., for finding or identifying a specific part of an antigen.
  • the specific part of the antigen that has been mutated so that the immune system does not identify the antigen, such as the antibody, B cell, or T cell may be an epitope having antibody resistance.
  • a single base substitution protein or a composition for base substitution comprising the same artificially creates a single base polymorphism (SNP), and changes in vivo, that is, the generation, inhibition, increase or decrease of the expression of a specific factor, the generation or loss of a specific function, Alternatively, it may provide the position of a single nucleotide polymorphism involved in the presence or absence of a disease or a difference in the reactivity of an external drug or compound, for example, a sequence available as an epitope and whether resistance to the drug is induced.
  • SNP single base polymorphism
  • single base substitution proteins can be used to induce artificial single base polymorphisms in the genome.
  • the artificial single nucleotide polymorphism may cause point mutation.
  • Point mutation is a mutation that occurs when one nucleotide is altered. Point mutations include missense mutations, nonsense mutations, and silence mutations.
  • a missense mutation refers to a case in which one or more modified nucleotides cause a modified codon to encode a different amino acid.
  • a nonsense mutation refers to a case in which a codon mutated due to one or more modified nucleotides is a stop codon.
  • Silent mutation refers to a case in which a codon mutated by one or more modified nucleotides encodes the same amino acid as the unmutated codon.
  • the nucleotide sequence A may be substituted with another nucleotide sequence such as C, T, G, and thus may be changed to a codon encoding another amino acid. That is, a missense mutation may be induced.
  • A when A is substituted with C, leucine can be replaced with glycine.
  • nucleotide sequence A may be substituted with another nucleotide sequence such as C, T, G, and thus may be changed to a codon encoding the same amino acid. That is, silent mutations can be induced.
  • A when A is substituted with C, it can have codons encoding the same proline.
  • A when A is substituted with another nucleotide sequence such as C, T, G to generate any one of TAG, TGC, and TAA, it may have a stop codon of any one of UAA, UAG, and UGA. That is, nonsense mutations can be induced.
  • the single base substitution protein may induce point mutation by inducing or generating artificial substitutions in bases of one or more nucleotides in a gene.
  • composition for base substitution may induce point mutation by inducing or generating artificial substitution of bases of one or more nucleotides in a gene.
  • a protein encoded by a point mutation generated by a single base substitution protein or a composition for base substitution comprising the same may be a protein variant in which at least one amino acid sequence is changed.
  • the protein encoded by the generated point mutation has at least one amino acid sequence change from that of wild-type EGFR. It may be an EGFR variant.
  • One or more amino acids that have been altered may be changed to amino acids with similar properties.
  • the hydrophobic amino acid may be changed to another hydrophobic amino acid.
  • the hydrophobic amino acid is one of glycine, alanine, valine, isoleucine, leucine, methionine, phenylalanine, tyrosine or tryptophan.
  • the basic amino acid may be changed to another basic amino acid.
  • the basic amino acid is either arginine or histidine.
  • the acidic amino acid can be changed to another acidic amino acid.
  • the acidic amino acid is either glutamic acid or aspartic acid.
  • the polar amino acid may be changed to another polar amino acid.
  • the polar amino acid is one of serine, threonine, asparagine or glutamine.
  • the one or more amino acids that are altered may be changed to amino acids with different properties.
  • the amino acid may be changed from a hydrophobic amino acid to a polar amino acid.
  • the amino acid may be changed from a hydrophobic amino acid to an acidic amino acid.
  • the amino acid may be changed from a hydrophobic amino acid to a basic amino acid.
  • the polar amino acid may be changed to a hydrophobic amino acid.
  • the acidic amino acid may be changed to a basic amino acid.
  • the basic amino acid may be changed to a samsung amino acid.
  • the three-dimensional protein structure may be modified. This is that when any one or more amino acids in the amino acid sequence are changed to an amino acid sequence of a different nature, the binding force between the amino acid sequences is changed, and the three-dimensional structure may be changed. If the three-dimensional structure is changed, the three-dimensional structure epitope may be modified.
  • the modification can be induced by using the single base substituted protein provided in the present application or a composition comprising the same.
  • the three-dimensional structure of the ATM variant encoded by the generated point mutation may be partially changed. and, thereby, the conformational epitope may be modified.
  • the modification can be induced by using the single base substituted protein provided in the present application or a composition comprising the same.
  • Genes containing artificial single-nucleotide polymorphisms can control the amount of protein synthesized.
  • the amount of mRNA transcription of the gene including the artificial single nucleotide polymorphism may be increased or decreased. This may increase or decrease the amount of protein synthesis.
  • the amount of protein synthesized from the gene containing the single nucleotide polymorphism may be increased or decreased.
  • An artificial single-nucleotide polymorphism in a gene can modulate the activity of a protein.
  • the one or more artificial single nucleotide polymorphisms may promote and/or decrease protein activity.
  • an artificial single-nucleotide polymorphism when included in the gene encoding the nuclear membrane receptor, it activates all factors or mechanisms (phosphorylation, acetylation, etc.) involved in the process of ligand recognition and binding to and signaling, or can lower it
  • the function of the enzyme may promote or decrease the degree of acetylation of a target factor.
  • the original function of the protein may be added and/or inhibited by one or more artificial single nucleotide polymorphisms.
  • an artificial single base polymorphism is included in the gene encoding the nuclear membrane receptor, the ability to recognize and/or bind ligand may be inhibited.
  • an artificial single nucleotide polymorphism when included in a gene encoding a nuclear membrane receptor, some of the functions of binding to a ligand and signaling to a downstream factor may be inhibited.
  • the epitope screening method comprises:
  • the cell contains a target nucleic acid sequence -;
  • the epitope screening method comprises:
  • the cell contains a target nucleic acid sequence -;
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the epitope screening method comprises:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the epitope screening method comprises:
  • the epitope screening method comprises:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the guide RNA library may be a set of one or more guide RNAs capable of complementary binding to some nucleic acid sequences of the target sequence.
  • each cell may contain different guide RNAs.
  • each cell may contain the same guide RNA.
  • the guide RNA-related description is the same as described above.
  • the single base substituted protein may be an adenine substituted protein or a cytosine substituted protein.
  • the single base-substituted protein, the adenine-substituted protein, and the cytosine-substituted protein-related description are the same as those described above.
  • the introduction may be performed by one or more methods selected from electroporation, liposomes, plasmids, viral vectors, nanoparticles, and protein translocation domain (PTD) fusion protein methods.
  • electroporation liposomes
  • plasmids plasmids
  • viral vectors viral vectors
  • nanoparticles and protein translocation domain (PTD) fusion protein methods.
  • PTD protein translocation domain
  • the antibody to be treated above may be an antibody that identifies a protein encoded by a target gene (hereinafter, referred to as a target protein), and may be an antibody capable of reacting with an epitope of the target protein.
  • a target protein a protein encoded by a target gene
  • the surviving cells may be cells that do not react with the above-treated antibody.
  • the cells isolated above may be cells containing at least one or more nucleotide modifications in the target gene.
  • the modification of the one or more nucleotides may be one or more artificial single nucleotide polymorphisms (SNPs) occurring in the target gene.
  • SNPs single nucleotide polymorphisms
  • the one or more artificial single nucleotide polymorphisms may induce point mutations.
  • modifications of at least one or more nucleotides present in the target gene that is, one or more artificial single-nucleotide polymorphisms may be identified. Through this, the desired information can be obtained.
  • the identified modification of at least one or more nucleotides may be a nucleic acid sequence encoding an epitope.
  • a single base substitution protein or a composition for base substitution comprising the same may be used for screening a drug resistance gene or a drug resistance protein.
  • Drug resistance screening may provide information on a region of a target gene or protein encoded by the target gene (hereinafter, referred to as a target protein) that affects the decrease or loss of sensitivity to a specific drug.
  • a target protein a target gene or protein encoded by the target gene
  • the one region can be found or confirmed by using the single base substitution protein provided in the present application or a composition comprising the same.
  • the present application provides a method for screening a drug resistance gene or a drug resistance protein.
  • a method for screening a drug resistance gene or a drug resistance protein will be described as an example of the screening method.
  • a guide RNA capable of complementary binding to a region of the target gene is prepared.
  • a guide RNA capable of complementary binding to an exon region in a target gene is prepared.
  • the prepared guide RNA is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50 , 60, 70, 80, 90, 100, 200, 500, 1000, 2000 or 3000 or more.
  • the prepared plurality of guide RNAs may complementarily bind to an exon region in the target gene.
  • the guide RNA is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 of the exon region in the target gene. 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 or and a site capable of complementary binding to a nucleotide sequence corresponding to 30 or more regions.
  • the cell may be transfected with a vector encoding the prepared sgRNA library.
  • the cell may express one or more guide RNAs encoded in the sgRNA library.
  • a single nucleotide substitution protein or a nucleic acid encoding the same is introduced into a transformed cell capable of expressing one or more guide RNAs encoded in the sgRNA library.
  • the single base substitution protein may induce substitution of at least one base in the target region with any base.
  • the single base substitution protein may induce the generation of at least one SNP in the target gene.
  • the single nucleotide substitution protein may induce the generation of at least one SNP in the target region.
  • the introduced single nucleotide substituted protein is a cytidine substituted protein
  • at least one cytosine in the target region may be substituted with any base.
  • the introduced single base-substituted protein is an adenine-substituted protein
  • at least one adenine in the target region may be substituted with any base.
  • the method of the present application may also be performed with the following steps.
  • the single base substituted protein and the guide RNA are introduced into the cell.
  • the single nucleotide substitution protein and the guide RNA may be introduced in the form of an RNP complex (ribonucleoprotein complex) or may be introduced in the form of a nucleic acid encoding them.
  • the transformed cells are treated with substances that can be used as drugs or therapeutic agents, such as antibiotics, anticancer agents, or antibodies.
  • the treated drug or therapeutic agent may specifically bind or react with a peptide, polypeptide or protein expressed from the target gene.
  • the treated drug or therapeutic agent may decrease or lose the activity or function of a peptide, polypeptide or protein expressed from the target gene.
  • the treated drug or therapeutic agent may enhance or increase the activity or function of a peptide, polypeptide or protein expressed from the target gene.
  • the transformed cells may be killed by the drug or therapeutic agent.
  • the transformed cells can survive despite treatment with the drug or therapeutic agent.
  • surviving cells can be isolated, selected, or obtained.
  • the surviving cell may be one in which at least one base in the target region of the target gene is substituted with any base by at least one guide RNA and a single base substitution protein. Cells in which the base in the target gene is substituted with any base by the monobasic substitution protein may have resistance to the treated drug or therapeutic agent.
  • the peptide, polypeptide or protein expressed from the target gene of the surviving cell may have resistance to the drug or therapeutic agent.
  • the drug resistance gene or drug resistance protein screening method comprises:
  • the drug resistance gene or drug resistance protein screening method comprises:
  • the drug resistance gene or drug resistance protein screening method comprises:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the drug resistance gene or drug resistance protein screening method comprises:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the drug resistance gene or drug resistance protein screening method in another embodiment, the drug resistance gene or drug resistance protein screening method,
  • the drug resistance gene or drug resistance protein screening method in another embodiment, the drug resistance gene or drug resistance protein screening method,
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the guide RNA library may be a set of one or more guide RNAs capable of complementary binding to some nucleic acid sequences of the target sequence.
  • each cell may contain different guide RNAs.
  • each cell may contain the same guide RNA.
  • the guide RNA-related description is the same as described above.
  • the single base substituted protein may be an adenine substituted protein or a cytosine substituted protein.
  • the single base-substituted protein, the adenine-substituted protein, and the cytosine-substituted protein-related description are the same as those described above.
  • the introduction may be performed by one or more methods selected from electroporation, liposomes, plasmids, viral vectors, nanoparticles, and protein translocation domain (PTD) fusion protein methods.
  • electroporation liposomes
  • plasmids plasmids
  • viral vectors viral vectors
  • nanoparticles and protein translocation domain (PTD) fusion protein methods.
  • PTD protein translocation domain
  • the drug to be treated above may be a substance that inhibits or inhibits the activity or function of a protein encoded by a target gene (hereinafter, referred to as a target protein).
  • the material may be a biological material (RNA, DNA, protein, peptide, antibody, etc.) or a non-biological material (compound, etc.).
  • the drug to be treated above may be a substance that promotes or increases the activity or function of a protein encoded by a target gene (hereinafter, referred to as a target protein).
  • the material may be a biological material (RNA, DNA, protein, peptide, antibody, etc.) or a non-biological material (compound, etc.).
  • the surviving cells may be cells in which the activity and function of the target protein are not changed by the above-treated drug, that is, have drug resistance.
  • the cells isolated above may be cells containing at least one or more nucleotide modifications in the target gene.
  • the modification of the one or more nucleotides may be one or more artificial single nucleotide polymorphisms (SNPs) occurring in the target gene.
  • SNPs single nucleotide polymorphisms
  • the one or more artificial single nucleotide polymorphisms may induce point mutations.
  • modifications of at least one or more nucleotides present in the target gene that is, one or more artificial single-nucleotide polymorphisms may be identified. Through this, the desired information can be obtained.
  • the identified modification of at least one or more nucleotides may be a nucleic acid sequence encoding a region of a protein that affects drug resistance.
  • the drug to be treated above may be an anticancer agent.
  • anticancer drugs it is not limited to anticancer drugs, and includes substances or therapeutic agents used to treat all known diseases or disorders.
  • the drug inhibits epidermal growth factor receptor (EGFR) to inhibit the growth of cancer cells, or inhibits angiogenesis to cancer cells by blocking vascular endothelial growth factor (VEGF)
  • EGFR epidermal growth factor receptor
  • VEGF vascular endothelial growth factor
  • mechanisms such as inhibition of anaplastic lymphoma kinase may be used.
  • the SNP of interest may be a drug resistance mutation screening method, including that it is related to the structure or function of a protein expressed from the target gene.
  • the target gene may be an EGFR gene, a VEGF gene, or an anaplastic lymphoma kinase gene.
  • the present invention is not limited thereto.
  • the treatment drug is cisplatin (cisplatin), carboplatim (carboplatin), vinorelbine (vinorelbine), paclitaxel (paclitaxel), docetaxel (docetaxel, gemcitabine (gemcitabine), pemetrexed (pemetrexed), iressa, tarceva, giotrif, tagrisso, Xalkori, zykadia, alecensa (alectinib), alunburik (brigatinib), avastin (bevacizumab) , avastin (bevacizumab), keytruda (pembrolizumab), opdivo (nivolumab), atezolizumab, imfinzi (durvalumab), or Osimertinib, but is not limited thereto.
  • the screening method for an EGFR mutant gene having resistance to Osimertinib may be performed as follows.
  • a method for screening a drug resistance mutation artificially inducing a SNP on the EGFR gene by introducing a single base substitution composition into a cell comprising an EGFR gene, treating the cell with a drug (treating), Selecting surviving cells containing the SNP of interest (selecting), and analyzing the selected cells to obtain information about the SNP of interest (obtaining), wherein the SNP of interest is the It may be a method for screening drug resistance mutations, including those related to the structure or function of EGFR.
  • the drug to be treated may be Osimertinib. However, it may be any substance that inhibits or loses the function of EGFR without being limited thereto.
  • the single base substitution composition is artificial on the EGFR gene by introducing a single base substitution composition comprising C797S sgRNA1 and/or C797S sgRNA2 into a cell containing the EGFR gene.
  • information on the desired SNP by inducing (inducing) the SNP, treating the cell with a drug (treating), selecting surviving cells containing the desired SNP, and analyzing the selected cell ) may be obtained (obtaining), and in this case, the desired SNP may be a drug resistance mutation screening method, including that it is related to the structure or function of the EGFR.
  • the drug to be treated may be Osimertinib. However, it may be any substance that inhibits or loses the function of EGFR without being limited thereto.
  • the EGFR region having resistance to Osimertinib was identified. It was confirmed that the EGFR region resistant to Osimertinib was SNP induced by the introduced single base substitution composition or single base substitution protein.
  • the present application may provide a method for obtaining EGFR resistance SNP information:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • a single base substituted protein or a composition for base modification comprising the same may be used for drug sensitization screening.
  • Drug sensitization or drug sensitization refers to a state in which a person becomes hypersensitive to a specific drug, and the sensitivity to a specific drug is increased. Conversely, “desensitization” refers to a state in which sensitivity to a particular drug is lost, and desensitization includes a state in which resistance to a particular drug has developed.
  • Drug sensitization screening refers to a method, composition, kit, etc. for finding or identifying a region of a target gene or protein encoded by the target gene (hereinafter, referred to as a target protein) that affects the increase in sensitivity to a specific drug.
  • the drug sensitization screening method comprises:
  • the drug sensitization screening method comprises:
  • the cell contains a target nucleic acid sequence -;
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the drug sensitization screening method comprises:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the drug sensitization screening method comprises:
  • the drug sensitization screening method comprises:
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the guide RNA library may be a set of one or more guide RNAs capable of complementary binding to some nucleic acid sequences of the target sequence.
  • each cell may contain different guide RNAs.
  • each cell may contain the same guide RNA.
  • the guide RNA-related description is the same as described above.
  • the single base substituted protein may be an adenine substituted protein or a cytosine substituted protein.
  • the single base-substituted protein, the adenine-substituted protein, and the cytosine-substituted protein-related description are the same as those described above.
  • the introduction may be performed by one or more methods selected from electroporation, liposomes, plasmids, viral vectors, nanoparticles, and protein translocation domain (PTD) fusion protein methods.
  • electroporation liposomes
  • plasmids plasmids
  • viral vectors viral vectors
  • nanoparticles and protein translocation domain (PTD) fusion protein methods.
  • PTD protein translocation domain
  • the drug to be treated above may be a substance that inhibits or inhibits the activity or function of a protein encoded by a target gene (hereinafter, referred to as a target protein).
  • the material may be a biological material (RNA, DNA, protein, peptide, antibody, etc.) or a non-biological material (compound, etc.).
  • the drug to be treated above may be a substance that promotes or increases the activity or function of the target protein.
  • the material may be a biological material (RNA, DNA, protein, peptide, antibody, etc.) or a non-biological material (compound, etc.).
  • the cells isolated above may be cells in which the activity and function of the target protein are remarkably changed by the drug treated in c), that is, the drug sensitivity is increased.
  • the cells with increased drug sensitivity may be cells that survived drug treatment.
  • the cells isolated above may be cells containing at least one or more nucleotide modifications in the target gene.
  • the modification of the one or more nucleotides may be one or more artificial single nucleotide polymorphisms (SNPs) occurring in the target gene.
  • SNPs single nucleotide polymorphisms
  • the one or more artificial single nucleotide polymorphisms may induce point mutations.
  • modifications of at least one or more nucleotides present in the target gene that is, one or more artificial single-nucleotide polymorphisms may be identified. Through this, the desired information can be obtained.
  • the identified modification of at least one or more nucleotides may be a nucleic acid sequence encoding a region of a protein that affects drug sensitivity increase.
  • a single base substitution protein or a composition for modifying a base comprising the same may be used for screening a virus resistance gene or a virus resistance protein.
  • the virus resistance gene or virus resistance protein screening method in one embodiment, the virus resistance gene or virus resistance protein screening method,
  • the virus resistance gene or virus resistance protein screening method in one embodiment, the virus resistance gene or virus resistance protein screening method,
  • the cell contains a target nucleic acid sequence -;
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the virus resistance gene or virus resistance protein screening method in one embodiment, the virus resistance gene or virus resistance protein screening method,
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • virus resistance gene or virus resistance protein screening method in another embodiment, the virus resistance gene or virus resistance protein screening method,
  • virus resistance gene or virus resistance protein screening method in another embodiment, the virus resistance gene or virus resistance protein screening method,
  • the target SNP may be related to the structure or function of the protein expressed from the target gene.
  • the guide RNA library may be a set of one or more guide RNAs capable of complementary binding to some nucleic acid sequences of the target sequence.
  • each cell may contain different guide RNAs.
  • each cell may contain the same guide RNA.
  • the guide RNA-related description is the same as described above.
  • the single base substituted protein may be an adenine substituted protein or a cytosine substituted protein.
  • the single base-substituted protein, the adenine-substituted protein, and the cytosine-substituted protein-related description are the same as those described above.
  • the introduction may be performed by one or more methods selected from electroporation, liposomes, plasmids, viral vectors, nanoparticles, and protein translocation domain (PTD) fusion protein methods.
  • electroporation liposomes
  • plasmids plasmids
  • viral vectors viral vectors
  • nanoparticles and protein translocation domain (PTD) fusion protein methods.
  • PTD protein translocation domain
  • the virus treated above may be introduced into a cell by interacting with a protein encoded by a target gene (hereinafter, referred to as a target protein).
  • a target protein a protein encoded by a target gene
  • the surviving cells may be cells that do not interact with the virus treated in c), ie, have virus resistance.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Toxicology (AREA)
  • Cell Biology (AREA)
  • Analytical Chemistry (AREA)
  • Mycology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • General Preparation And Processing Of Foods (AREA)
  • Seasonings (AREA)

Abstract

본 출원은 단일염기 치환 단백질 및 이를 포함하는 조성물 및 이의 용도에 대한 것이다.

Description

단일염기 치환 단백질 및 이를 포함하는 조성물
이에 본 출원은 CRISPR 효소, 디아미네이즈 및 DNA 글리코실레이즈를 이용한 단일염기 치환 단백질을 이용하여 시토신(C)이나 아데닌(A)을 임의의 염기로 치환하는 기술에 대한 것이다.
CRISPR 효소가 연결된 디아미나아제(CRISPR enzyme-linked deaminase)는 점 돌연변이가 일어난 유전자 부위를 교정하여 유전적 장애를 치료하거나, 인간 또는 진핵 세포의 유전자 내 목적하는 단일 뉴클레오타이드 변이(SNP)를 유도하는데 이용되어왔다.
현재 보고된 CRISPR 효소가 연결된 디아미나아제는
1) (i) S. pyogenes에서 유래된 촉매적으로 결핍된 Cas9 (catalytically-deficient Cas9; dCas9) 또는 D10A Cas9니케이즈 (nCas9)와, (ii) 래트의 시티딘 디아미나아제인 rAPOBEC1를 포함하는 베이스 에디터 (Base Editors; BEs);
2) (i) dCas9 또는 nCas9와 (ii) 바다칠성장어(sea lamprey)의 activation-induced cytidine deaminase (AID) ortholog인 PmCDA1 또는 인간 AID를 포함하는 Target-AID;
3) MS2-결합 단백질에 융합된 과활성화된 AID 변이체를 모집하기 위해 MS2 RNA 헤어핀에 연결된 sgRNAs와 dCas9를 포함하는 CRISPR-X; 및
4) 징크-핑거 단백질 또는 transcription activator-like effectors (TALEs)가 시티딘 디아미나제에 융합된 것이 있다.
종래의 DNA 글리코실레이즈와 함께 이용된 CRISPR 효소가 연결된 디아미나아제는 뉴클레오타이드 내 시토신(C)을 티민(T)로만, 또는 아데닌(A)을 구아닌(G)으로만 치환시킬 수 있다. 일 예로, Cas9, 시티딘 디아미네이즈, 및 우라실 DNA 글리코실레이즈 억제제(Uracil DNA glycosylase inhibitor(UGI))가 융합된 물질은, 시토신(C)을 티민(T)으로 치환하는데 이용된다. 이는 우라실(U)이 DNA 글리코실레이즈에 의해 우라실이 제거되지 못하도록 유도하는 기작을 이용하여 티민(T)으로 치환되도록 한다. 이와 같은 궤에서, 최근 시티딘 디아니메이즈 대신 아데노신 디아미네이즈(또는 아데노신 디아미네이즈)를 이용하면 아데닌(A)를 구아닌(G)으로만 치환시킬 수 있음이 보고되었다.
이에 본 출원의 발명자는 CRISPR 효소, 디아미네이즈 및 DNA 글리코실레이즈를 이용한 단일염기 치환 단백질을 개발하여 시토신(C)이나 아데닌(A)을 임의의 염기로 치환하고자 한다. 이러한 기술의 개발은 돌연변이에 의한 유전자 질병 규명, SNP에 의한 질병 감수성에 영향을 주거나, 약물에 대한 내성을 가지는 핵산서열을 분석하여 약물 개발 및 치료제 등에 이용될 수 있으며, 이는 향후 약물 개발 및 치료 효과를 향상시키는데 더욱 유용할 것이다.
종래의 CRISPR 효소가 연결된 디아미네이즈는 시토신(C)이나 아데닌(A)을 특정 염기(A 또는 G)로만 변경 가능하다는 한계를 가지고 있다. 이러한 한계로 인하여 돌연변이에 의한 유전자 질병 규명, SNP에 의한 질병 감수성, 관련 치료제 개발 등의 연구 범위가 제한된다.
따라서, 시토신(C)이나 아데닌(A)을 특정한 염기가 아닌, 임의의 염기(A, T, C, G, U)로 치환할 수있는 수단의 개발이 절실히 요구된다.
본 출원을 통하여 단일염기 치환 단백질 또는 단일염기 치환 복합체, 또는 이를 포함하는 단일염기 치환 조성물 및 이의 용도를 제공하고자 한다.
본 출원을 통하여 상기 단일염기 치환 단백질을 암호화하는 핵산 서열 또는 이를 포함하는 벡터를 제공하고자 한다.
본 출원을 통하여 단일염기 치환 방법을 제공하고자 한다.
본 출원을 통하여 상기 단일염기 치환 단백질 또는 상기 단일염기 치환 복합체, 또는 이를 포함하는 단일염기 치환 조성물의 다양한 용도를 제공하고자 한다.
본 출원을 통하여 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공한다.
본 출원을 통하여 단일염기 치환 융합단백질을 암호화하는 핵산을 포함하는 벡터를 제공한다.
본 출원을 통하여 단일염기 치환 복합체를 제공한다.
본 출원을 통하여 단일염기 치환 조성물을 제공한다.
본 출원을 통하여 단일염기 치환 방법을 제공한다.
본 출원에서 제공하는 단일염기 치환 융합단백질, 단일염기 치환 복합체, 또는 단일염기 치환 조성물을 이용하여 에피토프 스크리닝, 약물 내성 유전자 또는 단백질 스크리닝, 약물감작 스크리닝, 또는 바이러스 내성 유전자 또는 단백질 스크리닝 용도를 제공한다.
본 출원을 통하여 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산으로서, (a) CRISPR 효소 또는 이의 변이체, (b) 디아미네이즈(deaminase), 및 (c) DNA 글리코실레이즈(DNA glycosylase) 또는 이의 변이체를 포함하고, 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 염기로의 치환을 유도하는, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공한다.
본 출원을 통하여 (i) N말단-[CRISPR 효소]-[디아미네이즈]-[DNA 글리코실레이즈]-C말단; (ii) N말단-[CRISPR 효소]-[DNA 글리코실레이즈]-[디아미네이즈]-C말단; (iii) N말단-[디아미네이즈]-[CRISPR 효소]-[DNA 글리코실레이즈]-C말단; (iv) N말단-[디아미네이즈]-[DNA 글리코실레이즈]-[CRISPR 효소]-C말단; (v) N말단-[DNA 글리코실레이즈]-[CRISPR 효소]-[디아미네이즈]-C말단; 및 (vi) N말단-[DNA 글리코실레이즈]-[디아미네이즈]-[CRISPR 효소]-C말단 중 어느 하나의 구성을 가지는 것을 특징으로 하는, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공한다.
본 출원을 통하여 단일염기 치환 복합체로서, (a) CRISPR 효소 또는 이의 변이체; (b) 디아미네이즈(deaminase); (c) DNA 글리코실레이즈(DNA glycosylase); 및 (d) 2 이상의 결합도메인을 포함하고, 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 염기로의 치환을 유도하는, 단일염기 치환 복합체를 제공한다.
본 출원을 통하여 상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈는 각각 하나 이상의 결합도메인에 연결되고, 이 때, 상기 CRISPR 효소, 디아미네이즈, 및 상기 DNA 글리코실레이즈는 상기 결합도메인들 간의 상호작용을 통해서 복합체를 형성함을 특징으로 하는, 단일염기 치환 복합체를 제공한다.
본 출원을 통하여 상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈 중 어느 하나(one)는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인 및 다른 구성(another)의 결합도메인은 상호작용을 하는 페어이고, 및 상기 제2 결합도메인 및 나머지 구성(the other)의 결합도메인은 상호작용을 하는 페어이며, 이 때, 상기 페어들에 의하여 복합체를 형성함을 특징으로 하는, 단일염기 치환 복합체를 제공한다.
본 출원을 통하여 (i) 상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈 중 선택된 두 개의 구성과 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) 상기 선택되지 않은 나머지 하나의 구성과 제2 결합도메인을 포함하는 제2 융합단백질을 포함하고, 이 때, 제1 결합도메인 및 제2 결합도메인은 상호작용하는 페어이며, 이 때, 상기 페어에 의하여 복합체를 형성함,을 특징으로 하는, 단일염기 치환 복합체를 제공한다.
본 출원을 통하여 (i) 상기 디아미네이즈, 상기 DNA 글리코실레이즈 및 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) CRISPR 효소 및 제2 결합도메인을 포함하는 제2 융합단백질을 포함함을 특징으로 하는, 단일염기 치환 복합체를 제공한다.
이 때, 상기 제1 결합도메인은 single chain variable fragment (scFv)이고, 상기 제2 융합단백질은 적어도 하나 이상의 결합도메인을 더 포함하고, 이 때, 상기 더 포함되는 결합도메인은 GCN4 peptide임 -; 이 때, 2개 이상의 제1 융합단백질은 상기 GCN4 peptide 중 어느 하나와 각각 상호작용을 통해서 복합체를 형성함을 특징으로 하는, 단일염기 치환 복합체를 제공할 수 있다.
본 출원을 통하여 단일염기 치환 조성물로서, (a) 가이드 RNA 또는 이를 암호화하는 핵산, 및 (b) i) 제1 항의 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산, 또는 ii) 제13 항의 단일염기 치환 복합체, - 이 때, 상기 가이드 RNA는 타겟 핵산서열 과 상보적으로 결합하고, 이 때, 상기 가이드 RNA와 결합되는 타겟 핵산서열은 15 내지 25bp이고, 이 때, 상기 단일염기 치환 융합단백질 또는 상기 단일염기 치환 복합체는 상기 타겟 핵산서열을 포함하는 타겟 영역(region) 내에 존재하는 하나 이상의 시토신 또는 아데닌의 임의의 염기로의 치환을 유도함 -;을 포함하는, 단일염기 치환 조성물을 제공할 수 있다.
본 출원을 통하여 1 이상의 벡터를 포함하는 것을 특징으로 하는 단일염기 치환 조성물을 제공할 수 있다.
본 출원을 통하여 단일염기 치환 방법으로서, in vitro 또는 ex vivo 상에서 타겟 핵산서열을 포함하는 타겟 영역(region)에 (i) 및 (ii)를 접촉함, (i) 가이드 RNA, 및 (ii) 상기 제1 항 단일염기 치환 융합단백질, 또는 상기 제12 항의 단일염기 치환 복합체, -이 때, 상기 가이드 RNA는 타겟 핵산서열에 상보적으로 결합하고, 이 때, 상기 가이드 RNA와 결합되는 타겟 핵산서열은 15 내지 25bp이고, 이 때, 상기 단일염기 치환 융합단백질 또는 상기 단일염기 치환 복합체는 상기 타겟 핵산서열을 포함하는 타겟 영역(region) 내에 존재하는 하나 이상의 시토신 또는 아데닌의 임의의 염기로의 치환을 유도함 -; 을 포함하는, 단일염기 치환 방법을 제공할 수 있다.
이 때, 상기 디아미네이즈는 시티딘 디아미네이즈(cytidine deaminase)이고, 및 상기 DNA 글리코실레이즈는 우라실-DNA 글리코실레이즈(Uracil-DNA glycosylase) 또는 이의 변이체이고, 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신을 임의의 염기로의 치환을 유도하는, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공할 수 있다.
이 때, 상기 시티딘 디아미네이즈는 APOBEC, AID(activation-induced cytidine deaminase) 또는 이의 변이체인 것을 특징으로 하는, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공할 수 있다.
이 때, 상기 디아미네이즈는 아데노신 디아미네이즈(adenosine deaminase)이고, 및 상기 DNA 글리코실레이즈는 알킬아데닌-DNA 글리코실레이즈(Alkyladenine DNA glycosylase) 또는 이의 변이체이고, 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 아데닌을 임의의 염기로의 치환을 유도하는, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공할 수 있다.
이 때, 상기 아데노신 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 또는 이의 변이체인 것을 특징으로 하는, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산을 제공할 수 있다.
이 때, 상기 결합도메인은 FRB domain, FKBP dimerization domain, 인테인(intein), ERT domains, VPR domain, GCN4 peptide, single chain variable fragment (scFv) 중 어느 하나, 또는 이량이질체(heterodimer)를 형성하는 도메인 중 어느 하나인 것을 특징으로 하는 것을 제공할 수 있다.
이 때, 상기 페어는 다음 (i) 내지 (vi) 중 선택되는 어느 하나인 것을 특징으로 하는 단일염기 치환 복합체 를 제공할 수 있다: (i) FRB 및 FKBP dimerization domains; (ii) 제1 인테인(intein) 및 제2 인테인; (iii) ERT 및 VPR domains; (iv)GCN4 peptide 및 single chain variable fragment (scFv); 또는 (v) 이량이질체(heterodimer)를 형성하는 제1 도메인 및 제2 도메인
본 출원은 단일염기 치환 단백질 및/또는 이를 암호화하는 핵산을 제공한다.
본 출원은 단일염기 치환형 단백질 및/또는 이를 암호화하는 핵산을 포함하는 단일염기 치환 조성물을 제공한다.
본 출원은 단일염기 치환 단백질 또는 이를 포함하는 단일염기 치환용 조성물의 다양한 용도를 제공한다
도 1은 단일염기 치환 단백질에 의하여 타겟 핵산영역 내 C(시토신)이 N(A, T, G)로 치환되는 과정을 도식화하여 나타낸 그림이다.
도 2는 단일염기 치환 단백질에 의하여 타겟 핵산영역 내 A(아데닌)이 N(C, T, G)로 치환되는 과정을 도식화하여 나타낸 그림이다.
도 3은 시토신을 임의의 염기로의 치환을 유도하는 단일염기 치환 융합단백질의 다양한 설계 구조 예시를 보여주는 그림이다.
도 4는 아데닌을 임의의 염기로의 치환을 유도하는 단일염기 치환 융합단백질의 다양한 설계 구조 예시를 보여주는 그림이다.
도 5(a)는 카복신 말단에 10개의 동일한 GCN4 펩타이드를 융합시킨 nCas9을, 도 5(b) 및 도 5(c)는 각각 single chain variable fragement(scFv)가 Apobec와 UNG에 융합이 된 복합체 (scFv-Apobec-UNG, scfv-UNG-Apobec)의 다양한 설계 구조를 보여주는 그림이다.
도 6(a)는 N말단 및 C말단에 각각 5개의 동일한 GCN4 펩타이드를 융합시킨 nCas9, 하나의 scFv가 APOBEC에 융합되고, 다른 하나의 scFv가 UNG에 융합된 복합체 설계 구조를 보여주는 그림이다. 도 6(b)는 C말단에 각각 5개의 동일한 GCN4 펩타이드를 융합시킨 nCas9, 하나의 scFv가 APOBEC에 융합되고, 다른 하나의 scFv가 UNG에 융합된 복합체 설계 구조를 보여주는 그림이다.
도 7(a)는 BE3 WT 및 bpNLS BE3의 설계 구조를 나타낸 것이고, 도 7(b)는 HEK cell에서 BE3 WT 와 bpNLS BE3을 이용한 단일 염기 치환 효율을 보여주는 그래프이다.
도 8는 hela cell에서 BE3 WT, ncas-delta UGI, UNG-ncas 및 ncas-UNG을 이용한 C to G, C to T 또는 C to A 치환율(substitution rate)을 보여주는 그래프이다. ncas-delta UGI는 BE3 WT에서 UGI(uracil DNA-glycosylase inhibitor)을 제거한 단백질이다.
도 9은 타겟 영역 내 염기 치환이 유도되는 핵산서열(서열번호 1)을 나타낸 것이다. 그리고 hela cell 내에서 BE3 WT, bpNLS BE3, ncas-delta UGI, UNG-ncas 및 ncas-UNG를 이용한 상기 핵산서열(서열번호 1) 내 15번째에 위치한 시토신 및 16번째에 위치한 시토신의 염기 치환율(substitution rate)을 보여주는 그래프이다.
도 10은 HEK cell에서 GX20 sgRNA에 표적되는 hEMX1 타겟 핵산서열 내 치환이 일어나는 시토신을 확인한 그래프이다.
도 11은 HEK cell에서 UNG-ncas 및 ncas-UNG을 이용한 단일 염기 치환 효율을 보여주는 그래프이다. 좌측 도면은 GX20 sgRNA에 표적되는 hEMX1 타겟 핵산서열 내 C to N 치환율을 보여주는 그래프이다. 우측 도면은 GX20 sgRNA에 표적되는 hEMX1 타겟 핵산서열 내 13C, 15C, 16C, 17C에서의 C to G 또는 C to A 치환율(substitution rate)을 보여주는 그래프이다.
도 12는 Nureki nCas9이 HEK cell의 NG PAM에서 C to N 염기 치환이 일어나는지 여부를 확인한 그래프이다.
도 13은 도 5의 단일염기 치환 복합체를 이용하여 C to N 염기 치환이 일어나는지 여부를 확인한 그래프이다.
도 14는 도 5의 단일염기 치환 복합체를 이용하여 PC9 세포에서 hEMX1 GX19 sgRNA에 표적되는 핵산서열 내 치환이 일어나는 시토신을 확인한 그래프이다.
도 15는 도 5의 단일염기 치환 복합체를 이용하여 PC9 세포에서 hEMX1 sgRNA에 표적되는 서열 내 16C에서의 C to G, C to T 또는 C to A 치환율(substitution rate)을 보여주는 그래프이다.
도 16은 nCas9을 이용한 단일염기 치환 단백질을 암호화하는 플라스미드 설계 구조를 보여주는 그림이다. 상기 암호화되는 단일염기 치환 단백질은 도 3(a)의 1)에 도식화하였다.
도 17은 Nureki nCas9을 이용한 단일 염기 치환 CRISPR 단백질의 플라스미드 설계 구조를 보여주는 그림이다. 상기 암호화되는 단일염기 치환 단백질은 도 3(c)의 2)에 도식화하였다.
도 18은 nCas9을 이용한 단일염기 치환 단백질을 암호화하는 플라스미드 설계 구조를 보여주는 그림이다. 상기 암호화되는 단일염기 치환 단백질은 도 3(a)의 3)에 도식화하였다.
도 19는 도 4(a)에 도식화된 단일염기 치환 단백질을 암호화하는 플라스미드 설계 구조를 보여주는 그림이다.
도 20은 도 4(b)에 도식화된 단일염기 치환 단백질을 암호화하는 플라스미드 설계 구조를 보여주는 그림이다.
도 21은 single chain variable fragment (scFv)을 포함하는 융합 염기 치환 도메인의 구조를 도식화하여 나타낸 그림이다.
도 22 내지 도 24는 HEK cell에서 단일염기 치환 복합체를 이용한 단일 염기 치환 효율을 보여주는 그래프로, 도 22는 GX20 sgRNA에 표적되는 hEMX1 타겟 핵산서열(서열번호 1) 내 11C, 도23은 GX20 sgRNA에 표적되는 hEMX1 타겟 핵산서열(서열번호 1) 내 15C, 도 24는 GX20 sgRNA에 표적되는 hEMX1 타겟 핵산서열(서열번호 1) 내 16C에서의 C to G, C to A 또는 C to G 치환율(substitution rate)을 보여주는 그래프이다.
도 25는 과학 전문지 '네이처'에 게재된 “base editing of A, T to G, C in genomic DNA without DNA cleavage”논문에서 Extended Data Figure 2에 명시된 sgRNA(서열번호 2 내지 20) 들 중 3개(서열번호 2, 3 및 19)를 선정하였다.
도 26은 도 25에서 선정된 sgRNA1(서열번호 2)를 이용하여 HEK293T cell에서 A to N 염기 치환율(substitution rate)를 보여주는 그래프이다.
도 27은 도 25에서 선정된 sgRNA2(서열번호 3)를 이용하여 HEK293T cell에서 A to N 염기 치환율(substitution rate)를 보여주는 그래프이다.
도 28은 도 25에서 선정된 sgRNA3(서열번호 19)를 이용하여 HEK293T cell에서 A to N 염기 치환율(substitution rate)를 보여주는 그래프이다.
도 29는 EGFR 유전자의 일 영역과 상보적으로 결합할 수 있는 sgRNA1(서열번호 21) 및 sgRNA2(서열번호 22) 이용하여 PC9 cell에서 C to N 염기 치환율을 보여주는 그래프이다.
도 30은 EGFR 유전자의 일 영역과 상보적으로 결합할 수 있는 sgRNA1(서열번호 21) 및 sgRNA2(서열번호 22을 이용하여 PC9 cell에서 C to A, C to T 또는 C to G 염기 치환율을 보여주는 그래프이다.
도 31은 Cytosine을 무작위적으로 염기 치환 시킨 후 Osimertinib이 첨가된 배지에서 배양시켜 살아남은 세포를 분석한 결과이다.
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 발명이 속하는 기술분야의 당업자에 의해 통상적으로 이해되는 것과 동일한 의미를 가진다. 본 명세서에 기재된 것과 유사 또는 동일한 방법 및 물질이 본 발명의 실행 또는 시험에서 사용될 수 있지만, 적합한 방법 및 물질이 이하에 기재된다. 본 명세서에 언급된 모든 간행물, 특허 출원, 특허 및 기타 다른 참고문헌은 전체가 참조고로 포함된다. 추가로, 물질, 방법 및 실시예는 단지 예시적이며, 제한하는 것으로 의도되지 않는다.
본 출원은 (a) CRISPR 효소 또는 이의 변이체, (b) 디아미네이즈(deaminase), 및 (c) DNA 글리코실레이즈(DNA glycosylase) 또는 이의 변이체를 포함하는 단일염기 치환 단백질을 제공한다.
본 출원은 상기 단일염기 치환 단백질 및 (d) 가이드 RNA를 포함하는 단일염기 치환 조성물을 제공한다.
이 때, 상기 단일염기 치환 단백질은 가이드 RNA와 동시에 작용하여 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 질소성 염기 로의 치환을 유도하는 것을 특징으로 할 수 있다.
본 출원에 의해 제공되는 상기 단일염기 치환 단백질의 (a) CRISPR 효소 및 상기 (d) 가이드 RNA의 조합은 타겟 핵산서열을 포함하는 타겟영역에 단일염기 치환 단백질을 특이적으로 인도(directing to)할 수 있다.
이 때, 상기 단일염기 치환 단백질의 (b) 디아미네이즈 및 (c) DNA 글리코실레이즈의 조합은 타겟 영역 내 하나 이상의 뉴클레오타이드의 염기를 다른 임의의 염기로의 치환을 유도할 수 있다.
질소성 염기(nitrogenous base)
본 출원에서 질소성 염기란 뉴클레오타이드의 일 구성요소인 퓨린(purine) 또는 (pyrimidine) 계열의 염기, 또는 핵염기(nucleobase)를 의미한다.
본 출원에서 질소성염기는 염기로 약칭될 수 있으며, 염기란 아데닌(Adenine, A), 티민(thymine, T), 우라실(Uracil, U), 하이포잔틴(hypozanthine, H), 구아닌(Guanine, G) 또는 시토신(Cytosine, C)을 의미할 수 있다.
본 출원에서 상기 염기의 약칭인 A, T, C, G, U 또는 H는 염기치환에 대한 내용에 대한 것일 때는 상기 질소성 염기를 의미하고, 그 외에 일반적인 핵산 또는 뉴클레오타이드 서열에 대한 내용이거나, 명세서에서 별도로 설정한 서열번호(Seq ID NO.:)에 대한 것일 때는 당업계에서 관용되는 핵산(nucleic acid) 또는 뉴클레오타이드(nucleotide)에 대한 표현으로 사용된다.
일 예로, “아데닌(A)이 구아닌(G)으로 치환된다”는 것은 핵산서열 상 동일한 위치 또는 동일한 종류의 뉴클레오타이드 내 질소성 염기가 A에서 G로 치환되는 것을 의미할 수 있다.
일 예로, “아데닌(A)이 티민(T)으로 치환된다”는 것은 핵산서열 상 동일한 위치 또는 동일한 종류의 뉴클레오타이드 내 질소성 염기가 A에서 T로 치환되는 것을 의미할 수 있다.
일 예로, “아데닌(A)이 시토신(C)으로 치환된다”는 것은 핵산서열 상 동일한 위치 또는 동일한 종류의 뉴클레오타이드 내 질소성 염기가 A에서 C로 치환되는 것을 의미할 수 있다.
일 예로, “시토신(C)이 구아닌(G)으로 치환된다”는 것은 핵산서열 상 동일한 위치 또는 동일한 종류의 뉴클레오타이드 내 질소성 염기가 C에서 G로 치환되는 것을 의미할 수 있다.
일 예로, “시토신(C)이 티민(T)으로 치환된다”는 것은 핵산서열 상 동일한 위치 또는 동일한 종류의 뉴클레오타이드 내 질소성 염기가 C에서 T로 치환되는 것을 의미할 수 있다.
일 예로, “시토신(C)이 아데닌(A)으로 치환된다”는 것은 핵산서열 상 동일한 위치 또는 동일한 종류의 뉴클레오타이드 내 질소성 염기가 C에서 A로 치환되는 것을 의미할 수 있다.
일 예로, “3'-ATGCAAA-5'”은 질소성 염기 그 자체를 의미하는 것이 아니라, 당업계에서 관용되는 핵산서열 또는 뉴클레오타이드 서열을 표시한 것이다.
염기 치환(Base substitution) 또는 염기 변형(Base modification)
출원에서 “염기 치환(base substitution)”은 타겟 유전자 내 뉴클레오타이드의 염기가 다른 임의의 염기로 치환되는 것이다. 보다 구체적으로 타겟 영역 내 뉴클레오타이드의 염기가 다른 임의의 염기로 치환되는 것이다.
일 예로, 염기 치환은 아데닌(adenine, A), 구아닌(guanine, G), 시토신(cytosine, C), 티민(thymine, T), 하이포잔틴(Hypozanthine) 또는 우라실(uracil, U)이 다른 임의의 염기로 변경되는 것을 의미할 수 있다.
일 구체예로, 아데닌이 시토신, 티민, 우라실, 하이포잔틴, 또는 구아닌으로 치환되는 것을 의미할 수 있다.
일 구체예로, 시토신이, 아데닌, 티민, 우라실, 하이포잔틴, 또는 구아닌으로 치환되는 것을 의미할 수 있다.
일 구체예로, 구아닌이 시토신, 티민, 우라실, 하이포잔틴 또는 아데닌으로 치환되는 것을 의미할 수 있다.
일 구체예로, 티민이 아데닌, 시토신, 우라실, 하이포잔틴, 또는 구아닌으로 치환되는 것을 의미할 수 있다.
일 구체예로, 우라실이, 시토신, 티민, 아데닌, 하이포잔틴, 또는 구아닌으로 치환되는 것을 의미할 수 있다.
일 구체예로, 하이포잔틴이, 아데닌, 티민, 우라실, 시토신, 또는 구아닌으로 치환되는 것을 의미할 수 있다.
다만 이에 제한되지 않는다.
본 출원에서 “염기 치환”이란 “염기 변형(Base modification)”을 포함하는 개념일 수 있다. 이 때, 변형은 염기의 구조가 변형됨으로써 다른 염기로 변경되는 것을, 염기 치환은 염기의 종류가 변경되는 것을 의미할 수 있다.
일 예로, 염기 변형은 아데닌(adenine, A), 구아닌(guanine, G), 시토신(cytosine, C), 티민(thymine, T), 하이포잔틴(Hypozanthine) 또는 우라실(uracil, U)의 화학구조가 변형되는 것이다.
일 구체예로, 아데닌이 탈아민화되어 하이포잔틴으로 변형되는 것일 수 있다.
일 구체예로, 하이포잔틴이 구아닌으로 변형되는 것일 수 있다.
일 구체예로, 시토신이 탈아민화되어 우라실로 변형되는 것일 수 있다.
일 구체예로, 우라실이 티민으로 변형되는 것일 수 있다.
다만 이에 제한되지 않는다.
타겟 핵산서열 - 가이드 RNA와 상보적으로 결합하는 핵산서열
타겟 핵산서열은 단일염기 치환 조성물의 일 구성요소인 가이드 RNA와 상보적으로 결합하거나 할 수 있는 뉴클레오타이드 서열을 의미한다.
일 예로, 세포 내 이중가닥 DNA를 단일염기 치환의 대상으로 할 때 상기 세포 내 이중가닥 DNA는 제1 DNA 가닥 및 제2 DNA 가닥으로 구성되어 있다. 이 때, 상기 이중가닥 DNA의 제1 DNA 가닥 및 상기 제1 DNA 가닥과 상보적인 제2 DNA 가닥 중 어느 하나는 타겟 핵산서열을 포함할 수 있다. 상기 타겟 핵산서열을 포함하는 제1 또는 제2 DNA 가닥은 상기 가이드 RNA와 결합할 수 있다. 이 때 상기 가이드 RNA와 결합한 제1 또는 제2 DNA 가닥 내 핵산 서열이 타겟 핵산서열에 해당한다.
일 예로, 세포 내 이중가닥 RNA를 단일염기 치환의 대상으로 할 때 상기 세포 내 이중가닥 RNA는 제1 RNA 가닥 및 제2 RNA 가닥으로 구성되어 있다., 상기 이중가닥 RNA의 제1 RNA 가닥 및 상기 제1 RNA 가닥과 상보적인 제2 RNA 가닥 중 어느 하나는 타겟 핵산서열을 포함할 수 있다. 상기 타겟 핵산서열을 포함하는 제1 또는 제2 RNA 가닥은 상기 가이드 RNA와 결합할 수 있다. 이 때 상기 가이드 RNA와 결합한 제1 또는 제2 RNA 가닥 내 핵산 서열이 타겟 핵산서열에 해당한다.
일 예로, 세포 내 단일가닥 DNA 또는 RNA를 단일염기 치환의 대상으로 할 때, 상기 단일가닥 DNA 또는 RNA는 타겟 핵산서열을 포함할 수 있다. 즉 상기 단일가닥 DNA 또는 RNA는 가이드 RNA와 결합할 수 있고, 이 때, 상기 가이드 RNA와 결합한 핵산 서열이 타겟 핵산서열에 해당한다.
일 예로, 타겟 핵산서열은 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 또는 30 bp 이상의 뉴클레오타이드 서열일 수 있다.
타겟 영역(target region) - 염기치환되는 뉴클레오타이드를 포함하는 영역
타겟영역은 단일염기 치환 단백질에 의하여 염기치환이 유도되는 뉴클레오타이드를 포함하는 영역이다.
타겟영역은 가이드 RNA가 결합하는 타겟 핵산서열을 포함하는 영역이다. 이 때, 상기 타겟 핵산서열은 단일염기 치환 단백질에 의하여 염기치환이 유도되는 뉴클레오타이드를 포함할 수 있다.
타겟영역은 가이드 RNA와 상보적으로 결합하는 제1 DNA 가닥 내 타겟 핵산서열과 상보적으로 결합하는 제2 DNA 가닥 내 핵산서열을 포함할 수 있다. 이 때, 상기 제2 DNA 가닥 내 핵산서열은 단일염기 치환 단백질에 의하여 염기치환이 유도되는 뉴클레오타이드를 포함할 수 있다.
일 예로, 이중가닥 DNA 또는 RNA 중 상기 타겟 핵산서열을 포함하는 가닥을 제1 가닥으로, 상기 핵산서열을 포함하지 않는 가닥을 제2 가닥으로 칭할 수 있다. 이 때, 타겟영역은 상기 제1 가닥 내 가이드 RNA와 상보적으로 결합하는 타겟 핵산서열 및 상기 타겟 핵산서열과 상보적으로 결합하는 상기 제2 가닥 내 핵산서열을 포함할 수 있다.
일 예로, 이중가닥 DNA 또는 RNA 중 상기 타겟 핵산서열을 포함하는 가닥을 제2 가닥으로, 상기 핵산서열을 포함하지 않는 가닥을 제1 가닥으로 칭할 수 있다. 이 때, 타겟영역은 상기 제2 가닥 내 가이드 RNA와 상보적으로 결합하는 타겟 핵산서열 및 상기 타겟 핵산서열과 상보적으로 결합하는 상기 제1 가닥 내 핵산서열을 포함할 수 있다.
단일염기 치환 단백질은 상기 타겟영역 내 하나 이상의 뉴클레오타이드의 염기치환을 유도할 수 있다.
일 예로, 가이드 RNA가 이중가닥 DNA의 제1 DNA 가닥에 포함된 타겟 핵산서열과 상보적으로 결합되면, 단일염기 치환 단백질은 (i) 상기 타겟 핵산서열 내의 하나 이상의 뉴클레오타이드의 염기를 치환하거나, (ii) 상기 이중가닥 DNA의 제2 가닥 내 상기 타겟 핵산서열과 상보적인으로 결합하는 핵산서열 내의 하나 이상의 뉴클레오타이드의 염기를 치환할 수 있다.
일 예로, 가이드 RNA가 이중가닥 RNA의 제1 RNA 가닥에 포함된 타겟 핵산서열과 상보적으로 결합되면, 단일염기 치환 단백질은 (i) 상기 타겟 핵산서열 내의 하나 이상의 뉴클레오타이드의 염기를 치환하거나, (ii) 상기 이중가닥 RNA의 제2 가닥 내 상기 타겟 핵산서열과 상보적인으로 결합하는 핵산서열 내의 하나 이상의 뉴클레오타이드의 염기를 치환할 수 있다.
일 구체예로, 상기 타겟 핵산영역 내 하나 이상의 뉴클레오타이드의 시토신을 구아닌, 티민, 우라실, 하이포잔틴 또는 아데닌으로 치환할 수 있다.
일 구체예로, 상기 타겟 핵산서열 내 하나 이상의 뉴클레오타이드의 아데닌을 구아닌, 티민, 우라실, 하이포잔틴 또는 시토신으로 치환할 수 있다.
본 명세서에서 타겟 유전자란 타겟 영역 및 타겟 핵산서열을 포함하는 유전자를 의미한다. 또한, 본 명세서에서 타겟 유전자란 단일염기 치환 단백질에 의하여 타겟 영역 내 하나 이상의 뉴클레오타이드의 시토신 염기가 임의의 염기로 치환되는 유전자를 의미한다.
기술적 특징 - 임의의 염기로의 치환
본 출원에서 제공되는 단일염기 치환 단백질은 (i) 디아미네이즈 및 (ii) DNA 글리코실레이즈를 필수 구성요소로 포함한다.
단일염기 치환 단백질의 제1 구성인 디아미네이즈, 및 제2 구성인 DNA 글리코실레이즈의 조합은 핵산서열 내 뉴클레오타이드의 염기를 임의의 염기로의 치환을 유도할 수 있다.
이 때, 상기 디아미네이즈 및 상기 DNA 글리코실레이즈에 의한 염기치환은 다음의 두 단계, (i) 염기의 탈아민화(Deamination), 및/또는 (iii) DNA 글리코실레이즈에 의한 절단 또는 수선 공정이 순차적으로 또는 동시에 진행된 결과일 수 있다.
제1 공정: 염기의 탈아민화(Deamination)
탈아민화란 아미노기의 절단을 수반하는 생화학반응을 의미한다. 일 예로, DNA의 경우, 뉴클레오타이드의 일 구성요소인 염기의 아미노기를 히드록시기 또는 케톤기로 바꾸는 것을 의미할 수 있다.
일 구체예로, 디아미네이즈는 시티딘 디아미네이즈(cytidine deaminase)일 수 있다. 상기 시티딘 디아미네이즈는 시토신을 탈아민화하여 우라실을 제공할 수 있다. 상기 시티딘 디아미네이즈는 시토신을 변형시켜 우라실을 제공할 수 있다.
Figure PCTKR2020006731-appb-I000001
일 구체예로, 단일염기 치환 단백질의 디아미네이즈는 아데노신 디아미네이즈(adenosine deaminase)일 수 있다. 상기 아데노신 디아미네이즈는 아데닌을 탈아민화하여 하이포잔틴(hypozanthine)을 제공할 수 있다. 상기 아데노신 디아미네이즈는 아데닌을 변형시켜 하이포잔틴을 제공할 수 있다.
Figure PCTKR2020006731-appb-I000002
일 구체예로, 디아미네이즈는 구아닌 디아미네이즈(guanine deaminase)일 수 있다. 상기 구아닌 디아미네이즈는 구아닌을 탈아민화하여 잔틴(xantine)을 제공할 수 있다. 상기 구아닌 디아미네이즈는 구아닌을 변형시켜 잔틴을 제공할 수 있다.
Figure PCTKR2020006731-appb-I000003
제2 공정: DNA의 글리코실레이션
DNA 글리코실레이즈는 염기절제회복(Base Excision Repair, BER)에 관여하는 효소이고, BER은 DNA의 손상된 염기를 제거하고 교체하는 메커니즘이다. DNA 글리코실레이즈는 DNA내 염기와 디옥시리보오스(deoxyribose) 사이의 N-글리코시드결합(N-glycoside linkage)을 가수분해하여 상기 메커니즘의 첫 단계를 촉매한다. DNA 글리코실레이즈는 sugar-phosphate 백본(backbone)을 그대로 남겨둔 채 손상된 질소성 염기(nitrogenous base)를 제거한다. 그 결과 AP 부착자리(AP site), 구체적으로 무퓨린 부위(apurinic site) 또는 무피리미디닉 부위(apyrimidinic site)가 만들어진다. 그 후, AP 엔도뉴클레이즈(AP endonuclease), 말단 처리 효소(Endprocessing enzymes), DNA 중합효소(DNA polymerase), 플랩 엔도뉴클레이즈(Flap endonuclease), 및/또는 DNA 리게이스(DNA ligase)에 의하여 임의의 염기로 치환될 수 있다.
일 구체예로, DNA 글리코실레이즈는 우라실 DNA 글리코실레이즈(Uracil DNA glycosylase)일 수 있다. 상기 우라실 DNA 글리코실레이즈는 DNA 내 우라실과 디옥시리보오스 사이의 N-글리코시드결합(N-glycoside linkage)을 가수분해한다. 우라실 DNA 글리코실레이즈는 우라실을 포함하는 뉴클레오타이드 내 우라실과 디옥시리보오스 사이의 N-글리코시드 결합을 가수분해한다. 이 때, 상기 우라실을 포함하는 뉴클레오타이드는 시토신을 포함하는 뉴클레오타이드에 시티딘 디아미네이즈가 작동하여 탈아민화되어 제공된 것일 수 있다.
일 구체예로, DNA 글리코실레이즈는 알킬아데닌 DNA 글리코실레이즈(Alkyladenine DNA glycosylase)일 수 있다. 상기 알킬아데닌 DNA 글리코실레이즈는 DNA 내 하이포잔틴과 디옥시리보오스 사이의 N-글리코시드결합(N-glycoside linkage)을 가수분해한다. 알킬아데닌 DNA 글리코실레이즈는 하이포잔틴을 포함하는 뉴클레오타이드 내 하이포잔틴과 디옥시리보오스 사이의 N-글리코시드 결합을 가수분해한다. 이 때, 상기 하이포잔틴을 포함하는 뉴클레오타이드는 아데닌을 포함하는 뉴클레오타이드에 아데노신 디아미네이즈가 작동하여 탈아민화되어 제공된 것일 수 있다.
상기 제1 및 제2 공정의 결과
본 출원에서 제공되는 단일염기 치환 단백질을 이용하여 타겟영역 내 하나 이상의 아데닌 또는 시토신을 임의의 염기로 치환할 수 있다.
일 예로, 단일염기 치환 단백질의 디아미네이즈는 아데노신 디아미네이즈(adenosine deaminase)이고, DNA 글리코실레이즈는 알킬아데닌-DNA 글리코실레이즈(alkyladenine-DNA glycosylase) 또는 이의 변이체일 수 있다. 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드의 아데닌을 임의의 염기(구아닌, 티민, 시토신)로의 치환을 유도할 수 있다.
일 구체예로, 타겟영역 내 하나 이상의 뉴클레오타이드 내 아데닌은 (a) CRISPR 효소 또는 이의 변이체; (b) 아데노신 디아미네이즈; 및 (c) 알킬아데닌 DNA 글리코실레이즈를 포함하는 단일염기 치환 단백질에 의하여 시토신으로의 치환이 유도될 수 있다.
Figure PCTKR2020006731-appb-I000004
일 구체예로, 타겟영역 내 하나 이상의 뉴클레오타이드 내 아데닌은 (a) CRISPR 효소 또는 이의 변이체; (b) 아데노신 디아미네이즈; 및 (c) 알킬아데닌 DNA 글리코실레이즈를 포함하는 단일염기 치환 단백질에 의하여 티민으로의 치환이 유도될 수 있다.
Figure PCTKR2020006731-appb-I000005
일 구체예로, 타겟영역 내 하나 이상의 뉴클레오타이드 내 아데닌은 (a) CRISPR 효소 또는 이의 변이체; (b) 아데노신 디아미네이즈; 및 (c) 알킬아데닌 DNA 글리코실레이즈를 포함하는 단일염기 치환 단백질에 의하여 구아닌으로의 치환이 유도될 수 있다.
Figure PCTKR2020006731-appb-I000006
일 예로, 단일염기 치환 단백질의 디아미네이즈는 시티딘 디아미네이즈(cytidine deaminase)이고, DNA 글리코실레이즈는 우라실-DNA 글리코실레이즈(Uracil-DNA glycosylase) 또는 이의 변이체일 수 있다. 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드의 시토신을 임의의 염기로의 치환을 유도할 수 있다.
일 구체예로, 타겟영역 내 하나 이상의 뉴클레오타이드 내 시토신은 (a) CRISPR 효소 또는 이의 변이체; (b) 시티딘 디아미네이즈; 및 (c) 우라실 DNA 글리코실레이즈를 포함하는 단일염기 치환 단백질에 의하여 아데닌으로의 치환이 유도될 수 있다.
Figure PCTKR2020006731-appb-I000007
일 구체예로, 타겟영역 내 하나 이상의 뉴클레오타이드 내 시토신은 (a) CRISPR 효소 또는 이의 변이체; (b) 시티딘 디아미네이즈; 및 (c) 우라실 DNA 글리코실레이즈를 포함하는 단일염기 치환 단백질에 의하여 티민으로의 치환이 유도될 수 있다.
Figure PCTKR2020006731-appb-I000008
일 구체예로, 타겟영역 내 하나 이상의 뉴클레오타이드 내 시토신은 (a) CRISPR 효소 또는 이의 변이체; (b) 시티딘 디아미네이즈; 및 (c) 우라실 DNA 글리코실레이즈를 포함하는 단일염기 치환 단백질에 의하여 구아닌으로의 치환이 유도될 수 있다.
Figure PCTKR2020006731-appb-I000009
이하 상세히 설명한다.
본 명세서에 의해 개시되는 발명의 일 태양은 단일염기 치환 단백질이다.
단일염기 치환 단백질은 단일염기 치환을 유도 또는 발생시킬 수 있는 단백질, 폴리펩타이드, 또는 펩타이드이다.
종래 베이스 에디터의 한계
종래의 베이스에디터(Base Editor)는 디아미네이즈(deaminase), CRISPR 효소, DNA 글리코실레이즈 억제제(DNA glycosylase inhibitor)가 융합, 연결 또는 결합된 형태로 사용되었다. 대표적인 일 예로, 래트의 시티딘 디아미네이즈인 rAPOBEC과, nCas9, 및 우라실 DNA 글리코실레이즈를 결합한 베이스 에디터를 이용하여, 시토신 염기를 티민으로 치환하였다. 또한, 시티딘 디아니메이즈 대신 아데노신 디아미네이즈를 이용하여 아데닌(A)를 구아닌(G)으로 치환하였다.
종래의 베이스 에디터는 점 돌연변이로 인하여 발생하는 질병을 치료하는데 사용될 수 있는, 예를 들면 유전자 내의 점돌연변이 발생 부위를 교정하여 유전적 장애를 치료하는데 사용되는 등 유의미한 점이 있다. 다만, 종래의 베이스 에디터는 DNA 글리코실레이즈 억제제를 이용함으로써 아미노기(-NH2)를 제거하거나 아미노기를 케토기로 치환시킴으로써, 시토신(C)을 특정염기 티민(T)으로만 또는 아데노신(A)을 특정염기 구아닌(G)으로만 변경가능하다는 한계를 가지고 있다.
단일염기 치환 단백질의 유용성
종래의 베이스 에디터는 이를 이용하여 치환된 염기로부터 발현되는 아미노산의 종류가 달라질 가능성이 낮다는 한계가 있다. 대부분의 질환 또는 질병은 점돌연변이로 인한 것이 아니라, 뉴클레오타이드 레벨을 넘어 펩타이드, 폴리펩타이드, 또는 단백질의 레벨에서 구조나 기능에 이상이 생김으로써 발생하는 경우가 많다. 결국 종래의 베이스 에디터는 아데닌 및 시토신을 특정 염기로 밖에 변경될 수 없으므로, 펩타이드, 폴리펩타이드, 또는 단백질의 구조가 달라질 가능성이 현저하게 떨어진다.
종래 기술의 한계는 본 명세서에 의해 제공되는 단일염기 치환 단백질을 이용하여 극복할 수 있다. 본 출원에서 제공되는 단일염기 치환 단백질은 (a) 에디터 단백질, (b) 디아미네이즈(deaminase), 및 (c) DNA 글리코실레이즈(DNA glycosylase)으로 구성된 신규한 조합을 가진다. 즉, 본 출원에서 제공하는 단일염기 치환 단백질은 아데닌(A), 구아닌(G), 티민(T), 또는 시토신(C)을 임의의 염기(A, T, C, G, U, H)로 치환할 수 있다는 장점을 가지고 있다.
또한, 상기 신규한 구성요소 및 신규한 조합의 단일염기 치환 단백질은 타겟 핵산서열 내에 존재하는 하나 이상의 염기를 동시에 치환할 수 있다는 장점을 가지고 있다.
결국, 본 출원에서 제공하는 단일염기 치환 단백질은 다양한 염기가 무작위로 치환된 “돌연변이”를 제공할 수 있다. 상기 돌연변이된 유전자로부터 다양한 구조를 가지는 펩타이드, 폴리펩타이드, 또는 단백질이 발현될 수 있다.
상기 기술적 효과로 인하여, 본 출원에서 제공하는 단일염기 치환 단백질은 에피토프 스크리닝, 약물내성 유전자 또는 단백질 스크리닝, 약물 감작 스크리닝, 및/또는 바이러스 내성 유전자 또는 단백질 스크리닝 용도로 이용할 수 있다.
본 출원에서 제공하는 단일염기 치환 단백질은 가이드 RNA와 함께 사용함으로써 타겟 유전자의 타겟영역 내 염기를 임의의 염기로의 치환을 유도할 수 있다.
[단일염기 치환 단백질의 제1 구성 - 디아미네이즈]
디아미네이즈는 탈아미노 효소를 의미하고, 화합물의 아미노기를 히드록시기 또는 케톤기로 바꾸는 효소를 총칭한다. 시토신, 아데닌, 구아닌, 아데노신, 시티딘, AMP, ADP 등에 결합하는 아미노기를 각각 가수분해하는 효소가 존재하며, 이러한 효소는 일반적으로 동물조직에 포함되어 있다.
본 출원의 명세서에서 디아미네이즈는 염기치환 도메인으로 칭해질 수도 있다. 이 때, 염기 치환 도메인은 타겟 유전자 내 하나 이상의 뉴클레오타이드의 염기를 다른 임의의 염기로 치환하는데 관여하는 펩타이드, 폴리펩타이드, 도메인, 단백질을 의미한다.
본 출원의 디아미네이즈는 시티딘 디아미네이즈일 수 있다
이때, 상기 시티딘 디아미네이즈는 시토신(cytosine), 시티딘(cytidine) 또는 데옥시시티딘(deoxycytidine)의 아미노(-NH2)기를 제거하는 활성을 가지는 모든 효소를 의미한다. 본 명세서에서 상기 시티딘 디아미네이즈는 시토신 디아미네이즈를 포함하는 개념으로 사용된다. 본 명세서에서 상기 시티딘 디아미네이즈는 상기 시토신 디아미네이즈와 혼용되어 사용될 수 있다. .
상기 시티딘 디아미네이즈는 시토신을 우라실(uracil)로 변형시킬 수 있다.
상기 시티딘 디아미네이즈는 시티딘을 우리딘(uridine)으로 변형시킬 수 있다.
상기 시티딘 디아미네이즈는 데옥시시티딘을 디옥시우리딘(deoxyuridine)으로 변형시킬 수 있다.
시티딘 디아미나제는 뉴클레오타이드에 존재하는 염기인 시토신 (예컨대, 2중 가닥 DNA 또는 RNA에 존재하는 시토신)을 우라실로 변환 (C-to-U conversion or C-to-U editing)시키는 활성을 갖는 모든 효소를 의미하는 것으로, 표적 부위의 서열 (표적 핵산서열)의 PAM 서열이 존재하는 가닥에 위치하는 시토신을 우라실로 변환시킨다.
일 예로, 시티딘 디아미네이즈는 Escherichia coli 등의 원핵 생물; 또는 인간, 원숭이 등의 영장류, 래트, 마우스 등의 설치류 등과 같은 포유류로부터 유래된 것일 수 있으나, 이에 제한된 것은 아니다. 예컨데, 상기 시티딘 디아미네이즈는 APOBEC ("apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like") 또는 활성-유도 시티딘 디아미네이즈(activation-induced cytidine deaminase, AID) 패밀리에 속하는 효소들 중에서 선택된 하나 이상일 수 있다.
상기 시티딘 디아미네이즈는 APOBEC1, APOBEC2, APOBEC3B, APOBEC3C, APOBEC3D, APOBEC3F, APOBEC3G, APOBEC3H, APOBEC4, AID 또는 CDA일 수 있으나, 이에 제한된 것을 아니다.
예를 들어, 상기 시티딘 디아미네이즈는 인간 APOBEC1, 예컨대, NCBI Accession No. NM_005889, NM_001304566, NM_001644 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 시티딘 디아미네이즈는 인간 APOBEC1, 예컨대, NCBI Accession No. NP_001291495, NP_001635, NP_005880 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 시티딘 디아미네이즈는 마우스 APOBEC1, 예컨대, NCBI Accession No. NM_001127863, NM_112436 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 시티딘 디아미네이즈는 마우스 APOBEC1, 예컨대, NCBI Accession No. NP_001127863, NP_112436 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 시티딘 디아미네이즈는 인간 AID, 예컨대, NCBI Accession No. NM_020661, NM_001330343 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 시티딘 디아미네이즈는 인간 AID, 예컨대, NCBI Accession No. NP_001317272, NP_065712 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
이하, 시티딘 디아미네이즈의 일 예들을 나열한다:
APOBEC1: 인간 APOBEC1 (e.g., NCBI Accession No. NP_001291495, NP_001635, NP_005880)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_005889, NM_001304566, NM_001644로 표현되는 APOBEC1 유전자, 또는 마우스 APOBEC1(e.g., NCBI Accession No. NP_001127863, NP_112436)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001127863, NM_112436로 표현되는 APOBEC1 유전자.
APOBEC2: 인간 APOBEC2 (e.g., NCBI Accession No. NP_006780)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_006789로 표현되는 APOBEC2유전자, 또는 마우스 APOBEC2(e.g., NCBI Accession No. NP_033824)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_009694로 표현되는 APOBEC2유전자.
APOBEC3B: 인간 APOBEC3B(e.g., NCBI Accession No. NP_001257340, NP_004891)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_004900, NM_001270411로 표현되는 APOBEC3B유전자, 또는 마우스 APOBEC3B(e.g., NCBI Accession No. NP_001153887, NP_001333970, NP_084531)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001160415, NM_030255, NM_001347041로 표현되는 APOBEC3B유전자.
APOBE3C: 인간 APOBEC3C (e.g., NCBI Accession No. NP_055323)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_014508로 표현되는 APOBEC3C 유전자.
APOBEC3D: 인간 APOBEC3D (e.g., NCBI Accession No. NP_689639, NP_0013570710)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_152426, NM_001363781로 표현되는 APOBEC3D 유전자.
APOBEC3F: 인간 APOBEC3F (e.g., NCBI Accession No. NP_001006667, NP_660341)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001006666, NM_145298로 표현되는 APOBEC3F 유전자.
APOBEC3G: 인간 APOBEC3G (e.g., NCBI Accession No. NP_068594, NP_001336365, NP_001336366, NP_001336367)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_021822로 표현되는 APOBEC3G 유전자.
APOBEC3H: 인간 APOBEC3H (e.g., NCBI Accession No. NP_001159474, NP_001159475, NP_001159476, NP_861438)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001166002, NM_001166003, NM_001166004, NM_181773로 표현되는 APOBEC3H 유전자.
APOBEC4: 인간 APOBEC4(e.g., NCBI Accession No. NP_982279)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_203454로 표현되는 APOBEC4유전자, 또는 마우스 APOBEC4를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001081197로 표현되는 APOBEC4 유전자.
상기 시티딘 디아미네이즈는 활성-유도 시티딘 디아미네이즈(activation-induced cytidine deaminase, AID) 유전자로부터 발현될 수 있다. 예를 들어, AID 유전자는 다음으로 이루어진 군에서 선택될 수 있으나, 이에 제한되는 것은 아니다: 인간 AID 유전자(e.g., NP_001317272, NP_065712)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_020661, NM_001330343으로 표현되는 AID 유전자, 또는 마우스 AID 유전자(e.g., NP_03377512)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_009645로 표현되는 AID 유전자.
상기 시티딘 디아미네이즈는 CDA 유전자로부터 암호화될 수 있다. 예를 들어, CDA 유전자는 다음으로 이루어진 군에서 선택될 수 있으나, 이에 제한되는 것은 아니다: 인간 CDA(e.g., NCBI Accession No. NP_001776)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001785로 표현되는 CDA 유전자, 또는 마우스 CDA (e.g., NCBI Accession No. NP_082452)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_028176으로 표현되는 CDA 유전자.
상기 시티딘 디아미네이즈는 시티딘 디아미네이즈 변이체일 수 있다.
상기 시티딘 디아미네이즈 변이체는 야생형 시티딘 디아미네이즈보다 시티딘 디아미네이즈 활성(cytidine deaminase activity)이 증가된 효소일 수 있다. 시티딘 디아미네이즈 활성은 시토신 또는 그의 유사체들 중의 하나의 탈아미노산 반응을 포함하는 것으로 이해된다.
예를 들어, 시티딘 디아미네이즈 변이체는 상기 시티딘 디아미네이즈 내 하나 이상의 아미노산 서열이 변형된 효소일 수 있다.
이때, 아미노산 서열의 변형은 아미노산의 치환, 결실 및 삽입 중에서 선택된 어느 하나일 수 있다.
본 출원의 디아미네이즈는 아데노신 디아미네이즈일 수 있다.
아데노신 디아미네이즈는 아데닌(adenine), 아데노신(adenosine) 또는 데옥시아데노신(deoxyadenosine)의 아미노(-NH2)기의 제거 또는 케토(=O)기로 치환하는 활성을 가지는 모든 효소를 의미한다. 본 명세서에서 상기 아데노신 디아미네이즈는 아데닌 디아미네이즈를 포함하는 개념으로 사용된다. 본 명세서에서 상기 아데노신 디아미네이즈는 상기 아데닌 디아미네이즈를 포함하는 개념으로 사용된다.
상기 아데노신 디아미네이즈는 아데닌을 하이포잔틴 (hypoxanthine)으로 변형시킬 수 있다.
상기 아데노신 디아미네이즈는 아데노신닌을 이노신(inosine)으로 변형시킬 수 있다.
상기 아데노신 디아미네이즈는 데옥시아데노신을 데옥시이노신(deoxyinosine)으로 변형시킬 수 있다.
아데노신 디아미네이즈는 Escherichia coli 등의 원핵 생물, 또는 인간, 원숭이 등의 영장류, 래트, 마우스 등의 설치류 등과 같은 포유류로부터 유래된 것일 수 있으나, 이에 제한된 것은 아니다. 예컨데, 상기 아노신 디아미네이즈는 TadA(tRNA-specific adenosine deaminase) 또는 ADA(adenosine deaminase) 패밀리에 속하는 효소들 중에서 선택된 하나 이상일 수 있다.
상기 아데노신 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2 또는 ADAT3일 수 있으나, 이에 제한된 것을 아니다.
예를 들어, 상기 아데노신 디아미네이즈는 Escherichia coli TadA, 예컨대, NCBI Accession No. NC_000913.3 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 아데노신 디아미네이즈는 Escherichia coli TadA, 예컨대, NCBI Accession No. NP_417054.2 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 아데노신 디아미네이즈는 인간 ADA, 예컨대, NCBI Accession No. NM_000022, NM_001322050, NM_001322051 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 아데노신 디아미네이즈는 인간 ADA, 예컨대, NCBI Accession No. NP_000013, NP_001308979, NP_001308980 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 아데노신 디아미네이즈는 마우스 ADA, 예컨대, NCBI Accession No. NM_001272052, NM_007398 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 아데노신 디아미네이즈는 마우스 ADA, 예컨대, NCBI Accession No. NP_001258981, NP_031424 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 아데노신 디아미네이즈는 인간 ADAR2, 예컨대, NCBI Accession No. NM_001033049, NM_001112, NM_001160230, NM_015833, NM_015834 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 아데노신 디아미네이즈는 인간 ADAR2, 예컨대, NCBI Accession No. NP_001103, NP_001153702, NP_001333616, NP_001333617, NP_056648 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 아데노신 디아미네이즈는 마우스 ADAR2, 예컨대, NCBI Accession No. NM_001024837, NM_001024838, NM_001024839, NM_001024840, NM_130895 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 아데노신 디아미네이즈는 마우스 ADAR2, 예컨대, NCBI Accession No. NP_001020008, NP_570965, NP_001020009 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 아데노신 디아미네이즈는 인간 ADAT2, 예컨대, NCBI Accession No. NM_182503.3, NM_001286259.1 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 아데노신 디아미네이즈는 인간 ADAT2, 예컨대, NCBI Accession No. NP_001273188.1, NP_872309.2 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
상기 아데노신 디아미네이즈는 adA variants, ADAR2 variants 및 ADAT2 variants 중 어느 하나일 수 있으나, 이에 제한되는 것은 아니다.
예를 들어, ADAR2 variants는 다음으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다. 인간 ADAR2를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001282225, NM_001282226, NM_001282227, NM_001282228, NM_001282229, NM_017424, NM_177405등으로 표현되는 CDA 유전자일 수 있다.
상기 아데노신 디아미네이즈는 아데노신 디아미네이즈 변이체일 수 있다.
상기 아데노신 디아미네이즈 변이체는 야생형 아데노신 디아미네이즈보다 아데노신 디아미네이즈 활성(adenine deaminase activity)이 증가된 효소일 수 있다.
예를 들어, 아데노신 디아미네이즈 변이체는 상기 아데노신 디아미네이즈 내 하나 이상의 아미노산 서열이 변형된 효소일 수 있다.
상기 아데노신 디아미네이즈는 아데노신 디아미네이즈 변이체일 수 있다.
상기 아데노신 디아미네이즈 변이체는 아생형 아데노신 디아미네이즈보다 아데노신 디아미네이즈 활성(adenosine deaminase activity)가 증가된 효소일 수 있다. 이때, 상기 아데노신 디아미네이즈 활성은 아데닌(adenine), 아데노신(adenosine), 데옥시아데노신(deoxyadenosine) 또는 이의 유사체의 아미노(-NH2)기의 제거 또는 케토(=O)기로 치환 반응을 포함하는 것일 수 있으나, 이에 제한되지 않는다.
상기 아데노신 디아미네이즈 변이체는 아생형 아데노신 디아미네이즈을 구성하는 아미노산 서열 중 선택된 하나 이상의 아미노산 서열이 변형된 효소일 수 있다.
이때, 아미노산 서열의 변형은 하나 이상의 아미노산의 치환, 결실 및 삽입 중에서 선택된 어느 하나일 수 있다.
상기 아데노신 디아미네이즈 변이체는 TadA 변이체, Tad2p 변이체, ADA 변이체, ADA1 변이체, ADA2 변이체, ADAR2 변이체, ADAT2 변이체 또는 ADAT3 변이체일 수 있으나, 이에 제한된 것은 아니다.
예를 들어, 상기 아데노신 디아미네이즈는 TadA 변이체일 수 있다. 일 예로, 상기 TadA 변이체는 ABE0.1, ABE1.1, ABE1.2, ABE2.1, ABE2.9, ABE2.10, ABE3.1, ABE4.3, ABE5.1, ABE5.3, ABE6.3, ABE6.4, ABE7.4, ABE7.8, ABE7.9 또는 ABE7.10일 수 있으며, 상기 TadA 변이체에 대한 구체적인 내용은 논문 “base editing of A,T to C, G in genomic DNA without DNA cleavage”(Nicole M. Gaudelli et al., (2017) Nature, 551, 464-471)에 자세히 기재되어 있으므로, 해당 문헌을 참고할 수 있다.
상기 아데노신 디아미네이즈는 융합 아데노신 디아미네이즈일 수 있다.
본 출원에서 제공되는 디아미네이즈, 예를 들어, 시티딘 디아미네이즈 또는 아데노신 디아미네이즈는 하나 이상의 기능적 도메인이 연결되어 융합된 형태로 제공될 수 있다.
이때, 상기 디아미네이즈 및 상기 기능적 도메인은 각각의 기능이 발현되도록 연결 또는 융합된 것일 수 있다.
아데노신 디아아데노신 디아아데노신 디아상기 기능적 도메인은 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합(nucleic acid binding) 활성을 가지는 도메인일 수 있으며, 또는 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있으나, 이에 제한되지 않는다.
상기 기능적 도메인은 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있다.
이 때, 상기 태그는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 중 어느 하나를 포함할 수 있다. 이 때, 상기 리포터 유전자는 자가형광 단백질, 예를 들면 글루타티온-S-트랜스 퍼라제(GST), 호스래디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP) 및 청색 형광 단백질(BFP) 중 어느 하나를 포함할 수 있다. 다만, 이들에 한정되지 않는다.
상기 기능적 도메인은 NLS(nuclear localization sequence or signal) 또는 NES(nuclear export sequence or signal)일 수 있다.
이때, 상기 NLS는 CRISPR 효소의 아미노 말단 또는 그 근처; 카르복시 말단 또는 그 근처; 또는 이들의 조합에 하나 이상의 NLS를 포함할 수 있다. 상기 NLS는 하기로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다: 아미노산 서열 PKKKRKV(서열번호 23)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK(서열번호 24)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD(서열번호 25) 또는 RQRRNELKRSP(서열번호 26)를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(서열번호 27)를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(서열번호 28); 마이오마(myoma) T 단백질의 서열 VSRKRPRP(서열번호 29) 및 PPKKARED(서열번호 30); 인간 p53의 서열 POPKKKPL(서열번호 31); 마우스 c-abl IV의 서열 SALIKKKKKMAP(서열번호 32); 인플루엔자 바이러스 NS1의 서열 DRLRR(서열번호 33) 및 PKQKKRK(서열번호 34); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL(서열번호 35); 마우스 Mx1 단백질의 서열 REKKKFLKRR(서열번호 36); 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK(서열번호 37); 및 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK(서열번호 38) 중 선택된 어느 하나 이상일 수 있다.
상기 기능적 도메인은 다른 도메인, 펩타이드, 폴리펩타이드 또는 단백질과 복합체를 형성할 수 있도록 하는 결합 도메인 일 수 있다.
상기 결합 도메인은 FRB 및 FKBP dimerization domains 중 하나; 인테인(intein); ERT 및 VPR domains 중 하나; GCN4 peptide 및 single chain variable fragment (scFv) 중 하나 또는 이량이질체(heterodimer)를 형성하는 도메인일 수 있다.
상기 결합 도메인은 scFv 일 수 있다. 이 때, 상기 scFv는 GCN4 pepetide과 페어이며, 상기 GCN4과 특이적으로 결합 또는 연결될 수 있다.
일 예로, 상기 아데노신 디아미네이즈에 scFv 기능적 도메인이 연결된 제1 융합단백질은 GCN4 peptide를 포함하는 펩타이드, 폴리펩타이드, 단백질 또는 제2 융합단백질과 서로 결합될 수 있다,
[단일염기 치환 단백질의 제2 구성 - DNA 글리코실레이즈]
DNA 글리코실레이즈는 염기절제회복(Base Excision Repair, BER)에 관여하는 효소이고, BER은 DNA의 손상된 염기를 제거하고 교체하는 메커니즘이다. DNA 글리코실레이즈는 DNA내 염기와 디옥시리보오스(deoxyribose) 사이의 N-글리코시드결합(N-glycoside linkage)을 가수분해하여 상기 메커니즘의 첫 단계를 촉매한다. DNA 글리코실레이즈는 sugar-phosphate 백본(backbone)을 그대로 남겨둔 채 손상된 질소성 염기(nitrogenous base)를 제거한다.
본 출원의 글리코실레이즈는 우라실-DNA 글리코실레이즈일 수 있다.
우라실 DNA 글리코실레이즈는 DNA에 존재하는 우라실(U)를 제거하여 DNA의 돌연변이를 방지하는 작용을 하는 효소로서, 우라실의 N-glycosylic bond를 절단함으로서 base-excision repair(BER) pathway를 개시하도록 하는 역할을 하는 모든 효소들 중에서 1종 이상 선택될 수 있다.
상기 글리코실가수분해효소는 Uracil-DNA glycosylase(UDG or UNG)일 수 있다. 상기 Uracil-DNA glycosylase(UNG)은 다음으로 이루어진 군에서 선택될 수 있으나, 이에 제한되는 것은 아니다: 인간 UNG(e.g., NCBI Accession No. NP_003353, NP_550433)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_080911, NM_003362로 표현되는 UNG 유전자, 또는 마우스 UNG 유전자 (e.g., NCBI Accession No. NP_001035781, NP_035807)를 암호화하는 유전자, 예컨대, NCBI Accession No. NM_001040691, NM_011677으로 표현되는 UNG 유전자 또는 Escherichia coli UNG (e.g., NCBI Accession No. ADX49788.1, ACT28166.1, EFN36865.1, BAA10923.1, ACA76764.1, ACX38762.1, EFU59768.A, EFU53885.A, EFJ57281.1, EFU47398.1, EFK71412.1, EFJ92376.1, EFJ79936.1, EFO59084.1, EFK47562.1, KXH01728.1, ESE25979.1, ESD99489.1, ESD73882.1, ESD69341.1)을 암호화하는 유전자.
상기 DNA 글리코실레이즈는 우라실 DNA 글리코실레이즈 변이체일 수 있다. 상기 우라실 DNA 글리코실레이즈 변이체는 야생형 우라실 DNA 글리코실레이즈보다 DNA 글리코실레이즈 활성(DNA glycosylase activity)이 증가된 효소일 수 있다.
예를 들어, 우라실 DNA 글리코실레이즈 변이체는 야생형 우라실 DNA 글리코실레이즈의 하나 이상의 아미노산 서열이 변형된 효소일 수 있다. 이때, 아미노산 서열의 변형은 적어도 하나 이상의 아미노산의 치환, 결실, 삽입 또는 이의 조합일 수 있다.
상기 글리코실레이즈는 융합 우라실-DNA 글리코실레이즈 일 수 있다.
본 출원의 글리코실레이즈는 알킬아데닌 DNA 글리코실레이즈(alkyladenine DNA glycosylase, AAG)일 수 있다.
알킬아데닌 DNA 글리코실레이즈는 DNA에 존재하는 알킬화되거나 탈아미노화된 염기를 제거하여 DNA의 돌연변이를 방지하는 작용을 하는 효소로서, 알킬화되거나 탈아미노화된 염기의 N-glycosidic bond의 가수분해(hydrolysis)를 촉매함으로서 base-excision repair(BER) pathway를 개시하도록 하는 역할을 하는 모든 효소들 중에서 1종 이상 선택될 수 있다.
상기 DNA 글리코실레이즈는 알킬아데닌 DNA 글리코실레이즈(Alkyladenine DNA glycosylase(AAG)) 또는 이의 변이체일 수 있다.
예를 들어, 상기 알킬아데닌 DNA 글리코실레이즈(AAG)는 인간 AAG, 예컨대, NCBI Accession No. NM_002434, NM_001015052, NM_001015054 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 알킬아데닌 DNA 글리코실레이즈(AAG)는 인간 AAG, 예컨대, NCBI Accession No. NP_001015052, NP_001015054, NP_002425 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
예를 들어, 상기 알킬아데닌 DNA 글리코실레이즈(AAG)는 마우스 AAG, 예컨대, NCBI Accession No. NM_010822 등으로 표현되는 유전자 또는 mRNA에 의해 발현되는 단백질 또는 폴리펩타이드일 수 있다. 또는, 상기 알킬아데닌 DNA 글리코실레이즈 (AAG)는 인간 AAG, 예컨대, NCBI Accession No. NP_034952 등으로 표현되는 단백질 또는 폴리펩타이드일 수 있다.
상기 DNA 글리코실레이즈는 알킬아데닌 DNA 글리코실레이즈 변이체일 수 있다. 상기 알킬아데닌 DNA 글리코실레이즈 변이체는 야생형 알킬아데닌 DNA 글리코실레이즈보다 DNA 글리코실레이즈 활성(DNA glycosylase activity)이 증가된 효소일 수 있다.
예를 들어, 알킬아데닌 DNA 글리코실레이즈 변이체는 야생형 알킬아데닌 DNA 글리코실레이즈의 하나 이상의 아미노산 서열이 변형된 효소일 수 있다. 이때, 아미노산 서열의 변형은 적어도 하나 이상의 아미노산의 치환, 결실, 삽입 또는 이의 조합일 수 있다.
상기 글리코실레이즈는 융합 알킬아데닌 DNA 글리코실레이즈 일 수 있다.
본 출원은 우라실 DNA 글리코실레이즈 또는 알킬아데닌 DNA 글리코실레이즈에 하나 이상의 기능적 도메인이 연결된 융합 우라실 DNA 글리코실레이즈 또는 융합 알킬아데닌 DNA 글리코실레이즈를 제공할 수 있다. 이때, 상기 우라실 DNA 글리코실레이즈 또는 상기 알킬아데닌 DNA 글리코실레이즈 및 상기 기능적 도메인의 각각의 기능이 발현되도록 연결 또는 융합된 것일 수 있다.
상기 기능적 도메인은 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합(nucleic acid binding) 활성을 가지는 도메인일 수 있으며, 또는 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있으나, 이에 제한되지 않는다.
이 때, 상기 기능적 도메인은 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있다.
이 때, 상기 태그는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 중 어느 하나를 포함할 수 있다. 이 때, 상기 리포터 유전자는 자가형광 단백질, 예를 들면 글루타티온-S-트랜스 퍼라제(GST), 호스래디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP) 및 청색 형광 단백질(BFP) 중 어느 하나를 포함할 수 있다. 다만, 이들에 한정되지 않는다.
상기 기능적 도메인은 NLS(nuclear localization sequence or signal) 또는 NES(nuclear export sequence or signal)일 수 있다.
이때, 상기 NLS는 CRISPR 효소의 아미노 말단 또는 그 근처; 카르복시 말단 또는 그 근처; 또는 이들의 조합에 하나 이상의 NLS를 포함할 수 있다. 상기 NLS는 하기로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다: 아미노산 서열 PKKKRKV(서열번호 23)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK(서열번호 24)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD(서열번호 25) 또는 RQRRNELKRSP(서열번호 26)를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(서열번호 27)를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(서열번호 28); 마이오마(myoma) T 단백질의 서열 VSRKRPRP(서열번호 29) 및 PPKKARED(서열번호 30); 인간 p53의 서열 POPKKKPL(서열번호 31); 마우스 c-abl IV의 서열 SALIKKKKKMAP(서열번호 32); 인플루엔자 바이러스 NS1의 서열 DRLRR(서열번호 33) 및 PKQKKRK(서열번호 34); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL(서열번호 35); 마우스 Mx1 단백질의 서열 REKKKFLKRR(서열번호 36); 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK(서열번호 37); 및 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK(서열번호 38) 중 선택된 어느 하나 이상일 수 있다.
상기 기능적 도메인은 다른 도메인, 펩타이드, 폴리펩타이드 또는 단백질과 복합체를 형성할 수 있도록 하는 결합 도메인 일 수 있다.
상기 결합 도메인은 FRB 및 FKBP dimerization domains 중 하나; 인테인(intein); ERT 및 VPR domains 중 하나; GCN4 peptide 및 single chain variable fragment (scFv) 중 하나 또는 이량이질체(heterodimer)를 형성하는 도메인일 수 있다.
상기 결합 도메인은 scFv 일 수 있다. 이 때, 상기 scFv는 GCN4 pepetide과 페어이며, 상기 GCN4과 특이적으로 결합 또는 연결될 수 있다.
일 예로, 상기 우라실 DNA 글리코실레이즈 또는 상기 알킬아데닌 DNA 글리코실레이즈에 scFv 기능적 도메인이 연결된 제1 융합단백질은 GCN4 peptide를 포함하는 펩타이드, 폴리펩타이드, 단백질 또는 제2 융합단백질과 서로 결합될 수 있다,
[단일염기 치환 단백질의 제3 구성 - CRISPR 효소]
본 출원에서 제공하는 단일염기 치환 단백질은 CRISPR 효소 또는 이를 포함하는 CRISPR 시스템을 포함한다. 본 명세서에서 CRISPR 효소는 CRISPR 단백질로 칭해질 수 있다.
CRISPR 시스템은 게놈 DNA 상에서 PAM(proto-spaceradjacent Motif)서열 주변의 표적 핵산서열을 표적하여 인위적인 돌연변이를 도입할 수 있는 시스템이다. 구체적으로, 상기 가이드 RNA과 Cas단백질은 서로 결합하여(또는 상호작용하여) 가이드 RNA-Cas단백질 복합체를 형성하고, 목적하는 DNA 서열을 절단함으로써, 게놈 DNA 상에 돌연변이 인델(indel)을 유도할 수 있다.
상기 가이드 RNA, Cas단백질, 가이드 RNA-Cas단백질 복합체에 대한 보다 구체적인 설명은 한국 공개특허 제10-2017-0126636호를 참조할 수 있다.
Cas 단백질은 천연형 단백질 외에도 가이드 RNA와 협동하여 활성화된 엔도뉴클레아제 또는 니케이즈(Nickase)로 작용할 수 있는 변이체를 모두 포함하는 개념으로 본 명세서에서 사용된다. 활성화된 엔도뉴클레아제 또는 니케이즈인 경우, 표적 핵산서열을 절단할 수 있고, 이를 이용하여 핵산서열을 조작 또는 변형시킬 수 있다. 또한, 불활성화된 변이체인 경우, 이를 이용하여 전사를 조절하거나 목적하는 DNA를 분리할 수 있다.
본 출원에서 CRISPR 단백질은 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속(Streptococcus sp.), 스타필로코커스 아우레스(Staphylococcus aureus), 캄필로박터 제주니 (Campylobacter jejuni), 노카르디옵시스 다손빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 알리사이클로바클루스 아시도칼다리우스(AlicyclobacHlus acidocaldarius), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실러스 델브루에키이(Lactobacillus delbrueckii), 락토바실러스 살리바리우스(Lactobacillus salivarius), 미크로스 킬라 마리나(Microscilla marina), 부르크홀데리아레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 속(Polaromonas sp.), 크로코스파에라 와트소니이(Crocosphaera watsonii), 시아노테세 속(Cyanothece sp.), 마이크로시스티스 아에루기노사(Microcystis aeruginosa), 시네코코커스 속(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시럽토 베시이(Caldicelulosiruptor bescii), 칸디다투스 데술포루디스(Candidatus Desulforudis), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 디피실레(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라나에로비우스 써모필러스 (Natranaerobius thermophilus), 펠로토마쿨럼 써모프로피오니쿰(Pelotomaculum thermopropionicum), 아시디티오바실러스 칼두스(Acidithiobacillus caldus), 아시디티오바실러스 페로옥시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 속(Marinobacter sp.), 니트로소코커스 할로필러스(Nitrosococcus halophilus), 니트로소코커스 와트소니(Nitrosococcus watsoni), 슈도알테로 모나스 할로플란크티스(Pseudoalteromonas haloplanktis), 크테도노박테르 라세미페르(Ktedonobacter racemifer), 메타노할로비움 에베스티가툼(Methanohalobium evestigatum), 아나베나 바리아빌리스(Anabaena variabilis), 노둘라리아 스푸미게나(Nodularia spumigena), 노스톡 속(Nostoc sp.), 아르트로스피라 맥시마(Arthrospira maxima), 아르트로스피라 플라텐시스(Arthrospira platensis), 아르트로스피라 속(Arthrospira sp.), 링비아속(Lyngbya sp.), 마이크로콜레우스 크토노플라스테스(Microcoleus chthonoplastes), 오실라토리아 속(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus) 또는 아카리오클로리스 마리나(Acaryochloris marina) 등 다양한 미생물 유래의 Cas9 또는 Cpf1 일 수 있다.
상기 CRISPR 효소는 완전 활성을 가지는 CRISPR 효소일 수 있다.
일 실시예에서, 상기 완전활성을 가지는 CRISPR 효소 변이체는 SpCas9 스트렙토코커스 피요젠스(streptococcus pyogenes)유래의 Cas9단백질의 변이체일 수 있다. 이하, 변이의 예들을 나열한다:
E108G, E217A, A262T, R324L, S409I, E480K, E543D, M694I, E1219V, E480K, E543D, E1219V, A262T, S409I, E480K, E543D, E1219V, A262T, S409I, E480K, E543D, M694I, E1219V, E108G, E217A, A262T, S409I, E480K, E543D, M694I, E1219V, A262T, R324L, S409I, E480K, E543D, M694I, E1219V, L111R, D1135V, G1218R, E1219F, A1322R, R1335V 및 T1337R 중 하나 이상의 아미노산이 치환된 효소일 수 있다. 이때, 상기 CRISPR 효소 변이체는 상이한 PAM 서열을 인식할 수 있으며, 이러한 CRISPR 효소 변이체는 CRISPR 효소가 인식할 수 있는 PAM 서열의 시퀀스의 길이를 줄임으로써 게놈 내 타겟 핵산서열을 확장할 수 있고, 핵산 근접 능력을 향상시킬 수 있다.
구체 예로, SpCas9의 경우, SpCas9를 L111R, D1135V, G1218R, E1219F, A1322R, R1335V 및 T1337R와 같이 변이(mutation)시키면, 상기 SpCas9변이체는 기존의 인식하던 PAM 서열'NGG'에서 PAM 서열 'NG'만 인식하여 작동할 수 있다(N은 A, T, C, G 중 하나임).
이 때, 상기 SpCas9(L111R, D1135V, G1218R, E1219F, A1322R, R1335V 및 T1337R) 변이체는 'Nureki Cas9'와 혼용하여 사용될 수 있다(“CRISPR-Cas9 nuclease with expanded targeting space”masu et al., (2018) Science 361, 1259-1262).
상기 CRISPR 효소는 니케이즈(nickase)일 수 있다.
예를 들어, 상기 Type II CRISPR 효소가 야생형 SpCas9의 경우, 상기 니케이즈는 야생형 SpCas9의 아미노산 서열 840번 히스티딘을 알라닌으로 변이(mutation)시켜 HNH 도메인의 뉴클레아제 활성이 불활성화된 SpCas9 변이체일 수 있다. 이때 생성된 니케이즈, 즉, SpCas9 변이체는 RuvC 도메인에 의한 뉴클레아제 활성을 가지므로, 타겟 유전자 또는 핵산의 비상보성 가닥, 즉, gRNA와 상보적인 결합을 하지 않는 가닥을 절단할 수 있다.
또 다른 예를 들어, 상기 Type II CRISPR 효소가 야생형 CjCas9의 경우, 상기 니케이즈는 야생형 CjCas9의 아미노산 서열 559번 히스티딘을 알라닌으로 변이(mutation)시켜 HNH 도메인의 뉴클레아제 활성이 불활성화된 CjCas9 변이체일 수 있다. 이때 생성된 니케이즈, 즉, CjCas9 변이체는 RuvC 도메인에 의한 뉴클레아제 활성을 가지므로, 타겟 유전자 또는 핵산의 비상보성 가닥, 즉, gRNA와 상보적인 결합을 하지 않는 가닥을 절단할 수 있다.
또한, 상기 니케이즈는 CRISPR 효소의 HNH 도메인에 의한 뉴클레아제 활성을 가질 수 있다. 즉, 상기 니케이즈는 CRISPR 효소의 RuvC 도메인에 의한 뉴클레아제 활성을 포함하지 않을 수 있으며, 이를 위해 RuvC 도메인은 조작 또는 변경될 수 있다.
일 예로, 상기 CRISPR 효소가 Type II CRISPR 효소일 때, 상기 니케이즈는 변형된 RuvC 도메인을 포함하는 Type II CRISPR 효소일 수 있다.
예를 들어, 상기 Type II CRISPR 효소가 야생형 SpCas9의 경우, 상기 니케이즈는 야생형 SpCas9의 아미노산 서열 10번 아스파르트산을 알라닌으로 변이(mutation)시켜 RuvC 도메인의 뉴클레아제 활성이 불활성화된 SpCas9 변이체일 수 있다. 이때 생성된 니케이즈, 즉, SpCas9 변이체는 HNH 도메인에 의한 뉴클레아제 활성을 가지므로, 타겟 유전자 또는 핵산의 상보성 가닥, 즉, gRNA와 상보적인 결합을 하는 가닥을 절단할 수 있다.
또 다른 예를 들어, 상기 Type II CRISPR 효소가 야생형 CjCas9의 경우, 상기 니케이즈는 야생형 CjCas9의 아미노산 서열 8번 아스파르트산을 알라닌으로 변이(mutation)시켜 RuvC 도메인의 뉴클레아제 활성이 불활성화된 CjCas9 변이체일 수 있다. 이때 생성된 니케이즈, 즉, CjCas9 변이체는 HNH 도메인에 의한 뉴클레아제 활성을 가지므로, 타겟 유전자 또는 핵산의 상보성 가닥, 즉, gRNA와 상보적인 결합을 하는 가닥을 절단할 수 있다.
일 실시예에서, 상기 니케이즈는 Nureki Cas9의 아미노산 서열 10번 아스파르트산을 알라닌으로 변이(mutation)시켜 RuvC 도메인의 뉴클레아제 활성이 불활성화된 Nureki Cas9 변이체, 즉, Nureki Cas9 니케이즈(Nureki nCas9)일 수 있다. 이때 생성된 Nureki nCas9은 HNH 도메인에 의한 뉴클레아제 활성을 가지므로, 타겟 유전자 또는 핵산의 상보성 가닥, 즉, gRNA와 상보적인 결합을 하는 가닥을 절단할 수 있다.
다른 일 실시예에서, 상기 니케이즈는 Nureki Cas9의 아미노산 서열 840번 히스티딘을 알라닌으로 변이(mutation)시켜 HNH 도메인의 뉴클레아제 활성이 불활성화된 Nureki Cas9 변이체, 즉, Nureki Cas9 니케이즈(Nureki nCas9)일 수 있다. 이때 생성된 Nureki nCas9은 RuvC 도메인에 의한 뉴클레아제 활성을 가지므로, 타겟 유전자 또는 핵산의 비상보성 가닥, 즉, gRNA와 상보적인 결합을 하지 않는 가닥을 절단할 수 있다.
상기 CRISPR 효소는 불활성 CRISPR 효소일 수 있다.
“불활성”은 야생형 CRISPR 효소의 기능, 즉, DNA의 이중 가닥 중 제1 가닥을 절단하는 제1 기능 및 DNA의 이중 가닥 중 제2 가닥을 절단하는 제2 기능이 모두 상실된 상태를 의미한다. 이러한 상태의 CRISPR 효소는 불활성 CRISPR 효소로 명칭한다.
상기 불활성 CRISPR 효소는 야생형 CRISPR 효소의 뉴클레아제 활성을 가지는 도메인에 변이로 인한 뉴클레아제 불활성을 가질 수 있다.
상기 불활성 CRISPR 효소는 RuvC 도메인 및 HNH 도메인에 변이로 인한 뉴클레아제 불활성을 가질 수 있다. 즉, 상기 불활성 CRISPR 효소는 CRISPR 효소의 RuvC 도메인 및 HNH 도메인에 의한 뉴클레아제 활성을 포함하지 않을 수 있으며, 이를 위해 RuvC 도메인 및 HNH 도메인은 조작 또는 변경될 수 있다.
일 예로, 상기 CRISPR 효소가 Type II CRISPR 효소일 때, 상기 불활성 CRISPR 효소는 변형된 RuvC 도메인 및 HNH 도메인을 포함하는 Type II CRISPR 효소일 수 있다.
예를 들어, 상기 Type II CRISPR 효소가 야생형 SpCas9의 경우, 상기 불활성 CRISPR 효소는 야생형 SpCas9의 아미노산 서열 10번 아스파르트산과 840번 히스티딘을 모두 알라닌으로 변이(mutation)시켜 RuvC 도메인 및 HNH 도메인의 뉴클레아제 활성이 불활성화된 SpCas9 변이체일 수 있다. 이때 생성된 불활성 CRISPR 효소, 즉, SpCas9 변이체는 RuvC 도메인 및 HNH 도메인의 뉴클레아제 활성이 불활성 되므로, 타겟 유전자 또는 핵산의 이중가닥을 모두 절단할 수 없다.
또 다른 예를 들어, 상기 Type II CRISPR 효소가 야생형 CjCas9의 경우, 상기 불활성 CRISPR 효소는 야생형 CjCas9의 아미노산 서열 8번 아스파르트산과 559번 히스티딘을 모두 알라닌으로 변이(mutation)시켜 RuvC 도메인 및 HNH 도메인의 뉴클레아제 활성이 불활성화된 CjCas9 변이체일 수 있다. 이때 생성된 불활성 CRISPR 효소, 즉, CjCas9 변이체는 RuvC 도메인 및 HNH 도메인의 뉴클레아제 활성이 불활성 되므로, 타겟 유전자 또는 핵산의 이중가닥을 모두 절단할 수 없다.
또한, 본 출원은 기능적 도메인에 연결된 CRISPR 효소를 제공할 수 있다. 이때, 상기 CRISPR 효소 변이체는 야생형 CRISPR 효소의 원래 기능 이외에 부가적인 기능을 가질 수 있다.
상기 기능적 도메인은 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합(nucleic acid binding) 활성을 가지는 도메인일 수 있으며, 또는 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있으나, 이에 제한되지 않는다.
상기 기능적 도메인은 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있다.
이 때, 상기 태그는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 중 어느 하나를 포함할 수 있다. 이 때, 상기 리포터 유전자는 자가형광 단백질, 예를 들면 글루타티온-S-트랜스 퍼라제(GST), 호스래디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP) 및 청색 형광 단백질(BFP) 중 어느 하나를 포함할 수 있다. 다만, 이들에 한정되지 않는다.
상기 기능적 도메인은 NLS(nuclear localization sequence or signal) 또는 NES(nuclear export sequence or signal)일 수 있다.
이때, 상기 NLS는 CRISPR 효소의 아미노 말단 또는 그 근처; 카르복시 말단 또는 그 근처; 또는 이들의 조합에 하나 이상의 NLS를 포함할 수 있다. 상기 NLS는 하기로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다: 아미노산 서열 PKKKRKV(서열번호 23)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK(서열번호 24)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD(서열번호 25) 또는 RQRRNELKRSP(서열번호 26)를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY(서열번호 27)를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV(서열번호 28); 마이오마(myoma) T 단백질의 서열 VSRKRPRP(서열번호 29) 및 PPKKARED(서열번호 30); 인간 p53의 서열 POPKKKPL(서열번호 31); 마우스 c-abl IV의 서열 SALIKKKKKMAP(서열번호 32); 인플루엔자 바이러스 NS1의 서열 DRLRR(서열번호 33) 및 PKQKKRK(서열번호 34); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL(서열번호 35); 마우스 Mx1 단백질의 서열 REKKKFLKRR(서열번호 36); 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK(서열번호 37); 및 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK(서열번호 38) 중 선택된 어느 하나 이상일 수 있다.
상기 기능적 도메인은 다른 도메인, 펩타이드, 폴리펩타이드 또는 단백질과 복합체를 형성할 수 있도록 하는 결합 도메인 일 수 있다.
상기 결합 도메인은 FRB 및 FKBP dimerization domains 중 하나; 인테인(intein); ERT 및 VPR domains 중 하나; GCN4 peptide 및 single chain variable fragment (scFv) 중 하나 또는 이량이질체(heterodimer)를 형성하는 도메인일 수 있다.
상기 결합 도메인은 GCN4 peptide 일 수 있다. 이 때, 상기 GCN4 pepetide는 scFv와 페어이며, 상기 scFv와 특이적으로 결합 또는 연결될 수 있다.
일 예로, 상기 CRISPR 효소에 GCN4 peptide 기능적 도메인이 연결된 제1 융합단백질은 scFv를 포함하는 펩타이드, 폴리펩타이드, 단백질 또는 제2 융합단백질과 서로 결합될 수 있다,
[단일염기 치환 단백질의 제1 태양 - 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산]
본 명세서에 의해 개시되는 단일염기 치환 단백질의 일 태양은 단일염기 치환 융합단백질이다.
일 예로, 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산으로서,
(a) CRISPR 효소 또는 이의 변이체;
(b) 디아미네이즈(deaminase); 및
(c) DNA 글리코실레이즈(DNA glycosylase) 또는 이의 변이체를 포함하고,
이 때, 상기 아데닌 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 염기로의 치환을 유도하는 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
일 구체예로, 상기 단일염기 치환 융합단백질은 각 구성요소 (a), (b) 및 (c)의 사이에 연결 모이어티 (linking moiety)를 포함하는 것을 특징으로 하는 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
일 구체예로, 상기 단일염기 치환 융합단백질은
(i) N말단-[CRISPR 효소]-[디아미네이즈]-[DNA 글리코실레이즈]-C말단;
(ii) N말단-[CRISPR 효소]-[DNA 글리코실레이즈]-[디아미네이즈]-C말단;
(iii) N말단-[디아미네이즈]-[CRISPR 효소]-[DNA 글리코실레이즈]-C말단;
(iv) N말단-[디아미네이즈]-[DNA 글리코실레이즈]-[CRISPR 효소]-C말단;
(v) N말단-[DNA 글리코실레이즈]-[CRISPR 효소]-[디아미네이즈]-C말단; 및
(vi) N말단-[DNA 글리코실레이즈]-[디아미네이즈]-[CRISPR 효소]-C말단 중 어느 하나의 구성을 가지는 것을 특징으로 하는 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
일 구체예로, 상기 CRISPR 효소 또는 이의 변이체는 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophilus) 유래의 Cas9 단백질, 스트렙토코커스아우레우스 (Streptococcus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis) 유래의 Cas9 단백질, 및 Cpf1 단백질로 이루어진 군에서 선택된 어느 하나 이상을 포함하는 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
일 구체예로, 상기 CRISPR 효소 변이체는 RuvC 도메인 또는 HNH 도메인 중 어느 하나 이상이 불활성화된 것을 특징으로 하는,
단일염기 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
일 구체예로, 상기 CRISPR 효소 변이체는 니케이즈(nickase)인 것을 특징으로 하는,
단일염기 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
일 구현예로 아데닌 치환 융합단백질이 제공될 수 있다.
아데닌 치환 융합단백질 또는 이를 암호화하는 핵산으로서,
(a) CRISPR 효소 또는 이의 변이체;
(b) 아데노신 디아미네이즈(adenine deaminase); 및
(c) 알킬아데닌 DNA 글리코실레이즈 또는 이의 변이체를 포함하고,
이 때, 상기 아데닌 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 아데닌을 임의의 염기로의 치환을 유도하는 아데닌 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[CRISPR 효소]-[아데노신 디아미네이즈]-[알킬아데닌알킬아데닌 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[알킬아데닌 DNA 글리코실레이즈]-[CRISPR 효소]-[아데노신 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[알킬아데닌 DNA 글리코실레이즈]-[아데노신 디아미네이즈]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[아데노신 디아미네이즈]-[CRISPR 효소]-[알킬아데닌 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[CRISPR 효소]-[알킬아데닌 DNA 글리코실레이즈]-[아데노신 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[아데노신 디아미네이즈]-[알킬아데닌 DNA 글리코실레이즈]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 추가로 연결 도메인을 더 포함할 수 있다.
일 예로, 상기 연결 도메인은 CRISPR 효소 및 아데노신 디아미네이즈, 아데노신 디아미네이즈 및 알킬아데닌 DNA 글리코실레이즈, 및/또는 CRISPR 효소 및 알킬아데닌 DNA 글리코실레이즈를 작동 가능하게 연결하는 도메인으로, CRISPR 효소, 아데노신 디아미네이즈 및 알킬아데닌 DNA 글리코실레이즈가 각자의 기능이 활성되도록 연결시켜주는 도메인일 수 있다.
일 예로, 상기 연결 도메인은 CRISPR 효소, 아데노신 디아미네이즈 및 알킬아데닌 DNA 글리코실레이즈의 기능 활성 및/또는 구조에 어떠한 영향을 미치지 않는 아미노산, 펩타이드 또는 폴리펩타이드일 수 있다.
일 예로, 상기 아데닌 염기 치환 도메인은 N말단-[CRISPR 효소]-[연결 도메인]-[아데노신 디아미네이즈]-[알킬아데닌 DNA 글리코실레이즈]-C말단; N말단-[CRISPR 효소]-[아데노신 디아미네이즈]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-C말단; 또는 N말단-[CRISPR 효소]-[연결 도메인]-[아데노신 디아미네이즈]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
일 예로, 상기 아데닌 염기 치환 단백질은 N말단-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-[아데노신 디아미네이즈]-C말단; N말단-[알킬아데닌 DNA 글리코실레이즈]-[CRISPR 효소]-[연결 도메인]-[아데노신 디아미네이즈]-C말단; 또는 N말단-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-[연결 도메인]-[아데노신 디아미네이즈]-C말단 순으로 구성될 수 있다.
일 예로, 상기 아데닌 염기 치환 단백질은 N말단-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[아데노신 디아미네이즈]-[CRISPR 효소]-C말단; N말단-[알킬아데닌 DNA 글리코실레이즈]-[아데노신 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-C말단; 또는 N말단-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[아데노신 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
일 예로, 상기 아데닌 염기 치환 단백질은 N말단-[아데노신 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-[알킬아데닌 DNA 글리코실레이즈]-C말단; N말단-[아데노신 디아미네이즈]-[CRISPR 효소]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-C말단; 또는 N말단-[아데노신 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
일 예로,상기 아데닌 염기 치환 단백질은 N말단-[CRISPR 효소]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-[아데노신 디아미네이즈]-C말단; N말단-[CRISPR 효소]-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[아데노신 디아미네이즈]-C말단; 또는 N말단-[CRISPR 효소]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[아데노신 디아미네이즈]-C말단 순으로 구성될 수 있다.
일 예로,상기 아데닌 염기 변형 단백질은 N말단-[아데노신 디아미네이즈]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-[CRISPR 효소]-C말단; N말단-[아데노신 디아미네이즈]-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-C말단; 또는 N말단-[아데노신 디아미네이즈]-[연결 도메인]-[알킬아데닌 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
일 구현예로 시토신 치환 융합단백질이 제공될 수 있다.
시토신 치환 융합단백질 또는 이를 암호화하는 핵산으로서,
(a) CRISPR 효소 또는 이의 변이체;
(b) 시티딘 디아미네이즈(cytidine deaminase); 및
(c) 우라실 DNA 글리코실레이즈(Uracil DNA glycosylase) 또는 이의 변이체를 포함하고,
이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신을 임의의 염기로의 치환을 유도하는 시토신 치환 융합단백질 또는 이를 암호화하는 핵산일 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[CRISPR 효소]-[시티딘 디아미네이즈]-[우라실 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[우라실 DNA 글리코실레이즈]-[CRISPR 효소]-[시티딘 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[우라실 DNA 글리코실레이즈]-[시티딘 디아미네이즈]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[시티딘 디아미네이즈]-[CRISPR 효소]-[우라실 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[CRISPR 효소]-[우라실 DNA 글리코실레이즈]-[시티딘 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[시티딘 디아미네이즈]-[우라실 DNA 글리코실레이즈]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 추가로 연결 도메인을 더 포함할 수 있다.
일 예로, 상기 연결 도메인은 CRISPR 효소 및 시티딘 디아미네이즈; 시티딘 디아미네이즈 및 우라실 DNA 글리코실레이즈; 및/또는 CRISPR 효소 및 우라실 DNA 글리코실레이즈를 작동 가능하게 연결하는 도메인으로, CRISPR 효소, 시티딘 디아미네이즈 및 우라실 DNA 글리코실레이즈가 각자의 기능이 활성되도록 연결시켜주는 도메인일 수 있다.
일 예로, 상기 연결 도메인은 CRISPR 효소, 시티딘 디아미네이즈 및 우라실 DNA 글리코실레이즈의 기능 활성 및/또는 구조에 어떠한 영향을 미치지 않는 아미노산, 펩타이드 또는 폴리펩타이드일 수 있다.
일 예로, 상기 시토신 염기 치환 도메인은 N말단-[CRISPR 효소]-[연결 도메인]-[시티딘 디아미네이즈]-[우라실 DNA 글리코실레이즈]-C말단; N말단-[CRISPR 효소]-[시티딘 디아미네이즈]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-C말단; 또는 N말단-[CRISPR 효소]-[연결 도메인]-[시티딘 디아미네이즈]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
일 예로, 상기 시토신 염기 치환 단백질은 N말단-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-[시티딘 디아미네이즈]-C말단; N말단-[우라실 DNA 글리코실레이즈]-[CRISPR 효소]-[연결 도메인]-[시티딘 디아미네이즈]-C말단; 또는 N말단-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-[연결 도메인]-[시티딘 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[시티딘 디아미네이즈]-[CRISPR 효소]-C말단; N말단-[우라실 DNA 글리코실레이즈]-[시티딘 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-C말단; 또는 N말단-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[시티딘 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[시티딘 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-[우라실 DNA 글리코실레이즈]-C말단; N말단-[시티딘 디아미네이즈]-[CRISPR 효소]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-C말단; 또는 N말단-[시티딘 디아미네이즈]-[연결 도메인]-[CRISPR 효소]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 치환 단백질은 N말단-[CRISPR 효소]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-[시티딘 디아미네이즈]-C말단; N말단-[CRISPR 효소]-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[시티딘 디아미네이즈]-C말단; 또는 N말단-[CRISPR 효소]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[시티딘 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 시토신 염기 변형 단백질은 N말단-[시티딘 디아미네이즈]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-[CRISPR 효소]-C말단; N말단-[시티딘 디아미네이즈]-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-C말단; 또는 N말단-[시티딘 디아미네이즈]-[연결 도메인]-[우라실 DNA 글리코실레이즈]-[연결 도메인]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
[단일염기 치환 단백질의 제2 태양 - 단일염기 치환 복합체]
본 명세서에 의해 개시되는 단일염기 치환 단백질의 일 태양은 단일염기 치환 복합체이다.
일 예로, 단일염기 치환 복합체로서,
(a) CRISPR 효소 또는 이의 변이체;
(b) 디아미네이즈(deaminase);
(c) DNA 글리코실레이즈(DNA glycosylase); 및
(d) 2 이상의 결합도메인을 포함하고,
이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 염기로의 치환을 유도하는 단일염기 치환 복합체일 수 있다.
일 예로, 상기 단일염기 치환 복합체는 상기 CRISPR 효소가 2 이상의 결합도메인과 연결된 것을 특징으로 할 수 있다.
이 때, 상기 CRISPR 효소에 연결된 상기 2 이상의 결합도메인 중 어느 하나는 상기 (b) 디아미네이즈에 연결된 결합도메인과 페어이고 다른 하나는 상기 (c) DNA 글리코실레이즈에 연결된 결합도메인과 페어일 수 있다. 이 때, 상기 페어 사이의 결합으로 인하여 상기 구성요소 (a) CRISPR 효소, (b) 디아미네이즈 및 (c) DNA 글리코실레이즈가 복합체를 형성하여 단일염기 치환 복합체가 제공될 수 있다.
일 구체예로, 상기 2 이상의 결합도메인과 연결된 CRISPR 효소는, [결합 도메인(functional domain)]n-CRISPR 효소의 구성을 가질 수 있다(n은 2 이상의 정수일 수 있다.).
예를 들어,
[규칙 제91조에 의한 정정 02.07.2020] 
도 32 (a) 일 수 있다.
이 때, 상기 GCN4는 CRISPR 효소와 연결된 결합도메인의 일 예시이고, 다른 종류의 결합도메인이 연결될 수 있다. 이에 한정되지 않는다.
이 때, 상기 CRISPR 효소는 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개 이상의 결합도메인과 연결될 수 있다.
다른 예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 32 (b) 일 수 있다.
이 때, 상기 GCN4는 CRISPR 효소와 연결된 결합도메인의 일 예시이고, 다른 종류의 결합도메인이 연결될 수 있다. 이에 한정되지 않는다.
이 때, 상기 CRISPR 효소는 양 C말단 및 N 말단에 각각 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개 또는 10개 이상의 결합도메인과 연결될 수 있다.
본 출원에서 제공되는 단일염기 치환 복합체는,일 구체예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 33의 (a), (b) 및 (c) 구성 내 결합도메인간 특이적으로 결합하여 제공될 수 있다.
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
이 때, 상기 (a)의 결합도메인 GCN4, 상기 (b)의 결합도메인 scFv, 및 상기 (c)의 결합도메인 scFv는 하나의 예시이며 이에 제한되지 않는다. 상기 APOBEC 대신 아데노신 디아미네이즈로 대체될 수 있고, 상기 UNG 대신 알킬아데닌 DNA 글리코실레이즈로 대체될 수 있다.
이 때, 상기 하나의 (a)에 복수 개의 상기 (b) 및/또는 복수 개의 상기 (c)가 결합될 수 있다.
이 때, 상기 복수란 2, 3, 4, 5, 6, 7, 8, 9 또는 10 이상의 정수를 의미한다.
본 출원에서 제공되는 단일염기 치환 복합체는,
일 구체예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 34의 (a), (b) 및 (c) 구성 내 결합도메인간 특이적으로 결합하여 제공될 수 있다.
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
이 때, 상기 (a)의 결합도메인 GCN4, 상기 (b)의 결합도메인 scFv, 및 상기 (c)의 결합도메인 scFv는 하나의 예시이며 이에 제한되지 않는다. 상기 APOBEC 대신 아데노신 디아미네이즈로 대체될 수 있고, 상기 UNG 대신 알킬아데닌 DNA 글리코실레이즈로 대체될 수 있다.
이 때, 상기 하나의 (a)에 복수 개의 상기 (b) 및/또는 복수 개의 상기 (c)가 결합될 수 있다.
이 때, 상기 복수란 2, 3, 4, 5, 6, 7, 8, 9 또는 10 이상의 정수를 의미한다.
일 예로, 상기 단일염기 치환 복합체는 상기 디아미네이즈가 2 이상의 결합도메인과 연결된 것을 특징으로 할 수 있다. 이 때, 상기 디아미네이즈에 연결된 상기 2 이상의 결합도메인 각각은 상기 (a) CRISPR 효소에 연결된 결합도메인 및 상기 (c) DNA 글리코실레이즈에 연결된 결합도메인과 페어이다. 이 때, 상기 페어 사이의 결합으로 인하여 상기 구성요소 (a) CRISPR 효소, (b) 디아미네이즈 및 (c) DNA 글리코실레이즈가 복합체를 형성하여 단일염기 치환 복합체가 제공될 수 있다.
일 예로, 상기 단일염기 치환 복합체는 상기 DNA 글리코실레이즈가 2 이상의 결합도메인과 연결된 것을 특징으로 할 수 있다. 이 때, 상기 DNA 글리코실레이즈에 연결된 상기 2 이상의 결합도메인 각각은 상기 (a) CRISPR 효소에 연결된 결합도메인 및 상기 (b) 디아미네이즈에 연결된 결합도메인과 페어이다. 이 때, 상기 페어 사이의 결합으로 인하여 상기 구성요소 (a) CRISPR 효소, (b) 디아미네이즈 및 (c) DNA 글리코실레이즈가 복합체를 형성하여 단일염기 치환 복합체가 제공될 수 있다.
일 예로, 상기 단일염기 치환 복합체는 상기 CRISPR 효소가 2 이상의 결합도메인과 연결되고, 상기 디아미네이즈 및 상기 DNA 글리코실레이즈가 연결된 융합단백질 형태로 존재하는 것을 특징으로 할 수 있다. 이 때, 상기 융합단백질은 1 이상의 결합도메인을 포함한다. 일 구체예로, 상기 CRISPR 효소에 연결된 어느 결합도메인은 상기 융합단백질의 결합도메인과 페어이다. 이 때, 상기 페어 사이의 결합으로 인하여 상기 구성요소 (a) CRISPR 효소, (b) 디아미네이즈 및 (c) DNA 글리코실레이즈가 복합체를 형성하여 단일염기 치환 복합체가 제공될 수 있다.
본 출원에서 제공되는 단일염기 치환 복합체는,
일 구체예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 35 내 (a)의 결합도메인 및 (b)의 결합도메인간 특이적으로 결합하여 복합체를 형성한 것일 수 있다.
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
이 때, 상기 (a)의 결합도메인 GCN4 및 상기 (b)의 결합도메인 scFv는 하나의 예시이며 이에 제한되지 않는다. 상기 APOBEC 대신 아데노신 디아미네이즈 또는 다른 종류의 시티딘 디아미네이즈로 대체될 수 있고, 상기 UNG 대신 알킬아데닌 DNA 글리코실레이즈로 대체될 수 있다.
이 때, 상기 하나의 (a)에 복수 개의 상기 (b)가 결합될 수 있다.
이 때, 상기 복수란 2, 3, 4, 5, 6, 7, 8, 9 또는 10 이상의 정수를 의미한다.
본 출원에서 제공되는 단일염기 치환 복합체는,
일 구체예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 36 내 (a)의 결합도메인 및 (c)의 결합도메인간 특이적으로 결합하여 복합체를 형성한 것일 수 있다.
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
이 때, 상기 (a)의 결합도메인 GCN4 및 상기 (c)의 결합도메인 scFv는 하나의 예시이며 이에 제한되지 않는다. 상기 APOBEC 대신 아데노신 디아미네이즈 또는 다른 종류의 시티딘 디아미네이즈로 대체될 수 있고, 상기 UNG 대신 알킬아데닌 DNA 글리코실레이즈로 대체될 수 있다.
이 때, 상기 하나의 (a)에 복수 개의 상기 (b)가 결합될 수 있다.
이 때, 상기 복수란 2, 3, 4, 5, 6, 7, 8, 9 또는 10 이상의 정수를 의미한다.
본 출원에서 제공되는 단일염기 치환 복합체는,
일 구체예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 38 내 (a)의 결합도메인 및 (b)의 결합도메인간 특이적으로 결합하여 복합체를 형성한 것일 수 있다.
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
(보다 더 구체적인 일 구현예는 도 5 참고)
이 때, 상기 (a)의 결합도메인 GCN4 및 상기 (b)의 결합도메인 scFv는 하나의 예시이며 이에 제한되지 않는다. 상기 APOBEC 대신 아데노신 디아미네이즈 또는 다른 종류의 시티딘 디아미네이즈로 대체될 수 있고, 상기 UNG 대신 알킬아데닌 DNA 글리코실레이즈로 대체될 수 있다.
이 때, 상기 하나의 (a)에 복수 개의 상기 (b)가 결합될 수 있다.
이 때, 상기 복수란 2, 3, 4, 5, 6, 7, 8, 9 또는 10 이상의 정수를 의미한다.
본 출원에서 제공되는 단일염기 치환 복합체는,
일 구체예로,
[규칙 제91조에 의한 정정 02.07.2020] 
도 38 내 (a)의 결합도메인 및 (c)의 결합도메인간 특이적으로 결합하여 복합체를 형성한 것일 수 있다.
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
[규칙 제91조에 의한 정정 02.07.2020] 
[삭제]
이 때, 상기 (a)의 결합도메인 GCN4 및 상기 (b)의 결합도메인 scFv는 하나의 예시이며 이에 제한되지 않는다. 상기 APOBEC 대신 아데노신 디아미네이즈 또는 다른 종류의 시티딘 디아미네이즈로 대체될 수 있고, 상기 UNG 대신 알킬아데닌 DNA 글리코실레이즈로 대체될 수 있다.
이 때, 상기 하나의 (a)에 복수 개의 상기 (b)가 결합될 수 있다.
이 때, 상기 복수란 2, 3, 4, 5, 6, 7, 8, 9 또는 10 이상의 정수를 의미한다.
일 예로, 상기 단일염기 치환 복합체는 상기 디아미네이즈 가 2 이상의 결합도메인과 연결되고, 상기 CRISPR 효소 및 상기 DNA 글리코실레이즈가 연결된 융합단백질 형태로 존재하는 것을 특징으로 할 수 있다. 이 때, 상기 융합단백질은 1 이상의 결합도메인을 포함한다. 일 구체예로, 상기 디아미네이즈에 연결된 어느 결합도메인은 상기 융합단백질의 결합도메인과 페어이다. 이 때, 상기 페어 사이의 결합으로 인하여 상기 구성요소 (a) CRISPR 효소, (b) 디아미네이즈 및 (c) DNA 글리코실레이즈가 복합체를 형성하여 단일염기 치환 복합체가 제공될 수 있다.
일 예로, 상기 단일염기 치환 복합체는 상기 DNA 글리코실레이즈가 2 이상의 결합도메인과 연결되고, 상기 디아미네이즈 및 상기 CRISPR 효소가 연결된 융합단백질 형태로 존재하는 것을 특징으로 할 수 있다. 이 때, 상기 융합단백질은 1 이상의 결합도메인을 포함한다. 일 구체예로, 상기 DNA 글리코실레이즈에 연결된 어느 결합도메인은 상기 융합단백질의 결합도메인과 페어이다. 이 때, 상기 페어 사이의 결합으로 인하여 상기 구성요소 (a) CRISPR 효소, (b) 디아미네이즈 및 (c) DNA 글리코실레이즈가 복합체를 형성하여 단일염기 치환 복합체가 제공될 수 있다.
일 예로, 단일염기 치환 복합체는 (i) 상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈 중 선택된 두 개의 구성과 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) 상기 선택되지 않은 나머지 하나의 구성과 제2 결합도메인을 포함하는 제2 융합단백질을 포함하고, 이 때, 제1 결합도메인 및 제2 결합도메인은 상호작용하는 페어이며, 이 때, 상기 페어에 의하여 복합체를 형성함을 특징으로 하는 단일염기 치환 복합체일 수 있다. 이 때, 상기 제2 융합단백질은 제2 결합도메인 외에 복수의 결합도메인을 더 포함하는 것일 수 있다.
일 구체예로, 상기 단일염기 치환 복합체는 (i) 상기 디아미네이즈, 상기 DNA 글리코실레이즈 및 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) CRISPR 효소 및 제2 결합도메인을 포함하는 제2 융합단백질을 포함함을 특징으로 하는 단일염기 치환 복합체일 수 있다. 이 때, 상기 제2 융합단백질은 제2 결합도메인 외에 복수의 결합도메인을 더 포함하는 것일 수 있다. 이 때, 상기 제1 결합도메인은 single chain variable fragment (scFv)이고, 상기 제2 융합단백질은 GCN4 peptide일 수 있다. 이 때, 상기 scFv는 상기 GCN4 peptide와의 상호작용을 통해서 단일염기 치환 복합체를 제공할 수 있다.
일 구체예로, 상기 단일염기 치환 복합체는 (i) 상기 디아미네이즈, CRISPR 효소 및 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) DNA 글리코실레이즈 및 제2 결합도메인을 포함하는 제2 융합단백질을 포함함을 특징으로 하는 단일염기 치환 복합체일 수 있다. 이 때, 상기 제2 융합단백질은 제2 결합도메인 외에 복수의 결합도메인을 더 포함하는 것일 수 있다. 이 때, 상기 제1 결합도메인은 single chain variable fragment (scFv)이고, 상기 제2 융합단백질은 GCN4 peptide일 수 있다. 이 때, 상기 scFv는 상기 GCN4 peptide와의 상호작용을 통해서 단일염기 치환 복합체를 제공할 수 있다.
일 구체예로, 상기 단일염기 치환 복합체는 (i) 상기 CRISPR 효소, 상기 DNA 글리코실레이즈 및 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) 상기 디아미네이즈 및 제2 결합도메인을 포함하는 제2 융합단백질을 포함함을 특징으로 하는 단일염기 치환 복합체일 수 있다. 이 때, 상기 제2 융합단백질은 제2 결합도메인 외에 복수의 결합도메인을 더 포함하는 것일 수 있다. 이 때, 상기 제1 결합도메인은 single chain variable fragment (scFv)이고, 상기 제2 융합단백질은 GCN4 peptide일 수 있다. 이 때, 상기 scFv는 상기 GCN4 peptide와의 상호작용을 통해서 단일염기 치환 복합체를 제공할 수 있다.
일 예로, CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈 중 어느 하나(one)는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 다른 구성(another)의 결합도메인과 상호작용하는 페어이고, 이 때, 상기 제2 결합도메인은 나머지 구성(the other)의 결합도메인과 상호작용하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 구현예로, CRISPR 효소는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 상기 디아미네이즈의 결합도메인과 상호작용을 하는 페어이고, 상기 제2 결합도메인은 DNA 글리코실레이즈의 결합도메인과 상호작용을 하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 구현예로, 디아미네이즈는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 상기 CRISPR 효소의 결합도메인과 상호작용을 하는 페어이고, 상기 제2 결합도메인은 DNA 글리코실레이즈의 결합도메인과 상호작용을 하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 구현예로, DNA 글리코실레이즈 는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 상기 디아미네이즈의 결합도메인과 상호작용을 하는 페어이고, 상기 제2 결합도메인은 CRISPR 효소의 결합도메인과 상호작용을 하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
이 때, 결합 도메인은 FRB 및 FKBP dimerization domains 중 하나; 인테인(intein); ERT 및 VPR domains 중 하나; GCN4 peptide 및 single chain variable fragment (scFv) 중 하나 또는 이량이질체(heterodimer)를 형성하는 도메인일 수 있다.
이 때, 상기 페어는 다음 중 어느 하나의 세트일 수 있다:
FRB 및 FKBP dimerization domains;
제1 인테인(intein) 및 제2 인테인;
ERT 및 VPR domains;
GCN4 peptide 및 single chain variable fragment (scFv);
이량이질체(heterodimer)를 형성하는 제1 도메인 및 제2 도메인.
본 출원은 시토신 치환 복합체가 제공될 수 있다.
일 예로, 상기 디아미네이즈는 시티딘 디아미네이즈(cytidine deaminase)이고, 및 상기 DNA 글리코실레이즈는 우라실-DNA 글리코실레이즈(Uracil-DNA glycosylase) 또는 이의 변이체이고, 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신을 임의의 염기로의 치환을 유도하는 단일염기 치환 복합체일 수 있다.
일 예로, 상기 시티딘 디아미네이즈는 APOBEC, AID(activation-induced cytidine deaminase) 또는 이의 변이체인 것을 특징으로 하는 단일염기 치환 복합체일 수 있다.
일 예로, CRISPR 효소, 시티딘 디아미네이즈, 및 우라실 DNA 글리코실레이즈 중 어느 하나(one)는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 다른 구성(another)의 결합도메인과 상호작용하는 페어이고, 이 때, 상기 제2 결합도메인은 나머지 구성(the other)의 결합도메인과 상호작용하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 구현예로, CRISPR 효소는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 상기 디아미네이즈의 결합도메인과 상호작용을 하는 페어이고, 상기 제2 결합도메인은 DNA 글리코실레이즈의 결합도메인과 상호작용을 하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 예로, 단일염기 치환 복합체는 (i) CRISPR 효소, 시티딘 디아미네이즈, 및 우라실 DNA 글리코실레이즈 중 선택된 두 개의 구성과 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) 상기 선택되지 않은 나머지 하나의 구성과 제2 결합도메인을 포함하는 제2 융합단백질을 포함하고, 이 때, 제1 결합도메인 및 제2 결합도메인은 상호작용하는 페어이며, 이 때, 상기 페어에 의하여 복합체를 형성함을 특징으로 하는 단일염기 치환 복합체일 수 있다. 이 때, 상기 제2 융합단백질은 제2 결합도메인 외에 복수의 결합도메인을 더 포함하는 것일 수 있다.
이 때, 상기 페어는 다음 중 어느 하나의 세트일 수 있다:
FRB 및 FKBP dimerization domains;
제1 인테인(intein) 및 제2 인테인;
ERT 및 VPR domains;
GCN4 peptide 및 single chain variable fragment (scFv);
이량이질체(heterodimer)를 형성하는 제1 도메인 및 제2 도메인.
본 출원은 아데닌 치환 복합체가 제공될 수 있다.
일 예로, 상기 디아미네이즈는 아데노신 디아미네이즈이고, 및 상기 DNA 글리코실레이즈는 알킬아데닌-DNA 글리코실레이즈 또는 이의 변이체이고, 이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 아데닌을 임의의 염기로의 치환을 유도하는 단일염기 치환 복합체일 수 있다.
일 예로, 상기 아데닌시티딘 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 또는 이의 변이체인 것을 특징으로 하는 단일염기 치환 복합체일 수 있다.
일 예로, CRISPR 효소, 아데노신 디아미네이즈, 및 알킬아데닌 DNA 글리코실레이즈 중 어느 하나(one)는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 다른 구성(another)의 결합도메인과 상호작용하는 페어이고, 이 때, 상기 제2 결합도메인은 나머지 구성(the other)의 결합도메인과 상호작용하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 구현예로, CRISPR 효소는 제1 결합도메인 및 제2 결합도메인에 연결되고, 이 때, 상기 제1 결합도메인은 상기 디아미네이즈의 결합도메인과 상호작용을 하는 페어이고, 상기 제2 결합도메인은 DNA 글리코실레이즈의 결합도메인과 상호작용을 하는 페어이며, 이 때, 상기 페어들에 의하여 단일염기 치환 복합체를 제공할 수 있다.
일 예로, 단일염기 치환 복합체는 (i) CRISPR 효소, 아데노신 디아미네이즈, 및 알킬아데닌 DNA 글리코실레이즈 중 선택된 두 개의 구성과 제1 결합도메인을 포함하는 제1 융합단백질, 및 (ii) 상기 선택되지 않은 나머지 하나의 구성과 제2 결합도메인을 포함하는 제2 융합단백질을 포함하고, 이 때, 제1 결합도메인 및 제2 결합도메인은 상호작용하는 페어이며, 이 때, 상기 페어에 의하여 복합체를 형성함을 특징으로 하는 단일염기 치환 복합체일 수 있다. 이 때, 상기 제2 융합단백질은 제2 결합도메인 외에 복수의 결합도메인을 더 포함하는 것일 수 있다.
이 때, 상기 페어는 다음 중 어느 하나의 세트일 수 있다:
FRB 및 FKBP dimerization domains;
제1 인테인(intein) 및 제2 인테인;
ERT 및 VPR domains;
GCN4 peptide 및 single chain variable fragment (scFv);
이량이질체(heterodimer)를 형성하는 제1 도메인 및 제2 도메인.
본 명세서에 의해 개시되는 발명의 일 태양은 염기 치환용 조성물 및 이를 이용하는 방법이다.
단일염기 치환 조성물은 유전자 내에 하나 이상의 뉴클레오타이드의 염기를 인위적으로 변형시키는데 이용될 수 있다.
“인위적으로 변형된(artificially modified or artificially engineered)”이라는 용어는 자연상태에서 일어나는 존재 그대로의 상태가 아닌, 인위적으로 변형을 가한 상태를 의미한다. 예를 들어, 인위적으로 변형을 가한 상태는 야생형 유전자에 돌연변이를 인위적으로 발생시키도록 하는 변형일 수 있다. 이하에서 비자연적인 인위적으로 변형된 다형현상 의존 유전자는 인위적인 다형현상 의존 유전자라는 용어와 혼용되어 사용될 수 있다.
상기 염기 변형용 조성물은 추가로 가이드 RNA 또는 이를 암호화하는 핵산을 더 포함할 수 있다.
일 예로 (a) 가이드 RNA 또는 이를 암호화하는 핵산, 및 (b) 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산, 또는 단일염기 치환 복합체, 이 때, 상기 가이드 RNA는 타겟 핵산서열 과 상보적으로 결합하고, 이 때, 상기 가이드 RNA와 결합되는 타겟 핵산서열은 15 내지 25bp이고, 이 때, 상기 단일염기 치환 융합단백질 또는 상기 단일염기 치환 복합체는 상기 타겟 핵산서열을 포함하는 타겟 영역(region) 내에 존재하는 하나 이상의 시토신 또는 아데닌의 임의의 염기로의 치환을 유도함을 포함하는 단일염기 치환 조성물을 제공한다.
[염기 치환 조성물의 제1 구성 - 가이드 RNA]
염기 치환 조성물은 가이드 RNA 또는 이를 암호화하는 핵산을 포함할 수 있다.
가이드 RNA(gRNA)는 타겟 유전자 또는 핵산에 대한 gRNA-CRISPR 효소 복합체, 즉, CRISPR 복합체를 특이적으로 표적시킬 수 있는 RNA를 지칭한다. 또한, 상기 gRNA는 타겟 유전자 또는 핵산 특이적 RNA를 의미하며, CRISPR 효소과 결합하여 CRISPR 효소를 타겟 유전자 또는 핵산으로 인도할 수 있다.
가이드 RNA는 타겟 유전자 또는 핵산의 이중 가닥 중 어느 하나 가닥의 일부 서열에 상보적인 결합을 할 수 있다. 상기 일부 서열은 타겟 핵산서열을 지칭할 수 있다.
가이드 RNA는 타겟 유전자 또는 핵산의 특정 뉴클레오타이드서열을 가지는 위치로 가이드 RNA-CRISPR 효소 복합체를 유도하는 기능을 수행할 수 있다.
가이드 RNA는 타겟 유전자, 타겟 영역 또는 타겟 핵산서열에 대한 gRNA-CRISPR 효소 복합체, 즉, CRISPR 복합체를 특이적으로 표적시킬 수 있는 RNA를 지칭한다. 또한, 상기 gRNA는 타겟 유전자 또는 핵산 특이적 RNA를 의미하며, CRISPR 효소과 결합하여 CRISPR 효소를 타겟 유전자, 타겟 영역 또는 타겟 핵산서열으로 인도할 수 있다.
가이드 RNA는 단일가닥 가이드 RNA(단일 RNA 분자; single gRNA; sgRNA); 또는 이중가닥 가이드 RNA (하나 초과의 통상적으로 2개의 별개의 RNA 분자를 포함함)로서 지칭될 수 있다.
가이드 RNA는 상기 대상서열과 상보적으로 결합하는 부위(이하 가이드 부위로 칭함)와 Cas단백질과 복합체를 형성하는데 관여하는 부위(이하, 복합체 형성 부위로 칭함)를 포함한다.
일 예에서, 상기 가이드 RNA는 SpCas9 단백질과 상호작용하며, SEQ ID NO.48 내지 81 중 선택되는 어느 하나일 수 있다.
다른 예에서, 상기 가이드 RNA는 CjCas9 단백질과 상호작용하며, SEQ ID NO.82 내지 92중 선택되는 어느 하나를 포함할 수 있다.
NO. Name sequence (5'→3')
SEQ ID NO. 48 Sp20-viHBV-B-#10G GUAACACGAGCAGGGGUCCU
SEQ ID NO. 49 Sp20-viHBV-B-#11G CCCCGCCUGUAACACGAGCA
SEQ ID NO. 50 Sp20-viHBV-B-#12G ACCCCGCCUGUAACACGAGC
SEQ ID NO. 51 Sp20-viHBV-B-#13G AGGACCCCUGCUCGUGUUAC
SEQ ID NO. 52 Sp20-viHBV-B-#14G ACCCCUGCUCGUGUUACAGG
SEQ ID NO. 53 Sp20-viHBV-B-#17G CACCACGAGUCUAGACUCUG
SEQ ID NO. 54 Sp20-viHBV-B-#20G GGACUUCUCUCAAUUUUCUA
SEQ ID NO. 55 Sp20-viHBV-B-#52G CCUACGAACCACUGAACAAA
SEQ ID NO. 56 Sp20-viHBV-B-#53G CCAUUUGUUCAGUGGUUCGU
SEQ ID NO. 57 Sp20-viHBV-B-#54G CAUUUGUUCAGUGGUUCGUA
SEQ ID NO. 58 Sp20-viHBV-B-#89G GGGUUGCGUCAGCAAACACU
SEQ ID NO. 59 Sp20-viHBV-B-#90G UUUGCUGACGCAACCCCCAC
SEQ ID NO. 60 Sp20-viHBV-B-#101G UCCGCAGUAUGGAUCGGCAG
SEQ ID NO. 61 Sp20-viHBV-B-#102G AGGAGUUCCGCAGUAUGGAU
SEQ ID NO. 62 Sp20-viHBV-B-#103G UCCUCUGCCGAUCCAUACUG
SEQ ID NO. 63 Sp20-viHBV-B-#113G CGUCCCGCGCAGGAUCCAGU
SEQ ID NO. 64 Sp20-viHBV-B-#117G CCGCGGGAUUCAGCGCCGAC
SEQ ID NO. 65 Sp20-viHBV-B-#118G UCCGCGGGAUUCAGCGCCGA
SEQ ID NO. 66 Sp20-viHBV-B-#119G CCCGUCGGCGCUGAAUCCCG
SEQ ID NO. 67 Sp20-viHBV-B-#138G GUAAAGAGAGGUGCGCCCCG
SEQ ID NO. 68 Sp20-viHBV-B-#140G GGGGCGCACCUCUCUUUACG
SEQ ID NO. 69 Sp20-viHBV-B-#142G GAAGCGAAGUGCACACGGUC
SEQ ID NO. 70 Sp20-viHBV-B-#143G GGUCUCCAUGCGACGUGCAG
SEQ ID NO. 71 Sp20-viHBV-B-#154G AAUGUCAACGACCGACCUUG
SEQ ID NO. 72 Sp20-viHBV-B-#159G AGGAGGCUGUAGGCAUAAAU
SEQ ID NO. 73 Sp20-viHBV-B-#186G CGGAAGUGUUGAUAAGAUAG
SEQ ID NO. 74 Sp20-viHBV-B-#187G CCGGAAGUGUUGAUAAGAUA
SEQ ID NO. 75 Sp20-viHBV-B-#193G GCGAGGGAGUUCUUCUUCUA
SEQ ID NO. 76 Sp20-viHBV-B-#194G GACCUUCGUCUGCGAGGCGA
SEQ ID NO. 77 Sp20-viHBV-B-#196G GAUUGAGACCUUCGUCUGCG
SEQ ID NO. 78 Sp20-viHBV-B-#197G CUCCCUCGCCUCGCAGACGA
SEQ ID NO. 79 Sp20-viHBV-B-#198G GAUUGAGAUCUUCUGCGACG
SEQ ID NO. 80 Sp20-viHBV-B-#199G GUCGCAGAAGAUCUCAAUCU
SEQ ID NO. 81 Sp20-viHBV-B-#200G UCGCAGAAGAUCUCAAUCUC
SEQ ID NO. 82 Cj22-viHBV-B-#06G UGUCAACAAGAAAAACCCCGCC
SEQ ID NO. 83 Cj22-viHBV-B-#20G AAGCCCUACGAACCACUGAACA
SEQ ID NO. 84 Cj22-viHBV-B-#23G UUACCAAUUUUCUUUUGUCUUU
SEQ ID NO. 85 Cj22-viHBV-B-#40G ACGUCCCGCGCAGGAUCCAGUU
SEQ ID NO. 86 Cj22-viHBV-B-#44G GUGCACACGGUCCGGCAGAUGA
SEQ ID NO. 87 Cj22-viHBV-B-#45G GUGCCUUCUCAUCUGCCGGACC
SEQ ID NO. 88 Cj22-viHBV-B-#46G CGACGUGCAGAGGUGAAGCGAA
SEQ ID NO. 89 Cj22-viHBV-B-#47G UGCGACGUGCAGAGGUGAAGCG
SEQ ID NO. 90 Cj22-viHBV-B-#48G GACCGUGUGCACUUCGCUUCAC
SEQ ID NO. 91 Cj22-viHBV-B-#57G AUGUCCAUGCCCCAAAGCCACC
SEQ ID NO. 92 Cj22-viHBV-B-#67G GACCACCAAAUGCCCCUAUCUU
이 때, 상기 복합체 형성 부위는 Cas9 단백질 유래 미생물의 종류에 따라 결정될 수 있다. 예를 들어, SpCas9단백질과 상호작용하는 가이드 RNA일 경우, 상기 복합체 형성부위는 5'-GUUUUAGUCCCUGAAAAGGGACUAAAAUAAAGAGUUUGCGGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'(서열번호 45)를 포함할 수 있고, CjCas9단백질과 상호작용하는 가이드 RNA일 경우, 5'-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'(서열번호 46)를 포함할 수 있다.
상기 PAM(proto-spacer-adjacent Motif)서열로서, spCas9 단백질을 사용하는 경우 NGG(N은 A, T, C 또는 G임)가 고려되고, cjCas9 단백질을 사용하는 경우 NNNNRYAC(서열번호 47)(N은 각각 독립적으로 A, T, C 또는 G이고, R은 A또는 G이고, Y는 C 또는 T임)가 고려된다.
상기 조성물은 가이드 RNA를 1개 또는 복수개 포함할 수 있다.
[염기 치환 조성물의 제2 구성 - 단일염기 치환 단백질]
염기 치환 조성물은 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 포함할 수 있다.
단일염기 치환 단백질은 전술한 바와 동일하다.
[염기 치환 조성물의 제3 구성 - 벡터]
상기 염기 변형용 조성물은 벡터 형태일 수 있다.
”벡터”는 세포에 유전자 서열을 전달할 수 있다. 전형적으로 “벡터 구조체”, “발현 벡터”, 및 “유전자 전달 벡터”는 관심의 유전자의 발현을 지시할 수 있고, 표적 세포에 유전자 서열을 전달할 수 있는 임의의 핵산 구조체를 의미한다. 따라서, 상기 용어는 클로닝, 및 발현 비히클뿐만 아니라 벡터를 통합하는 것을 포함한다.
이때, 상기 벡터는 바이러스 또는 비바이러스 벡터(예를 들어, 플라스미드)일 수 있다.
이때, 상기 벡터는 하나 이상의 조절/제어 구성요소를 포함할 수 있다.
이때, 상기 조절/제어 구성요소는 포로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(internal ribosome entry site, IRES), 스플라이스 억셉터 및/또는 2A 서열을 포함할 수 있다.
상기 프로모터는 RNA 중합효소 II에 의해 인식되는 프로모터일 수 있다.
상기 프로모터는 RNA 중합효소 III에 의해 인식되는 프로모터일 수 있다.
상기 프로모터는 유도성 프로모터일 수 있다.
상기 프로모터는 대상 특이적 프로모터일 수 있다.
상기 프로모터는 바이러스 또는 비바이러스 프로모터일 수 있다.
상기 프로모터는 제어 영역(즉, 가이드 RNA 또는 CRISPR 효소를 암호화하는 핵산서열)에 따라 적합한 프로모터를 이용할 수 있다.
예를 들어, 가이드 RNA를 위해 유용한 프로모터는 H1, EF-1a, tRNA 또는 U6 프로모터일 수 있다. 예를 들어, CRISPR 효소를 위해 유용한 프로모터는 CMV, EF-1a, EFS, MSCV, PGK 또는 CAG 프로모터일 수 있다.
벡터는 바이러스 벡터 또는 재조합 바이러스 벡터일 수 있다.
상기 바이러스는 DNA 바이러스 또는 RNA 바이러스일 수 있다.
이때, 상기 DNA 바이러스는 이중가닥 DNA(dsDNA) 바이러스 또는 단일가닥 DNA(ssDNA) 바이러스 일 수 있다.
이때, 상기 RNA 바이러스는 단일가닥 RNA(ssRNA) 바이러스일 수 있다.
상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스(AAV), 백시니아바이러스, 폭스바이러스 또는 단순포진 바이러스일 수 있으나, 이에 제한되지 않는다.
일반적으로 바이러스는 숙주(예를 들면, 세포)를 감염시켜, 숙주 내에 바이러스의 유전정보를 암호화하는 핵산을 도입시키거나 숙주의 게놈 내로 유전정보를 암호화하는 핵산을 삽입시킬 수 있다. 이러한 특징을 가지는 바이러스를 이용하여 대상 내로 가이드 RNA 및/또는 CRISPR 효소를 도입시킬 수 있다. 바이러스를 이용하여 도입된 가이드 RNA 및/또는 CRISPR 효소는 대상(예를 들면, 세포)에서 일시적으로 발현될 수 있다. 또는 바이러스를 이용하여 도입된 가이드 RNA 및/또는 CRISPR 효소는 대상(예를 들면, 세포)에서 장기간(예를 들면, 1주, 2주, 3주, 1개월, 2개월, 3개월, 6개월, 9개월, 1년, 2년 또는 영구적) 지속적으로 발현될 수 있다.
바이러스의 패키징 능력은 적어도 2kb 내지 50kb로 바이러스 종류에 따라 다를 수 있다. 이러한 패키징 능력에 따라 가이드 RNA 또는 CRISPR 효소를 단독으로 포함하는 바이러스 벡터를 설계하거나 가이드 RNA 및 CRISPR 효소를 모두 포함하는 바이러스 벡터를 설계할 수 있다. 또는 가이드 RNA, CRISPR 효소 및 추가 구성요소를 포함하는 바이러스 벡터를 설계할 수 있다.
예를 들어, 레트로바이러스 벡터는 최대 6 내지 10kb의 외래 서열에 대한 패키징 능력을 가지며, 시스(cis)-작용 긴말단반복순서(long terminal repet:LTR)로 구성된다. 레트로바이러스 벡터는 세포 내 치료 유전자를 삽입시키며 영구적인 이식유전자의 발현을 제공한다.
다른 예로, 아데노연관 바이러스 벡터는 세포분열 여부에 상관없이 다양한 세포(근육, 뇌, 간, 폐, 망막, 귀, 심장, 혈관)에 형질도입 효율이 매우 높고, 병원성이 없으며 바이러스 게놈 대부분이 치료유전자에 의해서 대치될 수 있어 면역반응을 유도하지 않아 반복투여가 가능하다. 또한 AAV는 대상세포의 염색체 내로 삽입됨으로써 치료단백질이 장기간 안정적으로 발현된다. 예를 들어 핵산 및 펩타이드의 시험관 내 생성하여 생체내 및 생체외에서 세포의 표적핵산으로 형질 도입하는데 사용하기 유용하다. 다만 AAV는 크기가 작아 4.5kb이하의 패키징 능력을 가진다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 및 아데닌 염기 치환 단백질을 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA; 및 아데닌 염기 치환 단백질을 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 및 아데닌 염기 치환 단백질을 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산 및 아데닌 염기 치환 단백질을 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
다른 일 예로, 염기 변형용 조성물은
(a) 제1 결합 도메인을 포함하는 CRISPR 효소 또는 이를 암호화하는 핵산; 및
(b) 제2 결합 도메인을 포함하는 아데노신 디아미네이즈 또는 이를 암호화하는 핵산
을 포함할 수 있다.
이때, CRIPSR 효소는 야생형 CRIPSR 효소 또는 CRIPSR 효소 변이체일 수 있다.
이때, 상기 CRIPSR 효소 변이체는 니케이즈(nickase)일 수 있다.
상기 아데노신 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 또는이의 변이체일 수 있다.
상기 제1 결합 도메인은 제2 결합 도메인과 비공유 결합을 형성할 수 있다.
이때, 상기 제1 결합 도메인은 FRB 및 FKBP dimerization domains 중 하나; 인테인(intein); ERT 및 VPR domains 중 하나; GCN4 peptide 및 single chain variable fragment (scFv) 중 하나 또는 이량이질체(heterodimer)를 형성하는 도메인일 수 있다.
이때, 상기 제2 결합 도메인은 FRB 및 FKBP dimerization domains 중 하나; 인테인(intein); ERT 및 VPR domains 중 하나; GCN4 peptide 및 single chain variable fragment (scFv) 중 하나 또는 이량이질체(heterodimer)를 형성하는 도메인일 수 있다.
상기 염기 변형용 조성물은 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 추가로 더 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA-제1 결합 도메인을 포함하는 CRISPR 효소-제2 결합 도메인을 포함하는 아데노신 디아미네이즈 복합체, 즉, ribonucleoprotien(RNP) 형태일 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 제1 결합 도메인을 포함하는 CRISPR 효소를 암호화하는 핵산을 포함하는 벡터; 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 및 제1 결합 도메인을 포함하는 CRISPR 효소-제2 결합 도메인을 포함하는 아데노신 디아미네이즈 복합체를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 및 제1 결합 도메인을 포함하는 CRISPR 효소를 암호화하는 핵산 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산 및 제1 결합 도메인을 포함하는 CRISPR 효소를 암호화하는 핵산을 포함하는 벡터; 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 제1 결합 도메인을 포함하는 CRISPR 효소를 암호화하는 핵산을 포함하는 벡터; 가이드 RNA를 암호화하는 핵산 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 제1 결합 도메인을 포함하는 CRISPR 효소; 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산을 포함하는 벡터; 제1 결합 도메인을 포함하는 CRISPR 효소를 암호화하는 핵산을 포함하는 벡터; 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA를 암호화하는 핵산 및 제1 결합 도메인을 포함하는 CRISPR 효소를 암호화하는 핵산을 포함하는 벡터; 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 포함할 수 있다.
이때, 염기 변형용 조성물은 제1 결합 도메인을 포함하는 CRISPR 효소; 가이드 RNA를 암호화하는 핵산 및 제2 결합 도메인을 포함하는 아데노신 디아미네이즈를 암호화하는 핵산을 포함하는 벡터를 포함할 수 있다.`
[염기 치환 조성물의 제4 구성 - 가이드 RNA - 단일염기 치환 단백질 복합체]
상기 염기 변형용 조성물은 핵산-단백질 복합체 형태일 수 있다. 이 때, 상기 핵산-단백질 복합체는 가이드 RNA-아데닌 염기 치환 단백질 복합체일 수 있다. 이 때, 상기 핵산-단백질 복합체는 가이드 RNA-시토신 염기 치환 단백질 복합체일 수 있다.
이때, 상기 가이드 RNA-아데닌 염기 치환 단백질 복합체는 가이드 RNA과 아데닌 염기 치환 단백질 간에 비공유 결합에 의해서 형성된 것일 수 있다.
이때, 상기 가이드 RNA-시토신 염기 치환 단백질 복합체는 가이드 RNA과 시토신 염기 치환 단백질 간에 비공유 결합에 의해서 형성된 것일 수 있다.
상기 염기 변형용 조성물은 비벡터 형태일 수 있다.
이때, 상기 비벡터는 네이키드 DNA, DNA 복합체 또는 mRNA일 수 있다.
상기 염기 변형용 조성물은 벡터 형태일 수 있다.
상기 벡터 관련 설명은 상기 기술한 바와 같다.
일 예로, 염기 변형용 조성물은 CRISPR 효소 및 아데노신 디아미네이즈를 포함하는 아데닌 염기 치환 단백질 또는 이를 암호화하는 핵산을 포함할 수 있다.
이때, CRIPSR 효소는 야생형 CRIPSR 효소 또는 CRIPSR 효소 변이체일 수 있다.
이때, 상기 CRIPSR 효소 변이체는 니케이즈(nickase)일 수 있다.
상기 아데노신 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 또는이의 변이체일 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[CRISPR 효소]-[아데노신 디아미네이즈]-C말단 순으로 구성될 수 있다.
상기 아데닌 염기 치환 단백질은 N말단-[아데노신 디아미네이즈]-[CRISPR 효소]-C말단 순으로 구성될 수 있다.
이때, 상기 아데닌 염기 치환 단백질은 추가로 연결 도메인을 더 포함할 수 있다.
상기 염기 변형용 조성물은 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 추가로 더 포함할 수 있다.
이때, 염기 변형용 조성물은 가이드 RNA-아데닌 염기 치환 단백질 복합체, 즉, ribonucleoprotien(RNP) 형태일 수 있다.
본 명세서에 의해 개시되는 발명의 일 태양은 단일염기 치환 단백질 또는 이를 포함하는 단일염기 치환 조성물의 용도이다.
본 출원에서 제공하는 단일염기 치환 단백질을 통하여 다음의 용도를 제공할 수 있다.
염기 변형용 조성물은 타겟 유전자 내에 하나 이상의 뉴클레오타이드의 염기를 인위적으로 변형시키는데 이용될 수 있다.
(i) 특정 유전자의 목적하는 영역(region)의 하나 이상의 뉴클레오타이드의 염기를 인위적으로 변형함으로써, 그 변형된 핵산서열로부터 발현된 물질을 식별하지 못하도록 돌연변이 된 부분, 즉 항체 내성을 가지는 에피토프에 대한 정보를 얻는데 이용될 수 있다.
(ii) 특정 유전자의 목적하는 영역(region)의 하나 이상의 뉴클레오타이드의 염기를 인위적으로 변형함으로써, 그 변형된 핵산서열로부터 발현된 물질의 특정 약물에 대한 민감도 감소 또는 상실되는지 여부에 대한 정보를 얻는데 이용될 수 있다. 즉 특정 약물에 영향을 주는 타겟 유전자 또는 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 일 영역을 찾거나 확인하는데 이용될 수 있다.
(iii) 특정 유전자의 목적하는 영역(region)의 하나 이상의 뉴클레오타이드의 염기를 인위적으로 변형함으로써, 그 변형된 핵산서열로부터 발현된 물질이 특정 약물에 대한 민감도가 증가하는지 여부에 대한 정보를 얻는데 이용될 수 있다. 즉 특정 약물에 민감도 증가에 영향을 주는 타겟 유전자 또는 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 일 영역을 찾거나 확인하는데 이용될 수 있다.
(iv) 특정 유전자의 목적하는 영역(region)의 하나 이상의 뉴클레오타이드의 염기를 인위적으로 변형함으로써, 그 변형된 핵산서열로부터 발현된 물질이 바이러스에 내성을 갖는지 여부에 대한 정보를 얻는데 이용될 수 있다. 즉 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝에 이용될 수 있다.
[제1 용도 - 에피토프(epitope) 스크리닝]
일 구현예로서, 단일염기 치환 단백질 또는 이를 포함하는 염기 치환용 조성물은 에피토프(epitope) 스크리닝에 이용될 수 있다.
“에피토프(epitope)”는 항체, B 세포, T 세포 등 면역계가 항원을 식별하게 해주는 항원의 특정한 부분을 의미하며, 항원결정기(antigenic determinant)로도 불린다. 단백질의 에피토프는 크게 모양과 에피토프를 식별하는 항체의 특정부분인 항원결합부위와의 작용방식에 따라 입체구조 에피토프(conformational epitopes)와 선형 에피토프(linear epitopes)로 나뉜다. 입체구조 에피토프는 항원, 즉, 단백질의 불연속적인 아미노산 배열로 구성된다. 입체구조 에피토프는 항체의 항원결합부위의 3차원적 구조와 반응한다. 대부분의 에피토프는 입체구조 에피토프이다. 이와 반대로, 선형 에피토프는 항체의 항원결합부위의 1차원적인 구조와 반응하며, 항원의 선형 에피토프를 구성하는 아미노산은 연속적인 아미노산 배열로 구성된다.
“에피토프 스크리닝”은 항체, B 세포, T 세포 등 면역계가 항원을 식별하게 해주는 항원의 특정한 부분을 찾거나 확인하는 것이며, 또한, 항체, B 세포, T 세포 등 면역계가 항원을 식별하지 못하도록 돌연변이된 항원의 특정한 부분을 찾거나 확인하는 방법, 조성물, 키트 등을 의미한다. 이때, 상기 항체, B 세포, T 세포 등 면역계가 항원을 식별하지 못하도록 돌연변이된 항원의 특정한 부분은 항체 내성을 가지는 에피토프일 수 있다.
단일염기 치환 단백질 또는 이를 포함하는 염기 치환용 조성물은 단일 염기 다형성(SNP)을 인위적으로 생성하여, 생체 내 변화, 즉 특정 인자의 발현의 생성, 억제, 증가 또는 저하, 특정 기능의 생성 또는 소실, 또는 질병 유무 여부 또는 외부 약물 또는 화합물 등의 반응성 차이 예를 들어, 에피토프로 이용가능 서열 및 약물의 내성 유발 여부에 관여하는 단일염기 다형성의 위치를 제공할 수 있다.
상기 단일염기 치환 단백질 및 염기 치환용 조성물 관련 설명은 상기 기술한 바와 같다.
상기 에피토프 스크리닝을 위해, 단일염기 치환 단백질은 게놈 내 인위적인 단일 염기 다형성을 유발시키는데 이용될 수 있다.
이때, 상기 인위적인 단일 염기 다형성은 점 돌연변이를 유발할 수 있다.
점 돌연변이는 하나의 뉴클레오타이드가 변형되어 나타나는 돌연여변이를 말한다. 점 돌연변이에는 미스센스(missense)돌연변이, 넌센스(nonsense) 돌연변이, 침묵(silence) 돌연변이가 있다.
미스센스 돌연변이는 하나 이상의 변형된 뉴클레오타이드로 인해 변이된 코돈이 다른 아미노산을 암호화하게 되는 경우를 말한다. 넌센스 돌연변이는 하나 이상의 변형된 뉴클레오타이드로 인해 변이된 코돈이 종결 코돈인 경우를 말한다. 침묵 돌연변이는 하나 이상의 변형된 뉴클레오타이드에 의해 변이된 코돈이 변이가 일어나지 않은 코돈과 동일한 아미노산을 암호화하는 경우를 말한다.
일 예로, 염기 서열 A가 C, T, G등의 다른 염기 서열로 치환됨으로써, 다른 아미노산을 암호화하는 코돈으로 변경될 수 있다. 즉, 미스센스 돌연변이가 유발될 수 있다. 예를 들어, A가 C로 치환될 경우, 류신은 글라이신으로 바뀔 수 있다.
다른 예로, 염기 서열 A가 C, T, G등의 다른 염기 서열로 치환됨으로써, 동일한 아미노산을 암호화하는 코돈으로 변경될 수 있다. 즉 침묵 돌연변이가 유발될 수 있다. 예를 들어, A가 C로 치환될 경우, 동일한 프롤린을 암호화하는 코돈을 가질 수 있다.
또 다른 예로, A가 C, T, G등의 다른 염기 서열로 치환되어 TAG, TGC 및 TAA 중 어느 하나가 생성될 경우, UAA, UAG 및 UGA 중 어느 하나의 종결 코돈을 가질 수 있다. 즉 넌센스 돌연변이가 유발될 수 있다.
상기 단일염기 치환 단백질은 유전자 내에 하나 이상의 뉴클레오타이드의 염기에 인위적인 치환을 유도 또는 발생시킴으로 점 돌연변이를 유발시킬 수 있다.
상기 염기 치환용 조성물은 유전자 내에 하나 이상의 뉴클레오타이드의 염기에 인위적인 치환을 유도 또는 발생시킴으로 점 돌연변이를 유발시킬 수 있다.
상기 단일염기의 인위적인 치환유도는 상기 기술한 바와 같다.
단일염기 치환 단백질 또는 이를 포함하는 염기 치환용 조성물로 인해 생성된 점 돌연변이에 의해 암호화되는 단백질은 적어도 하나 이상의 아미노산 서열이 변경된 단백질 변이체일 수 있다.
예를 들어, EGFR을 암호화하는 유전자를 단일염기 치환 단백질 또는 이를 포함하는 염기 치환용 조성물로 점 돌연변이를 유발시킨 경우, 생성된 점 돌연변이에 의해 암호화되는 단백질은 야생형 EGFR과 적어도 하나 이상의 아미노산 서열이 변경된 EGFR 변이체일 수 있다.
변경된 하나 이상의 아미노산은 비슷한 성질을 가진 아미노산으로 변경될 수 있다.
상기 소수성 아미노산은 다른 소수성 아미노산으로 변경될 수 있다. 소수성 아미노산은 글리신, 알라닌, 발린, 이소류신, 류신, 메티오닌, 페닐알라닌, 티로신 또는 트립토판 중 하나이다.
상기 염기성 아미노산은 다른 염기성 아미노산으로 변경될 수 있다. 염기성 아미노산은 아르기닌 또는 히스티딘 중 하나이다.
상기 산성 아미노산은 다른 산성 아미노산으로 변경될 수 있다. 산성 아미노산은 글루탐산 또는 아스파르트산 중 하나이다.
상기 극성 아미노산은 다른 극성 아미노산으로 변경될 수 있다. 극성 아미노산은 세린, 트레오닌, 아스파라긴 또는 글루타민 중 하나이다.
변경된 하나 이상의 아미노산은 상이한 성질을 가진 아미노산으로 변경될 수 있다.
일 예로, 상기 아미노산은 소수성 아미노산이 극성 아미노산으로 변경될 수 있다.
다른 예로, 상기 아미노산은 소수성 아미노산이 산성 아미노산으로 변경될 수 있다.
일 예로, 상기 아미노산은 소수성 아미노산이 염기성 아미노산으로 변경될 수 있다.
다른 예로, 상기 극성 아미노산은 소수성 아미노산으로 변경될 수 있다.
일 예로, 상기 산성 아미노산은 염기성 아미노산으로 변경될 수 있다.
다른 예로, 상기 염기성 아미노산은 삼성 아미노산으로 변경될 수 있다.
상기 적어도 하나 이상의 아미노산 서열이 변경된 단백질 변이체는 3차원 단백질 구조가 변형될 수 있다. 이는 아미노산 서열 내 어느 하나 이상의 아미노산이 다른 성질의 아미노산 서열로 변경되는 경우, 아미노산 서열간의 결합력이 달라지면서, 3차원적 구조가 변경될 수 있다. 3차원적 구조가 변경된 경우, 입체구조 에피토프가 변형될 수 있다. 상기 변형은 본 출원에서 제공하는 단일염기 치환 단백질 또는 이를 포함하는 조성물을 이용하여 유도할 수 있다.
예를 들어, ATM을 암호화하는 유전자를 단일 염기 치환 단백질 또는 이를 포함하는 염기 변형용 조성물로 점 돌연변이를 유발시킨 경우, 생성된 점 돌연변이에 의해 암호화되는 ATM 변이체는 3차원적 구조가 일부 변경될 수 있고, 그로 인해 입체구조 에피토프가 변형될 수 있다. 상기 변형은 본 출원에서 제공하는 단일염기 치환 단백질 또는 이를 포함하는 조성물을 이용하여 유도할 수 있다.
인위적인 단일 염기 다형성을 포함하는 유전자는 합성되는 단백질의 양을 조절할 수 있다.
일 예로, 상기 인위적인 단일 염기 다형성을 포함하는 유전자는 mRNA 전사되는 양이 증가 또는 감소될 수 있다. 이는 단백질 합성 양이 증가 또는 감소될 수 있다.
다른 예로, 상기 유전자 내 조절 영역의 하나 이상의 인위적인 단일 염기 다형성을 포함하는 유전자의 경우, 상기 단일염기 다형성을 포함하는 유전자로부터 합성되는 단백질의 양이 증가 또는 감소될 수 있다.
유전자 내에 존재하는 인위적인 단일 염기 다형성은 단백질의 활성을 조절할 수 있다.
일 예로, 상기 하나 이상의 인위적인 단일 염기 다형성은 단백질의 활성이 촉진 및/또는 저하될 수 있다.
예를 들어, 핵막 수용체를 암호화하는 유전자 내에 인위적인 단일 염기 다형성이 포함되는 경우, 리간드를 인지 및 리간드와 결합하여 신호전달하는 과정에 관여하는 모든 인자 또는 메커니즘(인산화, 아세틸화 등)을 활성화시키거나 저하시킬 수 있다.
예를 들어, 특정 효소를 암호화하는 유전자 내에 인위적인 단일 염기 다형성이 포함되는 경우, 효소의 기능 예를 들어 아세틸레이즈의 경우 표적 인자의 아세틸화시키는 정도를 촉진시키거나 또는 저하시킬 수 있다.
유전자 내에 존재하는 인위적인 단일 염기 다형성은 단백질의 기능이 변경될 수 있다.
일 예로, 하나 이상의 인위적인 단일 염기 다형성에 의해 단백질의 본래 기능이 추가 및/또는 억제될 수 있다.
예를 들어, 핵막 수용체를 암호화하는 유전자 내에 인위적인 단일 염기 다형성이 포함되는 경우, 리간드를 인지 및/또는 결합하는 능력이 억제될 수 있다
또는, 예를 들어, 핵막 수용체를 암호화하는 유전자 내에 인위적인 단일 염기 다형성이 포함되는 경우, 리간드와 결합하여 하류 인자(downstream factor)에 신호전달하는 기능 중 일부가 억제될 수 있다.
일 구체예로서, 에피토프 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
-이 때, 상기 세포는 타겟 핵산서열을 포함함 -;
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
일 구현예로, 에피토프 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
-이 때, 상기 세포는 타겟 핵산서열을 포함함 -;
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
일 구현예로, 에피토프 스크리닝 방법은,
a) 타겟 핵산서열을 포함하는 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산, 및 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리함;
c) 생존한 세포를 분리함; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
다른 일 구체예로서, 에피토프 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
다른 일 구체예로서, 에피토프 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
상기 가이드 RNA 라이브러리는 타겟 서열의 일부 핵산서열과 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 집합일 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입되더라도 각 세포는 서로 다른 가이드 RNA를 포함할 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입된 결과, 각 세포는 서로 동일한 가이드 RNA를 포함할 수 있다.
상기 가이드 RNA 관련 설명은 상기 기술한 바와 같다.
상기 단일염기 치환 단백질은 아데닌 치환 단백질 또는 시토신 치환 단백질일 수 있다.
상기 단일염기 치환 단백질, 아데닌 치환 단백질 및 시토신 치환 단백질 관련 설명은 상기 기술한 바와 같다.
상기 도입은 전기천공법(electroporation), 리포좀, 플라스미드, 바이러스 벡터, 나노파티클(nanoparticles) 및 PTD(protein translocation domain)융합 단백질 방법 중 선택되는 1 이상의 방법으로 수행될 수 있다.
상기에서 처리하는 항체는 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)을 식별하는 항체일 수 있으며, 상기 표적 단백질의 에피토프와 반응할 수 있는 항체일 수 있다.
상기에서 생존한 세포는 상기에서 처리한 항체와 반응하지 않는 세포일 수 있다.
상기에서 분리한 세포는 타겟 유전자에 적어도 하나 이상의 뉴클레오타이드의 변형을 포함하는 세포일 수 있다.
이 때, 상기 하나 이상의 뉴클레오타이드의 변형은 타겟 유전자 내에 발생한 하나 이상의 인위적인 단일 염기 다형성(SNP)일 수 있다.
이 때, 상기 하나 이상의 인위적인 단일 염기 다형성(SNP)은 점 돌연변이를 유발시킬 수 있다.
상기에서 타겟 유전자에 존재하는 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 확인할 수 있다. 이를 통하여 목적하는 정보를 얻을 수 있다.
이때, 확인된 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 포함하는 핵산 서열은 에피토프를 암호화하는 핵산 서열일 수 있다.
[제2 용도 - 약물 내성 유전자 또는 약물 내성 단백질 스크리닝]
다른 일 구현예로서, 단일염기 치환 단백질 또는 이를 포함하는 염기 치환용 조성물은 약물 내성 유전자 또는 약물 내성 단백질 스크리닝에 이용될 수 있다.
약물 내성 스크리닝은 특정 약물에 대한 민감도의 감소 또는 상실에 영향을 주는 타겟 유전자 또는 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 일 영역에 대한 정보를 제공할 수 있다. 본 출원에서 제공하는 단일염기 치환 단백질 또는 이를 포함하는 조성물을 이용하여 상기 일 영역을 찾거나 확인할 수 있다.
본 출원은 약물 내성 유전자 또는 약물 내성 단백질의 스크리닝 방법을 제공한다. 이하, 상기 스크리닝 방법의 일 예로서, 구체적인 각 단계에 대하여 설명한다.
sgRNA 라이브러리의 준비
타겟 유전자의 일 영역과 상보적으로 결합할 수 있는 가이드 RNA를 준비한다. 일 구체예에서,타겟 유전자 내 엑손(exon) 일 영역과 상보적으로 결합할 수 있는 가이드 RNA를 준비한다. 이 때, 상기 준비되는 가이드 RNA는 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 20개, 30개, 40개, 50개, 60개, 70개, 80개, 90개, 100개, 200개, 500개, 1000개, 2000개 또는 3000개 이상일 수 있다. 이 때, 상기 준비되는 복수개의 가이드 RNA는 타겟 유전자 내 엑손 일 영역과 상보적으로 결합할 수 있다.
일 예로, 상기 가이드 RNA는 타겟 유전자 내 엑손 영역의 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 이상의 영역에 상응하는 뉴클레오타이드 서열과 상보적으로 결합할 수 있는 부위를 포함한다.
가이드 RNA 발현 가능한 형질전환 세포 준비
타겟 유전자 내 엑손 일 영역과 상보적으로 결합할 수 있는 가이드 RNA를 제조할 수 있는 세포를 준비한다. 상기 세포는 상기 준비된 sgRNA 라이브러리를 암호화하는 벡터에 의하여 형질감염된 것일 수 있다. 이 때, 상기 세포는 sgRNA 라이브러리에 암호화된 하나 이상의 가이드 RNA를 발현할 수 있다.
단일염기 치환 단백질의 상기 형질전환 세포 내의 도입
sgRNA 라이브러리에 암호화된 하나 이상의 가이드 RNA를 발현할 수 있는 형질전환 세포 내에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입한다. 상기 단일염기 치환 단백질은 타겟 영역 내 적어도 하나 이상의 염기의 임의의 염기로의 치환을 유도할 수 있다.
상기 단일염기 치환 단백질은 타겟 유전자 내 적어도 하나 이상의 SNP의 발생을 유도할 수 있다.
상기 단일염기 치환 단백질은 타겟 영역 내 적어도 하나 이상의 SNP의 발생을 유도할 수 있다.
일 예로, 상기 도입된 단일염기 치환 단백질이 시티딘 치환 단백질일 때, 타겟 영역 내 적어도 하나 이상의 시토신은 임의의 염기로 치환될 수 있다.
일 예로, 상기 도입된 단일염기 치환 단백질이 아데닌 치환 단백질일 때, 타겟 영역 내 적어도 하나 이상의 아데닌은 임의의 염기로 치환될 수 있다.
형질전환 세포 준비
상기 가이드 RNA 발현 가능한 형질전환 세포 준비 및 단일염기 치환 단백질의 상기 형질전환 세포 내의 도입 단계 대신, 하기와 같은 단계로도 본 출원의 방법을 수행할 수 있다.
타겟 유전자를 포함하는 세포를 준비한다.
상기 세포에 상기 단일염기 치환 단백질 및 상기 가이드 RNA를 도입한다. 이 때, 상기 단일염기 치환 단백질 및 가이드 RNA는 RNP 복합체(ribonucleoprotein complex) 형태로 도입하거나, 이들을 각각 코딩하는 핵산의 형태로 도입할 수 있다.
상기 형질전환 세포에 약물 또는 치료제의 처리
상기 형질전환 세포에 항생제, 항암제 또는 항체 등 약물(drug) 또는 치료제(therapeutic agent)로 사용될 수 있는 물질을 처리한다. 이 때, 상기 처리되는 약물 또는 치료제는 상기 타겟 유전자로부터 발현되는 펩타이드, 폴리펩타이드 또는 단백질과 특이적으로 결합하거나 반응할 수 있다. 또는 상기 처리되는 약물 또는 치료제는 상기 타겟유전자로부터 발현되는 펩타이드, 폴리펩타이드 또는 단백질의 활성 또는 기능을 저하 또는 상실시킬 수 있다. 또는 상기 처리되는 약물 또는 치료제는 상기 타겟유전자로부터 발현되는 펩타이드, 폴리펩타이드 또는 단백질의 활성 또는 기능을 향상 또는 상승시킬 수 있다.
상기 형질전환 세포는 상기 약물 또는 치료제에 의하여 사멸할 수 있다.
상기 형질전환 세포는 상기 약물 또는 치료제의 처리에도 불구하고 생존할 수 있다.
세포의 선별
상기 약물 또는 치료제의 처리에도 불구하고, 생존한 세포를 분리, 선별 또는 수득할 수 있다.
상기 생존한 세포는 적어도 하나 이상의 가이드 RNA 및 단일염기 치환 단백질에 의하여 타겟 유전자의 타겟 영역 내 적어도 하나 이상의 염기가 임의의 염기로 치환된 것일 수 있다. 상기 단이염기 치환 단백질에 의하여 타겟 유전자 내 염기가 임의의 염기로 치환된 세포는 상기 처리된 약물 또는 치료제에 내성을 가질 수 있다.
이 때, 상기 생존한 세포의 타겟 유전자로부터 발현되는 펩타이드, 폴리펩타이드 또는 단백질은 상기 약물 또는 치료제에 내성을 가질 수 있다.
정보의 수득(obtaining the information)
상기 생존한 세포의 게놈 또는 타겟 유전자의 핵산서열을 분석하여 상기 처리된 약물 또는 치료제에 내성을 가지는 부위에 대한 정보를 얻을 수 있다.
상기 생존한 세포의 게놈 또는 타겟 유전자의 핵산서열을 분석하여 상기 타겟 유전자로부터 발현되는 펩타이드, 폴리펩타이드 또는 단백질의 구조 또는 기능의 변경여부에 대한 정보를 얻을 수 있다. 상기 변경되는 구조 또는 기능은 약물에 내성을 가지는지 여부에 결정적인 역할을 할 수 있다.
일 구현예로, 약물 내성 유전자 또는 약물 내성 단백질 스크리닝 방법은,
a) 타겟 유전자를 포함하는 세포를 준비함;
b) 상기 세포에,
타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 코딩하는 핵산; 및 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
일 구현예로, 약물 내성 유전자 또는 약물 내성 단백질 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
일 구현예로, 약물 내성 유전자 또는 약물 내성 단백질 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
일 구현예로, 약물 내성 유전자 또는 약물 내성 단백질 스크리닝 방법은,
a) 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산, 및 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리함;
c) 생존한 세포를 분리함; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
다른 일 구체예로서, 약물 내성 유전자 또는 약물 내성 단백질 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
다른 일 구체예로서, 약물 내성 유전자 또는 약물 내성 단백질 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
상기 가이드 RNA 라이브러리는 타겟 서열의 일부 핵산서열과 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 집합일 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입되더라도 각 세포는 서로 다른 가이드 RNA를 포함할 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입된 결과, 각 세포는 서로 동일한 가이드 RNA를 포함할 수 있다.
상기 가이드 RNA 관련 설명은 상기 기술한 바와 같다.
상기 단일염기 치환 단백질은 아데닌 치환 단백질 또는 시토신 치환 단백질일 수 있다.
상기 단일염기 치환 단백질, 아데닌 치환 단백질 및 시토신 치환 단백질 관련 설명은 상기 기술한 바와 같다.
상기 도입은 전기천공법(electroporation), 리포좀, 플라스미드, 바이러스 벡터, 나노파티클(nanoparticles) 및 PTD(protein translocation domain)융합 단백질 방법 중 선택되는 1 이상의 방법으로 수행될 수 있다.
상기에서 처리하는 약물은 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 활성, 기능을 저해 또는 억제하는 물질일 수 있다. 이때, 상기 물질은 생물학적 물질(RNA, DNA, 단백질, 펩타이드, 항체 등) 또는 비생물학적 물질(화합물 등)일 수 있다.
상기에서 처리하는 약물은 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 활성, 기능을 촉진 또는 증가시키는 물질일 수 있다. 이때, 상기 물질은 생물학적 물질(RNA, DNA, 단백질, 펩타이드, 항체 등) 또는 비생물학적 물질(화합물 등)일 수 있다.
상기에서 생존한 세포는 상기에서 처리한 약물에 의해 표적 단백질의 활성, 기능이 변하지 않는, 즉, 약물 내성을 가지는 세포일 수 있다.
상기에서 분리한 세포는 타겟 유전자에 적어도 하나 이상의 뉴클레오타이드의 변형을 포함하는 세포일 수 있다.
이 때, 상기 하나 이상의 뉴클레오타이드의 변형은 타겟 유전자 내에 발생한 하나 이상의 인위적인 단일 염기 다형성(SNP)일 수 있다.
이 때, 상기 하나 이상의 인위적인 단일 염기 다형성(SNP)은 점 돌연변이를 유발시킬 수 있다.
상기에서 타겟 유전자에 존재하는 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 확인할 수 있다. 이를 통하여 목적하는 정보를 얻을 수 있다.
이 때, 확인된 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 포함하는 핵산 서열은 약물 내성에 영향을 주는 단백질의 일 영역을 암호화하는 핵산 서열일 수 있다.
상기에서 처리하는 약물은 항암제일 수 있다. 다만, 항암제에 제한되지 않으며 공지된 모든 질병또는 질환을 치료하기 위해 사용되는 물질 또는 치료제도 포함한다.
일 예로, 상기 약물은 표피성장인자수용체(epidermal growth factor receptor, EGFR)를 억제하여 암세포가 성장을 방해하거나, 혈관내피성장인자 (vascular endothelial growth factor, VEGF) 를 차단하여 암세포로 가는 혈관신생을 저해하거나, 역형성 림프종 인산화효소(Anaplastic lymphoma kinase)를 저해하는 등의 기작을 이용할 수 있다.
일 구체예로, 약물 내성 돌연변이 스크리닝 방법으로서, 타겟 유전자를 포함하는 세포에 상기 단일염기 치환 조성물을 도입하여 상기 타겟 유전자 상에서 인위적으로 SNP를 유도함(inducing), 상기 세포에 특정 약물을 처리함(treating), 목적하는 SNP을 포함하는 생존한 세포를 선별함(selecting), 상기 선별된 세포를 분석함으로써 목적하는 SNP에 대한 정보(information)를 얻음(obtaining)을 포함하고, 이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것임을 포함하는 약물 내성 돌연변이 스크리닝 방법일 수 있다.
일 구체예로, 상기 타겟 유전자는 EGFR 유전자, VEGF 유전자, 또는 역형성 림프종 인산화효소 유전자일 수 있다. 다만, 이에 제한되지 않는다.
일 구체예로, 상기 처리하는 약물은 시스플라틴(cisplatin), 카보플라팀(carboplatin), 비노렐빈(vinorelbine), 파클리탁셀(paclitaxel), 도세탁셀(docetaxel, 젬시타빈(gemcitabine), 페메트렉세드(pemetrexed), 이레사(iressa), 타세바(tarceva), 지오트립(giotrif), 타그리소(tagrisso), 잘코리(Xalkori), 자카디아(zykadia), 알레센자(alectinib), 알룬부릭(brigatinib), 아바스틴(bevacizumab), 아바스틴(bevacizumab), 키트루다(pembrolizumab), 옵디보(nivolumab), 티센트릭(atezolizumab), 임핀지(durvalumab) 또는 Osimertinib 일 수 있다. 다만, 이에 제한되지 않는다.
구체예로서, Osimertinib에 내성을 가지는 EGFR 돌연변이 유전자를 스크리닝 방법은 다음과 같이 수행될 수 있다.
일 구체예로, 약물 내성 돌연변이 스크리닝 방법으로서, EGFR 유전자를 포함하는 세포에 단일염기 치환 조성물을 도입하여 상기 EGFR 유전자 상에서 인위적으로 SNP를 유도함(inducing), 상기 세포에 약물을 처리함(treating), 목적하는 SNP을 포함하는 생존한 세포를 선별함(selecting), 상기 선별된 세포를 분석함으로써 목적하는 SNP에 대한 정보(information)를 얻음(obtaining)을 포함하고, 이 때, 상기 목적하는 SNP는 상기 EGFR의 구조 또는 기능과 관련된 것임을 포함하는 약물 내성 돌연변이 스크리닝 방법일 수 있다.
이 때, 상기 처리되는 약물은 Osimertinib일 수 있다. 다만, 이에 제한되지 않고 EGFR의 기능을저해하거나 상실시키는 어느 물질일 수 있다.
일 실시예로, 약물 내성 돌연변이 스크리닝 방법으로서, EGFR 유전자를 포함하는 세포에 이 때, 상기 단일염기 치환 조성물은 C797S sgRNA1 및/또는 C797S sgRNA2를 포함하는 단일염기 치환 조성물을 도입하여 상기 EGFR 유전자 상에서 인위적으로 SNP를 유도함(inducing), 상기 세포에 약물을 처리함(treating), 목적하는 SNP을 포함하는 생존한 세포를 선별함(selecting), 상기 선별된 세포를 분석함으로써 목적하는 SNP에 대한 정보(information)를 얻음(obtaining)을 포함하고, 이 때, 상기 목적하는 SNP는 상기 EGFR의 구조 또는 기능과 관련된 것임을 포함하는 약물 내성 돌연변이 스크리닝 방법일 수 있다.
이 때, 상기 처리되는 약물은 Osimertinib일 수 있다. 다만, 이에 제한되지 않고 EGFR의 기능을저해하거나 상실시키는 어느 물질일 수 있다.
상기 일 실시예를 통하여, Osimertinib에 내성을 가지는 EGFR 부위를 확인하였다. 상기 Osimertinib에 내성을 가지는 EGFR 부위는 상기 도입된 단일염기 치환 조성물 또는 단일염기 치환 단백질에 의하여 SNP가 유도되었음을 확인하였다.
즉 본 출원에서 제공하는 단일염기 치환 단백질을 이용하여 세포 내 EGFR 유전자 내 존재하는 시토신을 임의의 염기로 치환함으로써 상기 Osimertinib에 저항을 보일 수 있는 다양한 위치 등에 대한 정보를 알아낼 수 있다.
일 실시예로서, 본 출원은 EGFR 내성 SNP 정보를 수득하는 방법을 제공할 수 있다:
a) 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산, 및 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리함;
c) 생존한 세포를 분리함; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
[제3 용도 - 약물 감작(sensitization) 스크리닝]
일 구현예로서, 단일 염기 치환 단백질 또는 이를 포함하는 염기 변형용 조성물은 약물 감작(sensitization) 스크리닝에 이용될 수 있다.
“약물 감작 또는 약물 민감화”는 특정 약물에 과민해지는 상태로 만드는 것으로, 특정 약물에 대한 민감도가 증가된 상태를 의미한다. 이와 반대로, “탈감작”은 특정 약물에 대한 민감도가 상실된 상태를 의미하며, 탈감작은 특정 약물에 내성이 생긴 상태를 포함한다.
약물 감작 스크리닝은 특정 약물에 민감도 증가에 영향을 주는 타겟 유전자 또는 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 일 영역을 찾거나 확인하는 방법, 조성물, 키트 등을 의미한다.
일 구체예로서, 약물 감작(sensitization) 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
일 구현예로, 약물 감작(sensitization) 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
- 이 때, 상기 세포는 타겟 핵산서열을 포함함 -;
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
일 구현예로, 약물 감작(sensitization) 스크리닝 방법은,
a) 타겟 핵산서열을 포함하는 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산, 및 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리함;
c) 생존한 세포를 분리함; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
다른 일 구체예로서, 약물 감작(sensitization) 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
다른 일 구체예로서, 약물 감작(sensitization) 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
상기 가이드 RNA 라이브러리는 타겟 서열의 일부 핵산서열과 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 집합일 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입되더라도 각 세포는 서로 다른 가이드 RNA를 포함할 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입된 결과, 각 세포는 서로 동일한 가이드 RNA를 포함할 수 있다.
상기 가이드 RNA 관련 설명은 상기 기술한 바와 같다.
상기 단일염기 치환 단백질은 아데닌 치환 단백질 또는 시토신 치환 단백질일 수 있다.
상기 단일염기 치환 단백질, 아데닌 치환 단백질 및 시토신 치환 단백질 관련 설명은 상기 기술한 바와 같다.
상기 도입은 전기천공법(electroporation), 리포좀, 플라스미드, 바이러스 벡터, 나노파티클(nanoparticles) 및 PTD(protein translocation domain)융합 단백질 방법 중 선택되는 1 이상의 방법으로 수행될 수 있다.
상기에서 처리하는 약물은 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)의 활성, 기능을 저해 또는 억제하는 물질일 수 있다. 이때, 상기 물질은 생물학적 물질(RNA, DNA, 단백질, 펩타이드, 항체 등) 또는 비생물학적 물질(화합물 등)일 수 있다.
상기에서 처리하는 약물은 표적 단백질의 활성, 기능을 촉진 또는 증가시키는 물질일 수 있다. 이때, 상기 물질은 생물학적 물질(RNA, DNA, 단백질, 펩타이드, 항체 등) 또는 비생물학적 물질(화합물 등)일 수 있다.
상기에서 분리한 세포는 상기 c)에서 처리한 약물에 의해 표적 단백질의 활성, 기능이 현저하게 변한, 즉, 약물 민감감도가 증가한 세포일 수 있다.
이때, 상기 약물 민감도가 증가한 세포는 약물 처리 후 생존한 세포일 수 있다.
상기에서 분리한 세포는 타겟 유전자에 적어도 하나 이상의 뉴클레오타이드의 변형을 포함하는 세포일 수 있다.
이 때, 상기 하나 이상의 뉴클레오타이드의 변형은 타겟 유전자 내에 발생한 하나 이상의 인위적인 단일 염기 다형성(SNP)일 수 있다.
이 때, 상기 하나 이상의 인위적인 단일 염기 다형성(SNP)은 점 돌연변이를 유발시킬 수 있다.
상기에서 타겟 유전자에 존재하는 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 확인할 수 있다. 이를 통하여 목적하는 정보를 얻을 수 있다.
이때, 확인된 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 포함하는 핵산 서열은 약물 민감도 증가에 영향을 주는 단백질의 일 영역을 암호화하는 핵산 서열일 수 있다.
[제4 용도 - 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝]
다른 일 구현예로서, 단일 염기 치환 단백질 또는 이를 포함하는 염기 변형용 조성물은 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝에 이용될 수 있다.
일 구체예로서, 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
일 구현예로, 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝 방법은,
a) 타겟 유전자 내 존재하는 타겟 핵산서열에 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA를 발현할 수 있는 세포를 준비함,
- 이 때, 상기 세포는 타겟 핵산서열을 포함함 -;
b) 상기 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산을 도입함;
c) 상기 b)의 세포에 약물 또는 치료제를 처리함;
d) 생존한 세포 분리함; 및
e) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
일 구현예로, 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝 방법은,
a) 타겟 핵산서열을 포함하는 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산, 및 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리함;
c) 생존한 세포를 분리함; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
다른 일 구체예로서, 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 타겟 유전자의 핵산서열을 분석함;
을 포함하는 방법일 수 있다.
다른 일 구체예로서, 바이러스 내성 유전자 또는 바이러스 내성 단백질 스크리닝 방법은,
a) 염기 치환용 조성물을 타겟 핵산서열을 포함하는 세포에 도입함;
b) 상기 a)의 세포에 약물 또는 치료제를 처리힘;
c) 생존한 세포를 분리힘; 및
d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음;
을 포함하는 방법일 수 있다.
이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것일 수 있다.
상기 가이드 RNA 라이브러리는 타겟 서열의 일부 핵산서열과 상보적으로 결합할 수 있는 하나 이상의 가이드 RNA 집합일 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입되더라도 각 세포는 서로 다른 가이드 RNA를 포함할 수 있다. 동일한 가이드 RNA 라이브러리를 암호화하는 핵산이 각 세포에 도입된 결과, 각 세포는 서로 동일한 가이드 RNA를 포함할 수 있다.
상기 가이드 RNA 관련 설명은 상기 기술한 바와 같다.
상기 단일염기 치환 단백질은 아데닌 치환 단백질 또는 시토신 치환 단백질일 수 있다.
상기 단일염기 치환 단백질, 아데닌 치환 단백질 및 시토신 치환 단백질 관련 설명은 상기 기술한 바와 같다.
상기 도입은 전기천공법(electroporation), 리포좀, 플라스미드, 바이러스 벡터, 나노파티클(nanoparticles) 및 PTD(protein translocation domain)융합 단백질 방법 중 선택되는 1 이상의 방법으로 수행될 수 있다.
상기에서 처리하는 바이러스는 타겟 유전자가 암호화하는 단백질(이하, 표적 단백질로 기재)과상호작용하여 세포 내로 도입될 수 있다.
상기에서 생존한 세포는 상기 c)에서 처리한 바이러스와 상호작용하지 않는, 즉, 바이러스 내성을 가지는 세포일 수 있다.
상기에서 분리한 세포는 타겟 유전자에 적어도 하나 이상의 뉴클레오타이드의 변형을 포함하는 세포일 수 있다.
상기에서 분리한 세포는 타겟 유전자에 적어도 하나 이상의 뉴클레오타이드의 변형을 포함하는 세포일 수 있다.
이 때, 상기 하나 이상의 뉴클레오타이드의 변형은 타겟 유전자 내에 발생한 하나 이상의 인위적인 단일 염기 다형성(SNP)일 수 있다.
이 때, 상기 하나 이상의 인위적인 단일 염기 다형성(SNP)은 점 돌연변이를 유발시킬 수 있다.
상기에서 타겟 유전자에 존재하는 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 확인할 수 있다. 이를 통하여 목적하는 정보를 얻을 수 있다.
이때, 확인된 적어도 하나 이상의 뉴클레오타이드의 변형, 즉, 하나 이상의 인위적인 단일 염기 다형성을 포함하는 핵산 서열은 바이러스와 상호작용에 중요한 단백질의 일 영역을 암호화하는 핵산 서열일 수 있다.
본 명세서에 의해 개시되는 발명의 일 태양은 단일염기 치환방법이다.
상기 염기 치환용 조성물은 유전자 내에 하나 이상의 뉴클레오타이드의 염기에 인위적인 변형을유도 또는 발생시킬 수 있다.
상기 인위적인 변형 또는 치환은 가이드 RNA-단일 염기 치환 단백질 복합체에 의해 유도 또는 발생될 수 있다.
이때, 상기 가이드 RNA-단일 염기 치환 단백질 복합체는 i) 타겟 핵산서열 타겟팅, ii) 타겟 핵산서열 절단, iii) 타겟 핵산서열 내에 하나 이상의 뉴클레오타이드의 탈아미노화, iv) 탈아미노화 된 염기 제거, 및 v) 염기가 제거된 타겟 핵산서열의 수선 또는 수복하는 단계 중 하나 이상의 단계에서 작용할 수 있다. 이때, 상기 단계는 순차적 또는 동시에 발생할 수 있으며, 또한, 상기 단계의 순서는 변경될 수 있다.
i) 타겟 핵산서열 표적화
“타겟 핵산서열”은 타겟 유전자 또는 핵산 내에 존재하는 뉴클레오타이드 서열로, 구체적으로는 타겟 유전자 또는 핵산 내에 타겟 영역의 일부 뉴클레오타이드 서열이며, 이때 “타겟 영역”은 타겟 유전자 또는 핵산 내에 가이드 RNA-단일 염기 치환 단백질 복합체에 의해 변형될 수 있는 부위이다.
이하에서, 타겟 서열이라 함은 두 가지의 뉴클레오타이드서열 정보 모두를 의미하는 용어로 사용될 수 있다. 예를 들어, 타겟 유전자의 경우, 타겟 핵산서열은 타겟 유전자 DNA의 transcribed strand의 서열 정보를 의미하는 것일 수도 있고, 또는 non-transcribed strand의 뉴클레오타이드서열 정보를 의미하는 것일 수도 있다.
예를 들어, 타겟 핵산서열은 타겟 유전자 A의 타겟 영역 중 일부 뉴클레오타이드서열(transcribed strand)인 5'-ATCATTGGCAGACTAGTTCG-3'(SEQ ID NO: 17)을 의미할 수도 있으며, 이에 상보적인 뉴클레오타이드 서열(non-transcribed strand)인 5'-CGAACTAGTCTGCCAATGAT-3'(SEQ ID NO: 18)을 의미할 수도 있다.
타겟 핵산서열은 5 내지 50개의 뉴클레오타이드서열일 수 있다.
일 구체예로서 상기 타겟 핵산서열은 16개의 뉴클레오타이드 서열, 17개의 뉴클레오타이드 서열, 18개의 뉴클레오타이드 서열, 19개의 뉴클레오타이드 서열, 20개의 뉴클레오타이드 서열, 21개의 뉴클레오타이드 서열, 22개의 뉴클레오타이드 서열, 23개의 뉴클레오타이드 서열, 24개의 뉴클레오타이드 서열 또는 25개의 뉴클레오타이드 서열일 수 있다.
타겟 핵산서열은 가이드 RNA 결합 서열 혹은 가이드 RNA 비결합 서열을 포함한다.
“가이드 RNA 결합 서열(guide nucleic acid-binding sequence)”은 가이드 RNA의 가이드 도메인에 포함되는 가이드 서열과 일부 또는 완전한 상보성을 가지는 뉴클레오타이드 서열로, 가이드 RNA의 가이드 도메인에 포함되는 가이드 서열과 상보적인 결합을 할 수 있다. 타겟 핵산서열 및 가이드 RNA 결합 서열은 타겟 유전자 또는 핵산에 따라, 즉 유전자 조작 또는 변형하고자 하는 대상에 따라 달라질 수 있는 뉴클레오타이드 서열로, 타겟 유전자 또는 핵산에 따라 다양하게 설계될 수 있다.
“가이드 RNA 비결합 서열(guide nucleic acid-non-binding sequence)”은 가이드 RNA의 가이드 도메인에 포함되는 가이드 서열과 일부 또는 완전한 상동성을 가지는 뉴클레오타이드 서열로, 가이드 RNA의 가이드 도메인에 포함되는 가이드 서열과 상보적인 결합을 할 수 없다. 또한, 가이드 RNA 비결합 서열은 가이드 RNA 결합 서열과 상보성을 가지는 뉴클레오타이드 서열로, 가이드 RNA 결합 서열과 상보적인 결합을 할 수 있다.
가이드 RNA 결합 서열은 타겟 핵산서열 중 일부 뉴클레오타이드 서열로, 타겟 핵산서열의 두 가지 서로 다른 서열순서를 가지는 뉴클레오타이드 서열, 즉, 서로 상보적인 결합을 할 수 있는 두 가지의 뉴클레오타이드 서열 중 한 가지 뉴클레오타이드 서열일 수 있다. 이때, 가이드 RNA 비결합 서열은 타겟 핵산서열 중 가이드 RNA 결합 서열을 제외한 나머지 뉴클레오타이드 서열일 수 있다.
예를 들면, 타겟 유전자 A의 타겟 영역 중 일부 뉴클레오타이드 서열인 5'-ATCATTGGCAGACTAGTTCG-3'(SEQ ID NO: 17)과 이에 상보적인 뉴클레오타이드 서열인 5'-CGAACTAGTCTGCCAATGAT-3'(SEQ ID NO: 18)을 타겟 핵산서열로 할 때, 가이드 RNA 결합 서열은 두 개의 타겟 핵산서열 중 하나, 즉, 5'-ATCATTGGCAGACTAGTTCG-3'(SEQ ID NO: 17) 또는 5'-CGAACTAGTCTGCCAATGAT-3'(SEQ ID NO: 18)일 수 있다. 이때, 가이드 RNA 비결합 서열은, 가이드 RNA 결합 서열이 5'-ATCATTGGCAGACTAGTTCG-3'(SEQ ID NO: 17)인 경우, 5'-CGAACTAGTCTGCCAATGAT-3'(SEQ ID NO: 18)일 수 있고, 또는 가이드 RNA 결합 서열이 5'-CGAACTAGTCTGCCAATGAT-3'(SEQ ID NO: 18)인 경우 가이드 RNA 비결합 서열은 5'-ATCATTGGCAGACTAGTTCG-3'(SEQ ID NO: 17)일 수 있다.
가이드 RNA 결합 서열은 타겟 핵산서열, 즉, transcribed strand와 동일한 뉴클레오타이드 서열 및 non-transcribed strand와 동일한 뉴클레오타이드 서열 중 선택된 하나의 뉴클레오타이드 서열일 수 있다. 이때, 가이드 RNA 비결합 서열은 타겟 핵산서열 중 가이드 RNA 결합 서열, 즉, transcribed strand와 동일한 뉴클레오타이드 서열 및 non-transcribed strand와 동일한 뉴클레오타이드서열 중 선택된 하나의 뉴클레오타이드 서열을 제외한 나머지 뉴클레오타이드 서열일 수 있다.
가이드 RNA 결합 서열은 타겟 핵산서열의 길이와 동일할 수 있다.
가이드 RNA 비결합 서열은 타겟 핵산서열 또는 가이드 RNA 결합 서열의 길이와 동일할 수 있다.
가이드 RNA 결합 서열은 5 내지 50개의 뉴클레오타이드 서열일 수 있다.
일 구체예로서 상기 가이드 RNA 결합 서열은 16개의 뉴클레오타이드 서열, 17개의 뉴클레오타이드서열, 18개의 뉴클레오타이드 서열, 19개의 뉴클레오타이드 서열, 20개의 뉴클레오타이드서열, 21개의 뉴클레오타이드 서열, 22개의 뉴클레오타이드 서열, 23개의 뉴클레오타이드 서열, 24개의 뉴클레오타이드 서열 또는 25개의 뉴클레오타이드 서열일 수 있다.
가이드 RNA 비결합 서열은 5 내지 50개의 뉴클레오타이드 서열일 수 있다.
일 구체예로서 상기 가이드 RNA 비결합 서열은 16개의 뉴클레오타이드 서열, 17개의 뉴클레오타이드서열, 18개의 뉴클레오타이드 서열, 19개의 뉴클레오타이드 서열, 20개의 뉴클레오타이드 서열, 21개의 뉴클레오타이드 서열, 22개의 뉴클레오타이드 서열, 23개의 뉴클레오타이드 서열, 24개의 뉴클레오타이드 서열 또는 25개의 뉴클레오타이드 서열일 수 있다.
가이드 RNA 결합 서열은 가이드 RNA의 가이드 도메인에 포함된 가이드 서열과 일부 또는 완전한상보적인 결합을 할 수 있으며, 상기 가이드 RNA 결합 서열의 길이는 가이드 서열의 길이와 동일할 수 있다.
상기 가이드 RNA 결합 서열은 가이드 RNA의 가이드 도메인에 포함된 가이드 서열에 상보적인 뉴클레오타이드 서열일 수 있으며, 예를 들어 최소한 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상보적이거나 또는 완전하게 상보적인 뉴클레오타이드 서열일 수 있다.
일 예로, 상기 가이드 RNA 결합 서열은 가이드 RNA의 가이드 도메인에 포함된 가이드 서열에 상보적이지 않은 1 내지 8개의 뉴클레오타이드 서열을 가지거나 또는 포함할 수 있다.
가이드 RNA 비결합 서열은 가이드 RNA의 가이드 도메인에 포함된 가이드 서열과 일부 또는 완전한 상동성을 가질 수 있으며, 상기 가이드 RNA 비결합 서열의 길이는 가이드 서열의 길이와 동일할 수 있다.
상기 가이드 RNA 비결합 서열은 가이드 RNA의 가이드 도메인에 포함된 가이드 서열에 상동성을 가진 뉴클레오타이드 서열일 수 있으며, 예를 들어 최소한 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상동성이거나 또는 완전하게 상동성인 뉴클레오타이드 서열일 수 있다.
일 예로, 상기 가이드 RNA 비결합 서열은 가이드 RNA의 가이드 도메인에 포함된 가이드 서열에 상동적이 않은 1 내지 8개의 뉴클레오타이드 서열을 가지거나 포함할 수 있다.
가이드 RNA 비결합 서열은 가이드 RNA 결합 서열과 상보적 결합을 할 수 있으며, 상기 가이드 RNA 비결합 서열은 가이드 RNA 결합 서열의 길이와 동일할 수 있다.
상기 가이드 RNA 비결합 서열은 가이드 RNA 결합서열에 상보적인 뉴클레오타이드 서열일 수 있으며, 예를 들어 최소한 90% 또는 95% 이상의 상보적이거나 또는 완전하게 상보적인 뉴클레오타이드 서열일 수 있다.
일 예로, 상기 가이드 RNA 비결합 서열은 가이드 RNA 결합 서열에 상보적이지 않은 1 내지 2개의 뉴클레오타이드 서열을 가지거나 포함할 수 있다.
또한, 상기 가이드 RNA 결합 서열은 CRISPR 효소가 인식할 수 있는 뉴클레오타이드 서열에 근접한 위치에 위치한 뉴클레오타이드 서열일 수 있다.
일 예로, 상기 가이드 RNA 결합 서열은 CRISPR 효소가 인식할 수 있는 뉴클레오타이드 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 5 내지 50개의 뉴클레오타이드 서열일 수 있다.
또한, 상기 가이드 RNA 비결합 서열은 CRISPR 효소가 인식할 수 있는 뉴클레오타이드 서열에 근접한 위치에 뉴클레오타이드 서열일 수 있다.
일 예로, 상기 가이드 RNA 비결합 서열은 CRISPR 효소가 인식할 수 있는 뉴클레오타이드 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 5 내지 50개의 뉴클레오타이드 서열일 수 있다.
“표적화(targeting)”는 타겟 유전자 또는 핵산 내에 존재하는 타겟 핵산서열 중 가이드 RNA 결합 서열과 상보적 결합을 하는 것을 의미한다. 이때, 상기 상보적 결합은 100%의 완전한 상보적 결합일 수 있고, 또는 70% 이상 100% 미만의 불완전한 상보적 결합일 수 있다. 따라서, “표적화하는 gRNA”는 타겟 유전자 또는 핵산 내에 존재하는 타겟 핵산서열 중 가이드 RNA 결합 서열과 상보적 결합을 하는 gRNA를 의미한다.
상기 가이드 RNA-단일 염기 치환 단백질 복합체는 타겟 핵산서열을 표적화할 수 있다.
ii) 타겟 핵산서열 절단
상기 가이드 RNA-단일 염기 치환 단백질 복합체는 타겟 핵산서열을 절단할 수 있다.
이때, 상기 타겟 핵산서열이 이중 가닥의 핵산인 경우, 상기 절단은 이중 가닥을 모두 절단하는 것일 수 있다. 또는 상기 절단은 이중 가닥 중 하나의 가닥만 절단하는 것일 수 있다.
이때, 상기 타겟 핵산서열이 단일 가닥의 핵산의 경우, 상기 절단은 단일 가닥을 절단하는 것일 수 있다.
또는, 타겟 핵산서열 절단은 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 CRISPR 효소의 종류에 따라 절단 형태가 달라질 수 있다.
예를 들어, 상기 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 CRISPR 효소가 야생행 CRISPR 효소(예컨대, SpCas9)인 경우, 상기 타겟 핵산서열 절단은 타겟 핵산서열의 이중 가닥을 모두 절단하는 것일 수 있다.
다른 예를 들서, 상기 상기 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 CRISPR 효소가 CRISPR 효소 변이체인 니케이즈(예컨대, Nureki nCas9)인 경우, 상기 타겟 핵산서열 절단은 타겟 핵산서열의 이중 가닥 중 하나의 가닥을 절단하는 것일 수 있다.
iii) 타겟 핵산서열 내에 하나 이상의 뉴클레오타이드의 탈아미노화
상기 가이드 RNA-단일 염기 치환 단백질 복합체는 타겟 핵산서열 내에 하나 이상의 뉴클레오타이드가 가지는 염기의 아미노(-NH2)기를 탈아미노화할 수 있다.
이때, 상기 탈아미노화는 시토신 또는 아데닌 염기에서 발생할 수 있다.
예를 들어, 타겟 핵산서열 내에 아데닌을 가지는 뉴클레오타이드가 5개(이때, 5개의 뉴클레오타이드는연속되거나 연속되지 않을 수 있다.)인 경우, 상기 가이드 RNA-단일 염기 치환 단백질 복합체는 아데닌을 가지는 뉴클레오타이드 5개의 아데닌의 아미노(-NH2)기를 모두 탈아미노화할 수 있다.
다른 예를 들어, 타겟 핵산서열 내에 시토신을 가지는 뉴클레오타이드가 8개(이때, 5개의 뉴클레오타이드는연속되거나 연속되지 않을 수 있다.)인 경우, 상기 가이드 RNA-단일 염기 치환 단백질 복합체는 시토신을 가지는 뉴클레오타이드 8개 중 3개의 뉴클레오타이드가 가지는 시토신의 아미노(-NH2)기를 탈아미노화할 수 있다.
탈아미노화가 발생하는 염기는 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 디아미네이즈의 종류에 따라 달라질 수 있다.
예를 들어, 상기 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 디아미네이즈가 아데노신 디아미네이즈(예컨대, TadA 또는 TadA 변이체)인 경우, 상기 탈아미노화는 아데닌에서 발생할 수 있다. 이때, 아데닌의 아미노(-NH2)기가 탈아미노화되면서 케토(=O)기가 형성될 수 있다. 상기 아데닌의 탈아미노화에 의해 히포그산틴이 생성될 수 있다.
다른 예를 들어, 상기 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 디아미네이즈가 시티딘 디아미네이즈(예컨대, APOBEC1 또는 APOBEC1 변이체)인 경우, 상기 탈아미노화는 시토신에서 발생할 수 있다. 이때, 시토신의 아미노(-NH2)기가 탈아미노화되면서 케토(=O)기가 형성될 수 있다. 상기 시토신의 탈아미노화에 의해 우라실이 생성될 수 있다.
iv) 탈아미노화 된 염기 제거
상기 가이드 RNA-단일 염기 치환 단백질 복합체는 iii) 단계에 의해 생성된 탈아미노화 된 염기를 제거할 수 있다. 이때, 탈아미노화 된 염기 제거는 iii) 단계에 의해 생성된 탈아미노화 된 염기를 전부 또는 일부를 제거하는 것일 수 있다.
이때, 상기 탈아미노화된 염기는 탈아미노화된 시토신 또는 탈아미노화된 아데닌일 수 있다.
이때, 상기 탈아미노화된 염기는 우라실 또는 히포그산틴일 수 있다.
탈아미노화 된 염기의 제거는 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 DNA 글리코실레이즈의 종류에 따라 달라질 수 있다.
예를 들어, 상기 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 DNA 글리코실레이즈가 Alkyladenine DNA glycosylase(AAG) 또는 AAG 변이체인 경우, 뉴클레오타이드를 구성하는 디옥시리보스 또는 리보스와 염기(탈아미노화 된 아데닌 또는 히포그산틴)를 연결하는 N-글리코시드 결합(N-glycoside linkage)을 가수분해시킬 수 있다. 또한, AP 부착자리(AP site, apurinic/apyrimidinic site)를 형성할 수 있다. 상기 AP 부착자리는 자발적 또는 DNA(또는 RNA) 손상으로 인해 퓨린 또는 피리미딘 염기가 없는 DNA(또는 RNA)의 위치일 수 있다.
다른 예를 들어, 상기 가이드 RNA-단일 염기 치환 단백질 복합체를 구성하는 DNA 글리코실레이즈가 Uracil-DNA glycosylase(UDG or UNG) 또는 UDG 변이체인 경우, 뉴클레오타이드를 구성하는 디옥시리보스 또는 리보스와 염기(탈아미노화 된 시토신 또는 유라실)를 연결하는 N-글리코시드 결합(N-glycoside linkage)을 가수분해시킬 수 있다. 또한, AP 부착자리(AP site, apurinic/apyrimidinic site)를 형성할 수 있다.
v) 염기가 제거된 타겟 핵산서열의 수선 또는 수복
염기가 제거된 타겟 핵산서열의 수선 또는 수복은 타겟 핵산서열의 절단에 따른 수선 또는 수복을 포함한다.
상기 염기가 제거된 타겟 핵산서열은 절단된 타겟 핵산서열일 수 있다.
이때, 상기 절단된 타겟 핵산서열은 이중 가닥이 모두 절단된 타겟 핵산서열일 수 있다.
이때, 상기 절단된 타겟 핵산서열은 이중 가닥 중 하나의 가닥이 절단된 타겟 핵산서열일 수 있다. 이때, 절단된 하나의 가닥은 염기가 제거된 가닥일 수 있다. 또는, 절단된 하나의 가닥은 염기가 제거되지 않은 가닥일 수 있다.
염기가 제거된 타겟 핵산서열의 수선 또는 수복은 타겟 핵산서열 내에 하나 이상의 염기가 제거된 뉴클레오타이드의 AP 부착자리에 임의의 염기, 즉, 아데닌, 시토신, 구아닌, 티민 또는 우라실로 수선 또는 수복되는 것일 수 있다.
예를 들어, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 아데닌이 제거된 뉴클레오타이드의 AP 부착자리가 구아닌으로 수복되는 것일 수 있다. 또는, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 아데닌이 제거된 뉴클레오타이드의 AP 부착자리가 시토신으로 수복되는 것일 수 있다. 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 아데닌이 제거된 뉴클레오타이드의 AP 부착자리가 티민으로 수복되는 것일 수 있다. 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 아데닌이 제거된 뉴클레오타이드의 AP 부착자리가 우라실으로 수복되는 것일 수 있다. 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 아데닌이 제거된 뉴클레오타이드의 AP 부착자리가 아데닌으로 수복되는 것일 수 있다.
다른 예를 들어, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 시토신이 제거된 뉴클레오타이드의 AP 부착자리가 아데닌으로 수복되는 것일 수 있다. 또는, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 시토신이 제거된 뉴클레오타이드의 AP 부착자리가 구아닌으로 수복되는 것일 수 있다. 또는, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 시토신이 제거된 뉴클레오타이드의 AP 부착자리가 티민으로 수복되는 것일 수 있다. 또는, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 시토신이 제거된 뉴클레오타이드의 AP 부착자리가 우라실으로 수복되는 것일 수 있다. 또는, 타겟 핵산서열 내에 하나 이상의 탈아미노화 된 시토신이 제거된 뉴클레오타이드의 AP 부착자리가 시토신으로 수복되는 것일 수 있다.
상기 인위적인 변형은 유전자의 엑손, 인트론, splicing site, 조절 영역(인핸서, 억제자영역), 5'말단 또는 그의 인접한 부위, 3'말단 또는 그의 인접한 부위 등에서 발생할 수 있다.
예를 들어, 상기 인위적인 변형은 엑손 영역에 하나 이상의 염기서열이 치환된 것일 수 있다. 예를 들어, 유전자 내 엑손 영역에 하나 이상의 A 및/또는 C가 다른 임의의 염기서열(A, C, T, G, U)로 치환된 것일 수 있다.
다른 예를 들어, 상기 인위적인 변형은 인트론 영역에 하나 이상의 염기서열이 치환된 것일 수 있다. 예를 들어, 유전자 내 인트론 영역에 하나 이상의 A 및/또는 C가 다른 임의의 염기서열(A, C, T, G, U)로 치환된 것일 수 있다.
예를 들어, 상기 인위적인 변형은 splicing site에 하나 이상의 염기서열이 치환된 것일 수 있다. 예를 들어, 유전자 내 splicing site에 하나 이상의 A 및/또는 C가 다른 임의의 염기서열(A, C, T, G, U)로 치환된 것일 수 있다.
다른 예를 들어, 상기 인위적인 변형은 조절 영역(인핸서, 억제자영역)에 하나 이상의 염기서열이 치환된 것일 수 있다. 예를 들어, 유전자 내 조절 영역(인핸서, 억제자영역)에 하나 이상의 A 및/또는 C가 다른 임의의 염기서열(A, C, T, G, U)로 치환된 것일 수 있다.
상기 인위적인 변형은 단백질을 암호화하는 유전자의 코돈 서열이 변형된 것일 수 있다.
“코돈”은 유전자로부터 아미노산을 부호화(encoding)되어 있는 유전 부호 중 하나를 말한다. DNA가 전령RNA로 전사될 때, 이러한 전령RNA의 염기서열은 세개씩 코돈을 형성한다. 코돈은 한 종류의 아미노산을 암호화할 수 있고, 또는 아미노산 합성을 종결시키는 종결 코돈일 수 있다.
상기 인위적인 변형은 하나 이상의 단일 염기 서열 변형에 의해 단백질을 암호화하는 코돈 서열이 변형된 것일 수 있고, 변형된 코돈 서열은 동일한 아미노산 또는 다른 아미노산을 암호화할 수 있다.
예를 들어, 하나 이상의 핵산 서열이 C에서 T로 변경되는 경우 프롤린을 암호화하는 CCC는 류신(Leucine)을 암호화하는 CUU 또는 CUC, 세린(serine)을 암호화하는 UCC 또는 UCU, 또는 페닐알라닌(phenyl-alanine)을 암호화하는 UUC 또는 UUU 등으로 코돈이 변형될 수 있다.
예를 들어, 하나 이상의 핵산 서열이 A에서 C로 변경되는 경우, 트레오닌(Threonine)을 암호화하는 ACC 또는 ACA는 프롤린을 암호화하는 CCC 또는 CCA 등으로 코돈이 변형될 수 있다.
예를 들어, 하나 이상의 핵산 서열이 A에서 G로 변경되는 경우, 리신을 암호화하는 AAA는 글루타민산을 암호화하는 GAA 또는 GAG, 글리신(Glycine)을 암호화하는 GGA 또는 GGG, 또는 아르기닌(Arginine)을 암호화하는 AGA 또는 AGG 등으로 코돈이 변형될 수 있다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다.
이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 자명할 것이다.
실험 방법
[제1 실시예]
실시예 1-1: 플라스미드 구축 (Plasmid construction)
플라스미드는 Gibson Assembly (NEB Builder HiFi DNA Assembly kit, NEB)를 이용하여 구축하였다. 도 3 (a), 도 7 (a) 및 도 21의 각각 단편을 PCR을 이용하여 증폭시킨 후, Gibson Assembly Master mix에 PCR로 증폭한 DNA 단편을 추가한 뒤, 50℃ 60분 동안 인큐베이트(incubate)하였다. 모든 플라스미드는 CMV 프로모터, p15A 복제개시점 및 암피실린(ambicillin) 항생제 저항 유전자를 선택마커를 포함한다. 일부 플라스미드는 인간 코돈-최적화된 WT-Cas9(P3s-Cas9HC; Addgene plasmid #43945) 또는 이의 변이체를 포함한다.
실시예 1-2: 세포 배양 및 형질 도입 (Cell culture and transfection)
(1) HEK293T 세포: 단일 염기 치환 CRISPR 단백질 형질 도입
HEK293T 세포는 5% CO2 하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Dulbeccco's Modified Eagle's 배지 (DMEM, Welgene)에서 배양하였다. 형질 감염 전 HEK293T 세포를 6-well 플레이트에 well 당 2x105의 밀도로 분주하였다. 그 후 1ug BE3 (WT, bpNLS, xCas-UNG, UNG-xCas, scFv-APO-UNG 또는 scFv-UNG-APO) 및 1ug sgRNA-발현 플라스미드(hEMX1 GX19 or GX20)을 200ul Opti-MEM 배지에서 4uL 리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염 시켰다.
(2) Hela 세포: 단일 염기 치환 CRISPR 단백질 형질 도입
Hela 세포는 5% CO2하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Dulbecco's Modified Eagle's Medium(DMEM, Welgene)에서 배양하였다. 형질 감염 전 Hela 세포를 6-well 플레이트에 well 당 2x105의 밀도로 분주하였다. 그 후 1ug 염기 치환 플라스미드(BE3 WT, bpNLS BE3, ung-ncas, ncas-ung 또는 ncas-delta UNG) 및 1ug sgRNA-발현 플라스미드를 200ul Opti-MEM 배지에서 4uL 리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염 시켰다.
(3) HEK293T 세포: 단일 염기 치환 CRISPR 단백질 형질 도입
HEK293T 세포는 5% CO2 하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Dulbeccco's Modified Eagle's 배지 (DMEM, Welgene)에서 배양하였다. 형질 감염 전 HEK293T 세포를 12-well 플레이트에 well 당 2x105의 밀도로 분주하였다. 그 후 500ng 염기 치환 플라스미드(bpNLS-UNG-APOBEC-Nureki nCas9-bpNLS), 500ng sgRNA-발현 플라스미드(hEMX1 GX19 or GX20)를 200ul Opti-MEM 배지에서 2uL 리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염 시켰다.
실시예 1-3: hEMX1 GX19 sgRNA, hEMX1 GX20 sgRNA 설계 및 합성
(1) sgRNA 설계 및 합성
CRISPR RGEN Tools((http://www.rgenome.net; Park et al, Bioinformatics 31:4014-4016, 2015)을 이용하여, hEMX 유전자의 “NGG PAM” 또는 “NG”PAM을 고려한 guide RNA를 디자인하였다. 디자인한 guide RNA는 On-target 부위를 제외하고 1 base 또는 2 base mismatch가 없는 것을 고려하였다.
sgRNA발현 플라스미드를 생성하는데 사용된 올리고(표 1참고)를 어닐링 및 연장시킨 후, pRG2 플라스미드의 Bsa1 부위에 클로닝 시켰다.
sgRNA name sequence
GX19 GAGTCCGAGCAGAAGAAGAA (서열번호 39)
GX20 TGCCCCTCCCTCCCTGGCCC (서열번호 40)
Nureki sgRNA 1 GAGGACAAAGTACAAACGGC (서열번호 41)
Nureki sgRNA 2 GGGCTCCCATCACATCAACC (서열번호 42)
Nureki sgRNA3 GGCCCCAGTGGCTGCTCTGG (서열번호 43)
Nureki sgRNA 4 GCTTTACCCAGTTCTCTGGG (서열번호 44)
(2) Deep sequencing
Hipi Plus DNA polymerase (Elpis-bio)를 사용하여 온-타겟(ontarget) 및 오프-타겟(off-target) 부위를 200~300bp 크기로 PCR 증폭시켰다. 상기의 방법으로 얻어진 PCR 산물을 Mi-seq. (Illumina)장비를 이용하여 sequencing 하여 CRISPR RGEN tool(www.rgenome.net)의 Cas Analyzer를 통해 분석하였다. CRISPR/Cas9 절단 부위로부터 5bp 이내에서의 치환을 단일 염기 치환 CRISPR 단백질로부터 유도된 변이로 간주하였다.
실시예 1-4: 실험 결과
본 실시예에서 단일 염기 치환 CRISPR 단백질을 이용하여 시토신(C)이 아데닌(A), 티민(T) 또는 구아닌(G)으로 치환 효과를 확인하였다.
(1) bpNLS 검증
HEK cell에서 BE3 WT 및 bpNLS BE3 WT를 이용하여 bpNLS BE3 WT가 BE3 WT보다 C to T 치환율(substitution rate)가 증가하였음을 확인하였다(도 7 (b)참고).
(2) 단일 염기 치환 CRISPR 단백질의 염기 치환 효율 확인
1) Hela cell에서 C to N(A, T, G) 효율 확인
Hela cell에서 단일 염기 치환 CRISPR 단백질을 이용하여 hEMX1 GX19 sgRNA target에서 C to N으로의 치환율을 확인하였다.
실험 결과, UGI 를 제거한 ncas-delta UGI는 BE3 WT과 C to G 또는 C to A의 치환율 차이가 거의 없음을 확인하였다. 반면에 UNG을 융합시킨 UNG-ncas, ncas-UNG은 BE3 WT와 비교하여 C to G 또는 C to A의 치환율이 증가하였음을 확인하였다(도 8 참고). 이러한 결과를 통해, BE3 WT에 UGI를 UNG으로 치환할 경우 C to G 또는 C to A로 염기 치환될 확률이 증가함을 확인하였다.
또한, hEMX1 GX19 sgRNA 시퀀스에서 15C, 16C의 염기 치환율을 확인하였다. 실험 결과 15C, 16C에서 BE3 WT, bpNLS BE3 보다 UNG-ncas, ncas-UNG에서 C to G 또는 C to A로 염기 치환될 확률이 증가함을 확인하였다(도 9 참고).
hEMX1 GX19 sgRNA 시퀀스에서 16C보다 15C에서 에서 C to G 또는 C to A로 염기 치환이 더 잘 일어났으며, UNG-ncas구조를 가진 단일 염기 치환 CRISPR 단백질에서 C to G 또는 C to A 염기 치환 확률이 가장 높음을 확인하였다(도 9 참고).
2) HEK cell에서 C to N(A, T, G) 효율 확인
HEK cell에서 hEMX1 GX20 sgRNA target으로 단일 염기 치환 CRISPR 단백질의 C to N으로의 치환율을 확인하였다.
실험 결과, hEMX1 GX19 sgRNA 시퀀스에서 13C, 15C, 16C 17C에서 염기 치환이 일어남을 확인하였다(도 10 참고).
또한, HEK cell에서는 ncas-UNG이 UNG-ncas보다 C to N으로 염기 치환율이 높음을 확인하였다 (도 11 참고). 특히 15C, 16C, 17C에서는 UNG-ncas 가 ncas-UNG보다 C to G 또는 C to A로 염기 치환이 더 잘 일어남을 확인하였다(도 11 참고).
또한, 단일 염기 치환 CRISPR 단백질 복합체, 즉, single chain variable fragment (scFv)을 포함하는 융합 염기 치환 도메인(scFv-APO-UNG 또는 scFv-UNG-APO)을 이용하여 hEMX1 타겟 핵산서열 내 단일 염기 치환 효율을 확인한 결과, 11C에서는 C to A로, 15C와 16C에서는 C to G로 염기 치환이 더 잘 일어남을 확인하였다(도 22 내지 24 참고).
(3) Nureki nCas9 검증
단일 염기 치환 CRISPR 단백질을 이용하여 랜덤 에러(random error)를 줄 수 있는 타겟 사이트를 확장하고자 NG PAM 서열을 가진 Nureki nCas9을 이용하여 실험을 진행하였다.
hEMX1 GX17 sgRNA, hEMX1 GX20 sgRNA를 이용하여 실험을 진행한 결과, HEK cell에서 잘 작동함을 확인하였다. 특히 NG PAM에서 C to N으로 치환이 일어남을 확인하였다(도 12 참고).
[제2 실시예]
실시예 2-1: 플라스미드 구축 (Plasmid construction)
플라스미드는 Gibson Assembly (NEB Builder HiFi DNA Assembly kit, NEB)를 이용하여 구축하였다. 도 4의 각각 단편을 PCR을 이용하여 증폭시킨 후, Gibson Assembly Master mix에 PCR로 증폭한 DNA 단편을 추가한 뒤, 50℃60분 동안 인큐베이트(incubate)하였다. 모든 플라스미드는 인간 코돈-최적화된 WT-Cas9(P3s-Cas9HC; Addgene plasmid #43945), CMV 프로모터, p15A 복제개시점 및 암피실린(ambicillin) 항생제 저항 유전자를 선택마커를 포함한다 (도 19 및 20 참고).
실시예 2-2: sgRNA 설계 및 합성
(1) sgRNA 설계
과학 전문지 '네이처'에 게재된 “base editing of A뷪 to G뷖 in genomic DNA without DNA cleavage”논문에서 Extended Data Figure 2에 명시된 sgRNA들 중 3개를 선정하였다 (도 25 참고).
(2) sgRNA 합성
2개의 상보적 올리고뉴클레오타이드를 어닐링 및 연장시켜 sgRNA 합성을 위한 주형들을 PCR-증폭시켰다.
상기 주형 DNA(타겟 서열에서 3'말단의 'NGG' 제외)에 대하여 T7 RNA polymerase (New England Biolabs)를 이용하여 in vitro transcription)을 수행하였고, 제조자 사용 설명서에 따라서 RNA를 합성한 후 Turbo DNAse(Ambion)를 사용하여 주형 DNA를 제거하였다. Expin Combo kit(GeneAll)과 이소프로판올 침전을 통하여 전사된 RNA를 정제하였다.
본 실시예에서, 상기 chemically synthesized sgRNA는 2'OMe 및 phosphorothioate로 변형된 것을 사용하였다.
실시예 2-3: 세포 배양 및 형질 도입 (cell culture and transfection)
(1) HEK293T 세포: 단일 염기 치환 CRISPR 단백질 형질 도입
HEK293T 세포는 5% CO2 하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Dulbeccco's Modified Eagle's 배지 (DMEM, Welgene)에서 배양하였다. 형질 감염 전 HEK293T 세포를 24-well 플레이트에 well 당 5x104의 밀도로 분주하였다. 그 후 서로 다른 세개의 1ug sgRNA 발현 플라스미드에 각각 3ug ABE (WT, N-AAG, C-AAG)을 200ul Opti-MEM 배지에서 12uL Fugene®HD transfection regaten(Cat no. E231A, promega)을 이용하여 형질감염 시켰다.
(2) Deep sequencing
Hipi Plus DNA polymerase (Elpis-bio)를 사용하여 온-타겟(ontarget) 및 오프-타겟(off-target) 부위를 200~300bp 크기로 PCR 증폭시켰다. 상기의 방법으로 얻어진 PCR 산물을 Mi-seq. (Illumina)장비를 이용하여 sequencing 하여 CRISPR RGEN tool(www.rgenome.net)의 Cas Analyzer를 통해 분석하였다. CRISPR/Cas9 절단 부위로부터 5bp 이내에서의 치환을 단일 염기 치환 CRISPR 단백질로부터 유도된 변이로 간주하였다.
실시예 2-4: 실험 결과
ABE (Adenine Base Editor)는 아데닌 염기 교정 유전자가위로, 아데닌(A) 염기를 구아닌(G) 염기로 치환시키는 기술이다. Alkyladenine DNA glycosylase (AAG)는 DNA에서 이노신(Inosine) 염기를 제거하는 효소이다(도 2). 본 연구진은 아데닌 (adenine, A)염기의 무작위적 돌연변이를 유도하기 위하여 ABE WT 플라스미드의 N-말단과 C-말단 각각에 AAG (Alkyladenine DNA glycosylase;AAG) 유전자를 삽입하여 변형시켜 아데닌 염기 치환 단백질을 개발하였다. Cas9 니케이즈, 아데노신 디아미네이즈 및 DNA 글리코실레이즈를 다양한 순서로 구성하여 융합 단백질을 생성하였다(도 4).
아데닌(A) 염기의 무작위적 돌연변이를 확인하기 위하여 세 개의 sgRNA (sgRNA1, sgRNA2, sgRNA3)를 HEK 293T 세포에 염기 치환 단백질을 암호화하는 핵산을 포함하는 플라스미드(즉, 변형시킨 ABE 플라스미드)와 함께 형질 감염시켰다. 실험 결과, ABE WT와 비교했을 때 변형시킨 ABE 플라스미드 (N-AAG, C-AAG)를 형질 감염시킨 HEK293T 세포에서 sgRNA 1의 염기서열 중 14번째 아데닌 (A) 염기가 다른 염기 (티민;T, 사이토신;C, 구아닌;G)로 무작위적 치환이 일어난 것을 확인하였다. sgRNA 1 염기서열에서는 19번쨰와 13번쨰 아데닌(A) 염기가 다른 염기로 치환된 것을 확인하였다(도 27), sgRNA 1에서는 N-말단에 AAG를 삽입한 플라스미드에서만 16번째와 12번째 아데닌이 치환된 것을 확인하였다(도 28). 따라서 ABE에 AAG를 삽입함으로써 아데닌(A) 염기가 다른 염기로 무작위적 치환이 유도되는 것을 확인하였다. 더불어, Cas9 니케이즈, 아데노신 디아미네이즈 및 DNA 글리코실레이즈의 순서에 상관없이 아데닌 염기 치환 단백질을 이용하는 경우, 아데닌(A) 염기가 다른 염기로 무작위적 치환이 유도되는 것을 확인하였다(도 26 내지 28 참고).
[제3 실시예]
suntag 시스템을 이용한 단일 염기 치환
실시예 3-1: 플라스미드 제작 (Plasmid construction)
플라스미드는 Gibson Assembly (NEB Builder HiFi DNA Assembly kit, NEB)를 이용하여 구축하였다. 도 5의 (a),(b),(c) 각각 단편을 PCR을 이용하여 증폭시킨 후, Gibson Assembly Master mix에 PCR로 증폭한 DNA 단편을 추가한 뒤, 50℃15-60분 동안 인큐베이트(incubate)하였다. 모든 플라스미드는 인간 코돈-최적화된 WT-Cas9(P3s-Cas9HC; Addgene plasmid #43945), CMV 프로모터, p15A 복제개시점 및 암피실린(ambicillin) 항생제 저항 유전자를 선택마커를 포함한다.
실시예 3-2: 세포 배양 및 형질 도입 (Cell culture and transfection)
PC9 세포는 5% CO2 하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Rosewell Park Memorial Institute 1640 (RPMI 1640, Welgene)에서 배양하였다. 형질 감염 전 PC9 세포를 24-well 플레이트에 well 당 2x105의 밀도로 분주하였다. 그 후 1500ng 염기 치환 플라스미드(Apobec-nCas9-UGI, Apobec-nureki nCas9-UNG)와 500ng sgRNA-발현 플라스미드(hEMX1 GX19)를 그리고 1000ng suntag 플라스미드(GCN4-nCas9)와 1000ng ScFv 플라스미드(ScFv-Apobec-UNG, ScFv-UNG-Apobec)와 500g sgRNA-발현 플라스미드(hEMX1 GX19)를 200ul Opti-MEM 배지에서 4uL 리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염 시켰다.
실시예 3-3: Deep sequencing
Hipi Plus DNA polymerase (Elpis-bio)를 사용하여 온-타겟(ontarget) 및 오프-타겟(off-target) 부위를 200~300bp 크기로 PCR 증폭시켰다. 상기의 방법으로 얻어진 PCR 산물을 Mi-seq. (Illumina)장비를 이용하여 sequencing 한 후 CRISPR RGEN tool(www.rgenome.net)의 BE Analyzer를 통해 분석하였다. sgRNA sequence 부위로부터 10bp 이내에서의 치환을 단일 염기 치환 CRISPR 단백질로부터 유도된 변이로 간주하였다.
실시예 3-4: 실험결과
PC9 cell에서 단일 염기 치환 단백질을 이용하여 C to N으로의 치환율을 확인하였다.
SunTag 시스템을 이용하여 한 개의 nCas9으로도 UNG의 효과를 극대화함으로써 무작위적인 돌연변이 유도를 증가시키고자 하였다. 그 결과, ScFv-UNG-Apobec의 경우 WT와 비슷한 단일 염기 치환 효율을 가지면서 무작위적인 염기 치환 (C to T or A or G)을 유도하는 것을 확인할 수 있었다(도 13 참고).
[제4 실시예]
단일 염기 치환 CRISPR 단백질을 이용한 EGFR C797S 돌연변이 유도 및 Osimertinib 내성 확인
실시예 4-1: PC9 세포: 단일 염기 치환 CRISPR 단백질 형질 도입 및 약물 배양
PC9 세포는 5% CO2 하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Rosewell Park Memorial Institute 1640 (RPMI 1640, Welgene)에서 배양하였다. 형질 감염 전 PC9 세포를 15cm2 dish에 3x106의 밀도로 분주하였다. 그 후 서로 다른 두개의 5ug sgRNA 발현 플라스미드에 각각 15ug N-UNG을 3mL Opti-MEM 배지에서 40uL 리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염 시켰다. 형질 감염시킨 날로부터 3일 뒤 blasticidin 4ug/mL의 농도로 항생제를 처리하여 7일 동안 배양하였다. 충분한 항생제 배양을 통한 안정화된 세포주가 확보된 다음, 비소세포성폐암 표적치료제인 Osimertinib (selleckchem, S5078) 100nM의 농도로 20일 동안 세포를 배양하였다. Osimertinib에 저항을 보인다고 알려진 C797S 변이를 생성할 수 있는 sgRNA(C797S sgRNA 1(서열번호 21) 및 C797S sgRNA 2(서열번호 22)를 사용하여 positive control실험을 진행하였다. 스크리닝 시스템을 이용하여 C797S 변이가 enrich 됨을 확인하였다.
실시예 4-2: Deep sequencing
Hipi Plus DNA polymerase (Elpis-bio)를 사용하여 온-타겟(ontarget) 및 오프-타겟(off-target) 부위를 200~300bp 크기로 PCR 증폭시켰다. 상기의 방법으로 얻어진 PCR 산물을 Mi-seq. (Illumina)장비를 이용하여 sequencing 한 후 CRISPR RGEN tool(www.rgenome.net)의 BE Analyzer를 통해 분석하였다. sgRNA sequence 부위로부터 10bp 이내에서의 치환을 단일 염기 치환 CRISPR 단백질로부터 유도된 변이로 간주하였다.
실시예 4-3: 실험 결과
3세대 EGFR 티로신 키나아제 억제제 (TKI)인 Osimertinib은 2세대 약물에 내성이 있는 EGFR T790M-양성 비소세포폐암 환자의 치료제로 사용되고 있다. N-UNG에 의한 target sgRNA sequence 내의 cytosine의 무작위적 염기치환을 유도함으로써 특정 약물에 대한 내성 돌연변이를 스크리닝하였다.
osimertinib약물의 알려진 내성 돌연변이인 C797S를 positive control로 사용하여 해당 tool이 작동하는지 확인하였다. C797S sgRNA1 내 15번째 위치한 C가 G로 또는 C797S sgRNA2 내 13번째 C가 G로 염기치환 될 경우 EGFR의 797번째 아미노산인 cysteine이 Serine으로 바뀌게된다. 실험 결과, 블라스티딘(Blastidine)만 처리한 군에서는 C797S sgRNA1와 2가 N-UNG에 의해 15C와 13C가 10%만 G로 치환되어있지만, Osimertinib을 처리한 군에서는 C to G로 바뀐 부분이 각각 50%와 80%로 늘어난 것을 확인하였다(도 30 참고)
.
[제5 실시예]
EGFR sgRNA 라이브러리 도입으로 형질전환 (Transformation) 세포 제조 및 약물 내성 돌연변이 스크리닝
실시예 5-1: EGFR sgRNA 라이브러리 디자인 및 합성
CRISPR RGEN tool(www.rgenome.net)을 이용하여 Epidermal Growth Factor Receptor (EGFR) 유전자의 exon 27개에서 총 1803개의 sgRNA를 디자인하였다. 디자인된 1803개의 sgRNA oligo pool들의 순방향 올리고 서열에는 5'말단에 CACCG을 추가하고, 역방향 올리고 서열에는 각각 5'말단에 AAAC를 3'말단에는 C를 추가하여 Twist Bioscience에 합성을 의뢰하였다.
실시예 5-2: EGFR sgRNA 라이브러리 플라스미드 제조
합성된 EGFR sgRNA oligo pool들은 95℃에서 5분 반응시킨 뒤 25℃까지 단계적으로 온도를 낮춰 결합(annealing)시켰다. 그 후로 EGFR sgRNA oligo pool들과 Bsa1 제한효소로 절단된 피기백 전위 (Piggybac transposon) 백본 벡터(backbone vector)은 T4 ligase에 의해 ligation하였다. Ligation된 반응액은 EnduraTM DUOs Electrocompetent cell (lucigen, Cat no. 60242-2)에 전기천공법(electroporation)을 이용하여 삽입하였다. 이렇게 형질 전환된 대장균은 Ampicillin 항생제가 첨가된 LB 배지에 고루 바르고 37℃에서 하루 동안 방치하여 배양하였다. NuceloBond Xtra Midi EF (Macherey-Nagel, cat No.740420.50)를 사용하여 대장균 군집(colony)들로부터 EGFR sgRNA 라이브러리 플라스미드를 확보하였다.
실시예 5-3: 세포 배양
PC9 세포는 5% CO2 하에서 37℃에서 10% FBS와 1% 항생제가 첨가된 Rosewell Park Memorial Institute 1640 (RPMI 1640, Welgene)에서 배양하였다.
실시예 5-4: 피기백 전위 (piggybac transposon)를 이용한 형질전환 세포 제조
PC9 세포에 유전자 전달 시스템인 피기백 전위(piggybac transposon)를 적용하여 EGFR sgRNA 발현이 가능한 세포를 제조하였다. 형질 전환 전 PC9 세포를 T175 flask에 4x106의 밀도로 분주하였다. 그 후 piggybac transposon vector 와 transposase expression vector을 1:5의 비율로 3mL Opti-MEM 배지에서 40uL 리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염 시켰다. 다음날 puromycin 2ug/mL의 농도로 항생제를 처리하여 7일 동안 배양하였다. 충분한 항생제 계대배양을 통해 안정화된 세포주를 확보하였다.
실시예 5-5: 단일 염기 치환 CRISPR 단백질 형질 도입 및 약물 내성 돌연변이 스크리닝
리포펙타민(lipofectamine)TM2000(thermo Fisher Scientific, 11668019)을 이용하여 형질감염을 하기 약 18~24시간 전에 형질 전환된 PC9 세포를 T175 flask에 4x106의 밀도로 분주하였다. 그 후 20ug N-UNG를 형질감염 시켰다. 형질 감염시킨 날로부터 3일 뒤 blasticidin 4ug/mL의 농도로 항생제를 처리하여 7일 동안 배양하였다. 충분한 항생제 배양을 통해 안정화된 세포가 확보되면 T175 flask에 4x106의 밀도로 분주하였다. 그 후, 비소세포성폐암 표적치료제인 Osimertinib (selleckchem, S5078) 100nM의 농도로 20일 동안 세포를 배양하여 내성 돌연변이 세포를 확보하였다.
실시예 5-6: Deep sequencing
Hipi Plus DNA polymerase (Elpis-bio)를 사용하여 온-타겟(ontarget) 및 오프-타겟(off-target) 부위를 200~300bp 크기로 PCR 증폭시켰다. 상기의 방법으로 얻어진 PCR 산물을 Mi-seq. (Illumina)장비를 이용하여 sequencing 한 후, 결과를 1803개의 EGFR sgRNA sequence로 분석을 의뢰하였다.
실시예 5-7: 실험결과
EGFR sgRNA가 발현하는 PC9세포에 N-UNG로 sgRNA내 Cytosine을 무작위적으로 염기 치환 시킨 후 Osimertinib이 첨가된 배지에서 배양시켜 살아남은 세포를 분석한 결과를 확보하였다(도 29 및 도 30 참고). 도 31은 EGFR sgRNA를 발현할 수 있는 PC9세포에 N-UNG로 sgRNA내 Cytosine을 무작위적으로 염기 치환 시킨 후 Osimertinib이 첨가된 배지에서 배양시켜 살아남은 세포를 분석한 결과이다.

Claims (33)

  1. 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산으로서,
    (a) CRISPR 효소 또는 이의 변이체;
    (b) 디아미네이즈(deaminase); 및
    (c) DNA 글리코실레이즈(DNA glycosylase) 또는 이의 변이체를 포함하고,
    이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 염기로의 치환을 유도하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  2. 제1 항에 있어서,
    상기 단일염기 치환 융합단백질은
    (i) N말단-[CRISPR 효소]-[디아미네이즈]-[DNA 글리코실레이즈]-C말단;
    (ii) N말단-[CRISPR 효소]-[DNA 글리코실레이즈]-[디아미네이즈]-C말단;
    (iii) N말단-[디아미네이즈]-[CRISPR 효소]-[DNA 글리코실레이즈]-C말단;
    (iv) N말단-[디아미네이즈]-[DNA 글리코실레이즈]-[CRISPR 효소]-C말단;
    (v) N말단-[DNA 글리코실레이즈]-[CRISPR 효소]-[디아미네이즈]-C말단; 및
    (vi) N말단-[DNA 글리코실레이즈]-[디아미네이즈]-[CRISPR 효소]-C말단 중 어느 하나의 구성을 가지는 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  3. 제1 항에 있어서,
    상기 디아미네이즈는 시티딘 디아미네이즈(cytidine deaminase)이고, 및
    상기 DNA 글리코실레이즈는 우라실-DNA 글리코실레이즈(Uracil-DNA glycosylase) 또는 이의 변이체이고,
    이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신을 임의의 염기로의 치환을 유도하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  4. 제3 항에 있어서,
    상기 시티딘 디아미네이즈는 APOBEC, AID(activation-induced cytidine deaminase) 또는 이의 변이체인 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  5. 제1 항에 있어서,
    상기 디아미네이즈는 아데노신 디아미네이즈(adenosine deaminase)이고, 및
    상기 DNA 글리코실레이즈는 알킬아데닌-DNA 글리코실레이즈(Alkyladenine DNA glycosylase) 또는 이의 변이체이고,
    이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 아데닌을 임의의 염기로의 치환을 유도하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  6. 제5 항에 있어서,
    상기 아데노신 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 또는 이의 변이체인 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  7. 제1 항에 있어서,
    상기 단일염기 치환 융합단백질은 하나 이상의 NLS(nuclear localization sequence)를 더 포함하는 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  8. 제1 항에 있어서,
    상기 CRISPR 효소 또는 이의 변이체는 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophilus) 유래의 Cas9 단백질, 스트렙토코커스아우레우스 (Streptococcus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis) 유래의 Cas9 단백질, 및 Cpf1 단백질로 이루어진 군에서 선택된 어느 하나 이상을 포함하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  9. 제8 항에 있어서,
    상기 CRISPR 효소 변이체는 RuvC 도메인 또는 HNH 도메인 중 어느 하나 이상이 불활성화된 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  10. 제9 항에 있어서,
    상기 CRISPR 효소 변이체는 니케이즈(nickase)인 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  11. 제1 항에 있어서,
    상기 단일염기 치환 융합단백질은 각 구성요소 (a), (b) 및 (c)의 사이에 연결 모이어티 (linking moiety)를 포함하는 것을 특징으로 하는,
    단일염기 치환 융합단백질 또는 이를 암호화하는 핵산.
  12. 제1항 내지 제11항 중 어느 한 항의 단일염기 치환 융합단백질을 암호화하는 핵산을 포함하는, 벡터.
  13. 단일염기 치환 복합체로서,
    (a) CRISPR 효소 또는 이의 변이체;
    (b) 디아미네이즈(deaminase);
    (c) DNA 글리코실레이즈(DNA glycosylase); 및
    (d) 2 이상의 결합도메인을 포함하고,
    이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신 또는 아데닌을 임의의 염기로의 치환을 유도하는,
    단일염기 치환 복합체.
  14. 제13 항에 있어서,
    상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈는 각각 하나 이상의 결합도메인에 연결되고,
    이 때, 상기 CRISPR 효소, 디아미네이즈, 및 상기 DNA 글리코실레이즈는 상기 결합도메인들 간의 상호작용을 통해서 복합체를 형성함,
    을 특징으로 하는,
    단일염기 치환 복합체.
  15. 제14 항에 있어서,
    상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈 중 어느 하나(one)는 제1 결합도메인 및 제2 결합도메인에 연결되고,
    이 때, 상기 제1 결합도메인 및 다른 구성(another)의 결합도메인은 상호작용을 하는 페어이고, 및 상기 제2 결합도메인 및 나머지 구성(the other)의 결합도메인은 상호작용을 하는 페어이며,
    이 때, 상기 페어들에 의하여 복합체를 형성함,
    을 특징으로 하는,
    단일염기 치환 복합체.
  16. 제13 항에 있어서,
    상기 디아미네이즈는 시티딘 디아미네이즈(cytidine deaminase)이고, 및
    상기 DNA 글리코실레이즈는 우라실-DNA 글리코실레이즈(Uracil-DNA glycosylase) 또는 이의 변이체이고,
    이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 시토신을 임의의 염기로의 치환을 유도하는,
    단일염기 치환 복합체.
  17. 제16 항에 있어서,
    상기 시티딘 디아미네이즈는 APOBEC, AID(activation-induced cytidine deaminase) 또는 이의 변이체인 것을 특징으로 하는,
    단일염기 치환 복합체.
  18. 제13 항에 있어서,
    상기 디아미네이즈는 아데노신 디아미네이즈(adenosine deaminase)이고, 및
    상기 DNA 글리코실레이즈는 알킬아데닌-DNA 글리코실레이즈(Alkyladenine DNA glycosylase) 또는 이의 변이체이고,
    이 때, 상기 단일염기 치환 융합단백질은 타겟 핵산서열 내 하나 이상의 뉴클레오타이드에 포함된 아데닌을 임의의 염기로의 치환을 유도하는,
    단일염기 치환 복합체.
  19. 제18 항에 있어서,
    상기 아데노신 디아미네이즈는 TadA, Tad2p, ADA, ADA1, ADA2, ADAR2, ADAT2, ADAT3 또는 이의 변이체인 것을 특징으로 하는,
    단일염기 치환 복합체.
  20. 제13 항에 있어서,
    상기 단일염기 치환 복합체는
    (i) 상기 CRISPR 효소, 상기 디아미네이즈, 및 상기 DNA 글리코실레이즈 중 선택된 두 개의 구성과 제1 결합도메인을 포함하는 제1 융합단백질, 및
    (ii) 상기 선택되지 않은 나머지 하나의 구성과 제2 결합도메인을 포함하는 제2 융합단백질을 포함하고,
    이 때, 제1 결합도메인 및 제2 결합도메인은 상호작용하는 페어이며,
    이 때, 상기 페어에 의하여 복합체를 형성함,
    을 특징으로 하는,
    단일염기 치환 복합체.
  21. 제20 항에 있어서,
    상기 단일염기 치환 복합체는
    (i) 상기 디아미네이즈, 상기 DNA 글리코실레이즈 및 제1 결합도메인을 포함하는 제1 융합단백질, 및
    (ii) CRISPR 효소 및 제2 결합도메인을 포함하는 제2 융합단백질을 포함함,
    을 특징으로 하는,
    단일염기 치환 복합체.
  22. 제14 항에 있어서,
    상기 결합도메인은 FRB domain, FKBP dimerization domain, 인테인(intein), ERT domains, VPR domain, GCN4 peptide, single chain variable fragment (scFv) 중 어느 하나, 또는 이량이질체(heterodimer)를 형성하는 도메인 중 어느 하나인 것을 특징으로 하는,
    단일염기 치환 복합체.
  23. 제15 또는 제20 항에 있어서,
    상기 페어는 다음 중 선택되는 어느 하나인 것을 특징으로 하는 단일염기 치환 복합체:
    (i) FRB 및 FKBP dimerization domains;
    (ii) 제1 인테인(intein) 및 제2 인테인;
    (iii) ERT 및 VPR domains;
    (iv)GCN4 peptide 및 single chain variable fragment (scFv); 또는
    (v) 이량이질체(heterodimer)를 형성하는 제1 도메인 및 제2 도메인.
  24. 제23 항에 있어서,
    상기 페어는 GCN4 peptide 및 single chain variable fragment (scFv)임,
    을 특징으로 하는,
    단일염기 치환 복합체.
  25. 제21 항에 있어서,
    상기 제1 결합도메인은 single chain variable fragment (scFv)이고, 상기 제2 융합단백질은 적어도 하나 이상의 결합도메인을 더 포함하고,
    이 때, 상기 더 포함되는 결합도메인은 GCN4 peptide임 -;
    이 때, 2개 이상의 제1 융합단백질은 상기 GCN4 peptide 중 어느 하나와 각각 상호작용을 통해서 복합체를 형성함,
    을 특징으로 하는,
    단일염기 치환 복합체.
  26. 단일염기 치환 조성물로서,
    (a) 가이드 RNA 또는 이를 암호화하는 핵산, 및
    (b) i) 제1 항의 단일염기 치환 융합단백질 또는 이를 암호화하는 핵산, 또는 ii) 제13 항의 단일염기 치환 복합체,
    - 이 때, 상기 가이드 RNA는 타겟 핵산서열 과 상보적으로 결합하고,
    이 때, 상기 가이드 RNA와 결합되는 타겟 핵산서열은 15 내지 25bp이고,
    이 때, 상기 단일염기 치환 융합단백질 또는 상기 단일염기 치환 복합체는 상기 타겟 핵산서열을 포함하는 타겟 영역(region) 내에 존재하는 하나 이상의 시토신 또는 아데닌의 임의의 염기로의 치환을 유도함 -;
    을 포함하는,
    단일염기 치환 조성물.
  27. 제26 항에 있어서,
    상기 단일염기 치환 조성물은 1 이상의 벡터를 포함하는 것을 특징으로 하는,
    단일염기 치환 조성물.
  28. 단일염기 치환 방법으로서,
    in vitro 또는 ex vivo 상에서 타겟 핵산서열을 포함하는 타겟 영역(region)에 (i) 및 (ii)를 접촉함,
    (i) 가이드 RNA, 및
    (ii) 상기 제1 항 단일염기 치환 융합단백질, 또는 상기 제12 항의 단일염기 치환 복합체,
    -이 때, 상기 가이드 RNA는 타겟 핵산서열에 상보적으로 결합하고,
    이 때, 상기 가이드 RNA와 결합되는 타겟 핵산서열은 15 내지 25bp이고,
    이 때, 상기 단일염기 치환 융합단백질 또는 상기 단일염기 치환 복합체는 상기 타겟 핵산서열을 포함하는 타겟 영역(region) 내에 존재하는 하나 이상의 시토신 또는 아데닌의 임의의 염기로의 치환을 유도함 -;
    을 포함하는,
    단일염기 치환 방법.
  29. 타겟 유전자의 SNP 스크리닝 방법으로서,
    상기 타겟 유전자를 포함하는 세포에 상기 제26 항의 단일염기 치환 조성물을 도입하여 상기 타겟 유전자 상에서 인위적으로 SNP를 유도함(inducing);
    목적하는 SNP을 포함하는 세포를 선별함(selecting); 및
    상기 선별된 세포를 분석함으로써 목적하는 SNP에 대한 정보(information)를 얻음(obtaining),
    - 이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것임 -;
    을 포함하는,
    타겟 유전자의 SNP 스크리닝 방법.
  30. 제29 항에 있어서,
    상기 단일염기 치환 조성물은
    전기천공법(electroporation), 리포좀, 플라스미드, 바이러스 벡터, 나노파티클(nanoparticles) 및 PTD(protein translocation domain) 융합 단백질 방법 중 선택되는 1이상의 방법으로 도입됨을 특징으로 하는,
    타겟 유전자의 SNP 스크리닝 방법.
  31. 약물 내성 돌연변이 스크리닝 방법으로서,
    타겟 유전자를 포함하는, 적어도 하나 이상의 세포에 상기 제26 항의 단일염기 치환 조성물을 도입하여 상기 타겟 유전자 상에서 인위적으로 SNP를 유도함(inducing);
    상기 세포에 특정 약물을 처리함(treating);
    생존한 세포를 선별함(selecting);
    상기 선별된 세포를 분석함으로써 목적하는 SNP에 대한 정보(information)를 얻음(obtaining),
    - 이 때, 상기 목적하는 SNP는 상기 타겟 유전자로부터 발현되는 단백질의 구조 또는 기능과 관련된 것임 -;
    을 포함하는,
    약물 내성 돌연변이 스크리닝 방법.
  32. 오시머티닙(Osimertinib) 내성 SNP 정보를 수득하는 방법으로서,
    a) 타겟 핵산서열을 포함하는 세포에 단일염기 치환 단백질 또는 이를 암호화하는 핵산, 및 가이드 RNA 라이브러리 중 어느 하나 이상의 가이드 RNA 또는 이를 암호화하는 핵산을 도입함;
    b) 상기 a)의 세포에 상기 오시머티닙을 처리함;
    c) 생존한 세포를 분리함; 및
    d) 분리한 세포에서 목적하는 SNP에 대한 정보를 얻음,
    - 이 때, 상기 목적하는 SNP는 상기 타겟 핵산서열을 포함하는 EGFR 유전자로부터 발현되는 EGFR의 구조 또는 기능과 관련된 것임 -;
    을 포함하는,
    오시머티닙(Osimertinib) 내성 SNP 정보를 수득하는 방법.
  33. 제31 항에 있어서,
    상기 단일염기 치환 조성물은
    전기천공법(electroporation), 리포좀, 플라스미드, 바이러스 벡터, 나노파티클(nanoparticles) 및 PTD(protein translocation domain) 융합 단백질 방법 중 선택되는 1이상의 방법으로 도입됨을 특징으로 하는,
    타겟 유전자의 SNP 스크리닝 방법.
PCT/KR2020/006731 2019-05-22 2020-05-22 단일염기 치환 단백질 및 이를 포함하는 조성물 WO2020235974A2 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/613,172 US20220228133A1 (en) 2019-05-22 2020-05-22 Single base substitution protein, and composition comprising same
EP20810376.2A EP3974525A4 (en) 2019-05-22 2020-05-22 MONBASIC SUBSTITUTE PROTEIN AND COMPOSITION THEREOF
CN202080053009.2A CN114144519A (zh) 2019-05-22 2020-05-22 单碱基置换蛋白以及包含其的组合物
AU2020278864A AU2020278864A1 (en) 2019-05-22 2020-05-22 Single base substitution protein, and composition comprising same
JP2021569222A JP2022533842A (ja) 2019-05-22 2020-05-22 一塩基置換蛋白質およびそれを含む組成物

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962851372P 2019-05-22 2019-05-22
US62/851,372 2019-05-22
US201962898094P 2019-09-10 2019-09-10
US62/898,094 2019-09-10

Publications (3)

Publication Number Publication Date
WO2020235974A2 WO2020235974A2 (ko) 2020-11-26
WO2020235974A3 WO2020235974A3 (ko) 2021-04-22
WO2020235974A9 true WO2020235974A9 (ko) 2021-06-03

Family

ID=73458158

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/006731 WO2020235974A2 (ko) 2019-05-22 2020-05-22 단일염기 치환 단백질 및 이를 포함하는 조성물

Country Status (7)

Country Link
US (1) US20220228133A1 (ko)
EP (1) EP3974525A4 (ko)
JP (1) JP2022533842A (ko)
KR (1) KR20200135225A (ko)
CN (1) CN114144519A (ko)
AU (1) AU2020278864A1 (ko)
WO (1) WO2020235974A2 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113637672B (zh) * 2021-08-10 2023-01-31 珠海舒桐医疗科技有限公司 一种碱基编辑工具及其构建方法
CN115725650A (zh) * 2021-08-26 2023-03-03 华东师范大学 实现a到c和/或a到t碱基突变的碱基编辑系统及其应用
WO2024144330A1 (ko) * 2022-12-29 2024-07-04 주식회사 엣진 레베르 유전성 시신경병증의 미토콘드리아 염기 변이 교정 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3207130T3 (da) * 2014-10-14 2019-11-11 Halozyme Inc Sammensætninger af Adenosin Deaminase-2 (ADA2), varianter deraf og fremgangsmåder til anvendelse af samme
KR20170126636A (ko) 2016-05-10 2017-11-20 주식회사 코맥스 디지털 도어락 시스템 및 이의 동작방법
CA3032699A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
EP3530737A4 (en) * 2016-09-13 2020-04-29 Toolgen Incorporated METHOD FOR IDENTIFYING DNA BASE EDITING USING CYTOSINE DEAMINASE
KR102084186B1 (ko) * 2017-01-17 2020-03-03 기초과학연구원 Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법
JP2020510439A (ja) * 2017-03-10 2020-04-09 プレジデント アンド フェローズ オブ ハーバード カレッジ シトシンからグアニンへの塩基編集因子
KR20190044157A (ko) * 2017-10-20 2019-04-30 경상대학교산학협력단 아데닌 또는 아데노신 탈아미노효소를 유효성분으로 포함하는 단일 염기 편집용 조성물 및 이의 용도

Also Published As

Publication number Publication date
EP3974525A2 (en) 2022-03-30
WO2020235974A3 (ko) 2021-04-22
CN114144519A (zh) 2022-03-04
KR20200135225A (ko) 2020-12-02
US20220228133A1 (en) 2022-07-21
JP2022533842A (ja) 2022-07-26
WO2020235974A2 (ko) 2020-11-26
AU2020278864A1 (en) 2021-12-23
EP3974525A4 (en) 2023-07-05

Similar Documents

Publication Publication Date Title
WO2020235974A9 (ko) 단일염기 치환 단백질 및 이를 포함하는 조성물
WO2021086083A2 (ko) CRISPR/Cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 RNA 및 그 용도
WO2019009682A2 (ko) 표적 특이적 crispr 변이체
WO2017217768A1 (ko) 온타겟 및 오프타겟의 다중 타겟 시스템을 이용하는, 표적 특이적 유전자 가위 스크리닝 방법 및 이의 용도
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
WO2017188797A1 (ko) In vivo에서 rna-가이드 뉴클레아제의 활성을 고처리량 방식으로 평가하는 방법
WO2022075813A1 (ko) Crispr/cas12f1 시스템 효율화를 위한 엔지니어링 된 가이드 rna 및 그 용도
AU2013335451C1 (en) Composition for cleaving a target DNA comprising a guide RNA specific for the target DNA and Cas protein-encoding nucleic acid or Cas protein, and use thereof
WO2022075816A1 (ko) Crispr/cas12f1(cas14a1) 시스템 효율화를 위한 엔지니어링 된 가이드 rna 및 이의 용도
WO2022060185A1 (ko) 표적화된 탈아미노효소 및 이를 이용한 염기 교정
WO2018231018A2 (ko) 간에서 목적하는 단백질 발현하기 위한 플랫폼
WO2022220503A1 (ko) Crispr 시스템을 이용한 유전자 발현 조절 시스템
CN101310015A (zh) 在两个功能性亚结构域中具有突变的laglidadg归巢核酸内切酶变体及其用途
WO2018088694A2 (ko) 인위적으로 조작된 sc 기능 조절 시스템
WO2022075808A1 (ko) Crispr/cas12f1 시스템 효율화를 위한 u-rich tail을 포함하는 엔지니어링 된 가이드 rna 및 그 용도
WO2018040537A1 (zh) 人pd-1基因敲除的cldn18.2 特异性嵌合抗原受体t细胞的制备方法以及应用
WO2019066490A2 (ko) 유전자 발현 조절을 위한 인위적인 게놈 조작
WO2015199387A2 (ko) 가용성 단백질 발현량 및 활성이 증대된 헬리코박터 파일로리 유래 α-1,3 푸코실 전달효소의 유전자와 단백질 및 α-1,3 푸코실올리고당 생산에의 응용
WO2012134215A2 (ko) 동물세포 발현벡터
WO2020218657A1 (ko) 표적 특이적 crispr 변이체
WO2023059115A1 (ko) 유전자 편집을 위한 target 시스템 및 이의 용도
WO2023153845A2 (ko) 상동지정복구를 위한 target 시스템 및 이를 이용한 유전자 편집 방법
CN1330666C (zh) 低氧-诱导因子1αHIF-1α变体和鉴定HIF-1α调节剂的方法
WO2022158898A1 (ko) Francisella novicida cas9 모듈 기반의 역전사 효소를 사용한 유전체 치환 및 삽입 기술
WO2020022803A1 (ko) 항응고 인자들의 유전자 에디팅

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20810376

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 2021569222

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020278864

Country of ref document: AU

Date of ref document: 20200522

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2020810376

Country of ref document: EP

Effective date: 20211222