WO2018231018A2 - 간에서 목적하는 단백질 발현하기 위한 플랫폼 - Google Patents

간에서 목적하는 단백질 발현하기 위한 플랫폼 Download PDF

Info

Publication number
WO2018231018A2
WO2018231018A2 PCT/KR2018/006803 KR2018006803W WO2018231018A2 WO 2018231018 A2 WO2018231018 A2 WO 2018231018A2 KR 2018006803 W KR2018006803 W KR 2018006803W WO 2018231018 A2 WO2018231018 A2 WO 2018231018A2
Authority
WO
WIPO (PCT)
Prior art keywords
gene
nucleic acid
sequence
protein
domain
Prior art date
Application number
PCT/KR2018/006803
Other languages
English (en)
French (fr)
Other versions
WO2018231018A3 (ko
Inventor
김석중
송동우
이규준
이정민
김운기
Original Assignee
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠 filed Critical 주식회사 툴젠
Priority to JP2019569246A priority Critical patent/JP7123982B2/ja
Priority to SG11201911623WA priority patent/SG11201911623WA/en
Priority to EP18817613.5A priority patent/EP3640335A4/en
Priority to CA3067316A priority patent/CA3067316A1/en
Priority to CN201880052875.2A priority patent/CN110997924A/zh
Priority to AU2018283686A priority patent/AU2018283686A1/en
Priority to US16/623,017 priority patent/US11667934B2/en
Publication of WO2018231018A2 publication Critical patent/WO2018231018A2/ko
Publication of WO2018231018A3 publication Critical patent/WO2018231018A3/ko
Priority to JP2022127829A priority patent/JP2022166155A/ja
Priority to US18/139,481 priority patent/US20230287461A1/en

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • A61K48/0058Nucleic acids adapted for tissue specific expression, e.g. having tissue specific promoters as part of a contruct
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • A61K38/16Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • A61K38/17Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • A61K38/1703Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • A61K38/1709Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P7/00Drugs for disorders of the blood or the extracellular fluid
    • A61P7/04Antihaemorrhagics; Procoagulants; Haemostatic agents; Antifibrinolytic agents
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/775Apolipopeptides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • C12N15/86Viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/48Hydrolases (3) acting on peptide bonds (3.4)
    • C12N9/50Proteinases, e.g. Endopeptidases (3.4.21-3.4.25)
    • C12N9/64Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from animal tissue
    • C12N9/6421Proteinases, e.g. Endopeptidases (3.4.21-3.4.25) derived from animal tissue from mammals
    • C12N9/6424Serine endopeptidases (3.4.21)
    • C12N9/644Coagulation factor IXa (3.4.21.22)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/40Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation
    • C07K2319/42Fusion polypeptide containing a tag for immunodetection, or an epitope for immunisation containing a HA(hemagglutinin)-tag
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2830/00Vector systems having a special element relevant for transcription
    • C12N2830/008Vector systems having a special element relevant for transcription cell type or tissue specific enhancer/promoter combination

Definitions

  • the present specification is a platform for expressing a protein of interest by artificially manipulating the liver, and more specifically, a transplant gene (for example, a therapeutic gene) capable of normal function and expression instead of an abnormal function or a disease gene to express. It relates to a platform for alleviating genetic diseases, treating or improving physical function by inducing expression using guide nucleic acids and / or editor proteins.
  • a transplant gene for example, a therapeutic gene
  • Gene therapy has enormous potential in the new era of ergonomics.
  • Gene therapies include genome editing techniques such as insertion of transgenes that can be regulated by specific exogenous promoters or endogenous promoters found at genomic insertion sites fused to a gene, disruption, modification or transplantation.
  • intractable hemophilia or lysosomal storage diseases currently do not have a suitable treatment, and alternative treatments using enzymes or protein replacements are mainly used for treatment, but fundamental treatment is not possible.
  • methods for expressing therapeutic genes using AAV are being conducted in clinical trials, but these methods can also be expected to be effective only while AAV is expressed, and are not fundamental and long-term treatment methods.
  • This therapeutic platform allows for permanent expression by inserting the actual therapeutic gene into the patient's genome for longer term effective treatment.
  • This therapeutic platform is different from existing therapeutic methods through the administration of temporary and repetitive therapeutic agents, and is a target specific artificially engineered nuclease that is effective for genetic correction for the purpose of inserting a therapeutic gene into the genome of a patient. Will be able to develop an efficient treatment platform.
  • a therapeutic platform capable of continuously expressing a gene of interest using target specific artificially engineered nucleases.
  • the gene position that is highly expressed in the organ or tissue is determined as the insertion site of the desired gene to complete an effective platform.
  • the disclosure disclosed herein may provide a platform for expressing a protein of interest in hepatocytes using the CRISPR-Cas system.
  • the present disclosure disclosed herein may provide a composition for expressing a protein of interest and various uses thereof, including a protein of interest or a sequence encoding the same and a CRISPR-cas system.
  • the present disclosure disclosed herein may provide a cell expressing a protein of interest using the CRISPR-Cas system and a method of preparing the same.
  • the disclosure disclosed herein may provide a method for expressing a protein of interest in hepatocytes using the CRISPR Cas system.
  • Disclosed herein can provide a method of treating genetic diseases, comprising administering to a subject a composition for expressing a protein of interest in hepatocytes.
  • the disclosure disclosed herein may provide guide nucleic acids and editor proteins that can be used to manipulate a target gene to express a protein of interest in hepatocytes.
  • the present specification is to provide a platform for expressing a protein of interest in hepatocytes. More specifically, by using the CRISPR-Cas system to insert a gene encoding a protein of interest into the target gene to continuously express at a high level, and to provide artificially modified cells, organs or tissues, improving body function and inheritance It relates to a platform for treating a disease.
  • the "liver biofactory platform" in the present disclosure which is a system capable of continuously expressing a desired protein by introducing and expressing a specific transplant gene in hepatocytes, is directly or indirectly involved. It includes all compositions, methods, and uses.
  • the artificially inserted transgene is located in the high expression secretory gene sequence in liver cells
  • the high expression secretory gene may be one or more genes selected from ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, and F9 present in the hepatocyte genome.
  • the artificially inserted transgene may have increased intracellular expression or newly expressed compared with before insertion.
  • composition comprising a target specific artificially engineered nuclease for expression of a desired protein in hepatocytes
  • the genetically engineered composition comprises an artificially engineered nuclease for inserting a transgene in a high expressing secretory gene
  • composition for genetic manipulation characterized in that at least one gene selected from the above high expression secretion gene group.
  • guide nucleic acid for the target sequence of one or more genes selected from the group of high expression secretory genes expressed in the liver For example, guide nucleic acid for the target sequence of one or more genes selected from the group of high expression secretory genes expressed in the liver;
  • a donor comprising a nucleic acid sequence encoding a protein of interest
  • composition for the desired protein expression comprising a.
  • High expression secreted gene is a gene that expresses a certain level or more in liver cells, while expressing a lot in liver cells, it means a gene that can be expressed outside the liver cells. Highly expressed secreted genes are present at positions capable of consistently high levels of expression in the genome of liver cells and can function as safe harbors sites.
  • the high expression secretion gene may be one or more genes selected from the group consisting of ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1 AAVS1, Rosa, HPRT, or CCR5.
  • the high expression secretory gene gene may preferably be HP or APOC3.
  • the artificially engineered nucleases mean artificially engineered nucleases (sometimes referred to as genetic scissors), and for example, clustered regularly interspaced short palindromic repets (CRISPR) -CRISPR associated protein (Cas). system, zinc finger nuclease (ZFN), transcription activator-like effector nucleases (TALEN).
  • CRISPR clustered regularly interspaced short palindromic repets
  • Cas CRISPR associated protein
  • ZFN zinc finger nuclease
  • TALEN transcription activator-like effector nucleases
  • Modifications in the nucleic acid sequence can be artificially manipulated by, but not limited to, the CRISPR-Cas system.
  • CRISPR-Cas system refers to a system formed through the interaction of an editor protein that cleaves a target gene with a guide nucleic acid that recognizes and binds a gene sequence of interest, and the CRISPR-Cas system includes a guide nucleic acid and an editor protein.
  • the CRISPR-Caas system can transform a subject.
  • the subject may be a target nucleic acid, gene, chromosome or protein.
  • the editor protein is a Cas9 protein derived from Streptococcus pyogenes, a Cas9 protein derived from Campylobacter jejuni, a Cas9 protein derived from Streptococcus thermophiles, Streptococcus aureus It may be at least one selected from the group consisting of Cas9 protein from Streptocuccus aureus, Cas9 protein derived from Neisseria meningitidis, and Cpf1. In one example, it may be a Cas9 protein from Streptococcus pyogenes or a Cas9 protein from Campylobacter jejuni.
  • the target sequence may be a nucleotide sequence located in the exon region of the high expression secretion gene sequence.
  • it may be a nucleotide sequence of 10bp to 25bp.
  • the target sequence may be a nucleotide sequence located in the intron region of the high expression secretion gene sequence.
  • it may be a nucleotide sequence of 10bp to 25bp.
  • the target sequence may be at least one selected from SEQ ID Nos: 1 to 348.
  • the guide nucleic acid may form a complementary bond with each of a portion of the nucleic acid sequence of one or more genes selected from the group of high expressing secretory genes. 0 to 5, 0 to 4, 0 to 3, 0 to 2 mismatching.
  • the disclosure disclosed herein comprises a guide nucleic acid for a target sequence of one or more high expression secretory genes selected from ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1 AAVS1, Rosa, HPRT or CCR5 do.
  • the target sequence may be nucleotides of SEQ ID NOs: 1 to 348.
  • one or more guide nucleic acids selected from the following groups may be provided:
  • the genetic modification composition in one embodiment, is the genetic modification composition
  • composition for genetic manipulation comprising.
  • the genetic modification composition in another embodiment, is the genetic modification composition
  • a guide nucleic acid for a target sequence selected from among SEQ ID NOs: 41 to 134 and SEQ ID NOs: 168 to 332, and
  • composition for genetic manipulation comprising.
  • the guide nucleic acid can be any one of 18 to 25 bp, 18 to 24 bp, 18 to 23 b, 19 to 23 bp, and 20 to 23 bp.
  • the guide RNA may be present in the form of a dual RNA, including a crRNA and a tracrRNA, or a single-chain RNA (sgRNA).
  • a dual RNA including a crRNA and a tracrRNA, or a single-chain RNA (sgRNA).
  • One disclosure disclosed herein includes a transgene that is a gene encoding a protein of interest.
  • Expression of the protein of interest may function to replace an existing protein or to provide a new protein.
  • diseases caused by deficiency or deficiency can be treated or improved function of the protein.
  • the protein of interest may be a protein having other properties (eg, increased serum half-life).
  • the protein of interest may be a therapeutic gene for a particular disease.
  • the therapeutic gene may be a gene that affects the expression and function of disease-causing genes involved in genetic diseases.
  • the therapeutic gene may be part of a normal form gene (eg, a functional domain) of a disease causing gene (mutated form of a normal gene) involved in a genetic disease.
  • the disease may be a disease that can be treated by an antibody.
  • the disease may be a disease caused by mutations in various genes.
  • it may be a disease associated with “genetic metabolic disease.”
  • genetic metabolic disease For example, hemophilia and the like.
  • the normal form of the therapeutic gene ie the disease causing gene, may be selected from the group consisting of FVII, FVIII, FIX and other coagulation factors.
  • the normal form of the therapeutic gene ie, the disease causing gene, may be selected from the group consisting of IDUA, I2S, SGSH, NAGLU, HGSNAT, GNS, GALNS, GLB1, ARSB, GUSB, HYAL, NEU, GNPTAB, and MCOLN1.
  • the normal form of the therapeutic gene ie, the disease causing gene, may be selected from the group consisting of SAH1, GALC, CTSA, GLA, NAGA, beta-galactosidase, hexosaminidase, GBA, SMPD1, ARSA, and SUMF.
  • the normal form of the therapeutic gene ie, the disease causing gene, may be selected from the group consisting of NPC, PPT, TPP1, CLN3, CLN6, PPT1, DNAJC5, CTSF, CLN7, CLN8 and CTSD.
  • the normal form of the therapeutic gene ie the disease causing gene, may be GAA or LAMP2.
  • the normal form of the therapeutic gene ie the disease causing gene, may be CTNS, CTSK or SLC17A5.
  • the normal form of the therapeutic gene ie, the disease causing gene, may be selected from the group consisting of MAN2B, MAN2C, MANBA, AGA, FUCA1, and LAL.
  • the therapeutic gene ie the normal form of the disease-causing gene, is methylmalonic aciduria CbIA Type (MMAA) protein, methylmalonic aciduria CbIB Type (MMAB) protein, methylmalonic aciduria CbIC Type (MMADHC) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase Reductase (MTRR ) protein, lysosomal membrane protein domain (LMBRD 1) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase (MTR) protein, propionyl-CoA protein, glucose-6-phosphate transporter (G6PT) protein, glucose-6-phosphatase (G6Pase) protein, low density lipoprotein receptor (LDLR) protein, low density lipoprotein receptor adapter protein 1 (LDLRAP-1 protein), N-acetylglutamate synthetase (NAGS) protein, carb
  • the therapeutic gene may be a gene encoding an antibody. That is, it may be a gene encoding a protein or a polypeptide that blocks a specific factor or signal pathway involved in causing a disease by an antibody.
  • the therapeutic gene may be in the form of a fusion with a specific peptide having a penetrating function to a specific tissue such as a blood-brain barrier (BBB) or a functional peptide capable of increasing the therapeutic effect of the therapeutic gene.
  • BBB blood-brain barrier
  • the present disclosure discloses artificially modified cells, tissues or organs into which a transgene is inserted, using the guide nucleic acid and / or editor protein.
  • the modified cells, tissues or organs are organs or tissues in which a transgene is inserted into a target sequence in a genomic gene of interest using a CRISPR-Cas system to express a target protein.
  • the transplanted gene is inserted into a high expression secretory gene position in liver cells, thereby continuously expressing a certain amount or more of a target protein.
  • Hepatocytes expressing an artificially inserted transgene in the genome of hepatocytes Hepatocytes expressing an artificially inserted transgene in the genome of hepatocytes
  • the high expression secreted gene is at least one gene selected from FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, and F9,
  • the artificially inserted transgene is located in a highly expressed secreted gene sequence
  • Hepatocytes containing the protein of interest expressed from the transgene Hepatocytes containing the protein of interest expressed from the transgene.
  • the high expression secretory gene can be, for example, HP or APOC3.
  • the transgene may be included in an exon or intron region in the high expression secretory gene genome.
  • the artificially inserted transgene can be expressed by a promoter in the hepatocyte genome.
  • the hepatocytes may be hepatic stem cells that include, but are not limited to, engineered loci (eg, high expression secretory loci).
  • engineered loci eg, high expression secretory loci.
  • Specific stem cell forms that can be used with the methods and compositions herein include adult stem cells, embryonic stem cells (ESC), and induced pluripotent stem cells (iPSC).
  • ESC embryonic stem cells
  • iPSC induced pluripotent stem cells
  • the method is a
  • the transgene is inserted into a high expressing secretory gene present in the hepatocyte genome,
  • the high expression secretory gene is a method of artificially manipulating hepatocytes, which is one or more genes selected from FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, and F9.
  • the introduction of the guide nucleic acid, the editor protein, and the donor into hepatocytes may be performed by one or more methods selected from liposomes, plasmids, viral vectors, nanoparticles, or protein translocation domain (PTD) fusion protein methods.
  • liposomes plasmids
  • viral vectors viral vectors
  • nanoparticles or protein translocation domain (PTD) fusion protein methods.
  • PTD protein translocation domain
  • the guide nucleic acids, editor proteins and donors may be provided in one or more vectors, respectively or together in the form of nucleic acid sequences.
  • the vector may be formed of a viral vector system.
  • the viral vector comprises at least one selected from the group consisting of adenovirus, adeno-associated virus (AAV), vaccinia virus, poxvirus, herpes simplex virus and lentivirus.
  • AAV adeno-associated virus
  • vaccinia virus poxvirus
  • herpes simplex virus lentivirus
  • the step of introducing the artificially engineered nucleases and donors into hepatocytes may be performed in vivo.
  • Intra-subject delivery methods may be systemic or topical application.
  • the systemic administration may be intravenous administration.
  • the step of introducing the artificially engineered nucleases and donors into hepatocytes may be performed ex vivo.
  • the intra-subject delivery method may be electroporation.
  • the present invention relates to a method for treating a specific disease, comprising administering a composition for sustained and constant expression of a protein of interest in a hepatocyte cell for the treatment of a specific disease.
  • the specific disease may be a disease resulting from a lack or lack of a specific protein.
  • the method of treatment comprises administering to a subject to be treated a composition comprising a genetically engineered composition for expressing an artificially inserted transgene in the hepatocyte genome as an active ingredient.
  • the genetically engineered composition is any one of artificially engineered nucleases of Clustered regularly interspaced short palindromic repeats (CRISPR) -CRISPR associated protein (Cas) system, Zinc finger nuclease (ZFN), Transcription activator-like effector nuclease (TALEN). It may include one.
  • CRISPR Clustered regularly interspaced short palindromic repeats
  • Cas CRISPR associated protein
  • ZFN Zinc finger nuclease
  • TALEN Transcription activator-like effector nuclease
  • hemophilia As a method of treating hemophilia,
  • a method for treating hemophilia comprising administering a genetically engineered composition for inserting transgene F9 in HP or APOC3 gene sequence in liver cells.
  • the treatment subject may be a mammal including humans, primates such as monkeys, rodents such as mice, rats, and the like.
  • the platform for expressing a protein of interest in hepatocytes can continuously express a desired protein at high levels and provide fundamental therapeutics for improving body function and genetic diseases.
  • a therapeutic protein for example, by generating a therapeutic protein to express a protein deficient or lacking by a composition herein, or by providing a novel protein with other properties (eg, increasing half-life), the deficiency or lack of a particular protein. Can prevent or treat genetic diseases caused by.
  • 1 is a graph showing RNA-sequencing results for selecting high expression secreted genes.
  • Figure 2 schematically shows the liver biofactory platform by artificial manipulation of the high expression secretion gene.
  • FIG 3 is a graph showing the results of T7E1 assay to confirm the activity of the guide RNA targeting Haptoglobin (HP).
  • 5 is a graph verifying off-target activity through targeted deep sequencing through NGS in human cell line HEK293 cells.
  • Figure 6 shows the schematic packaging of CRISPR-SpCas9 or CRISPR-CjCas9 and F9 genes in dual AAV.
  • Fig. 7 shows the FHP gene HDR in the hHP gene as a result of sanger sequencing confirming that the genomic DNA of the HEK293 cell line transfected with pAAV-CMV-CjCas9-U6-sgRNA and pAAV-hF9-donor was knocked-in.
  • the primer design for identifying the knock-in used is shown schematically.
  • FIG. 9 shows dual AAV of AV6-EFS-SpCas9 5x10 ⁇ 11 ⁇ g and AAV6-hF9-donor-APOC3-Sp 5x10 ⁇ 11 ⁇ g into human primary hepatocytes.
  • FIG. 9A shows on-target using genomic DNA. Activity is shown, in Figure 9B is a graph showing the secretion amount of hF9 results knock-in using a supernatant sample.
  • Disclosed herein is a platform for expressing a protein of interest in the liver.
  • compositions that express the desired protein by artificially manipulating the high expression secretory gene using the CRISPR-Cas system include compositions that express the desired protein by artificially manipulating the high expression secretory gene using the CRISPR-Cas system
  • It may be used to treat, prevent, alleviate certain genetic diseases or to improve physical function.
  • One embodiment of the disclosure disclosed herein relates to a "platform for expressing a protein of interest.”
  • a platform for expressing a protein of interest is a generic term for a system capable of artificially inserting a transgene into a wild-type genome to continuously produce (express) a desired protein in a particular organ or tissue. , Methods, and the like.
  • the platform also includes a system for secreting the produced (expressed) target protein out of the cell.
  • the produced protein of interest may function not only in the organ or tissue into which the transgene is inserted, but also in other secreted organs or tissues.
  • the platform should be capable of producing sufficient levels of the desired protein.
  • the platform must be able to be secreted sufficiently outside the cell to allow the target protein produced in other organs or tissues to function.
  • liver or liver tissue that implement a platform for expressing a protein of interest are liver or liver tissue.
  • the liver is an organ called the chemical factory of the human body that is involved in everything that happens in our body. It is responsible for metabolism of nutrients, detoxification, and immune function through enzymes of natural branches. In particular, the body can produce and store various substances necessary for proper functioning, and then export them through the hepatic vein to the whole body.
  • Liver bio-factory platform (hereinafter 'LBP')) for expressing a protein of interest in the liver will be described.
  • the platform for expressing a desired protein in the liver is a system for continuously producing a desired protein in liver tissue, which system can also secrete the produced protein out of the cell. It includes all materials, compositions, methods and uses that are directly or indirectly involved.
  • Platforms for expressing a protein of interest in the liver include systems for artificially manipulating the genome in the hepatocytes, for example, the hepatocytes, to produce the protein of interest in the hepatocytes.
  • One example involves artificially modifying the hepatocyte genomic sequence.
  • the method comprises cleaving some sequences of a particular gene in the hepatocyte genome.
  • a platform for expressing a protein of interest in the liver may use various kinds of liver-derived cells.
  • hepatocytes induced pluripotent stem cells (iPSCs) or other types of stem cells (embryonic, hematopoietic, or mesenchymal).
  • iPSCs induced pluripotent stem cells
  • other types of stem cells embryonic, hematopoietic, or mesenchymal.
  • Platforms for expressing the protein of interest in the liver can utilize specific regions in the hepatocyte genome for expressing high levels of the protein of interest in the liver.
  • the transgene may be inserted into a safe harbor site in the genome of liver cells.
  • the 'safe harbor site' is a specific region in the genome that does not cause serious side effects, such as cancer, even when the foreign gene is inserted, and the foreign gene inserted in the specific region is permanently and safely expressed at a high level. This is possible.
  • the transplanted gene may be inserted into a region where a gene regulatory regulatory region in the genome of the liver cell is available.
  • the 'gene regulatory region' is a region that plays an important role in regulating the expression of genes in the hepatocyte genome, for example, promoters and / or regulatory elements (enhancers, transcription) adjacent to sequences containing genetic information. Generic area including a facilitating factor).
  • the foreign gene inserted by using the promoter and / or regulatory element is capable of high level expression with high efficiency.
  • Platforms that express the protein of interest in the liver can produce large quantities of the protein of interest by using a particular location of the genome in the liver cells to continuously express high levels of the transgene.
  • the specific region into which the transgene in the hepatocyte genome is inserted may be included in some sequences of the "high expression secretory gene".
  • the high expression secretory gene may also be referred to as a target gene for performing artificial manipulation in the hepatocyte genome.
  • the "high expression secretion gene” refers to a gene capable of continuously high levels of expression in liver cells and the expression product can be secreted out of the cell.
  • the high expression secretory gene may be included in any one of the safe harbor regions in the genome of liver cells.
  • the high expressing secretory gene may include promoters and regulatory elements that allow for consistently high gene expression in the genome of liver cells.
  • the high expression secretory gene may be a wild type gene present in the liver cell genome.
  • wild type refers to a gene that is most commonly seen in nature or an allele designated as normal. For example, it may be in the form of a gene in a steady state that does not exhibit a specific disease.
  • the high expression secretion gene may be a gene that does not function normally present in the liver cell genome.
  • the high expression secretion gene may be a gene in which one or more specific nucleotides are modified as compared to the wild type.
  • modifications include deletions, substitutions, and / or insertions of one or more nucleotides.
  • the modified high expression secretion gene may be expressed in whole or in part, or not at all.
  • Transgenes expressing the protein of interest can be inserted into the sequence of the high expression secretion gene.
  • the transgene and the high expression secretion gene can be expressed together.
  • the high expression secretion gene may be expressed in liver cells and secreted into the blood.
  • the high expression secretion gene may not be expressed at all.
  • the high expression secretory gene can be, for example, ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1 AAVS1, Rosa, or HPRT.
  • the high expression secretory gene may be IDUA, IDS, GLA, or GBA.
  • the high expressing secretion gene may be HP.
  • the HP gene refers to a gene encoding Haptoglobin.
  • the HP gene may be one or more selected from the group consisting of, but not limited to: human HP (eg, NCBI Accession No. NP_001119574, NP_001305067, NP_005134) or Mous HP (NP_001316894, NP_059066) Genes such as the HP gene represented by NCBI Accession No. NM_001126102, NM_005143, NM_001318138 and the like.
  • the high expressing secretory gene can be APOC3.
  • APOC3 (Apolipoprotein C3) gene refers to a gene encoding Apolipoprotein C-III, a member of very low density lipoprotein (VLDL).
  • the APOC3 gene may be one or more selected from the group consisting of, but is not limited to: a gene encoding human APOC3 (e.g., NCBI Accession No. NP_000031), for example, the APOC3 gene represented by NCBI Accession No.NM_000040 and the like.
  • One example of the contents disclosed by the present specification is an LBP system expressing an artificially inserted transgene in a hepatocyte genome.
  • the artificially inserted transgene is located in a highly expressed secreted sequence
  • the high expression secretion gene is one or more genes selected from ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, and F9,
  • the artificially inserted transgene is an LBP system in which the expression level is increased or newly expressed compared with before insertion.
  • One embodiment of the disclosure disclosed herein relates to a composition capable of implementing a "platform for expressing a protein of interest”.
  • composition capable of implementing an LBP system expressing an artificially inserted transgene in the hepatocyte genome.
  • the present invention relates to a composition for artificially manipulating high expression secretory genes.
  • composition for artificially manipulating the high expression secretion gene may modify any region in the high expression secretion gene.
  • artificially modiified or engineered or artificially engineered refers to a state in which an artificial deformation has been made, not the state as it occurs in nature. For example, some nucleotides of a gene may be deleted or substituted, and foreign nucleotides or polynucleotides may be inserted and modified.
  • compositions for artificially manipulating the high expression secretory genes include artificially engineered nucleases.
  • Programmable nuclease includes any form of nuclease capable of recognizing and cleaving a particular position on the desired genome.
  • Clustered regularly interspaced short palindromic repeats (CRISPR)-a CRISPR associated protein (Cas) system a domain that recognizes specific target sequences on the genome, and a TAL activator-like effector derived from plant pathogenic genes.
  • TALEN transcription activator-like effector nuclease
  • zinc-finger nuclease zinc-finger nuclease
  • meganuclease RGEN (RNA-guided engineered nuclease)
  • Cpf1 FokI -endonuclease or a combination thereof.
  • Preferably it may be a CRISPR-Cas system, but is not limited thereto.
  • compositions comprising a CRISPR-Cas system for artificially manipulating high expression secretory genes.
  • the CRISPR-Cas systme may be composed of guide nucleic acids and / or editor proteins.
  • compositions for engineering high expression secretory genes may include guide nucleic acids for engineering high expression secretory genes.
  • guide nucleic acid refers to a nucleotide sequence that recognizes a target nucleic acid, gene or chromosome, and can interact with the editor protein.
  • the guide nucleic acid may form a complementary bond with some nucleotides in the target nucleic acid, gene or chromosome.
  • the guide nucleic acid may form a guide nucleic acid-editor protein complex, and may serve to guide the guide nucleic acid-editor complex to be located in a target region of a target nucleic acid, gene, or chromosome.
  • the guide nucleic acid may be in the form of target DNA specific guide RNA, DNA encoding the guide RNA, or DNA / RNA mixture.
  • the guide nucleic acid may be a guide RNA.
  • RNA may be transcribed in vitro, in particular, but not limited to, oligonucleotide duplexes, or transcribed from plasmid templates.
  • the guide nucleic acid may be one continuous nucleic acid sequence.
  • one contiguous nucleic acid sequence may be (N) m , where N is A, T, C or G, or A, U, C or G, and m means an integer from 1 to 150 .
  • the guide nucleic acid may be two or more consecutive nucleic acid sequences.
  • two or more consecutive nucleic acid sequences may be (N) m and (N) o , where N is A, T, C or G, or A, U, C or G, and m and o are It means an integer of 1 to 150, m and o may be the same or different from each other.
  • the guide nucleic acid may comprise one or more domains.
  • the domain may be a functional domain such as a guide domain, a first complementary domain, a connecting domain, a second complementary domain, a proximal domain, a tail domain, or the like, but is not limited thereto.
  • one guide nucleic acid may have two or more functional domains.
  • the two or more functional domains may be different from each other.
  • two or more functional domains included in one guide nucleic acid may be identical to each other.
  • one guide nucleic acid may have two or more proximal domains, and for example, one guide nucleic acid may have two or more tail domains.
  • the fact that the functional domains included in one guide nucleic acid are the same domains does not mean that the sequences of the two functional domains are the same. .
  • a "guide domain” is a domain capable of complementary binding to some sequence of either strand of a target gene or a double strand of a nucleic acid, and serves for specific interaction with a target gene or nucleic acid.
  • the guide domain may perform a function of inducing the guide nucleic acid-editor protein complex to a position having a specific nucleotide sequence of a target gene or nucleic acid.
  • the guide domain may be 10 to 35 nucleotide sequences.
  • the guide domain may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the guide domain may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the guide domain may comprise a guide sequence.
  • a "guide sequence” is a nucleotide sequence that is complementary to some sequence of either strand of a double strand of a target gene or nucleic acid, wherein the guide sequence * is at least 50%, 55%, 60%, 65%, 70%, 75% , Nucleotide sequence having at least 80%, 85%, 90%, or 95% complementarity or complete complementarity.
  • the guide sequence may be 10 to 25 nucleotide sequences.
  • the guide sequence may be 10 to 25 nucleotide sequences, 15 to 25 nucleotide sequences, or 20 to 25 nucleotide sequences.
  • the guide sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, or 20 to 25 nucleotide sequences.
  • the guide domain may further comprise additional nucleotide sequences.
  • the additional nucleotide sequence may be for improving or decreasing the function of the guide domain.
  • the additional nucleotide sequence may be for improving or decreasing the function of the guide sequence.
  • the additional nucleotide sequence may be 1 to 10 nucleotide sequences.
  • the additional nucleotide sequence may be 2 to 10 nucleotide sequences, 4 to 10 nucleotide sequences, 6 to 10 nucleotide sequences, or 8 to 10 nucleotide sequences.
  • the additional nucleotide sequence may be 1 to 3 nucleotide sequences, 3 to 6 nucleotide sequences, or 7 to 10 nucleotide sequences.
  • the additional nucleotide sequence is one nucleotide sequence, two nucleotide sequences, three nucleotide sequences, four nucleotide sequences, five nucleotide sequences, six nucleotide sequences, seven nucleotide sequences, eight nucleotide sequences, It can be nine nucleotide sequences or ten nucleotide sequences.
  • the additional nucleotide sequence may be one nucleotide sequence G (guanine), or may be two nucleotide sequences GG.
  • the additional nucleotide sequence may be located at the 5 'end of the guide sequence.
  • the additional nucleotide sequence may be located at the 3 'end of the guide sequence.
  • a “first complementary domain” is a domain comprising complementary nucleotide sequences to a second complementary domain described below, and is complementary enough to form a double strand with the second complementary domain.
  • the first complementary domain may have at least 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% complementarity with respect to the second complementary domain. It can be a nucleotide sequence that has, or has complete complementarity.
  • the first complementary domain may form a double strand through complementary binding to the second complementary domain.
  • the double strand formed may interact with some amino acids of the editor protein to form a guide nucleic acid-editor protein complex.
  • the first complementary domain may be 5 to 35 nucleotide sequences.
  • the first complementary domain comprises 5 to 35 nucleotide sequences, 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences, or 30 to 35 nucleotide sequences Can be.
  • the first complementary domain includes 1 to 5 nucleotide sequences, 5 to 10 nucleotide sequences, 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 Nucleotide sequences or 30 to 35 nucleotide sequences.
  • a “linking domain” is a nucleotide sequence that connects two or more domains, and the linking domain connects two or more domains that are the same or different.
  • the linking domain may be covalently or non-covalently linked to two or more domains, or may connect two or more domains covalently or non-covalently.
  • the linking domain may be 1 to 30 nucleotide sequences.
  • the linking domain may include 1 to 5 nucleotide sequences, 5 to 10 nucleotide sequences, 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, or 25 to 30 nucleotide sequences Can be.
  • the linking domain may include 1 to 30 nucleotide sequences, 5 to 30 nucleotide sequences, 10 to 30 nucleotide sequences, 15 to 30 nucleotide sequences, 20 to 30 nucleotide sequences, or 25 to 30 nucleotide sequences. Can be.
  • a “second complementary domain” is a domain comprising a nucleotide sequence comprising a complementary nucleic acid sequence and a first complementary domain as described above, and is complementary enough to form a double strand with the first complementary domain.
  • the second complementary domain may have at least 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, or 95% complementarity with respect to the first complementary domain. It can be a nucleotide sequence that has, or has complete complementarity.
  • the second complementary domain may form a double strand through complementary binding with the first complementary domain.
  • the double strand formed may interact with some amino acids of the editor protein to form a guide nucleic acid-editor protein complex.
  • the second complementary domain comprises a complementary nucleotide sequence with the first complementary domain and a nucleotide sequence without complementarity with the first complementary domain, eg, a nucleotide sequence that does not form a double strand with the first complementary domain.
  • the length of the nucleotide sequence may be longer than that of the first complementary domain.
  • the second complementary domain may be 5 to 35 nucleotide sequences.
  • the second complementary domain is 1 to 35 nucleotide sequences, 5 to 35 nucleotide sequences, 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotides Sequence or 30 to 35 nucleotide sequences.
  • the second complementary domain is 1 to 5 nucleotide sequences, 5 to 10 nucleotide sequences, 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 Nucleotide sequence or 30 to 35 nucleotide sequences.
  • Proximal domain is a nucleotide sequence located proximal to a second complementary domain.
  • the proximal domain may comprise complementary nucleotide sequences within the proximal domain and may form double strands by the complementary nucleotide sequences.
  • the proximal domain may be 1 to 20 nucleotide sequences.
  • the proximal domain may be 1 to 20 nucleotide sequences, 5 to 20 nucleotide sequences, 10 to 20 nucleotide sequences, or 15 to 20 nucleotide sequences.
  • the proximal domain may be 1 to 5 nucleotide sequences, 5 to 10 nucleotide sequences, 10 to 15 nucleotide sequences, or 15 to 20 nucleotide sequences.
  • a “tail domain” is a nucleotide sequence located at one or more of the ends of both guide nucleic acids.
  • the tail domain may comprise complementary nucleotide sequences within the tail domain, and may form double strands by complementary nucleotide sequences.
  • the tail domain may be from 1 to 50 nucleotide sequences.
  • the tail domain is 5 to 50 nucleotide sequences, 10 to 50 nucleotide sequences, 15 to 50 nucleotide sequences, 20 to 50 nucleotide sequences, 25 to 50 nucleotide sequences, 30 to 50 nucleotide sequences, 35 Or 50 to 50 nucleotide sequences, 40 to 50 nucleotide sequences, or 45 to 50 nucleotide sequences.
  • the tail domain is 1 to 5 nucleotide sequences, 5 to 10 nucleotide sequences, 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, 30 to 35 nucleotide sequences, 35 to 40 nucleotide sequences, 40 to 45 nucleotide sequences or 45 to 50 nucleotide sequences.
  • nucleic acid sequences included in the domains may include selective or additional chemical modification. have.
  • the chemical modification may be methylation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid (LNA), 2'-O-methyl 3'phosphorothioate (MS) or 2'-O-methyl 3'thioPACE (MSP). It is not limited.
  • Guide nucleic acids include one or more domains.
  • the guide nucleic acid may include a guide domain.
  • the guide nucleic acid may comprise a first complementary domain.
  • the guide nucleic acid may comprise a linking domain.
  • the guide nucleic acid may comprise a second complementary domain.
  • the guide nucleic acid may comprise a proximal domain.
  • the guide nucleic acid may comprise a tail domain.
  • the number of domains may be 1, 2, 3, 4, 5, 6 or more.
  • the guide nucleic acid may include 1, 2, 3, 4, 5, 6 or more guide domains.
  • the guide nucleic acid may comprise one, two, three, four, five, six or more first complementary domains.
  • the guide nucleic acid may comprise 1, 2, 3, 4, 5, 6 or more linking domains.
  • the guide nucleic acid may comprise one, two, three, four, five, six or more second complementary domains.
  • the guide nucleic acid may comprise 1, 2, 3, 4, 5, 6 or more proximal domains.
  • the guide nucleic acid may comprise 1, 2, 3, 4, 5, 6 or more tail domains.
  • the guide nucleic acid may be included by overlapping one domain.
  • the guide nucleic acid may be included without overlapping or overlapping multiple domains.
  • the guide nucleic acid may include the same kind of domain, wherein the same kind of domain may have the same nucleic acid sequence or different nucleic acid sequences.
  • the guide nucleic acid may include two kinds of domains, wherein the other two kinds of domains may have different nucleic acid sequences or the same nucleic acid sequences.
  • the guide nucleic acid may include three kinds of domains, wherein the other three kinds of domains may have different nucleic acid sequences or the same nucleic acid sequences.
  • the guide nucleic acid may include four kinds of domains, wherein the other four kinds of domains may have different nucleic acid sequences or the same nucleic acid sequences.
  • the guide nucleic acid may include five kinds of domains, wherein the other five kinds of domains may have different nucleic acid sequences or the same nucleic acid sequences.
  • the guide nucleic acid may include six kinds of domains, wherein the other six kinds of domains may have different nucleic acid sequences or the same nucleic acid sequences.
  • the guide nucleic acid is [guide domain]-[first complementary domain]-[linking domain]-[second complementary domain]-[linking domain]-[guide domain]-[first complementary domain] -[Linking domain]-[second complementary domain], wherein the two guide domains may comprise guide sequences for different or identical targets, and the two first complementary domains Two second complementary domains may have the same nucleic acid sequence or different nucleic acid sequences.
  • the guide domains contain guide sequences for different targets, the guide nucleic acids can specifically bind to two targets, where specific binding can occur simultaneously or sequentially.
  • the linking domain may be cleaved by a specific enzyme, and in the presence of a specific enzyme, the guide nucleic acid may be divided into two or three parts.
  • the guide nucleic acid for manipulating the high expression secretory gene may be a guide RNA for manipulating the high expression secretion gene.
  • the guide RNA may be transcribed in vitro, in particular but not limited to oligonucleotide double strand or plasmid template.
  • guide RNA refers to RNA specific for target DNA, capable of forming a complex with the Cas protein and bringing the Cas protein to the target DNA.
  • the guideRNA may comprise a plurality of domains. Each domain allows for intra- or inter-strand interaction of the three-dimensional behavior or active form of the guideRNA.
  • the single stranded guideRNA comprises a domain comprising a guide sequence capable of complementary binding to the target domain or target gene or nucleic acid in the 5 'to 3' direction; A first complementary domain; Connecting domains; A second complementary domain, a domain having a sequence complementary to the first complementary domain sequence and thus capable of forming a double stranded nucleic acid with the first complementary domain; Proximal domain; And optionally a tail domain.
  • the dual guideRNA comprises a guide domain, i.e., a domain comprising a guide sequence capable of complementary binding to a target gene or nucleic acid in a 5 'to 3' direction and a first complementary domain.
  • a first strand comprising;
  • a second complementary domain a domain having a sequence complementary to the first complementary domain sequence, capable of forming a double stranded nucleic acid with the first complementary domain, and a proximal domain; And optionally a second strand comprising a tail domain.
  • the first strand may be referred to as crRNA
  • the second strand may be referred to as tracrRNA.
  • the crRNA may comprise a guide domain and a first complementary domain
  • the tracrRNA may comprise a second complementary domain, a proximal domain and optionally a tail domain.
  • the single-stranded guideRNA comprises a guide domain in the 3 'to 5' direction, ie, a domain comprising a guide sequence capable of complementary binding to a target gene or nucleic acid; A first complementary domain; And a second complementary domain having a sequence complementary to the first complementary domain sequence and thus capable of forming a double stranded nucleic acid with the first complementary domain.
  • the first complementary domain may have a homology with a naturally occurring first complementary domain or may be derived from a naturally occurring first complementary domain.
  • the first complementary domain may have a difference in the nucleotide sequence of the first complementary domain according to a species present in nature, may be derived from a first complementary domain including a species present in nature, or It may have some or complete homology with the first complementary domain comprising the species present in nature.
  • the first complementary domain Streptococcus blood yoge Ness (Streptococcus pyogenes), Campylobacter Jeju Needle (Campylobacter jejuni), Streptococcus Thermo filler's (Streptococcus thermophiles), Staphylococcus aureus (Staphylococcus aureus ) or Neisseria meningitides , or at least 50%, or complete homology with the first complementary domain or the derived first complementary domain.
  • the first complementary domain when the first complementary domain is a first complementary domain of Streptococcus pyogenes or a first complementary domain derived from Streptococcus pyogenes, the first complementary domain is 5′-GUUUUAGAGCUA-3 Or may be a nucleotide sequence having at least 50% or more homology with 5'-GUUUUAGAGCUA-3 '.
  • the first complementary domain may further include (X) n , that is, 5′-GUUUUAGAGCUA (X) n ⁇ 3 ′.
  • X may be selected from the group consisting of nucleotides A, T, U and G, and n may be an integer of 5 to 15 as the number of nucleotide sequences.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the first complementary domain when the first complementary domain is a first complementary domain of Campylobacter jejuni or a first complementary domain derived from Campylobacter jejuni, the first complementary domain is 5'-GUUUUAGUCCCUUUUUAAAUUUCUUU. -3 'or 5'-GUUUUAGUCCCUU-3' or may be a nucleotide sequence having at least 50% homology with at least 50% homology with 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3 'or 5'-GUUUUAGUCCCUU-3'.
  • the first complementary domain may further include (X) n , that is, 5′-GUUUUAGUCCCUUUUUAAAUUUCUU (X) n ⁇ 3 ′ or 5′-GUUUUAGUCCCUU (X) n ⁇ 3 ′.
  • X may be selected from the group consisting of nucleotides A, T, U and G, and n may be an integer of 5 to 15 as the number of nucleotide sequences.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the first complementary domain is Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasii ( Boyrivibrio proteoclasii ) , Tampere Greenwich bacterium tumefaciens (Peregrinibacteria bacterium (GW2011_GWA_33_10)), liquid Let Mino Caucus Supervisors (Acidaminococcus sp.
  • BV3L6 Fort fatigue Monastir marker caviar (Porphyromonas macacae), racheu furnace Fira seae tumefaciens (Lachnospiraceae bacterium (ND2006) ), Porphyromonas crevioricanis , Prevotella disiens , Moraxella bovoculi (237), Smiihella sp.
  • the first complementary domain when the first complementary domain is a first complementary domain of a Falcobacteria bacterium or a first complementary domain derived from Falcubacteria bacterium, the first complementary domain is 5′-UUUGUAGAU-3 ′ days. Or a nucleotide sequence having at least 50% or more homology with 5′-UUUGUAGAU-3 ′.
  • the first complementary domain may further include (X) n , that is, 5 ′-(X) n UUUGUAGAU-3 ′.
  • X may be selected from the group consisting of nucleotides A, T, U and G, and n may be an integer of 1 to 5 as the number of nucleotide sequences.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the linking domain may be a nucleotide sequence that serves to connect the first and second complementary domains.
  • the linking domain may be covalently or non-covalently bonded to the first and second complementary domains, respectively.
  • the linking domain may connect the first and second complementary domains covalently or non-covalently.
  • the linking domain is suitable for use in single-stranded guideRNA molecules and covalently or non-covalently with the first and second strands of the double guideRNA, or covalently or non-covalently with the first and second strands. Can be used to generate single stranded guideRNAs.
  • the linking domain may be used to generate single-stranded guideRNAs by covalently or non-covalently covalently or non-covalently with the crRNA and tracrRNA of the double guideRNA, or by covalently or non-covalently connecting the crRNA and tracrRNA.
  • the second complementary domain may have homology with a naturally occurring second complementary domain or may be derived from a naturally occurring second complementary domain.
  • the second complementary domain may have a difference in the nucleotide sequence of the second complementary domain according to a species present in nature, may be derived from a second complementary domain including a species present in nature, or It may have some or complete homology with the second complementary domain, including species present in nature.
  • the second complementary domain s Streptococcus blood yoge Ness (Streptococcus pyogenes), Campylobacter Jeju Needle (Campylobacter jejuni), Streptococcus Thermo filler's (Streptococcus thermophiles), Staphylococcus aureus (Staphylococcus aureus ) or Neisseria meningitides , or at least 50%, or complete homology with a second complementary domain or derived second complementary domain.
  • the second complementary domain is a second complementary domain of Streptococcus pyogenes or a second complementary domain derived from Streptococcus pyogenes
  • the second complementary domain is 5′- UAGC AAGU UAAAA.
  • U-3 'or may be a nucleotide sequence having at least 50% homology with at least 50% homology with 5'- UAGC AAGU UAAAA U-3' (underlined marks to form a double strand with the first complementary domain) Nucleotide sequence).
  • the second complementary domain may further include (X) n or / and (X) m , that is, 5 ′-(X) n UAGC AAGU UAAAA U (X) m ⁇ 3 ′.
  • X may be selected from the group consisting of nucleotides A, T, U and G, wherein n and m are the number of nucleotide sequences, n may be an integer of 1 to 15, and m may be 1 to 6 have.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • (X) m may be as many as m integer repeats of the same nucleotide sequence, or m integers of nucleotides A, T, U and G are mixed.
  • the second complementary domain when the second complementary domain is a second complementary domain of Campylobacter jejuni or a second complementary domain derived from Campylobacter jejuni, the second complementary domain is 5′- AAGAAAUUUAAAAAGGGACUAAAA U-3 'or 5'- AAGGGACUAAAA U-3', or 5'- AAGAAAUUUAAAAAGGGACUAAAA U-3 'or 5'- AAGGGACUAAAA U-3' and may be a nucleotide sequence having at least 50% homology with at least 50% homology (Underlined is the nucleotide sequence forming the double strand with the first complementary domain).
  • the second complementary domain further comprises (X) n or / and (X) m , ie 5 ′-(X) n AAGAAAUUUAAAAAGGGACUAAAA U (X) m ⁇ 3 ′ or 5 ′-(X) n AAGGGACUAAAA U (X) m ⁇ 3 ′.
  • X may be selected from the group consisting of nucleotides A, T, U, and G, wherein n may be an integer of 1 to 15, and m may be 1 to 6.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • (X) m may be as many as m integer repeats of the same nucleotide sequence, or m integers of nucleotides A, T, U and G are mixed.
  • the second complementary domain is Parcubacteria bacterium (GWC2011_GWC2_44_17), Lachnospiraceae bacterium (MC2017), Butyrivibrio proteoclasii ( Boyrivibrio proteoclasii ) , Tampere Greenwich bacterium tumefaciens (Peregrinibacteria bacterium (GW2011_GWA_33_10)), solution Let Mino Caucus Supervisors (Acidaminococcus sp.
  • BV3L6 Fort fatigue Monastir marker caviar (Porphyromonas macacae), racheu Notre Fira seae tumefaciens (Lachnospiraceae bacterium (ND2006) ), Porphyromonas crevioricanis , Prevotella disiens , Moraxella bovoculi (237), Smiihella sp.
  • the second complementary domain when the second complementary domain is a second complementary domain of a Falcobacteria bacterium or a second complementary domain derived from Falcubacteria bacterium, the second complementary domain is 5′-AAAUU UCUAC U-3 Or nucleotide sequence having at least 50% homology with at least 50% homology with 5′-AAAUU UCUAC U-3 ′ (underlined is a nucleotide sequence that forms a double strand with the first complementary domain).
  • the second complementary domain may further include (X) n or / and (X) m , that is, 5 ′-(X) n AAAUU UCUAC U (X) m ⁇ 3 ′.
  • X may be selected from the group consisting of nucleotides A, T, U and G, wherein n and m are the number of nucleotide sequences, n may be an integer of 1 to 10, and m may be 1 to 6 have.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • (X) m may be as many as m integer repeats of the same nucleotide sequence, or m integers of nucleotides A, T, U and G are mixed.
  • first complementary domain and the second complementary domain may be complementary to each other.
  • the first complementary domain and the second complementary domain may form a double strand through the complementary bond.
  • the formed double strands can interact with the CRISPR enzyme.
  • the first complementary domain may comprise additional nucleotide sequences that do not complementarily bind to the second complementary domain of the second strand.
  • the additional nucleotide sequence may be 1 to 15 nucleotide sequences.
  • the additional nucleotide sequence may be 1 to 5 nucleotide sequences, 5 to 10 nucleotide sequences, or 10 to 15 nucleotide sequences.
  • the proximal domain may be a domain located in the 3 'direction of the second complementary domain.
  • the proximal domain may have homology with a naturally occurring proximal domain or may be derived from a naturally occurring proximal domain.
  • the proximal domain may have a difference in the nucleotide sequence of the proximal domain according to a species present in nature, may be derived from a proximal domain including a species existing in nature, or a proximal domain including a species present in nature It may have some or complete homology with.
  • the proximal domain is Streptococcus pyogenes , Campylobacter jejuni , Streptococcus thermophiles , Staphylococcus aureus or Staphylococcus aureus Have at least 50%, or complete homology, with some or at least 50% of the proximal or derived proximal domain of Neisseria meningitides .
  • the proximal domain when the proximal domain is a proximal domain of Streptococcus pyogenes or a proximal domain derived from Streptococcus pyogenes, the proximal domain may be 5'-AAGGCUAGUCCG-3 ', or 5'-AAGGCUAGUCCG-3 And nucleotide sequence having at least 50% or more homology.
  • the proximal domain may further include (X) n , that is, 5′-AAGGCUAGUCCG (X) n ⁇ 3 ′.
  • the X may be selected from the group consisting of nucleotides A, T, U, and G, wherein n is the number of nucleotide sequences, and may be an integer of 1 to 15. In this case, (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the proximal domain may be 5'-AAAGAGUUUGC-3 ', or 5'-AAAGAGUUUGC Nucleotide sequence having at least 50% homology with -3 '.
  • the proximal domain may further include (X) n , that is, 5′-AAAGAGUUUGC (X) n ⁇ 3 ′.
  • the X may be selected from the group consisting of nucleotides A, T, U and G, wherein n is the number of nucleotide sequences, and may be an integer of 1 to 40.
  • (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the tail domain may be selectively added to the 3 'end of the first strand or the second strand of the single stranded guide duplex or double guideRNA.
  • the tail domain may have homology with the naturally occurring tail domain or may be derived from a naturally occurring tail domain.
  • the tail domain may have a difference in the nucleotide sequence of the tail domain according to the species present in nature, may be derived from the tail domain including the species present in nature, or the tail domain including the species present in nature It may have some or complete homology with.
  • the tail domain is Streptococcus pyogenes , Campylobacter jejuni , Streptococcus thermophiles , Staphylococcus aureus or Staphylococcus aureus It may have at least 50%, or complete homology, with some or at least 50% of the tail or derived tail domain of Neisseria meningitides .
  • the tail domain may be 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3 ', or 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3 And nucleotide sequence having at least 50% or more homology.
  • the tail domain may further include (X) n , that is, 5′-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC (X) n ⁇ 3 ′.
  • the X may be selected from the group consisting of nucleotides A, T, U, and G, wherein n is the number of nucleotide sequences, and may be an integer of 1 to 15. In this case, (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the tail domain can be 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUU-3 ', or 5'-GGGACUCUGCGGGGUUACAAUCCCCUAUAACCG Nucleotide sequence having at least 50% homology with -3 '.
  • the tail domain may further include (X) n , that is, 5′-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU (X) n ⁇ 3 ′.
  • the X may be selected from the group consisting of nucleotides A, T, U, and G, wherein n is the number of nucleotide sequences, and may be an integer of 1 to 15. In this case, (X) n may be repeated as many as n integers of the same nucleotide sequence, or may be an integer number of n nucleotide sequences in which nucleotides A, T, U and G are mixed.
  • the tail domain may comprise 1 to 10 nucleotide sequences at the 3 ′ end associated with in vitro or in vivo transcription methods.
  • the tail domain when the T7 promoter is used for in vitro transcription of the guideRNA, can be any nucleotide sequence present at the 3 'end of the DNA template.
  • the tail domain when the U6 promoter is used for in vivo transcription, the tail domain may be UUUUUU, when the H1 promoter is used for transcription, the tail domain may be UUUU, and when using the pol-III promoter
  • the tail domain may comprise several uracil nucleotides or alternatively nucleotides.
  • the guideRNA may include a plurality of domains as described above, so that the length of the nucleic acid sequence can be adjusted according to the type and number of domains included in the guideRNA, and the three-dimensional form or guideRNA may be controlled by each domain. Interactions can occur within or between strands of the active form.
  • GuideRNAs include single stranded guideRNAs (single RNA molecules); Or double guideRNA (comprising more than one typically two separate RNA molecules).
  • the double guideRNA consists of a first strand and a second strand.
  • the first strand may be referred to as crRNA
  • the second strand may be referred to as tracrRNA.
  • first strand and the second strand may optionally include additional nucleotide sequences.
  • the first strand is
  • the N target is a nucleotide sequence complementary to some sequence of any one of the double strand of the target gene or nucleic acid
  • the N target is a nucleotide sequence site that can be changed according to the target sequence on the target gene or nucleic acid.
  • (Q) m is a nucleotide sequence including the first complementary domain, and includes a nucleotide sequence capable of complementary binding to the second complementary domain of the second strand.
  • (Q) m may be a sequence having partial or complete homology with the first complementary domain of a species present in nature, and the nucleotide sequence of the first complementary domain may be changed according to the derived species.
  • Q may be independently selected from the group consisting of A, U, C, and G, and m may be an integer of 5 to 35 as the number of nucleotide sequences.
  • (Q) m May be 5′-GUUUUAGAGCUA-3 ′ or may be a nucleotide sequence having at least 50% homology with 5′-GUUUUAGAGCUA-3 ′.
  • (Q) m is It can be 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3 'or 5'-GUUUUAGUCCCUU-3', or it can be a nucleotide sequence having at least 50% homology with 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3 'or 5'-GUUUUAGUCCCUU-3'.
  • (Q) m May be 5′-GUUUUAGAGCUGUGUUGUUUCG-3 ′ or may be a nucleotide sequence having at least 50% homology with 5′-GUUUUAGAGCUGUGUUGUUUCG-3 ′.
  • (X) a , (X) b and (X) c is a nucleotide sequence that can be optionally added, wherein X may be independently selected from the group consisting of A, U, C and G, A, b, and c are the number of nucleotide sequences, and may be 0 or an integer of 1 to 20.
  • the second strand is
  • the second strand is
  • (Z) h is a nucleotide sequence comprising a second complementary domain, and includes a nucleotide sequence capable of complementary binding to the first complementary domain of the first strand.
  • (Z) h may be a sequence having partial or complete homology with a second complementary domain of a species present in nature, and the nucleotide sequence of the second complementary domain may be changed according to the derived species.
  • Z may be independently selected from the group consisting of A, U, C, and G, and h may be an integer of 5 to 50 as the number of nucleotide sequences.
  • (Z) h May be 5′-UAGCAAGUUAAAAU-3 ′ or may be a nucleotide sequence having at least 50% homology with 5′-UAGCAAGUUAAAAU-3 ′.
  • (Z) h is 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3 'or 5'-AAGGGACUAAAAU-3' or may be a nucleotide sequence having at least 50% homology with 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3 'or 5'-AAGGGACUAAAAU-3'.
  • (Z) h May be 5'-CGAAACAACACAGCGAGUUAAAAU-3 'or may be a nucleotide sequence having at least 50% homology with 5'-CGAAACAACACAGCGAGUUAAAAU-3'.
  • (P) k is a nucleotide sequence including the proximal domain, and may be a sequence having partial or complete homology with the proximal domain of a species in nature, and the nucleotide sequence of the proximal domain may be changed according to the derived species.
  • P may be independently selected from the group consisting of A, U, C, and G, and k may be an integer of 1 to 20 as the number of nucleotide sequences.
  • (P) k is 5'-AAGGCUAGUCCG-3 ' Or a nucleotide sequence having at least 50% homology with 5′-AAGGCUAGUCCG-3 ′.
  • (P) k may be 5′-AAAGAGUUUGC-3 ′. Or a nucleotide sequence having at least 50% homology with 5′-AAAGAGUUUGC-3 ′.
  • (P) k is 5′-AAGGCUUAGUCCG-3 ′
  • a nucleotide sequence having at least 50% homology with 5′-AAGGCUUAGUCCG-3 ′ is 5′-AAGGCUUAGUCCG-3 ′.
  • (F) i is a nucleotide sequence including the tail domain, and may be a sequence having a part or complete homology with the tail domain of the species in nature, the nucleotide sequence of the tail domain according to the species derived Can be.
  • F may be independently selected from the group consisting of A, U, C, and G, wherein i is the number of nucleotide sequences, and may be an integer of 1 to 50.
  • (F) i is 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3 '
  • (F) i is 5′-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3 ′ when the tail domain has part or complete homology with the tail domain of Campylobacter jejuni or the Campylobacter jejuni derived tail domain Or a nucleotide sequence having at least 50% homology with 5′-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3 ′.
  • tail domain has partial or complete homology with the tail domain of Streptococcus thermophilus or the Streptococcus thermophilus derived tail domain
  • (F) i is 5′-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3 '
  • (F) i may comprise 1 to 10 nucleotide sequences at the 3 'end associated with in vitro or in vivo transcription methods.
  • the tail domain when the T7 promoter is used for in vitro transcription of the guideRNA, can be any nucleotide sequence present at the 3 'end of the DNA template.
  • the tail domain when the U6 promoter is used for in vivo transcription, the tail domain may be UUUUUU, when the H1 promoter is used for transcription, the tail domain may be UUUU, and when using the pol-III promoter
  • the tail domain may comprise several uracil nucleotides or alternatively nucleotides.
  • (X) d , (X) e and (X) f is a nucleotide sequence that can be optionally added, wherein X may be independently selected from the group consisting of A, U, C and G,
  • the d, e and f is the number of nucleotide sequences, it may be an integer of 0 or 1 to 20.
  • the single stranded guideRNA may be divided into a first single stranded guideRNA and a second single stranded guideRNA.
  • the first single-stranded guideRNA is a single-stranded guideRNA which connects the first and second strands of the double guideRNA to the linking domain.
  • the single stranded guideRNA is
  • the first single stranded guideRNA may optionally include additional nucleotide sequences.
  • the single-stranded guideRNA is N-stranded guideRNA
  • the N target is a nucleotide sequence complementary to some sequence of any one of the double strand of the target gene or nucleic acid
  • the N target is a nucleotide sequence site that can be changed according to the target sequence on the target gene or nucleic acid.
  • (Q) m is a nucleotide sequence including the first complementary domain, and includes a nucleotide sequence capable of complementary binding to the second complementary domain.
  • (Q) m may be a sequence having partial or complete homology with the first complementary domain of a species present in nature, and the nucleotide sequence of the first complementary domain may be changed according to the derived species.
  • Q may be independently selected from the group consisting of A, U, C, and G, and m may be an integer of 5 to 35 as the number of nucleotide sequences.
  • (Q) m May be 5′-GUUUUAGAGCUA-3 ′ or may be a nucleotide sequence having at least 50% homology with 5′-GUUUUAGAGCUA-3 ′.
  • (Q) m is It may be 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3 'or 5'-GUUUUAGUCCCUU-3', or it may be a nucleotide sequence having at least 50% homology with 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3 'or 5'-GUUUUAGUCCCUU-3'.
  • (Q) m May be 5′-GUUUUAGAGCUGUGUUGUUUCG-3 ′ or may be a nucleotide sequence having at least 50% homology with 5′-GUUUUAGAGCUGUGUUGUUUCG-3 ′.
  • (L) j is a nucleotide sequence comprising a linking domain, a nucleotide sequence for connecting the first complementary domain and the second complementary domain to generate a single stranded guideRNA.
  • L may be independently selected from the group consisting of A, U, C and G, wherein j is the number of nucleotide sequences, it may be an integer of 1 to 30.
  • (Z) h is a nucleotide sequence including a second complementary domain, and includes a nucleotide sequence capable of complementary binding with the first complementary domain.
  • (Z) h may be a sequence having partial or complete homology with a second complementary domain of a species present in nature, and the nucleotide sequence of the second complementary domain may be changed according to the derived species.
  • Z may be independently selected from the group consisting of A, U, C, and G, and h may be an integer of 5 to 50 as the number of nucleotide sequences.
  • (Z) h May be 5′-UAGCAAGUUAAAAU-3 ′ or may be a nucleotide sequence having at least 50% homology with 5′-UAGCAAGUUAAAAU-3 ′.
  • (Z) h is 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3 'or 5'-AAGGGACUAAAAU-3' or may be a nucleotide sequence having at least 50% homology with 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3 'or 5'-AAGGGACUAAAAU-3'.
  • (Z) h May be 5'-CGAAACAACACAGCGAGUUAAAAU-3 'or may be a nucleotide sequence having at least 50% homology with 5'-CGAAACAACACAGCGAGUUAAAAU-3'.
  • (P) k is a nucleotide sequence including the proximal domain, and may be a sequence having partial or complete homology with the proximal domain of a species in nature, and the nucleotide sequence of the proximal domain may be changed according to the derived species.
  • P may be independently selected from the group consisting of A, U, C, and G, and k may be an integer of 1 to 20 as the number of nucleotide sequences.
  • (P) k is 5'-AAGGCUAGUCCG-3 ' Or a nucleotide sequence having at least 50% homology with 5′-AAGGCUAGUCCG-3 ′.
  • (P) k may be 5′-AAAGAGUUUGC-3 ′. Or a nucleotide sequence having at least 50% homology with 5′-AAAGAGUUUGC-3 ′.
  • (P) k is 5′-AAGGCUUAGUCCG-3 ′
  • a nucleotide sequence having at least 50% homology with 5′-AAGGCUUAGUCCG-3 ′ is 5′-AAGGCUUAGUCCG-3 ′.
  • (F) i is a nucleotide sequence including the tail domain, and may be a sequence having a part or complete homology with the tail domain of the species in nature, the nucleotide sequence of the tail domain according to the species derived Can be.
  • F may be independently selected from the group consisting of A, U, C, and G, wherein i is the number of nucleotide sequences, and may be an integer of 1 to 50.
  • (F) i is 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3 '
  • (F) i is 5′-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3 ′ when the tail domain has part or complete homology with the tail domain of Campylobacter jejuni or the Campylobacter jejuni derived tail domain Or a nucleotide sequence having at least 50% homology with 5′-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3 ′.
  • tail domain has partial or complete homology with the tail domain of Streptococcus thermophilus or the Streptococcus thermophilus derived tail domain
  • (F) i is 5′-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3 '
  • (F) i may comprise 1 to 10 nucleotide sequences at the 3 'end associated with in vitro or in vivo transcription methods.
  • the tail domain when the T7 promoter is used for in vitro transcription of the guideRNA, can be any nucleotide sequence present at the 3 'end of the DNA template.
  • the tail domain when the U6 promoter is used for in vivo transcription, the tail domain may be UUUUUU, when the H1 promoter is used for transcription, the tail domain may be UUUU, and when using the pol-III promoter
  • the tail domain may comprise several uracil nucleotides or alternatively nucleotides.
  • (X) a , (X) b , (X) c , (X) d , (X) e and (X) f is a nucleotide sequence that can be optionally added, wherein X is A, U, It may be selected independently from the group consisting of C and G, wherein a, b, c, d, e and f is the number of nucleotide sequences, it may be an integer of 0 or 1 to 20.
  • the second single stranded guideRNA may be a single stranded guideRNA consisting of a guide domain, a first complementary domain and a second complementary domain.
  • the second single stranded guideRNA may optionally include additional nucleotide sequences.
  • the single-stranded guideRNA is N-stranded guideRNA
  • the N target is a nucleotide sequence complementary to some sequence of any one of the double strand of the target gene or nucleic acid
  • the N target is a nucleotide sequence site that can be changed according to the target sequence on the target gene or nucleic acid.
  • (Q) m is a nucleotide sequence including the first complementary domain, and includes a nucleotide sequence capable of complementary binding to the second complementary domain.
  • (Q) m may be a sequence having partial or complete homology with the first complementary domain of a species present in nature, and the nucleotide sequence of the first complementary domain may be changed according to the derived species.
  • Q may be independently selected from the group consisting of A, U, C, and G, and m may be an integer of 5 to 35 as the number of nucleotide sequences.
  • (Q) m is 5 It may be '-UUUGUAGAU-3' or may be a nucleotide sequence having at least 50% homology with 5'-UUUGUAGAU-3 '.
  • (Z) h is a nucleotide sequence including a second complementary domain, and includes a nucleotide sequence capable of complementary binding with the first complementary domain.
  • (Z) h may be a sequence having partial or complete homology with a second complementary domain of a species present in nature, and the nucleotide sequence of the second complementary domain may be changed according to the derived species.
  • Z may be independently selected from the group consisting of A, U, C, and G, and h may be an integer of 5 to 50 as the number of nucleotide sequences.
  • (Z) h is 5 It may be '-AAAUUUCUACU-3' or may be a nucleotide sequence having at least 50% homology with 5'-AAAUUUCUACU-3 '.
  • (L) j is a nucleotide sequence including a linking domain, and is a nucleotide sequence connecting the first complementary domain and the second complementary domain.
  • L may be independently selected from the group consisting of A, U, C and G, wherein j is the number of nucleotide sequences, it may be an integer of 1 to 30.
  • (X) a , (X) b and (X) c is a nucleotide sequence that can be optionally added, wherein X may be independently selected from the group consisting of A, U, C and G, A, b, and c are the number of nucleotide sequences, and may be 0 or an integer of 1 to 20.
  • a guide nucleic acid discloses a guide RNA capable of complementarily binding to a target sequence of a high expressing secretory gene.
  • the guide RNA is a guide RNA capable of binding any sequence selected from high-expressing secretory genes in secretory cells.
  • the high expression secretory gene is recognized by a guide nucleic acid, and may be a target gene or target sequence cleaved by an editor protein.
  • Target sequence is a nucleotide sequence present in a target gene or nucleic acid, specifically a nucleotide sequence of a target region within the target gene or nucleic acid, wherein the "target region” is defined by a guide nucleic acid-editor protein within the target gene or nucleic acid. It can be deformed.
  • the target sequence may be used as a term meaning both kinds of nucleotide sequence information.
  • the target sequence may mean sequence information of the transcribed strand of the target gene DNA, or may mean nucleotide sequence information of the non-transcribed strand.
  • a guide nucleic acid intended to use a target sequence including two embodiments may be referred to as a 'guide nucleic acid for the target sequence'.
  • the target sequence may mean 5'-ATCATTGGCAGACTAGTTCG-3 ', which is a nucleotide sequence of some of the target regions of target gene A, and 5'- which is a non-transcribed strand that is complementary thereto.
  • the target sequence may be 5 to 50 nucleotide sequences.
  • the target sequence is 16 nucleotide sequences, 17 nucleotide sequences, 18 nucleotide sequences, 19 nucleotide sequences, 20 nucleotide sequences, 21 nucleotide sequences, 22 nucleotide sequences, 23 nucleotide sequences, 24 nucleotide sequences Nucleotide sequence or 25 nucleotide sequences.
  • the target sequence includes a guide nucleic acid binding sequence or a guide nucleic acid non-binding sequence.
  • the "guide nucleic acid binding sequence” is a nucleotide sequence having partial or complete complementarity with the guide sequence included in the guide domain of the guide nucleic acid, and may bind complementarily with the guide sequence included in the guide domain of the guide nucleic acid.
  • the target sequence and guide nucleic acid binding sequence is a nucleotide sequence that may vary depending on the target gene or nucleic acid, that is, the subject to be manipulated or corrected, and may be variously designed according to the target gene or nucleic acid.
  • the "guide nucleic acid non-binding sequence” is a nucleotide sequence having a part or complete homology with the guide sequence included in the guide domain of the guide nucleic acid, and cannot bind complementarily with the guide sequence included in the guide domain of the guide nucleic acid.
  • the guide nucleic acid non-binding sequence is a nucleotide sequence having complementarity with the guide nucleic acid binding sequence, and can be complementary to the guide nucleic acid binding sequence.
  • the guide nucleic acid binding sequence may be a nucleotide sequence of some of the target sequences, and a nucleotide sequence having two different sequence sequences of the target sequence, that is, one of two nucleotide sequences capable of complementary binding to each other.
  • the guide nucleic acid non-binding sequence may be the remaining nucleotide sequence except for the guide nucleic acid binding sequence of the target sequence.
  • the guide nucleic acid binding sequence is two It may be one of the target sequences, that is, 5'-ATCATTGGCAGACTAGTTCG-3 'or 5'-CGAACTAGTCTGCCAATGAT-3'.
  • the guide nucleic acid non-binding sequence may be 5'-CGAACTAGTCTGCCAATGAT-3 'when the guide nucleic acid binding sequence is 5'-ATCATTGGCAGACTAGTTCG-3', or when the guide nucleic acid binding sequence is 5'-CGAACTAGTCTGCCAATGAT-3 '.
  • the guide nucleic acid unbinding sequence may be 5'-ATCATTGGCAGACTAGTTCG-3 '.
  • the guide nucleic acid binding sequence may be a nucleotide sequence selected from a target sequence, that is, a nucleotide sequence identical to a transcribed strand and a nucleotide sequence identical to a non-transcribed strand.
  • the guide nucleic acid non-binding sequence may be a nucleotide sequence other than a guide nucleic acid binding sequence of the target sequence, that is, a nucleotide sequence selected from a nucleotide sequence identical to a transcribed strand and a nucleotide sequence identical to a non-transcribed strand.
  • the guide nucleic acid binding sequence may be the same as the length of the target sequence.
  • the guide nucleic acid unbinding sequence may be the same as the target sequence or the length of the guide nucleic acid binding sequence.
  • the guide nucleic acid binding sequence may be 5 to 50 nucleotide sequences.
  • the guide nucleic acid binding sequence comprises 16 nucleotide sequences, 17 nucleotide sequences, 18 nucleotide sequences, 19 nucleotide sequences, 20 nucleotide sequences, 21 nucleotide sequences, 22 nucleotide sequences, 23 nucleotide sequences, It may be 24 nucleotide sequences or 25 nucleotide sequences.
  • the guide nucleic acid unbinding sequence may be 5 to 50 nucleotide sequences.
  • the guide nucleic acid non-binding sequence is 16 nucleotide sequence, 17 nucleotide sequence, 18 nucleotide sequence, 19 nucleotide sequence, 20 nucleotide sequence, 21 nucleotide sequence, 22 nucleotide sequence, 23 nucleotide sequence , 24 nucleotide sequences or 25 nucleotide sequences.
  • the guide nucleic acid binding sequence may be partially or completely complementary to the guide sequence included in the guide domain of the guide nucleic acid, and the length of the guide nucleic acid binding sequence may be the same as the length of the guide sequence.
  • the guide nucleic acid binding sequence may be a nucleotide sequence complementary to the guide sequence included in the guide domain of the guide nucleic acid, for example at least 70%, 75%, 80%, 85%, 90%, or at least 95% complementary Or a nucleotide sequence that is completely complementary.
  • the guide nucleic acid binding sequence may have or include 1 to 8 nucleotide sequences that are not complementary to the guide sequence included in the guide domain of the guide nucleic acid.
  • the guide nucleic acid non-binding sequence may have partial or complete homology with the guide sequence included in the guide domain of the guide nucleic acid, and the length of the guide nucleic acid non-binding sequence may be the same as the length of the guide sequence.
  • the guide nucleic acid non-binding sequence may be a nucleotide sequence homologous to the guide sequence included in the guide domain of the guide nucleic acid, for example, at least 70%, 75%, 80%, 85%, 90% or 95% or more. Homologous or completely homologous nucleotide sequences.
  • the guide nucleic acid non-binding sequence may have or include 1 to 8 nucleotide sequences that are not homologous to the guide sequence included in the guide domain of the guide nucleic acid.
  • the guide nucleic acid non-binding sequence may be complementary to the guide nucleic acid binding sequence, and the guide nucleic acid non-binding sequence may be the same length as the guide nucleic acid binding sequence.
  • the guide nucleic acid non-binding sequence may be a nucleotide sequence complementary to the guide nucleic acid binding sequence, for example at least 90% or 95% or more complementary or completely complementary nucleotide sequence.
  • the guide nucleic acid non-binding sequence may have or include 1 to 2 nucleotide sequences that are not complementary to the guide nucleic acid binding sequence.
  • the guide nucleic acid binding sequence may be a nucleotide sequence located close to the nucleotide sequence that the editor protein can recognize.
  • the guide nucleic acid binding sequence may be a contiguous 5 to 50 nucleotide sequence located adjacent to the 5 'end or / and 3' end of the nucleotide sequence that the editor protein can recognize.
  • the guide nucleic acid non-binding sequence may be a nucleotide sequence at a position close to the nucleotide sequence that the editor protein can recognize.
  • the guide nucleic acid non-binding sequence may be a contiguous 5 to 50 nucleotide sequence located adjacent to the 5 'end or / and 3' end of the nucleotide sequence that the editor protein can recognize.
  • the target sequence disclosed by the present specification may be a contiguous 10 to 35 nucleotide sequences located in the promoter region of the high expression secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequences located in the promoter region of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequences located in the promoter region of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence located in the intron region of a high expressing secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 25 nucleotide sequences consecutively located in the intron region of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located in the intron region of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence located in the exon region of a high expressing secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 25 nucleotide sequences consecutively located in the exon region of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located in the exon region of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence located in an enhancer region of a high expressing secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located in the enhancer region of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located in the enhancer region of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence located of a coding, non-coding or mixed portion thereof of a high expressing secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequences located of the coding, non-coding or a mixture portion thereof of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located of the coding, non-coding or mixing portion thereof of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence located of a promoter, enhancer, 3'UTR, polyadenyl (polyA) or mixed portion thereof of a high expressing secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located of a promoter, enhancer, 3′UTR, polyadenyl (polyA), or a mixed portion thereof of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located of a promoter, enhancer, 3′UTR, polyadenyl (polyA) or a mixed portion thereof of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence located of an exon, intron or mixed portion thereof of a high expressing secretory gene.
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located in the exon, intron, or a mixed portion thereof of the HP gene.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence located of an exon, intron, or a mixed portion thereof of the APOC3 gene.
  • the target sequence disclosed herein may be a contiguous 10 to 35 nucleotide sequence comprising or in close proximity to a mutant portion of a high expressing secretory gene (eg, a portion other than a wild type gene).
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be a contiguous 10 to 25 nucleotide sequence including or adjacent to a mutant portion of the HP gene (eg, a portion different from the wild-type gene).
  • the target sequence may be a contiguous 10-25 nucleotide sequence comprising or in close proximity to a mutant portion of the APOC3 gene (eg, a portion different from the wild-type gene).
  • the target sequence disclosed herein may be consecutive 10 to 35 nucleotide sequences adjacent to the 5 'end and / or 3' end of the proto-spacer-adjacent Motif (PAM) sequence in the nucleic acid sequence of the high expressing secretory gene. .
  • PAM proto-spacer-adjacent Motif
  • the "proto-spacer-adjacent Motif (PAM) sequence” is a nucleotide sequence that the editor protein can recognize. At this time, the PAM sequence may be different in nucleotide sequence according to the type of the editor protein and the species derived.
  • the PAM sequence may be, for example, one or more of the following sequences (described in the 5 'to 3' direction).
  • N is A, T, C or G
  • N is each independently A, T, C or G, R is A or G, and Y is C or T;
  • NNAGAAW N is each independently A, T, C or G, and W is A or T;
  • N are each independently A, T, C, or G;
  • N is each independently A, T, C or G, R is A or G and Y is C or T);
  • TTN (N is A, T, C or G).
  • the target sequence may be 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the target sequence may be 10 to 25 nucleotide sequences consecutively adjacent to the 5 'end and / or 3' end of the PAM sequence in the nucleic acid sequence of the HP gene.
  • the target sequence may be consecutive 10 to 25 nucleotide sequences adjacent to the 5 'end and / or 3' end of the PAM sequence in the nucleic acid sequence of the APOC3 gene.
  • the target sequence is an APOC3 gene.
  • target sequences that can be used in one embodiment disclosed herein are summarized in a table, and the target sequences described in the table are guide nucleic acid non-binding sequences, which are complementary through the sequences described, that is, guide nucleic acids. Binding sequences can be predicted.
  • composition for engineering high expression secretory genes may comprise guide nucleic acids and editor proteins.
  • An “editor protein” refers to a peptide, polypeptide or protein that binds directly to, or may not interact with, a nucleic acid.
  • the editor protein is also conceptually referred to as “artificially engineered nuclease” or RGEN (RNA-Guided Endonuclease).
  • the editor protein may be an enzyme.
  • the "enzyme” refers to a polypeptide or protein comprising a domain capable of cleaving a nucleic acid, gene or chromosome.
  • the enzyme may be a nuclease or a restriction enzyme.
  • the editor protein may comprise a fully active enzyme.
  • the "fully active enzyme” refers to an enzyme having the same function as the original nucleic acid, gene or chromosome cleavage function of the wild type enzyme.
  • a wild type enzyme that cuts double strands of DNA can be a fully active enzyme that cuts all DNA double strands.
  • the artificially engineered enzyme variant is identical to the wild type enzyme. If the double strand of DNA is cut, the artificially engineered enzyme variant may be a fully active enzyme.
  • the fully active enzyme may include an enzyme having an improved function than the function of the wild-type enzyme.
  • certain modified or engineered forms of wild type enzymes that cleave double strands of DNA may have increased complete enzymatic activity, ie, activity that cleaves increased DNA double strands, than wild type enzymes.
  • the editor protein may comprise an incomplete or partially active enzyme.
  • the "incomplete or partially active enzyme” refers to an enzyme having only a part of the original nucleic acid, gene or chromosome cleavage function of the wild type enzyme.
  • a particular modified or engineered form of the wild type enzyme that cuts the double strand of DNA may be a form having a first function or a form having a second function.
  • the first function may be a function of cutting the first strand of the double strand of DNA
  • the second function may be a function of cutting the second strand of the double strand of the DNA.
  • the enzyme having the first function or the enzyme having the second function may be an incomplete or partially active enzyme.
  • the editor protein may comprise an inactive enzyme.
  • the "inert enzyme” refers to an enzyme in which all of the original nucleic acid, gene or chromosome cleavage function of the wild type enzyme is inactivated.
  • certain modified or engineered forms of wild-type enzymes are forms in which both the first and second functions are lost, i.e., the first and second strands of the double strand of DNA are cleaved. Both functions may be lost. In this case, the enzyme having lost both the first function and the second function may be an inactive enzyme.
  • the editor protein may be a fusion protein.
  • fusion protein refers to a protein produced by fusing an additional domain, peptide, polypeptide or protein to an enzyme.
  • the additional domain, peptide, polypeptide or protein may be a functional domain, peptide, polypeptide or protein having the same or different function as the functional domain, peptide, polypeptide or protein included in the enzyme.
  • the fusion protein is at or near the amino terminus of the enzyme; At or near the carboxy terminus; Middle part of an enzyme; Or in the form to which the functional domain, peptide, polypeptide or protein is added to one or more of these combinations.
  • the functional domain, peptide, polypeptide or protein may be methylase activity, dimethylase activity, transcription activation activity, transcription repression activity, transcription release factor.
  • the functional domain, peptide, polypeptide or protein may be a deminase.
  • the tag includes a histidine (His) tag, a V5 tag, a FLAG tag, an influenza hemagglutinin (HA) tag, a Myc tag, a VSV-G tag, a thioredoxin (Trx) tag, and the like, and the reporter gene is glutathione.
  • His histidine
  • HA influenza hemagglutinin
  • Trx thioredoxin
  • GST horseradish peroxidase
  • HRP horseradish peroxidase
  • CAT chloramphenicol acetyltransferase
  • GFP green fluorescent protein
  • HcRed HcRed
  • DsRed cyan fluorescent protein
  • BFP blue fluorescent protein
  • the functional domain, peptide, polypeptide or protein may be a NLS (nuclear localization sequence or signal) or NES (nuclear export sequence or signal).
  • NLS is NLS of SV40 virus large T-antigen with amino acid sequence PKKKRKV; NLS from nucleoplasmin (eg, nucleoplasmin bipartite NLS having the sequence KRPAATKKAGQAKKKK); C-myc NLS having the amino acid sequence PAAKRVKLD or RQRRNELKRSP; HRNPA1 M9 NLS having the sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY; The sequence RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV of the IBB domain from importin-alpha; The sequences VSRKRPRP and PPKKARED of the myoma T protein; The sequence POPKKKPL of human p53; The sequence SALIKKKKKMAP of mouse c-abl IV; The sequences DRLRR and PKQKKRK of the influenza virus NS1; The sequence RKLKKKIKKL of the hepatitis virus delta anti
  • the additional domain, peptide, polypeptide or protein may be a nonfunctional domain, peptide, polypeptide or protein that does not perform a particular function.
  • the nonfunctional domain, peptide, polypeptide or protein may be a domain, peptide, polypeptide or protein that does not affect the function of the enzyme.
  • the fusion protein is at or near the amino terminus of the enzyme; At or near the carboxy terminus; Middle part of an enzyme; Or in a form in which the nonfunctional domain, peptide, polypeptide or protein is added to one or more of these combinations.
  • the editor protein may be an enzyme or a fusion protein present in nature.
  • the editor protein may be in a form in which a part of an enzyme or a fusion protein existing in a natural state is modified.
  • the editor protein may be an artificially generated enzyme or fusion protein that does not exist in nature.
  • the editor protein may be a modified form of a part of an artificially generated enzyme or fusion protein that does not exist in a natural state.
  • the modification may be substitution, removal, addition, or a mixture of amino acids included in the editor protein.
  • the modification may be substitution, removal, addition or mixing of some nucleotides of the nucleotide sequence encoding the editor protein.
  • the guide nucleic acid and the editor protein may form a guide nucleic acid-editor protein complex.
  • the guide nucleic acid-editor protein complex may be formed extracellularly.
  • the guide nucleic acid-editor protein complex may be formed in the cytoplasm in the cell.
  • the guide nucleic acid-editor protein complex may be formed in the nucleus in the cell.
  • the editor protein can recognize PAM present in the target gene or nucleic acid sequence.
  • the guide nucleic acid may bind complementary to the target gene or nucleic acid sequence.
  • the target gene or nucleic acid sequence may be cleaved or modified by the editor protein of the guide nucleic acid-editor protein complex.
  • the editor protein may be a CRISPR enzyme.
  • the guide RNA related description is as described above.
  • the CRISPR enzyme may be a nuclease or restriction enzyme having a function of cleaving double strands of a target gene or nucleic acid.
  • CRISPR enzyme is a major protein component of the CRISPR-Cas system, refers to a nuclease that can be mixed or complexed with a guideRNA to recognize a target sequence and cleave DNA.
  • CRISPR-Cas System is derived from the acquired immune system that stores the genetic information of the pathogen invading the bacteria from the outside, and later cleaves it, and guide RNA that can be artificially manipulated to recognize the desired target sequence And a protein Cas protein that cuts DNA, and refers to a genome correction system that removes and regulates the function of a gene.
  • the Cas protein may form a complex with crRNA (CRISPR RNA) and tracrRNA (trans-activating crRNA) to show its activity.
  • CRISPR RNA crRNA
  • tracrRNA trans-activating crRNA
  • the Cas protein is used herein as a concept including all of the variants that can act as endonucleases or Nickases activated in cooperation with the guide RNA in addition to the native protein.
  • a target DNA cleavage can be brought, which can be used to bring genome correction.
  • inactivated variants it can be used to bring about transcriptional regulation or isolation of the desired DNA.
  • the Cas protein may be a fully active CRISPR enzyme.
  • CRISPR enzyme refers to an enzyme having the same function as the native nucleic acid, gene or chromosomal cleavage function of the wild tiype enzyme. That is, it refers to a state having both the function of cutting the first strand of the double strand of DNA and the second function of cutting the second strand of the double strand of DNA.
  • the artificially engineered CRISPR enzyme variant is an enzyme that cleaves a double strand of DNA in the same way as the wild type enzyme, the artificially engineered CRISPR enzyme may also be included in the fully active enzyme.
  • the artificially engineered CRISPR enzyme may be an enzyme in which some of the nucleotide sequences are removed, substituted, or added.
  • the artificially engineered CRISPR enzyme may be an enzyme in which one or more amino acids are removed, substituted or added to an amino acid sequence.
  • the added modification of the amino acid may be the N terminus and / or the C terminus of the wild type enzyme or an adjacent portion thereof. Or variations thereof in mixed form.
  • the CRISPR enzyme variant may be a fully active enzyme with improved function than wild type CRISPR enzyme.
  • certain modified or engineered forms of wild-type CRISPR enzymes can cleave DNA double strands at or above a certain distance from the DNA double strand to be cleaved or with specific bonds formed.
  • the specific binding may be, for example, a binding between an amino acid at a specific position of the enzyme and a DNA nucleotide sequence at the cleavage position.
  • the modified or engineered form may be a fully active CRISPR enzyme with reduced functional activity than the wild type CRISPR enzyme.
  • the CRISPR enzyme may be an incomplete or partially active CRISPR enzyme.
  • “Incomplete or partially active” refers to the function of a wild-type CRISPR enzyme, one selected from the first function of cleaving the first strand of the double strand of DNA and the second function of cleaving the second strand of the double strand of DNA. Branch means state. CRISPR enzymes in this state are termed incomplete or partially active CRISPR enzymes. The incomplete or partially active CRISPR enzyme may also be referred to as a nickase.
  • “Nickase” refers to a CRISPR enzyme that has been engineered or modified to cleave only one of the double strands of a target gene or nucleic acid, said nickase being a single strand, eg, a guideRNA of a target gene or nucleic acid.
  • nickase being a single strand, eg, a guideRNA of a target gene or nucleic acid.
  • the kinase may have nuclease activity by the RuvC domain. That is, the kinase may not include nuclease activity by the HNH domain, for which the HNH domain may be engineered or altered.
  • the CRISPR enzyme may have a helicase activity, that is, a function of unwinding the helical structure of the double-stranded nucleic acid.
  • the CRISPR enzyme may also modify the CRISPR enzyme to be fully active, incomplete or partially active, or inactive with respect to the helicase activity of the CRISPR enzyme.
  • the CRISPR enzyme is a nucleic acid or polypeptide (or protein) having a sequence encoding the CRISPR enzyme, and may be typically a Type II CRISPR enzyme.
  • Type II CRISPR enzyme The crystal structure of Type II CRISPR enzyme was studied in two or more naturally occurring microbial Type II CRISPR enzyme molecules (Jinek et al., Science, 343 (6176): 1247997, 2014) and in Streptococcus p. It was determined through a study on Ogenes Cas9 (SpCas9) (Nishimasu et al., Cell, 156: 935-949, 2014; and Anders et al., Nature, 2014, doi: 10.1038 / nature13579).
  • SpCas9 Ogenes Cas9
  • the Type II CRISPR enzyme may be Cas9.
  • Cas9 is an enzyme that binds to a guide RNA and cleaves or modifies a target sequence or position on a target gene or nucleic acid. It may consist of a RuvC domain capable of cleaving nucleic acid strands with non-complementary binding, a target, ie a REC domain that recognizes the target, and a PI domain that recognizes the PAM. Specific structural characteristics of Cas9 are described in Hiroshi Nishimasu et al. (2014) Cell 156: 935-949.
  • the RuvC domain shares structural similarities to members of a naturally occurring microorganism comprising a Type II CRISPR enzyme and is complementary to a single strand, eg, non-complementary strand of a target gene or nucleic acid, ie, guideRNA. Cut strands that do not bind.
  • the RuvC domain is often referred to in the art as the RuvCI domain, RuvCII domain and RuvCIII domain, commonly referred to as RuvC I, RuvCII and RuvCIII.
  • the HNH domain shares structural similarity with the HNH endonuclease and cleaves a single strand, eg, the complementary strand of the target nucleic acid molecule, ie, the strand complementary to the guide RNA.
  • the HNH domain is located between the RuvC II and III motifs.
  • the Cas9 may be fully active Cas9 or inactive Cas9.
  • the inactive Cas9 may comprise a fully inactivated Cas9 and a partially inactivated Cas9 (eg nickase).
  • the Cas9 is Streptococcus pyogenes, Streptococcus thermophilus, Streptococcus sp., Streptococcus sp., Staphylococcus aureus, Nocardiopsis dasonville Streptomyces pristinaespiralis, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptosporangium rosepumiumsporangium, Streptomyces viridochromogenes, Streptomyces viridochromogenes, Streptomyces viridochromogenes , Streptosporangium roseum, AlicyclobacHlus acidocaldarius, Bacillus pseudomycoides, Bacillus selenitireduceus bacillus bacilli Exiguobacterium sibiricum, Lactobacillus Lactobacillus delbrueckii, Lactobacillus salivarius, Microscilla
  • the Cas9 may be isolated from a microorganism existing in nature or may be produced unnaturally through a recombinant method or a synthetic method.
  • the CRISPR enzyme may be a Type V CRISPR enzyme.
  • Type V CRISPR enzymes have a similar RuvC domain that corresponds to the RuvC domain of Type II CRISPR enzymes, which lacks the HNH domain of Type II CRISPR enzymes and instead includes a Nuc domain and WED and REC domains that interact with the target. It can consist of a domain and a PI domain that recognizes PAM.
  • the structural characteristics of specific Type V CRISPR enzymes are described in Takashi Yamano et al. (2016) Cell 165: 949-962.
  • Type V CRISPR enzymes can interact with guideRNAs, form guideRNA-CRISPR enzyme complexes, ie CRISPR complexes, and cooperate with guideRNAs to bring the guide sequences into target sequences including and PAM sequences. have. At this time, the ability of the Type V CRISPR enzyme to interact with a target gene or nucleic acid is dependent on the PAM sequence.
  • the PAM sequence is a sequence present in a target gene or nucleic acid, and may be recognized by the PI domain of a Type V CRISPR enzyme.
  • the PAM sequence may have a different sequence depending on the origin of the Type V CRISPR enzyme. That is, there is a PAM sequence that can be specifically recognized for each species.
  • the PAM sequence recognized by Cpf1 may be 5'-TTN-3 '(N is A, T, C or G).
  • the PAM may be changed as a study of a mutant of the enzyme is derived.
  • the Type V CRISPR enzyme may be Cpf1.
  • the Cpf1 is Streptococcus, Campylobacter, Nitratifractor, Staphylococcus, Parvibaculum, Roseburia, Neisseria, Gluconacetobacter, Azospirillum, Sphaerochaeta, Lactobacillus, Eubacterium, Corynebacter, Carnobacterium, Rhodobacter, Listeria, Closinotriocium, Closinotribacterium Or Cpf1 from Methanomethyophilus, Porphyromonas, Prevotella, Bacteroidetes, Helcococcus, Letospira, Desulfovibrio, Desulfonatronum, Opitutaceae, Tuberibacillus, Bacillus, Brevibacilus, Methylobacterium or Acidaminococcus.
  • the Cpf1 has a similar RuvC domain that corresponds to the RuvC domain of Cas9, which lacks the HNH domain of Cas9 and instead includes a Nuc domain, a PI domain that recognizes a REC domain and a WED domain and PAM that interact with the target. It may be configured as. Specific structural properties of Cpf1 are described in Takashi Yamano et al. (2016) Cell 165: 949-962.
  • the Cpf1 may be fully active Cpf1 or inactive Cpf1.
  • the inert Cpf1 may comprise fully inactivated Cpf1 and partially inactivated Cpf1 (eg, nickase).
  • the Cpf1 enzyme may be mutated by one, two or more amino acids among the amino acids present in the RuvC, Nuc, WED, REC, and / or PI domains.
  • the Cpf1 enzyme is D917, E1006 or D1255 among the amino acids of FnCpf1; D908, E993 or D1263 among the amino acids of AsCpf1; D832, E925, D947 or D1180 among the amino acids of LbCpf1; Or a variation of one or more amino acids among the corresponding amino acid groups of other Cpf1 orthologs.
  • the Cpf1 may be isolated from a microorganism existing in a natural state or may be produced unnaturally through a recombinant method or a synthetic method.
  • the Cas protein or nucleic acid encoding the same may be in a form that allows the Cas protein to function in the nucleus.
  • the isolated Cas protein may also be in a form that is easy to introduce into the cell.
  • the Cas protein may be linked to a cell penetrating femide or protein transduction domain.
  • the protein transfer domain may be, but is not limited to, poly-arginine or HIV derived TAT protein.
  • Cell penetrating peptides or protein delivery domains are known in the art in addition to the examples described above, so those skilled in the art are not limited to these examples and various examples can be applied herein.
  • the CRISPR enzyme may be a CRISPR enzyme variant that has been artificially engineered or modified wild type CRISPR enzyme.
  • the CRISPR enzyme variant may be a substitution, removal and / or addition of at least one or more amino acids of the amino acid sequence of the wild type CRISPR enzyme.
  • the CRISPR enzyme variant is artificially modified to modify the function of the wild type CRISPR enzyme, ie, the first function of cleaving the first strand of the double strand of DNA and / or the second function of cleaving the second strand of the double strand of DNA. It can be an engineered or modified CRISPR enzyme variant.
  • the CRISPR enzyme variant may optionally further comprise a functional domain. At this time, the CRISPR enzyme variant may have additional functions in addition to the original function of the wild type CRISPR enzyme.
  • the functional domain is methylase activity, dimethylase activity, transcription activation activity, transcription repression activity, transcription release factor activity, histone modification It may be a domain having modification activity, RNA cleavage activity, or nucleic acid binding activity, or may be a tag or reporter gene for isolation and purification of a protein (including a peptide), but is not limited thereto. It doesn't work.
  • the tag includes a histidine (His) tag, a V5 tag, a FLAG tag, an influenza hemagglutinin (HA) tag, a Myc tag, a VSV-G tag, a thioredoxin (Trx) tag, and the like, and the reporter gene is glutathione.
  • His histidine
  • HA influenza hemagglutinin
  • Trx thioredoxin
  • GST horseradish peroxidase
  • HRP horseradish peroxidase
  • CAT chloramphenicol acetyltransferase
  • beta-galactosidase beta-glucuronidase
  • luciferase green fluorescent protein Autofluorescent proteins including (GFP), HcRed, DsRed, cyan fluorescent protein (CFP), yellow fluorescent protein (YFP), and blue fluorescent protein (BFP).
  • the functional domain may be a deaminase.
  • an incomplete or partial CRISPR enzyme may further comprise cytidine deaminase as a functional domain.
  • a fusion protein can be generated by adding a cytidine deminase, such as apolipoprotein B editing complex 1 (APOBEC1), to SpCas9 kinase.
  • APOBEC1 apolipoprotein B editing complex 1
  • SpCas9 kinase]-[APOBEC1] thus formed can be used for nucleotide correction or editing of nucleotides C as T or U, or nucleotide G to A for nucleotide correction or editing.
  • an incomplete or partial CRISPR enzyme may further comprise adenine deaminase as a functional domain.
  • a fusion protein can be generated by adding adenine dianases, such as TadA variants, ADAR2 variants, ADAT2 variants, to SpCas9 kinase.
  • adenine dianases such as TadA variants, ADAR2 variants, ADAT2 variants
  • SpCas9 kinase [SpCas9 kinase]-[TadA variant], [SpCas9 kinase]-[ADAR2 variant] or [SpCas9 kinase]-[ADAT2 variant] thus formed transforms nucleotide A to inosine, and the modified inosine is modified by polymerase.
  • nucleotide G Since it is recognized as nucleotide G and has the effect of nucleotide correction or editing substantially from nucleotide A to G, it can be used for nucleotide correction or editing from nucleotide A to G, or nucleotide correction from C to nucleotide correction or editing. .
  • the functional domain may be a nuclear localization sequence or signal (NLS) or a nuclear export sequence or signal (NES).
  • NLS nuclear localization sequence or signal
  • NES nuclear export sequence or signal
  • the CRISPR enzyme may comprise one or more NLS.
  • the NLS is at or near the amino terminus of the CRISPR enzyme; At or near the carboxy terminus; Or one or more NLSs in combination thereof.
  • the NLS may be, but is not limited to, an NLS sequence derived from: NLS of SV40 virus large T-antigen with amino acid sequence PKKKRKV; NLS from nucleoplasmin (eg, nucleoplasmin bipartite NLS having the sequence KRPAATKKAGQAKKKK); C-myc NLS having the amino acid sequence PAAKRVKLD or RQRRNELKRSP; HRNPA1 M9 NLS having the sequence NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY; The sequence RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV of the IBB domain from importin-alpha; The sequences VSRKRPRP and PPKKARED of the myom
  • the CRISPR enzyme or CRISPR enzyme variant disclosed herein may be a polypeptide, a protein or a nucleic acid having a sequence encoding the same, codon optimized for the subject to which the CRISPR enzyme or CRISPR enzyme variant is to be introduced. It may be.
  • Codon optimization refers to a nucleic acid for enhanced expression in a host cell of interest by maintaining the native amino phase sequence, replacing at least one codon of the native sequence with a codon that is used more frequently or most frequently in the gene of the host cell. Refers to a process of modifying a sequence.
  • Various species have specific biases for specific codons of specific amino acids, and codon bias (difference in codon usage between organisms) is often correlated with the efficiency of translation of mRNA, which is due to the nature of the codons being translated and the availability of specific tRNA molecules It is believed to be influenced by.
  • the preponderance of tRNAs selected in cells generally reflects the codons most frequently used for peptide synthesis. Thus, genes can be tailored for optimal gene expression in a given organism based on codon optimization.
  • the guideRNA and CRISPR enzyme may form a guideRNA-CIRSPR enzyme complex.
  • GuideRNA- CRISPR enzyme complex means a complex formed through the interaction of a guideRNA with a CIRSPR enzyme.
  • the guideRNA- CRISPR enzyme complex may be formed extracellularly.
  • the guideRNA-CRISPR enzyme complex may be formed in the cytoplasm in the cell.
  • the guideRNA- CRISPR enzyme complex may be formed in the nucleus in the cell.
  • the CRISPR enzyme can recognize PAM present in the target gene or nucleic acid sequence.
  • the guide RNA may bind complementary to the target gene or nucleic acid sequence.
  • the target gene or nucleic acid sequence may be cleaved or modified by the CRISPR enzyme of the guideRNA- CRISPR enzyme complex.
  • the CRISPR-Cas system may be in the form of a ribucleoprotein (RNP) in which the guide RNA and the CRISPR enzyme form a complex.
  • RNP ribucleoprotein
  • the high expression secretory gene may be manipulated to express a desired protein.
  • composition for high expression secretion gene manipulation may further comprise a donor in addition to the guideRNA, CRISPR enzyme.
  • composition For example, the composition, the composition, the composition, and
  • a donor comprising a nucleic acid sequence encoding a protein of interest
  • Donor refers to an exogenous nucleotide comprising a sequence necessary for inserting a transgene into a subject.
  • the donor is a molecule including not only the transplanted gene but also sequences necessary for recombination, gene transcription, expression affecting expression, and the like.
  • the donor molecule may be in the form of a nucleic acid, ie, DNA or RNA.
  • the donor molecule may be single stranded or double stranded. In some cases, the donor molecule may be a single stranded oligonucleotide DNA template (ssODT).
  • ssODT single stranded oligonucleotide DNA template
  • the donor molecule may be in the form of a polynucleotide or protein.
  • the donor molecule may be linear, molecular or cyclic and may have any length.
  • the end of the donor sequence may be protected by a method known to those skilled in the art.
  • one or more dideoxynucleotide residues may be added to the 3 ′ end of the forming molecule and self-complementary oligonucleotides may bind to one or both ends.
  • terminal amino group (s) and nucleotides such as, for example, phosphorothioate, phosphoramidate, and O-methyl ribose or deoxyribose residues It may include, but is not limited to, the use of inter-connections.
  • the donor molecule can form a duplex, as well as include triplex-forming nucleic acids.
  • the donor sequence can be any length, for example from 10 bp to 20 kb (or any integer value in between or above), preferably from about 100 bp to 10 kb (or any integer in between), more preferably It may have about 200bp to 5kb in length.
  • the donor may be codon optimized according to the target to be introduced.
  • the subject is a human, it may be a donor using a sequence optimized with a human codon.
  • the donor included in the composition for high expression secretion genetic engineering to express the protein of interest may include a transplant gene.
  • Transgene refers to an exogenous nucleotide inserted into a high expressing secretory gene.
  • the transgene may be inserted into a genomic cleavage site in a liver cell cleaved using an editor protein and a guide nucleic acid.
  • the transgene may be DNA or RNA.
  • the transgene may be an exogenous nucleotide encoding a protein produced in wild-type liver cells.
  • the transgene may be an exogenous nucleotide encoding a protein produced in cells other than wild-type liver cells.
  • the transgene may be from a species different from the subject.
  • the transgene may be a wild type gene.
  • the donor in the case of a protein deficiency or deficiency in the subject, the donor may include a normal gene encoding the protein, that is, a transplant gene having the same sequence as the wild type gene.
  • the transgene may be a mutant gene.
  • the mutation may be in the form of deletion, substitution or addition of one or more nucleotides of the wild-type gene.
  • the transplant gene may be a fusion protein.
  • the protein fused with the transgene may be an exogenous gene.
  • the protein fused with the transplanted gene may be derived from an endogenous gene.
  • the protein fused with the transplanted gene may be derived from a high expression secreted gene.
  • the protein fused with the transplanted gene may be at or near the amino (N) -terminal portion of the exogenous protein.
  • the protein fused with the transplanted gene may be at or near the carboxy (C) -terminal portion of the exogenous protein.
  • the protein fused with the transplanted gene may be present at both the amino (N)-and carboxy (C) -terminus or near the exogenous protein, or in a mixed form thereof.
  • the transgene may be a functional gene for enhancing or improving a particular function of interest.
  • the transplant gene may enhance the function of endogenous genes in liver cells.
  • the transplanted gene may function to increase expression of the wild type gene.
  • the transgene is a gene encoding a protein deficient in liver cells
  • the deficient protein may be produced in hepatocytes, the function of the protein may function normally, or the disease may be treated.
  • the transplanted gene may function to correct a mutated gene.
  • the transplanted gene may function to regulate expression of genomic sequences in the target gene.
  • the transplanted gene may function to replace an existing protein or to express a new protein.
  • transplanted gene may be inserted into a high expressing secretory gene to partially or completely inactivate one or more target sequences.
  • the transgene may be a gene encoding a protein of interest.
  • the protein of interest may be a protein for improving the function in the body. For example, it can improve metabolic activity.
  • the protein of interest may be a protein for preventing disease.
  • the protein of interest may be a protein for reducing disease.
  • the protein of interest may be a protein for treating a disease.
  • One embodiment of the disclosure disclosed herein is for treating a disease by artificially manipulating hepatocytes to express a protein of interest.
  • alternative therapies such as based therapies, the disease can be cured permanently and radically.
  • the disease is as follows.
  • the disease may be a disease that can be prevented or treated by an antibody.
  • diseases such as HIV, Alzheimer's disease and Amyotrophic lateral sclerosis can be treated by inserting the gene encoding the antibody into the high expression secretory gene.
  • the disease may be a disease caused by decreased expression of a particular gene.
  • a disease caused by the lack of secreted gene products can be treated by inserting the lacking gene into the high expressing secretory gene.
  • the disease may be a genetic disease caused by normal function inhibition by mutation of a specific gene.
  • diseases caused by mutations on various single genes can be treated by inserting and expressing wild-type genes in high expressing secretory genes.
  • such genetic diseases include hemophilia.
  • the disease may be a disease associated with hereditary metabolic disease.
  • Geneetic metabolic disease is a disease caused by the lack of enzymes or coenzymes responsible for the biochemical metabolic pathways in our body. Deficiency symptoms occur due to the inability to produce the final necessary substance, and unnecessary precursors cause excess symptoms such as door intelligence disorders that accumulate in various important organs (brain, heart, liver, kidneys, etc.).
  • hereditary metabolic diseases include immunodeficiency, hypercholesterolemia, Hemophilia, emphysema, cystic fibrosis, phenylketonuria, citrullinemia, methylmalonic acidemia, carnitine palmitoyltransferase deficiency or carnitine palmi Carnitine Palmitoyltransferase Deficiency, Hurler syndrome, Ornithine transcarbamylase deficiency, or Tay-Sachs disease.
  • hereditary metabolic diseases include hemophilia A, hemophilia B, hemophilia C.
  • hemophilia A is a mutation of the F8 gene located on the X chromosome
  • hemophilia B is caused by a mutation of the F9 gene located near the F8 gene
  • hemophilia C is a disease caused by a mutation of the F11 gene.
  • the disease may be Lysosomal storage disorders.
  • the Lysosomal storage disorders include Mucopolysaccharidosis, Lysosomal acid lipase deficiency, Glycogen storage diseases, Galactosemia, Sickle cell anaemia, Cystic fibrosis, Tay-Sachs disease, Phenylketonuria, Albinism, Medium-chain acyl-CoA dehydrogenase deficibe, Farber disease, Krab Galactosialidosis, Gangliosidosis, Alpha-galactosidase, Fabry disease, Schindler disease, Sandhoff disease, Gaucher Disease, Niemann-Pick disease, Sulfatidosis, Metachromatic Leukodystrophy, Multiple sulfatase deficiency, Hurler Syndrome, Scheie Syndrome, Hurler-Scheie Syndrome, Hunter syndrome, Sanfilippo syndrome , Morquio syndrome, Maroteaux-Lamy syndrome, Sly Syndrome, Hyaluronidase deficiency, Mucolipidosis, Sialidosis, I
  • the transgene included in the donor may be a therapeutic gene for treating a genetic disease.
  • the therapeutic gene can encode a protein that can be used as a therapeutic agent for certain genetic diseases.
  • the therapeutic gene may comprise a wild type gene (normal gene form) of a disease gene (mutated form of normal gene) or part of a wild type gene (eg functional domain) that is involved in a specific genetic disease.
  • the therapeutic gene may be selected from the group consisting of IDUA, I2S, SGSH, NAGLU, HGSNAT, GNS, GALNS, GLB1, ARSB, GUSB, HYAL, NEU, GNPTAB, and MCOLN1.
  • the therapeutic gene may be selected from the group consisting of SAH1, GALC, CTSA, GLA, NAGA, beta-galactosidase, hexosaminidase, GBA, SMPD1, ARSA and SUMF.
  • the normal form of the therapeutic gene ie, the disease causing gene
  • the disease causing gene may be selected from the group consisting of NPC, PPT, TPP1, CLN3, CLN6, PPT1, DNAJC5, CTSF, CLN7, CLN8 and CTSD.
  • the normal form of the therapeutic gene ie the disease causing gene, may be GAA or LAMP2.
  • the normal form of the therapeutic gene ie the disease causing gene
  • the normal form of the therapeutic gene may be CTNS, CTSK or SLC17A5.
  • the normal form of the therapeutic gene ie, the disease causing gene
  • the normal form of the therapeutic gene may be selected from the group consisting of MAN2B, MAN2C, MANBA, AGA, FUCA1, and LAL.
  • the therapeutic gene that is, the normal form of the disease-causing gene, the methylmalonic aciduria CbIA Type (MMAA) protein, the methylmalonic aciduria CbIB Type (MMAB) protein, the methylmalonic aciduria CbIC Type (MMADHC) protein, 5-Methyltetrahydrofolate- Homocysteine Methyltransferase Reductase (MTRR) protein, lysosomal membrane protein domain (LMBRD 1) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase (MTR) protein, propionyl-CoA protein, glucose-6-phosphate transporter (G6PT) protein, glucose-6-phosphatase (G6Pase) protein, low density lipoprotein receptor (LDLR) protein, low density lipoprotein receptor adapter protein 1 (LDLRAP-1 protein), N-acetylglutamate synthetase (NA), 5-Meth
  • the normal form of the therapeutic gene ie the disease causing gene
  • the normal form of the therapeutic gene may be selected from the group consisting of FVII, FVIII, FIX, FX, FXI, FXII and other coagulation factors.
  • the gene encoding the transgene may be inserted into the endogenous APOC3 locus so that high protein expression occurs by the expression control element of the APOC3 gene.
  • FVII, FVIII, FIX, FX, FXI, FXII, etc. may be expressed at high levels, or any peptide or protein that helps to express the coagulation factor may be expressed at high levels.
  • the therapeutic gene may be a gene encoding an antibody.
  • a gene encoding a protein or polypeptide that blocks a specific factor or signal pathway involved in causing a disease by an antibody is a gene encoding a protein or polypeptide that blocks a specific factor or signal pathway involved in causing a disease by an antibody.
  • it may be a gene encoding an antibody that binds beta amyloid to treat Alzheimer's disease.
  • AZT zidovudine
  • ddl Didanosine
  • ddC Zalcitabine
  • Lamivudine 3TC
  • Stavudine d4T
  • NRTIs nucleoside analogue reverse transcriptase inhibitors
  • Protease inhibitors may be genes encoding Sanquinavir (SQV), Ritonavir (RTV), Indinavir (IDV), Nelfinavir (NFV), Lopinavir (LPV), Atazanavir (ATV), and Amprenavir (APV).
  • the therapeutic gene may be treated by inserting and expressing a factor regulating the expression of the wild gene, thereby treating the genetic disease by increasing or decreasing the expression of the wild gene.
  • the therapeutic gene may be capable of treating a genetic disease by deleting, adding, or substituting some sequences of wild-type genes to produce proteins with improved or new functions.
  • the therapeutic gene may be in the form of a fusion with a specific peptide having a permeation function to a specific tissue such as a blood-brain barrier (BBB) or a functional peptide capable of enhancing the therapeutic effect of the therapeutic gene.
  • BBB blood-brain barrier
  • the donor may further comprise a gene for insertion and / or synthesis of the target gene into the target genome.
  • HDR homologous recombination
  • NHEJ nonhomologous recombination
  • recombinant refers to the process of exchanging genetic information between two polynucleotides, including transgene insertion by nonhomologous recombination (NHEJ) and homologous recombination (HDR).
  • NHEJ nonhomologous recombination
  • HDR homologous recombination
  • non-homologous recombination refers to a specialized form of exchange that occurs between sequences of DNA that do not share sequence homology or do not appear in site-specific recombinant sequences.
  • the transgene may be inserted into the high expression secretory gene by non-homologous recombination.
  • the same partial sequence may be cleaved by the same site-specific nuclease, and by non-homologous recombination, the transgene may be cleaved from the target gene. It can be inserted into the sequence or adjacent sites.
  • HDR homologous recombination
  • the donor sequence may comprise a homology arm for homologous recombination of the transplant gene.
  • the homology arm may contain a sequence identical or complementary to a target sequence or a sequence adjacent thereto.
  • the homologous cancer may contain a sequence homologous but not identical to a target sequence or a sequence adjacent thereto or may contain a sequence that is complementary but not completely complementary to the target sequence.
  • One or more mismatched base sequences may be included in a nucleic acid sequence of a homologous cancer having homology or identical sequence to the high expression secretory gene.
  • most of the donor sequences homologous to the target sequence exhibit about 80-99% (or any value in between) sequence identity to the genomic sequence being replaced.
  • the homologous cancer may allow for homologous recombination so as to insert unequal sequences in the target sequence, ie, a transplant gene.
  • the transplant gene sequence may be inserted by homologous recombination next to the homologous sequence.
  • the donor molecule may contain several discontinuous regions homologous to the high expressing secretory gene.
  • the homologous cancer included in the donor sequence may include a nucleic acid sequence having homology with the nucleic acid sequence in one direction (eg, upstream) of the cleavage position of the high expressing secretory gene.
  • Homologous cancer included in the donor sequence may include a nucleic acid sequence having homology with the nucleic acid sequence of the other direction (eg, downstream) of the cleavage position of the high expression secretion gene.
  • the homologous cancer included in the donor sequence may include a nucleic acid sequence having homology with the nucleic acid sequences of upstream and downstream of the cleavage site of the high expression secretory gene.
  • both ends of the transgene in the donor sequence have homology with the gene sequence present at positions 30 bp away from the cleavage. Or homologous arms having the same sequence.
  • Such homology arms may contain at least 15 bp to about 3 kB (eg, about 800, 850, 900, 950, 1000, 1100, 1200 b or bp length), respectively.
  • the homology arms may each have a length of 500 to 1500 bp.
  • the homology arms may each have a length of 800 to 1200 bp.
  • homologous cancers can be provided as single or double stranded oligonucleotides.
  • Exemplary single or double stranded template oligonucleotides are 800,850, 900, 950, 1000, 150, 1100, 1150, 1200 b or bp in length, or at least about 800, about 850, about 900, about 950, about 1000, about 1050, About 1100, about 1150, about 1200, about 1250 b or bp in length.
  • the donor may further comprise a gene for controlling transcription, expression other than the transplanted gene.
  • the donor may comprise one or more genes or cDNA molecules and may comprise coding or noncoding regions.
  • the donor may comprise regulatory sequences that control gene transcription, expression, ie enhancers, insulators, internal ribosome entry points, 2A peptides and / or polyadenylation syntheses, promoters, and the like.
  • the donor may further include a reporter gene (eg, GFP) or a selection marker.
  • a reporter gene eg, GFP
  • a selection marker e.g., GFP
  • Insertion of the transplanted gene into the high expressing secretory gene by the donor sequence will be determined by the presence or absence of a homology region between the donor sequence and the target sequence in the high expressing secretory gene, and whether or not to use it.
  • the guide nucleic acid, editor protein and / or donor molecule can be delivered or introduced into a subject by a vector, a non-vector, or a combination thereof that contains a sequence encoding it.
  • the guide nucleic acid can be delivered or introduced into the subject in the form of DNA, RNA, or a mixture thereof.
  • the editor protein may be delivered or introduced into the subject in the form of DNA, RNA, DNA / RNA mixture, peptide, polypeptide or protein encoding the editor protein.
  • the donor may be delivered or introduced into the subject in the form of DNA, RNA or single stranded oligonucleotide DNA template (ssODT).
  • ssODT single stranded oligonucleotide DNA template
  • all or part of the transgene can be inserted into the target gene by recombination.
  • the guide nucleic acid, editor protein and / or donor can be delivered into a subject in various forms.
  • the guide nucleic acid, editor protein and / or donor can be delivered to a vector.
  • the vector may be a viral vector or a non-viral vector.
  • the guide nucleic acid, editor protein and / or donor can be delivered in a nonvector.
  • the vector can be a viral or nonviral vector (eg plasmid).
  • vector can deliver a gene sequence to a cell.
  • vector construct can deliver a gene sequence to a cell.
  • expression vector can deliver a gene sequence to a target cell.
  • vector transfer vector refers to any nucleic acid construct capable of directing the expression of a gene of interest and capable of delivering a gene sequence to a target cell.
  • the term includes cloning and incorporating a vector as well as an expression vehicle.
  • the vector may comprise nucleic acid sequences encoding guide nucleic acids, editor proteins and / or donors.
  • the guide nucleic acid, editor protein and / or donor can then be in the form of DNA, RNA or mixed.
  • the guide nucleic acid, editor protein and / or donor can be delivered using the same or different vectors.
  • the donor may be carried by plasmid while the guide nucleic acid and / or editor protein may be carried by one or more viral vectors.
  • the guide nucleic acid, editor protein and / or donor can be delivered or introduced into one or more vectors.
  • the guide nucleic acid, the editor protein and / or the donor may be delivered or introduced into the same vector.
  • the guide nucleic acid and the editor protein may be simultaneously included in one vector in the form of a nucleotide sequence, and a donor may be transferred or introduced into a different vector.
  • the guide nucleic acid and the donor polynucleotide may be simultaneously included in one vector, and the editor protein may be delivered or introduced into a different vector in the form of a nucleotide sequence.
  • the editor protein and the donor may be simultaneously included in one vector in the form of a nucleotide sequence, and the guide nucleic acid may be delivered or introduced into a different vector.
  • guide nucleic acids, editor proteins and / or donors can each be included in different vectors.
  • the domains included in the guide nucleic acid may be included in one vector or may be included in each vector by dividing each domain.
  • the nucleic acid sequence encoding the editor protein may be included in one vector or the nucleic acid sequence encoding the editor protein may be divided and included in several vectors.
  • the vector may include one or more adjustment / control components.
  • the regulatory / control component comprises a promoter, enhancer, intron, polyadenylation signal, Kozak consensus sequence, internal ribosome entry site (IRES), splice acceptor and / or 2A sequence. It may include.
  • the vector may further include a selection marker for selecting a reporter gene (eg GFP) or a host cell containing the vector, and, in the case of a replicable vector, a replication origin.
  • a selection marker for selecting a reporter gene (eg GFP) or a host cell containing the vector, and, in the case of a replicable vector, a replication origin.
  • the vector contains a Splicing Acceptor (SA) sequence at the left, right or adjacent position of the transgene.
  • SA Splicing Acceptor
  • the promoter may be an endogenous promoter or an exogenous promoter in the target region.
  • the promoter may be a promoter recognized by RNA polymerase II or RNA polymerase III.
  • the promoter may be a constitutive promoter.
  • the promoter may be an inducible promoter.
  • the promoter may be a subject specific promoter.
  • the promoter may be a viral or nonviral promoter.
  • the promoter may use a suitable promoter depending on the control region (ie, guide nucleic acid, editor protein or transgene).
  • useful promoters for guide nucleic acids may be H1, EF-1a, tRNA or U6 promoters.
  • useful promoters for editor proteins may be CMV, EF-1a, EFS, MSCV, PGK or CAG promoters.
  • useful promoters for the transgene may be APOC3 or HP promoters.
  • the vector can be a viral vector or a recombinant viral vector.
  • the virus may be a DNA virus or an RNA virus.
  • the DNA virus may be a double stranded DNA (dsDNA) virus or a single stranded DNA (ssDNA) virus.
  • dsDNA double stranded DNA
  • ssDNA single stranded DNA
  • the RNA virus may be a single stranded RNA (ssRNA) virus.
  • ssRNA single stranded RNA
  • viral vectors include, but are not limited to, retrovirus vectors, lentiviral vectors adenovirus vectors, pox virus vectors, herpes virus vectors, herpes simplex virus, vaccinia virus and adeno associated virus vectors (AAV), and the like.
  • a virus When a virus is used to introduce guide nucleic acids, editor proteins and / or donor molecules into a subject organism, they may be transiently expressed in the subject. Or may be expressed continuously for a long time. For example, it can be expressed at 1 week, 2 weeks, 3 weeks, 1 month, 2 months, 3 months, 4 months, 5 months, 6 months, 1 year, 2 years, or permanently.
  • Virus packaging capacity may vary from virus type to at least 2 kb to 50 kb. According to the packaging ability, a viral vector containing a guide nucleic acid or an editor protein alone can be designed, or a viral vector including both guide nucleic acid and an editor protein can be designed. Alternatively, viral vectors can be designed that include guide nucleic acids, editor proteins, and additional components.
  • retroviral vectors have packaging capacity for foreign sequences up to 6-10 kb and consist of cis-acting long terminal repet (LTR). Retroviral vectors insert intracellular therapeutic genes and provide for the expression of permanent transgenes.
  • LTR long terminal repet
  • adeno-associated viral vectors have very high transduction efficiency in a variety of cells (muscle, brain, liver, lung, retina, ear, heart, and blood vessels), regardless of cell division, and are non-pathogenic. It can be replaced by and thus do not induce an immune response, so repeated administration is possible.
  • AAV is inserted into the chromosome of the target cell, thereby stably expressing the therapeutic protein for a long time. For example, it is useful for in vitro production of nucleic acids and peptides for use in transduction into target nucleic acids of cells in vivo and ex vivo. However, AAV is small in size and has a packaging capacity of less than 4.5kb.
  • nucleic acid sequences encoding guide nucleic acids, editor proteins and / or donor molecules can be delivered or introduced into a subject by recombinant lentiviruses.
  • nucleic acid sequences encoding guide nucleic acids, editor proteins and / or donor molecules can be delivered or introduced by recombinant adenoviruses.
  • nucleic acid sequences encoding guide nucleic acids, editor proteins and / or donor molecules can be delivered or introduced by recombinant AAV.
  • the vector may include phosphorothioate linkage of nucleic acid, locked nucleic acid (LNA), 2'-O-methyl 3'phosphorothioate (MS) or 2'-O-methyl 3'thioPACE (MSP).
  • LNA locked nucleic acid
  • MS 2'-O-methyl 3'phosphorothioate
  • MSP 2'-O-methyl 3'thioPACE
  • the nucleic acid sequence encoding the guide nucleic acid, editor protein and / or donor molecules can be delivered or introduced by a non-viral vector.
  • Non-viral vectors can include nucleic acid sequences encoding guide nucleic acids, editor proteins and / or donor molecules.
  • the non-viral vector has a plasmid, which may additionally include a reporter gene, a nuclear targeting sequence. And some other additives.
  • the guide nucleic acid, editor protein and / or donor molecule can be delivered or introduced into the subject in non-vector form.
  • Nucleic acid sequences encoding guide nucleic acids, editor proteins and / or donor molecules can be delivered or introduced into the subject as non-vectors.
  • the nonvector may be naked DNA, DNA complexes, mRNA or mixtures thereof.
  • the non-vector may be delivered or introduced into the subject by electroporation, lipofection, microinjection, gene gun, virosome, liposome, immunoliposome, lipid-mediated transfection or a combination thereof.
  • the liposome-DNA complex has a + charge-can be introduced into the cell by binding to the surface of the charge-charged cell.
  • DNA may be coated with gold particles and injected into cells.
  • EDV EnGeneIC delivery vehicles
  • EDV is delivered to the target tissue using a bispecific antibody in which one arm of the antibody has specificity for the target tissue and the other arm has specificity for the EDV.
  • the antibody carries EXV to the target cell surface, which can then enter the cell by endocytosis.
  • the guide nucleic acid-editor protein complex may be formed to be delivered or introduced into a subject in the form of a nucleic acid and protein mixture.
  • the guide nucleic acid and editor protein may be delivered or introduced into the subject in the form of a nucleic acid-protein mixture.
  • the guide nucleic acid and the editor protein may be delivered or introduced into the subject in the form of a guide nucleic acid-editor protein complex.
  • the guide nucleic acid may be in the form of DNA, RNA or a mixture thereof.
  • the editor protein may also be in polynucleotide or protein form.
  • the guide nucleic acid and the editor protein may be delivered or introduced into the subject in the form of a guide nucleic acid in RNA form and an editor protein in protein form in the form of a guide nucleic acid-editor protein complex, ie, ribonucleoprotien (RNP).
  • a guide nucleic acid in RNA form and an editor protein in protein form in the form of a guide nucleic acid-editor protein complex ie, ribonucleoprotien (RNP).
  • the guide nucleic acid, the editor protein can be administered directly into the subject in the form of a vector or non-vector containing a nucleic acid sequence encoding it, or in the form of a guide nucleic acid-editor protein complex (ribonucleoprotein (RNP)).
  • RNP guide nucleoprotein
  • the donor molecule can be administered directly into the subject in the form of a vector or a non-vector containing a nucleic acid sequence encoding the guide nucleic acid and / or editor protein, or respectively.
  • the administration can be delivered or introduced into the subject by systemic administration or topical application. However, it is not limited thereto.
  • the systemic administration can be injected, for example, intravaginally, intraperitoneally, intramuscularly, or subcutaneously. Preferably, intramuscular administration.
  • guide nucleic acid, editor protein and / or donor molecule When the guide nucleic acid, editor protein and / or donor molecule are included in two or more different vectors, they may be administered by different routes (intramuscular injection, tail intravenous injection, other intravenous injection and / or intraperitoneal injection).
  • the guide nucleic acid, editor protein and / or donor molecules can be transferred from individual subjects to explanted cells or universal hematopoietic stem cells and then re-transplanted into the subject.
  • the delivery method may be delivered in a subject divided into i) contacting the guide nucleic acid, the editor protein and / or the donor molecule to the cell, ii) administering the contacted cell directly in the subject.
  • the intracellular contacting step may be introduced into the cell in the form of a vector or non-vector containing a nucleic acid sequence encoding the guide nucleic acid and the editor protein, or in the form of a guide nucleic acid-editor protein complex (RNP).
  • the donor molecule may be introduced into the cell together with the guide nucleic acid and / or the editor protein or in the form of a vector or a non-vector containing a nucleic acid sequence encoding the same.
  • the contacting step i) is selected from electroporation, liposomes, nanoparticles and protein translocation domain (PTD) fusion protein methods. It may be carried out in the above manner.
  • PTD protein translocation domain
  • the contacting step i) when introduced into a cell in the form of a vector, the contacting step i) may be performed by one or more methods selected from plasmids or viral vectors that are non-viral vectors.
  • Step ii) is to directly administer the cells contacted in step i) in the subject, can be delivered or introduced into the subject by systemic administration or topical application. However, it is not limited thereto.
  • the systemic administration can be injected, for example, intravaginally, intraperitoneally, intramuscularly, or subcutaneously. Preferably, intramuscular administration.
  • Disclosed herein includes subjects modified by introduction or delivery into the subject of guide nucleic acids, editor proteins and / or donors.
  • Such modified subjects can be obtained by inserting a transgene into the liver cell genome.
  • One embodiment is artificially engineered hepatocytes.
  • the modified hepatocytes may be hepatocytes comprising an artificially engineered high expression secretory gene.
  • the artificially engineered high expression secretory gene may be a gene into which a gene inserted into the high expression secretory gene is inserted.
  • the artificially engineered gene may be in a form in which a transgene is inserted into a highly expressed secreted gene coding region.
  • the transplant gene may be in an exon region of a high expression secretory gene.
  • exon1, exon2, exon3, exon4 exist in the coding sequence of the APOC3 gene among high expression secretion genes.
  • the transgene may be in exon1 of the APOC3 gene.
  • the transgene may be in exon2 of the APOC gene.
  • the transgene may be at exon3 of the APOC gene.
  • the transgene may be at exon4 of the APOC gene.
  • the coding sequence of the HP gene among the high expression secretion gene may be exon1, exon2, exon4, exon4, exon5.
  • the transgene may be in exon1 of the HP gene.
  • the transgene may be in exon2 of the HP gene.
  • the transgene may be in exon3 of the HP gene.
  • the transgene may be in exon4 of the HP gene.
  • the transgene may be in exon5 of the HP gene.
  • the artificially engineered gene may be in a form in which the transgene is inserted into the high expression secreted gene non-coding region.
  • the transgene may be inserted into a region located in a promoter, enhancer, intron, 3'UTR, polyadenyle (polyA) or a mixture thereof.
  • the transplant gene may be inserted into the intron region of the high expression secretion gene.
  • the coding sequence of the APOC3 gene in the high-expression secretion gene is interrupted by three introns intron1, intron2, and intron3.
  • the transgene may be in intron1 of the APOC3 gene.
  • the transgene may be in intron2 of the APOC3 gene.
  • the transgene may be in intron3 of the APOC3 gene.
  • the coding sequence of the HP gene of the high expression secretion gene may be inron1, intron2, intron3, intron4.
  • the transgene may be in intron1 of the HP gene.
  • the transgene may be in intron2 of the HP gene.
  • the transgene may be in intron3 of the HP gene.
  • the transgene may be in intron4 of the HP gene.
  • the transgene may be inserted at the same time over exon, intron or both regions.
  • the transgene may span both the exon and intron regions of the APOC3 gene.
  • the transgene may span both the exon1 and intron1 regions of the APOC3 gene.
  • the transgene may span both intron1 and exon2 regions of the APOC3 gene.
  • the transgene may span both the exon2 and intron2 regions of the APOC3 gene.
  • the transgene may span both intron2 and exon3 regions of the APOC3 gene.
  • the transgene may span both the exon3 and intron3 regions of the APOC3 gene.
  • the transgene may span both intron3 and exon4 regions of the APOC3 gene.
  • the transgene may span both the exon and intron regions of the HP gene.
  • the transgene may span both the exon1 and intron1 regions of the HP gene.
  • the transgene may span both intron1 and exon2 regions of the HP gene.
  • the transgene may span both exon2 and intron2 regions of the HP gene.
  • the transgene may span both intron2 and exon3 regions of the HP gene.
  • the transgene may span both the exon3 and intron3 regions of the HP gene.
  • the transgene may span both the intron3 and exon4 regions of the HP gene.
  • the transgene may span both the exon4 and intron4 regions of the HP gene.
  • the transgene may span both intro4 and exon5 regions of the HP gene.
  • the transgene may be inserted into a region including a mutant portion (eg, a portion different from the wild-type gene) of the high expressing secretory gene.
  • the transgene may be inserted in 10 to 35 nucleotide sequences that are adjacent to the 5 'end and / or 3' end of the proto-spacer-adjacent Motif (PAM) sequence in the nucleic acid sequence of the high expressing secretory gene.
  • PAM proto-spacer-adjacent Motif
  • the PAM sequence may be, for example, one or more of the following sequences (described in the 5 'to 3' direction).
  • N is A, T, C or G
  • N is each independently A, T, C or G, R is A or G, and Y is C or T;
  • NNAGAAW N is each independently A, T, C or G, and W is A or T;
  • N are each independently A, T, C, or G;
  • N is each independently A, T, C or G, R is A or G and Y is C or T);
  • TTN (N is A, T, C or G).
  • the transplant gene may be within 10 to 35 nucleotide sequences, 15 to 35 nucleotide sequences, 20 to 35 nucleotide sequences, 25 to 35 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • transplant gene may be within 10 to 15 nucleotide sequences, 15 to 20 nucleotide sequences, 20 to 25 nucleotide sequences, 25 to 30 nucleotide sequences, or 30 to 35 nucleotide sequences.
  • the transplanted gene may be in consecutive 10-25 nucleotide sequences adjacent to the 5 'end and / or 3' end of the PAM sequence in the nucleic acid sequence of the APOC3 gene.
  • the transgene may be in contiguous 10-25 nucleotides located adjacent to the 5 'end or / and 3' end of the sequence.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Cell Biology (AREA)
  • Mycology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Virology (AREA)
  • Toxicology (AREA)
  • Immunology (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Hematology (AREA)
  • Diabetes (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

본 명세서는 간을 인위적으로 조작하여 목적하는 단백질을 발현하기 위한 플랫폼으로, 보다 구체적으로 비정상적인 기능 또는 발현 하는 질병 유전자 대신에 정상적인 기능과 발현을 할 수 있는 이식 유전자(예를 들어, 치료유전자)를 고발현 분비 유전자에 삽입하여 발현을 유도함으로써, 유전질환 완화, 치료 또는 기능향상을 위한 플랫폼에 관한 것이다. 상기 고발현 분비 유전자는 HP 또는 APOC3유전자인 것을 포함한다. 상기 이식유전자는 간세포 게놈 내 프로모터를 이용하여 높은 수준으로 발현하여 세포밖으로 분비되는 것을 포함한다.

Description

간에서 목적하는 단백질 발현하기 위한 플랫폼
본 명세서는 간을 인위적으로 조작하여 목적하는 단백질을 발현하기 위한 플랫폼으로, 보다 구체적으로 비정상적인 기능 또는 발현 하는 질병 유전자 대신에 정상적인 기능과 발현을 할 수 있는 이식 유전자(예를 들어, 치료유전자)를 가이드핵산 및/또는 에디터단백질을 이용하여 발현을 유도함으로써 유전질환 완화, 치료 또는 신체 기능향상을 위한 플랫폼에 관한 것이다.
유전자 요법은 인간 공학의 새로운 시대에 막대한 잠재력을 가지고 있다. 유전자 요법은 유전자의 파괴, 수정 또는 이식 유전자에 융합된 특정 외인성 프로모터나 게놈 삽입 부위에서 발견되는 내인성 프로모터에 의해 조절될 수 있는 이식유전자의 삽입과 같은 게놈 편집 기술 등을 포함한다.
현재, 난치성 질환인 혈우병이나 lysosomal storage disease들은 현재 적당한 치료제가 없는 상태로, 효소나 단백질 대체제를 사용하는 대체요법이 주로 치료를 위해 이용되고 있으나 근본적인 치료는 할 수 없는 실정이다. 또한, AAV를 이용한 치료 유전자를 발현시키는 방법들이 임상시험에서 진행되고 있으나 이러한 방법 또한 AAV가 발현되는 동안에만 효과를 기대할 수 있는 것으로, 근본적이고 장기적인 치료방법이라고 할 수는 없다.
따라서, 보다 장기적으로 효과적인 치료를 위해 실제 치료 유전자를 환자의 유전체에 삽입하여 영구적인 발현을 가능하게 하는 치료 플랫폼이 필요한 실정이다. 이러한 치료 플랫폼은 기존의 일시적이고 반복적인 치료제의 투여를 통한 치료 방법과는 차별화 된 방법으로, 환자의 유전체에 치료 유전자를 삽입하기 위한 목적으로 유전자 교정에 효과적인 표적 특이적 인위적으로 조작된 뉴클레아제를 이용한다면 효율적인 치료 플랫폼을 개발할 수 있을 것이다.
이에 표적 특이적 인위적으로 조작된 뉴클레아제를 이용하여 목적하는 유전자가 지속적으로 발현 가능한 치료 플랫폼을 개발하고자 하였다. 특히, 높은 효율을 위해, 장기 또는 조직(예를 들면, 간)에서 고발현되는 유전자 위치를 목적하는 유전자의 삽입 위치로 결정하여 효과적인 플랫폼을 완성하였다.
본 명세서에서 개시된 일 내용은 CRISPR-Cas system을 이용하여 간세포에서 목적하는 단백질을 발현시키는 플랫폼을 제공할 수 있다.
본 명세서에서 개시된 일 내용은, 목적하는 단백질 또는 이를 암호화하는 서열 및 CRISPR-cas system을 포함하는, 목적하는 단백질 발현용 조성물 및 이의 다양한 용도를 제공할 수 있다.
본 명세서에서 개시된 일 내용은 CRISPR-Cas system을 이용하여 목적하는 단백질을 발현하는 세포 및 이의 제조방법을 제공할 수 있다.
본 명세서에서 개시된 일 내용은 CRISPR Cas system을 이용하여 간세포에 목적하는 단백질을 발현시키기 위한 방법을 제공할 수 있다.
본 명세서에서 개시된 일 내용은 간세포에서 목적하는 단백질을 발현시키는 조성물을 치료 대상에 투여하는 단계를 포함하는, 유전질환의 치료 방법을 제공할 수 있다.
본 명세서에서 개시된 일 내용은 목적하는 단백질을 간세포에서 발현시키기 위하여, 해당 표적 유전자의 조작에 사용할 수 있는 가이드 핵산 및 에디터 단백질을 제공할 수 있다.
상기 과제를 해결하기 위하여, 본 명세서는 간세포에서 목적하는 단백질을 발현시키기 위한 플랫폼을 제공하고자한다. 보다 구체적으로, CRISPR-Cas시스템을 이용하여 목적하는 단백질을 암호화하는 유전자를 표적 유전자에 삽입하여 높은 수준으로 지속적으로 발현시키고, 더불어 인위적 변형된 세포, 장기 또는 조직을 제공하여, 신체 기능향상 및 유전질환을 치료하기 위한 플랫폼에 관한 것이다.
본 명세서에서 개시된 내용의 "간에서 목적하는 단백질 발현 플랫폼(liver biofactory platform)"은 간세포 내에 특정 이식 유전자를 도입하여 발현시킴으로써 목적하는 단백질을 지속적으로 발현시킬 수 있는 시스템으로서, 직접적으로 또는 간접적으로 관여하는 모든 조성물, 방법 및 용도를 포함한다.
일 예로, 상기 인위적으로 삽입된 이식유전자는 간 세포 내 고발현 분비 유전자 서열 내 위치하고,
상기 고발현 분비 유전자는 간세포 게놈 내에 존재하는 ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, 및 F9 중에서 선택된 하나 이상의 유전자일 수 있다.
상기 인위적으로 삽입된 이식유전자는 삽입 전과 비교하여 세포 내 발현량이 증가하거나 또는 새롭게 발현될 수 있다.
또한, 본 명세서에서 개시되는 내용은 간세포에서 목적하는 단백질 발현을 위해 표적 특이적 인위적으로 조작된 뉴클레아제를 포함한 조성물에 관한 것으로서,
상기 유전자 조작용 조성물은 고발현 분비 유전자 내 이식유전자를 삽입시키기 위한 인위적으로 조작된 뉴클레아제를 포함하고,
상기 고발현 분비 유전자 군 중 선택된 하나 이상의 유전자인 것을 특징으로 하는 유전자 조작용 조성물을 제공한다.
일 예로, 간에서 발현되는 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드 핵산;
에디터 단백질 또는 에디터 단백질을 암호화하는 핵산; 및
목적 단백질을 암호화하는 핵산서열을 포함하는 공여체(donor),
를 포함하는 목적하는 단백질 발현을 위한 조성물을 제공하는 것이다.
"고발현 분비 유전자"는 간 세포 내에서 일정수준 이상 발현하는 유전자로, 간 세포 내에서 많이 발현하면서, 상기 발현 산물이 간 세포 밖으로 분비될 수 있는 유전자를 의미한다. 고발현 분비 유전자는 간 세포의 게놈 내에서 지속적으로 높은 수준의 발현이 가능한 위치에 존재하며, safe harbors site 로서 기능을 가질 수 있다.
상기 고발현 분비 유전자는 ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1 AAVS1, Rosa, HPRT,또는 CCR5 로 구성된 유전자 군 중에서 선택된 하나 이상의 유전자 일 수 있다.
상기 고발현 분비 유전자 유전자는 바람직하게 HP 또는 APOC3일 수 있다.
상기 인위적으로 조작된 뉴클레아제는 인위적으로 조작된 뉴클레아제 (artificial engineered nuclease, 유전자 가위로 칭하기도 함)를 의미하며, 일 예로 Clustered regularly interspaced short palindromic repets(CRISPR)-CRISPR associated protein(Cas) system, Zinc finger nuclease(ZFN), Transcription activator-like effector nucleases(TALEN) 중 하나일 수 있다.
상기 핵산서열 내 변형은 비제한적으로, CRISPR-Cas 시스템에 의해 인위적으로 조작될 수 있다.
"CRISPR-Cas 시스템"은 관심있는 유전자서열을 인식하고 결합하는 가이드핵산과 표적 유전자를 절단하는 에디터 단백질의 상호작용을 통해 형성된 시스템을 말하며, CRISPR-Cas 시스템은 가이드 핵산과 에디터 단백질을 포함한다.
CRISPR-Caas 시스템은 대상을 변형시킬 수 있다. 상기 대상은 표적 핵산, 유전자, 염색체 또는 단백질일 수 있다.
상기 에디터 단백질 은 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 유래의 Cas9 단백질, 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis)유래의 Cas9 단백질, 및 Cpf1로 이루어진 군에서 선택된 하나 이상일 수 있다. 일 예에서, 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질 또는 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질일 수 있다.
상기 표적서열은 고발현 분비 유전자 서열 중 엑손 영역에 위치한 뉴클레오타이드 서열일 수 있다. 예를 들어, 10bp 내지 25bp의 뉴클레오타이드 서열일 수 있다.
상기 표적서열은 고발현 분비 유전자 서열 중 인트론 영역에 위치한 뉴클레오타이드 서열일 수 있다. 예를 들어, 10bp 내지 25bp의 뉴클레오타이드 서열일 수 있다.
상기 표적서열은 서열번호 1 내지 348번 중 선택된 1이상일 수 있다.
상기 가이드핵산은 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 핵산 서열의 일부와 각각 상보적인 결합을 형성할 수 있다. 0 내지 5, 0내지 4, 0 내지 3, 0 내지 2개의 미스매치(mismatching)를 포함할 수 있다.
일 구현예에서, 본 명세서에서 개시된 내용은 ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1 AAVS1, Rosa, HPRT 또는 CCR5 중 선택된 하나 이상의 고발현 분비 유전자의 표적서열에 대한 가이드핵산을 포함한다. 상기 표적서열은 서열번호 1 내지348 번의 뉴클레오타이드일 수 있다.
예를 들어, 이하의 군으로부터 선택되는 1이상의 가이드 핵산을 제공할 수 있다:
HP 유전자의 핵산 서열 중 서열번호 1 내지 153번의 각 표적서열에 대한 가이드 핵산;
APOC3 유전자 핵산 서열 중 서열번호 168 내지 348번의 각 표적서열에 대한 가이드 핵산;
일 구체예에서, 상기 유전자 조작용 조성물은,
서열번호 1 내지 40번 및 서열번호 154 내지 167번 서열 중에 선택된 어느 하나의 표적서열에 대한 가이드핵산, 및
캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9을
포함하는 유전자 조작용 조성물을 제공한다.
다른 구체예에서, 상기 유전자 조작용 조성물은,
서열번호 41 내지 134번 및 서열번호 168 내지 332번에 서열 중에 선택된 어느 하나의 표적서열에 대한 가이드핵산, 및
스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9을
포함하는 유전자 조작용 조성물을 제공한다.
상기 가이드 핵산은 비제한적으로, 18 내지 25bp, 18 내지 24bp, 18 내지 23b, 19 내지 23bp, 및 20 내지 23bp의 뉴클레오타이드 중에 어느 하나일 수 있다.
상기 가이드 RNA는 crRNA와 tracrRNA를 포함하는 이중RNA(dual RNA), 또는 단일-사슬 RNA(sgRNA)의 형태로 존재할 수 있다.
본 명세서에서 개시된 일 내용은 목적하는 단백질을 암호화하는 유전자인 이식유전자를 포함한다.
목적하는 단백질의 발현은 기존 단백질의 대체 또는 신규한 단백질을 제공하는 기능을 할 수 있다. 또는 체내 결핍되거나 결여된 단백질을 인위적으로 발현시킴으로써, 결핍 또는 결여로 인한 질병을 치료하거나 해당 단백질의 기능을 향상시킬 수 있다.
예를 들어, 목적하는 단백질은 다른 특성(예, 혈청 반감기 증가)을 갖는 단백질일 수 있다.
예를 들어, 목적하는 단백질은 특정 질환의 치료 유전자일 수 있다. 상기 치료 유전자는 유전질환에 관여하는 질병 유발 유전자의 발현 및 기능에 영향을 미치는 유전자일 수 있다. 상기 치료 유전자는 유전질환에 관여하는 질병 유발 유전자(정상 유전자의 돌연변이 형태)의 정상 형태 유전자의 일부(예, 기능적 도메인)일 수 있다.
상기 질병은 항체에 의해 치료될 수 있는 질병일 수 있다.
상기 질병은 다양한 유전자의 돌연변이에 의해 유발되는 질병일 수 있다. 예를 들어, “유전성 대사 질환"과 관련된 질병일 수 있다. 예를 들어, 혈우병 등일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 FVII, FVIII, FIX 및 다른 응고인자들로 이루어진 군에서 선택된 것일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 IDUA, I2S, SGSH, NAGLU, HGSNAT, GNS, GALNS, GLB1, ARSB, GUSB, HYAL, NEU, GNPTAB 및 MCOLN1로 이루어진 군에서 선택된 것일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 SAH1, GALC, CTSA, GLA, NAGA, beta-galactosidase, hexosaminidase, GBA, SMPD1, ARSA 및 SUMF로 이루어진 군에서 선택된 것일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 NPC, PPT, TPP1, CLN3, CLN6, PPT1, DNAJC5, CTSF, CLN7, CLN8 및 CTSD로 이루어진 군에서 선택된 것일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 GAA 또는 LAMP2 일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 CTNS, CTSK 또는 SLC17A5 일 수 있다.
상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 MAN2B, MAN2C, MANBA, AGA, FUCA1 및 LAL로 이루어진 군에서 선택된 것일 수 있다.
상기 치료 유전자, 즉 즉 질병 유발 유전자의 정상 형태,는 methylmalonic aciduria CbIA Type (MMAA) protein, methylmalonic aciduria CbIB Type (MMAB) protein, methylmalonic aciduria CbIC Type (MMADHC) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase Reductase (MTRR) protein, lysosomal membrane protein domain (LMBRD 1) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase (MTR) protein, propionyl-CoA protein, glucose-6-phosphate transporter (G6PT) protein, glucose-6-phosphatase (G6Pase) protein, low density lipoprotein receptor (LDLR) protein, low density lipoprotein receptor adaptor protein 1 (LDLRAP-1 protein), N-acetylglutamate synthetase (NAGS) protein, carbamoyl phosphate synthetase 1 (CPS1) protein, ornthine transcarbamylase (OTC) protein, argininosuccinic acid synthetase (ASS) protein, argininosuccinase acid lyase (ASL) protein, arginase (ARG1) protein, solute carrier family 25 protein, UDP glucuronosyltransferase 1 family, polypeptide A1 (UGT1A1) protein, fumarylacetoacetate hydrolyase (FAH), alanine-glyoxylate aminotransferase (AGXT) protein, glyoxylate reductase/hydroxypyruvate reductase (GRHPR) protein, APTase Cu(2+) transporting beta (ATP7B) protein, phenylalanine hydroxylase (PAH) protein 및 lipoprotein lyase (LPL) protein로 이루어진 군에서 선택된 단백질은 코딩하는 유전자일 수 있다.
상기 치료 유전자는 항체를 암호화하는 유전자일 수 있다. 즉 질병을 유발하는데 관여하는 특정 인자나 signal pathway를 항체에 의해 차단시키는 단백질 또는 폴리펩타이드를 암호화하는 유전자일 수 있다.
상기 치료 유전자는 BBB(blood-brain barrier)와 같은 특정한 조직으로의 투과기능이 있는 특정한 펩타이드 또는 치료 유전자의 치료효과를 증대시킬 수 있는 기능성 펩타이드와 fusion 된 형태일 수 있다.
또한, 본 명세서는 상기 가이드핵산 및/또는 에디터 단백질을 이용하여, 이식유전자가 삽입된, 인위적으로 변형된 세포, 조직 또는 장기를 개시한다.
상기 변형된 세포, 조직 또는 장기는, CRISPR-Cas system을 이용하여 관심 있는 게놈 유전자 내의 표적서열에 이식유전자가 삽입되어 목적 단백질이 발현되어 있는 장기 또는 조직인 것을 특징으로 한다. 상기 인위적으로 변형된 세포, 조직 또는 장기에서는 상기 이식 유전자가 간 세포 내 고발현 분비 유전자 위치에 삽입됨으로써, 목적 단백질이 지속적으로 일정량 이상 고발현된다.
본 명세서에서 개시된 내용의 일 구체예는,
간세포의 게놈 내 인위적으로 삽입된 이식유전자를 발현하는 간세포로서,
상기 고발현 분비 유전자는 FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, 및 F9 중에서 선택된 하나 이상의 유전자이며,
상기 인위적으로 삽입된 이식유전자는 고발현 분비 유전자 서열 내 위치하고,
상기 이식유전자로부터 발현된 목적하는 단백질을 포함하는 간세포이다.
상기 고발현 분비 유전자는 예를 들어, HP 또는 APOC3일 수 있다.
상기 이식유전자는 고발현 분비 유전자 게놈 내 엑손 또는 인트론 영역에 포함될 수 있다.
상기 인위적으로 삽입된 이식유전자는 간세포 게놈 내 프로모터에 의해 발현될 수 있다.
상기 간세포는 비제한적으로 조작된 좌위 (예를 들어, 고발현 분비 유전자 좌위)를 포함하는 간(hepatic) 줄기세포일 수 있다. 본 명세서의 방법 및 조성물과 함께 사용될 수 있는 구체적인 줄기 세포 형태는 성체 줄기세포, 배아 줄기세포(ESC), 및 유도 만능 줄기 세포(iPSC)를 포함한다.
본 명세서에서 개시된 내용의 다른 구체예는,
간세포 게놈 내 인위적으로 이식유전자를 삽입하여 목적하는 단백질을 발현하기 위하여 간세포를 인위적 조작하는 방법으로서,
상기 방법은
간세포 게놈 내 존재하는 고발현 분비 유전자를 조작하기 위한 인위적으로 조작된 뉴클레아제; 및 이식유전자를 포함하는 공여체서열을 간세포에 도입하는 단계를 포함하고.
상기 이식유전자는 간세포 게놈 내 존재하는 고발현 분비 유전자 내 삽입되고,
상기 고발현 분비유전자는 FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, 및 F9에서 선택된 하나 이상의 유전자인, 간세포를 인위적 조작하는 방법이다.
상기 가이드핵산, 에디터단백질 및 공여체를 간세포 내 도입하는 것은 리포좀, 플라스미드, 바이러스 벡터, 나노파티클 (nanoparticles) 또는 PTD (Protein translocation domain) 융합 단백질 방법 중에 선택된 하나이상의 방법으로 수행될 수 있다.
상기 가이드핵산, 에디터단백질 및 공여체는 핵산 서열의 형태로 각각 또는 함께 1이상의 벡터로 제공될 수 있다.
상기 벡터는 바이러스 벡터 시스템으로 형성될 수 있다. 상기 바이러스 벡터는 아데노 바이러스, 아데노-연관 바이러스(AAV), 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 렌티 바이러스 구성된 군에서 선택되는 하나 이상의 것을 포함한다.
또한, 상기 인위적으로 조작된 뉴클레아제 및 공여체를 간세포에 도입하는 단계는 생체 내(in vivo)에서 수행될 수 있다.
대상 내 전달방법은 전신투여 또는 국소적용일 수 있다. 상기 전신투여는 정맥 내 투여일 수 있다.
또한, 상기 인위적으로 조작된 뉴클레아제 및 공여체를 간세포에 도입하는 단계는 생체 외(ex vivo)에서 수행될 수 있다. 대상 내 전달방법은 전기천공법(electroporation)일 수 있다.
본 명세서에서 개시된 내용의 일 구체예는,
특정 질환의 치료를 위해 목적하는 단백질을 간세포에서 지속적이고 일정량이상 발현시키기 위한 조성물을 투여하는 것을 포함하는, 상기 특정 질환의 치료방법에 관한 것이다.
상기 특정 질환은 특정 단백질의 결핍 또는 결여에서 기인하는 질환일 수 있다.
상기 치료 방법은 간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현시키기 위한 유전자 조작용 조성물을 유효성분으로 포함하는 조성물을 치료 대상에 투여하는 단계를 포함하고
상기 유전자 조작용 조성물은 Clustered regularly interspaced short palindromic repeats(CRISPR)-CRISPR associated protein(Cas) system, Zinc finger nuclease(ZFN), Transcription activator-like effector nuclease(TALEN)의 인위적으로 조작된 뉴클레아제 중 어느 하나를 포함할 수 있다.
예를 들어, 혈우병 치료 방법으로서,
간 세포 내 HP 또는 APOC3 유전자 서열 내 이식유전자 F9을 삽입하기 위한 유전자 조작용 조성물을 투여하는 것을 포함하는 혈우병 치료 방법을 개시한다.
상기 치료 대상은 인간, 원숭이 등의 영장류, 마우스, 래트 등의 설치류 등을 포함하는 포유 동물일 수 있다.
또한, 본 명세서에서 개시된 내용의 다른 구체예는, 상기 특정 질환 치료 용도의 모든 양태를 포함한다.
본 명세서에서 개시된, 간세포에서 목적하는 단백질을 발현시키기 위한 플랫폼에 의해, 목적하는 단백질을 높은 수준으로 지속적 발현시킬 수 있고, 신체 기능향상 및 유전 질환의 근본적인 치료제를 제공할 수 있다.
예를 들어, 본 명세서의 조성물에 의해 결핍되거나 결여된 단백질을 발현하도록 치료용 단백질을 생성하거나, 또는 다른 특성(예를 들어 반감기 증가)을 갖는 신규한 단백질을 제공함으로써, 특정 단백질의 결핍 또는 결여로 인한 유전질환을 예방 또는 치료할 수 있다.
도 1은 고발현 분비 유전자를 선정하기 위한 RNA-sequencing결과를 보여주는 그래프이다.
도 2는 고발현 분비 유전자의 인위적 조작에 의한 liver biofactory 플랫폼에 관하여 도식하여 나타낸 것이다.
도 3은 Haptoglobin(HP)를 타겟하는 가이드 RNA의 활성을 확인하기 위한 T7E1 assay 결과를 보여주는 그래프이다.
도 4는 Digenome-seq를 통한 off-target 사이트를 확인한 그래프이다.
도 5는 인간세포주 HEK293 cell에서 NGS를 통한 targeted deep sequencing을 통한 off-target 활성을 검증한 그래프이다.
도 6은 CRISPR-SpCas9 또는 CRISPR-CjCas9 과 F9유전자를 dual AAV에 packaging 한 것을 도식하여 나타낸 것이다.
도 7은 pAAV-CMV-CjCas9-U6-sgRNA와 pAAV-hF9-donor를 transfection시킨 HEK293 세포주의 genomic DNA에서 F9 치료유전자가 knock-in 되었는지를 sanger sequencing으로 확인한 결과로 hHP 유전자에 F9유전자를 HDR을 이용한 Knock-in을 확인하기 위한 primer design을 도식하여 나타낸 것이다.
도 8은 왼쪽 그래프는 상동성 암 중 left arm과 hHP유전자 사이에 F9의 삽입 결과를 보여주며, 오른쪽 그래프는 상동성 암 중 right arm과 hHP유전자 사이에 F9의 삽입 결과를 보여주는 그래프이다.
도 9은 AV6-EFS-SpCas9 5x10^11 ㎍와 AAV6-hF9-donor-APOC3-Sp 5x10^11 ㎍의 dual AAV를 Human primary hepatocyte에 도입하였을 때, 도 9의 A에서는 genomic DNA를 이용한 on-target 활성을 보여주며, 도 9의 B에서는 supernatant 샘플을 이용한 knock-in결과 hF9의 분비량을 보여주는 그래프이다.
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어는 본 명세서이 속하는 기술 분야의 당업자에 의해 통상적으로 이해되는 것과 동일한 의미를 가진다. 본 명세서에 기재된 것과 유사 또는 동일한 방법 및 물질이 본 명세서의 실행 또는 시험에서 사용될 수 있지만, 적합한 방법 및 물질이 이하에 기재된다. 본 명세서에 언급된 모든 간행물, 특허 출원, 특허 및 기타 다른 참고문헌은 전체가 참고로 포함된다. 추가로, 물질 방법 및 실시예는 단지 예시적이며, 제한되는 것으로 의도되지 않는다.
본 명세서에서 개시되는 내용은 간에서 목적하는 단백질을 발현시키기 위한 플랫폼에 관한 것이다.
보다 구체적으로, 본 명세서에서 개시되는 내용은 CRISPR-Cas시스템을 이용하여 고발현 분비유전자를 인위적으로 조작하여 목적하는 단백질을 발현시키는 조성물을 포함하며,
목적하는 단백질 발현을 위해 인위적으로 조작한 세포, 장기 또는 조직을 포함하며,
이를 이용하여 특정 유전질환의 치료, 예방, 경감하거나 신체 기능을 향상시킬 수 있는 용도를 포함한다.
[Liver bio-factory platform]
본 명세서에 의해 개시되는 내용의 일 구현예는 "목적하는 단백질을 발현하기 위한 플랫폼"에 관한 것이다.
목적하는 단백질을 발현하기 위한 플랫폼은 야생형의 게놈 내에 인위적으로 이식유전자를 삽입하여 특정 장기 또는 조직에서 목적하는 단백질을 계속해서 많은 양으로 생산(발현)할 수 있는 시스템을 총칭하는 것으로서, 조성물, 용도, 방법 등의 양태를 포함한다.
또한, 상기 플랫폼은 생산(발현)된 목적 단백질을 세포 밖으로 분비시키는 시스템을 포함한다. 따라서, 상기 생산된 목적 단백질은 이식유전자가 삽입된 장기 또는 조직에서뿐만 아니라, 분비된 다른 장기 또는 조직에서도 기능할 수 있다.
일 구체예에서, 상기 플랫폼은 목적하는 단백질을 일정수준 이상으로 충분히 생산할 수 있어야 한다.
다른 구체예에서, 상기 플랫폼은 다른 장기 또는 조직에서도 생산된 목적 단백질이 작동할 수 있도록 세포 밖으로 충분히 분비될 수 있어야 한다.
본 명세서에서, 목적하는 단백질을 발현하기 위한 플랫폼을 구현하는 특정 장기 또는 조직은 간 또는 간조직이다.
간은 우리 몸에서 일어나는 모든 일에 관여하는 인체의 화학 공장으로 불리어지는 기관으로, 천연 가지의 효소를 통한 영양분의 물질대사 담당, 해독, 면역작용 등의 일을 한다. 특히 인체가 적절한 기능을 하는데 필요한 각종 물질들을 생산, 저장하고, 다시 간정맥을 통해 몸 전체로 내보낼 수 있다.
예를 들어, 간에서 특정 유전자가 고발현됨으로써, 특정 단백질을 많이 생산해 낼 수 있고, 상기 생산된 단백질을 몸 전체로 분비시킴으로써, 필요한 기관에 해당 단백질을 공급할 수 있다.
이하, 간에서 목적하는 단백질을 발현하기 위한 플랫폼 (Liver bio-factory platform(이하'LBP'))에 대해 기술한다.
본 명세서에 의해 개시되는 일 내용으로서, 간에서 목적하는 단백질 발현하기 위한 플랫폼은 간 조직 내에서 목적하는 단백질을 지속적으로 생산하기 위한 시스템이며, 상기 시스템은 또한 생산된 단백질을 세포 밖으로 분비할 수 있는 직적접으로 또는 간접적으로 관여하는 모든 물질, 조성물, 방법 및 용도를 포함한다.
간에서 목적하는 단백질을 발현하기 위한 플랫폼은 간세포, 예를 들어, 상기 간세포 내 게놈을 인위적으로 조작하여 목적하는 단백질을 간세포 내에서 생산하는 시스템을 포함한다.
일 예로, 간세포 게놈 서열을 인위적으로 변형시키는 것을 포함한다.
일 구체예에서, 간세포 게놈 중 특정 유전자의 일부 서열을 절단하는 것을 포함한다.
다른 구체예로, 간세포 게놈 중 절단된 서열 사이에 목적 단백질을 코딩하는 이식유전자를 삽입하는 것을 포함한다.
본 명세서에 의해 개시되는 일 내용으로서, 간에서 목적하는 단백질 발현하기 위한 플랫폼은 다양한 종류의 간 유래 세포를 이용할 수 있다.
예를 들어, 간세포, 유도 만능 줄기 세포(iPSC) 또는 다른 유형의 줄기 세포(배아, 조혈, 또는 중간엽)를 포함할 수 있지만, 이에 제한되지 않는다.
간에서 목적하는 단백질을 발현하기 위한 플랫폼은 간에서 목적하는 단백질을 높은 수준으로 발현하기 위한 간세포 게놈 내 특정 영역을 이용할 수 있다.
일 예로, 이식유전자는 간 세포의 게놈 내 세이프 하버 영역(safe harbor site)에 삽입할 수 있다.
상기‘세이프 하버 영역(safe harbor site)’는 외래 유전자가 삽입되어도 심각한 부작용, 예를 들어 암이 유발되지 않는 게놈 내 특정 영역이며, 상기 특정 영역 내 삽입된 외래 유전자는 영구적이고 안전하게 높은 수준의 발현이 가능하다.
다른 예로, 이식 유전자는 간 세포의 게놈 내 유전자 발현 조절영역(expression regulatory region)을 이용할 수 있는 영역에 삽입할 수 있다.
상기 ‘발현 조절영역(gene regulatory region)’는 간세포 게놈에 존재하는 유전자의 발현 조절에 중요한 역할을 하는 영역으로서, 예를 들어 유전정보를 포함하는 서열에 인접한 프로모터 및/또는 조절요소(인핸서, 전사촉진인자 등)을 포함하는 영역을 총칭한다. 상기 프로모터 및/또는 조절요소를 이용하여 삽입된 외래 유전자는 고효율로 높은 수준의 발현이 가능하다.
간에서 목적하는 단백질을 발현하는 플랫폼은, 이러한 간 세포 내 게놈의 특정 위치를 이용하여, 이식유전자를 계속해서 높은 수준으로 발현시킴으로써 목적하는 단백질을 다량으로 생산할 수 있다.
고발현 분비 유전자(highly expressed and secreted gene)
본 명세서에 의해 개시되는 내용으로서,
상기 간세포 게놈 내 이식유전자가 삽입되는 특정 영역은 "고발현 분비 유전자"의 일부 서열에 포함될 수 있다. 본 명세서에서는 상기 고발현 분비 유전자를 간세포 게놈 내 인위적인 조작을 수행하는 표적 유전자(target gene)로 칭하기도 한다.
상기 "고발현 분비 유전자"는 간 세포 내에서 지속적으로 높은 수준의 발현이 가능하고, 상기 발현 산물이 세포 밖으로 분비될 수 있는 유전자를 의미한다.
예를 들어, 상기 고발현 분비 유전자는 간 세포의 게놈 내 세이프 하버 영역 중 어느 하나에 포함될 수 있다.
예를 들어, 상기 고발현 분비 유전자는 간 세포의 게놈 내 지속적으로 높은 유전자 발현을 가능하게 하는 프로모터 및 조절 요소를 포함할 수 있다.
상기 고발현 분비 유전자는 간 세포 게놈 내 존재하는 야생형 유전자일 수 있다.
용어 "야생형"은 자연에서 가장 보편적으로 보이는 유전자 또는 임의의 정상이라고 지정된 대립 유전자를 의미한다. 예를 들어, 특정 질환을 나타내지 않는 정상 상태의 유전자 형태일 수 있다.
또한, 상기 고발현 분비 유전자는 간 세포 게놈 내 존재하는 정상적으로 기능하지 못하는 유전자일 수 있다.
이때, 상기 고발현 분비 유전자는 야생형과 비교하여 하나 이상의 특정 뉴클레오타이드가 변형된 유전자일 수 있다. 예를 들어, 상기 변형은 하나 이상의 뉴클레오타이드의 결실, 치환, 및/또는 삽입을 포함한다. 상기 변형된 고발현 분비 유전자는 전부 또는 일부가 발현되거나, 전혀 발현되지 않을 수 있다.
본 명세서에 의해 개시되는 내용으로서,
목적 단백질을 발현하는 이식유전자(외래유전자)는 상기 고발현 분비 유전자의 서열 내에 삽입할 수 있다.
이 때, 해당 고발현 분비 유전자는 전부 또는 일부가 발현될 수 있다. 즉, 이식유전자 및 고발현 분비 유전자가 함께 발현될 수 있다.
또는 해당 고발현 분비 유전자는 간 세포 내에서 발현하여 혈액으로 분비될 수 있다.
또는 해당 고발현 분비 유전자는 전혀 발현되지 않을 수 있다.
상기 고발현 분비 유전자는 예를 들어, ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1 AAVS1, Rosa, 또는 HPRT일 수 있다. 다른 예로, 고발현 분비 유전자는 IDUA, IDS, GLA, 또는 GBA일 수 있다.
일 구체예에서, 고발현 분비 유전자는 HP 일 수 있다.
HP 유전자는 Haptoglobin 을 암호화하는 유전자를 의미한다. 일 예에서, HP유전자는 다음으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다: 인간 HP(e.g., NCBI Accession No. NP_001119574, NP_001305067, NP_005134) 또는 Mous HP(NP_001316894, NP_059066)을 암호화하는 유전자, 예컨대, NCBI Accession No.NM_001126102, NM_005143, NM_001318138 등으로 표현되는 HP 유전자.
다른 구체예에서, 고발현 분비 유전자는 APOC3 일 수 있다.
APOC3 (Apolipoprotein C3) 유전자는 VLDL(very low density lipoprotein)의 구성원인 Apolipoprotein C-III를 암호화는 유전자를 의미한다. APOC3 유전자는 다음으로 이루어진 군에서 선택된 하나 이상일 수 있으나, 이에 제한되는 것은 아니다: 인간 APOC3(e.g., NCBI Accession No. NP_000031)을 암호화하는 유전자, 예컨대, NCBI Accession No.NM_000040 등으로 표현되는 APOC3 유전자.
본 명세서에 의해 개시되는 내용의 일 예는, 간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현하는 LBP시스템으로서,
상기 인위적으로 삽입된 이식유전자는 고발현 분비 서열 내 위치하고,
상기 고발현 분비 유전자는 ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, 및 F9 중에서 선택된 하나 이상의 유전자이며,
상기 인위적으로 삽입된 이식유전자는 삽입전과 비교하여 발현량이 증가하거나 또는 새롭게 발현되는 LBP 시스템이다.
[목적하는 단백질 발현을 위한 조성물]
본 명세서에 의해 개시되는 내용의 일 구현예는 "목적하는 단백질을 발현하기 위한 플랫폼"을 구현시킬 수 있는 조성물에 관한 것이다.
간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현하는 LBP시스템을 구현할 수 있는 조성물을 포함한다.
일 구체예로서, 고발현 분비 유전자를 인위적으로 조작하기 위한 조성물에 관한 것이다.
상기 고발현 분비 유전자를 인위적으로 조작하기 위한 조성물은 고발현 분비 유전자 내 임의의 영역을 변형 시킬 수 있다.
"인위적으로 조작된(artificially modiified or engineered or artificially engineered)"이라는 용어는 자연상태에서 일어나는 그대로의 상태가 아닌, 인위적으로 변형을 가한 상태를 말한다. 예를 들어 유전자의 일부 뉴클레오타이드가 삭제 또는 치환될 수 있고, 외부 뉴클레오타이드 또는 폴리뉴클레오타이드가 삽입하여 변형될 수 있다.
상기 고발현 분비 유전자를 인위적 조작하기 위한 조성물은 인위적으로 조작된 뉴클레아제를 포함한다.
"인위적으로 조작된 뉴클레아제 (programmable nuclease)"는 목적하는 유전체 상의 특정 위치를 인식하여 절단할 수 있는 모든 형태의 뉴클레아제를 포함한다. 이에 제한되는 것은 아니나, 특히 유전체 상의 특정 표적서열을 인식하는 도메인인 Clustered regularly interspaced short palindromic repeats(CRISPR)- CRISPR associated protein(Cas) system, 식물 병원성 유전자에서 유래한 TAL 작동자 (transcription activator-like effector) 도메인과 절단 도메인이 융합된 TALEN (transcription activator-like effector nuclease), 징크-핑거 뉴클레아제 (zinc-finger nuclease), 메가뉴클레아제 (meganuclease), RGEN (RNA-guided engineered nuclease), Cpf1, FokI -endonuclease 또는 이의 조합일 수 있다.
바람직하게는 CRISPR-Cas system일 수 있으나, 이에 제한하지 않는다.
[CRISPR-Cas system]
본 명세서에 의해 개시되는 내용의 다른 구현예는 고발현 분비 유전자를 인위적으로 조작하기 위한 CRISPR-Cas system을 포함하는 조성물에 관한 것이다.
상기 CRISPR-Cas systme은 가이드 핵산 및/또는 에디터단백질로 구성될 수 있다.
본 명세서에 의하여 개시되는 내용의 일 구체예에서,
고발현 분비 유전자를 조작하기 위한 조성물은 고발현 분비 유전자를 조작하기 위한 가이드핵산을 포함할 수 있다.
본 명세서에서 용어 "가이드 핵산"은 표적 핵산, 유전자 또는 염색체를 인지하고, 및 에디터 단백질과 상호작용할 수 있는 뉴클레오티드 서열을 의미한다. 이때, 상기 가이드 핵산은 표적 핵산, 유전자 또는 염색체 내의 일부 뉴클레오티드와 상보적인 결합을 형성할 수 있다.
상기 가이드핵산은 가이드핵산-에디터단백질 복합체를 형성할 수 있으며, 가이드핵산-에디터 복합체가 표적 핵산, 유전자 또는 염색체의 표적 영역에 위치할 수 있도록 유도하는 기능을 수행할 수 있다.
상기 가이드 핵산은 표적 DNA 특이적 가이드 RNA, 상기 가이드 RNA를 코딩하는 DNA, 또는 DNA/RNA 혼합의 형태일 수 있다.
상기 가이드 핵산은 가이드 RNA일 수 있다.
"가이드 RNA"는 생체 외(in vitro) 전사된 것일 수 있고, 특히 올리고 뉴클레오티드 이중가닥, 또는 플라스미드 주형으로부터 전사된 것일 수 있으나, 이에 제한되지 않는다.
상기 가이드핵산은 하나의 연속된 핵산서열일 수 있다.
예를 들어, 하나의 연속된 핵산 서열은 (N)m 일 수 있고, 이때 N은 A, T, C 또는 G, 또는 A, U, C 또는 G이며, m은 1 내지 150의 정수를 의미한다.
상기 가이드핵산은 연속된 핵산서열이 두 개 이상일 수 있다.
예를 들어, 두 개 이상의 연속된 핵산서열은 (N)m과 (N)o 일 수 있고, 이때 N은 A, T, C 또는 G, 또는 A, U, C 또는 G이며, m 및 o는 1 내지 150의 정수를 의미하며, m과 o는 서로 같거나 다를 수 있다.
상기 가이드핵산은 하나 이상의 도메인을 포함할 수 있다.
상기 도메인은 가이드 도메인, 제 1 상보적 도메인, 연결 도메인, 제 2 상보적 도메인, 근위 도메인, 꼬리도메인 등의 기능적 도메인일 수 있으며, 이에 제한되지 않는다.
이때, 하나의 가이드핵산은 2 이상의 기능적 도메인을 가질 수 있다. 이때, 상기 2 이상의 기능적 도메인은 서로 상이할 수 있다. 또는 하나의 가이드핵산에 포함된 2 이상의 기능적 도메인은 서로 동일할 수도 있다. 예를 들어, 하나의 가이드핵산은 2 이상의 근위 도메인을 가질 수 있고, 다른 예를 들어, 하나의 가이드핵산은 2 이상의 꼬리도메인을 가질 수 있다. 다만, 하나의 가이드핵산에 포함되어 있는 기능적 도메인이 서로 동일한 도메인이라는 말은 두 기능적 도메인의 시퀀스가 동일하다는 의미는 아니며, 시퀀스가 상이하여도 기능적으로 동일한 기능을 수행하고 있으면 동일한 도메인이라고 할 수 있다.
기능적 도메인에 대해서 이하에서 구체적으로 설명한다.
i) 가이드 도메인
"가이드 도메인"은 표적 유전자 또는 핵산의 이중 가닥 중 어느 하나 가닥의 일부 서열에 상보적인 결합을 할 수 있는 도메인으로, 표적 유전자 또는 핵산과의 특이적인 상호작용을 위해 역할한다. 예를 들어, 가이드 도메인은 표적 유전자 또는 핵산의 특정 뉴클레오타이드서열을 가지는 위치로 가이드핵산-에디터단백질 복합체를 유도하는 기능을 수행할 수 있다.
상기 가이드 도메인은 10 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드 도메인은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
다른 일 예로, 상기 가이드 도메인은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
상기 가이드 도메인은 가이드 서열을 포함할 수 있다.
"가이드 서열"은 표적 유전자 또는 핵산의 이중 가닥 중 어느 하나 가닥의 일부 서열에 상보적인 뉴클레오타이드서열이며, 이때 상기 가이드 서*은 최소한 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상보성을 가지거나 또는 완전한 상보성을 가지는 뉴클레오타이드서열일 수 있다.
상기 가이드 서열은 10 내지 25개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드 서열은 10 내지 25개의 뉴클레오타이드서열, 15 내지 25개의 뉴클레오타이드서열 또는 20 내지 25개의 뉴클레오타이드서열일 수 있다.
다른 일 예로, 상기 가이드 서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열 또는 20 내지 25개의 뉴클레오타이드서열일 수 있다.
또한, 상기 가이드 도메인은 추가 뉴클레오타이드서열을 더 포함할 수 있다.
상기 추가 뉴클레오타이드서열은 가이드 도메인의 기능 향상 또는 저하를 위한 것일 수 있다.
상기 추가 뉴클레오타이드서열은 가이드 서열의 기능 향상 또는 저하를 위한 것일 수 있다.
상기 추가 뉴클레오타이드서열은 1 내지 10개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 추가 뉴클레오타이드서열은 2내지 10개의 뉴클레오타이드서열, 4 내지 10개의 뉴클레오타이드서열, 6 내지 10개의 뉴클레오타이드서열 또는 8 내지 10개의 뉴클레오타이드서열일 수 있다.
다른 일 예로, 상기 추가 뉴클레오타이드서열은 1 내지 3개의 뉴클레오타이드서열, 3 내지 6개의 뉴클레오타이드서열 또는 7 내지 10개의 뉴클레오타이드서열일 수 있다.
일 구체예로서, 상기 추가 뉴클레오타이드서열은 1개의 뉴클레오타이드서열, 2개의 뉴클레오타이드서열, 3개의 뉴클레오타이드서열, 4개의 뉴클레오타이드서열, 5개의 뉴클레오타이드서열, 6개의 뉴클레오타이드서열, 7개의 뉴클레오타이드서열, 8개의 뉴클레오타이드서열, 9개의 뉴클레오타이드서열 또는 10개의 뉴클레오타이드서열일 수 있다.
예를 들어, 상기 추가 뉴클레오타이드서열은 1개의 뉴클레오타이드서열 G(구아닌)일 수 있으며, 또는 2개의 뉴클레오타이드서열 GG일 수 있다.
상기 추가 뉴클레오타이드서열은 상기 가이드 서열의 5' 말단에 위치할 수 있다.
상기 추가 뉴클레오타이드서열은 상기 가이드 서열의 3' 말단에 위치할 수 있다.
ii) 제 1 상보적 도메인
"제 1 상보적 도메인"은 이하에서 설명하는 제 2 상보적 도메인에 대해 상보적 뉴클레오타이드서열을 포함하는 도메인으로, 제 2 상보적 도메인과 이중가닥을 형성할 수 있을 정도로 상보성을 가진다. 예를 들어, 제 1 상보적 도메인은 제 2 상보적 도메인에 대해 최소한 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상보성을 가지거나 또는 완전한 상보성을 가지는 뉴클레오타이드서열일 수 있다.
상기 제 1 상보적 도메인은 제 2 상보적 도메인과 상보적 결합을 통해 이중가닥을 형성할 수 있다. 이때, 상기 형성된 이중가닥은 에디터단백질의 일부 아미노산과 상호작용하여 가이드핵산-에디터단백질 복합체를 형성하는 역할을 할 수 있다.
상기 제 1 상보적 도메인은 5 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 제 1 상보적 도메인은 5 내지 35개의 뉴클레오타이드서열, 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
다른 일 예로서, 상기 제 1 상보적 도메인은 1 내지 5개의 뉴클레오타이드서열, 5 내지 10개의 뉴클레오타이드서열, 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
iii) 연결 도메인
"연결 도메인"은 두 개 이상의 도메인을 연결하는 뉴클레오타이드서열로, 연결 도메인은 동일한 또는 서로 다른 두 개 이상의 도메인을 연결한다. 연결 도메인은 두 개 이상의 도메인과 공유결합 또는 비공유결합을 할 수 있고, 또는 두 개 이상의 도메인을 공유적 또는 비공유적으로 연결할 수 있다.
상기 연결 도메인은 1 내지 30개의 뉴클레오타이드서열일 수 있다.
일 예로서, 상기 연결 도메인은 1 내지 5개의 뉴클레오타이드서열, 5 내지 10개의 뉴클레오타이드서열, 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열 또는 25 내지 30개의 뉴클레오타이드서열일 수 있다.
다른 일 예로서, 상기 연결 도메인은 1 내지 30개의 뉴클레오타이드서열, 5 내지 30개의 뉴클레오타이드서열, 10 내지 30개의 뉴클레오타이드서열, 15 내지 30개의 뉴클레오타이드서열, 20 내지 30개의 뉴클레오타이드서열 또는 25 내지 30개의 뉴클레오타이드서열일 수 있다.
iv) 제 2 상보적 도메인
"제 2 상보적 도메인"은 전술한 제 1 상보적 도메인과 상보적 핵산서열을 포함하는 뉴클레오타이드서열을 포함하는 도메인으로, 제 1 상보적 도메인과 이중가닥을 형성할 수 있을 정도로 상보성을 가진다. 예를 들어, 제 2 상보적 도메인은 제 1 상보적 도메인에 대해 최소한 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상보성을 가지거나 또는 완전한 상보성을 가지는 뉴클레오타이드서열일 수 있다.
상기 제 2 상보적 도메인은 제 1 상보적 도메인과 상보적 결합을 통해 이중가닥을 형성할 수 있다. 이때, 상기 형성된 이중가닥은 에디터단백질의 일부 아미노산과 상호작용하여 가이드핵산-에디터단백질 복합체를 형성하는 역할을 할 수 있다.
제 2 상보적 도메인은 제 1 상보적 도메인과 상보적 뉴클레오타이드서열 및 제 1 상보적 도메인과의 상보성이 없는 뉴클레오타이드서열, 예를 들어, 제 1 상보적 도메인과 이중가닥을 형성하지 않는 뉴클레오타이드서열을 포함할 수 있으며, 제 1 상보적 도메인보다 뉴클레오타이드서열의 길이가 길 수 있다.
상기 제 2 상보적 도메인은 5 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 제 2 상보적 도메인은 1 내지 35개의 뉴클레오타이드서열, 5 내지 35개의 뉴클레오타이드서열, 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35 뉴클레오타이드서열일 수 있다.
다른 일 예로, 상기 제 2 상보적 도메인은 1 내지 5개의 뉴클레오타이드서열, 5 내지 10개의 뉴클레오타이드서열, 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
v) 근위 도메인(proximal domain)
"근위 도메인"은 제 2 상보적 도메인에 근접하게 위치하는 뉴클레오타이드서열이다.
근위 도메인은 근위 도메인 내의 상보적인 뉴클레오타이드서열을 포함할 수 있으며, 상보적인 뉴클레오타이드서열에 의해 이중가닥을 형성할 수 있다.
상기 근위 도메인은 1 내지 20개의 뉴클레오타이드서열일 수 있다.
일 예로서, 상기 근위 도메인은 1 내지 20개의 뉴클레오타이드서열, 5 내지 20개의 뉴클레오타이드서열, 10 내지 20개의 뉴클레오타이드서열 또는 15 내지 20개의 뉴클레오타이드서열일 수 있다.
다른 일 예로서, 상기 근위 도메인은 1 내지 5개의 뉴클레오타이드서열, 5 내지 10개의 뉴클레오타이드서열, 10 내지 15개의 뉴클레오타이드서열 또는 15 내지 20개의 뉴클레오타이드서열일 수 있다.
vi) 꼬리 도메인
"꼬리 도메인"은 가이드핵산의 양 말단 중 어느 하나 이상의 말단에 위치하는 뉴클레오타이드서열이다.
꼬리 도메인은 꼬리 도메인 내의 상보적인 뉴클레오타이드서열을 포함할 수 있으며, 상보적인 뉴클레오타이드서열에 의해 이중가닥을 형성할 수 있다.
상기 꼬리 도메인은 1 내지 50개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 꼬리 도메인은 5 내지 50개의 뉴클레오타이드서열, 10 내지 50개의 뉴클레오타이드서열, 15 내지 50개의 뉴클레오타이드서열, 20 내지 50개의 뉴클레오타이드서열, 25 내지 50개의 뉴클레오타이드서열, 30 내지 50개의 뉴클레오타이드서열, 35 내지 50개의 뉴클레오타이드서열, 40 내지 50개의 뉴클레오타이드서열 또는 45 내지 50개의 뉴클레오타이드서열일 수 있다.
다른 일 예로, 상기 꼬리 도메인은 1 내지 5개의 뉴클레오타이드서열, 5 내지 10개의 뉴클레오타이드서열, 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열, 30 내지 35개의 뉴클레오타이드서열, 35 내지 40개의 뉴클레오타이드서열, 40 내지 45개의 뉴클레오타이드서열 또는 45 내지 50개의 뉴클레오타이드서열일 수 있다.
한편, 상기 도메인들, 즉, 가이드 도메인, 제 1 상보적 도메인, 연결 도메인, 제 2 상보적 도메인, 근위 도메인 및 꼬리 도메인이 포함하는 핵산 서열의 일부 또는 전부는 선택적 또는 추가적으로 화학적 변형을 포함할 수 있다.
상기 화학적 변형은 methylation, acetylation, phosphorylation, phosphorothioate linkage, locked nucleic acid(LNA), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP)일 수 있으나, 이에 제한되지 않는다.
가이드핵산은 하나 이상의 도메인을 포함한다.
상기 가이드핵산은 가이드 도메인을 포함할 수 있다.
상기 가이드핵산은 제 1 상보적 도메인을 포함할 수 있다.
상기 가이드핵산은 연결 도메인을 포함할 수 있다.
상기 가이드핵산은 제 2 상보적 도메인을 포함할 수 있다.
상기 가이드핵산은 근위 도메인을 포함할 수 있다.
상기 가이드핵산은 꼬리 도메인을 포함할 수 있다.
이때, 상기 도메인의 개수는 1, 2, 3, 4, 5, 6 또는 그 이상일 수 있다.
상기 가이드핵산은 1, 2, 3, 4, 5, 6 또는 그 이상의 가이드 도메인을 포함할 수 있다.
상기 가이드핵산은 1, 2, 3, 4, 5, 6 또는 그 이상의 제 1 상보적 도메인을 포함할 수 있다.
상기 가이드핵산은 1, 2, 3, 4, 5, 6 또는 그 이상의 연결 도메인을 포함할 수 있다.
상기 가이드핵산은 1, 2, 3, 4, 5, 6 또는 그 이상의 제 2 상보적 도메인을 포함할 수 있다.
상기 가이드핵산은 1, 2, 3, 4, 5, 6 또는 그 이상의 근위 도메인을 포함할 수 있다.
상기 가이드핵산은 1, 2, 3, 4, 5, 6 또는 그 이상의 꼬리 도메인을 포함할 수 있다.
이때, 상기 가이드핵산은 하나의 도메인이 중복되어 포함될 수 있다.
상기 가이드핵산은 여러 도메인을 중복 또는 중복시키지 않고 포함할 수 있다.
상기 가이드핵산은 같은 종류의 도메인을 포함할 수 있으며, 이때, 같은 종류의 도메인은 동일한 핵산서열을 가지거나 또는 서로 다른 핵산서열을 가질 수 있다.
상기 가이드핵산은 두 종류의 도메인을 포함할 수 있으며, 이때, 다른 두 종류의 도메인은 서로 다른 핵산서열을 가지거나 또는 동일한 핵산서열을 가질 수 있다.
상기 가이드핵산은 세 종류의 도메인을 포함할 수 있으며, 이때, 다른 세 종류의 도메인은 서로 다른 핵산서열을 가지거나 또는 동일한 핵산서열을 가질 수 있다.
상기 가이드핵산은 네 종류의 도메인을 포함할 수 있으며, 이때, 다른 네 종류의 도메인은 서로 다른 핵산서열을 가지거나 또는 동일한 핵산서열을 가질 수 있다.
상기 가이드핵산은 다섯 종류의 도메인을 포함할 수 있으며, 이때, 다른 다섯 종류의 도메인은 서로 다른 핵산서열을 가지거나 또는 동일한 핵산서열을 가질 수 있다.
상기 가이드핵산은 여섯 종류의 도메인을 포함할 수 있으며, 이때, 다른 여섯 종류의 도메인은 서로 다른 핵산서열을 가지거나 또는 동일한 핵산서열을 가질 수 있다.
예를 들면, 가이드핵산은 [가이드 도메인]-[제 1 상보적 도메인]-[연결 도메인]-[제 2 상보적 도메인]-[연결 도메인]-[가이드 도메인]-[제 1 상보적 도메인]-[연결 도메인]-[제 2 상보적 도메인]으로 구성될 수 있으며, 이때, 두 개의 가이드 도메인은 서로 다른 또는 동일한 표적을 위한 가이드 서열을 포함할 수 있으며, 상기 두 개의 제 1 상보적 도메인과 두 개의 제 2 상보적 도메인 동일한 핵산서열을 가지거나 다른 핵산서열을 가질 수 있다. 가이드 도메인이 서로 다른 표적을 위한 가이드 서열을 포함하는 경우, 상기 가이드핵산은 두 개의 표적에 특이적으로 결합할 수 있으며, 이때, 특이적 결합을 동시에 일어나거나 순차적으로 일어날 수 있다. 또한, 상기 연결 도메인은 특정 효소에 의해 절단될 수 있으며, 특정 효소의 존재 하에서 상기 가이드핵산은 두 부분 또는 세 부분으로 나누어질 수 있다.
본 명세서에 의해 개시되는 내용의 일 구체예로서 고발현 분비 유전자를 조작하기 위한 가이드핵산은 고발현 분비 유전자를 조작하기 위한 가이드 RNA일 수 있다.
가이드 RNA는 생체 외 (in vitro) 전사된(transcribed) 것일 수 있고, 특히 올리고뉴클레오티드 이중가닥 또는 플라스미드 주형으로부터 전사된 것일 수 있으나, 이에 제한되지 않는다.
본원에서 사용된, 용어 "가이드 RNA" 는 표적 DNA에 특이적인 RNA로, Cas 단백질과 복합체를 형성할 수 있고, Cas 단백질을 표적 DNA에 가져오는 RNA를 말한다.
상기 가이드RNA는 다수의 도메인을 포함할 수 있다. 각각의 도메인에 의해 3차원 행태 또는 가이드RNA의 활성 형태의 가닥내 또는 가닥간 상호작용을 할 수 있다.
일 구체예에서, 단일가닥 가이드RNA는 5'으로부터 3' 방향으로 가이드 도메인, 즉 표적 유전자 또는 핵산에 상보적인 결합을 할 수 있는 가이드 서열(guide sequence)를 포함하는 도메인; 제 1 상보적 도메인; 연결 도메인; 제 2 상보적 도메인, 상기 제 1 상보적 도메인 서열에 상보적인 서열을 가지므로 제 1 상보적 도메인과 이중가닥 핵산을 형성할 수 있는 도메인; 근위 도메인(proximal domain); 및 선택적으로 꼬리 도메인을 포함할 수 있다.
다른 일 구체예로서, 이중 가이드RNA는 5'으로부터 3' 방향으로 가이드 도메인, 즉 표적 유전자 또는 핵산에 상보적인 결합을 할 수 있는 가이드 서열(guide sequence)를 포함하는 도메인 및 제 1 상보적 도메인을 포함하는 제 1가닥; 및 제 2 상보적 도메인, 상기 제 1 상보적 도메인 서열에 상보적인 서열을 가지므로 제 1 상보적 도메인과 이중가닥 핵산을 형성할 수 있는 도메인, 근위 도메인(proximal domain); 및 선택적으로 꼬리 도메인을 포함하는 제 2 가닥을 포함할 수 있다.
이때, 상기 제 1가닥은 crRNA라고 지칭될 수 있고, 상기 제 2가닥은 tracrRNA로 지칭될 수 있다. 상기 crRNA는 가이드 도메인과 제 1 상보적 도메인을 포함할 수 있으며, 상기 tracrRNA는 제 2 상보적 도메인, 근위 도메인 및 선택적으로 꼬리 도메인을 포함할 수 있다.
또 다른 일 구체예로서, 단일가닥 가이드RNA는 3'으로부터 5' 방향으로 가이드 도메인, 즉 표적 유전자 또는 핵산에 상보적인 결합을 할 수 있는 가이드 서열(guide sequence)를 포함하는 도메인; 제 1 상보적 도메인; 및 제 2 상보적 도메인, 상기 제 1 상보적 도메인 서열에 상보적인 서열을 가지므로 제 1 상보적 도메인과 이중가닥 핵산을 형성할 수 있는 도메인을 포함할 수 있다.
이때, 상기 제 1 상보적 도메인은 자연유래의 제 1 상보적 도메인과 상동성을 가지거나, 또는 자연유래의 제 1 상보적 도메인으로부터 유래될 수 있다. 또한, 상기 제 1 상보적 도메인은 자연에 존재하는 종에 따라 제 1 상보적 도메인의 뉴클레오타이드서열에 차이가 존재할 수 있으며, 자연에 존재하는 종이 포함하는 제 1 상보적 도메인으로부터 유래될 수 있고, 또는 자연에 존재하는 종이 포함하는 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 수 있다.
일 구체예로서, 상기 제 1 상보적 도메인은 스트렙토코커스 피요게네스(Streptococcus pyogenes), 캄필로박터 제주니(Campylobacter jejuni), 스트렙토코커스 써모필러스(Streptococcus thermophiles), 스타필로코커스 아우레우스(Staphylococcus aureus) 또는 네이세리아 메닝기디티스(Neisseria meningitides)의 제 1 상보적 도메인 또는 유래된 제 1 상보적 도메인과 일부, 최소 50%이상, 또는 완전한 상동성을 가질 수 있다.
예를 들어, 상기 제 1 상보적 도메인이 스트렙토코커스 피요게네스의 제 1 상보적 도메인 또는 스트렙토코커스 피요게네스 유래 제 1 상보적 도메인인 경우, 상기 제 1 상보적 도메인은 5'-GUUUUAGAGCUA-3'일 수 있고, 또는 5'-GUUUUAGAGCUA-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 제 1 상보적 도메인은 추가로 (X)n을 포함, 즉, 5'-GUUUUAGAGCUA(X)n-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 5 내지 15의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
또 다른 예를 들어, 상기 제 1 상보적 도메인이 캄필로박터 제주니의 제 1 상보적 도메인 또는 캄필로박터 제주니 유래 제 1 상보적 도메인인 경우, 상기 제 1 상보적 도메인은 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3' 또는 5'-GUUUUAGUCCCUU-3'일 수 있고, 또는 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3' 또는 5'-GUUUUAGUCCCUU-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 제 1 상보적 도메인은 추가로 (X)n을 포함, 즉, 5'-GUUUUAGUCCCUUUUUAAAUUUCUU(X)n-3' 또는 5'-GUUUUAGUCCCUU(X)n-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 5 내지 15의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예로서, 상기 제 1 상보적 도메인은 팔쿠박테리아 박테리움(Parcubacteria bacterium (GWC2011_GWC2_44_17)), 라츠노스피라세애 박테리움(Lachnospiraceae bacterium (MC2017)), 부티리비브리오 프로테오클라시커스(Butyrivibrio proteoclasiicus), 페레그리니박테리아 박테리움(Peregrinibacteria bacterium (GW2011_GWA_33_10)), 액시다미노코커스 에스피(Acidaminococcus sp. (BV3L6)), 포르피로모나스 마카캐(Porphyromonas macacae), 라츠노피라세애 박테리움(Lachnospiraceae bacterium (ND2006)), 포르피로모나스 크레비오리카니스(Porphyromonas crevioricanis), 프레보텔라 디이엔스(Prevotella disiens), 모라셀라 보보쿨리(Moraxella bovoculi (237)), 스미이헬라 에스피(Smiihella sp. (SC_KO8D17)), 렙포스피라 이나다이(Leptospira inadai), 라츠노스피라세애 박테리움(Lachnospiraceae bacterium (MA2020)), 프란시셀라 노비시다(Francisella novicida (U112)), 캔디다투스 메타노플라즈마 털미툼(Candidatus Methanoplasma termitum) 또는 에유박테리움 엘리겐스(Eubacterium eligens)의 제 1 상보적 도메인 또는 유래된 제 1 상보적 도메인과 일부, 최소 50%이상, 또는 완전한 상동성을 가질 수 있다.
예를 들어, 상기 제 1 상보적 도메인이 팔쿠박테리아 박테리움의 제 1 상보적 도메인 또는 팔쿠박테리아 박테리움 유래 제 1 상보적 도메인인 경우, 상기 제 1 상보적 도메인은 5'-UUUGUAGAU-3' 일 수 있고, 또는 5'-UUUGUAGAU-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 제 1 상보적 도메인은 추가로 (X)n을 포함, 즉, 5'-(X)nUUUGUAGAU-3' 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 1 내지 5의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
이때, 상기 연결 도메인은 제 1 상보적 도메인과 제 2 상보적 도메인을 연결하는 역할을 하는 뉴클레오타이드서열일 수 있다.
상기 연결 도메인은 제 1 상보적 도메인 및 제 2 상보적 도메인과 각각 공유결합 또는 비공유결합을 할 수 있다.
상기 연결 도메인은 제 1 상보적 도메인과 제 2 상보적 도메인을 공유적 또는 비공유적으로 연결할 수 있다.
상기 연결 도메인은 단일가닥 가이드RNA 분자에 사용하기에 적합하며, 이중 가이드RNA의 제 1 가닥 및 제 2 가닥과 공유결합 또는 비공유결합 하거나, 또는 제 1 가닥 및 제 2 가닥을 공유적 또는 비공유적으로 연결하여 단일가닥 가이드RNA을 생성에 사용될 수 있다.
상기 연결 도메인은 이중 가이드RNA의 crRNA 및 tracrRNA과 공유결합 또는 비공유결합 하거나, 또는 crRNA 및 tracrRNA를 공유적 또는 비공유적으로 연결하여 단일가닥 가이드RNA를 생성에 사용될 수 있다.
이때, 상기 제 2 상보적 도메인은 자연유래의 제 2 상보적 도메인과 상동성을 가지거나, 또는 자연유래의 제 2 상보적 도메인으로부터 유래될 수 있다. 또한, 상기 제 2 상보적 도메인은 자연에 존재하는 종에 따라 제 2 상보적 도메인의 뉴클레오타이드서열에 차이가 존재할 수 있으며, 자연에 존재하는 종이 포함하는 제 2 상보적 도메인으로부터 유래될 수 있고, 또는 자연에 존재하는 종이 포함하는 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 수 있다.
일 구체예로서, 상기 제 2 상보적 도메인은 스트렙토코커스 피요게네스(Streptococcus pyogenes), 캄필로박터 제주니(Campylobacter jejuni), 스트렙토코커스 써모필러스(Streptococcus thermophiles), 스타필로코커스 아우레우스(Staphylococcus aureus) 또는 네이세리아 메닝기디티스(Neisseria meningitides)의 제 2 상보적 도메인 또는 유래된 제 2 상보적 도메인과 일부, 최소 50%이상, 또는 완전한 상동성을 가질 수 있다.
예를 들어, 상기 제 2 상보적 도메인이 스트렙토코커스 피요게네스의 제 2 상보적 도메인 또는 스트렙토코커스 피요게네스 유래 제 2 상보적 도메인인 경우, 상기 제 2 상보적 도메인은 5'-UAGCAAGUUAAAAU-3'일 수 있고, 또는 5'-UAGCAAGUUAAAAU-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다(밑줄 표시는 제 1 상보적 도메인과 이중가닥을 형성하는 뉴클레오타이드서열). 이때, 상기 제 2 상보적 도메인은 추가로 (X)n 또는/및 (X)m을 포함, 즉, 5'-(X)n UAGCAAGUUAAAAU(X)m-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n 및 m은 뉴클레오타이드서열의 개수로, 상기 n은 1 내지 15의 정수일 수 있고, 상기 m은 1 내지 6일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다. 또한 (X)m은 동일한 뉴클레오타이드서열의 정수 m개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 m개의 뉴클레오타이드서열일 수 있다.
또 다른 예를 들어, 상기 제 2 상보적 도메인이 캄필로박터 제주니의 제 2 상보적 도메인 또는 캄필로박터 제주니 유래 제 2 상보적 도메인인 경우, 상기 제 2 상보적 도메인은 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3' 또는 5'-AAGGGACUAAAAU-3'일 수 있고, 또는 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3' 또는 5'-AAGGGACUAAAAU-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다(밑줄 표시는 제 1 상보적 도메인과 이중가닥을 형성하는 뉴클레오타이드서열). 이때, 상기 제 2 상보적 도메인은 추가로 (X)n 또는/및 (X)m을 포함, 즉, 5'-(X)n AAGAAAUUUAAAAAGGGACUAAAAU(X)m-3' 또는 5'-(X)n AAGGGACUAAAAU(X)m-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 1 내지 15의 정수일 수 있고, 상기 m은 1 내지 6일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다. 또한 (X)m은 동일한 뉴클레오타이드서열의 정수 m개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 m개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예로서, 상기 제 2 상보적 도메인은 팔쿠박테리아 박테리움(Parcubacteria bacterium (GWC2011_GWC2_44_17)), 라츠노스피라세애 박테리움(Lachnospiraceae bacterium (MC2017)), 부티리비브리오 프로테오클라시커스(Butyrivibrio proteoclasiicus), 페레그리니박테리아 박테리움(Peregrinibacteria bacterium (GW2011_GWA_33_10)), 액시다미노코커스 에스피(Acidaminococcus sp. (BV3L6)), 포르피로모나스 마카캐(Porphyromonas macacae), 라츠노피라세애 박테리움(Lachnospiraceae bacterium (ND2006)), 포르피로모나스 크레비오리카니스(Porphyromonas crevioricanis), 프레보텔라 디이엔스(Prevotella disiens), 모라셀라 보보쿨리(Moraxella bovoculi (237)), 스미이헬라 에스피(Smiihella sp. (SC_KO8D17)), 렙포스피라 이나다이(Leptospira inadai), 라츠노스피라세애 박테리움(Lachnospiraceae bacterium (MA2020)), 프란시셀라 노비시다(Francisella novicida (U112)), 캔디다투스 메타노플라즈마 털미툼(Candidatus Methanoplasma termitum) 또는 에유박테리움 엘리겐스(Eubacterium eligens)의 제 2 상보적 도메인 또는 유래된 제 2 상보적 도메인과 일부, 최소 50%이상, 또는 완전한 상동성을 가질 수 있다.
예를 들어, 상기 제 2 상보적 도메인이 팔쿠박테리아 박테리움의 제 2 상보적 도메인 또는 팔쿠박테리아 박테리움 유래 제 2 상보적 도메인인 경우, 상기 제 2 상보적 도메인은 5'-AAAUUUCUACU-3' 일 수 있고, 또는 5'-AAAUUUCUACU-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다(밑줄 표시는 제 1 상보적 도메인과 이중가닥을 형성하는 뉴클레오타이드서열). 이때, 상기 제 2 상보적 도메인은 추가로 (X)n 또는/및 (X)m을 포함, 즉, 5'-(X)nAAAUUUCUACU (X)m-3' 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n 및 m은 뉴클레오타이드서열의 개수로, 상기 n은 1 내지 10의 정수일 수 있고, 상기 m은 1 내지 6일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다. 또한 (X)m은 동일한 뉴클레오타이드서열의 정수 m개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 m개의 뉴클레오타이드서열일 수 있다.
이때, 상기 제 1 상보적 도메인과 상기 제 2 상보적 도메인은 상보적 결합을 할 수 있다.
상기 제 1 상보적 도메인과 상기 제 2 상보적 도메인은 상기 상보적 결합을 통해 이중가닥을 형성할 수 있다.
상기 형성된 이중가닥은 CRISPR 효소와 상호작용할 수 있다.
선택적으로, 상기 제 1 상보적 도메인은 제 2 가닥의 제 2 상보적 도메인과 상보적 결합을 하지않는 추가 뉴클레오타이드서열을 포함할 수 있다.
이때, 상기 추가 뉴클레오타이드서열은 1 내지 15개의 뉴클레오타이드서열일 수 있다. 예를 들어, 상기 추가 뉴클레오타이드서열은 1 내지 5개의 뉴클레오타이드서열, 5 내지 10개의 뉴클레오타이드서열, 또는 10 내지 15개의 뉴클레오타이드서열일 수 있다.
이때, 상기 근위 도메인은 제 2 상보적 도메인의 3' 방향에 위치하는 도메인일 수 있다.
상기 근위 도메인은 자연유래의 근위 도메인과 상동성을 가지거나, 또는 자연유래의 근위 도메인으로부터 유래될 수 있다. 또한, 상기 근위 도메인은 자연에 존재하는 종에 따라 근위 도메인의 뉴클레오타이드서열에 차이가 존재할 수 있으며, 자연에 존재하는 종이 포함하는 근위 도메인으로부터 유래될 수 있고, 또는 자연에 존재하는 종이 포함하는 근위 도메인과 일부 또는 완전한 상동성을 가질 수 있다.
일 구체예로서, 상기 근위 도메인은 스트렙토코커스 피요게네스(Streptococcus pyogenes), 캄필로박터 제주니(Campylobacter jejuni), 스트렙토코커스 써모필러스(Streptococcus thermophiles), 스타필로코커스 아우레우스(Staphylococcus aureus) 또는 네이세리아 메닝기디티스(Neisseria meningitides)의 근위 도메인 또는 유래된 근위 도메인과 일부, 최소 50%이상, 또는 완전한 상동성을 가질 수 있다.
예를 들어, 상기 근위 도메인이 스트렙토코커스 피요게네스의 근위 도메인 또는 스트렙토코커스 피요게네스 유래 근위 도메인인 경우, 상기 근위 도메인은 5'-AAGGCUAGUCCG-3'일 수 있고, 또는 5'-AAGGCUAGUCCG-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 근위 도메인은 추가로 (X)n을 포함, 즉, 5'-AAGGCUAGUCCG(X)n-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 1 내지 15의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
또 다른 예를 들어, 상기 근위 도메인이 캄필로박터 제주니의 근위 도메인 또는 캄필로박터 제주니 유래 근위 도메인인 경우, 상기 근위 도메인은 5'-AAAGAGUUUGC-3'일 수 있고, 또는 5'-AAAGAGUUUGC-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 근위 도메인은 추가로 (X)n을 포함, 즉, 5'-AAAGAGUUUGC(X)n-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 1 내지 40의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
이때, 상기 꼬리 도메인은 단일가닥 가이드RNA 또는 이중 가이드RNA의 제 1 가닥 또는 제 2 가닥의 3' 말단에 선택적으로 추가될 수 있다.
상기 꼬리 도메인은 자연유래의 꼬리 도메인과 상동성을 가지거나, 또는 자연유래의 꼬리 도메인으로부터 유래될 수 있다. 또한, 상기 꼬리 도메인은 자연에 존재하는 종에 따라 꼬리 도메인의 뉴클레오타이드서열에 차이가 존재할 수 있으며, 자연에 존재하는 종이 포함하는 꼬리 도메인으로부터 유래될 수 있고, 또는 자연에 존재하는 종이 포함하는 꼬리 도메인과 일부 또는 완전한 상동성을 가질 수 있다.
일 구체예로서, 상기 꼬리 도메인은 스트렙토코커스 피요게네스(Streptococcus pyogenes), 캄필로박터 제주니(Campylobacter jejuni), 스트렙토코커스 써모필러스(Streptococcus thermophiles), 스타필로코커스 아우레우스(Staphylococcus aureus) 또는 네이세리아 메닝기디티스(Neisseria meningitides)의 꼬리 도메인 또는 유래된 꼬리 도메인과 일부, 최소 50%이상, 또는 완전한 상동성을 가질 수 있다.
예를 들어, 상기 꼬리 도메인이 스트렙토코커스 피요게네스의 꼬리 도메인 또는 스트렙토코커스 피요게네스 유래 꼬리 도메인인 경우, 상기 꼬리 도메인은 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'일 수 있고, 또는 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 꼬리 도메인은 추가로 (X)n을 포함, 즉, 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(X)n-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 1 내지 15의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
또 다른 예를 들어, 상기 꼬리 도메인이 캄필로박터 제주니의 꼬리 도메인 또는 캄필로박터 제주니 유래 꼬리 도메인인 경우, 상기 꼬리 도메인은 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'일 수 있고, 또는 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'와 일부, 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다. 이때, 상기 꼬리 도메인은 추가로 (X)n을 포함, 즉, 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU(X)n-3', 할 수 있다. 상기 X는 뉴클레오타이드 A, T, U 및 G로 이루어진 군에서 선택될 수 있으며, 상기 n은 뉴클레오타이드서열의 개수로, 1 내지 15의 정수일 수 있다. 이때, (X)n은 동일한 뉴클레오타이드서열의 정수 n개만큼의 반복일 수 있고, 또는 뉴클레오타이드 A, T, U 및 G가 혼합된 정수 n개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예에서, 상기 꼬리 도메인은 시험관내 또는 생체내 전사 방법과 관련된 3' 말단에 1 내지 10개의 뉴클레오타이드서열을 포함할 수 있다.
예를 들어, T7 프로모터가 가이드RNA의 시험관내 전사를 위해 사용될 때, 상기 꼬리 도메인은 DNA 주형의 3' 말단에 존재하는 임의의 뉴클레오타이드서열일 수 있다. 또한, U6 프로모터가 생체내 전사를 위해 사용되는 경우, 상기 꼬리 도메인은 UUUUUU일 수 있으며, H1 프로모터가 전사를 위해 사용되는 경우, 상기 꼬리 도메인은 UUUU일 수 있고, pol-III 프로모터를 사용하는 경우에는, 상기 꼬리 도메인은 여러 개의 우라실 뉴클레오타이드거나 또는 대안 될 수 있는 뉴클레오타이드를 포함할 수 있다.
가이드RNA는 상기에 기재된 바와 같이 다수의 도메인을 포함할 수 있어, 가이드RNA가 포함하는 도메인의 종류 및 개수에 따라 핵산 서열의 길이를 조절할 수 있으며, 각각의 도메인에 의해 3차원 형태 또는 가이드RNA의 활성 형태의 가닥내 또는 가닥간 상호작용을 할 수 있다.
가이드RNA는 단일가닥 가이드RNA(단일 RNA 분자); 또는 이중 가이드RNA(하나 초과의 통상적으로 2개의 별개의 RNA 분자를 포함함)로서 지칭될 수 있다.
이중 가이드RNA
이중 가이드RNA는 제 1 가닥 및 제 2 가닥으로 구성된다.
이때, 상기 제 1 가닥은
5'-[가이드 도메인]-[제 1 상보적 도메인]-3'으로 구성될 수 있고,
상기 제 2 가닥은
5'-[제 2 상보적 도메인]-[근위 도메인(proximal domain)]-3' 또는
5'-[제 2 상보적 도메인]-[근위 도메인(proximal domain)]-[꼬리 도메인]-3'으로 구성될 수 있다.
이때, 상기 제 1가닥은 crRNA라고 지칭될 수 있고, 상기 제 2가닥은 tracrRNA로 지칭될 수 있다.
이때, 상기 제 1가닥 및 제 2가닥은 선택적으로 추가적인 뉴클레오타이드서열을 포함할 수 있다.
일 구체예로서, 상기 제 1 가닥은
5'-(Ntarget)-(Q)m-3'; 또는
5'-(X)a-(Ntarget)-(X)b-(Q)m-(X)c-3'일 수 있다.
이때, 상기 Ntarget은 표적 유전자 또는 핵산의 이중 가닥 중 어느 하나 가닥의 일부 서열에 상보적인 뉴클레오타이드서열로서, 상기 Ntarget은 표적 유전자 또는 핵산 상의 표적서열에 따라 변할 수 있는 뉴클레오타이드서열 부위이다.
이때, 상기 (Q)m은 제 1 상보적 도메인을 포함하는 뉴클레오타이드서열로, 제 2 가닥의 제 2 상보적 도메인과 상보적 결합을 할 수 있는 뉴클레오타이드서열을 포함한다. 상기 (Q)m은 자연에 존재하는 종의 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 제 1 상보적 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 Q는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 m은 뉴클레오타이드서열의 개수로, 5 내지 35의 정수일 수 있다.
예를 들어, 상기 제 1 상보적 도메인이 스트렙토코커스 피요게네스의 제 1 상보적 도메인 또는 스트렙토코커스 피요게네스 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-GUUUUAGAGCUA-3'일 수 있고, 또는 5'-GUUUUAGAGCUA-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 제 1 상보적 도메인이 캄필로박터 제주니의 제 1 상보적 도메인 또는 캄필로박터 제주니 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3' 또는 5'-GUUUUAGUCCCUU-3'일 수 있고, 또는 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3' 또는 5'-GUUUUAGUCCCUU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 제 1 상보적 도메인이 스트렙토코커스 써모필러스의 제 1 상보적 도메인 또는 스트렙토코커스 써모필러스 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-GUUUUAGAGCUGUGUUGUUUCG-3'일 수 있고, 또는 5'-GUUUUAGAGCUGUGUUGUUUCG-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또한, 상기 (X)a, (X)b 및 (X)c는 선택적으로 추가할 수 있는 뉴클레오타이드서열로, 상기 X는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 a, b 및 c는 뉴클레오타이드서열의 개수로, 0 또는 1 내지 20의 정수일 수 있다.
일 구체예로서, 상기 제 2 가닥은
5'-(Z)h-(P)k-3'; 또는
5'-(X)d-(Z)h-(X)e-(P)k-(X)f-3' 일 수 있다.
다른 일 구체예로서, 상기 제 2 가닥은
5'-(Z)h-(P)k-(F)i-3'; 또는
5'-(X)d-(Z)h-(X)e-(P)k-(X)f-(F)i-3' 일 수 있다.
이때, 상기 (Z)h는 제 2 상보적 도메인을 포함하는 뉴클레오타이드서열로, 제 1 가닥의 제 1 상보적 도메인과 상보적 결합을 할 수 있는 뉴클레오타이드서열을 포함한다. 상기 (Z)h은 자연에 존재하는 종의 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 제 2 상보적 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 Z는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 h은 뉴클레오타이드서열의 개수로, 5 내지 50의 정수일 수 있다.
예를 들어, 상기 제 2 상보적 도메인이 스트렙토코커스 피요게네스의 제 2 상보적 도메인 또는 스트렙토코커스 피요게네스 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-UAGCAAGUUAAAAU-3'일 수 있고, 또는 5'-UAGCAAGUUAAAAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 제 2 상보적 도메인이 캄필로박터 제주니의 제 2 상보적 도메인 또는 캄필로박터 제주니 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3' 또는 5'-AAGGGACUAAAAU-3'일 수 있고, 또는 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3' 또는 5'-AAGGGACUAAAAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 제 2 상보적 도메인이 스트렙토코커스 써모필러스의 제 2 상보적 도메인 또는 스트렙토코커스 써모필러스 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-CGAAACAACACAGCGAGUUAAAAU-3'일 수 있고, 또는 5'-CGAAACAACACAGCGAGUUAAAAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
상기 (P)k는 근위 도메인을 포함하는 뉴클레오타이드서열로, 자연에 존재하는 종의 근위 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 근위 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 P는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 k은 뉴클레오타이드서열의 개수로, 1 내지 20의 정수일 수 있다.
예를 들어, 상기 근위 도메인이 스트렙토코커스 피요게네스의 근위 도메인 또는 스트렙토코커스 피요게네스 유래 근위 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (P)k는 5'-AAGGCUAGUCCG-3'일 수 있고, 또는 5'-AAGGCUAGUCCG-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 근위 도메인이 캄필로박터 제주니의 근위 도메인 또는 캄필로박터 제주니 유래 근위 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (P)k는 5'-AAAGAGUUUGC-3'일 수 있고, 또는 5'-AAAGAGUUUGC-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 근위 도메인이 스트렙토코커스 써모필러스의 근위 도메인 또는 스트렙토코커스 써모필러스 유래 근위 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (P)k는 5'-AAGGCUUAGUCCG-3'일 수 있고, 또는 5'-AAGGCUUAGUCCG-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
상기 (F)i는 꼬리 도메인을 포함하는 뉴클레오타이드서열로, 자연에 존재하는 종의 꼬리 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 꼬리 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 F는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 i은 뉴클레오타이드서열의 개수로, 1 내지 50의 정수일 수 있다.
예를 들어, 상기 꼬리 도메인이 스트렙토코커스 피요게네스의 꼬리 도메인 또는 스트렙토코커스 피요게네스 유래 꼬리 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (F)i는 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'일 수 있고, 또는 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 꼬리 도메인이 캄필로박터 제주니의 꼬리 도메인 또는 캄필로박터 제주니 유래 꼬리 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (F)i는 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'일 수 있고, 또는 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 꼬리 도메인이 스트렙토코커스 써모필러스의 꼬리 도메인 또는 스트렙토코커스 써모필러스 유래 꼬리 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (F)i는 5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'일 수 있고, 또는 5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또한, 상기 (F)i는 시험관내 또는 생체내 전사 방법과 관련된 3' 말단에 1 내지 10개의 뉴클레오타이드서열을 포함할 수 있다.
예를 들어, T7 프로모터가 가이드RNA의 시험관내 전사를 위해 사용될 때, 상기 꼬리 도메인은 DNA 주형의 3' 말단에 존재하는 임의의 뉴클레오타이드서열일 수 있다. 또한, U6 프로모터가 생체내 전사를 위해 사용되는 경우, 상기 꼬리 도메인은 UUUUUU일 수 있으며, H1 프로모터가 전사를 위해 사용되는 경우, 상기 꼬리 도메인은 UUUU일 수 있고, pol-III 프로모터를 사용하는 경우에는, 상기 꼬리 도메인은 여러 개의 우라실 뉴클레오타이드거나 또는 대안될 수 있는 뉴클레오타이드를 포함할 수 있다.
또한, 상기 (X)d, (X)e 및 (X)f는 선택적으로 추가할 수 있는 뉴클레오타이드서열로, 상기 X는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 d, e 및 f는 뉴클레오타이드서열의 개수로, 0 또는 1 내지 20의 정수일 수 있다.
단일가닥 가이드RNA
단일가닥 가이드RNA는 제 1 단일가닥 가이드RNA 및 제 2 단일가닥 가이드RNA로 나뉠 수 있다.
제 1 단일가닥 가이드RNA
제 1 단일가닥 가이드RNA는 상기 이중 가이드RNA의 제 1 가닥과 제 2 가닥을 연결 도메인으로 연결한 단일가닥 가이드RNA이다.
구체적으로, 상기 단일가닥 가이드RNA는
5'-[가이드 도메인]-[제 1 상보적 도메인]-[연결 도메인]-[제 2 상보적 도메인]-3',
5'-[가이드 도메인]-[제 1 상보적 도메인]-[연결 도메인]-[제 2 상보적 도메인]-[근위 도메인(proximal domain)]-3' 또는
5'-[가이드 도메인]-[제 1 상보적 도메인]-[연결 도메인]-[제 2 상보적 도메인]-[근위 도메인(proximal domain)]-[꼬리 도메인]-3'으로 구성될 수 있다.
상기 제 1 단일가닥 가이드RNA는 선택적으로 추가적인 뉴클레오타이드서열을 포함할 수 있다.
일 구체예로서, 상기 제 1 단일가닥 가이드RNA는
5'-(Ntarget)-(Q)m-(L)j-(Z)h-3';
5'-(Ntarget)-(Q)m-(L)j-(Z)h-(P)k-3'; 또는
5'-(Ntarget)-(Q)m-(L)j-(Z)h-(P)k-(F)i-3'일 수 있다.
다른 일 구체예로서, 상기 단일가닥 가이드RNA는
5'-(X)a-(Ntarget)-(X)b-(Q)m-(X)c-(L)j-(X)d-(Z)h-(X)e-3';
5'-(X)a-(Ntarget)-(X)b-(Q)m-(X)c-(L)j-(X)d-(Z)h-(X)e-(P)k-(X)f-3'; 또는
5'-(X)a-(Ntarget)-(X)b-(Q)m-(X)c-(L)j-(X)d-(Z)h-(X)e-(P)k-(X)f-(F)i-3'일 수 있다.
이때, 상기 Ntarget은 표적 유전자 또는 핵산의 이중 가닥 중 어느 하나 가닥의 일부 서열에 상보적인 뉴클레오타이드서열로서, 상기 Ntarget은 표적 유전자 또는 핵산 상의 표적서열에 따라 변할 수 있는 뉴클레오타이드서열 부위이다.
상기 (Q)m은 제 1 상보적 도메인을 포함하는 뉴클레오타이드서열로, 제 2 상보적 도메인과 상보적 결합을 할 수 있는 뉴클레오타이드서열을 포함한다. 상기 (Q)m은 자연에 존재하는 종의 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 제 1 상보적 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 Q는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 m은 뉴클레오타이드서열의 개수로, 5 내지 35의 정수일 수 있다.
예를 들어, 상기 제 1 상보적 도메인이 스트렙토코커스 피요게네스의 제 1 상보적 도메인 또는 스트렙토코커스 피요게네스 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-GUUUUAGAGCUA-3'일 수 있고, 또는 5'-GUUUUAGAGCUA-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 제 1 상보적 도메인이 캄필로박터 제주니의 제 1 상보적 도메인 또는 캄필로박터 제주니 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3' 또는 5'-GUUUUAGUCCCUU-3' 일 수 있고, 또는 5'-GUUUUAGUCCCUUUUUAAAUUUCUU-3' 또는 5'-GUUUUAGUCCCUU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 제 1 상보적 도메인이 스트렙토코커스 써모필러스의 제 1 상보적 도메인 또는 스트렙토코커스 써모필러스 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-GUUUUAGAGCUGUGUUGUUUCG-3'일 수 있고, 또는 5'-GUUUUAGAGCUGUGUUGUUUCG-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또한, 상기 (L)j는 연결 도메인을 포함하는 뉴클레오타이드서열로, 제 1 상보적 도메인과 제 2 상보적 도메인을 연결하여 단일가닥 가이드RNA을 생성할 수 있도록 하는 뉴클레오타이드서열이다. 이때, 상기 L은 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 j은 뉴클레오타이드서열의 개수로, 1 내지 30의 정수일 수 있다.
상기 (Z)h는 제 2 상보적 도메인을 포함하는 뉴클레오타이드서열로, 제 1 상보적 도메인과 상보적 결합을 할 수 있는 뉴클레오타이드서열을 포함한다. 상기 (Z)h은 자연에 존재하는 종의 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 제 2 상보적 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 Z는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 h은 뉴클레오타이드서열의 개수로, 5 내지 50의 정수일 수 있다.
예를 들어, 상기 제 2 상보적 도메인이 스트렙토코커스 피요게네스의 제 2 상보적 도메인 또는 스트렙토코커스 피요게네스 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-UAGCAAGUUAAAAU-3'일 수 있고, 또는 5'-UAGCAAGUUAAAAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 제 2 상보적 도메인이 캄필로박터 제주니의 제 2 상보적 도메인 또는 캄필로박터 제주니 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3' 또는 5'-AAGGGACUAAAAU-3'일 수 있고, 또는 5'-AAGAAAUUUAAAAAGGGACUAAAAU-3' 또는 5'-AAGGGACUAAAAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 제 2 상보적 도메인이 스트렙토코커스 써모필러스의 제 2 상보적 도메인 또는 스트렙토코커스 써모필러스 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-CGAAACAACACAGCGAGUUAAAAU-3'일 수 있고, 또는 5'-CGAAACAACACAGCGAGUUAAAAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
상기 (P)k는 근위 도메인을 포함하는 뉴클레오타이드서열로, 자연에 존재하는 종의 근위 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 근위 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 P는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 k은 뉴클레오타이드서열의 개수로, 1 내지 20의 정수일 수 있다.
예를 들어, 상기 근위 도메인이 스트렙토코커스 피요게네스의 근위 도메인 또는 스트렙토코커스 피요게네스 유래 근위 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (P)k는 5'-AAGGCUAGUCCG-3'일 수 있고, 또는 5'-AAGGCUAGUCCG-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 근위 도메인이 캄필로박터 제주니의 근위 도메인 또는 캄필로박터 제주니 유래 근위 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (P)k는 5'-AAAGAGUUUGC-3'일 수 있고, 또는 5'-AAAGAGUUUGC-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 근위 도메인이 스트렙토코커스 써모필러스의 근위 도메인 또는 스트렙토코커스 써모필러스 유래 근위 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (P)k는 5'-AAGGCUUAGUCCG-3'일 수 있고, 또는 5'-AAGGCUUAGUCCG-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
상기 (F)i는 꼬리 도메인을 포함하는 뉴클레오타이드서열로, 자연에 존재하는 종의 꼬리 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 꼬리 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 F는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 i은 뉴클레오타이드서열의 개수로, 1 내지 50의 정수일 수 있다.
예를 들어, 상기 꼬리 도메인이 스트렙토코커스 피요게네스의 꼬리 도메인 또는 스트렙토코커스 피요게네스 유래 꼬리 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (F)i는 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'일 수 있고, 또는 5'-UUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 꼬리 도메인이 캄필로박터 제주니의 꼬리 도메인 또는 캄필로박터 제주니 유래 꼬리 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (F)i는 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'일 수 있고, 또는 5'-GGGACUCUGCGGGGUUACAAUCCCCUAAAACCGCUUUU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또 다른 예로, 상기 꼬리 도메인이 스트렙토코커스 써모필러스의 꼬리 도메인 또는 스트렙토코커스 써모필러스 유래 꼬리 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (F)i는 5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'일 수 있고, 또는 5'-UACUCAACUUGAAAAGGUGGCACCGAUUCGGUGUUUUU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또한, 상기 (F)i는 시험관내 또는 생체내 전사 방법과 관련된 3' 말단에 1 내지 10개의 뉴클레오타이드서열을 포함할 수 있다.
예를 들어, T7 프로모터가 가이드RNA의 시험관내 전사를 위해 사용될 때, 상기 꼬리 도메인은 DNA 주형의 3' 말단에 존재하는 임의의 뉴클레오타이드서열일 수 있다. 또한, U6 프로모터가 생체내 전사를 위해 사용되는 경우, 상기 꼬리 도메인은 UUUUUU일 수 있으며, H1 프로모터가 전사를 위해 사용되는 경우, 상기 꼬리 도메인은 UUUU일 수 있고, pol-III 프로모터를 사용하는 경우에는, 상기 꼬리 도메인은 여러 개의 우라실 뉴클레오타이드거나 또는 대안될 수 있는 뉴클레오타이드를 포함할 수 있다.
또한, 상기 (X)a, (X)b, (X)c, (X)d, (X)e 및 (X)f는 선택적으로 추가할 수 있는 뉴클레오타이드서열로, 상기 X는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 a, b, c, d, e 및 f는 뉴클레오타이드서열의 개수로, 0 또는 1 내지 20의 정수일 수 있다.
제 2 단일가닥 가이드RNA
제 2 단일가닥 가이드RNA는 가이드 도메인, 제 1 상보적 도메인 및 제 2 상보적 도메인으로 구성되는 단일가닥 가이드RNA일 수 있다.
이때, 상기 제 2 단일가닥 가이드RNA는
5'-[제 2 상보적 도메인]-[제 1 상보적 도메인]-[가이드 도메인]-3'; 또는
5'-[제 2 상보적 도메인]-[연결 도메인]-[제 1 상보적 도메인]-[가이드 도메인]-3'으로 구성될 수 있다.
상기 제 2 단일가닥 가이드RNA는 선택적으로 추가적인 뉴클레오타이드서열을 포함할 수 있다.
일 구체예로서, 상기 제 2 단일가닥 가이드RNA는
5'-(Z)h-(Q)m-(Ntarget)-3'; 또는
5'-(X)a-(Z)h-(X)b-(Q)m-(X)c-(Ntarget)-3'일 수 있다.
다른 일 구체예로서, 상기 단일가닥 가이드RNA는
5'-(Z)h-(L)j-(Q)m-(Ntarget)-3'; 또는
5'-(X)a-(Z)h-(L)j-(Q)m-(X)c-(Ntarget)-3'일 수 있다.
이때, 상기 Ntarget은 표적 유전자 또는 핵산의 이중 가닥 중 어느 하나 가닥의 일부 서열에 상보적인 뉴클레오타이드서열로서, 상기 Ntarget은 표적 유전자 또는 핵산 상의 표적서열에 따라 변할 수 있는 뉴클레오타이드서열 부위이다.
상기 (Q)m은 제 1 상보적 도메인을 포함하는 뉴클레오타이드서열로, 제 2 상보적 도메인과 상보적 결합을 할 수 있는 뉴클레오타이드서열을 포함한다. 상기 (Q)m은 자연에 존재하는 종의 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 제 1 상보적 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 Q는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 m은 뉴클레오타이드서열의 개수로, 5 내지 35의 정수일 수 있다.
예를 들어, 상기 제 1 상보적 도메인이 팔쿠박테리아 박테리움의 제 1 상보적 도메인 또는 팔쿠박테리아 박테리움 유래 제 1 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Q)m은 5'-UUUGUAGAU-3'일 수 있고, 또는 5'-UUUGUAGAU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
상기 (Z)h는 제 2 상보적 도메인을 포함하는 뉴클레오타이드서열로, 제 1 상보적 도메인과 상보적 결합을 할 수 있는 뉴클레오타이드서열을 포함한다. 상기 (Z)h은 자연에 존재하는 종의 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가지는 서열일 수 있으며, 유래된 종에 따라 상기 제 2 상보적 도메인의 뉴클레오타이드서열은 변경될 수 있다. 상기 Z는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 h은 뉴클레오타이드서열의 개수로, 5 내지 50의 정수일 수 있다.
예를 들어, 상기 제 2 상보적 도메인이 팔쿠박테리아 박테리움의 제 2 상보적 도메인 또는 팔쿠박테리아 박테리움 유래 제 2 상보적 도메인과 일부 또는 완전한 상동성을 가질 경우에, 상기 (Z)h은 5'-AAAUUUCUACU-3'일 수 있고, 또는 5'-AAAUUUCUACU-3'와 적어도 50% 이상의 상동성을 가지는 뉴클레오타이드서열일 수 있다.
또한, 상기 (L)j는 연결 도메인을 포함하는 뉴클레오타이드서열로, 제 1 상보적 도메인과 제 2 상보적 도메인을 연결하는 뉴클레오타이드서열이다. 이때, 상기 L은 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 j은 뉴클레오타이드서열의 개수로, 1 내지 30의 정수일 수 있다.
또한, 상기 (X)a, (X)b 및 (X)c는 선택적으로 추가할 수 있는 뉴클레오타이드서열로, 상기 X는 A, U, C 및 G로 이루어진 군에서 각각 독립적으로 선택될 수 있으며, 상기 a, b 및 c는 뉴클레오타이드서열의 개수로, 0 또는 1 내지 20의 정수일 수 있다.
본 명세서에 의해 개시되는 내용의 일 태양으로서, 가이드핵산은 고발현 분비 유전자의 표적서열에 상보적으로 결합할 수 있는 가이드 RNA에 관하여 개시한다.
상기 고발현 분비 유전자 관련 설명은 상기 기술한 바와 같다.
상기 가이드 RNA는 분비 세포 내 고발현 분비 유전자에서 선택된 임의의 서열에 결합할 수 있는 가이드 RNA 이다.
상기 고발현 분비 유전자는 가이드핵산에 의해 인지되며, 에디터 단백질에 의해 절단되는 타겟 유전자 또는 표적서열일 수 있다.
"표적서열" 은 표적 유전자 또는 핵산 내에 존재하는 뉴클레오타이드 서열로, 구체적으로는 표적 유전자 또는 핵산 내에 표적 영역의 일부 뉴클레오타이드 서열이며, 이때 "표적 영역"은 표적 유전자 또는 핵산 내에 가이드핵산-에디터단백질에의해 변형 될 수 있는 부위이다.
이하에서, 표적서열이라 함은 두 가지의 뉴클레오타이드서열 정보 모두를 의미하는 용어로 사용될 수 있다. 예를 들어, 표적 유전자의 경우, 표적서열은 표적 유전자 DNA의 transcribed strand의 서열 정보를 의미하는 것일 수도 있고, 또는 non-transcribed strand의 뉴클레오타이드서열 정보를 의미하는 것일 수도 있다. 본 명세서에서는 두 양태를 포함하는 표적서열을 이용하고자 하는 가이드핵산에 대대하여 '표적서열에 대한 가이드 핵산'이라고 칭하기도 한다.
예를 들어, 표적서열은 표적 유전자 A의 표적 영역 중 일부 뉴클레오타이드서열(transcribed strand)인 5'-ATCATTGGCAGACTAGTTCG-3'을 의미할 수도 있으며, 이에 상보적인 뉴클레오타이드 서열(non-transcribed strand)인 5'-CGAACTAGTCTGCCAATGAT-3' 을 의미할 수도 있다.
표적서열은 5 내지 50개의 뉴클레오타이드서열일 수 있다.
일 구체예로서 상기 표적서열은 16개의 뉴클레오타이드서열, 17개의 뉴클레오타이드서열, 18개의 뉴클레오타이드서열, 19개의 뉴클레오타이드서열, 20개의 뉴클레오타이드서열, 21개의 뉴클레오타이드서열, 22개의 뉴클레오타이드서열, 23개의 뉴클레오타이드서열, 24개의 뉴클레오타이드서열 또는 25개의 뉴클레오타이드서열일 수 있다.
표적서열은 가이드핵산 결합 서열 혹은 가이드핵산 비결합 서열을 포함한다.
"가이드핵산 결합 서열"은 가이드핵산의 가이드 도메인에 포함되는 가이드 서열과 일부 또는 완전한 상보성을 가지는 뉴클레오타이드서열로, 가이드핵산의 가이드 도메인에 포함되는 가이드 서열과 상보적인 결합을 할 수 있다. 표적서열 및 가이드핵산 결합 서열은 표적 유전자 또는 핵산에 따라, 즉 유전자 조작 또는 교정하고자 하는 대상에 따라 달라질 수 있는 뉴클레오타이드서열로, 표적 유전자 또는 핵산에 따라 다양하게 설계될 수 있다.
"가이드핵산 비결합 서열"은 가이드핵산의 가이드 도메인에 포함되는 가이드 서열과 일부 또는 완전한 상동성을 가지는 뉴클레오타이드서열로, 가이드핵산의 가이드 도메인에 포함되는 가이드 서열과 상보적인 결합을 할 수 없다. 또한, 가이드핵산 비결합 서열은 가이드핵산 결합 서열과 상보성을 가지는 뉴클레오타이드서열로, 가이드핵산 결합 서열과 상보적인 결합을 할 수 있다.
가이드핵산 결합 서열은 표적서열 중 일부 뉴클레오타이드서열로, 표적서열의 두 가지 서로 다른 서열순서를 가지는 뉴클레오타이드서열, 즉, 서로 상보적인 결합을 할 수 있는 두 가지의 뉴클레오타이드서열 중 한 가지 뉴클레오타이드서열일 수 있다. 이때, 가이드핵산 비결합 서열은 표적서열 중 가이드핵산 결합 서열을 제외한 나머지 뉴클레오타이드서열일 수 있다.
예를 들면, 표적 유전자 A의 표적 영역 중 일부 뉴클레오타이드서열인 5'-ATCATTGGCAGACTAGTTCG-3'과 이에 상보적인 뉴클레오타이드서열인 5'-CGAACTAGTCTGCCAATGAT-3'을 표적서열로 할 때, 가이드핵산 결합 서열은 두 개의 표적서열 중 하나, 즉, 5'-ATCATTGGCAGACTAGTTCG-3' 또는 5'-CGAACTAGTCTGCCAATGAT-3'일 수 있다. 이때, 가이드핵산 비결합 서열은, 가이드핵산 결합 서열이 5'-ATCATTGGCAGACTAGTTCG-3'인 경우, 5'-CGAACTAGTCTGCCAATGAT-3'일 수 있고, 또는 가이드핵산 결합 서열이 5'-CGAACTAGTCTGCCAATGAT-3'인 경우 가이드핵산 비결합 서열은 5'-ATCATTGGCAGACTAGTTCG-3'일 수 있다.
가이드핵산 결합 서열은 표적서열, 즉, transcribed strand와 동일한 뉴클레오타이드서열 및 non-transcribed strand와 동일한 뉴클레오타이드서열 중 선택된 하나의 뉴클레오타이드서열일 수 있다. 이때, 가이드핵산 비결합 서열은 표적서열 중 가이드핵산 결합 서열, 즉, transcribed strand와 동일한 뉴클레오타이드서열 및 non-transcribed strand와 동일한 뉴클레오타이드서열 중 선택된 하나의 뉴클레오타이드서열을 제외한 나머지 뉴클레오타이드서열일 수 있다.
가이드핵산 결합 서열은 표적서열의 길이와 동일할 수 있다.
가이드핵산 비결합 서열은 표적서열 또는 가이드핵산 결합 서열의 길이와 동일할 수 있다.
가이드핵산 결합 서열은 5 내지 50개의 뉴클레오타이드서열일 수 있다.
일 구체예로서 상기 가이드핵산 결합 서열은 16개의 뉴클레오타이드서열, 17개의 뉴클레오타이드서열, 18개의 뉴클레오타이드서열, 19개의 뉴클레오타이드서열, 20개의 뉴클레오타이드서열, 21개의 뉴클레오타이드서열, 22개의 뉴클레오타이드서열, 23개의 뉴클레오타이드서열, 24개의 뉴클레오타이드서열 또는 25개의 뉴클레오타이드서열일 수 있다.
가이드핵산 비결합 서열은 5 내지 50개의 뉴클레오타이드서열일 수 있다.
일 구체예로서 상기 가이드핵산 비결합 서열은 16개의 뉴클레오타이드서열, 17개의 뉴클레오타이드서열, 18개의 뉴클레오타이드서열, 19개의 뉴클레오타이드서열, 20개의 뉴클레오타이드서열, 21개의 뉴클레오타이드서열, 22개의 뉴클레오타이드서열, 23개의 뉴클레오타이드서열, 24개의 뉴클레오타이드서열 또는 25개의 뉴클레오타이드서열일 수 있다.
가이드핵산 결합 서열은 가이드핵산의 가이드 도메인에 포함된 가이드 서열과 일부 또는 완전한상보적인 결합을 할 수 있으며, 상기 가이드핵산 결합 서열의 길이는 가이드 서열의 길이와 동일할 수 있다.
상기 가이드핵산 결합 서열은 가이드핵산의 가이드 도메인에 포함된 가이드 서열에 상보적인 뉴클레오타이드서열일 수 있으며, 예를 들어 최소한 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상보적이거나 또는 완전하게 상보적인 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드핵산 결합 서열은 가이드핵산의 가이드 도메인에 포함된 가이드 서열에 상보적이지 않은 1 내지 8개의 뉴클레오타이드서열을 가지거나 또는 포함할 수 있다.
가이드핵산 비결합 서열은 가이드핵산의 가이드 도메인에 포함된 가이드 서열과 일부 또는 완전한 상동성을 가질 수 있으며, 상기 가이드핵산 비결합 서열의 길이는 가이드 서열의 길이와 동일할 수 있다.
상기 가이드핵산 비결합 서열은 가이드핵산의 가이드 도메인에 포함된 가이드 서열에 상동성을 가진 뉴클레오타이드서열일 수 있으며, 예를 들어 최소한 70%, 75%, 80%, 85%, 90% 또는 95% 이상의 상동성이거나 또는 완전하게 상동성인 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드핵산 비결합 서열은 가이드핵산의 가이드 도메인에 포함된 가이드 서열에 상동적이 않은 1 내지 8개의 뉴클레오타이드서열을 가지거나 포함할 수 있다.
가이드핵산 비결합 서열은 가이드핵산 결합 서열과 상보적 결합을 할 수 있으며, 상기 가이드핵산 비결합 서열은 가이드핵산 결합 서열의 길이와 동일할 수 있다.
상기 가이드핵산 비결합 서열은 가이드핵산 결합서열에 상보적인 뉴클레오타이드서열일 수 있으며, 예를 들어 최소한 90% 또는 95% 이상의 상보적이거나 또는 완전하게 상보적인 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드핵산 비결합 서열은 가이드핵산 결합 서열에 상보적이지 않은 1 내지 2개의 뉴클레오타이드서열을 가지거나 포함할 수 있다.
또한, 상기 가이드핵산 결합 서열은 에디터단백질이 인식할 수 있는 뉴클레오타이드서열에 근접한 위치에 위치한 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드핵산 결합 서열은 에디터단백질이 인식할 수 있는 뉴클레오타이드서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 5 내지 50개의 뉴클레오타이드서열일 수 있다.
또한, 상기 가이드핵산 비결합 서열은 에디터단백질이 인식할 수 있는 뉴클레오타이드서열에 근접한 위치에 뉴클레오타이드서열일 수 있다.
일 예로, 상기 가이드핵산 비결합 서열은 에디터단백질이 인식할 수 있는 뉴클레오타이드서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 5 내지 50개의 뉴클레오타이드서열일 수 있다.
구현예에서,
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 프로모터 영역에 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 프로모터 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 프로모터 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 인트론 영역에 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 인트론 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 인트론 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 엑손 영역에 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 엑손 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 엑손 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 인핸서 영역에 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 인핸서 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 인핸서 영역에 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 암호화, 비암호화 또는 이의 혼합 부분의 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 암호화, 비암호화 또는 이의 혼합 부분의 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 암호화, 비암호화 또는 이의 혼합 부분의 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 프로모터, 인핸서, 3'UTR, 폴리아데닐(polyA) 또는 이의 혼합 부분의 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 프로모터, 인핸서, 3'UTR, 폴리아데닐(polyA) 또는 이의 혼합 부분의 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 프로모터, 인핸서, 3'UTR, 폴리아데닐(polyA) 또는 이의 혼합 부분의 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 엑손, 인트론 또는 이의 혼합 부분의 위치한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 엑손, 인트론 또는 이의 혼합 부분의 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 엑손, 인트론 또는 이의 혼합 부분의 위치한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 돌연변이 부분(예를 들면, 야생형 유전자와 다른 부분)을 포함하거나 또는 근접한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 돌연변이 부분(예를 들면, 야생형 유전자와 다른 부분)을 포함하거나 또는 근접한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 돌연변이 부분(예를 들면, 야생형 유전자와 다른 부분)을 포함하거나 또는 근접한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
본 명세서에 의해 개시되는 표적서열은 고발현 분비 유전자의 핵산서열 내의 PAM(proto-spacer-adjacent Motif) 서열의 5' 말단 및/또는 3' 말단에 인접한 연속하는 10 내지 35개의 뉴클레오타이드 서열일 수 있다.
"PAM(proto-spacer-adjacent Motif) 서열"은 에디터단백질이 인식할 수 있는 뉴클레오타이드서열이다. 이때, PAM 서열은 에디터단백질의 종류 및 유래된 종에 따라 뉴클레오타이드서열에 차이가 있을 수 있다.
이때, 상기 PAM 서열은 예를 들어, 하기의 서열 중 1 이상일 수 있다(5'에서 3'방향으로 기재함).
NGG(N은 A, T, C 또는 G임);
NNNNRYAC(N은 각각 독립적으로 A, T, C 또는 G이고, R은 A또는 G이고, Y는 C또는 T임);
NNAGAAW(N은 각각 독립적으로 A, T, C 또는 G이고, W는 A 또는 T임);
NNNNGATT(N은 각각 독립적으로 A, T, C 또는 G임);
NNGRR(T)(N은 각각 독립적으로 A, T, C 또는 G이고, R은 A 또는 G이고, Y는 C 또는 T임); 및
TTN(N은 A, T, C 또는 G임).
이때, 상기 표적서열은 10 내지 35개의 뉴클레오타이드서열, 15 내지 35개의 뉴클레오타이드서열, 20 내지 35개의 뉴클레오타이드서열, 25 내지 35개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
또는 상기 표적서열은 10 내지 15개의 뉴클레오타이드서열, 15 내지 20개의 뉴클레오타이드서열, 20 내지 25개의 뉴클레오타이드서열, 25 내지 30개의 뉴클레오타이드서열 또는 30 내지 35개의 뉴클레오타이드서열일 수 있다.
일 예로, 상기 표적서열은 HP 유전자의 핵산서열 내의 PAM 서열의 5' 말단 및/또는 3' 말단에 인접한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP 유전자의 핵산서열 내의 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP 유전자의 핵산서열 내의 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP 유전자의 핵산서열 내의 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP 유전자의 핵산서열 내의 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP 유전자의 핵산서열 내의 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP 유전자의 핵산서열 내의 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 HP유전자의 핵산서열 내의 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
다른 예로, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 PAM 서열의 5' 말단 및/또는 3' 말단에 인접한 연속하는 10 내지 25개의 뉴클레오타이드 서열일 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열일 수 있다.
이하, 본 명세서에서 개시되는 일 구체예에서 사용할 수 있는 표적서열들의 일 예들을 표로 정리하였으며, 표에 기재된 표적서열은 가이드핵산 비결합 서열로, 기재한 서열을 통해 상보적인 서열, 즉, 가이드핵산 결합 서열은 예측될 수 있다.
표 1. HP 유전자 및 APOC3 유전자의 표적서열
Figure PCTKR2018006803-appb-I000001
Figure PCTKR2018006803-appb-I000002
Figure PCTKR2018006803-appb-I000003
Figure PCTKR2018006803-appb-I000004
Figure PCTKR2018006803-appb-I000005
Figure PCTKR2018006803-appb-I000006
Figure PCTKR2018006803-appb-I000007
Figure PCTKR2018006803-appb-I000008
Figure PCTKR2018006803-appb-I000009
Figure PCTKR2018006803-appb-I000010
본 명세서에 의하여 개시되는 내용의 다른 구체예에서, 고발현 분비 유전자를 조작하기 위한 조성물은 가이드핵산 및 에디터단백질을 포함할 수 있다.
예를 들어, 상기 조성물은
간에서 발현되는 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드 핵산; 및
에디터 단백질 또는 에디터 단백질을 암호화하는 핵산;
을 포함할 수 있다.
상기 고발현 분비 유전자 관련 설명은 상기 기술한 바와 같다.
(1) 에디터 단백질
"에디터 단백질"은 핵산과 직접적으로 결합하거나, 또는 직접 결합하지는 않지만 상호작용할 수 있는 펩타이드, 폴리펩타이드 또는 단백질을 의미한다. 상기 에디터 단백질에 대해서 개념적으로 "인위적으로 조작된 뉴클레아제" 또는 RGEN(RNA-Guided Endonuclease)으로 칭하기도 한다.
상기 에디터 단백질은 효소일 수 있다.
이때, 상기 "효소"는 핵산, 유전자 또는 염색체를 절단할 수 있는 도메인을 포함하는 폴리펩타이드 또는 단백질을 의미한다.
상기 효소는 뉴클레아제 또는 제한효소일 수 있다.
상기 에디터단백질은 완전 활성 효소를 포함할 수 있다.
이때, 상기 "완전 활성 효소"는 야생형(wild type) 효소의 본래의 핵산, 유전자 또는 염색체 절단 기능과 동일한 기능을 가지는 효소를 의미한다. 예를 들면, DNA의 이중 가닥을 절단하는 야생형 효소는 DNA 이중 가닥을 모두 절단하는 완전한 활성 효소일 수 있다. 또 다른 예를 들면, DNA의 이중 가닥을 절단하는 야생형 효소가 인위적인 조작에 의해 아미노산 서열 중 일부 서열이 삭제(deletion) 또는 치환(substitution)된 경우, 인위적으로 조작된 효소 변이체가 야생형 효소와 동일하게 DNA의 이중 가닥을 절단한다면, 상기 인위적으로 조작된 효소 변이체는 완전 활성 효소일 수 있다.
또한, 상기 완전 활성 효소는 야생형의 효소의 기능보다 향상 된 기능을 가지고 있는 효소를 포함할 수 있다. 예를 들면, DNA의 이중 가닥을 절단하는 야생형 효소의 특정 변형 또는 조작된 형태는 야생형 효소보다 증가된 완전한 효소 활성, 즉, 증가된 DNA 이중 가닥을 절단하는 활성을 가질 수 있다.
상기 에디터단백질은 불완전 또는 부분 활성 효소를 포함할 수 있다.
이때, 상기 "불완전 또는 부분 활성 효소"는 야생형 효소의 본래의 핵산, 유전자 또는 염색체 절단 기능의 일부만을 가지는 효소를 의미한다. 예를 들면, DNA의 이중 가닥을 절단하는 야생형 효소의 특정 변형 또는 조작된 형태는 제1 기능을 가지는 형태 또는 제2 기능을 가지는 형태일 수 있다. 이때, 제1 기능은 DNA의 이중 가닥 중 제1 가닥을 절단하는 기능이고, 제2 기능은 DNA의 이중 가닥 중 제2 가닥을 절단하는 기능일 수 있다. 이때, 상기 제1 기능을 가지는 효소 또는 제2 기능을 가지는 효소는 불완전 또는 부분 활성 효소일 수 있다.
상기 에디터단백질은 불활성 효소를 포함할 수 있다.
이때, 상기 "불활성 효소"는 야생형 효소의 본래의 핵산, 유전자 또는 염색체 절단 기능이 모두 불활성화 된 효소를 의미한다. 예를 들면, 야생형 효소의 특정 변형 또는 조작된 형태는 제1 기능 및 제2 기능이 모두 상실된 형태, 즉, DNA의 이중 가닥 중 제1 가닥을 절단하는 제1 기능 및 제2 가닥을 절단하는 제2 기능이 모두 상실된 형태일 수 있다. 이때, 상기 제1 기능 및 제2 기능이 모두 상실된 효소는 불활성 효소일 수 있다.
상기 에디터단백질은 융합단백질일 수 있다.
이때, 상기 "융합 단백질"은 효소에 추가적인 도메인, 펩타이드, 폴리펩타이드 또는 단백질을 융합하여 생성한 단백질을 의미한다.
상기 추가적인 도메인, 펩타이드, 폴리펩타이드 또는 단백질은 상기 효소에 포함된 기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질과 동일하거나 다른 기능을 가지는 기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질일 수 있다.
상기 융합 단백질은 효소의 아미노 말단 또는 그 근처; 카르복시 말단 또는 그 근처; 효소의 중간부; 또는 이들 조합의 하나 이상에 상기 기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질이 부가된 형태일 수 있다.
이때, 상기 기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질은 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합(nucleic acid binding) 활성을 가지는 도메인, 펩타이드, 폴리펩타이드 또는 단백질 일 수 있으며, 또는 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있으나, 이에 제한되지 않는다.
상기 기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질은 디아미네이즈(deaminase)일 수 있다.
상기 태그는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 등을 포함하며, 상기 리포터 유전자는 글루타티온-S-트랜스 퍼라제(GST), 호스래디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP) 및 청색 형광 단백질(BFP)을 포함하는 자가형광 단백질을 포함하나, 이들에 한정되지 않는다.
또한, 상기 기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질은 NLS(nuclear localization sequence or signal) 또는 NES(nuclear export sequence or signal)일 수 있다.
상기 NLS는 아미노산 서열 PKKKRKV를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD 또는 RQRRNELKRSP를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV; 마이오마(myoma) T 단백질의 서열 VSRKRPRP 및 PPKKARED; 인간 p53의 서열 POPKKKPL; 마우스 c-abl IV의 서열 SALIKKKKKMAP; 인플루엔자 바이러스 NS1의 서열 DRLRR 및 PKQKKRK; 간염 바이러스 델타 항원의 서열 RKLKKKIKKL; 마우스 Mx1 단백질의 서열 REKKKFLKRR; 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK; 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다.
상기 추가적인 도메인, 펩타이드, 폴리펩타이드 또는 단백질은 특정 기능을 수행하지 않는 비기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질일 수 있다. 이때, 상기 비기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질은 상기 효소의 기능에 영향을 주지 않는 도메인, 펩타이드, 폴리펩타이드 또는 단백질일 수 있다.
상기 융합 단백질은 효소의 아미노 말단 또는 그 근처; 카르복시 말단 또는 그 근처; 효소의 중간부; 또는 이들 조합의 하나 이상에 상기 비기능적 도메인, 펩타이드, 폴리펩타이드 또는 단백질이 부가된 형태일 수 있다.
상기 에디터단백질은 자연 상태에 존재하는 효소 또는 융합 단백질일 수 있다.
상기 에디터단백질은 자연 상태에 존재하는 효소 또는 융합 단백질의 일부가 변형된 형태일 수 있다.
상기 에디터단백질은 자연 상태에 존재하지 않는 인위적으로 생성된 효소 또는 융합 단백질일 수 있다.
상기 에디터단백질은 자연 상태에 존재하지 않는 인위적으로 생성된 효소 또는 융합 단백질의 일부가 변형된 형태일 수 있다.
이때, 상기 변형은 에디터단백질에 포함된 아미노산의 치환, 제거, 부가 또는 이의 혼합일 수 있다.
또는 상기 변형은 에디터단백질을 암호화하는 뉴클레오타이드서열 중 일부 뉴클레오타이드의 치환, 제거, 부가 또는 이의 혼합일 수 있다.
상기 가이드핵산과 에디터단백질은 가이드핵산-에디터단백질 복합체를 형성할 수 있다.
상기 가이드핵산-에디터단백질 복합체는 세포 밖에서 형성될 수 있다.
상기 가이드핵산-에디터단백질 복합체는 세포 내의 세포질에서 형성될 수 있다.
상기 가이드핵산-에디터단백질 복합체는 세포 내의 핵 안에서 형성될 수 있다.
상기 가이드핵산-에디터단백질 복합체체에서, 에디터 단백질은 타겟하는 유전자 또는 핵산 서열 내에 존재하는 PAM을 인식할 수 있다.
상기 가이드핵산-에디터단백질 복합체에서 가이드 핵산은 타겟하는 유전자 또는 핵산 서열에 상보적인 결합을 할 수 있다.
상기 가이드핵산-에디터단백질 복합체가 타겟하는 유전자 또는 핵산 서열에 결합하면, 상기 가이드핵산 - 에디터 단백질 복합체의 에디터 단백질에 의해 타겟하는 유전자 또는 핵산 서열은 절단 또는 변형될 수 있다.
본 명세서에 의해 개시되는 내용의 일 태양으로서, 에디터 단백질은 CRISPR 효소일 수 있다.
예를 들어, 상기 조성물은
간에서 발현되는 고발현 분비 유전자 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드 RNA; 및
CRISPR 효소 또는 CRISPR 효소를 암호화하는 핵산;
을 포함할 수 있다.
상기 가이드RNA 관련 설명은 상기 기술한 바와 같다.
상기 CRISPR 효소는 표적 유전자 또는 핵산의 이중가닥을 절단하는 기능을 가지는 뉴클레아제 또는 제한효소일 수 있다.
"CRISPR 효소"는 CRISPR-Cas 시스템의 주요 단백질 구성 요소로, 가이드RNA와 혼합 또는 복합체를 형성하여 표적서열을 인지하고 DNA를 절단할 수 있는 뉴클레아제를 말한다.
"CRISPR-Cas 시스템"은 박테리아에서 외부로부터 침입한 병원체의 유전정보를 저장하여 후에 재침입시 이를 절단하는 후천적 면역 시스템에서 유래한 것으로서, 이를 인위적으로 조작하여, 원하는 표적서열을 인식할 수 있는 가이드RNA와, DNA를 절단하는 단백질 Cas 단백질로 구성되어 유전자의 기능을 제거, 조절하는 유전체 교정 시템을 말한다.
상기 Cas 단백질은 crRNA(CRISPR RNA) 및 tracrRNA(trans-activating crRNA)와 복합체를 형성하여 이의 활성을 나타낼 수 있다.
상기 Cas 단백질은 천연형 단백질 외에도 가이드 RNA와 협동하여 활성화된 엔도뉴클레아제 또는 Nickase로 작용할 수 있는 변이체를 모두 포함하는 개념으로 본 명세서에서 사용된다. 활성화된 엔도뉴클레아제 또는 니카아제인 경우, 표적 DNA절단을 가져올 수 있고, 이를 이용하여 유전체 교정을 가지고 올 수 있다. 또한, 불활성화된 변이체인 경우, 이를 이용하여 전사 조절 혹은 목적하는 DNA의 분리를 가져올 수 있다.
상기 Cas 단백질은 완전 활성을 가진 CRISPR 효소일 수 있다.
상기 " 완전 활성 CRISPR 효소"는 야생형(wild tiype) 효소의 본래의 핵산, 유전자 또는 염색체 절단 기능과 동일한 기능을 가지는 효소를 의미한다. 즉 DNA의 이중 가닥 중 제1가닥을 절단하는 기능 및 DNA의 이중가닥 중 제 2가닥을 절단하는 제2기능을 모두 가지는 상태를 말한다.
인위적으로 조작된 CRISPR 효소 변이체가 야생형 효소와 동일하게 DNA의 이중가닥을 절단하는 효소라면 상기 인위적으로 조작된 CRISPR 효소도 완전 활성 효소에 포함될 수 있다.
상기 인위적으로 조작된 CRISPR 효소는 뉴클레오타이드 서열 중 일부가 제거(deletion), 치환(substitution), 부가된 효소일 수 있다.
상기 인위적으로 조작된 CRISPR 효소는 아미노산 서열에 하나 이상의 아미노산이 제거, 치환 또는 부가된 효소 일수 있다.
상기 아미노산의 부가된 변형은 야생형 효소의 N말단 및/또는 C말단이거나 그 인접한 부분일 수 있다. 또는 이의 혼합된 형태의 변형일 수 있다.
상기 CRISPR 효소 변이체는 야생형 CRISPR 효소보다 기능이 향상된 완전 활성 효소일 수 있다.
예를 들면, 야생형 CRISPR 효소의 특정 변형 또는 조작된 형태, 즉, CRISPR 효소 변이체는 절단해야 하는 DNA 이중 가닥과 일정 거리이상으로 근접한 상태 또는 특정 결합이 형성된 상태에서 DNA 이중 가닥을 절단할 수 있다. 이때, 특정 결합은, 예를 들어, 효소의 특정 위치의 아미노산과 절단 위치의 DNA 뉴클레오타이드서열과의 결합일 수 있다. 이러한 경우, 상기 변형 또는 조작된 형태는 야생형 CRISPR 효소보다 기능 활성이 감소된 완전 활성 CRISPR 효소일 수 있다.
상기 CRISPR 효소는 불완전 또는 부분 활성 CRISPR 효소일 수 있다.
"불완전 또는 부분 활성"은 야생형 CRISPR 효소의 기능, 즉, DNA의 이중 가닥 중 제1 가닥을 절단하는 제1 기능 및 DNA의 이중 가닥 중 제2 가닥을 절단하는 제2 기능 중 선택된 하나의 기능을 가지는 상태를 의미한다. 이러한 상태의 CRISPR 효소는 불완전 또는 부분 활성 CRISPR 효소로 명칭한다. 또한 상기 불완전 또는 부분 활성 CRISPR 효소는 니카아제(nickase)로 지칭될 수 있다.
"니카아제(nickase)"는 표적 유전자 또는 핵산의 이중가닥 중 한 가닥만 절단되도록 조작 또는 변형된 CRISPR 효소를 의미하며, 상기 니카아제는 단일가닥, 예를 들어, 표적 유전자 또는 핵산의 가이드RNA와 비상보성 가닥 또는 상보성 가닥을 절단하는 뉴클레아제 활성을 가진다. 따라서, 이중가닥을 절단하기 위해서는 2개의 니카아제의 뉴클레아제 활성이 필요하다.
예를 들어, 상기 니카아제는 RuvC 도메인에 의한 뉴클레아제 활성을 가질 수 있다. 즉, 상기 니카아제는 HNH 도메인에 의한 뉴클레아제 활성을 포함하지 않을 수 있으며, 이를 위해 HNH 도메인은 조작 또는 변경될 수 있다.
상기 CRISPR 효소는 상기 기재된 뉴클레아제 활성 외에도 헬리카제 활성, 즉, 이중가닥 핵산의 나선 구조를 푸는 기능을 가질 수 있다.
또한, 상기 CRISPR 효소는 CRISPR 효소의 헬리카제 활성에 대해 완전 활성, 불완전 또는 부분 활성, 또는 불활성이 되도록 CRISPR 효소를 변형시킬 수 있다.
상기 CRISPR 효소는 CRISPR 효소를 암호화하는 서열을 가지는 핵산 또는 폴리펩타이드(또는 단백질)로, 대표적으로 Type II CRISPR 효소 일 수 있다.
Type II CRISPR 효소의 결정 구조는 2종 이상의 자연유래 미생물 Type II CRISPR 효소 분자에 대한 연구(Jinek et al., Science, 343(6176):1247997, 2014) 및 가이드RNA와 함께 복합체를 이루는 스트렙토코커스 피오게네스 Cas9(SpCas9)에 대한 연구(Nishimasu et al., Cell, 156:935-949, 2014; 및 Anders et al., Nature, 2014, doi: 10.1038/nature13579)를 통해 결정되었다.
상기 Type II CRISPR 효소는 Cas9일 수 있다.
"Cas9"은 가이드 RNA와 결합하여 표적 유전자 또는 핵산 상에서 표적서열 또는 위치를 절단 또는 변형시키는 효소로서, 가이드RNA가 상보적인 결합을 하는 핵산 가닥(strand)을 절단할 수 있는 HNH 도메인, 가이드RNA와 비상보적인 결합을 하는 핵산 가닥(strand)을 절단할 수 있는 RuvC 도메인, 표적, 즉, 타겟을 인식하는 REC 도메인 및 PAM 을 인식하는 PI도메인으로 구성될 수 있다. 구체적인 Cas9의 구조적 특성은 Hiroshi Nishimasu et al. (2014) Cell 156:935-949를 참고할 수 있다.
상기 RuvC 도메인은 Type II CRISPR 효소를 포함하는 자연상태에 존재하는 미생물의 구성원에 대해 구조적으로 유사성을 공유하며, 단일가닥, 예를 들어 표적 유전자 또는 핵산의 비상보성 가닥, 즉, 가이드RNA와 상보적인 결합을 하지 않는 가닥을 절단한다. 상기 RuvC 도메인은 종종 당업계에서 RuvCI 도메인, RuvCII 도메인 및 RuvCIII 도메인으로서, 통상적으로 RuvC I, RuvCII 및 RuvCIII로 지칭된다.
상기 HNH 도메인은 HNH 엔도뉴클레아제와 구조적 유사성을 공유하며, 단일 가닥, 예를 들어 표적 핵산 분자의 상보성 가닥, 즉, 가이드 RNA와 상보적인 결합을 하는 가닥을 절단한다. HNH 도메인은 RuvC II와 III 모티프 사이에 위치한다.
상기 Cas9은 완전 활성 Cas9 또는 불활성Cas9일 수 있다.
상기 불활성 Cas9은 완전히 불활성화된 Cas9 및 부분적으로 불활성화된 Cas9 (예, nickase)을 포함할 수 있다.
상기 Cas9은 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속(Streptococcus sp.), 황색포도상구균(Staphylococcus aureus), 노카르디옵시스 다손빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 알리사이클로바클루스 아시도칼다리우스(AlicyclobacHlus acidocaldarius), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실러스 델브루에키이(Lactobacillus delbrueckii), 락토바실러스 살리바리우스(Lactobacillus salivarius), 미크로스 킬라 마리나(Microscilla marina), 부르크홀데리아레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 속(Polaromonas sp.), 크로코스파에라 와트소니이(Crocosphaera watsonii), 시아노테세 속(Cyanothece sp.), 마이크로시스티스 아에루기노사(Microcystis aeruginosa), 시네코코커스 속(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시럽토 베시이(Caldicelulosiruptor bescii), 칸디다투스 데술포루디스(Candidatus Desulforudis), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 디피실레(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라나에로비우스 써모필러스 (Natranaerobius thermophilus), 펠로토마쿨럼 써모프로피오니쿰(Pelotomaculum thermopropionicum), 아시디티오바실러스 칼두스(Acidithiobacillus caldus), 아시디티오바실러스 페로옥시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 속(Marinobacter sp.), 니트로소코커스 할로필러스(Nitrosococcus halophilus), 니트로소코커스 와트소니(Nitrosococcus watsoni), 슈도알테로 모나스 할로플란크티스(Pseudoalteromonas haloplanktis), 크테도노박테르 라세미페르(Ktedonobacter racemifer), 메타노할로비움 에베스티가툼(Methanohalobium evestigatum), 아나베나 바리아빌리스(Anabaena variabilis), 노둘라리아 스푸미게나(Nodularia spumigena), 노스톡 속(Nostoc sp.), 아르트로스피라 맥시마(Arthrospira maxima), 아르트로스피라 플라텐시스(Arthrospira platensis), 아르트로스피라 속(Arthrospira sp.), 링비아속(Lyngbya sp.), 마이크로콜레우스 크토노플라스테스(Microcoleus chthonoplastes), 오실라토리아 속(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus) 또는 아카리오클로리스 마리나(Acaryochloris marina) 등 다양한 미생물 유래의 Cas9일 수 있다.
상기 Cas9은 자연상태에서 존재하는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법을 통해 비자연적으로 생산된 것일 수 있다.
또한, 상기 CRISPR 효소는 Type V CRISPR 효소일 수 있다.
Type V CRISPR 효소는 Type II CRISPR 효소의 RuvC 도메인에 상응하는 유사한 RuvC 도메인이 있으며, Type II CRISPR 효소의 HNH 도메인은 결핍되어 있고, 대신에 Nuc 도메인을 포함하며, 표적과 상호작용하는 REC 도메인과 WED 도메인 및 PAM을 인식하는 PI 도메인으로 구성될 수 있다. 구체적인 Type V CRISPR 효소의 구조적 특성은 Takashi Yamano et al. (2016) Cell 165:949-962를 참고할 수 있다.
Type V CRISPR 효소는 가이드RNA와 상호작용할 수 있으며, 가이드RNA-CRISPR 효소 복합체, 즉, CRISPR 복합체를 형성할 수 있고, 가이드RNA와 협력하여 가이드 서열을 및 PAM 서열을 포함하는 표적서열로 근접시킬 수 있다. 이때, 표적 유전자 또는 핵산과 상호작용하기 위한 Type V CRISPR 효소의 능력은 PAM 서열에 의존적이다.
상기 PAM 서열은 표적 유전자 또는 핵산 내에 존재하는 서열로, Type V CRISPR 효소의 PI 도메인에 의해 인식될 수 있다. 상기 PAM 서열은 Type V CRISPR 효소의 유래에 따라 그 서열이 다를 수 있다. 즉, 종마다 특이적으로 인식할 수 있는 PAM 서열이 존재한다. 예를 들어, Cpf1이 인식하는 PAM 서열은 5'-TTN-3' (N은 A, T, C 또는 G)일 수 있다. 다만, 전술한 효소의 유래에 따라 PAM이 결정되는 것으로 일반적으로 이해되고 있으나, 해당 유래의 효소의 돌연변이(mutant)에 대한 연구가 진행됨에 따라, 상기 PAM은 달라질 수도 있다.
상기 Type V CRISPR 효소는 Cpf1일 수 있다.
상기 Cpf1은 Streptococcus, Campylobacter, Nitratifractor, Staphylococcus, Parvibaculum, Roseburia, Neisseria, Gluconacetobacter, Azospirillum, Sphaerochaeta, Lactobacillus, Eubacterium, Corynebacter, Carnobacterium, Rhodobacter, Listeria, Paludibacter, Clostridium, Lachnospiraceae, Clostridiaridium, Leptotrichia, Francisella, Legionella, Alicyclobacillus, Methanomethyophilus, Porphyromonas, Prevotella, Bacteroidetes, Helcococcus, Letospira, Desulfovibrio, Desulfonatronum, Opitutaceae, Tuberibacillus, Bacillus, Brevibacilus, Methylobacterium 또는 Acidaminococcus 유래의 Cpf1일 수 있다.
상기 Cpf1은 Cas9의 RuvC 도메인에 상응하는 유사한 RuvC 도메인이 있으며, Cas9의 HNH 도메인은 결핍되어 있고, 대신에 Nuc 도메인을 포함하며, 타겟과 상호작용하는 REC 도메인과 WED 도메인 및 PAM을 인식하는 PI 도메인으로 구성될 수 있다. 구체적인 Cpf1의 구조적 특성은 Takashi Yamano et al. (2016) Cell 165:949-962를 참고할 수 있다.
상기 Cpf1은 완전활성 Cpf1 또는 불활성 Cpf1일 수 있다.
상기 불활성 Cpf1은 완전히 불활성화된 Cpf1 및 부분적으로 불활성화된 Cpf1 (예, nickase)을 포함할 수 있다.
상기 Cpf1 enzyme은 RuvC, Nuc, WED, REC 또는/및 PI 도메인에 존재하는 아미노산 중 하나, 둘 또는 그 이상의 아미노산이 변이될 수 있다.
상기 Cpf1 enzyme은 FnCpf1의 아미노산 중 D917, E1006 또는 D1255; AsCpf1의 아미노산 중 D908, E993 또는 D1263; LbCpf1의 아미노산 중 D832, E925, D947 또는 D1180; 또는 다른 Cpf1 orthologs의 이에 대응되는 아미노산 그룹 중에 하나 또는 둘 이상의 아미노산의 변이를 포함할 수 있다.
상기 Cpf1는 자연상태에서 존재하는 미생물에서 분리된 것 또는 재조합적 방법 또는 합성적 방법을 통해 비자연적으로 생산된 것일 수 있다.
상기 Cas 단백질 또는 이를 코딩하는 핵산은 Cas 단백질이 핵 내에서 작용할 수 있게 하는 형태일 수 있다.
상기 분리된 Cas 단백질은 또한 세포 내로 도입되기에 용이한 형태일 수 있다. 그 예로 Cas 단백질은 세포 침투 펨타이드 또는 단백질 전달 도메인 (protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리-아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 세포 침투 펩타이드 또는 단백질 전달 도메인은 상기 기술된 예 외에도 다양한 종류가 당업계에 공지되어 있으므로, 당업자는 상기 예에 제한되지 않고 다양한 예를 본 명세서에 적용할 수 있다.
상기 CRISPR 효소는 야생형 CRISPR 효소를 인위적으로 조작 또는 변형시킨 CRISPR 효소 변이체일 수 있다.
일 예로, 상기 CRISPR 효소 변이체는 야생형 CRISPR 효소의 아미노산 서열 중 적어도 하나 이상의 아미노산의 치환, 제거 및/또는 부가된 것일 수 있다.
상기 CRISPR 효소 변이체는 야생형 CRISPR 효소의 기능, 즉, DNA의 이중 가닥 중 제1 가닥을 절단하는 제1 기능 및/또는 DNA의 이중 가닥 중 제2 가닥을 절단하는 제2 기능을 변형시키기 위해 인위적으로 조작 또는 변형된 CRISPR 효소 변이체일 수 있다.
상기 CRISPR 효소 변이체는 선택적으로 기능적(functional) 도메인을 추가로 포함할 수 있다. 이때, 상기 CRISPR 효소 변이체는 야생형 CRISPR 효소의 원래 기능 이외에 부가적인 기능을 가질 수 있다.
상기 기능적 도메인은 메틸라아제(methylase) 활성, 디메틸라아제(demethylase) 활성, 전사촉진(transcription activation) 활성, 전사 저해(transcription repression) 활성, 전사 방출 인자(transcription release factor) 활성, 히스톤 변형(histone modification) 활성, RNA 절단(cleavage) 활성 또는 핵산 결합(nucleic acid binding) 활성을 가지는 도메인일 수 있으며, 또는 단백질(펩타이드 포함)의 분리정제를 위한 태그(tag) 또는 리포터 유전자일 수 있으나, 이에 제한되지 않는다.
상기 태그는 히스티딘(His) 태그, V5 태그, FLAG 태그, 인플루엔자 헤마글루티닌(HA) 태그, Myc 태그, VSV-G 태그 및 티오레독신(Trx) 태그 등을 포함하며, 상기 리포터 유전자는 글루타티온-S-트랜스 퍼라제(GST), 호스라디시(horseradish) 과산화효소(HRP), 클로람페니콜 아세틸트랜스퍼라제(CAT) 베타-갈락토시다제, 베타-글루쿠로니다제, 루시퍼라제, 녹색 형광 단백질(GFP), HcRed, DsRed, 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP) 및 청색 형광 단백질(BFP)을 포함하는 자가형광 단백질을 포함하나, 이들에 한정되지 않는다.
상기 기능적 도메인은 디아미네이즈(deaminase)일 수 있다.
예를 들어, 불완전 또는 부분 CRISPR 효소에 시티딘 디아미네이즈(cytidine deaminase)를 기능적 도메인으로 추가로 포함할 수 있다. 일 구체예로, SpCas9 니카아제에 시티딘 디아미네이즈, 예를 들면, APOBEC1(apolipoprotein B editing complex 1)를 추가하여 융합 단백질을 생성할 수 있다. 이렇게 형성된 [SpCas9 니카아제]-[APOBEC1]은 뉴클레오타이드 C를 T 또는 U로 뉴클레오타이드 교정 또는 편집에 이용되거나, 또는 뉴클레오타이드 G를 A로 뉴클레오타이드 교정 또는 편집에 이용될 수 있다.
또 다른 예를 들어, 불완전 또는 부분 CRISPR 효소에 아데닌 디아미네이즈(adenine deaminase)를 기능적 도메인으로 추가로 포함할 수 있다. 일 구체예로, SpCas9 니카아제에 아데닌 디아미네이즈, 예를 들면, TadA variants, ADAR2 variants, ADAT2 variants 등을 추가하여 융합 단백질을 생성할 수 있다. 이렇게 형성된 [SpCas9 니카아제]-[TadA variant], [SpCas9 니카아제]-[ADAR2 variant] 또는 [SpCas9 니카아제]-[ADAT2 variant]는 뉴클레오타이드 A를 inosine으로 변형시키며, 변형된 inosine은 polymerase에 의해 뉴클레오타이드 G로 인식되어 실질적으로 뉴클레오타이드 A를 G로 뉴클레오타이드 교정 또는 편집되는 효과를 보이므로, 뉴클레오타이드 A를 G로 뉴클레오타이드 교정 또는 편집에 이용되거나, 또는 뉴클레오타이드 T를 C로 뉴클레오타이드 교정 또는 편집에 이용될 수 있다.
상기 기능적 도메인은 NLS(nuclear localization sequence or signal) 또는 NES(nuclear export sequence or signal)일 수 있다.
일 예로, CRISPR 효소는 하나 이상의 NLS를 포함할 수 있다. 이때, 상기 NLS는 CRISPR 효소의 아미노 말단 또는 그 근처; 카르복시 말단 또는 그 근처; 또는 이들의 조합에 하나 이상의 NLS를 포함할 수 있다. 상기 NLS는 하기로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다: 아미노산 서열 PKKKRKV를 갖는 SV40 바이러스 대형 T-항원의 NLS; 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD 또는 RQRRNELKRSP를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV; 마이오마(myoma) T 단백질의 서열 VSRKRPRP 및 PPKKARED; 인간 p53의 서열 POPKKKPL; 마우스 c-abl IV의 서열 SALIKKKKKMAP; 인플루엔자 바이러스 NS1의 서열 DRLRR 및 PKQKKRK; 간염 바이러스 델타 항원의 서열 RKLKKKIKKL; 마우스 Mx1 단백질의 서열 REKKKFLKRR; 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK; 및 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK.
본 명세서에 의해 개시되는 CRISPR 효소 또는 CRISPR 효소 변이체는 폴리펩타이드, 단백질 또는 이를 암호화하는 서열을 가지는 핵산일 수 있으며, 상기 CRISPR 효소 또는 CRISPR 효소 변이체를 도입하고자 하는 대상에 맞추어 코돈 최적화(codon optimization)된 것일 수 있다.
"코돈 최적화"는 고유 서열의 적어도 하나의 코돈을 숙주 세포의 유전자에 더욱 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체하면서, 고유 아미노상 서열을 유지함으로써 관심 숙주 세포에서의 발현의 증진을 위해 핵산서열을 변형시키는 과정을 의미한다. 다양한 종은 특정 아미노산의 특정 코돈에 대한 특정 편향을 가지며, 코돈 편향(유기체 간의 코돈 사용의 차이)은 종종 mRNA의 번역의 효율과 상호관련 되며, 이는 번역되는 코돈의 특성 및 특정 tRNA 분자의 이용가능성에 의해 좌우되는 것을 여겨진다. 세포에서 선택된 tRNA의 우세는 일반적으로 펩타이드 합성에 가장 빈번하게 사용되는 코돈을 반영한 것이다. 따라서, 유전자는 코돈 최적화에 기초하여 주어진 유기체에서 최적의 유전자 발현을 위해 맞춤화될 수 있다.
상기 가이드RNA와 CRISPR 효소는 가이드RNA-CIRSPR 효소 복합체를 형성할 수 있다.
"가이드RNA- CRISPR 효소 복합체"는 가이드RNA와 CIRSPR 효소의 상호작용을 통해 형성된 복합체를 의미한다.
상기 가이드RNA- CRISPR 효소 복합체는 세포 밖에서 형성될 수 있다.
상기 가이드RNA-CRISPR 효소 복합체는 세포 내의 세포질에서 형성될 수 있다.
상기 가이드RNA- CRISPR 효소 복합체는 세포 내의 핵 안에서 형성될 수 있다.
상기 가이드RNA- CRISPR 효소 복합체에서, CRISPR 효소는 타겟하는 유전자 또는 핵산 서열 내에 존재하는 PAM을 인식할 수 있다.
상기 가이드RNA- CRISPR 효소 복합체에서 가이드 RNA는 타겟하는 유전자 또는 핵산 서열에 상보적인 결합을 할 수 있다.
상기 가이드RNA- CRISPR 효소 복합체가 타겟하는 유전자 또는 핵산 서열에 결합하면, 상기 가이드RNA- CRISPR 효소 복합체의 CRISPR 효소에 의해 타겟하는 유전자 또는 핵산 서열은 절단 또는 변형될 수 있다.
다른 구체예에서, CRISPR-Cas 시스템은 가이드 RNA 및 CRISPR 효소가 복합체(complex)를 형성하는 RNP(ribonucleoprotein) 형태로 존재할 수 있다.
본 명세서에 의하여 개시되는 내용의 일 구현예에서는 고발현 분비 유전자를 조작하여 목적하는 단백질을 발현시킬 수 있다.
상기 목적하는 단백질을 발현시키기 위해 고발현 분비 유전자 조작용 조성물에는 가이드RNA, CRISPR 효소 외에 공여체가 더 포함될 수 있다.
예를 들어, 상기 조성물은,
간에서 발현되는 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드 핵산;
에디터 단백질 또는 에디터 단백질을 암호화하는 핵산; 및
목적 단백질을 암호화하는 핵산서열을 포함하는 공여체(donor),
를 포함할 수 있다.
"공여체(donor)"는 대상에 이식유전자를 삽입하기 위해 필요한 서열을 포함하는 외인성 뉴클레오타이드를 지칭한다. 상기 공여체는 이식 유전자뿐만 아니라 재조합에 필요한 서열, 유전자 전사, 발현에 영향을 주는 서열 등을 모두 포함하는 분자이다.
상기 공여체 분자는 핵산의 형태 즉, DNA 또는 RNA일 수 있다.
상기 공여체 분자는 단일가닥 또는 이중가닥 일수 있다. 일부 경우, 상기 공여체 분자는 단일 가닥 올리고 뉴클레오타이드 DNA 주형(ssODT)일수 있다.
상기 공여체 분자는 폴리 뉴클레오타이드 또는 단백질의 형태일 수 있다.
상기 공여체 분자는 선형, 분자형 또는 환형일 수 있으며, 임의의 길이를 가질수 있다.
이때, 선형의 형태로 공여체 분자가 도입될 경우에는 공여체 서열의 말단은 당업자에게 공지된 방법에 의하여 보호될 수 있다. 예를 들어, 하나 이상의 다이데옥시뉴클레오타이드 잔기는 형성 분자의 3'말단에 추가되고 자가 보완적인 올리고 뉴클레오타이드는 하나 또는 양쪽 말단에 결합할 수 있다.
특정 구현 예에서, 상기 공여체 분자를 분해로부터 보호하기 위하여, 추가적으로 말단 아미노기(들)의 첨가 및 예를 들어 포스포로티오에이트, 포스포라미데이트, 및 O-메틸 리보스 또는 데옥시리보스 잔기와 같은 뉴클레오티드간 연결의 사용을 포함할 수 있지만, 이에 제한되는 것은 아니다.
상기 공여체 분자는 이중 복합체(duplex)를 형성할 수 있으며, 뿐만 아니라 삼중복합체(triplex)-형성 핵산을 포함한다.
상기 공여체 서열은 임의의 길이, 예를 들어 10bp 내지 20kb (또는 그 사이의 또는 그 이상의 임의의 정수 값), 바람직하게는 길이 약 100bp 내지 10kb (또는 그 사이의 임의의 정수), 더 바람직하게는 길이로 약 200bp 내지 5kb를 가질 수 있다.
상기 공여체는 도입하고자 하는 대상에 맞추어 코돈 최적화(codon optimization)를 할 수 있다. 예를 들어 대상이 인간인 경우, human codon으로 최적화된 서열을 사용한 공여체일 수 있다.
본 명세서에 의해 개시되는 내용의 일 구현예는, 상기 목적하는 단백질을 발현하기 위하여 고발현 분비 유전자 조작용 조성물에 포함되는 공여체에는 이식 유전자가 포함될 수 있다.
"이식 유전자"는 고발현 분비 유전자 내 삽입되는 외인성 뉴클레오타이드를 말한다. 예를 들어, 에디터 단백질 및 가이드핵산을 이용하여 절단된 간 세포 내 게놈 절단 부위에 상기 이식유전자가 삽입될 수 있다.
상기 이식유전자는 DNA 또는 RNA일 수 있다.
상기 이식유전자는 야생형 간 세포에서 생성되는 단백질을 코딩하는 외인성 뉴클레오타이드일 수 있다.
상기 이식유전자는 야생형 간 세포 외의 세포에서 생성되는 단백질을 코딩하는 외인성 뉴클레오타이드일 수 있다.
상기 이식유전자는 대상체와 상이한 종으로부터 유래한 것일 수 있다.
상기 이식유전자는 야생형(wild type) 유전자일 수 있다. 예를 들어 상기 대상 내 단백질 결핍 또는 부족한 경우, 해당 단백질을 암호화하는 정상 유전자, 즉, 야생형 유전자와 동일한 서열을 가진 이식 유전자를 공여체에 포함시킬 수 있다.
상기 이식유전자는 돌연변이 유전자일 수 있다. 이때, 돌연변이는 상기 야생형 유전자의 하나이상의 뉴클레오타이드가 결실, 치환 또는 부가된 형태일 수 있다.
상기 이식 유전자는 융합 단백질일 수 있다.
일 예로, 상기 이식유전자와 융합되는 단백질은 외인성 유전자일 수 있다.
다른 예로, 상기 이식 유전자와 융합되는 단백질은 내인성 유전자로부터 유래된 것일 수 있다.
예를 들어, 상기 이식 유전자와 융합되는 단백질은 고발현 분비 유전자로부터 유래된 것일 수 있다.
상기 이식 유전자와 융합되는 단백질은 외인성 단백질의 아미노(N)-말단 부분 또는 그 근처에 존재할 수 있다.
상기 이식 유전자와 융합되는 단백질은 외인성 단백질의 카복시(C)-말단 부분 또는 그 근처에 존재할 수 있다.
상기 이식 유전자와 융합되는 단백질은 외인성 단백질의 아미노(N)-말단 및 카복시(C)-말단 또는 그 근처 둘다에 존재하거나, 이의 혼합된 형태로 존재할 수 있다.
상기 이식유전자는 목적하는 특정 기능을 향상시키거나 개선하기 위한 기능성 유전자일 수 있다.
일 예로, 상기 이식 유전자는 간 세포내 내인성 유전자의 기능을 향상시킬 수 있다.
다른 예로, 상기 이식 유전자는 야생형 유전자의 발현을 증가시키는 기능을 할 수 있다. 예를 들어, 이식유전자가 간 세포내 결핍된 단백질을 암호화하는 유전자일 경우, 결핍된 단백질이 간세포 내에서 생산될 수 있고, 해당 단백질의 기능이 정상적으로 작동하거나, 또는 해당 질병을 치료할 수 있다.
일 예로, 상기 이식 유전자는 돌연변이된 유전자를 교정하는 기능을 할 수 있다.
다른 예로, 상기 이식 유전자는 표적 유전자 내 게놈 서열의 발현 조절 기능을 할 수 있다.
일 예로, 상기 이식 유전자는 기존 단백질을 대체하거나 또는 신규한 단백질을 발현시키는 기능을 할 수 있다.
또는, 상기 이식 유전자는 고발현 분비 유전자 내 삽입되어 하나 이상의 표적서열의 일부분 또는 완전한 불활성화시킬 수 있다.
상기 이식유전자는 목적하는 단백질을 암호화하는 유전자일 수 있다.
상기 목적하는 단백질은 신체 내 기능을 향상시키기 위한 단백질일 수 있다. 예를 들어, 대사활동의 기능을 향상할 수 있다.
상기 목적하는 단백질은 질병을 예방하기 위한 단백질 수 있다.
상기 목적하는 단백질은 질병을 경감하기 위한 단백질일 수 있다.
상기 목적하는 단백질은 질병을 치료하기 위한 단백질일 수 있다.
본 명세서에 의해 개시되는 내용의 일 구현예는 간세포를 인위적으로 조작하여 목적하는 단백질을 발현함으로써 질병을 치료하기 위한 것이다.
본 명세서는 질병을 치료하기 위하여 치료 유전자를 고발현 분비 유전자 내에 삽입시켜 해당 유전자를 높은 수준으로 지속적으로 발현시킴으로써, 기존에 수혈 또는 단백질을 일정 기간마다 투여하거나 해당 질병에 관여하는 인자를 억제하는 항체 기반 치료법 등 대체 치료법에서, 영구적, 근본적으로 질병을 치료할 수 있다.
상기 질병은 다음과 같다.
상기 질병은 항체에 의해 예방 또는 치료될 수 있는 질병일 수 있다. 예를 들면 HIV, Alzheimer's disease, Amyotrophic lateral sclerosis 등 질병은 항체를 암호화하는 유전자를 고발현 분비 유전자 내 삽입하여 발현시킴으로써 치료될 수 있다.
상기 질병은 특정 유전자의 발현 감소에 의해 발생하는 질병일 수 있다. 일 예로, 분비되는 유전자 산물의 부족에 의해 야기되는 질병은 부족한 유전자를 고발현 분비 유전자 내 삽입하여 발현시킴으로써 치료될 수 있다.
상기 질병은 특정 유전자의 돌연변이에 의한 정상적인 기능 저해에 의해 발생하는 유전질환일 수 있다. 일 예로, 다양한 단일 유전자상의 돌연변이에 의해 유발되는 질병은 야생형 유전자를 고발현 분비 유전자 내 삽입하여 발현시킴으로써 치료될 수 있다. 예를 들어, 이러한 유전질환은 혈우병 등이 있다.
상기 질병은 유전성 대사 질환과 관련된 질병 일 수 있다.
"유전성 대사질환" 은 우리 몸의 생화학적인 대사 경로를 담당하는 효소나 조효소의 결핍으로 발생하는 질환이다. 정상적으로 꼭 필요한 최종 물질이 생성되지 못하여 결핍 증상이 나타나고 불필요한 전구물질은 다양한 중요 장기(뇌, 심장, 간, 신장 등)에 축적도어 지능 장애와 같은 과잉 증상을 일으키는 것을 말한다.
상기 유전성 대사질환의 일 예는 면역부전증, 고콜레스테롤혈증, Hemophilia , 폐기종, 낭포성 섬유증, 페닐케톤뇨증, 시트룰린혈증(Citrullinemia), 메탈말론산혈증(Methylmalonic Acidemia), 카르니틴팔미토일트란스퍼레이스 결핍증 또는 카르니틴 팔미토일전환효소 결핍증(Carnitine Palmitoyltransferase Deficiency), Hurler syndrome, 오르니틴 트랜스카비미라제 결핍증(Ornithine transcarbamylase deficiency), 또는 테이 삭스 병(Tay-Sachs disease)을 포함한다.
상기 유전성 대사질환의 다른 예는 혈우병A, 혈우병B, 혈우병 C를 포함한다.
예를 들어, 혈우병A는 X염색체에 위치한 F8 유전자의 돌연변이가 일어난 것이고, 혈우병B는 F8 유전자 부근에 위차한 F9 유전자의 돌연변이에 의해 발생한것이며, 혈우병C는 F11 유전자의 돌여변이에 의한 질병이다.
상기 질병은 리소좀 축적병(Lysosomal storage disorders) 일 수 있다.
이때 상기 Lysosomal storage disorders는 Mucopolysaccharidosis, Lysosomal acid lipase deficiency, Glycogen storage diseases, Galactosemia, Sickle cell anaemia, Cystic fibrosis, Tay-Sachs disease, Phenylketonuria, Albinism, Medium-chain acyl-CoA dehydrogenase deficiency, Farber disease, Krabbe disease, Galactosialidosis, Gangliosidosis, Alpha-galactosidase, Fabry disease, Schindler disease, Sandhoff disease, Gaucher Disease, Niemann-Pick disease, Sulfatidosis, Metachromatic Leukodystrophy, Multiple sulfatase deficiency, Hurler Syndrome, Scheie Syndrome, Hurler-Scheie Syndrome, Hunter syndrome, Sanfilippo syndrome, Morquio syndrome, Maroteaux-Lamy syndrome, Sly Syndrome, Hyaluronidase deficiency, Mucolipidosis, Sialidosis, I-cell disease, Pseudo-Hurler Polydystrophy, Mucolipidin 1 deficiency, Lipidosis, Santavuori-Haltia disease, Jansky-Bielschowsky disease, Batten-Spielmeyer-Vogt disease, Kufs disease, Wolman disease, Alpha-mannosidosis, Beta-mannosidosis, Aspartylglucosaminuria, Fucosidosis, Cystinosis, Pycnodysostosis, Salla disease, Infantile Free Sialic Acid Storage Disease, Pompe Disease, Danon disease, 또는 Cholesteryl ester storage disease 일 수 있다.
본 명세서에 의하여 개시되는 내용의 일 구체예로, 상기 공여체에 포함되는 이식유전자는 유전 질환 치료를 위한 치료 유전자일 수 있다.
상기 치료 유전자는 특정 유전 질환의 치료제로 사용될 수 있는 단백질을 암호화할 수 있다.
상기 치료 유전자는 특정 유전질환에 관여하는 질병 유전자(정상 유전자의 돌연변이 형태)의 야생형 유전자(정상 유전자 형태) 또는 야생형 유전자의 일부(예를 들어, 기능적 도메인)를 포함할 수 있다.
구체예로, 상기 치료 유전자는 IDUA, I2S, SGSH, NAGLU, HGSNAT, GNS, GALNS, GLB1, ARSB, GUSB, HYAL, NEU, GNPTAB 및 MCOLN1로 이루어진 군에서 선택된 것일 수 있다.
다른 구체예로, 상기 치료 유전자는 SAH1, GALC, CTSA, GLA, NAGA, beta-galactosidase, hexosaminidase, GBA, SMPD1, ARSA 및 SUMF로 이루어진 군에서 선택된 것일 수 있다.
다른 예를 들어, 상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 NPC, PPT, TPP1, CLN3, CLN6, PPT1, DNAJC5, CTSF, CLN7, CLN8 및 CTSD로 이루어진 군에서 선택된 것일 수 있다.
다른 예를 들어, 상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 GAA 또는 LAMP2 일 수 있다.
다른 예를 들어, 상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 CTNS, CTSK 또는 SLC17A5 일 수 있다.
다른 예를 들어, 상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 MAN2B, MAN2C, MANBA, AGA, FUCA1 및 LAL로 이루어진 군에서 선택된 것일 수 있다.
다른 예를 들어, 상기 치료 유전자, 즉 즉 질병 유발 유전자의 정상 형태,는 methylmalonic aciduria CbIA Type (MMAA) protein, methylmalonic aciduria CbIB Type (MMAB) protein, methylmalonic aciduria CbIC Type (MMADHC) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase Reductase (MTRR) protein, lysosomal membrane protein domain (LMBRD 1) protein, 5-Methyltetrahydrofolate-Homocysteine Methyltransferase (MTR) protein, propionyl-CoA protein, glucose-6-phosphate transporter (G6PT) protein, glucose-6-phosphatase (G6Pase) protein, low density lipoprotein receptor (LDLR) protein, low density lipoprotein receptor adaptor protein 1 (LDLRAP-1 protein), N-acetylglutamate synthetase (NAGS) protein, carbamoyl phosphate synthetase 1 (CPS1) protein, ornthine transcarbamylase (OTC) protein, argininosuccinic acid synthetase (ASS) protein, argininosuccinase acid lyase (ASL) protein, arginase (ARG1) protein, solute carrier family 25 protein, UDP glucuronosyltransferase 1 family, polypeptide A1 (UGT1A1) protein, fumarylacetoacetate hydrolyase (FAH), alanine-glyoxylate aminotransferase (AGXT) protein, glyoxylate reductase/hydroxypyruvate reductase (GRHPR) protein, APTase Cu(2+) transporting beta (ATP7B) protein, phenylalanine hydroxylase (PAH) protein 및 lipoprotein lyase (LPL) protein로 이루어진 군에서 선택된 단백질을 코딩하는 유전자일 수 있다.
다른 예를 들어, 상기 치료 유전자, 즉 질병 유발 유전자의 정상 형태는 FVII, FVIII, FIX, FX, FXI, FXII 및 다른 응고인자들로 이루어진 군에서 선택된 것일 수 있다.
예를 들어, 혈우병의 경우, 이식유전자를 암호화하는 유전자는 APOC3 유전자의 발현 제어 요소에 의해 높은 단백질 발현이 일어나도록 내인성 APOC3 유전자 좌위로 삽입될 수 있다. 이때 FVII, FVIII, FIX, FX, FXI, FXII 등이 높은수준으로 발현되거나, 상기 응고인자 발현에 도움을 주는 임의의 펩타이드 또는 단백질이 높은 수준으로 발현될 수 있다.
일 실시예에서, 상기 치료 유전자는 항체를 암호화하는 유전자일 수 있다.
질병을 유발하는데 관여하는 특정 인자나 signal pathway를 항체에 의해 차단시키는 단백질 또는 폴리펩타이드를 암호화하는 유전자이다.
예를 들어, 알츠하이머(Alzheimer's disease)를 치료하기 위하여 베타 아밀로이드(beta-amyloid)와 결합하는 항체를 암호화하는 유전자일 수 있다.
예를 들어, 에이즈(HIV)를 치료하기 위하여, 뉴클레오시드 유사체(nucleoside analogue reverse transcriptase inhibitors,NRTIs) 중 zidovudine(AZT), Didanosine(ddl), Zalcitabine(ddC), Lamivudine(3TC), Stavudine(d4T), Abacavir(TDF), Emtricitabine(FTC)를 암호화하는 유전자, 또는 비누클레오시드 유사체(non nucleoside analogue reverse transtriptase inhibitors, NNRTIs) 중 Nevirapine(NVP), Efavirenz(EFV)를 암호화하는 유전자, 또는 단백질분해효소 억제제(Protease inhibitors) 중 Sanquinavir(SQV), Ritonavir(RTV), Indinavir(IDV), Nelfinavir(NFV), Lopinavir(LPV), Atazanavir(ATV), Amprenavir(APV)를 암호화하는 유전자일 수 있다.
다른 실시예에서, 상기 치료 유전자는 야생 유전자의 발현을 조절하는 인자를 삽입하여 발현시킴으로써, 야생 유전자의 발현을 증가 또는 감소시킴으로써 유전질환을 치료할 수 있다.
또 다른 실시예에서, 상기 치료유전자는 야생형 유전자의 일부 서열이 삭제, 부가, 또는 치환됨으로써 기능이 향상 또는 새로운 기능을 가진 단백질을 생성함으로써 유전질환을 치료할 수 있을 것이다.
예를 들어, 상기 치료 유전자는 BBB(blood-brain barrier)와 같은 특정한 조직으로의 투과기능이 있는 특정한 펩타이드 또는 치료 유전자의 치료효과를 증대시킬 수 있는 기능성 펩타이드와 fusion 된 형태일 수 있다.
본 명세서에 의해 개시되는 내용의 일 구현예는, 상기 공여체는 이식 유전자의 표적 게놈 내 삽입 및/또는 합성을 위한 유전자를 더 추가로 포함할 수 있다.
상기 표적 게놈 내 이식 유전자의 삽입 및/또는 합성은 상동성 재조합(HDR) 또는 비상동성 재조합(NHEJ)에 의해 일어날 수 있다.
상기 용어 "재조합은", 비상동성 재조합 (NHEJ) 및 상동성 재조합(HDR)에 의한 이식유전자 삽입을 포함하는 두 폴리뉴클레오타이드 간의 유전 정보의 교환 과정을 말한다.
본 명세서 개시하고 있는 "비 상동성 재조합(NHEJ)"은 서열 상동성을 공유하지 않거나 자리-특이적 재조합 서열에서 나타나지 않는 DNA의 서열 사이에 일어나는 교환의 특수화된 형태를 말한다.
이때 이식 유전자는 비 상동성 재조합에 의해 고발현 분비 유전자에 삽입될 수 있다.
예를 들어, 상기 이식유전자의 일부 서열과 표적 유전자의 일부 서열이 동일한 경우 같은 자리 특이적 핵산 분해효소에 의하여 동일한 일부 서열이 절단 될 수 있고, 비상동성 재조합에 의해 이식 유전자는 표적 유전자의 절단된 서열 또는 인접한 부위에 삽입될 수 있다.
본 명세서 개시하고 있는 "상동성 재조합(HDR)"은, 예를 들어 상동성-지향 수선 매커니즘을 통해 세포에서 이중 가닥 절단 수선하는 동안 일어나는 이러한 교환의 특수화된 형태를 말한다.
상기 공여체 서열은 이식 유전자의 상동성 재조합을 위해 상동성 암(homology arm)을 포함할 수 있다.
상기 상동성 암(homology arm)은 표적서열 또는 그와 인접한 서열과 동일하거나 또는 상보적 서열을 함유할 수 있다.
상기 상동성 암은 표적서열 또는 그와 인접한 서열과 상동성이지만 동일하지 않은 서열을 함유 하거나 또는 표적서열과 상보적이지만 완전히 상보적이지 않은 서열을 함유 할 수 있다.
상기 고발현 분비 유전자에 상동성 또는 동일한 서열을 가지는 상동성 암의 핵산 서열에 하나 이상의 mismatch된 염기서열을 포함할 수 있다.
임의의 실시형태에서, 표적서열에 상동성인 공여체 서열의 대부분은 대체되는 게놈 서열에 대하여 약 80 내지 99%(또는 이 사이의 임의의 값) 서열 동일성을 나타낸다.
상기 상동성 암은 상동성 재조합을 가능하도록 하여 표적서열 내 동일하지 않은 서열, 즉, 이식 유전자를 삽입할 수 있다.
예를 들어, 상기 가이드핵산 및 에디터 단백질에 의해 이중가닥이 파괴된 영역에 공여체 서열과 상동성인 서열이 존재한다면, 그 상동성 서열 옆에 이식 유전자 서열은 상동성 재조합에 의해 이식 유전자가 삽입될 수 있다.
상기 공여체 분자는 고발현 분비 유전자와 상동성인 여러 개의 비연속적인 영역을 함유할 수 있다.
상기 공여체 서열에 포함되는 상동성 암은 고발현 분비 유전자의 절단 위치의 일 방향(예를 들어, upstream)의 핵산 서열과 상동성을 가지는 핵산서열을 포함할 수 있다.
상기 공여체 서열에 포함되는 상동성 암은 고발현 분비 유전자의 절단 위치의 다른 방향(예를 들어, downstream)의 핵산서열과 상동성을 가지는 핵산서열을 포함할 수 있다.
상기 공여체 서열에 포함되는 상동성 암은 고발현 분비 유전자의 절단 위치의 upstream 및 downstream 의 핵산서열과 각각 상동성을 가지는 핵산서열을 포함할 수 있다.
예를 들어, 표적서열내 절단위치로부터 양쪽으로 30bp이상 떨어진 자리에 이식유전자를 삽입할 경우, 상기 공여체 서열에서 이식유전자 양 말단은 절단로부터 30bp 각각 떨어진 위치에 존재하는 유전자 서열과 상동성을 가지거나 또는 동일한 서열을 가지는 상동성 암(arm)을 포함한다.
이러한 상동성 암은 최소한 각각 15bp 내지 약 3kB (예를 들어, 약 800, 850, 900, 950, 1000, 1100, 1200b 또는 bp길이 )를 함유할 수 있다.
일 예에서, 상기 상동성 암은 각각 500 내지 1500bp의 길이를 가질 수 있다. 바람직하게, 상기 상동성 암은 각각 800 내지 1200bp의 길이를 가질 수 있다.
일반적으로 상동성 암은 단일 또는 이중 가닥 올리고뉴클레오타이드로 제공될 수 있다. 예시적 단일 또는 이중 가닥 주형 올리고 뉴클레오타이드는 800,850, 900, 950, 1000, 150, 1100, 1150, 1200 b 또는 bp길이, 또는 적어도 약 800, 약850, 약900, 약950, 약1000, 약1050, 약1100, 약1150, 약1200, 약1250 b 또는 bp 길이이다.
또한, 본 명세서에 의해 개시되는 내용의 일 구현예에서, 상기 공여체는 이식 유전자 외 전사, 발현을 조절하는 유전자를 더 포함할 수 있다.
상기 공여체는 하나 이상의 유전자 또는 cDNA 분자를 포함하며, 암호화 또는 비암호화 영역을 포함할 수 있다.
상기 공여체는 유전자 전사, 발현을 제어하는 조절서열, 즉 인핸서, 인슐레이터, 내부 리보솜 유입점, 2A 펩타이드 및/또는 폴리 아데닐화 신포, 프로모터 등을 암호화하는 서열을 포함할 수 있다.
또한 상기 공여체는 리포터 유전자(예를 들어, GFP) 또는 선택마커 (selection marker)등을 추가적으로 포함할 수 있다.
공여체 서열에 의한 이식 유전자의 고발현 분비 유전자 내 삽입은 공여체 내 서열과 고발현 분비 유전자내 표적서열과의 상동성 영역의 유무, 및 이의 사용 여부에 의하여 결정될 것이다.
[전달 및 전달 방법]
본 명세서에 의해 개시되는 내용의 일 구현예서, 가이드 핵산, 에디터 단백질 및/또는 공여체 분자는 이를 암호화하는 서열을 함유하는 벡터, 비벡터 또는 이들의 조합에 의해 대상 내로 전달 또는 도입될 수 있다.
상기 가이드 핵산은 DNA, RNA, 또는 이의 혼합의 형태로 대상 내에 전달 또는 도입될 수 있다.
상기 에디터 단백질은 에디터 단백질을 암호화하는 DNA, RNA, DNA/RNA 혼합, 펩타이드, 폴리펩타이드 또는 단백질의 형태로 대상 내에 전달 또는 도입 될 수 있다.
상기 공여체는 DNA, RNA 또는 단일가닥 올리고뉴클레오타이드 DNA 주형(ssODT)의 형태로 대상 내에 전달 또는 도입 될 수 있다.
예를 들어, 대상 내로 공여체가 전달 또는 대입될 경우, 재조합에 의해 이식유전자 모두 또는 부분이 표적 유전자로 삽입될 수 있다.
상기 가이드핵산, 에디터 단백질 및/또는 공여체는 다양한 형태로 대상 내에 전달 될 수 있다.
상기 가이드핵산, 에디터 단백질 및/또는 공여체는 벡터로 전달 될 수 있다.
이때 벡터는 바이러스 벡터 또는 비바이러스벡터일 수 있다.
상기 가이드핵산, 에디터 단백질 및/또는 공여체는 비벡터로 전달될 수 있다.
(1) 벡터
상기 벡터는 바이러스 또는 비바이러스 벡터(예를 들어, 플라스미드)일 수 있다.
용어 "벡터"는 세포에 유전자 서열을 전달 할 수 있다. 전형적으로 "벡터 구조체", "발현 벡터", 및 "유전자 전달 벡터"는 관심의 유전자의 발현을 지시할 수 있고 표적 세포에 유전자 서열을 전달할 수 있는 임의의 핵산 구조체를 의미한다. 따라서, 상기 용어는 클로닝, 및 발현 비히클뿐만 아니라 벡터를 통합하는 것을 포함한다.
상기 벡터는 가이드핵산, 에디터단백질 및/또는 공여체를 암호화하는 핵산서열을 포함할 수 있다.
이때 가이드핵산, 에디터단백질 및/또는 공여체는 DNA, RNA 또는 혼합의 형태일 수 있다.
상기 가이드핵산, 에디터단백질 및/또는 공여체는 동일 또는 상이한 벡터를 사용하여 전달될 수 있다. 예를 들어, 공여체는 플라스미드에 의해 운반될 수 있는 한편, 가이드핵산 및/또는 에디터단백질은 하나 이상의 바이러스 벡터에 의해 운반될 수 있다.
상기 가이드핵산, 에디터단백질 및/또는 공여체는 하나 이상의 벡터로 전달 또는 도입될 수 있다.
일 예로, 상기 가이드핵산, 에디터단백질 및/또는 공여체는 동일한 하나의 벡터로 전달 또는 도입될 수 있다.
다른 예로, 상기 가이드핵산과 에디터단백질은 각각 뉴클레오타이드 서열의 형태로 하나의 벡터에 동시에 포함될 수 있으며, 공여체는 상이한 벡터로 전달 또는 도입될 수 있다.
일 예로, 가이드핵산과 공여체 폴리뉴클레오타이드는 하나의 벡터에 동시에 포함될 수 있으며, 에디터단백질은 뉴클레오타이드 서열의 형태로 상이한 벡터로 전달 또는 도입될 수 있다.
다른 예로, 에디터단백질과 공여체는 각각 뉴클레오타이드 서열의 형태로 하나의 벡터에 동시에 포함될 수 있으며, 가이드핵산은 상이한 벡터로 전달 또는 도입될 수 있다.
예를 들어, 가이드핵산, 에디터단백질 및/또는 공여체는 각각 상이한 벡터에 포함될 수 있다.
상기 가이드 핵산에 포함되는 도메인은 하나의 벡터에 모두 포함되거나 또는 각각의 도메인을 나누어 각각의 벡터에 포함시킬 수 있다.
상기 에디터 단백질의 경우, 에디터 단백질을 암호화하는 핵산서열은 하나의 벡터에 포함되거나 또는 에디터단백질을 암호화하는 핵산서열이 분할되어 여러 개의 벡터에 포함될 수 있다.
상기 벡터는 하나 이상의 조절/제어 구성요소를 포함할 수 있다.
이때 상기 조절/제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화 신호, 코작 공통(Kozak consensus)서열, 내부 리보솜 유입 부위(internal ribosome entry site, IRES), 스플라이스 억셉터 및/또는 2A 서열을 포함할 수 있다.
또한 벡터는 리포터 유전자(예를 들어, GFP) 또는 벡터를 함유하는 숙주 세포를 선택하기 위한 선택마커(selection marker), 복제가능한 벡터의 경우 복제 기원을 추가적으로 포함할 수 있다.
상기 벡터는 이식유전자 왼쪽, 오른쪽 또는 인접한 위치에 Splicing Acceptor (SA)시퀀스를 포함한다.
상기 프로모터는 표적 영역 내 내인성 프로모터 또는 외인성 프로모터 일수 있다.
상기 프로모터는 RNA 중합효소 II 또는 RNA 중합효소 III에 의해 인식되는 프로모터 일 수 있다.
상기 프로모터는 구성적 프로모터일 수 있다.
상기 프로모터는 유도성 프로모터일 수 있다.
상기 프로모터는 대상 특이적 프로모터 일 수 있다.
상기 프로모터는 바이러스 또는 비바이러스 프로모터 일 수 있다.
상기 프로모터는 제어 영역(즉, 가이드핵산, 에디터단백질 또는 이식유전자)에 따라 적합한 프로모터를 이용할 수 있다. 예를 들어, 가이드핵산을 위해 유용한 프로모터는 H1, EF-1a, tRNA 또는 U6 프로모터일 수 있다.
예를 들어, 에디터단백질을 위해 유용한 프로모터는 CMV, EF-1a, EFS, MSCV, PGK 또는 CAG 프로모터일 수 있다. 예를들어, 이식 유전자를 위해 유용한 프로모터는 APOC3 또는 HP 프로모터일 수 있다.
벡터는 바이러스 벡터 또는 재조합 바이러스 벡터일 수 있다.
상기 바이러스는 DNA 바이러스 또는 RNA 바이러스일 수 있다.
이때, 상기 DNA 바이러스는 이중가닥 DNA(dsDNA) 바이러스 또는 단일가닥 DNA(ssDNA)바이러스 일 수 있다.
이때 상기 RNA 바이러스는 단일가닥 RNA(ssRNA)바이러스 일 수 있다.
상기 바이러스 벡터는 레트로 바이러스 벡터, 렌티 바이러스 벡터 아데노 바이러스 벡터, 폭스 바이러스 벡터, 헤르페스 바이러스 벡터, 단순 포진 바이러스, 백시니아바이러스 및 아데노 연관바이러스 벡터(AAV) 등을 포함하지만 이에 제한되는 것은 아니다.
바이러스를 이용하여 가이드핵산, 에디터 단백질 및/또는 공여체 분자를 대상 유기체에 도입할 경우, 대상체 내에서 일시적으로 발현될 수 있다. 또는 장기간 지속적으로 발현될 수 있다. 예를 들어 1주, 2주, 3주, 1개월, 2개월, 3개월, 4개월, 5개월, 6개월, 1년, 2년, 또는 영구적으로 발현될 수 있다.
바이러스 패키징 능력은 적어도 2kb 내지 50kb로 바이러스 종류에 따라 다를 수 있다. 이러한 패키징 능력에 따라 가이드핵산 또는 에디터단백질을 단독으로 포함하는 바이러스 벡터를 설계하거나 가이드핵산 및 에디터단백질을 모두 포함하는 바이러스 벡터를 설계할 수 있다. 또는 가이드핵산, 에디터단백질 및 추가 구성요소를 포함하는 바이러스 벡터를 설계할 수 있다.
예를 들어, 레트로바이러스 벡터는 최대 6 내지 10kb의 외래 서열에 대한 패키징 능력을 가지며, 시스(cis)-작용 긴말단반복순서(long terminal repet:LTR)로 구성된다. 레트로바이러스 벡터는 세포 내 치료 유전자를 삽입시키며 영구적인 이식유전자의 발현을 제공한다.
다른 예로, 아데노연관 바이러스 벡터는 세포분열 여부에 상관없이 다양한 세포(근육, 뇌, 간, 폐, 망막, 귀, 심장, 혈관)에 형질도입 효율이 매우 높고, 병원성이 없으며 바이러스 게놈 대부분이 치료유전자에 의해서 대치될 수 있어 면역반응을 유도하지 않아 반복투여가 가능하다. 또한 AAV는 대상세포의 염색체 내로 삽입됨으로써 치료단백질이 장기간 안정적으로 발현된다. 예를 들어 핵산 및 펩타이드의 시험관 내 생성하여 생체내 및 생체외에서 세포의 표적핵산으로 형질 도입하는데 사용하기 유용하다. 다만 AAV는 크기가 작아 4.5kb이하의 패키징 능력을 가진다.
일 예로, 가이드핵산, 에디터 단백질 및/또는 공여체분자를 암호화하는 핵산서열은 재조합 렌티바이러스에 의해 대상 내 전달 또는 도입될 수 있다.
다른 일 예로, 가이드핵산, 에디터 단백질 및/또는 공여체 분자를 암호화하는 핵산서열은 재조합 아데노 바이러스에 의해 전달 또는 도입될 수 있다.
일 예로, 가이드핵산, 에디터 단백질 및/또는 공여체 분자를 암호화하는 핵산서열은 재조합 AAV 에 의해 전달 또는 도입될 수 있다.
상기 벡터는 핵산의 phosphorothioate linkage, locked nucleic acid(LNA), 2'-O-methyl 3'phosphorothioate(MS) 또는 2'-O-methyl 3'thioPACE(MSP) 변형되는 것을 포함할 수 있다.
상기 가이드핵산, 에디터단백질 및/또는 공여체분자를 암호화하는 핵산서열은 비바이러스 벡터에 의해 전달 또는 도입 될 수 있다.
비 바이러스벡터는 가이드핵산, 에디터단백질 및/또는 공여체분자를 암호화하는 핵산서열을 포함할 수 있다.
예를 들어 비바이러스 벡터는 플라스미드가 있으며, 이때, 추가적으로 리포터 유전자(reporter gene), 핵 표적화 서열(nuclear targeting sequence)를 포함할 수 있다. 그 외 기타 몇몇 다른 첨가제를 포함할 수 있다.
(2) 비벡터
상기 가이드핵산, 에디터 단백질 및/또는 공여체 분자는 비벡터 형태로 대상 내 전달 또는 도입될 수 있다.
가이드핵산, 에디터단백질 및/또는 공여체 분자를 암호화하는 핵산서열은 비벡터로 대상 내 전달 또는 도입될 수 있다.
상기 비벡터는 네이키드 DNA, DNA 복합체, mRNA 또는 이의 혼합일 수 있다.
상기 비벡터는 전기천공법(Electroporation), 리포펙션, 미세주입법, 유전자총법, 비로좀, 리포좀(Liposome), 면역리포좀, 지질-매개 형질감염 또는 이의 조합에 의해 대상 내로 전달 또는 도입될 수 있다.
일 예로, 양성 리포좀 방법에 의해 비벡터로 대상 내 전달 될 수 있다. 이는 양성 amphiphile과 중성 helper 지질이 DPOE로 구성되어 안정한 리포좀을 형성한다. 이때 리포좀-DNA복합체는 + 전하를 띠고 있어 - 전하를 띠고 있는 세포표면에 결합하여 세포 흡수작용에 의해 세포내로 유입될 수 있다.
다른 일 예로, DNA를 금입자로 코팅하여 세포내로 주입할 수 있다.
추가적으로, 엔진아씨 전달 비히클(EnGeneIC delivery vehicles: EDV)로 전달될 핵산을 패키징하여 전달 또는 도입할 수 있다. 구체적으로, EDV는 항체의 하나 팔은 표적 조직에 특이성을 가지고, 다른 팔은 EDV에 특이성을 가지는 이중 특이성 항체를 사용하여 표적조직으로 전달한다. 항체는 표적 세포 표면으로 EXV를 가져가고, 그 후 EDV는 엔도시토시스(endocytosis)에 의해 세포 내로 들어가 갈 수 있다.
상기 가이드 핵산 -에디터 단백질 복합체를 형성하여 핵산과 단백질 혼합의 형태로 대상 내 전달 또는 도입될 수 있다.
상기 가이드핵산 및 에디터단백질은 핵산-단백질 혼합의 형태로 대상 내로 전달 또는 도입될 수 있다.
또는 상기 가이드핵산 및 에디터단백질은 가이드핵산-에디터단백질 복합체의 형태로 대상 내로 전달 또는 도입될 수 있다.
상기 가이드핵산은 DNA, RNA 또는 이의 혼합 형태일 수 있다. 또한 상기 에디터 단백질은 폴리뉴클레오티드 또는 단백질 형태일 수 있다.
일 구현예에서, 가이드핵산 및 에디터단백질은 RNA 형태의 가이드핵산과 단백질 형태의 에디터 단백질이 가이드핵산-에디터단백질 복합체, 즉 ribonucleoprotien(RNP)의 형태로 대상 내 전달 또는 도입될 수 있다.
(3) 전달 방법
생체 내 전달 방법
상기 가이드핵산, 에디터단백질은 이를 암호화하는 핵산서열을 함유하는 벡터 또는 비 벡터의 형태, 또는 가이드핵산-에디터 단백질 복합체(ribonucleoprotein(RNP))인 형태로 대상 내에 직접 투여될 수 있다.
또한, 상기 공여체 분자는 가이드핵산 및/또는 에디터단백질과 함께 또는 각각, 이를 암호화하는 핵산서열을 함유하는 벡터 또는 비 벡터의 형태로 대상 내에 직접 투여될 수 있다.
상기 투여는 전신 투여 또는 국소 적용에 의해 대상 내로 전달 또는 도입될 수 있다. 다만 이에 제한되는 것은 아니다.
상기 전신 투여는 예를 들어 정막 내, 복강 내, 근육 내, 또는 피하 내 주입될 수 있다. 바람직하게 정막 내 전신 투여 일 수 있다.
상기 가이드핵산, 에디터 단백질 및/또는 공여체 분자가 둘 이상의 상이한 벡터에 포함된 경우, 상이한 경로(근육내 주사, 꼬리 정맥주사, 다른 정맥내 주사 및/또는 복강내 주사)에 의해 투여될 수 있다.
또한, 상기 둘 이상의 상이한 벡터에 표함된 경우 동시에 또는 임의의 순차적인 순서로 전달될 수 있다.
생체 외 전달방법
상기 가이드핵산, 에디터단백질 및/또는 공여체 분자는 개별적인 대상으로부터 외식된 세포 또는 보편적인 조혈 줄기세포로 전달 된 다음, 대상에 세포를 재 이식할 수 있다.
상기 전달 방법은 i) 가이드핵산, 에디터단백질 및/또는 공여체 분자를 세포 에 접촉하는 단계 ii) 상기 접촉된 세포를 대상 내 직접 투여하는 단계로 나누어 대상 내 전달될 수 있다.
구체 예로, 상기 세포 내 접촉단계는 가이드핵산 및 에디터단백질이 이를 암호화하는 핵산서열을 함유하는 벡터 또는 비벡터의 형태이거나 또는 가이드핵산-에디터 단백질 복합체(ribonucleoprotein(RNP)인 형태로 세포 내 도입될 수 있다. 또한, 상기 공여체 분자는 가이드핵산 및/또는 에디터단백질과 함께 또는 각각, 이를 암호화하는 핵산서열을 함유하는 벡터 또는 비 벡터의 형태로 세포 내에 도입될 수 있다.
예를 들어, 비 벡터의 형태로 세포 내 도입되는경우, 상기 접촉시키는 i) 단계는 전기천공법 (electroporation), 리포좀, 나노파티클(nanoparticles) 및 PTD (Protein translocation domain) 융합 단백질 방법 중 선택되는 1이상의 방법으로 수행될 수 있다.
다른 예로, 벡터의 형태로 세포 내 도입되는 경우, 상기 접촉시키는 i) 단계는 비 바이러스 벡터인 플라스미드 또는 바이러스 벡터 중 선택되는 1이상의 방법으로 수행될 수 있다.
상기 ii) 단계는 i)단계에서 접촉된 세포를 직접 대상 내 투여하는 것으로서, 전신 투여 또는 국소 적용에 의해 대상 내로 전달 또는 도입될 수 있다. 다만 이에 제한되는 것은 아니다.
상기 전신 투여는 예를 들어 정막 내, 복강 내, 근육 내, 또는 피하 내 주입될 수 있다. 바람직하게 정막 내 전신 투여 일 수 있다.
본 명세서에 의하여 개시되는 내용은 가이드핵산, 에디터단백질 및/또는 공여체의 대상 내 도입 또는 전달함으로써 변형된 대상을 포함한다.
상기 변형된 대상은 간 세포 게놈 내 이식유전자를 삽입시킴으로써 수득할 수 있다.
일 구체예는 인위적으로 조작된 간세포이다.
상기 변형된 간세포는 인위적으로 조작된 고발현 분비 유전자를 포함하는 간세포일 수 있다.
상기 인위적으로 조작된 고발현 분비 유전자는 고발현 분비 유전자 내 이식 유전자가 삽입된 유전자일 수 있다.
상기 인위적으로 조작된 유전자는 고발현 분비 유전자 암호화 영역에 이식유전자가 들어가있는 형태일 수 있다.
일 예로, 상기 이식 유전자는 고발현 분비 유전자의 엑손 영역에 있을 수 있다.
예를 들어, 고발현 분비 유전자 중 APOC3 유전자의 코딩서열에는 exon1, exon2, exon3, exon4가 존재한다.
상기 이식유전자는 APOC3 유전자의 exon1에 있을 수 있다.
상기 이식유전자는 APOC 유전자의 exon2에 있을 수 있다.
상기 이식유전자는 APOC 유전자의 exon3에 있을 수 있다.
상기 이식유전자는 APOC 유전자의 exon4에 있을 수 있다.
다른 예로, 고발현 분비 유전자 중 HP 유전자의 코딩서열에는 exon1, exon2, exon4, exon4, exon5가 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 exon1에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 exon2에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 exon3에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 exon4에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 exon5에 있을 수 있다.
또한, 인위적으로 조작된 유전자는 고발현 분비 유전자 비암호화 영역에 이식유전자가 들어가있는 형태일 수 있다.
상기 이식유전자는 프로모터, 인핸서, 인트론, 3'UTR, 폴리아데닐(polyA) 또는 이의 혼합 부분에 위치하는 영역에 삽입될 수 있다.
일 예로, 상기 이식 유전자는 고발현 분비 유전자의 인트론 영역에 삽입될 수 있다.
예를 들어, 고발현 분비 유전자 중 APOC3 유전자의 코딩서열은 3개의 인트론 intron1, intron2, intron3이 끼어들어 있다.
이때 상기 이식유전자는 APOC3 유전자의 intron1에 있을 수 있다.
이때 상기 이식유전자는 APOC3 유전자의 intron2에 있을 수 있다.
이때 상기 이식유전자는 APOC3 유전자의 intron3에 있을 수 있다.
다른 예로, 고발현 분비 유전자 중 HP 유전자의 코딩서열에는 inron1, intron2, intron3, intron4이 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 intron1에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 intron2에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 intron3에 있을 수 있다.
이때 상기 이식유전자는 HP 유전자의 intron4에 있을 수 있다.
상기 이식유전자는 엑손, 인트론 또는 이 두 영역에 동시에 걸쳐서 삽입될 수 있다.
일 예로, 상기 이식유전자는 APOC3 유전자의 exon과 intron 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 APOC3 유전자의 exon1과 intron1 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 APOC3 유전자의 intron1과 exon2 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 APOC3 유전자의 exon2와 intron2 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 APOC3 유전자의 intron2와 exon3 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 APOC3 유전자의 exon3와 intron3 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 APOC3 유전자의 intron3와 exon4 영역 모두 걸쳐서 있을 수 있다.
다른 예로, 상기 이식유전자는 HP 유전자의 exon과 intron영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 exon1과 intron1 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 intron1과 exon2 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 exon2 과 intron2영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 intron2과 exon3 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 exon3과 intron3 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 intron3과 exon4 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 exon4과 intron4 영역 모두 걸쳐서 있을 수 있다.
상기 이식유전자는 HP 유전자의 intro4과 exon5 영역 모두 걸쳐서 있을 수 있다.
또한, 상기 이식유전자는 고발현 분비유전자의 돌연변이 부분(예를 들면, 야생형 유전자와 다른 부분)이 포함되어 있는 영역에 삽입될 수 있다.
또한, 상기 이식유전자는 고발현 분비 유전자의 핵산 서열 내의 PAM(proto-spacer-adjacent Motif) 서열의 5'말단 및/또는 3'말단에 인접한 연석하는 10 내지 35개의 뉴클레오타이드 서열 내에 삽입될 수 있다.
이때, 상기 PAM 서열은 예를 들어, 하기의 서열 중 1 이상일 수 있다(5'에서 3'방향으로 기재함).
NGG(N은 A, T, C 또는 G임);
NNNNRYAC(N은 각각 독립적으로 A, T, C 또는 G이고, R은 A또는 G이고, Y는 C또는 T임);
NNAGAAW(N은 각각 독립적으로 A, T, C 또는 G이고, W는 A 또는 T임);
NNNNGATT(N은 각각 독립적으로 A, T, C 또는 G임);
NNGRR(T)(N은 각각 독립적으로 A, T, C 또는 G이고, R은 A 또는 G이고, Y는 C 또는 T임); 및
TTN(N은 A, T, C 또는 G임).
이때 상기 이식 유전자는 10 내지 35개의 뉴클레오타이드 서열, 15 내지 35개의 뉴클레오타이드 서열, 20 내지 35개의 뉴클레오타이드 서열, 25 내지 35개의 뉴클레오타이드 서열 또는 30 내지 35개의 뉴클레오타이드 서열 내 있을 수 있다.
또는 상기 이식 유전자는 10 내지 15개의 뉴클레오타이드 서열, 15내지 20개의 뉴클레오타이드 서열, 20 내지 25개의 뉴클레오타이드 서열, 25 내지 30개의 뉴클레오타이드 서열, 또는 30 내지 35개의 뉴클레오타이드 서열 내 있을 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 HP 유전자의 핵산서열 내의 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
다른 예로, 상기 이식 유전자는 APOC3 유전자의 핵산서열 내의 PAM 서열의 5' 말단 및/또는 3' 말단에 인접한 연속하는 10 내지 25개의 뉴클레오타이드 서열 내 있을 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 APOC3 유전자의 핵산서열 내의 5'-NGG-3', 5'-NAG-3' 또는/및 5'-NGA-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 APOC3 유전자의 핵산서열 내의 5'-NGGNG-3' 또는/및 5'-NNAGAAW-3' (W = A 또는 T이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 서열 내에 이식유전자가 있을 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 APOC3 유전자의 핵산서열 내의 5'-NNNNGATT-3' 또는/및 5'-NNNGCTT-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NNNVRYAC-3' (V = G, C 또는 A; R = A 또는 G 이며, Y = C 또는 T 이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 서열 내에 이식유전자가 있을 수 있다.
다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 APOC3 유전자의 핵산서열 내의 5'-NAAR-3'(R = A 또는 G이며, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 서열 내에 이식유전자가 있을 수 있다.
또 다른 일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-NNGRR-3', 5'-NNGRRT-3' 또는/및 5'-NNGRRV-3' (R = A 또는 G이며, V = G, C 또는 A이고, N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드 내에 이식유전자가 있을 수 있다.
일 구체예로서, 에디터단백질이 인식하는 PAM 서열이 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C)인 경우, 상기 표적서열은 APOC3 유전자의 핵산서열 내의 5'-TTN-3' (N= A, T, G 또는 C; 또는 A, U, G 또는 C) 서열의 5' 말단 또는/및 3' 말단에 인접하여 위치하는 연속하는 10 내지 25개의 뉴클레오타이드서열 내에 이식유전자가 있을 수 있다.
상기 변형된 간세포는 인위적으로 조작된 고발현 분비유전자에 의해 발현되는 단백질(이하 "인위적 발현 단백질"이라고 함)을 포함하는 간세포일 수 있다.
상기 인위적 발현 단백질은 고발현 분비 유전자 및/또는 이식 유전자가 발현하는 것을 포함한다.
일 예로, 상기 간세포는 이식유전자가 발현되어 생성된 단백질을 포함할 수 있다.
다른 예로, 상기 간세포는 이식유전자가 발현되어 생성된 단백질 및 인위적으로 조작된 고발현 분비 유전자가 발현되어 생성된 단백질 모두를 포함할 수 있다.
또한, 고발현 분비 유전자는 인위적 조작에 의하여 발현량이 조절될 수 있다.
일 예로, 상기 고발현 분비 유전자는 인위적으로 조작되기 전보다 발현량이 증가할 수 있다.
다른 예로, 상기 고발현 분비 유전자는 인위적으로 조작되기 전보다 발현량이 감소할 수 있다.
또한, 발현된 목적단백질은 간세포 내 존재하는 유전자의 야생형 단백질일 수 있다.
일 예로, 간세포 내 일정 수준 이하로 발현하던 단백질은 목적단백질 발현에 의해 증가된 발현량을 가질 수 있다.
다른 예로, 상기 간세포 내 존재하는 유전자가 돌연변이가 일어난 형태로 정상적 기능을 하지 못하는 경우, 야생형유전자를 발현시킴으로써 정상적인 기능을 가질 수 있다. 이 경우, 간세포 내에 돌연변이형 단백질과 야생형 단백질이 모두 존재할 수 있다. 또는 간세포 내에 돌연변이형 단백질은 발현하지 않고, 야생형단백질만 발현할 수 있다.
또한, 발현된 목적단백질은 간세포에서 발현되지 않는 새로운 단백질일 수 있다.
일 예로, 발현된 목적단백질은 치료용 단백질일 수 있다. 이때 치료용 단백질은 간세포 내에서 자연적으로 발현되지 않는 단백질이며, 유전질환을 포함한 질병을 치료, 경감 또는 예방하는데 사용될 수 있다.
상기 발현된 목적단백질은 돌연변이형 (야생형 단백질이 일부 변형된) 단백질일 수 있다.
일 예로, 상기 발현된 목적단백질은 일부 야생형 유전자의 일부 뉴클레오타이드가 변형되어 발현되는 단백질일 수 있다.
예를 들어 돌연변이형 단백질은 야생형 단백질보다 일부 기능이 향상된 것일 수 있다.
상기 발현된 목적단백질은 융합형태의 단백질일 수 있다.
일 예로, 목적단백질은 외래유전자와 대상 내 내인성 유전자의 결합하여 발현된 융합단백질일 수 있다.
다른 예로, 목적단백질은 외래유전자와 외래유전자의 결합으로 발현된 융합단백질일 수 있다.
예를 들어, 목적단백질은 다른 내인성 유전자끼리 결합하여 발현된 융합단백질일 수 있다.
따라서, 본 명세서에서 개시되는 내용은 인위적으로 조작된 고발현 분비 유전자에 의하여 변형된 간세포를 포함한다..
또한, 본 명세서에서 개시되는 내용은 상기 변형된 간세포에 의하여 변형된 간조직을 포함한다.
또한, 본 명세서에서 개시되는 내용은 상기 변형된 간조직에 의하여 변형된 간을 포함한다.
이때 변형은 일부 또는 전부 변형된 것일 수 있다.
[목적하는 단백질 발현 방법]
본 명세서에 의하여 개시되는 내용의 일 구현예는, 간에서 목적하는 단백질을 발현하기 위한 방법에 관한 것이다.
상기 방법은 생체 내, 생체 외 또는 시험관내에서 이루어질 수 있다.
일부 실시 형태에서, 방법은 i) 인위적으로 조작된 뉴클레아제 및 이식유전자를 장기, 조직 또는 세포에 도입하는 단계를 포함한다.
일 구현예에서, 상기 i) 단계로서
(a) 고발현 분비 유전자 군에서 선택된 하나이상의 유전자의 핵산 서열에 상보적 결합을 형성하거나 동일한 서열을 가진 가이드 핵산;
(b) 에디터 단백질 또는 이를 암호화하는 핵산; 및
(c)이식유전자를 포함하는공여체
를 대상에 도입하는 단계를 포함할 수 있다.
상기 고발현 분비 유전자 FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, 및 F9에서 선택된 하나 이상의 유전자일 수 있다. 바람직하게 APOC3 또는 HP유전자일 수 있다.
상기 (a) 가이드 핵산은 서열번호 1 내지 348번 표적서열과 동일한 서열 또는 상보적 결합을 형성할 수 있는 가이드 핵산을 포함하며,
상기 (b) 에디터 단백질은 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 유래의 Cas9 단백질, 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis)유래의 Cas9 단백질, 및 Cpf1 단백질로 이루어진 군에서 선택된 하나 이상인 에디터단백질을 포함할 수 있다.
상기(c) 이식유전자는 목적하는 단백질을 암호화하는 유전자 일 수 있다. 예를 들어 치료 유전자일 수 있다.
상기 치료 유전자 관련 설명은 상기 기술한 바와 같다.
상기 유전자 조작용 조성물 관련 설명은 상기 기술한 바와 같다.
상기 대상 내 도입하는 단계는 생체내(in vivo)에서 수행되는 것일 수 있다.
이때, 상기 (a), (b), (c)는 벡터 또는 비벡터에 의해 전달 될 수 있다.
상기 벡터, 비벡터 및 전달 방법에 관한 설명은 상기 기재한 설명과 동일하다.
상기 간에서 목적하는 단백질을 발현하기 위한 방법은 상기 i) 단계로 인해 변형된 장기, 조직 또는 세포에서 이식 유전자 발현을 확인하는 단계를 추가로 더 포함할 수 있다.
이때, 상기 ii) 단계에서,
상기 i) 단계로 인해 변형된 장기 또는 조직은 자연 상태에서 존재하는 장기 또는 조직의 게놈 내에 이식유전자가 삽입된 장기 또는 조직일 수 있다.
상기 i) 단계로 인해 변형된 장기 또는 조직은 이식유전자를 포함할 수 있다.
이때 상기 변형된 장기 또는 조직에 포함된 이식유전자는 변형된 장기 또는 조직에서 발현될 수 있다.
상기 변형된 장기 또는 조직에서 이식 유전자의 발현은 이식유전자의 mRNA 또는 단백질의 발현으로 확인할 수 있다.
상기 이식유전자의 mRNA 발현을 확인하는 방법으로 PCR을 이용할 수 있다.
상기 이식 유전자의 단백질 발현을 확인하는 방법으로 웨스턴 블롯, ELISA, IP 등을 이용할 수 있다.
다른 예로, 상기 방법은 생체 외 또는 시험관내에서 이루어질 수 있다. 이때 상기 목적하는 단백질을 발현하기 위한 방법으로 인위적으로 조작된 간세포를 제조하는 방법일 수 있다.
일 구현예에서, 상기 방법은
(a) 동물세포; 및
(b) 고발현 분비 유전자 ALB, FTL, FTH1, ACTB, HP, APOC3, SOD2, ORM1, 및 F9 중 선택된 하나 이상의 유전자에 인위적으로 이식유전자를 삽입하기 위한 유전자 조작용 조성물
을 접촉시키는 단계를 포함하는 목적하는 단백질을 발현하는 조작된 동물세포 제조 방법일 수 있다.
이때 상기 (a) 동물세포는 인체 유래의 체세포 또는 줄기세포일 수 있다.
구체적으로, 인체 유래의 체세포는 간세포일 수 있다.
상기 (b) 유전자 조작용 조성물은 상기 기술한 바와 같다.
상기 접촉시키는 단계는 (b) 유전자 조작용 조성물을 (a)동물세포로 도입하는 단계를 포함하는 것일 수 있다.
상기 방법에 사용되는 동물세포는 인간, 원숭이 등의 영장류, 마우스, 래트 등의 설치류를 포함하는 포유동물에서 유래한 동물세포일 수 있다.
[용도]
본 명세서에서 개시되는 내용의 일 예는 치료적 용도를 포함한다.
예를 들어, 대상의 간세포 게놈 내 이식유전자를 삽입하기 위한 조성물 또는 이식유전자가 삽입된 간세포의 투여를 포함할 수 있다.
치료 대상은 인간, 원숭이 등의 영장류, 마우스, 래트 등의 설치류 등을 포함하는 포유동물일 수 있다.
1) 약학적 조성물
본 명세서의 일 구현예는 치료 유전자를 고발현시킴으로써 질환 치료에 이용하고자 하는 조성물 및 이의 제조방법을 포함한다.
예를 들어, 간세포 게놈 내 이식유전자를 인위적으로 삽입하기 위한 인위적으로 조작된 뉴클레아제 및 치료 유전자를 함유하는 조성물이다. 치료용 조성물 또는 약학적 조성물로 칭할 수 있다.
구현예에서, 조성물은 인위적으로 조작된 뉴클레아제를 포함할 수 있다.
상기 인위적으로 조작된 뉴클레아제는 Clustered regularly interspaced short palindromic repeats(CRISPR)-CRISPR associated protein(Cas) system, Zinc finger nuclease(ZFN), Transcription activator-like effector nucleases(TALEN) 중에 하나일 수 있다.
구현예에서, 조성물은 치료용 유전자를 포함할 수 있다.
상기 치료용 유전자는 체내 결핍된 단백질 또는 효소를 암호화하는 유전자 일 수 있다.
예를 들어, 상기 치료용 유전자는 F9일 수 있다. 이 때, 상기 조성물은 혈우병 치료용 조성물일 수 있다.
상기 인위적으로 조작된 뉴클레아제 및 치료 유전자 외에 약제학적으로 허용가능한 부형제 및/또는 당업계에 공지된 다른 화합물을 추가로 함유할 수 있다. 예를 들어 물, 염분, 덱스트로스, 글리세롤, 에탄올 등 및 이들의 조합물을 포함할 수 있다.
추가적으로, 소량의 보조물질로 습윤제, 유화제, pH완충제, 안정화제 또는 약학 조성물의 유효성을 향상시키는 다른 시약을 함유할 수 있다.
2) 치료방법
본 명세서에서 개시되는 일 구현예는, 상기 설명한 조성물을 이를 필요로 하는 환자에게 유효량으로 투여하는 것을 포함하는, 특정 질환의 치료 방법이다.
예를 들어, 항체에 의해 치료될 수 있는 질병의 치료방법을 포함한다.
예를 들어, 유전자상의 돌연변이에 의해 유발되는 질병의 치료방법을 포함한다.
예를 들어, 유전성 대사질환의 치료방법을 포함한다.
예를 들어, 특정 단백질의 결핍 또는 결여에 의해 유발되는 질병의 치료방법을 포함한다.
예를 들어, 상기 질환은 상기 치료 조성물을 환자의 체내에 주입하여 영구적으로 치료 유전자를 발현함으로써 치료될 수 있는 질병일 수 있다.
상기 치료방법은 치료 조성물을 환자에 전신 투여로 전달하는 방법에 의해 수행될 수 있다.
상기 치료방법은 환자의 특정 신체 부위에 치료 조성물을 주입하는 방법으로 수행될 수 있다. 이때 특정 신체 부위는 치료용 유전자를 높은 수준으로 발현하여 세포 밖으로 분비할 수 있는 세포를 포함하는 장기일 수 있다.
예를 들어, 간세포일 수 있다.
예를 들어, 줄기세포일 수 있다.
상기 치료방법은 인위적으로 조작된 뉴클레아제를 이용하여 유전자를 직접적으로 조작하여 동물세포 유전자 발현에 영향을 주는 치료방법일 수 있다. 이러한 치료방법은 생체의 유전자를 조작하기 위한 인위적으로 조작된 뉴클레아제 및 치료유전자를 포함하는 유전자 조작용 조성물을 체내에 직접 주입하여 이루어 질 수 있다.
상기 인위적으로 조작된 뉴클레아제는 가이드핵산 및/또는 에디터단백질일 수 있다.
상기 치료유전자는 F9일 수 있다.
상기 유전자 조작용 조성물은 상기 기술한 바와 같다.
조성물을 투입 대상은 인간, 원숭이 등의 영장류, 마우스, 래트 등의 설치류 등을 포함하는 포유동물일 수 있다.
조성물의 투여는 주사(injection), 수혈(transfusion), 삽입(implantation) 또는 이식(transplantation)과 같은, 임의의 편리한 방식으로 수행될 수 있다. 투여 경로는 피하(subcutaneously), 피내(intradermaliy), 종양내(intratumorally), 절내(intranodally), 골수내(intramedullary), 근육내(intramuscularly), 정맥내(intravenous), 림프액내(intralymphatic), 복막내(intraperitoneally) 등에서 선택될 수 있다.
바람직하게 정막 내 전신 투여 일 수 있다.
다른 예로서, 상기 투여는 상기 치료 대상의 신장; 위, 췌장, 십이지장, 회장 및/또는 결장을 포함하는 소화계통; 심장; 폐; 뇌, 특히 뉴런, 및/또는 일반적으로 CNS; 망막 조직을 포함하는 눈; 내이를 포함하는 귀; 피부; 근육; 뼈; 및/또는 간; 중 어느 하나 이상의 기관에 투여하는 것일 수 있다.
바람직하게 간일 수 있다.
일 구현예에서
조성물의 1회 투여량(소정의 소망하는 효과를 얻기 위한 약학적 유효량)은 AAV를 이용하여 인간 생체 내 전달 시, 약 1 x 108 내지 약 1 x 1018기능성 AAV/ml을 함유하는 약 0.01 내지 약 10 ml의 염수 용액을 투여 할 수 있다. 본 명세서의 구현예에서, AAV 용량은 일반적으로 약 1 x 105 내지 1 x 1050 개 게놈 AAV, 약 1 x 108개 내지 1 x 1020개 게놈 AAV, 약 1 x 1010 내지 약 1 x 1016 개 게놈 AAV, 또는 약 1 x 1011 내지 약 1 x 1016 개 게놈 AAV의 농도 범위에 있다. 이러한 농도는 약 0.001㎖ 내지 약 100㎖, 약 0.01 내지 약 50㎖, 또는 약 0.05 내지 약 10㎖의 담체 용액으로 전달될 수 있다. 다만 이에 제한되는 것은 아니고, 투여 대상의 연령, 건강 및 체중, 동시에 받는 치료의 종류, 다만 있다면 치료의 빈도, 원하는 효과의 특성을 고려하여 적절히 처방될 수 있다.
일 구현예에서, 본 명세서에 의해 개시되는 내용의 일 구체예는 혈우병 치료 방법일 수 있다.
상기 치료방법은 생체 내에서 이루어질 수 있다.
간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현시키기 위한 유전자 조작용 조성물을 유효성분으로 포함하는 조성물을 치료 대상에 투여하는 단계를 포함하고,
상기 유전자 조작용 조성물은 Clustered regularly interspaced short palindromic repeats(CRISPR)-CRISPR associated protein(Cas) system, Zinc finger nuclease(ZFN), Transcription activator-like effector nuclease(TALEN)의 인위적으로 조작된 뉴클레아제 중 어느 하나를 포함하며,
상기 인위적으로 삽입된 이식유전자는 HP 유전자 및 APOC3 유전자 중 하나 이상의 유전자 서열 내 위치하고,
상기 이식유전자는 F9일 수 있다.
상기 혈우병은 인위적으로 조작된 뉴클레아제를 이용한 유전자 편집치료에 의해 영구적으로 치료될 수 있다.
본 명세서의 방법, 조성물에 의해 간세포 게놈 내 이식유전자가 삽입되어 고 발현을 함으로써, 결핍 또는 부족한 단백질 발현이 증가 및 생화학적 대사경로의 정상적 작동에 의한 최종적 유전 산물 생성 및 신체 기능이 향상될 수 있다.
이하, 실시예를 통하여 본 명세서을 더욱 상세히 설명하고자 한다. 이들 실시예는 단지 본 명세서을 예시하기 위한 것으로, 본 명세서의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는다.
실시예1: RNA 시퀀싱
24 well plate에서 Human primacy cell을 William's Medium에 2day동안 culture 후, RNeasy Mini Kit (Qiagen)을 이용하여 RNA를 분리하였다.
Agilent 2100 BioAnalyzer를 통해 RNA Integrity Number (RIN)가 7이상 되는 샘플을 선택하여 1μg의 RNA를 Oligo dT를 포함한 magnetic bead를 이용하여 mRNA를 enrich시키고, 이어 short fragmentation, reverse transcription을 통해 cDNA library를 제작하였다.
이후 TrueSeq RNA sample prep kit (Illumina, CA)을 이용하여 sequencing adaptor를 붙이고, 전기 영동 기법 및 Agilent High Sensitivity DNA kit (Agilent Technology, CA)을 이용하여 cDNA library size (350-450 bp) 및 quality를 check후 Illumina HiSeq2500 (Illumina, CA)을 통해 sequencing하였다.
이후 skipped bases (marked as 'N')가 10% 이상, qualityscore가 20미만인 base가 40%이상 등에 해당하는 low quality read를 filtering한 read들에 대해서 Tophat 프로그램을 이용하여 human reference genome에 mapping하였고, Cufflinks v2.1.1 프로그램을 이용하여 각 transcript의 FPKM value는 계산하였다.
Secreted proteim 을 코딩하는 Haptoglobin, APOC3 과 각 질환별 치료 유전자에 해당하는 F9, IDUA, IDS, GLA, GBA 등의 전사 활성을 FPKM 결과를 통해 확인하였다.
도 1에 나타난바와 같이, Haptoglobin과 APOC3 유전자에서 다른 치료 유전자보다 약 170배 이상의 높은 전사 활성도를 보여준다.
실시예2: sgRNA 설계
CRISPR RGEN Tools (Institute for Basic Science, Korea)을 사용하여 인간의 HP1과 APOC3 유전자의 CRISPR/Cas9 표적 부위 선별하였다. 각각의 유전자의 표적 부위는 CRISPR 효소의 종류에 따라 달라질 수 있으며, CjCas9에 대한 HP와 APOC3 유전자의 표적서열은 표 2, 3에 정리하였고, SpCas9에 대한 HP와 APOC3 유전자의 표적서열은 표 4, 5에 정리하였다.
[표 2]
Figure PCTKR2018006803-appb-I000011
[표 3]
Figure PCTKR2018006803-appb-I000012
[표 4]
Figure PCTKR2018006803-appb-I000013
[표 5]
Figure PCTKR2018006803-appb-I000014
실시예3: 가이드RNA의 활성 검증 및 off-target 분석
3.1 T7E1 assay
HEK293 세포주에 각각의 guide RNA 서열이 cloning된 sgRNA발현용 벡터 250ng과 Cas9 발현용 벡터 750ng을 Lipofectamine 2000 또는 Electroporation을 통해 transfection 하였다. 또는 Jurkat 세포주에 in vitro transcribed sgRNA 1ug과 Cas9 4ug을 RNP complex형태로 mix시켜 Electroporation을 통해 transfection 하였다.
약 2 ~ 3일 후 genomic DNA를 추출하고 PCR로 on-target위치를 증폭시킨 후 T7E1 assay를 통해 activity를 확인하거나, Next-Generation Sequencing을 위한 sequencing primer에 특이적인 adaptor 및 TruSeq HT 이중 지표 프라이머(TruSeq HT Dual Index primers)를 붙이는 추가적인 PCR을 진행하였다. T7E1에 의해 잘리는 band를 통해 guide RNA의 활성을 체크하였다.
도 3에 나타난 바와 같이, HP 유전자를 표2의 1번부터 11번까지의 표적서열에 대해 Cjcas9을 이용하여 가이드 RNA활성을 확인한 결과, 8번, 9번, 10번, 11번 표적서열에서 T7E1의 활성이 나타났으며, 가이드 RNA의 활성을 확인하였다.
3.2 표적서열의 Indel ratio(%) 확인
이후 paired sequencing을 통하여 나온 read들을 분석하여 on-target 유전체 위치에서의 insertion 또는 deletion (Indels) 확인을 통해 guide RNA들의 활성을 평가하여 표 2, 표 3, 표 4, 표 5에 정리하였다.
표 2와 표 4에 나타난 바와 같이, HP 유전자의 해당 표적서열에 대하여 Indel이 모두 발생하는 것을 확인할 수 있고, 최대 86.4%까지 Indel ratio(%)를 나타냄으로서, 높은 유전자 교정 효율을 확인하였다.
또한, 표 3과 표 5에서, APOC3 유전자의 해당 표적서열에 대하여 Indel이 모두 발생하였으며, 최대 96.2%의 Indel ratio(%)를 나타냄으로서, 유전자 교정 효율이 높은 것을 확인하였다.
각각 유전자를 타겟으로 하는 gRNA 중 Cas9종류에 따른 활성이 좋은 것들의 DNA 타겟 부위를 굵은 글씨로 표시해 두었다.
3.3 off-target 분석
선별된 guide RNA의 off-target 분석을 위해서는 첫 번째, CRISPR RGEN Tools의 Cas-Offinder를 사용한 in-silico 방법으로 3-base mismatch가 있는 off-target list들을 선별하고, 각각의 off-target에 해당하는 유전체상의 특정 부분에 대한 돌연변이 여부를 인간 세포주 HEK293에서 targeted-deep sequencing 방법으로 검증하였다.
두 번째 방법으로는, guide RNA와 Cas9 단백질을 37℃에서 overnight로 처리한 인간의 전체 genomic DNA를 Whole Genome Sequencing을 하고, 이후 Digenome-seq 분석을 통해서 잠재적인 list들을 확보하였다. 이후 off-target 후보들 각각의 유전체상의 특정 부분에 대한 돌연변이 여부를 인간세포주 HEK293에서 targeted-deep sequencing 방법으로 검증하였다.
도 4 및 도 5 에서 나타난 바와 같이, Deep sequencing 결과 HP1-Cj에 대한 off- target 10개와 APOC3-Cj에 대한 off-target 6개 검증 결과, 유의미한 off-target은 발견되지 않았으며, 높은 효율로 indel 변이가 일어남을 확인할 수 있었다.
실시예 4: vector 및 Donor 제작
SpCas9 적용을 위해서는 AAV2의 역위 말단 반복(Inverted Tandem Repeat, ITR)사이에 Mammalian 발현용 promoter인 EFS, C- 또는 N-말단에 NLS와 HA태그를 가지는 human codon 최적화된 SpCas9, BGHA를 포함하는 벡터 (pAAV-EFS-SpCas9) 및 U6 promoter, sgRNA서열 및 human codon 최적화된 F9 donor를 포함하는 벡터 (pAAV-hF9-donor-U6-sgRNA)를 각각 합성하여 제작하였다.
CjCas9 적용을 위해서는 AAV2 ITR 사이에 Mammalian 발현용 promoter인 CMV, C- 또는 N-말단에 NLS와 HA태그를 가지는 human codon 최적화된 CjCas9, BGHA를 포함하고 U6 promoter와 sgRNA 서열을 포함하는 벡터 (pAAV-CMV-CjCas9-U6-sgRNA) 및 human codon 최적화된 F9 donor를 포함하는 벡터 (pAAV-hF9-donor)를 각각 합성하여 제작하였다. 즉 CjCas9을 위해서는 AAV packaging capacity를 고려하여 U6와 sgRNA를 Cas9발현 시퀀스과 같이 전달할 수 있다.
각 벡터에 들어가는 donor는 인간 HP1 및 APOC3 유전체상에서 Cas9에 의해 생기는 double strand break를 기준으로 좌우 각각 800bp~1200bp의 Homology arm 사이에 Splicing acceptor(SA) - human codon 최적화된 F9 - bGHA로 구성되어 있다. (도 6)
실시예 5: Human cell line에서의 HDR 확인
HEK293 cell line에 human HP1유전체를 타겟하는 pAAV-CMV-CjCas9-U6-sgRNA 500ng 과 pAAV-hF9-donor 500ng을 lipofectamine 2000을 이용하여 transfection하였다.
3일 후 genomic DNA를 추출하여, HP1 타겟 site의 homology arm 바깥부분과 HDR에 의해 knock-in되는 부분에서 각각 primer를 사용하여 PCR band를 얻고 TA vector에 cloning하였다.
이후 생성된 colony로부터 plasmid를 추출하고 sanger sequencing으로 Knock in되는 양쪽 junction의 sequence를 확인하였다.
도 8은 각각 left arm 과 rigt arm 의 junction 에서 knock-in을 확인한 결과를 보여주며, 정확히 double strand break가 생기는 부분에서 F9의 시퀀스가 변형됨 없이 knock-in된 것을 양쪽 arm에서 확인하였다. guide RNA 서열은 Cj9: 5'- TCCAGGAAAGAGAAACCTCCC-3', Cj10: 5'- CATTCAGGAAAGTACATTGGC-3' 을 각각 사용하였다.
실시예6: AAV 제작
AAV 생산을 위해, AAV capsid의 위형(pseudotype)에 대한 vector, 제작된 pAAV-EFS-SpCas9 또는 pAAV-hF9-donor-U6-sgRNA 또는 pAAV-CMV-CjCas9-U6-sgRNA 또는 pAAV-hF9-donor, pHelper vector를 1:1:1의 몰농도로 HEK293세포에 동시에 transfection하였다.
72시간 후, 세포를 융해한 후 얻은 virus particle을 iodixanol(Sigma-aldrich)을 이용해 step-gradient 초원심분리기로 분리정제하고, AAV의 정량적인 확인은 qPCR을 이용한 titration 방법으로 측정하였다.
실시예7: Hepatocyte에서의 indel 및 KI된 유전자의 대량 발현 확인
6x10^5의 hepatocyte를 24-well plate에서 maintain후 AAV6-EFS-SpCas9 5x10^11 ㎍와 AAV6-hF9-donor-APOC3-Sp 5x10^11 ㎍를 infection하였다.
APOC3-Sp타겟의 서열은 5'-CCTAAGCCTGAAGAATGAGG-3'을 사용하였다. Infection 다음날(2D) medium을 change해주고, 이후 5D, 8D, 최종적으로 10D에 culture supernatant 샘플을 각각 preparation하였고, 최종 10D에는 hepatocyte로부터 genomic DNA를 추출하였다.
Primer set (Forward: 5'- ACGGAAAATATCAAGAAGTA-3', Reverse: 5'- CAGCAAGCCCTGTCCTGCTGG-3')을 이용하여 APOC3-Sp의 on-target에 대한 amplicon을 얻고, primer에 특이적인 adaptor 및 TruSeq HT 이중 지표 프라이머(TruSeq HT Dual Index primers)를 붙이는 추가적인 PCR을 진행하였다.
이후 paired sequencing을 통하여 나온 read들을 분석하여 on-target 유전체 위치에서의 Indels 확인을 통해 CRISPR의 활성을 평가하였다.
Knock-in된 human F9의 대량 발현은 hepatocyte culture supernatant에 secretion된 F9 단백질을 Factor IX Human ELISA Kit(Abcam)을 사용한 ELISA 방법으로 검출하였다.
도 9A에 나타난 바와 같이, AAV를 처리하지 않은 control group과 donor-only group (D-only-hAPOC3-Sp )에 비해서, dual AAV를 사용한 group에서 (hAPOC3-Sp) 평균 9.6%의 indel을 보였다.
또한, 도 9B에 나타난 바와 같이, secretion되는 hF9의 양은 control group은 평균 42.5 ng/ml, donor-only group은 평균 74.1 ng/ml, dual AAV처리 group은 평균 378.2 ng/ml의 값을 보였다.
통계 분석을 위하여, student t-test를 사용하였다. significance는 *는 p<0.05, **는 p<0.01, ***는 p<0.001을 의미한다.
서열번호 1 에서 서열번호 153번은 HP 유전자에 관한 표적서열 목록이다.
서열번호 154 에서 서열번호 348번은 APOC3 유전자에 관한 표적서열 목록이다.

Claims (57)

  1. 간세포의 게놈 내 인위적으로 삽입된 이식유전자를 발현하는 LBP(liver bio-factory platform) 시스템으로서,
    상기 인위적으로 삽입된 이식유전자는 고발현 분비 유전자 서열 내 위치하고,
    상기 고발현 분비 유전자는 간세포 게놈 내에 존재하는 ALB 유전자, FTL 유전자, FTH1 유전자, ACT 유전자, HP 유전자, APOC3 유전자, SOD2 유전자, ORM1 유전자, 및 F9 유전자 중에서 선택된 하나 이상의 유전자이며,
    상기 인위적으로 삽입된 이식유전자는 삽입 전과 비교하여 발현량이 증가하거나 또는 새롭게 발현되는 LBP 시스템.
  2. 제1항에 있어서,
    상기 고발현 분비 유전자는 HP 유전자 및 APOC3 유전자 중 어느 하나 이상인 것을 특징으로 하는 LBP시스템.
  3. 제1항에 있어서,
    상기 이식유전자는 고발현 분비 유전자 서열 중 엑손 및 인트론 영역 중 어느 하나 이상에 삽입되는 것을 특징으로 하는 LBP시스템.
  4. 제1항에 있어서,
    상기 이식유전자는 간세포의 게놈 내 프로모터에 의해 발현되는 것을 특징으로 하는 LBP시스템.
  5. 제1항에 있어서,
    싱기 이식유전자는 F9 유전자인 것을 특징으로 하는 LBP시스템.
  6. 제1항에 있어서,
    상기 이식유전자 발현에 의해 생성된 단백질은 간세포 밖으로 분비되는 것을 포함하는 LBP시스템.
  7. 간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현시키기 위한 유전자 조작용 조성물로서,
    상기 유전자 조작용 조성물은 고발현 분비 유전자 내 이식유전자를 삽입시키기 위한 인위적으로 조작된 뉴클레아제를 포함하고,
    상기 고발현 분비 유전자는 FTL 유전자, FTH1 유전자, ACTB 유전자, HP 유전자, APOC3 유전자, SOD2 유전자, ORM1 유전자 및 F9 유전자 중 선택된 하나 이상의 유전자인 것을 특징으로 하는
    유전자 조작용 조성물.
  8. 제7항에 있어서,
    상기 인위적으로 조작된 뉴클레아제는 Clustered regularly interspaced short palindromic repets(CRISPR)-CRISPR associated protein(Cas) system, Zinc finger nuclease(ZFN), Transcription activator-like effector nucleases(TALEN) 중 하나인 것을 특징으로 하는 유전자 조작용 조성물.
  9. 제7항에 있어서
    상기 고발현 분비 유전자는 HP 유전자 및 APOC3 유전자 중 어느 하나인 것을 특징으로 하는 유전자 조작용 조성물.
  10. 제7항에 있어서,
    상기 이식유전자는 F9 유전자인 것을 특징으로 하는 유전자 조작용 조성물.
  11. 간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현시키기 위한 유전자 조작용 조성물로서,
    상기 유전자 조작용 조성물은 간세포 게놈 내 존재하는 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드 핵산;
    에디터 단백질 또는 에디터 단백질을 암호화하는 핵산; 및
    이식유전자를 포함하는 공여체를 포함하는
    유전자 조작용 조성물.
  12. 제11항에 있어서,
    상기 에디터 단백질은 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 유래의 Cas9 단백질, 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis)유래의 Cas9 단백질, 및 Cpf1로 이루어진 군에서 선택된 하나 이상인 것을 특징으로 하는 유전자 조작용 조성물.
  13. 제11항에 있어서,
    상기 표적서열은 고발현 분비 유전자 서열 중
    엑손;
    인트론;
    5'-UTR(untranslation region);
    3'-UTR; 및
    인핸서; 중 어느 하나 이상의 영역에 포함되는 것
    을 특징으로 하는 유전자 조작용 조성물.
  14. 제11항에 있어서,
    상기 표적서열은 고발현 분비 유전자 서열 중
    엑손; 및
    인트론; 중 어느 하나 이상 영역에 포함되는 것
    을 특징으로 하는 유전자 조작용 조성물.
  15. 제11항에 있어서,
    상기 표적서열은 서열번호 1 내지 348번 중 선택된 1이상인 것을 특징으로 하는 유전자 조작용 조성물.
  16. 제11항에 있어서,
    상기 고발현 분비 유전자는 HP 유전자 및 APOC3 유전자 중 선택된 어느 하나 이상의 유전자인 것을 특징으로 하는 유전자 조작용 조성물.
  17. 제11항에 있어서,
    상기 가이드 핵산은 고발현 분비 유전자의 표적서열에 대한 가이드 도메인을 포함하며, 이때, 상기 가이드 도메인은 0 내지 5개 중 어느 하나의 미스매칭(mismatching)결합을 포함하는 것을 특징으로 하는 유전자 조작용 조성물.
  18. 제11항에 있어서,
    상기 가이드 핵산은 HP 또는 APOC3의 핵산 서열 중 서열번호 1 내지 348번의 표적서열에 대한 가이드핵산인 것을 특징으로 하는 유전자 조작용 조성물.
  19. 제11항에 있어서,
    상기 가이드핵산은 서열번호 1 내지 11, 서열번호 37 내지 51, 서열번호 154 내지 167 및 서열번호 168 내지 182번 중 어느 하나 이상의 표적서열에 대한 가이드 핵산인 것을 특징으로 하는 유전자 조작용 조성물.
  20. 제11항에 있어서,
    상기 유전자 조작용 조성물은,
    서열번호 1 내지 40번 및 서열번호 154 내지 167번 중 어느 하나 이상의 표적서열에 대한 가이드핵산; 및
    캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9단백질 또는 이를 암호화하는 핵산;
    을 포함하는 유전자 조작용 조성물.
  21. 제11항에 있어서,
    상기 유전자 조작용 조성물은,
    서열번호 41 내지 134번 및 서열번호 168 내지 332번 중 어느 하나 이상의 표적서열에 대한 가이드핵산; 및
    스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9단백질 또는 이를 암호화하는 핵산;
    을 포함하는 유전자 조작용 조성물.
  22. 제11항에 있어서,
    상기 유전자 조작용 조성물은,
    서열번호 135 내지 153번 및 서열번호 333 내지 348번 중 어느 하나 이상의 표적서열에 대한 가이드핵산; 및
    스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9단백질 또는 이를 암호화하는 핵산;
    을 포함하는 유전자 조작용 조성물.
  23. 제11항에 있어서,
    상기 이식유전자는 F9 유전자인 것을 특징으로 하는 유전자 조작용 조성물.
  24. 제11항에 있어서,
    상기 가이드핵산, 에디터 단백질 및 공여체는 각각 핵산 서열의 형태로 1이상의 벡터에 암호화되어 있는 것을 특징으로 하는 유전자 조작용 조성물.
  25. 제11항에 있어서,
    상기 벡터는 바이러스 벡터 시스템으로 형성되어있는 것을 특징으로 하는 유전자 조작용 조성물.
  26. 제25항에 있어서,
    상기 바이러스 벡터는 아데노 바이러스, 아데노-연관 바이러스(AAV), 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 렌티 바이러스로 구성된 군에서 선택되는 하나 이상의 것을 특징으로 하는 유전자 조작용 조성물.
  27. 간에 존재하는 고발현 분비 유전자의 핵산 서열 중 서열번호 1 내지 348번의 표적서열에 대한 가이드 핵산.
  28. 제27항에 있어서,
    상기 가이드 핵산은 상기 가이드핵산은 서열번호 1 내지 12, 서열번호 37 내지 51, 서열번호 154 내지 167 및 서열번호 168 내지 182 중 어느 하나 이상의 표적서열에 대한 가이드 핵산.
  29. 제27항에 있어서,
    상기 가이드 핵산은 18 내지 25bp의 뉴클레오타이드인 가이드 핵산.
  30. 간세포의 게놈 내 인위적으로 삽입된 이식유전자를 발현하는 간세포로서,
    상기 인위적으로 삽입된 이식유전자는 고발현 분비 유전자 서열 내 위치하고,
    상기 고발현 분비 유전자는 FTL 유전자, FTH1 유전자, ACTB 유전자, HP 유전자, APOC3 유전자, SOD2 유전자, ORM1 유전자, 및 F9 유전자 중에서 선택된 하나 이상의 유전자이며,
    상기 이식유전자로부터 발현된 목적하는 단백질을 포함하는 간세포.
  31. 제30항에 있어서,
    상기 고발현 분비 유전자는 HP 유전자 및 APOC3 유전자 중 선택된 어느 하나 이상의 유전자인 것을 특징으로 하는 간세포.
  32. 제30항에 있어서,
    상기 이식유전자가 포함되어 있는 고발현 분비 유전자 게놈 내 위치는 엑손 또는 인트론인 것을 특징으로 하는 간세포.
  33. 제30항에 있어서,
    상기 인위적으로 삽입된 이식유전자는 간세포 게놈 내 프로모터에 의해 발현되는 것을 특징으로 하는 간세포.
  34. 제30항에 있어서,
    상기 이식유전자는 F9 유전자인 것을 특징으로 하는 간세포.
  35. 간세포 게놈에 존재하는 고발현 분비 유전자 내 인위적으로 이식유전자를 삽입하여 목적하는 단백질을 발현하기 위한 유전자 조작 방법으로서,
    상기 고발현 분비 유전자인 FTL 유전자, FTH1 유전자, ACTB 유전자, HP 유전자, APOC3 유전자, SOD2 유전자, ORM1 유전자, 및 F9 유전자에서 선택된 하나 이상의 유전자를 인위적으로 조작하기 위한 인위적으로 조작된 뉴클레아제; 및
    이식유전자를 포함하는 공여체서열을 간세포에 도입하는 단계를 포함하는
    유전자 조작 방법.
  36. 제35항에 있어서,
    상기 고발현 분비 유전자는 HP유전자 및 APOC3유전자 중 선택된 어느 하나 이상의 유전자인 것을 특징으로 하는 목적하는 단백질 발현하기 위한 유전자 조작 방법.
  37. 제35항에 있어서,
    상기 이식유전자는 F9 유전자인 것을 특징으로 하는 유전자 조작 방법.
  38. 제35항에 있어서,
    상기 인위적으로 조작된 뉴클레아제는 CRISPR/Cas 시스템이고, 상기 CRISPR/Cas 시스템은 간세포 게놈 내 존재하는 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드핵산 및 에디터단백질을 포함하는 것을 특징으로 하는 유전자 조작 방법.
  39. 제38항에 있어서,
    상기 표적서열은 고발현 분비 유전자 서열 중
    엑손;
    인트론;
    5’(region);
    3’; 및
    인핸서; 중 어느 하나 이상의 영역에 포함되는 것
    을 특징으로 하는 유전자 조작 방법.
  40. 제38항에 있어서,
    상기 표적서열은 고발현 분비 유전자 서열 중
    엑손; 및
    인트론; 중 어느 하나 이상 영역에 포함되는 것
    을 특징으로 하는 유전자 조작 방법.
  41. 제38항에 있어서,
    상기 가이드 핵산은 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 핵산 서열 중 서열번호 1 내지 348번 중 하나 이상의 표적서열에 대한 가이드핵산인 것을 특징으로 하는 유전자 조작 방법.
  42. 제38항에 있어서,
    상기 가이드핵산은 서열번호 1 내지 15, 서열번호 37 내지 51, 서열번호 154 내지 167 및 서열번호 168 내지 182번 중 하나 이상의 표적서열에 대한 가이드 핵산인 것을 특징으로 하는 유전자 조작 방법.
  43. 제38항에 있어서,
    상기 에디터 단백질은 스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 유래의 Cas9 단백질, 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis)유래의 Cas9 단백질, 및 Cpf1 단백질로 이루어진 군에서 선택된 하나 이상인 것을 특징으로 하는 유전자 조작 방법.
  44. 제35항 또는 제38항에 있어서,
    상기 가이드핵산, 에디터단백질 및 공여체는 각각 핵산 서열의 형태로 1이상의 벡터의 형태로 제공되는 것을 특징으로 유전자 조작 방법.
  45. 제44항에 있어서
    상기 벡터는 바이러스 벡터 시스템으로 형성되어 있는 것을 특징으로 하는 유전자 조작 방법.
  46. 제45항에 있어서.
    상기 바이러스 벡터는 아데노 바이러스, 아데노-연관 바이러스(AAV), 백시니아바이러스, 폭스바이러스, 단순포진 바이러스 및 렌티 바이러스 구성된 군에서 선택되는 하나 이상의 것을 특징으로 하는 유전자 조작 방법.
  47. 제44항에 있어서,
    상기 벡터는 전신투여 또는 국소적용의 방법으로 도입되는 것을 특징으로 하는 유전자 조작 방법.
  48. 제47항에 있어서,
    상기 전신투여는 정맥 내 투여인 것을 특징으로 하는 유전자 조작 방법.
  49. 제35항에 있어서,
    상기 인위적으로 조작된 뉴클레아제 및 공여체를 간세포에 도입하는 단계는 생체 내(in vivo) 또는 생체 외(ex vivo)에서 수행되는 것을 포함하는 유전자 조작 방법.
  50. 혈우병 치료 방법으로서,
    간세포 게놈 내 인위적으로 삽입된 이식유전자를 발현시키기 위한 유전자 조작용 조성물을 치료 대상에 투여하는 단계를 포함하고,
    상기 유전자 조작용 조성물은 Clustered regularly interspaced short palindromic repeats(CRISPR)-CRISPR associated protein(Cas) system, Zinc finger nuclease(ZFN), Transcription activator-like effector nuclease(TALEN)의 인위적으로 조작된 뉴클레아제 중 어느 하나를 포함하며,
    상기 공여체 서열에 포함되는 이식유전자는 HP 유전자 및 APOC3 유전자 중 하나 이상의 유전자 서열 내 인위적으로 삽입되고,
    상기 이식유전자는 F9인 것을 특징으로 하는
    혈우병 치료 방법.
  51. 제50항에 있어서,
    상기 인위적으로 조작된 뉴클레아제는 간세포 게놈 내 존재하는 고발현 분비 유전자 군에서 선택된 하나 이상의 유전자의 표적서열에 대한 가이드핵산; 및
    스트렙토코커스 피요게네스(Streptococcus pyogenes) 유래의 Cas9 단백질, 캄필로박터 제주니 (Campylobacter jejuni) 유래의 Cas9 단백질, 스트렙토코커스 써모필러스 (Streptococcus thermophiles) 유래의 Cas9 단백질, 스트렙토코커스 아우레우스 (Streptocuccus aureus) 유래의 Cas9 단백질, 네이세리아 메닝기디티스 (Neisseria meningitidis)유래의 Cas9 단백질, 및 Cpf1 단백질로 이루어진 군에서 선택된 하나 이상의 에디터단백질 또는 에디터단백질을 암호화하는 핵산;
    으로 구성된 CRISPR/Cas 시스템인 것을 포함하는 혈우병 치료 방법.
  52. 제51항에 있어서,
    상기 가이드핵산은 HP 유전자 또는 APOC3 유전자의 핵산 서열 중 서열번호 1 내지 348번 중 하나 이상의 표적서열에 대한 가이드 핵산인 것을 특징으로 하는 혈우병 치료 방법.
  53. 제51항에 있어서,
    상기 가이드핵산은 서열번호 1 내지 15, 서열번호 37 내지 51, 서열번호 154 내지 167 및 서열번호 168 내지 182번 중 하나 이상의 표적서열에 대한 가이드핵산인 것을 특징으로 하는 혈우병 치료 방법.
  54. 제50항 또는 51항에 있어서,
    상기 가이드핵산, 에디터단백질 및 공여체는 각각 핵산 서열의 형태로 1이상의 벡터에 암호화되어 있는 것을 특징으로 혈우병 치료 방법.
  55. 제54항에 있어서,
    상기 벡터는 바이러스벡터인 것을 특징으로 하는 혈우병 치료 방법.
  56. 제50항에 있어서,
    상기 조성물을 치료 대상에 투여하는 단계는 전신투여인 것을 특징으로 하는 혈우병 치료 방법.
  57. 제56항에 있어서,
    상기 전신투여는 정맥 내 투여인 것을 특징으로 하는 혈우병 치료 방법.
PCT/KR2018/006803 2017-06-15 2018-06-15 간에서 목적하는 단백질 발현하기 위한 플랫폼 WO2018231018A2 (ko)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2019569246A JP7123982B2 (ja) 2017-06-15 2018-06-15 肝臓において目的のタンパク質を発現するためのプラットフォーム
SG11201911623WA SG11201911623WA (en) 2017-06-15 2018-06-15 Platform for expressing protein of interest in liver
EP18817613.5A EP3640335A4 (en) 2017-06-15 2018-06-15 PLATFORM FOR EXPRESSION OF A PROTEIN OF INTEREST IN THE LIVER
CA3067316A CA3067316A1 (en) 2017-06-15 2018-06-15 Platform for expressing protein of interest in liver
CN201880052875.2A CN110997924A (zh) 2017-06-15 2018-06-15 用于在肝中表达感兴趣的蛋白的平台
AU2018283686A AU2018283686A1 (en) 2017-06-15 2018-06-15 Platform for expressing protein of interest in liver
US16/623,017 US11667934B2 (en) 2017-06-15 2018-06-15 Platform for expressing protein of interest in liver
JP2022127829A JP2022166155A (ja) 2017-06-15 2022-08-10 肝臓において目的のタンパク質を発現するためのプラットフォーム
US18/139,481 US20230287461A1 (en) 2017-06-15 2023-04-26 Platform for expressing protein of interest in liver

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762520103P 2017-06-15 2017-06-15
US62/520,103 2017-06-15
US201862662907P 2018-04-26 2018-04-26
US62/662,907 2018-04-26

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/623,017 A-371-Of-International US11667934B2 (en) 2017-06-15 2018-06-15 Platform for expressing protein of interest in liver
US18/139,481 Division US20230287461A1 (en) 2017-06-15 2023-04-26 Platform for expressing protein of interest in liver

Publications (2)

Publication Number Publication Date
WO2018231018A2 true WO2018231018A2 (ko) 2018-12-20
WO2018231018A3 WO2018231018A3 (ko) 2019-02-07

Family

ID=64660524

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/006803 WO2018231018A2 (ko) 2017-06-15 2018-06-15 간에서 목적하는 단백질 발현하기 위한 플랫폼

Country Status (9)

Country Link
US (2) US11667934B2 (ko)
EP (1) EP3640335A4 (ko)
JP (2) JP7123982B2 (ko)
KR (1) KR20180136914A (ko)
CN (1) CN110997924A (ko)
AU (1) AU2018283686A1 (ko)
CA (1) CA3067316A1 (ko)
SG (1) SG11201911623WA (ko)
WO (1) WO2018231018A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021145700A1 (ko) 2020-01-14 2021-07-22 주식회사 툴젠 저산소 환경 하에서 높은 적응력을 가지는 세포 및 이의 용도
WO2022026606A3 (en) * 2020-07-28 2022-06-16 Sigilon Therapeutics, Inc. Genetically modified cell lines expressing an exogenous substance and uses thereof

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2020289581A1 (en) 2019-06-07 2021-11-18 Regeneron Pharmaceuticals, Inc. Non-human animals comprising a humanized albumin locus
CN113058041B (zh) * 2020-08-27 2022-04-05 华东师范大学 一种用于治疗庞贝氏病的产品
WO2023140694A1 (ko) * 2022-01-24 2023-07-27 주식회사 툴젠 스트렙토코커스 피오게네스 유래 cas9 변이체

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6018069B2 (ja) * 2010-10-12 2016-11-02 ザ・チルドレンズ・ホスピタル・オブ・フィラデルフィアThe Children’S Hospital Of Philadelphia 血友病bを治療する方法及び組成物
CA2848417C (en) 2011-09-21 2023-05-02 Sangamo Biosciences, Inc. Methods and compositions for regulation of transgene expression
CN116083487A (zh) 2013-05-15 2023-05-09 桑格摩生物治疗股份有限公司 用于治疗遗传病状的方法和组合物
CA2931637C (en) 2013-12-09 2023-10-10 Sangamo Biosciences, Inc. Methods and compositions for treating hemophilia
CN111206032A (zh) 2013-12-12 2020-05-29 布罗德研究所有限公司 用于基因组编辑的crispr-cas系统和组合物的递送、用途和治疗应用
CN106460009A (zh) * 2014-03-21 2017-02-22 小利兰·斯坦福大学托管委员会 无核酸酶的基因组编辑
CN105316530A (zh) * 2014-07-10 2016-02-10 中国科学院金属研究所 一种用于制备氢气的铝基合金
WO2016049230A1 (en) 2014-09-24 2016-03-31 City Of Hope Adeno-associated virus vector variants for high efficiency genome editing and methods thereof
EP3371305A1 (en) * 2015-11-06 2018-09-12 Crispr Therapeutics AG Materials and methods for treatment of glycogen storage disease type 1a
CA3006618A1 (en) * 2015-12-01 2017-06-08 Crispr Therapeutics Ag Materials and methods for treatment of alpha-1 antitrypsin deficiency
CN105462968B (zh) 2015-12-07 2018-10-16 北京信生元生物医学科技有限公司 一种靶向apoCⅢ的CRISPR-Cas9系统及其应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ANDERS ET AL., NATURE, 2014
HIROSHI NISHIMASU ET AL., CELL, vol. 156, 2014, pages 935 - 949
JINEK ET AL., SCIENCE, vol. 343, no. 6176, 2014, pages 1247997
TAKASHI YAMANO ET AL., CELL, vol. 165, 2016, pages 949 - 962

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021145700A1 (ko) 2020-01-14 2021-07-22 주식회사 툴젠 저산소 환경 하에서 높은 적응력을 가지는 세포 및 이의 용도
WO2022026606A3 (en) * 2020-07-28 2022-06-16 Sigilon Therapeutics, Inc. Genetically modified cell lines expressing an exogenous substance and uses thereof

Also Published As

Publication number Publication date
KR20180136914A (ko) 2018-12-26
US20210095316A1 (en) 2021-04-01
US11667934B2 (en) 2023-06-06
CA3067316A1 (en) 2018-12-20
AU2018283686A1 (en) 2020-01-30
WO2018231018A3 (ko) 2019-02-07
AU2018283686A2 (en) 2020-02-13
EP3640335A2 (en) 2020-04-22
JP2020527030A (ja) 2020-09-03
US20230287461A1 (en) 2023-09-14
EP3640335A4 (en) 2021-03-31
CN110997924A (zh) 2020-04-10
JP2022166155A (ja) 2022-11-01
SG11201911623WA (en) 2020-01-30
JP7123982B2 (ja) 2022-08-23

Similar Documents

Publication Publication Date Title
WO2018231018A2 (ko) 간에서 목적하는 단백질 발현하기 위한 플랫폼
AU2013335451C1 (en) Composition for cleaving a target DNA comprising a guide RNA specific for the target DNA and Cas protein-encoding nucleic acid or Cas protein, and use thereof
WO2016021973A1 (ko) 캄필로박터 제주니 crispr/cas 시스템 유래 rgen을 이용한 유전체 교정
WO2018034554A1 (ko) 인위적으로 조작된 신생혈관형성 조절 시스템
WO2022060185A1 (ko) 표적화된 탈아미노효소 및 이를 이용한 염기 교정
WO2019009682A2 (ko) 표적 특이적 crispr 변이체
WO2018088694A2 (ko) 인위적으로 조작된 sc 기능 조절 시스템
CN116209756A (zh) 调控基因组的方法和组合物
WO2019066490A2 (ko) 유전자 발현 조절을 위한 인위적인 게놈 조작
WO2018208067A1 (ko) 인위적으로 조작된 조작면역세포
WO2019066549A2 (ko) 망막 기능장애 질환 치료를 위한 유전자 조작
WO2018117377A1 (ko) Fad2 유전자 조작된 올레인산 강화 식물체 및 이의 제조 방법
WO2022075816A1 (ko) Crispr/cas12f1(cas14a1) 시스템 효율화를 위한 엔지니어링 된 가이드 rna 및 이의 용도
WO2020022803A1 (ko) 항응고 인자들의 유전자 에디팅
WO2020235974A2 (ko) 단일염기 치환 단백질 및 이를 포함하는 조성물
WO2018230976A1 (ko) 반복 확장 돌연변이에 대한 게놈 편집 시스템
WO2020022802A1 (ko) 인위적인 유전자 조작을 통한 자가면역질환 치료
WO2022158898A1 (ko) Francisella novicida cas9 모듈 기반의 역전사 효소를 사용한 유전체 치환 및 삽입 기술
WO2023059115A1 (ko) 유전자 편집을 위한 target 시스템 및 이의 용도
WO2020197242A1 (ko) 혈우병b 질환 모델 랫드
WO2020218657A1 (ko) 표적 특이적 crispr 변이체
WO2023075154A1 (ko) 돼지 내인성 레트로바이러스의 유전자를 불활성화하는 방법 및 이의 조성물
WO2020036445A1 (ko) 인위적 뉴클레아제를 생산하는 형질전환 동물 및 형질전환 배아
WO2023008887A1 (ko) 염기 편집기 및 이의 용도
WO2022240262A1 (ko) Rna-guided nuclease를 이용한 lca10 치료용 조성물 및 치료방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18817613

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 3067316

Country of ref document: CA

Ref document number: 2019569246

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018817613

Country of ref document: EP

Effective date: 20200115

ENP Entry into the national phase

Ref document number: 2018283686

Country of ref document: AU

Date of ref document: 20180615

Kind code of ref document: A